FastQCのインストールと実行

2021年10月10日

FastQCは

次世代シーケンサーの出力は、1つ1つのリードをfastq形式(読み取り品質情報付きのfasta形式)で書いたファイルである。それを読んで、読み取り結果の品質情報の傾向を抽出するプログラムとして、FastQCが広く使われている。

Babraham Bioinformatics – FastQC A Quality Control tool for High Throughput Sequence Data
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

FastQCのbiocondaによるインストール

ここではFastQCを、biocondaを介してインストールするので、FastQCのホームページから直接ダウンロードするのではなく、condaコマンドを使ってインストールする。

biocondaはcondaのchannelの1つで、バイオデータ処理関連のプログラム・パッケージが集められている。

FastQCをbiocondaからインストールするには、ターミナルで

$ conda install -c bioconda fastqc

とする。この時、-c bioconda によってcondaのchannelとしてbiocondaを指定している。また、インストール対象のFastQCはbioconda上ではすべて小文字のfastqcとして登録されている。

脱線

condaのchannelでさしあたり使うのが、

  • default (無指定時)大元の提供するデフォルト
  • conda-forge  github(多様なソフトをユーザが交換しているサイト)上でcondaコミュニティが主体となって提供しているパッケージコレクション
  • bioconda バイオ処理系のパッケージが含まれている

bioconda上にあるパッケージを検索するためのコマンドはターミナルに対して

$ conda search fastqc -c bioconda

とする。これによって、fastqcを検索します。過去のバージョンも下図のように出てきた。

biocondaに含まれるすべてのパッケージを見たい、というときは

$ conda search "*" -c bioconda

とする。非常にたくさん出てくるので画面があふれるのと、時間がかかるが、とにかく見ることができる。このときの*はすべての文字列にマッチする「ワイルドカード」である。また

$ conda search "fa*qc" -c bioconda

とすると、文字列fa〇〇...〇qc(〇は任意の文字、〇の数は0文字以上いくつでもよい)という名前のパッケージを検索する。

なお、いずれの場合も、*をコマンド内に含めるには二重引用符で囲む必要がある。

脱線終り

先ほどの

$ conda install -c bioconda fastqc

の結果は、

となり、その後

Proceed ([y]/y)?

と問われるのでyと答えると、更に

のように進んで終わる。

インストールの確認は、ターミナルに対して

$ fastqc -V

と打ち込んでみて、バージョン番号 FastQC v0.11.9 のように表示されればよい。

実行してみる

FastQCは

$ fastqc

のようにして起動することができる。これによって、スクリーン上にFastQCのウィンドウ(下図)が表示され、このウィンドウを操作して処理を行うことができる(GUIタイプと呼ばれる)。具体的には、MacOSのスクリーン上部(下図の画面よりさらに上部の、スクリーンの上端)のFileタブをクリックした上で、ドロップメニューのOpenを選んで処理対象データのファイル名を指定したり、Save reportを選んで処理結果を保存できる。

なお、対象データのファイル名はfastqc起動時のパラメータとしても記述できるが、ここでは使わないでおく。

結果

解析が終わると、図のような全体の統計が表示されるので、全リード数、リード長などを確認できる。

左側のメニューから各種の表示を選択できる。詳細の説明はFastQCのサイトや他の説明を参照のこと。メニューから Per base sequence quality を選択すると、図のようなリードごとの品質を示すグラフが表示される。右側(リードの終端)に行くほど品質が落ちる傾向があるが、このサンプルではリード長が51と短いためほとんど落ちていない。

また、リード長が長いデータについては自動的に、右側に行くほど横軸(ベース位置)が粗く(まとめて、「グループ化」と呼ばれている)なるように表示される。これはこれで具合がよいが、FastQCの起動オプションによって、グループ化をしないように設定ができる。

$ fastqc --nogroup

下記は、リード長101のデータの例であるが、グループ化した場合と nogroup を指定した場合を示しておく。


また、Fileタブから Save Report を選択すると、画面で表示される集計結果をファイルに保存できる。


biocondaによるバイオ処理環境の構築 < FastQCのインストールと実行 > アダプター除去ソフトTrimmomaticのインストールと実行