FastQCのインストールと実行
FastQCは
次世代シーケンサーの出力は、1つ1つのリードをfastq形式(読み取り品質情報付きのfasta形式)で書いたファイルである。それを読んで、読み取り結果の品質情報の傾向を抽出するプログラムとして、FastQCが広く使われている。
Babraham Bioinformatics – FastQC A Quality Control tool for High Throughput Sequence Data
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
FastQCのbiocondaによるインストール
ここではFastQCを、biocondaを介してインストールするので、FastQCのホームページから直接ダウンロードするのではなく、conda
コマンドを使ってインストールする。
biocondaはcondaのchannelの1つで、バイオデータ処理関連のプログラム・パッケージが集められている。
FastQCをbiocondaからインストールするには、ターミナルで
$ conda install -c bioconda fastqc
とする。この時、-c bioconda
によってcondaのchannelとしてbiocondaを指定している。また、インストール対象のFastQCはbioconda上ではすべて小文字のfastqc
として登録されている。
脱線
condaのchannelでさしあたり使うのが、
- default (無指定時)大元の提供するデフォルト
- conda-forge github(多様なソフトをユーザが交換しているサイト)上でcondaコミュニティが主体となって提供しているパッケージコレクション
- bioconda バイオ処理系のパッケージが含まれている
bioconda上にあるパッケージを検索するためのコマンドはターミナルに対して
$ conda search fastqc -c bioconda
とする。これによって、fastqcを検索します。過去のバージョンも下図のように出てきた。
bioconda
に含まれるすべてのパッケージを見たい、というときは
$ conda search "*" -c bioconda
とする。非常にたくさん出てくるので画面があふれるのと、時間がかかるが、とにかく見ることができる。このときの*
はすべての文字列にマッチする「ワイルドカード」である。また
$ conda search "fa*qc" -c bioconda
とすると、文字列fa〇〇...〇qc
(〇は任意の文字、〇の数は0文字以上いくつでもよい)という名前のパッケージを検索する。
なお、いずれの場合も、*
をコマンド内に含めるには二重引用符で囲む必要がある。
脱線終り
先ほどの
$ conda install -c bioconda fastqc
の結果は、
となり、その後
Proceed ([y]/y)?
と問われるのでy
と答えると、更に
のように進んで終わる。
インストールの確認は、ターミナルに対して
$ fastqc -V
と打ち込んでみて、バージョン番号 FastQC v0.11.9 のように表示されればよい。
実行してみる
FastQCは
$ fastqc
のようにして起動することができる。これによって、スクリーン上にFastQCのウィンドウ(下図)が表示され、このウィンドウを操作して処理を行うことができる(GUIタイプと呼ばれる)。具体的には、MacOSのスクリーン上部(下図の画面よりさらに上部の、スクリーンの上端)のFile
タブをクリックした上で、ドロップメニューのOpen
を選んで処理対象データのファイル名を指定したり、Save report
を選んで処理結果を保存できる。
なお、対象データのファイル名はfastqc起動時のパラメータとしても記述できるが、ここでは使わないでおく。
結果
解析が終わると、図のような全体の統計が表示されるので、全リード数、リード長などを確認できる。
左側のメニューから各種の表示を選択できる。詳細の説明はFastQCのサイトや他の説明を参照のこと。メニューから Per base sequence quality
を選択すると、図のようなリードごとの品質を示すグラフが表示される。右側(リードの終端)に行くほど品質が落ちる傾向があるが、このサンプルではリード長が51と短いためほとんど落ちていない。
また、リード長が長いデータについては自動的に、右側に行くほど横軸(ベース位置)が粗く(まとめて、「グループ化」と呼ばれている)なるように表示される。これはこれで具合がよいが、FastQCの起動オプションによって、グループ化をしないように設定ができる。
$ fastqc --nogroup
下記は、リード長101のデータの例であるが、グループ化した場合と nogroup を指定した場合を示しておく。
また、Fileタブから Save Report
を選択すると、画面で表示される集計結果をファイルに保存できる。
biocondaによるバイオ処理環境の構築 < FastQCのインストールと実行 > アダプター除去ソフトTrimmomaticのインストールと実行