biocondaによるバイオ処理環境の構築

2021年10月10日

biocondaによるバイオ処理環境の構築

どのような環境を構築するかどのような環境を構築するか

環境を構築するのに、いろいろな要素をばらばらにインストールしかつ管理してもよいのだが、それぞれのソフトによってやり方が異なりそれを1つ1つ確認しなければならない。少し楽にする方法として、パッケージの管理システムを使うことができる。それもなるべくならば、いろいろなソフトを広くカバーしていて、同じ管理システムでインストール・管理できるのがよいだろう。そう考えて、ここでは bioconda を使うことにする。

Pythonでは、基本的に(Pythonで書かれたソフトの)パッケージは PIP (Pypi.org)を使う。バイオ系のよく使われているソフトはいろいろな環境で作られており、PIPの管理には必ずしも適さない。(適さないらしい。筆者はどうやったらできるのかよく知らない。) たとえば、新世代シーケンサーから得られたリード(配列のフラグメント)の読み取り品質(の統計)を図示するFastQCはJava言語環境を使って書かれており、Python環境やPIPでは提供されないので、コマンドラインレベルで(生で)インストールすることになる。

またMacOS下で使うことのできる他の管理システムとして、Home Brewが有名であるが、筆者が試した限りではたとえばRNAseqで使いたいソフトウェアパッケージの一部は、Home Brewでは用意されていない。

このような理由(筆者の経験)から、利用したいソフトが広くカバーされている bioconda を使ってインストール・管理することを選択した。

biocondaは、condaのパッケージ管理の仕組みを使い、チャンネルとしてbiocondaを利用する。condaについては、下記を参照。
Conda — conda 4.10.2.post1+248741a84 documentation
https://docs.conda.io/projects/conda/en/latest/

Condaと共に紹介される
Anaconda | The World’s Most Popular Data Science Platform
https://www.anaconda.com/
はPythonの統計・データサイエンスでの利用を容易にするための仕組みで、パッケージ管理のためのcondaと、データサイエンスのさまざまなパッケージとを併せたものになっている。Pythonの公式サイトのページで、AnacondaとpythonやPIPとの関係を解説しているので、参照して欲しい。
PythonとAnaconda: Python環境構築ガイド – python.jp
https://www.python.jp/install/docs/pypi_or_anaconda.html

Anacondaは管理されたパッケージライブラリを運用しており、信頼して利用することができるが、

  • 最近、有料になった(但し個人での利用は無料)
  • anacondaで初期に含まれるパッケージは最近かなり大きくなり、ダウンロード・インストールに時間を要する

という問題がある。前者は個人利用ということで回避できる場合があるが、後者はバイオデータ処理で利用するパッケージはanaconda配布に含まれていないものが多いので、(直接には)必要としないパッケージをダウンロード・インストールすることになる。

これに対応するものとして、minicondaと呼ばれる、condaつまりパッケージ管理部分とそれに必要な最小のパッケージのみを含むものがあり、それは無料である。その代わり、必要なライブラリは個別に(condaの管理システムを使って)ダウンロード・インストールしなければならない。
Miniconda — Conda documentation
https://docs.conda.io/en/latest/miniconda.html
ここでは、minicondaを使って環境を整備する。

minicondaのインストール

minicondaは下記のcondaのページからダウンロードしインストールする。
Miniconda — Conda documentation
https://docs.conda.io/en/latest/miniconda.html

Conda HP

バージョンはPythonの最新バージョン(バージョン番号が最も大きいバージョン)の、MacOS版のうち、bash版
Miniconda3 MacOSX 64-bit bash
を選ぶ。執筆時点ではMacOS用のPython3.9版で、ダウンロードされるファイル名は
Miniconda3-py39_4.9.2-MacOSX-x86_64.sh
ある。これは拡張子が .sh になっており、シェルで実行するプログラム(シェルプログラム、シェルスクリプトと呼ぶ)である。

これを(ダウンロードフォルダへ)ダウンロードした上で、コマンド画面で、

cd /Downloads
bash Miniconda3 MacOSX 64-bit bash

としてインストールする。


condaのチェック・確認

ここまで済むと、condaコマンドが使えるようになり、いろいろなパッケージをインストールすることができるようになる。まず、condaコマンドが使えるかどうか確認するために、次のコマンドをターミナルに入力して応答を見る。

$ conda -V    # バージョン表示
$ conda -h    # ヘルプ表示

下記の画面のような応答が返ってくればcondaは動作している。

もし

zsh: command not found: conda

のように出力される場合は、condaがうまくインストールされていない。

condaを使い始める

次に、コマンド

conda list

を試してみる。これは、condaが既に(あらかじめ)インストールしたパッケージのリストを表示する。minicondaをインストールしたばかりなので、最低限必要なパッケージがインストールされている。

conda の使い方(サブコマンド)は、
User guide — conda 4.10.2 documentation
https://docs.conda.io/projects/conda/en/latest/user-guide/index.html
にある(英文)ので、参照されたい。この中で、Conda channelsという節
https://docs.conda.io/projects/conda/en/latest/user-guide/concepts/channels.html
があるが、これがbiocondaの利用する仕組みである。channelsとは要するにパッケージが置いてあるサイト・ディレクトリのことで、biocondaはバイオデータ処理で使うプログラムパッケージを集めてあるサイトである。ユーザはこのchannelからバイオデータ処理のプログラムやライブラリを取り込むことができる。

condaでパッケージをダウンロード・インストールするコマンドは
conda install
であるが、ここにchannelとしてbiocondaを使う旨を指定することで、biocondaから取り込むことができる。たとえばパッケージ hogehoge をダウンロード・インストールしたいのであれば、

conda install -c bioconda hogehoge

のように -c bioconda と書いて、biocondaをchannelとして使う旨を指定すればよい。さらなる詳細は上記のUser Guideに書かれている。

次の節で、シーケンサー出力データの品質チェックをするFastQCプログラムを、biocondaを介してインストールし、実行する。

後で、condaの仮想環境の設定やjupyter notebookの設定、pythonの実行について、追加する。


環境のクリア < biocondaによるバイオ処理環境の構築 > FastQCのインストールと実行