
マッピング(NGS)
目次
RNA-Seqのマッピング
RNA-Seqは、次世代シーケンス技術を利用したトランスクリプトーム解析手法の1つで、全トランスクリプトの定量的解析が可能です。
真核生物由来のRNA-Seqデータのアライメントには、特殊な配慮が必要とされます。なぜなら、mRNAはゲノム上では断片化されたエクソンとして存在し、それらがスプライシングされてmRNAが作られるため、連続した配列ではないからです。このスプライシングバリアント(エクソンの異なる組み合わせで複数の異なるmRNAが生成される現象)を考慮に入れたアライメントが求められます。
RNA-seqデータのアライメントには、Bowtie2, BWA, STAR, HISAT2といったソフトウェアが用いられます。これらのツールは全て、高速に大規模データを処理することが可能です。
Bowtie2
Bowtie2は、Burrows-Wheeler変換(BWT)を利用した高速なマッピングツールです。BWTは、データの圧縮やインデックス作成(検索情報の事前集計化)を効率よく行うためのアルゴリズムで、アライメント位置の候補を迅速に限定することが可能です。
Bowtie2は、NGSデータを構造体(マッピングの順番や隙間)に基づいてアライメントすることで、データの圧縮と高速検索を実現しています。特に、小さいエクソンやジャンクション部位のアライメントに強いと言われており、RNA-seqに適したマッピングツールの一つです。
BWA
BWAもまた、Burrows-Wheeler変換を用いたマッピングツールの一つで、特にショートリードデータのマッピングに対して高いパフォーマンスを発揮します。
BWAは、Bowtieとは異なるアルゴリズムを用いてアライメントを行います。BWAは、シードと呼ばれる部分配列に基づいて候補領域を特定し、その上でSmith-Watermanアルゴリズムによる局所アライメントを行うことで最適なアライメントを選択します。逐次的にアライメントを行うことで配列内の変異を考慮した柔軟なアライメントが可能で、特にSNPやINDELなどの変異の検出に優れています。
STAR
STAR(Spliced Transcripts Alignment to a Reference)は、超高速なRNA-seqデータアライメントソフトウェアです。STARは、RNA-seqデータのスプライシングを検出するための特別な機能を持っています。
STARは、一度に多くの配列をマッピングすることで、高速なアライメントを実現します。また、非常に効率的なインデックス構造を使用しているため、大規模ゲノムに対しても高速にマッピングすることが可能です。これらの特性は、STARを特にトランスクリプトーム解析に適したツールとしています。
HISAT2
HISAT2(Hierarchical Indexing for Spliced Alignment of Transcripts)もまた、RNA-seqデータのアライメントに特化したツールで、トップレベルのパフォーマンスを有しています。
HISAT2は、BWTを拡張したグラフ型インデックスを用いてゲノムのスプライス領域を効率的にカバーします。このインデックスは、ゲノム内のエクソンとジャンクションの構造を反映しており、RNA-seqのアライメントに最適化されています。
RNA-Seqのマッピング手順
RNA-Seqのマッピングの具体的な手順は、ツールによりますが、以下に一般的な手順を示します。
-
- レファレンスゲノムの準備:使用するレファレンスゲノム(fastaファイル)を準備します。Ensembl等の公共データベースからダウンロード可能です。
-
- インデックス作成(Bowtie2,BWA,HISAT2):レファレンスゲノムからアライメント用のインデックスを作成します。インデックスは、高速な検索を可能にするためのものです。
-
- アライメント:シーケンスリードをレファレンスゲノムにアライメントします。リードの各部分がどのゲノム領域に一致するかを求め、その結果を出力ファイル(SAM/BAM形式)に保存します。
-
- 統計解析:アライメント結果を基に、遺伝子発現量の計算や変異の検出を行います。
問題点と対応策
RNA-Seqのマッピングには、以下のような問題点があります。
- スプライシングバリアント:同じゲノム領域から生じる異なるトランスクリプトの存在
- マルチマッピング:同じ配列がゲノムの複数箇所に存在する場合、どの位置にアライメントすべきかの問題
- インデル:ゲノムに挿入や欠失がある場合のアライメント問題
これらの問題は主に、アライメントソフトウェアの中で解決策が考えられています。
スプライシングバリアントに対しては、すべての可能性を考慮に入れた柔軟なアライメント(gappedアライメント)が求められます。
マルチマッピングに対しては、品質スコアの高いリードを優先的にアライメントする、マルチマッピングリードを特定の規則に基づいて割り振るなどの対策が取られます。
インデルに対しては、ギャップを許容したアライメントや、ローカルアライメントを行うことで対応可能です。
応用
RNA-Seqのマッピングは、遺伝子発現の定量、変異の検出、新規遺伝子の発見等、さまざまな研究に利用されています。
また、発現量や変異の情報は、遺伝子型と表現型の関連性を探るゲノムワイドアソシエーション研究(GWAS)、がんゲノム解析、パーソナライズドメディシン等の医学的応用にも利用されています。

