
アセンブリ(ゲノム)
目次
原理
次世代シーケンサは長いDNAを大量の短い断片に分割し、それぞれを配列解析します。この発生断片(リードと呼ばれる)を適切に並べ替え、元のゲノム配列を再構築するのがアセンブリの目指す形です。
基本的には2つの手法、すなわち「オーバーラップ-レイアウト-コンサンサス(OLC)」と「De Bruijnグラフ」が存在します。
OLC手法はリード間の長いオーバーラップを求める反面、大規模ゲノムにはあまり適しておらず、一方でDe Bruijnグラフ作法は短いオーバーラップを求めるため小さなリードでも有用です。
手順
まず、シーケンシングライブラリの作製を行います。次いで、NGS等による配列解読が行われ、その結果として得られる短い配列データ(リード)を用いてアセンブリが実施されます。
具体的な解析手順は以下の通りです。
-
- リードのクオリティチェック:各リードの配列エラーとアダプター配列を除去
-
- リードのアセンブリ:アラインメントやグラフ構築を行い、オーバーラップするリードを結合させ配列を再構築
-
- 配列の改良:塩基修正やギャップ修正、深度の評価などを行い、配列を改良
-
- アノテーション:得られた配列中の遺伝子領域や機能領域を特定。
具体的な計算例
例えば5つのリード {AGTCA, GTCAT, CATAG, ATAGT, TAGTC}があった場合、アセンブリを適用すると一つの配列 AGTCATAGTC が得られます。
特徴
アセンブリはその性質上、複数の配列が共有する領域(オーバーラップ)の数が多ければ多いほど精度が上がるという特性を持っています。
また、De Bruijnグラフによるアセンブリは、規模が大きくなると計算時間が膨大になるため、一部の領域を切り取ってそれぞれを個別にアセンブリし、最後にそれらを結合するという方法を取ることがあります。
歴史と経緯
もともとの配列解読技術であるサンガー法から、より多くのデータを高速に扱える次世代シーケンサへと技術が移行するにつれ、それに対応する形でアセンブリの技術も発展してきました。
課題と対応策
アセンブリにはいくつかの課題があります。
一つは「リピート」で、これはゲノム中に同じ配列が複数回出現する現象を指し、このようなゲノムはアセンブリが困難となります。
また、シーケンスエラーも問題となり、これはシーケンサの誤読に由来するエラーです。
これらの問題に対処するための手段として、ロングリードシーケンサーの活用が挙げられます。
応用
アセンブリの最大の応用分野は、ゲノム解析です。
特に、新規の生物種のゲノム解析や既知のゲノムの変異解析などに重要な役割を果たします。

