bio group, Amano Lab.

■ 相同性検索とは

　地球上で活動するほとんどの生物の遺伝情報はDNAに納められています。 DNAを解析することは、生物の進化や医療の研究において欠かせないものです。

　最も単純なDNA解析の種類として「あるDNAと似ているDNAを探す」というものがあります。ここで「似ている」という言葉は通常の意味ではなく、「共通の祖先を持っていると思われる」という意味で使われています。このような類似性を相同性と呼び、あるDNAと相同性の高いDNAを見付ける作業のことを相同性検索と呼びます。

　DNAの実態は4種類の塩基の配列です。したがって、DNAを4文字のアルファベットからなる文字列として捉えることができます。このように考えると、相同性検索とは、ある種の文字列比較に他なりません。

■ 相同性検索の問題点

　相同生検索自体は何年も前から研究が行われてきた分野ですが、現在も以下のような問題点を抱えています。

実行時間と精度のトレードオフ
大規模化する遺伝子データベース

　最初の問題点は実行時間と精度のトレードオフです。ある未知の遺伝子配列を、データベースにある既知の遺伝子配列全てと正確に比較すると、精度は完璧ですが膨大な時間がかかってしまいます。そこで、精度を少し犠牲にして、もっと速く検索できるようにすれば良いと考えられます。実際、現在最も広く使われている相同性検索のソフトウェアは、経験則（ヒューリスティック）に基づいて探索すべき対象を大幅に減らすことで、高速な実行を実現しています。

　もうひとつの大きな問題点は、遺伝子データベースのデータ量が指数関数的に増加しているという点です。日々、新しい遺伝子配列が明らかになっています。相同性検索はデータベース中の遺伝子配列を探索の対象としますから、これは実行時間の大幅な増加を意味します。つまり、相同性検索は常に、より高速な実行方法を必要としています。こうなると、その場しのぎ的なアプローチでは対処できません。根本的に速く、スケーラビリティの高い方法が相応しいと考えられます。

■ FPGAによる相同性検索

　このような問題点を解決するために、私たちはFPGAを用いた相同性検索を行う専用ハードウェアについて研究しています。

　FPGAを用いれば、低コストで高速な専用ハードウェアを作成できます。このようなハードウェアは通常、ソフトウェアでの実装よりも高速に処理することができます。

　特に相同性検索については、アルゴリズムの点からもハードウェアでの実装が適切だと言えます。これは、ソフトウェアでは逐次的に処理しなければならない部分を、専用ハードウェアでは並列に処理できてしまうからです。

[ Projectトップに戻る ]