バイオインフォマティクスの基礎実習
「おわりに」のページへ進む
前のページへ戻る
2.6以降へ進む
トップページへ戻る

3. ホモロジー検索

3.1. ホモロジー検索とは

遺伝子Aと遺伝子Bの間の「ホモロジー(類縁度)が高い」とは、一般にAとBが共通の祖先遺伝子から由来している可能性が高いことを意味する。遺伝子Aの機能が未知、遺伝子Bの機能が既知である場合、遺伝子Aが遺伝子Bと高いホモロジーをもつことがわかれば、遺伝子Aの機能が遺伝子Bの機能とよく似ていることが推測できるため、ホモロジー検索は、進化・系統分類の解析、タンパク質の機能解析などを目的とした配列解析の最も基本的な手法の一つとなっている。

ほとんどの場合、配列類似度(相同性)が高ければ類縁度も高いと考えられるため、ホモロジー検索は、他のタンパク質よりも配列相同性が有意に高い類似配列を配列データベース中から検索することになる。実際、新たな生物種のゲノム塩基配列が解読されたときに真っ先に行われることは、既知の他の生物種の遺伝子とホモロジーがある塩基配列部分を検索・同定することである。

ただ、どの程度の配列相同性があれば2つの遺伝子が、真にホモロジーがある、すなわち共通の祖先遺伝子をもつかは明確に定義することはできない。実際には、配列相同性検索の結果得られる、塩基配列やアミノ酸配列の「類似度」から、ホモロジー(類縁度)を見積もることになる。

2つの配列の類似度を計算するには、2つの配列を要素ごとに対応づけて並べる操作(アラインメント)を行う。

たとえば、以下の2つの塩基配列 A: AGTCAGTC、B: AGGAGGTC

  A: AGTCAGTC
  B: AGGAGGTC

は、対応塩基が一致していれば1点、不一致であれば0点とすると、類似度スコアを「5点」と計算することができる。また、配列Aと別の塩基配列 C: AGTTAGTC との類似度は、

  A: AGTCAGTC
  C: AGTTAGTC

とすると「7点」であり、このスコア付けのもとでは、AはBよりもCに似ている、すなわちAとBよりもAとCの方が進化的に関連のある可能性が高いとすることができる。

実際には、このような0または1の単純なスコア付けではなく、塩基同士、あるいはアミノ酸同士の性質の相違などを考慮したスコア付けが用いられる。また、進化の過程における、塩基やアミノ酸の挿入・欠失に対応した「ギャップ」も考慮される。たとえば塩基配列 D: AGTGTCは、塩基配列Aの中央の2塩基が欠失したものと考えることができ、このときのアラインメントはギャップを用いて

  A: AGTCAGTC
  D: AGT--GTC

と表すことができる。

2つの配列の類似度を計算するときは、さまざまなアラインメントを探索して、スコアが最大となるものを用いる。スコアを最大にする最適なアラインメントはダイナミックプログラミング(動的計画法)と呼ばれる手法で計算することができるが、この手法は計算コストが大きいため、データベースの配列のすべてに対して適用すると膨大な時間を要する。このため、実際には近似手法が用いられ、BLASTFASTAがその代表的なものである。

  1. BLAST
    配列を固定長の断片(ワード)に区切り、ワード単位で類似する断片を検索し、これらを類似度が最大になるまで両方向に伸ばして局所的なアラインメントを行う領域を決定し、最後にその部分だけのローカルなアラインメントをダイナミックプログラミングを用いて行う手法。NCBIが開発した。FASTAより高速であり、生命科学研究に非常によく用いられている。
  2. FASTA
    連続して一致する配列の断片を高速に検索し、それらの断片の中で類似度の高いものに着目して局所的なアラインメントを行い、最後にこれらをギャップを考慮して結合して、最終的なアラインメントを行う手法。W. Pearsonにより開発された。

BLASTを反復的に用いることで、より遠い類縁関係を検出できるように改良したPSI-BLASTも、構造予測、機能予測などの分野でよく用いられる。たとえば、PSI-BLASTを用いて、ゲノム由来のタンパク質の配列データの解析結果を まとめたデータベースとして、GTOPhttp://spock.genes.nig.ac.jp/~genome/gtop-j.html)がある。これは国立遺伝学研究所が公開している、ゲノム横断的な遺伝子検索の統合サービスで、現在までに全ゲノムが解読された生物種の遺伝子を検索し、タンパク質、モチーフなどの情報とともに表示することができる。アラインメントのアルゴリズム、類似度の計算法については「生物情報科学」の講義で学ぶ。

3.2. ホモロジー検索の実習

これまで行ってきたデータベース検索は、キーワードを指定してその条件にマッチするエントリを探す、という「キーワード検索」であった。ホモロジー検索はこれとは異なり、上で述べたように、手持ちの塩基配列あるいはアミノ酸配列と関係がありそうな、よく類似した配列をデータベースに対して検索することになる。

ホモロジー検索は、NCBIなどのサイトでも利用できるが、ここでは、京都大学化学研究所バイオインフォマティクスセンターのGenomeNetを利用する。

まずGenomeNetのBLASTのページ(http://www.genome.jp/tools/blast/)にアクセスする。

下に表示されているc-CblのFASTA形式のアミノ酸配列(2.4を参照)をコピー&ペーストして(先頭の「>」で始まるタイトル行も含めること)、BLASTの検索ボックス「Enter query sequence」の「Sequence data」に入力する。これはc-Cbl遺伝子が翻訳されてできるタンパク質のアミノ酸配列である。BLAST検索は塩基配列、アミノ酸配列の両方に対して行うことができる。また、このFASTA形式の配列をファイルに格納しておけば、ファイル名を「Local file name」の右のボックスで指定することも可能である。

>sp|P22681|CBL_HUMAN E3 ubiquitin-protein ligase CBL ...
MAGNVKKSSGAGGGTGSGGSGSGGLIGLMKDAFQPHHHHHHHLSPHPPGTVDKKMVEKCW
KLMDKVVRLCQNPKLALKNSPPYILDLLPDTYQHLRTILSRYEGKMETLGENEYFRVFME
NLMKKTKQTISLFKEGKERMYEENSQPRRNLTKLSLIFSHMLAELKGIFPSGLFQGDTFR
ITKADAAEFWRKAFGEKTIVPWKSFRQALHEVHPISSGLEAMALKSTIDLTCNDYISVFE
FDIFTRLFQPWSSLLRNWNSLAVTHPGYMAFLTYDEVKARLQKFIHKPGSYIFRLSCTRL
GQWAIGYVTADGNILQTIPHNKPLFQALIDGFREGFYLFPDGRNQNPDLTGLCEPTPQDH
IKVTQEQYELYCEMGSTFQLCKICAENDKDVKIEPCGHLMCTSCLTSWQESEGQGCPFCR
CEIKGTEPIVVDPFDPRGSGSLLRQGAEGAPSPNYDDDDDERADDTLFMMKELAGAKVER
PPSPFSMAPQASLPPVPPRLDLLPQRVCVPSSASALGTASKAASGSLHKDKPLPVPPTLR
DLPPPPPPDRPYSVGAESRPQRRPLPCTPGDCPSRDKLPPVPSSRLGDSWLPRPIPKVPV
SAPSSSDPWTGRELTNRHSLPFSLPSQMEPRPDVPRLGSTFSLDTSMSMNSSPLVGPECD
HPKIKPSSSANAIYSLAARPLPVPKLPPGEQCEGEEDTEYMTPSSRPLRPLDTSQSSRAC
DCDQQIDSCTYEAMYNIQSQAPSITESSTFGEGNLAAAHANTGPEESENEDDGYDVPKPP
VPAVLARRTLSDISNASSSFGWLSLDGDPTTNVTEGSQVPERPPKPFPRRINSERKAGSC
QQGSGPAASAATASPQLSSEIENLMSQGYSYQDIQKALVIAQNNIEMAKNILREFVSISS
PAHVAT

次に、検索に用いるプログラムと検索対象のデータベースを選ぶ。

検索プログラムとしては、通常、クエリー配列(手持ちの入力配列)がアミノ酸配列の場合はBLASTP、塩基配列の場合はBLASTNを選ぶ。今の場合はアミノ酸配列なので、BLASTPが適当である。

またデータベースは、アミノ酸配列の場合は上の囲みの中から、塩基配列の場合は下の囲みの中から選ぶ。一般的によく用いられるのは、アミノ酸配列では、Swiss-Prot(2.4を参照)や複数のデータベースを統合したnr-aa、または立体構造データベースの中にエントリがあるタンパク質のアミノ酸配列データベースPDBSTRであり、塩基配列では、重複がなく比較的信頼性の高いデータを集めたRefSeqや、アミノ酸配列のnr-aaに対応するnr-ntである。ここでは「Swiss-Prot」を選んでおこう。なお、検索プログラムBLASTXとTBLASTNは、それぞれ「塩基配列のクエリーを翻訳してからアミノ酸データベースに対して検索」「アミノ酸配列のクエリーを塩基配列に戻してから塩基配列データベースに対して検索」するというものである。

Scoring matrixはアミノ酸間の類似スコアで、PAMとBLOSUMがよく使われる(塩基配列検索のBLASTNのときは利用されない)。ここでは、デフォルトの「BLOSUM62」でよいだろう。

Filterは、意味の少ない特定塩基の繰り返しなどをマスクする場合に用いるが、ここでは「None」のままにしておこう。

Output optionsは、ヒットした類似配列の情報と、クエリーとヒットとのアラインメントを表示する最大数の指定である。デフォルトは「500」「250」になっているが、ここでは表示をみやすくするために「50」「25」にしておこう。

他は、いずれもデフォルトのままでよい。

クエリー配列と計算パラメータの指定ができたら上の方にあるCompute ボタンを押して、BLASTPによるホモロジー検索を実行する。少し時間がかかるが(数分程度?)、気長に待とう。

検索結果は次のようになる。データは日々更新されるので、実際の結果とは異なるかもしれない。

bitsは類似性のスコアを示す。E-val(E-valueのこと)は、「現在のデータベースにおいて、全く偶然にこのbit値以上のスコアになる配列の本数の期待値」である。E-valが小さいほど、偶然には起こり得ないくらい類似度が高いことを示す。したがって、bitスコアが大きく、E-Valueが小さい場合には、互いの配列のホモロジーは高いと言える。

なお、E-valとして表示される数値のうち、たとえば「e-117」は「10の-117乗」のことである。また0.0は、数学的に厳密な0という意味ではなく、表示しきれないくらい0に近い小さな値ということである。E-valの値はクエリーの配列長に依存するので、クエリー配列がデータベース配列と完全一致したときのE-valはクエリー長によって異なる(必ずしも0.0と表示されているとは限らない)。

今のc-Cblの検索では、E-valが「0.0」と表示されている配列が複数ヒットしており。配列がクエリーとほとんど同じかまったく同じであるデータベース配列がいくつか見つかったことがわかる。それらの中には、クエリー配列そのものであるCBL_HUMANの他、マウスのc-Cblなども含まれており、このような生物種ではc-Cblのアミノ酸配列がヒトのそれと非常に類似していることがわかる。

高いホモロジーを示したヒットについて、bitsの数値をクリックして、クエリー配列とヒットしたデータベース配列のアライメント情報を調べてみよう。遺伝子名などの下に、クエリーとヒットのアミノ酸一致度(パーセントホモロジー)が表示される。その下に、ヒットしたデータベースの配列(Sbjct)とクエリー配列(Query)ペアのアラインメントが表示される。mouseのc-Cbl(sp:CBL_MOUSE)とのアラインメント結果を以下に示す。アミノ酸一致度は92%であり、クエリー配列の1〜906番目のアミノ酸とデータベース配列の1〜913番目のアミノ酸が対応づけられた(アラインされた)ことがわかる。たしかに、アミノ酸配列は、数ヶ所を除いてほとんど一致している。


また、GenomeNetのBLAST検索では、上位ヒットの複数の配列をまとめてアラインしてそれらを表示したり(マルチプルアラインメントと呼ぶ)、進化系統樹を描くことができる。広く用いられているマルチプルアラインメントツールCLUSTALWを使う方法を紹介する。

  1. ブラウザの「戻る」ボタンで、mouse c-Cblとのアラインメント画面から、上位ヒットが表示されている画面へ戻る
  2. 「Entry」が「top10」になっていることを確認し、その右の「Select operation」のリストで「CLUSTALW」を選択、「Exec」ボタンを押す


  3. 新たに開いたウィンドウで「clustalw.aln」をクリックすると、マルチプルアラインメント結果が表示される。
    各配列がほとんど一致している部分と多少異なっている部分があり、また各配列についても、非常に似通ったペアとそうでないペアがあるのが見てとれるはずである。


  4. 画面の一番下の「Select tree menu」のリストで「Rooted phylogenetic tree with branch length (UPGMA)」を選択して「Exec」ボタンを押すと、以下のような進化系統樹を作成し、配列間の相同性を視覚的に表示することができる。


    ヒトのc-Cbl(CBL_HUMAN)とは、マウスのc-Cbl(CBL_MOUSE)とウイルスのc-Cbl(CBL_MLVCN)が比較的近い位置関係にあり、隣には、c-Cblに類縁のCbl-bタンパク質(CBLB_XXXXX)のクラスタがきて、その中ではラット(CBLB_RAT)とマウス(CBLB_MOUSE)のものが互いに似通っていることなどがわかる。これらのタンパク質群から離れたところにヒトのCbl-cタンパク質(CBLC_HUMAN)が位置する。


※ BLASTP/BLASTNを使った検索は、NCBIのサイトで実行することもできる。塩基配列の場合は「nucleotide blast」、アミノ酸配列の場合は「protein blast」をクリックする。次に「Enter accession number(s), gi(s), or FASTA sequence(s)」のボックスに配列をペーストしたあと「Database」でデータベース(たとえばswissprot)を選択し、「Algorithm」で「blastp」あるいは「blastn」が選択されていることを確認してから「BLAST」ボタンを押す。しばらく待てば、検索結果が表示される。NCBIのBLASTのインタフェースは、GenomeNetのものとかなり異なっているが、基本となるBLAST検索機能は同じである。ただしCLUSTALWなどは実行できない。

時間に余裕のある人は、シトクロームC(Cytochrome C)を対象に上記の同様の解析を行い、進化の過程で配列が変化してきた様子を確認してみよう。アミノ酸配列は、2.4の手順を参考にしながら「CYC_HUMAN」をキーワードにして検索して取得するとよいだろう。シトクロームCは、ミトコンドリアの表面に存在し、電子伝達の機能をもつ。アミノ酸配列に基づく分子系統樹解析が最初に行われたタンパク質であり、多数の生物種で多数の生物種で配列が明らかにされている。また変異の速度が非常に遅く、古くに分化した生物でも配列はかなり類似している。主な生物を選んで、マルチプルアラインメントをとってみると、その様子がよくわかるはずである。以下にその一例を示す。

■ここまでできたら、課題2のページに進んで課題をやってください。


「おわりに」のページへ進む
前のページへ戻る
2.6以降へ進む
トップページへ戻る
生物情報工学研究室
ご意見・ご感想などはlecture2016@bi.a.u-tokyo.ac.jpまでお願い致します