バイオインフォマティクスの基礎実習
次のページへ進む
前のページへ戻る
「3.ホモロジー検索」にジャンプ
トップページへ戻る

2. キーワード検索

データベースを検索して望みの情報を得ようとする際には、「どんな情報をもとに(入力、クエリー[query]とも呼ぶ)」「どんなデータベースの中を検索して(データベース)」「どんな情報を引き出したいか(出力)」を良く考えて、もっとも効率よく情報を引き出せる検索サイトにアクセスすることがポイントになる。

たとえばある遺伝子について情報を得たいとき、その遺伝子の名前がわかっていれば、それを入力として関連するデータベース上の情報を検索することができる。このような遺伝子名やタンパク質名などの「キーワード」を入力とした検索を、キーワード検索と呼ぶ。ほとんどのデータベースには、そのデータベースを管理しているサーバにキーワード検索ができるウェブページが開かれているので、検索したいデータベースを決めて、そのサーバへアクセスすれば、当該データベースの中を検索することができる。

NCBI(National Center for Biotechnology Information, 米国国立バイオテクノロジーセンター)では、非常に重要な分子生物学データベースの多くが管理されている。ここでは、そのうち遺伝子データベースGenBank文献データベースMEDLINE/PubMedにアクセスしてみる。

NCBIのトップページのURLは、http://www.ncbi.nlm.nih.gov/である。下図に示すように、画面上方の「Search」の右のリストでデータベースを切り替え、その下のボックスにキーワードを入れて「Search」ボタンを押すのが,NCBIにおけるキーワード検索の基本である。

2.1. GenBankを用いた遺伝子データベースの検索

遺伝子データベースは、DNA、RNAの塩基配列とその説明、翻訳されたときのアミノ酸配列、文献情報などを記載したデータベースである。米国、欧州、日本の3箇所で、それぞれGenBank, ENA, DDBJという巨大なデータベースが構築されている。これらは独自データの公開とともに、新しいデータを相互にやりとりすることにより、データの共有を行っている。 3つのデータベースの連携に関する情報がこちらにある。

では、GenBankにアクセスして、ヒト由来c-Cblの遺伝子に関する情報を調べてみよう。

  1. NCBIのトップページ(http://www.ncbi.nlm.nih.gov/)にアクセスする。
  2. 検索対象データベースはデフォルトでは「All Databases」になっているが、これを「Nucleotide」に変更する(「Nucleotide」を表示するためには、右のスクロールバーでリストをスクロールする必要があるかもしれない)。NCBIではさまざまなデータベースが管理されているが、これで遺伝子データベース「GenBank」を含む塩基データベースに対するキーワード検索を行えるようになる。
  3. ヒト由来のc-Cbl」について調べたい。下のテキストボックスに検索語を入力して「Search」ボタンを押すと検索が始まる仕組みになっている。まず、テキストボックスに「c-cbl」と入力してSearchボタンを押し、検索を実行してみよう。なお、検索語の大文字・小文字は区別されない。
  4. 単語「c-cbl」をデータエントリのどこかに含む遺伝子が表示される。ヒット件数は「Items 1-20 of NNNN」の「NNNN」の部分に表示されている。
  5. これではヒット件数が多すぎて1つ1つをチェックできないので、キーワードを追加して絞り込みを行う。テキストボックスに「c-cbl [titl] AND "homo sapiens" [orgn] NOT bio-material」と入力し、「Search」ボタンを押す。

    GenBankでの検索キーワードの入力

  6. DEFINITIONフィールドに「c-cbl」、ORGANISMフィールドに「homo sapiens」を含み、あらゆるフィールドに「bio-material」を含まないものが検索できたはず。2016年3月22日時点ではヒットは5件であったが、今後データベースが更新されるとヒット件数は変わる可能性がある。
  7. 検索された結果から「Human mRNA for c-cbl proto-oncogene」(Accession: X57110.1)を探し、タイトルをクリックして表示させる。下図のような結果が表示されることを確認する。「DEFINITION」はその遺伝子の簡単な説明、「ACCESSION」は遺伝子につけられたコード名、「SOURCE」の中の「ORGANISM」は由来する生物種、「REFERENCE」はその遺伝子に関する文献データ、「FEATURES」の中の「CDS」はタンパク質をコードしている領域(coding region)の情報(「/translation」がアミノ酸配列)、「ORIGIN」が遺伝子の塩基配列そのものである。その他のフィールドの説明はこちらにあるので参考にしてほしい。

    GenBankの検索結果

     
    (途中省略)

     
    (この後ろの部分は省略)

  8. 検索結果にはいろいろなリンクが含まれており、同じデータベース中の別のデータや、他のデータベース中のデータを参照することができる。たとえば「/protein_id="CAA40393.1"」をクリックすることで、このCDSが翻訳されたときのタンパク質の情報を表示させることができる。また「REFERENCE」の「MEDLINE」または「PUBMED」をクリックすると、フリーの文献データベースMEDLINE/PubMedにより、当該文献の書誌事項や要旨などをみることができる。
  9. その他

2.2. 文献データベース

ここで、さきほどのGenBankのREFERENCEにでてきた文献データベースMEDLINE/PubMedについて説明する。

文献調査は、研究では不可欠の作業である。生物学・医学の文献調査に広く使われているデータベースにMEDLINEがある。MEDLINE (MEDlars onLINE) とは、NLM(National Library of Medicine, 国立医学図書館)が作成する医療文献データベースである。 PubMedはMEDLINEにさらにデータを追加し,キーワードなどによる検索を可能にしたもので,2016年4月現在2,500万件以上のデータを含んでいる。新たなMEDLINEのデータは毎週PubMedによって検索・アクセスが可能になる。 PubMedはGenBankと同じくNCBIが管理しており、キーワード検索の手順は、基本的にGenBankと同じである。著者フィールド([auth])など、文献データベース特有のフィールドが指定できる。

PubMedにアクセスするためには、NCBIのトップページで、データベース指定のリストに「PubMed」を指定する。

キーワードテキストボックスに

"sakaki y" [auth] AND "human genome" [titl]

と入力して「Go」ボタンを押してみよう。[auth]は著者フィールド、[titl]はGenBankと同じくタイトルフィールドに検索を限るための条件指定である。条件指定がなければ、タイトルや要旨(アブストラクト)など、すべてのフィールドに対する検索となる。

いくつか表示される中に、「A physical map of human genome」というタイトルの、2001年にNature誌に発表されたヒトゲノムのドラフト解読の歴史的論文(セレラ社ではなく国際ゲノムプロジェクトの方)を見つけられるはずである。

フリーではないが、東京大学内部からであれば、東京大学附属図書館のページから、「Web of Science」と呼ばれる強力な文献検索データベースを利用できる。このデータベースは、Thomson Reuters社から提供されているものであり、ある論文を検索したときにその論文を参考文献に指定している論文を逆検索することができるのが大きな特徴である。また、「E-JOURNAL PORTAL」では多くの学術論文誌にアクセスして、論文の本文を読んだりPDFファイルとしてダウンロードすることができる。

2.3. 統合データベース検索

本実習では、GenBankとPubMedに別々にアクセスしてキーワード検索を行ったが、NCBIのGQueryというデータベース検索を利用することで、GenBank、PubMedをはじめとするNCBIが管理する多くのデータベース検索を、一度に行うことができる。

GQueryを利用するには、NCBIのトップページのデータベース指定で「All Databases」を選択する。キーワードの指定の仕方はGenBankと同様である。以下は、2.1でGenBankに対して検索を行ったときと同じ検索式「c-cbl [titl] AND "homo sapiens" [orgn] NOT bio-material」をGQueryに入力したときの結果である(ヒット件数などはデータベース更新に伴って変わっているかもしれない)。「Nucleotide」(GenBank)だけでなく、「Protein」「Structure」などのNCBIの他のデータベースに対しても同時に検索が行えていることがわかる。

また京大化学研究所のDBGETは、GQueryと同様の統合データベース検索である。


次のページへ進む
前のページへ戻る
トップページへ戻る
生物情報工学研究室
ご意見・ご感想などはlecture2016@bi.a.u-tokyo.ac.jpまでお願い致します