「生物情報工学」講義資料 (平成19年度、清水謙多郎)

生物の研究に役立つデータベース


遺伝子情報やタンパク質の配列・構造に関する情報は日々蓄積され、巨大なデータベースが形成され、インターネットを介して公開されている。これからの学習、研究において、こうしたデータベースを利用する機会は多いはずである。また一方で、コ ンピュータにより、こうした膨大なデータを処理して、有用な情報を引き出し、それを用いて、例えば、タンパク質の構造や機能の予測・解析に利用する研究が 進められている。とくに、生物学では、物理学や化学のように原理・法則から出発して計算を行うよりも、蓄積されたデータの中から知識や経験則を見いだすこと が多く、データベースがそのための主要な役割を果たしている。

1. インターネットを用いたデータベースの検索

バイオインフォマティクスの代表的な統合データベースサイトを紹介する。

1.1 NCBI

NCBI(National Center of Biotechnology Information、米国立バイオテクノロジー情報センター)は、1988年に、NIH(National Institute of Health、米国立衛生研究所)のNLM(National Library of Medicine、米国立医学図書館)の一部門として設立されたバイオインフォマティクス研究組織である。その後、1989年にBLAST、1990年に検索システムEntrezが開発された。Entrezにより、文献情報検索システムMEDLINEとゲノム配列情報を結びつける検索が可能となる。最初、EntrezはCD-ROMで提供されていたが、その後、インターネットで利用できるようになった。現在では、各種データベースに対する検索を統一的なインタフェースで行えるようにしている。

NCBIは、こちら(http://www.ncbi.nlm.nih.gov/)からアクセスする。

1.2 EBI

EBI(European Bioinformatics Institute、欧州バイオインフォマティクス研究所)は、1992年、EMBL(European Molecular Biology Laboratory)から発足したバイオインフォマティクスの研究機関である。1980年ごろ、すでにEMBLでは、生物データベースや解析ツールの研究が行われていた。EBIは、15か国の出資によって設立され、現在、英国ケンブリッジ郊外のウェルカムトラスト・ゲノムキャンパス内に、サンガー研究所に隣接して置かれている。EBIの検索システムは、LION社のSRS(Sequence Retrieval System)である。SRSは、もともと、EMBLのThure Etzoldが中心となって開発したもので、他の多くの研究機関でも利用されている。複数のデータベースのコピーをローカルに保持し、統合的に検索できるようにした、フラットファイルデータベースの管理を行うソフトウェアである。

EBIは、こちら(http://www.ebi.ac.uk/)からアクセスする。

1.3 SIB

SIB(Swiss Institute of Bioinformatics、スイスバイオインフォマティックス研究所)は、1998年に設立された非営利組織で、バイオインフォマティクスの研究の推進、データベースとコンピュータ技術の開発、教育活動とサービスを目的とする。NIHのNHGRI(米国立ヒトゲノム研究所)をはじめとする米国の研究機関、スイス国内外のヨーロッパ研究機関からの資金援助と参加を受け、主にタンパク質に関連したデータベース、解析ツールの開発を行っている。

SIBは、こちら(http://www.isb-sib.ch/)からアクセスするが、Swiss-Protなど、タンパク質に関するデータベースを統合的に検索できるようにしたExPASy (Expert Protein Analysis System) proteomics server(http://www.expasy.org/)がサービスの中心である。

1.4 ゲノムネット(GenomeNet)

ゲノムネットは、1991年より、京都大学化学研究所バイオインフォマティクスセンターが提供しているインターネットサービスである。統合的なデータベース検索システムDBGETを提供し、また、代謝パスウェイデータベースKEGGという独自のデータベースも提供している。

ゲノムネットは、こちら(http://www.genome.jp/)からアクセスする。

2. 塩基配列データベース

塩基配列データベースは、DNA、RNAの塩基配列とその説明、文献情報などを記載したデータベースで ある。米国、欧州、日本でそれぞれGenBank, EMBL, DDBJ(DNA Database of Japan)というデータベースが構築されており、これらは協力関係により、日々更新されている。基本的に3つのデータベースがすべてのデータを保持し、 地理的に分担するような方式になっている。当初は、論文発表されたものを手作業で入力するのが一般的であったが、アノテーション(遺伝子等 の機能に関する注釈)を含むデータ作成を著者に任せ、論文発表と同時にデータベースに登録することが義務づけられるようになった。最近は、ゲノム解読プロ ジェクトの進展とともに、生物種ごとのゲノムデータベースが誕生し、個々のデータはいったんこれらのデータベースに登録され、そこから大量のデータが一括 して、GenBank、EMBL、DDBJに送られるケースが多くなってきている。

DDBJおよび上記 3つのデータベースの連携についてはこちらを参照されたい。

3. アミノ酸配列データベース

アミノ酸配列データベースは、アミノ酸の配列情報とその説明、文献情報などを記載したデータベースである。Entrez Protein、Swiss-Prot、PRFなどがある。PIR(Protein Information Resources)は、古くから利用されてきたアミノ酸データベースであったが、その内容は、現在ではアノテーションを強化したデータベースUniprotKB(Universal Protein Resource Knowledgebase)に引き継がれ、PIRそのものは、タンパク質関連の総合的なデータベースサイトとなっている。


4. タンパク質機能データベース

タンパク質の機能は他の分子との相互作用に基づいている。相互作用に関与する部位は、配列や立体構造上の特徴的なパターン、すなわちモチーフを形成する。モチーフとは、関連するアミノ酸配列を並べて見たとき、共通に見られる部分配列の特徴的なパターンである。ホモロジーのあるタンパク質において、共通に作用している機能や構造上の制約のために保存されている領域で、配列全体のホモロジーが低くても(あまり似てなくても)、特定の機能を実現するモチーフは強く保存されている傾向 にある。配列城野モチーフは、関連するアミノ酸配列を集めて、マルチプルアラインメント(複数の配列を要素ごとに対応づけて並べること)を行うことにより見いだすことができる。こうしたモチーフを登録し、与えられた配列から検索できるようにしたデータベースがモチーフデータベース(モチーフライブラリともいう)である。モチーフデータ ベースは、配列パターンに対応する生物学的な意味が書かれた辞書とみなすことができる。モチーフデータベースとしては、ExPASyサーバーのPROSITEが最もよく用いられている。

タンパク質のファミリー分類のデータベースとして、Pfam、ProDom、BLOCKS、PRINTSなどがある。これらのデータベースは、構造既知のドメインを登録しており、配列上のモチーフだけでなく、ドメイン単位の構造の対応についても調べることができるようになっている。InterProは、これら複数のデータベースの統合検索サービスであり、ExPASyサーバーのPROSITE、Swiss-Protと連携している。

タンパク質機能データベースとしては、そのほか、酵素に関する情報を登録したデータベースが挙げられる。酵素専門のデータベースとしてENZYMEがある。

5. タンパク質立体構造データベース

タンパク質の立体構造情報は、タンパク質の機能を生化学的に理解するという学術的な観点のみならず、薬剤や食品の設計を支援するといった応用面からも非常に重要である。タンパク質立体構造データベースには、立体構造データそのものを登録した一次データベースと、構造を分類・比較した結果を登録した二次データベースがある。前者については、PDB(Protein Data Bank)が実際にその役割を担っている。PDBには、タンパク質のX線結晶構造解析、NMRで得られた3次元座標データ、アミノ酸配列と二次構造の情報、文献情報、そのほか、熱ゆらぎに関する情報や解像度などが記載されている。またDNA、RNAなどの核酸の立体構造や、複数の分子の複合体の立体構造なども登録されている。

タンパク質の機能を予測・解析するのに、タンパク質の構造の分類は重要である。このため、タンパク質のフォールド(主鎖の折りたたみパターン)で分類する試みがいくつかなされている。

6. パスウェイデータベース

生体内において、機能は一般に複数の分子の統合によって実現される。酵素と基質のように、こうした複数の分子 の間の相互作用のネットワークを系統的に集積し、データベース化したものが存在する。代表的なものに、KEGG(Kyoto Encycropedia of Genes and Genomes)、WIT(What Is There)がある。

7. 文献データベース検索

文献調査は、研究では不可欠の作業である。生物学・医学の文献調査で欠かせないものにMEDLINEがある。 MEDLINE (MEDlars onLINE) は、NLM(National Library of Medicine, 国立医学図書館)が作成する医療文献データベースである。70カ国で出版された4,800誌を越える最新の生物医学系ジャーナルからの要約が収められている。1966年以降の約1,200万件のデータをすべて含んでいる。PubMedはMEDLINEにさらにデータを追加し、キーワードなどによる検索を可能にしたデータベースで、新たなMEDLINEのデータは毎週PubMedで検索可能になる。