4.1. ゲノムネットを使ったデータベース検索
ここまではGenBank、Swiss-PROTのサーバーに直接アクセスして検索を行ないましたが、ここではゲノムネットを使って、世界各国のデータベースを統合して検索することを学びましょう。
·
ゲノムネットとは
ヒトゲノム計画によって明らかになったDNA配列情報や、分子・細胞生物学の進歩によって蓄積された生命現象に関する基礎データは、
現在膨大な情報量にのぼっています。このようなデータを整理し、医療などに有効活用するためには、情報インフラストラクチャーの整備が不可欠であるとの気運が高まってきました。そこで、京都大学化学研究所と東京大学医科学研究所ヒトゲノム解析センターが中心となって、ゲノムネットと名づけられたコンピュータネットワークの構築を行われたのです。現在、ゲノムネットは、世界中に存在する生物学・医学関連の多様な知識、情報、データを、各研究者のデスクトップで統合して利用できる環境を目指した情報サービス網となっています。
·
ゲノムネットの特徴
バイオテクノロジーの進歩によって日々加速度的に蓄積されている様々な生物学、医学関連のデータベースを各研究者が、デスクトップで統合して利用できるように作られています。
ゲノムネットの最大の売り物はリンクの概念を生物的なつながりに拡張した KEGG システムです。生物の機能とは、多数の遺伝子および分子の相互作用により実現されているという考えに基づいて、KEGG では生物機能を遺伝子または分子のネットワークとして表現した
“PATHWAY”データベースと、各生物種のゲノムプロジェクトから決定される遺伝子カタログを集積した “GENES”データベースを中心に、生命システムの配線図が明白になるように作られています。
ゲノムネットのもう1つの特徴はリンク情報をダイナミックに扱っている点です。つまり、複数のリンクを組み合わせて新しいリンクを導き出す機能(2つのリンク A → B と B → C から新しいリンク A → C を導くというようなもの)を持っており、ゲノムネットでは、これをDBGET/LinkDB
と名づけています。つまり、DBGET/LinkDBシステムや KEGG システムは簡単な演繹データベースシステムとなっています。
·
ゲノムネットの構成
ゲノムネットは、大きく分けると@生物・医学関連のデータベースとAそのデータの解析ツールの2つによって構成されています。具体的には、データベースには、DNA配列、タンパク質配列などの情報が、解析ツールには、配列類似性ツール、タンパク質の構造、機能予測ツールなどがあります。
図1 DBGET リンク・ダイアグラム
図1-3には、DBGET
データベースのリンク図が示されています。これは各データベースをノード、リンク情報が存在するデータベース間のつながりをエッジとしたグラフです。DBGET/LinkDB
システムでは重要な経路についてはあらかじめリンクしていますが、ダイナミックにリンクする機能(すなわち、エッジが存在しないデータベース間でも、他のエッジをたどることによりリンクをつける機能)もあり、例えばユーザー独自のデータベースが
SWISS-PROT だけにリンクされていれば、ゲノムネットデータベースのすべてに対してのリンクを求めることができるわけです。
·
それでは、実際にゲノムネットのホームページにつなげてみましょう。
@ ネットスケープナビゲーターを起動
A URLの入力アドレス欄に
http://www.genome.ad.jp/Japanese/ と入力
B リターンキーを押す
C ここでは、主にゲノム関連のデータベースについて扱ってみるので、スクロールバーを下に移動して、「DBGET/LinkDB データベース統合検索システム」をクリックします。
初めのページでは、ゲノムネットの説明とゲノムネットで利用できるデータ
ベースについての説明が書かれています
D 今回は、DNA配列に関するデータベース検索のみゲノムネットで行ってみます。
DNA配列検索では、先ほど行ったように「RefSeq」「GenBank」「EMBL」の3つのデータベースを個々に利用することもできますが、ここでは、ゲノムネットの特徴を生かして、3つのデータベース全てを検索することにしましょう。その場合、「DNA」の文字をクリックします。
基本的に、この画面上でDNAのデータベース検索を行ないます。
Select
database :
bfind
mode :いわゆるキーワード検索で、入力した文字列を含む全ての遺伝子情報が 検索されます。
bget
mode : 遺伝子の登録名のみを検索します。すでに、もとめる遺伝子の検索名が分かっている場合は、こちらを使用します。
Max
number of hits : 検索結果を最高どれくらい表示するかを決定できます。
ここでは、RefSeq、GenBank、EMBLの三つのデータベースに登録されているデータ全てを検索することになります。
E ここでは、GPCRのキーワードで、GPCRに関連するデータを検索してみます。
bfind mode
で、以下のように入力(文字は大文字、小文字の区別はありません。)して、「Submit」をクリック。
このように、「GPCR」というキーワードを含む登録遺伝データが出力されます。
ここで一番初めに示された文字はその遺伝データの登録されているデータベースを示し、「:」以後の文字は、登録番号を示します。
gbu : Refseq gb : GenBank gmb : GMBL
F 2番目のgbg :
[AF178982] について詳しく見てましょう。登録番号をクリックします。l
LOCUS AF178982 981 bp mRNA PRI 14-MAR-2001
1行目は、登録番号、塩基の長さ(base pair)、配列の種類、登録日が書かれてあります。2行目のDEFINITIONは、この遺伝子の種類が示してあります。この場合、「ヒト(ホモサピエンス)の推定Gプロテインカップルレセプター前駆体(GPCR21)。配列は、mRNAの配列。」ということが読み取れます。
translationと書かれ部分は、この遺伝子配列から、コドン表を頼りにアミノ酸配列に直した配列を示しています。ORIGIN以後が、この遺伝子の実際の塩基配列を示しています。
*アミノ酸配列等も同様にゲノムネットを使うことで、各種データベースを網羅的に検索することができます。
◎続いてKEGGを使って、ゲノムデータから抽出されるデータがどのような生物学的意味合いなのかイメージできるようにしましょう。
F ゲノムネットのトップページに戻って、「KEGG
生命システム情報統合データベース」をクリック。
G KEGGのページ上で「Open
KEGG」をクリック。
スクロールバーを下に移動すると以下の図が見えます。
H 今回は、生物の代謝経路に関するデータベースを調べてみましょう。
「Metabolic
pathways」をクリック。
*Metabolic
pathways;代謝経路
I まずは、一番上の「Metabolism」をクリックしてみます。
*単純に代謝経路といっても、「炭化水素」や「核酸」、「脂質」、「アミノ酸」などたくさんの物質が複雑に絡み合っているのが見てとれると思います。
J 「Amino Acid Metabolism」をクリックして、その部分を拡大してみましょう。
K 「Tryptophan metabolism」をクリックして、さらにその部分を拡大してみましょう。
· この図では、タンパク質を構成している20種類のアミノ酸の一つ「トリプトファン」が、どのような経路で、どのような物質からできあがっていくかを示しています。
L 「KEGG – Table of Contents」に戻って、「PATHWAY」をクリックすると、DBGETシステムを使って、pathwayデータベース内のキーワド検索が行なえます。bfind
mode で、先ほどのトリプトファン(Tryptophan)をキーワードに検索を行なってみましょう。
M 一番上の「1. path:aae00380 Tryptophan
metabolism 」が先ほどのトリプトファンの代謝経路です。クリックしてみましょう。
N 緑色に色が変わっている四角が、とくに「Tryptophan」というキーワードを含むタンパク質です。クリックしてみると、そのタンパク質の詳細(DNA配列やアミノ酸配列)を知ることができます。
*このように、KEGGとDBGETを組み合せることで、検索しているデータが、生物学的にどのような位置で機能しているかということをイメージすることが可能になるのです。