科学技術振興機構バイオインフォマティクス推進センター(BIRD) ゲノムリテラシー講座
担当: 清水謙多郎, 城野亮太, 角田将典(東京大学農学生命科学研究科)
•この実習の目的
ホモロジーモデリングの代表的なツールであるModellerを用いて、構造予測の実習を行う。
PSI-BLASTのプロファイルの利用、フォールド認識ツールFUGUEの利用法についても学び、アラインメントによる構造予測の精度の向上について考える。
また、Verify3Dを用いたモデル構造評価についても実習を行う。
さらに、マルチドメインのタンパク質の扱いについても触れ、中級レベルの技術まで習得することを目指す。
•この実習で使用するツール、データベース
タンパク質Xの構造予測
ターゲットのタンパク質Xの配列は、proteinx.fastaからダウンロードして下さい。
ターゲットのタンパク質は、PDB ID: 1vl0のAチェインです。その構造は
1vl0.pdbからダウンロードできます。
テンプレートのタンパク質は、PDB ID: 1n2sのAチェインを用います。その構造は
1n2s.pdbからダウンロードできます。
実習で、アラインメントファイルやModellerのスクリプトなどを作りますが、時間的に間に合わない場合は、上記のできあいのものを使って下さい。
タンパク質BenCの構造予測
ターゲットのタンパク質BenCの配列は、1krh.fastaからダウンロードして下さい。
ターゲットのタンパク質は、PDB ID: 1krhのAチェインです。結晶構造は
1krh.pdbからダウンロードできます。
以下の手法で、モデリングを行います。
- Model 1: BLAST検索、テンプレート1cqx:A, 1iue:A
- Model 2: BLAST検索、テンプレート1tvc:A, 1iue:A
- Model 3: PDBに対するPSI-BLAST検索、テンプレート2bmw:A, 1off:A
- Model 4: 配列データベースを用いて作成したプロファイルでPDBをPSI-BLAST検索、テンプレート1cqx:A, 1iue:A
- Model 5: FUGUEによる構造-配列アラインメント、テンプレート1gvh:A
- Model 6: Model 5のアラインメントを修正したもの
実習時間中はすべて確認できませんが、興味のある方は後で確かめて下さい。
そのほか、実習に関連したツール、データベース
タンパク質立体構造データベース(付録)
タンパク質立体構造データベースには、立体構造データそのものを登録した一次データベースと、構造を分類・比較した結果を登録した二次データベースがある。前者については、PDB(Protein
Data Bank)がその役割を担っている。PDBには、タンパク質のX線結晶構造解析、NMRで得られた3次元座標データ、アミノ酸配列と二次構造の情報、文献情報、そのほか、熱ゆらぎに関する情報や解像度などが記載されている。またDNA、RNAなどの核酸の立体構造や、複数の分子の複合体の立体構造なども登録されている。
- PDB(http://www.rcsb.org/pdb/)
RCSB(Research Collaboratory for Structural
Bioinformatics)が公開しているタンパク質構造データベース。1971年、Brookhaven National
Laboratoryに設立された。1980年代に入り、X線結晶構造解析の技術の向上、情報公開の流れに伴い、データ数が急増。1990年代に入って、
主要雑誌がPDB登録番号の掲載を義務づけ、一部グラント取得にもPDBへの登録が義務づけられるようになる。1998年にRCSBに管理が移管される。
タンパク質だけでなく、核酸、糖鎖などの立体構造も登録されている。なお、日本では大阪大学蛋白研にミラーサイトがある。このサイトではさらに関連データ
ベースやPDBをXML化したデータベースなどを統合して、PDBj(http://www.pdbj.org/)として公開している。2003年、RCSB、MSD-EBI、PDBjが、単一データベースの提供、データ形式の修正と統一を目的とするWorldwide
Protein Data Bank(wwPDB)(http://www.wwpdb.org/)を結成 した。
タンパク質の機能を予測・解析するのに、タンパク質の構造の分類は重要である。このため、タンパク質のフォールド(主鎖の折りたたみパターン)で分類する試みがいくつかなされている。
- SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/)
英国MRC Laboratory of Molecular Biology and Centre for Protein
Engineeringが1994年から公開している、タンパク質の進化上、構造上の関係を記述したデータベース。クラス(構成している主要な二次構造に
よる分類)、フォールド(二次構造の構成、その空間的な配置が共通しているもの)、スーパーファミリー(配列一致度は高くないが、構造や機能が共通の進化
的起源をもっていると判断されるもの)、ファミリー(配列一致度が30%以上、もしくは構造や機能が非常に似ているもの)の各レベルにおける分類が行われ
ている。
- CATH(http://www.biochem.ucl.ac.uk/bsm/cath/)
University College Londonが公開しているタンパク質構造分類データベース。SCOPよりも自動化を進めているが、最終的には人による判断を採り入れている。クラス(構成している主要な二次構造による分類)、アーキテクチャ(二次構造の構成、総体的な配置が共通しているもの)、トポロジー(二次構造の構成、配置とつなが
り方が共通しているもの)、ホモロガススーパーファミリー(構造や機能が共通の進化的起源をもっていると予想されるもの )、シーケンスファミリー(配列一致度が35%以上、もしくは構造や機能が非常に似ているもの)の各レベルにおける分類が行われている。構造は、ドメイン
を単位に記録され、その定義はSCOPに比べ構造を重視したものになっている。
- DALI(http://ekhidna.biocenter.helsinki.fi/dali/)
EBIが公開しているタンパク質構造分類データベース。以前はFSSPと呼ばれていた。タンパク質の構造上の分類を自動的に行った結果を掲載している。ここで用いられているDALI(http://ekhidna.biocenter.helsinki.fi/dali_server/)というプログラムは、新規にタンパク質の立体構造を決定したとき、ほかに似たタンパク質が存在するかどうかを検索するのによく用いられる。
タンパク質構造比較のツールについては、Daliのほか、CE(http://cl.sdsc.edu/)も良く用いられている。また、上記のタンパク質分類データベースのサイトにも、公開されているツールがある。
実習に関する意見、質問は、こちらまで。