ゲノムリテラシー講座タンパク質構造予測（清水謙多郎）

科学技術振興機構バイオインフォマティクス推進センター（BIRD）　ゲノムリテラシー講座

担当: 清水謙多郎, 城野亮太, 角田将典（東京大学農学生命科学研究科）

•この実習の目的

ホモロジーモデリングの代表的なツールであるModellerを用いて、構造予測の実習を行う。
PSI-BLASTのプロファイルの利用、フォールド認識ツールFUGUEの利用法についても学び、アラインメントによる構造予測の精度の向上について考える。
また、Verify3Dを用いたモデル構造評価についても実習を行う。
さらに、マルチドメインのタンパク質の扱いについても触れ、中級レベルの技術まで習得することを目指す。

•この実習で使用するツール、データベース

Modeller（http://salilab.org/modeller/）
タンパク質モデリングツール
NCBI BLAST（http://blast.ncbi.nlm.nih.gov/Blast.cgi）
ホモロジー検索サイト（テンプレートの検索、アラインメントの精密化に利用）
FUGUE（http://tardis.nibio.go.jp/fugue/）
フォールド認識ツール（構造を考慮したテンプレートの検索、アラインメントの精密化に利用）
Pfam(http://www.sanger.ac.uk/Software/Pfam/) → http://pfam.sanger.ac.uk/に移行中
タンパク質ファミリーデータベース（ドメイン構成を調べるのに利用）
DISOPRED（http://bioinf.cs.ucl.ac.uk/disopred/）
タンパク質disorder領域予測ツール
Verify3D（http://nihserver.mbi.ucla.edu/Verify_3D/）
タンパク質モデル構造評価ツール
SuperPose（http://wishart.biology.ualberta.ca/SuperPose/）
タンパク質モデル構造重ね合わせツール
Jalview（http://www.jalview.org/）
アラインメントエディタ（マルチプルアラインメントの形式変換などに利用）

タンパク質Xの構造予測

ターゲットのタンパク質Xの配列は、proteinx.fastaからダウンロードして下さい。

ターゲットのタンパク質は、PDB ID: 1vl0のAチェインです。その構造は1vl0.pdbからダウンロードできます。
テンプレートのタンパク質は、PDB ID: 1n2sのAチェインを用います。その構造は1n2s.pdbからダウンロードできます。

BLAST検索によって得られた配列アラインメント（alix1.ali）とModellerスクリプト（model-proteinx1.py）
予測結果はproteinx1.pdb
PSI-BLAST検索によって得られた配列アラインメント（alix2.ali）とModellerスクリプト（model-proteinx2.py）
配列データベースの検索で得られたプロファイル（PSSM）はproteinx.pssm
予測結果はproteinx2.pdb
FUGUEによって得られた配列アラインメント（alix3.ali）とModellerスクリプト（model-proteinx3.py）
予測結果はproteinx3.pdb
さらにそれを修正したもの（alix4.ali）とModellerスクリプト（model-proteinx4.py）
予測結果はproteinx4.pdb

実習で、アラインメントファイルやModellerのスクリプトなどを作りますが、時間的に間に合わない場合は、上記のできあいのものを使って下さい。

ヒトのプリオンタンパク質の構造予測

ターゲットのタンパク質Xの配列は、1qlx.fastaからダウンロードして下さい。

ターゲットのタンパク質は、PDB ID: 1qlxです。結晶構造は1qlx.pdbからダウンロードできます。

PSI-BLAST検索、テンプレート1dx0.pdbによって得られた配列アラインメント（prion1.ali）とModellerスクリプト（model-prion1.py）
配列データベースの検索で得られたプロファイル（PSSM）はprion.pssm
予測結果は1qlx1.pdb

タンパク質BenCの構造予測

ターゲットのタンパク質BenCの配列は、1krh.fastaからダウンロードして下さい。

ターゲットのタンパク質は、PDB ID: 1krhのAチェインです。結晶構造は1krh.pdbからダウンロードできます。

以下の手法で、モデリングを行います。

Model 1: BLAST検索、テンプレート1cqx:A, 1iue:A
- テンプレート: 1cqx.pdb, 1iue.pdb
- 配列アラインメント: 1krh1.ali
- Modellerスクリプト: model-1krh1.py
- 予測結果のモデル構造: 1krh1.pdb
Model 2: BLAST検索、テンプレート1tvc:A, 1iue:A
- テンプレート: 1tvc.pdb, 1iue.pdb
- 配列アラインメント: 1krh2.ali
- Modellerスクリプト: model-1krh2.py
- 予測結果のモデル構造: 1krh2.pdb
Model 3: PDBに対するPSI-BLAST検索、テンプレート2bmw:A, 1off:A
- テンプレート: 2bmw.pdb, 1off.pdb
- 配列アラインメント: 1krh3.ali
- Modellerスクリプト: model-1krh3.py
  予測結果のモデル構造: 1krh3.pdb
Model 4: 配列データベースを用いて作成したプロファイルでPDBをPSI-BLAST検索、テンプレート1cqx:A, 1iue:A
- テンプレート: 1cqx.pdb, 1iue.pdb
- 配列アラインメント: 1krh4.ali
- Modellerスクリプト: model-1krh4.py
- プロファイル: 1krh.pssm
- 予測結果のモデル構造: 1krh4.pdb
Model 5: FUGUEによる構造-配列アラインメント、テンプレート1gvh:A
- テンプレート: 1gvh.pdb
- 配列アラインメント: 1krh5.ali
- Modellerスクリプト: model-1krh5.py
- 予測結果のモデル構造: 1krh5.pdb
Model 6: Model 5のアラインメントを修正したもの
- テンプレート: 1gvh.pdb, 1iue.pdb
- 配列アラインメント: 1krh6.ali
- Modellerスクリプト: model-1krh6.py
- 予測結果のモデル構造: 1krh6.pdb

実習時間中はすべて確認できませんが、興味のある方は後で確かめて下さい。

そのほか、実習に関連したツール、データベース

SwissModel(http://swissmodel.expasy.org/SWISS-MODEL.html)
Webベースのタンパク質立体構造モデリングツール
PredictProtein（PROFsec、PROFaccなど）（http://www.predictprotein.org/）
二次構造予測、埋もれ度予測などのツール群
PSIPRED（http://bioinf.cs.ucl.ac.uk/psipred/）
Jpred3（http://www.compbio.dundee.ac.uk/~www-jpred/index.html）
InterPro（http://www.ebi.ac.uk/interpro/）
PROSITE、Pfam、BLOCKS、PRINTSなど、複数のデータベースの統合検索サービス

タンパク質立体構造データベース（付録）

タンパク質立体構造データベースには、立体構造データそのものを登録した一次データベースと、構造を分類・比較した結果を登録した二次データベースがある。前者については、PDB(Protein Data Bank)がその役割を担っている。PDBには、タンパク質のX線結晶構造解析、NMRで得られた3次元座標データ、アミノ酸配列と二次構造の情報、文献情報、そのほか、熱ゆらぎに関する情報や解像度などが記載されている。またDNA、RNAなどの核酸の立体構造や、複数の分子の複合体の立体構造なども登録されている。

PDB(http://www.rcsb.org/pdb/)
RCSB(Research Collaboratory for Structural Bioinformatics)が公開しているタンパク質構造データベース。1971年、Brookhaven National Laboratoryに設立された。1980年代に入り、X線結晶構造解析の技術の向上、情報公開の流れに伴い、データ数が急増。1990年代に入って、主要雑誌がPDB登録番号の掲載を義務づけ、一部グラント取得にもPDBへの登録が義務づけられるようになる。1998年にRCSBに管理が移管される。タンパク質だけでなく、核酸、糖鎖などの立体構造も登録されている。なお、日本では大阪大学蛋白研にミラーサイトがある。このサイトではさらに関連データベースやPDBをXML化したデータベースなどを統合して、PDBj(http://www.pdbj.org/)として公開している。2003年、RCSB、MSD-EBI、PDBjが、単一データベースの提供、データ形式の修正と統一を目的とするWorldwide Protein Data Bank（wwPDB）（http://www.wwpdb.org/）を結成した。

タンパク質の機能を予測・解析するのに、タンパク質の構造の分類は重要である。このため、タンパク質のフォールド（主鎖の折りたたみパターン）で分類する試みがいくつかなされている。

SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/)
英国MRC Laboratory of Molecular Biology and Centre for Protein Engineeringが1994年から公開している、タンパク質の進化上、構造上の関係を記述したデータベース。クラス（構成している主要な二次構造による分類）、フォールド（二次構造の構成、その空間的な配置が共通しているもの）、スーパーファミリー（配列一致度は高くないが、構造や機能が共通の進化的起源をもっていると判断されるもの）、ファミリー（配列一致度が30%以上、もしくは構造や機能が非常に似ているもの）の各レベルにおける分類が行われている。
CATH(http://www.biochem.ucl.ac.uk/bsm/cath/)
University College Londonが公開しているタンパク質構造分類データベース。SCOPよりも自動化を進めているが、最終的には人による判断を採り入れている。クラス（構成している主要な二次構造による分類）、アーキテクチャ（二次構造の構成、総体的な配置が共通しているもの）、トポロジー（二次構造の構成、配置とつながり方が共通しているもの）、ホモロガススーパーファミリー（構造や機能が共通の進化的起源をもっていると予想されるもの）、シーケンスファミリー（配列一致度が35%以上、もしくは構造や機能が非常に似ているもの）の各レベルにおける分類が行われている。構造は、ドメインを単位に記録され、その定義はSCOPに比べ構造を重視したものになっている。
DALI(http://ekhidna.biocenter.helsinki.fi/dali/)
EBIが公開しているタンパク質構造分類データベース。以前はFSSPと呼ばれていた。タンパク質の構造上の分類を自動的に行った結果を掲載している。ここで用いられているDALI(http://ekhidna.biocenter.helsinki.fi/dali_server/)というプログラムは、新規にタンパク質の立体構造を決定したとき、ほかに似たタンパク質が存在するかどうかを検索するのによく用いられる。

タンパク質構造比較のツールについては、Daliのほか、CE（http://cl.sdsc.edu/）も良く用いられている。また、上記のタンパク質分類データベースのサイトにも、公開されているツールがある。

実習に関する意見、質問は、こちらまで。

科学技術振興機構バイオインフォマティクス推進センター（BIRD） ゲノムリテラシー講座

科学技術振興機構バイオインフォマティクス推進センター（BIRD）　ゲノムリテラシー講座