ホモロジー検索については、すでに学んだので、ここでは、それ以外の項目について紹介する。
まず、配列のマルチプルアラインメントについて実習を行う。ここでは、ClustalWの利用法を紹介する。ClustalWは、いろいろなサイトで利用できるが、実習では、ゲノムネットのサイトを利用する。
検索用配列をtpis.txtからダウンロードして下さい。
また、チトクロームCの配列cyto.txtについても、同様の解析をしてみよう。
タンパク質の機能は他の分子との相互作用に基づいている。相互作用に関与する部位は、配列や立体構造上の特徴的なパターン、すなわちモチーフを
形成する。配列全体のホモロジーが低くても(あまり似てなくても)、特定の機能を実現するモチーフは強く保存されていることが多い。配列上のモチーフは、
関連するアミノ酸配列を集めて、マルチプルアラインメント(複数の配列を要素ごとに対応づけて並べること)を行うことにより見いだすことができる。こうし
たモチーフを登録し、与えられた配列から検索できるようにしたデータベースがモチーフデータベース(モチーフライブラリともいう)である。モチーフデータ
ベースは、配列パターンに対応する生物学的な意味が書かれた辞書とみなすことができる。モチーフデータベースの代表的なものにPROSITEがある。
PROSITEの実習
検索用配列をseq1.txtからダウンロードして下さい。
タンパク質のファミリーを特徴づけるギャップをはさまない一致部分をブロックという。ブロックは、同じファミリーに属する複数のアミノ酸配列のマルチプルアラインメントによって表される。ブロックを登録しているデータベースには、以下のようなものがある。
BLOCKS、PRINTS、Pfam、InterProの実習
BLOCKSでのブロック抽出用配列(複数)をatf.txtからダウンロードして下さい。
Pfam、InterProの検索でもseq1.txtを使用しますが、時間に余裕があれば、seq2.txtでも試して下さい(一部は課題)。
タンパク質のファミリーとドメインを登録したデータベースに、Pfamがある。文献情報やPROSITEなどのアミノ酸配列データベースから機能を共有す
るアミノ酸配列でseedを作り、それをもとに隠れマルコフモデルを構築して、それにマッチしたものをグループ化している。
InterProは、PROSITE、Pfam、BLOCKS、PRINTSなど、複数のデータベースの統合検索サービスである。
InterPro(http://www.ebi.ac.uk/interpro/)
そのほか、講義では、細胞内局在部位予測PSORT、膜タンパク質予測SOSUIの実習も行う。
膜タンパク質は、細胞間シグナル伝達、代謝産物輸送、エネルギー生産に重要な役割を果たす。膜タンパク質は、全ゲノムの20~30%を占めるものの、構造決定が難しく、PDB登録数は1%程度である。しかしながら、その二次構造は、比較的高い精度で予測することができる。
PSORTの実習
検索用配列をseq3.txtからダウンロードして下さい。
また、seq6.txtとseq7.txtについても、同様の解析をしてみよう。
Boyer-Mooreの文字列比較アルゴリズムを実現したプログラムはこちら(適当に補うこと)