平成14年度2類学生実験(コンピュータ実習のガイダンス)

バイオインフォマティクスの基礎実習
(4年生「生物情報工学」講義用に改訂)

平成14年4月17日


  1. はじめに
  2. 生物の研究に役立つデータベース
    1. 塩基配列データベース
    2. アミノ酸配列データベース
    3. タンパク質機能データベース
    4. タンパク質構造データベース
    5. パスウェイデータベース
    6. 文献データベース
    7. 統合データベース検索
  3. データベース検索の実習
    1. GenBankを用いた塩基配列情報の検索
    2. SWISS-PROTを用いたアミノ酸配列情報の検索
    3. PROSITEを用いたモチーフ情報の検索
    4. SCOPを用いたタンパク質構造分類情報の検索
    5. PDBを用いたタンパク質立体構造の検索
  4. タンパク質の立体構造のグラフィックス表示
  5. ホモロジー検索
    1. ホモロジー検索とは
    2. ホモロジー検索の実習
  6. おわりに

1. はじめに

遺伝子情報やタンパク質の配列・構造に関する情報は日々蓄積され、巨大なデータベースが形成され、インターネットを介して公開されている。2類に進学したみんなが、これからの学習、研究において、こうしたデータベースを利用する機会は多いはずである。また一方で、コンピュータにより、こうした膨大なデータを処理して、有用な情報を引き出し、それを用いて、例えば、タンパク質の構造や機能の予測・解析に利用する研究が進められている。とくに、生物学では、物理学や化学のように原理から出発して計算を行うのではなく、蓄積されたデータの中から知識や経験則を見いだすことが中心であり、データベースがそのための主要な役割を果たしている。 この実習では、生物学でよく用いられるデータベースの概要と、その簡単な利用法、さらに、タンパク質の立体構造のグラフィックス表示、ホモロジー検索の利用法について学ぶ。

2. 生物の研究に役立つデータベース

2.1 塩基配列データベース

塩基配列データベースは、DNA、RNAの塩基配列とその説明、文献情報などを記載したデータベースである。米国、欧州、日本でそれぞれGenBank, EMBL, DDBJ(DNA Database of Japan)というデータベースが構築されており、これらは協力関係により、日々更新されている。基本的に3つのデータベースがすべてのデータを保持し、地理的に分担するような方式になっている。当初は、論文発表されたものを手作業で入力するのが一般的であったが、アノテーション(遺伝子等の機能に関する注釈)を含むデータ作成を著者に任せ、論文発表と同時にデータベースに登録することが義務づけられるようになった。最近は、ゲノム解読プロジェクトの進展とともに、生物種ごとのゲノムデータベースが誕生し、個々のデータはいったんこれらのデータベースに登録され、そこから大量のデータが一括して、GenBank、EMBL、DDBJに送られるケースが多くなってきている。

  1. GenBank(http://www.ncbi.nlm.nih.gov/)
    米国NIH(National Institute of Health)のNCBI(National Center for Biotechnology Information)が管理。
  2. EMBL(http://www.ebi.ac.uk/embl/)
    EMBL(European Molecular Biology Laboratory)のEBI(European Bioinformatics Institute)が管理。GenBankとは異なる形式で記録されている。
  3. DDBJ(htto://www.ddbj.nig.ac.jp/)
    国立遺伝研究所の遺伝情報研究センターが管理。GenBankの形式で記録されている。

2.2 アミノ酸配列データベース

アミノ酸配列データベースは、アミノ酸の配列情報とその説明、文献情報などを記載したデータベースである。PIR(Protein Information Resources)、機能に関する情報を詳しく記載したSWISS-PROTなどがある。

  1. PIR(http://pir.georgetown.edu/)
    NBRF(National Biomedical Research Foundaition)のM. O. Dayhoffがアミノ酸配列と分子進化の解析結果を収集し、Atlas of Protein Sequence and Structureとしてまとめた。これがNBRFでデータベース化され、NIHの支援を受けて、データベースに発展した。
  2. SWISS-PROT(http://www.expasy.org/sprot/)
    スイスSIB(Swiss Institute of Bioinformatics)とEBIが共同で管理しているアノテーションつきのアミノ酸配列データベース。タンパク質の機能、ドメイン構造などの高水準のアノテーションが特徴。他のさまざまなデータベースにリンクが張られている。データ形式は、EMBLデータベースに類似。また、EMBLのコード領域からコンピュータで変換して求めたアミノ酸配列をSWISS-PROTと同様の形式で登録したTrEMBLがある。

2.3 タンパク質機能データベース

タンパク質の機能は他の分子との相互作用に基づいている。相互作用に関与する部位は、配列や立体構造上の特徴的なパターン、すなわちモチーフを形成する。配列全体のホモロジーが低くても、特定の機能を実現するモチーフは強く保存されていることが多い。配列上のモチーフは、関連するアミノ酸配列を集めて、マルチプルアラインメント(複数の配列を要素ごとに対応づけて並べること)を行うことにより見いだすことができる。こうしたモチーフを登録し、与えられた配列から検索できるようにしたデータベースがモチーフデータベース(モチーフライブラリともいう)である。モチーフデータベースは、配列パターンに対応する生物学的な意味が書かれた辞書とみなすことができる。モチーフデータベースには次のようなものがある。

  1. PROSITE(http://expasy.nhri.org.tw/prosite/)
    EBIが管理するタンパク質の配列モチーフを登録したデータベース。PROSITEのデータは、パターンをコンピュータ解析して得られたものではなく、文献で公開されたデータやタンパク質ファミリーの特徴的な機能、ドメイン構造について総説などをもとに選択されたものである。また、他のデータベースに対するリンク情報も豊富である。
  2. Pfam(http://www.sanger.ac.uk/Software/Pfam/)
    SIBが公開しているタンパク質のファミリ分類に関するデータベース。アミノ酸配列にクラスタリングを適用し、ファミリー分類を行って構築している。

タンパク質機能データベースとしては、そのほか、酵素に関する情報を登録したデータベースが挙げられる。酵素専門のデータベースとしてENZYMEがある。

2.4 タンパク質構造データベース

タンパク質の構造情報は、タンパク質の機能を生化学的に理解するという学術的な観点のみならず、薬剤や食品の設計を支援するといった応用面からも非常に重要である。タンパク質構造データベースには、構造データそのものを登録した一次データベースと、構造を分類・比較した結果を登録した二次データベースがある。前者については、PDB(Protein Data Bank)が実際にその役割を担っている。PDBには、タンパク質のX線結晶構造解析、NMRで得られた3次元座標データ、アミノ酸配列と二次構造の情報、文献情報、そのほか、熱ゆらぎに関する情報や解像度なども記載されている。

タンパク質の機能を予測・解析するのに、タンパク質の構造の分類は重要である。このため、タンパク質のフォールド(主鎖の折りたたみパターン)で分類する試みがいくつかなされている。

  1. SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/)
    英国MRC Laboratory of Molecular Biology and Centre for Protein Engineeringが1994年から公開している、タンパク質の進化上、構造上の関係を記述したデータベース。スーパーファミリ、ファミリ、フォールドの各レベルにおける分類が行われている。
  2. CATH(http://www.biochem.ucl.ac.uk/bsm/cath/)
    University College Londonが公開しているタンパク質構造分類データベース。アミノ酸配列にクラスタリングを適用して、ファミリー分類を行うことにより、構築している。
  3. FSSP(http://www.ebi.ac.uk/dali/fssp/fssp.html)
    EBIが公開しているタンパク質構造分類データベース。タンパク質の構造上の分類を自動的に行った結果を掲載している。ここで用いられているDali(http://www.ebi.ac.uk/dali/)というプログラムは、新規にタンパク質の立体構造を決定したとき、ほかに似たタンパク質が存在するかどうかを検索するのによく用いられる。

2.5 パスウェイデータベース

生体内において、機能は一般に複数の分子の統合によって実現される。酵素と基質のように、こうした複数の分子の間の相互作用のネットワークを系統的に集積し、データベース化したものが存在する。代表的なものに、KEGG(Kyoto Encycropedia of Genes and Genomes)、WIT(What Is There)がある。

2.6 文献データベース検索

文献調査は、研究では不可欠の作業である。生物学・医学の文献調査で欠かせないものにMEDLINEがある。MEDLINE (MEDlars onLINE) とは、NLM(National Library of Medicine, 国立医学図書館)が作成する医療文献データベースである。70カ国で出版された4,600誌を越える最新の生物医学系ジャーナルからの要約が収められている。1966年以降の約1,100万件のデータをすべて含んでいる。MEDLINEのデータは毎週PubMedに掲載される。 


PubMedのページの一部



論文の中には、電子ジャーナルとして参照できるものが多い。通常、ブラウザでそのまま閲覧できるhtml形式あるいはpdf形式で公開されている。その多くは、あらかじめ登録した利用者でなければ閲覧することができないが、東大の場合、大学の一括契約などにより、3700件以上の雑誌が閲覧できるようになっている(http://ejournal.dl.itc.u-tokyo.ac.jp/)。そのほか、研究者個人のホームページで自著論文を掲載している場合もあるので、注意してみよう。


東大電子ジャーナル検索のページの一部



2.7 統合データベース検索

WWWの特徴は、世界中のサーバのファイルをリンクで結合して相互参照できるになっている点である。このような構造をもつ文書をハイパーテキストという。データが分散する生物のデータベースでは、このハイパーテキストは非常に適しているといえる。以下の実習で学ぶように、塩基配列とそれを翻訳したアミノ酸配列、これらが発表された文献、さらにタンパク質の構造とや機能など、異なるデータベースの間にはリンクがはられている。また、さらに、こうした遺伝子、タンパク質、文献などのデータベースを統合的に利用するための検索サービスを備えたサイトが存在する。国立遺伝学研究所のDBGET、NCBIのEntrezなどがその代表例である。

DBGETのリンク図




3. データベース検索の実習

データベースの検索実習では、主に、細胞核内に存在する転写因子Sp1を対象として、以下の流れでデータベースの検索を行う。Sp1は、DNAと結合するタンパク質で、DNA結合部位には、zinc fingerモチーフを含んでいる。ヒト由来のSp1は、構造も解明されており、この実習では、遺伝子の塩基配列、アミノ酸配列から初めて、zinc fingerモチーフのパターンと機能、立体構造を検索する。また、その構造をグラフィックス表示させる。最後に、進化・系統分類の解析、タンパク質の機能解析などを目的とした配列解析の最も基本的な手法の一つであるホモロジー解析について実習する。


3.1. GenBankを用いた塩基配列情報の検索

GenBankにアクセスして、DNAの塩基配列情報を検索する。
  1. GenBank(http://www.ncbi.nlm.nih.gov/)にアクセスする。

  2. Human transcription factor Sp1」を検索する。

    GenBankでの検索キーワードの入力



  3. 検索された結果から「J03133」をクリックして表示させる。206件の検索結果が得られるはずで、そのうち205番目のエントリがJ03133である。11ページ(最後のページ)を直接参照するとよい。以下のような結果が表示されることを確認する。

    GenBankの検索結果の例
    LOCUS       HUMTFSP1                2655 bp    mRNA    linear   PRI 14-JAN-1995
    DEFINITION  Human transcription factor SP1 mRNA, 3' end.
    ACCESSION   J03133
    VERSION     J03133.1  GI:339517
    KEYWORDS    transcription factor SP1.
    SOURCE      Human HeLa cell, cDNA to mRNA, (library of C.Hauser), clone Sp1-1.
      ORGANISM  Homo sapiens
                Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
                Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
    REFERENCE   1  (bases 1 to 2655)
      AUTHORS   Kadonaga,J.T., Carner,K.R., Masiarz,F.R. and Tjian,R.
      JOURNAL   Unpublished (1987)
    REFERENCE   2  (sites)
      AUTHORS   Kadonaga,J.T., Carner,K.R., Masiarz,F.R. and Tjian,R.
      TITLE     Isolation of cDNA encoding transcription factor Sp1 and functional
                analysis of the DNA binding domain
      JOURNAL   Cell 51 (6), 1079-1090 (1987)
      MEDLINE   88080466
    COMMENT     [2]  sites; binding domains.
                Draft entry and computer-readable sequence for [1] kindly provided
                by J.T.Kadonaga, 17-NOV-1987.
    FEATURES             Location/Qualifiers
         source          1..2655
                         /organism="Homo sapiens"
                         /db_xref="taxon:9606"
                         /map="12q"
         gene            1..2655
                         /gene="SP1"
         CDS             <1..2091
                         /gene="SP1"
                         /note="transcription factor Sp-1"
                         /codon_start=1
                         /protein_id="AAA61154.1"
                         /db_xref="GI:339518"
                         /db_xref="GDB:G00-127-453"
                         /translation="TGELDLTATQLSQGANGWQIISSSSGATPTSKEQSGSSTNGSNG
                         SESSKNRTVSGGQYVVAAAPNLQNQQVLTGLPGVMPNIQYQVIPQFQTVDGQQLQFAA
                         TGAQVQQDGSGQIQIIPGANQQIITNRGSGGNIIAAMPNLLQQAVPLQGLANNVLSGQ
                         TQYVTNVPVALNGNITLLPVNSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISS
                         ASLVSSQASSSSFFTNANSYSTTTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGS
                         DALNIQQNQTSGGSLQAGQQKEGEQNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQ
                         TFTTQAISQETLQNLQLQAVPNSGPIIIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQT
                         ITLAPMQGVSLGQTSSSNTTLTPIASAASIPAGTVTVNAAQLSSMPGLQTINLSALGT
                         SGIQVHPIQGLPLAIANAPGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGR
                         RTRREACTCPYCKDSEGRGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERP
                         FMCTWSYCGKRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKG
                         GPGVALSVGTLPLDSGAGSEGSGTATPSALITTNMVAMEAICPEGIARLANSGINVMQ
                         VADLQSINISGNGF"
    BASE COUNT      717 a    726 c    630 g    582 t
    ORIGIN      540 bp upstream of HincII site.
            1 acaggtgagc ttgacctcac agccacacaa ctttcacagg gtgccaatgg ctggcagatc
           61 atctcttcct cctctggggc tacccctacc tcaaaggaac agagtggcag cagtaccaat
          121 ggcagcaatg gcagtgagtc ttccaagaat cgcacagtct ctggtgggca gtatgttgtg
       (途中省略)
         2521 atataaagat atatagagat gcattcacag ggttggctgg agaggaagac cattctgtga
         2581 ccaaaatacc ttggtcattt tttttatatt gccttatttc cctatggctg agccttgttg
         2641 tgacacatca agctt
    ///
    
  4. ここで表示される内容は、データベースに格納されているJ03133のデータがそのまま表示されたものである。このデータは1つのテキストファイルに相当している。このように、生物学のデータベースの多くは、単純なテキストファイルにいろいろな属性と属性値(データの中身)を書き込んだものの集合体として実現されている、フラットファイルデータベースになっている。フラットファイルデータベースは、大規模なデータベースには適さないが、複雑なデータベース管理システムを必要とせず、扱いも容易である。
  5. ページ中、「/protein_id="AAA61154.1"」をクリックすることで、翻訳されたタンパク質の情報を表示させることができる。
    このように検索結果にはいろいろなリンクが含まれているので、各自で試してみるとよい。

  6. 配列を保存するときは、「Save」ボタンをクリックする。このページの内容がテキスト形式で保存される。

  7. 文献データベースPubMedを用いて、Referenceにある論文を検索する。

    まず、J03133のウィンドウをそのままにして、新規ウィンドウで、先ほどアクセスしたGenBank(http://www.ncbi.nlm.nih.gov/)のページにアクセスして、「Search Nucleotide」を「Search PubMed」に変更(「GenBank」の横の矢印をクリックして選ぶ)した後、Referenceの「TITLE」、「AUTHORS」、「MEDLINE」 にあるキーワードを使って検索する。このとき、J03133のREFERENCE 2の方を検索すること。もとのウィンドウに残っているTITLE等をコピー&ペーストして入力すると便利である。

  8. 時間に余裕のある人は、GenBankのデータ登録数が年代とともにどのように増加していったか調べてみよう(http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html)。また、EMBL(http://www.ebi.ac.uk/) でも同様の検索を実行してみよう.

  9. 時間の余裕のある人は、GenBankの形式について細かく調べてみよう(ヒント: http://www.ncbi.nlm.nih.gov/Genbank/GenbankOverview.htmlのrelease notesなど)。また、EMBLの形式と比較してみよう。

EMBLの検索結果の例

ID   HSTFSP1    standard; RNA; HUM; 2655 BP.
XX
AC   J03133;
XX
SV   J03133.1
XX
DT   16-JUL-1988 (Rel. 16, Created)
DT   04-MAR-2000 (Rel. 63, Last updated, Version 4)
XX
DE   Human transcription factor SP1 mRNA, 3' end.
XX
KW   transcription factor SP1.
XX
OS   Homo sapiens (human)
OC   Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
OC   Eutheria; Primates; Catarrhini; Hominidae; Homo.
XX
RN   [1]
RP   1-2655
RA   Kadonaga J.T., Carner K.R., Masiarz F.R., Tjian R.;
RT   ;
RL   Unpublished.
XX
RN   [2]
RX   MEDLINE; 88080466.
RA   Kadonaga J.T., Carner K.R., Masiarz F.R., Tjian R.;
RT   "Isolation of cDNA encoding transcription factor Sp1 and functional
RT   analysis of the DNA binding domain";
RL   Cell 51(6):1079-1090(1987).
XX
DR   GDB; 127453; SP1.
DR   SWISS-PROT; P08047; SP1_HUMAN.
DR   TRANSFAC; T00759; T00759.
XX
CC   [2]  sites; binding domains.
CC   Draft entry and computer-readable sequence for [1] kindly provided
CC   by J.T.Kadonaga, 17-NOV-1987.
XX
FH   Key             Location/Qualifiers
FH
FT   source          1..2655
FT                   /db_xref="taxon:9606"
FT                   /organism="Homo sapiens"
FT                   /map="12q"
FT   CDS             <1..2091
FT                   /codon_start=1
FT                   /db_xref="SWISS-PROT:P08047"
FT                   /note="transcription factor Sp-1"
FT                   /gene="SP1"
FT                   /protein_id="AAA61154.1"
FT                   /translation="TGELDLTATQLSQGANGWQIISSSSGATPTSKEQSGSSTNGSNGS
FT                   ESSKNRTVSGGQYVVAAAPNLQNQQVLTGLPGVMPNIQYQVIPQFQTVDGQQLQFAATG
FT                   AQVQQDGSGQIQIIPGANQQIITNRGSGGNIIAAMPNLLQQAVPLQGLANNVLSGQTQY
FT                   VTNVPVALNGNITLLPVNSVSAATLTPSSQAVTISSSGSQESGSQPVTSGTTISSASLV
FT                   SSQASSSSFFTNANSYSTTTTTSNMGIMNFTTSGSSGTNSQGQTPQRVSGLQGSDALNI
FT                   QQNQTSGGSLQAGQQKEGEQNQQTQQQQILIQPQLVQGGQALQALQAAPLSGQTFTTQA
FT                   ISQETLQNLQLQAVPNSGPIIIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQTITLAPMQ
FT                   GVSLGQTSSSNTTLTPIASAASIPAGTVTVNAAQLSSMPGLQTINLSALGTSGIQVHPI
FT                   QGLPLAIANAPGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTRREACTC
FT                   PYCKDSEGRGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTWSYCGK
FT                   RFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALSVGTL
FT                   PLDSGAGSEGSGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINISGN
FT                   GF"
XX
SQ   Sequence 2655 BP; 717 A; 726 C; 630 G; 582 T; 0 other;
     acaggtgagc ttgacctcac agccacacaa ctttcacagg gtgccaatgg ctggcagatc        60
     atctcttcct cctctggggc tacccctacc tcaaaggaac agagtggcag cagtaccaat       120
     ggcagcaatg gcagtgagtc ttccaagaat cgcacagtct ctggtgggca gtatgttgtg       180
   (途中省略)0
     atataaagat atatagagat gcattcacag ggttggctgg agaggaagac cattctgtga      2580
     ccaaaatacc ttggtcattt tttttatatt gccttatttc cctatggctg agccttgttg      2640
     tgacacatca agctt                                                       2655
//


GenBankなどのデータベースでは、データは特定の形式(フォーマット)に従って格納されている。データは、エントリの集合であり、各エントリは、エントリ名とその内容から構成されている。以下に、主なデータベースのエントリの種類を示す。
主なデータベースのデータ形式の比較

GenBank EMBL SWISS-PROT(表示) PIR PDB
データのアクセッション番号 ACCESSION AC Primary accession number ENTRY HEADER
データのタイトル DEFINITION DE Entry name TITLE TITLE
検索で参照されるキーワード KEYWORDS KW Keywords KEYWORDS KEYWDS
出典となった論文など REFERENCE RN Reference REFERENCE JRNL
著者名 AUTHORS RA #authors
論文名 TITLE RT #title
雑誌名 JOURNAL RL #journal
論文のMEDLINE# MEDLINE RX #cross-ref
配列情報 ORIGIN SQ Sequence information SEQUENCE SEQRES
他のデータベースでのアクセッション番号 /db_xref DR Cross-reference

※ SWISS-PROTの格納形式は、EMBLと共通である。これは、「View entry in original SWISS-PROT format」でみることができる。


3.2. SWISS-PROTを用いたアミノ酸配列情報の検索

SWISS-PROTにアクセスして、 Sp1のアミノ酸配列を検索する。
  1. SWISS-PROT(http://www.expasy.ch/sprot/)にアクセスする。

  2. 「Access to SWISS-PROT and TrEMBL」のメニューから「Full text serch in SWISS-PROT and TrEMBL」をクリックしてキーワードによる検索を行う。
    (キーワードによる検索の他にもアクセッション番号や著者名による検索などの検索法が提供されている。)

  3. GenBankと同じ要領で「SP1」を検索する。 (チェックボックスはSWISS-PROTのみとする。)

  4. 検索結果を表示したら、「P08047 SP1_HUMAN」を選択し、ページ内に表示されたアミノ酸配列がGenBankで検索した塩基配列と対応していることを確認する。このとき、Referencesの[3]にあるように、J03133から得られる配列は、90-785である。従って、配列の対応を確認するには、SWISS-PROTの90番目のアミノ酸から見比べること。
    SWISS-PROTでの検索結果

    NiceProt View of SWISS-PROT: P08047


    General information about the entry
    Entry name SP1_HUMAN
    Primary accession number P08047
    Secondary accession numbers Q9NYE7 Q9H3Q5
    Entered in SWISS-PROT in Release 08, August 1988
    Sequence was last modified in Release 40, October 2001
    Annotations were last modified in    Release 40, October 2001
    Name and origin of the protein
    Protein name Transcription factor Sp1
    Synonyms None
    Gene name
    SP1 or TSFP1
    From
    Homo sapiens (Human)  [TaxID: 9606]
    Taxonomy Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
    References
    [1]
    SEQUENCE OF 4-785 FROM NUCLEIC ACID.
    TISSUE=Cervical carcinoma;
    Haggart M.H., Ladurner A.G.;
    Submitted (APR-2000) to the EMBL/GenBank/DDBJ databases.
    [2]
    SEQUENCE OF 1-558 FROM NUCLEIC ACID.
    MEDLINE=20545561; PubMed=10973950; [NCBI, ExPASy, EBI, Israel, Japan]
    Takahara T., Kanazu S., Yanagisawa S., Akanuma H.;
    "Heterogeneous Sp1 mRNAs in human HepG2 cells include a product of homotypic trans-splicing.";
    J. Biol. Chem. 275:38067-38072(2000).
    [3]
    SEQUENCE OF 90-785 FROM NUCLEIC ACID, AND SEQUENCE OF 359-375 AND 670-675.
    MEDLINE=88080466; PubMed=3319186; [NCBI, ExPASy, EBI, Israel, Japan]
    Kadonaga J.T., Carner K.R., Masiarz F.R., Tjian R.;
    "Isolation of cDNA encoding transcription factor Sp1 and functional analysis of the DNA binding domain.";
    Cell 51:1079-1090(1987).
    [4]
    O-GLYCOSYLATION.
    MEDLINE=89003041; PubMed=3139301; [NCBI, ExPASy, EBI, Israel, Japan]
    Jackson S.P., Tjian R.;
    "O-glycosylation of eukaryotic transcription factors: implications for mechanisms of transcriptional regulation.";
    Cell 55:125-133(1988).
    [5]
    STRUCTURE BY NMR OF 654-684 AND 684-712.
    MEDLINE=97218212; PubMed=9065444; [NCBI, ExPASy, EBI, Israel, Japan]
    Narayan V.A., Kriwacki R.W., Caradonna J.P.;
    "Structures of zinc finger domains from transcription factor Sp1. Insights into sequence-specific protein-DNA recognition.";
    J. Biol. Chem. 272:7801-7809(1997).
    [6]
    IDENTIFICATION OF SEROTONIN 1A RECEPTOR PROMOTER BINDING SITES.
    MEDLINE=96224025; PubMed=8626793; [NCBI, ExPASy, EBI, Israel, Japan]
    Parks C.L., Shenk T.;
    "The serotonin 1a receptor gene contains a TATA-less promoter that responds to MAZ and Sp1.";
    J. Biol. Chem. 271:4417-4430(1996).
    Comments
    • FUNCTION : BINDS TO GC BOX PROMOTERS ELEMENTS AND SELECTIVELY ACTIVATES MRNA SYNTHESIS FROM GENES THAT CONTAIN FUNCTIONAL RECOGNITION SITES. CAN INTERACT WITH G/C-RICH MOTIFS FROM SEROTONIN RECEPTOR PROMOTER.
    • SUBCELLULAR LOCATION: Nuclear.
    • PTM: O-GLYCOSYLATED; CONTAINS N-ACETYLGLUCOSAMINE SIDE CHAINS.
    • SIMILARITY: BELONGS TO THE SP1 FAMILY OF C2H2-TYPE ZINC-FINGER PROTEINS.
    Copyright
    This SWISS-PROT entry is copyright. It is produced through a collaboration between the Swiss Institute of Bioinformatics and the EMBL outstation - the European Bioinformatics Institute. There are no restrictions on its
    use by non-profit institutions as long as its content is in no way modified and this statement is not removed. Usage by and for commercial entities requires a license agreement (See http://www.isb-sib.ch/announce/ or
    send an email to license@isb-sib.ch).
    Cross-references
    EMBL
    AF252284; AAF67726.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
    AB039286; BAB13476.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
    J03133; AAA61154.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
    PIR A29635; A29635.
    PDB
    1SP1; 21-APR-97. [ExPASy / RCSB]
    1SP2; 21-APR-97. [ExPASy / RCSB]
    TRANSFAC T00759; -.
    GlycoSuiteDB P08047; -.
    MIM 189906 [NCBI / EBI].
    GeneCards SP1.
    GeneLynx SP1.
    Ensembl P08047.
    InterPro IPR000822; Znf-C2H2.
    Graphical view of domain structure.
    Pfam PF00096; zf-C2H2; 3.
    ProDom PD000003; Znf_C2H2; 2.
    [Domain structure / List of seq. sharing at least 1 domain].
    SMART SM00355; ZnF_C2H2; 3.
    PROSITE PS00028; ZINC_FINGER_C2H2_1; 3.
    PS50157; ZINC_FINGER_C2H2_2; 3.
    BLOCKS P08047.
    ProtoMap P08047.
    PRESAGE P08047.
    DIP P08047.
    ModBase P08047.
    SWISS-2DPAGE GET REGION ON 2D PAGE.
    Keywords
    Transcription regulation; Activator; Zinc-finger; Metal-binding; DNA-binding; Nuclear protein; Repeat; Glycoprotein; 3D-structure.
    Features
    Key From   To  Length   Description
    DOMAIN    626   708   83       ZINC FINGERS.
    ZN_FING    626   650   25       C2H2-TYPE.
    ZN_FING    656   680   25       C2H2-TYPE.
    ZN_FING    686   708   23       C2H2-TYPE.
    CONFLICT    366   366           D -> G (IN REF. 3; AA SEQUENCE).
    CONFLICT    670   670           S -> F (IN REF. 3; AA SEQUENCE).
    FT aligner logo Feature aligner
    SEVIEWER logo Feature table viewer
    Sequence information
    Length: 785 AA Molecular weight: 80693 Da CRC64: 43893DBF6518B9EA [This is a checksum on the sequence]
            10         20         30         40         50         60 
             |          |          |          |          |          | 
    MSDQDHSMDE MTAVVKIEKG VGGNNGGNGN GGGAFSQARS SSTGSSSSTG GGGQESQPSP 
    
            70         80         90        100        110        120 
             |          |          |          |          |          | 
    LALLAATCSR IESPNENSNN SQGPSQSGGT GELDLTATQL SQGANGWQII SSSSGATPTS 
    
           130        140        150        160        170        180 
             |          |          |          |          |          | 
    KEQSGSSTNG SNGSESSKNR TVSGGQYVVA AAPNLQNQQV LTGLPGVMPN IQYQVIPQFQ 
    
           190        200        210        220        230        240 
             |          |          |          |          |          | 
    TVDGQQLQFA ATGAQVQQDG SGQIQIIPGA NQQIITNRGS GGNIIAAMPN LLQQAVPLQG 
    
           250        260        270        280        290        300 
             |          |          |          |          |          | 
    LANNVLSGQT QYVTNVPVAL NGNITLLPVN SVSAATLTPS SQAVTISSSG SQESGSQPVT 
    
           310        320        330        340        350        360 
             |          |          |          |          |          | 
    SGTTISSASL VSSQASSSSF FTNANSYSTT TTTSNMGIMN FTTSGSSGTN SQGQTPQRVS 
    
           370        380        390        400        410        420 
             |          |          |          |          |          | 
    GLQGSDALNI QQNQTSGGSL QAGQQKEGEQ NQQTQQQQIL IQPQLVQGGQ ALQALQAAPL 
    
           430        440        450        460        470        480 
             |          |          |          |          |          | 
    SGQTFTTQAI SQETLQNLQL QAVPNSGPII IRTPTVGPNG QVSWQTLQLQ NLQVQNPQAQ 
    
           490        500        510        520        530        540 
             |          |          |          |          |          | 
    TITLAPMQGV SLGQTSSSNT TLTPIASAAS IPAGTVTVNA AQLSSMPGLQ TINLSALGTS 
    
           550        560        570        580        590        600 
             |          |          |          |          |          | 
    GIQVHPIQGL PLAIANAPGD HGAQLGLHGA GGDGIHDDTA GGEEGENSPD AQPQAGRRTR 
    
           610        620        630        640        650        660 
             |          |          |          |          |          | 
    REACTCPYCK DSEGRGSGDP GKKKQHICHI QGCGKVYGKT SHLRAHLRWH TGERPFMCTW 
    
           670        680        690        700        710        720 
             |          |          |          |          |          | 
    SYCGKRFTRS DELQRHKRTH TGEKKFACPE CPKRFMRSDH LSKHIKTHQN KKGGPGVALS 
    
           730        740        750        760        770        780 
             |          |          |          |          |          | 
    VGTLPLDSGA GSEGSGTATP SALITTNMVA MEAICPEGIA RLANSGINVM QVADLQSINI 
    
    
    
    SGNGF 
    
    

    original SWISS-PROT format」で表示すると、以下のようになる。

    ID   SP1_HUMAN      STANDARD;      PRT;   785 AA.
    AC   P08047; Q9NYE7; Q9H3Q5;
    DT   01-AUG-1988 (Rel. 08, Created)
    DT   16-OCT-2001 (Rel. 40, Last sequence update)
    DT   16-OCT-2001 (Rel. 40, Last annotation update)
    DE   Transcription factor Sp1.
    GN   SP1 OR TSFP1.
    OS   Homo sapiens (Human).
    OC   Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; 
    OC   Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. 
    OX   NCBI_TaxID=9606;
    RN   [1]
    RP   SEQUENCE OF 4-785 FROM N.A.
    RC   TISSUE=Cervical carcinoma;
    RA   Haggart M.H., Ladurner A.G.;
    RL   Submitted (APR-2000) to the EMBL/GenBank/DDBJ databases.
    RN   [2]
    RP   SEQUENCE OF 1-558 FROM N.A.
    RX   MEDLINE=20545561; PubMed=10973950; [NCBI, ExPASy, EBI, Israel, Japan]
    RA   Takahara T., Kanazu S., Yanagisawa S., Akanuma H.;
    RT   "Heterogeneous Sp1 mRNAs in human HepG2 cells include a product of
    RT   homotypic trans-splicing.";
    RL   J. Biol. Chem. 275:38067-38072(2000).
    RN   [3]
    RP   SEQUENCE OF 90-785 FROM N.A., AND SEQUENCE OF 359-375 AND 670-675.
    RX   MEDLINE=88080466; PubMed=3319186; [NCBI, ExPASy, EBI, Israel, Japan]
    RA   Kadonaga J.T., Carner K.R., Masiarz F.R., Tjian R.;
    RT   "Isolation of cDNA encoding transcription factor Sp1 and functional
    RT   analysis of the DNA binding domain.";
    RL   Cell 51:1079-1090(1987).
    RN   [4]
    RP   O-GLYCOSYLATION.
    RX   MEDLINE=89003041; PubMed=3139301; [NCBI, ExPASy, EBI, Israel, Japan]
    RA   Jackson S.P., Tjian R.;
    RT   "O-glycosylation of eukaryotic transcription factors: implications
    RT   for mechanisms of transcriptional regulation.";
    RL   Cell 55:125-133(1988).
    RN   [5]
    RP   STRUCTURE BY NMR OF 654-684 AND 684-712.
    RX   MEDLINE=97218212; PubMed=9065444; [NCBI, ExPASy, EBI, Israel, Japan]
    RA   Narayan V.A., Kriwacki R.W., Caradonna J.P.;
    RT   "Structures of zinc finger domains from transcription factor Sp1.
    RT   Insights into sequence-specific protein-DNA recognition.";
    RL   J. Biol. Chem. 272:7801-7809(1997).
    RN   [6]
    RP   IDENTIFICATION OF SEROTONIN 1A RECEPTOR PROMOTER BINDING SITES.
    RX   MEDLINE=96224025; PubMed=8626793; [NCBI, ExPASy, EBI, Israel, Japan]
    RA   Parks C.L., Shenk T.;
    RT   "The serotonin 1a receptor gene contains a TATA-less promoter that
    RT   responds to MAZ and Sp1.";
    RL   J. Biol. Chem. 271:4417-4430(1996).
    CC   -!- FUNCTION: BINDS TO GC BOX PROMOTERS ELEMENTS AND SELECTIVELY
    CC       ACTIVATES MRNA SYNTHESIS FROM GENES THAT CONTAIN FUNCTIONAL
    CC       RECOGNITION SITES. CAN INTERACT WITH G/C-RICH MOTIFS FROM
    CC       SEROTONIN RECEPTOR PROMOTER.
    CC   -!- SUBCELLULAR LOCATION: Nuclear.
    CC   -!- PTM: O-GLYCOSYLATED; CONTAINS N-ACETYLGLUCOSAMINE SIDE CHAINS.
    CC   -!- SIMILARITY: BELONGS TO THE SP1 FAMILY OF C2H2-TYPE ZINC-FINGER
    CC       PROTEINS.
    CC   --------------------------------------------------------------------------
    CC   This SWISS-PROT entry is copyright. It is produced through a collaboration
    CC   between  the Swiss Institute of Bioinformatics  and the  EMBL outstation -
    CC   the European Bioinformatics Institute.  There are no  restrictions on  its
    CC   use  by  non-profit  institutions as long  as its content  is  in  no  way
    CC   modified and this statement is not removed.  Usage  by  and for commercial
    CC   entities requires a license agreement (See http://www.isb-sib.ch/announce/
    CC   or send an email to license@isb-sib.ch).
    CC   --------------------------------------------------------------------------
    DR   EMBL; AF252284; AAF67726.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
    DR   EMBL; AB039286; BAB13476.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
    DR   EMBL; J03133; AAA61154.1; -. [EMBL / GenBank / DDBJ] [CoDingSequence]
    DR   PIR; A29635; A29635.
    DR   PDB; 1SP1; 21-APR-97. [ExPASy / RCSB]
    DR   PDB; 1SP2; 21-APR-97. [ExPASy / RCSB]
    DR   TRANSFAC; T00759; -.
    DR   GlycoSuiteDB; P08047; -.
    DR   MIM; 189906; -. [NCBI / EBI]
    DR   GeneCards; SP1.
    DR   GeneLynx; SP1.
    DR   Ensembl; P08047.
    DR   InterPro; IPR000822; Znf-C2H2.
    DR   InterPro; Graphical view of domain structure.
    DR   Pfam; PF00096; zf-C2H2; 3.
    DR   ProDom; PD000003; Znf_C2H2; 2.
    DR   ProDom [Domain structure / List of seq. sharing at least 1 domain ]
    DR   SMART; SM00355; ZnF_C2H2; 3.
    DR   PROSITE; PS00028; ZINC_FINGER_C2H2_1; 3.
    DR   PROSITE; PS50157; ZINC_FINGER_C2H2_2; 3.
    DR   BLOCKS; P08047.
    DR   ProtoMap; P08047.
    DR   PRESAGE; P08047.
    DR   DIP; P08047.
    DR   ModBase; P08047.
    DR   SWISS-2DPAGE; GET REGION ON 2D PAGE.
    KW   Transcription regulation; Activator; Zinc-finger; Metal-binding;
    KW   DNA-binding; Nuclear protein; Repeat; Glycoprotein; 3D-structure.
    FT   DOMAIN      626    708       ZINC FINGERS.
    FT   ZN_FING     626    650       C2H2-TYPE.
    FT   ZN_FING     656    680       C2H2-TYPE.
    FT   ZN_FING     686    708       C2H2-TYPE.
    FT   CONFLICT    366    366       D -> G (IN REF. 3; AA SEQUENCE).
    FT   CONFLICT    670    670       S -> F (IN REF. 3; AA SEQUENCE).
    SQ   SEQUENCE   785 AA;  80693 MW;  43893DBF6518B9EA CRC64;
         MSDQDHSMDE MTAVVKIEKG VGGNNGGNGN GGGAFSQARS SSTGSSSSTG GGGQESQPSP
         LALLAATCSR IESPNENSNN SQGPSQSGGT GELDLTATQL SQGANGWQII SSSSGATPTS
         KEQSGSSTNG SNGSESSKNR TVSGGQYVVA AAPNLQNQQV LTGLPGVMPN IQYQVIPQFQ
         TVDGQQLQFA ATGAQVQQDG SGQIQIIPGA NQQIITNRGS GGNIIAAMPN LLQQAVPLQG
         LANNVLSGQT QYVTNVPVAL NGNITLLPVN SVSAATLTPS SQAVTISSSG SQESGSQPVT
         SGTTISSASL VSSQASSSSF FTNANSYSTT TTTSNMGIMN FTTSGSSGTN SQGQTPQRVS
         GLQGSDALNI QQNQTSGGSL QAGQQKEGEQ NQQTQQQQIL IQPQLVQGGQ ALQALQAAPL
         SGQTFTTQAI SQETLQNLQL QAVPNSGPII IRTPTVGPNG QVSWQTLQLQ NLQVQNPQAQ
         TITLAPMQGV SLGQTSSSNT TLTPIASAAS IPAGTVTVNA AQLSSMPGLQ TINLSALGTS
         GIQVHPIQGL PLAIANAPGD HGAQLGLHGA GGDGIHDDTA GGEEGENSPD AQPQAGRRTR
         REACTCPYCK DSEGRGSGDP GKKKQHICHI QGCGKVYGKT SHLRAHLRWH TGERPFMCTW
         SYCGKRFTRS DELQRHKRTH TGEKKFACPE CPKRFMRSDH LSKHIKTHQN KKGGPGVALS
         VGTLPLDSGA GSEGSGTATP SALITTNMVA MEAICPEGIA RLANSGINVM QVADLQSINI
         SGNGF
    //
  5. アミノ酸配列は、上に示したように、配列位置の番号といっしょに表示される。

    アミノ酸配列をデータとして利用したいときは、この表示の右下にある「FASTA format」が指す内容を利用する。これをクリックして、内容を表示してみよう。

    >sp|P08047|SP1_HUMAN Transcription factor Sp1 - Homo sapiens (Human).
    MSDQDHSMDEMTAVVKIEKGVGGNNGGNGNGGGAFSQARSSSTGSSSSTGGGGQESQPSP
    LALLAATCSRIESPNENSNNSQGPSQSGGTGELDLTATQLSQGANGWQIISSSSGATPTS
    KEQSGSSTNGSNGSESSKNRTVSGGQYVVAAAPNLQNQQVLTGLPGVMPNIQYQVIPQFQ
    TVDGQQLQFAATGAQVQQDGSGQIQIIPGANQQIITNRGSGGNIIAAMPNLLQQAVPLQG
    LANNVLSGQTQYVTNVPVALNGNITLLPVNSVSAATLTPSSQAVTISSSGSQESGSQPVT
    SGTTISSASLVSSQASSSSFFTNANSYSTTTTTSNMGIMNFTTSGSSGTNSQGQTPQRVS
    GLQGSDALNIQQNQTSGGSLQAGQQKEGEQNQQTQQQQILIQPQLVQGGQALQALQAAPL
    SGQTFTTQAISQETLQNLQLQAVPNSGPIIIRTPTVGPNGQVSWQTLQLQNLQVQNPQAQ
    TITLAPMQGVSLGQTSSSNTTLTPIASAASIPAGTVTVNAAQLSSMPGLQTINLSALGTS
    GIQVHPIQGLPLAIANAPGDHGAQLGLHGAGGDGIHDDTAGGEEGENSPDAQPQAGRRTR
    REACTCPYCKDSEGRGSGDPGKKKQHICHIQGCGKVYGKTSHLRAHLRWHTGERPFMCTW
    SYCGKRFTRSDELQRHKRTHTGEKKFACPECPKRFMRSDHLSKHIKTHQNKKGGPGVALS
    VGTLPLDSGAGSEGSGTATPSALITTNMVAMEAICPEGIARLANSGINVMQVADLQSINI
    SGNGF

    このように、

    > 名称およびコメント
    塩基配列またはアミノ酸配列

    のような形式をFASTA形式という。FASTA形式は、後で述べるホモロジー検索などデータベースの問合せや各種ツールの入力に配列を指定する際に利用されることが多い。配列の中には、スペースや改行が任意に挿入されていてもかまわない(これを処理するプログラムに無視されるだけである)。

  6. 本来なら、ここで、後のホモロジー検索で利用するため、この内容をファイルに格納するか、ブラウザの別ウィンドウとして表示させておくべきであるが、上にその形式をすべて掲載しているので、後でこれをコピー&ペーストすればよいということで、もとのページ(「P08047 SP1_HUMAN」のページ)に戻る。このページを表示した状態で、次のモチーフ検索に進むこと。
  7. 時間がない場合は、以下の3.33.4は飛ばしてもかまわない。下図のように、Cross-referencesPDB1SP1; 21-APR-97.RCSBを選択して、直接、タンパク質構造データベースPDBを参照し、3.5の2に進むこと。




3.3. PROSITEを用いたモチーフ情報の検索

PROSITE (http://expasy.nhri.org.tw/prosite/)にアクセスして、zinc fingerモチーフの情報を検索する。この実習では、SWISS-PROTのCross-referencesから、Sp1に含まれるモチーフ、zinc fingerについて情報を検索するためにPROSITEにアクセスする。Cross-referencesPROSITEの右欄「PS00028; ZINC_FINGER_C2H2; 3.」をクリックする。

  1. SWISS-PROTからのアクセスで、zinc fingerの情報が表示されたことを確認する。

  2. Documentationを読んで、zinc fingerモチーフに関して調べてみよう。

zinc fingerに関する説明の後に、以下のようなパターンが書かれているはずである。

Consensus pattern C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H [The two C's and two H's are zinc ligands]

Sp1の配列に一致する配列パターンが正規表現の形式で表現されている。正規表現とは、多様なパターンを1つの形式で表現できるようにしたもので(決して正確な定義ではない)、例えば、上の例では、x(2,4)は2文字から4文字の任意のアミノ酸、[LIVMFYWC]は、[]内のアミノ酸以外のどれか1つを表している。
zinc fingerモチーフの模式図

http://www.web-books.com/MoBio/Free/Ch4F2.htm



3.4. SCOPを用いたタンパク質構造分類情報の検索

SCOPにアクセスして、zinc fingerモチーフの情報を検索する。
  1. SCOP(http://scop.mrc-lmb.cam.ac.uk/scop/)にアクセスする。

  2. Access Methods」の「Keyword search of SCOP entries」 をクリックしてキーワードによる選択し、Sp1の検索を行う。

    SCOPでの検索結果

    Protein: Transcription factor sp1 from Human (Homo sapiens)

    Lineage:

    1. Root: scop
    2. Class: Small proteins
      Usually dominated by metal ligand, heme, and/or disulfide bridges
    3. Fold: Classic zinc finger, C2H2
      alpha+beta metal(zinc)-bound fold: beta-hairpin + alpha-helix
    4. Superfamily: Classic zinc finger, C2H2
    5. Family: Classic zinc finger, C2H2
    6. Protein: Transcription factor sp1
    7. Species: Human (Homo sapiens)

    PDB Entry Domains:

    1. 1sp2
      finger 2
      complexed with zn
    2. 1sp1
      finger 3
      complexed with zn
  3. PDB Entry Domains: 」に2つのPDB Entry IDが存在することを確認する。次に、このIDを使ってPDBで立体構造の検索を行う。

SCOPの分類
CATHの分類


3.5. PDBを用いたタンパク質立体構造の検索

PDB(Protein Data Bank)にアクセスして、 Sp1に含まれるzinc fingerモチーフの立体構造情報を検索する。
  1. PDB(http://www.rcsb.org/pdb/)にアクセスする。

  2. SCOPから、zinc fingerのPDB Entry IDが1sp1であることがわかったので、 このEntry IDを用いてこの立体構造情報を検索する。

    PDBでの検索結果

    Summary Information

    Summary Information

    View Structure

    Download/Display File

    Structural Neighbors

    Compound:

    Mol_Id: 1; Molecule: Sp1F3; Chain: Null; Fragment: Zinc Finger DNA Binding Domain; Synonym: Transcription Factor Sp1; Engineered: Yes; Other_Details: Does Not Bind DNA Specifically As A Single Zinc Finger

    Authors:

    V. A. Narayan, R. W. Kriwacki, J. P. Caradonna

    Exp. Method:

    NMR, Minimized Average Structure

    Classification:

    Zinc Finger
  3. 左側のメニューの「Download/Display File」を選択すると、以下の画面が表示される。ここで、「file format」は「PDB」、「compression」は「none」を選択し、立体構造情報をPDB形式のファイルとしてダウンロードする。ここでは、ファイルの名前を「1sp1.pdb」としておこう。

    Download/Display Fileの選択


    ここで、データを表示すると、以下のようになる。
    HEADER    ZINC FINGER                             21-NOV-96   1SP1
    TITLE     NMR STRUCTURE OF A ZINC FINGER DOMAIN FROM TRANSCRIPTION              
    TITLE    2 FACTOR SP1F3, MINIMIZED AVERAGE STRUCTURE                            
    COMPND    MOL_ID: 1;                                                            
    COMPND   2 MOLECULE: SP1F3;                                                     
    COMPND   3 CHAIN: NULL;                                                         
    COMPND   4 FRAGMENT: ZINC FINGER DNA BINDING DOMAIN;                            
    COMPND   5 SYNONYM: TRANSCRIPTION FACTOR SP1;                                   
    COMPND   6 ENGINEERED: YES;                                                     
    COMPND   7 OTHER_DETAILS: DOES NOT BIND DNA SPECIFICALLY AS A SINGLE            
    COMPND   8 ZINC FINGER                                                          
    SOURCE    MOL_ID: 1;                                                            
    SOURCE   2 SYNTHETIC: YES;                                                      
    SOURCE   3 ORGANISM_SCIENTIFIC: HOMO SAPIENS;                                   
    SOURCE   4 ORGANISM_COMMON: HUMAN;                                              
    SOURCE   5 CELLULAR_LOCATION: NUCLEOPLASM                                       
    KEYWDS    ZINC FINGER, TRANSCRIPTION ACTIVATION, SP1                            
    EXPDTA    NMR, MINIMIZED AVERAGE STRUCTURE                                      
    AUTHOR    V.A.NARAYAN,R.W.KRIWACKI,J.P.CARADONNA                                
    REVDAT   1   21-APR-97 1SP1    0                                                
    JRNL        AUTH   V.A.NARAYAN,R.W.KRIWACKI,J.P.CARADONNA                       
    JRNL        TITL   STRUCTURES OF ZINC FINGER DOMAINS FROM                       
    JRNL        TITL 2 TRANSCRIPTION FACTOR SP1. INSIGHTS INTO                      
    JRNL        TITL 3 SEQUENCE-SPECIFIC PROTEIN-DNA RECOGNITION                    
    JRNL        REF    J.BIOL.CHEM.                  V. 272  7801 1997              
    JRNL        REFN   ASTM JBCHA3  US ISSN 0021-9258                 0071          
    REMARK   1                                                                      
    REMARK   2                                                                      
    REMARK   2 RESOLUTION. NOT APPLICABLE.                                          
    REMARK   3                                                                      
    REMARK   3 REFINEMENT.                                                          
    REMARK   3   PROGRAM     : X-PLOR                                               
    REMARK   3   AUTHORS     : BRUNGER                                              
    REMARK   3                                                                      
    REMARK   3  OTHER REFINEMENT REMARKS: MULTIPLE ROUNDS OF SIMULATED              
    REMARK   3   ANNEALING REFINEMENT PROTOCOL OF X-PLOR                            
    REMARK   4                                                                      
    REMARK   4 1SP1 COMPLIES WITH FORMAT V. 2.2, 16-DEC-1996                        
    REMARK 210                                                                      
    REMARK 210 EXPERIMENTAL DETAILS                                                 
    REMARK 210  EXPERIMENT TYPE                : NMR                                
    REMARK 210  TEMPERATURE           (KELVIN) : 278                                
    REMARK 210  PH                             : 5.9                                
    REMARK 210                                                                      
    REMARK 210  NMR EXPERIMENTS CONDUCTED      : NOESY, COSY, TOCSY                 
    REMARK 210  SPECTROMETER FIELD STRENGTH    : 500 MHZ                            
    REMARK 210  SPECTROMETER MODEL             : AM500                              
    REMARK 210  SPECTROMETER MANUFACTURER      : BRUKER                             
    REMARK 210                                                                      
    REMARK 210  STRUCTURE DETERMINATION.                                            
    REMARK 210   SOFTWARE USED                 : FELIX, XPLOR                       
    REMARK 210   METHOD USED                   : DISTANCE GEOMETRY,                 
    REMARK 210                                    SIMULATED ANNEALING               
    REMARK 210                                                                      
    REMARK 210 CONFORMERS, NUMBER CALCULATED   : 100                                
    REMARK 210 CONFORMERS, NUMBER SUBMITTED    : 1                                  
    REMARK 210 CONFORMERS, SELECTION CRITERIA  : MEAN STRUCTURE                     
    REMARK 210                                                                      
    REMARK 210 REMARK:                                                              
    REMARK 210 IONIC_STRENGTH: 50MM TRIS                                            
    REMARK 210 PRESSURE: 1 ATM                                                      
    REMARK 210 SOLVENT SYSTEM: WATER                                                
    REMARK 210                                                                      
    REMARK 210 THE STUDIES WERE DONE ON SYNTHETIC PEPTIDE AND STANDARD              
    REMARK 210 HOMONUCLEAR TECHNIQUES WERE USED.                                    
    REMARK 215                                                                      
    REMARK 215 NMR STUDY                                                            
    REMARK 215 THE COORDINATES IN THIS ENTRY WERE GENERATED FROM SOLUTION           
    REMARK 215 NMR DATA.  PROTEIN DATA BANK CONVENTIONS REQUIRE THAT                
    REMARK 215 CRYST1 AND SCALE RECORDS BE INCLUDED, BUT THE VALUES ON              
    REMARK 215 THESE RECORDS ARE MEANINGLESS.                                       
    REMARK 800                                                                      
    REMARK 800 SITE                                                                 
    REMARK 800 SITE_IDENTIFIER: S1                                                  
    REMARK 800 SITE_DESCRIPTION: PROPOSED DNA BINDING RESIDUES.                     
    REMARK 999                                                                      
    REMARK 999 SEQUENCE                                                             
    REMARK 999 1SP1       SWS     P08047       1 -   594 NOT IN ATOMS LIST          
    REMARK 999 1SP1       SWS     P08047     624 -   696 NOT IN ATOMS LIST          
    DBREF  1SP1      1    29  SWS    P08047   SP1_HUMAN      595    623             
    SEQRES   1     29  LYS LYS PHE ALA CYS PRO GLU CYS PRO LYS ARG PHE MET          
    SEQRES   2     29  ARG SER ASP HIS LEU SER LYS HIS ILE LYS THR HIS GLN          
    SEQRES   3     29  ASN LYS LYS                                                  
    HET     ZN     30       1                                                       
    HETNAM      ZN ZINC ION                                                         
    FORMUL   2   ZN    ZN1 2+                                                       
    HELIX    1   1 ASP     16  GLN     26  1                                  11    
    LINK        ZN    ZN    30                 SG  CYS     5                        
    LINK        ZN    ZN    30                 SG  CYS     8                        
    LINK        ZN    ZN    30                 NE2 HIS    21                        
    LINK        ZN    ZN    30                 NE2 HIS    25                        
    SITE     1  S1  2 ARG    14  HIS    17                                          
    CRYST1    1.000    1.000    1.000  90.00  90.00  90.00 P 1           1          
    ORIGX1      1.000000  0.000000  0.000000        0.00000                         
    ORIGX2      0.000000  1.000000  0.000000        0.00000                         
    ORIGX3      0.000000  0.000000  1.000000        0.00000                         
    SCALE1      1.000000  0.000000  0.000000        0.00000                         
    SCALE2      0.000000  1.000000  0.000000        0.00000                         
    SCALE3      0.000000  0.000000  1.000000        0.00000                         
    ATOM      1  N   LYS     1      10.796   5.455  -3.846  1.00  3.73           N  
    ATOM      2  CA  LYS     1      11.600   4.367  -4.471  1.00  3.24           C  
    ATOM      3  C   LYS     1      10.991   3.011  -4.112  1.00  2.50           C  
    ATOM      4  O   LYS     1      10.218   2.893  -3.182  1.00  2.93           O  
    ATOM      5  CB  LYS     1      13.038   4.434  -3.954  1.00  4.01           C  
    ATOM      6  CG  LYS     1      13.947   5.007  -5.043  1.00  4.89           C  
    ATOM      7  CD  LYS     1      14.495   6.362  -4.591  1.00  5.64           C  
    ATOM      8  CE  LYS     1      14.635   7.287  -5.802  1.00  6.34           C  
    ATOM      9  NZ  LYS     1      16.078   7.442  -6.144  1.00  7.07           N  
    ATOM     10 1H   LYS     1      10.024   5.039  -3.287  1.00  4.02           H  
    ATOM     11 2H   LYS     1      11.404   6.022  -3.223  1.00  4.06           H  
    ATOM     12 3H   LYS     1      10.398   6.063  -4.591  1.00  4.01           H  
    ATOM     13  HA  LYS     1      11.598   4.490  -5.544  1.00  3.44           H  
    ATOM     14 1HB  LYS     1      13.077   5.069  -3.080  1.00  4.34           H  
    ATOM     15 2HB  LYS     1      13.374   3.442  -3.693  1.00  4.13           H  
    ATOM     16 1HG  LYS     1      14.768   4.327  -5.221  1.00  5.12           H  
    ATOM     17 2HG  LYS     1      13.382   5.135  -5.954  1.00  5.17           H  
    ATOM     18 1HD  LYS     1      13.816   6.804  -3.876  1.00  5.67           H  
    ATOM     19 2HD  LYS     1      15.462   6.224  -4.132  1.00  6.03           H  
    ATOM     20 1HE  LYS     1      14.110   6.861  -6.644  1.00  6.57           H  
    ATOM     21 2HE  LYS     1      14.215   8.254  -5.566  1.00  6.42           H
    (途中省略)
    ATOM    501 1HZ  LYS    29     -15.886   8.692  -2.347  1.00  9.23           H  
    ATOM    502 2HZ  LYS    29     -17.161   8.245  -3.378  1.00  9.48           H  
    ATOM    503 3HZ  LYS    29     -17.372   8.203  -1.693  1.00  9.28           H  
    TER     504      LYS    29                                                      
    HETATM  505 ZN    ZN    30      -0.998   4.266   2.578  1.00  0.81          ZN  
    CONECT   82   81  505                                                           
    CONECT  121  120  505                                                           
    CONECT  348  346  347  505                                                      
    CONECT  420  418  419  505                                                      
    CONECT  505   82  121  348  420                                                 
    MASTER       53    0    1    1    0    0    1    6  504    1    5    3          
    END                                                                             
    
  4. 時間に余裕のある人は、PDBの登録数、新規フォールド発見数が年代とともに、どのように増加してきたか調べてみよう。


4. タンパク質の立体構造のグラフィックス表示

3.5で、PDBからダウンロードしたファイルは、タンパク質の各原子の3次元座標を含んでいる。この構造をグラフィックスソフトRasmolを使って表示する。Rasmolは、オープンソースのフリーソフトで、UNIX、Windows、MacOSで利用可能である。様々な構造の表示法が用意されており、広く利用されている。Rasmolのホームページは、http://www.umass.edu/microbio/rasmol/index2.htmある。

  1. Rasmolプログラムをダウンロードして実行する。

    WindowsNT用Rasmol

    を、[Shift]+左クリックでダウンロードする。保存する場所は先ほどのPDB形式のファイルを保存したのと同じフォルダが良い。

    次の手順に従い、ダウンロードしたRasmolプログラムを実行する。

    マウスボタンを押したたまま動かすことにより、画像を上下、左右に動かすことができる。
    さらにメニューをいろいろ選ぶことで、表示方式や色を変えることができる。

  2. PROSITEで検索した結果、zinc fingerモチーフの中心部位は亜鉛原子を中心としたCys、Hisの4残基であることが確認されたはずである。この中心部位をRasmolで表示する。

    RasMol>
    RasMol Command Line」ウィンドウでプロンプト( >RasMol )
    が表示されていることを確認する。
    RasMol> select zinc
    1 atom selected!
    亜鉛原子が選択された。
    RasMol> spacefill
    分子中の亜鉛原子が球で表示されたはずである。
    RasMol> select cys
    20 atoms selected!
    RasMol> wireframe 80
    Cysを選択した後、太さ80のwireframeでこれを表示する。
    RasMol> select his and not 17
    34 atoms selected!
    RasMol> wireframe 80
    Hisを選択した後(分子中のHisのうち残基番号が17でないものを選択)、
    同じくwireframeでこれを表示。以上により、zinc fingerの中心部位
    (亜鉛原子を中心とした4残基)がわかりやすく表示されたはずである。

    次にこれらの原子にラベルを表示してみる。
    RasMol> select zinc or cys.ca or his.ca and not 17
    5 atoms selected!
    RasMol> label %r%n
    以上により、残基番号と残基名が原子の横に表示される。
  3. Rasmolのより詳しい使い方は、ヘルプファイルに記載されている。

     Raswin.hlp

    このファイルをRasmolプログラムを保存したフォルダに保存すれば、[Help] - [User Manual]から参照することができる。そのほか、日本語に翻訳したマニュアルなどもWebで公開されているので、興味のある人は検索サービスなどを使って調べてみるとよい。
    Rasmolの表示例


  4. 興味のある人は、Rasmolのメニューやコマンドを使って、いろいろな表示を試してみよう。
分子グラフィックスの表示法
グラフィックス表示法 内  容
wire frame 共有結合を線分で結んで表示
backbone 分子の骨格を表示、Cα原子を線分で結んだもの
sticks wire frameの線分を棒として太く表示
ball and stick 各原子をファンデルワールス半径の1/3の半径をもつ球、結合を棒で表示
space fill 各原子はファンデルワールス半径とし、その表面で表示、CPK(Corey-Pauling-Kolturn)モデルを実現したもの
ribbons なめらかなリボン状の曲面で表示、二次構造を表すのに適する
strands ribbonをdepthcueで表示
cartoons 太めribbons表示


5. ホモロジー検索

5.1. ホモロジー検索とは

遺伝子において、ホモロジーとは共通の祖先遺伝子から由来していることを意味している。ホモロジー検索は、対象となる配列とホモロジーのある配列が配列データベースに存在するかどうかを検索する手法で、進化・系統分類の解析、タンパク質の機能解析などを目的とした配列解析の最も基本的な手法の一つとなっている。ただ、2つの遺伝子が、真にホモロジーがある、すなわち共通の祖先遺伝子をもつかどうかは明確にはわからない。実際には、ホモロジー検索の結果得られる、塩基配列やアミノ酸配列の類似度をホモロジーと呼ぶことが多い。

2つの配列の類似度を計算するには、2つの配列を要素ごとに対応づけて並べる操作(アラインメント)を行う。2つの配列のアラインメントのスコアは、配列要素ごとに定義される類似度のスコア(塩基の一致度、アミノ酸の一致度あるいは類似度を示す)の和で与えられる。アラインメントでは、配列要素をそのまま対応づけるだけでなく、進化の過程で生じ得る配列要素の挿入・欠失を扱うため、スペース(ギャップ)を対応づけることが多い。たとえば、2つの塩基配列GACGGATTAGGATCGGAATAGは、
  GA-CGGATTAG
  GATCGGAATAG
のようにアラインメントを行うことができる(スペースは-で表す)。配列要素ごとのスコアは、たとえば次のように定義される。配列要素を対応づけるときは、置換スコアを適用する。配列要素とスペースとを対応づけるときは、スペースすなわちギャップを挿入するスコア(実際にはペナルティ)()を適用する。スコアを最大にする最適なアラインメントはダイナミックプログラミング(動的計画法)と呼ばれる手法で計算することができるが、データベースの配列のすべてに対して一つ一つこの手法を適用すると膨大な時間を要する。このため、実際には近似手法が用いられる。実際によく用いられるホモロジー検索のプログラムとして、よく用いられるものに、FASTAとBLASTがある。

  1. FASTA
    連続して一致する配列の断片を高速に検索し、それらの断片の中で類似度の高いものに着目して局所的なアラインメントを行い、最後にこれらをギャップを考慮して結合して、最終的なアラインメントを行う手法。W. Pearsonにより開発された。
  2. BLAST
    配列を固定長の断片(ワード)に区切り、ワード単位で類似する断片を検索し、これらを類似度が最大になるまで両方向に伸ばして局所的なアラインメントを行い、最後にこれらを結合して、最終的なアラインメントを行う手法。NCBIが開発した。FASTAより高速である。

近年、BLASTを改良して、より遠い類縁関係を検出できるようにしたPSI-BLASTが、構造予測、機能予測の分野でよく用いられるようになってきている。たとえば、PSI-BLASTを用いて、ゲノム由来のタンパク質の配列データの解析結果を まとめたデータベースとして、国立遺伝学研究所のGTOP(http://spock.genes.nig.ac.jp/~genome/)がある。アラインメントのアルゴリズム、類似度の計算法については、4年生の「生物情報工学」の講義で学ぶ。

5.2. ホモロジー検索の実習

ホモロジー検索は、NCBI、EMBLなどのサイトで利用できるが、ここでは、国立遺伝学研究所のDBGETを利用する。

  1. DBGETのBLASTのページ(http://blast.genome.ad.jp/)にアクセスする。
  2. 3.2に掲載しているsp1のSWISS-PROTのFASTA形式の配列(最初の行を含む)をコピー&ペーストして、BLASTの検索ボックス「Enter your query sequence below (copy & paste)」に入力する。3.2でFASTA形式の配列をファイルに格納しておいていれば、そのファイル名をその下のボックスに指定することも可能である。
  3. 検索対象のデータベースを選んで(例:nr-aa、日々の更新を含む全データベース)、Exec ボタンを押してBLASTによるホモロジー検索を実行する。blast-pはアミノ酸配列のホモロジーを検索するオプションである。類似スコアについては、PAM()とBLOSUMがよく用いられている。そのほかのボタンも、デフォルトのままでよい。なお、BLASTを使った検索は、実際には、SWISS-PROTから、「Direct BLAST Submission」を選んで簡単に実行することができる。



    検索結果は次のようになる。

    Scoreは類似性のスコアを示す。E-Valueは、「現在のデータベースにおいて、全く偶然に同じスコアになる配列の数の期待値」である。E-Valueが小さいほど偶然には起こり得ないことを示す。したがって、スコア値が大きく、期待値が小さい場合には、互いの配列のホモロジーは高いと言える。高いホモロジーを示した配列については、配列のアライメントを調べて,どの部分でホモロジーが高いのかを確認する。結果のページの一番下に、「Show all result.」のボタンがあり、これを押すと、類似スコアの高い配列ペアのアラインメントが表示され、アミノ酸一致度(パーセントホモロジー)が表示される。また、結果のページの左の小さいボックスをチェックして選択し、これらに対してCLUSTALWを選択することにより、選択した配列のマルチプルアラインメントをとることが可能である。
    mouseのSp1とのアラインメントを以下に示す。

  4. 時間に余裕のある人は、シトクロームC(Cytochrome C)を対象に上記の同様の解析を行い、進化の過程で配列が変化してきた様子を確認してみよう。シトクロームCは、ミトコンドリアの表面に存在し、電子伝達の機能をもつ。アミノ酸配列に基づく分子系統樹解析が最初に行われたタンパク質であり、多数の生物種で多数の生物種で配列が明らかにされている。また、変異の速度が非常に遅く、古くに分化した生物でも配列はかなり類似している。主な生物を選んで、マルチプルアラインメントをとってみると、その様子がよくわかるはずである。以下にその一例を示す。

  5. 時間に余裕のある人は、BLASTとFASTAのアルゴリズムについて、Webで検索して調べてみよう。


6. おわりに

半日(2時間程度)の実験で、上記のすべてを消化することは難しく、また、3年生の4月の時点では、よくわからない概念が多数出てきたものと思います。今回の実験では、できる範囲のところを理解してもらうということでかまいません。これからの学習・研究で、必要なときにもう一度見直してもらえればよいと思います。ここで用いられている技術の解説やさらに進んだ実習(タンパク質の構造・機能予測、分子シミュレーション、分子進化解析など)は、4年生の講義「生物情報工学」で行います。


生物情報工学研究室
意見・感想はこちら