Comments
Description
Transcript
Diapositiva 1 - Uninsubria
Analisi delle strutture RMSD rai e rbi sono le posizioni dell´ atomo i nelle strutture a e b, n è il numero di atomi nelle strutture. Root-mean-square deviation Deviazione quadratica media Serve per paragonare strutture identiche, eccetto rotazioni e traslazioni Cosa fare se le strutture sono diverse? Similarità strutturale DALI SSAP Usato per FSSP Usato per CATH CE Liberamente disponibile, più “informatico“ DALI Strategia: Dividi matrice di distanze delle due proteine in sottomatrici 6 x 6.Cerca la soluzione massimale delle sottomatrici simili. Evoluzione convergente 1vid - Transferase (EC 2.1.1.6) Rattus norvegicus Inattivazione di neurotrasmettitori 1chd - Methylesterase (EC 3.1.1.61) Salmonella typhimurium Risposta sensorica della cellula 1vid 1chd TKEQRILRYVQQNAKPGDPQSVLEAIDTYCTQKEWAMNVGDAKGQIMDAVIREYSPSLVL ...................................................llsseKLIA 1vid 1chd ELGAYC.GYSAVRMARLLQ.PGARLLTMEMNP.DYAAITQQMLNFA.GLQD......... IGAstggTEAIRHVLQPLPlSSPAVIITQHMPpGFTRSFAERLNKLcQISVkeaedgerv 1vid 1chd ...KVTILN............................GASQDLIPQLKKKYDVDTLDMVF lpgHAYIAPgdkhmelarsganyqikihdgppvnrhrPSVDVLFHSVAK..HAGRnAVGV 1vid 1chd LDHWKDRYLPDTLLLEK.CGLLRKGTVLLADNVIVPGTPDFLAYVRGSSSFECTHYSSYL ILTGMGN..dGAAGMLAmYQAG...aWTIAQNEA....................scvvfg 1vid 1chd EYMKVVDGLEKAIYQGPSX................. mpreainmggVSEVvdlsqvsqqmlakisagqairi 1vid • Rossmann fold • • 10% identità di sequenza RMSD 3.0 Å per 104 su 198 residui 1chd Similarità di sequenza – similarità di struttura? Coppie di proteine con struttura simile (Rost, 1999) Coppie di proteine con struttura diversa Osservazione: Se un allineamento contiene più del 30% ca. di residui identici, allora le strutture molto probabilmente apparterranno allo stesso fold. Per allineamenti più corti la soglia è più alta. Però: in alcuni casi proteine con meno del 20% di identità di sequenza appartengono alla stessa classe di fold (“twilight zone”). Classificazioni strutturali Manuale Semiautomatica Automatica SCOP CATH FSSP Structural Classification Of Proteins Class, Architecture, Topology, Homology Families of Structurally Similar Proteins Classificazione delle proteine: SCOP (Structural Classification of Proteins, scop.mrc-lmb.cam.ac.uk/scop/, Murzin et. al.): 1195 folds (major structural similarity in terms of secondary structures e.g. globin-like, Rossman fold); 3902 families (clear evolutionary relationship or homology e.g. globins, Ras) CATH (Class, Architecture, Topology, Homologous Superfamily, www.biochem.ucl.ac.uk/bsm/cath/, Orengo et. al): 40 architectures (gross arrangment of secondary structures e.g. non-bundle, sandwich); 1282 topologies (connectivity of secondary structures e.g. globin-like, Rossman fold); 2549 families (clear homology, same function) Esempi di categorie di fold (CATH architectures) SCOP URL: http://scop.mrc-lmb.cam.ac.uk/scop/ Class (Common) Fold Omologia Family Similarità strutturale Superfamily a, b, a/b, a+b, ... Omologia e funzione Principalmente annotata a mano Alexey Murzin “Gold standard“ Structural Classification Of Proteins CATH URL: http://www.biochem.ucl.ac.uk/bsm/cath/ Class Architecture Topology Homologous superfamily Semiautomatica Solo Architecture viene assegnata manualmente CATH DHS PDBsum FSSP URL: http://www.ebi.ac.uk/dali/fssp/ Allineamenti strutturali Utilizza DALI Completamente automatico Esercizi CATH: http://www.cathdb.info/ SCOP: http://scop.mrc-lmb.cam.ac.uk/scop/ Ricerca con SRS in FSSP http://www.ebi.ac.uk/dali/ Predizione della struttura secondaria Predizione della struttura secondaria e terziaria Predire la struttura secondaria di una proteina è un primo passo comunemente utilizzato per la sua classificazione ed il modelling. Tre stati sono generalmente predetti: a-elica (‘H‘) filamento b (‘E‘, per ‘extended‘) coil/loop (‘C‘ o ‘.‘) Come si determina la struttura secondaria nei file PDB? b-strand a-helix DSSP Dictionary of secondary structure in proteins (Kabsch & Sander, 1983) DSSP cerca ponti di idrogeno per assegnare a-eliche e filamenti b. La definizione può essere ambigua. Le strutture secondarie assegnate da DSSP ed altri metodi (p.es. STRIDE) sono identiche solo nel 85-90% dei casi. Questo è quindi il limite teorico per qualsiasi metodo di predizione. DSSP è comunque il “gold standard“ per determinare la struttura secondaria di strutture PDB. ==== Secondary Structure Definition by the program DSSP, updated CMBI version by ElmK / April 1,2000 ==== DATE=9-JUN-2003 REFERENCE W. KABSCH AND C.SANDER, BIOPOLYMERS 22 (1983) 2577-2637 HEADER ONCOGENE PROTEIN 06-JUN-91 121P COMPND H-RAS P21 PROTEIN COMPLEX WITH GUANOSINE-5'-[B,G-METHYLENE] SOURCE HUMAN (HOMO SAPIENS) CELLULAR HARVEY-RAS GENE TRUNCATED AND AUTHOR U.KRENGEL,K.SCHEFFZEK,A.SCHERER,W.KABSCH,A.WITTINGHOFER, 166 1 0 0 0 TOTAL NUMBER OF RESIDUES, NUMBER OF CHAINS, NUMBER OF SS-BRIDGES(TOTAL,INTRACHAIN,INTERCHAIN) 8891.0 ACCESSIBLE SURFACE OF PROTEIN (ANGSTROM**2) 125 75.3 TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(J) , SAME NUMBER PER 100 RESIDUES 24 14.5 TOTAL NUMBER OF HYDROGEN BONDS IN PARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES 11 6.6 TOTAL NUMBER OF HYDROGEN BONDS IN ANTIPARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES ... # RESIDUE 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 12 13 13 14 14 15 15 16 16 17 17 18 18 19 19 20 20 AA M T E Y K L V V V G A G G V G K S A L T STRUCTURE BP1 BP2 ACC 0 0 120 E -a 51 0A 61 E -a 52 0A 93 E -a 53 0A 13 E -a 54 0A 36 E -ab 55 77A 2 E -ab 56 78A 0 E +ab 57 79A 0 E + b 0 80A 0 0 0 1 S > S0 0 9 T 3 S+ 0 0 56 T 3 S+ 0 0 61 S < S0 0 3 S > S+ 0 0 15 H > S+ 0 0 12 H > S+ 0 0 26 H > S+ 0 0 11 H X S+ 0 0 1 H X S+ 0 0 0 N-H-->O 0, 0.0 48,-0.6 48,-0.2 48,-3.1 -2,-0.5 48,-2.4 70,-2.0 48,-2.6 70,-2.5 -2,-0.3 70,-0.5 48,-0.4 -3,-0.1 -3,-1.5 -4,-0.2 -5,-0.3 2,-0.2 1,-0.2 -4,-2.6 -4,-2.1 Struttura secondaria Numerazione residui O-->H-N 2,-0.2 50,-2.7 2,-0.5 50,-2.7 71,-2.8 50,-2.6 72,-2.6 50,-1.3 72,-2.7 72,-0.1 3,-1.5 -1,-0.2 -1,-0.2 70,-0.1 4,-2.6 4,-2.1 4,-2.9 4,-2.0 4,-2.3 4,-3.2 N-H-->O 0, 0.0 2,-0.0 -2,-0.2 -2,-0.4 48,-0.2 -2,-0.9 -2,-0.3 -2,-0.4 -2,-0.6 49,-0.3 78,-0.3 1,-0.2 -2,-0.1 67,-0.1 66,-0.1 1,-0.2 1,-0.2 2,-0.2 2,-0.2 -5,-0.2 O-->H-N 50,-0.1 2,-0.4 50,-0.2 2,-0.9 72,-1.4 2,-0.4 2,-0.6 2,-0.3 2,-0.2 3,-0.1 5,-0.3 77,-0.1 -2,-0.1 -2,-0.1 5,-0.2 5,-0.1 5,-0.3 -1,-0.2 -2,-0.2 5,-0.3 Accessibilità TCO 0.000 -0.425 -0.926 -0.984 -0.818 -0.807 -0.989 -0.917 -0.859 -0.769 -0.035 -0.287 0.488 0.656 0.637 0.933 0.902 0.893 0.969 0.898 KAPPA ALPHA PHI 360.0 360.0 360.0 360.0-161.0 -62.9 5.2-154.9-114.4 7.3-150.5-117.8 23.2-177.6 -97.0 12.1-159.7-105.8 5.7-152.9-130.1 27.0 167.6-104.2 11.3 110.3-132.1 62.0 -48.8 147.6 72.5 -71.3 -59.5 113.6 9.3 -60.7 83.8 121.2 85.1 88.2 -99.1 -77.9 71.8 144.9 108.4 81.4 41.1 -53.7 112.1 53.2 -68.2 109.8 50.4 -61.1 112.7 45.5 -62.7 113.5 48.0 -60.1 PSI 162.6 132.1 142.4 122.8 104.1 146.7 130.4 120.7 163.3 166.5 161.3 128.1 7.0 -14.8 24.2 -50.0 -44.3 -37.2 -52.2 -41.3 X-CA -5.9 -4.8 -4.5 -2.5 -3.6 -0.5 -0.3 2.9 2.8 5.3 6.2 6.6 9.6 10.9 10.6 7.3 6.7 10.2 10.2 6.9 Angoli torsionali (f,y) . . . . . . . . . . . Y-CA 31.9 28.9 29.7 27.5 27.6 27.0 26.7 27.2 25.2 24.3 25.0 28.4 30.4 28.2 31.0 30.4 34.1 35.1 32.5 33.8 Z-CA -6.7 -4.8 -1.1 1.3 5.0 7.0 10.8 12.9 16.2 18.9 22.5 24.1 23.1 20.2 17.7 15.9 15.6 14.7 11.9 10.5 Accuratezza La misura più intuitiva e diffusa è il Q3, ossia la percentuale di residui correttamente predetta. La formula è: Q3 = 100 * 1/N * S i=a,b,loop Mi N è il numero totale di residui, Mi sono le predizioni corrette (a, b, loop). Un‘altra misura utilizzata è il SOV (segment overlap) che tende a penalizzare ulteriormente la presenza e/o assenza di interi elementi di struttura secondaria. (La formula è troppo complessa per essere spiegata brevemente) Generalmente i valori di SOV sono ca. 5-6% sotto quelli di Q3. ALA TRP PRO Metodo di Chou & Fasman (1974) Gli aminoacidi hanno propensioni diverse a formare strutture a-eliche e filamenti b. La prolina p.es. interrompe le a-eliche L‘approccio si può migliorare considerando il contesto locale dei residui. I risultati migliorano notevolmente utilizzando metodi di machine learning. Machine learning Fase di apprendimento Fase di predizione Struttura secondaria Struttura secondaria Black box (rete neurale) Black box (rete neurale) Sequenze Sequenze Reti neurali Reti neurali Tutti i migliori metodi di predizione di struttura secondaria (eccetto i metodi consensus) utilizzano reti neurali. La parametrizzazione delle reti neurali richiede molti esempi (fino a 2000) di proteine non omologhe. Per la predizione del residuo i della proteina si utilizza il contesto locale (p.es. i-6, ..., i-1, i, i+1, ..., i+6) Ogni residuo è codificato in modo sparso. 21 unità per ogni posizione: 20 per ogni tipo di residuo, uno per l‘assenza (gap). Profile HeiDelberg (PHD) Il primo metodo di “terza generazione“. (Rost & Schneider, 1993) Q3 al 72% ca. Due novità importanti: Utilizzo di informazioni sulle sequenze omologhe (estratte da HSSP). Utilizzo di tre livelli di predizione per ridurre gli errori di predizione. PHD Oltre PHD Negli ultimi anni sono usciti nuovi programmi in grado di incrementare il valore medio di Q3 fino al 76-77% ca. Un esempio è PSIPRED (Jones 2000) che utilizza i profile di PSIBLAST per migliorare l‘informazione derivante dall‘omologia a disposizione della rete neurale. Inoltre utilizza molti più esempi per la fase di training. http://bioinf.cs.ucl.ac.uk/psipred/ JPRED (Cuff & Barton, 1999) è un esempio di metodo consensus. Invece di creare un nuovo predittore, si cerca di combinare i risultati di altri metodi di successo per migliorare il risultato finale. Non è più stato attualizzato da oltre due anni. PSIPRED I metodi consensus incrementano l‘affidabilità delle regioni predette in modo unanime. Il Q3 medio per queste regioni arriva al 82-84%, quello complessivo è attorno al 77-78%, superando i migliori metodi singoli di 1-2%. (Albrecht & Tosatto, 2003)