Comments
Description
Transcript
08 Motivi funzionali
Motivi e proteine Famiglie di proteine Domini proteici Motivi funzionali Sequenze segnale Consensus Allineamento multiplo domini EGF-like ABCA2_HUMAN/1641-1652 ABCA2_MOUSE/1641-1652 ABCA2_RAT/1641-1652 ADA11_HUMAN/698-709 ADA11_MOUSE/702-713 ADA11_XENLA/381-392 ADA22_HUMAN/700-711 ADA22_MOUSE/698-709 ADA22_XENLA/701-712 ADA23_HUMAN/757-768 ADA23_MOUSE/754-765 ADAM8_MOUSE/346-357 ADP1_YEAST/79-90 C C C C C C C C C C C C C t t t i i i v v i i i y e C C C C C C C C C C C C C s s s q q h n n d d d p i a a a p p p r r r f f e e q q q d d e h h f t t p g g g g w w w w w w w w r f t t t t t t i t t a a e a G G G G G G G G G G G G G f f f k k k s a e t t g d s s s d d d d d d d d g d C C C C C C C C C C C C C CONSENSUS C x C x x x x x G x x C Motivi funzionali Consensus Se tramite ricerche in banca dati di una sequenza sconosciuta non è possibile identificare nessuna sequenza simile, esistono altri metodi per poter associare ugualmente la sequenza ad un qualche tipo di attività funzionale. Come in assenza di una similarità globale fra due sequenze è possible identificare una similarità di tipo locale, allo stesso modo anche in assenza di una ben definita similarità locale, usando metodi più sofisticati è possibile individuare dei tratti caratteristici all'interno di una sequenza associati ad una funzione. Queste regioni sono chiamate pattern o motivi funzionali, ed in questo capitolo vedremo, come sono fatti e che metodi si usano per individuarli su di una sequenza. La famiglia cui la proteina appartiene, i domini funzionali e strutturali di cui è composta, la presenza di aminoacidi in posizioni chiave (un sito attivo, un sito di legame, un segnale di riconoscimento), sono tutti tratti caratteristici che posono essere individuati e caratterizzati. A seconda del tipo di funzionalità vogliamo identificare (famiglia, dominio, motivo) è meglio usare patterns di tipo diverso. Comunque qualunque sia il tipo di pattern scelto, la sua costruzione e la sua identificazione parte sempre dalla costruzione di un allineamento multiplo di più sequenze che possiedono tutte la caratteristica funzionale che vogliamo descrivere. Se si vuole ad esempio costruire un pattern che ci permetta di identificare proteine che sono trasportate nei mitocondri, grazie alla presenza di un corto peptide segnale sulla loro sequenza, si deve iniziare costruendo un allineamento multiplo di una serie di proteine che contengono questo segnale. La consensus di un allineamento multiplo è il tipo di pattern funzionale più semplice che possiamo immaginare di usare. Abbiamo visto che gli allineamenti multipli sono utili perche ci permettono di identificare in una famiglia di proteine le posizioni della sequenza che sono particolarmente conservate e quindi probabilmente funzionalmente importanti. In figura è rappresentato l'allineamento multiplo di una serie di proteine contenti il dominio EGF-like, una regione di 30-40 aminoacidi presente nel fattore di crescita dell'epidermide. Dalla riga di consesus dell'allineamento si vede che tutte le proteine possiedono un pattern di aminoacidi conservati: due Cisteine separate fra di loro da un aminoacido, seguite da una Glicina a cinque aminoacidi didistanza seguita a sua volta da un altra Cisteina dopo due posizioni. Si può supporre che tutte le proteine (anche quelle di cui ancora non si conosce la sequenza) che possiedono questo dominio possiedano anche conservata questa serie di 5 aminoacidi. Usando questa informazione è possibile sapere, cercando la presenza del pattern, se una nuova sequenza contenga o no al suo interno un dominio di tipo EGF-like, anche se la sequenza non dovesse mostrare nessuna similarità locale o globale con altre proteine. Ricerca di un motivo ASCKCFOWEGGPVCLDSFFEKVOD + CxCxxxxxGxxC = CxCxxxxxGxxC ASCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ASCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ASCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ASCKCFOWEGGPVCLDSFFEKVOD ……………… ASCKCFOWEGGPVCLDSFFEKVOD CxCxxxxxGxxC ASCKCFOWEGGPVCLDSFFEKVOD Ricerche in banche dati con un motivo CxCxxxxxGxxC UNIPROT ID Ricerca Organismo Sequenza RPD2_HUMAN Human MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHRYLAEFIAMNDLPP FFS_MOUSE Mouse MKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL RHA_MOUSE Mouse ASKKJFOWERMPVKLDSFFEKVODFKAAFDDAICECDTLCWGECRLGLALNF GCN4_YEAST Yeast LNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA RAS_HUMAN Human LNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS … … … Sequenze Positive: RPD2_HUMAN, RHA_MOUSE, … Sequenze Negative: FFS_MOUSE, GCN4_YEAST, RAS_HUMAN, … Cercare un motivo su di una sequenza Ricerche in banche dati con motivi Come si può sapere se una sequenza sconosciuta contiene al suo interno un motivo funzionale derivato da una consensus? Un semplice metodo è lo stesso usato per allineare due sequenze senza gaps, ovvero vedere se la consensus è presente in qualcuna di tutte le possibili posizioni sulla sequenza. Per fare questo si allinea la consensus con la prima posizione della sequenza e si vede se gli aminoacidi sulla consensus corrispondono a quelli presenti sulla sequenza. Nel caso della figura questo non è vero perche in prima posizione sulla sequenza c'e' una A mentre sulla consensus c'e' una C. A questo punto si fa scorrere d una posizione verso destra la consensus rispetto alla sequenza e si vede se in questa nuova posizione gli aminoacidi corrispondono. L'operazione è ripetuta ripetuta fino a quando non si arriva al termine della sequenza. Si vede quindi se in qualcuna delle posizioni provate è stata trovata una perfetta corrispondenza tra gli aminoacidi presenti sulla consensus e quelli nella sequenza. Nell'esempio della figura si quando si fa cominciare la consensus sulla terza posizione della sequenza si crea un accoppiamento esatto degli aminoacidi. Questo vuol dire che la sequenza dell'esempio contiene la consensus del dominio EGF-like, in terza posizionr. Una consensu può ovviamente anche essere trovata ripetuta più volte su di una stessa sequenza. Dopo aver visto come creare un motivo funzionale e vedere se è presente su di una sequenza, vediamo in che modo possono essere usati questi motivi funzionali. Una delle operazioni che possiamo fare con un motivo funzionale e quello di cercarlo su di una intera banca dati di sequenze per vedere quali di queste contengono almeno una copia del motivo e possiedano quindi presubilmente la funzione associata la motivo. Nella figura si vede la consensus del motivo EGF-like cercata nell'intera banca dati di proteine UNIPROT. Il risultato di questa ricerca sarà l'elenco di una serie di proteine all'interno della cui sequenza è stato ritrovato il motivo (in rosso). Le seuenze che contengono il motivo sono definite "positive", quelle invece che non lo contengono "negative" (in bianco). Veri/Falsi Positivi/Negativi Ha un dominio EGF ? Sequenza Risultato Consensus 1 No FHSERERJEKAKLAEQCEYDECWGACYYKMKGDYH Vero Negativo 2 Si KAKLAEQCECYDECWGACYYKMKGDYH Vero Positivo 3 No FGSDKGPOKEDFGSDSFIJIERJNCOLXCVDFMIDF Vero Negativo 4 Si MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYH Vero Positivo 5 No MKKVASMDVELTVENLLSVAYKDFLEKH Vero Negativo 6 No FDGLDFKGLFKAAFDDAICECDTLCWGECRLGLALNF Falso Positivo 7 Si ESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA Falso Negativo 8 No LNSPDDFSDFKSDFMLKSDGMLKFGIMBVCIJBVUBUI Vero Negativo 9 No FGXCIXCVIMXRFOLXCVPOXCKOASDLMXCMLNAS Vero Negativo Veri/Falsi Positivi/Negativi Raccolgo pomodori nell’orto Prendendo tutto quello che è di colore rosso. Positivo Vero Falso Negativo Vero Falso Risultati Veri e Falsi Valutazione della capacità predittiva di un motivo Se facciamo una ricerca con la consensus per il dominio EGF-like in una banca dati, dobbiamo immaginare che tutte le proteine "positive" abbiano effettivamente il dominio EGF-like e che tutte quelle "negative" ne siano prive? Nonostante abbiamo sino ad ora dato per scontato che questo fosse vero, la sola presenza di un motivo all'interno di una sequenza in realtà non è affatto garanzia della presenza della funzione nella proteina, come anche l'assenza del motivo non è garanzia dell'assenza della funzione. Possono infatti esistere delle proteine che possiedono i 5 aminoacidi del motivo nella giusta posizione ma solamente per caso e non all'interno di un dominio EGF-like. Oppure possono esistere proteine (a noi sconosciute al momento della costruzione dell'allineamento multiplo) con un domino EGF-like e quindi con la funzione ma prive della consensus a causa di una mutazione in uno dei 5 aminoacidi conservati. Definiamo una sequenza trovata in banca dati vera se la presenza della consensus corrisponde effettivamente con la presenza del dominio (vera positiva) o l'assenza della consensu corrisponde con l'assenza del dominio (vera negativa). Altrimenti la sequenza potrà essere falsa perchè ha in dominio ma non ha la consensus (falsa negativa) o perchè ha la consensus ma non il dominio (falsa positiva). Chiariamo il concetto di risultati veri o falsi e positivi o negativi, perchè il numero di sequenze che troviamo appartenere ad una di queste 4 classi è indicativo della capacità predittiva e quindi della qualità di un motivo. Immaginiamo di avere un orto (la nosta banca dati di sequenze), che contiene pomodori, zucchine e fragole. Supponiamo di voler raccogliere tutti i pomodori (che corrispondono alle sequenze che vogliamo identificare, ad esempio quelle che hanno il dominio EGF-like) lasciando al loro posto gli altri ortaggi. Dobbiamo scegliere un criterio per decidere se un ortaggio è o meno un pomodoro (il che corrisponde a trovare un motivo funzionale) e dalla considerazione che molti pomodori sono rossi, scegliamo di raccogliere tutti gli ortaggi di colore rosso. Raccogliendo tutti gli ortaggi di colore rosso (equivalente a fare una ricerca in banca dati col motivo) commettiamo degli errori. I pomodori rossi sono tutti raccolti e rappresentano i veri positivi ( Hanno infatti il motivo rosso e sono pomodori). I pomodori di colore verde non vengono raccolti e rappresentano i Falsi Negativi ( Non hanno il motivo rosso pur essendo pomodori). Le zucchine, coreettamente, non sono raccolte e rappresentano i Veri Negativi (Non hanno il colore rosso e non sono pomodori). Le fragole invece verarnno raccolte per errore e sono i Falsi Positivi ( Hanno il colore rosso ma non sono pomodori). La qualità di un motivo funzionale può essere misurata contando il numero di veri & falsi e positivi & negativi che riesce a trovare. Motivi funzionali affidabili devono trovare molte sequenze Vere Positive e Vere Negative, cercando di minimizzare il numero di Falsi positivi e Falsi negativi. Sensitività del motivo Selettività del motivo Quanti pomodori sono riuscito ad identificare? Quanti ortaggi scelti sono veramente pomodori? VP --------- = --------VP + FN + 13 = ------ = 0.81 13 + 3 VP --------- = --------VP + FP + 13 = ------ = 0.65 13 + 7 Sensitività di un motivo Selettività di un motivo La sensitività di un motivo funzionale è una misura che ci indica la sua capacità di recuperare il maggior numero di sequenze che effettivamente hanno la funzione che stiamo cercando. La sensitività è pari al rapporto tra il numero di Veri Positivi (le sequenze con la funzione che sono state trovate), rispetto al totale dei Veri Positivi più i Falsi Negativi (ovvero il totale delle sequenze che avevano la funzione). IL valore di Sensitività può andare da 1 (100% delle sequenze con la funaione recuperate) a 0 (0% delle sequenze con la funzione recuperate). Nell'esempio della figura la sensitività ci indica la frazione dei pomodori che riusciamo a recuperare, ovvero i 13 pomodori rossi (quelli presi) diviso 16 ( 13 rossi + i 3 verdi non presi) il totale dei pomodori che erano nell'orto. Ovvero un valore pari a 0.81 (sono stati recuperati l'81% dei pomodori presenti). La selettività di un motivo funzionale è una misura che ci indica la sua capacità di commettere il minor numero possibile di errori fra le sequenze scelte come positive per la funzione che stiamo cercando. La sensitività è pari al rapporto tra il numero di Veri Positivi (le sequenze con la funzione che sono state trovate), rispetto al totale dei Veri Positivi più i Falsi Positivi (ovvero il totale delle sequenze che sono state scelte). Il valore di Selettività può andare da 1 (100% delle sequenze che abbiamo scelto avevano effettivamente la funzione) a 0 (0% delle sequenze scelte avevano la funzione). Nell'esempio della figura la selettività ci indica la frazione degli ortaggi che erano effettivamente pomodori fra tutti quelli che abbiamo scelto, ovvero i 13 pomodori rossi (quelli giusti) diviso 20 ( 13 pomodori rossi + le 7 fragole prese per sbaglio) il totale degli ortaggi che abbiamo raccolto. Ovvero un valore pari a 0.65 (solo il 65% degli ortaggi raccolti erano pomodori). Scelta del Motivo Migliore CtCsaqGtGfsC CiCqpdWtGkdD CiCqpdWtGkdD CiChpeGtGKdC CvCnrhWiGSdC CtCsaqGtGfsC CiCqpdWtGkdD CiCqpdWtGkdD CiChpeGtGKdC CvCnrhWiGSdC CtCsaqGtGfsC CiCqpdWtGkdD CiCqpdWtGkdD CiChpeGtGKdC CvCnrhWiGSdC NO EGF-like CiCdrfWtAEdC CiCdftWaATdC CiCdftWaAtdC CyCpepReGggC CeCiegFaGddC CiCdrfWtAEdC CiCdftWaATdC CiCdftWaAtdC CyCpepReGggC CeCiegFaGddC CiCdrfWtAEdC CiCdftWaATdC CiCdftWaAtdC CyCpepReGggC CeCiegFaGddC Motivo CxCxxxXxXxxX CxCxxxXxGxxC CxCxxxGxGxxC EGF-like Sensitività 100% Selettività 50% Sensitività 60% Selettività 60% Coefficiente di Correlazione VP*VN – FN*FP ------------------------------------------------------Radice di (VN+FN)*(VN+FP)*(VP+FN)*(VP+FP) Sensitività 40% Selettività 100% Scelta del motivo migliore Coefficiente di correlazione Diversi motivi possono avere una effiaccia diversa nel ritrovare sequenze con una data funzione in una banca dati. Possono esistere diversi motivi per identificare lo stesso tipo di funzione. A partire da un allineamento multiplo di sequenze è possibile scegliere diversi motivi funzionali che possano descriverlo. Il motivo che descrive il dominio EGF-like invece che essere composto dai 4 aminoacidi (CxCxxxxxGxG) potrebbe essere composto da un numero maggiore o minore di aminoacidi. Potrebbe infatti essere descritto dal motivo più corto CxC o dal motivo più lungo CxCxxxGxGxxC. Quale di questi tre motivi è migliore per descrivere il dominio EGF-like? Motivi molto corti permettono di trovare tutte le sequenze con la funzione, ma aumentano anche la probabilità di prendere per caso molte sequenze prive della funzione. Questi motivi tendono quindi ad avere un alta sensitività ma una bassa selettività. Al contrario motivi molto lunghi selezioneranno solamente sequenze che di sicuro hanno la funzione ma ne troveranno insieme anche molte altre sbagliate. Questi motivi tendono quindi ad avere un alta selettività ma una bassa sensitività. Nella figura sono mostrati due allineamenti multipli. Quello in alto di sequenze che hanno il dominio EGF-like e quello in basso di sequenze che ne sono prive. A seconda di quale dei tre possibili motivi rappresentati decidiamo di usare, alcune sequenze saranno trovate positive (in rosso) ed altre negative. Per valutare l'efficienza di un motivo non ha senso usare uno solo dei due valori ( la selettività o la sensitività), infatti avere una sensitività pari al 100% ma una selettività molto bassa, o viceversa, è inutile. Immaginiamo di usare per fare una ricerca un motivo funzionale cortissimo che trova sempre positive tutte le sequenze della banca dati, per esempio un motivo che contenga solo una X. Un motivo del genere avrebbe un sensitività pari a 100%, in quanto recupererebbe effettivamente tutte le sequenze che hanno la funzione, ma avrebbe anche una selettività prossima allo 0, poichè sceglierebbe oltre alle seqeunze giuste anche tutte le altre presenti nella banca dati e sbagliate. Al contrario usando un motivo molto lungo e specifico, come ad esempio CTCSAQGTGxSC, questo non sceglierebbe nessuna sequenza sbagliata (priva della funzione EGF-like). Avrebbe quindi una selettività del 100%, ma contemporaneamente essendo troppo specifico troverebbe solo pochissime delle sequenze giuste e avrebbe quindi una sensitività molto bassa. Per capire complessivamente come si comporta un motivo funzionale è possibile calcolare il suo Coefficiente di Correlazione. Il coefficiente di correlazione è una misura unica per l'efficienza di un motivo. Può assumere un valore variabile tra 1 e -1. Vale +1 per motivi perfetti che trovano il 100% di veri positivi ed il 100% di veri negativi. Un valore vicino allo 0 è posseduto da quei motivi che trovano un 50% di veri positivi insieme ad un 50% di falsi positivi. Motivi che hanno un valore vicino allo 0 vuol dire che si comportano in modo completamente casuale. il che significa che scegliendo quali sono le sequenze giuste e quelle sbagliate usando una moneta invece del motivo si ottengono gli stessi risultati. Motivi che hanno valori minori di 0 addirittura si comportano peggio di un dado, e invece di trovare le sequenze giuste tendono a trovare quelle sbagliate. Un punteggio di -1 lo hanno infatti i motivi che sbagliano in modo "perfetto" trovando il 100% di falsi positivi e il 100% di falsi negativi. Ricerche con Motivi Funzione Motivo Sito di N-glicosilazione N.S Sito di fosforilazione S.R Motivo di legame all’ATP G....GKS Espressioni regolari Motivo di legame al calcio R..R..D Dominio EGF C.C.....G..C Zinc finger C......C...C....C......C Cerniera di Leucine L......L......L......L … … ASCKCNASEGGPVCLDSFFE KDSERORKWOPEKEPGFPCI EEIRERIRDWERWE Sequenza sconosciuta Banca dati di motivi VLHSCDAICWTNLK IIHSCLAECWRQVS GVHTCLIDCWSNIR AAHTCAAECWTLVR VLHTCAAECWTLVR HTC...CW S H-[S,T]-C-X-X-X-C-W Posizioni con più possibilità = [A,C,D, …] H-[S,T]-C-X(3)-C-W Posizioni ripetute = (n) Ricerca ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE Sito di NN-glicosilazione Sito di fosforilazione Sito di legame al calcio Ricerche in Banche dati di motivi Espressioni regolari Una volta che abbiamo costruito un motivo a partire da un allineamento multiplo e ne abbiamo verificato la sua efficacia nel recuperare in una banca dati il maggior numero di sequenze che hanno la funzione evitando di scegliere quelle che non la hanno, possiamo conservarlo in una banca dati. Esistono banche dati di motivi funzionali che associano diversi motivi conosciuti a diverse funzioni. Annotare una sequenza significa cercare se in una sequenza a funzione sconosciuta sono presenti uno o più motivi funzionali. Per fare questo si cercano tutti i motivi contenuti in una banca dati uno alla volta sulla sequenza. Al termine dell'operazione la sequenza potrà risultare contenere al suo interno uno o più di questi motivi funzionali. La probabilità che questi motivi trovati siano veri (ovvero che la sequenza abbia realmente quella funzione) o che la sequenza abbia una funzione che non è stata trovata, dipende dall'efficienza dei motivi funzionali contenuti dalla banca dati. la consensus è il più semplice dei motivi che possono essere usati per rappresentare una funzione, infatti in ogni posizione del motivo può essere presente un solo tipo di aminoacido. Immaginiamo un allineamento multiplo di proteine che hanno tutte la stessa funzione, in cui in una delle posizioni compaiono due aminoacidi simili ad esempio la S e la T (in giallo nella figura). Se si vuole rappresentare questo motivo usando una consensus, bisogna scegliere se mettere nel motivo una S o una T, perdendo in entrambi i casi alcune sequenze con la funzione. Per fortuna esistono modi più sofisticati per rappresentare un motivo. Uno di questi sono le espressioni regolari. Una espressione regolare assomiglia molto ad una consensus, usando anch'essa una X per rappresentare le posizioni dove possono essere presenti qualunque tipo di aminoacidi. Ma a differenze della consensus permette la presenza di più aminoacidi differenti in una posizione. Per specificare la presenza di più aminoacidi diversi si usano le parentesi quadre attorno alla posizione e tutti gli aminoacidi possibili in quella posizione sono separati da virgole. Nell'esempio della figura l'espressione H-[S,T]-C significa un Istidina seguita da una Seriona o una Treonina nella seconda posizione, seguite poi da una Cisteina. Un altro simbolo che si può usare nelle espressioni regolari sono delle parentesi tonde che contengono un numero, questo numero sta a significare quante volte deve essere ripetuto il simbolo nella posizione precedente. Ad esempio C-X-X-X-C-W può essere scritto come C-X(3)-C-W, significando in entrambi i casi che ci deve essere una Cisteina seguita da 3 aminoacidi qualunque, seguita poi da un altra Cisteina e da un Triptofano. Matrici posizionali di peso Ripetizioni variabili [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST] GVHTCL----CWSNIR VLHSCD--AICWTNLK IIHSCLAAAECWRQVS ? GVHTCLCWSNIR H-[S,T]-C-X-C-W ? VLHSCDAICWTNLK H-[S,T]-C-X-X-X-C-W ? IIHSCLAAAECWRQVS H-[S,T]-C-X-X-X-X-X-C-W GVHTCL----CWSNIR VLHSCD--AICWTNLK IIHSCLAAAECWRQVS ? H-[S,T]-C-X(1,5)-C-W Numero variabile di ripetizioni = (i, j) L I V A L A C D E H I L S T V H H H H H S T T T T C C C C C 0.2 D L L A A A A I A A D E D E E C C C C C T S S T T 0.4 0.8 1.0 1.0 0.2 0.4 0.6 1.0 0.2 0.4 0.2 0.4 0.2 0.8 0.4 0.6 Position Specific Scoring Matrix 0.2 Numero variabile di ripetizioni Matrici posizionali di peso (PSSM) In figura è rappresentato un allineamento multiplo, con dei gaps in alcune posizioni. Non sembrerebbe possibile individuare una unica espressione regolare che possa ritrovare tutte e tre le sequenze, infatti ogni sequenza è rappresentata da un motivo con un numero di X diverso. Un motivo che ha una sola X troverebbe la prima sequenza ma non la seconda e la terza, un motivo che avesse 3 X troverebbe la seconda sequenza ma non la prima e la terza, etc. Le espressioni regolari permettono di risolvere queste situazioni spesso causate dalla presenza di gaps di lunghezza variabile all'interno di allineamenti multipli. In un' espressione regolare è possibile specificare che il carattere contenuto in una posizione sia ripetuto un numero variabile di volte. Per indicare questo si usano due numeri separati da una virgola all'interno di parentesi tonde che seguono la posizione da ripetere. Il primo numero rappresenta il numero MINIMO di volte che il carattere deve essere ripetuto nella sequenza perchè il pattern sia valido, il secondo numero rappresenta il numero MASSIMO di volte che il carattere può essere ripetuto. Nella figura il pattern H-[S,T]-C-X(1,5)-C-W significa che fra le due C possono esserci 1, 2, 3, 4 o anche 5 aminoacidi di tipo diverso e comunque il pattern verrebbe considerato valido. In questo modo questa espressione regolare rappresenta tutte e tre le sequenze dell'allineamento multiplo contemporaneamente. Ovvero cercando con questa espressione regolare tutte e tre le sequenze risulterebbero possedere il motivo corretto. Dall'allineamento multiplo delle 5 sequenze in figura si vede che in terza posizione quattro sequenze su cinque hanno una T ed una sola una S. Se usiamo un'espressione regolare per descrivere questo motivo funzionale troveremo sia sequenze con una S che sequenze con una T. Se la T fosse più importante della S in quella posizione come sembrerebbe suggerire l'allineamento multiplo non abbiamo modo di rappresentare questo concetto nel motivo. L'unica possibilità sarebbe di escludere la S dall'espressione regolare, ma perderemmo in questo modo una parte delle sequenze con la funzione. Quello di cui abbiamo bisogno è un tipo di motivo che accetti entrambe le lettere ma dia un vantaggio alle sequenze che hanno una T rispetto a quelle che hanno una S. Le Position Specific Scoring matrix (PSSM) o Matrici Posizionali di peso permettono proprio di fare questo. Sono delle matrici con un numero di colonne pari alla lunghezza del motivo funzionale che vogliamo descrivere ed una riga per ogni aminoacido diverso che compare nell'allineamento (quindi massimo 20 ringhe). In ogni cella di una PSSM è contenuto un valore da 1 a 0 che corrisponde alla frazione di posto che l'aminoacido della riga occupa nella colonna dell'allineamento, rispetto agli altri aminoacidi. Ad esempio nella figura la T in terza colonna è presente in 4 copie su 5 aminoacidi totali (4/5=0.8), mentre la S è presente in 1 copia (1/5=0.2). In quarta posizione invece 5 aminoacidi su cinque sono Cisteine (5/5=1.0). Guardando una PSSM è possibile vedere quali aminoacidi sono permessi in ogni posziione e quali di quelli ammessi sono avvantaggiati rispetto agli altri (hanno un valore maggiore). Punteggio con PSSM Log-Odds Punteggio = 10*log(osservati/attesi) A C D E H I L S T V 0.2 T in posizione 3 = 10*log(0.8/0.5) = +2.041… = +2 0.4 0.8 1.0 Position Specific Scoring Matrix 1.0 0.2 0.4 0.6 1.0 0.2 0.4 0.2 0.4 0.2 0.8 0.4 0.6 0.2 … G A A H T C A A D C S 0.2x 1.0x 0.8x 1.0x 0.4x 0.8x 0.4x 1.0x 0.4= Sequenza W Y … 0.008192 A C D E H I L S T V -1 +1 +2 0 Position Specific Scoring Matrix 0 -2 -1 +1 0 -1 +2 -4 +1 -4 +2 -1 +1 -1 … G A A H T C A A D C S -1 +0 +2 +0 +1 +2 -1 0 -1 W Y … = +2 Sequenza Calcolo del punteggio per un motivo con una PSSM PSSM con i log-odds Per cercare un motivo su di una sequenza usando una PSSM si procede allo stesso modo che con le espressioni regolari, ovvero si fa scorrere il motivo lungo la sequenza da cercare e si vede posizione per posizione se il motivo è presente o meno. Con una PSSM un motivo è presente quando per ogni posizione l'aminoacido è presente nella matrice (anche con un punteggio molto baso). Ma avendo usato una PSSM per descrivere un motivo funzionale invece di un espressione regolare abbiamo ora la possibilità, se il motivo è presente, anche di calcolare un punteggio associato alla qualità del motivo. Quindi di sapere se il motivo è costituito da aminoacidi frequenti nell'allineamento multiplo o da aminoacidi più rari (e quindi più improbabili). Il punteggio si calcola moltiplicando fra di loro tutti i valori corrispondenti agli aminoacidi trovati nelle diverse posizioni sulla sequenza. Per la sequenza in figura il punteggio è il prodotto di 0.2 (A in prima posizione) per 1.0 (la H in seconda posizione) per 0.8 (la T in terza posizione) e così via... Il punteggio ottenuto può andare da 1 a 0, e sarà tanto maggiore quanti più aminoacidi frequenti sono stati trovati sulla sequenza rispetto a quelli più rari. Una PSSM che contiene i valori che abbiamo appena visto è piuttosto scomoda da usare perchè bisogna fare tante moltiplicazioni quanto è lungo il motivo per calcolare il punteggio. Come abbiamo visto per le matrici di sostituzione anche qui è possibile trasformare questi valori, nei logaritmi delle frequenze osservate nel multiallineamento rispetto alle frequenze attese, e poi usare la somma di questi valori per calcolare il punteggio. La frequenza attesa di un aminoacido in una posizione è calcolata come se tutti gli aminoacidi possibili in quella posizione fossero presenti lo stesso numero di volte. Ad esempio la frequenza attesa per la T in terza posizione sarebbe 0.5 se ci fossero tante T quante S nell'allineamento multiplo. La frequenza attesa per la V in prima posizione sarebbe 0.25 se le V le A le I e le L fossero presenti in eguali quantità (essendoci in quella posizione 4 aminoacidi diversi 1/4 = 0.25). Per la T in terza posizione il nuovo valore sulla matrice sarà quindi log(0.8/0.5)=0.2, cioè il logaritmo fra la frequenza osservata nell'allineamento multiplo (il vecchio valore della PSSM) e la frequenza attesa 0.5. I valori trovati possono poi essere moltiplicati per 10 per avere dei numeri interi. Il valore finale per la posizione della T in terza colonna sarà quindi di +2 (0,2 x 10). Dopo aver calcolato il logaritmo avremo dei valori positivi per gli aminoacidi che sono più frequenti in una posizione rispetto a quanto ci attenderemmo per caso e dei valori negativi per gli aminoacidi che sono meno frequenti in una posizione rispetto all'atteso. Il punteggio finale del motivo puù essere ora calcolato come la somma dei punteggi per ogni singola posizione. Ricerca PSSM su sequenza Curve Roc % Veri positivi TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ Motivo efficiente Ricerca Espressione regolare TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ Calcolo punteggio PSSM TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ +5 -13 75% A -1 +1 +2 C 0 0 D -2 -1 E +1 H 0 I -1 -4 L +2 +1 S -4 -1 T +2 +1 V -1 Motivo poco efficiente * 50% Random 25% PSSM > -2 = POSITIVI PSSM < -2 = NEGATIVI * Scelta motivi più alti del volore soglia TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ * 100% [LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST] Positiva 25% 50% 75% 100% % Falsi positivi Ricerche con PSSM Le curve ROC Quando si fa una ricerca di un motivo su di una sequenza usando una PSSM, il risultato non sarà solamente negativo o positivo (il motivo è presente o assente), ma sarà associato ad un punteggio proporzionale alla qualità del motivo trovato sulla sequenza. Quindi anche dopo aver fatto la ricerca per decidere quali sequenze sono positive (hanno il motivo funzionale) e quali sono negative (non lo hanno) bisogna scegliere un valore di soglia al di sopra del quale considerare i motivi trovati sulla sequenza come veri, e al di sotto falsi. Una scelta ragionevole potrebbe essere una soglia pari a 0 e scegliere quindi per buoni tutti i motivi con un punteggio positivo e sbagliati tutti i motivi con punteggio negativo. Ovviamente il valore di sensitività e selettività di un motivo non sarà più sempre uguale ma cambierà al variare della soglia che scegliamo. Una soglia molto bassa (con cui quasi tutti i motivi trovati vanno bene), trovando positive molte sequenze, farà recuperare molti dei veri positivi ma prenderà per sbaglio anche molti falsi positivi. Una soglia bassa avrà quindi valori di Sensitività molto alti e di selettività molto bassi. Al contrario con una soglia molto alta, molti motivi trovati non saranno considerati validi, si perderanno quindi molte sequenze con la funzione ma ci saranno anche molti pochi falsi positivi. Una soglia alta avrà quindi valori di sensitività molto bassi e di selettività molto alti. Con motivi funzionali che danno un risultato qualitativo come le PSSM, la scelta della soglia ha quindi gli stessi effetti sull'efficienza del motivo di quelli che avevano nelle consensus l'aggiunta o la rimozione di aminoacidi dal motivo. Immaginiamo un diagramma dove indichiamo su di un asse la percentuale di veri positivi trovati da un motivo (la sensitività) e sull'altro asse la percentuale di falsi positivi presi per sbaglio dallo stesso motivo (l'inverso della selettività). Su un piano di questo tipo l'efficienza di un motivo (esempio un espressione regolare) può essere rappresentata con un punto sul piano a cui corrisponderanno valori unici di sensitività e di selettività. I punti sul piano dove è rappresentata in figura la linea rossa corrispondono a motivi funzionali che si comportano in modo assolutamente casuale (non sono più utili per identificare la funzione di una proteina del lancio di un dado). Infatti abbiamo visto che qualunque motivo funzionale può sempre facilmente trovare la stessa percentuale di veri positivi e falsi positivi, ad esempio un motivo che scelga tutte le sequenze avrà facilmente il 100% di veri positivi (1 di sensitività) ma anche il 100% di falsi positivi (0 di selettività). Quindi in questo piano tutti i motivi che si trovano sopra la linea rossa funzionano bene (meglio del caso) e quelli sotto male (peggio del caso). Piu il motivo si trova vicino alla parte alta a sinistra del grafico migliore sarà (più veri positivi e meno falsi positivi). Motivi con un valore di soglia, tipo le PSSM, sono rappresentati su questo grafico anzichè come dei punti come delle linee (la verde o la gialla), le curve ROC, infatti a seconda del valore scelto per la soglia, l'efficienza del motivo può cambiare. E' possibile quindi confrontare l'efficienza di due PSSM, indipendentemente dalla soglia scelta, andando a misurare l'area sotto la curva ROC, maggiore sarà quest'area meglio funzionerà il motivo. Ad esempio il motivo in verde sarà sempre più efficiente (indipendentemente dalla soglia scelta) del motivo rappresentato dalla curva gialla. Logo di sequenza A C D E H I L S T V 0.2 0.4 Ricerca con allineamento 0.8 1.0 1.0 0.2 0.4 0.6 1.0 0.2 0.4 0.2 0.4 0.2 0.8 0.4 0.6 0.2 Altezza = log2 (20) - F * log2 (F) = 4.32 - F * log2 (F) ? … A L I V A L H H H H H S T T T T C C C C C D L L A A A A I A A D E D E E C C C C C T S S T T V H Y A L I D C T VL VI VV VA VL HH HH HH HH HH YS YT YT YT YT AC AC AC AC AC LD LL LL LA LA … … … … … … … Allineamento Multiplo G W H … Sequenza P1+P2+P3+ P4+ P5+P6+P7+P8+ P9 /5 = Punteggio sequenza Rappresentazione di un motivo con i Logo di sequenza. Ricerca di un motivo usando l'allineamento multiplo Abbiamo visto che i valori contenuti nelle PSSM ci possono dare un indicazione degli aminoacidi che sono più o meno favoriti nelle diverse posizioni di un motivo funzionale. A partire da una PSSM è possibile costruire una rappresentazione grafica del contenuto di una PSSM, che permette di vedere a colpo d'occhio sia quali sono le posizioni più conservate nel motivo sia quali sono gli aminoacidi favoriti in ogni posizione. Questa rappresentazione si chiama LOGO di una sequenza e raffigura posizione per posizione le lettere consentite in ogni colonna di un motivo. Tutte le lettere che sono possibili in ogni posizione vengono disegnate l'una sopra l'altra. L'altezza di ogni lettera e quindi la sua grandezza è proporzionale alla frequenza della lettera in quella posizione e quindi al valore della lettera nella PSSM. Contemporaneamente l'altezza totale della colonna che rappresenta ogni posizione è proporzionale al grado di conservazione della posizione stessa. Ovvero se in una posizione viene sempre osservato un solo tipo di aminoacido la sua altezza sarà maggiore della somma delle altezze delle lettere in colonne formate da più possibili aminoacidi. Ad esempio nella figura l'altezza della lettera H nella seconda posizione è maggiore della somma delle altezze delle lettere L, A, I e V della prima posizione. La formula esatta per calcolare l'altezaz di ogni lettera è log2(20)-f*log2(f), dove f è la frequenza della lettera in quella posizione. L'altezza della H sarà quindi log2(20)1.0*log2(1.0) = 4.32 - 0 = 4.32. L' allineamento della figura mostra una situazione che le PSSM non possono gestire. In terza posizione è presente sulla sequenza l'aminaocido Y, dove nell'allineamento multiplo con cui è stato costruito il motivo c'erano solamente la S e la T. Quindi usando la PSSM per una ricerca la sequenza non potrebbe essere trovata. Essendo l'aminoacido Y relativamente simile alla S ed alla T, può essere che la sequenza abbia comunque la funzione? E' possibile che al momento della costruzione dell'allineamento multiplo, non si fosse ancora a conoscenza, di altre sequenze positive che avessero in quella posizione una Y. Il problema può essere risolto da un metodo di ricerca che permetta di identificare anche sequenze che contengono aminoacidi non sono presenti nel motivo funzionale. Questo metodo potrebbe usare come punteggio per un aminoacido mai visto in una certa posizione, il suo valore di similarità (preso da una matrice di sostituzione) con gli altri aminoacidi presenti in quella posizione. Un metodo simile già esiste ed è quello che si per dare il punteggio ad un allineamento di una sequenza con un allineamento multiplo. Con questo metodo il punteggio dato ad ogni lettera della sequenza è pari alla media dei punteggi di sostituzione di quella lettera con ogni altra lettera presente nella colonna dell'allineamento multiplo. Ed il punteggio finale dell'allineamento (e quindi del motivo) è la somma dei punetggi presi ad ogni lettera della sequenza. Ad esempio il punteggio della lettera Y sarà la somma del valore di sostituzione di una S con una Y più 4 volte il valore di sostituzione di una T con una Y il utto diviso 5. Quindi (YS+YT+YT+YT+YT)/5. Profilo di un allineamento L I V A L H H H H H S T T T T D L L A A C C C C C A A I A A D E D E E C C C C C T S S T T 1 2 3 4 5 6 7 8 9 A C D E … … T V W Y - Allineamento Multiplo =(CD+CL+CL+CA+CA)/5 =(ED+EL+EL+EA+EA)/5 Ricerca con profilo 1 2 3 4 5 6 7 8 9 A C * * D * E * * F * G * H * … W * Y - Profilo … A K R H F C C W E D E G W H … Punteggio = 1H+2F+3D+4C+5W+6E+7D+8E+9G Profilo di un allineamento Ricerche con un profilo Usando questi punteggi abbiamo quindi modo di valutare se una sequenza contenga un motivo funzionale. Per non dovere ogni volta ricalcolare la media di tutti i punteggi di sostituzione per ogni posizione dell'allineamento multiplo con l'aminoacido che deve essere allineato in quella posizione è possibile calcolare questi valori una sola volta per ognuno dei possibili 20 aminoacidi che possono capitare in quella posizione e memorizzare tutti i valori in una matrice. Queste matrici si chiamano Profilo di un allineamento multiplo e possono essere quindi usate al posto dell'allineamento stesso. Un profilo è una matrice con tante colonne quante sono le posizioni dell'allineamento multiplo che si vuole rappresentare e 20 righe una per ogni tipo di aminoacido. All'interno di ogni cella del Profilo viene conservato il valore pari al punteggio che verrebbe dato all'aminoacido disposto sulla riga se allineato con quella colonna. Questo valore non è altro che la media dei punteggi di sostituzione dell'aminoacido indicato dalla riga con tutti gli aminoacidi presenti nella colonna dell'allineamento multiplo. Ad esempio la cella corrispodente alla C della quarta colonna dell'allineamento in figura conterrà la media dei valori di sostituzione C con D, C con L, C con L, C con A e C con A. I profili generalmente contengono anche una 21' riga che corrisponde ai gaps e contiene la penalità che viene data all'apertura di un gaps in quella posizione nell'allineamento della sequenza al profilo. Adesso che abbiamo visto come si costruisce un profilo. Vediamo come può essere utilizzato per cercare un motivo funzionale su di una sequenza. Come si fa con una PSSM il profilo viene provato in ogni posizione possibile della sequenza, ad ogni posizione viene attribuito un punteggio e si vede se il punteggio è superiore alla soglia decisa per quel profilo. Per calcolare il punteggio vengono sommati fra di loro un valore per ogni colonna del profilo, il valore scelto è quello corrispondente alla riga dell'aminoacido che è stato allineato alla colonna. Nell'esempio per la prima colonna vine epreso il valore della cella H, per la seconda colonna quello della cella F e così via. Questa procedura è analoga e da lo stesso risultato del calcolare il punteggio della sequenza allineata al mutiallineamento da cui è stato costruito il profilo. se in un punto della sequenza è conveninete inserire un gap si usa il puntegio contenuto nella riga corrispondente ai gaps. PSI- BLAST Sequenza sconosciuta Sequenze Omologhe + Ciclo N’ 2 Nuove Sequenze Omologhe BLAST Banche dati di sequenze Costruzione Allineamento Multiplo + Ciclo N’ 3 Nuove Sequenze Omologhe Allineamento Multiplo + Ciclo N’ … …… Profilo dell’ allineamento Costruzione Profilo PSI- BLAST Avendo visto come è possibile cercare un profilo su di una sequenza adesso possiamo cercare un profilo su tutte le sequenze presenti in una banca dati. Fare una ricerca in banca dati con un profilo da risultati molto più accurati che facendola con solo una sequenza, dal momento che un allineamento multiplo contiene molte più informazioni di una singola sequenza. PSI-BLAST è uno strumento che permette di fare ricerche in banche dati usando anzichè una singola sequenza, un profilo costruito a partire da un allineamento multiplo di sequenze omologhe. E' conveniente usare PSI_BLAST anzichè BLAST se bisogna fare una ricerca in banca dati e si conoscono già in partenza delle sequenze omologhe a quella che stiamo cercando. Se invece si conosce una sola sequenza è possibile iniziare facendo una prima ricerca con la sequenza da sola, e usare le sequenze omologhe che vengono trovate per costruire un allineamento multiplo ed un profilo. Una volta che si dispone di un profilo si può fare una seconda ricerca in banca dati più accurata, il che ci permetterà probabilmente di individuare nuove sequenze omologhe più lontane che non eravamo stati in grado di individuare in un primo momento. Usando le nuove sequenze trovate è possibile nuovamente migliorare l'allineamento multiplo e costruire un altro profilo, per fare una nuova ricerca. PSI- BLAST ci permetet quindi a partire da una sola sequenza atraverso una serie di cicli ripetuti di trovare in modo accurato in una banca dati il maggior numero possibile di sequenze omologhe.