08 Motivi funzionali

by user

on 06 июля 2016

Category: Documents

>> Downloads: 10

views

Report

Comments

Description

Download 08 Motivi funzionali

Transcript

08 Motivi funzionali

Motivi e proteine
Famiglie di proteine
Domini proteici
Motivi funzionali
Sequenze segnale
Consensus
Allineamento multiplo domini EGF-like
ABCA2_HUMAN/1641-1652
ABCA2_MOUSE/1641-1652
ABCA2_RAT/1641-1652
ADA11_HUMAN/698-709
ADA11_MOUSE/702-713
ADA11_XENLA/381-392
ADA22_HUMAN/700-711
ADA22_MOUSE/698-709
ADA22_XENLA/701-712
ADA23_HUMAN/757-768
ADA23_MOUSE/754-765
ADAM8_MOUSE/346-357
ADP1_YEAST/79-90
C
C
C
C
C
C
C
C
C
C
C
C
C
t
t
t
i
i
i
v
v
i
i
i
y
e
C
C
C
C
C
C
C
C
C
C
C
C
C
s
s
s
q
q
h
n
n
d
d
d
p
i
a
a
a
p
p
p
r
r
r
f
f
e
e
q
q
q
d
d
e
h
h
f
t
t
p
g
g
g
g
w
w
w
w
w
w
w
w
r
f
t
t
t
t
t
t
i
t
t
a
a
e
a
G
G
G
G
G
G
G
G
G
G
G
G
G
f
f
f
k
k
k
s
a
e
t
t
g
d
s
s
s
d
d
d
d
d
d
d
d
g
d
C
C
C
C
C
C
C
C
C
C
C
C
C
CONSENSUS
C x C x x x x x G x x C
Motivi funzionali
Consensus
Se tramite ricerche in banca dati di una sequenza sconosciuta non è possibile identificare nessuna
sequenza simile, esistono altri metodi per poter associare ugualmente la sequenza ad un qualche
tipo di attività funzionale.
Come in assenza di una similarità globale fra due sequenze è possible identificare una similarità di
tipo locale, allo stesso modo anche in assenza di una ben definita similarità locale, usando metodi
più sofisticati è possibile individuare dei tratti caratteristici all'interno di una sequenza associati
ad una funzione. Queste regioni sono chiamate pattern o motivi funzionali, ed in questo capitolo
vedremo, come sono fatti e che metodi si usano per individuarli su di una sequenza.
La famiglia cui la proteina appartiene, i domini funzionali e strutturali di cui è composta, la
presenza di aminoacidi in posizioni chiave (un sito attivo, un sito di legame, un segnale di
riconoscimento), sono tutti tratti caratteristici che posono essere individuati e caratterizzati.
A seconda del tipo di funzionalità vogliamo identificare (famiglia, dominio, motivo) è meglio usare
patterns di tipo diverso. Comunque qualunque sia il tipo di pattern scelto, la sua costruzione e la
sua identificazione parte sempre dalla costruzione di un allineamento multiplo di più sequenze che
possiedono tutte la caratteristica funzionale che vogliamo descrivere.
Se si vuole ad esempio costruire un pattern che ci permetta di identificare proteine che sono
trasportate nei mitocondri, grazie alla presenza di un corto peptide segnale sulla loro sequenza, si
deve iniziare costruendo un allineamento multiplo di una serie di proteine che contengono questo
segnale.
La consensus di un allineamento multiplo è il tipo di pattern funzionale più semplice che possiamo
immaginare di usare.
Abbiamo visto che gli allineamenti multipli sono utili perche ci permettono di identificare in una
famiglia di proteine le posizioni della sequenza che sono particolarmente conservate e quindi
probabilmente funzionalmente importanti.
In figura è rappresentato l'allineamento multiplo di una serie di proteine contenti il dominio EGF-like,
una regione di 30-40 aminoacidi presente nel fattore di crescita dell'epidermide. Dalla riga di
consesus dell'allineamento si vede che tutte le proteine possiedono un pattern di aminoacidi
conservati: due Cisteine separate fra di loro da un aminoacido, seguite da una Glicina a cinque
aminoacidi didistanza seguita a sua volta da un altra Cisteina dopo due posizioni.
Si può supporre che tutte le proteine (anche quelle di cui ancora non si conosce la sequenza) che
possiedono questo dominio possiedano anche conservata questa serie di 5 aminoacidi.
Usando questa informazione è possibile sapere, cercando la presenza del pattern, se una nuova
sequenza contenga o no al suo interno un dominio di tipo EGF-like, anche se la sequenza non dovesse
mostrare nessuna similarità locale o globale con altre proteine.
Ricerca di un motivo
ASCKCFOWEGGPVCLDSFFEKVOD
+
CxCxxxxxGxxC
=
CxCxxxxxGxxC
ASCKCFOWEGGPVCLDSFFEKVOD
CxCxxxxxGxxC
ASCKCFOWEGGPVCLDSFFEKVOD
CxCxxxxxGxxC
ASCKCFOWEGGPVCLDSFFEKVOD
CxCxxxxxGxxC
ASCKCFOWEGGPVCLDSFFEKVOD
………………
ASCKCFOWEGGPVCLDSFFEKVOD
CxCxxxxxGxxC
ASCKCFOWEGGPVCLDSFFEKVOD
Ricerche in banche dati
con un motivo
CxCxxxxxGxxC
UNIPROT
ID
Ricerca
Organismo
Sequenza
RPD2_HUMAN
Human
MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYHRYLAEFIAMNDLPP
FFS_MOUSE
Mouse
MKKVASMDVELTVE ERNLLSVAYKDFLEKHLIPCATSGESKVFYHPIRLGL
RHA_MOUSE
Mouse
ASKKJFOWERMPVKLDSFFEKVODFKAAFDDAICECDTLCWGECRLGLALNF
GCN4_YEAST
Yeast
LNVLEKHLIPCATSGESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA
RAS_HUMAN
Human
LNSPDR ACRLAKAAFDDAIAELDTLS EESYKDSTLI MQLLRDNLTLALNFS
…
…
…
Sequenze Positive: RPD2_HUMAN, RHA_MOUSE, …
Sequenze Negative: FFS_MOUSE, GCN4_YEAST, RAS_HUMAN, …
Cercare un motivo su di una sequenza
Ricerche in banche dati con motivi
Come si può sapere se una sequenza sconosciuta contiene al suo interno un motivo funzionale
derivato da una consensus? Un semplice metodo è lo stesso usato per allineare due sequenze senza
gaps, ovvero vedere se la consensus è presente in qualcuna di tutte le possibili posizioni sulla
sequenza. Per fare questo si allinea la consensus con la prima posizione della sequenza e si vede se
gli aminoacidi sulla consensus corrispondono a quelli presenti sulla sequenza. Nel caso della figura
questo non è vero perche in prima posizione sulla sequenza c'e' una A mentre sulla consensus c'e'
una C. A questo punto si fa scorrere d una posizione verso destra la consensus rispetto alla
sequenza e si vede se in questa nuova posizione gli aminoacidi corrispondono. L'operazione è
ripetuta ripetuta fino a quando non si arriva al termine della sequenza. Si vede quindi se in
qualcuna delle posizioni provate è stata trovata una perfetta corrispondenza tra gli aminoacidi
presenti sulla consensus e quelli nella sequenza.
Nell'esempio della figura si quando si fa cominciare la consensus sulla terza posizione della
sequenza si crea un accoppiamento esatto degli aminoacidi. Questo vuol dire che la sequenza
dell'esempio contiene la consensus del dominio EGF-like, in terza posizionr.
Una consensu può ovviamente anche essere trovata ripetuta più volte su di una stessa sequenza.
Dopo aver visto come creare un motivo funzionale e vedere se è presente su di una sequenza, vediamo
in che modo possono essere usati questi motivi funzionali.
Una delle operazioni che possiamo fare con un motivo funzionale e quello di cercarlo su di una intera
banca dati di sequenze per vedere quali di queste contengono almeno una copia del motivo e possiedano
quindi presubilmente la funzione associata la motivo.
Nella figura si vede la consensus del motivo EGF-like cercata nell'intera banca dati di proteine
UNIPROT. Il risultato di questa ricerca sarà l'elenco di una serie di proteine all'interno della cui
sequenza è stato ritrovato il motivo (in rosso). Le seuenze che contengono il motivo sono definite
"positive", quelle invece che non lo contengono "negative" (in bianco).
Veri/Falsi Positivi/Negativi
Ha un
dominio
EGF ?
Sequenza
Risultato
Consensus
1
No
FHSERERJEKAKLAEQCEYDECWGACYYKMKGDYH
Vero
Negativo
2
Si
KAKLAEQCECYDECWGACYYKMKGDYH
Vero
Positivo
3
No
FGSDKGPOKEDFGSDSFIJIERJNCOLXCVDFMIDF
Vero
Negativo
4
Si
MTERENNVYKAKLAEQCECYDECWGACYYKMKGDYH
Vero
Positivo
5
No
MKKVASMDVELTVENLLSVAYKDFLEKH
Vero
Negativo
6
No
FDGLDFKGLFKAAFDDAICECDTLCWGECRLGLALNF
Falso
Positivo
7
Si
ESKVFYYKMKGDYHRYLAEFATGSDRKDAAENSLIYKA
Falso
Negativo
8
No
LNSPDDFSDFKSDFMLKSDGMLKFGIMBVCIJBVUBUI
Vero
Negativo
9
No
FGXCIXCVIMXRFOLXCVPOXCKOASDLMXCMLNAS
Vero
Negativo
Veri/Falsi Positivi/Negativi
Raccolgo pomodori nell’orto
Prendendo tutto quello che è
di colore rosso.
Positivo
Vero
Falso
Negativo
Vero
Falso
Risultati Veri e Falsi
Valutazione della capacità predittiva di un motivo
Se facciamo una ricerca con la consensus per il dominio EGF-like in una banca dati, dobbiamo
immaginare che tutte le proteine "positive" abbiano effettivamente il dominio EGF-like e che tutte
quelle "negative" ne siano prive?
Nonostante abbiamo sino ad ora dato per scontato che questo fosse vero, la sola presenza di un
motivo all'interno di una sequenza in realtà non è affatto garanzia della presenza della funzione
nella proteina, come anche l'assenza del motivo non è garanzia dell'assenza della funzione.
Possono infatti esistere delle proteine che possiedono i 5 aminoacidi del motivo nella giusta
posizione ma solamente per caso e non all'interno di un dominio EGF-like.
Oppure possono esistere proteine (a noi sconosciute al momento della costruzione
dell'allineamento multiplo) con un domino EGF-like e quindi con la funzione ma prive della consensus
a causa di una mutazione in uno dei 5 aminoacidi conservati.
Definiamo una sequenza trovata in banca dati vera se la presenza della consensus corrisponde
effettivamente con la presenza del dominio (vera positiva) o l'assenza della consensu corrisponde
con l'assenza del dominio (vera negativa). Altrimenti la sequenza potrà essere falsa perchè ha in
dominio ma non ha la consensus (falsa negativa) o perchè ha la consensus ma non il dominio (falsa
positiva).
Chiariamo il concetto di risultati veri o falsi e positivi o negativi, perchè il numero di sequenze che
troviamo appartenere ad una di queste 4 classi è indicativo della capacità predittiva e quindi della
qualità di un motivo.
Immaginiamo di avere un orto (la nosta banca dati di sequenze), che contiene pomodori, zucchine e
fragole. Supponiamo di voler raccogliere tutti i pomodori (che corrispondono alle sequenze che
vogliamo identificare, ad esempio quelle che hanno il dominio EGF-like) lasciando al loro posto gli altri
ortaggi. Dobbiamo scegliere un criterio per decidere se un ortaggio è o meno un pomodoro (il che
corrisponde a trovare un motivo funzionale) e dalla considerazione che molti pomodori sono rossi,
scegliamo di raccogliere tutti gli ortaggi di colore rosso.
Raccogliendo tutti gli ortaggi di colore rosso (equivalente a fare una ricerca in banca dati col motivo)
commettiamo degli errori. I pomodori rossi sono tutti raccolti e rappresentano i veri positivi ( Hanno
infatti il motivo rosso e sono pomodori). I pomodori di colore verde non vengono raccolti e
rappresentano i Falsi Negativi ( Non hanno il motivo rosso pur essendo pomodori). Le zucchine,
coreettamente, non sono raccolte e rappresentano i Veri Negativi (Non hanno il colore rosso e non
sono pomodori). Le fragole invece verarnno raccolte per errore e sono i Falsi Positivi ( Hanno il colore
rosso ma non sono pomodori). La qualità di un motivo funzionale può essere misurata contando il
numero di veri & falsi e positivi & negativi che riesce a trovare. Motivi funzionali affidabili devono
trovare molte sequenze Vere Positive e Vere Negative, cercando di minimizzare il numero di Falsi
positivi e Falsi negativi.
Sensitività del motivo
Selettività del motivo
Quanti pomodori sono riuscito ad identificare?
Quanti ortaggi scelti sono veramente pomodori?
VP
--------- = --------VP + FN
+
13
= ------ = 0.81
13 + 3
VP
--------- = --------VP + FP
+
13
= ------ = 0.65
13 + 7
Sensitività di un motivo
Selettività di un motivo
La sensitività di un motivo funzionale è una misura che ci indica la sua capacità di recuperare il
maggior numero di sequenze che effettivamente hanno la funzione che stiamo cercando. La
sensitività è pari al rapporto tra il numero di Veri Positivi (le sequenze con la funzione che sono
state trovate), rispetto al totale dei Veri Positivi più i Falsi Negativi (ovvero il totale delle
sequenze che avevano la funzione).
IL valore di Sensitività può andare da 1 (100% delle sequenze con la funaione recuperate) a 0 (0%
delle sequenze con la funzione recuperate).
Nell'esempio della figura la sensitività ci indica la frazione dei pomodori che riusciamo a
recuperare, ovvero i 13 pomodori rossi (quelli presi) diviso 16 ( 13 rossi + i 3 verdi non presi) il
totale dei pomodori che erano nell'orto. Ovvero un valore pari a 0.81 (sono stati recuperati l'81%
dei pomodori presenti).
La selettività di un motivo funzionale è una misura che ci indica la sua capacità di commettere il minor
numero possibile di errori fra le sequenze scelte come positive per la funzione che stiamo cercando. La
sensitività è pari al rapporto tra il numero di Veri Positivi (le sequenze con la funzione che sono state
trovate), rispetto al totale dei Veri Positivi più i Falsi Positivi (ovvero il totale delle sequenze che sono
state scelte).
Il valore di Selettività può andare da 1 (100% delle sequenze che abbiamo scelto avevano
effettivamente la funzione) a 0 (0% delle sequenze scelte avevano la funzione).
Nell'esempio della figura la selettività ci indica la frazione degli ortaggi che erano effettivamente
pomodori fra tutti quelli che abbiamo scelto, ovvero i 13 pomodori rossi (quelli giusti) diviso 20 ( 13
pomodori rossi + le 7 fragole prese per sbaglio) il totale degli ortaggi che abbiamo raccolto. Ovvero un
valore pari a 0.65 (solo il 65% degli ortaggi raccolti erano pomodori).
Scelta del Motivo Migliore
CtCsaqGtGfsC
CiCqpdWtGkdD
CiCqpdWtGkdD
CiChpeGtGKdC
CvCnrhWiGSdC
CtCsaqGtGfsC
CiCqpdWtGkdD
CiCqpdWtGkdD
CiChpeGtGKdC
CvCnrhWiGSdC
CtCsaqGtGfsC
CiCqpdWtGkdD
CiCqpdWtGkdD
CiChpeGtGKdC
CvCnrhWiGSdC
NO
EGF-like
CiCdrfWtAEdC
CiCdftWaATdC
CiCdftWaAtdC
CyCpepReGggC
CeCiegFaGddC
CiCdrfWtAEdC
CiCdftWaATdC
CiCdftWaAtdC
CyCpepReGggC
CeCiegFaGddC
CiCdrfWtAEdC
CiCdftWaATdC
CiCdftWaAtdC
CyCpepReGggC
CeCiegFaGddC
Motivo
CxCxxxXxXxxX
CxCxxxXxGxxC
CxCxxxGxGxxC
EGF-like
Sensitività 100%
Selettività 50%
Sensitività 60%
Selettività 60%
Coefficiente di Correlazione
VP*VN – FN*FP
------------------------------------------------------Radice di (VN+FN)*(VN+FP)*(VP+FN)*(VP+FP)
Sensitività 40%
Selettività 100%
Scelta del motivo migliore
Coefficiente di correlazione
Diversi motivi possono avere una effiaccia diversa nel ritrovare sequenze con una data funzione in
una banca dati. Possono esistere diversi motivi per identificare lo stesso tipo di funzione. A
partire da un allineamento multiplo di sequenze è possibile scegliere diversi motivi funzionali che
possano descriverlo.
Il motivo che descrive il dominio EGF-like invece che essere composto dai 4 aminoacidi
(CxCxxxxxGxG) potrebbe essere composto da un numero maggiore o minore di aminoacidi.
Potrebbe infatti essere descritto dal motivo più corto CxC o dal motivo più lungo CxCxxxGxGxxC.
Quale di questi tre motivi è migliore per descrivere il dominio EGF-like?
Motivi molto corti permettono di trovare tutte le sequenze con la funzione, ma aumentano anche la
probabilità di prendere per caso molte sequenze prive della funzione. Questi motivi tendono quindi
ad avere un alta sensitività ma una bassa selettività.
Al contrario motivi molto lunghi selezioneranno solamente sequenze che di sicuro hanno la funzione
ma ne troveranno insieme anche molte altre sbagliate. Questi motivi tendono quindi ad avere un
alta selettività ma una bassa sensitività.
Nella figura sono mostrati due allineamenti multipli. Quello in alto di sequenze che hanno il dominio
EGF-like e quello in basso di sequenze che ne sono prive. A seconda di quale dei tre possibili motivi
rappresentati decidiamo di usare, alcune sequenze saranno trovate positive (in rosso) ed altre
negative.
Per valutare l'efficienza di un motivo non ha senso usare uno solo dei due valori ( la selettività o la
sensitività), infatti avere una sensitività pari al 100% ma una selettività molto bassa, o viceversa, è
inutile.
Immaginiamo di usare per fare una ricerca un motivo funzionale cortissimo che trova sempre positive
tutte le sequenze della banca dati, per esempio un motivo che contenga solo una X. Un motivo del
genere avrebbe un sensitività pari a 100%, in quanto recupererebbe effettivamente tutte le sequenze
che hanno la funzione, ma avrebbe anche una selettività prossima allo 0, poichè sceglierebbe oltre alle
seqeunze giuste anche tutte le altre presenti nella banca dati e sbagliate.
Al contrario usando un motivo molto lungo e specifico, come ad esempio CTCSAQGTGxSC, questo non
sceglierebbe nessuna sequenza sbagliata (priva della funzione EGF-like). Avrebbe quindi una
selettività del 100%, ma contemporaneamente essendo troppo specifico troverebbe solo pochissime
delle sequenze giuste e avrebbe quindi una sensitività molto bassa.
Per capire complessivamente come si comporta un motivo funzionale è possibile calcolare il suo
Coefficiente di Correlazione.
Il coefficiente di correlazione è una misura unica per l'efficienza di un motivo. Può assumere un valore
variabile tra 1 e -1. Vale +1 per motivi perfetti che trovano il 100% di veri positivi ed il 100% di veri
negativi. Un valore vicino allo 0 è posseduto da quei motivi che trovano un 50% di veri positivi insieme
ad un 50% di falsi positivi. Motivi che hanno un valore vicino allo 0 vuol dire che si comportano in modo
completamente casuale. il che significa che scegliendo quali sono le sequenze giuste e quelle sbagliate
usando una moneta invece del motivo si ottengono gli stessi risultati.
Motivi che hanno valori minori di 0 addirittura si comportano peggio di un dado, e invece di trovare le
sequenze giuste tendono a trovare quelle sbagliate. Un punteggio di -1 lo hanno infatti i motivi che
sbagliano in modo "perfetto" trovando il 100% di falsi positivi e il 100% di falsi negativi.
Ricerche con Motivi
Funzione
Motivo
Sito di N-glicosilazione
N.S
Sito di fosforilazione
S.R
Motivo di legame all’ATP
G....GKS
Espressioni regolari
Motivo di legame al calcio R..R..D
Dominio EGF
C.C.....G..C
Zinc finger
C......C...C....C......C
Cerniera di Leucine
L......L......L......L
…
…
ASCKCNASEGGPVCLDSFFE
KDSERORKWOPEKEPGFPCI
EEIRERIRDWERWE
Sequenza
sconosciuta
Banca dati di motivi
VLHSCDAICWTNLK
IIHSCLAECWRQVS
GVHTCLIDCWSNIR
AAHTCAAECWTLVR
VLHTCAAECWTLVR
HTC...CW
S
H-[S,T]-C-X-X-X-C-W
Posizioni con più possibilità = [A,C,D, …]
H-[S,T]-C-X(3)-C-W
Posizioni ripetute = (n)
Ricerca
ASCKCNASEGGPVCLDSFFEKDSERORKWOPEKEPGFPCIEEIRERIRDWERWE
Sito di NN-glicosilazione
Sito di fosforilazione Sito di legame al calcio
Ricerche in Banche dati di motivi
Espressioni regolari
Una volta che abbiamo costruito un motivo a partire da un allineamento multiplo e ne abbiamo
verificato la sua efficacia nel recuperare in una banca dati il maggior numero di sequenze che
hanno la funzione evitando di scegliere quelle che non la hanno, possiamo conservarlo in una banca
dati. Esistono banche dati di motivi funzionali che associano diversi motivi conosciuti a diverse
funzioni.
Annotare una sequenza significa cercare se in una sequenza a funzione sconosciuta sono presenti
uno o più motivi funzionali.
Per fare questo si cercano tutti i motivi contenuti in una banca dati uno alla volta sulla sequenza. Al
termine dell'operazione la sequenza potrà risultare contenere al suo interno uno o più di questi
motivi funzionali.
La probabilità che questi motivi trovati siano veri (ovvero che la sequenza abbia realmente quella
funzione) o che la sequenza abbia una funzione che non è stata trovata, dipende dall'efficienza dei
motivi funzionali contenuti dalla banca dati.
la consensus è il più semplice dei motivi che possono essere usati per rappresentare una funzione,
infatti in ogni posizione del motivo può essere presente un solo tipo di aminoacido. Immaginiamo un
allineamento multiplo di proteine che hanno tutte la stessa funzione, in cui in una delle posizioni
compaiono due aminoacidi simili ad esempio la S e la T (in giallo nella figura). Se si vuole rappresentare
questo motivo usando una consensus, bisogna scegliere se mettere nel motivo una S o una T, perdendo
in entrambi i casi alcune sequenze con la funzione.
Per fortuna esistono modi più sofisticati per rappresentare un motivo. Uno di questi sono le
espressioni regolari. Una espressione regolare assomiglia molto ad una consensus, usando anch'essa
una X per rappresentare le posizioni dove possono essere presenti qualunque tipo di aminoacidi. Ma a
differenze della consensus permette la presenza di più aminoacidi differenti in una posizione. Per
specificare la presenza di più aminoacidi diversi si usano le parentesi quadre attorno alla posizione e
tutti gli aminoacidi possibili in quella posizione sono separati da virgole. Nell'esempio della figura
l'espressione H-[S,T]-C significa un Istidina seguita da una Seriona o una Treonina nella seconda
posizione, seguite poi da una Cisteina.
Un altro simbolo che si può usare nelle espressioni regolari sono delle parentesi tonde che contengono
un numero, questo numero sta a significare quante volte deve essere ripetuto il simbolo nella posizione
precedente. Ad esempio C-X-X-X-C-W può essere scritto come C-X(3)-C-W, significando in entrambi i
casi che ci deve essere una Cisteina seguita da 3 aminoacidi qualunque, seguita poi da un altra Cisteina
e da un Triptofano.
Matrici posizionali di peso
Ripetizioni variabili
[LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST]
GVHTCL----CWSNIR
VLHSCD--AICWTNLK
IIHSCLAAAECWRQVS
?
GVHTCLCWSNIR
H-[S,T]-C-X-C-W
?
VLHSCDAICWTNLK
H-[S,T]-C-X-X-X-C-W
?
IIHSCLAAAECWRQVS
H-[S,T]-C-X-X-X-X-X-C-W
GVHTCL----CWSNIR
VLHSCD--AICWTNLK
IIHSCLAAAECWRQVS
?
H-[S,T]-C-X(1,5)-C-W
Numero variabile di ripetizioni = (i, j)
L
I
V
A
L
A
C
D
E
H
I
L
S
T
V
H
H
H
H
H
S
T
T
T
T
C
C
C
C
C
0.2
D
L
L
A
A
A
A
I
A
A
D
E
D
E
E
C
C
C
C
C
T
S
S
T
T
0.4 0.8
1.0
1.0
0.2
0.4
0.6
1.0
0.2
0.4
0.2
0.4
0.2
0.8
0.4
0.6
Position
Specific
Scoring
Matrix
0.2
Numero variabile di ripetizioni
Matrici posizionali di peso (PSSM)
In figura è rappresentato un allineamento multiplo, con dei gaps in alcune posizioni. Non
sembrerebbe possibile individuare una unica espressione regolare che possa ritrovare tutte e tre
le sequenze, infatti ogni sequenza è rappresentata da un motivo con un numero di X diverso.
Un motivo che ha una sola X troverebbe la prima sequenza ma non la seconda e la terza, un motivo
che avesse 3 X troverebbe la seconda sequenza ma non la prima e la terza, etc.
Le espressioni regolari permettono di risolvere queste situazioni spesso causate dalla presenza di
gaps di lunghezza variabile all'interno di allineamenti multipli.
In un' espressione regolare è possibile specificare che il carattere contenuto in una posizione sia
ripetuto un numero variabile di volte. Per indicare questo si usano due numeri separati da una
virgola all'interno di parentesi tonde che seguono la posizione da ripetere. Il primo numero
rappresenta il numero MINIMO di volte che il carattere deve essere ripetuto nella sequenza
perchè il pattern sia valido, il secondo numero rappresenta il numero MASSIMO di volte che il
carattere può essere ripetuto.
Nella figura il pattern H-[S,T]-C-X(1,5)-C-W significa che fra le due C possono esserci 1, 2, 3, 4 o
anche 5 aminoacidi di tipo diverso e comunque il pattern verrebbe considerato valido. In questo
modo questa espressione regolare rappresenta tutte e tre le sequenze dell'allineamento multiplo
contemporaneamente. Ovvero cercando con questa espressione regolare tutte e tre le sequenze
risulterebbero possedere il motivo corretto.
Dall'allineamento multiplo delle 5 sequenze in figura si vede che in terza posizione quattro sequenze su
cinque hanno una T ed una sola una S. Se usiamo un'espressione regolare per descrivere questo motivo
funzionale troveremo sia sequenze con una S che sequenze con una T.
Se la T fosse più importante della S in quella posizione come sembrerebbe suggerire l'allineamento
multiplo non abbiamo modo di rappresentare questo concetto nel motivo. L'unica possibilità sarebbe di
escludere la S dall'espressione regolare, ma perderemmo in questo modo una parte delle sequenze con
la funzione.
Quello di cui abbiamo bisogno è un tipo di motivo che accetti entrambe le lettere ma dia un vantaggio
alle sequenze che hanno una T rispetto a quelle che hanno una S. Le Position Specific Scoring matrix
(PSSM) o Matrici Posizionali di peso permettono proprio di fare questo. Sono delle matrici con un
numero di colonne pari alla lunghezza del motivo funzionale che vogliamo descrivere ed una riga per
ogni aminoacido diverso che compare nell'allineamento (quindi massimo 20 ringhe).
In ogni cella di una PSSM è contenuto un valore da 1 a 0 che corrisponde alla frazione di posto che
l'aminoacido della riga occupa nella colonna dell'allineamento, rispetto agli altri aminoacidi.
Ad esempio nella figura la T in terza colonna è presente in 4 copie su 5 aminoacidi totali (4/5=0.8),
mentre la S è presente in 1 copia (1/5=0.2). In quarta posizione invece 5 aminoacidi su cinque sono
Cisteine (5/5=1.0).
Guardando una PSSM è possibile vedere quali aminoacidi sono permessi in ogni posziione e quali di
quelli ammessi sono avvantaggiati rispetto agli altri (hanno un valore maggiore).
Punteggio con PSSM
Log-Odds
Punteggio = 10*log(osservati/attesi)
A
C
D
E
H
I
L
S
T
V
0.2
T in posizione 3 = 10*log(0.8/0.5) = +2.041… = +2
0.4 0.8
1.0
Position
Specific
Scoring
Matrix
1.0
0.2
0.4
0.6
1.0
0.2
0.4
0.2
0.4
0.2
0.8
0.4
0.6
0.2
… G A A
H
T
C
A
A
D
C
S
0.2x 1.0x 0.8x 1.0x 0.4x 0.8x 0.4x 1.0x 0.4=
Sequenza
W Y …
0.008192
A
C
D
E
H
I
L
S
T
V
-1
+1 +2
0
Position
Specific
Scoring
Matrix
0
-2
-1
+1
0
-1
+2
-4
+1
-4
+2
-1
+1
-1
… G A A
H
T
C
A
A
D
C
S
-1
+0
+2
+0
+1
+2
-1
0
-1
W
Y …
= +2
Sequenza
Calcolo del punteggio per un motivo con una PSSM
PSSM con i log-odds
Per cercare un motivo su di una sequenza usando una PSSM si procede allo stesso modo che con le
espressioni regolari, ovvero si fa scorrere il motivo lungo la sequenza da cercare e si vede
posizione per posizione se il motivo è presente o meno. Con una PSSM un motivo è presente quando
per ogni posizione l'aminoacido è presente nella matrice (anche con un punteggio molto baso).
Ma avendo usato una PSSM per descrivere un motivo funzionale invece di un espressione regolare
abbiamo ora la possibilità, se il motivo è presente, anche di calcolare un punteggio associato alla
qualità del motivo. Quindi di sapere se il motivo è costituito da aminoacidi frequenti
nell'allineamento multiplo o da aminoacidi più rari (e quindi più improbabili).
Il punteggio si calcola moltiplicando fra di loro tutti i valori corrispondenti agli aminoacidi trovati
nelle diverse posizioni sulla sequenza.
Per la sequenza in figura il punteggio è il prodotto di 0.2 (A in prima posizione) per 1.0 (la H in
seconda posizione) per 0.8 (la T in terza posizione) e così via...
Il punteggio ottenuto può andare da 1 a 0, e sarà tanto maggiore quanti più aminoacidi frequenti
sono stati trovati sulla sequenza rispetto a quelli più rari.
Una PSSM che contiene i valori che abbiamo appena visto è piuttosto scomoda da usare perchè bisogna
fare tante moltiplicazioni quanto è lungo il motivo per calcolare il punteggio. Come abbiamo visto per le
matrici di sostituzione anche qui è possibile trasformare questi valori, nei logaritmi delle frequenze
osservate nel multiallineamento rispetto alle frequenze attese, e poi usare la somma di questi valori
per calcolare il punteggio.
La frequenza attesa di un aminoacido in una posizione è calcolata come se tutti gli aminoacidi possibili
in quella posizione fossero presenti lo stesso numero di volte. Ad esempio la frequenza attesa per la T
in terza posizione sarebbe 0.5 se ci fossero tante T quante S nell'allineamento multiplo. La frequenza
attesa per la V in prima posizione sarebbe 0.25 se le V le A le I e le L fossero presenti in eguali
quantità (essendoci in quella posizione 4 aminoacidi diversi 1/4 = 0.25).
Per la T in terza posizione il nuovo valore sulla matrice sarà quindi log(0.8/0.5)=0.2, cioè il logaritmo
fra la frequenza osservata nell'allineamento multiplo (il vecchio valore della PSSM) e la frequenza
attesa 0.5. I valori trovati possono poi essere moltiplicati per 10 per avere dei numeri interi. Il valore
finale per la posizione della T in terza colonna sarà quindi di +2 (0,2 x 10).
Dopo aver calcolato il logaritmo avremo dei valori positivi per gli aminoacidi che sono più frequenti in
una posizione rispetto a quanto ci attenderemmo per caso e dei valori negativi per gli aminoacidi che
sono meno frequenti in una posizione rispetto all'atteso.
Il punteggio finale del motivo puù essere ora calcolato come la somma dei punteggi per ogni singola
posizione.
Ricerca PSSM su sequenza
Curve Roc
% Veri positivi
TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ
Motivo efficiente
Ricerca Espressione regolare
TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ
Calcolo punteggio PSSM
TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ
+5
-13
75%
A -1
+1 +2
C
0
0
D
-2
-1
E
+1
H
0
I -1
-4
L +2
+1
S
-4
-1
T
+2
+1
V -1
Motivo poco
efficiente
*
50%
Random
25%
PSSM > -2 = POSITIVI
PSSM < -2 = NEGATIVI
*
Scelta motivi più alti del volore soglia
TRDLHTCAADCSWRYPAVNAHSCDIDCSMCWTQ
*
100%
[LIVA]-H-[ST]-C-[DLA]-[AI]-[DE]-C-[ST]
Positiva
25%
50%
75%
100%
% Falsi positivi
Ricerche con PSSM
Le curve ROC
Quando si fa una ricerca di un motivo su di una sequenza usando una PSSM, il risultato non sarà
solamente negativo o positivo (il motivo è presente o assente), ma sarà associato ad un punteggio
proporzionale alla qualità del motivo trovato sulla sequenza. Quindi anche dopo aver fatto la
ricerca per decidere quali sequenze sono positive (hanno il motivo funzionale) e quali sono negative
(non lo hanno) bisogna scegliere un valore di soglia al di sopra del quale considerare i motivi trovati
sulla sequenza come veri, e al di sotto falsi.
Una scelta ragionevole potrebbe essere una soglia pari a 0 e scegliere quindi per buoni tutti i
motivi con un punteggio positivo e sbagliati tutti i motivi con punteggio negativo.
Ovviamente il valore di sensitività e selettività di un motivo non sarà più sempre uguale ma
cambierà al variare della soglia che scegliamo.
Una soglia molto bassa (con cui quasi tutti i motivi trovati vanno bene), trovando positive molte
sequenze, farà recuperare molti dei veri positivi ma prenderà per sbaglio anche molti falsi positivi.
Una soglia bassa avrà quindi valori di Sensitività molto alti e di selettività molto bassi.
Al contrario con una soglia molto alta, molti motivi trovati non saranno considerati validi, si
perderanno quindi molte sequenze con la funzione ma ci saranno anche molti pochi falsi positivi.
Una soglia alta avrà quindi valori di sensitività molto bassi e di selettività molto alti.
Con motivi funzionali che danno un risultato qualitativo come le PSSM, la scelta della soglia ha
quindi gli stessi effetti sull'efficienza del motivo di quelli che avevano nelle consensus l'aggiunta o
la rimozione di aminoacidi dal motivo.
Immaginiamo un diagramma dove indichiamo su di un asse la percentuale di veri positivi trovati da un
motivo (la sensitività) e sull'altro asse la percentuale di falsi positivi presi per sbaglio dallo stesso
motivo (l'inverso della selettività). Su un piano di questo tipo l'efficienza di un motivo (esempio un
espressione regolare) può essere rappresentata con un punto sul piano a cui corrisponderanno valori
unici di sensitività e di selettività.
I punti sul piano dove è rappresentata in figura la linea rossa corrispondono a motivi funzionali che si
comportano in modo assolutamente casuale (non sono più utili per identificare la funzione di una
proteina del lancio di un dado). Infatti abbiamo visto che qualunque motivo funzionale può sempre
facilmente trovare la stessa percentuale di veri positivi e falsi positivi, ad esempio un motivo che
scelga tutte le sequenze avrà facilmente il 100% di veri positivi (1 di sensitività) ma anche il 100% di
falsi positivi (0 di selettività).
Quindi in questo piano tutti i motivi che si trovano sopra la linea rossa funzionano bene (meglio del
caso) e quelli sotto male (peggio del caso). Piu il motivo si trova vicino alla parte alta a sinistra del
grafico migliore sarà (più veri positivi e meno falsi positivi).
Motivi con un valore di soglia, tipo le PSSM, sono rappresentati su questo grafico anzichè come dei
punti come delle linee (la verde o la gialla), le curve ROC, infatti a seconda del valore scelto per la
soglia, l'efficienza del motivo può cambiare. E' possibile quindi confrontare l'efficienza di due PSSM,
indipendentemente dalla soglia scelta, andando a misurare l'area sotto la curva ROC, maggiore sarà
quest'area meglio funzionerà il motivo. Ad esempio il motivo in verde sarà sempre più efficiente
(indipendentemente dalla soglia scelta) del motivo rappresentato dalla curva gialla.
Logo di sequenza
A
C
D
E
H
I
L
S
T
V
0.2
0.4
Ricerca con allineamento
0.8
1.0
1.0
0.2
0.4
0.6
1.0
0.2
0.4
0.2
0.4
0.2
0.8
0.4
0.6
0.2
Altezza = log2 (20) - F * log2 (F) = 4.32 - F * log2 (F)
?
…
A
L
I
V
A
L
H
H
H
H
H
S
T
T
T
T
C
C
C
C
C
D
L
L
A
A
A
A
I
A
A
D
E
D
E
E
C
C
C
C
C
T
S
S
T
T
V
H
Y
A
L
I
D
C
T
VL
VI
VV
VA
VL
HH
HH
HH
HH
HH
YS
YT
YT
YT
YT
AC
AC
AC
AC
AC
LD
LL
LL
LA
LA
…
…
…
…
…
…
…
Allineamento
Multiplo
G
W
H
…
Sequenza
P1+P2+P3+ P4+ P5+P6+P7+P8+ P9 /5 =
Punteggio sequenza
Rappresentazione di un motivo con i Logo di sequenza.
Ricerca di un motivo usando l'allineamento multiplo
Abbiamo visto che i valori contenuti nelle PSSM ci possono dare un indicazione degli aminoacidi che
sono più o meno favoriti nelle diverse posizioni di un motivo funzionale.
A partire da una PSSM è possibile costruire una rappresentazione grafica del contenuto di una
PSSM, che permette di vedere a colpo d'occhio sia quali sono le posizioni più conservate nel motivo
sia quali sono gli aminoacidi favoriti in ogni posizione.
Questa rappresentazione si chiama LOGO di una sequenza e raffigura posizione per posizione le
lettere consentite in ogni colonna di un motivo. Tutte le lettere che sono possibili in ogni posizione
vengono disegnate l'una sopra l'altra. L'altezza di ogni lettera e quindi la sua grandezza è
proporzionale alla frequenza della lettera in quella posizione e quindi al valore della lettera nella
PSSM. Contemporaneamente l'altezza totale della colonna che rappresenta ogni posizione è
proporzionale al grado di conservazione della posizione stessa. Ovvero se in una posizione viene
sempre osservato un solo tipo di aminoacido la sua altezza sarà maggiore della somma delle altezze
delle lettere in colonne formate da più possibili aminoacidi. Ad esempio nella figura l'altezza della
lettera H nella seconda posizione è maggiore della somma delle altezze delle lettere L, A, I e V
della prima posizione. La formula esatta per calcolare l'altezaz di ogni lettera è log2(20)-f*log2(f),
dove f è la frequenza della lettera in quella posizione. L'altezza della H sarà quindi log2(20)1.0*log2(1.0) = 4.32 - 0 = 4.32.
L' allineamento della figura mostra una situazione che le PSSM non possono gestire. In terza posizione
è presente sulla sequenza l'aminaocido Y, dove nell'allineamento multiplo con cui è stato costruito il
motivo c'erano solamente la S e la T. Quindi usando la PSSM per una ricerca la sequenza non potrebbe
essere trovata.
Essendo l'aminoacido Y relativamente simile alla S ed alla T, può essere che la sequenza abbia
comunque la funzione? E' possibile che al momento della costruzione dell'allineamento multiplo, non si
fosse ancora a conoscenza, di altre sequenze positive che avessero in quella posizione una Y.
Il problema può essere risolto da un metodo di ricerca che permetta di identificare anche sequenze
che contengono aminoacidi non sono presenti nel motivo funzionale. Questo metodo potrebbe usare
come punteggio per un aminoacido mai visto in una certa posizione, il suo valore di similarità (preso da
una matrice di sostituzione) con gli altri aminoacidi presenti in quella posizione.
Un metodo simile già esiste ed è quello che si per dare il punteggio ad un allineamento di una sequenza
con un allineamento multiplo. Con questo metodo il punteggio dato ad ogni lettera della sequenza è pari
alla media dei punteggi di sostituzione di quella lettera con ogni altra lettera presente nella colonna
dell'allineamento multiplo. Ed il punteggio finale dell'allineamento (e quindi del motivo) è la somma dei
punetggi presi ad ogni lettera della sequenza.
Ad esempio il punteggio della lettera Y sarà la somma del valore di sostituzione di una S con una Y più
4 volte il valore di sostituzione di una T con una Y il utto diviso 5. Quindi (YS+YT+YT+YT+YT)/5.
Profilo di un allineamento
L
I
V
A
L
H
H
H
H
H
S
T
T
T
T
D
L
L
A
A
C
C
C
C
C
A
A
I
A
A
D
E
D
E
E
C
C
C
C
C
T
S
S
T
T
1
2
3
4
5
6
7
8
9
A
C
D
E
…
…
T
V
W
Y
-
Allineamento
Multiplo
=(CD+CL+CL+CA+CA)/5
=(ED+EL+EL+EA+EA)/5
Ricerca con profilo
1 2 3 4 5 6 7 8 9
A
C
* *
D
*
E
*
*
F
*
G
*
H *
…
W
*
Y
-
Profilo
… A K R H F C C W E D E G W H …
Punteggio = 1H+2F+3D+4C+5W+6E+7D+8E+9G
Profilo di un allineamento
Ricerche con un profilo
Usando questi punteggi abbiamo quindi modo di valutare se una sequenza contenga un motivo
funzionale. Per non dovere ogni volta ricalcolare la media di tutti i punteggi di sostituzione per ogni
posizione dell'allineamento multiplo con l'aminoacido che deve essere allineato in quella posizione è
possibile calcolare questi valori una sola volta per ognuno dei possibili 20 aminoacidi che possono
capitare in quella posizione e memorizzare tutti i valori in una matrice.
Queste matrici si chiamano Profilo di un allineamento multiplo e possono essere quindi usate al
posto dell'allineamento stesso. Un profilo è una matrice con tante colonne quante sono le posizioni
dell'allineamento multiplo che si vuole rappresentare e 20 righe una per ogni tipo di aminoacido.
All'interno di ogni cella del Profilo viene conservato il valore pari al punteggio che verrebbe dato
all'aminoacido disposto sulla riga se allineato con quella colonna.
Questo valore non è altro che la media dei punteggi di sostituzione dell'aminoacido indicato dalla
riga con tutti gli aminoacidi presenti nella colonna dell'allineamento multiplo.
Ad esempio la cella corrispodente alla C della quarta colonna dell'allineamento in figura conterrà la
media dei valori di sostituzione C con D, C con L, C con L, C con A e C con A.
I profili generalmente contengono anche una 21' riga che corrisponde ai gaps e contiene la penalità
che viene data all'apertura di un gaps in quella posizione nell'allineamento della sequenza al profilo.
Adesso che abbiamo visto come si costruisce un profilo. Vediamo come può essere utilizzato per
cercare un motivo funzionale su di una sequenza.
Come si fa con una PSSM il profilo viene provato in ogni posizione possibile della sequenza, ad ogni
posizione viene attribuito un punteggio e si vede se il punteggio è superiore alla soglia decisa per quel
profilo.
Per calcolare il punteggio vengono sommati fra di loro un valore per ogni colonna del profilo, il valore
scelto è quello corrispondente alla riga dell'aminoacido che è stato allineato alla colonna.
Nell'esempio per la prima colonna vine epreso il valore della cella H, per la seconda colonna quello della
cella F e così via.
Questa procedura è analoga e da lo stesso risultato del calcolare il punteggio della sequenza allineata
al mutiallineamento da cui è stato costruito il profilo.
se in un punto della sequenza è conveninete inserire un gap si usa il puntegio contenuto nella riga
corrispondente ai gaps.
PSI- BLAST
Sequenza
sconosciuta
Sequenze
Omologhe
+
Ciclo N’ 2
Nuove
Sequenze
Omologhe
BLAST
Banche dati di
sequenze
Costruzione
Allineamento
Multiplo
+
Ciclo N’ 3
Nuove
Sequenze
Omologhe
Allineamento
Multiplo
+
Ciclo N’ …
……
Profilo dell’
allineamento
Costruzione
Profilo
PSI- BLAST
Avendo visto come è possibile cercare un profilo su di una sequenza adesso possiamo cercare un
profilo su tutte le sequenze presenti in una banca dati. Fare una ricerca in banca dati con un
profilo da risultati molto più accurati che facendola con solo una sequenza, dal momento che un
allineamento multiplo contiene molte più informazioni di una singola sequenza.
PSI-BLAST è uno strumento che permette di fare ricerche in banche dati usando anzichè una
singola sequenza, un profilo costruito a partire da un allineamento multiplo di sequenze omologhe.
E' conveniente usare PSI_BLAST anzichè BLAST se bisogna fare una ricerca in banca dati e si
conoscono già in partenza delle sequenze omologhe a quella che stiamo cercando.
Se invece si conosce una sola sequenza è possibile iniziare facendo una prima ricerca con la
sequenza da sola, e usare le sequenze omologhe che vengono trovate per costruire un allineamento
multiplo ed un profilo.
Una volta che si dispone di un profilo si può fare una seconda ricerca in banca dati più accurata, il
che ci permetterà probabilmente di individuare nuove sequenze omologhe più lontane che non
eravamo stati in grado di individuare in un primo momento.
Usando le nuove sequenze trovate è possibile nuovamente migliorare l'allineamento multiplo e
costruire un altro profilo, per fare una nuova ricerca.
PSI- BLAST ci permetet quindi a partire da una sola sequenza atraverso una serie di cicli ripetuti
di trovare in modo accurato in una banca dati il maggior numero possibile di sequenze omologhe.