...

Sequenziamento ed Analisi di Genomi Completi e la

by user

on
Category: Documents
31

views

Report

Comments

Transcript

Sequenziamento ed Analisi di Genomi Completi e la
Sequenziamento e analisi di
genomi completi
Genoma
L'insieme del materiale genetico di un organismo o cellula.
(Hans Winkler, 1920)
Un genoma è “sequenziato” quando viene stabilita interamente
la successione delle basi nei cromosomi.
Acquisizione di genomi completi
Quali ragioni per sequenziare un genoma?
Quali organismi sequenziare?
Come ottenere una sequenza genomica?
Genomi a “bassa risoluzione”:
mappature genetiche e fisiche
MAPPA GENETICA:
un set ordinato di geni sul cromosoma, la
distanza tra i quali è espressa in unità di
ricombinazione genetica (centimorgan)
MAPPA FISICA:
un set ordinato di frammenti di DNA sul
cromosoma, la distanza tra i quali è espressa
in unità fisiche (paia di basi).
Costruzione di una mappa genetica
Costruzione di una mappa fisica del
genoma
Diversi metodi: “Radiation hybrid cell lines” (applicabile solo
a mammiferi), “Methylation filtration”, “High C0t selection”,
“Happy mapping”, “DNA fingerprinting”.
Quello più comunemente usato è il “DNA fingerprinting”
Mappe fisiche ottenute con “DNA fingerprinting”
a) Libreria BAC (Bacterial
artificial chromosome)
dimensioni inserti ~100 kb
b) DNA fingerprintig
dei cloni
c) Assemblaggio
automatico dei cloni con
bande condivise
d) Raffinamento manuale;
e) Verifica e allineamento
con altre mappature.
Confronto tra mappe genetiche e mappe fisiche
Sequenziamento del DNA
Metodo: terminazione della catena con
dideossinucleotidi + elettroforesi (Sanger, 1970)
Vantaggi: procedure robotizzate per la preparazione
dei campioni. Strumenti capaci di diverse reazioni in
parallelo. High–throughput, low cost.
Limiti: < 800 basi di sequenza di qualità per lettura
Metodi per ottenere sequenze contigue > 1kb
Walking
Shotgun
Assemblaggio sequenziamento
shotgun
Contig
Scaffolds
Complete
Ridondanza e copertura in un sequenziamento
shotgun
Problema dell'assemblaggio shotgun :
sequenze ripetute
Regione ripetuta
Metodi di sequenziamento dei
genomi
Sequenziamento shotgun “clone by clone”
Whole genome shotgun (WGS)
Sequenziamento shotgun “clone by
clone”
Libreria con larghi inserti cromosomici.
Cloni BAC ~100-200 kb
Costruzione di una mappa fisica del
genoma, selezione del numero minimo di
cloni per coprire il genoma (minimal tiling
path)
Frammentazione casuale e
sequenziamento shotgun dei cloni.
Assemblaggio delle sequenze
Minimal tiling path
Clone Library
Minimal Tiling Path
Whole genome shotgun (WGS)
Libreria shotgun: corti inserti 1.5-3 kb
Sequenziamento shotgun dei cloni.
Assemblaggio delle sequenze
Qual'è la strategia migliore di
sequenziamento ?
Organismi monocellulari con genomi piccoli (<20Mb) e
poche regioni ripetute: WGS
Organismi multicellulari con genomi grandi, ricchi in
sequenze ripetute: clone by clone? WGS?
Strategie di sequenziamento per
genomi di organismi multicellulari
Nature Reviews Genetics 2; 573-583 (2001)
“clone by clone” Vs WGS
Human Genome Consortium
Celera
Fisical map,
45.000 BAC
27.000.000
clones
individual BAC
shotgun
sequencing
whole shotgun
sequencing
Assembly
10 years
1 years
Assembly
“clone by
clone” Vs WGS:
regioni ripetute
Ripetizioni con identità >97%
e lunghezza >15kb
molto difficilmente risolvibili
dall'approccio WGS
Miglior compromesso tra velocità e accuratezza:
strategia “ibrida” di sequenziamento
Clone by clone
+
WGS
Strategie di sequenziamento per
genomi di organismi multicellulari
Nature Reviews Genetics 2; 573-583 (2001)
Completamento delle sequenze
genomiche
Draft
sequence
Scaffol
d
Lacuna di
sequenza
Finished
sequence
>95% genoma
<0.01% errore
Scaffol
d
Buchi
fisici
Fase di finishing
Lacuna di
sequenza
Confronto tra sequenze Draft e
Finished
Nature 431, 931 - 945 (21 October 2004);
Finishing the euchromatic sequence of the human genome
Finished
sequence
gap
inversioni
Draft
sequence
Costi e tempi per il sequenziamento
di un genoma eucariotico (gennaio
2005)
Organismo: Tuber borchii
Dimensione stimata genoma: 30 Mb
Laboratorio di sequenziamento: BGI - Beijing Genome Institute
Costo sequenziamento WGS: 3.8 euro / 1 kb
Costo genoma 1x: 114,000 euro
Costo genoma 10x (>95%): 1,114,000 euro
Tempo sequenziamento: ~ 1 Mb / h
Tempo completamento 10x: 4 mesi
Analisi di genomi completi
Identificazione e annotazione dei geni, predizioni funzionali
Genomica comparativa:
- Larga scala: evoluzione genomica (duplicazioni, riarrangiamenti)
- Piccola scala: nascita di “nuovi” geni
inattivazione di geni ancestrali
Identificazione delle ORFs (Open
Reading Frames)
Barre continue: codoni di stop
Trattini: codoni d'inizio
In sequenze non codificanti un codone di stop è
atteso ogni ~20 codoni (3/64)
Identificazione di geni in genomi
procariotici
Complicazioni nell'identificazione
dei geni in genomi eucariotici
Struttura interrotta dei geni.
Grande quantità di DNA non
codificante
Presenza di pseudogeni
Codon usage spesso più equilibrato
Metodi per l'identificazione:
Ab inizio (ricerca ORF, codon usage, modelli giunzione introni/esoni,
elementi regolatori upstream e downstream)
Comparativi (confronto con sequenze proteiche o sequenze EST)
Accuratezza dei “gene-finder” eucariotici
Evaluation of Gene-Finding Programs on Mammalian Sequences
Gen Res, 2001
(No. of sequences) number of sequences effectively analyzed by each program; in parentheses is the number of sequences where the absence of gene was
predicted; (Sn) nucleotide level sensitivity; (Sp) nucleotide level specificity; (AC) approximate correlation; (CC) correlation coefficient; (ESn) exon
level sensitivity; (ESp) exon level specificity; (ME) missed exons; (WE) wrong exons; (PCa) proportion of real exons that were partially predicted (only
one exon boundary correct); (PCp) proportion of predicted exons that were only partially correct; (OL) proportion of predicted exons that overlap an
actual exon. AC and (ESn+ESp)/2 are given with standard deviation.
In assenza di una conferma sperimentale o di forti evidenze comparative una
sequenza codificante identificata in un genoma è da considerarsi una realtà
ipotetica: “hypothetical protein”
Caratteristiche notevoli del genoma umano
The Sequence of the Human Genome , Science 2001
Uomo-scimpanzé
Science Dec 12 2003: 1960-1963
Fly UP