Comments
Transcript
Sequenziamento ed Analisi di Genomi Completi e la
Sequenziamento e analisi di genomi completi Genoma L'insieme del materiale genetico di un organismo o cellula. (Hans Winkler, 1920) Un genoma è “sequenziato” quando viene stabilita interamente la successione delle basi nei cromosomi. Acquisizione di genomi completi Quali ragioni per sequenziare un genoma? Quali organismi sequenziare? Come ottenere una sequenza genomica? Genomi a “bassa risoluzione”: mappature genetiche e fisiche MAPPA GENETICA: un set ordinato di geni sul cromosoma, la distanza tra i quali è espressa in unità di ricombinazione genetica (centimorgan) MAPPA FISICA: un set ordinato di frammenti di DNA sul cromosoma, la distanza tra i quali è espressa in unità fisiche (paia di basi). Costruzione di una mappa genetica Costruzione di una mappa fisica del genoma Diversi metodi: “Radiation hybrid cell lines” (applicabile solo a mammiferi), “Methylation filtration”, “High C0t selection”, “Happy mapping”, “DNA fingerprinting”. Quello più comunemente usato è il “DNA fingerprinting” Mappe fisiche ottenute con “DNA fingerprinting” a) Libreria BAC (Bacterial artificial chromosome) dimensioni inserti ~100 kb b) DNA fingerprintig dei cloni c) Assemblaggio automatico dei cloni con bande condivise d) Raffinamento manuale; e) Verifica e allineamento con altre mappature. Confronto tra mappe genetiche e mappe fisiche Sequenziamento del DNA Metodo: terminazione della catena con dideossinucleotidi + elettroforesi (Sanger, 1970) Vantaggi: procedure robotizzate per la preparazione dei campioni. Strumenti capaci di diverse reazioni in parallelo. High–throughput, low cost. Limiti: < 800 basi di sequenza di qualità per lettura Metodi per ottenere sequenze contigue > 1kb Walking Shotgun Assemblaggio sequenziamento shotgun Contig Scaffolds Complete Ridondanza e copertura in un sequenziamento shotgun Problema dell'assemblaggio shotgun : sequenze ripetute Regione ripetuta Metodi di sequenziamento dei genomi Sequenziamento shotgun “clone by clone” Whole genome shotgun (WGS) Sequenziamento shotgun “clone by clone” Libreria con larghi inserti cromosomici. Cloni BAC ~100-200 kb Costruzione di una mappa fisica del genoma, selezione del numero minimo di cloni per coprire il genoma (minimal tiling path) Frammentazione casuale e sequenziamento shotgun dei cloni. Assemblaggio delle sequenze Minimal tiling path Clone Library Minimal Tiling Path Whole genome shotgun (WGS) Libreria shotgun: corti inserti 1.5-3 kb Sequenziamento shotgun dei cloni. Assemblaggio delle sequenze Qual'è la strategia migliore di sequenziamento ? Organismi monocellulari con genomi piccoli (<20Mb) e poche regioni ripetute: WGS Organismi multicellulari con genomi grandi, ricchi in sequenze ripetute: clone by clone? WGS? Strategie di sequenziamento per genomi di organismi multicellulari Nature Reviews Genetics 2; 573-583 (2001) “clone by clone” Vs WGS Human Genome Consortium Celera Fisical map, 45.000 BAC 27.000.000 clones individual BAC shotgun sequencing whole shotgun sequencing Assembly 10 years 1 years Assembly “clone by clone” Vs WGS: regioni ripetute Ripetizioni con identità >97% e lunghezza >15kb molto difficilmente risolvibili dall'approccio WGS Miglior compromesso tra velocità e accuratezza: strategia “ibrida” di sequenziamento Clone by clone + WGS Strategie di sequenziamento per genomi di organismi multicellulari Nature Reviews Genetics 2; 573-583 (2001) Completamento delle sequenze genomiche Draft sequence Scaffol d Lacuna di sequenza Finished sequence >95% genoma <0.01% errore Scaffol d Buchi fisici Fase di finishing Lacuna di sequenza Confronto tra sequenze Draft e Finished Nature 431, 931 - 945 (21 October 2004); Finishing the euchromatic sequence of the human genome Finished sequence gap inversioni Draft sequence Costi e tempi per il sequenziamento di un genoma eucariotico (gennaio 2005) Organismo: Tuber borchii Dimensione stimata genoma: 30 Mb Laboratorio di sequenziamento: BGI - Beijing Genome Institute Costo sequenziamento WGS: 3.8 euro / 1 kb Costo genoma 1x: 114,000 euro Costo genoma 10x (>95%): 1,114,000 euro Tempo sequenziamento: ~ 1 Mb / h Tempo completamento 10x: 4 mesi Analisi di genomi completi Identificazione e annotazione dei geni, predizioni funzionali Genomica comparativa: - Larga scala: evoluzione genomica (duplicazioni, riarrangiamenti) - Piccola scala: nascita di “nuovi” geni inattivazione di geni ancestrali Identificazione delle ORFs (Open Reading Frames) Barre continue: codoni di stop Trattini: codoni d'inizio In sequenze non codificanti un codone di stop è atteso ogni ~20 codoni (3/64) Identificazione di geni in genomi procariotici Complicazioni nell'identificazione dei geni in genomi eucariotici Struttura interrotta dei geni. Grande quantità di DNA non codificante Presenza di pseudogeni Codon usage spesso più equilibrato Metodi per l'identificazione: Ab inizio (ricerca ORF, codon usage, modelli giunzione introni/esoni, elementi regolatori upstream e downstream) Comparativi (confronto con sequenze proteiche o sequenze EST) Accuratezza dei “gene-finder” eucariotici Evaluation of Gene-Finding Programs on Mammalian Sequences Gen Res, 2001 (No. of sequences) number of sequences effectively analyzed by each program; in parentheses is the number of sequences where the absence of gene was predicted; (Sn) nucleotide level sensitivity; (Sp) nucleotide level specificity; (AC) approximate correlation; (CC) correlation coefficient; (ESn) exon level sensitivity; (ESp) exon level specificity; (ME) missed exons; (WE) wrong exons; (PCa) proportion of real exons that were partially predicted (only one exon boundary correct); (PCp) proportion of predicted exons that were only partially correct; (OL) proportion of predicted exons that overlap an actual exon. AC and (ESn+ESp)/2 are given with standard deviation. In assenza di una conferma sperimentale o di forti evidenze comparative una sequenza codificante identificata in un genoma è da considerarsi una realtà ipotetica: “hypothetical protein” Caratteristiche notevoli del genoma umano The Sequence of the Human Genome , Science 2001 Uomo-scimpanzé Science Dec 12 2003: 1960-1963