Comments
Description
Transcript
LE PAROLE CHE CONTANO
LE PAROLE CHE CONTANO Proposte di analisi testuale automatizzata Mauro La Torre FrancoAngeli 1 Indice Prefazione » 9 1. Parole e numeri 1.1 Le due culture 1.2 Lingua e statistica » 13 » 13 » 16 2. Discorsi e testi 2.1 I discorsi 2.2 L’era dell’oralità 2.3 L’era della scrittura 2.4 L’era della stampa 2.5 L’era informatica 2.6 Il testo » » » » » » » 23 23 24 25 27 28 31 3. Documenti e macchine 3.1 I documenti 3.1.1 I documenti informatici 3.2 Codici binari 3.2.1 Codici logici (binari) 3.2.2 Codici numerici (binari) 3.2.3 Codici linguistici (binari) 3.2.3.1 Il codice ASCII 3.2.3.2 Il codice ANSI e simili 3.2.3.3 L’ Unicodice 3.3 Il formato di un documento informatico 3.3.1 Testi piani 3.3.2 Testi ricchi 3.4 L’informatizzazione di un testo 3.4.1 L’immissione diretta 3.4.2 La scansione ottica 3.4.3 L’acquisizione di un testo orale » » » » » » » » » » » » » » » » » 37 37 37 38 39 39 40 41 41 44 46 47 48 49 50 53 54 5 3.4.3.1 La sbobinatura 3.4.3.2 Il riconoscimento vocale » 54 » 55 4. I segni della scrittura 4.1 I sistemi di scrittura e di stampa 4.2 I segni elementari 4.3 La distribuzione grafemica 4.4 Unità di analisi, segni separatori » » » » » 60 60 62 64 69 5. La preparazione dei testi 5.1 Predisposizioni 5.1.1 Schedatura 5.1.2 Controllo ortografico 5.1.3 Controllo grafemico 5.1.4 Controlli di formato 5.1.5 Altri controlli 5.2 Normalizzazioni » » » » » » » » 77 77 77 78 79 79 80 81 6. Tipi e occorrenze 6.1 Classificazioni e conteggi 6.2 Tipi, occorrenze, frequenze 6.3 Occorrenze di grafemi, di parole, di frasi » » » » 84 84 86 88 7. Le misure del testo 7.1 Unità di misura del testo 7.2 Le lunghezze del testo 7.3 Lunghezze medie e massime 7.4 La varietà lessicale 7.5 Altre misure lessicometriche » » » » » » 92 92 93 96 97 99 8. Vocabolario e lessico 8.1 Lo spoglio lessicale 8.1.1 La segmentazione in parole 8.1.2 L’indicizzazione 8.2 Il formario 8.3 Le liste di frequenza 8.3.1 Altri ordinamenti 8.4 La distribuzione delle frequenze 8.4.1 Classi di frequenza 6 » » » » » » » » » 106 106 106 107 108 109 111 112 113 » » » » » » 117 121 123 124 128 131 9. Testo e contesto 9.1 Contesti 9.2 Co-testi e concordanze 9.2.1 Co-testi 9.2.2 Concordanze 9.2.3 Relazioni paradigmatiche 9.2.4 Relazioni sintagmatiche 9.2.5 Omografi 9.2.6 Accezioni 9.3 Cooccorrenze » » » » » » » » » » 137 137 139 139 140 141 143 144 146 148 10. Parole e locuzioni 10.1 Locuzioni polirematiche 10.2 L’analisi dei segmenti 10.2.1 Inventari di segmenti 10.2.2 Quantità di segmenti 10.3 Tipi di segmenti 10.3.1 Indice di assorbimento 10.4 Quasi-segmenti 10.5 Collocazioni 10.5.1 La solidarietà lessicale 10.5.2 La ricerca di cooccorrenze a breve distanza 10.5.3 La ricerca di cooccorrenze per frammento 10.6 Lessie, lessicalizzazione » » » » » » » » » » » » » 155 155 158 159 162 164 167 168 171 171 172 173 173 11. Famiglie di parole 11.1 Paradigmi 11.2 Vocaboli e lemmi 11.3 Lemmatizzazione, disambiguazione 11.3.1 Procedure di lemmatizzazione 11.3.2 Ricostruzioni del testo 11.3.3 Trattamenti per famiglie » » » » » » » 179 179 181 184 184 188 189 8.5 8.6 8.7 8.8 8.9 8.4.2 Leggi di Zipf Le fasce di frequenza Le parole tematiche Frequenze relative, normalizzate, cumulate L’accrescimento del vocabolario Copertura del testo 7 11.4 Parole, parole, parole, ... 11.4.1 Concetti di “parola” 11.4.2 Forme testuali miste » 190 » 190 » 193 12. Parole caratteristiche 12.1 Lessici a confronto 12.1.1 Insiemi di parole 12.1.2 Profili lessicali 12.1.3 Connessione lessicale 12.2 Misura della diffusione 12.2.1 L’indice di diffusione 12.2.2 L’indice d’uso 12.3 Lessici di riferimento 12.3.1 Vocabolari effettivi e lessici virtuali 12.3.2 Dizionari di frequenza 12.3.3 Lessici fondamentali 12.3.4 Banche testuali e lessicali 12.4 Parole peculiari 12.5 La specificità lessicale di un subtesto » » » » » » » » » » » » » » » Bibliografia generale » 234 Sitografia » 243 Indice analitico » 245 8 197 197 197 199 202 206 206 208 209 209 210 213 217 219 225