...

LE PAROLE CHE CONTANO

by user

on
Category: Documents
27

views

Report

Comments

Transcript

LE PAROLE CHE CONTANO
LE PAROLE CHE CONTANO
Proposte di analisi testuale automatizzata
Mauro La Torre
FrancoAngeli
1
Indice
Prefazione
» 9
1. Parole e numeri
1.1 Le due culture
1.2 Lingua e statistica
» 13
» 13
» 16
2. Discorsi e testi
2.1 I discorsi
2.2 L’era dell’oralità
2.3 L’era della scrittura
2.4 L’era della stampa
2.5 L’era informatica
2.6 Il testo
»
»
»
»
»
»
»
23
23
24
25
27
28
31
3. Documenti e macchine
3.1 I documenti
3.1.1 I documenti informatici
3.2 Codici binari
3.2.1 Codici logici (binari)
3.2.2 Codici numerici (binari)
3.2.3 Codici linguistici (binari)
3.2.3.1 Il codice ASCII
3.2.3.2 Il codice ANSI e simili
3.2.3.3 L’ Unicodice
3.3 Il formato di un documento informatico
3.3.1 Testi piani
3.3.2 Testi ricchi
3.4 L’informatizzazione di un testo
3.4.1 L’immissione diretta
3.4.2 La scansione ottica
3.4.3 L’acquisizione di un testo orale
»
»
»
»
»
»
»
»
»
»
»
»
»
»
»
»
»
37
37
37
38
39
39
40
41
41
44
46
47
48
49
50
53
54
5
3.4.3.1 La sbobinatura
3.4.3.2 Il riconoscimento vocale
» 54
» 55
4. I segni della scrittura
4.1 I sistemi di scrittura e di stampa
4.2 I segni elementari
4.3 La distribuzione grafemica
4.4 Unità di analisi, segni separatori
»
»
»
»
»
60
60
62
64
69
5. La preparazione dei testi
5.1 Predisposizioni
5.1.1 Schedatura
5.1.2 Controllo ortografico
5.1.3 Controllo grafemico
5.1.4 Controlli di formato
5.1.5 Altri controlli
5.2 Normalizzazioni
»
»
»
»
»
»
»
»
77
77
77
78
79
79
80
81
6. Tipi e occorrenze
6.1 Classificazioni e conteggi
6.2 Tipi, occorrenze, frequenze
6.3 Occorrenze di grafemi, di parole, di frasi
»
»
»
»
84
84
86
88
7. Le misure del testo
7.1 Unità di misura del testo
7.2 Le lunghezze del testo
7.3 Lunghezze medie e massime
7.4 La varietà lessicale
7.5 Altre misure lessicometriche
»
»
»
»
»
»
92
92
93
96
97
99
8. Vocabolario e lessico
8.1 Lo spoglio lessicale
8.1.1 La segmentazione in parole
8.1.2 L’indicizzazione
8.2 Il formario
8.3 Le liste di frequenza
8.3.1 Altri ordinamenti
8.4 La distribuzione delle frequenze
8.4.1 Classi di frequenza
6
»
»
»
»
»
»
»
»
»
106
106
106
107
108
109
111
112
113
»
»
»
»
»
»
117
121
123
124
128
131
9. Testo e contesto
9.1 Contesti
9.2 Co-testi e concordanze
9.2.1 Co-testi
9.2.2 Concordanze
9.2.3 Relazioni paradigmatiche
9.2.4 Relazioni sintagmatiche
9.2.5 Omografi
9.2.6 Accezioni
9.3 Cooccorrenze
»
»
»
»
»
»
»
»
»
»
137
137
139
139
140
141
143
144
146
148
10. Parole e locuzioni
10.1 Locuzioni polirematiche
10.2 L’analisi dei segmenti
10.2.1 Inventari di segmenti
10.2.2 Quantità di segmenti
10.3 Tipi di segmenti
10.3.1 Indice di assorbimento
10.4 Quasi-segmenti
10.5 Collocazioni
10.5.1 La solidarietà lessicale
10.5.2 La ricerca di cooccorrenze a breve distanza
10.5.3 La ricerca di cooccorrenze per frammento
10.6 Lessie, lessicalizzazione
»
»
»
»
»
»
»
»
»
»
»
»
»
155
155
158
159
162
164
167
168
171
171
172
173
173
11. Famiglie di parole
11.1 Paradigmi
11.2 Vocaboli e lemmi
11.3 Lemmatizzazione, disambiguazione
11.3.1 Procedure di lemmatizzazione
11.3.2 Ricostruzioni del testo
11.3.3 Trattamenti per famiglie
»
»
»
»
»
»
»
179
179
181
184
184
188
189
8.5
8.6
8.7
8.8
8.9
8.4.2 Leggi di Zipf
Le fasce di frequenza
Le parole tematiche
Frequenze relative, normalizzate, cumulate
L’accrescimento del vocabolario
Copertura del testo
7
11.4 Parole, parole, parole, ...
11.4.1 Concetti di “parola”
11.4.2 Forme testuali miste
» 190
» 190
» 193
12. Parole caratteristiche
12.1 Lessici a confronto
12.1.1 Insiemi di parole
12.1.2 Profili lessicali
12.1.3 Connessione lessicale
12.2 Misura della diffusione
12.2.1 L’indice di diffusione
12.2.2 L’indice d’uso
12.3 Lessici di riferimento
12.3.1 Vocabolari effettivi e lessici virtuali
12.3.2 Dizionari di frequenza
12.3.3 Lessici fondamentali
12.3.4 Banche testuali e lessicali
12.4 Parole peculiari
12.5 La specificità lessicale di un subtesto
»
»
»
»
»
»
»
»
»
»
»
»
»
»
»
Bibliografia generale
» 234
Sitografia
» 243
Indice analitico
» 245
8
197
197
197
199
202
206
206
208
209
209
210
213
217
219
225
Fly UP