...

Uso dei corpora nella preparazione dei dizionari Concordanze

by user

on
Category: Documents
15

views

Report

Comments

Transcript

Uso dei corpora nella preparazione dei dizionari Concordanze
INFORMATICA UMANISTICA D:
LESSICOGRAFIA & COMPUTER
LESSICI E CORPORA
USO DEI CORPORA NELLA
LESSICOGRAFIA
Where did the Encarta Concise English
Dictionary’s editors find the information on which
to base their definitions? The Bloomsbury Corpus
of World English, which now has over 150 million
words, provided the main evidence. We amplified
this with a tailored reading programme in science,
technology, business, and other key areas in
order to find evidence of word use in varied fields.
Lastly we used the Internet as a research source.
Introduzione a ECED (citata da
Jackson, p. 167)
ALTRI DIZIONARI BASATI SU
CORPORA

Collins COBUILD


Oxford, Longman


BANK OF ENGLISH (Birmingham)
(400M)
BRITISH NATIONAL CORPUS (150M)
Cambridge

CAMBRIDGE LANGUAGE SURVEY
ITALIANO



Non esiste ancora un dizionario come
CoBUILD
Vocabolario Elettronico della Lingua
Italiana, VELI (De Mauro / IBM, 1989)
Lessico di Frequenza dell’Italiano
Parlato (LIP) (De Mauro et al, 1993)
CORPORA
CORPUS: una collezione di testi
selezionati ed organizzati in maniera tale
da soddisfare specifici criteri.
Lenci, Montemagni & Pirrelli, p. 26
CORPORA & COMPUTERS

I corpora esistevano prima
dell’avvento dei calcolatori elettronici,
ma le loro funzionalita’ e dimensioni
erano limitate
TIPI DI CORPORA




GENERALI (Brown, BNC) o SPECIFICI
(Childes, ICONOCLAST, EuroParl)
SCRITTO (BNC) o PARLATO (LIP) od
ambedue
SINCRONICO (Brown) o DIACRONICO
(Italnet, Repubblica)
MONOLINGUA, MULTILINGUE (Parole), o
PARALLELI (Hansard, EuroParl)
ALCUNI CORPORA PER
L’INGLESE
Corpus
Brown
# Tokens
1 000 000
Comments
Tagged, balanced
British National
Corpus (BNC)
Penn Treebank
100 000 000
POS tagged
2 000 000
Parsed
MapTask
150 000
Bank Of English
450 000 000
Spoken dialogue, parsed,
dialogue acts
Aperto
IL BROWN CORPUS




Il primo corpus in formato elettronico
moderno (Francis and Kucera, 1961)
500 testi, ognuno 2 000 parole
Analisi SINCRONICA dell’Inglese
Americano: testi di 15 generi
(fantascienza, romanzi, articoli
scientifici, reportage a stampa)
Annotata la parte del discorso di tutte le
parole (87 classi)
CORPORA MODERNI




Includono scritto, parlato, & nuove
forme (web, email, blogs)
Tipicamente testi interi
Sopra i 100 milioni di parole
Marcatura standardizzata (tipicamente
XML)
IL British National Corpus
(BNC)




Creato tra il 1991 ed il 1994 da un consorzio
diretto da Oxford University Press
Circa 100 milioni di parole
Classificazione grammaticale automatica
usando il classificatore CLAWS (parti
corrette a mano successivamente)
http://www.hcu.ox.ac.uk/BNC
FORMATO (SGML)
<div1 complete=y org=seq>
<head>
<s n=00040> <w NN2>TROUSERS <w VVB>SUIT
</head>
<caption>
<s n=00041> <w EX0>There <w VBZ>is <w PNI>nothing
<w AJ0>masculine <w PRP>about <w DT0>these <w
AJ0>new <w NN1>trouser <w NN2-VVZ>suits <w
PRP>in <w NN1>summer<w POS>'s <w AJ0>soft <w
NN2>pastels<c PUN>.
<s n=00042> <w NP0>Smart <w CJC>and <w
AJ0>acceptable <w PRP>for <w NN1>city <w NN1VVB>wear <w CJC>but <w AJ0>soft <w AV0>enough <w
PRP>for <w AJ0>relaxed <w NN2>days
</caption>
REINTERPRETAZIONE XML
<head>
<s id=“n00040”>
<w C=“NN2”>TROUSERS </w>
<w C=“VVB”>SUIT </w>
</head>
<caption>
<s id=“n00041”>
<w C=“EX0”>There </w>
<w C=“VBZ”>is </w>
<w C=“PNI”>nothing </w>
<w C=“AJ0”>masculine </w> ….
</s>
<s n=00042> … </s>
…….
</caption>
BNC: INTERFACCIA


Query tool: SARA
Interfaccia WEB:
http://sara.natcorp.ox.ac.uk/lookup.htm
l
CORPORA PER L’ITALIANO


Il termine ‘corpus’ usato perche’ il primo
corpus elettronico e’ la raccolta dei testi di
S. Tommaso d’Aquino creata da padre Busa
negli anni ’50
Alcuni corpora:



ITALNET (1849 testi anteriori a Boccaccio)
LIP (de Mauro et al, 1993)
REPUBBLICA
UN ESEMPIO: IL CORPUS DI
REPUBBLICA





Creato da SSMIT all’Universita’ di Bologna (Forli’)
Annate di Repubblica dal 1985 al 2000
380 milioni di parole tokenizzate, classificate
grammaticalmente, e lemmatizzate
Codifica XML secondo lo standard TEI
Disponibile a:
http://sslmitdevonline.sslmit.unibo.it/corpora/corpus.php?path=&na
me=Repubblica

(Occorre registrarsi)
CORPORA PER LA
LESSICOGRAFIA



Esempio del tipo di scelte che si
devono fare
Tipicamente includono sia parlato che
scritto
Diacronici
ANALISI LESSICOGRAFICA
DI TESTI



Identificazione dei LEMMI (e delle loro
parti del discorso)
Calcolo delle loro frequenze
Costruzione di CONCORDANZE


liste ordinate di parole che si trovano in un
testo con il contesto
Identificazione di COLLOCAZIONI

“broken twig”
L’IDENTIFICAZIONE DEI
LEMMI IN UN TESTO



TOKENIZZAZIONE
LEMMATIZZAZIONE
CLASSIFICAZIONE GRAMMATICALE
TOKENIZZAZIONE
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
C’ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. |
C’ | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO
|.|
ALCUNI PROBLEMI CON IL
PUNTO
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
IL SIG. ROSSI TELEFONÓ A CASA.
U.S.A.
9.45
WWW.GOOGLE.IT
MAIUSCOLE E MINUSCOLE
Rossi / rossi
Ciliegia / ciliegia
TOKEN COMPLESSI





Los Angeles, La Spezia
Di rado, fuori servizio
Ad hoc
Tagliare la corda
GU L 161 del 26.6.1999
LEMMATIZZAZIONE
DARGLIELO
LEMMATIZZAZIONE NEL LIP

In Italiano, una volta nota la categoria
grammaticale di una forma il lemma e’
solitamente univocamente determinato


Eccezioni: 1.4% (CONTI: pl. di 
CONTO o  CONTE)
Processo in tre passi
LEMMATIZZAZIONE

ANCORA LA DERIVA:
1.
2.
3.
ANCORA (N, V, CON) LA (ART, PRO)
DERIVA N, V)
ANCORA (V) LA (ART) DERIVA (N)
ANCORA (V ANCORARE) LA (ART IL)
DERIVA (N DERIVA)
LEMMATIZZAZIONE CON
XELDA
XELDA: DEMO ONLINE

Analisi morfologica in 14 lingue
CLASSIFICAZIONE
GRAMMATICALE



In molti dei corpora piu’ recenti (a
partire dal Brown corpus), e
particolarmente in quelli usati per la
lessicografia, i lemmi vengono
classificati con la loro parte di discorso
Brown corpus: fatto a mano
BNC, LIP: fatto automaticamente
CLASSIFICAZIONE
GRAMMATICALE

Molte forme di parola possono essere
associate con parti del discorso
diverse:

STATO sia sostantivo (LO STATO
ITALIANO) che verbo (NON SONO
STATO IO)
CLASSIFICAZIONE
GRAMMATICALE: BROWN CORPUS
Television/NN has/HVZ yet/RB to/TO work/VB
out/RP a/AT living/RBG arrangement/NN with/IN
jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT
medium/NN more/QL as/CS an/AT uneasy/JJ
guest/NN than/CS as/CS a/AT relaxed/VBN
member/NN of/IN the/AT family/NN ./.
AMBIGUITA’ NELLA CLASSIFICAZIONE
GRAMMATICALE
The
man
still
saw
her
AT
NN
NN
NN
PPO
VB
VB
VBD
PP$
RB
STATISTICHE
SULL’AMBIGUITA’ NEL B.C.
Unambiguous (1tag)
Ambiguous (2-7 tags)
2 tags
3 tags
4 tags
5 tags
6 tags
7 tags
35,340
4,100
3,760
264
61
12
2
1 (“still”)
METODI PER LA CLASSIFICAZIONE
GRAMMATICALE


Prevalentemente STATISTICI
Combinano:



Informazioni sulla FREQUENZA di una
parola
Con informazioni sul CONTESTO
(specialmente parole precedenti)
E sulla sua MORFOLOGIA (specialmente
per parole sconosciute)

POBILARE
CONCORDANZE


In Pinocchio, la forma BUONO occorre
11 volte.
Domande che si pone un lessicografo:




Quali parti del discorso?
Quali sensi?
Usati in quali contesti?
Soluzione: le CONCORDANZE
CONCORDANZE
CONCORDANZA = forma + contesto
1
2
3
4
5
6
7
1,
2,
5,
8,
12,
13,
15,
1
1
2
1
3
6
1
|
|
|
|
|
|
|
uomini, sono stati e sono o repubbliche o principati. È principati
indrieto el ragionare delle repubbliche, perché altra volta ne ragionai
assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore
dove si trattassi delle repubbliche. Questi sono quando, o per
vede a' principi soli e repubbliche armate fare progressi grandissimi,
Alessandro Magno, e come molte repubbliche e principi si sono armati
molti si sono immaginati repubbliche e principati che non si
RICERCHE E CONCORDANZE
NEL CORPUS DI REPUBBLICA

L’interfaccia Web al corpus puo’
essere usata per


Query di vario tipo (ritrovano
concordanze)
Calcolare frequenze di parole
TOOLS PER L’ANALISI
LESSICOGRAFICA


Esistono oggi moltissimi tools che
permettono di eseguire il tipo di analisi
appena visto automaticamente
Esempi:



WORDSMITH distribuito da ICAME (a
pagamento)
TextSTAT (gratis)
WORDSKETCH (a pagamento)
TextSTAT



Sviluppato dal Dipartimento di Linguistica
Olandese della Freie Universitaet Berlin
Permette di estrarre FREQUENZE e
CONCORDANZE da ‘CORPORA’ che
includono testi in ASCII, HTML, e WORD
Si puo’ scaricare da:
http://www.niederlandistik.fuberlin.de/textstat/software-en.html
TextSTAT
CONCORDANZE: FORME
DIVERSE DI CONTESTO
e le colonne e i simulacri e l’ERME
ch’abbella agli occhi tuoi quest’ERMO lido,
Bruto per l’atra notte in ERMA sede,
ERMA terrena sede! Oh quanto affanno
Sempre caro mi fu quest’ERMO colle,
l’ERMA terra contemplo, e di fanciulla
de’ tuoi steli abbellir l’ERME contrade
ERME Torri, I 2
ERMO lido, IV 4
ERMA sede, VI 11
ERMA terrena sede, VIII 36
ERMO colle, XII 1
L’ERMA terra contemplo, XVI 63
ERME contrade, XXXIV 8
COLLOCAZIONI
NOTTE FONDA, LUNA PIENA, ALTA
STAGIONE
COLLOCAZIONE: sequenza di due o piu’
parole caratterizzate da un forte legame di
associazione
TIPI DI COLLOCAZIONI



TERMINI TECNICI: sistema operativo,
corte d’Assise
VERBO SUPPORTO: fare attenzione,
prendersi un caffe’, dar manforte
COSTRUZIONI IDIOMATICHE: tagliar
la corda, tirare le cuoia
RICERCA DI COLLOCAZIONI


Usando metodi statistici
Intuizione: cercare di scoprire coppie
la cui probabilita’ di occorrere in
sequenza e’ molto maggiore di quel
che ci si aspetterebbe date le relative
probabilita’ di occorrenza
DAI LEMMI IN UN CORPUS
AI LEMMI IN UN DIZIONARIO

Durante la progettazione di un dizionario, si
determinano




Le DIMENSIONI del dizionario (numero di
lemmi)
Il bilanciamento tra le lettere dell’alfabeto
La lunghezza delle definizioni
L’uso dei dati estratti automaticamente per
la compilazione richiede un passo nonautomatico
CORPORA E
LESSICOGRAFIA (AGAIN)

De Mauro, 1980: VOCABOLARIO DI BASE
(VDB)



2000 vocaboli fondamentali (“se usiamo solo …
possiamo sperare di essere capiti dal 66% della
popolazione Italiana che ha almeno la licenza
elementare”)
2937 di alto uso, 1753 di ‘alta disponibilita’’
LIP e VDB:


AMICO, CRITICO, ESPRESSO: VDB solo
sostantivi, LIP anche verbi
Non nel LIP: UNGHIA, BUGIA, PUGNO
CORPORA ALLINEATI E
APPRENDIMENTO DELLE LINGUE


I corpora allineati (Hansard,
EUROPARL) sono una risorsa
importante sia per la traduzione che
per l’apprendimento
Interfaccia a EuroParl (Portoghese /
Francese):

http://eremita.di.uminho.pt/albin/natsearch.cgi
CREAZIONE DI CORPORA


Un impegno significativo
Essenziale chiarire sin dall’inizio usi che si
vogliono fare:



Che linguaggio si vuol campionare
Che tipi di analisi
Decisioni tecniche:


Codifica dei testi (ASCII, XML) (modulo C)
Tokens, lemmi, etc.
IL LESSICO DI FREQUENZA
DELL’ITALIANO PARLATO




De Mauro, Mancini, Vedovelli e Voghera:
LESSICO DI FREQUENZA DELL’ITALIANO
PARLATO, ETAS libri, 1993
500 000 lemmi in totale (57 h di
registrazione)
Raccolti in ugual numero a Milano, Firenze,
Roma e Napoli
100 000 occorrenze per ognuno di cinque
‘tipi di parlato’ (da conversazione a ‘scambio
unidirezionale’ = discorsi politici)
CREAZIONE DEL CORPUS



Raccolta dei materiali
Trascrizione
Trattamento automatico
RACCOLTA DEI MATERIALI





Gruppo A: conversazioni bidirezionali faccia a
faccia in casa / sul lavoro / a scuola / etc
Gruppo B: conversazioni bidirezionali NON faccia a
faccia (al telefono)
Gruppo C: conversazioni bidirezionali faccia a
faccia ma “con presa di parola non libera” (esami
universitari / assemblee legislative / interviste)
Gruppo D: scambio unidirezionale in presenza del
destinatario (lezioni, relazioni, comizi, omelie)
Gruppo E: scambio unidirezionale a distanza
(trasmissioni televisive / radiofoniche)
CREAZIONE DEL CORPUS


Raccolta dei materiali
Trascrizione




A mano
Non IPA
Vari simboli per pause, tenute vocaliche
(ciao_), etc.
Trattamento automatico
CREAZIONE DEL CORPUS



Raccolta dei materiali
Trascrizione
Trattamento automatico:




Tokenizzazione
Lemmatizzazione
Classificazione grammaticale
Correttezza: tra il 91% ed il 94%
ALCUNE STATISTICHE
il (Art)
37076
non (Av)
7752
di (Prep)
16721
in (Prep)
6879
essere (V)
15220
che (Pro)
6705
uno (Art)
12204
io (Pro)
5872
a (Prep)
11671
che (Cong) 5501
e (Cong.)
9858
avere
5396
egli (Pro)
8360
per (Prep)
4956
LA CURVA DI ZIPF
LIP e LIF


Non emergono chiare regole
Spostamenti di RANGO




Mo’: 326 nel LIP, 3296 nel LIF
Praticamente: 221 LIP, 3513 LIF
Generalmente pero’ bilanciato (fare: 15
LIP, 16 LIF)
Dimensioni troppo ridotte
LETTURE




Jackson, cap. 13
Lenci et al: cap. 1, cap 4.1, cap. 7
Marello, cap. 5.3, 6.6
De Mauro et al 1993
ACKNOWLEDGMENTS

Ringraziamenti a Marco Baroni
(UniBo)
Fly UP