...

Parole, parti del discorso, e morfologia

by user

on
Category: Documents
14

views

Report

Comments

Transcript

Parole, parti del discorso, e morfologia
ANNUNCI

CAMBIAMENTO ORARI:




30/4: vacanza
Recupero lezione: venerdi’ 18/5, 10-12
Recupero lab D: venerdi’ 25/5, 14-16
http://www.dit.unitn.it/~poesio/Teach/IU
piano delle lezioni di Informatica
Umanistica D online.
RICEVIMENTO
(MASSIMO POESIO)

Ricevimento:
Martedi’ 16-18, via
Sighele 7
INFORMATICA UMANISTICA D:
LESSICOGRAFIA E COMPUTER
Parola
Informazioni lessicali: parti del
discorso
Informazioni lessicali: morfologia
LESSICOGRAFIA E COMPUTER:
ARGOMENTI DEL CORSO


I dizionari e la loro storia
Conoscenza lessicale:






parole e morfologia
collocazioni
semantica
Lessicografia
Dizionari elettronici
Lessici elettronici: WordNet
LESSICO E DIZIONARIO


LESSICO: insieme di parole di una
lingua e delle informazioni lessicali su
queste parole
DIZIONARIO: una descrizione di
questo lessico

(Differenza simile a quella tra struttura di
una lingua e grammatica)
INFORMAZIONI LESSICALI




Significato
Proprieta’ foniche / grafiche
Informazioni sintattiche (parti del
discorso)
Informazioni morfologiche
QUALI SONO LE ‘PAROLE’
DI UNA LINGUA?
= quante parole ha una lingua?
= che lemmi ci devono essere in
un dizionario?
DEFINIZIONE
TRADIZIONALE
La parola e’ “cio che si trova tra due
spazi bianchi”
QUALI SONO LE PAROLE DI
UNA LINGUA?

25 lemmi dal Concise Oxford Dictionary:








wannabe,
want, wanting, wanton, wapentake, wapiti,
War.,
war, waratah,
war baby,
warble1, warble2,
warble fly, warbler, warby, war chest, war crime,
war cry, ward,
-ward
PRIMO CRITERIO DI
IDENTIFICAZIONE :

Si hanno parole distinte quando si
abbiano CONCETTI diversi

Vedi sotto, morfemi
PAROLE E LEMMI

want (ma non wanted)


sings, sang, sung  sing
Italiano:

mangerò, mangeresti, mangerai
mangiare
nero, nera, neri, nere  nero

= 7 forme di parola, 2 lemmi

FORME DI CITAZIONE


Un dizionario riporta le FORME DI
CITAZIONE (= LEMMI) delle parole
Convenzioni diverse a seconda della
lingua:

Italiano: infinito (AMARE)


Inglese: TO LOVE
Latino: prima persona presente singolare
(AMO)
OMONIMI

warble1, warble2 : due PAROLE,
stessa FORMA (OMONIMI)

Italiano: diligenza, tara, (botte, pesca …)
PAROLE: FORME
FONEMICHE E GRAFICHE


La definizione di parola “cio’ che si
trova tra due spazi bianchi” e’
puramente ORTOGRAFICA
Ogni parola ha DUE forme:


i SUONI (FONEMI) che la compongono
e il modo in cui viene rappresentata
graficamente (GRAFIA)
PAROLE E LA LORO GRAFIA

La nostra `immagine’ delle parole (e la
loro posizione in un dizionario,
cartaceo od elettronico) spesso
dipende dalla grafia usata


La grafia pero’ cambia di continuo:
lengaio  linguaggio, dinaro  denaro
Occorre anche ricordare che lo scritto
segue il parlato, e che non sempre la
corrispondenza e’ perfetta
INGLESE:

HOMOGRAPHS




read, read, read
tear / tear
bow, refuse, wind
HOMOPHONES:


bare / bear, pale / pail, stake / steak
Mary / merry / marry (alcuni dialetti
Americani)
ITALIANO


La grafia delle parole Italiane non e’
cambiata molto dagli inizi del
Cinquecento (prime edizioni a stampa,
e.g., edizione del Petrarca curata da
Bembo e stampata da Manuzio nel
1515)
Ma per secoli l’ortografia non
corrispondeva alla pronuncia
DUE ESEMPI DI
CAMBIAMENTO DI GRAFIA

V=U

Vocabolario della Crusca, 1612:





VATICINARE
VBBIA
VDITORE
(Crusca 1738: V  U, ordine invariato)
H

Vocabolario della Crusca, 1612:

HUMILE
GRAFEMI E FONEMI
mela
m'me:la
bello
'bɛ:llo
bene
ieri
'bɛ:ne
'jɛ:ri
In Italiano ci sono 21 grafemi (+ 5) ma 30 fonemi
UNA FORMA, DUE PAROLE

CONTRAZIONI:

Wannabe


gonna, gimme …
CLITICI:


COMPRALO
SCRIVIMI
DUE FORME, UNA PAROLA


Parole POLIREMATICHE o COMPLESSE
(Inglese: MULTIWORDS)
RIFLESSIVI:

sedersi (Mario si sedette)


PAROLE IDIOMATICHE


palla al piede, vuotare il sacco, tavola rotonda
‘WEAK VERBS’


Inglese  sit (Mario sat)
avere paura
COMPOSTI: sci alpinismo, fuori servizio
MULTIWORDS IN INGLESE


PHRASAL VERBS: break up, calm down,
find out, give in, look over, pass out, show
up, take off …..
COMPOUNDS:



war baby, war chest, war crime, war cry, war
dance
bell and whistles, rock and roll, bow and scrape,
nip and tuck ….
IN TEDESCO:
Donaudampfschiffahrtgesellschaftkapitänwitwe
DA FORME POLIREMATICHE
A COMPOSTI

salvavita / tritacarne / dopolavoro /
benestante
JACKSON: TRE SENSI DI
‘WORD’ (‘PAROLA’)



ORTHOGRAPHIC WORD: una
sequenza di lettere circondata da
spazi
PHONEMIC WORD: una sequenza di
suoni (fonemi)
LEXEME: una unita’ del lessico, a cui
puo’ corrispondere una voce distinta in
un dizionario
PAROLA = LESSEMA

Marello:

“il termine PAROLA … [indica una] unita’
linguistica a cui sono associati una
funzione grammaticale ed un significato,
separata graficamente dalle altre da
spazi e dotata di coesione interna, per cui
non si possono inserire altri elementi al
suo interno, ne’ si puo’ mutare l’ordine
degli elementi che la costituiscono”
RICORDIAMO ALCUNE
DEFINIZIONI


PAROLA (Inglese WORD): elemento
linguistico (= unita’ del ‘lessico mentale’,
LESSEMA)
FORME DI PAROLA (Inglese WORDFORM):



Ortografica
Fonetica
LEMMA

La FORMA DI CITAZIONE di una parola in un
dizionario, associata con una VOCE (Inglese
LEXICAL ENTRY):
USO DEI CORPORA PER
L’IDENTIFICAZIONE DEI LEMMI
Where did the Encarta Concise English
Dictionary’s editors find the information on which
to base their definitions? The Bloomsbury Corpus
of World English, which now has over 150 million
words, provided the main evidence. We amplified
this with a tailored reading programme in science,
technology, business, and other key areas in
order to find evidence of word use in varied fields.
Lastly we used the Internet as a research source.
Introduzione a ECED (citata da
Jackson, p. 167)
ANALISI LESSICOGRAFICA
DI TESTI

Identificazione dei LEMMI



Costruzione di CONCORDANZE


e delle loro parti del discorso
Calcolo delle loro frequenze
liste ordinate di parole che si trovano in un
testo con il contesto
Identificazione di COLLOCAZIONI

“broken twig”
L’IDENTIFICAZIONE DEI LEMMI
NEI TESTI VIA COMPUTER



TOKENIZZAZIONE
LEMMATIZZAZIONE
CLASSIFICAZIONE GRAMMATICALE
TOKENIZZAZIONE
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
C’ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO. |
C’ | ERA | UNA | VOLTA | UN | PEZZO | DI | LEGNO
|.|
ALCUNI PROBLEMI CON IL
PUNTO
C’ERA UNA VOLTA UN PEZZO DI LEGNO.
IL SIG. ROSSI TELEFONÓ A CASA.
U.S.A.
9.45
WWW.GOOGLE.IT
MAIUSCOLE E MINUSCOLE
Rossi / rossi
Ciliegia / ciliegia
FORME POLIREMATICHE
(= TOKEN COMPLESSI)

Vuotare il sacco, tagliare la corda, di
rado, fuori servizio, ad hoc


War baby
Los Angeles, La Spezia

GU L 161 del 26.6.1999
LA CLASSIFICAZIONE
DELLE PAROLE

Jackson, 1.5

Per saperne di piu’:


Jezek, capitolo 4
Graffi / Scalise, capitolo 2
RESTRIZIONI SULLE
POSIZIONI DELLE PAROLE

La ragazza lesse rapidamente il libro




*Ragazza la lesse rapidamente il libro
*La ragazza lesse il rapidamente libro
Inglese: *The Sue quickly read the book
Sottocategorie:


*La ragazza arrivo’ il libro
conigliera, baleniera, teiera, ma: *virtuiera,
*pazienzera
CATEGORIE LESSICALI
(PARTI DEL DISCORSO)









NOMI (tavolo, Simona)
VERBI (camminare, mangiare, colpire)
AGGETTIVI (rosso, rapido)
AVVERBI (probabilmente, subito)
PRONOMI (io, lui, ci)
ARTICOLI (il, la, un)
PREPOSIZIONI (di, a, con)
CONGIUNZIONI (e, ma, o)
[Italiano]: INTERIEZIONI (ahi! )
ALCUNE DISTINZIONI

PARTI DEL DISCORSO VARIABILI /
INVARIABILI


L’uomo cammina / camminava
PARTI DEL DISCORSO APERTE /
CHIUSE


Aperte: nomi, verbi, aggettivi, avverbi
Chiuse: articoli, pronomi, preposizioni,
congiunzioni
CATEGORIE UNIVERSALI?



Il nome ed il verbo non mancano in
nessuna lingua
L’articolo manca in molte lingue
(Latino, lingue slave, Cinese)
Avverbio?
CATEGORIE LESSICALI E
DIZIONARI

Un dizionario tipicamente identifica
tutte le parti del discorso che una
certa forma di parola puo’ essere usata
per esprimere, e solitamente associa
voci diverse con ogni parte


warble1, warble2
Italiano: legge, letto, affetto, porto,
pianta …
ZINGARELLI INTERATTIVO:
LEGGE1
1 Norma, espressa dagli organi legislativi dello Stato, che stabilisce diritti e doveri
dei cittadini Legge delega, che viene emessa dal potere esecutivo su delega del
potere legislativo entro un ambito ben precisato Legge ponte, emessa in attesa di
un'altra più organica A norma, a termini di legge, secondo ciò che la legge
prescrive.
2 (est.) Complesso delle norme costituenti l'ordinamento giuridico di uno Stato: la
legge è uguale per tutti Essere fuori della legge, non essere garantito dalla legge o
non sentirsi a essa soggetto Dettar legge, imporre a tutti la propria volontà.
3 Scienza giuridica: laurea in legge; dottore in legge; facoltà di legge Uomo di
legge, specialista nella scienza giuridica.
4 Autorità giudiziaria: ricorrere alla legge In nome della legge, formula con cui i
rappresentanti dell'autorità giudiziaria intimano a qc. di obbedire a un comando della
stessa: in nome della legge, aprite!
5 (est.) Ogni norma che regola la condotta individuale o sociale degli uomini: le leggi
della società.
6 (est.) Regola fondamentale di una tecnica, di un'arte e sim.: le leggi della pittura.
7 Relazione determinata e costante fra le quantità variabili che entrano in un
fenomeno: le leggi della matematica, della fisica.
ZINGARELLI INTERATTIVO:
LEGGE2
leggere
v. tr. (pres. io lèggo, tu lèggi; pass. rem. io lèssi, tu leggésti; part. pass.
lètto)
1 Riconoscere dai segni della scrittura le parole e comprenderne il
significato: imparare, insegnare a leggere; leggere a voce alta (ass.) Fare
lettura, dedicarsi alla lettura: trascorro gran parte della giornata leggendo.
2 Interpretare certi segni convenzionali o naturali: i ciechi leggono con le
dita; leggere un diagramma (fig.) Leggere la mano, ricavare dati sul
carattere e sul destino di qc. basandosi sulle linee della mano.
3 (lett.) Interpretare uno scritto, un passo: i critici dell'Ottocento leggevano
erroneamente questa strofa (est.) Interpretare, valutare scritti, eventi e
sim. secondo particolari criteri: leggere un film in chiave ironica.
4 (fig.) Intuire i pensieri e le intenzioni di qc.: gli si legge il terrore sul volto.
CLASSIFICAZIONE GRAMMATICALE
NEI CORPORA

In molti dei corpora piu’ recenti (a partire
dal Brown corpus), e particolarmente in
quelli usati per la lessicografia, i token
vengono classificati con la loro parte di
discorso



Brown corpus: fatto a mano
BNC, LIP: fatto automaticamente
Queste informazioni possono essere usate
per associare parti del discorso ai lemmi
IL BROWN CORPUS




Il primo corpus in formato elettronico
moderno (Francis and Kucera, 1961)
500 testi, ognuno 2 000 parole
Analisi SINCRONICA dell’Inglese
Americano: testi di 15 generi
(fantascienza, romanzi, articoli
scientifici, reportage a stampa)
Annotata la parte del discorso di tutte le
parole (87 classi)
IL British National Corpus
(BNC)




Creato tra il 1991 ed il 1994 da un consorzio
diretto da Oxford University Press
Circa 100 milioni di parole
Classificazione grammaticale automatica
usando il classificatore CLAWS (parti
corrette a mano successivamente)
http://www.hcu.ox.ac.uk/BNC
CLASSIFICAZIONE
GRAMMATICALE: BROWN CORPUS
Television/NN has/HVZ yet/RB to/TO work/VB
out/RP a/AT living/RBG arrangement/NN with/IN
jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT
medium/NN more/QL as/CS an/AT uneasy/JJ
guest/NN than/CS as/CS a/AT relaxed/VBN
member/NN of/IN the/AT family/NN ./.
AMBIGUITA’ NELLA CLASSIFICAZIONE
GRAMMATICALE

Molte forme di parola possono essere
associate con parti del discorso
diverse:

STATO sia sostantivo (LO STATO
ITALIANO) che verbo (NON SONO
STATO IO)
AMBIGUITA’ NELLA CLASSIFICAZIONE
GRAMMATICALE
The
man
still
saw
her
AT
NN
NN
NN
PPO
VB
VB
VBD
PP$
RB
STATISTICHE
SULL’AMBIGUITA’ NEL B.C.
Unambiguous (1tag)
Ambiguous (2-7 tags)
2 tags
3 tags
4 tags
5 tags
6 tags
7 tags
35,340
4,100
3,760
264
61
12
2
1 (“still”)
METODI PER LA CLASSIFICAZIONE
GRAMMATICALE AUTOMATICA


Prevalentemente STATISTICI
Combinano:



Informazioni sulla FREQUENZA di una
parola
Con informazioni sul CONTESTO
(specialmente parole precedenti)
E sulla sua MORFOLOGIA (specialmente
per parole sconosciute)

POBILARE
STRUMENTI INFORMATICI PER LA
CLASSIFICAZIONE GRAMMATICALE

INGLESE:




TEDESCO:



LTG Edinburgh (LT-POS)
http://www.ltg.ed.ac.uk/software/pos/index.html
QTAG
Brill Tagger
TreeTagger: http://www.ims.unistuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTag
ger.html
ITALIANO: versione italiana di TreeTagger
A PAGAMENTO:

Xelda (Italiano, Inglese, Francese, Tedesco, Chinese,
Russo, etc)
MORFOLOGIA



Jackson, 1.6
Marello, 1.2
Graffi / Scalise, I.3
I MORFEMI


Le parole non sono necessariamente
‘atomiche’, ma (in Italiano almeno) si
possono quasi sempre scomporre in
unita’ piu’ piccole: i MORFEMI
Un MORFEMA e’ “la minima unita’
linguistica dotata di un significato
proprio”
DUE ESEMPI
BOYS
BOY
`essere umano, non
adulto, sesso maschile’
+
-S
`plurale’
DUE ESEMPI
REPURIFICARE
RE-
`ripetizione’
+
PUR-
+
`privo di contaminanti’
-IFICARE
`rendere’
STRUTTURA DELLE PAROLE

INGLESE: RADICE + AFFISSI



RADICE (boy)
AFFISSI (-s in boy+s)
ITALIANO: TEMA + AFFISSI



RADICE (ragazz-)
TEMA (radice + vocale tematica – e.g.,
ragazzo)
AFFISSI (-i in ragazz+i)
AFFISSI


La modificazione delle parole avviene in due
modi principali: `attaccando’ un AFFISSO ad
un morfema; o giustapponendo due morfemi
Tre tipi di affissi:



PREFISSI: RE- + PURIFICARE 
REPURIFICARE
SUFFISSI: PUR- + - IFICARE  PURIFICARE
INFISSI: CANT- + -ICCH- + IARE 
CANTICCHIARE
TRE TIPI DI MODIFICAZIONE



FLESSIONE
DERIVAZIONE
COMPOSIZIONE
FLESSIONE

Processo che AGGIUNGE alla radice / tema
informazione semantica ‘grammaticalizzata’
(tipicamente via suffissi):





GENERE: bello  bella
NUMERO: bello belli
CASO (Latino, Tedesco): rosa rosam
TEMPO: ama amava
PERSONA: amo / ami / ama
DERIVAZIONE

Processo che produce NUOVE parole
aggiungendo al tema prefissi, suffissi
ed infissi



PREFISSI: RE- + PURIFICARE 
REPURIFICARE
SUFFISSI: PUR- + - IFICARE 
PURIFICARE
INFISSI: CANT- + -ICCH- + IARE 
CANTICCHIARE
SUFFISSI ALTERATIVI

Indicano dimensioni ridotte o
segnalano l’informalita’ della situazione



casetta
cenetta / sposini
Tipici dell’italiano
CONVERSIONE

Il processo di derivazione puo’ produrre
parole la cui categoria lessicale (parte del
discorso) e’ diversa da quella della parola
originale.





N  V: magnete  magnetizzare
A  V: attivo  attivare
N  A  V: centro  centrale  centralizzare
A  N  V: giusto  giustizia  giustiziare
In Italiano (ma non in Inglese):
sostantivazione dell’aggettivo (povero / il
povero)
COMPOSIZIONE

La composizione forma nuove parole a
partire da parole esistenti



CAPO+STAZIONE CAPOSTAZIONE
SALVA+VITA  SALVAVITA
PAST- + ASCIUTTA  PASTASCIUTTA
LEMMATIZZAZIONE
AUTOMATICA
DARGLIELO
LEMMATIZZAZIONE NEL LIP

In Italiano, una volta nota la categoria
grammaticale di una forma il lemma e’
solitamente univocamente determinato


Eccezioni: 1.4% (CONTI: pl. di 
CONTO o  CONTE)
Processo in tre passi
LEMMATIZZAZIONE

ANCORA LA DERIVA:
1.
2.
3.
ANCORA (N, V, CON) LA (ART, PRO)
DERIVA N, V)
ANCORA (V) LA (ART) DERIVA (N)
ANCORA (V ANCORARE) LA (ART IL)
DERIVA (N DERIVA)
LEMMATIZZAZIONE CON
XELDA
XELDA: DEMO ONLINE

Analisi morfologica in 14 lingue
PER RIASSUMERE:

NOZIONI DI BASE DI MORFOLOGIA:



PARTI DEL DISCORSO
MORFEMA
FLESSIONE, DERIVAZIONE,
COMPOSIZIONE
PROCESSI DI FORMAZIONE
DELLE PAROLE

COMPOSIZIONE DA PAROLE ESISTENTI


DERIVAZIONI


Remasterizzare
ACRONIMI


Anche due parole greche (biblioteca,
ippodromo)
AIDS, CD-ROM, HTML …
‘PRESTITI’

Bonsai, glasnost, golpe, tango,
ACRONIMI IN ITALIANO:
Dizionario interattivo Zanichelli










TN (Trento, Tennessee, etc)
T/N – turbonave
TND – dinaro tunisino
TNT
TO
TOM - fr. Territoire d'Outre-Mer (territorio d'oltremare)
TOREMAR - TOscana REgionale MARittima (società di
navigazione)
Torr. - Torrente (nelle carte geografiche)
TOSAP (Tassa sull'Occupazione di Spazi ed Aree Pubblici)
Tosc. (toscano)
DA DOVE ARRIVANO LE
PAROLE DELL’ITALIANO?

Le parole piu’ antiche:









Sec IX-X: a, da, bevere, dente, favella
960-963: anno, contenere, ki (qui)
1150-59: genitore, male, pane, prendere
Dal bizantino: arcipelago, catasto, duca, iconoclasta, molo, …
Dal latino medievale: acquavite, bonificare, commissario,
scatola, …
Dalle lingue Germaniche: albergo (Gotico), airone
(Longobardo)
Dall’Arabo: darsena, dogana, ,magazzino, assassino, cotone,
facchino, algebra, zenit, alambicco …
Dal Francese: bersaglio, conte, dama, freccia, giullare, sire
Dallo Spagnolo: acciacco, alfiere, appartamento, disinvoltura,
….
STORIA DELLE PAROLE
INGLESI




Dall’Anglo Sassone ( Old English)
Dalle lingue scandinave (they, them,
their)
Dal Francese ( Middle English)
Dal Latino / Greco / Francese durante
il Rinascimento fino al 1700 circa
LETTURE



Jackson, capitoli 1 e 9
Marello, capitolo 1
Per saperne di piu’:

Jezek, capitoli 1, 2 e 4

Lenci Montemagni & Pirrelli, capitolo 4
Fly UP