...

Classificazione automatica

by user

on
Category: Documents
24

views

Report

Comments

Transcript

Classificazione automatica
Questo documento illustra come le tecniche di text mining sono state utilizzate a supporto
dell’attività di redazione del portale della Ricerca Italiana.
In particolare si è cercato di dare risposta problemi tipo:
• come organizzare l’informazione in modo da renderla navigabile anche con criteri diversi da
quelli forniti dalla classificazione ufficiale in aree e settori disciplinari;
• come individuare i principali temi di ricerca su cui sviluppare degli approfondimenti, o
“speciali”;
…
Classificazione automatica
Le attività di ricerca costituiscono un vasto patrimonio di conoscenza. Tale patrimonio è
consultabile nel portale attraverso la classificazione ministeriale per discipline tecnico-scientifiche,
per area geografica ed, in alcuni casi, per programmi strategici. Nel portale è stata introdotta una
riclassificazione per classi brevettuali al fine di facilitare la ricerca di contenuti di interesse da parte
del mondo delle imprese. Inoltre è emersa la necessità di classificare secondo la classificazione
ministeriale il materiale non altrimenti classificato.
Questo lavoro di classificazione, se effettuato manualmente, richiederebbe l'impiego di esperti di
varie discipline ed una grande quantità di tempo. Per questo motivo si è deciso di ricorrere alle
moderne tecniche di Data e Text Mining e di trattamento del linguaggio naturale (NLP) che
consentono la creazione di classificatori automatici specifici per i testi.
Un classificatore automatico impara a riconoscere, da un insieme di documenti pre-classificati, le
caratteristiche delle categorie di interesse ed è in grado di riclassificare un qualunque nuovo
documento in una delle suddette categorie. La costruzione di un classificatore automatico avviene in
tre fasi:
•
•
•
trasformazione dei documenti in una rappresentazione adatta per l'algoritmo di
apprendimento, fase anche detta di indicizzazione (o preparazione, o preprocessing),
costruzione del classificatore, fase anche detta di induzione (o addestramento, o training).
Questa fase di apprendimento si basa su un insieme di esempi chiamati “training example”
che sono documenti già classificati. Tramite quest’ultimi il sistema genera un modello che
permette di classificare i nuovi documenti.
valutazione dell'efficacia del classificatore (fase di test).
A queste fasi segue quella di applicazione del classificatore a nuovi documenti.
Utilizzando la metodologia sopra descritta sono stati creati due specifici classificatori automatici per
le esigenze del portale:
•
•
IPCMapping classifica documenti in lingua inglese nelle 8 sezioni principali e nelle 600
sottoclassi dell'International Patent Classification, permettendo, così, di catalogare i progetti
di ricerca con la stessa logica con cui sono catalogati i brevetti internazionali; IPCmapping è
basato su un’architettura gerarchica: il primo livello classifica nelle otto sezioni; una volta
determinata la sezione principale viene applicato un classificatore specifico per quella
sezione che classifica nei sottolivelli.
AreaMapping classifica documenti in italiano (es. progetti di ricerca) nelle aree (14) e
discipline tecnico-scientifiche (circa 400). Questo classificatore è di supporto alla redazione
nella classificazione di nuovi contenuti del portale. Anche AreaMapping opera su due livelli
assegnando prima il documento da classificare ad un’area e poi ad una disciplina tecnicoscientifica.
La creazione del modello di IPC mapping
Scelta dello schema classificatorio.
Nello sviluppo di un classificatore automatico la scelta dello schema classificatorio è vincolante: i
documenti saranno classificati in una delle classi definite dallo schema prescelto.
Lo Schema di classificazione adottato per la creazione del modello IPCmapping è quello della
classificazione internazionale IPC. La “International Patent Classification” (IPC) è un sistema di
classificazione gerarchico comprendente sezioni, classi, sottoclassi e gruppi. Nell’ultima edizione
contiene 8 sezioni, 120 classi, 628 sottoclassi e approssimativamente 69.000 gruppi. Le sezioni
sono:
A “Human necessities”;
B “Performing operations, transporting”;
C “Chemistry, metallurgy”;
D “Textiles, paper”;
E “Fixed constructions”;
F “Mechanical engineering, lighting, heating, weapons, blasting”;
G “Physics”;
H “Electricity”.
Ogni sezione è divisa in classi i cui codici consistono nel codice della sezione seguito da due cifre
(A01). Le sottoclassi sono definite dal codice delle classi seguito da una lettera (A01B). La IPC
esiste in due versioni originali, inglese e francese, che sono pubblicate online
(www.wipo.int/classifications) ed in forma stampata dalla WIPO.
E così, ad un’invenzione relativa ad uno specifico campo tecnologico sarà assegnato (da una
determinata commissione dell'ufficio brevetti) uno specifico codice di classificazione per la sezione,
la classe, la sottoclasse, ed il gruppo nei quali risulta rientrare. Nel caso in cui un brevetto sia
relativo a vari campi tecnologici, vengono assegnati tutti i relativi codici IPC.
L’estrazione dei dati
Per procedere alla creazione di un classificatore occorre preparare i documenti (in lingua inglese)
sui quali effettuare l’addestramento Nella fase di preparazione (pre-processing) gli abstract dei
brevetti vengono lemmatizzati definendo, inoltre, la funzione grammaticale di ogni parola
(sostantivo, aggettivo, verbo,…). Inoltre vengono individuati i termini composti ovvero quei
termini che sono fomati da più parole (come ad esempio “information retrieval”). Si è considerata
per ciascun brevetto la classe principale (Main Class). Sono stati considerati i brevetti a partire
dall’anno 2000.
Apprendimento
Terminata la fase di pre-processing inizia la fase di apprendimento (detta anche fase di
addestramento) del classificatore.. Come abbiamo già osservato IPCmapping è strutturato su due
livelli. Sono stati quindi “addestrati” un classificatore per decidere la sezione e 8 classificatori
specifici (uno per ciascuna sezione) per assegnare l’oggetto ad una delle sottoclassi. In questa fase
si sono adoperati diversi algoritmi di apprendimento (naive-bayes, tfidf, svm) e si sono verificate le
loro prestazioni sia in termini di efficacia (bontà della classificazione) che di efficienza (tempo
impiegato per classificare).
Al termine di queste analisi il classificatore adottato è quello di TFIDF (detto anche Rocchio). Nel
definire il modello di classificazione il metodo TFIDF si basa su questi due principi: un termine è
rappresentativo del contenuto di un documento se compare più volte al suo interno; un termine è
discriminante, e quindi viene pesato di più, se compare in pochi documenti. Nella fase di
apprendimento sono state anche definite le stopword (ovvero quello parole che, per il loro scarso
valore semantico, non sono rilevanti nel dominio della ricerca).
Applicazione del modello: la classificazione dei progetti di ricerca.
L’ultima fase è consistita nell’applicazione del modello IPCmapping ai progetti di ricerca PRIN e
FIRB.
L’applicazione del modello è stata fatta per progetti delle aree scientifiche (1 Scienze matematiche e
informatiche, 2 Scienze fisiche, 3 Scienze chimiche, 4 Scienze della Terra, 5 Scienze biologiche, 6
Scienze mediche, 7 Scienze agrarie e veterinarie, 8 Ingegneria civile ed Architettura, 9 Ingegneria
industriale e dell'informazione).
Per procedere alla classificazione dei progetti di ricerca i testi (in inglese) sono stati trattati in
maniera analoga a quanto fatto per i brevetti. Ogni progetto è composto da diverse parti (abstract,
duty description , goal, curriculum, description, keyword, scientific base, title). Per la
classificazione sono stati considerati abstract, duty description, goal e description. Ciascuna parte è
stata classificata singolarmente: in questo modo un progetto può ricadere in diverse voci della
classificazione brevettuale.
Il classificatore AreaMapping è stato realizzato in maniera analoga a quanto descritto prima
utilizzando come base di addestramento i PRIN del 2005 in italiano.
Ricerca dei temi nei progetti di ricerca
Un tema di ricerca è un argomento, anche multidisciplinare, su cui si concentra l’attività di ricerca.
Per individuare i temi maggiormente rilevanti all’interno dei progetti finanziati, si possono
utilizzare tecniche di Text Mining. Una semplice lettura dei titoli per disciplina, infatti, non
consente, soprattutto al redattore non esperto in materia, di fare emergere i reali temi sottostanti e,
soprattutto, di individuare i legami interdisciplinari. Per fare ciò è necessario analizzare l’intero
testo. In questo caso, le tecniche di text mining, in particolare le tecniche di clustering
(raggruppamento automatico), costituiscono un valido aiuto al redattore in quanto consentono di
individuare i principali gruppi tematici. L’informazione disponibile viene automaticamente
organizzata in temi ed è così possibile individuare gli argomenti più rilevanti in termini numerici.
Le relazioni, inoltre, mettono in evidenza legami tra argomenti apparentemente separati ma che
hanno una terminologia comune.
Analizzando i testi dei 982 progetti PRIN approvati nel 2004, con lo strumento MOLE, sono stati
individuati 45 raggruppamenti tematici. La mappa che segue mostra alcuni di questi
raggruppamenti e i principali legami emersi.
Come si può notare, anche se le parole che descrivono il contenuto di ciascun gruppo sono molto
ridotte in questa rappresentazione (ma in MOLE, al passaggio del mouse, si espande la descrizione
di ogni cluster), i legami tendono a riprodurre delle macro aree che coincidono con le aree
disciplinari.
All’interno di queste macro aree, ogni gruppo (cluster) rappresenta uno specifico tema, o filone, di
ricerca.
La mappa mette inoltre in evidenza anche gruppi isolati. Si tratta in questo caso di temi di ricerca
spesso non riconducibili ad un'unica disciplina, ma decisamente multidisciplinari.
Da un esame, in MOLE, dei termini che descrivono i cluster e dei titoli dei progetti in essi
contenuti, si nota, ad esempio, che il cluster 17 contiene progetti riconducibili al tema dell’acqua e
il cluster 1 raggruppa progetti relativi alla gestione sostenibile del territorio.
Nel primo caso, i progetti di ricerca afferiscono a Scienze Fisiche, Scienze della Terra, Chimica,
Agraria, Ingegneria e Architettura e hanno tutti il tema comune dell’acqua, nei suoi molteplici
aspetti (dalla sorgente al suo utilizzo).
Il cluster 1 raggruppa progetti di Storia e Filosofia, Lettere, Agraria, Ingegneria Civile e
Architettura che trattano di gestione sostenibile del territorio.
MOLE consente inoltre di analizzare la meta-informazione associata ai progetti di ricerca, ad
esempio il tipo di progetto (PRIN, FIRB, …), l’Ateneo e l’anno (oltre all’area e ai settori
disciplinari). È così possibile analizzare la “specializzazione” degli Atenei, l’aumentare o il
diminuire di importanza dei temi individuati nel tempo, ecc… La rappresentazione che segue
mostra l’apporto percentuale (% di progetti che trattano di un certo tema) di ciascun Ateneo nei 45
gruppi tematici individuati.
Si può notare come il tema della gestione sostenibile del territorio (cluster 1, rappresentato dalla
terza barra) si concentri in tre Atenei: Padova, Firenze e Roma. Mentre il cluster 0 (che tratta di un
sottotema specifico della medicina) si concentra in 4 Atenei: Palermo, Napoli, Bari e Napoli
Federico II.
Questa applicazione ha messo in luce alcune delle principali funzionalità di MOLE:
• organizzare l’informazione
• mettere in relazione i temi
• individuare nuovi argomenti
Fly UP