Comments
Description
Transcript
Classificazione automatica
Questo documento illustra come le tecniche di text mining sono state utilizzate a supporto dell’attività di redazione del portale della Ricerca Italiana. In particolare si è cercato di dare risposta problemi tipo: • come organizzare l’informazione in modo da renderla navigabile anche con criteri diversi da quelli forniti dalla classificazione ufficiale in aree e settori disciplinari; • come individuare i principali temi di ricerca su cui sviluppare degli approfondimenti, o “speciali”; … Classificazione automatica Le attività di ricerca costituiscono un vasto patrimonio di conoscenza. Tale patrimonio è consultabile nel portale attraverso la classificazione ministeriale per discipline tecnico-scientifiche, per area geografica ed, in alcuni casi, per programmi strategici. Nel portale è stata introdotta una riclassificazione per classi brevettuali al fine di facilitare la ricerca di contenuti di interesse da parte del mondo delle imprese. Inoltre è emersa la necessità di classificare secondo la classificazione ministeriale il materiale non altrimenti classificato. Questo lavoro di classificazione, se effettuato manualmente, richiederebbe l'impiego di esperti di varie discipline ed una grande quantità di tempo. Per questo motivo si è deciso di ricorrere alle moderne tecniche di Data e Text Mining e di trattamento del linguaggio naturale (NLP) che consentono la creazione di classificatori automatici specifici per i testi. Un classificatore automatico impara a riconoscere, da un insieme di documenti pre-classificati, le caratteristiche delle categorie di interesse ed è in grado di riclassificare un qualunque nuovo documento in una delle suddette categorie. La costruzione di un classificatore automatico avviene in tre fasi: • • • trasformazione dei documenti in una rappresentazione adatta per l'algoritmo di apprendimento, fase anche detta di indicizzazione (o preparazione, o preprocessing), costruzione del classificatore, fase anche detta di induzione (o addestramento, o training). Questa fase di apprendimento si basa su un insieme di esempi chiamati “training example” che sono documenti già classificati. Tramite quest’ultimi il sistema genera un modello che permette di classificare i nuovi documenti. valutazione dell'efficacia del classificatore (fase di test). A queste fasi segue quella di applicazione del classificatore a nuovi documenti. Utilizzando la metodologia sopra descritta sono stati creati due specifici classificatori automatici per le esigenze del portale: • • IPCMapping classifica documenti in lingua inglese nelle 8 sezioni principali e nelle 600 sottoclassi dell'International Patent Classification, permettendo, così, di catalogare i progetti di ricerca con la stessa logica con cui sono catalogati i brevetti internazionali; IPCmapping è basato su un’architettura gerarchica: il primo livello classifica nelle otto sezioni; una volta determinata la sezione principale viene applicato un classificatore specifico per quella sezione che classifica nei sottolivelli. AreaMapping classifica documenti in italiano (es. progetti di ricerca) nelle aree (14) e discipline tecnico-scientifiche (circa 400). Questo classificatore è di supporto alla redazione nella classificazione di nuovi contenuti del portale. Anche AreaMapping opera su due livelli assegnando prima il documento da classificare ad un’area e poi ad una disciplina tecnicoscientifica. La creazione del modello di IPC mapping Scelta dello schema classificatorio. Nello sviluppo di un classificatore automatico la scelta dello schema classificatorio è vincolante: i documenti saranno classificati in una delle classi definite dallo schema prescelto. Lo Schema di classificazione adottato per la creazione del modello IPCmapping è quello della classificazione internazionale IPC. La “International Patent Classification” (IPC) è un sistema di classificazione gerarchico comprendente sezioni, classi, sottoclassi e gruppi. Nell’ultima edizione contiene 8 sezioni, 120 classi, 628 sottoclassi e approssimativamente 69.000 gruppi. Le sezioni sono: A “Human necessities”; B “Performing operations, transporting”; C “Chemistry, metallurgy”; D “Textiles, paper”; E “Fixed constructions”; F “Mechanical engineering, lighting, heating, weapons, blasting”; G “Physics”; H “Electricity”. Ogni sezione è divisa in classi i cui codici consistono nel codice della sezione seguito da due cifre (A01). Le sottoclassi sono definite dal codice delle classi seguito da una lettera (A01B). La IPC esiste in due versioni originali, inglese e francese, che sono pubblicate online (www.wipo.int/classifications) ed in forma stampata dalla WIPO. E così, ad un’invenzione relativa ad uno specifico campo tecnologico sarà assegnato (da una determinata commissione dell'ufficio brevetti) uno specifico codice di classificazione per la sezione, la classe, la sottoclasse, ed il gruppo nei quali risulta rientrare. Nel caso in cui un brevetto sia relativo a vari campi tecnologici, vengono assegnati tutti i relativi codici IPC. L’estrazione dei dati Per procedere alla creazione di un classificatore occorre preparare i documenti (in lingua inglese) sui quali effettuare l’addestramento Nella fase di preparazione (pre-processing) gli abstract dei brevetti vengono lemmatizzati definendo, inoltre, la funzione grammaticale di ogni parola (sostantivo, aggettivo, verbo,…). Inoltre vengono individuati i termini composti ovvero quei termini che sono fomati da più parole (come ad esempio “information retrieval”). Si è considerata per ciascun brevetto la classe principale (Main Class). Sono stati considerati i brevetti a partire dall’anno 2000. Apprendimento Terminata la fase di pre-processing inizia la fase di apprendimento (detta anche fase di addestramento) del classificatore.. Come abbiamo già osservato IPCmapping è strutturato su due livelli. Sono stati quindi “addestrati” un classificatore per decidere la sezione e 8 classificatori specifici (uno per ciascuna sezione) per assegnare l’oggetto ad una delle sottoclassi. In questa fase si sono adoperati diversi algoritmi di apprendimento (naive-bayes, tfidf, svm) e si sono verificate le loro prestazioni sia in termini di efficacia (bontà della classificazione) che di efficienza (tempo impiegato per classificare). Al termine di queste analisi il classificatore adottato è quello di TFIDF (detto anche Rocchio). Nel definire il modello di classificazione il metodo TFIDF si basa su questi due principi: un termine è rappresentativo del contenuto di un documento se compare più volte al suo interno; un termine è discriminante, e quindi viene pesato di più, se compare in pochi documenti. Nella fase di apprendimento sono state anche definite le stopword (ovvero quello parole che, per il loro scarso valore semantico, non sono rilevanti nel dominio della ricerca). Applicazione del modello: la classificazione dei progetti di ricerca. L’ultima fase è consistita nell’applicazione del modello IPCmapping ai progetti di ricerca PRIN e FIRB. L’applicazione del modello è stata fatta per progetti delle aree scientifiche (1 Scienze matematiche e informatiche, 2 Scienze fisiche, 3 Scienze chimiche, 4 Scienze della Terra, 5 Scienze biologiche, 6 Scienze mediche, 7 Scienze agrarie e veterinarie, 8 Ingegneria civile ed Architettura, 9 Ingegneria industriale e dell'informazione). Per procedere alla classificazione dei progetti di ricerca i testi (in inglese) sono stati trattati in maniera analoga a quanto fatto per i brevetti. Ogni progetto è composto da diverse parti (abstract, duty description , goal, curriculum, description, keyword, scientific base, title). Per la classificazione sono stati considerati abstract, duty description, goal e description. Ciascuna parte è stata classificata singolarmente: in questo modo un progetto può ricadere in diverse voci della classificazione brevettuale. Il classificatore AreaMapping è stato realizzato in maniera analoga a quanto descritto prima utilizzando come base di addestramento i PRIN del 2005 in italiano. Ricerca dei temi nei progetti di ricerca Un tema di ricerca è un argomento, anche multidisciplinare, su cui si concentra l’attività di ricerca. Per individuare i temi maggiormente rilevanti all’interno dei progetti finanziati, si possono utilizzare tecniche di Text Mining. Una semplice lettura dei titoli per disciplina, infatti, non consente, soprattutto al redattore non esperto in materia, di fare emergere i reali temi sottostanti e, soprattutto, di individuare i legami interdisciplinari. Per fare ciò è necessario analizzare l’intero testo. In questo caso, le tecniche di text mining, in particolare le tecniche di clustering (raggruppamento automatico), costituiscono un valido aiuto al redattore in quanto consentono di individuare i principali gruppi tematici. L’informazione disponibile viene automaticamente organizzata in temi ed è così possibile individuare gli argomenti più rilevanti in termini numerici. Le relazioni, inoltre, mettono in evidenza legami tra argomenti apparentemente separati ma che hanno una terminologia comune. Analizzando i testi dei 982 progetti PRIN approvati nel 2004, con lo strumento MOLE, sono stati individuati 45 raggruppamenti tematici. La mappa che segue mostra alcuni di questi raggruppamenti e i principali legami emersi. Come si può notare, anche se le parole che descrivono il contenuto di ciascun gruppo sono molto ridotte in questa rappresentazione (ma in MOLE, al passaggio del mouse, si espande la descrizione di ogni cluster), i legami tendono a riprodurre delle macro aree che coincidono con le aree disciplinari. All’interno di queste macro aree, ogni gruppo (cluster) rappresenta uno specifico tema, o filone, di ricerca. La mappa mette inoltre in evidenza anche gruppi isolati. Si tratta in questo caso di temi di ricerca spesso non riconducibili ad un'unica disciplina, ma decisamente multidisciplinari. Da un esame, in MOLE, dei termini che descrivono i cluster e dei titoli dei progetti in essi contenuti, si nota, ad esempio, che il cluster 17 contiene progetti riconducibili al tema dell’acqua e il cluster 1 raggruppa progetti relativi alla gestione sostenibile del territorio. Nel primo caso, i progetti di ricerca afferiscono a Scienze Fisiche, Scienze della Terra, Chimica, Agraria, Ingegneria e Architettura e hanno tutti il tema comune dell’acqua, nei suoi molteplici aspetti (dalla sorgente al suo utilizzo). Il cluster 1 raggruppa progetti di Storia e Filosofia, Lettere, Agraria, Ingegneria Civile e Architettura che trattano di gestione sostenibile del territorio. MOLE consente inoltre di analizzare la meta-informazione associata ai progetti di ricerca, ad esempio il tipo di progetto (PRIN, FIRB, …), l’Ateneo e l’anno (oltre all’area e ai settori disciplinari). È così possibile analizzare la “specializzazione” degli Atenei, l’aumentare o il diminuire di importanza dei temi individuati nel tempo, ecc… La rappresentazione che segue mostra l’apporto percentuale (% di progetti che trattano di un certo tema) di ciascun Ateneo nei 45 gruppi tematici individuati. Si può notare come il tema della gestione sostenibile del territorio (cluster 1, rappresentato dalla terza barra) si concentri in tre Atenei: Padova, Firenze e Roma. Mentre il cluster 0 (che tratta di un sottotema specifico della medicina) si concentra in 4 Atenei: Palermo, Napoli, Bari e Napoli Federico II. Questa applicazione ha messo in luce alcune delle principali funzionalità di MOLE: • organizzare l’informazione • mettere in relazione i temi • individuare nuovi argomenti