...

OmniFind - sviluppo-2011

by user

on
Category: Documents
16

views

Report

Comments

Transcript

OmniFind - sviluppo-2011
Ricerca di documenti e contenuti in
azienda.
© 2006 IBM Corporation
1
Information Management
La Ricerca in Azienda
 Ambiente più complesso tecnicamente, integrato
con applicazioni/portali e con la security aziendale
 Dati eterogenei: non solo dati HTML/Web, ma
Enterprise Search
anche sistemi
di Content
Internet
Search Management, RDBMs,
sistemi di eMail & Collaboration, file system, etc..
 Meno correlazioni e nessuna ridondanza: servono
tecniche diverse per determinare la rilevanza
 Aspettative molto più elevate…
2
Information Management
Le informazioni sono spesso isolate…
Accessibili solo a piccoli gruppi & dipartimenti aziendali
Vendite
Marketing
HR
Altro
IBM OmniFind Enterprise Edition
Domino
Lotus
Quickr
WebSphere
Portal
SharePoint
ECM, DBMs, Web, FS
and more
3
Information Management
La risposta: IBM Omnifind Enterprise Edition
The right information…..
•Algoritmi di ricerca sofisticati su molteplici data source strutturati e non strutturati
•Sicurezza nativa dei data source
•Tecniche di ranking all’avanguardia per ottenere risultati rilevanti
•Supporto multi-linguistico
•Ricerca “per parola chiave” e ricerca “semantica”
Keyword
search
Text
Semantic
analysis
search
At the right time .....
•Risposte in frazioni di secondo, scalabilità
•Architettura modulare e flessibile, alta affidabilità
Crawl
Parse
Index
Search
In the right context …..
Integrazione nel Portale aziendale tramite interfacce Open (Java e Web services)
Utilizzo su sistemi operativi standard
4
Information Management
Tecnologie chiave di OmniFind
Searching
UIMA
 Advanced Text
Analysis
 Entità e relazioni
Categorization
 Rule-based
 Automatica
Indexing
 Spell checking
 Dynamic Ranking
 Admin-influenced Ranking
 Dynamic Summary
 Custom dictionaries
 Ricerca per campi e parametri
 Ricerca semantica e per
sinonimi
Search
Collections
 Global Analysis
 Static Ranking
 Elimina Duplicati
Parsing/
Tokenizing
 Riconosce formato
 In Output un plain text
con info di formattazione
 Parole e Frasi
 Trova il lemma
Security
Crawling
 Estrae il contenuto dai vari
source (sicurezza)
 Copia su area di staging
 Vari Crawler in parallelo
Enterprise
Content
5
Information Management
Integrazione nativa dei repository aziendali: Omnifind crawlers
Web
Collaboration
ECM
Database
• HTTP
• HTTPS
• WebSphere
Portal Web
pages
• WebSphere
Portal Document
Manager
• Newsgroup
(NNTP)
• Workplace Web
Content
Management
Dalla
v. 6.0
• Lotus Notes
databases
IBM CM e CMoD
• Supporto per
Domino 8
• Domino.doc
• QuickPlace e
QuickR
• MS Exchange
public folders
• Windows
SharePoint
Services
• Windows file
systems
• UNIX file systems
Mainframe:
VSAM, IMS,
CA-Datacom,
Software AG
Adabas
6
Information Management
Configurazione crawler Oracle
7
Information Management
Configurazione crawler Oracle
8
Information Management
Configurazione crawler Oracle
9
Information Management
Omnifind Sicurezza nativa: a livello di documento
1. Omnifind può memorizzare nell’indice le ACL del documento
2. OmniFind può controllare in tempo reale le ACL del documento nella
fonte finale e verificare se l’utente è abilitato o no ad accedere
all’informazione
Permette di dare la giusta informazione alla giusta persona nel giusto tempo senza esporre
l’organizzazione a rischi sulla divulgazione di dati sensibili
User Query
Secure Response
Lotus Notes®/Domino
WebSphere Portal Document
Manager
WebSphere Portal pages
Domino Document Manager
Lotus QuickPlace® e QuickR
IBM Content Manager
FileNet CS
FileNet P8 CM
Hummingbird® DM
Windows™ File System
Windows SharePoint Services
Documentum
Open Text Livelink
WebSphere Portal Web Content
Management 6.0
OmniFind Secure Search
Real time
security check
Result retrieval
OmniFind
Index
10
Information Management
Tecnologie chiave di OmniFind
Searching
UIMA
 Advanced Text
Analysis
 Entità e relazioni
Categorization
 Rule-based
 Automatica
Indexing
 Spell checking
 Dynamic Ranking
 Admin-influenced Ranking
 Dynamic Summary
 Custom dictionaries
 Ricerca per campi e parametri
 Ricerca semantica e per
sinonimi
Search
Collections
 Global Analysis
 Static Ranking
 Elimina Duplicati
Parsing/
Tokenizing
 Riconosce formato
 In Output un plain text
con info di formattazione
 Parole e Frasi
 Trova il Lemma
Security
Crawling
 Estrae il contenuto dai vari
source
 Copia su area di staging
 Vari Crawler in parallelo
Enterprise
Content
11
Information Management
HTML, Plain text, XML, 123, Excel,
Freelance, Ichitaro, Lotus WordPro, MS
Visio, MS Word, PDF, PowerPoint ,Rich
Text , zip, tar, StarOffice/OpenOffice Calc
StarOffice/OpenOffice Impress
StarOffice/OpenOffice Draw
StarOffice/OpenOffice Writer più I formati
supportati dai filtri stellent
Parser: document processing
 Riconoscimento formato e lingua del documento
 Segmentation: suddivide il testo in unità lessicali distinte
“I don’t plan to go to the meetings”
“I” “do” “not” “plan” “to” “go” “to” “the” “meeting”
 Lemming: associa ad una parola la sua forma base
houses
ran
mice
vanno
=>
=>
=>
=>
Arabic, Chinese (Simplified &
Traditional), Czech, Danish,
Dutch, English, Finnish, French,
German, Greek, Italian,
Japanese, Korean, Norwegian
(Bokmal & Nynorsk), Polish,
Portuguese, Russian, Spanish,
Swedish
house
run
mouse
andare
 Tokenization: determina i “tokens” da indicizzare



Dictionary based segmentation e lemming per le lingue supportate
Non-dictionary based segmentation per tutte le altre
Normalizzazioni (maiuscolo/minuscolo, accenti e diacritici)
Hebrew, Hungarian and Turkish
(lingua riconosciuta no
lemming)
Lexical Analysis
Examples
Input streams
Tokens
Dictionaries
Computations
Espressioni multi-word e
normalizzazione caratteri
Lemming
..dell’arte..
.. Böblingen ..
..mice..
della arte
Boeblingen
mouse
12
Information Management
Tecnologie chiave di OmniFind
Searching
UIMA
 Advanced Text
Analysis
 Entità e relazioni
Categorization
 Rule-based
 Automatica
Indexing
 Spell checking
 Dynamic Ranking
 Admin-influenced Ranking
 Dynamic Summary
 Custom dictionaries
 Ricerca per campi e parametri
 Ricerca semantica e per
sinonimi
Search
Collections
 Global Analysis
 Static Ranking
 Elimina Duplicati
Parsing/
Tokenizing
 Riconosce formato
 In Output un plain text
con info di formattazione
 Parole e Frasi
Trova il Lemma
Security
Crawling
 Estrae il contenuto dai vari
source
 Copia su area di staging
 Vari Crawler in parallelo
Enterprise
Content
13
Information Management
Categorizzazione…..
 …Rule Based: assegnazione di una o più categorie ad un documento in base a regole
di provenienza
di contenuto
 …Automatica tramite IBM Classification Module
Rende disponibile una tecnologia di classificazione che, opportunamente
comprendere contentuti non strutturati e comunicazioni informali.
Rule Based Categorizer
URL Rules:
http://www.ibm.com/thinkpad/*
Tokenized
Document
s
Contents Rules:
+thinkpad T30 T40
educata, può
-• Computers
--• Computer Hardware
--• Computers Systems
--• pSeries Servers
--• Thinkpads
-- • Computer Storages
--• Computer Software
Documenti con
categorie assegnate
OmniFind
Search
Collection
14
Information Management
Come è realizzata la classificazione
 Costruendo profili delle categorie
 Confrontando il nuovo contenuto ai profili di categoria
 Applicando le corrette categorie al nuovo contenuto
15
Information Management
Come funziona l’IBM Classification Module (ICM)
1) Crea i profili delle categorie
Natural Language Processing e semantic analysis
Training Set
Categoria 1
Categoria 2
Categoria 3
3) Applica la corretta
categoria al documento
2) Confronta il contenuto
del documento da trattare
con i profili disponibili
Analisi Statistica
ICM
Testo non
classificato
16
Information Management
Esempio: Classificazione usata a Run-Time
Applicazione
Input
Output
Feedback
“Hi there -- 3 weeks ago I
got a confirmation that my
books were shipped, and my
credit card was charged. It
is 22 days later, and still
nothing showed up. My
Conf number is 2134656534-294/a. Can you let
me know what’s up?
Regards, John”
ORDER_STATUS(92%)
COMPLAINTS(82%)
ACCOUNT_BALANCE(32%)
Intent = ORDER_STATUS
17
Information Management
Tecnologie chiave di OmniFind
Searching
UIMA
 Advanced Text
Analysis
 Entità e relazioni
Categorization
 Rule-based
 Automatica
Indexing
 Spell checking
 Dynamic Ranking
 Admin-influenced Ranking
 Dynamic Summary
 Custom dictionaries
 Ricerca per campi e parametri
 Ricerca semantica e per
sinonimi
Search
Collections
 Global Analysis
 Static Ranking
 Elimina Duplicati
Parsing/
Tokenizing
 Riconosce formato
 In Output un plain text
con info di formattazione
 Parole e Frasi
Trova il Lemma
Security
Crawling
 Estrae il contenuto dai vari
source
 Copia su area di staging
 Vari Crawler in parallelo
Enterprise
Content
18
Information Management
Tecnologie chiave di OmniFind
Searching
UIMA
 Advanced Text
Analysis
 Entità e relazioni
Categorization
 Rule-based
 Automatica
Indexing
 Spell checking
 Dynamic Ranking
 Admin-influenced Ranking
 Dynamic Summary
 Custom dictionaries
 Ricerca per campi e parametri
 Ricerca semantica e per
sinonimi
Search
Collections
 Global Analysis
 Static Ranking
 Elimina Duplicati
Parsing/
Tokenizing
 Riconosce formato
 In Output un plain text
con info di formattazione
 Parole e Frasi
 Trova il Lemma
Security
Crawling
 Estrae il contenuto dai vari
source
 Copia su area di staging
 Vari Crawler in parallelo
Enterprise
Content
19
Information Management
Applicazione di Ricerca Out-of-the-box
 Ricerca Base ed Avanzata
 Category tree per “Search-andBrowse”
 Top Results Analysis
 Correzione ortografica e Sinonimi
 Ricerca Concettuale e Semantica
 Dynamic Summaries
 Quick Links
20
Information Management
Le potenzialità della Search Application standard
“spell check”
“promozione URL” (Admin)
Filtri per TipoDoc / Fonte
Abstract dinamico con le keyword
in highlight
Icone che individuano la Fonte
21
Information Management
Dashboard 1/2
Analizza i primi 500
risultati sulla base di
qualsiasi metadato
22
Information Management
Dashboard 2/2
Seleziona il campo
per l’analisi dei dati
dalla lista metadati
23
Information Management
OmniFind deployment
 OmniFind Search server è solitamente separato dalla search application
La Search application è un’applicazione/portlet custom di cui viene fornito un esempio
Funzioni OmniFind richiamabili anche via Web services
Web server
Web Browser
Search
Portlets/
Applications
Portal Server
Application Server
Employee Portal
Search &
Index API
News server
II OmniFind
Server
Application Server
Enterprise
Information Servers
Search Server
24
Information Management
Tecnologie chiave di OmniFind
Searching
UIMA
 Advanced Text
Analysis
 Entità e relazioni
Categorization
 Rule-based
 Automatica
Indexing
 Spell checking
 Dynamic Ranking
 Admin-influenced Ranking
 Dynamic Summary
 Custom dictionaries
 Ricerca per campi e parametri
 Ricerca semantica e per
sinonimi
Search
Collections
 Global Analysis
 Static Ranking
 Elimina Duplicati
Parsing/
Tokenizing
 Riconosce formato
 In Output un plain text
con info di formattazione
 Parole e Frasi
 Trova il Lemma
Security
Crawling
 Estrae il contenuto dai vari
source
 Copia su area di staging
 Vari Crawler in parallelo
Enterprise
Content
25
Information Management
Oltre la ricerca per parola chiave
La ricerca per parola chiave conduce
spesso a risultati irrilevanti e molto
“rumoreIrrelevant
di fondo”
che difficilmente
results
porta ai risultati sperati
26
Information Management
…. e Ricerca SEMANTICA
discovered information*
* L’informazione trovata non è
necessariamente contenuta in modo
esplicito nel documento.
27
Information Management
UIMA & Text Analytics

UIMA: Unstructured Information Management Architecture
 Framework di supporto all’analisi semantica dei testi (text analytics) tramite
“annotators” che consentono di scoprire il significato implicito nei contenuti non
strutturati
 Fornisce anche i tool per sviluppare Annotators e renderli UIMA-compliant
(developerWorks)
 Permette il plug-n-play delle technologie analitiche di differenti vendors
 Apache UIMA release da Marzo 2007
 Supporto di un vasto ecosistema di partner

Supporto UIMA in Omnifind
 Gli annotator si integrano in Omnifind per consentire la ricerca semantica
 Regular Expression Annotator (incluso in Omnifind 8.4) è un Annotator
configurabile tramite rule file che scopre concetti semantici come numeri
telefonici ed indirizzi e-mail
28
Information Management
Integrazione con Cogito di Expert System
Sfruttando l’architettura UIMA, un annotatore integra OmniFind con il
motore di ricerca semantica Cogito
Applicazione di Ricerca
OmniFind
Cogito
OmniFind
Index
Ad hoc annotator
(Categorization – not
used)
Find Words & Roots
Text
Identify Language
UIMA Compliant Collection Processing Engine
document bodies
enriched metadata
29
Information Management
UIMA & Online Media Analysis per gestione reputazione,
immagine pubblica e opinione su marchio
Benefici
• Rileva trend ed oscillazioni nelle
opinioni diffuse nel web
• Scopre temi rilevanti per una
compagnia ed i suoi marchi
• Benchmark verso i concorrenti
Funzionalità
• Accede blogs, siti di informazione, feeds, siti concorrenza,…
• Analizza tonalità, temi “caldi”, marchi, prodotti, …
30
Information Management
Online Media Analysis
Ricerca per keyword
Ricerca
concetti & entità
Aggregazione
risultati
Valutazione
tonalità
31
Information Management
Ricerca semantica in lingua Italiana
Searching
UIMA
 Advanced Text
Analysis
 Entità e relazioni
Categorization
Indexing
 Global Analysis
 Static Ranking
 Elimina Duplicati
Spell checking
Search application
 Dynamic
Ranking
Calculation of Sentiment
 Admin-influenced Ranking
Result Aggregation
 Dynamic
Summary(AJAX)
 Custom“My
dictionaries
Searches”
 Ricerca per campi e parametri
 Ricerca semantica e per sinonimi
Search
Collections
 Rule-based
 Automatica
Administration
Security
Parsing/
Tokenizing
Riconosce
formato
UIMA
Annotator
 In Output un plain text
con info di Connector
formattazione
 Parole e Frasi
 Trova il Lemma
Crawling
Estrae ilSolution
contenuto
dai vari
Plugin
source
(sicurezza)
Remove Advertisements
 Copia su area di staging
 Vari
Crawler
parallelo
Detect
correct in
document
date
News Sites,
Forums, Blogs,
RSS feeds, etc
32
Information Management
Funzionalità della Ricerca Semantica
La Applicazione di Ricerca fornita con Omnifind (java - comprensiva del source code)
è modificata per consentire di sfruttare appieno il valore dell’integrazione;
nell’implementazione mostrata oltre alla ricerca per keyword è possibile la ricerca per :
 DOMINIO di appartenenza dei documenti ricercati
 ENTITA’ di tipo persona, luogo ed organizzazione senza o con attributi
 TAGS tipo data, e-mail, url, moneta e tanti altri
Le seguenti componenti della soluzione
sono personalizzabili a seconda delle
specifiche esigenze di ricerca richieste:
 cogito
 connettore
 interfaccia utente
33
Information Management
Enterprise Search nel Portale B2B in VDMA
Sfida
 Fornire una enterprise search veloce ed
affidabile verso gli ambienti intranet ed
extranet per la federazione delle aziende
ingegneristiche tedesche
 Supportare 50.000 membri esterni, 250
autori interni, 1500-3500 visite al sito al
giorno
 Estendere la ricerca di IBM OmniFind a
IBM Web Content Management
Soluzione
IBM Omnifind integrato con WebSphere
Portal per l’accesso a pagine Web, file PDM,
database Oracle e contenuti Lotus.
Benefici di business
 Accesso veloce e di elevata qualità
agli utenti della extranet e intranet
per le informazioni su partner e
prodotti
 Migliorata la produttività degli
utenti
Benefici tecnologici
 Codice di base stabile
 Facilmente personalizzabile
34
Information Management
IFPMA
 IFPMA (International Federation of Pharmaceutical Manufacturers &
Associations), è un’organizzazione no-profit, non governativa (NGO)
che rappresenta le associazioni industriali nazionali e le compagnie
farmaceutiche. Le aziende parte della IFPMA lavorano nell’ambito
della ricerca farmaceutica, delle biotecnologie e dei vaccini.
 Sfida: IFPMA Clinical Trials Portal – costruire un portale di ricerca nel
quale pazienti e medici possano trovare I risultati dei test clinici
effettuati sui farmaci.
 Soluzione: IBM ha vinto il bando di gara per lo sviluppo del portale di
ricerca di IFPMA che consentisse a pazienti e medici di trovare con
una singola search tutti I risultati dei test clinici pubblicati sia sui siti
web delle compagnie farmaceutiche che nel central clinical trial
database (es www.clinicaltrials.gov) . IBM ha disegnato una soluzione
basata su WebSphere Portal con la tecnologia di ricerca di IBM
OmniFind.
35
Information Management
Realizzazioni italiane - Intranet Search in ambito
petrolchimico
Sfide
 Dare la possibilità agli utenti della Intranet
di poter ricercare I documenti contenuti nei
database Domino profilati per I vari utenti
 Superare I limiti della search integrata nel
portale
 Effettuare ricerche full-text e sfruttare la
categorizzazione del portale
Soluzione
IBM Omnifind è stato integrato nel Portale
Domino per l’accesso profilato alle pagine
della intranet.
IBM Omnifind ha offerto la possibilità di poter
effettuare ricerche di tipo full text, fielded, per
sinonimi/acronimi e per categorie.
36
Information Management
Realizzazioni italiane - Intranet Search in ambito
bancario
Sfide
 Dare la possibilità agli utenti della Intranet
di poter ricercare I documenti contenuti
nelle teamroom Domino, nel file system e
nel repository SQL Server
 Superare I limiti della search integrata nei
vari repository
Soluzione
IBM Omnifind è stato integrato nella intranet,
IBM Omnifind ha offerto la possibilità di poter
effettuare ricerche di tipo full text, fielded, e
per sinonimi/acronimi .
37
Information Management
Realizzazioni italiane - Intranet Search in ambito
editoria
Sfide
 Dare la possibilità agli utenti della Intranet
ed ai clienti della Extranet di poter ricercare
I documenti contenuti nel repository Oracle
 Superare I limiti della attuale search
Soluzione
IBM Omnifind è stato integrato nella
intranet/extranet via interfaccia web services
IBM Omnifind ha offerto la possibilità di poter
effettuare ricerche di tipo full text, fielded, e
per sinonimi/acronimi.
In fase di test l’aggancio alla ricerca
semantica
38
Information Management
Realizzazioni italiane - Intranet Search in ambito
ingegneristico
Sfide
 Dare la possibilità agli utenti della Intranet
di poter ricercare I documenti contenuti nei
database Domino profilati per I vari utenti
 Superare I limiti della search integrata nel
portale
Soluzione
IBM Omnifind è stato integrato nel Portale
Domino per l’accesso profilato alle pagine
della intranet.
IBM Omnifind ha offerto la possibilità di poter
effettuare ricerche di tipo full text, fielded, per
sinonimi/acronimi e per categorie.
39
Information Management
Ricerca con Omnifind sui dati di anagrafica bancaria su DB2
z/OS
 Criticità
 La ricerca sull’anagrafica su DB2 z/OS non è semplice per l’utente
dello sportello e non restituisce risultati soddisfacenti nel caso di
anagrafiche frequenti in Italia (accenti, apostrofi, maiuscole ecc)
 Soluzione
 Utilizzo di Omnifind per una ricerca più efficiente e più flessibile
40
Information Management
Ricerca sulle normative bancarie
 Criticità
 La ricerca sulle normative bancarie non è semplice per l’utente e non
restituisce risultati soddisfacenti
 Soluzione
 Utilizzo di Omnifind per una ricerca più efficiente e più flessibile
41
Information Management
Ricerca Semantica
Oltre alla ricerca per keyword è possibile la ricerca per :
 DOMINIO di appartenenza dei documenti ricercati
 ENTITA’ di tipo persona, luogo ed organizzazione senza o con attributi
 TAGS tipo data, e-mail, url, moneta e tanti altri
42
Information Management
IBM w3 Intranet utilizza OmniFind Enterprise Edition
• Attiva dal Settembre 2003
• 8,000 siti 25M pagine
• Supporta più di 300.000
dipendenti
• Tempi di risposta sotto il
secondo
• Preferita 2:1 rispetto alla
tecnologia precedente
IBM's intranet, powered by OmniFind Enterprise Edition,
was selected as one of The Year's 10 Best Intranets 2006
by world-renowned usability research firm Nielsen Norman
Group. IBM was the only information technology company
recognized in this report.
43
Information Management
IBM Omnifind EE: scenari
 SISTEMI OPERATIVI:
•IBM AIX (64-bit systems)
•AIX V5.2 (requires Maintenance Level 7)
•AIX V5.3 (requires Maintenance Level 3)
•Linux for Intel (32-bit systems)
•Red Hat Enterprise Linux Advanced Server V4.0, Update 3
•Red Hat Enterprise Linux Advanced Server V5.0
•Novell SUSE Linux Enterprise Server V10
•Novell SUSE Linux Enterprise Server V9.0 with Service Pack 2( United Linux SP2)
•Microsoft Windows (32-bit system)
•Windows 2003 Enterprise Edition R1 e R2
•Solaris (64-bit system)
•Solaris 9, kernel SunOS 5.9
 SCENARI SUPPORTATI:
 1 nodo
 2 nodi
 4 nodi
44
Information Management
Tutti i componenti su singolo server

In questa configurazione la memoria e la larghezza di banda I/O è
condivisa tra tutti I componenti

Non c’è failover per l’applicazione di ricerca
Crawler
Parser
Indexer
Search
45
Information Management
La configurazione a due server fornisce capacità di failover
per l’applicazione di ricerca

Un server addizionale fornisce sia capacità alta affidabilità che bilanciamento del
carico di lavoro
 Richiede tool per la gestione del load balancing
Crawler
Parser
Indexer
Search
Search
46
Information Management
La configurazione a quattro server fornisce la completa
distribuzione dei componenti


Massimo throughput
Alta disponibilità e workload balancing delle richieste di ricerca
Crawler
Parser
Indexer
Parser and
indexer must be
on the same
server
Search
Search
47
Fly UP