Gestire la conoscenza con «motori» italiani. Quando il Km è autarchico

Dario Colombo -

8 Luglio 2002

Ci sono società che investono in ricerca a cavallo tra tecnologia e linguistica. Hanno aderenze con il mondo accademico, ma il loro fine è il business riconducibile al Knowledge management. Sono Brainworkers, Expert System e OmegaCube. E in comune hanno il passaporto tricolore.

Uno dei trend più appetitosi dell’It attuale è senz’altro quello del Knowledge management, una dizione con la quale si può sottendere, tra l’altro, il fermento che esiste nel mondo dei repository dei dati. C’è, però, che questi dati rappresentano informazioni, e quindi valori di business. Conviene, dunque, strutturarli nel modo migliore possibile. Se, poi, si fa un’istantanea simbiosi, accoppiando l’informazione a chi la genera, cioè l’uomo, si arriva a formulare il più complesso problema possibile, che porta al bisogno di gestire la conoscenza dell’uomo in azienda. Questo è il knowledge management: un’idea di fondo, a cui uniformare lo stato informativo dell’impresa. Percorso faticoso, e oltretutto che non presenta, per definizione, una soluzione di continuità.

Urge semplificare, quindi, laddove possibile. Una mano alla semplificazione la dà la localizzazione, che, in questo caso, significa fare prima le cose che si conoscono. Ora, noi italiani conosciamo soprattutto la nostra lingua. E, dato che le informazioni sono costituite, prevalentemente dal linguaggio (con ciò che ne deriva: lemmi, grammatica, sintassi), ci si può avvicinare alla gestione della conoscenza proprio partendo dalla lingua. Tutti i più grandi produttori di software internazionali, se interpellati, direbbero, senza mentire, di essere attivi sul fronte Km. Però le loro tecnologie non sarebbero sufficienti a colpire al cuore il problema della gestione della conoscenza in lingua. Non esattamente come sono già in grado di fare alcune aziende italiane che, da anni, investono in tecnologie di ricerca e analisi linguistica in tempo reale, spesso e volentieri insieme a esponenti del mondo accademico. Noi ne abbiamo incontrate tre (Brainworkers, Expert System e OmegaCube), ognuna con la propria proposizione al mercato.

Cosa vuol dire, per Brainworkers, fare Km all’italiana?

Secondo il responsabile della società romana, Angelo Canaletti, "non c’è un approccio solo italiano al Km, poiché la disciplina è valida a livello mondiale. Nei sistemi basati su logiche formali e in quelli basati su reti neurali e altri metodi matematici, però, prevale la logica intrusiva, ovvero le tecnologie si basano su una predeterminazione delle basi di dati, in genere documentali, su cui agiscono, imponendo un’adeguamento delle strutture organizzative alle esigenze della tecnologia. Questo è anche l’approccio di società come Autonomy, il cui strumento, pur potente, perde di efficacia quando le condizioni non sono conformi alla sua visione della conoscenza".

Allora, per chi costruisce motori in lingua, la ricerca semantica dovrebbe contare almeno per l’80%…

"La semantica – continua Canaletti – per noi è cosa umana, e siamo contrari a una sua interpretazione come atto delle macchine. L’oggettivazione della conoscenza è un errore filosofico e logico. Preferiamo parlare di atto interpretativo, come azione pragmatica e per questo riteniamo rilevante la capacità semiotica dei sistemi di ricerca e navigazione".

La ricerca di Brainworkers è basata sui principi cibernetici espressi dai cileni Maturana e Varela, in particolare quelli dei "domini consensuali" sugli atti linguistici, per la piattaforma di workflow BrainWare, e sulle reti neurali auto-organizzanti per il sistema di knowledge, Gim (General Intellekt Machine). Una struttura adeguata di Km è data dall’integrazione di questi due sistemi. Nello specifico, un "dominio consensuale" è determinato dal concetto di "atto linguistico del comunicare", per il quale il linguaggio non è trasmissione di messaggi tra mittente e ricevente, o trasferimento di dati on line. "Comunicare", piuttosto, significa definire un piano di comprensione tra soggetti che entrano in relazione e costruiscono un dominio di interazioni linguistiche. Il linguaggio, quindi, è una cooperazione tra soggetti, è un fatto connotativo. Il paradigma cibernetico-neurale, invece, prevede l’uso di software per creare gruppi di lavoro dotati di strumenti di comunicazione e azione, che creano di volta in volta il dominio consensuale.

Ma in questa architettura, conta di più l’indicizzazione o l’attività di ricerca dei contenuti? Ovvero, quanto tempo si dedica alla costruzione del database, e quanto alla sua alimentazione?

"Nel nostro caso – specifica Canaletti – indicizzazione non è costruzione di un database, nel senso che non vengono fatte manomissioni per definire una base di keyword o di attributi e relazioni con gli oggetti della ricerca. Ovviamente questo si può sempre fare, ma la forza del nostro lavoro sta nell’adozione di logiche auto-organizzanti di determinazione autonoma delle categorie e delle descrizioni semantiche di queste, partendo da un approccio quantitativo (calcolo), che lascia il sistema indipendente da versioni predeterminate del senso di un dato quadro concettuale a cui si vuole accedere".

E allora, a chi si può proporre, oggi in Italia, una siffatta tecnologia articolata di Km?

"Alle aziende private medio-grandi – dice Canaletti – che sono consapevoli del capitale che perdono o che non usano, a quelle del settore pubblico, a quelle sommerse da documenti irrintracciabili, alle reti di professionisti che possono introdurre un fattore di moltiplicazione delle competenze e dell’efficacia". Sono utenti di Brainworkers, Alenia Spazio, l’Anpa (Agenzia Nazionale per la Protezione dell’Ambiente), Caspur, il Consorzio per le applicazioni di supercalcolo per l’università e la ricerca e la società di consulenza Conmedia.

La lingua di Expert System

La società reggiana Expert System è molto più concentrata sull’aspetto dell’analisi prettamente linguistico-semantica. Ha speso l’ultimo anno per migliorare la già affermata tecnologia Cogito, aggiungendo nuove componenti, trasparenti all’utente, e potenziandone le capacità di intelligence e di text mining delle basi informative. "L’esigenza attuale – ci dice Stefano Spaggiari, Cto della società – è quella di passare dalla gestione del dato strutturato a quello non strutturato. Per farlo, ci vuole una solida base di tecnologia linguistica. Si deve partire dalla parola e da lì poter risalire a quello che si cerca. Dalla lingua nascono le applicazioni di Km e di text mining. Ma anche quelle di Crm. Prendiamo la gestione dei servizi multicanale delle banche. Se non ordini alla base le informazioni non possono funzionare".

L’interpretazione del testo

Spaggiari, quindi si ispira a un principio oggettivo: se capisci la parola, capisci tutto. Ma oltre al lemma c’è la semantica. "E infatti – spiega Spaggiari – la vera novità di Cogito è il "disambiguatore semantico", uno strumento, trasparente all’utente, che serve a rappresentare i meccanismi di comprensione che una persona adotta quando si trova di fronte a una frase. Sinora per fare operazioni simili si usavano solo gli algoritmi, che però potevano fare solo un lavoro statistico". Ma la parola non è riconducibile solo a un numero, è anche un fatto di conoscenza. E qui entra in campo la semantica. Anzi, la rete semantica. Quella costruita da Expert System è fatta da relazioni fra oltre 350mila termini, costantemente aggiornata da linguisti madrelingua. Il sensigrafo (la rete semantica ad albero) analizza la frase e consegna agli algoritmi statistici termini "predigeriti" dal punto di vista linguistica, in modo che l’utente possa ottenere veramente quello che ha cercato, in italiano. Ma a cosa serve, veramente un simile motore linguistico? "A creare contenuti – spiega Spaggiari – tramite il categorizzatore abbinato. Per esempio è valido per alimentare un database strutturato, per preparare informazioni da far successivamente lavorare, magari, da sistemi di intelligence, come Sas, Business Objects, Microstrategy. Ma anche per estrarre informazioni coerentemente con quello che si cerca, da sistemi di contact center, dagli script degli operatori o dalle e-mail in entrata, per comprendere cosa realmente esprimono i clienti".

Gli utenti di una siffatta tecnologia, hanno un profilo medio-alto ("se non si hanno esigenze spinte di Km, basta il motore di Altavista", confessa Spaggiari), anche perché Cogito necessita di personalizzazione all’ambiente applicativo, come è stato fatto per la categorizzazione dei siti Web del Corriere della Sera e della Gazzetta dello Sport, o come si sta facendo per l’estrazione dei dati dai contact center di Ras, Generali, Unipol, Carifirenze. Un buon lavoro di personalizzazione, condotto su server Linux, Windows e Solaris, richiede, in media, un capoprogetto, un paio di linguisti, tre tecnici. Se si deve fare solo del "fine tuning", basta un team di tre esperti. Chi vorrà saggiare le nuove potenzialità semantiche di Cogito potrà farlo a breve tramite il motore di ricerca Arianna o con la banca dati lavoro del portale italia.gov.it, impostando la query con una frase in linguaggio naturale. E rimanendo sul piano degli esempi dal vivo, chi non conosce, almeno di fama, Iperbole, la rete civica del Comune di Bologna? Sotto c’è la tecnologia di OmegaCube, società felsinea con un chiaro retaggio in ambito networking e security, ma che fa da capogruppo ad altre realtà, fra cui Yana Research, società di Pisa che lavora nel campo dell’intelligenza artificiale e dell’elaborazione del linguagio naturale, sfruttando un’osmosi tecnico-intellettuale con il locale Cnr. La proposta linguistica di OmegaCube è fatta da un classificatore automatico di documenti e da un’interfaccia interrogabile in linguaggio naturale.

Potere alla "mente"

Il primo stumento, Mind Class, usa le tecniche di classificazione dei testi per mappare una base informativa e ordinare la documentazione in categorie definite dall’utente, previo addestramento del sistema. Già in uso presso l’Associazione industriali di Cagliari, può essere integrato in un sistema di workflow esistente.

Ha richiesto un anno uomo di sviluppo, per creare un front end in Java e la parte di analisi in C, per sistemi Linux, Unix e Windows, e utilizza tecniche di intelligenza artificiale e l’analizzatore linguistico del Cnr (Nlp, Natural language processing).

Mind Plus è un’interfaccia complementare a Mind Class (che beneficia di una formula di sconto se vengono acquistati entrambi i moduli). Di fatto è un meta-motore di ricerca, un indicizzatore, che, sfruttando un meccanismo di analisi a linguaggio naturale, invia simultaneamente la query ai motori di ricerca esistenti. Quelli a disposizione sono cinque: Google, Altavista italiano e com, Northern lite e Rast. I risultati provenienti dai cinque motori vengono incrociati e forniti all’utente in base al principio dell’aderenza alla query naturale. La tecnologia di ricerca di Mind Plus consente di essere applicata anche a database distribuiti e sulle intranet. Ed è alle viste un modulo per la gestione in linguaggio naturale delle Faq (Frequently asked question), applicabile ai sistemi di relazione con la clientela, per dispensare chiarimenti nella maniera più diretta possibile.