Così cambia la ricerca di informazioni sul Web

Come evolvono i servizi più utilizzati, da Google a Yahoo passando per Lycos e Altavista. Cosa attendersi per il futuro prossimo.

Novembre 2008. La gigantesca quantità di informazioni disponibile in Internet avrebbe un’utilità di gran lunga inferiore se non esistessero i motori di ricerca.
Un po’ come cercare un libro in una biblioteca di migliaia e migliaia di volumi senza informazioni sulla sua collocazione: sarebbe davvero arduo come trovare un ago in un pagliaio, con l’aggravante che su Internet i siti non sono migliaia ma centinaia di milioni, le pagine sono forse centinaia di miliardi, e, come se ciò non bastasse, il tutto evolve in continuazione.

Qualcosa cambia, qualcosa viene rimosso, ma (soprattutto) moltissimo altro si aggiunge: attualmente il ritmo è di 70-80 milioni di nuovi host all’anno (una parte dei quali ospiterà siti web): 200 mila al giorno, più di 2 al secondo!

Ancora più astronomico è il numero di pagine ed il ritmo a cui si aggiungono, tanto che è perfino difficile quantificarlo, anche perché molte pagine sono ad accesso protetto da pass­word e ancora più numerose, virtualmente infinite, sono le pagine non scritte da persone, ma generate automaticamente e visualizzate come risultato di una interrogazione, in base ai valori forniti in ingresso.

Chi conosce Internet da almeno dieci anni ricorderà che, prima dell’avvento di strumenti potenti e facili da usare come Google, Yahoo! e i loro emuli-rivali, trovare una notizia o un sito era un’impresa per il cui successo erano essenziali la fantasia (nell’immaginare l’indirizzo del sito), la memoria e (se si era fortunati) la presenza di collegamenti fra i siti, o magari la conoscenza di qualche sito che proponesse una buona “web directory” per iniziare la navigazione (giacché, in assenza di motori di ricerca, la caccia alle informazioni poteva avvenire solo azzeccando la giusta sequenza di collegamenti nell’immane ipertesto del Web). Sicuramente non la si poteva considerare un’impresa alla portata di tutti.

Il primo a porsi il problema fu lo stesso Tim Berners-Lee, inventore, nel 1990, dei concetti fondamentali del World Wide Web e successivamente autore di Mosaic, il primo browser di larga diffusione.

Fin dai primi mesi di vita del Web, il numero di server era cresciuto abbastanza da far apparire utile mantenere una lista dei siti in attività.
La lista fu inizialmente compilata da Lee stesso ed era ospitata sui server del CERN. A quell’epoca la si poteva paragonare a un “elenco telefonico” del Web: poco pratica ma quasi esaustiva, risultava tutto sommato ancora utilizzabile considerato il numero ancora relativamente ridotto di siti. Ma la situazione era destinata a cambiare con l’esplosione del Web.

Non era evidentemente né sensato né utile mantenere un elenco esaustivo di tutti i siti presenti: sarebbe stato enorme, scomodo da utilizzare, lento da scaricare e sostanzialmente impossibile da tenere adeguatamente aggiornato.

Nuovi siti andavano infatti aggiungendosi minuto dopo minuto; inoltre cresceva la quantità di informazioni contenute su ciascun web server, rendendo problematica anche la localizzazione di informazioni all’interno di un sito.

I primordi della ricerca in Rete
Prima dell’avvento del Web il problema era già stato rilevato e la risposta era stata Archie, un antidiluviano motore di ricerca (dotato di una spartana interfaccia utente a carattere) che indicizzava solamente i nomi dei file presenti sui siti FTP presenti in Internet, ma non il loro contenuto.

Il primo esempio di ipertesto distribuito pre-Web, Gopher, una sorta di Web senza grafica consultabile con un preistorico programma utilizzabile anche su terminali a carattere, disponeva anch’esso di un proprio motore di ricerca: Veronica, che indicizzava i titoli delle varie sezioni di tutti i siti Gopher conosciuti (ma, ancora una volta, non i loro contenuti).

Come si sono evoluti i motori
Uno dei primissimi motori di ricerca Web di grande popolarità fu Lycos, lanciato nel 1994 insieme a Infoseek e WebCrawler.
Questi furono seguiti da diversi altri, alcuni dei quali ancora piuttosto noti come Altavista o Excite. Questi sistemi funzionavano fondamentalmente tutti alla stessa maniera, indicizzando cioè i contenuti del sito e non semplicemente titoli, nomi di file o indirizzi, come fanno ancora oggi Google e Live Search.

Il concetto di Web Directory
Completamente diverso l’approccio di Yahoo!, che anziché porsi come motore di ricerca “full text” sui contenuti, proponeva (e tuttora propone, accanto al più classico motore di ricerca aggiuntosi nel 2004) una “web directory”, ossia una guida ragionata a una selezione di siti web, compilata da redattori umani.
Le ricerche Yahoo! si applicavano quindi al contenuto della sua stessa web directory e non al contenuto dei siti in essa citati. In un certo senso questo approccio puntava a fornire risultati maggiormente appropriati per le ricerche degli utenti: i siti recensiti erano ben selezionati e pertinenti rispetto al titolo riportato nella directory.
Tuttavia questo approccio è ovviamente afflitto da diversi inconvenienti.

Innanzitutto, i siti riportati nella directory sotto una certa sezione, e con una certa descrizione, possono cambiare frequentemente il loro contenuto e perfino la loro finalità generale, cosicchè tutte le voci devono essere periodicamente ricontrollate.

Secondariamente, la “qualità” di siti già esistenti, ma finora non presi in considerazione, potrebbe migliorare, rendendoli pertanto degni di citazione; inoltre spuntano centinaia di nuovi siti ogni giorno che in precedenza non esistevano neppure.

Tutto questo richiede continue visite al web per trovare nuove voci da inserire nell’elenco. Una attività onerosa, specie perchè effettuata da personale specializzato e non da macchine, e che non può garantire una copertura completa e perfettamente aggiornata.

La “rivoluzione” Google: PageRank
Lanciato nel 1998, Google costituì un riuscito tentativo di risolvere il problema basandosi su un motore di ricerca automatico, ma migliorando il più possibile la qualità dei risultati delle ricerche rendendo più sofisticato ed efficace il criterio di ordinamento dei risultati. Infatti, per un motore di ricerca, il fatto di indicizzare tutti i siti esistenti, anche con aggiornamento molto frequente, non basta di per sé a proporre risultati veramente utili ed efficaci: un fattore decisivo è infatti rappresentato dalla scelta dei risultati da mostrare per primi, fra le migliaia, o milioni, presenti in elenco. Quelli sono infatti i primi che l’utente vedrà e quindi anche quelli che, verosimilmente, saranno visitati per primi.

Per riuscire ad evidenziare per primi, nei risultati, i link più pertinenti, Google utilizza un approccio basato soprattutto su un algoritmo denominato PageRank che si basa sul numero di riferimenti a una determinata pagina da parte degli altri siti presenti sul Web.

In sostanza, l’idea alla base di PageRank è di “lasciar fare alla Rete” per quanto riguarda la selezione dei siti meritevoli di segnalazione: più un sito risulta puntato da altri siti, specie se questi a loro volta hanno un buon punteggio PageRank, più è probabile che quel sito contenga notizie interessanti e sia apprezzato dal pubblico; sarà quindi considerato un sito di buon livello da Google, che gli attribuirà un buon punteggio PageRank, di conseguenza tenderà a salire nella pagina dei risultati della ricerca.

È un po’ come se allo staff di redattori umani usato da chi propone una web directory ragionata si sostituisse l’intera comunità dei titolari di pagine web: saranno questi ultimi, con la loro libera decisione di ospitare sul proprio sito un riferimento a una certa pagina, che concorreranno a determinarne la “reputazione”, che viene colta automaticamente da PageRank.

Ricerca su nuovi tipi di materiale in Rete
Col tempo, i motori di ricerca “prima maniera” si sono presto rivelati insufficienti per catturare tutto ciò che la rete può offrire. Il web è infatti la forma di presentazione e fruizione più comune delle informazioni presenti in Rete, ma non è certo l’unica. Esistono anche newsgroup (oggi sempre più sostituiti da forum e blog), siti specializzati in notizie, feed RSS. Si tratta però ancora, in ultima analisi, di materiale testuale a cui possono essere applicate più o meno le stesse tecniche di ricerca impiegate per il testo delle pagine web.

Più difficile la sfida della ricerca su un Web in cui la quota di contenuti testo diventa quasi marginale rispetto al totale delle informazioni contenute. Infatti le pagine web attuali non sono quasi mai composte di solo testo, ma al contrario sono sempre più ricche di contenuti multimediali, a partire da immagini e video.

Naturalmente i motori di ricerca si sono adattati a questa evoluzione e com’è noto oggi Google comprende, per esempio, una ottima funzione di ricerca per immagini che si basa sulla ricerca di parole che, per la loro disposizione sulla pagina web, sono individuate come pertinenti l’illustrazione (per esempio una didascalia, una porzione di testo vicina a un rimando all’immagine oppure una frase consistente essa stessa in un hyperlink verso un’immagine).

Rispetto all’assenza completa di strumenti di ricerca per immagini che si registrava fino a qualche anno fa, si è trattato indubbiamente di un passo avanti enorme.
Tuttavia questo sistema di ricerca è in grado di trovare un’immagine con determinate caratteristiche (per esempio: “panorama con una fattoria a destra, un albero a sinistra, montagne sullo sfondo e cielo nuvoloso”) solamente se, nella pagina in cui tale immagine è inserita, del testo ad essa associato, o la sua didascalia, riporta proprio una descrizione con tali parole!

Se l’immagine è accompagnata da testo che parla di tutt’altro, oppure che non menziona i suoi contenuti, limitandosi a un commento non descrittivo (nell’esempio: “un tipico paesaggio di campagna”), Google Images non avrà “appigli” per localizzarla a fronte della richiesta citata. Se nel testo della pagina l’immagine è descritta proprio come richiesto, ma la descrizione è data in una lingua diversa da quella in cui sono stati espressi i termini della ricerca, idem.

Ricerca testuale o ricerca semantica?
Un problema analogo si ha perfino sulla ricerca testuale. Nonostante i continui miglioramenti a cui vengono sottoposti gli algoritmi di calcolo della rilevanza come PageRank, se al motore di ricerca chiedo “dove posso andare per far ricucire uno strappo ad un abito?” quello che si ottiene non è un elenco di rammendatrici come sarebbe desiderabile, ma un elenco di pagine in cui compaiono tutte o alcune delle parole citate, possibilmente vicine fra loro. Compare di tutto, dai romanzi online alle pagine sul Fantacalcio.

Solo se qualcuno avesse scritto una pagina con quel titolo (o uno molto simile) che riporta un elenco di rammendatrici otterremmo probabilmente il risultato desiderato.
Si tratta di un tipo completamente nuovo di ricerca: per riprendere il paragone con una biblioteca, non si tratterebbe più di chiedere al commesso “dove posso trovare il libro con il tale titolo e codice ISBN?” quanto piuttosto “può consigliarmi un buon manuale di programmazione AJAX adatto a programmatori non esperti di Java?”.
Alla prima domanda può rispondere anche un terminale self service. Alla seconda solo un bibliotecario esperto della materia.

Nuova indicizzazione dei documenti
È su questo terreno che si è sviluppata la ricerca sul cosiddetto “Web semantico”, un concetto sul quale è impegnato lo stesso Tim Berners-Lee. La prospettiva è quella di un web nel quale i contenuti non siano semplicemente documenti pubblicati ed esposti allo scrutinio puramente testuale dei motori di ricerca, ma siano caratterizzati e accompagnati da descrizioni espresse in speciali linguaggi (XML, RDF) adatti ad essere analizzati da sistemi automatici, che li sfrutteranno per individuare correlazioni e attinenze fra contenuti diversi, applicando schemi logici ai predicati trovati in queste descrizioni formali. Non mancheranno linguaggi formali di ricerca, fra cui SPARQL, applicabili a queste descrizioni.

La speranza è di consentire ricerche nelle quali non sia necessario scorrere lunghi elenchi di risultati irrilevanti, solo perché le parole cercate erano troppo comuni, ma al contrario il motore di ricerca colga in qualche misura il senso della richiesta, andando al di là delle singole parole inserite nella chiave di ricerca e riconoscendone piuttosto lo schema semantico collettivo, così da cercare risultati in cui tale schema sembri sussistere.

Precondizione perché tutto ciò funzioni è naturalmente una ricca “marcatura semantica” dei contenuti web effettuata da parte di chi li pubblica, essendo scartata, almeno per il momento, l’ipotesi che tecniche di intelligenza artificiale implementate nel motore di ricerca siano da sole in grado di “distillare” e riconoscere automaticamente gli schemi semantici e il significato dei testi presenti nelle pagine in rete.

Iniziative nazionali e transnazionali in ambito UE
Per la verità anche le istituzioni europee hanno finanziato dei progetti di ricerca in quest’area, con l’obiettivo di realizzare un motore di ricerca di nuova concezione in grado di bilanciare lo strapotere degli americani Google e Yahoo!.

Nel 2005 fu lo stesso presidente francese Chirac a lanciare l’idea nel corso di un vertice franco-tedesco: il progetto si chiama, appropriatamente, Quaero (in latino: “cerco”, “indago”, “chiedo”, “mi informo”), e coinvolgeva giganti dell’industria come France Télécom, Deutsche Telekom, Thomson, Siemens, nonché enti di ricerca pubblici come l’INRA e il CNRS francesi o le università tedesche di Karlsruhe e Aquisgrana.

Nelle intenzioni del progetto, Quaero (figura a sinistra) sarà in grado fra l’altro di effettuare ricerche su contenuti multimediali: dovrebbe consentire, in particolare, di cercare immagini simili a una immagine fornita; nel campo audio l’intenzione è quella di trascrivere e tradurre in varie lingue il contenuto verbale dei brani per consentirne la ricerca.

Da Quaero a Theseus, la Germania ci prova
Verso la fine del 2006 però la Germania, che in ambito Quaero si focalizzava su questa seconda tematica, ha deciso di abbandonare il consorzio, lanciando un proprio progetto indipendente, denominato Theseus (figura sotto), mirato alla ricerca semantica multimediale per video e immagini e, come qualcuno pensa, guidato da obiettivi più scientifici che campanilistici (sebbene sia supportato solo da università e aziende tedesche fra le quali giganti del calibro di SAP e Siemens). Affascina, in particolare, la prospettiva di poter lanciare ricerche del tipo “trova altre immagini simili a questa” oppure, per esempio, “altre immagini di questa stessa persona, ma con una casa sullo sfondo”.

Siamo alle porte del Web 3.0?
Si parla, per la prima volta, di Web 3.0, inteso come una combinazione fra il “social web”, comunemente identificato come il tratto più caratteristico del web 2.0, e la ricerca semantica di informazioni. Nel 2007 il progetto avrebbe ricevuto finanziamenti comunitari per 165 milioni di dollari (secondo altre fonti 250), sufficienti a coprire le necessità fino al 2011. In parallelo a queste ed altre iniziative di stampo nazionale è stato lanciato un ulteriore progetto di spirito più trasversale, denominato Chorus e finalizzato a favorire l’interscambio di know how ed esperienze fra tutti i progetti europei che si occupano di motori di ricerca audiovisivi e semantici.

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome