Google investe sulle tecnologie per il riconoscimento caratteri

Michele Nasi - www.ilsoftware.it -

10 Aprile 2007

Google ha deciso di “sponsorizzare” il progetto OCRopus che verrà sviluppato presso l’IUPR (“Image Pattern and Image Recognition”), gruppo di ricerca istituito presso l’Università di Kaiserslautern, in Germania.

A Settembre dello scorso anno, Google aveva deciso di far rinascere
“Tesseract OCR”, progetto nato all’Università del Nevada nel 1985, con la
collaborazione di HP, che aveva come obiettivo lo sviluppo di un OCR (sistema di
riconoscimento ottico dei caratteri) che operasse correttamente con tutti i
generi di testo stampato.

Oltre vent’anni dopo il colosso di Mountain
View ha reso pubblico il suo interesse sulla tecnologia OCR contribuendovi con
aggiornamenti ed interventi correttivi in modo tale da gettare le basi per il
rilascio di una nuova versione del software.

Con un annuncio pubblicato
nella giornata di ieri, Google ha deciso di “sponsorizzare” il progetto OCRopus
che verrà sviluppato presso l’IUPR (“Image Pattern and Image Recognition”),
gruppo di ricerca istituito presso l’Università di Kaiserslautern, in Germania.

Il motore di OCRopus poggia su un sistema di riconoscimento caratteri
piuttosto avanzato sviluppato a metà degli anni ’90 e su innovative metodologie
per l’analisi del layout di pagina messe a punto di recente. Google ha già reso
disponibile una prima versione di anteprima del prodotto che però opera per il
momento soltanto su sistemi Linux e sfrutta direttamente “Tesseract OCR”. in
questa pagina gli interessati possono documentarsi sulla procedura
d’installazione.

OCRopus è sviluppato su piattaforma Linux Ubuntu 6.10
in C++ e Python: inizialmente è proprio Linux il sistema di riferimento scelto;
il software verrà poi successivamente portato sugli altri sistemi. La pagina
dedicata a OCRopus sul sito di Google è questa.