Snellire corposi file PDF per inviarli via mail

Ho letto con interesse i suggerimenti riportati nell’articolo sul software Some PDF to HTML in grado di convertire PDF in pagine Web. Il mio problema però è quello di acquisire una ventina di pagine, aggiornarle in alcune parti e poterle …

Ho letto con interesse i suggerimenti riportati nell’articolo sul
software Some
PDF to HTML
in grado di convertire PDF in pagine Web. Il mio problema però
è quello di acquisire una ventina di pagine, aggiornarle in alcune parti e poterle poi inviare senza intasare i computer. Per esempio, è
possibile scaricare dalla rete in formato PDF un intero libro e l’occupazione
è solo di pochi KB. Come si può ottenere in pratica un risultato
così?

Se quel che occorre è apportare modifiche ai PDF scaricati prima di
rispedirli, è necessario passare per un formato intermedio che ben si
presti al text editing. In questo senso, rispetto all’HTML, è da
preferire un formato più congeniale a un word processor, come TXT, RTF
o DOC.

Lo stesso produttore di Some PDF to HTML sviluppa un analogo strumento, denominato
Some
PDF to Word
, anch’esso gratuito, che fa proprio quello che il nome
suggerisce. Il testo viene riconosciuto, ma con alcuni degli errori e difetti
tipici di un programma OCR, come le spaziature imperfette, parole interrotte
da spazi inesistenti e così via. Il risultato è sì editabile,
ma a correzioni completate se si genera un nuovo PDF a partire dal documento
Word modificato si rischia di ottenere un risultato distante dall’originale
di partenza, dal punto di vista dello stile, dei font e del layout.

Se l’aspetto estetico non interessa, tanto vale rivolgersi a Some PDF
to TXT, dello stesso autore, che, avendo come obiettivo soltanto l’estrazione
del testo senza formattazione, rinuncia completamente a rispettare posizioni
e spaziature e produce, se non altro, il testo corretto.

Il problema che accomuna la maggior parte dei software che estraggono testo
o DOC modificabile da un PDF sta nel fatto che questi programmi devono, di fatto,
lavorare quasi come un OCR, ossia devono “osservare” il risultato
e da questa osservazione grafica devono dedurre formato e disposizione del testo.

Avendo a disposizione il PDF, se non altro non sono costretti a dedurre i singoli
caratteri dalla forma dei relativi glifi, ma possono trovarli direttamente nelle
istruzioni PostScript contenute nel PDF stesso, per cui, quanto meno, l’accuratezza
di riconoscimento del testo è ottima (a meno che il PDF di origine non
fosse una scannerizzazione di un testo, nel qual caso non contiene informazioni
testuali ma solo un’immagine più o meno compressa e il convertitore
deve lavorare come un OCR).

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome