Digitalizzazione dei documenti ed i vantaggi del riconoscimento ottico del testo
Dopo la pausa della settimana precedente apriamo un nuovo capitolo legato alla digitalizzazione dei documenti ed al riconoscimento del testo.
Vi ho parlato tempo addietro dell'importanza della digitalizzazione per gli avvocati. La serie di articoli che ho in programma di pubblicare fin verso natale cercherà di approfondire l'argomento da diversi punti di vista.
Con quest'articolo cercherò di introdurvi la tematica ed esaminare i concetti di base del riconoscimento ottico del testo. Nei prossimi articoli, invece, entrerò più nel dettaglio e parlerò dei programmi e dei "trucchi" che uso (su macOS e iOS) per ottenere i migliori risultati. In particolare conto di parlarvi dei seguenti programmi per:
- macOS: Anteprima, PDFpen Pro, PDF Expert, Acrobat Pro DC ed OCRKit;
- iOS: PDFpen e PDF Expert.
Ho poi intenzione di parlarvi del mio principale strumento di acquisizione digitale, lo ScanSnap iX500 e dei programmi di acquisizione su iOS: Scanbot, PDFpen Scan+, Scanner Pro 7.
1. Cos'è l'OCR o il Riconoscimento Ottico dei Caratteri?
1.1 Il funzionamento di base dei vari programmi
Ma come funziona esattamente un programma che svolge l'OCR? Anzitutto un programma di OCR fa un esame del documento per riconoscimento delle porzioni di testo. Una volta questo passaggio era più complesso è richiedeva, spesso, l'intervento manuale dell'utente che doveva "controllare" o "aiutare" il programma ad individuare le porzioni di testo e le immagini. Il programma, poi, esegue l'esame delle porzioni di testo individuato per riconoscere gli schemi delle lettere. A questo punto viene elaborato il testo così riconosciuto. Una volta ottenuto il testo il programma può:
- Creare un file di testo, inizialmente solo in formati come TXT o RTF ora anche in formati come DOC e DOCX;
- Crea un livello invisibile di sopra il PDF immagine.
Personalmente quest'ultima è la scelta che faccio al 99%, il restante 1% è riservato ai rari casi in cui ho bisogno di altro.
1.2 Cosa non dovete aspettarvi
Seppur l'OCR ha fatto enormi passi in avanti dai suoi esordi, non è possibile il riconoscimento del testo senza margini d'errore ovvero al 100%. Inoltre, se già state fantasticando, non è possibile ottenere un documento MS Word impaginato correttamente e facilmente modificabile. In altre parole non si può convertire un documenti stampato su carta in digitale senza alcuno sforzo ma, se dovete riusare / modificare un testo su carta, con l'OCR è possibile farlo senza troppi sforzi.
1.3 Come ottimizzare il riconoscimento del testo
Se il riconoscimento automatico del testo non ottiene ancora risultati accurati al 100% è tuttavia possibile, utilizzando una serie di accortezze, ottenere dei risultati prossimi al 100%. Esistono due scenari tipici e profondamente diversi:
- Siamo noi ad eseguire la scansione;
- Riceviamo da terzi il documento digitalizzato.
Vediamo in questi due differenti scenari come migliorare le scansioni su cui lavorerà il nostro programma di OCR.
1.3.1 Consigli per una buona acquisizione del documento cartaceo
Come accennato nei punti precedenti i vari programmi di OCR ricercano l'immagine su cui deve essere fatto il riconoscimento del testo. Tale ricerca avviene (volendo semplificare enormemente) confrontando le forme delle lettere registrate nel programma di OCR con i pixel dell'immagine scansionati. In particolare un programma di OCR utilizza la differenza di colore tra le aree (le lettere di testo abitualmente sono scure – nere per la maggior parte - su uno sfondo chiaro) per rilevare i contorni delle lettere e confrontarle con il campionario inserito dal programmatore al fine di ottenere un match positivo, ovvero un riscontro positivo.
Avendo in mente come funziona il sistema per eseguire l'OCR diventa semplice avere delle linee guida per ottenere un buon risultato nel riconoscimento del testo.
Anzitutto è necessario fare una scansione di buona qualità. Ma, nel concreto, cosa significa?
L'immagine deve essere ben contrastata. Il testo, poi, deve essere ben differenziato dallo sfondo della pagina. Possibilmente la scansione deve essere fatta in formato bitmap in bianco e nero (ovvero niente colori o scala di grigi). Questo tipo di scansione rende più semplice al programma di OCR la differenziazione tra l'immagine del testo e lo sfondo. La qualità della scansione deve poi essere media, ovvero almeno 200 dpi. Questo permette al programma di riconoscere più facilmente le forme delle lettere e, conseguentemente, fare meno errori. L'altro vantaggio di questa risoluzione è che le immagini acquisite in questo formato "pesano" di meno. Si otterrà quindi un PDF di dimensioni accettabili ma che permette anche di essere riconosciuto facilmente dai programmi di OCR.
Esistono, tuttavia, dei casi particolari. Le regole che ho indicato sopra si applicano per la maggior parte dei casi in quanto, abitualmente, un testo su carta è stampato con inchiostro nero su di un foglio bianco. Non sempre, tuttavia, questa regola è rispettata e, conseguentemente, dovrete modificare le modalità della scansione in ragione del materiale che state acquisendo. Per fare un esempio, immaginiamo di dover scansionare un documento che ha uno sfondo verde annacquato (ovvero una tinta poco satura di colore) ed i caratteri di colore bianco. In questa ipotesi è sconsigliabile la scansione in bitmap perché si otterrebbe una nuvola di puntini (che rappresenterebbero il verde annacquato) e degli aloni bianchi (che rappresenterebbe le lettere). Inoltre, siccome in una scansione bitmap è il nero che "pesa", otterremmo un file di dimensioni significativamente maggiori rispetto ad una scansione con foglio bianco e lettere nere. In una simile ipotesi ha più senso utilizzare una scansione in scala di grigi e, eventualmente, procedere a modificare i parametri del nostro scanner per aumentare il contrasto dell'immagine per aumentare il differenziale tra sfondo e lettere.
Occorre quindi prestare attenzione ai documenti su cui vogliamo applicare il riconoscimento automatico del testo e sulle modalità di acquisizione di questi documenti.
1.3.2 Come migliorare una scansione ricevuta da terzi
Se è relativamente facile ottenere buoni risultati su documenti in nostro possesso e con i nostri strumenti, una volta compresi i meccanismi dietro le quinte dell'OCR, può non essere altrettanto facile fare ciò quando il documento lo riceviamo da soggetti terzi.
In questi casi, tuttavia, il nostro Mac può venirci in soccorso.
Anteprima, programma installato di serie su tutti i Mac, è il coltellino svizzero per svolgere queste attività.
Nel prossimo articolo vedremo come utilizzare varie funzioni utili di Anteprima per migliorare le immagini di documenti inviateci da soggetti terzi ed addirittura (con un po' di automazioni) contenute in un PDF.
Un'altra applicazione molto utile, ma a pagamento, è PDFpen Pro che, tra le varie funzioni, possiede degli strumenti di correzione delle immagini contenute nei PDF. Ve ne parlerò nel futuro articolo che ho intenzione di scrivere su questo programma.
2. I Vantaggi
Se siete ancora con me, potrebbe sorgervi una domanda: perché devo complicarmi la vita ad imparare e gestire tutte queste cose?
I vantaggi sono molti ma i più rilevanti sono i seguenti:.
2.1 Indicizzazione del testo contenuto all'interno delle scansioni
Avere un documento digitalizzato è sicuramente utile. Il vero vantaggio, tuttavia, è avere la possibilità di trovarlo facilmente. In altri articoli ho spiegato come archiviare in modo efficiente i documenti, ma a volte, anche questo metodo fallisce. L'unico ulteriore modo per "ritrovare" un documento digitalizzato è quello di sfruttare gli strumenti di ricerca del Mac e, in particolare, l'indicizzazione di Spotlight. Spotlight permette di ricercare i file non solo in base al nome o al tipo di documento ma anche in base al contenuto, SE quest'ultimo è testuale. Un PDF acquisito digitalmente e su cui è stato applicato l'OCR viene indicizzato e ricercato anche attraverso le parole del livello testuale inserito nella scansione. La ricerca di un documento, quindi, risulta più approfondita, rapida ed omnicomprensiva.
2.2. Possibilità di sottolineare ed annotare i PDF
Qualsiasi lettore di PDF ha, abitualmente, la funzione di annotare i PDF. Oltre a questa utile funzione tuttavia, se il PDF è testuale è possibile procedere a sottolineare, come un documento di carta, il PDF stesso. La presenza del livello nascosto del testo in un PDF (digitalizzato da un documento cartaceo) permette all'utente di sottolineare il testo. Questa funzione, sicuramente comoda su Mac è ancora più utile con iOS e diventa comodissima con l'iPad Pro e l'Apple Pencil.
2.3. Taglia incolla del testo altrove (risparmio di tempo)
Da ultimo, ma non a livello di comodità, avere un livello nascosto con il testo del documento digitalizzato permette di copiare ed incollare quel testo. Ciò, anche con un riconoscimento non accurato al 100%, permette di ridurre (e di molto) il tempo per trascrivere su un altro documento.
In conclusione
Abbiamo visto cos'è l'OCR, come ottimizzare i risultati del riconoscimento del testo con gli strumenti in nostro possesso e quali sono i principali vantaggi e le ragioni dell'utilità di questo sistema. Nel prossimo articolo esamineremo come ottimizzare i documenti inviatici da soggetti terzi con l'utilizzo di Anteprima.