Come ottimizzare i documenti inviati da terzi per l'OCR con Anteprima, Automator e PDFpenPro
Nell'articolo precedente della serie abbiamo parlato dei vantaggi di applicare l'OCR i documenti acquisiti digitalmente e come farlo in modo efficace con i nostri strumenti.
L'altro e più complesso lato della medaglia, tuttavia, è l'ottimizzazione dei documenti inviatici da terzi. Se infatti con alcuni accorgimenti possiamo ottimizzare la modalità con cui acquisiamo i nostri documenti spesso non abbiamo modo di controllare quanto ci viene inviato e, ancor più spesso, chi ci invia i documenti in digitale non li invia ottimizzati.
In questo articolo darò per scontato i consigli ed i ragionamenti già fatti su quali sono le caratteristiche di un buon documento digitale per essere passato ad un programma di OCR, vi rinvio al precedente articolo per gli approfondimenti. Qui mi occuperò di come ottimizzare l'immagine.
L'articolo di oggi è piuttosto complesso ed esaminerà:
- svariati aspetti di come manipolare un'immagine con Anteprima;
- trucchi per manipolare le immagini contenute nei PDF con Automator;
- come fare le stesse cose con PDFpenPro.
1. Anteprima: un po' di storia e risorse utili
Anteprima è, da sempre, il coltellino svizzero della gestione documentale di macOS. Questo programma installato su tutti i sistemi operativi recenti permette di aprire una quantità notevole di documenti dai più noti formati di immagini (JPG, TIFF e PNG) ai documenti come i PDF.
Nell'articolo di oggi non posso entrare nel dettaglio di tutte le funzioni che può svolgere Anteprima. Prima di acquistare un programma dedicato valutate se Anteprima è n grado di svolgere tale funzione.
Ciò detto nella parte finale dell'articolo vedremo anche una soluzione a pagamento (PDFpenPro) e come questo programma renda più facile la vita per ottimizzare le immagini già inserite in un PDF.
Di seguito ho raccolto una serie di risorse per avere un'infarinatura generale su Anteprima a cui vi rimando.
Risorse in italiano: Guida Apple su Anteprima
Risorse in inglese:
- Articolo di Macworld - The many superpowers of Apple's Preview app: Part 1
- Articolo di Macworld - The many superpowers of Apple's Preview app: Part 2
- TidBITS - The Power of Preview: Converting Images and Exporting PDFs
- TidBITS - The Power of Preview: Advanced Editing Techniques
2. Alcune necessarie premesse
Ottimizzare i documenti ricevuti da terzi è un'arte. Solo col tempo e con l'esperienza si ottengono i migliori risultati.
Ciò detto è importante tenere presente che non sempre è possibile ottimizzare i documenti inviati da terzi. Infatti non esistono magiche soluzioni ad una pessima acquisizione del materiale all'origine. Una brutta scansione a bassa risoluzione, anche con tutti i trucchi e le finezze dei programmi più costosi e blasonati, sarà sempre una brutta scansione e, conseguentemente, risulterà difficile applicarvi l'OCR con buoni risultati.
Questa è una considerazione da tenere presente sempre e, a volte se il documento è importante, l'unica soluzione è quella di chiedere al nostro interlocutore di inviarci una nuova acquisizione o di acquisirla noi stessi.
Da ultimo segnalo che, per non rendere quest'articolo più complesso di quello che è già, mi sono dovuto concentrare su di un unico esempio pratico. Quanto dirò in seguito in ogni caso è applicabile a situazioni differenti.
3. Ottimizzare le immagini ricevute per l'OCR (e non solo)
Vediamo quindi un esempio pratico. Spesso ricevo da clienti documenti acquisiti in modo non ottimale e non in formato PDF (vedasi immagine qui sotto).
Esaminiamo velocemente i principali problemi di questa immagine digitale:
- è a colori - l'immagine per questo motivo è (inutilmente) pesante; nel caso specifico pesa poco meno di 1 Mb ed è ingombrante dovendola inserire in una istanza di deposito del PCT;
- si vedono le pieghe della carta; in particolare lo sfondo "bianco" del foglio non è uniforme e non nemmeno bianco ma un grigio sporco; inoltre il testo non è completamente nero (confrontate il nero che ho applicato per anonimizzare il documento per la pubblicazione sul sito ed il testo del documento);
- in trasparenza si vede il testo stampato nella pagina retrostante.
Ultima nota: come potete immaginare non è di interesse avere il documento a colori che serve solo a documentare la spesa, per cui eseguirò un processo di ottimizzazione finalizzato alla conversione in bianco e nero (utile per la maggior parte dei documenti di uno studio legale) ed all'ottimizzazione per il riconoscimento ottico dei caratteri.
3.1 Anteprima: gli Strumenti di modifica
Anzitutto apriamo gli strumenti di modifica di Anteprima. Basta premere l'icona a forma di scatola degli attrezzi o digitando la scorciatoia a tastiera ⇧⌘A.
3.2 Regolazione dell'immagine: regola dimensione
Nella barre degli strumenti selezioniamo l'icona del quadrato con le due frecce opposte ovvero l'opzione "Regola dimensione". Si può accedere a tale funzione anche dal menù Strumenti -> Regola dimensione ... .
Qui è possibile modificare le dimensioni dell'immagine. Come potete vedere la scansione inviatami in formato JPG è di grosse dimensioni (alla voce "Risoluzione" si legge 300 pixel/pollice ovvero ppi) e potremmo abbassarne la risoluzione a 200 come vi ho suggerito nel precedente articolo. Tuttavia, nel caso specifico, visto che l'immagine acquisita ha dei problemi di contrasto / esposizione ho preferito ottimizzare i colori dell'immagine e, poi, trasformarla in bianco e nero per ridurne le dimensioni.
Se tuttavia l'immagine fosse stata acquisita bene si poteva ridurre a 200 dpi e poi trasformarla in bianco e nero.
3.3 Regolazione dell'immagine: regola colore
Vediamo quindi come regolare i colori di questa immagine. Nelle ultime versioni di Anteprima (per questa guida ho usato quella di Yosemite n.d.r.) ci sono funzioni relativamente avanzate per gestire le immagini. È possibile accedere a tale funzione premendo sull'icona del prisma attraverso cui passa la luce (immagine qui sotto) oppure usando la scorciatoria a tastiera ⌥⌘C .
Si aprirà una finestra semi trasparente con le opzioni di regolazione dell'immagine. Come potete vedere le regolazioni sono molte.
L'immagine ha un problema di esposizione / contrasto e, volendo, potreste utilizzare le apposite leve per ottimizzare l'immagine. Visto che quest'attività la faremo nella parte finale dell'articolo ho pensato di accennarvi ad un'altra opzione che, utilizzata con padronanza, permette di ottenere risultati migliori.
Esaminiamo brevemente la regolazione dell'Istogramma dell'immagine (ne vedete un dettaglio nel punto 2 dell'immagine che segue).
Non entrerò nel dettaglio ma le leve che trovate sotto l'istogramma (punto 2 dell'immagine) sono le manopole di regolazione delle varie componenti dell'immagine stessa: ombre, mezzitoni e luci. Modificando queste manopole è possibile modificare il bilanciamento dei colori nell'immagine. Nel nostro caso specifico l'immagine ha, come evidenziato dall'istogramma, delle prevalente nella parte della luce (di fatto è un foglio prevalentemente bianco).
3.4 Ottimizzazione dell'immagine con l'istogramma
Di seguito vedete le modifiche che ho apportato. Anteprima permette di visualizzare le modifiche in tempo reale sull'immagine e, così facendo, potete sperimentare vari settaggi senza troppi problemi.
L'attività che ho svolto è quella di aumentare le tinte sucre, ridurre i mezzitoni e le luci. Nell'immagine che segue si vede come, pur non modificando l'immagine eccessivamente, i neri sono più uniformi (guardate i riquadri neri che ho inserito io ed il testo originale della bolletta) e le pieghe sono meno visibili.
Consiglio sempre di non esagerare con la modifica di questi parametri anche perché, come vedremo nel punto successivo, molti degli artefatti che si vedono nell'immagine a colori scompariranno in quella in bianco e nero.
Segnalo se interessa un articolo di approfondimento sull'istogramma, io in questi punti ve ne ho parlato in modo molto superficiale.
3.5 Esportazione in PDF e filtri Quartz
Occorrerà quindi trasformare l'immagine in un PDF da passare ad un programma di OCR. Molti programmi accettano anche le immagini, ma credo sia utile conoscere questo passaggio e parlare brevemente dei filtri Quartz.
Anteprima oltre a manipolare le immagini ha varie funzioni di esportazione. In particolare scegliendo la voce "Esporta ..." (punto 1 immagine che segue) è possibile aprire un menù a tendina (punto 2) in cui selezionando il formato (punto 3) e scegliendo PDF, è poi possibile applicare i filtri Quartz (punto 4). Per il nostro caso ho scelto il filtro Black & White che converte l'immagine in bitmap bianco e nero (punto 5).
Apro una breve parentesi sui filtri Quartz. Questi filtri sono alla base di macOS e sono utilizzabili in varie parti del sistema operativo. Questi filtri permettono di svolgere delle operazione grafiche sulle immagini (e non solo) e sono preimpostati.
Come potrete aver notato non ho scelto il filtro Reduce File Size (che è traducibile in riduci dimensione del documento – punto 4) perché esegue una compressione dell'immagine molto forte e non porterebbe allo scopo che ci siamo prefissati. Se siete interessati è possibile personalizzare e modificare i filtri ma questo richiede una manipolazione di alcuni file di macOS; allego di seguito i link ad alcune risorse in inglese per i pochi che fossero interessati.
3.6 Differenza tra "Esporta ..." ed "Esporta come PDF..."
Chi di voi è stato attento, al punto procedente, avrà notato l'esistenza di due differenti opzioni di esportazione (come si vede nell'immagine che segue – parte del menù cerchiata in rosso).
La differenza tra le due opzioni è sottile ma sostanziale. L'opzione "Esporta …" permette di salvare l'immagine in svariati formati, tra cui anche i PDF, ed applicare a questo PDF i filtri Quartz. Se non si applicano i filtri, tuttavia, l'immagine viene salvata all'interno di un PDF senza compressione. Nel mio caso il PDF risultante pesava 8,6 Mb.
L'opzione "Esporta come PDF..." invece fa solo una cosa, salva l'immagine come PDF e non permette di applicarvi alcun filtro. Tuttavia l'immagine salvata in PDF è "ottimizzata" tant'è vero che, con questo metodo il PDF risultante pesava 927 kb poco di più del file JPG originale.
3.7 Il risultato finale
Una volta esportato il PDF dell'immagine che abbiamo ottimizzato e poi convertito in bianco e nero otteniamo un risultato simile a quello dell'immagine che segue (a sinistra – punto 1 – trovate l'immagine originale ed a destra – punto 2– l'immagine in bianco e nero "ottimizzata").
Al punto 3 vedete anche il differente "peso" dei documenti. Il PDF creato utilizzando questi passaggi ha ridotto di circa 1/2 – 2/3 le dimensioni dell'immagine originale.
A titolo d'esempio ho poi passato il PDF generato da Anteprima attraverso le funzioni di ottimizzazione di Acrobat Professional DC.
Come si vede (punto 3 dell'immagine che segue) Acrobat riduce la dimensione del documento di un 50% rispetto al PDF di Anteprima ed è quasi 5 volte meno pesante dell'immagine originale. Acrobat tuttavia è un software a pagamento.
4. Ottimizzare i PDF ricevuti
La vicenda si complica se il vostro interlocutore vi manda un documento già in formato PDF. Anteprima, infatti, permette la manipolazione delle immagini solo quando queste sono informato immagine (ad esempio .JPG, .TIFF, .PNG) e non come PDF.
Come risolvere il problema?
La soluzione più semplice richiede molto tempo. Potete infatti convertire con Anteprima manualmente le singole pagine del vostro PDF in un file immagine, modificare ogni immagine come abbiamo visto sopra, e poi riconvertire le immagini in PDF.
È di fatto una soluzione impraticabile.
Ho quindi pensato ad un metodo alternativo, relativamente rapido e, quel che conta di più, automatizzato.
Ho infatti creato un servizio di Automator per permettervi di svolgere questo compito con facilità.
QUI potete scaricare il servizio di Automator.
4.1 Come ottimizzare un PDF con Automator
Per non rendere troppo complesso questo articolo, non entrerò del dettaglio di tutte le parti del flusso di lavoro di Automator e darò per scontato una conoscenza di base di Automator (per maggiori informazioni vi rinvio a quest'articolo che ho scritto tempo addietro e, tra le tante cose, affronta anche le bassi di Automator). Nell'immagine che segue vedete i vari passaggi e le azioni con cui ho costruito il servizio.
Esaminiamo il flusso di lavoro assieme.
- Anzitutto essendo un servizio la prima cosa da impostare è il tipo di documento per cui il servizio si può attivare (nel nostro caso file PDF) e da quale applicazione (io ho scelto di limitare al solo Finder);
- A questo punto ho utilizzato l'azione che trasforma le pagine di un PDF in singole immagini dando come parametro di trasformazione un immagine in scala di grigio ed in formato PNG (che è migliore a livello di qualità del JPG), ed impostato la risoluzione a 200 ppi con una compressione dell'immagine media;
- Ho applicato quindi un filtro Quartz; nel caso specifico ho scelto il filtro "Controlli colore" perché permette di regolare contrasto e luminosità; ho dovuto fare un po' di prove per ottenere un buon risultato per cui ho anche attivato l'opzione "Mostra questa azione quando il flusso di lavoro è in corso" che vi permetterà di modificare i parametri a piacimento; c'è solo un problema che non sono riuscito a risolvere: il filtro non permette un'anteprima e pertanto le modifiche dei parametri sono alla cieca (nella fase di test di questo workflow ho inserito l'azione "Apri immagini in Anteprima" per controllare il risultato ma tenere quest'azione nel flusso di lavoro non è comodo perché apre ogni singola immagine);
- Ho,poi, usato l'azione "Nuovo PDF da immagini" per unire le immagini così create in un nuovo PDF; segnalo che il mio servizio salva il PDF risultante sulla Scrivania ma è possibile modificare la cartella di destinazione ad esempio individuandola in Downloads;
- Da ultimo ho applicato un filtro Quartz al PDF per convertirlo in bianco e nero.
4.2 Considerazioni finali
Ho creato il servizio come esempio per questo articolo (ed è una delle ragioni per cui ci ho messo tanto a scriverlo). Nella pratica non ho mai utilizzato un metodo simile perché, di fatto, suo software a pagamento per svolgere le operazioni di manipolazione dei PDF complesse (vi farò un esempio tra poco).
Creare questo flusso di lavoro in Automator mi ha richiesto circa 30 minuti di lavoro. Non è elegante come mi sarebbe piaciuto ma fa quanto richiesto e riduce notevolmente i passaggi che, altrimenti, avrei dovuto fare a mano.
Quel che mi interessa sottolinearvi è che, questo esempio, è la dimostrazione della flessibilità di macOS e delle potenzialità che il sistema operativo ha senza la necessità di aggiungere ulteriori programmi.
Da ultimo, per chi volesse fare i compiti a casa, segnalo che il flusso di lavoro sarebbe ulteriormente migliorabile permettendo di scegliere dove salvare il PDF ottimizzato ed il nome da dare al nuovo PDF.
5. Usare PDFpenPro per ottimizzare un PDF
Se è possibile ottimizzare un PDF con Anteprima l'operazione non è proprio alla portata di tutti e, anche con l'automazione che vi ho illustrato, richiede un minimo di tempo e non è flessibile al 100% (o quantomeno non come mi piacerebbe).
A conclusione di questo articolo, quindi, mi è parso opportuno vedere un altro metodo utilizzando il programma a pagamento PDFpenPro 7. Per chi fosse interessato preciso che è uscita la versione 8 che, tuttavia, non ho acquistato. Uso questo programma come ultima risorsa quando non sono in ufficio e non posso utilizzare Acrobat Pro. Segnalo infine che nei prossimi articoli esaminerò sia PDFpenPro che Acrobat Pro. PDFpenPro per molti versi è un ottimo investimento per quanto riguarda rapporto tra funzioni avanzate e prezzo (lo trovate su iTunes ad € 124,99).
5.1 Equalizzare l'immagine
Venendo all'argomento di questo articolo, apriamo il nostro documento convertito da JPG in PDF (immaginate ovviamente che non sia sempre il nostro documento di test ma un altro documento PDF ricevuto da terzi).
L'immagine che segue mostra il documento e l'interfaccia di base di PDFpenPro. Cliccando sul tasto destro del mouse con il puntatore nella parte della finestra in cui si visualizza il PDF a dimensioni reali è possibile aprire un menù contestuale con varie opzioni (punto 1 immagine che segue).
A noi interessa inizialmente la voce "immagine" che permette di accedere al sotto-menù in cui sceglieremo la voce "Equalizza ed Imposta immagine…". Si aprirà, quindi, l'interfaccia contestuale per procedere alla modifica dei parametri di equalizzazione e contrasto dell'immagine (punto 2).
PDFpenPro, oltre a non dover fare la conversione del PDF in immagini, ha l'enorme vantaggio rispetto ad Anteprima di poter applicare i nuovi parametri di conversione a tutte le pagine del documento premendo il tasto "Applica a Documento intero" (punto 3 dell'immagine).
Nel nostro esempio il PDF è composto di una sola pagina per cui premeremo il tasto "Applica". Se avessimo avuto un PDF con più pagine quest'ultima opzione di avrebbe permesso di modificare solo la pagina in oggetto.
5.2 Ricampionare l'immagine
Come potete vedere l'immagine inserita nel PDF è migliorata molto, ma è ancora a colori (e non ci interessano i colori).
Veniamo quindi com'è possibile convertire direttamente in PDFpenPro l'immagine in bianco e nero.
Attiviamo sempre il menù contestuale per accedere alla voce "immaigine" ma selezioniamo dal sotto-menù la differente funzione "Ricampiona immagine…".
Si aprirà un'interfaccia contestuale in cui è possibile: modificare la risoluzione dell'immagine (punto 2 – campo 300 dpi), modificare la compressione dell'immagine (con le varie opzioni visibili nel punto 3 dell'immagine che segue) e, infine, modificare le dimensioni percentuali dell'immagine.
Nel nostro caso, per convertire in bianco e nero l'immagine è opportuno scegliere l'opzione soglia 1-bit. Quest'opzione converte l'immagine in bianco e nero convertendo le aree a maggior percentuale di coloro in nero e le aree a maggior percentuale di bianco in bianco.
Per i nostri fini è sconsigliato usare l'opzione 1-bit dither perché trasforma l'immagine sempre in bianco e nero ma le tonalità dell'immagine sono rese con un effetto puntinato che non aiuterebbe il successivo OCR del documento.
6. Confronto correzione immagine tra Anteprima e PDFpenPro
A conclusione dell'articolo mi pare giusto fare il confronto fra i risultati ottenibili da Anteprima e PDFpenPro.
Anzitutto le differenze maggiori si notato per il metodo di ottimizzazione dell'immagine. Con Anteprima abbiamo usato la modifica dell'istogramma mentre con PDFpenPro abbiamo usato l'equalizzazione ed il contrasto. Confrontando le due immagini si vede come nell'immagine equalizzata con PDFpenPro si perdono alcuni dettagli fini (le cornici formate dalle linee sottili in particolar modo visibili nell'immagine di sinistra ma non in quella di destra).
La perdita di definizione dell'immagine ha, tuttavia, un risvolto positivo; il PDF finale risulta molto pesare di meno 399 Kb per Anteprima contro i 125kb di PDFpenPro.
7. Acrobat Pro DC
Ho escluso da questo confronto Acrobat Pro DC perché non permette di manipolare con le stesse modalità i PDF immagine. Da mie prove pratiche Acrobat è il migliore ad ottimizzare i documenti PDF ma non eccelle in questo tipo di manipolazione.
8. In conclusione
Come si vede dalla lunghezza di questo articolo (che è circa una volta e mezzo gli articoli standard) l'argomento è complesso ed ottimizzare i documenti inviati da soggetti terzi è sicuramente un'attività dispendiosa a livello di tempo e non per tutti. Il nostro Mac tuttavia permette di gestire anche questo compito e, con l'aiuto di programmi a pagamento, tale compito è relativamente semplice.
Da ultimo segnalo una cosa importante. Ottimizzare i documenti rendendoli più facilmente leggibili dai programmi di riconoscimento ottico del testo ha un ulteriore vantaggio per noi avvocati: i documenti così ottimizzati sono più facili da caricare all'interno dei vari processi telematici!
Infatti, ottimizzando la qualità dei documenti, si riduce anche la loro dimensione e l'operazione di caricamento dei documenti nel PCT o negli altri processi telematici è più semplice e veloce.
La prossima settimana introdurremo i vari programmi di riconoscimento automatico del testo e, in particolare, parleremo di OCRKit e di come automatizzare l'OCR creando un'azione cartella.
Mi fa sempre piacere sentire il vostro parere o le vostre domande e se volete lasciate un commento a fondo articolo siete i ben accetti.