Hazel: datare, nominare e spostare un documento in automatico
Negli articoli precedenti abbiamo visto come datare un documento che abbiamo creato o acquisito.
Questo tipo di automazione, tuttavia è possibile solo quando la creazione o l'acquisizione viene svolta in un periodo poco distante dalla data "reale" del documento.
Come fare per un documento di un passato più remoto? Non sarebbe bello che il nostro Mac facesse il lavoro al posto nostro?
A determinate condizioni é possibile farlo attraverso Hazel. Questo articolo parla di funzioni avanzate di Hazel e potrebbe richiedere la rilettura.
1. Le condizioni per cui è possibile utilizzare Hazel per datare, nominare e spostare un documento
Di seguito spiegherò i principi di funzionamento del riconoscimento dei documenti di Hazel ed i suoi conseguenti limiti. Spostare un documento da una cartella all'altra è una funzione base di Hazel e non me ne occuperò in questo articolo, dandolo per scontato avendone già parlato qui.
1.1 Hazel e la possibilità di leggere il contenuto dei documenti testuali ed in particolare dei PDF
Nell'articolo introduttivo di Hazel vi indicavo che il programma possiede svariate regole attraverso le quali filtrare la ricerca di un documento.
Una delle regole meno scontate e più potenti è quella denominata"Contents" (Contenuti in italiano).
La regola va a leggere il contenuto del documento. Specificando poi l'ulteriore parametro "contain/do not contain" (contiene/non contiene in italiano) è possibile abbinare tutte le parole che la ricerca di Spotlight ha la capacità di indicizzare. In estrema sintesi, se è possibile trovare un determinato documento inserendo quella parola all'interno di una ricerca Spotlight allora è possibile anche con Hazel.
Se è utile avere una regola che abbina un documento a determinate parole chiave in esso contenute, è ancora più utile avere la possibilità di ricercare uno schema o un modello all'interno di un documento. Tale ricerca è possibile scegliendo l'opzione "contain match/do not contain match" (contiene il modello/non contiene il modello) e dando ad Hazel i parametri dello schema da ricercare all'interno del documento (vedete un esempio nell'immagine che segue, punto 2).
1.2 I PDF testuali e quelli sottoposti ad OCR: ovvero il riconoscimento automatico del testo
Come detto nel punto precedente, perchè Hazel possa fare una ricerca nei documenti, questi debbono essere indicizzati da Spotlight. I documenti ricercabili da Hazel debbono essere di testo (come i documenti .TXT, . RFT, .DOC etc ... ) e non immagini. Com'è possibile, quindi, ricercare documenti acquisiti con uno scanner?
OCR è l'acronimo di Optical Character Recognition ovvero Riconoscimento ottico dei caratteri. Esistono software che permettono di estrarre dalle scansioni il testo di un documento cartaceo. In futuri articoli vi parlerò di come trasformare le scansioni di immagini in documenti di testo ibridi (testo riconosciuto con il sistema di OCR su un livello ed immagine su di un altro).
Oggi vi sottolineo come la possibilità di leggere all'interno di un PDF dipende dalla fatto che questo sia stato originariamente creato da un file di testo o, nel caso di scansioni di documenti cartacei, gli sia stato applicato il Riconoscimento del testo.
1.3 La presenza di uno schema ripetitivo in più documenti
Per utilizzare Hazel per archiviare automaticamente i documenti occorre che questi ultimi siano "ripetitivi" ovvero con contenuti e caratteristiche simili. Come detto al punto 1 di questo sottocapitolo, dobbiamo dare un modello ad Hazel che gli permetta poi di eseguire le azioni. Se non abbiamo dei documenti "ripetitivi" o che comunque hanno un modello comune, non potremo usare Hazel in modo efficace.
A titolo di esempio i documenti devono contenere un medesimo gruppo di parole, la data dei documenti deve essere sempre nello stesso formato e così via.
1.4 Usare i dati reperiti per rinominare il documenti
Oltre a rilevare gli schemi all'interno di un documento Hazel è poi in grado di estrapolare questi schemi, ad esempio la data contenuta all'interno di un documento, ed usarle lo schema per rinominare il documento.
1.5 Una cartella per dominarle tutte ...
Ne ho parlato in altri articoli, ma voglio ripetermi perché è importante. Per un uso efficiente di questo sistema è opportuno salvare tutti i documenti che vogliamo far elaborare da Hazel in un'unica cartella recipiente. Io uso, con poca fantasia, una cartella denominata "scansioni". David Sparks, da cui ho imparato il trucco leggendo il suo libro Paperless, ha una cartella denominata, con più enfasi, Actions (Azioni).
2. Il caso pratico: l'archiviazione dei provvedimenti giudiziali scaricati da pst.giustizia.it o altro portale
Venendo quindi all'esempio su cui ragionare ho deciso di scegliere i provvedimenti di magistrati scaricabili dal portale del Ministero di Giustizia.
Questi documenti infatti vengono nominati con un codice numerico non intellegibile (ad esempio "5148691s.pdf") e sono documenti PDF testuali, quindi, di facile riconoscimento.
Vedete un esempio nell'immagine che segue; il documento è un PDF testuale, come si vede dalla selezione del testo, e contiene una data (non fate caso a PopClip l'applicazione che uso per fare alcune manipolazioni del testo).
Con Hazel è possibile datare e rinominare il documento oltre che archiviarlo nella cartella provvedimenti giudiziali della vostra pratica (di cui vi ho parlato qui). Occorrerà solo scaricare il provvedimento nella nostra cartella "scansioni".
Nella parte finale dell'articolo farò un'appendice su alcune premure per i documenti acquisiti digitalmente ed a cui è stato applicato l'OCR.
Pur essendo un esempio da "avvocati" è facile utilizzarlo per altri scopi. Infatti con questo metodo è possibile archiviare senza pensieri bollette o fatture ed altri documenti "ripetitivi".
2.1 Studiare lo schema ripetitivo dell'atto da rinominare
Per creare una buona regola occorre studiare un minimo il documento che vogliamo archiviare.
Un provvedimento giudiziale con l'avvento del PCT è divenuto relativamente ripetitivo in alcune sue parti. In particolare i modelli usati dai magistrati per generare i PDF sono pre-impostati per inserire il numero di Registro Generale e l'anno della causa. Il numero di RG e l'anno della nostra causa possono, quindi, diventare i parametri utili per impostare la regola di Hazel.
Immaginiamo di avere la causa N.100/2016 tra Pippo e Pluto. Inserendo il numero 100 e l'anno 2016 potremmo iniziare a fare una prima cernita (vedasi immagine che segue).
Con questo approccio, tuttavia, la ricerca non sarebbe precisa. Infatti in questo scenario basterebbe che il numero 100 o il 2016 vengano ritrovati all'interno del documento.
Il mio suggerimento personale è quindi quello di dettagliare in modo specifico la regola. Per esempio scegliendo come termine di ricerca "100/2016".
Solitamente, poi, i provvedimenti portano il nome de giudice che li ha firmati (digitalmente) per cui è possibile impostare anche questo come parametro di ricerca.
Più dati vengono inserirti per la ricerca più la ricerca non restituirà "falsi positivi". Occorre bilanciare però questa necessità con quella altrettanto importante di evitare che un documento che ci interessa spostare non venga riconosciuto correttamente.
2.2 Esempio pratico
Tornando al nostro provvedimento iniziale, una ricerca dettagliata può essere fatta impostato il numero di RG del fallimento, il nome e cognome del giudice e l'indicazione di "giudice delegato".
Per i fallimenti, abitualmente, faccio un'ulteriore cernita: se il provvedimento sia o meno un mandato di pagamento (nel nostro caso è proprio un mandato di pagamento). In questa ipotesi aggiungerei le voci "pagamento" e "prelevare" per il mandato e per le autorizzazioni normali richiederei che nel PDF non fossero contenute queste due voci.
Per il nostro esempio tuttavia non inseriremo queste ulteriori circostanze. Volevo farvi tuttavia ragionare sulla flessibilità del sistema.
2.3 Trovare il modello della data
Vediamo quindi com'è possibile far riconoscere ad Hazel la data del provvedimento.
Come detto precedentemente la funzione è quella di "contain match". Scegliendo questa voce si aprirà una finestra contestuale in cui è possibile scegliere lo schema (pattern in inglese) sulla base del quale Hazel cercherà il dato all'interno del documento (come si vede nell'immagine che segue).
Hazel permette di ricercare varie tipologie di schemi. Quel che ci interessa è la funzione "Custom data" traducibile in italiano in data personalizzata, cerchiata in rosso nell'immagine che segue (punto 2).
Premendo sul tasto blu con all'interno un cerchio si aprirà un ulteriore menù in cui è possibile impostare lo schema della data (punto 3).
Lo schema della data del provvedimento è il seguente: 29/09/2016 ovvero giorno/mese a due cifre/anno a 4 cifre.
Diamo quindi un nome al nostro schema nell'esempio io uso "data provvedimento" e scegliamo lo schema (punto 4).
Trasciniamo quindi lo schema per il giorno, inseriamo la /, e procediamo così per mese ed anno.
Lo schema in Hazel risulterà il seguente 31/12/1999; questo perché Hazel vi mostra soltanto lo schema di data di base su cui opererà.
Notate che a fianco dei singoli schemi per giorni, mesi ed anni, c'è un simbolo (una freccia che punta verso il basso). Premendo questo simbolo compare un ulteriore menù, in cui è possibile configurare come appaiono i giorni, i mesi e gli anni.
Nel mio esempio ho modificato l'anno con 2 cifre nell'anno a 4 cifre (punto 5). Per i mesi, poi, segnalo che Hazel può riconoscere sia quello con solo una cifra (da 1 a 9) sia quello a due cifre (01, 02, etc ...) l'abbreviazione del nome del mese con le prime 3 lettere come il nome intero (punto 6 dell'immagine che segue).
È quindi possibile personalizzare notevolmente il riconoscimento delle date e vi sprono a cercare all'interno dei vari schemi tutte le possibili varianti.
2.4 Trovare la data giusta
Hazel finalmente riconosce lo schema della data... ma c'è un problema!
Se guardate all'interno del documento dell'esempio (immagine subito qui sotto) nel documento non c'è solo una data, bensì due, ripetute per tre volte. Infatti abbiamo la data 26/09/2016 ripetuta sia nel provvedimento che nelle scritte blu, e poi la data 29/09/2016 (quella che ci interessa per datare l'atto).
Come fare?
Non vi preoccupate, Hazel riesce a gestire anche questo problema. Infatti l'ultimo parametro da inserire per la ricerca della data è quando ricorre la data che ci interessa (riquadro rosso punto 2 dell'immagine che segue).
É possibile dire ad Hazel di ricercare la prima, seconda, terza o la n data che ha lo schema impostato, sia partendo dall'inizio che dalla fine del documento.
Nel nostro esempio, essendo la data che ci interessa la prima alla fine del documento, ho impostato quello come parametro di ricerca.
2.5 Rinominare e Datare il documento
Una volta che abbiamo dato tutti i parametri di ricerca ad Hazel possiamo decidere quali azioni applicare al documento così trovato.
Come prima cose ovviamente modificheremo il nome scegliendo la voce "Rename" ovvero rinomina (punto 1 immagine che segue).
Cliccando sulla voce pattern (schema in italiano) si apre un menù contestuale (punto 2 immagine che segue).
Come potete vedere dall'immagine Hazel propone varie possibilità di rinomina del documento. Tra le tante compare però una voce a noi famigliare "Data provvedimento" (riquadro rosso punto 2 dell'immagine che segue). In questo modo inseriremo come nome del documento la data che abbiamo reperito all'interno del documento.
Sostituiamo a "name" la voce "Data provvedimento" trascinandolo nell'apposita casella (punto 3 dell'immagine che segue).
A questo punto premendo sulla freccia in basso accanto alla voce "Data provvedimento" si aprirà un menù contestuale in qui dobbiamo scegliere la voce "Edit Date Pattern …" (modifica lo schema della data) come si vede nel punto 4 dell'immagine che segue.
Potremo quindi modificare a piacimento lo schema della data del provvedimento (punto 5 dell'immagine che segue). Hazel vi propone quella che per me è già la modalità corretta di inserimento della data (anno-mese-giorno) ma potete modificare lo schema a vostro piacimento e Hazel reinterpreterà la data del provvedimento ad esempio come nome giorno della settimane, nome del mese e settimana dell'anno.
2.6 La regola finale
Oltre ai vari schemi è possibile inserire nella rinomina un testo arbitrario da dare al documento (come si vede nell'immagine sottostante).
A questo punto basta scegliere dove spostare il documento. Nell'esempio nella cartella Provvedimenti giudiziali della pratica.
3. La possibilità di testare la regola direttamente in Hazel mentre la si sta creando
In conclusione segnalo che con la versione 4.0 Hazel permette, dopo aver impostato le regole, di testarle fin da subito.
Basta premere il tasto Preview, selezionare il documento su cui si vuole fare il riconoscimento e vedere se la regola trova una corrispondenza nel documento (come mostrato nell'immagine che segue).
4. In conclusione
Con l'articolo di oggi abbiamo visto un potente strumento per archiviare i documenti automaticamente. Nell'articolo della prossima settimana vi parlerò delle mie attuale regole di Hazel per l'archiviazione. Nei prossimi articoli poi esaminerò un po' più in dettaglio gli strumenti di OCR ed in particolare il mio strumento principale di scansione ed acquisizione dei documenti lo ScanSnap.