64. Da audio a testo e scrittura con gli LLM
In questa puntata ti parlo dei modelli di conversione da audio a testo (Whisper e Parakeet) e dei possibili usi che se ne posso fare anche in congiunzione con gli LLM.
Note dell’episodio
Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.
Qui trovi la registrazione in video della puntata non editata.
Link
Sinossi
Ti ricordo che la sinossi è generata dalla IA in particolare usando la trascrizione del podcast con l’app Transcriber dell’amico Alex Raccuglia che trovi le sue tante applicazioni su Ulti.media e NotebookLM.
1. Le mie premesse e il ruolo di Apple Silicon
Filippo ci racconta la sua esperienza: in passato, la dettatura al computer, con strumenti come Dragon Dictate, era un bel grattacapo e non la usava quasi mai. Lui è un fanatico della tastiera, ma ultimamente sta esplorando la "scrittura aumentata" grazie ai modelli linguistici (LLM) e ne ha già parlato in un articolo. Ci tiene a sottolineare che, per sfruttare al meglio queste tecnologie, è quasi indispensabile avere un Mac con processore Apple Silicon, perché è fondamentale per gestire la potenza di calcolo richiesta.
2. I motori della conversione audio-testo: Whisper e Parakeet
Il cuore della puntata ci porta a scoprire Whisper, un progetto open-source di OpenAI che trasforma l'audio in testo, usando l'intelligenza dei modelli linguistici. Filippo spiega che c'è un compromesso tra velocità e precisione: più vuoi un testo perfetto, più il sistema ci mette, e viceversa. Inizialmente era più orientato all'inglese, ma ora va alla grande con tante lingue, incluso l'italiano. La grande novità, però, sono i modelli di Nvidia chiamati Parakeet, che sono velocissimi nel riconoscere l'audio e danno risultati davvero ottimi. Questi modelli, che Filippo ha provato di persona, sono nettamente più rapidi di Whisper e supportano 25 lingue europee, italiano compreso.
3. Le soluzioni "base": dagli strumenti Apple agli utilizzi iniziali
Non è che la trascrizione sia una cosa nuovissima: Filippo ci ricorda che esistono già sistemi come quello di Microsoft Word e che Apple stessa offre da tempo il riconoscimento vocale su macOS, iOS e iPadOS. Questi strumenti sono perfetti per dettare messaggi e, scaricati i modelli, possono funzionare anche offline. Un buon microfono è essenziale, ma i microfoni integrati nei MacBook Air, ad esempio, hanno stupito Filippo per la loro qualità. La dettatura Apple, però, ha i suoi limiti: non sempre aggiunge la punteggiatura e il testo compare in tempo reale, cosa che a volte può distrarre. I sistemi basati su Whisper, al contrario, elaborano l'audio una volta finito e si occupano anche della punteggiatura, gestendo bene anche registrazioni lunghe. Con i prossimi aggiornamenti (iOS 26 e macOS 26), la trascrizione sarà integrata nei "Comandi Rapidi" e anche l'app "Memo Vocali" su iOS 18+ ha già questa funzione. La trascrizione, in fondo, è un ottimo punto di partenza per una prima bozza di testo, utile per prendere appunti o abbozzare documenti legali al volo.
4. Il salto di qualità: trascrizione + LLM, online o offline?
Il vero "game changer" è l'unione della trascrizione con i Large Language Models (LLM). Quando dai in pasto un testo trascritto a un LLM, questo sfrutta la sua conoscenza del linguaggio per correggere, riorganizzare o riassumere, migliorando tantissimo il risultato. Filippo, ad esempio, usa questo metodo per trasformare le trascrizioni dei suoi podcast in sinossi o articoli completi. Questo sistema è super versatile: permette di creare testi strutturati con titoli automatici e persino di modificare il tono, rendendolo più professionale o più semplice per i clienti. Puoi scegliere tra LLM online(velocissimi e potenti, ma attenzione alla privacy con dati sensibili) o offline/locali (più sicuri per la privacy, ma richiedono più potenza hardware e sono meno indicati per testi lunghi). Un consiglio d'oro di Filippo: parlare direttamente con gli LLM (attraverso la trascrizione) è un trucco potentissimo. Dà all'AI un contesto più ricco e ti aiuta a chiarire le idee mentre parli, portando a risposte migliori e più mirate.
5. Le app che ci semplificano la vita: Mac Whisper, Super Whisper e Transcriber
Per rendere tutto questo più semplice, Filippo ci presenta tre applicazioni chiave:
- Mac Whisper: Un'app molto conosciuta (costo circa 59€ una tantum) che riconosce più voci (utile per le riunioni), permette di revisionare il testo con gli LLM (anche locali o tramite Open Router) e può persino monitorare cartelle per trascrizioni automatiche. Offre sia trascrizioni in cloud (comode ma meno private) sia in locale (più private).
- Super Whisper: Questa app punta a rendere la trascrizione super efficace, ideale per chi non è un fulmine a digitare. Funziona in abbonamento (8$/mese o 85$/anno, con un'opzione "lifetime" da 250$) e include già gli LLM online. Permette automazioni, integrazione con Comandi Rapidi, prompt personalizzati e tiene uno storico dei tuoi audio. È pensata per sostituire l'interazione alla Spotlight per attivare le funzioni vocali.
- Transcriber (di Alex Racuglia): Nata dalle esigenze di video editing di un amico di Filippo, questa app trascrive (anche con timestamp per i sottotitoli) e include funzioni AI specifiche per il video. Attualmente supporta le API di ChatGPT e Gemini e permette di creare prompt personalizzati.
Insomma, il futuro della produttività passa molto da qui: l'unione tra la tua voce e l'Intelligenza Artificiale ha un potenziale enorme per gestire e riorganizzare le informazioni, riducendo anche le "allucinazioni" degli LLM quando lavorano su testi ampi. Un mondo da esplorare!