75. I miei esperimenti con Ministral 3 14B
Questa è una puntata ti parlo dei miei esperimenti con Ministral 3 14B.
Note dell’episodio
Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.
Link
Sinossi
Ti ricordo che la sinossi è generata dalla IA in particolare usando la trascrizione del podcast con l’app Transcriber dell’amico Alex Raccuglia che trovi le sue tante applicazioni su Ulti.media e NotebookLM.
Ecco una sinossi dettagliata dell'episodio 75 di Avvocati e Mac: Compendium, condotto da Filippo Strozzi. In questa puntata, Filippo ci porta nel cuore delle sue ultime sperimentazioni tecnologiche, tra nuovi modelli di linguaggio e flussi di lavoro automatizzati.
Nuova casa su Runtime e il framework MLX
- Il passaggio a Runtime: Filippo annuncia una novità importante: il podcast ha trovato una nuova "casa" su Runtime Radio, la radio geek per eccellenza. Ringrazia Simone Pizzi per l'ospitalità e invita gli ascoltatori a sostenere il network tramite donazioni, dato che si tratta di un'iniziativa autogestita che supporta l'intera attività divulgativa.
- Sperimentazioni con i framework: L'episodio entra nel vivo confrontando i modi di far girare l'IA in locale. Filippo cita Ollama (che usa modelli GGUF) e il framework MLX di Apple. MLX è particolarmente interessante perché è ottimizzato per i chip Apple Silicon, garantendo prestazioni superiori del 20-30% rispetto ad altri sistemi.
Ministral 3: Piccoli modelli, grandi sorprese
- Ministral 3 alla prova: Il protagonista tecnico è Ministral 3, un modello da 14 miliardi di parametri di Mistral AI. Filippo lo ha testato nella versione a 8 bit sul suo Mac Studio con 32 GB di RAM, rimanendo stupito dalle sue capacità agentiche, solitamente scarse in modelli così piccoli.
- Open Code e Ricerche Locali: Filippo ha integrato Ministral 3 con Open Code, un assistente IA a riga di comando open source. Grazie al protocollo MCP (Model Context Protocol) e a un motore di ricerca locale (SearchXNG), è riuscito a creare un sistema che effettua ricerche online, estrae articoli e risponde basandosi sul materiale scaricato (RAG), definendolo ironicamente una "versione per poveri" di Perplexity.
- Test Legali: Nonostante il modello sia piccolo, ha provato a usarlo per generare atti giuridici. Sebbene i risultati siano stati mediocri rispetto a giganti come Gemini, la coerenza dimostrata da un modello da 14B parametri in locale è considerata un ottimo segnale per il futuro.
La sfida: Tradurre un intero libro in locale
- Il problema del copyright: Filippo racconta un esperimento "estemporaneo": tradurre un intero libro dall'inglese all'italiano per la sua famiglia. Non potendo usare servizi online a causa dei limiti di copyright e della lunghezza del testo, ha deciso di fare tutto in locale con Ministral 3.
- Il workflow con n8n: Per gestire la traduzione di circa 285 pagine, ha creato un flusso automatizzato su n8n. Il processo prevedeva:
- Conversione dell'ePub in Markdown tramite Pandoc.
- Suddivisione del libro in capitoli.
- Un loop automatico che inviava ogni capitolo al modello con un prompt specifico (usando tag XML per mantenere la struttura).
- Risultati: In circa due ore e mezza, il sistema ha prodotto una traduzione "parola per parola" di ottima qualità, dimostrando come questi strumenti possano gestire grosse quantità di testo in totale privacy.
Hardware e RAM: Il collo di bottiglia per gli avvocati
- Limiti del Mac Studio M1 Max: Filippo riflette sull'hardware necessario. Il suo attuale Mac con 32 GB di RAM fatica con il contesto (limitato a circa 20.000 token per Ministral), richiedendo circa un minuto per ogni risposta complessa.
- Configurazioni ideali: Per un uso professionale in ambito legale, dove i documenti sono lunghi, sono necessari almeno 128 GB di RAM. Macchine con 512 GB di RAM rappresenterebbero il top, permettendo di far girare modelli performanti quanto GPT-4 mantenendo tutto in locale, ma i costi (fino a 12.000 euro) le rendono un investimento non per tutti.
- Conclusioni: Nonostante l'hardware invecchi, il livello base dei modelli open si sta alzando velocemente, permettendo già oggi di fare cose impensabili fino a pochi anni fa.