75. I miei esperimenti con Ministral 3 14B


Questa è una puntata ti parlo dei miei esperimenti con Ministral 3 14B.

Note dell’episodio

Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.

Link

Sinossi

Ti ricordo che la sinossi è generata dalla IA in particolare usando la trascrizione del podcast con l’app Transcriber dell’amico Alex Raccuglia che trovi le sue tante applicazioni su Ulti.media e NotebookLM.

Ecco una sinossi dettagliata dell'episodio 75 di Avvocati e Mac: Compendium, condotto da Filippo Strozzi. In questa puntata, Filippo ci porta nel cuore delle sue ultime sperimentazioni tecnologiche, tra nuovi modelli di linguaggio e flussi di lavoro automatizzati.

Nuova casa su Runtime e il framework MLX

  • Il passaggio a Runtime: Filippo annuncia una novità importante: il podcast ha trovato una nuova "casa" su Runtime Radio, la radio geek per eccellenza. Ringrazia Simone Pizzi per l'ospitalità e invita gli ascoltatori a sostenere il network tramite donazioni, dato che si tratta di un'iniziativa autogestita che supporta l'intera attività divulgativa.
  • Sperimentazioni con i framework: L'episodio entra nel vivo confrontando i modi di far girare l'IA in locale. Filippo cita Ollama (che usa modelli GGUF) e il framework MLX di Apple. MLX è particolarmente interessante perché è ottimizzato per i chip Apple Silicon, garantendo prestazioni superiori del 20-30% rispetto ad altri sistemi.

Ministral 3: Piccoli modelli, grandi sorprese

  • Ministral 3 alla prova: Il protagonista tecnico è Ministral 3, un modello da 14 miliardi di parametri di Mistral AI. Filippo lo ha testato nella versione a 8 bit sul suo Mac Studio con 32 GB di RAM, rimanendo stupito dalle sue capacità agentiche, solitamente scarse in modelli così piccoli.
  • Open Code e Ricerche Locali: Filippo ha integrato Ministral 3 con Open Code, un assistente IA a riga di comando open source. Grazie al protocollo MCP (Model Context Protocol) e a un motore di ricerca locale (SearchXNG), è riuscito a creare un sistema che effettua ricerche online, estrae articoli e risponde basandosi sul materiale scaricato (RAG), definendolo ironicamente una "versione per poveri" di Perplexity.
  • Test Legali: Nonostante il modello sia piccolo, ha provato a usarlo per generare atti giuridici. Sebbene i risultati siano stati mediocri rispetto a giganti come Gemini, la coerenza dimostrata da un modello da 14B parametri in locale è considerata un ottimo segnale per il futuro.

La sfida: Tradurre un intero libro in locale

  • Il problema del copyright: Filippo racconta un esperimento "estemporaneo": tradurre un intero libro dall'inglese all'italiano per la sua famiglia. Non potendo usare servizi online a causa dei limiti di copyright e della lunghezza del testo, ha deciso di fare tutto in locale con Ministral 3.
  • Il workflow con n8n: Per gestire la traduzione di circa 285 pagine, ha creato un flusso automatizzato su n8n. Il processo prevedeva:
    1. Conversione dell'ePub in Markdown tramite Pandoc.
    2. Suddivisione del libro in capitoli.
    3. Un loop automatico che inviava ogni capitolo al modello con un prompt specifico (usando tag XML per mantenere la struttura).
  • Risultati: In circa due ore e mezza, il sistema ha prodotto una traduzione "parola per parola" di ottima qualità, dimostrando come questi strumenti possano gestire grosse quantità di testo in totale privacy.

Hardware e RAM: Il collo di bottiglia per gli avvocati

  • Limiti del Mac Studio M1 Max: Filippo riflette sull'hardware necessario. Il suo attuale Mac con 32 GB di RAM fatica con il contesto (limitato a circa 20.000 token per Ministral), richiedendo circa un minuto per ogni risposta complessa.
  • Configurazioni ideali: Per un uso professionale in ambito legale, dove i documenti sono lunghi, sono necessari almeno 128 GB di RAM. Macchine con 512 GB di RAM rappresenterebbero il top, permettendo di far girare modelli performanti quanto GPT-4 mantenendo tutto in locale, ma i costi (fino a 12.000 euro) le rendono un investimento non per tutti.
  • Conclusioni: Nonostante l'hardware invecchi, il livello base dei modelli open si sta alzando velocemente, permettendo già oggi di fare cose impensabili fino a pochi anni fa.