Avvocati e Mac

impara a lavorare in modo efficiente con macOS ed iOS

  • 📰 Articoli, 🎙Podcast e 📺 Webinar
    • Articoli
    • Podcast Compendium
    • A2 podcast
    • Webinar
  • 🗺 Percorsi di approfondimento
  • 👨‍🎓 Chi sono, 📡 RSS e 📧 Newsletter
    • Chi sono
    • Newsletter
    • RSS

55. Intelligenza artificiale con Apple Silicon - parte 2

May 19, 2025 by Filippo Strozzi

In questa puntata ti parlo di come fare intelligenza artificiale su Apple Silicon; dopo la puntata introduttiva in questa ti parlo della mia configurazione e dei possibili differenti set-up per utilizzare gli Apple Silicon al meglio.

Note dell’episodio

Come sempre, se ti è piaciuto quel che hai letto, ascoltato o visto e non l’hai già fatto, ti suggerisco di iscriverti alla mia newsletter.
Ti avvertirò dei nuovi articoli che pubblico (oltre ai podcast e video su YouTube) e, mensilmente, ti segnalerò articoli che ho raccolto nel corso del mese ed ho trovato interessanti.

Link

  • Ollama
  • Open Web UI
    • OpenRouter
    • SearXNG
  • Modelli LLM utilizzati maggiormente (al 7 aprile 2025):
    • QWQ di Alibaba (32B parametri)
    • Mistral-Small (24B parametri)
    • Mistral (8B parametri)
    • Mixtral (8x7B parametri)
    • Llama 3.2
  • Comfy UI
  • msty - Anything LLM
  • MLX libraries
  • LM Studio (soluzione all-in-one con interfaccia grafica):
    • Discussa nella Puntata 48
    • Scarica modelli GGML e MLX
    • Possibilità di creare un server API (compatibili con OpenAI)
  • n8n

Sinossi

Comunicazioni e Aggiornamenti

  • Prima di entrare nel vivo, l'episodio include alcune comunicazioni di servizio.
  • Viene menzionato un "office hour" programmato, la cui data è stata spostata, presumibilmente al 17 aprile. Questo office hour dovrebbe includere slide per mostrare il funzionamento. La sua preparazione è più impegnativa rispetto a una registrazione podcast. È possibile che l'office hour diventi una puntata extra del podcast.
  • L'obiettivo è mantenere una cadenza bisettimanale del podcast, aggiungendo puntate extra nelle settimane in cui non esce l'episodio ufficiale. È possibile una pausa estiva dovuta a ferie, caldo e condizioni di registrazione nello studiolo senza aria condizionata.
  • Sono annunciati aggiornamenti interessanti a Notebook LM, introdotti a inizio aprile.
  • Nelle note salvate di Notebook LM, è ora possibile accedere ai link che rimandano alle fonti originali da cui la nota è stata generata, funzionalità prima assente e considerata la più interessante. Questa funzionalità è disponibile per le chat recenti.
  • È stata introdotta una nuova funzione di mappa mentale, anche se l'autore non la trova particolarmente interessante.
  • Ora è possibile effettuare ricerche online direttamente da Notebook LM, utilizzando Google. Questo permette di cercare su un argomento, vedere i link delle fonti, e se pertinenti, caricarle nel taccuino per usarle per dialogare. Questa funzione è considerata utile perché centralizza l'attività in un unico posto.

Intelligenza Artificiale su Apple Silicon (Parte 2)

  • Questa puntata è la seconda parte di una serie dedicata a come fare intelligenza artificiale su Apple Silicon, proseguendo il discorso iniziato nella puntata 46. L'argomento della puntata 46 ha avuto un buon riscontro statistico.
  • Viene fatta una distinzione: la puntata non parla di Apple Intelligence (trattata nella puntata 52), ma di cosa è possibile fare con i computer Apple e l'AI, ritenuto "molto di più" rispetto all'attuale, ridotta, Apple Intelligence.
  • La discussione si articola in due parti: il setup personale dell'autore e altre soluzioni disponibili, notando che il setup personale è di livello medio-alto.

Il Setup Personale

  • L'hardware principale utilizzato per l'AI è un Mac Studio M1 Max con 32GB di RAM, acquistato di seconda mano appositamente per questo scopo. È gestito in modalità "headless" (senza monitor/tastiera), con accesso da remoto.
  • Un Mac Mini M1 con 8GB di RAM, usato inizialmente, è stato trovato insufficiente per lavori AI significativi. Il Mac Studio è dedicato esclusivamente all'AI (e backup foto) per separare gli ambiti di lavoro.
  • L'accesso avviene tramite un'interfaccia web, collegandosi dal computer di lavoro (basato su chip Intel).
  • Il provider principale di LLM è Ollama, descritto come un "Docker per le intelligenze artificiali". Permette l'accesso a vari LLM e si installa su Apple Silicon.
  • Inizialmente usato a riga di comando (trovato scomodo), l'autore è passato a utilizzare Open Web UI, un'interfaccia grafica web per Ollama. Open Web UI si è evoluta oltre la semplice interfaccia.
  • Funzionalità di Open Web UI:
    • RAG (Retrieval Augmented Generation): Permette di caricare documenti ("aree di lavoro") con cui gli LLM possono interagire e ragionare. Esempi: codice civile e procedura civile. L'interfaccia aiuta a indicizzare e dividere i documenti ("chunk").
    • Interfaccia di chat standard.
    • Connettività: Può collegarsi a LLM locali via Ollama, a servizi a pagamento (es. ChatGPT) o a provider multipli come Open Router.
    • Ricerca Online: Integra la ricerca online per ampliare le conoscenze degli LLM. Può usare motori open source aggregatori come SearXNG (menzionato come "s e n gx") per ricercare su più fonti, gestite dall'LLM stesso.
    • Personalizzazione parametri chat: Permette di modificare parametri specifici per diverse chat. Il prompt di sistema guida l'LLM in una direzione specifica (utile per contesti legali). La temperatura controlla la creatività/randomicità (solitamente abbassata per lavori di diritto o fattuali). La finestra di contesto (token) è fondamentale; i modelli Ollama di default sono limitati (2048 token), ma i modelli usati dall'autore gestiscono 10-15mila token con 32GB di RAM.

Modelli LLM Principali Utilizzati (Al 7 Aprile 2025)

  • L'autore elenca i modelli che utilizza maggiormente, in ordine di preferenza:
    • QWQ (32 miliardi parametri) di Alibaba: Considerato il migliore. Modello di ragionamento, lento, molto grosso (utilizza quasi tutta la RAM disponibile), quantizzato a 4 bit. Funziona bene con RAG e contenuti online in italiano. Necessita di almeno 32GB di RAM. Richiede 3-4+ minuti per risposte di medie dimensioni, specialmente con contesti ampi, ma i risultati sono buoni e i dati restano locali.
    • Mistral-Small (24 miliardi parametri): Secondo modello preferito. Scrive molto bene in italiano. Buon compromesso tra risultati e tempi di risposta (sebbene non ottimi). Gestisce intorno ai 15mila token di contesto. Richiede 32GB di RAM per migliori performance. Tempi di risposta simili a Qwen con contesti ampi.
    • Mistral 7B (8 miliardi parametri): Modello veloce con buon italiano. Buon compromesso, ma con limiti. Scaricabile da Hugging Face.
    • Mixtral (8x7 miliardi parametri): Miscela di esperti ("Mixtral" è un gioco di parole tra Mistral e Mixture). Quantizzato a 3 bit per poter girare sull'hardware. Buon livello di italiano nelle risposte. Richiede 32GB di RAM per migliori performance. Tempi di risposta simili agli altri modelli grandi con contesti ampi.
  • Questi modelli (eccetto Mistral 7B) richiedono idealmente almeno 32GB di RAM; altrimenti, parte del modello deve essere caricata in CPU, degradando le performance.

Altre Soluzioni AI su Apple Silicon

  • Vengono presentate diverse soluzioni, dalla più semplice alla più complessa:
    • Misty: Soluzione "all-in-one" con interfaccia grafica. Installa Ollama in background. Funzioni di chat, RAG, storia chat biforcata. Considerata meno personalizzabile di altre soluzioni. Non completamente open source.
    • AnythingLLM: Interfaccia grafica con varie integrazioni (incluso Ollama). Interfaccia non gradita all'autore. Funzionalità particolare: aiuta a creare sessioni di chat per generare coppie domanda-risposta utili per il fine-tuning dei modelli. Ciò è rilevante perché il fine-tuning è ora possibile su Apple Silicon con le librerie MLX. Non completamente open source.
    • LM Studio: Programma scaricabile con interfaccia grafica per interagire con gli LLM. Permette di scaricare modelli con interfaccia grafica e guida sulla compatibilità hardware. Offre configurazioni avanzate per l'uso della GPU. Supporta modelli GGUF e MLX e può collegarsi a Hugging Face. Le performance MLX con LM Studio non hanno convinto l'autore quanto Ollama. Richiede notevole spazio su disco per i modelli. Può funzionare come server API compatibile con OpenAI.
    • Ollama (Standalone/API): Visto anche come soluzione a sé stante. Gestisce modelli GGUF, ottimizzati per l'inferenza su Mac. I Mac sono ottimi per l'inferenza, meno per il fine-tuning (dove MLX o schede Nvidia sono meglio). Permette di scaricare modelli da sviluppatori Ollama o da Hugging Face, anche tramite riga di comando facilitata. È possibile ottimizzare Ollama (dettagli in una newsletter passata).

Utilizzi Avanzati e Integrazioni

  • Le API (Application Programming Interfaces) permettono l'interazione remota e programmatica con gli LLM, offrendo maggiore flessibilità e potenza. Le API di Ollama sono quelle usate dall'autore. Vengono utilizzate da interfacce come Open Web UI.
  • Viene descritta l'integrazione tra Comandi Rapidi (Shortcuts) su dispositivi Apple (iPhone, iPad, Mac) e Ollama tramite API. Un articolo sul sito Avvocati e Mac spiega come realizzare questo collegamento.
  • Un esempio pratico recente è l'uso di LLM tramite Comandi Rapidi per interpretare linguaggio naturale per le date e gestire l'app Promemoria. Promemoria non gestisce date naturali come "30 giorni dopo la data X". Usando l'LLM per analizzare la frase e Comandi Rapidi per calcolare la data, si può creare un sistema personalizzato per impostare scadenze complesse.
  • Viene accennato a n8n, uno strumento di automazione workflow web-based. Simile a Comandi Rapidi ma funziona via web, interfacciandosi con API (incluse quelle degli LLM) e altri servizi. Permette di creare workflow con nodi. Utile per automazioni indipendenti dal dispositivo.
May 19, 2025 /Filippo Strozzi
  • Newer
  • Older

Powered by Squarespace