51. Browser Use e Web-UI la risposta open ad Operator e Deep Search


In questa puntata ti parlo dei miei esperimenti con Browser Use e WebUI alternative open-source agli strumenti di Deep Research ed Operator di OpenIA.

Note dell’episodio

Note episodio

Ecco una sinossi completa della puntata del podcast, riscritta e formattata come richiesto:

  • Introduzione e comunicazioni di servizio: Filippo Strozzi introduce la puntata 51 di Avocati Mac Compendium. L'episodio è dedicato ai progetti open source, Browser Use e Web UI, presentati come alternative a strumenti commerciali come Operator e Deep Search di Open AILo speaker annuncia il rinvio della puntata del Club del Libro a causa del suo carico di lavoro. Questa puntata nasce dai suoi recenti esperimenti con queste nuove tecnologie.
  • Operator e Deep Search di Open AI: Viene spiegato che Operator utilizza Chat GPT per navigare con un browser sui server di Open AI, consentendo all'utente di teleguidare azioni come la ricerca e l'acquisto online. Viene poi descritto Deep Research, uno strumento di ricerca più avanzato e approfondito, disponibile tramite un costoso abbonamento mensile, che promette risultati più accurati e strutturati.
  • Alternative simili da altri provider: Lo speaker menziona che esistono versioni simili a Deep Search offerte da Google e Perplexity (chiamata "ricerca approfondita" in quest'ultimo caso). Viene specificato che Perplexity è un motore di ricerca basato su Large Language Model (LLM)Lo speaker condivide un test non significativo della funzione di ricerca approfondita gratuita di Perplexity, con risultati non ottimali.
  • Passaggio alle alternative open source: Browser Use: L'attenzione si sposta su Browser Use, definito come l'operator open source. Viene spiegato che permette a un agente di utilizzare un browser tramite terminale e script. Sebbene potente e programmabile per eseguire azioni complesse, risulta relativamente complesso per l'utente medio. Esiste anche una piattaforma di hosting a pagamento per Browser Use. Questo strumento può utilizzare un browser in una macchina virtuale (più sicuro) o il browser Chrome locale dell'utente (più comodo ma con rischi). Vengono sottolineate le grandi potenzialità per professionisti come gli avvocati, ad esempio per l'accesso e la ricerca in banche dati online.
  • Web UI: interfaccia web per Browser Use: Viene introdotto Web UI, un progetto open source più recente che funge da interfaccia web per Browser Use. L'installazione può avvenire tramite script o Docker, quest'ultimo descritto come comodo per la gestione e la sperimentazione. Web UI non solo permette di utilizzare Browser Use, ma offre anche la possibilità di effettuare "deeper research" con parametri personalizzabili per l'approfondimento della ricerca.
  • Compatibilità con LLM locali: Sia Browser Use che Web UI possono funzionare con LLM locali, come Llama, potenzialmente riducendo la necessità di pagare per le API di LLM online.
  • Esperimenti con LLM locali e Gemini Flash: Lo speaker racconta i suoi tentativi di utilizzare LLM locali (Dipsic R1), riscontrando tempistiche di ragionamento troppo lunghe. Successivamente, ha utilizzato Gemini 2.0 Flash tramite Open Router, un provider che permette di accedere alle API di diversi LLM. Gemini Flash è stato scelto per il suo costo contenuto per token e per la sua velocità, rendendo l'uso di Web UI più fluido, oltre ad avere un'ampia finestra di contesto.
  • Problematiche con LLM locali e dettagli sull'installazione Docker: Vengono ribadite le difficoltà con gli LLM locali (lentezza e necessità di una finestra di contesto ampia). Lo speaker menziona potenziali problemi con i Mac con chip Apple Silicon per Web UI e le dimensioni significative dell'immagine Docker (circa 13 GB).
  • Limiti di Docker e potenziale di Web UI: La versione Docker non è riuscita ad utilizzare il browser locale, limitando l'accesso a database specifici. Nonostante sia un progetto giovane, Web UI mostra un grande potenziale, soprattutto per i costi notevolmente inferiori rispetto a soluzioni commerciali come Deep Research di Open AILo speaker stima di aver speso circa 0.5 dollari per ricerca con Web UI, contro i 200 dollari al mese richiesti da Open AI per Deep Research.
  • Test di successo: ricerca giuridica: Viene descritto un test riuscito di Web UI per ricercare la procedura per l'atto telematico con l'aumento del 30% previsto dal DM 55 del 2014Lo speaker evidenzia come la ricerca abbia prodotto risultati validi, trovando la giurisprudenza di riferimento, spiegandola e individuando anche sentenze di merito sconosciute. Inoltre, ha fornito indicazioni sostanzialmente corrette sulla procedura da seguire.
  • Bug riscontrati: interruzione della generazione del testo: Lo speaker ha riscontrato un bug in cui Web UI si interrompeva durante la generazione del testo finale della ricerca, causando la perdita dei link alle risorse. Questo problema si è verificato con diversi browser e potrebbe essere legato a un contesto di ricerca troppo ampio.
  • Soluzione alternativa: estrazione e utilizzo dei dati recuperati: Lo speaker ha trovato una soluzione accedendo al container Docker e recuperando i file markdown e JSON contenenti il materiale di ricerca e i link. Questi dati sono stati poi utilizzati con Notebook LM per estrapolare le informazioni desiderate. Viene sottolineato come il file JSON contenga non solo i link ma anche una breve descrizione di ciascuno, evidenziando la struttura ben fatta del sistema di ricerca. Lo speaker ha anche notato la capacità del sistema di analizzare il contenuto di file PDF online.
  • Valutazione complessiva e potenziale futuro: Lo speaker valuta la sua prima esperienza con questi strumenti open source come decisamente promettente, nonostante la necessità di appoggiarsi a LLM online. Sottolinea che per le ricerche online, la riservatezza è meno problematica. Vede un significativo potenziale di sviluppo futuro, soprattutto per l'integrazione con banche dati specifiche in ambito legale, consentendo anche a piccoli studi di accedere a funzionalità avanzate a costi contenuti.