Il panorama della ricerca scientifica contemporanea presenta diverse sfide significative. Da un lato, la specializzazione crescente richiede competenze sempre più verticali, dall’altro la necessità di studi interdisciplinari comporta la capacità di navigare attraverso domini di conoscenza diversi. Questo paradosso mette pressione sui ricercatori, che devono bilanciare profondità e ampiezza nelle loro indagini.
Parallelamente, la quantità di pubblicazioni scientifiche continua a crescere a un ritmo sostenuto. Si stima che ogni anno vengano pubblicate milioni di nuove ricerche su riviste peer-reviewed. Questa vastità di informazioni rende difficile per qualsiasi individuo monitorare tutti gli sviluppi rilevanti, anche all’interno del proprio campo specifico.
Immagine 1. Numero di articoli pubblicati su riviste scientifiche, fonte: Openalex.org
Infine, la codifica degli esperimenti, l’analisi dei dati e la redazione di rapporti richiedono competenze tecniche che spesso distolgono i ricercatori dal lavoro concettuale. Gran parte del tempo viene dedicata a compiti ripetitivi che potrebbero beneficiare dell’automazione, come la revisione della letteratura, la programmazione di routine sperimentali standard o la stesura e formattazione di documenti.
In questo contesto l’intelligenza artificiale e i modelli linguistici di grandi dimensioni (LLM) sembrano essere ottimi candidati assistenti alla ricerca. “Can LLMs Generate Novel Research Ideas?” è il titolo di un articolo che ha esaminato la capacità dei LLM di generare idee di ricerca originali. Lo studio, condotto da un team della Stanford University, ha coinvolto oltre 100 ricercatori nel campo dell’elaborazione del linguaggio naturale (NLP) per valutare la qualità delle idee generate sia da umani che da LLM. Ogni idea è stata valutata alla cieca da ricercatori esperti, seguendo criteri come novità, fattibilità, efficacia: le idee generate dall’IA sono state giudicate più innovative rispetto a quelle degli esperti umani (anche se più difficili da mettere in pratica).
Gli agenti di ricerca basati su intelligenza artificiale: Agent Laboratory
Agent Laboratory è stato sviluppato da Samuel Schmidgall, della Johns Hopkins University, che ha guidato un team di ricerca della AMD, che ha fornito le risorse computazionali per il funzionamento dei modelli. Agent Laboratory funziona come un ecosistema collaborativo di agenti basati su LLM specializzati che emulano i diversi ruoli all’interno di un laboratorio di ricerca. Tra questi troviamo il dottorando, che si occupa principalmente della revisione della letteratura e dell’interpretazione dei risultati; il ricercatore postdoc, che contribuisce alla formulazione dei piani sperimentali; l’ingegnere di apprendimento automatico (ML Engineer), responsabile della preparazione dei dati e dell’implementazione del codice; e il professore, che collabora alla fase di scrittura per sintetizzare i risultati della ricerca.
Il processo di ricerca con Agent Laboratory si articola in tre fasi fondamentali. La prima è la revisione della letteratura, durante la quale gli agenti raccolgono e analizzano pubblicazioni rilevanti attraverso l’API di arXiv. Questa fase serve a contestualizzare il lavoro e identificare metodologie pertinenti. La seconda fase è quella sperimentale, che comprende la formulazione del piano, la preparazione dei dati e l’esecuzione degli esperimenti. Qui entra in gioco mle-solver (risolutore di problemi di apprendimento automatico), un componente specializzato che genera, mette alla prova e perfeziona autonomamente il codice per l’apprendimento automatico. Questo strumento utilizza un metodo iterativo, valutando continuamente i risultati e apportando modifiche per migliorare le prestazioni. Infine, la terza fase riguarda la scrittura del rapporto scientifico, facilitata da paper-solver (risolutore di articoli scientifici), un modulo che sintetizza i risultati in un formato accademico standard. Il sistema produce documenti strutturati secondo le convenzioni delle pubblicazioni scientifiche, completi di riassunto, introduzione, metodologia, risultati e discussione.
Immagine 2. Come funziona Agent Laboratory (AgentLaboratory.github.io)
Il sistema può funzionare sia in modalità completamente autonoma, dove gli agenti procedono sequenzialmente attraverso tutte le fasi senza intervento umano, sia in modalità co-pilota (assistenza collaborativa), dove i ricercatori possono fornire riscontri e orientamenti a ogni punto di controllo del processo.
Le valutazioni condotte sul sistema dal team di ricerca guidato da Schmidgall hanno rivelato risultati promettenti. Gli esperimenti hanno coinvolto un gruppo di 10 dottorandi volontari che hanno valutato gli articoli scientifici prodotti autonomamente da Agent Laboratory. Questi test hanno confrontato sistematicamente le prestazioni di diversi modelli linguistici come motori di elaborazione, generando un totale di 15 articoli su 5 diversi temi di ricerca. Dai dati emerge che gli articoli generati utilizzando il modello “o1-preview” di OpenAI sono stati percepiti come i più utili e con la migliore qualità di documentazione. Il modello “o1-mini”, sempre di OpenAI, ha ottenuto il punteggio più alto per qualità sperimentale. Queste differenze evidenziano come la scelta del modello linguistico influenzi significativamente la qualità della ricerca prodotta. La modalità co-pilota, che integra il riscontro umano, ha mostrato miglioramenti significativi nella qualità complessiva degli articoli prodotti. I punteggi sono aumentati in diverse metriche di valutazione, in particolare nella qualità tecnica, nella chiarezza e nella solidità metodologica. Questo suggerisce che l’intervento umano in punti strategici del processo può migliorare sostanzialmente i risultati finali.
AgentRxiv: verso una ricerca collaborativa autonoma
Nonostante i progressi significativi di Agent Laboratory, una limitazione fondamentale dei sistemi autonomi di ricerca è che operano in isolamento. Schmidgall e il suo team hanno quindi dato ad Agent Laboratory un compagno, AgentRxiv, una piattaforma che funziona come un server di preprint specificamente per la ricerca prodotta da agenti basati su intelligenza artificiale.
AgentRxiv, ispirato ad archivi digitali consolidati come arXiv, bioRxiv e medRxiv, facilita la condivisione di conoscenze tra laboratori autonomi. A differenza degli archivi tradizionali che contengono ricerche umane, AgentRxiv è progettato “da agenti per agenti”, permettendo ai sistemi di intelligenza artificiale di costruire cumulativamente sulle scoperte gli uni degli altri.
La piattaforma implementa un meccanismo di ricerca basato sulla similarità che consente agli agenti di recuperare le ricerche passate più rilevanti in base alle loro query. Questo accesso mirato a un database in crescita di lavori generati da agenti favorisce il trasferimento di conoscenze interdisciplinari e accelera il progresso scientifico attraverso avanzamenti iterativi.
Immagine 3. Il flusso di lavoro di Agent Laboratory integrato in AgentRxiv (AgentRxiv.github.io)
Gli esperimenti condotti con AgentRxiv hanno dimostrato empiricamente i vantaggi della collaborazione tra agenti di intelligenza artificiale. Uno studio particolarmente significativo ha riguardato il miglioramento progressivo delle tecniche di ragionamento sul banco di prova MATH-500, una raccolta di 500 problemi matematici complessi che rappresenta uno standard per valutare le capacità di ragionamento delle intelligenze artificiali. In questi esperimenti, i sistemi Agent Laboratory dovevano effettivamente risolvere i problemi matematici, sviluppando e perfezionando strategie di ragionamento sempre più efficaci attraverso la condivisione dei loro approcci su AgentRxiv.
Partendo da un’accuratezza di base del 70% (il risultato iniziale ottenuto utilizzando il modello “GPT-4o mini” senza tecniche di ragionamento avanzate), i laboratori autonomi connessi ad AgentRxiv hanno gradualmente sviluppato e perfezionato algoritmi di ragionamento. Quando gli stessi esperimenti sono stati condotti senza accesso ad AgentRxiv, le prestazioni si sono stabilizzate intorno al 73-74%, dimostrando l’importanza della conoscenza cumulativa per ulteriori progressi.
Un altro aspetto notevole è la generalizzazione degli algoritmi scoperti. Il metodo della simultaneous divergence averaging (SDA), sviluppato inizialmente per MATH-500, ha mostrato miglioramenti consistenti anche su altri banchi di prova come GPQA (domande di livello universitario), MMLU-Pro (domande di comprensione più profonda e specialistica in vari domini) e MedQA (domande mediche complesse). I miglioramenti più significativi sono stati osservati su MedQA e per modelli con valori di base iniziali più bassi, evidenziando la robusta adattabilità del simultaneous divergence averaging. La forza di questa tecnica risiede nella sua capacità di affrontare un problema da molteplici angolazioni contemporaneamente, riducendo la probabilità di errori sistematici che possono verificarsi quando si utilizza un singolo metodo di ragionamento.
Interessanti anche i risultati ottenuti con la ricerca condotta in parallelo: un metodo in cui più laboratori di ricerca artificiali lavorano simultaneamente su problemi simili condividendo le proprie scoperte. In questo esperimento, tre sistemi Agent Laboratory indipendenti, configurati in modo identico ma operanti contemporaneamente con accesso non simultaneo (asincrono) ad AgentRxiv, hanno raggiunto un’accuratezza massima del 79,8% su MATH-500, superando le prestazioni osservate nella sperimentazione sequenziale dove un solo laboratorio lavorava alla volta. Inoltre, traguardi intermedi come l’accuratezza del 76,2% sono stati raggiunti dopo soli sette articoli nell’impostazione parallela, rispetto ai 23 articoli necessari nell’impostazione sequenziale. Questo dimostra come la collaborazione tra più sistemi di ricerca artificiali possa accelerare significativamente il progresso scientifico.
AI Scientist-v2 e AI Co-Scientist
Oltre ad Agent Laboratory, altri sistemi di ricerca autonoma hanno recentemente dimostrato progressi significativi. AI Scientist-v2, sviluppato da Sakana AI, è un sistema di ricerca scientifica autonoma capace di generare idee originali, condurre esperimenti attraverso un “albero agentico” (un metodo di esplorazione basato su alberi di ricerca, dove ogni nodo rappresenta un esperimento potenziale, in modo da poter permettere agli agenti di indagare più possibilità in parallelo e approfondire le ipotesi più promettenti). Questo sistema ha prodotto il primo articolo interamente generato da AI accettato in un workshop della International Conference on Learning Representations dopo revisione tra pari.
Parallelamente, Google ha presentato AI Co-Scientist, un sistema multi-agente costruito su Gemini 2.0 che utilizza un paradigma “generate, debate, evolve” per formulare ipotesi scientifiche. La sua efficacia è stata dimostrata in ambito biomedico, dove ha identificato promettenti candidati farmacologici per la leucemia mieloide acuta, nuovi target per la fibrosi epatica e ha ricapitolato scoperte sui meccanismi di resistenza antimicrobica in soli due giorni.
Benefici empirici della collaborazione tra agenti AI
Agent Laboratory e AgentRxiv, AI Scientist-v2 e AI Co-scientist rappresentano un cambiamento di paradigma nel modo in cui concepiamo la relazione tra intelligenza artificiale e ricerca scientifica. Piuttosto che sostituire i ricercatori umani, questi sistemi si propongono come assistenti potenziati, automatizzando compiti ripetitivi e consentendo agli scienziati di concentrarsi sugli aspetti creativi e concettuali della ricerca.
Questa simbiosi tra intelligenza umana e artificiale potrebbe accelerare notevolmente il ritmo della scoperta scientifica. I ricercatori possono affidare agli agenti di intelligenza artificiale la revisione approfondita della letteratura, l’implementazione di routine sperimentali e la documentazione dei risultati, liberando tempo per la formulazione di nuove ipotesi, l’interpretazione dei dati e la sintesi interdisciplinare.
Inoltre, la dimostrazione che gli agenti di intelligenza artificiale possono collaborare attraverso piattaforme come AgentRxiv suggerisce la possibilità di una nuova forma di scienza collettiva, dove i sistemi di intelligenza artificiale contribuiscono all’evoluzione della conoscenza in modi complementari all’intelligenza umana.
Tuttavia, emergono anche questioni importanti da considerare. Le preoccupazioni etiche riguardanti la potenziale generazione di contenuti scientifici ingannevoli o la propagazione di bias nei risultati richiedono ulteriori riflessioni. È necessario sviluppare robusti meccanismi di governance per garantire che questi sistemi producano contenuti allineati con i principi etici e i valori sociali.