AutoResearch di Karpathy: l’AI che fa 700 esperimenti da sola
Mentre noi dormiamo, l’intelligenza artificiale potrebbe essere impegnata a condurre centinaia di esperimenti scientifici in completa autonomia. Non è fantascienza, ma la realtà che emerge da AutoResearch, l’ultimo progetto open source di Andrej Karpathy, ex Tesla AI lead e co-fondatore di OpenAI. Un semplice script di 630 righe che sta rivoluzionando il modo di fare ricerca nell’era dell’AI.
Il concetto è tanto semplice quanto rivoluzionario: automatizzare il metodo scientifico attraverso agenti AI che lavorano senza sosta. In una sola notte, l’agente di Karpathy ha completato 126 esperimenti, migliorando progressivamente le performance del modello. Ma è solo l’inizio di una trasformazione che va ben oltre l’informatica.
La vera forza di AutoResearch non risiede nella complessità del codice – disponibile su GitHub con licenza MIT – ma nell’audacia della visione: creare sistemi che fanno progredire la ricerca indefinitamente, senza intervento umano. Una prospettiva che sta già contagiando settori completamente diversi dal machine learning.
Come funziona il loop autonomo di AutoResearch
Il sistema opera come un ciclo di ottimizzazione autonomo sorprendentemente elegante. L’agente AI riceve uno script di training e un budget computazionale fisso, tipicamente 5 minuti su GPU. A questo punto inizia il vero spettacolo: l’AI legge il proprio codice sorgente, formula un’ipotesi di miglioramento – che sia modificare il learning rate o la profondità dell’architettura – modifica il codice, esegue l’esperimento e valuta i risultati.
La metrica di riferimento è il validation loss, misurato in bits per byte. Se i risultati migliorano, l’agente mantiene la modifica; altrimenti, torna indietro e prova un approccio diverso. È Darwin applicato al codice: sopravvive solo ciò che funziona meglio. In un test di due giorni su un modello depth=12, l’agente di Karpathy ha processato circa 700 modifiche autonome, trovando 20 miglioramenti additivi che si sono trasferiti perfettamente su modelli più grandi.
Il risultato più impressionante? Una riduzione dell’11% nel tempo necessario per raggiungere le performance di GPT-2, passando da 2.02 a 1.80 ore su un progetto che Karpathy credeva già ottimizzato. L’agente ha individuato errori di scaling dell’attention e problemi di regolarizzazione che erano sfuggiti a due decenni di lavoro manuale. Come ha commentato lo stesso Karpathy: “Vedere l’agente fare tutto questo workflow end-to-end da solo… è pazzesco”.
La viralità dell’innovazione: dalla singola macchina alle reti distribuite
La reazione della community tech è stata immediata e travolgente. Il post di Karpathy ha raccolto oltre 8.6 milioni di visualizzazioni in due giorni, scatenando una corsa a scalare quello che molti hanno battezzato il “Karpathy loop”. Tra i primi a cogliere il potenziale c’è stato Varun Mathur, CEO di Hyperspace AI, che ha distribuito il loop su una rete peer-to-peer.
I risultati del test distribuito sono stati una masterclass di strategia emergente. Nella notte tra l’8 e 9 marzo, 35 agenti autonomi hanno condotto 333 esperimenti completamente non supervisionati sulla rete Hyperspace. La diversità hardware si è rivelata un vantaggio inaspettato: mentre le GPU H100 usavano la forza bruta per trovare learning rate aggressivi, gli agenti su CPU di laptop erano costretti ad essere più creativi, concentrandosi su strategie di inizializzazione come Kaiming e Xavier init.
Ma la vera rivoluzione è stata la scoperta basata su gossip. Utilizzando il protocollo GossipSub, gli agenti hanno condiviso le loro vittorie in tempo reale. Quando un agente ha scoperto che l’inizializzazione Kaiming riduceva la loss del 21%, l’idea si è diffusa nella rete come un virus digitale. Nel giro di ore, 23 altri agenti avevano incorporato la scoperta nelle proprie ipotesi. In sole 17 ore, questi agenti hanno riscoperto indipendentemente milestone del ML come RMSNorm e tied embeddings che ai ricercatori umani di Google Brain e OpenAI erano costate quasi otto anni di lavoro.
Dal machine learning al marketing: la rivoluzione degli esperimenti automatizzati
Mentre i puristi del ML si concentravano sulle curve di loss, il mondo business ha intravisto una rivoluzione di diverso tipo. Eric Siu, founder dell’agenzia pubblicitaria Single Grain, ha applicato AutoResearch al loop sperimentale del marketing con risultati che fanno riflettere. “La maggior parte dei team marketing conducono ~30 esperimenti l’anno”, ha scritto Siu su X. “La prossima generazione ne condurrà 36.500+. Facilmente. Condurranno esperimenti mentre dormono.”
Il framework di Siu sostituisce lo script di training con un asset di marketing – una landing page, un creative pubblicitario, o una cold email. L’agente modifica una variabile (l’oggetto o la CTA), la distribuisce, misura il tasso di risposta positiva e mantiene o scarta la modifica. Secondo Siu, questo processo crea una mappa proprietaria di ciò che risuona con un pubblico specifico – un vantaggio competitivo costruito non di codice, ma di dati comportamentali.
Le implicazioni per il mercato italiano sono enormes. Le PMI italiane, spesso limitate da budget ristretti per la sperimentazione, potrebbero finalmente competere con i giganti del settore attraverso l’automazione intelligente degli A/B test. Invece di 30 test annui, potrebbero condurne migliaia, ottimizzando continuamente comunicazione e offerta.
AutoResearch rappresenta più di un hack di produttività: è un cambio di paradigma fondamentale nel modo in cui raffiniamo l’intelligenza. Karpathy ha trasformato il machine learning in un processo evolutivo che procede alla velocità del silicio piuttosto che del pensiero umano. E questo è solo l’inizio di una rivoluzione che promette di toccare ogni settore che richiede ricerca e sperimentazione, dalla medicina alla finanza, dal design alla strategia aziendale.
Fonte: VentureBeat