{"id":34543,"date":"2025-06-10T11:58:53","date_gmt":"2025-06-10T09:58:53","guid":{"rendered":"https:\/\/legrandcontinent.eu\/it\/?p=34543"},"modified":"2025-06-10T11:58:55","modified_gmt":"2025-06-10T09:58:55","slug":"lia-non-si-scontra-con-un-muro-ma-gli-llm-si-gary-marcus-sullultima-ricerca-di-apple","status":"publish","type":"post","link":"https:\/\/legrandcontinent.eu\/it\/2025\/06\/10\/lia-non-si-scontra-con-un-muro-ma-gli-llm-si-gary-marcus-sullultima-ricerca-di-apple\/","title":{"rendered":"\u201cL’IA non si scontra con un muro. Ma gli LLM s\u00ec\u201d, Gary Marcus sull’ultima ricerca di Apple"},"content":{"rendered":"\n
Non si tratta di un semplice duro colpo, ma di un vero e proprio KO, tanto pi\u00f9 che questo articolo non \u00e8 un caso isolato. Fa seguito a un’altra ricerca pubblicata lo scorso anno da molti degli stessi autori, che gi\u00e0 dimostrava l’impossibilit\u00e0 di costruire agenti affidabili senza un ragionamento formale e astratto sufficientemente sviluppato <\/span>2<\/sup><\/a><\/span><\/span>.<\/p>\n\n\n\n Apple ha testato le capacit\u00e0 di \u201cragionamento\u201d delle attuali intelligenze artificiali, come ChatGPT, Claude o DeepSeek. Se tutti questi modelli sembrano intelligenti a prima vista, falliscono completamente non appena la complessit\u00e0 aumenta. La forza complessiva dell’argomentazione \u00e8 innegabile: anche se c’\u00e8 un’interessante debolezza nella nuova argomentazione, la conclusione \u00e8 inequivocabile.<\/p>\n\n\n\n Nessuno dei modelli basati su LLM dimostra un vero ragionamento. Si tratta solo di sistemi di riconoscimento di modelli estremamente costosi che crollano non appena vengono confrontati con situazioni al di fuori della loro area di addestramento.<\/p>\n\n\n\n In effetti, tutte le ricerche serie dimostrano ormai che i grandi modelli linguistici non ragionano allo stesso modo degli esseri umani. Possono \u201criflettere di pi\u00f9\u201d, ma solo fino a un certo punto.<\/p>\n\n\n\n Oltre una certa soglia, si arrendono rapidamente, anche se dispongono ancora di risorse di calcolo pi\u00f9 che sufficienti.<\/p>\n\n\n\n Nessuno dei modelli basati su LLM dimostra un vero ragionamento.<\/p>Gary Marcus<\/cite><\/blockquote><\/figure>\n\n\n\n Anche quando viene fornito loro l’algoritmo esatto da seguire, ovvero le regole per risolvere un compito complesso, questi modelli tendono a eseguirlo molto male. Ci\u00f2 mette in luce una distinzione fondamentale: eseguire non significa comprendere.<\/p>\n\n\n\n Il problema non risiede in una mancanza di creativit\u00e0, ma in un difetto logico fondamentale. I modelli tendono a \u201criflettere troppo\u201d su problemi semplici e a provare risposte sbagliate anche dopo aver trovato quella giusta. E di fronte a problemi pi\u00f9 difficili, riflettono meno. Il risultato \u00e8 uno spreco di risorse di calcolo da un lato e un abbandono prematuro dall’altro.<\/p>\n\n\n\n Da un lato, questa ricerca fa eco e amplifica l’argomento sulla distribuzione dell’addestramento che sviluppo dal 1998: le reti neurali, in varie forme, possono generalizzare all’interno della distribuzione dei dati su cui sono state addestrate, ma le loro generalizzazioni tendono a crollare al di fuori di tale distribuzione.<\/p>\n\n\n\n Questo era il fulcro di un articolo che avevo pubblicato nel 1998, in cui criticavo i perceptron multistrato (multilayer perceptrons<\/em>) \u2014 gli antenati degli attuali modelli linguistici \u2014 mostrando i loro fallimenti fuori distribuzione su semplici compiti di calcolo e previsione di frasi <\/span>3<\/sup><\/a><\/span><\/span>.<\/p>\n\n\n\n Esiste una distinzione fondamentale nell’IA generativa: eseguire non significa comprendere.<\/p>Gary Marcus<\/cite><\/blockquote><\/figure>\n\n\n\n Questo \u00e8 stato anche il tema centrale del mio primo libro, The Algebraic Mind<\/em> (2001) <\/span>4<\/sup><\/a><\/span><\/span>, che ampliava questa critica, cos\u00ec come del mio primo articolo su Science<\/em> (1999) <\/span>5<\/sup><\/a><\/span><\/span>, in cui dimostravo, attraverso un esperimento, che i bambini di sette mesi erano in grado di estrapolare in un modo che le reti neurali dell’epoca non erano in grado di replicare. Questo \u00e8 stato anche il motivo principale alla base di Deep Learning: Critical Appraisal<\/em> (2018) <\/span>6<\/sup><\/a><\/span><\/span> e poi di Deep Learning is Hitting a Wall<\/em> (2022) <\/span>7<\/sup><\/a><\/span><\/span>. Ho identificato questo limite ancora l’anno scorso come il punto debole pi\u00f9 importante \u2013 e pi\u00f9 importante da comprendere \u2013 dei modelli di apprendimento profondo. <\/p>\n\n\n\n Quindi \u00e8 da un po’ di tempo che lavoro su questo argomento…<\/p>\n\n\n\n S\u00ec, e voglio sottolinearlo. Questa ricerca non si limita a riprendere le argomentazioni sviluppate da Rao negli ultimi anni, ma le rafforza.<\/p>\n\n\n\n Si tratta delle critiche ai modelli cosiddetti di \u201cragionamento\u201d e alle famose \u201ccatene di pensiero\u201d (CoT<\/em>) che producono, che sembrano molto meno solide di quanto si sostenga.<\/p>\n\n\n\n Per chi non ha familiarit\u00e0 con il concetto, una \u201ccatena di pensiero\u201d \u00e8, in parole povere, ci\u00f2 che il sistema sostiene di aver \u201cragionato\u201d per arrivare a una risposta, nei casi in cui compie pi\u00f9 fasi di riflessione. I \u201cmodelli di ragionamento\u201d si riferiscono alla nuova generazione di tentativi di aggirare i limiti strutturali dei LLM, costringendoli a \u201cragionare\u201d nel tempo, tramite<\/em> una tecnica chiamata inference-time compute<\/em> (calcolo al momento dell’inferenza). <\/p>\n\n\n\n Rao non \u00e8 mai stato convinto da questa argomentazione.<\/p>\n\n\n\n Ha scritto una serie di articoli brillanti che dimostrano, tra l’altro, che le catene di pensiero generate dai LLM non sempre corrispondono a ci\u00f2 che questi modelli fanno realmente. Recentemente, ad esempio, ha osservato che tendiamo a antropomorfizzare eccessivamente le tracce di ragionamento dei LLM, parlando di \u201cpensiero\u201d dove questo termine non sembra adeguato <\/span>8<\/sup><\/a><\/span><\/span>.<\/p>\n\n\n\n Un altro dei suoi recenti articoli mostra che anche quando le catene di ragionamento sembrano corrette, le risposte finali non lo sono necessariamente <\/span>9<\/sup><\/a><\/span><\/span>.<\/p>\n\n\n\n Rao \u00e8 stato probabilmente il primo a dimostrare che uno di questi \u201cmodelli di ragionamento\u201d \u2014 in questo caso o1 \u2014 soffriva del tipo di problema che il rapporto di Apple documenta oggi <\/span>10<\/sup><\/a><\/span><\/span>. Consiglio a tutti di leggere il suo lavoro.<\/p>\n\n\n\n Si tratta di un gioco classico composto da tre aste e diversi dischi di dimensioni diverse <\/span>11<\/sup><\/a><\/span><\/span>. L’obiettivo \u00e8 quello di spostare tutti i dischi dall’asta di sinistra a quella di destra, rispettando una regola fondamentale: non \u00e8 consentito posizionare un disco pi\u00f9 grande su uno pi\u00f9 piccolo.<\/p>\n\n\n\n Se non conoscete ancora questo gioco, ci vuole solo un attimo per capirne il funzionamento.<\/p>\n\n\n\n Con un po’ di pratica, un bambino di sette anni intelligente e paziente pu\u00f2 riuscirci, mentre per un computer \u00e8 un esercizio che non presenta alcuna difficolt\u00e0. Qualsiasi studente al primo anno di informatica dovrebbe essere in grado di realizzare un programma in grado di risolvere sistematicamente il gioco.<\/p>\n\n\n\n La probabilit\u00e0 che modelli come Claude o o3 raggiungano un giorno l’intelligenza artificiale generale (AGI) sembra \u2014 nella migliore delle ipotesi \u2014 molto remota.<\/p>Gary Marcus<\/cite><\/blockquote><\/figure>\n\n\n\n Tuttavia, i modelli pi\u00f9 recenti come Claude hanno gi\u00e0 difficolt\u00e0 a risolvere il problema con 7 dischi \u2014raggiungendo meno dell’80% di precisione \u2014 e sono praticamente incapaci di riuscirci con 8 dischi.<\/p>\n\n\n\n Apple ha scoperto che anche il molto apprezzato o3-min (high) non ha ottenuto risultati migliori e ha osservato risultati simili in diversi altri compiti.<\/p>\n\n\n\n \u00c8 davvero imbarazzante che i modelli di linguaggio generativo non riescano ancora a risolvere in modo affidabile un problema cos\u00ec banale come la torre di Hanoi. E questo nonostante esistano numerose librerie di codice sorgente disponibili gratuitamente sul web!<\/p>\n\n\n\n Se non \u00e8 possibile utilizzare un sistema di IA da miliardi di dollari per risolvere un problema che Herbert Simon, uno dei veri \u201cpadri fondatori\u201d dell’IA, risolse gi\u00e0 nel 1957 e che gli studenti del primo anno di intelligenza artificiale risolvono senza problemi, allora la probabilit\u00e0 che modelli come Claude o o3 raggiungano un giorno l’intelligenza artificiale generale (AGI) <\/span>12<\/sup><\/a><\/span><\/span> sembra \u2014 nella migliore delle ipotesi \u2014 molto remota.<\/p>\n\n\n\n Uno dei coautori della ricerca, Iman Mirzadeh, ha attirato la mia attenzione sulla sezione 4.4 dell’articolo<\/p>\n\n\n\n I ricercatori avevano fornito l’algoritmo di soluzione al modello, che doveva solo seguire i passaggi per risolvere il problema. Tuttavia, anche in questo contesto, le sue prestazioni non erano migliorate. Egli ha commentato questo paradosso come segue: “Il nostro argomento non \u00e8 quindi: \u2018Gli esseri umani non hanno limiti, ma i modelli di ragionamento linguistico (LRM) s\u00ec, quindi non sono intelligenti\u2019. Ma piuttosto: \u2018ci\u00f2 che osserviamo nel loro ragionamento non assomiglia n\u00e9 a un processo logico, n\u00e9 a una forma di intelligenza\u2019”.<\/p>\n\n\n\n L’obiettivo dell’AGI non dovrebbe essere quello di replicare perfettamente l’essere umano, ma di combinare il meglio dei due mondi: l’adattabilit\u00e0 umana con la forza bruta e l’affidabilit\u00e0 computazionale.<\/p>Gary Marcus<\/cite><\/blockquote><\/figure>\n\n\n\n Si tratta di una debolezza che \u00e8 stata ben esposta da un account anonimo su X \u2014 che in generale non \u00e8 una fonte nota per le sue buone argomentazioni…<\/p>\n\n\n\n \u00c8 la seguente: anche gli esseri umani comuni presentano una serie di limiti, simili a quelli evidenziati dal team Apple per gli LLM. Molte persone \u2014 non tutte \u2014 sbagliano quando cercano di risolvere versioni della torre di Hanoi con 8 dischi.<\/p>\n\n\n\n Ma proprio a questa lacuna abbiamo una risposta. Abbiamo inventato i computer \u2014 e prima ancora le calcolatrici \u2014 proprio per risolvere in modo affidabile problemi complessi, noiosi o di maggiore o minore entit\u00e0, come la torre di Hanoi.<\/p>\n\n\n\n L’obiettivo dell’AGI non dovrebbe essere quello di replicare perfettamente l’essere umano, ma \u2014 come ho spesso affermato \u2014 quello di combinare il meglio dei due mondi: l’adattabilit\u00e0 umana con la forza bruta e l’affidabilit\u00e0 computazionale.<\/p>\n\n\n\n La visione che ho sempre avuto dell’AGI \u00e8 quella di un sistema che unisce le forze umane e quelle della macchina, superando al contempo le debolezze umane. Un’AGI incapace di fare una somma corretta non mi interessa. E non vorrei certo affidare l’infrastruttura mondiale o il futuro dell’umanit\u00e0 a un sistema del genere.<\/p>\n\n\n\n Non vogliamo un’AGI che dimentica di tenere conto di un’unit\u00e0 in una semplice addizione con la scusa che anche gli esseri umani a volte commettono lo stesso errore: in tal caso, buona fortuna per ottenere un vero \u201callineamento\u201d o \u201csicurezza\u201d senza affidabilit\u00e0 <\/span>13<\/sup><\/a><\/span><\/span>!<\/p>\n\n\n\n Tra l’altro, modelli come o3 commettono molto pi\u00f9 spesso errori dovuti all’allucinazione e hanno grandi difficolt\u00e0 a disegnare schemi affidabili. Condividono alcune debolezze umane, ma sono semplicemente meno bravi sotto diversi aspetti. E se gli esseri umani falliscono, spesso \u00e8 per mancanza di memoria; i LLM, invece, hanno gigabyte di memoria, quindi non hanno scuse.<\/p>\n\n\n\n Ci\u00f2 che \u00e8 evidente \u00e8 che non \u201cestrarremo il cono di luce\u201d dalla Terra n\u00e9 \u201crisolveremo la fisica\u201d, qualunque cosa significhino queste affermazioni presuntuose di Sam Altman, con sistemi incapaci di giocare alla Torre di Hanoi con 8 dischi.<\/p>\n\n\n\n Quando mi chiedono perch\u00e9 \u2014 contrariamente a quanto si dice \u2014 amo l’IA e perch\u00e9 penso che l’IA \u2014 ma non l’IA generativa \u2014 potrebbe, a lungo termine, portare enormi benefici all’umanit\u00e0, cito sempre il potenziale di progresso scientifico e tecnologico che potremmo raggiungere se riuscissimo a combinare le capacit\u00e0 di ragionamento causale dei nostri migliori scienziati con la potenza di calcolo bruta dei moderni computer digitali.<\/p>\n\n\n\n Non vogliamo un’IA che dimentichi di tenere conto di un’unit\u00e0 in una somma elementare con la scusa che anche gli esseri umani a volte commettono lo stesso errore.<\/p>Gary Marcus<\/cite><\/blockquote><\/figure>\n\n\n\n Ci\u00f2 che il documento di Apple dimostra in modo fondamentale \u2014 indipendentemente da come si definisca l’AGI \u2014 \u00e8 che gli LLM non sono un sostituto dei buoni algoritmi convenzionali ben specificati.<\/p>\n\n\n\n Gli LLM non sanno giocare a scacchi bene come gli algoritmi classici, non possono ripiegare le proteine in modo efficiente come alcuni ibridi neurosimbolici specializzati, non gestiscono i database bene come i motori progettati per questo scopo… Nel migliore dei casi \u2014 che non sempre si verifica \u2014, possono scrivere codice Python, basandosi su blocchi di codice simbolico esterni per compensare le proprie debolezze \u2014 ma anche questo non \u00e8 affidabile.<\/p>\n\n\n\n La principale conseguenza per le aziende e la societ\u00e0 che vedo \u00e8 la seguente: non si pu\u00f2 semplicemente \u201ccollegare\u201d o3 o Claude a un problema complesso e aspettarsi che funzioni in modo affidabile.<\/p>\n\n\n\n Come dimostra l’ultimo articolo di Apple, gli LLM possono ottenere ottimi risultati in una serie di test semplici \u2014 come la Torre di Hanoi a 4 dischi \u2014 e dare l’illusione di aver appreso una soluzione generalizzabile, quando in realt\u00e0 non \u00e8 affatto cos\u00ec.<\/p>\n\n\n\n Almeno per il prossimo decennio, gli LLM \u2014 con o senza \u201cragionamento\u201d al momento dell’inferenza \u2014 continueranno ad essere utili, in particolare per il codice, il brainstorming<\/em> e la redazione di testi. E come mi diceva recentemente Rao: “Il fatto che gli LLM\/LRM non imparino in modo affidabile un unico algoritmo sottostante non \u00e8 un ostacolo assoluto al loro utilizzo. Vedo gli LRM come sistemi che imparano ad approssimare il funzionamento di un algoritmo allungando progressivamente il ragionamento fino all’inferenza”. In alcuni contesti questo \u00e8 sufficiente. In altri no.<\/p>\n\n\n\n Ma chiunque pensi che gli LLM rappresentino una via diretta verso un’AGI in grado di trasformare radicalmente la societ\u00e0 per il bene comune si sta illudendo. Ci\u00f2 non significa che le reti neurali siano morte, n\u00e9 che il deep learning<\/em> sia giunto al termine.<\/p>\n\n\n\n Gli LLM sono solo una forma possibile di deep learning<\/em>, e forse altre forme, in particolare quelle che collaborano meglio con le rappresentazioni simboliche, avranno pi\u00f9 successo in futuro. Il tempo lo dir\u00e0.<\/p>\n\n\n\n Ma l’approccio attuale ha dei limiti che diventano ogni giorno pi\u00f9 evidenti.<\/p>\n\n\n\n L’IA non sta sbattendo contro un muro.<\/p>\n\n\n\n Ma gli LLM probabilmente s\u00ec \u2014 o almeno stanno raggiungendo un punto di rendimento decrescente.<\/p>\n\n\n\n Abbiamo bisogno di nuovi approcci e di diversificare le strade che vengono attivamente esplorate.<\/p>\n","protected":false},"excerpt":{"rendered":" Un articolo pubblicato da Apple ha appena sconvolto il mondo dell’intelligenza artificiale. <\/p>\n Le capacit\u00e0 di ragionamento dei modelli attuali possono crollare completamente oltre un certo livello di difficolt\u00e0. Questi modelli sembrano \u00abrinunciare\u00bb allo sforzo di ragionamento quando il compito diventa troppo difficile, anche se dispongono delle risorse necessarie.<\/p>\n Gary Marcus ricolloca queste limitazioni nel solco delle sue analisi passate e ne espone alcune delle cause profonde.<\/p>\n","protected":false},"author":47071,"featured_media":34521,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"templates\/post-interviews.php","format":"standard","meta":{"_acf_changed":false,"_trash_the_other_posts":false,"footnotes":""},"categories":[2199],"tags":[],"geo":[2161],"class_list":["post-34543","post","type-post","status-publish","format-standard","hentry","category-potenza-dellia","staff-gary-marcus","staff-victor-storchan","geo-americhe"],"acf":[],"yoast_head":"\nPotrebbe riassumere brevemente l’argomento dell’articolo?<\/strong><\/h3>\n\n\n\n
Si tratta di un vicolo cieco strutturale dei LLM per alcune applicazioni?<\/strong><\/h3>\n\n\n\n
Come si inserisce, secondo lei, questo nuovo studio nel dibattito sulla capacit\u00e0 dei LLM di generalizzare a situazioni radicalmente nuove?<\/strong><\/h3>\n\n\n\n
L’articolo si basa anche sul lavoro di<\/strong> Subbarao Kambhampati<\/strong><\/a>, ricercatore di informatica presso l’Arizona State University.<\/strong><\/h3>\n\n\n\n
Il documento di Apple riprende la critica di Rao e la vostra, concentrandosi in particolare su un problema classico piuttosto semplice: la torre di Hanoi. Di cosa si tratta?<\/strong><\/h3>\n\n\n\n
Cosa dice questo dell’intelligenza degli LLM?<\/strong><\/h3>\n\n\n\n
Lei dice di aver notato un punto critico nell’articolo, quale?<\/strong><\/h3>\n\n\n\n
Pensa che con gli LLM si rischi di combinare il peggio dei due mondi?<\/strong><\/h3>\n\n\n\n
L’entusiasmo intorno ai LLM le sembra distogliere l’IA dal suo vero potenziale scientifico \u2014<\/strong><\/strong> ovvero quello di un’alleanza tra ragionamento causale e potenza di calcolo?<\/strong><\/h3>\n\n\n\n
Quali saranno le conseguenze di questa progressiva presa di coscienza dei limiti dell’attuale generazione di modelli?<\/strong><\/h3>\n\n\n\n
Non stiamo cercando di rassicurarci? L’uso dei LLM non \u00e8 mai stato cos\u00ec diffuso. <\/strong>Ora pi\u00f9 persone usano ChatGPT che Wikipedia<\/strong><\/a>…<\/strong><\/h3>\n\n\n\n