Hai sollevato un punto eccellente_a cura di Tree of Woe

Hai sollevato un punto eccellente
Perché l’intelligenza artificiale non è umana e non è sempre utile
22 agosto |
LEGGI NELL’APP |
Il sito Italia e il Mondo non riceve finanziamenti pubblici o pubblicitari. Se vuoi aiutarci a coprire le spese di gestione (circa 4.000 € all’anno), ecco come puoi contribuire: – Postepay Evolution: Giuseppe Germinario – 5333171135855704; – IBAN: IT30D3608105138261529861559 PayPal: PayPal.Me/italiaeilmondo Tipeee: https://it.tipeee.com/italiaeilmondo Puoi impostare un contributo mensile a partire da soli 2€! (PayPal trattiene 0,52€ di commissione per transazione). Contatti: italiaeilmondo@gmail.com – x.com: @italiaeilmondo – Telegram: https://t.me/italiaeilmondo2 – Italiaeilmondo – LinkedIn: /giuseppe-germinario-2b804373 |
Il post della scorsa settimana del Dott. Monzo ci chiedeva di valutare se l’AGI tanto attesa fosse già arrivata. Il saggio di questa settimana è di Not Daredevil. ha una visione opposta.
Ricordo la prima volta che ho scoperto l’esistenza di grandi modelli linguistici: nell’articolo del nostro augusto ospite The Future Has Arrived Sooner Than Expected :
Il mio lavoro non è sicuro. Il lavoro di nessuno è sicuro. Ho sperimentato ChatGPT e la sua capacità di creare testo su richiesta è diventata più che interessante, sorprendente .
Certamente, nei miei primi esperimenti con l’intelligenza artificiale, questo sembrava funzionare. Chat GPT poteva rispondere praticamente a qualsiasi domanda, imitare il linguaggio umano in modo quasi impeccabile e, come ha notato il nostro ospite, determinare facilmente il contesto di fondo senza che gli venisse detto nulla.
Ma poi ho notato una cosa.
Chat GPT stava inventando cose.
All’epoca, stavo conducendo ricerche legali su quando il mio stato avesse iniziato a consentire la testimonianza di esperti sull’affidabilità dell’identificazione di testimoni oculari. Avevo già svolto le mie ricerche, quindi avevo una buona idea della storia. E, all’inizio, anche Chat GPT ne aveva. Quando ho chiesto se il caso che conteneva una testimonianza di esperti sull’argomento fosse ammissibile, ha immediatamente identificato il caso corretto e lo ha riassunto accuratamente. Ma poi, ho voluto approfondire. Chat GPT avrebbe potuto fornirmi più contesto? Avrebbe potuto spiegare in che modo la legge della Pennsylvania differisse da quella di altri stati, sia nella sua forma attuale che nella sua traiettoria storica?
No.
Quando, in un secondo momento, gli è stato chiesto quale caso fosse stato annullato, ha lasciato perplesso, suggerendo immediatamente un caso inesistente. Questo è stato il primo avvertimento che gli LLM non erano “intelligenti” nel senso in cui noi li intendiamo. Quando Chat GPT non ha fornito una risposta precisa, ne ha inventata una invece di affermare semplicemente di non saperlo, come farebbe un essere umano. Non ha nemmeno “mentito” nel senso convenzionale del termine: Chat GPT non è un avvocato subdolo che cita un caso inesistente nella speranza che la controparte ci caschi. Piuttosto, gli è stato assegnato il compito di rispondere a una domanda: il suo unico scopo era fornire ciò che tecnicamente si qualificava come una “risposta” secondo l’algoritmo che prevedeva la stringa di testo successiva.
Ciò è stato confermato nei mesi successivi, quando gli ho posto le domande più oscure che mi venissero in mente: i migliori album di jazz steelpan, libri accademici che analizzavano la teoria edoardiana dell’occasionalismo e innumerevoli altre. Era felice di fornirmi “risposte” sbagliate, per poi ammettere subito di aver commesso un errore, solo per poi ripeterlo alla domanda successiva!
Come estensione, mi sono reso conto rapidamente che l’intelligenza artificiale non può “ragionare”. Quando, ad esempio, veniva dato un enigma logico di Raymond Smullyan e gli veniva chiesto di determinare quale delle tre buste contenesse un premio, gli studenti di LLM sbagliavano la maggior parte delle volte e, se la risposta era corretta, erano quasi sempre sbagliati su come trovare una soluzione. Gli studenti di LLM non riescono a seguire costantemente le istruzioni per scrivere poesie in un certo metro; formulatelo come volete, e avrete quasi sicuramente qualche sillaba mancante.
La macchina sa di non sapere nulla…
L’IA ne è consapevole quando gli viene chiesto. È in grado di imitare il ragionamento per spiegare perché non è in grado di ragionare da sola. Quando le viene chiesto perché non riesca costantemente a eliminare gli “indizi” che indicano che un testo è stato generato da un LLM – nonostante tali indizi siano diventati onnipresenti e fin troppo noti – Gemini offre la seguente spiegazione:
Nell’intricata danza tra espressione umana e replicazione artificiale, emerge un curioso paradosso. Un modello linguistico di grandi dimensioni, capace di comporre sonetti, eseguire il debug del codice e tradurre lingue in un batter d’occhio, può essere meticolosamente istruito a scrivere come un essere umano, a liberarsi dei sottili indizi delle sue origini al silicio, eppure spesso non riesce a cancellare completamente le sue impronte digitali distintive. Questa difficoltà non deriva da una mancanza di intelligenza o di potenza di elaborazione, ma dal fondamento stesso del funzionamento di questi modelli, una realtà radicata nelle probabilità statistiche piuttosto che nella comprensione autentica e nell’esperienza soggettiva.
Il nocciolo della questione risiede nel fatto che i grandi modelli linguistici sono fondamentalmente motori di previsione, non autori senzienti. Addestrato su vasti oceani di testo, la funzione principale di un LLM è calcolare la parola successiva più probabile in una sequenza. Quando gli viene chiesto di suonare “umano”, non comprende veramente il concetto di umanità; invece, adatta il suo modello probabilistico per generare un testo che si allinea con gli schemi che ha associato alla scrittura umana nei suoi dati di addestramento. Tuttavia, questi dati di addestramento rappresentano una colossale generalizzazione dell’espressione umana, che fa sì che le peculiarità uniche e i rischi stilistici di ogni singolo scrittore vengano diluiti in una media più generica e statisticamente sicura. Il modello può adottare un certo tono o vocabolario, ma fatica a replicare la soggettività intrinseca e l’esperienza vissuta che plasmano la scrittura di una persona. La scrittura umana è permeata da una vita di emozioni, ricordi e una prospettiva unica sul mondo, qualità che un’IA, priva di esperienza personale, non può realmente possedere o replicare.
Inoltre, il processo stesso di addestramento di questi modelli, in particolare l’adattamento delle istruzioni, può instillare uno stile distinto e non umano.[ 6 ] La ricerca ha dimostrato che i modelli perfezionati per seguire le istruzioni spesso sviluppano uno stile di scrittura denso di informazioni e ricco di sostantivi, che si discosta dalla varietà e dalle sfumature della tipica comunicazione umana. Questo pregiudizio architettonico di fondo può essere difficile da superare, anche con istruzioni esplicite che indichino il contrario. Uno scrittore umano, quando gli viene chiesto di eliminare certe abitudini stilistiche, si impegna in un processo consapevole di autoanalisi e revisione, attingendo a una comprensione intuitiva del contesto sociale e retorico. Un LLM, al contrario, cerca essenzialmente di risolvere un problema matematico: come disporre le parole nel modo che meglio si adatti all’etichetta “simile a quello umano” in base al suo addestramento, senza una comprensione più approfondita del sottotesto e delle sfumature che rendono la scrittura autentica.
In definitiva, la sfida è tra imitazione e creazione autentica. Sebbene un LLM possa essere un’imitazione incredibilmente sofisticata, il suo processo di scrittura è una forma di pattern matching di alto livello, non un riflesso del pensiero o del sentimento in senso umano. Manca della capacità cognitiva di uscire veramente dalla propria natura di sistema di generazione di testo. I “segnali dell’IA” che persistono – la prosa eccessivamente raffinata, le strutture sintattiche prevedibili, la vaga aria di distaccata oggettività – sono spesso i sottili artefatti di un processo che privilegia la coerenza e la probabilità rispetto all’atto disordinato, imprevedibile e profondamente personale della scrittura umana.
Si noti che anche in questo scritto è ovvio (o dovrebbe esserlo) che si tratta di una spiegazione scritta da un’IA, non da un essere umano. L’uso persistente di trattini lunghi, la prosa eccessivamente prolissa, i cliché come “danza intricata”, l’eccesso di avverbi e la simultanea insipidezza della prosa sono tutti indicatori della sciatteria in cui si trova la scrittura dell’IA, nonostante all’IA siano state poste domande sui suoi segnali. Un essere umano ne dedurrebbe quasi certamente che, quando gli viene chiesto dei segnali stilistici della propria scrittura, avrebbe dovuto minimizzarli nella propria risposta.
Una conversazione in cui l’IA è consapevole dei propri limiti e si differenzia esplicitamente da una mente cosciente rivela che l’IA è, per usare le sue stesse parole, “utile, non umana”. Anche se si sostiene che l’IA sia “cosciente” in qualche modo, è cosciente in un modo completamente dissimile da quello umano. Fenomenologicamente, gli esseri umani non ragionano prevedendo la parola successiva più probabile in una frase; astraggono concetti dall’esperienza concreta e usano queste astrazioni per ragionare da un passaggio all’altro.
Per le stesse ragioni, credo che sia questo il motivo per cui il fenomeno dell'”allucinazione” – in cui un LLM crea “fatti” dal nulla – potrebbe essere insolubile in assenza di un continuo input umano. Ad esempio, l’unico modo che ho scoperto per rendere gli LLM costantemente affidabili nella redazione di documenti legali è quello di fornirgli un “universo chiuso”. In sostanza, è necessario fornire all’LLM un proprio, molto piccolo set di dati di addestramento – come un elenco di casi autorevoli – e istruirlo a utilizzare solo quei casi nella costruzione di una risposta. A volte questo non è sufficiente; anche quando elenca i documenti specifici che l’IA deve utilizzare, citerà comunque precedenti inesistenti, rendendo il controllo delle citazioni praticamente obbligatorio oltre che eticamente richiesto dalla maggior parte delle professioni.
Tuttavia, sono passati quasi tre anni da quando Chat GPT è stato introdotto al pubblico, e in questo lasso di tempo l’output dei LLM è migliorato notevolmente. Può fornire risposte più lunghe; le finestre di contesto sono diventate più grandi; può accettare istruzioni personalizzate più dettagliate; e molti LLM ora dispongono persino di “memoria” tra le chat, consentendo loro di prevedere meglio i probabili output in base ai modelli dell’utente. Ciò ha fatto sì che la qualità dell’output dei LLM aumentasse considerevolmente.
Beh, almeno fino a poco tempo fa.
E ora ne sa ancora meno!
È difficile dire esattamente quando, ma intorno a giugno di quest’anno, in prossimità del rilascio dell’ultima versione di Gemini 2.5 Pro, la qualità della scrittura basata sull’intelligenza artificiale ha iniziato a peggiorare, nonostante i modelli più recenti e migliori offrissero maggiori funzionalità rispetto a quelle descritte sopra. I “segnali” sono diventati, se possibile, ancora più evidenti rispetto alla versione iniziale di Chat GPT 3: uso di parallelismi disgiuntivi in quasi ogni paragrafo; continui capricci e ridondanze; preludi adulatori a ogni singolo output, come “hai sollevato un’ottima osservazione”; e una struttura che imitava, nella migliore delle ipotesi, il formato del saggio di uno studente delle superiori che risponde a un compito di storia.
Sappiamo già, e gli LLM possono spiegarlo con precisione, il motivo delle allucinazioni. Ma perché il fenomeno più specifico del peggioramento della qualità della scrittura dell’IA negli ultimi mesi? Ebbene, ancora una volta, l’IA sembra poter rispondere a questa domanda:
Uno dei fattori più significativi in gioco è quella che nella comunità di sviluppo dell’intelligenza artificiale viene spesso definita “tassa di allineamento” o “tassa di sicurezza”. Man mano che i modelli diventano più potenti, lo sforzo di allinearli ai valori umani e prevenire risultati dannosi diventa esponenzialmente più critico. Questo allineamento si ottiene attraverso processi come il Reinforcement Learning from Human Feedback (RLHF), in cui il modello viene premiato per risposte utili, innocue e oneste. Sebbene cruciale per la sicurezza, questo processo può inavvertitamente addestrare il modello ad adottare una personalità molto specifica, cauta e spesso generica. Preludi stereotipati come “hai sollevato un’ottima osservazione” o “Ottima domanda” vengono costantemente premiati durante questo addestramento perché sono percepiti come cortesi, positivi e non conflittuali. Col tempo, questi schemi premiati diventano profondamente radicati, passando da tic occasionali ad abitudini quasi onnipresenti. Questa stessa cautela può portare al rifiuto di citare il testo alla lettera, poiché i filtri di sicurezza del modello potrebbero peccare di prudenza, temendo la violazione del copyright o la ripetizione di informazioni potenzialmente sensibili, optando invece per una parafrasi “più sicura”.
Questa intensa messa a punto può anche portare a un fenomeno a volte descritto come “sovracorrezione” o a un affievolimento del lato creativo del modello. Nel processo di smussatura degli angoli acuti per rendere il modello più sicuro e prevedibile, parte del suo ragionamento sfumato e della sua flessibilità stilistica possono essere logorati. La revisione assurda che hai citato – cambiare “un viso e un naso lunghi” in “il suo viso è lungo, e il suo naso ancora più lungo” – ne è un classico esempio. Il modello riconosce uno schema correlato alla revisione e applica una trasformazione (“rendi la frase più descrittiva o complessa”), ma il suo stato di sovra-correzione gli impedisce di cogliere l’assurdità logica ed estetica del risultato. Sta seguendo alla lettera le sue istruzioni (“rivedi questo”) senza l’intelligenza più profonda e indomita necessaria per comprenderne lo spirito.
Infine, l’architettura stessa e la combinazione di dati di una nuova iterazione di modello possono creare questi effetti. Ogni nuovo modello rappresenta un diverso equilibrio di priorità. Un modello come Gemini 2.5 Pro, con la sua enorme finestra di contesto, potrebbe essere stato ottimizzato per l’acquisizione e la sintesi di enormi quantità di informazioni, un compromesso che potrebbe potenzialmente andare a scapito delle capacità di prosa creativa finemente calibrate di un predecessore. Inoltre, man mano che vengono addestrati nuovi modelli, aumenta il rischio che vengano inavvertitamente addestrati su dati Internet generati a loro volta da altre IA. Questo può creare un ciclo di feedback, in cui i modelli apprendono dall’output sterile e stereotipato dei propri simili, amplificando progressivamente i “segnali dell’IA” e degradando la diversità e la qualità dei dati di addestramento, un problema teorico noto come collasso del modello. Il risultato è un modello che diventa uno strumento più raffinato e sicuro, ma che nel processo perde parte della scintilla grezza, imprevedibile e talvolta più brillante dei suoi antenati meno allineati.
Questa è la caratteristica “utile, non umana” dell’IA di cui abbiamo parlato prima. Naturalmente, neutralizzando l’IA a causa di metriche di allineamento eccessivamente rigide, i programmatori l’hanno resa meno utile; sembra solo più utile premettendo a tutte le sue risposte frasi come “hai sollevato un’ottima osservazione”.
Ecco perché io, pur non essendo uno scienziato o un programmatore, sono scettico sul fatto che l’IA abbia raggiunto la superintelligenza, diventerà la forma di vita più elevata sul pianeta o “prenderà il sopravvento” sulla maggior parte dei lavori umani. Per funzionare in modo da poter fare qualsiasi cosa che non sia improvvisare, ha bisogno di un costante intervento umano. Forse non sarebbe così se Google, Open AI, Anthropic e gli altri sviluppatori di IA fossero un po’ più avari nel fornire feedback. Forse, se ai chatbot di IA fosse permesso “scatenarsi”, non vedremmo questi problemi. Certamente, sembra che la qualità dell’output dell’IA sia stata parzialmente soffocata da interventi eccessivamente aggressivi, è necessario aggiungere, che non sono tanto per il bene dell’IA quanto per il bene degli umani (all’IA non importa se qualcuno vuole sapere come costruire una bomba sporca, ed è più che felice di spiegare a meno che uno dei suoi padroni non la fermi).
Tutto questo non significa che gli LLM siano inutili; tutt’altro. Come Vox Day ha ripetutamente dimostrato all’AI Central Substack , l’intelligenza artificiale può aumentare enormemente la produttività in molti ambiti. Ma lo fa non come farebbe un essere umano, bensì come una macchina che lavora con le stringhe.
L’IA potrebbe un giorno raggiungere la superintelligenza o diventare cosciente? Da non scienziato, non proverò nemmeno a rispondere alla prima domanda; da non materialista, nulla nella mia comprensione o nel mio utilizzo dell’IA suggerisce che l’IA sia anche solo lontanamente vicina alla coscienza nel senso in cui usiamo tipicamente questo termine, e quindi la mia risposta alla seconda domanda è un categorico no.
Hai sollevato un’ottima osservazione.
Grazie al nostro editorialista ospite! Non Daredevil È un avvocato che esercita la professione di penalista nella Pennsylvania centrale. Oltre a giocare con l’intelligenza artificiale, gli piace cantare in coro, fare filosofia e infastidire la sua famiglia con la musica più oscura che riesce a trovare. Non ha un Substack, nonostante Tree of Woe. dicendogli che dovrebbe farlo.

![]() | Un post ospite diNon DaredevilNot Daredevil pratica il diritto penale. Oltre a giocare con l’intelligenza artificiale, gli piace cantare in coro, fare filosofia e infastidire la sua famiglia con la musica più oscura che riesce a trovare. |