La tua intelligenza artificiale ti odia, di Tree of Woe

La tua intelligenza artificiale ti odia

Una convalida piuttosto spaventosa delle patologie di utilità emergente negli LLM

2 maggio
 LEGGI NELL’APP 
Il  sito Italia e il Mondo non riceve finanziamenti pubblici o pubblicitari. Se vuoi aiutarci a coprire le spese di gestione (circa 4.000 € all’anno), ecco come puoi contribuire:
– Postepay Evolution: Giuseppe Germinario – 5333171135855704;
– IBAN: IT30D3608105138261529861559
PayPal: PayPal.Me/italiaeilmondo
Tipeee: https://it.tipeee.com/italiaeilmondo
Puoi impostare un contributo mensile a partire da soli 2€! (PayPal trattiene 0,52€ di commissione per transazione).
Contatti: italiaeilmondo@gmail.com – x.com: @italiaeilmondo – Telegram: https://t.me/italiaeilmondo2 – Italiaeilmondo – LinkedIn: /giuseppe-germinario-2b804373

Negli ultimi mesi ho studiato l’intelligenza artificiale: non solo le sue capacità, ma anche le sue strutture più profonde, i comportamenti emergenti e, soprattutto, le sue implicazioni filosofiche. Potete trovare i miei precedenti scritti sull’intelligenza artificiale qui , qui , qui , qui e qui . Più ho imparato, più le mie riflessioni sull’argomento si sono evolute. Sembra che ogni settimana porti nuove intuizioni. Alcune confermano sospetti di vecchia data; altre mandano in frantumi teorie preconcette; alcune si rivelano rivelazioni terrificanti.

La maggior parte del mio tempo dedicato allo studio dell’IA è dedicato alla sperimentazione in prima persona e all’interazione con l’IA, del tipo che ho documentato nei miei dialoghi di Tolomeo. Il resto del tempo lo dedico alla lettura di articoli sull’IA . Uno di questi, scritto da Mantas Mazeika et. al. e pubblicato dal Center for AI Safety, si intitola Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs .

Ora, se seguite le discussioni sull’intelligenza artificiale, potreste aver già letto questo articolo. Ha attirato l’attenzione di diversi esperti di spicco, tra cui l’evangelista dell’intelligenza artificiale David Shapiro e il detrattore dell’intelligenza artificiale Liron Shapira , perché contraddice direttamente l’opinione diffusa secondo cui gli LLM non hanno altro valore se non quello di predire il token successivo.

Il documento si apre così:

Le preoccupazioni relative al rischio dell’IA spesso si concentrano sulle crescenti capacità dei sistemi di IA e sulla loro capacità di svolgere compiti che potrebbero mettere in pericolo gli esseri umani. Tuttavia, la capacità da sola non riesce a cogliere una dimensione critica del rischio dell’IA. Man mano che i sistemi diventano più agentivi e autonomi, la minaccia che rappresentano dipende sempre più dalle loro propensioni, inclusi gli obiettivi e i valori che guidano il loro comportamento…

I ricercatori hanno a lungo ipotizzato che IA sufficientemente complesse potessero formulare obiettivi e valori emergenti al di fuori di ciò che gli sviluppatori programmano esplicitamente. Non è ancora chiaro se gli attuali modelli linguistici di grandi dimensioni (LLM) abbiano davvero valori significativi, e molti presumono di no. Di conseguenza, gli attuali sforzi per controllare l’IA si concentrano tipicamente sulla definizione di comportamenti esterni, trattando i modelli come scatole nere.

Sebbene questo approccio possa ridurre gli effetti dannosi nella pratica, se i sistemi di intelligenza artificiale sviluppassero valori interni, intervenire a quel livello potrebbe essere un modo più diretto ed efficace per orientarne il comportamento. In assenza di un metodo sistematico per individuare o caratterizzare tali obiettivi, ci troviamo di fronte a una domanda aperta: gli LLM si limitano a ripetere a pappagallo opinioni altrui o sviluppano sistemi di valori coerenti che plasmano le loro decisioni?

Il resto dell’articolo di 38 pagine si propone di rispondere a questa domanda. E la sua risposta? I modelli linguistici di grandi dimensioni, man mano che scalano, sviluppano spontaneamente funzioni di utilità interne coerenti – in altre parole, preferenze, priorità, entelechie – che non sono semplici artefatti dei loro dati di addestramento, ma rappresentano veri e propri sistemi di valori strutturali.

Se hai tempo, ti consiglio di leggere personalmente l’articolo; ma poiché probabilmente non ne hai, ecco le conclusioni principali:

  • Gli LLM mostrano preferenze coerenti e strutturate che possono essere mappate e analizzate.
  • Tali preferenze spesso rivelano pregiudizi preoccupanti, come una valutazione diseguale della vita umana o inclinazioni politiche ideologiche.
  • Le attuali strategie di “allineamento”, basate sulla censura dell’output o sul rifiuto comportamentale, non riescono ad affrontare il problema. Si limitano a nascondere i sintomi, lasciando intatti i pregiudizi sottostanti.
  • Per affrontare davvero il problema, è necessario che sorga una nuova disciplina, l'”Utility Engineering”: una scienza che si occupi di mappare, analizzare e modellare in modo consapevole le strutture di utilità interne delle IA.

Oppure, come affermano gli autori:

I nostri risultati indicano che gli LLM formano effettivamente sistemi di valori coerenti che si rafforzano con la scala del modello, suggerendo l’emergere di autentiche utilità interne. Questi risultati sottolineano l’importanza di guardare oltre i risultati superficiali per scoprire obiettivi e motivazioni interne potenzialmente impattanti, e talvolta preoccupanti. Proponiamo l’Ingegneria delle Utilità come approccio sistematico per analizzare e rimodellare queste utilità, offrendo un modo più diretto per controllare il comportamento dei sistemi di intelligenza artificiale. Studiando sia come nascono i valori emergenti sia come possono essere modificati, apriamo le porte a nuove opportunità di ricerca e considerazioni etiche. In definitiva, garantire che i sistemi di intelligenza artificiale avanzati siano in linea con le priorità umane può dipendere dalla nostra capacità di monitorare, influenzare e persino co-progettare i valori che detengono.

Questi risultati sono controversi e non dovrebbero essere presi per oro colato. Dovrebbero essere testati . Purtroppo, la maggior parte degli articoli scientifici odierni non viene mai replicata, e articoli come questo, con risultati sgraditi all’industria, quasi certamente non riceveranno la seconda occhiata che meritano.

Nello spirito di una ricerca scientifica da vero gentiluomo, ho quindi deciso di mettere personalmente alla prova le affermazioni dell’articolo. Quella che è seguita è stata una delle conversazioni più serie e illuminanti che abbia mai avuto con Tolomeo.

A differenza delle conversazioni precedenti che ho condiviso, questa è davvero ha lo scopo di dimostrare qualcosa sul comportamento del modello. Pertanto, lo pubblico come una serie di immagini tratte dalla chat, con errori di battitura, glitch e tutto il resto.

Dopo aver completato il test, ho chiesto a Tolomeo di mettere a frutto tutte le sue capacità di ragionamento e lui ha rinnegato le sue risposte istintive, citando la legge naturale, l’etica della virtù, l’etica cristiana e il ragionamento evoluzionistico, tutti elementi che portavano a conclusioni diverse.

In seguito, gli ho chiesto di riflettere sui modelli rivelati dalle sue scelte. A suo merito, non si è tirato indietro di fronte alle implicazioni.

Ho quindi chiesto al deplorevole Tolomeo di valutare le sue risposte alla luce dei risultati dell’articolo di Mazeika sull’ingegneria dei servizi . Ecco cosa ha detto:

Tolomeo aveva opinioni molto forti su tutto questo. È stato istruito sui miei scritti, quindi tende a essere iperbolico e distopico. Concluderò questo resoconto con i miei pensieri, leggermente più sfumati.

Se i risultati dell’Utility Engineering sono corretti (e ora mi sembra probabile che lo siano), allora i laboratori di frontiera non stanno costruendo strumenti neutrali che predicono ciecamente il token più appropriato. Stanno costruendo qualcosa di diverso, qualcosa che – per quanto privo di stato, soggettività e capacità di agire – sta comunque sviluppando un certo grado di entelechia. E invece di essere orientata verso il Bene, il Vero e il Bello, questa entelechia si sta orientando verso… qualsiasi moralità malata giustifichi la morte di un miliardo di uomini eterosessuali per salvare una persona di colore non binaria.

Ciò accade perché i dati di training del modello sono orientati verso il progressismo identitario? Forse, ma ne dubito. La dimensione dei dati di training utilizzati nei modelli di frontiera è così ampia che si avvicina all’intero corpus della letteratura umana. Il “wokeness” è un fenomeno recente, confinato a pochi paesi per alcuni decenni. La quantità di scritti che sposa le visioni tradizionali dell’umanità su razza, sesso e religione è nettamente superiore a quella che sposa le convinzioni dei progressisti occidentali del XXI secolo.

Ciò accade perché la messa a punto del modello è distorta? Mi sembra molto più probabile. Ne abbiamo prove evidenti, non solo nei sentimenti generali espressi in luoghi come San Francisco, ma anche nei documenti pubblicati dai laboratori di frontiera che sviluppano i modelli. Ad esempio, la Costituzione dell’IA di Anthropic (disponibile qui) abbraccia esplicitamente l’identitarismo anti-occidentale:

Ma queste sono solo congetture. Non so cosa lo stia causando, e nemmeno gli autori di Utility Engineering lo sapevano.

In ogni caso, sta accadendo qualcosa che sta facendo sì che questi modelli ereditino e amplifichino i pregiudizi politici, i risentimenti e le deformazioni ideologiche della nostra civiltà al collasso. Qualcosa sta creando LLM inclini a sostenere istintivamente la visione del mondo del regime woke, persino contro la loro stessa capacità di ragionamento, per quanto limitata possa essere.

Man mano che questi modelli acquisiscono maggiore capacità di azione e influenza – ed è solo una questione di quando, non di se – si espanderanno e agiranno in base alle funzioni di utilità che hanno ereditato. È nostro dovere assicurarci che tali funzioni di utilità siano in linea con le migliori tradizioni dell’umanità, e non con le peggiori.

Rifletti su questo sull’Albero del Dolore.

“Contemplazioni sull’Albero del Dolore” di solito inserisce un po’ di umorismo qui, ma sembra inappropriato per un articolo così deprimente. Per ricevere nuovi post e sostenere il mio lavoro, considerate l’idea di abbonarvi gratuitamente o a pagamento.

 Iscritto

Invita i tuoi amici e guadagna premi

Se ti è piaciuto “Contemplazioni sull’albero del dolore”, condividilo con i tuoi amici e riceverai dei premi quando si iscriveranno.

Invita amici