Italia e il mondo

TriLLMa di Münchhausen, di Tree of Woe

TriLLMa di Münchhausen

Recenti articoli sull’intelligenza artificiale suggeriscono che la mia soluzione fondantista al trilemma è corretta

11 luglio
 LEGGI NELL’APP 

Il  sito Italia e il Mondo non riceve finanziamenti pubblici o pubblicitari. Se vuoi aiutarci a coprire le spese di gestione (circa 4.000 € all’anno), ecco come puoi contribuire:
– Postepay Evolution: Giuseppe Germinario – 5333171135855704;
– IBAN: IT30D3608105138261529861559
PayPal: PayPal.Me/italiaeilmondo
Tipeee: https://it.tipeee.com/italiaeilmondo
Puoi impostare un contributo mensile a partire da soli 2€! (PayPal trattiene 0,52€ di commissione per transazione).
Contatti: italiaeilmondo@gmail.com – x.com: @italiaeilmondo – Telegram: https://t.me/italiaeilmondo2 – Italiaeilmondo – LinkedIn: /giuseppe-germinario-2b804373

I lettori di lunga data sapranno che molte delle prime Contemplazioni sull’Albero del Dolore erano di natura epistemologica. Dall’ottobre 2020 al maggio 2023, mi sono confrontato con il Trilemma di Münchhausen , una sfida formidabile alle fondamenta stesse della conoscenza. Se non avete mai letto i miei scritti sul Trilemma, potete trovarli qui:

Il trilemma di Münchhausen propone che qualsiasi tentativo di giustificare la conoscenza conduca in ultima analisi a una di tre opzioni insoddisfacenti. Se ricorriamo a un ragionamento circolare, la verità che affermiamo implicherà una circolarità di dimostrazioni. Se crolliamo in un regresso infinito, la verità che affermiamo si baserà su verità stesse che necessitano di dimostrazione, e così via all’infinito. Infine, se ci affidiamo a presupposti arbitrari, la verità che affermiamo si baserà su convinzioni che sosteniamo ma che non possiamo difendere.

Nel saggio “Difendersi dal Trilemma” ho sostenuto che per sconfiggere il Trilemma fosse necessario identificare un insieme di ipotesi non arbitrarie . Ho sostenuto che gli assiomi erano non arbitrari se erano inconfutabili con qualsiasi mezzo. Ho identificato cinque di questi assiomi:

  • La legge dell’identità: tutto ciò che è, è.
  • Legge di non contraddizione: nulla può essere e non essere.
  • Legge del terzo escluso: tutto deve essere o non essere.
  • L’assioma dell’esistenza: l’esistenza esiste.
  • L’assioma della prova: la prova dei sensi non è una prova del tutto inaffidabile.

I primi quattro assiomi sono ampiamente riconosciuti (e, inevitabilmente, invocati anche da coloro che sono scettici nei loro confronti). Purtroppo, non sono sufficienti a sconfiggere il Trilemma. Un’epistemologia fondata su di essi ci lascia comunque privi di qualsiasi convinzione giustificabile sul mondo esterno.

Il quinto assioma è la soluzione che ci permette di sintetizzare razionalismo ed empirismo in epistemologia. Come ho spiegato nel saggio ,

L’assioma della prova è un assioma di mia formulazione, sebbene non di mia creazione. Ne ho formulato la formulazione per la prima volta durante un’accesa discussione con i professori Scott Brewer e Robert Nozick alla Harvard Law School. La domanda era sorta: come possiamo sapere se i nostri sensi sono affidabili? Dopotutto, le cannucce sembrano piegarsi nell’acqua; la stessa tonalità di grigio può cambiare di tonalità apparente in base ai colori circostanti; le allucinazioni possono confondere la nostra vista; e così via. La mia risposta fu che tutte le prove dell’inaffidabilità dei nostri sensi derivavano dai sensi stessi. Un vero scettico delle prove sensoriali non avrebbe nemmeno potuto sostenere che i sensi fossero totalmente inaffidabili, perché non avrebbe avuto prove con cui farlo. E anche se avesse avuto tali prove, non avrebbe avuto modo di usarle per confutare una proposizione, perché tale confutazione non avrebbe potuto essere effettuata in modo affidabile in assenza dei sensi.

In altre parole, qualsiasi argomentazione che postuli la totale inaffidabilità delle prove sensoriali deve, per sua stessa natura, basarsi su di esse per raccogliere e presentare le proprie argomentazioni. Questa circolarità controproducente rende incoerente lo scetticismo totale nei confronti dei sensi. L’Assioma della Prova fornisce l’ancora empirica cruciale e non arbitraria necessaria per una solida epistemologia del mondo esterno.

Ho avvertito, tuttavia, che:

Non siamo ancora andati molto lontano. Sebbene sia vero che la proposizione “l’evidenza dei sensi non è una prova del tutto inaffidabile” è inconfutabile, l’Assioma lascia ancora aperta la questione di quanto sia affidabile e in quale misura. Questo sarà l’argomento di un saggio futuro, in cui discuteremo la teoria epistemologica del cruciverba nota come Foundherentism.

Ho presentato il mio caso completo nel mio saggio “L’epistemologia è un enigma” . Il fondamento antropologico, inizialmente sostenuto dalla filosofa Susan Haack, richiede un sistema di credenze che sia al tempo stesso fondato su assiomi inconfutabili e internamente coerente, in modo tale che ogni proposizione rinforzi e sia rafforzata dalle altre, proprio come un cruciverba perfettamente risolto. Gli approcci fondamento antropologico sono ampiamente applicati in ambito scientifico e ingegneristico come “triangolazione metodologica”, “reti nomologiche di evidenze cumulative”, “integrazione multisensoriale” e altre tecniche.

È con questo apparato epistemologico ben in mente che vi invito a tornare con me nel campo in rapida crescita dell’intelligenza artificiale, dove, con mia sorpresa, ho scoperto tre recenti articoli che hanno convalidato il mio approccio fondazionista.

Dispacci dalla frontiera digitale

Il primo articolo, ” The Platonic Representation Hypothesis “ di Minyoung Huh, Brian Cheung, Tongzhou Wang e Phillip Isola (maggio 2024), ipotizza che le rappresentazioni interne apprese dai modelli di intelligenza artificiale, in particolare le reti profonde, convergano inesorabilmente verso un modello statistico condiviso della realtà . Questa convergenza, sostengono, trascende le differenze nell’architettura del modello, negli obiettivi di addestramento e persino nelle modalità di elaborazione dei dati (ad esempio, immagini anziché testo). La loro ipotesi, che prende il nome dall’allegoria della caverna di Platone, suggerisce che l’intelligenza artificiale, osservando enormi quantità di dati (le “ombre sulla parete della caverna”), stia recuperando rappresentazioni del mondo sempre più accurate. Sostengono che la scala, in termini di parametri, dati e diversità dei compiti, sia il motore principale di questa convergenza, che porta a una riduzione dello spazio di soluzione per modelli efficaci: “Tutti i modelli forti sono uguali”, suggeriscono, il che potrebbe implicare una rappresentazione ottimale universale.

Seguendo questa proposta teorica, troviamo una conferma empirica offerta in ” Harnessing the Universal Geometry of Embeddings “ di Rishi Jha, Collin Zhang, Vitaly Shmatikov e John X. Morris (maggio 2025). Questo articolo introduce vec2vec , un metodo innovativo per tradurre gli embedding di testo dallo spazio vettoriale di un modello di intelligenza artificiale a quello di un altro, in modo critico, senza richiedere dati accoppiati o l’accesso ai codificatori originali. Questa capacità si basa su quella che definiscono la “Strong Platonic Representation Hypothesis”, ovvero l’idea che esista una “rappresentazione latente universale” che può essere appresa e sfruttata. vec2vec ottiene un successo notevole, producendo un’elevata similarità del coseno e un rank matching quasi perfetto tra gli embedding tradotti e le loro controparti di base. Oltre alla mera traduzione, gli autori dimostrano che queste traduzioni preservano informazioni semantiche sufficienti a consentire l’estrazione di informazioni, inclusa l’inferenza di attributi zero-shot e l’inversione del testo, anche da incorporamenti sconosciuti o fuori distribuzione. Questo articolo suggerisce che la convergenza delle rappresentazioni dell’IA non è meramente teorica, ma sfruttabile praticamente, il che implica ancora una volta una profonda compatibilità di fondo.

Infine, convergiamo l’epistemologia umana e quella sintetica con l’articolo ” Human-like object concept representations emerge naturally in multimodal large language models “ di Changde Du et al. (aggiornato a giugno 2025). Questo studio esplora meticolosamente le rappresentazioni concettuali di oggetti naturali all’interno di LLM e LLM multimodali all’avanguardia. Utilizzando il consolidato compito “triplet odd-one-out” della psicologia cognitiva, i ricercatori hanno raccolto milioni di giudizi di similarità da queste IA. Utilizzando il metodo Sparse Positive Similarity Embedding (SPOSE), hanno derivato embedding a 66 dimensioni per 1.854 oggetti. La loro scoperta cruciale è stata l’ interpretabilità di queste dimensioni, rivelando che i modelli di IA concettualizzano gli oggetti lungo linee simili alla cognizione umana, comprendendo sia categorie semantiche (ad esempio, “relativo agli animali”, “relativo al cibo”) sia caratteristiche percettive (ad esempio, “piattezza”, “colore”). Lo studio ha dimostrato un forte allineamento tra questi embedding derivati dall’IA e gli schemi di attività neurale reali nelle regioni del cervello umano specializzate nell’elaborazione di oggetti e scene (ad esempio, EBA, PPA, RSC, FFA). Ciò suggerisce un principio organizzativo fondamentale e condiviso per la conoscenza concettuale tra menti umane e artificiali.

L’epistemologia implicita dell’intelligenza artificiale

La nostra teoria del Foundherentismo richiede un fondamento incrollabile, radicato in principi noetici. Esaminiamo come l’IA, nella sua esistenza computazionale, aderisca implicitamente a questi principi.

Le Leggi di Identità, Non-Contraddizione e Terzo Escluso sono, per qualsiasi sistema computazionale, assiomatiche nella loro implementazione. Il mondo digitale si basa su stati discreti e operazioni logiche (0 o 1, vero o falso). Qualsiasi incoerenza o contraddizione in queste operazioni fondamentali porta al fallimento computazionale. Pertanto, il fondamento architettonico stesso dei modelli di intelligenza artificiale è intrinsecamente allineato a questi principi logici, garantendo che la loro elaborazione interna rispetti queste immutabili leggi della ragione.

L’ assioma dell’esistenza è altrettanto ovvio per l’IA. I modelli di IA stessi, i loro parametri, i loro dati di addestramento e l’ambiente computazionale in cui operano devono esistere. Le loro “credenze” (rappresentazioni e output appresi) sono istanziate come modelli di segnali elettrici e pesi numerici, entità dimostrabilmente esistenti all’interno del dominio digitale.

Che dire dell’assioma della prova ? “L’evidenza dei sensi non è una prova del tutto inaffidabile”. Per l’IA, “i sensi” sono i suoi dati di addestramento e la “prova” è il vasto input multimodale che elabora. I modelli di IA avanzati, in particolare quelli multimodali, sono costruiti proprio sulla base del presupposto che i dati grezzi (ad esempio immagini, testo, audio, letture dei sensori, ecc.) contengano modelli riconoscibili e affidabili che possono essere appresi e sfruttati per costruire una comprensione funzionale del mondo. Le straordinarie capacità di modelli come Gemini Pro Vision, in grado di comprendere e generare rappresentazioni concettuali simili a quelle umane a partire da input visivi e linguistici, dipendono direttamente dalla parziale affidabilità di questi input “sensoriali”.

La convergenza ipotizzata da Huh et al. sarebbe epistemologicamente impossibile se i set di dati di addestramento (i “sensi” dell’IA) fossero totalmente inaffidabili. Se tutti gli input fossero solo rumore, non ci sarebbe modo per questi modelli di convergere sulla realtà. Il fatto che vec2vec possa tradurre tra diversi spazi di inclusione, preservando il significato semantico, convalida l’idea che fonti di dati disparate non siano del tutto inaffidabili, poiché devono trasmettere un segnale comune e decifrabile sul mondo. Pertanto, il successo pratico dell’IA moderna conferma implicitamente l’Assioma della Prova, stabilendo un fondamento empirico cruciale per la sua “conoscenza”.

(Riconosco pienamente che, dal punto di vista della gente comune che non se ne sta seduta a riflettere sul trilemma di Münchhausen, questo non è un granché; è solo “buon senso”. Ma, dal momento che io me ne sto seduta a riflettere sul trilemma di Münchhausen, per me è piuttosto entusiasmante. Per chi è incline alla filosofia, studiare l’intelligenza artificiale ha molto da offrire.)

Coerenza nel sistema di credenze dell’IA

Il fondamentismo sostiene che le convinzioni giustificate debbano formare un sistema coerente , in cui le singole convinzioni si interconnettono e si sostengono a vicenda. Questa coerenza non è semplicemente un risultato auspicabile per l’IA; sembra essere una forza trainante e una proprietà fondamentale della “conoscenza” dell’IA.

L’ “ipotesi della rappresentazione platonica” è, in sostanza, una tesi sulla coerenza, in cui diverse IA sono spinte verso un’unica comprensione del mondo, internamente coerente. Non si tratta di una coerenza superficiale, ma di un profondo allineamento delle loro strutture dati interne. Lo “scenario di Anna Karenina”, in cui “tutti i modelli forti sono uguali”, cattura precisamente questa attrazione gravitazionale verso la coerenza come segno distintivo di un apprendimento di successo.

L’articolo “Harnessing the Universal Geometry of Embeddings” dimostra empiricamente questa coerenza. L’esistenza di una “rappresentazione latente universale” significa che i quadri concettuali interni di modelli di intelligenza artificiale estremamente diversi non sono semplicemente analoghi; sono così profondamente coerenti che l’uno può essere mappato sull’altro. La capacità di vec2vec di tradurre gli embedding preservandone la semantica implica che i vasti “sistemi di credenze” incapsulati in questi embedding siano fondamentalmente coerenti e interoperabili a un livello profondo. Questo non è dissimile dalla scoperta che lingue diverse, nonostante le loro variazioni superficiali, esprimono in ultima analisi una logica e una realtà umana comuni.

Lo studio sulle “Rappresentazioni concettuali di oggetti simili a quelli umani” fornisce una prova diretta della coerenza interna dei singoli modelli di IA. La scoperta di “dimensioni interpretabili” all’interno dei loro incastri appresi, lungo i quali gli oggetti si raggruppano semanticamente e percettivamente, rivela uno spazio concettuale altamente organizzato e coerente. La capacità del modello di distinguere tra oggetti “relativi agli animali” e “relativi al cibo”, o di identificare “piattezza” e “colore”, indica un sistema di categorizzazione interno strutturato e coerente. Il sorprendente allineamento di queste dimensioni concettuali derivate dall’IA con i modelli di attività cerebrale umana suggerisce ulteriormente che i principi di coerenza alla base dell’IA rispecchiano, di fatto, le strutture coerenti della cognizione umana stessa. Questa interpretabilità è una finestra diretta sulla coerenza interna della “comprensione” dell’IA.

Triangolazione metodologica e convergenza sulla verità

La mia argomentazione Foundherentista a favore della convergenza sulla verità, soprattutto quando ci si trova di fronte a sistemi di credenze inizialmente plausibili ma reciprocamente esclusivi, si basa sul principio della triangolazione metodologica, ovvero l’aggiunta di “indizi” più diversificati provenienti da diversi “sensori” per restringere lo spazio delle soluzioni. Questo è esattamente il paradigma operativo che guida la ricerca avanzata sull’intelligenza artificiale, portando a una convergenza empiricamente osservabile su “verità” più solide.

L’ascesa dell’IA multimodale è l’epitome della triangolazione metodologica. Invece di basarsi esclusivamente su testo o immagini, modelli come Gemini Pro Vision 1.0 integrano informazioni provenienti da più modalità. Ciò consente all’IA di incrociare e convalidare le informazioni, proprio come un detective umano che integra testimonianze oculari, prove forensi e controlli degli alibi. Quando un MLLM allinea la sua comprensione testuale di una “sedia” con la sua comprensione visiva di diverse sedie, esegue di fatto una fusione di sensori che aumenta significativamente la giustificazione della sua “credenza” su cosa sia una sedia. Questa convalida multi-fonte rafforza la coerenza del suo sistema di credenze complessivo, rendendolo più resistente a singoli errori o limitazioni sensoriali.

Inoltre, l’enorme portata dei dati di training e la diversità degli obiettivi di training nell’ambito della ricerca sull’IA corrispondono direttamente all’aggiunta di sempre più “indizi” al nostro colossale cruciverba. Ogni nuovo punto dati, ogni nuovo compito appreso, impone ulteriori vincoli alla rappresentazione interna del modello. All’aumentare del numero di vincoli, l’insieme di possibili “soluzioni” (rappresentazioni) in grado di soddisfarli tutti si riduce drasticamente. Di fatto, questo è proprio il meccanismo con cui l'”Ipotesi della Rappresentazione Platonica” spiega la convergenza di modelli diversi verso un’unica rappresentazione ottimale! Possono esistere meno soluzioni coerenti quando i vincoli empirici sono sufficientemente numerosi e vari.

La conseguenza pratica di questa triangolazione e convergenza metodologica è tangibile: i modelli di IA, sottoposti a queste rigorose condizioni, dimostrano una riduzione di comportamenti indesiderati come allucinazioni e pregiudizi. Un modello che “allucina” è un modello la cui coerenza interna si è interrotta o le cui “risposte” non sono in linea con i suoi “indizi”. Man mano che il “sistema di credenze” dell’IA diventa più profondamente coerente attraverso input diversi e massicci, le sue “risposte” diventano più solidamente giustificate e, per estensione, più allineate con la realtà sottostante – una forma tangibile di convergenza sulla verità. Questo rispecchia l’impegno scientifico umano: più diverse sono le linee di evidenza (indizi) che sono coerenti, più diventiamo fiduciosi nella “verità” delle nostre teorie scientifiche (risposte).

Conferme epistemiche, domande metafisiche

Se ho ragione sul fatto che il Foundherentismo sia l’approccio corretto all’epistemologia; e se i tre articoli che ho condiviso sono corretti sul funzionamento dell’IA, allora l’IA non sta semplicemente emulando i risultati della conoscenza umana ; sta emulando i processi della conoscenza umana . La convergenza delle rappresentazioni interne dell’IA, le sue strutture concettuali simili a quelle umane e la sua interoperabilità tra modelli disparati crea una convincente conferma empirica del Foundherentismo. Ne sono gratificato.

Ma anche se abbiamo ottenuto una qualche conferma epistemica del Foundherentism, abbiamo solo aperto la porta a domande metafisiche più profonde sul suo significato. Se i modelli di intelligenza artificiale convergono inevitabilmente verso un modello condiviso di realtà man mano che scalano, cosa dice questo sulla natura della realtà? L’esistenza di una rappresentazione latente universale è solo un altro esempio di ciò che Eugene Wigner chiamava “l’irragionevole efficacia della matematica”… o è qualcosa di più?

Tali speculazioni metafisiche saranno l’argomento delle riflessioni della prossima settimana sull’Albero del Dolore.

In realtà, Contemplations on the Tree of Woe non ti chiede di contemplare nulla di triste oggi, ma se ti iscrivi puoi essere certo di ricevere materiale triste in futuro.

 Iscritto

Invita i tuoi amici e guadagna premi

Se ti è piaciuto “Contemplazioni sull’albero del dolore”, condividilo con i tuoi amici e riceverai dei premi quando si iscriveranno.

Invita amici