- In:
- Posted By: Capuano Edoardo
- Commenti: 0
questo lavoro sottolinea l’importanza di valutare attentamente i sistemi di intelligenza artificiale GPT non solo per la loro accuratezza ma anche robustezza nel testare le loro capacità cognitive
L'intelligenza artificiale (AI), in particolare i modelli di linguaggio di grandi dimensioni come GPT-4, ha mostrato prestazioni impressionanti sui compiti di ragionamento. Ma AI comprende veramente concetti astratti o sta solo imitando i modelli? Un nuovo studio dell'University of Amsterdam e del Santa Fe Institute rivela che mentre i modelli GPT si svolgono bene su alcuni compiti di analogia, non riescono a non avere i problemi, evidenziando le principali debolezze delle capacità di ragionamento dell'AI.
Il ragionamento analogico è la capacità di trarre un confronto tra due cose diverse in base alle loro somiglianze in alcuni aspetti. È uno dei metodi più comuni con cui gli esseri umani cercano di comprendere il mondo e prendere decisioni. Un esempio di ragionamento analogico: la tazza è il caffè come la zuppa è? (La risposta è: ciotola)
I modelli di linguaggio di grandi dimensioni come GPT-4 funzionano bene in vari test, compresi quelli che richiedono ragionamento analogico.
Confronto tra modelli di intelligenza artificiale e prestazioni umane
Lewis e Mitchell hanno confrontato le prestazioni degli esseri umani e dei modelli GPT su tre diversi tipi di problemi di analogia:
1- Sequenze di lettere: identificare schemi nelle sequenze di lettere e completarli correttamente.
2- Matrici di cifre: analisi di modelli numerici e determinazione dei numeri mancanti.
3- Analogie narrative: comprendere quale delle due storie corrisponde meglio a una storia di esempio data.
Un sistema che comprende veramente le analogie dovrebbe mantenere elevate prestazioni anche sulle variazioni
Oltre a verificare se i modelli GPT potessero risolvere i problemi originali, lo studio ha esaminato la loro efficacia quando i problemi venivano modificati in modo sottile. «Un sistema che comprende veramente le analogie dovrebbe mantenere prestazioni elevate anche con queste variazioni», affermano le autrici nel loro articolo ‘Evaluating the Robustness of Analogical Reasoning in Large Language Models’, in: Transactions on Machine Learning Research (3).
I modelli GPT hanno difficoltà con la robustezza
Gli esseri umani hanno mantenuto prestazioni elevate nella maggior parte delle versioni modificate dei problemi, ma i modelli GPT, pur ottenendo buoni risultati nei problemi di analogia standard, hanno avuto difficoltà con le variazioni. «Ciò suggerisce che i modelli di Intelligenza Artificiale spesso ragionano in modo meno flessibile degli esseri umani e il loro ragionamento riguarda meno la vera comprensione astratta e più il confronto di schemi», spiega la dottoressa Lewis.
Nelle matrici di cifre, i modelli GPT hanno mostrato un calo significativo delle prestazioni quando cambiava la posizione del numero mancante. Gli umani non hanno avuto difficoltà con questo. Nelle analogie delle storie, GPT-4 tendeva a selezionare più spesso la prima risposta data come corretta, mentre gli umani non erano influenzati dall'ordine delle risposte. Inoltre, GPT-4 ha avuto più difficoltà degli umani quando gli elementi chiave di una storia venivano riformulati, il che suggerisce un affidamento su somiglianze superficiali piuttosto che su un ragionamento causale più profondo.
Nei compiti di analogia più semplici, i modelli GPT hanno mostrato una flessione nel calo delle prestazioni quando testati su versioni modificate, mentre gli umani sono rimasti coerenti. Tuttavia, per i compiti di ragionamento analogico più complessi, sia gli umani che l'IA hanno avuto difficoltà.
Più debole della cognizione umana
Questa ricerca sfida la diffusa convinzione che i modelli di intelligenza artificiale come GPT-4 possano ragionare nello stesso modo degli esseri umani. «Sebbene i modelli di intelligenza artificiale dimostrino capacità impressionanti, ciò non significa che capiscano veramente cosa stanno facendo», concludono Lewis e Mitchell. «La loro capacità di generalizzare attraverso le varianti è ancora significativamente più debole della cognizione umana. I modelli GPT spesso si basano su modelli superficiali piuttosto che su una comprensione profonda».
Questo è un avvertimento critico per l'uso dell'AI in importanti aree decisionali come istruzione, diritto e assistenza sanitaria. L'AI può essere uno strumento potente, ma non è ancora un sostituto del pensiero e del ragionamento umano.
Riferimenti:
(1) Martha Lewis
(2) Melanie Mitchell
(3) Evaluating the Robustness of Analogical Reasoning in Large Language Models (PDF)
Descrizione foto: Creazione grafica dell'Intelligenza Artificiale. - Credit: Redazione ECplanet.
Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: Why GPT can’t think like us