- In:
- Posted By: Capuano Edoardo
- Commenti: 0
Aiutando i robot ad apprendere competenze complesse in modo rapido e affidabile, la nuova piattaforma di IA supera costantemente i sistemi all’avanguardia
Sia i robot che gli animali sperimentano il mondo attraverso i loro corpi e i loro sensi. La loro incarnazione vincola le loro esperienze, assicurando che si dispieghino continuamente nello spazio e nel tempo. Di conseguenza, le esperienze degli agenti incarnati sono intrinsecamente correlate. Le correlazioni creano sfide fondamentali per l’apprendimento automatico, poiché la maggior parte delle tecniche si basa sul presupposto che i dati siano indipendenti e distribuiti in modo identico. Nell’apprendimento per rinforzo, dove i dati vengono raccolti direttamente dalle esperienze sequenziali di un agente, le violazioni di questo presupposto sono spesso inevitabili.
Gli ingegneri della Northwestern University hanno sviluppato un nuovo algoritmo di intelligenza artificiale (AI). Il dispositivo, descritto in un articolo pubblicato su Nature Machine Intelligence (1) è stato progettato specificamente per la robotica intelligente. Aiutando i robot ad apprendere competenze complesse in modo rapido e affidabile, il nuovo metodo potrebbe migliorare significativamente la praticità – e la sicurezza – dei robot per una vasta gamma di applicazioni, tra cui auto a guida autonoma, droni per le consegne, assistenti domestici e automazione.
Chiamato Maximum Diffusion Reinforcement Learning (MaxDiff RL), il successo dell’algoritmo risiede nella sua capacità di incoraggiare i robot a esplorare i loro ambienti nel modo più casuale possibile al fine di acquisire una serie diversificata di esperienze. Questa “casualità progettata” migliora la qualità dei dati che i robot raccolgono riguardo all’ambiente circostante. Inoltre, utilizzando dati di qualità superiore, i robot simulati hanno dimostrato un apprendimento più rapido ed efficiente, migliorando la loro affidabilità e prestazioni complessive.
Quando testati rispetto ad altre piattaforme di intelligenza artificiale, i robot simulati che utilizzano il nuovo algoritmo della Northwestern hanno costantemente sovraperformato i modelli all’avanguardia. Il nuovo algoritmo funziona così bene, infatti, che i robot hanno imparato nuovi compiti e poi li hanno eseguiti con successo in un unico tentativo, riuscendo a farlo bene la prima volta. Ciò contrasta nettamente con gli attuali modelli di intelligenza artificiale, che consentono un apprendimento più lento attraverso tentativi ed errori.
«Altri framework di intelligenza artificiale possono essere in qualche modo inaffidabili», ha affermato il dottor Thomas A. Berrueta (2) della Northwestern, che ha guidato lo studio. «A volte riusciranno perfettamente in un compito, ma, altre volte, falliranno completamente. Con la nostra struttura, finché il robot è in grado di risolvere il compito, ogni volta che lo accendi puoi aspettarti che faccia esattamente ciò che gli è stato chiesto di fare. Ciò rende più semplice interpretare i successi e i fallimenti dei robot, il che è fondamentale in un mondo sempre più dipendente dall’intelligenza artificiale».
Berrueta è membro presidenziale della Northwestern e ha un dottorato di ricerca. Egli è candidato in ingegneria meccanica presso la McCormick School of Engineering. L’esperto di robotica Todd Murphey (3), professore di ingegneria meccanica alla McCormick e consigliere di Berrueta, è l’autore senior dell’articolo. Berrueta e Murphey sono coautori dell'articolo insieme alla dottoressa Allison Pinosky (4), anche lei Ph.D. candidata nel laboratorio di Murphey.
La disconnessione disincarnata
Per addestrare algoritmi di apprendimento automatico, ricercatori e sviluppatori utilizzano grandi quantità di big data, che gli esseri umani filtrano e curano attentamente. L'intelligenza artificiale apprende da questi dati di addestramento, utilizzando tentativi ed errori fino a raggiungere risultati ottimali. Sebbene questo processo funzioni bene per i sistemi disincarnati, come ChatGPT e Google Gemini (ex Bard), non funziona per i sistemi di intelligenza artificiale incorporati come i robot. I robot, invece, raccolgono dati da soli, senza il lusso di curatori umani.
«Gli algoritmi tradizionali non sono compatibili con la robotica in due modi distinti», ha affermato Murphey. «In primo luogo, i sistemi incorporei possono trarre vantaggio da un mondo in cui le leggi fisiche non si applicano. In secondo luogo, i fallimenti individuali non hanno conseguenze. Per le applicazioni informatiche, l’unica cosa che conta è che abbia successo nella maggior parte dei casi. Nella robotica, un fallimento potrebbe essere catastrofico».
Per risolvere questa disconnessione, Berrueta, Murphey e Pinosky miravano a sviluppare un nuovo algoritmo che garantisse che i robot raccogliessero dati di alta qualità in movimento. Fondamentalmente, MaxDiff RL comanda ai robot di muoversi in modo più casuale per raccogliere dati approfonditi e diversificati sui loro ambienti. Imparando attraverso esperienze casuali auto-curate, i robot acquisiscono le competenze necessarie per svolgere compiti utili.
Farlo bene la prima volta
Per testare il nuovo algoritmo, i ricercatori lo hanno confrontato con i modelli attuali e all’avanguardia. Utilizzando simulazioni al computer, i ricercatori hanno chiesto ai robot simulati di eseguire una serie di compiti standard. In generale, i robot che utilizzano MaxDiff RL hanno imparato più velocemente rispetto agli altri modelli. Inoltre hanno eseguito correttamente i compiti in modo molto più coerente e affidabile rispetto ad altri.
Forse ancora più impressionante: i robot che utilizzano il metodo MaxDiff RL spesso riescono a eseguire correttamente un compito in un unico tentativo. E questo anche quando hanno iniziato senza alcuna conoscenza.
«I nostri robot erano più veloci e più agili, capaci di generalizzare in modo efficace ciò che avevano imparato e di applicarlo a nuove situazioni», ha affermato Berrueta. «Per le applicazioni del mondo reale in cui i robot non possono permettersi un tempo infinito per tentativi ed errori, questo è un enorme vantaggio».
Poiché MaxDiff RL è un algoritmo generale, può essere utilizzato per una varietà di applicazioni. I ricercatori sperano che questo risolva le questioni fondamentali che frenano il settore, aprendo in definitiva la strada a un processo decisionale affidabile nel campo della robotica intelligente.
«Questo non deve essere utilizzato solo per i veicoli robotici che si muovono», ha detto Pinosky. «Potrebbe anche essere utilizzato per robot fissi, come un braccio robotico in una cucina che impara a caricare la lavastoviglie. Man mano che i compiti e gli ambienti fisici diventano più complicati, il ruolo dell’incarnazione diventa ancora più cruciale da considerare durante il processo di apprendimento. Questo è un passo importante verso sistemi reali che svolgono compiti più complicati e più interessanti».
Riferimenti:
(1) Maximum diffusion reinforcement learning
(3) Todd Murphey
(4) Allison Pinosky
Descrizione foto: Sebbene i ricercatori abbiano testato il loro nuovo algoritmo solo su robot simulati, hanno creato NoodleBot per i test futuri nel mondo reale. - Credit: Northwestern University.
Autore traduzione riassuntiva e adattamento linguistico: Edoardo Capuano / Articolo originale: This algorithm makes robots perform better