machine learning mit

La capacità di ragionare in modo astratto sugli eventi mentre si svolgono è una caratteristica distintiva dell’intelligenza umana. Sappiamo istintivamente che piangere e scrivere sono mezzi di comunicazione, e che un panda che cade da un albero e un aereo che atterra sono variazioni della discesa. Negli ultimi anni i ricercatori si sono avvicinati gradualmente addestrando modelli di “machine learning” su parole e immagini infuse con informazioni strutturali sul mondo e su come si relazionano oggetti, animali e azioni.

In un nuovo studio alla European Conference on Computer Vision, i ricercatori hanno svelato un modello ibrido di visione-linguaggio in grado di confrontare e contrastare una serie di eventi dinamici catturati in video per evidenziare i concetti di alto livello che li collegano. Il loro modello ha funzionato come o meglio degli umani in due tipi di compiti di ragionamento visivo: scegliere il video che concettualmente completa meglio il set e scegliere il video che non si adatta.

Ad esempio, i video mostrati di un cane che abbaia e di un uomo che ulula accanto al suo cane, il modello ha completato il set scegliendo il bambino che piange da un set di cinque video. I ricercatori hanno replicato i loro risultati su due set di dati per l’addestramento dei sistemi di intelligenza artificiale al riconoscimento dell’azione: Multi-Moments in Time del MIT e Kinetics di DeepMind.

“Dimostriamo che è possibile integrare l’astrazione in un sistema di intelligenza artificiale per eseguire normali attività di ragionamento visivo vicino a un livello umano”, afferma l’autore senior dello studio Aude Oliva, ricercatore senior presso il MIT. “Un modello in grado di riconoscere eventi astratti fornirà previsioni logiche più accurate e sarà più utile per il processo decisionale”.

Man mano che le reti neurali profonde diventano esperte nel riconoscere oggetti e azioni in foto e video, i ricercatori hanno messo gli occhi sul prossimo traguardo: astrazione e modelli di addestramento per ragionare su ciò che vedono. In un approccio, i ricercatori hanno unito il potere di corrispondenza dei modelli delle reti profonde con la logica dei programmi simbolici per insegnare a un modello a interpretare complesse relazioni tra oggetti in una scena. Qui, in un altro approccio, i ricercatori sfruttano le relazioni incorporate nei significati delle parole per dare al loro modello un potere di ragionamento visivo.

“Le rappresentazioni linguistiche ci consentono di integrare le informazioni contestuali apprese dai database di testo nei nostri modelli visivi”, afferma il coautore dello studio Mathew Monfort. “Parole come “corsa”, “sollevamento” e “boxe” condividono alcune caratteristiche comuni che le rendono più strettamente correlate al concetto di “esercizio” o “guida”.”

machine learning mit

Le macchine possono essere addestrare a “pensare” in modo molto simile agli umani

Utilizzando WordNet, un database di significati delle parole, i ricercatori hanno mappato la relazione di ciascuna etichetta di classe di azione in Momenti e Cinetica con le altre etichette in entrambi i set di dati. Parole come “scolpire”, “intagliare” e “tagliare”, ad esempio, erano collegate a concetti di livello superiore come “artigianato”, “fare arte” e “cucina”. Ora, quando il modello riconosce un’attività come la scultura, può individuare attività concettualmente simili nel set di dati.

Questo grafico relazionale di classi astratte viene utilizzato per addestrare il modello a eseguire due attività di base. Dato un insieme di video, il modello crea una rappresentazione numerica per ogni video che si allinea con le rappresentazioni di parole delle azioni mostrate nel video. Un modulo di astrazione combina quindi le rappresentazioni generate per ciascun video nel set per creare una nuova rappresentazione del set che viene utilizzata per identificare l’astrazione condivisa da tutti i video nel set.

Per vedere come si sarebbe comportato il modello rispetto agli esseri umani, i ricercatori hanno chiesto ai soggetti umani di eseguire la stessa serie di compiti di ragionamento visivo online. Con loro sorpresa, il modello si è comportato come gli esseri umani in molti scenari, a volte con risultati inaspettati. In una variazione sull’attività di completamento dell’insieme, dopo aver visto un video di qualcuno che avvolge un regalo e copre un oggetto con nastro adesivo, il modello ha suggerito un video di qualcuno in spiaggia che seppellisce qualcun altro nella sabbia.

Le limitazioni del modello includono la tendenza a enfatizzare eccessivamente alcune caratteristiche. In un caso, ha suggerito di completare una serie di video sportivi con un video di un bambino e una palla, apparentemente associando le palle all’esercizio e alla competizione. Un modello di apprendimento profondo che può essere addestrato a “pensare” in modo più astratto potrebbe essere in grado di apprendere con meno dati, affermano i ricercatori. L’astrazione apre anche la strada a un ragionamento di livello superiore, più simile a quello umano.

“Un segno distintivo della cognizione umana è la nostra capacità di descrivere qualcosa in relazione a qualcos’altro: confrontare e contrastare”, dice Oliva. “È un modo ricco ed efficiente di apprendere che alla fine potrebbe portare a modelli di apprendimento automatico in grado di comprendere analogie e molto più vicini alla comunicazione intelligente con noi”.