News

Il MIT progetta un modello di “machine learning” che riconosce le azioni quotidiane

La capacità di ragionare in modo astratto sugli eventi mentre si svolgono è una caratteristica distintiva dell’intelligenza umana. Sappiamo istintivamente che piangere e scrivere sono mezzi di comunicazione, e che un panda che cade da un albero e un aereo che atterra sono variazioni della discesa. Negli ultimi anni i ricercatori si sono avvicinati gradualmente addestrando modelli di “machine learning” su parole e immagini infuse con informazioni strutturali sul mondo e su come si relazionano oggetti, animali e azioni.

In un nuovo studio alla European Conference on Computer Vision, i ricercatori hanno svelato un modello ibrido di visione-linguaggio in grado di confrontare e contrastare una serie di eventi dinamici catturati in video per evidenziare i concetti di alto livello che li collegano. Il loro modello ha funzionato come o meglio degli umani in due tipi di compiti di ragionamento visivo: scegliere il video che concettualmente completa meglio il set e scegliere il video che non si adatta.

Ad esempio, i video mostrati di un cane che abbaia e di un uomo che ulula accanto al suo cane, il modello ha completato il set scegliendo il bambino che piange da un set di cinque video. I ricercatori hanno replicato i loro risultati su due set di dati per l’addestramento dei sistemi di intelligenza artificiale al riconoscimento dell’azione: Multi-Moments in Time del MIT e Kinetics di DeepMind.

“Dimostriamo che è possibile integrare l’astrazione in un sistema di intelligenza artificiale per eseguire normali attività di ragionamento visivo vicino a un livello umano”, afferma l’autore senior dello studio Aude Oliva, ricercatore senior presso il MIT. “Un modello in grado di riconoscere eventi astratti fornirà previsioni logiche più accurate e sarà più utile per il processo decisionale”.

Man mano che le reti neurali profonde diventano esperte nel riconoscere oggetti e azioni in foto e video, i ricercatori hanno messo gli occhi sul prossimo traguardo: astrazione e modelli di addestramento per ragionare su ciò che vedono. In un approccio, i ricercatori hanno unito il potere di corrispondenza dei modelli delle reti profonde con la logica dei programmi simbolici per insegnare a un modello a interpretare complesse relazioni tra oggetti in una scena. Qui, in un altro approccio, i ricercatori sfruttano le relazioni incorporate nei significati delle parole per dare al loro modello un potere di ragionamento visivo.

“Le rappresentazioni linguistiche ci consentono di integrare le informazioni contestuali apprese dai database di testo nei nostri modelli visivi”, afferma il coautore dello studio Mathew Monfort. “Parole come “corsa”, “sollevamento” e “boxe” condividono alcune caratteristiche comuni che le rendono più strettamente correlate al concetto di “esercizio” o “guida”.”

Le macchine possono essere addestrare a “pensare” in modo molto simile agli umani

Utilizzando WordNet, un database di significati delle parole, i ricercatori hanno mappato la relazione di ciascuna etichetta di classe di azione in Momenti e Cinetica con le altre etichette in entrambi i set di dati. Parole come “scolpire”, “intagliare” e “tagliare”, ad esempio, erano collegate a concetti di livello superiore come “artigianato”, “fare arte” e “cucina”. Ora, quando il modello riconosce un’attività come la scultura, può individuare attività concettualmente simili nel set di dati.

Questo grafico relazionale di classi astratte viene utilizzato per addestrare il modello a eseguire due attività di base. Dato un insieme di video, il modello crea una rappresentazione numerica per ogni video che si allinea con le rappresentazioni di parole delle azioni mostrate nel video. Un modulo di astrazione combina quindi le rappresentazioni generate per ciascun video nel set per creare una nuova rappresentazione del set che viene utilizzata per identificare l’astrazione condivisa da tutti i video nel set.

Per vedere come si sarebbe comportato il modello rispetto agli esseri umani, i ricercatori hanno chiesto ai soggetti umani di eseguire la stessa serie di compiti di ragionamento visivo online. Con loro sorpresa, il modello si è comportato come gli esseri umani in molti scenari, a volte con risultati inaspettati. In una variazione sull’attività di completamento dell’insieme, dopo aver visto un video di qualcuno che avvolge un regalo e copre un oggetto con nastro adesivo, il modello ha suggerito un video di qualcuno in spiaggia che seppellisce qualcun altro nella sabbia.

Le limitazioni del modello includono la tendenza a enfatizzare eccessivamente alcune caratteristiche. In un caso, ha suggerito di completare una serie di video sportivi con un video di un bambino e una palla, apparentemente associando le palle all’esercizio e alla competizione. Un modello di apprendimento profondo che può essere addestrato a “pensare” in modo più astratto potrebbe essere in grado di apprendere con meno dati, affermano i ricercatori. L’astrazione apre anche la strada a un ragionamento di livello superiore, più simile a quello umano.

“Un segno distintivo della cognizione umana è la nostra capacità di descrivere qualcosa in relazione a qualcos’altro: confrontare e contrastare”, dice Oliva. “È un modo ricco ed efficiente di apprendere che alla fine potrebbe portare a modelli di apprendimento automatico in grado di comprendere analogie e molto più vicini alla comunicazione intelligente con noi”.

Tags: computermachine learningmitmodello

3 Settembre 2020 20:00

Marco Inchingoli

Nato a Roma nel 1989, Marco Inchingoli ha sempre nutrito una forte passione per la scrittura. Da racconti fantasiosi su quaderni stropicciati ad articoli su riviste cartacee spinge Marco a perseguire un percorso da giornalista. Dai videogiochi - sua grande passione - al cinema, gli argomenti sono molteplici, fino all'arrivo su FocusTech dove ora scrive un po' di tutto.

Prossimo Marte, ecco le straordinarie immagini di un "diavolo di sabbia" »

Precedente « Postbiotici, cosa sono e perché sono così importanti per l'organismo?

La nuova Stazione Meteo ORIGINAL combina un’estetica distintiva con tecnologie di misurazione ambientale all’avanguardia
Tredici anni fa, Netatmo lanciava sul mercato il suo primo prodotto: la Stazione Meteo. Un…
L’Esercizio Fisico Può Riprogrammare le Cellule Cerebrali Colpite dall’Alzheimer
Un nuovo studio scientifico lancia un messaggio di speranza nella lotta contro l’Alzheimer: l’esercizio fisico…
Pagamenti In Criptovaluta Nei Casinò Online: Perché Le Monete Digitali Stanno Guadagnando Terreno
L'evoluzione dei casinò online è stata caratterizzata da una spinta continua all'innovazione: transazioni più veloci,…
Aurora: l’IA che prevede disastri naturali in anticipo, spendendo meno
Il futuro delle previsioni climatiche è arrivato. Si chiama Aurora ed è un modello di…
Recensione Steel Seed: un mix tra azione e furtività
Steel Seed è il nuovo progetto dello studio italiano Storm in a Teacup, già noto…
Guida completa alla progettazione delle schede elettroniche personalizzate: le best practice da conoscere
La progettazione delle schede elettroniche rappresenta una fase strategica e delicata legata ad ogni tipologia…

Il Tuo Respiro Rivela Chi Sei: Identità e Salute Mentale nei Tuoi Schemi Respiratori

Il modo in cui respiriamo potrebbe dire molto più di quanto pensiamo. Secondo ricerche scientifiche recenti, ogni persona ha uno…

16 Giugno 2025

News

Aurora: l’IA che prevede disastri naturali in anticipo, spendendo meno

Il futuro delle previsioni climatiche è arrivato. Si chiama Aurora ed è un modello di intelligenza artificiale capace di anticipare…

16 Giugno 2025

News

Colori primari, secondari e terziari: cosa sono, come funzionano e perché sono diversi

La teoria del colore è alla base dell’arte, del design e della stampa. Ma cosa si intende davvero per colori…

16 Giugno 2025

News

L’Esercizio Fisico Può Riprogrammare le Cellule Cerebrali Colpite dall’Alzheimer

Un nuovo studio scientifico lancia un messaggio di speranza nella lotta contro l’Alzheimer: l’esercizio fisico regolare potrebbe aiutare il cervello…

16 Giugno 2025

News

La nuova Stazione Meteo ORIGINAL combina un’estetica distintiva con tecnologie di misurazione ambientale all’avanguardia

Tredici anni fa, Netatmo lanciava sul mercato il suo primo prodotto: la Stazione Meteo. Un dispositivo che non solo apriva…

16 Giugno 2025

WhatsApp: arrivano i riassunti delle chat con l’AI

WhatsApp ha appena portato in campo una novità molto interessante basata sull'AI, i riassunti delle chat! Da ora in poi…

15 Giugno 2025

Il MIT progetta un modello di “machine learning” che riconosce le azioni quotidiane

Le macchine possono essere addestrare a “pensare” in modo molto simile agli umani

Potrebbe interessarti anche

Recent Posts

Il Tuo Respiro Rivela Chi Sei: Identità e Salute Mentale nei Tuoi Schemi Respiratori

Aurora: l’IA che prevede disastri naturali in anticipo, spendendo meno

Colori primari, secondari e terziari: cosa sono, come funzionano e perché sono diversi

L’Esercizio Fisico Può Riprogrammare le Cellule Cerebrali Colpite dall’Alzheimer

La nuova Stazione Meteo ORIGINAL combina un’estetica distintiva con tecnologie di misurazione ambientale all’avanguardia

WhatsApp: arrivano i riassunti delle chat con l’AI