News

Il MIT progetta un modello di “machine learning” che riconosce le azioni quotidiane

La capacità di ragionare in modo astratto sugli eventi mentre si svolgono è una caratteristica distintiva dell’intelligenza umana. Sappiamo istintivamente che piangere e scrivere sono mezzi di comunicazione, e che un panda che cade da un albero e un aereo che atterra sono variazioni della discesa. Negli ultimi anni i ricercatori si sono avvicinati gradualmente addestrando modelli di “machine learning” su parole e immagini infuse con informazioni strutturali sul mondo e su come si relazionano oggetti, animali e azioni.

In un nuovo studio alla European Conference on Computer Vision, i ricercatori hanno svelato un modello ibrido di visione-linguaggio in grado di confrontare e contrastare una serie di eventi dinamici catturati in video per evidenziare i concetti di alto livello che li collegano. Il loro modello ha funzionato come o meglio degli umani in due tipi di compiti di ragionamento visivo: scegliere il video che concettualmente completa meglio il set e scegliere il video che non si adatta.

Ad esempio, i video mostrati di un cane che abbaia e di un uomo che ulula accanto al suo cane, il modello ha completato il set scegliendo il bambino che piange da un set di cinque video. I ricercatori hanno replicato i loro risultati su due set di dati per l’addestramento dei sistemi di intelligenza artificiale al riconoscimento dell’azione: Multi-Moments in Time del MIT e Kinetics di DeepMind.

“Dimostriamo che è possibile integrare l’astrazione in un sistema di intelligenza artificiale per eseguire normali attività di ragionamento visivo vicino a un livello umano”, afferma l’autore senior dello studio Aude Oliva, ricercatore senior presso il MIT. “Un modello in grado di riconoscere eventi astratti fornirà previsioni logiche più accurate e sarà più utile per il processo decisionale”.

Man mano che le reti neurali profonde diventano esperte nel riconoscere oggetti e azioni in foto e video, i ricercatori hanno messo gli occhi sul prossimo traguardo: astrazione e modelli di addestramento per ragionare su ciò che vedono. In un approccio, i ricercatori hanno unito il potere di corrispondenza dei modelli delle reti profonde con la logica dei programmi simbolici per insegnare a un modello a interpretare complesse relazioni tra oggetti in una scena. Qui, in un altro approccio, i ricercatori sfruttano le relazioni incorporate nei significati delle parole per dare al loro modello un potere di ragionamento visivo.

“Le rappresentazioni linguistiche ci consentono di integrare le informazioni contestuali apprese dai database di testo nei nostri modelli visivi”, afferma il coautore dello studio Mathew Monfort. “Parole come “corsa”, “sollevamento” e “boxe” condividono alcune caratteristiche comuni che le rendono più strettamente correlate al concetto di “esercizio” o “guida”.”

Le macchine possono essere addestrare a “pensare” in modo molto simile agli umani

Utilizzando WordNet, un database di significati delle parole, i ricercatori hanno mappato la relazione di ciascuna etichetta di classe di azione in Momenti e Cinetica con le altre etichette in entrambi i set di dati. Parole come “scolpire”, “intagliare” e “tagliare”, ad esempio, erano collegate a concetti di livello superiore come “artigianato”, “fare arte” e “cucina”. Ora, quando il modello riconosce un’attività come la scultura, può individuare attività concettualmente simili nel set di dati.

Questo grafico relazionale di classi astratte viene utilizzato per addestrare il modello a eseguire due attività di base. Dato un insieme di video, il modello crea una rappresentazione numerica per ogni video che si allinea con le rappresentazioni di parole delle azioni mostrate nel video. Un modulo di astrazione combina quindi le rappresentazioni generate per ciascun video nel set per creare una nuova rappresentazione del set che viene utilizzata per identificare l’astrazione condivisa da tutti i video nel set.

Per vedere come si sarebbe comportato il modello rispetto agli esseri umani, i ricercatori hanno chiesto ai soggetti umani di eseguire la stessa serie di compiti di ragionamento visivo online. Con loro sorpresa, il modello si è comportato come gli esseri umani in molti scenari, a volte con risultati inaspettati. In una variazione sull’attività di completamento dell’insieme, dopo aver visto un video di qualcuno che avvolge un regalo e copre un oggetto con nastro adesivo, il modello ha suggerito un video di qualcuno in spiaggia che seppellisce qualcun altro nella sabbia.

Le limitazioni del modello includono la tendenza a enfatizzare eccessivamente alcune caratteristiche. In un caso, ha suggerito di completare una serie di video sportivi con un video di un bambino e una palla, apparentemente associando le palle all’esercizio e alla competizione. Un modello di apprendimento profondo che può essere addestrato a “pensare” in modo più astratto potrebbe essere in grado di apprendere con meno dati, affermano i ricercatori. L’astrazione apre anche la strada a un ragionamento di livello superiore, più simile a quello umano.

“Un segno distintivo della cognizione umana è la nostra capacità di descrivere qualcosa in relazione a qualcos’altro: confrontare e contrastare”, dice Oliva. “È un modo ricco ed efficiente di apprendere che alla fine potrebbe portare a modelli di apprendimento automatico in grado di comprendere analogie e molto più vicini alla comunicazione intelligente con noi”.

Marco Inchingoli

Nato a Roma nel 1989, Marco Inchingoli ha sempre nutrito una forte passione per la scrittura. Da racconti fantasiosi su quaderni stropicciati ad articoli su riviste cartacee spinge Marco a perseguire un percorso da giornalista. Dai videogiochi - sua grande passione - al cinema, gli argomenti sono molteplici, fino all'arrivo su FocusTech dove ora scrive un po' di tutto.

Recent Posts

Depressione negli adolescenti: il legame tra risposta di ricompensa attenuata e debolezza emotiva

La depressione è un disturbo complesso che coinvolge fattori biologici, psicologici e sociali. Negli ultimi anni, la ricerca neuroscientifica ha…

23 Dicembre 2024

Misteriose luci sopra il cielo del Portogallo: un fenomeno ancora senza spiegazione

Nelle notti intorno al 9 dicembre, strane luci sono apparse nel cielo portoghese, suscitando perplessità tra residenti ed esperti. Le…

23 Dicembre 2024

Dislessia e genetica: i cambiamenti cerebrali che influenzano linguaggio, visione e movimento

La dislessia è un disturbo specifico dell'apprendimento che colpisce milioni di persone in tutto il mondo. Nonostante la sua natura…

23 Dicembre 2024

United Airlines adotta AirTag per il tracciamento bagagli: una collaborazione pionieristica con Apple

United Airlines è diventata la prima grande compagnia aerea a integrare la tecnologia AirTag di Apple per il monitoraggio e…

23 Dicembre 2024

Apple AirPods con sensori biometrici: ecco cosa riserva il futuro

Nonostante Apple abbia recentemente lanciato sul mercato due nuovi modelli di AirPods, lo sviluppo delle nuove generazioni non accenna a…

23 Dicembre 2024

Menti senza suono: quando la mente non sente alcuna voce interiore

La voce interiore, quel dialogo silenzioso che accompagna molte persone durante la giornata, è spesso considerata una caratteristica universale dell’esperienza…

22 Dicembre 2024