News

Il MIT progetta un modello di “machine learning” che riconosce le azioni quotidiane

La capacità di ragionare in modo astratto sugli eventi mentre si svolgono è una caratteristica distintiva dell’intelligenza umana. Sappiamo istintivamente che piangere e scrivere sono mezzi di comunicazione, e che un panda che cade da un albero e un aereo che atterra sono variazioni della discesa. Negli ultimi anni i ricercatori si sono avvicinati gradualmente addestrando modelli di “machine learning” su parole e immagini infuse con informazioni strutturali sul mondo e su come si relazionano oggetti, animali e azioni.

In un nuovo studio alla European Conference on Computer Vision, i ricercatori hanno svelato un modello ibrido di visione-linguaggio in grado di confrontare e contrastare una serie di eventi dinamici catturati in video per evidenziare i concetti di alto livello che li collegano. Il loro modello ha funzionato come o meglio degli umani in due tipi di compiti di ragionamento visivo: scegliere il video che concettualmente completa meglio il set e scegliere il video che non si adatta.

Ad esempio, i video mostrati di un cane che abbaia e di un uomo che ulula accanto al suo cane, il modello ha completato il set scegliendo il bambino che piange da un set di cinque video. I ricercatori hanno replicato i loro risultati su due set di dati per l’addestramento dei sistemi di intelligenza artificiale al riconoscimento dell’azione: Multi-Moments in Time del MIT e Kinetics di DeepMind.

“Dimostriamo che è possibile integrare l’astrazione in un sistema di intelligenza artificiale per eseguire normali attività di ragionamento visivo vicino a un livello umano”, afferma l’autore senior dello studio Aude Oliva, ricercatore senior presso il MIT. “Un modello in grado di riconoscere eventi astratti fornirà previsioni logiche più accurate e sarà più utile per il processo decisionale”.

Man mano che le reti neurali profonde diventano esperte nel riconoscere oggetti e azioni in foto e video, i ricercatori hanno messo gli occhi sul prossimo traguardo: astrazione e modelli di addestramento per ragionare su ciò che vedono. In un approccio, i ricercatori hanno unito il potere di corrispondenza dei modelli delle reti profonde con la logica dei programmi simbolici per insegnare a un modello a interpretare complesse relazioni tra oggetti in una scena. Qui, in un altro approccio, i ricercatori sfruttano le relazioni incorporate nei significati delle parole per dare al loro modello un potere di ragionamento visivo.

“Le rappresentazioni linguistiche ci consentono di integrare le informazioni contestuali apprese dai database di testo nei nostri modelli visivi”, afferma il coautore dello studio Mathew Monfort. “Parole come “corsa”, “sollevamento” e “boxe” condividono alcune caratteristiche comuni che le rendono più strettamente correlate al concetto di “esercizio” o “guida”.”

Le macchine possono essere addestrare a “pensare” in modo molto simile agli umani

Utilizzando WordNet, un database di significati delle parole, i ricercatori hanno mappato la relazione di ciascuna etichetta di classe di azione in Momenti e Cinetica con le altre etichette in entrambi i set di dati. Parole come “scolpire”, “intagliare” e “tagliare”, ad esempio, erano collegate a concetti di livello superiore come “artigianato”, “fare arte” e “cucina”. Ora, quando il modello riconosce un’attività come la scultura, può individuare attività concettualmente simili nel set di dati.

Questo grafico relazionale di classi astratte viene utilizzato per addestrare il modello a eseguire due attività di base. Dato un insieme di video, il modello crea una rappresentazione numerica per ogni video che si allinea con le rappresentazioni di parole delle azioni mostrate nel video. Un modulo di astrazione combina quindi le rappresentazioni generate per ciascun video nel set per creare una nuova rappresentazione del set che viene utilizzata per identificare l’astrazione condivisa da tutti i video nel set.

Per vedere come si sarebbe comportato il modello rispetto agli esseri umani, i ricercatori hanno chiesto ai soggetti umani di eseguire la stessa serie di compiti di ragionamento visivo online. Con loro sorpresa, il modello si è comportato come gli esseri umani in molti scenari, a volte con risultati inaspettati. In una variazione sull’attività di completamento dell’insieme, dopo aver visto un video di qualcuno che avvolge un regalo e copre un oggetto con nastro adesivo, il modello ha suggerito un video di qualcuno in spiaggia che seppellisce qualcun altro nella sabbia.

Le limitazioni del modello includono la tendenza a enfatizzare eccessivamente alcune caratteristiche. In un caso, ha suggerito di completare una serie di video sportivi con un video di un bambino e una palla, apparentemente associando le palle all’esercizio e alla competizione. Un modello di apprendimento profondo che può essere addestrato a “pensare” in modo più astratto potrebbe essere in grado di apprendere con meno dati, affermano i ricercatori. L’astrazione apre anche la strada a un ragionamento di livello superiore, più simile a quello umano.

“Un segno distintivo della cognizione umana è la nostra capacità di descrivere qualcosa in relazione a qualcos’altro: confrontare e contrastare”, dice Oliva. “È un modo ricco ed efficiente di apprendere che alla fine potrebbe portare a modelli di apprendimento automatico in grado di comprendere analogie e molto più vicini alla comunicazione intelligente con noi”.

Marco Inchingoli

Nato a Roma nel 1989, Marco Inchingoli ha sempre nutrito una forte passione per la scrittura. Da racconti fantasiosi su quaderni stropicciati ad articoli su riviste cartacee spinge Marco a perseguire un percorso da giornalista. Dai videogiochi - sua grande passione - al cinema, gli argomenti sono molteplici, fino all'arrivo su FocusTech dove ora scrive un po' di tutto.

Recent Posts

Jomo: il piacere di perdersi le cose per ritrovare sé stessi

Negli ultimi anni, il termine "FOMO" (Fear of Missing Out) è diventato incredibilmente popolare, rappresentando la paura di perdersi qualcosa…

20 Settembre 2024

Le Antiche Unità di Misura: Verga e Cubito nel Medioevo Portoghese

Nel Medioevo, le unità di misura che conosciamo oggi come il metro o il centimetro non esistevano. In Portogallo, durante…

20 Settembre 2024

Nuovo effetto collaterale dello Xilitolo: cosa sapere per proteggere la salute intestinale

Lo xilitolo, un sostituto dello zucchero molto popolare, è spesso elogiato per i suoi benefici, in particolare per la salute…

20 Settembre 2024

Ruolo del rilascio di serotonina nella depressione: nuove scoperte per il trattamento

Il ruolo della serotonina nella depressione è stato a lungo un tema di interesse scientifico e medico. Per decenni, la serotonina…

19 Settembre 2024

Recensione Huawei Watch GT 5: eleganza e qualità alla portata di tutti

Huawei Watch GT 5 è il nuovo smartwatch di fascia medio-alta dell'azienda cinese, capace di mettere a disposizione del consumatore…

19 Settembre 2024

Il mistero del cromosoma Y: la nostra specie è a rischio estinzione?

Il cromosoma Y, custode dei geni che determinano le caratteristiche maschili, sta vivendo un lento declino. Nel corso dell'evoluzione, ha…

19 Settembre 2024