I cosiddetti modelli neurosimbolici, che combinano algoritmi con tecniche di ragionamento simbolico, sembrano essere molto più adatti a prevedere, spiegare e considerare le possibilità controfattuali rispetto alle reti neurali. Tuttavia, i ricercatori di DeepMind sostengono che le reti neurali possono superare i modelli neurosimbolici se sottoposte a test nelle condizioni adatte.
In un articolo provvisorio, i coautori dello studio descrivono un’architettura per il ragionamento spazio-temporale sui video in cui l’apprendimento di tutti i componenti e la distribuzione di tutte le rappresentazioni intermedie avvengono attraverso gli strati della rete neurale. Il team spiega che questa architettura supera le prestazioni dei modelli neurosimbolici per quanto riguarda tutte le domande contenute in un set di dati popolari, in particolar modo nelle domande controfattuali.
La ricerca di DeepMind potrebbe avere implicazioni per lo sviluppo di macchine capaci di riflettere sulle loro esperienze. Secondo gli studiosi, contrariamente alle conclusioni di alcuni studi precedenti, i modelli basati esclusivamente su rappresentazioni distribuite possono effettivamente svolgere bene i compiti visivi che misurano funzioni cognitive di alto livello, almeno nella misura in cui superano i modelli neurosimbolici esistenti.
L’architettura di rete neurale proposta nel documento fa leva sull’attenzione per integrare efficacemente le informazioni. L’attenzione è il meccanismo con cui l’algoritmo si concentra su un singolo elemento o su pochi elementi alla volta; è autosorvegliata, il che significa che il modello deve dedurre gli oggetti occultati nei video utilizzando le dinamiche sottostanti per estrarre un numero maggiore di informazioni. L’architettura assicura che gli elementi visivi nei video corrispondano agli oggetti fisici, un passo che, secondo i ricercatori, è essenziale per ottenere un ragionamento di livello superiore.
Secondo il team di ricerca, la loro rete neurale ha eguagliato le prestazioni dei migliori modelli neurosimbolici senza alcuna formazione preliminare né dati etichettati e con il 40% in meno di dati di formazione, sfidando l’idea che le reti neurali richiedano una maggior quantità di dati rispetto ai modelli neurosimbolici. Inoltre, essa ha ottenuto un punteggio del 59,8% nelle domande controfattuali più difficili e ha generalizzato ad altri compiti, tra cui quelli da eseguire in CATER, un set di dati video per il tracciamento di oggetti in cui l’obiettivo è prevedere la posizione di un oggetto target nel fotogramma finale.
L'istruzione supplementare e la formazione continua sono temi spesso associati al miglioramento delle competenze professionali e alla crescita personale, ma…
Una svolta nel campo della visione artificiale potrebbe cambiare per sempre la capacità di droni, veicoli autonomi e robot di…
La percezione tattile è una delle capacità sensoriali più affascinanti e complesse dell'essere umano, permettendoci di interpretare il mondo circostante…
La lettura è molto più che un semplice passatempo: essa può influenzare profondamente il nostro benessere psicologico, in modi spesso…
Dato il grandissimo successo Panasonic Lumix S5, l'azienda orientale negli ultimi anni ha pensato di mettere a disposizione del pubblico…
Recenti scoperte scientifiche hanno portato nuove speranze per chi soffre della malattia di Huntington, nota anche come “danza di San…