I cosiddetti modelli neurosimbolici, che combinano algoritmi con tecniche di ragionamento simbolico, sembrano essere molto più adatti a prevedere, spiegare e considerare le possibilità controfattuali rispetto alle reti neurali. Tuttavia, i ricercatori di DeepMind sostengono che le reti neurali possono superare i modelli neurosimbolici se sottoposte a test nelle condizioni adatte.
Il nuovo studio dimostra la supremazia delle reti neurali rispetto ai modelli neurosimbolici
In un articolo provvisorio, i coautori dello studio descrivono un’architettura per il ragionamento spazio-temporale sui video in cui l’apprendimento di tutti i componenti e la distribuzione di tutte le rappresentazioni intermedie avvengono attraverso gli strati della rete neurale. Il team spiega che questa architettura supera le prestazioni dei modelli neurosimbolici per quanto riguarda tutte le domande contenute in un set di dati popolari, in particolar modo nelle domande controfattuali.
La ricerca di DeepMind potrebbe avere implicazioni per lo sviluppo di macchine capaci di riflettere sulle loro esperienze. Secondo gli studiosi, contrariamente alle conclusioni di alcuni studi precedenti, i modelli basati esclusivamente su rappresentazioni distribuite possono effettivamente svolgere bene i compiti visivi che misurano funzioni cognitive di alto livello, almeno nella misura in cui superano i modelli neurosimbolici esistenti.
Tutto si basa su algoritmi e insieme di dati
L’architettura di rete neurale proposta nel documento fa leva sull’attenzione per integrare efficacemente le informazioni. L’attenzione è il meccanismo con cui l’algoritmo si concentra su un singolo elemento o su pochi elementi alla volta; è autosorvegliata, il che significa che il modello deve dedurre gli oggetti occultati nei video utilizzando le dinamiche sottostanti per estrarre un numero maggiore di informazioni. L’architettura assicura che gli elementi visivi nei video corrispondano agli oggetti fisici, un passo che, secondo i ricercatori, è essenziale per ottenere un ragionamento di livello superiore.
Secondo il team di ricerca, la loro rete neurale ha eguagliato le prestazioni dei migliori modelli neurosimbolici senza alcuna formazione preliminare né dati etichettati e con il 40% in meno di dati di formazione, sfidando l’idea che le reti neurali richiedano una maggior quantità di dati rispetto ai modelli neurosimbolici. Inoltre, essa ha ottenuto un punteggio del 59,8% nelle domande controfattuali più difficili e ha generalizzato ad altri compiti, tra cui quelli da eseguire in CATER, un set di dati video per il tracciamento di oggetti in cui l’obiettivo è prevedere la posizione di un oggetto target nel fotogramma finale.