L’apprendimento automatico è in grado di fare di tutto, purché si abbiano i dati necessari per dargli istruzioni. Questo compito non è sempre facile, e i ricercatori sono costantemente alla ricerca di un modo per aggiungere un po’ di senso pratico all’intelligenza artificiale in modo da non doverle mostrare 500 foto di un gatto prima che lo capisca. L’ultima ricerca di Facebook compie un grande passo avanti verso la riduzione del collo di bottiglia dei dati per la visione artificiale.
In che modo la visione artificiale potrebbe evolversi
Il formidabile dipartimento di ricerca sull’intelligenza artificiale della società sta lavorando da anni a un modo per far evolvere gli algoritmi avanzati di visione artificiale e ha fatto progressi costanti, generalmente condivisi con il resto della comunità di ricerca. Uno degli sviluppi più interessanti che Facebook ha perseguito è il cosiddetto apprendimento semi-supervisionato. Generalmente, quando si pensa all’addestramento dell’intelligenza artificiale, si pensa a qualcosa come le già citate 500 immagini di gatti, che sono state selezionate ed etichettate (il che può significare delineare il profilo del gatto, mettere una scatola intorno al gatto o semplicemente riconoscere la presenza di un gatto) in modo che il sistema di apprendimento automatico possa preparare un algoritmo per automatizzare il processo di riconoscimento dei gatti.
L’apprendimento semi-supervisionato, correlato all’apprendimento non supervisionato, consiste nel comprendere le parti principali di un set di dati senza alcun dato etichettato. Non si tratta solo di un apprendimento casuale, ma è dotato di una struttura; per esempio, immaginiamo di assegnare al sistema un migliaio di frasi da studiare, poi altre 10 con diverse parole mancanti. Il sistema sarebbe probabilmente in grado di riempire gli spazi vuoti solo sulla base di ciò che ha visto nelle precedenti mille, ma questo compito non è così facile da svolgere con immagini e video, che non sono così semplici o prevedibili.
Come funziona il progetto ipotizzato da Facebook
I ricercatori di Facebook hanno dimostrato che si tratta di un’impresa possibile e molto efficace. Il sistema DINO (che sta per DIstillation of knowledge with NO labels) è in grado di imparare a trovare agevolmente gli oggetti di interesse nei video che ritraggono persone, animali e oggetti senza alcun dato etichettato. Il sistema considera il video non come una sequenza di immagini da analizzare una per una in ordine, ma come un insieme complesso e interconnesso, in modo analogo alla differenza tra una serie di parole e una frase. Osservando il centro e la fine del video così come l’inizio, l’operatore può farsi un’idea delle cose, ad esempio comprendere come un oggetto con una data forma generica si sposta da sinistra a destra.
Questa informazione alimenta altre conoscenze, ad esempio un oggetto a destra si sovrappone al primo; il sistema sa che queste informazioni non sono la stessa cosa, ma che in quei fotogrammi si toccano. Questa conoscenza, a sua volta può essere applicata, ad altre situazioni. Naturalmente, Facebook ha bisogno di un sistema di analisi rapido e valido per i suoi numerosi prodotti legati alle immagini, siano essi aperti al pubblico o segreti, ma questi progressi generali nel mondo della visione artificiale saranno senza dubbio accolti dalla comunità di sviluppatori per diversi scopi.