google apprendimento automatico

Negli ultimi anni, le macchine sono diventate brave quasi quanto gli esseri umani, e talvolta migliori, in un’ampia gamma di abilità, ad esempio il riconoscimento di oggetti, l’elaborazione del linguaggio naturale e le diagnosi basate su immagini mediche. Eppure le macchine addestrate in questo modo continuano a commettere errori che gli esseri umani non commetterebbero mai. Ad esempio, piccole modifiche a un’immagine, che un essere umano ignorerebbe, possono costringere una macchina a etichettarla in modo errato. Ciò ha implicazioni potenzialmente gravi nelle applicazioni da cui dipendono le vite umane, come le diagnosi mediche.

Quindi gli informatici sono alla disperata ricerca di comprendere i limiti dell’apprendimento automatico in modo più dettagliato. Ora un team composto in gran parte da ingegneri informatici di Google ha identificato una debolezza completamente nuova nel cuore del processo di apprendimento automatico che porta a questi problemi. Conosciuto come sottospecificazione, il team mostra come influisce in un’ampia varietà di applicazioni di apprendimento automatico, dalla visione artificiale alla genomica medica. E dicono che i protocolli di apprendimento automatico devono essere rivisti per testare queste carenze, in particolare per le applicazioni del mondo reale.

 

Prevedere una pandemia

L’apprendimento automatico implica l’addestramento di un modello con i dati in modo che impari a individuare o prevedere le caratteristiche. Il team di Google si basa sull’esempio della formazione di un sistema di apprendimento automatico per prevedere il corso di una pandemia. Un modello di machine learning potrebbe infatti simulare l’andamento della pandemia attraversi i dati raccolti all’inizio della progressione della malattia con il potenziale di prevedere l’intera evoluzione della malattia.

Tuttavia il team di Google afferma che i parametri sono sottospecificati durante le prime fasi di una pandemia. I valori che che servono alla macchina possono portare a previsioni notevolmente diverse in seguito. Il problema sorge perché il processo di apprendimento automatico non ha modo di scegliere correttamente tra le coppie di valori. In effetti, il team di Google continua dimostrando che i parametri scelti dalla macchina possono dipendere da decisioni del tutto arbitrarie nel modo in cui è impostato il modello. I funzionari della sanità pubblica possono evitare il problema della sottospecificazione limitando il problema con informazioni aggiuntive come misurazioni reali di quanto tempo i pazienti sono infettivi e gli schemi di contatto all’interno della popolazione.

 

Scenari reali

Il team ha mostrato come si verifica la sottospecificazione in una gamma sorprendentemente ampia di scenari di apprendimento reali. Questi includono analisi di immagini mediche, diagnosi cliniche basate su cartelle cliniche elettroniche e elaborazione del linguaggio naturale. Il team di Google ha dimostrato che piccoli cambiamenti, come la modifica dei semi casuali utilizzati nella formazione, possono forzare un modello verso una soluzione completamente diversa e quindi portare a previsioni diverse. Mostrano anche come ciò possa far sì che i modelli ereditino pregiudizi nel set di dati che non hanno nulla a che fare con l’attività di previsione che stanno intraprendendo.

Inoltre, è probabile che il problema sia molto più diffuso di quanto abbia scoperto il team di Google. Il loro obiettivo era semplicemente quello di rilevare la sottospecificazione, piuttosto che caratterizzarla completamente. Quindi è probabile che abbiano sottovalutato la sua prevalenza. Se questi aspetti possono essere individuati in anticipo, ci sono vari modi per affrontare la sottospecificazione. Uno è progettare “prove di stress” per vedere quanto bene un modello si comporta su dati del mondo reale e per raccogliere potenziali problemi.

Tuttavia, ciò richiede una buona comprensione del modo in cui il modello può andare storto. È un lavoro interessante che rivela un tallone d’Achille importante e precedentemente non apprezzato nell’apprendimento automatico. Pone importanti limitazioni alla credibilità delle previsioni di machine learning e potremmo costringere a ripensare alcune applicazioni. Sarà necessaria un’attenzione particolare, in particolare laddove l’apprendimento automatico fa parte di sistemi legati al benessere umano, come le auto a guida autonoma e l’imaging medico. In questi scenari, punti ciechi relativamente piccoli nelle capacità di apprendimento automatico potrebbero avere implicazioni per la vita e la morte.

Foto di xresch da Pixabay