Il segmento dell’Intelligenza Artificiale sta letteralmente stravolgendo il nostro digital lifestyle in modi che sino a qualche anno fa erano davvero troppo lontani da una realtà che, invece, sta confermandosi come nuovo paradigma base per il lancio di una tecnologia massiva che abbraccia ogni campo di applicazione Hi-Tech, dalla telefonia mobile all’automotive, stiamo chiaramente parlando del Computer Vision.
Con Computer Vision si intendono indicare una serie di processi che mirano a creare un modello approssimato del mondo reale (in tre dimensioni) partendo da un modello bidimensionale di immagine. Lo scopo, in tal caso, è quello di replicare il processo visivo ed interpretativo umano delle immagini allo scopo di rendere automatici i processi interattivi che si realizzano su un’area di interesse ben specifica.
Per ottemperare la richiesta di un simile sistema si opta chiaramente per componenti ben specifici, che tengono conto delle implementazioni ottiche, meccaniche ed elettroniche da utilizzarsi per l’acquisizione, la registrazione e l’elaborazione delle immagini. Un chiaro esempio di questa tipologia di approccio all’interpretazione degli scenari ci è stato recentemente fornito da Google e dalle sue tecnologie di post-elaborazione avanzata delle immagini facenti capo al nuovo sistema a microprocessore PVC (Pixel VIsual Core) concepito in collaborazione con Intel Corporation per le nuove unità Google Pixel Phone 2 e Google Pixel Phone 2 XL.
Quello del Computer Vision è un segmento di mercato in continua evoluzione ed abbraccia ogni potenziale campo di applicazione tecnologico. Un report pubblicato nel 2015 da Tractica aveva già evidenziato come allora il mercato muovesse un capitale stimato in 6.6 miliardi di dollari e che, secondo le previsioni fatte, lo stesso sarebbe cresciuto esponenzialmente fino a portarsi al limite dei 48.6 miliardi entro il prossimo 2022. Un mercato che, nello specifico, vede in ordine di preferenza il segmento dell’automotive.
Si parla chiaramente dei sistemi automatici a guida autonoma, il cui paradigma di funzionamento è fortemente incentrato su un layer tecnologico di ultima generazione definito dalla SAE International Automotive come Standard di Livello 5. Uno standard in cui ogni decisione è rimessa all’Intelligenza Artificiale che equipaggia il veicolo, ora sprovvisto di di volante e pedali.
Il focus si posta poi anche nel segmento Computer Vision NVidia, in attinenza all’introduzione di nuovi progetti e componenti che, in tempi recenti, hanno portato alla presentazione del Drive PX Pegasus, un supercomputer dotato della potenza di calcolo necessaria per condurre un veicolo in piena autonomia e che riconduce ad un sistema poco ingombrante e più performante rispetto ai precedenti. Un sistema perfettamente integrato, che offre la possibilità di esaminare accuratamente lo spazio circostante garantendo l’arrivo a destinazione in tutta sicurezza.
Come visto, ad ogni modo, il campo di applicabilità del Computer Vision si rivolge anche al segmento della telefonia mobile intelligente, dove la presenza di sistemi all’avanguardia consentono di ottemperare la richiesta di una multimedialità oltre limite. Una multimedialità che conferisce un livello di potenzialità tale da assimilare uno smartphone ad un’avanzata soluzione Reflex per la gestione del comparto imaging del punta e scatta mobile.
Innovazioni significative che abbiamo visto in Google Pixel 2, dove la mancanza di un modulo Dual-Camera alla stregua delle concorrenti non ha minato le capacità di un sistema elogiato e premiato dagli esperti Dx0Mark con 98 punti su 100. Un risultato che rasenta la perfezione e che consente di ottenere dunque un livello qualitativo ed integrativo delle componenti senza precedenti.
In alternativa ala doppia fotocamera ed alla necessità di adoperare la semantic segmentation (ricostruzione selettiva dei pixel con messa a fuoco diversificata) si è optato per l’adozione di sistemi machine learning che consentissero di ricreare l’effetto bokeh in modalità Ritratto senza il doppio modulo di scatto o integrazioni particolari. Grazie a reti neurali addestrate su campioni di oltre 1 milioni di immagini, di fatto, è stato possibile insegnare ai nuovi smartphone come riconoscere la figura umana nel contesto dei Ritratti e come procedere alla messa a fuoco automatica dei soggetti in primo piano.
Nel contesto del Computer Vision Mobile, questo concetto è decisamente cruciale ed a Mountain View si medita su un contributo sempre più massivo a favore di questo nuovo paradigma tecnico di programmazione ed implementazione. Nello specifico, al momento, si parla di AVA (Atomic Visual Actions), un complesso database con più di 210mila spezzoni di film che la società utilizzerà al fine di insegnare alle macchine a riconoscere le azioni umane.
In tal senso, si parlerà di un sistema ben più complesso dell’assegnazione di un semplice label alla singola azione. Adesso, si sarà in grado di analizzare scene molto più complesse e con più soggetti in primo piano che svolgono contemporaneamente azioni diverse. AVA, in particolare, ha consentito ad oggi di identificare oltre 80 tipologie di azioni diverse derivanti dall’esame diretto di cut-scene provenienti da sceneggiati televisivi e produzioni Youtube.
Nei laboratori Google, in particolare, è stato possibile prendere in analisi azioni molto diversificate tra loro, dal camminare sino al dare calci ad un oggetto. Le produzioni, della durata di 3 secondi, sono stati esaminati prendendo in considerazione pellicole di ogni genere provenienti da ogni parte del mondo, in modo tale da diversificare lo svolgimento dell’azione in un contesto più ampio.
La fase di esame dei video è seguita ad un processo di scrematura dei filmati che da 15 minuti sono stati ridotti a soli 3 secondi. A questo punto l’intervento manuale di identificazione ha portato all’apposizione di 80 etichette volte ad identificare i comportamenti umani. Per il futuro, Google conta di arricchire questo dataset con nuovi contenuti da dare in pasto alle reti neurali nel contesto del Computer Vision.
E voi che cosa ne pensate della nuova evoluzione conferita ai sistemi digitali? Siete preoccupati dal sopraggiungere di questa nuova tecnologia da applicare globalmente ai sistemi o, invece, pensate che possa risultare essere realmente di pubblica utilità? Spazio a tutte le vostre personali considerazioni al riguardo.