Industria Tech

Computer Vision, dagli smartphone alle automobili: ecco come sta cambiando la tecnologia

Il segmento dell’Intelligenza Artificiale sta letteralmente stravolgendo il nostro digital lifestyle in modi che sino a qualche anno fa erano davvero troppo lontani da una realtà che, invece, sta confermandosi come nuovo paradigma base per il lancio di una tecnologia massiva che abbraccia ogni campo di applicazione Hi-Tech, dalla telefonia mobile all’automotive, stiamo chiaramente parlando del Computer Vision.

Con Computer Vision si intendono indicare una serie di processi che mirano a creare un modello approssimato del mondo reale (in tre dimensioni) partendo da un modello bidimensionale di immagine. Lo scopo, in tal caso, è quello di replicare il processo visivo ed interpretativo umano delle immagini allo scopo di rendere automatici i processi interattivi che si realizzano su un’area di interesse ben specifica.

Per ottemperare la richiesta di un simile sistema si opta chiaramente per componenti ben specifici, che tengono conto delle implementazioni ottiche, meccaniche ed elettroniche da utilizzarsi per l’acquisizione, la registrazione e l’elaborazione delle immagini. Un chiaro esempio di questa tipologia di approccio all’interpretazione degli scenari ci è stato recentemente fornito da Google e dalle sue tecnologie di post-elaborazione avanzata delle immagini facenti capo al nuovo sistema a microprocessore PVC (Pixel VIsual Core) concepito in collaborazione con Intel Corporation per le nuove unità Google Pixel Phone 2 e Google Pixel Phone 2 XL.

Quello del Computer Vision è un segmento di mercato in continua evoluzione ed abbraccia ogni potenziale campo di applicazione tecnologico. Un report pubblicato nel 2015 da Tractica aveva già evidenziato come allora il mercato muovesse un capitale stimato in 6.6 miliardi di dollari e che, secondo le previsioni fatte, lo stesso sarebbe cresciuto esponenzialmente fino a portarsi al limite dei 48.6 miliardi entro il prossimo 2022. Un mercato che, nello specifico, vede in ordine di preferenza il segmento dell’automotive.

Si parla chiaramente dei sistemi automatici a guida autonoma, il cui paradigma di funzionamento è fortemente incentrato su un layer tecnologico di ultima generazione definito dalla SAE International Automotive come Standard di Livello 5. Uno standard in cui ogni decisione è rimessa all’Intelligenza Artificiale che equipaggia il veicolo, ora sprovvisto di di volante e pedali.

Il focus si posta poi anche nel segmento Computer Vision NVidia, in attinenza all’introduzione di nuovi progetti e componenti che, in tempi recenti, hanno portato alla presentazione del Drive PX Pegasus, un supercomputer dotato della potenza di calcolo necessaria per condurre un veicolo in piena autonomia e che riconduce ad un sistema poco ingombrante e più performante rispetto ai precedenti. Un sistema perfettamente integrato, che offre la possibilità di esaminare accuratamente lo spazio circostante garantendo l’arrivo a destinazione in tutta sicurezza.

Come visto, ad ogni modo, il campo di applicabilità del Computer Vision si rivolge anche al segmento della telefonia mobile intelligente, dove la presenza di sistemi all’avanguardia consentono di ottemperare la richiesta di una multimedialità oltre limite. Una multimedialità che conferisce un livello di potenzialità tale da assimilare uno smartphone ad un’avanzata soluzione Reflex per la gestione del comparto imaging del punta e scatta mobile.

Innovazioni significative che abbiamo visto in Google Pixel 2, dove la mancanza di un modulo Dual-Camera alla stregua delle concorrenti non ha minato le capacità di un sistema elogiato e premiato dagli esperti Dx0Mark con 98 punti su 100. Un risultato che rasenta la perfezione e che consente di ottenere dunque un livello qualitativo ed integrativo delle componenti senza precedenti.

In alternativa ala doppia fotocamera ed alla necessità di adoperare la semantic segmentation (ricostruzione selettiva dei pixel con messa a fuoco diversificata) si è optato per l’adozione di sistemi machine learning che consentissero di ricreare l’effetto bokeh in modalità Ritratto senza il doppio modulo di scatto o integrazioni particolari. Grazie a reti neurali addestrate su campioni di oltre 1 milioni di immagini, di fatto, è stato possibile insegnare ai nuovi smartphone come riconoscere la figura umana nel contesto dei Ritratti e come procedere alla messa a fuoco automatica dei soggetti in primo piano.

Nel contesto del Computer Vision Mobile, questo concetto è decisamente cruciale ed a Mountain View si medita su un contributo sempre più massivo a favore di questo nuovo paradigma tecnico di programmazione ed implementazione. Nello specifico, al momento, si parla di AVA (Atomic Visual Actions), un complesso database con più di 210mila spezzoni di film che la società utilizzerà al fine di insegnare alle macchine a riconoscere le azioni umane.

In tal senso, si parlerà di un sistema ben più complesso dell’assegnazione di un semplice label alla singola azione. Adesso, si sarà in grado di analizzare scene molto più complesse e con più soggetti in primo piano che svolgono contemporaneamente azioni diverse. AVA, in particolare, ha consentito ad oggi di identificare oltre 80 tipologie di azioni diverse derivanti dall’esame diretto di cut-scene provenienti da sceneggiati televisivi e produzioni Youtube.

Nei laboratori Google, in particolare, è stato possibile prendere in analisi azioni molto diversificate tra loro, dal camminare sino al dare calci ad un oggetto. Le produzioni, della durata di 3 secondi, sono stati esaminati prendendo in considerazione pellicole di ogni genere provenienti da ogni parte del mondo, in modo tale da diversificare lo svolgimento dell’azione in un contesto più ampio.

La fase di esame dei video è seguita ad un processo di scrematura dei filmati che da 15 minuti sono stati ridotti a soli 3 secondi. A questo punto l’intervento manuale di identificazione ha portato all’apposizione di 80 etichette volte ad identificare i comportamenti umani. Per il futuro, Google conta di arricchire questo dataset con nuovi contenuti da dare in pasto alle reti neurali nel contesto del Computer Vision.

E voi che cosa ne pensate della nuova evoluzione conferita ai sistemi digitali? Siete preoccupati dal sopraggiungere di questa nuova tecnologia da applicare globalmente ai sistemi o, invece, pensate che possa risultare essere realmente di pubblica utilità? Spazio a tutte le vostre personali considerazioni al riguardo.

31 Ottobre 2017 08:03

Federica Vitale

Ho studiato Shakespeare all'Università e mi ritrovo a scrivere di tecnologia, smartphone, robot e accessori hi-tech da anni! La SEO? Per me è maschile, ma la rispetto ugualmente. Quando si suol dire "Sappiamo ciò che siamo ma non quello che potremmo essere" (Amleto, l'atto indovinatelo voi!)

Prossimo Vodafone effettua la prima connessione in 5G a Milano »

Precedente « iMac Pro: Apple svela il nuovo prodotto in anteprima

Le auto elettriche potrebbero presto avere un tubo di scarico
Potrebbe sembrare un paradosso, ma le auto elettriche del futuro potrebbero essere dotate di un…
Strade auto-riparanti: la tecnologia che elimina le buche
Le buche stradali rappresentano un problema globale, causando danni ai veicoli e mettendo a rischio…
I cavi sottomarini: il tallone d’Achille della connettività globale
Negli ultimi mesi, una serie di attacchi ai cavi sottomarini nel Mar Baltico ha sollevato…
I computer biologici: un futuro a basso consumo energetico
L'informatica moderna si basa su chip con miliardi di transistor, capaci di eseguire milioni di…
Il “Nuovo Concorde” supera la barriera del suono: le compagnie aeree lo vogliono già
Nei giorni scorsi è stata scritta una nuova pagina nella storia dell'aviazione commerciale. Il prototipo…
La prima videochiamata spaziale: connessione senza rete con 4G via satellite
Il gruppo Vodafone ha annunciato di aver effettuato la prima videochiamata mobile spaziale da un'area…

Alzheimer: leggere il respiro per una diagnosi precose

Il morbo di Alzheimer non è curabile, difficilmente prevedibile in quanto non si conosce appieno il percorso dietro l'origine, ma…

23 Febbraio 2025

News

Dieta volumetrica: il segreto per perdere peso senza soffrire la fame

La dieta volumetrica è un regime alimentare ideato dalla nutrizionista Barbara Rolls, basato sul principio di assumere alimenti con un…

23 Febbraio 2025

News

Mistero sul Tamigi: il segreto dei cadaveri dell’Età del Bronzo

Negli ultimi cento anni, il fondale del Tamigi ha restituito centinaia di ossa umane, portando alla luce un mistero che…

23 Febbraio 2025

News

Nuovo coronavirus nei pipistrelli scoperto in Cina: rischio per l’uomo?

Un team di ricercatori cinesi ha identificato un nuovo ceppo di coronavirus nei pipistrelli, denominato HKU5-CoV-2. La scoperta arriva dall’Istituto…

23 Febbraio 2025

Apple

iPhone 17 Pro Max: un render mostra il design in anticipo

Nonostante un nuovo iPhone sia stato presentato pochi giorni fa, sul web già si pensa ai modelli che usciranno nei…

23 Febbraio 2025

News

Sindrome post-vaccinazione Covid-19: sintomi, rischi e cosa dice la scienza

La campagna di vaccinazione contro il Covid-19 ha rappresentato un passo cruciale nella lotta alla pandemia, contribuendo in modo significativo…

23 Febbraio 2025

Computer Vision, dagli smartphone alle automobili: ecco come sta cambiando la tecnologia

Potrebbe interessarti anche

Recent Posts

Alzheimer: leggere il respiro per una diagnosi precose

Dieta volumetrica: il segreto per perdere peso senza soffrire la fame

Mistero sul Tamigi: il segreto dei cadaveri dell’Età del Bronzo

Nuovo coronavirus nei pipistrelli scoperto in Cina: rischio per l’uomo?

iPhone 17 Pro Max: un render mostra il design in anticipo

Sindrome post-vaccinazione Covid-19: sintomi, rischi e cosa dice la scienza