Artificial Intelligence Company Journey – Primo step: Data Management


I dati sono la linfa vitale degli algoritmi di artificial intelligence. La loro affidabilità, in termini di disponibilità, qualità e robustezza, è uno dei maggiori problemi per le aziende che vogliono investire in intelligenza artificiale. Come affrontare queste criticità e mettere le basi per una soluzione AI di successo?

Identificato da Gartner come uno dei nuovi trend tecnologici su cui le imprese investiranno nei prossimi anni, l’artificial intelligence inizia ad essere un tema caldo.

Con una storia pluridecennale di ricerca e sviluppo in ambito accademico, ispirazione per tanti best sellers di fantascienza, l’intelligenza artificiale  inizia a prendere piede anche nelle aziende. Oltre al crescente numero di startup che in questi ultimi anni stanno nascendo intorno a progetti AI, crescono anche le iniziative su questa tecnologia nell’ambito di grandi realtà aziendali.

Di questo si è parlato nella prima edizione dell’Osservatorio Artificial Intelligence della School of Management del Politecnico di Milano, tenutasi lo scorso 12 Febbraio.

A livello internazionale sono molte le imprese che stanno investendo in progetti AI, mentre in Italia purtroppo le applicazioni sono molto ridotte, anche rispetto ad altri paesi europei come Germania e Francia, ma comunque in crescita.

La maggior parte dei progetti di intelligenza artificiale in Italia si concentra nei settori delle banche, finanza e assicurazioni (17%), automotive (17%), energia (13%), logistica (10%) e telco (10%).

La ricerca dell’Osservatorio ha individuato 8 classi di soluzioni di AI, su cui le aziende stanno maggiormente investendo:

  • Autonomous vehicle – soluzioni che vanno a supportare mezzi di trasporto persone e merci (via aria, acqua e terra), mezzi in grado di interagire in modo autonomo con l’ambiente circostanze e mettere in atto dei comportamenti che permettano di svolgere le attività per le quali sono sfruttati
  • Autonomous Robot – robot in grado di muoversi all’interno dello spazio, interamente o con delle parti di essi, ma anche robot che sono in grado di manipolare oggetti ed interagire con l’ambiente esterno
  • Intelligence Object – oggetti che non si muovono nell’ambiente ma che interagiscono con esso con sensori; raccolgono informazioni con sensori, telecamere e microfoni ed in base ad i dati raccolti sono in grado, tramite degli attuatori, di svolgere una qualche funzione (dall’interazione con la persona, ad impianti/sistemi dell’ambiente circostanti); rientrano in questa classe per esempio occhiali intelligenti, valigia intelligente, videocamere/oggetti di supporto alla vita quotidiana
  • Virtual Assistant/Chatbot –agenti software che mediante linguaggio naturale, sia parlato che scritto, interagiscono con gli utenti di un servizio; il chat bot può assolvere completamente l’intero processo o essere solo un primo contatto con il cliente
  • Recommendation – motori in grado di analizzare informazioni che il cliente/prospect fornisce in modo consapevole o inconsapevole durante il suo percorso di acquisto, ed in base alle scelte che fa l’algoritmo è in grado di suggerire alternative piuttosto che guidarlo fino all’acquisto del prodotto/servizio oggetto di analisi
  • Image Processing – un elemento che coinvolge prevalentemente due ambiti differenti, il primo atto ad identificare oggetti e persone all’interno di immagini, statiche o sequenze, il secondo invece è rivolto ad applicazioni legate al mondo della biometria, identificazione del volto, dell’iride o di altri aspetti del volto
  • Language Processing – obiettivo è quello di comprendere, interagendo con l’utente, tramite il linguaggio, alcuni aspetti, per esempio l’inflessione del linguaggio, le emozioni che questa interazione produce, piuttosto che la capacità di rielaborare le info per produrre testi o altre tipologie di dati
  • Intelligent data processing – applicazioni che vanno a supportare alcuni specifici ambiti di interesse: da strumenti di analisi predittiva, a strumenti che vanno a monitorare sistemi di controllo fisici o virtuali, da impianti di produzione, ad ambiti differenti, che vanno ad attuare azioni in modo autonomo; sono esempi di Intelligent Data Processing, quelle applicazioni che supportano funzioni di design e sviluppo prodotti

Nella definizione di percorsi di sviluppo di soluzioni AI, il primo ostacolo che le imprese devono affrontare è la gestione del patrimonio informativo e dei propri dati essenziali per il training e testing degli algoritmi.

Pillars of AI Applications

“Pillars of AI Applications “-  Milind Tambe,  Founding Co-director, CAIS Center for Artificial Inteligence in Society

Spesso però le aziende non si rendono conto dell’importanza di dati validi finché non hanno già avviato i loro progetti di intelligenza artificiale. Secondo un sondaggio condotto da Forrester lo scorso anno, solo il 17% delle aziende intervistate ha coscienza della necessità di avere una raccolta di informazioni ben curata prima di poter attivare un sistema di intelligenza artificiale.

Dei dati è importante che l’azienda ne curi la disponibilità, la completezza e la qualità: problemi che dovessero sorgere in questi ambiti rischierebbero di far deragliare i progetti di intelligenza artificiale.

Disponibilità

L’analisi del patrimonio dei dati forzato dall’imminente applicazione normativa del GDPR ha evidenziato che molte aziende hanno una distribuzione eterogenea e frammentata dei dati, spesso storicizzati in silos applicativi non connessi (ad esempio dati finanziari in un Finance Tool, i contatti nel CRM, le transazioni di acquisto nell’e-commerce, dati di magazzino nell’ERP, dati di processo nel PLM, etc…).

Nell’era digitale i sistemi di tracciabilità dei dati a cui le aziende possono affidarsi per raccogliere informazioni sono tantissimi ed in continua crescita. Dati non strutturati, video, dati che provengono dai social media, dai dispositivi connessi, etc…  Secondo IDC, la generazione globale di dati passerà da 16 zettabyte (essenzialmente 16 trilioni di gigabyte) a 160 zettabyte nei prossimi dieci anni, con una crescita annuale del 30%.

Per supportare questo processo è necessaria una infrastruttura architetturale solida, che permetta di raccogliere dati consistenti tra loro integrati.

Completezza 

Il problema della completezza dell’informazione è essenziale per fornire all’algoritmo un dataset abbastanza completo da riflettere il mondo reale.

Si pensi per esempio alle app di mappe stradali. Google per sviluppare Maps aveva finanziato una flotta di auto che hanno guidato e mappato digitalmente ogni strada. Combinando le immagini digitali con le mappe satellitari ed altre fonti hanno reso possibile lo sviluppo di un’applicazione che ormai è entrata nella quotidianità di tutti noi.

Senza un dataset completo delle mappe ed interazione con il satellite l’algoritmo non sarebbe in grado di elaborare il tragitto più veloce tra due punti.

Qualità

La qualità del dato si compone di molteplici sfaccettature.

Sicuramente un aspetto critico per le applicazioni di intelligenza artificiale è riuscire ad epurare il dataset da eventuali pregiudizi che riflettono qualsiasi tipo di discriminazione (di razza, di genere, di età, etc…)

Due anni fa fece scandalo l’algoritmo di ricerca di immagini chiave di Google, che ha dovuto censurare le ricerche per parole chiave come “gorilla” e “scimpanzé” perché restituiva foto di afro-americani.

Ma di qualità del dato si parla anche in relazione a possibili errori che andrebbero ad influire negativamente sul processo decisionale dell’algoritmo.

Si pensi per esempio ad un cliente che mente sulla propria data di nascita in fase di registrazione, oppure agli errori di un sensore difettoso che un giorno fornisce dati buoni ed il giorno dopo dati terribili.

Il controllo qualità del dato diventa dunque una pratica cruciale nelle realtà che sui dati basano le loro decisioni, ed è fondamentale per quelle che investono in artificial intelligence.

E’ il caso per esempio della piattaforma AI di KenSci che formula raccomandazioni sanitarie per medici e compagnie assicurative sulla base dell’elaborazione dei dati di cartelle cliniche di pazienti in tutto il mondo.

Il sistema elabora milioni di cartelle cliniche da organizzazioni partner in tutto il mondo. Il problema della qualità del dato raccolto nelle cartelle cliniche è cruciale per generare una corretta predizione. Per ovviare questo problema l’azienda ha un team interno di medici dedicato al controllo qualità dei dati generati dall’intelligenza artificiale, e comunque delega sempre al medico fruitore del servizio la valutazione finale di quanto prodotto. In sostanza l’algoritmo sottopone dei suggerimenti ai medici che hanno poi la responsabilità di decidere in autonomia su come agire.

Una buona pratica per evidenziare possibili errori o fake data è la triangolazione delle fonti dei dati: verificando il dato su più fonti si può associare al dato un indice di affidabilità.

Conformità

Il GDPR ha anche sollevato un problema di conformità del dato: il solo accesso ai dati non garantisce di poterli usare come si desidera.

Inoltre il regolamento richiede che la logica di elaborazione del dato inferito deve essere tracciato: questo comporta un grosso problema per le aziende che sviluppano applicazioni AI, che stanno lavorando a sistemi di tracciabilità capaci di generare alberature logiche comprensibili anche ad utenti senza competenze tecniche.

Come ZeraTech può aiutarti:

La maggior parte delle aziende oggi deve sviluppare le proprie tecnologie e competenze per preparare i dati all’utilizzo nei sistemi di intelligenza artificiale.

Ai problemi di sicurezza (per cui diventa critico preservare il patrimonio dei dataset aziendali) , architetturali (per rendere fruibile in modo veloce e  consistente il dato), e di interpretazione del dato (data sense essenziale per implementare logiche di Data Engineering, Machine Learnings e Business Analytics)  si aggiungono anche i problemi di controllo di qualità e completezza dell’informazione.

Sosteniamo i CDM (chief data manager ) nello sviluppo all’interno dell’azienda di una Data Intelligence Practice che permetta, integrando le potenzialità strutturali e le competenze interpretative, di favorire la qualità e la completezza delle informazioni.

Supportiamo e guidiamo le direzioni IT nel rendere più affidabile le catene di trasformazione e fruizione del dato, nella scelta degli strumenti e delle strategie di data management più appropriati per abilitare i dati affinché le iniziative di intelligenza artificiale possano avere successo.

Ed in quelle realtà in cui non c’è ancora piena consapevolezza delle potenzialità e possibilità dei dati, aiutiamo nell’analisi e nella definizione del valore strategico del patrimonio informativo che l’azienda possiede.

 

Può interessarti anche:

Data Management

Security Assessment

Share it!