Shell: valutazione delle prestazioni dei modelli di machine learning utilizzati nel settore energetico
Caso di studio della Shell.
Questo progetto sfrutta l’apprendimento profondo per eseguire attività di visione artificiale: segmentazione semantica su domini applicativi specializzati. Il progetto prevedeva circa 15 modelli di deep learning (DL) in fase di implementazione attiva. I modelli DL vengono applicati a cascata alle previsioni generate, che poi confluiscono in una serie di attività a valle per generare l'output finale che verrebbe utilizzato per l'attività di interpretazione manuale. Pertanto, la garanzia dell’IA attraverso la valutazione delle prestazioni del modello è fondamentale per garantire risultati dell’IA solidi e spiegabili. Sono stati progettati e implementati tre tipi di test di valutazione del modello nella pipeline di inferenza DL:
Maggiori informazioni sui Principi normativi del Libro Bianco sull’AI.
I test di regressione e integrazione costituiscono la struttura principale che fornisce l'interpretabilità del modello rispetto a un insieme di dati di test. Durante lo sviluppo del modello forniscono una base per interpretare se le prestazioni del modello stanno migliorando o peggiorando in base ai dati e ai parametri di addestramento del modello. Durante la fase di implementazione del modello, questi test forniscono anche un'indicazione precoce della deriva del concetto.
I test statistici sono più progettati per prevedere le prestazioni del modello date le statistiche dei dati di test, fornendo quindi un meccanismo per rilevare la deriva dei dati man mano che i modelli vengono implementati. Inoltre forniscono anche un'indicazione della robustezza delle prestazioni del modello DL rispetto alle variazioni statistiche nei dati di test.
Il risultato di questa tecnica di garanzia dell'intelligenza artificiale viene comunicato agli sviluppatori di intelligenza artificiale e ai proprietari dei prodotti per monitorare la potenziale deviazione dalle prestazioni previste del modello DL. Inoltre, se le prestazioni si discostano, questi team possono rendere operative misure di mitigazione adeguate.
Inoltre, è necessario che gli utenti in prima linea e le parti interessate aziendali mantengano un elevato grado di fiducia nei risultati dei modelli DL.
Gli sviluppatori di intelligenza artificiale sono responsabili della progettazione e dell'esecuzione dei test di valutazione del modello per rafforzare i test delle prestazioni. I proprietari dei prodotti hanno la responsabilità di sfruttare questi test come prima linea di difesa prima dell'implementazione di nuovi modelli. Il team del progetto lavora insieme per adattare i test per affrontare la deriva dei dati e dei concetti durante la distribuzione.
In questo progetto, le previsioni dei modelli DL generano infine input per un compito di interpretazione manuale. Questo compito è complicato, richiede tempo e impegno, quindi è fondamentale che il punto di partenza (in questo caso le previsioni del modello DL) sia di alta qualità in termini di precisione, copertura di rilevamento e rumore molto basso. Inoltre, l’esito dell’interpretazione manuale alimenta un processo decisionale ad alto impatto.
La qualità e la robustezza della previsione del modello DL sono quindi di fondamentale importanza. La metrica più importante per giudicare le prestazioni di previsione del modello ML è il controllo di qualità human-in-the-loop. Tuttavia, per automatizzare i test delle prestazioni in una prima linea di difesa, è stata adottata la tecnica della suite di test di valutazione del modello. Il controllo della versione dei dati e la creazione di pipeline di esperimenti ML impliciti miravano principalmente a garantire che i modelli potessero essere riprodotti end-to-end (dati, codice e prestazioni del modello) entro un margine di errore accettabile.
Prima linea di difesa, test automatizzati delle prestazioni DL per il QA
Test per la robustezza del modello e una migliore interpretabilità delle prestazioni del modello DL.
Spiegazione approfondita delle prestazioni del modello DL per sviluppatori di intelligenza artificiale e utenti finali
Costruisci fiducia nei modelli e nei flussi di lavoro DL con la community di utenti
Consente il monitoraggio del modello stabilendo un meccanismo per rilevare la deriva del concetto.
Hook MLOps per abilitare CI-CD durante la distribuzione del modello.
Un gran numero di modelli DL con compiti molto diversi: rilevamento, classificazione, riduzione del rumore.
La complessità e la variabilità del problema affrontato dal DL rende difficile la progettazione dei KPI.
Mancanza di dati rappresentativi di alta qualità che potrebbero essere utilizzati per progettare la valutazione del modello
Mancanza di metriche/soglie chiare per progettare test di regressione, integrazione e statistici.
Mancanza di una libreria di valutazione del modello stabile.