Tester un programme classique, c’est comme faire un contrôle technique à sa voiture : c’est fastidieux mais assez prévisible. Par contre, tester une Intelligence Artificielle, surtout quand elle est basée sur du machine learning, c’est comme trouver sa position en mer avec un sextant et un compas : possible seulement pour les marins chevronnés avec une carte et de bonnes notions de maths ! Bien sûr il existe des «vanity metrics» comme les sacro-saintes exactitude (accuracy) et coefficient de détermination (R²) du modèle, secondée par leurs suivantes que sont: la précision, le rappel, le F1-score, le MSE, le RMSE, le MAPE, etc. Avec le développement des systèmes d’IA, d’autres métriques ont également vu le jour pour permettre d’évaluer leur explicabilité, leur temps de latence, leur stabilité, leur robustesse et même leur bilan carbone !

Toutefois, est-on réellement certain que toute ces évaluations vont nous permettre d’obtenir un résultat qui nous apporte de la valeur ? Qui respecte nos lois (ou celles inhérentes au monde de la physique) ? Comment s’assurer de la cohérence des modèles avec le monde qui nous entoure quand le simple ajout d’un pixel dans une image peut tout faire basculer ?

L’évaluation des modèles est la pierre angulaire du pipeline de création d’un système d’apprentissage. Une bonne évaluation, à l’aide de benchmark adapté au contexte, permet de déployer plus sereinement en production des systèmes qui apportent de la valeur. Et après le déploiement, un processus de surveillance continue aide à se prémunir du data-drift et du concept-drift.

Parce qu’une IA, ça dérive plus vite qu’un bateau sans capitaine !