Parfois l’intelligence artificielle (AI) se trompe

Introduction

Il y a plusieurs années j’avais testé à l’aide de photos de mes petits-enfants les services de reconnaissance de personnes et de motifs, disponibles sur le web, basés sur l’intelligence artificielle. Pour les GAFAM (Google, Apple, Facebook, Amazon et Microsoft) ces services sont devenus aujourd’hui des produits commerciaux lucratifs. Les start-up’s actives à l’époque dans ces domaines ont presque toutes été acquises entretemps par les géants du web, auxquels il faut ajouter IBM (GAFAMI).

La liste de mes anciennes contributions à ce sujet est relevée ci-après:

Reconnaissance faciale

La reconnaissance faciale est un moyen d’identifier ou de confirmer l’identité d’un individu grâce à son visage. Les systèmes de reconnaissance faciale peuvent servir à l’identification de personnes sur des photos, dans des vidéos ou en temps réel.

La reconnaissance faciale est devenue aujourd’hui un outil de la vie quotidienne : pour débloquer son mobile, pour retrouver des personnes sur les réseaux sociaux, pour gérer sa collection de photos numériques sur son ordinateur, sa station-disque ou dans le nuage (cloud).

J’ai sauvegardé sur ma station-disque Synology des dizaines de milliers de photos que je gère avec les applications PhotoStation et Moments. Il s’agit de photos récentes prises avec des appareils photographiques digitaux ou avec des mobiles, des diapositives ou négatives numérisés, d’anciennes photos scannées (avec un scanner ou avec Google PhotoScan) ou des images synthétiques respectivement des copies-écran.

La majorité des logiciels de gestion d’une collection de photos dispose aujourd’hui d’une application de reconnaissance faciale intégrée performante. Synology ne fait pas d’exception. Les images suivantes montrent les résultats de recherches de quelques anciens collaborateurs, collègues et amis, de mes anciens directeurs, de membres de ma famille.

Il est évident qu’il faut entrer le nom d’une personne la première fois qu’une photo avec un nouveau visage est enregistrée. Mais à partir de ce moment, la reconnaissance des personnes se fait automatiquement lors de chaque nouvelle sauvegarde d’une photo, avec une précision étonnante. Il peut s’agir de portraits, de photos plan buste, de cadrages plein pied et même de photos de groupe avec plusieurs dizaines d’individus. Il est même possible de regrouper automatiquement des mannequins, des sculptures de bustes, des peintures, même s’il s’agit de visages différents.

Si l’application ne réussit pas à identifier un visage, elle présente les photos afférentes avec la question “Who’s This?” On peut alors répondre en indiquant le nom correct et le tour est joué. Les raisons d’une identification non-réussie sont multiples : Des nouveaux-nés dont le visage change en permanence les premiers mois, des personnes costumées (carnaval) ou masquées (Covid) comme Thomas, Charles et Capucine, des personnes avec ou sans lunettes comme Frank, des personnes sans identification manuelle initiale comme Isabelle, des statues de pharaons sans noms.

Reconnaissance de motifs et d’objets

Une application d’intelligence artificielle (AI) intégrée dans les logiciels de gestion de photos, plus spectaculaire encore que la reconnaissance faciale, constitue la reconnaissance automatique des motifs et objets représentés sur les photos d’une collection, accompagnée d’une classification automatique dans des albums virtuels. L’utilisateur n’a pas besoin d’intervenir dans ce processus. L’entraînement des modèles AI se fait par les développeurs des logiciels à partir de bases de données publiques contenant des millions d’images annotées.

La base de données d’images avec étiquettes la plus fameuse est ImageNet. Lancée en 2006 par la chercheuse Fei-Fei-Li, spécialiste de la vision par ordinateur, la base de données ImageNet a été étendue progressivement et comprend actuellement plus que 14 millions d’images.

Au début mes photos ont été classées automatiquement par grandes rubriques : enfants, animaux, paysages, architectures. etc. J’ai considéré cette option comme gag intéressant. Avec chaque nouvelle mise à jour le logiciel est devenu plus performant. Pour les animaux des sous-catégories ont été créées: tortues, escargots, lapins, poissons, chevaux, moutons, chats etc. Actuellement l’AI commence à différencier les races des chiens. Aujourd’hui la classification automatique est un outil précieux pour moi pour rechercher des souvenirs.

Au niveau de l’alimentation, le programme fait la distinction entre pizza, paëlla, menu italien, dessert etc.

Identification de desserts non comestibles

Si on regarde l’image de couverture sélectionnée par l’AI pour la rubrique Dessert, on constate qu’il s’agit en réalité du livre “2. Schoulheft” de Capucine. J’ai constaté que parmi toutes les catégories c’est dans la rubrique “Dessert” que l’AI de Synology se trompe le plus souvent. Les copies-écran suivantes montrent quelques exemples: une oeuvre d’art peinte par un enfant, un tablier de jeu de moulin, deux poussins dans un carton, un jouet FisherPrice, une collection de minéraux, un bonhomme de neige, un caméléon télécommandé.

Je retire toutefois mon chapeau pour la reconnaissance par l’AI que les quatre photos de Capucine, avec des framboises sur les doigts, représentent un dessert.

Mais l’AI de Synology n’est pas la seule à se tromper avec des photos de menus. Il y a deux ans Google avait pris l’initiative automatique de créer un vidéoclip intitulé “Bon appétit” avec mes photos prises en 2019 avec mon iPhone. Parmi les dégustations figuraient des photos de têtards, du moisi dans un pot de confiture, des jouets de dinosaures qui sortent d’un oeuf et de plats garnis par mes petits-enfants avec des coquillages, fleurs et feuilles d’arbustes.

Mot de la fin

Malgré ces quelques erreurs qui font rire, les performances de l’intelligence artificielle progressent à grands pas et les résultats sont de plus en plus impressionnants.