Création d’un livre de jeunesse avec ChatGPT et LetzAI

Dernière modification : 10.3.2024

Introduction

J’ai commencé le nouvel an 2024 avec la création d’un livre illustré, dédié à mes petits-enfants.

Depuis le 28 janvier 2024, le livre est en vente sur les librairies en ligne, par exemple sur la librairie de Books on Demand (BoD).

RTL Lëtzebuerg a diffusé le 7 mars 3024 dans son magazine du soir un reportage au sujet de mon livre.

On peut revoir la vidéo dans la rubrique Culture sur le site web de RTL avec le lien https://www.rtl.lu/kultur/news/a/2174401.html.

L’inspiration de créer un livre d’aventures pour les jeunes, moyennant des outils d’intelligence artificielle, m’est venue fin février 2023, lorsque Thierry Labro, rédacteur en chef de Paperjam, a publié son roman futuriste “Ils ont tué mon avatar !“, conçu en une heure par ChatGPT et illustré par Dall-E. À cette époque, l’intelligence artificielle, bien qu’avancée, ne permettait pas encore de créer des images en haute résolution ou de rédiger de longs textes de manière cohérente.

LetzAI

L’été 2023 a marqué un tournant avec la présentation de LetzAI, un générateur d’images luxembourgeois révolutionnaire, basé sur l’intelligence artificielle. Ce progrès majeur permettait pour la première fois d’entraîner un modèle de manière fiable et aisée avec ses propres personnages, pour produire ensuite des illustrations fidèles et harmonieuses.

Début septembre 2023, j’ai découvert LetzAI pendant mon petit déjeuner, lors de la lecture de l’article “Hier wird der Großherzog zu Iron Man” dans le Luxemburger Wort. Les jours suivants, presque toute la presse (Adada, Paperjam, Farvest, Virgule, RTL, 100Komma7, …) présentait le projet. Dans la suite, les média continuaient de parler de LetzAI (Page, Forbes, …). L’assemblage d’images, générées avec LetzAI, qui suit, donne un aperçu sur les différents modèles disponibles lors du lancement public du projet.

Panoplie des modèles de génération d’images lors du lancement public de LetzAI (image Neon Internet)

Equipe de création

Les créateurs de LetzAI sont les spécialistes de l’agence de communication Neon Internet. Il s’agit de Misch Strotz (chief executive officer), Karim Youssef (chief marketing officer), Sacha Schmitz (chief content officer), Ricardo Prosperi (agency manager), Jacques Weniger (chief operating officer), Julie Wieland (lead designer), Carlos Gonser (chief technology officer), Kim Feyereisen (graphic designer), Daniel Wahl (lead developer), Torge Schwandt (business consultant), Laura Seidlitz (content creator), Michael Klares (video editor), Mathieu Schiltz (business consultant).

Karim Youssef, Sacha Schmitz, Michel Strotz, Ricardo Prosperi, Jacques Weniger (photo: Neon Internet)
Julie Wieland, Carlos Gonser, Kim Feyereisen, Daniel Wahl, Torge Schwandt, Laura Seidlitz, Michel Klares, Mathieu Schiltz (photos : Neon Internet)

Neon Internet

Neon Internet se présente comme agence hybride marketing et technologie. Elle a été co-fondée par Misch Strotz et Karim Youssef en 2018. Sacha Schmitz est partenaire dans la société. Lors de la 7ème édition du Concours de l’Innovation dans l’Artisanat en 2022, organisée par la Chambre des Métiers, Neon Internet a obtenu le prix dans la catégorie Gestion/Organisation/Management pour le développement d’un écosystème d’outils de marketing en ligne, appelé Neontools. Cette application est utilisée par plus de 75.000 créateurs et entrepreneurs à travers le monde.

Prix de l’innovation dans l’artisanat 2022, Gestion/Organisation (image: Chambre des Métiers)

Une autre offre de l’agence est le site web Neon Academy, qui propose des cours de formation et des conseils sur le marketing en ligne.

Maach eppes Lëtzebuergesches

LetzAI a été annoncé sous la devise Maach eppes Lëtzebuergesches, mat LetzAI. Les modèles de génération d’images, présentés au début, se référaient à des produits luxembourgeois comme la Bouneschlupp, les Gromperekichelcher, les bières Battin et Diekirch.

D’autres modèles permettaient de créer des scènes avec des politiciens, par exemple avec l’ancien et le nouveau premier ministre. Des séances photo pour capter les portraits des personnages consentants, aux fins d’entraîner les modèles AI, ont eu lieu pendant les vacances d’été.

D’autres personnes de la vie publique ne manquaient pas, un cardinal, des athlètes, des acteurs, des artistes, des entrepreneurs.

Enfin et surtout on y trouvait des célébrités emblématiques comme Superjemp, Yuppi et Boxemännchen.

Bien sûr les développeurs de LetzAI participaient également au jeu avec leurs propres modèles. Je laisse le plaisir aux lecteurs de deviner les noms des créateurs présentés ci-après.

L’ensemble des images publiques générées peut être visualisé dans le “Feed” sur la page web de LetzAI.

Première page du site web LetzAI avec la galerie des images publiées les plus récentes (Feed)

Réseaux sociaux

Comme Neon Internet est un spécialiste de la communication sur les réseaux sociaux, il est évident que LetzAI se présente sur tous les canaux : Facebook, Instagram, LinkedIn, X(Twitter), Youtube et TikTok.

LetzAI sur RTL Lëtzebuerg

Des reportages au sujet de LetzAI ont été diffusés sur RTL Radio le 21 septembre 2023.

Replay : Nei lëtzebuergesch KI an Wéi kann ech LetzAI benotzen ?

Le 18 octobre 2023, un entretien avec Misch Strotz au sujet de LetzAI a été diffusé sur RTL Télé.

Replay : Jonk Entwéckler brénge LetzAI op de Maart

Early Access

LetzAI a été lancé fin août/début septembre 2023 en mode Early Access. L’achat d’une clé d’accès, à un prix forfaitaire, permettait de générer des images et de créer des modèles à discrétion. J’étais parmi les premiers usagers à profiter de cette offre. Évidemment, le premier modèle que j’ai entraîné était basé sur des photos récentes de moi-même, dans différentes poses et sous différents angles de vue. J’étais ravi des premiers résultats.

Mon premier modèle public @steampunkluucht permettait de générer des images synthétiques de lampes steampunk, dans le style des lampes réelles construites par Gast Klares. Ce bricoleur et artiste génial m’a autorisé à utiliser les photos, en haute résolution, de ses 86 lampes présentées sur son site web. Ensuite j’ai fouillé dans mes archives d’anciennes photos et diapositives pour trouver des motifs pour des modèles LetzAI à créer, par exemple les sculptures de Niki de Saint Phalle (@sculpturesnikidesaintphalle), installées dans la capitale lors de l’année culturelle 1995. Une autre collection se réfère à l’exposition de 103 vaches (@artoncows), décorées par des artistes et installées à travers la capitale en 2001. Avec des photos prises de fleurs (@flowers) et de mannequins de vitrine, j’avais épuisé les collections de photos dans mes archives, qui se prêtaient pour entraîner des modèles LetzAI.

Pour explorer d’autres pistes, j’ai effectué des randonnées dans les environs pour photographier la nature et l’architecture, notamment dans la Réserve naturelle Giele Botter (@gielebotter) et dans le nouveau quartier urbain Esch-Belval. Le modèle @eschbelval était le premier que j’ai combiné avec un autre modèle, à savoir @flowers, pour générer des images imaginaires d’Esch-Belval fleuri. Le Luxembourg Learning Center (LLC), qui abrite la bibliothèque universitaire, se prêtait pour la création d’un modèle LetzAI d’architecture intérieure @learningcenter.

Après une déviation dans le monde animal avec le modèle @black_cat, entraîné avec des photos du chat noir Billy de mon beau-fils, c’était le tour des artistes pour être mis en scène. Le premier était Rosch Bour de Lamadelaine, un multitalent : auteur de plusieurs livres, peintre, dessinateur, illustrateur, musicien, historien, archiviste, acteur de théâtre et athlète. Pour le 150e anniversaire des chemins de fer en 2009, ses aquarelles de locomotives figuraient sur des timbres de POST Luxembourg. Rosch m’a autorisé à utiliser un échantillon de ses aquarelles et de ses fusains pour l’entrâinement des modèles AI @watercolor_by_roger_bour et @charcoal_by_roger_bour. Ainsi lui-même, il a pu ajouter un titre supplémentaire à son palmarès: premier artiste peintre figurant sur LetzAI. Le deuxième artiste est mon ancienne collaboratrice Céline Kruten. De formation ingénieur-multimédia, elle a changé de métier il y a quelques années pour devenir créatrice d’art floral. Elle a fondé son propre entreprise Les Herbes Folles – Floral Design pour créer des décorations florales et pour organiser des événements particuliers, comme des mariages ou banquets. Céline m’a autorisé à sélectionner des photos d’arrangements florales dans le portfolio sur son site web pour créer le modèle LetzAI @les_herbes_folles. Les images générées avec ce modèle ont toutefois du mal à reproduire la beauté, la délicatesse et le naturel des vraies créations florales de Céline.

Le troisième artiste est Harold Cohen, un pionnier à la confluence de l’intelligence artificielle et des arts visuels. En 1972, il a développé AARON, un programme informatique révolutionnaire conçu pour générer de manière autonome des peintures et des dessins. Son croisement innovant de la créativité informatique et de l’art traditionnel lui a valu une renommée internationale, son travail étant présenté dans de nombreuses expositions dans des musées prestigieux du monde entier. En reconnaissance de ses contributions, Harold Cohen a reçu de nombreuses distinctions, tout au long de sa carrière.

Né au Royaume-Uni en 1928, Harold Cohen a déménagé aux États-Unis, où il a partagé son expertise et sa passion pour l’art et la technologie à l’Université de Californie, de 1968 jusqu’à sa retraite en 1998. Même après sa retraite, il est resté activement engagé dans le développement d’AARON, améliorant ainsi ses capacités et sa complexité. Initialement, le programme a été développé en C, mais il est ensuite passé au LISP pour exploiter ses puissantes fonctionnalités pour le développement de l’intelligence artificielle.

Dans les semaines qui ont précédé son décès en 2016, Harold Cohen s’est lancé dans une nouvelle aventure avec AARON, intitulée de manière ambitieuse « La peinture au doigt pour le 21e siècle ». Alors que les premières années l’ont vu utiliser des traceurs x-y pour donner vie aux créations d’AARON, dans les années 1990, il avait conçu une série de machines de peinture numérique. Son évolution continue dans le médium a vu un passage aux imprimantes à jet d’encre et finalement aux écrans tactiles dans son projet final, cherchant toujours à mélanger la technologie avec l’essence tactile de la peinture.

Ray Kurzweil, un éminent informaticien et futuriste américain, a introduit l’héritage de Harold Cohen dans l’ère numérique en développant un programme d’économiseur d’écran AARON en 2000, adapté aux ordinateurs Windows. Ce programme fonctionne encore aujourd’hui sous Windows 11, en mode compatibilité Windows 98. La création de mes propres images AARON, avec le logiciel de Ray Kurzweil m’a permis d’entraîner mon modèle @aaron_by_harold_cohen dans le respect des droits d’auteur pour les oeuvres originales de Harold Cohen. Ray Kurzweil a réalisé en 1987 le film documentaire The Age of Intelligent Machines qui présentait l’état d’art de l’intelligence artificielle à cette époque.

Un créneau que je n’avais pas encore exploré étaient les dessins animés. J’ai effectué un premier essai avec Big Buck Bunny, le protagoniste d’un court métrage néerlandais, réalisé en 2008 par Sacha Goedegebure, exclusivement avec des logiciels libres, dont principalement Blender. Le film, ainsi que l’ensemble des fichiers source et matériaux ayant servi à sa réalisation, ont été publiés sous licence Creative Commons. Comme j’étais moi-même à l’époque créateur 3D sur le web pendant mon temps libre, je dispose de toutes les images du film en haute résolution et c’était facile de créer le modèle LetzAI @big_buck_bunny.

Mon deuxième modèle LetzAI de dessin animé est @velo_cartoon. L’origine de ce modèle remonte à l’été 2022, lorsque j’ai été admis comme testeur-beta pour le générateur d’images DALL*E2 par OpenAI. Ma première image a été générée avec le prompt “cartoon of an elephant and a giraffe riding a bicycle on the beach” et publiée le même jour sur Facebook. Dans la suite j’ai utilisé régulièrement le même prompt pour tester d’autres générateurs d’images comme Dreamstudio, Craiyon, Midjourney et Stable Diffusion.

La galerie qui suit présente quelques images générées avec des modèles LetzAI qui ne sont pas encore à point (@animal_croissant, @artpet, @birthday_cake, @letz_postage_stamps, @minerals, @naive_art, @vase et @vintage_toy) ou qui se trouvent encore en mode privé, notamment les modèles de mes portraits comme bébé, enfant et jeune adulte ainsi que celui des mannequins.

Je clôture ce chapitre avec l’affichage de quelques captures d’écran, exposant les photos utilisées pour entraîner des modèles.

Lors de la période Early Access, j’ai donc pu acquérir les compétences pour faire face au défi de création des illustrations pour le livre d’aventure pour mes enfants.

Animations et vidéos

À côté de la génération d’images fixes avec les outils d’intelligence artificielle, j’ai également commencé à sonder les possibilités de créer des animations et des vidéos avec ces applications. En décembre 2022, j’ai réalisé ma première vidéo avec un générateur text2video, en spécifiant le prompt “A panda playing chess on the beach“. Certes ce n’était pas encore un chef d’oeuvre, mais c’était un début promettant. Avec une image de Big Buck Bunny, j’ai produit plusieurs animations. La première est une synchronisation labiale en langue anglaise. Le deuxième exemple est synchronisé avec une voix synthétique française, la troisième animation parle luxembourgeois, avec ma propre voix. Ensuite c’était mon MiniMoi, une petite figurine de 20 cm, imprimée en 3D à mon effigie, qui apprenait à parler luxembourgeois. Après les élections en octobre 2023, Superjemp, qui avait déjà appris à parler luxembourgeois, racontait avec une voix synthétique qu’il venait de voter la liste 19. Dans tous les cas, j’ai utilisé l’outil AI HeyGen pour réaliser ces animations.

Début novembre 2023, j’ai animé quatre images du Boxemännchen, générées par Sacha Schmitz, moyennant la nouvelle version du module Text + Image2Video Gen-2 de Midjourney.

Début 2024, les générateurs vidéo, basés sur l’intelligence artificielle, n’étaient pas encore à un niveau pour pouvoir envisager la réalisation de longs métrages, même pas des courts métrages, mais les fondations étaient posées. Tout a changé le 15 février 2024 quand OpenAI a présenté son générateur SORA qui permet de générer des vidéos d’une durée de 60 secondes, avec une qualité époustouflante. J’espère pouvoir enchaîner dans les prochains mois sur mon livre d’aventures pour créer un film animé des jeunes explorateurs, à l’effigie de mes petit-enfants.

Incident avec Mélusine

Retournons à LetzAI. Début octobre 2023, une première communication visuelle, réalisée avec l’outil LetzAI, a été lancée par l’agence Wait, pour le compte de wortimmo.lu, le site internet immobilier du Luxemburger Wort. La campagne présentait Mélusine, la sirène magenta du modèle polygonal 3D «low-poly», créé par Serge Ecker en 2013, installée dans le quartier du Grund au bord de l’Alzette. La campagne avait un défaut : l’artiste n’a jamais été contacté pour l’utilisation de l’image de son œuvre. Serge Ecker s’est référé à la loi de 2001 sur les droits d’auteurs et la campagne est rapidement disparue des supports de publicité et des pages web.

Luxembourg Artweek

La neuvième édition de la foire Luxembourg Artweek s’est déroulée du 10 au 12 novembre 2023. C’était l’occasion pour LetzAI de s’adresser au public. Dans le cadre de l’ArtTalk “Art and New Technologies“, Misch Strotz présentait la plateforme LetzAI et il a démystifié les systèmes d’intelligence artificielle créatifs dans le monde de l’art. La démonstration était suivie par la projection du film Artist Alain Welter tries LETZ.AI.

Ensuite la parole fut donnée aux artistes luxembourgeois présents sur le plateau : Lynn Klemmer, Eric Mangen et Serge Ecker. La discussion entre Misch Strotz, les artistes et le public fut modéré par Hinde Baddou. Le débat était animé et de haut niveau et a permis de dégager les différents sentiments des artistes par rapport aux générateurs d’images, entraînées avec leurs propres œuvres. Serge Ecker a saisi l’occasion pour revenir sur sa réaction au sujet de la campagne publicitaire ratée avec sa sculpture Mélusine. “I would rather cut off my foot than train a public AI model on my art” était une de ses déclarations.

Démarrage beta

Début décembre 2023, LetzAI est entré dans une phase de beta publique. Lors d’une release party le soir du 3 décembre 2023, en présence de la Gëlle Fra, de Yuppi, de Superjemp et d’autres célébrités, les conditions d’utilisation de la plateforme ont été dévoilées. Trois formules d’abonnement, avec facturation mensuelle, sont proposées : Beginner, Fun et Pro. Pour les indécis, la formule Just Testing, au prix de 4,90 € sans engagement, permet de créer environ 30 images. Pendant la phase beta, les quatre formules permettent la création d’un nombre illimité de modèles.

Challenge AI mam Kleeschen

Pour la fête de Saint Nicolas, LetzAI avait lancé son premier concours parmi les anciens et nouveaux usagers. Le défi consistait à créer une image avec le modèle public @kleeschen, plébiscité par l’ensemble des usagers. Plus que mille images furent générées. Le vainqueur était Timothy Bettega, le jeune fondateur du Guide Luxembourg et de Black Thunder, une agence événementielle luxembourgeoise visionnaire.

La galerie ci-après présente l’image couronnée muscular @kleeschen doing a deadlift (en haut à droite), ainsi qu’une sélection d’images de @kleeschen dans d’autres scènes.

Marché Augenschmaus

Quelques jours avant Noël 2023, la quatrième édition du marché des créateurs Augenschmaus a eu lieu dans les Rotondes. Le Jingle Mingle X‑Mas Market by Augenschmaus était une occasion unique pour trouver un cadeau original à mettre sous le sapin. On y trouvait une sélection de créations uniques et de produits artisanaux, tous imaginés avec talent par des artistes, designers et producteurs locaux. LetzAI était présent sur ce marché avec un stand de démonstration de sa plateforme de génération d’images. L’équipe de Neon Internet a eu un grand plaisir de présenter les oeuvres, générées par l’intelligence artificielle, au public.

Evolution LetzAI

Le début du nouvel an 2024 était le moment idéal pour l’équipe de LetzAI d’annoncer plusieurs améliorations de la plateforme. En premier lieu c’était une extension des dimensions des images générées. Dans le passé, le format imposée était un carré de 1080 x 1080 pixels. Maintenant, la sélection de formats “portrait” ou “paysage” est également possible, avec une hauteur ou une largeur maximale de 1600 pixels. On peut également varier deux paramètres pour régler la “créativité” et la “qualité“. C’était le signal de départ de la création de nombreux nouveaux modèles par les usagers, surtout des styles à appliquer à des modèles d’objets ou de personnages. Je n’ai pas pu résister pour créer quelques portraits de moi-même dans différents styles d’images.

Annonce de LetzAI V2

En mi février 2024, LetzAI a annoncé l’introduction d’une nouvelle version V2, plus polyvalente et plus performante que la version 1, qui est commercialisée depuis décembre 2023. La résolution maximale d’une image générée a été augmentée jusqu’à 1.920 x 1.920 pixels.
L’interprétation de la description (prompt), pour générer une image, a été sensiblement perfectionnée, ce qui permet de créer des images d’une précision et d’une qualité étonnantes. Quelques créations réalisées par Misch Strotz, le développeur principal de LetzAI, sont présentées ci-après, avec affichage du prompt spécifié.

Cliquez sur l’image en haut pour l’agrandir, utiliser la souris pour scroller le prompt.

Le processus de création des modèles LetzAI personnels, publics ou privés, a également été amélioré. Le nombre de photos ou d’illustrations requis pour entraîner un modèle V2 a été réduit. La définition du type d’image, demandée lors de l’activation du modèle, est devenue plus granulaire, ce qui garantit une meilleure fidélité. L’accès public à la plateforme LetzAI V2 est prévue pour début mars 2024. Reste à signaler que les modèles V1 existants sont compatibles avec la version 2.

Partenariat LetzAI – Gcore

Le 21 février 2024, LetzAi a annoncé sur les réseaux sociaux et sur son blog qu’un protocole d’accord, pour un partenariat stratégique, a été signé avec le fournisseur luxembourgeois de cloud et d’IA Gcore, situé à Contern. Grâce à ce partenariat, LetzAI peut étendre les capacités de sa plateforme actuelle, servir plus d’utilisateurs et permettre des cas d’utilisation professionnels.
L’objectif de LetzAI est de fournir une plate-forme qui est non seulement amusante à utiliser, mais qui aide également les professionnels du marketing à accélérer considérablement leurs processus créatifs.
La version V2 de LetzAI constitue déjà une des plateformes d’intelligence artificielle générative les plus inclusives au monde. Au cours des dernières semaines, Gcore a mis son infrastructure GPU Nvidia H100 à disposition de LetzAI pour le développement et l’entraînement de la version V2. Pour le lancement, Gcore fournira des GPUs L40S.
Le partenariat LetzAI-Gcore conclu prévoit d’offrir la technologie LetzAI sur le plan international. À ces fins, Gcore fournira des services de pointe d’une infrastructure GPU, avec 160 points de présence dans le monde entier, en commençant dans les pays voisins comme Allemagne, France et BENELUX.

Partenariat LetzAI – Gcore (photo: LetzAI)

Commercialisation internationale de la version 2 de LetzAI

Après une phase de test intensive, LetzAI a annoncé le 5 mars 2024 l’introduction commerciale de la version 2 de son générateur d’images non seulement au Luxembourg, mais dans toute l’Europe. Cette version a le potentiel de révolutionner le marché de la génération d’images par l’intelligence artificielle. Ce n’est pas seulement l’avis des développeurs luxembourgeois de LetzAI, mais celui des meilleurs spécialistes et créateurs internationaux dans le domaine de l’ingénierie AI artistique, parmi eux Julie Wieland, Sarah Vermeulen, Mark Isle, Jesús Plaza, Allar Haltsonen et Halim Alrasihi.

Version 2 de LetzAI : création de Julie Wieland

Avec cette information, je termine le récit de l’histoire de LetzAI. Mais cette plateforme constitue seulement la moitié des outils requis pour la réalisation de mon projet de livre “Les Jeunes Explorateurs“. L’autre moitié est ChatGPT, que je vais présenter dans le prochain chapitre.

ChatGPT

Ma première rencontre avec ChatGPT a eu lieu au printemps 2022. J’ai demandé au modèle GPT-3 la génération d’un article au sujet de la guerre qui venait d’éclater entre les créateurs d’oeuvres d’art plastiques et les générateurs d’oeuvres d’art synthétiques. Quelques mois plus tard, j’ai publié sur HuggingFace (une plateforme de collaboration AI renommée), une application qui permettait de générer un poème en langue luxembourgeoise.

Rapidement je suis devenu un utilisateur régulier de ChatGPT et j’ai suivi toutes les évolutions de cet outil de traitement et de génération de textes. Sur les réseaux sociaux, j’ai écrit des contributions au sujet de thèmes variés : génération d’un poème concernant un chien qui est tombé amoureux d’un grille-pain, illustration de ce poème, hallucinations des modèles de langage AI, essai au sujet du cerveau écrit dans la manière d’un élève, rédaction d’un résumé d’un article sur le web, dialogues entre robots, fables de Jean de la Fontaine, messages dans une bouteille.

En décembre 2023, j’ai rédigé une contribution étoffée sur mon site web au sujet de l’évolution de ChatGPT qui progresse avec des bottes de sept lieues : De gestiwwelte ChatGPT. Je recommande à tous les lecteurs qui sont intéressés à plus de détails au sujet de l’histoire, de la technique et des créateurs de ChatGPT, de lire cet article.

Personnalisation de ChatGPT

Il y avait une compétence qui manquait à ChatGPT, à savoir la possibilité d’ajouter ses propres documents et informations, pour étendre son savoir. Cette faculté est indispensable si on souhaite générer des textes avec des connaissances spécifiques ou créer des récits autobiographiques, sauf si on est une célébrité bien documenté sur le web. Lors de la mise en ligne de ChatGPT en automne 2022, la date limite de ses connaissances était septembre 2021. En 2023, les connaissances ont été actualisées jusqu’en janvier 2022, lors d’une mise à jour discrète de ChatGPT. Le processus d’entraînement d’un modèle AI géant de langage comme ChatGPT, avec un corpus qui comprend tout le contenu du web, ainsi qu’un nombre énorme de livres, prend plusieurs mois, sur les ordinateurs les plus puissants qui existent, et il coûte une fortune.

En été 2023, OpenAI a ajouté une option à ChatGPT permettant d’accéder à des informations sur le web. En outre deux entreprises, Dante.ai et Berri.ai, proposaient une interface à ChatGPT pour ajouter son propre contenu à ce robot de dialogue. C’était un premier pas dans le bons sens. J’ai décrit mes propres expériences avec ces outils dans mon article “Ech hunn haut mam Dante AI gechatt !“.

Evolution de ChatGPT

Tout a changé le 6 novembre 2023, lorsque la première conférence de développement OpenAI a eu lieu. Sam Altman, le CEO de OpenAI, présentait une série d’innovations et une réduction sensible des prix pour l’utilisation des produits de son entreprise. Un des atouts était la conversion de ChatGPT en modèle AI multimodale ChatGPT-4, avec l’intégration du module DALL*E3 pour générer des images, du module Vision pour analyser et décrire des images, des modules Voice (TTS) et Whisper (ASR) pour parler avec une voix synthétique et pour comprendre la parole humaine, et du module Code Interpreter pour faciliter la création de programmes informatiques avec ChatGPT.

J’ai exploré de suite ces innovations et rapporté sur mes expériences sur les réseaux sociaux: dialogue vocale avec ChatGPT-4, nombre de personnes sur une image, résumé de ma page web d’accueil, génération d’une image sur base d’un croquis, génération de cartoons.

Les innovations les plus attrayantes étaient l’introduction de ChatGPT-4 Turbo et du concept de Custom GPT.

GPT-4 Turbo est plus performant et connaît les événements mondiaux jusqu’en avril 2023. Il dispose d’une fenêtre contextuelle de 128 000 pages et peut donc contenir l’équivalent de plus de 300 pages de texte dans une session.

J’ai testé les nouvelles compétences et performances de ChatGPT-4 dans un dialogue impressionnant “My discussion with ChatGPT-4 about the evolution of the Internet“.

Ecosystème Custom GPT

Une Custom GPT permet de personnaliser le robot ChatGPT-4 pour des besoins spécifiques, en ajoutant des contenus personnels (textes et images), en écrivant des instructions à effectuer et en ajoutant, éventuellement, du code pour exécuter des actions informatiques, par exemple envoyer un message, faire des recherches dans une base de données, mettre à jour un site web.

Les premières applications luxembourgeoises du type Custom GPT ont été réalisées par les spécialistes suivants:

Il y à quelques jours, OpenAI a ouvert son magasin Custom GPT, permettant à tout abonné de ChatGPT-4 de profiter des applications spécialisées, développées par d’autres usagers. À l’image de GooglePlay et du AppStore, qui offrent des applications pour les smartphones, OpenAI a lancé tout un écosystème, permettant la recherche de modèles gratuits et payants et de rémunérer les développeurs pour leur travail. Ce magasin ouvre une nouvelle dimension dans la popularisation de l’intelligence artificielle.

Rédaction et illustration de mon livre

Mi-novembre 2023, la technique était donc prête pour concrétiser mon rêve et pour procéder à la conception d’un livre d’aventures pour mes petits-enfants, avec l’aide de ChatGPT-4 et de LetzAI.

Concept initial de mon livre

Au début, j’avais esquissé un concept sophistiqué. Les 5 enfants, 2 filles et 3 garçons, parmi eux des jumeaux, étaient accompagnés par leurs animaux de compagnie : le lapin Floppy, le cochon d’Inde Caramel, le poisson rouge Blublu, le coq Cocorico et Léon, le caméléon. La galerie d’images qui suite montre les protagonistes imaginées.

Le voyage aurait du se dérouler comme une grande aventure, parsemée d’imprévus et de complications. Mais ChatGPT était accablé avec mon script, aussi bien au niveau de la génération d’illustrations qu’au niveau de la génération de textes cohérents.

Au niveau des illustrations, je n’ai pas réussi à générer des images correctes avec tous les personnages et les animaux de compagnie : des enfants avec des têtes de caméléon ou avec des jambes de coq, des incohérences avec les habits et les lunettes des enfants, des confusions au niveau de la couleur des cheveux et des yeux, sont quelques exemples des problèmes rencontrés. À côté de DALL*E3, j’ai essayé d’autres applications de génération d’images comme Stable Diffusion (stability.ai) et Midjourney. C’était encore pire. J’ai visité les grands sites web AI communautaires comme Stable Diffusion Art ou CivitAI pour me rendre compte qu’aucun modèle ajusté de génération d’images, développé par les usagers inscrits, permettait de générer des groupes de personnes.

J’ai commencé à entraîner mes propres modèles du type LoRA avec Stable Diffusion, respectivement des modèles LetzAI. Comme supports pour l’entraînement des modèles, j’ai utilisé quelques rares images DALL*E3 réussies, ainsi que des assemblages des différentes personnes à l’aide de Photoshop. Malgré tous les efforts, j’ai dû me rendre compte que la génération cohérente d’images de plus de trois personnes était illusionnaire.

Au niveau de la génération du texte, j’ai constaté que des scénarios complexes embrouillaient ChatGPT et ne permettaient plus de créer des récits cohérents dans une même session. J’avais par exemple imaginé qu’un des acteurs se cassait une jambe lors d’un saut en parachute en Indonésie et devait être rapatrié par Luxembourg Air Rescue. J’avais prévu d’autres complications et incidents, mais c’était trop fastidieux de demander en permanence à ChatGPT des modifications des récits générés, respectivement de procéder à des corrections manuelles.

Mon ambition était d’exposer l’état de l’art de l’intelligence artificielle au début de l’an 2024 par la publication de mon livre, sans procéder à des retouches aux niveaux des illustrations et des récits. J’avais toutefois l’intention de demander différentes créations des illustrations et des textes pour certaines scènes et de sélectionner ensuite les meilleurs résultats.

Concept définitif de mon livre

Pour tenir compte des limitations actuelles de l’intelligence artificielle, je me suis résigné à simplifier mon script initial. Les animaux de compagnie sont restés à la maison et les cinq enfants ont été répartis en deux équipes : la fille ainée formait un groupe avec les deux jumeaux et la fille cadette faisait un team avec son cousin. De cette façon c’était possible de dépicter, d’une façon cohérente, les deux bandes avec 2 et 3 personnes dans des images générées par AI.

Au niveau de la description du voyage, j’ai remplacé l’expédition, avec des imprévues et des complications à travers le monde, par une exploration bien organisée de plusieurs destinations, définies au préalable, dans différents pays. De cette manière ChatGPT-4 a pu mettre en valeur ses riches connaissances du monde, sans devoir trop réfléchir. Malgré ses compétences impressionnantes pour programmer des applications informatiques ou pour résoudre des problèmes logiques, le raisonnement n’est pas encore le trait le plus fort de ChatGPT-4. D’ailleurs les autres robots de dialogue n’ont pas encore atteint le même niveau d’intelligence que l’application d’OpenAI. Sam Altman, le CEO de l’entreprise, a annoncé récemment que la faculté de penser de ChatGPT-5, qui sera lancé en 2024, sera sensiblement améliorée et que la génération de vidéos, à partir de prompts, sera ajoutée au produit. J’espère donc pouvoir reprendre mon concept initial au début de 2025 pour donner une suite aux aventures des jeunes explorateurs dans un deuxième livre.

Au niveau des dimensions du livre, j’ai opté pour un format carré de 17 x 17 cm, en présentant les explorations des deux équipes, jour par jour, sur une double page.

Exemple d’une double page du livre avec le récit des visites des deux équipes pendant le 38e jour

Après la définition des dimensions de i’illustration sur chaque page et le choix de la police de caractères pour le texte, j’ai pu évaluer que le récit sur chaque page ne pouvait pas dépasser 200 mots.

Dialogue avec ChatGPT

Pour s’entretenir avec ChatGPT-4, il faut être abonné payant auprès d’OpenAI, au prix mensuel de 21,29 €, TVA incluse. Je suis un abonné de longue date. Malgré quelques privilèges, je suis de plus en plus souvent confronté au problème de la surcharge des serveurs d’OpenAI, accompagnée d’un temps d’attente pour accéder au service. Pour faire face à l’augmentation continue des usagers, OpenAI a introduit des restrictions pour l’utilisation du service. Après 30 requêtes, il faut attendre 3 heures pour continuer le dialogue. La session reste toutefois établie et ChatGPT garde en mémoire toute la discussion du passé. D’ailleurs, tout le dialogue au sujet de mon livre, pendant des dizaines de jours, s’est passé dans une même session.

Avant d’ouvrir la session de dialogue, j’avais préparé un avant-projet pour le déroulement de l’exploration. Comme je voulais créer quelque chose de consistant, je me suis proposé de dresser une liste de 100 sites du patrimoine mondial de l’UNESCO, à visiter par les enfants dans différents pays, à travers de trajets distincts à parcourir par chaque équipe, moyennant une panoplie de moyens de transport. J’avais également esquissé un itinéraire pour la traversée des différents pays. Comme introduction, j’ai soumis mes réflexions à ChatGPT. Après ses éloges et félicitations au sujet de mon initiative de création d’un livre pour enfants, on a abordé du concret: j’ai demandé à ChatGPT de me proposer une liste des sites UNESCO à visiter, un relevé des moyens de transport disponibles dans les différents pays et une chronologie des visites à faire. Et progressivement, on s’est mis d’accord sur les moments du voyage et sur la chronologie.

J’ai commencé avec la deuxième équipe, composée de deux enfants. Comme commande à soumettre à ChatGPT, c’était suffisant d’entrer un prompt du type : “jour x, visite du site Y, moyen de transport Z, nuitée à Q“. Et progressivement on est arrivé au 60e jour du voyage avec le retour à Luxembourg, après la visite de 50 sites UNESCO dans 25 pays différents, avec des parcours en avion de ligne, en avion privé, en bateau, en taxi, en voiture Uber, en co-voiturage, à pied, etc.

Pour la première équipe, constituée de trois enfants, c’était la même procédure. Mais au lieu de commencer leur exploration au Luxembourg comme l’autre groupe, les enfants sont partis le premier jour en Australie. Et comme les distances à parcourir entre les différents sites étaient plus longues, ils étaient obligés de prendre des moyens de transport plus innovants : un avion privé avec décollage et atterrissage verticale, un hovercraft. Et dans les pays plus exotiques, c’était un Tuk-Tuk.

Dans l’introduction j’avais informé ChatGPT que le texte pour chaque page devait être d’environ 200 mots, ce que le robot a scrupuleusement respecté. C’était rare que j’ai demandé à ChatGPT de reformuler le récit pour une journée, et le plus souvent c’était à cause de ma propre faute, à cause d’une erreur dans le prompt spécifié. Pour les lecteurs intéressés aux détails, je fournis ici le lien pour accéder à la discussion entière avec le chatbot dans la session archivée.

Custom GPT pour les illustrations

Après la validation du texte, c’était le moment de procéder à la création des illustrations pour le livre. Après mes expériences du passé et mes essais réalisés pour générer des images AI d’un groupe de personnes, je suis arrivé à la conclusion que l’entraînement de deux modèles LetzAI, moyennant la génération de quelques dizaines d’illustrations générées avec ChatGPT-4 / DALL*E3, suivie éventuellement de retouches avec l’outil Adobe Photoshop, était la procédure la plus prometteuse pour obtenir rapidement des résultats valables. J’ai eu raison. Je souligne que la génération directe des images voulues dans LetzAI n’était pas encore possible au début de l’année 2024, à cause de la longueur limitée des prompts à entrer sur la plateforme. Cette restriction a été levée récemment dans le cadre des autres évolutions de LetzAI.

La page qui suit affiche une capture d’écran de la page de configuration de ma Custom GPT “Two young explorers“.

Page de configuration de la custom GPT “Two young explorers” sur la plateforme OpenAI

Dans les instructions j’ai défini un groupe, suivi par la spécification des deux membres de ce groupe, comme le genre, l’âge, les cheveux, les yeux, les accessoires (lunettes), les habits, etc. Ensuite j’ai indiqué les caractéristiques des images à générer : dimensions, style, angle de vue, etc. J’ai également fixé les règles à observer : pas d’écriture de textes dans l’image, respect de la cohérence, etc. J’ai ajouté comme référence deux photos avec des portraits de mes petits-enfants concernés. Comme dernière instruction, j’ai invité ChatGPT à demander à l’usager, à chaque requête, le lieu de la scène et les activités du groupe à afficher dans l’image. Ensuite il suffit de cliquer sur le bouton “Exécuter les instructions” et de répondre à la question de ChatGPT, par exemple “site UNESCO de la Grande Barrière en Australie, plongée dans les corails“.

Le modèle personnalisé Custom GPT “Three young explorers” pour l’autre groupe a été configuré de la même manière. Si l’image ne correspondait pas aux attentes, j’ai demandé une nouvelle génération au robot. La capture d’écran qui suit montre que cette tentative se terminait des fois avec un dialogue de sourd.

Échec de ma demande à ChatGPT de générer une image correcte avec les 3 personnes de l’équipe

Il reste à signaler que ChatGPT s’est efforcé pendant tout le cycle de génération d’images de témoigner de ses connaissances du monde, lors de la création des illustrations. Comme les personnes en Afrique sont en général de couleur noire et comme celles en Asie ont les yeux bridées, la physionomie des jeunes explorateurs a été modifiée dans ce sens par ChatGPT, lors de leurs voyages dans ces continents. Quelques exemples sont affichés ci-après :

Après la réalisation de quelques retouches à la collection des illustrations générées pour les deux groupes, j’ai pu procéder à l’avant-dernière étape : l’entraînement des modèles LetzAI.

Création des modèles LetzAI

L’étape de création des modèles LetzAI était la plus facile. Après le login sur la plateforme LetzAI, on se décide pour la création d’un modèle public ou privé. On déclare qu’on dispose des droits sur les images utilisées pour la création du modèle, on choisit un nom, on télécharge les images et on clique sur entraînement. Ensuite on peut passer à autre chose. Après un quart d’heure on est informé que le modèle est prêt et qu’il faut l’activer.

Le 10 novembre 2023, j’examinai quelques nouvelles fonctionnalités de mon éditeur vidéo. Pour se baser sur un cas concret, j’ai profité de l’occasion pour réaliser un tutoriel LetzAI. La vidéo n’est pas parfaite et l’interface de la plateforme LetzAI a un peu changé entretemps, mais le tutoriel donne une vue fidèle comment procéder pour entraîner un modèle et pour générer des images.

Pour commenter la vidéo en anglais, j’ai utilisé une application AI de synthèse de la parole, avec clonage de ma propre voix et synchronisation labiale. La musique de fond a également été composée par une application d’intelligence artificielle, développée par l’entreprise luxembourgeoise AIVA.AI.

Mes deux modèles LetzAI créés pour le livre s’appellent @2_explorers et @3_explorers. Pour les activer, j’ai spécifié le type de modèle comme groupe de 2 ou 3 personnes, en décrivant les membres du groupe dans les sous-types. Pour générer ensuite une image, il suffit alors d’entrer un prompt dans le bon format, par exemple “@2_explorers, group, riding a bicycle in Amsterdam” ou “@3_explorers, group, hiking in Katmandou, Nepal“. Et voilà. Le jeu est joué.

L’ensemble des images générées peut être visualisé dans l’aperçu du livre.

Impression de mon livre

Pour l’impression de mon livre, j’ai opté pour l’auto-édition auprès du fournisseur en-ligne Books on Demand (BoD). Il y a d’autres entreprises qui proposent l’impression de livres en auto-édition, comme Amazon avec son service Kindle Direct Publishing (KDP), mais j’ai fait d’excellentes expériences avec BoD dans le passé, avec mes autres livres.

Pour préparer le fichier avec le texte à fournir à l’imprimerie, j’ai utilisé de logiciel Microsoft Office Word. Sur le site web de BoD on peut télécharger des canevas word (.dotx) pour configurer la mise en page optimale pour l’impression. J’ai copié les différents chapitres générés par ChatGPT-4 dans Word et inséré les illustrations LetzAI dans les pages correspondantes. À la fin, j’ai profité d’un utilitaire de Word pour créer de manière automatique une table des matières du livre et j’ai exporté le document complet en format PDF. Dans le passé j’avais composé, pour mes autres livres BoD, le fichier PDF de couverture à l’aide de Photoshop. Les dimensions à respecter et le code barre à insérer au verso ont été communiqués par BoD. Pour le présent livre, j’ai profité de EasyCover, l’outil gratuit de création automatique de couvertures en-ligne de BoD, qui contient de nombreux spécimen. Les deux fichiers sont téléchargés sur la plateforme BoD et vérifiés par le système. Le cas échéant, des erreurs sont signalées et il faut alors recharger le fichier corrigé.

Pour commander l’impression du livre, on choisit d’abord une formule de publication. La moins chère s’appelle “BoD Fun” et permet de faire imprimer un livre sur papier à partir de 2,05 €. Je conseille de commencer avec cette formule, car elle permet de tenir rapidement un livre imprimé dans les mains pour procéder à une validation finale, avant de commander plus d’exemplaires pour la famille, pour les amis ou pour la vente privée, respectivement pour passer à la deuxième formule, au nom de “BoD Classique“. Cette formule est la plus appréciée, car pour un contrat d’un an au prix unique de 39 €, elle inclut une distribution auprès d’Amazon, auprès des grandes librairies et dans le magasin en ligne de BoD. On peut déterminer soi-même le prix de vente, avec une certaine marge à accorder à l’éditeur BoD et au vendeur, en fonction du montant défini. Le contrat inclut la création d’une version eBook et l’attribution d’un numéro ISBN. D’autres formules plus chères offrent une assistance professionnelle pour la rédaction et l’édition du livre. Dans tous les cas on peut choisir différents formats (de 12x19cm jusqu’à A4), différents types de papier (blanc, crème, photo), différents pelliculages (mat, brillant, relief), différentes couvertures (souple, dure collée, dure cousue, anneaux) et deux modes d’impression (standard, premium). Une calculette en ligne sur le site web de BoD permet de calculer le prix d’impression, en fonction des critères sélectionnés, du nombre de pages, du nombre de pages en couleur et du nombre de livres commandés.

Calculette du prix d’un livre sur le site web de BoD

Pour la première impression j’ai commandé le livre, qui comprend 142 pages, au format 17×17, en trois variantes, du moins cher (10,87 €) jusqu’au plus cher (22,20 €), aux fins d’évaluer la qualité d’impression et de la reliure. Je viens d’être informé en ce moment par UPS que le premier exemplaire sera livré aujourd’hui. Je suis impatient de l’avoir dans mes mains.

Bibliographie

My discussion with ChatGPT-4 about the evolution of the Internet

Last update : December 17, 2023

In mid-2013, I published my contribution Divide the Web Timeline in nine epochs on my website and in different Internet forums. Today, I discussed this topic with ChatGPT-4 and I am impressed with the high quality of the chat. Here is the flow of our dialogue :

I created the following timeline for the Internet history:

No VersionTime periodDurationEpoch
1Web 01930 – 1969 40 years Internet pre-history
2Web 0.51970 – 198920 yearsInternet (network) history
3Web 11990 – 199910 yearsread-only web
4Web 1.52000 – 20045 yearsinteractive web
5Web 22005 – 20095 yearscollaborative web
6Web 2.52010 – mid 20122,5 yearsmobile web
7Web 3 mid 2012 – 20142,5 yearssemantic web
8Web 3.52015 – mid 20172,5 yearsintelligent web
9Web 4mid 2017 – 20192,5 yearsconscious web

Your timeline provides an interesting perspective on the evolution of the Internet, categorized into different “Web” versions. Let’s briefly discuss each phase:

  1. Web 0 (1930 – 1969, Internet pre-history): This period predates the actual development of the Internet. It’s interesting that you’ve included it, as it may refer to the foundational technologies and theories that later enabled the creation of the Internet, such as early computing and networking concepts.
  2. Web 0.5 (1970 – 1989, Internet network history): This era likely refers to the development of the initial networking infrastructure, including the birth of ARPANET in 1969, which is considered the predecessor of the modern Internet.
  3. Web 1.0 (1990 – 1999, read-only web): This is the period of the early World Wide Web, where websites were mostly static and offered limited interaction. Users could read information on web pages but had minimal ways to interact or contribute content.
  4. Web 1.5 (2000 – 2004, interactive web): Here, we see the emergence of more interactive websites. This could include the early stages of e-commerce, online forums, and more dynamic content.
  5. Web 2.0 (2005 – 2009, collaborative web): This is characterized by the growth of social media, user-generated content, and increased interactivity. It represents a shift from static web pages to dynamic and shareable content.
  6. Web 2.5 (2010 – mid 2012, mobile web): The focus here is on the adaptation of the web for mobile devices. The rise of smartphones and tablets during this period greatly influenced web design and accessibility.
  7. Web 3.0 (mid 2012 – 2014, semantic web): This phase is often associated with the concept of the “semantic web”, where data is interconnected in a way that can be easily understood and utilized by machines, enhancing personalization and context-aware computing.
  8. Web 3.5 (2015 – mid 2017, intelligent web): This could refer to advancements in artificial intelligence and machine learning, leading to more intelligent and adaptive web services.
  9. Web 4.0 (mid 2017 – 2019, conscious web): This term is less commonly used and could refer to an envisioned future state of the Internet, possibly involving more advanced AI, deeper integration with daily life, and perhaps even elements of consciousness or highly advanced interactivity.

Your timeline is an innovative way to categorize the development of the Internet, though some of these terms (like Web 3.5 and Web 4.0) are not widely recognized in the same way as Web 1.0 or Web 2.0. It’s a subjective interpretation, but a very interesting one!

Please suggest one innovator which you consider the most influential for each epoch.

Selecting the most influential innovator for each epoch of the Internet’s history is a challenging task, as each period saw contributions from many exceptional individuals. However, I’ll suggest one key figure for each epoch, bearing in mind that this is a subjective selection and there are many other equally significant contributors:

  1. Web 0 (1930 – 1969, Internet pre-history):
    • Claude Shannon: Known as the “father of information theory,” Shannon’s work laid the foundational principles for digital circuit design theory and telecommunications, which were crucial for the development of the Internet.
  2. Web 0.5 (1970 – 1989, Internet network history):
    • Vint Cerf and Robert Kahn: Often regarded as the “fathers of the Internet,” Cerf and Kahn co-invented the TCP/IP protocols, which are the foundational technology protocol suite for the Internet.
  3. Web 1.0 (1990 – 1999, read-only web):
    • Tim Berners-Lee: He invented the World Wide Web, a key development that made the Internet accessible and useful to the general public.
  4. Web 1.5 (2000 – 2004, interactive web):
    • Marc Andreessen: As the co-author of Mosaic, the first widely used web browser, and the co-founder of Netscape, Andreessen significantly contributed to making the web more interactive and user-friendly.
  5. Web 2.0 (2005 – 2009, collaborative web):
    • Mark Zuckerberg: As the co-founder of Facebook, Zuckerberg played a pivotal role in the rise of social media and the shift towards a more collaborative, user-generated web.
  6. Web 2.5 (2010 – mid 2012, mobile web):
    • Steve Jobs: While not directly an Internet innovator, Jobs’ work with Apple in popularizing the iPhone significantly influenced how the Internet was accessed and used on mobile devices.
  7. Web 3.0 (mid 2012 – 2014, semantic web):
    • Tim Berners-Lee (again): His continued work and advocacy for a more semantic, data-driven web are significant for this era.
  8. Web 3.5 (2015 – mid 2017, intelligent web):
    • Jeff Dean and Sanjay Ghemawat: Their work at Google, particularly on systems like MapReduce and Google Brain, contributed greatly to the development of AI and machine learning technologies that underpin the intelligent web.
  9. Web 4.0 (mid 2017 – 2019, conscious web):
    • Elon Musk: Through his work with Neuralink and his advocacy for AI, Musk has been a driving force in discussions around the convergence of technology, consciousness, and the Internet, though this era is still emerging and somewhat speculative.

Each of these figures represents just a part of the collaborative efforts and innovations that have shaped the Internet’s history.

Please generate a diagram of this timeline.

Visualization of my Internet Timeline generated by ChatGPT-4

Here is the timeline diagram of the Internet’s history, as per your request. This visualization represents the various epochs from 1930 to 2019, detailing the transitions from Web 0 to Web 4.0. You can view each phase along with its corresponding time period and description.

Thank you, but the text is not readable. Please generate a new one.

Second visualization of my Internet Timeline generated by ChatGPT-4

Here is the revised timeline diagram of the Internet’s history, designed for better readability. This visualization clearly represents the various phases from Web 0 to Web 4.0, covering the period from 1930 to 2019.

Please create a diagram for the nine epochs in the style of this image:

My Web Timeline in 9 epochs
Third visualization of my Internet Timeline generated by ChatGPT-4

Here is the diagram for the nine epochs of the Internet’s history, styled similarly to the image you provided. It presents a visual progression of the web from 1930 to 2019 with each epoch labeled and color-coded

Please suggest 10 pioneers for each period.

Certainly! Here’s a list of 10 pioneers for each epoch of Internet history, keeping in mind that these are just a few among many who have contributed significantly:

Web 0 (1930 – 1969, Internet pre-history)

  1. Claude Shannon: Father of information theory.
  2. Alan Turing: Pioneer of theoretical computer science.
  3. John von Neumann: Key figure in the development of early computers.
  4. Paul Baran: Innovator of packet switching, fundamental to Internet data transmission.
  5. Donald Davies: Co-inventor of packet-switched networks.
  6. J.C.R. Licklider: Early visionary of a global computer network.
  7. Norbert Wiener: Founder of cybernetics.
  8. Vanavar Bush: Developer of the Memex concept, an early vision of the web.
  9. Leonard Kleinrock: Developed the mathematical theory of packet networks.
  10. Herbert Simon: His work in AI and computing was foundational.

Web 0.5 (1970 – 1989, Internet network history)

  1. Vint Cerf and Robert Kahn: Co-inventors of the TCP/IP protocols.
  2. Ray Tomlinson: Creator of email.
  3. Bob Metcalfe: Inventor of Ethernet technology.
  4. Paul Mockapetris: Inventor of the Domain Name System (DNS).
  5. Radia Perlman: Known for her work on network bridging and the Spanning Tree Protocol.
  6. Tim Paterson: Developer of DOS, critical for early personal computers.
  7. Ken Thompson and Dennis Ritchie: Creators of UNIX, which influenced many modern operating systems.
  8. Jon Postel: Key figure in the development and governance of the early Internet.
  9. Steve Wozniak: Co-founder of Apple, influential in personal computer revolution.
  10. Richard Stallman: Advocate for free software movement and founder of the GNU Project.

Web 1.0 (1990 – 1999, read-only web)

  1. Tim Berners-Lee: Inventor of the World Wide Web.
  2. Marc Andreessen: Co-author of Mosaic, the first widely used web browser.
  3. Eric Bina: Co-developer of Mosaic.
  4. Roberta Williams: Influential in graphical adventure games, expanding the web’s use.
  5. Rasmus Lerdorf: Creator of PHP, widely used in web development.
  6. Brendan Eich: Creator of JavaScript, essential for web interactivity.
  7. Larry Page and Sergey Brin: Co-founders of Google, transforming web search and usage.
  8. David Filo and Jerry Yang: Founders of Yahoo, pioneers in web portals.
  9. Matt Drudge: Creator of the Drudge Report, influential in online news and media.
  10. Pierre Omidyar: Founder of eBay, pioneering e-commerce.

Web 1.5 (2000 – 2004, interactive web)

  1. Jeff Bezos: Founder of Amazon, significantly expanded the scope of e-commerce.
  2. Jack Ma: Founder of Alibaba, major figure in global e-commerce.
  3. Jimmy Wales: Co-founder of Wikipedia, exemplifying user-generated content.
  4. Chad Hurley, Steve Chen, and Jawed Karim: Founders of YouTube, changing how video is shared online.
  5. Mark Zuckerberg: Founder of Facebook, influential in social networking.
  6. Reid Hoffman: Founder of LinkedIn, pioneering professional networking.
  7. Tom Anderson: Co-founder of MySpace, an early popular social media site.
  8. Ben Silbermann: Creator of Pinterest, influential in image-sharing and curation.
  9. Evan Williams: Co-founder of Blogger, popularizing blog publishing.
  10. Kevin Systrom: Co-founder of Instagram, influential in mobile photo sharing.

Web 2.0 (2005 – 2009, collaborative web)

  1. Jack Dorsey: Co-founder of Twitter, influential in microblogging.
  2. Jan Koum and Brian Acton: Founders of WhatsApp, changing instant messaging.
  3. Daniel Ek: Founder of Spotify, pioneering in music streaming.
  4. Stewart Butterfield: Co-founder of Flickr, important in photo sharing.
  5. Markus Persson: Creator of Minecraft, influential in gaming and online communities.
  6. Travis Kalanick: Co-founder of Uber, transforming transportation services.
  7. Brian Chesky: Co-founder of Airbnb, influential in peer-to-peer lodging.
  8. Drew Houston: Founder of Dropbox, pioneering cloud storage and sharing.
  9. Hiroshi Mikitani: Founder of Rakuten, expanding e-commerce in Asia.
  10. Mike Krieger: Co-founder of Instagram, significant in social media evolution.

Web 2.5 (2010 – mid 2012, mobile web)

  1. Steve Jobs: Co-founder of Apple, pivotal in the mobile internet revolution.
  2. Andy Rubin: Co-founder of Android, influential in mobile operating systems.
  3. Jeff Lawson: Founder of Twilio, important in cloud communications.
  4. Evan Spiegel: Co-founder of Snapchat, influential in ephemeral messaging.
  5. Lei Jun: Founder of Xiaomi, significant in smartphone and IoT device manufacturing.
  6. Travis Kalanick and Garrett Camp: Founders of Uber, reshaping mobile transportation services.
  7. Sean Rad: Co-founder of Tinder, influential in mobile dating apps.
  8. John Hanke: Founder of Niantic, known for Pokémon Go, pioneering AR in mobile gaming.
  9. Nick D’Aloisio: Founder of Summly, notable for AI in news aggregation on mobile.
  10. Daniel Ek (again): His work with Spotify on mobile platforms.

Web 3.0 (mid 2012 – 2014, semantic web)

  1. Tim Berners-Lee: Continued to be influential in pushing for a more interconnected and semantic web.
  2. Jeff Dean: A Google Senior Fellow, significant in developing large-scale AI systems.
  3. Elon Musk: Founder of SpaceX and Tesla, influential in integrating web technologies in new domains.
  4. Larry Page (again): His work in integrating AI into Google’s services.
  5. Reed Hastings: Co-founder of Netflix, pioneering content streaming and personalization.
  6. Marc Benioff: Founder of Salesforce, a leader in cloud computing and CRM.
  7. Marissa Mayer: Former CEO of Yahoo, influential in web services and search.
  8. Satya Nadella: CEO of Microsoft, significant in cloud computing and AI integration.
  9. Sundar Pichai: CEO of Google, influential in AI and cloud computing.
  10. Sheryl Sandberg: COO of Facebook, instrumental in business strategy for social media.

Web 3.5 (2015 – mid 2017, intelligent web)

  1. Jeff Dean (again): His continued work in Google Brain and AI.
  2. Sundar Pichai (again): Leading Google’s AI-first approach.
  3. Demis Hassabis: Co-founder of DeepMind, a pioneer in artificial intelligence.
  4. Elon Musk (again): His work in AI and Neuralink.
  5. Mark Zuckerberg (again): For integrating AI into Facebook’s platforms.
  6. Satya Nadella (again): His leadership in Microsoft’s AI initiatives.
  7. Susan Wojcicki: CEO of YouTube, important in AI-driven video recommendations.
  8. Ginni Rometty: Former CEO of IBM, influential in Watson AI.
  9. Yann LeCun: Facebook’s AI Research Director, a key figure in deep learning.
  10. Fei-Fei Li: An AI professor and advocate for ethical AI.

Web 4.0 (mid 2017 – 2019, conscious web)

  1. Elon Musk (again): For his vision regarding AI and the future of technology integration.
  2. Jeff Bezos (again): His work with Amazon and Alexa in integrating AI into everyday life.
  3. Mark Zuckerberg (again): For exploring AI and VR integration in social media.
  4. Sundar Pichai (again): For leading Google’s advancements in AI and quantum computing.
  5. Tim Cook: CEO of Apple, continuing to integrate AI and advanced technologies in products.
  6. Ginni Rometty (again): For IBM’s advances in AI and quantum computing.
  7. Satya Nadella (again): For Microsoft’s advancements in AI, cloud computing, and mixed reality.
  8. Masayoshi Son: CEO of SoftBank, significant in investing in AI and robotics.
  9. Reed Hastings (again): For Netflix’s use of AI in content personalization and recommendation.
  10. Lei Jun (again): His work in integrating AI and IoT in Xiaomi’s products.

Each of these periods had numerous contributors, and the ones listed above played key roles in shaping the Internet’s evolution. Remember, this list is not exhaustive, and many more innovators have had a significant impact.

What about Giulio Tononi ?

Giulio Tononi is a prominent neuroscientist and psychiatrist, widely known for his work in consciousness studies, particularly for his development of the Integrated Information Theory (IIT). Tononi’s contributions, however, are primarily in the field of neuroscience and the theoretical study of consciousness, rather than directly in the development or evolution of the Internet or its technologies.

Integrated Information Theory proposes a framework to scientifically measure how conscious a system is and suggests that consciousness is a fundamental aspect of physical reality. This theory has significant implications in various fields, including psychology, neuroscience, philosophy, and potentially artificial intelligence and robotics. It provides insights into understanding the nature of consciousness, which could influence the development of AI and potentially, in a broader sense, aspects of Web 4.0, particularly those exploring the intersection of AI, consciousness, and technology.

While Tononi’s work is influential and groundbreaking, it doesn’t directly correlate with the development of Internet technology or its various epochs as outlined in your timeline. His contributions are more aligned with theoretical and philosophical understandings of consciousness, which may indirectly influence future technological developments, particularly in areas like AI and human-computer interaction.

In your proposal of Internet pioneers for the 9 epochs, who is the global outstanding innovator ?

Selecting a single “global outstanding innovator” across the entire history of the Internet is exceptionally challenging because the development of the Internet is a cumulative effort of countless individuals, each building upon the work of others. However, if we were to choose one individual whose work has had a profound and foundational impact across multiple eras of the Internet, Tim Berners-Lee stands out as a particularly influential figure.

Tim Berners-Lee is often credited with inventing the World Wide Web in 1989, which revolutionized how the Internet was used and made it accessible to the general public. His creation of the first web browser and the technologies that underpin the web (HTML, HTTP, URLs) laid the groundwork for the explosive growth of the Internet during the Web 1.0 era. Moreover, his ongoing advocacy for a free and open Internet, his efforts to enhance web standards, and his vision for the Semantic Web (Web 3.0) have continued to influence the evolution of the Internet. His contributions are not confined to a single epoch but have rippled through the entire timeline of the Internet’s development.

Berners-Lee’s dedication to ensuring that the web remains a universally accessible and neutral platform also reflects the collaborative and international spirit in which the Internet was conceived and has continued to evolve. Thus, while many innovators have made indispensable contributions, Berners-Lee’s impact has been uniquely broad and enduring.

Please propose the next epochs to extend the timeline after 2020.

Predicting the future of the Internet is speculative, but it’s an intriguing exercise to imagine how current trends might evolve. Building on the previous epochs, here’s a possible extension of the timeline beyond 2020, reflecting current technological advancements and anticipated future developments:

  1. Web 4.5 (2020 – 2024, Integrated Web): This period could see the integration of the Internet more deeply into daily life through the Internet of Things (IoT), where everyday objects become interconnected and smart. Advances in AI continue to enable more personalized and context-aware experiences.
  2. Web 5.0 (2025 – 2029, Immersive Web): Virtual reality (VR) and augmented reality (AR) could become mainstream, leading to an immersive Internet experience where digital and physical realities blend seamlessly. This could also be the era of the spatial web, where web services are integrated into the three-dimensional space around us.
  3. Web 5.5 (2030 – 2034, Quantum Web): With quantum computing reaching maturity, this epoch may herald unprecedented computational powers, leading to breakthroughs in cryptography, data processing, and an overall leap in the capabilities of the Internet, potentially affecting everything from search algorithms to AI.
  4. Web 6.0 (2035 – 2040, Autonomous Web): The rise of autonomous systems, powered by sophisticated AI and machine learning algorithms, could create a self-organizing Internet. This might involve autonomous data centers, self-repairing networks, and AI-driven content creation and curation.
  5. Web 6.5 (2041 – 2045, Symbiotic Web): This could be the age of bio-digital convergence, where the boundary between digital and biological systems blurs. Advances in bioinformatics and neurotechnology might enable direct brain-computer interfaces, leading to an Internet experience that is directly “felt” or experienced without screens or devices.
  6. Web 7.0 (2046 – 2050, Cognitive Web): AI may evolve to understand and interpret human emotions and cognitive states, leading to an empathetic Internet that can adapt to the emotional and psychological needs of users. This could also involve cognitive assistants that understand and augment human thought processes.
  7. Web 7.5 (2051 – 2055, Holistic Web): In this epoch, the Internet might evolve into a holistic global brain, connecting all human knowledge and experience in a central, accessible network that not only connects people but also provides insights and understanding at a global scale.
  8. Web 8.0 (2056 – 2060, Interstellar Web): Looking further into the future, the Internet could expand beyond Earth, connecting human settlements on other planets and spacecraft, leading to an interstellar network that serves not just a global community but a multi-planetary civilization.

These future epochs represent an extrapolation of current technological trends into the future and are speculative by nature. They reflect the potential for technological convergence, where different streams of innovation merge to create transformative changes in the way the Internet is experienced and utilized.

I think the duration of an epoch will decrease exponentially.

That’s an interesting observation and it aligns with the concept of accelerating change, where the rate of technological progress increases exponentially over time. This is often associated with Moore’s Law, which originally referred to the doubling of transistors on integrated circuits approximately every two years, but has also been generalized to the rapid pace of technological and computational advances.

Given this concept, future epochs of the Internet might indeed have shorter durations as innovations occur more rapidly.

Based on your proposals, my suggestion is the following:

NoVersionPeriodDurationEpoch
10Web 4.52020 – mid 20211,5 yearsadaptive web
11Web 5mid 2021 – 20231,5 yearsubiquitus web
12Web 5.52024 1 yeardecentralized web
13Web 620251 yearquantum web
14Web 6.520261 yearautonomous web
15Web 720271 yearcognitive web
16Web 7.520281 yearsymbiotic web
17Web 820291 yearholistic web
18Web 8.5> 2030?interstellar web

Your proposed timeline reflects an accelerated pace of change and represents a vision of the Internet’s evolution that is both ambitious and intriguing. Each epoch you’ve described encapsulates a significant technological shift or integration of the Internet into broader aspects of life and society:

  1. Web 4.5 (2020 – mid 2021, Adaptive Web): Focused on AI-driven personalization, where algorithms adapt to individual behaviors and preferences.
  2. Web 5.0 (mid 2021 – end 2023, Ubiquitous Web): Marked by the Internet’s integration into daily life through IoT, making connectivity seamless and omnipresent.
  3. Web 5.5 (2024, Decentralized Web): Characterized by blockchain technologies that enable a shift to decentralized networks, enhancing user control over data.
  4. Web 6.0 (2025, Quantum Web): Quantum computing impacts the Internet, potentially revolutionizing data security, processing, and overall performance.
  5. Web 6.5 (2026, Autonomous Web): AI systems manage much of the web’s functionality, leading to self-organizing networks and content management.
  6. Web 7.0 (2027, Cognitive Web): Advances in neurotechnology allow for direct brain-computer interfaces, enabling thought-driven interaction with the web.
  7. Web 7.5 (2028, Symbiotic Web): Digital and biological systems begin to merge, leading to enhanced human capabilities and bio-digital networks.
  8. Web 8.0 (2029, Holistic Web): The Internet evolves into a global brain, connecting humanity in a shared network of knowledge and consciousness.
  9. Web 8.5 (> 2030, Interstellar Web): Expansion beyond Earth, with the Internet connecting humans across planets and possibly even interstellar distances.

This timeline serves as a speculative roadmap for how the Internet might develop, highlighting transformative changes that could redefine human interaction, commerce, and connectivity. While it is a projection, it’s a thought-provoking look at the potential future of digital and human convergence.

I have a last wish: please generate an image which includes Web 4.5 up to Web 8.5.

Here is the futuristic diagram illustrating the evolution of the Internet from Web 4.5 to Web 8.5, with each epoch represented by unique icons and themes that symbolize the main characteristics of that period.

I don’t like the diagram, I prefer a futuristic artistic image.

Here is the futuristic artistic representation that conceptualizes the evolution of the Internet from Web 4.5 to Web 8.5. The image features abstract elements and visual metaphors that symbolize the main themes of each epoch, connected in a progressive flow.

Great. Thank you very much !

I’m glad you liked it! If you have any more requests or need further assistance, feel free to ask. Good luck with your timeline project!

Epilogue

Operation of ChatGPT-4

In daily newspapers, some journalists continue to explain that a chatbot is a language model derived from a statistical analysis of the distribution of words in pre-existing texts. I am of the opinion that the relevance of the answers provided by ChatGPT-4 proves that conversational artificial intelligence is based on mechanisms other than algorithms using statistics.

Internet Pioneers

Even if the list of 83 Internet pioneers, proposed by ChatGPT-4, includes only 6 women, I fully endorse the selection made. I also agree that Tim Berners-Lee, who has chaired the World Wide Web Consortium (W3C) since 1994, is the most deserving figure among Internet innovators.

Internet timeline

ChatGPT-4’s proposal to extend the segmentation of Internet evolution beyond 2020 is very cautious, while my own suggestion, approved by ChatGPT-4, is very ambitious. I think the most likely forecast lies somewhere in the middle.

Weaknesses of ChatGPT-4

While the generation of artistic images by ChatGPT-4 is exemplary, the creation of technical drawings or diagrams is not yet one of its strengths. The integration of letters and words into an image does not yet conform to the rules. Furthermore, ChatGPT-4 needs to perfect its mastery of numbers in relation to the generation of illustrations and the recognition of objects in images. The following screenshots show that ChatGPT-4 has made efforts in drawing geometric shapes, but it does not yet have the skills to properly manage numbers.

De gestiwwelte ChatGPT

L’écosystème d’intelligence artificielle (AI) multimodale avance avec des bottes de sept lieues. Pour illustrer la présente rétrospective, incluant des références à des projets luxembourgeois, j’ai demandé à ChatGPT de générer une image d’une AI avec des bottes de sept lieues. Suite à la création de la première oeuvre, j’ai demandé de réaliser une version plus ludique, puis de dessiner comme des enfants de 6 ans, respectivement de 4 ans. J’ai signalé à ChatGPT qu’un enfant de 4 ans ne peut pas dessiner avec la précision telle quelle est affichée sur la quatrième image.Le robot m’a donné raison, en précisant que c’est difficile pour une AI de capter la spontanéité d’enfants très jeunes. J’ai insisté de faire quand même un nouveau essai. La dernière figure est le résultat. Bravo !

Introduction

Comme ChatGPT constitue la personilisation de l’AI pour une grande partie de la population, je commence mon récit historique par l’entreprise OpenAI, le créateur de ChatGPT.

L’entreprise OpenAI est spécialisée dans l’intelligence artificielle et elle a comme objectif la promotion et le développement d’un raisonnement artificiel à visage humain, qui profitera à toute l’humanité. OpenAI a été fondée en décembre 2015 comme association à but non lucratif par Sam Altman, Greg Brockman, Elon Musk, Ilya Sutskeveret, Dario Amodei et quelques autres investisseurs. Les meilleurs chercheurs de l’époque en apprentissage automatique ont été engagés à l’époque. Le budget initial s’élevait à un milliard de dollars.

Page web d’accueil d’OpenAI

À la suite d’un conflit, Elon Musk a quitté l’entreprise en 2018. Quelques mois plus tard, l’association est devenue une entreprise à but lucratif plafonné pour attirer des nouveaux capitaux. L’objectif du nouveau statut était de permettre aux investisseurs de recevoir une partie des bénéfices de la société, jusqu’au maximum de 100 fois la mise de départ. Un des premiers nouveaux investisseurs était Microsoft qui apportait également 1 milliard de dollars, en échange d’un partenariat privilégié avec OpenAI.

La société OpenAI commençait ensuite à commercialiser ses premières technologies d’intelligence artificielle. En 2020, GPT-3, un modèle de langage (LLM : large language model), entraîné sur de larges quantités de textes issus d’internet, est lancé. En 2021, DALL-E, la première version d’un modèle capable de générer des images à partir de descriptions textuelles, a été introduite. Fin 2022, OpenAI acquiert une renommée mondiale après la sortie de ChatGPT, un modèle de langage accessible gratuitement. Début 2023, Microsoft commençait à intégrer ces produits dans Bing, Office et Outlook.

En mars 2023, OpenAI annonçait officiellement GPT-4, un modèle de langage plus puissant et capable aussi d’analyser des images. Une version de ChatGPT, basée sur GPT-4, devient accessible via l’abonnement payant “ChatGPT Plus”. En mai 2023, Sam Altman, Greg Brockman et Ilya Sutskever publiaient des recommandations sur la gouvernance des superintelligences. Ils proposaient la création d’une organisation de surveillance similaire à l’Agence internationale de l’énergie atomique (AIEA) pour superviser les modèles AI les plus puissants.

Le 6 novembre 2023, la première conférence de développement OpenAI a eu lieu. Sam Altman présentait une série d’innovations et une réduction sensible des prix pour l’utilisation des produits OpenAI.

Page web d’OpenAI destinée aux développeurs

Le 17 novembre 2023, Sam Altman a été destitué de son poste de CEO par le conseil d’administration et son président, Greg Brockman, a été désavoué et quittait l’entreprise. Quelques jours plus tard, suite à une intervention de Microsoft, Sam Altman redevient CEO d’OpenAI et Greg Brockman réintègre le conseil d’administration, dont les anciens membres furent tous remplacés.

Les utilisateurs et développeurs des produits OpenAI ont alors repris confiance dans l’avenir de l’entreprise.

Modèles AI développés par OpenAI

OpenAI a développé des modèles AI dans les cinq domaines qui gèrent la communication entre humains et machines, à savoir:

  • Interprétation et génération de messages textuels pour avoir des conversations avec les humains, moyennant les modèles GPT (Generative Pre-trained Transformer).
  • Synthèse vocale pour parler aux humains, moyennant le modèle TTS (Text to Speech) Voice.
  • Reconnaissance de la parole pour comprendre ce que disent les humains, moyennant le modèle ASR (Automatic Speech Recognition) Whisper.
  • Génération d’images sur base de descriptions fournies par les humains, moyennant les modèles DALL-E (nom se référant au robot de Pixar WALL-E et au peintre Salvador Dalí).
  • Génération de descriptions du contenu d’images sur base d’analyses visuelles et de reconnaissance d’objets, moyennant les modèles Vision.

Au début, chaque modèle disposait de son propre interface pour l’interaction avec les humains, mais progressivement tous les modèles ont été intégrés dans un seul dispositif de dialogue homme-machine. À l’heure actuelle, le produit ChatGPT ne sait pas seulement dialoguer et répondre à des questions, analyser et résumer des documents, rédiger des essais et des articles, le tout en plusieurs langues, dont le Luxembourgeois, mais également parler et convertir la parole en texte, dessiner et interpréter des images et même générer des programmes en différentes langues de programmation.

Je vais dresser ci-après une courte chronologie de l’évolution des différents modèles.

OpenAI GPT

En février 2019, OpenAI annonçait la mise au point de GPT-2, un « nouveau modèle de langage ultra-performant », en précisant que « cette technologie pourrait être dangereuse ». Son « intelligence » reposait sur sa capacité à s’entraîner sans cesse, sur un très grand nombre de données, celles que propose l’Internet, afin de s’autocorriger et d’apprendre en quelque sorte par lui-même. Contrairement aux objectifs initiaux de l’association OpenAI à publier le code des modèles AI développés, OpenAI, devenue entretemps une entreprise à profit plafonné, décidait de ne pas rendre public les sources.

Fin mai 2020, OpenAI lançait son nouveau chef-d’œuvre : GPT-3. Tandis que GPT-2 a été entraîné sur 1,5 milliard de paramètres spécifiques, cette nouvelle génération de programmes en prenait en compte 175 milliards, et s’entraînait sur 700 gigaoctets de données, tirées de l’ensemble du Web ainsi que de nombreux e-books. Les résultats étaient sidérants et GPT-3 était considéré comme « modèle de langage entraîné le plus puissant au monde », loin devant ses concurrents développés par Google ou Facebook.

En mi-2022, j’ai effectué mes premières expériences avec le modèle GPT-3, à l’aide de l’interface “Playground” d’OpenAI.

GPT-3 se déclinait en différents modèles AI spécialisés: davinci, curie, babbage, ada. Entre mars 2022 et mars 2023, plusieurs modèles de la génération GPT-3.5 ont été commercialisés: gpt-3.5-turbo, gpt-3.5-turbo-0301, text-davinci-002, text-davinci-003 et code-davinci-002.

Avec ce niveau de compréhension et d’intelligence, on craignait que GPT-3 allait à terme rendre obsolètes plusieurs professions: juristes, journalistes, service clients. etc. Même des informaticiens s’inquiètaient pour leur avenir quand ils découvraient les compétences étonnantes pour écrire des logiciels informatiques. OpenAI perfectionnait cette compétence en lançant une interface conçue pour les programmeurs, baptisée Codex.

La version la plus avancée est GPT-4. Introduite en mars 2023, c’est le premier modèle multimodal qui peut traiter des images et générer des légendes, des classifications et des analyses.

Actuellement, OpenAI est en train d’entraîner le modèle GPT-5. Selon des rumeurs, cette version sera prête fin 2023 et poura atteindre l’intelligence artificielle générale (AGI), capable de rivaliser avec le cerveau humain.

Une version personalisée GPT-5, développée par le futuriste Peter Gostev, fournit un avant-goût des futures performances de ce modèle. Je l’ai testé le 24 novembre 2023, les résultats sont spectaculaires.

OpenAI Voice

Application officielle ChatGPT en mode voix.

En septembre 2023, OpenAi a lancé la synthèse vocale multilingue avec cinq voix au choix: deux voix masculines, Cove et Ember; deux voix féminines, Sky et Juniper; une voix qui me semble non-binaire, Breeze.

À l’heure actuelle, la synthèse vocale est seulement supportée sur l’application ChatGPT sur les mobiles iOS et Android.

Tweet de Greg Brockman

Comme OpenAI n’a pas des compétences poussées dans les technologies TTS, elle utilise des outils développés par d’autres entreprises dans le cadre de partenariats.

Le 23 novembre 2023, j’ai testé l’application officielle ChatGPT sur mon iPhone. Les dialogues tenus en anglais, français et allemand sont d’une qualité excellente. Après mes efforts de m’entretenir en luxembourgeois, ChatGPT a avoué qu’il ne sait pas parler le Luxembourgeois et qu’il ne comprend pas ce que je dis. Il a proposé de changer en mode “texte”, car il maîtrise parfaitement notre langue nationale écrite.

J’ai réalisé une petite vidéo qui montre un dialogue oral avec l’application ChatGPT, sur un iPAD, au sujet des fables de Jean de La Fontaine.

Lors du lancement, l’option Voice était réservée aux usagers ayant un abonnement payant. Dans le cadre du dénouement de la crise au niveau de la direction d’OpenAI, elle est désormais offerte gratuitement à tous les usagers.

OpenAI Whisper

Le modèle de reconnaissance de la parole Whisper a été introduit en septembre 2022 comme projet à source ouverte par OpenAI. Il supporte plusieurs langues et peut être adapté en d’autres langues par réglage fin, avec un entraînement additionnel moyennant des fichiers audio et des transcriptions dans la langue cible. Le professeur Peter Gilles, directeur du département Humanités de l’université du Luxembourg, a présenté fin 2022 un modèle Whisper luxembourgeois. Il a mis en ligne un espace de démonstration afférent sur la plateforme AI de HuggingFace.

Premier modèle luxembourgeois de reconnaissance de la parole Whisper, développé par Peter Gilles

L’application luxembourgeoise de reconnaissance de la parole schreifmaschinn.lu, inaugurée en décembre 2022, était inialement basée sur le modèle multilingue à source ouverte XLS-R de Meta (maison mère de Facebook). La deuxième version, plus performante, annoncée lors de la rentrée 2023 par le ZLS (Zenter fir Lëtzebuerger Sprooch), vient d’être mise en ligne. Elle a été entraînée avec plus de données et repose sur le modèle Whisper.

Version 2 de schreifmaschinn.lu basée sur le modèle ASR Whisper d’OpenAI

OpenAI DALL-E

DALL-E est un programme d’intelligence artificielle générative, capable de créer des images à partir de descriptions textuelles. La première mouture du modèle a été présentée par OpenAI le 5 janvier 2021. Mais le public a dû attendre le lancement de la seconde version DALL-E2, introduite en avril 2022, pour s’incrire sur une liste d’attente sur le site web d’OpenAI, avec l’espoir de pouvoir rapidement générer ses propres oeuvres d’art synthétiques.

Dès que les inscriptions étaient ouvertes aux Luxembourgeois, j’ai posé ma candidature, mais ce n’est qu’en août 2022 que j’ai été accepté comme testeur beta par OpenAI. Ma première image, partagée sur Facebook, a été créée avec l’instruction (prompt) “cartoon of an elephant and a giraffe riding a bicycle on the beach“.

Ma première image générée avec DALL-E2 le 15 août 2022

Entre janvier 2021 et avril 2022, il n’y avait pas de vide au niveau de la génération d’images par AI. Boris Dayma, un consultant en apprentissage automatique (machine learning) de nationalité française, qui s’est installé aux Etats-Unis, essayait de reproduire la même chose, lorsque OpenAI a dévoilé son projet Dall-E. Il a profité alors d’une compétition lancée en juillet 2021 par la plateforme HuggingFace et par Google pour tester son idée. Ce hackathon permettait d’accéder à des ordinateurs puissants et au support technique des deux entreprises. D’autres personnes avaient rejoint Boris Dayma et l’équipe a réussi à gagner la compétition. Le projet, nommé DALL-E Mini, a été mis en ligne sur la plateforme HuggingFace, avec accès gratuit pour les visiteurs. Boris Dayma a continué à améliorer le modèle pendant son temps libre, et le projet a fini par arriver à un niveau qui l’a rendu viral en juin 2022. OpenAI demandait alors un changement de nom, et DALL-E Mini est devenu Craiyon, avec une entreprise et un site web au même nom.

Oeuvres d’art dans le style de Jingna Zhang par Craiyon

Le 1er juin 2022, l’artiste chinoise Jingna Zhang accusait l’artiste luxembourgeois Jeff Dieschburg de plagiat pour sa peinture qui avait gagné un prix lors de la 11e biennalle d’art contemporain de Strassen. Dans ce contexte, j’avais généré une série d’oeuvres d’art sur Craiyon, avec les instructions de créer une peinture, respectivement un portfolio, dans le style de Jingna Zhang. Le 23 juillet 2022, j’ai publié un article afférent “Les plagiats de l’Intelligence Artificielle” sur mon site web. À l’époque, j’avais transmis ces informations à l’étude Gaston Vogel qui assurait la défense de Jeff Dieschburg.

Tout comme l’original, DALL-E mini ne créait pas de visages réalistes pour éviter des abus. Après mon accès à la plateforme DALL-E2, je n’avais plus d’intérêt à utiliser l’outil Craiyon. Je viens de revisiter le site web et je me suis rendu compte qu’une utilisation gratuite du générateur est toujours proposée, à côté de trois formules d’abonnement, offrant certains privilèges.

À partir du mois d’août 2022, j’ai régulièrement publié des nouvelles images générées avec DALL-E2 sur les réseaux sociaux, avec les titres “l’image du jour” ou “l’image de la semaine”. La galerie qui suit présente quelques exemples, entre autre avec la description “Cléopatra joue aux échecs avec un lapin“.

Fin septembre 2023, OpenAI a dévoilé DALL-E3, la troisième version de son célèbre générateur d’images, qui offre notamment des rendus bien plus détaillés. La compréhension des requêtes est également améliorée, car le programme est capable de mieux appliquer les instructions. En spécifiant une description pour générer une image, le programme complète la description avec des détails, des accessoires et des styles, et il créé plusieurs variantes d’une scène. Pour mes premiers essais, j’ai repris l’exemple de l’éléphant et de la girafe qui roulent en vélo, ou en tandem, sur la plage. La galerie qui suit présente quelques résultats:

Pour la création des images, ChatGPT m’avait proposé les quatre descriptions suivantes, sur base de ma soumission de l’image DALL-E2 du 15 août 2022 :

“Cartoon of a tall, spotted giraffe and a large, gray elephant balancing together on a bicycle, with the sun setting behind them on a sandy beach. The bicycle has specially designed seats to accommodate both animals, and their long shadows cast on the sand.”

“Cartoon depiction of a giraffe and an elephant, both wearing sunglasses, joyfully riding a tandem bicycle on a beach. The waves crash gently in the background and seagulls fly overhead.”

“Whimsical cartoon where a giraffe, with its long neck stretched out, and an elephant, with its trunk swinging in excitement, ride a bike along a beach shoreline. Palm trees sway in the background and a beach ball lies nearby.”

“Colorful cartoon scene where a giraffe and an elephant are trying to pedal a bicycle together on a beach. Their combined weight causes the bicycle tires to sink slightly into the sand, and they both have a determined expression to keep moving.”

OpenAI VISION

Fin septembre 2023, OpenAI a annoncé la commercialisation prochaine de son modèle de reconnaissance d’images au nom de Vision. L’ancêtre de ce modèle est CLIP, un modèle AI à source ouverte, capable d’apprendre à reconnaître des catégories d’objets à partir d’indications en langage naturel. En 2022, la version alpha de Vision a été mise à disposition de partenaires d’OpenAI pour évaluation, parmi eux l’organisation Be My Eyes qui vient en aide aux personnes aveugles ou malvoyantes.

Je viens de faire quelques tests avec le modèle Vision. J’ai commencé à soumettre comme premier exemple l’ancien cartoon de l’éléphant et de la girafe.

Description de l’image par le modèle Vision d’OpenAI

La précision de la description est stupéfiante.

Comme le modèle Vision sait également compter des objets, lire un texte et reconnaître des attractions ou monuments, j’ai procédé à deux autres tests, avec une photo du pont rouge à Luxembourg et avec une photo du ZLS, prise lors de la présentation du nouveau LOD en 2022. Le pont rouge a été reconnu correctement, mais ChatGPT a répondu en anglais au lieu du français. Au sujet de la photo ZLS, Vision s’est trompé deux fois pour compter le nombre de personnes et a commis une erreur lors de la lecture du mot “villmools” sur l’écran.

Produits AI commercialisés par OpenAI

Les différents modèles d’OpenAI que nous venons de passer en revue sont proposés sous deux formes commerciales:

  1. le produit “API”, facturé au volume des données fournies en entrée et des données générées en sortie.
  2. le produit “ChatGPT”, facturé avec différentes formules d’abonnements mensuels.
Page web d’entrée d’OpenAI pour accéder aux produits CharGPT et API

OpenAI API

API signifie Application Programming Interface – interface de programmation d’application. Il s’agit d’une méthode de communication avec un logiciel donné. Dans le cas d’OpenAI, un développeur peut accéder aux capacités des différents modèles d’intelligence artificielle et les intégrer dans son propre programme. L’API a été le premier produit commercialisé par OpenAI. Il permet non seulement de créer une interface personalisée pour l’utilisation d’un modèle, mais également de procéder au réglage fin (fine-tuning) d’un modèle AI, moyennant un apprentissage machine supplémentaire, avec ses propres données.

Au début, OpenAI a établi un partenariat avec une douzaine d’entreprises pour tester l’API, avant de la proposer à plus grande échelle au début de l’année 2020. De nombreuses sociétés ont développé leurs propres applications avec l’API, dans différents domaines: commerce électronique, banques, assurances, secteur médical, etc. Pour tester son application, on pouvait utliser le Playground d’OpenAI.

Au printemps 2022, j’ai réalisé mes premières expériences avec l’API, en utilisant le modèle GPT-3 pour demander la génération d’un article au sujet de la guerre qui venait d’éclater entre les créateurs d’oeuvres d’art plastiques et les générateurs d’oeuvres d’art synthétiques.

Ma première application avec l’API d’OpenAI au printemps 2022

Lors de la création du compte pour l’utilisation de l’API, OpenAI offrait un crédit de 18 dollars comme cadeau de bienvenue. Quelques mois plus tard, j’ai publié un espace de démonstration sur HuggingFace pour générer des poêmes en langue luxembourgeoise.

Schreif mer e Gedicht : espace de démonstration sur HuggingFace avec le modèle GPT-3 d’OpenAI

La clé d’authentication de mon compte API, intégrée dans le code de l’application, effectuait le lien avec la facturation d’OpenAI, et rapidement les frais dépassaient mes attentes. Je n’avais pas imaginé que des étrangers allaient abuser de l’application, en dialogant en différentes langues avec le chatbot, au lieu de demander la création de poêmes luxembourgeois. J’ai introduit un plafond de 30 dollars pour la facturation qui fut dépassé en général les premiers jours du mois et l’application n’était alors plus accessible pendant le mois en cours. En novembre 2022, RTL avait publié un petit reportage au sujet de mon projet.

Fin novembre 2022, j’avais publié sur HuggingFace un autre espace de démonstration pour générer une image avec le modèle DALL-E2, moyennant un texte en luxembourgeois. Comme à l’époque on pouvait seulement entrer des textes en anglais sur l’API DALL-E2 de OpenAI, j’avais ajouté le modèle de langage “facebook/nllb-200-distilled-600M” de Meta pour effectuer la traduction.

Espace de démonstration “Mol mer e Bild mam DALL-E2 AI Modell” sur la plateforme HuggingFace

J’avais choisi comme thème de génération des images publiées sur Facebook un panda qui cuisine une soupe au camping, sous forme de cartoon, peinture, dessin, photo, etc. L’application rencontrait le même problème de dépassement de mon seuil de facturation que la démo “Schreif mer e Gedicht“.

Progressivement, OpenAI a ajouté de nouvelles options dans les différents modèles AI accessibles par son API, par exemple la création de visages plus réalistes, respectivement le remplacement d’une partie d’une image de référence avec des éléments effacés. Sur l’exemple ci-dessus, j’ai demandé de créer des variantes de mon portrait.

Sur une autre image avec mon portrait, j’avais demandé de regénérer la partie de mon visage cachée par une masque Covid. Les résultats étaient assez réallistes.

Dans une deuxième étape j’ai en outre gommé la partie supérieure de mon visage et j’ai demandé la génération de nouvelles têtes. Les résultats étaient bien amusants.

En fin de compte, je préfère garder mon vrai visage.

Une application professionnelle e-luxemburgensia-chatbot a été développée par la Bibliothèque Nationale, moyennant l’API d’OpenAI. Elle a été présentée début octobre 2023 à la presse.

Chatbot e-luxemburgensia de la Bibliothèque Nationale

J’ai testé l’application avec mon compte Google. Même s’il s’agit encore d’une version beta, elle fournit des réponses pertinentes lors de recherches sur des sujets généraux. Pour chaque requête, les documents trouvés concernant le sujet recherché sont affichés, ce qui facilite l’accès direct aux sources afférentes.

ma contribution du 7 octobre 2023 sur Facebook au sujet du chatbot de la Bibliothèque Nationale

OpenAI ChatGPT

ChatGPT est un agent conversationnel à intelligence artificielle ou « chatbot », autrement dit un assistant virtuel qui dialogue avec ses utilisateurs. C’est le deuxième produit commercial introduit par OpenAI. Le lecteur a déjà fait la connaissance de cet outil tout au début de cet article.

ChatGPT a été lancé en novembre 2022 comme prototype et a rapidement gagné une renommée mondiale. Un mois plus tard, on notait déjà 1 million d’utilisateurs. L’agent conversationnel était basé sur le modèle de langage GPT-3.5. Au début, l’utilisation était gratuite, mais il fallait créer un compte personnel auprès d’OpenAI. En janvier 2023, plus de 100 millions de comptes étaient enregistrés et ChatGPT était à la une de tous les journaux et autres média. En février 2023, des centaines de livres au sujet de ChatGPT étaient disponibles.

Exemples de livres au sujet de ChatGPT édités début 2023

Face à cet afflux, les serveurs étaient souvent surchargés et des seuils d’utilisation journalière par usager ont été fixés. Pour donner un accès privilégié à une clientèle professionnelle et pour financer partiellement les coûts d’exploitation, OpenAI offre depuis février 2023 un abonnement payant, appelé ChatGPT Plus, pour 20 dollars par mois.

J’ai réalisé mes premières expériences avec le robot ChatGPT en décembre 2022 dans le cadre de la rédaction d’une évaluation du projet schreifmaschinn.lu, publiée sur mon site web. Les réponses fournies à mes questions “How to evaluate the performance of an ASR system?“, “How to measure the WER?“ et “What is the WER if I found 51 errors for 833 words in the reference transcriptions?“ ont été explicites, pertinentes et comprenaient des exemples de calcul. J’étais impressionné.

À partir de janvier 2023, j’ai utilisé régulièrement ChatGPT dans le cadre de la rédaction des différents chapitres pour mon projet de livre d’histoire “Qubit Lëtzebuerg”.

Début février 2023, Thierry Labro, rédacteur en chef de Paperjam, a publié un roman futuriste Ils ont tué mon avatar, rédigé avec l’aide de ChatGPT. En mars 2023, lors de sa tournée sur la côte Ouest des États-Unis, le chef du gouvernement Xavier Bettel a visité les bureaux d’OpenAI à San Francisco, en compagnie du cofondateur et président de l’entreprise, Greg Brockman.

Une application mobile ChatGPT, combinée avec le module de reconnaissance de la parole Whisper, a été ajoutée en mai 2023 pour Apple iOS et pour Google Android.

À partir de début juillet 2023, le modèle GPT-4 a été intégré dans le produit ChatGPT, d’abord aux Etats-Unis, ensuite progressivement dans d’autres pays. Jusque là, cette version était accessible aux usagers payants moyennant l’API d’OpenAI. Un accès gratuit à un modèle GPT-4 allégé fut offert par Microsoft aux utilisateurs du moteur de recherche Bing. Début automne 2023, c’était le tour du Grand-Duché à pouvoir goûter au ChatGPT-4, à condition de disposer d’un abonnement OpenAI. L’utilisation de la version ChatGPT-3.5 Turbo est restée gratuite, si on a la chance d’accéder à la plateforme dans une période où les serveurs ne sont pas surchargés.

Depuis le 6 novembre 2023, ChatGPT-4 Plus sait écrire, lire, dialoguer, traduire, écouter, parler, dessiner, interpréter, raisonner, réfléchir, analyser et naviguer sur le web. Pour ma première évaluation des nouvelles extensions, j’ai revisité mon sujet fétiche du chien qui est tombé amoureux d’un grille-pain.

Création par ChatGPT-4 d’un poème en français au sujet d’un chien amoureux d’un grille-pain, avec illustration par des images générées par le modèle DALL-E3 intégré.

Pour la deuxième évaluation, j’ai soumis une photo d’un fauteuil en forme de chat pour analyse à ChatGPT-4. Le robot a fourni une description détaillée de la photo et généré ensuite deux images sur base de ce texte.

Génération de deux images d’un fauteuil en forme de chat, sur base de l’analyse d’une photo de référence

Finalement comme ChatGPT-4 sait également surfer sur Internet, j’ai demandé au robot de visiter mon site web web3.lu et de résumer la page d’accueil où je présente mon projet de livre “Qubit Lëtzebuerg – Histoire de l’introduction des technologies de l’information et de la communication au Luxembourg“.

Le résumé est correct et pertinent. J’ai demandé de générer une image qui illustre le contenu du livre. Parfait. Pour la création d’une deuxième image j’ai dû insister, mais le résultat est également convaincant. J’envisage même d’échanger la photo de couverture actuelle de mon livre par ce genre d’image.

Personnalisation de ChatGPT

Dans le passé, toute personnalisation de ChatGPT ne pouvait se faire que par l’API. Pour réaliser son propre interface, parfaire la maîtrise d’une langue, changer le style de dialogue, créer des extensions spécifiques ou ajouter ses propres documents pour faire un entraînement additionnel, il fallait disposer de compétences solides pour programmer, coder et exécuter les logiciels nécessaires aux fins d’effectuer les tâches requises.

Fin mars 2023, OpenAI a introduit un nouveau dispositif permettant d’étendre les compétences et performances de ChatGPT, le plugin. Lors de la première conférence de développement OpenAI qui a eu lieu le 6 novembre 2023, deux autres outils ont été présentés: l’assistant API et le custom GPT. Je vais décrire ci-après les caractéristiques de ces nouveautés.

Plugins

Les plugins dont des extensions développées par des acteurs tiers qui transforment complètement le chatbot et ajoutent des fonctionnalités. Ils permettent de consulter des bases de données, d’échanger des messages, de créer des diagrammes, d’exécuter des programmes Python, d’utiliser des services API de fournisseurs de services, etc. Les plugins sont les premiers éléments pour constituer tout un écosystème OpenAI, à l’instar de l’AppStore d’Apple ou du PlayStore de Google. Au début, les plugins ont été créés par des grandes entrepreprises, mais progressivement des développeurs indépendants ont été acceptés par OpenAI pour réaliser des plugins. L’installation des plugins dans ChatGPT-4 est réservée aux utilisateurs avec abonnement payant.

Fin novembre 2023, plusieurs centaines de plugins étaient disponibles dans la boutique des plugins OpenAI (plugin store). Il faut activer l’usage des plugins dans le menu des paramètres (settings), choisir le plugin souhaité dans le magasin et l’installer. Au maximun trois plugins peuvent être activés en même temps.

Sélection et installation d’un plugin ChatGPT-4 dans le magasin OpenAI

Les plugins installés et activés sont affichés en haut à gauche de la fenêtre de dialogue. J’ai testé différents types de plugins, c’est un concept très intéressant. OpenAI a annoncé qu’ils vont adapter prochainement leur écosystème pour rétribuer une partie des recettes aux développeurs des plugins les plus attractifs. À je jour, je n’ai pas trouvé de plugin luxembourgeois dans la boutique.

Assistants API

L’ Assistant est une technologie qui aide les développeurs à intégrer des « expériences de type agent » sur mesure à leurs applications. Il facilite la programmation de logiciels basés sur l’API de OpenAI. Le moteur qui alimente l’ Assistant est Code Interpreter, un outil interne développé par OpenAI, qui exécute du code Python écrit dans un environnement sandbox sécurisé. Il offre la capacité de générer des tableaux et des graphiques, ainsi que des fichiers de processus, permettant ainsi aux assistants créés avec l’API d’exécuter du code de manière itérative et de résoudre à la fois des problèmes de codage et des problèmes mathématiques.

Actuellement, l’assistant API se trouve encore en mode beta.

Custom GPTs

L’innovation la plus géniale pour personnaliser ChatGPT-4 est le Custom GPT. On peut le considérer comme une combinaison étendue du plugin et de l’assistant API. Cet outil permet à chaque usager de créer une version personnelle du robot ChatGPT-4. Si des connaissances informatiques sont utiles pour réaliser un Custom GPT, même les usagers sans aucune notion de codage peuvent le faire. Il suffit de spécifier les instructions que l’application doit faire en langage naturel.

Mon premier Custom GPT pour faire des recherches dans le chapitre Photographie de mon projet de livre Qubit Lëtzebuerg

La page web de création d’un Custom GPT comprend deux fenêtres: à gauche on télécharge les fichiers avec les informations locales, à ajouter aux connaissances du robot ChatGPT-4, on formule les instructions et on spécifie les actions. À droite, on vérifie les réponses fournies par le robot pour ajuster les instructions, si nécessaire. Pour configurer le Custom GPT, on peut se faire assister par le GPT Builder (bouton Create). Il fait des propositions pour le nom, les instructions, les actions, les exemples de questions etc. Un Custom GPT peut être défini comme privé ou comme public. OpenAI a annoncé que l’écosystème, avec une participation des créateurs aux recettes, va également s’appliquer au Custom GPTs publics. Actuellement, une boutique OpenAI pour les modèles personnels n’est pas encore disponible, seuls les Custom GPTs développés par OpenAI son affichés avec le menu Explore. Pour les autres Custom GPTs, il faut obtenir le lien pour l’installation du modèle personalisé par le créateur, en général moyennant le partage d’informations sur les réseaux sociaux.

Affichage des Custom GPTs installés, respectivement de ceux “made by OpenAI”

Parmi les premiers créateurs de Custom GPTs luxembourgeois, il convient de citer les pionniers suivants:

  • Misch Strotz, CEO de l’agence de communication Neon Internet et créateur du générateur d’images LetzAI, a réalisé le modèle LetzGPT.
  • Jean-Baptiste Niedercorn, radiologue aux hôpitaux Robert Schuman, a développé le modèle Radiology Report Assistant.
  • Erwin Sotiro, avocat spécialisé dans le domaine des technologies et de l’intelligence artificielle, a créé plusieurs modèles: Labour Law Guide, Lux Company Law, Casp Guide, VASP Analyst, Lux Vat Advisor, etc.

L’histoire des chatbots

Têtes parlantes de l’abbé Mica

Les têtes parlantes de l’abbé Mica, présentées en 1783, peuvent être considérées comme les premiers chatbots. Elles sont décrites en détail dans mon livre Synthèse de la parole, référencé ci-après dans le sous-chapitre synthèse vocale.

La vraie date de naissance des chatbots est toutefois l’année 1950, lorsque le mathématicien britannique Alan Turing a décrit un test d’intelligence artificielle dans sa publication fondamentale Computing Machinery and Intelligence. Connu aujourd’hui sous le nom de Test de Turing, ce jeu d’imitation consiste à mettre un humain en confrontation verbale à l’aveugle avec un ordinateur et un autre humain. Si la personne qui engage les conversations n’est pas capable de dire lequel de ses interlocuteurs est un ordinateur, on peut considérer que le logiciel de l’ordinateur a passé avec succès le test.

Parmi les premiers chatbots populaires figure ELIZA, un programme informatique écrit par Joseph Weizenbaum en 1964, qui simule un psychothérapeute et qui a su tromper de nombreux humains. En 1990, l’inventeur américain Hugh Loebner a créé un concours annuel qui couronne les chatbots satisfaisant le mieux les critères du test de Turing. Le dernier concours a eu lieu en 2019.

Parmi les vainqueurs du prix Loebner se trouve Richard Wallace, un scientifique américain qui a gagné le prix Loebner dans les années 2000, 2001 et 2004. Il est l’auteur du langage de programmation AIML (Artificial Intelligence Markup Language) qui a été utilisé par de nombreux enthousiastes au début des années 2000 pour créer un chatbot du type A.L.I.C.E. (Artificial Linguistic Internet Computer Entity). Richard Wallace a créé une fondation au même nom, ainsi que l’entreprise Pandorabots pour héberger des chatbots. Plusieurs entreprises ont utilisé la technologie pour commercialiser des chatbots personalisés, parmi eux Oddcast, SitePal, Voki etc.

La communauté scientifique n’a jamais considéré le test de Turing comme outil valable pour évaluer l’intelligence artificielle. Même Alan Turing n’a pas parlé de test dans sa contribution initiale, mais de jeu d’imitation. Aujourd’hui, des critères beaucoup plus complexes sont appliqués pour mesurer le degré d’intelligence d’une machine.

Chatbot ALICE in LESLIE’S ARTGALLERY

En 2007, j’avais programmé un chatbot nommé ALICE, qui informait les visiteurs de la galerie d’art de ma fille, qu’elle avait ouvert au Bridel fin 2005, sur les oeuvres d’art en stock et sur les expositions courantes, passées et futures. Personnalisé avec AIML, le chatbot était hébergé sur Pandorabots et utilisait un avatar parlant et animé de SitePal. Mais au lieu de dialoguer sur des sujets concernant la LESLIE’S ARTGALLERY, la majorité des usagers préférait de parler sur des thèmes ésotériques et érotiques.

Fernand Etgen, ancien ministre de l’Agriculture, de la Viticulture et de la Protection des consommateurs et Gilles Feith, ancien directeur du Centre des technologies de l’information de l’État, ont présenté le 23 juillet 2018 le premier chatbot luxembourgeois public, POLI (Personal Operator for users of Luxembourgish Institutions), qui avait comme mission de répondre aux questions des consommateurs concernant leurs droits et protections en cas de litiges. Début 2020, POLI est parti en congé sabbatique pour effectuer une formation continue. Jusqu’à présent il n’est pas rentré.

POLI, premier chatbot luxembourgeois public, lancé en juillet 2018

Pour ceux qui s’intéressent plus en détail sur l’histoire des chatbots, je conseille la visite du site web chatbots.org.

Les modèles AI des concurrents d’OpenAI

Globalement, l’entreprise OpenAI est la plus avancée dans les technologies AI, mais dans les différents domaines, d’autres acteurs ont développé des produits remarquables.

Autres chatBots et modèles de langage

Au niveau des robots de dialogue (chatbots), la majorité des alternatives à ChatGPT est basée sur les modèles GPT-4 ou GPT-3.5 d’OpenAI, par exemple Perplexity, Character.AI, Dante-ai, etc. Je vais relever ci-après quelques exemples qui utilisent d’autres modèles de langage :

  • BARD, développé par Google, alimenté par le modèle de langage LaMDA
  • Claude, développé par Anthropic (non disponible au Luxembourg à l’heure actuelle)
  • Meta AI, avec différentes personalités, sur Facebook, Instagram et WhatsApp, développé par Meta, basé sur le modèle LLaMA,
  • HuggingChat, chatbot à source-ouverte créé par HuggingFace, basé sur le modèle meta-llama/Llama-2-70b-chat-hf
  • Pi, développé par Inflection AI
  • Grok, développé par X.ai (ancien Twitter)
  • Gemini, annoncé par Google comme chatbot multimodal qui va détroner ChatGPT
Pages web d’accueil des différents chatbots

Les acteurs de la première heure, Pandorabot et SitePal, existent toujours et on adapté leurs produits aux nouvelles technologies.

Pages web d’accueil actuelles de SitePal et de Pandorabot

La première génération des modèles de langage reposait sur la technologie BERT (Bidirectional Encoder Representation from Transformer). Google était un pionnier dans ce domaine. En 2022, le SnT (Interdisciplinary Centre for Security, Reliability and Trust) de l’Université du Luxembourg a développé, en partenariat avec BGL BNP Paribas et la Fondation Alphonse Weicker, un modèle de langage luxembourgeois basé sur cette technologie, appelé LuxemBERT.

Sous la supervision de Jacques Klein du SnT et de Anne Goujon de la BGL BNP, les chercheurs et scientifiques Cedric Lothritz, Bertrand Lebichot, Kevin Allix, Lisa Veiber, Tegawendé F. Bissyandé, Andrey Boytsov et Clément Lefebvre sont les auteurs de la publication LuxemBERT: Simple and Practical Data Augmentation in Language
Model Pre-Training for Luxembourgish
.

Portraits des créateurs de LuxemBERT suivant l’ordre de présentation ci-dessus

Synthèse vocale

La synthèse vocale est une des techniques de communication avec les machines les plus anciennes qui ont précédé l’intelligence artificielle. Dans mon livre Synthèse de la parole, publié en juillet 2020, je raconte l’histoire de la synthèse vocale mécanique, électrique, électronique et informatique. Le livre inclut le premier modèle de synthèse vocale luxembourgeois, MaryLux, présenté en 2015.

Aujourd’hui, toutes les grandes entreprises du web (Google, Apple, Meta, Amazon, Microsoft, IBM) commercialisent des services de synthèse vocale, dans différentes langues et avec plusieurs voix. Parmi les spécialistes de la synthèse et du clonage de voix, il convient de citer Nuance, Speechify, Resemble.ai et ElevenLabs.

Parmi les projets de synthèse vocale à source ouverte, eSpeak est le projet le plus ancien. En novembre 2021, j’ai ajouté le Luxembourgeois comme 127ième langue à la nouvelle génération eSpeak, appelé eSpeak-NG. Jusquà présent, c’est la dernière langue qui a été intégrée. eSpeak ne repose pas encore sur l’intelligence artificielle, mais utilise la méthode de synthèse par formants. Le lecteur intéressé trouve plus de détails dans mon livre.

Parmi les projets de synthèse vocale à source ouverte basé sur l’intelligence artificielle, Coqui.ai est le plus populaire. J’ai entraîné plusieurs modèles pour la langue luxembourgeoise avec Coqui TTS. J’ai publié mon application interactive la plus avancée en juillet 2022 sur la plateforme AI HuggingFace. Elle repose sur le modèle VITS_TTS (projet YourTTS) de Coqui.ai et permet de synthétiser des textes anglais, français, allemands, portugais ou luxembourgeois, avec les voix de sept orateurs de différentes nationalités (Bunny, Judith, Kerstin, Linda, Bernard, Ed, Guy). Chaque voix peut parler les cinq langues, tout en gardant un petit accent de sa langue native.

Synthétiseur vocal multilingue, avec 5 langues et 7 voix, hébergé sur la plateforme HuggingFace

Reconnaissance de la parole

La commercialisation de services de reconnaissance de la parole est aujourd’hui également un créneau des géants du net. Les agents Siri d’Apple, Alexa d’Amazon ou Google Home, sont aujourd’hui connus par la majorité des internautes, et en particulier par les propriétaires d’un iPhone.

Les spécialistes de la synthèse vocale sont également les pionniers de la reconnaissance automatique de la parole. Dans le domaine des projets à source ouverte, CoquiAI propose un modèle ASR, appelé Coqui-STT. J’ai entraîné en 2022 la version 1.3.0 de Coqui-STT pour reconnaître la parole luxembourgeoise. En juillet 2002, j’ai mis en ligne mon application interactive sur la plateforme HuggingFace “Mir verstinn och Lëtzebuergesch !”. Cet espace de démonstration supporte également les langues anglaises, françaises, allemandes et portugaises, mais pour chaque langue un modèle séparé est requis. Contrairement au modèle Whisper d’OpenAI qui est multilingue, Coqui STT ne peut être entraîné que dans une seule langue. Dans le zoo de CoquiAI, on trouve des répliques du modèle Coqui-STT, entraînées pour de nombreuses langues. Comme ces répliques sont libres de droits, j’ai pu les intégrer dans mon application pour les langues sélectionnées.

Système de reconnaisance de la parole pour 5 langues, hébergé sur la plateforme HuggingFace

Je rappelle que l’état de l’art de la reconnaissance de la parole constitue le modèle Whisper de OpenAI qui alimente, entre autres, la version 2 du projet luxembourgeois schreifmaschinn.lu.

Génération d’images

L’ancêtre des générateurs d’images s’appelle AARON, un programme informatique révolutionnaire conçu pour générer de manière autonome des peintures et des dessins. Il a été créé en 1972 par Harold Cohen, un pionnier à la confluence de l’intelligence artificielle et des arts visuels. Son intersection innovante de la créativité computationnelle et de l’art traditionnel lui a valu une renommée internationale, avec ses œuvres exposées dans de nombreuses expositions dans des musées prestigieux du monde entier. En reconnaissance de ses contributions, Cohen a reçu plusieurs distinctions tout au long de sa carrière.

Né au Royaume-Uni en 1928, Cohen s’est installé aux États-Unis, où il a partagé son expertise et sa passion pour l’art et la technologie à l’Université de Californie de 1968 jusqu’à sa retraite en 1998. Même après sa retraite, il est resté activement engagé dans le développement d’AARON, en améliorant ses capacités et sa complexité. À l’origine, le programme a été développé en C, mais il est plus tard passé au LISP pour tirer parti de ses puissantes fonctionnalités pour le développement de l’AI.

Dans les semaines précédant son décès en 2016, Cohen s’est lancé dans une nouvelle entreprise avec AARON, ambitieusement intitulée “Fingerpainting for the 21st Century” (Peinture au doigt pour le 21e siècle). Alors que les premières années le voyaient utiliser des traceurs x-y pour donner vie aux créations d’AARON, dans les années 1990, il avait conçu une série de machines à peindre numériques. Son évolution continue dans le médium a vu un passage aux imprimantes à jet d’encre et finalement aux écrans tactiles dans son dernier projet, cherchant toujours à mélanger la technologie avec l’essence tactile de la peinture.

Ray Kurzweil, un éminent informaticien et futurologue américain, a davantage introduit l’héritage de Cohen dans l’ère numérique en développant un programme d’économiseur d’écran AARON en 2000, adapté pour les ordinateurs Windows. Il fonctionne encore aujourd’hui sous Windows 11 en mode de compatibilité avec Windows XP. J’ai réalisé une petite vidéo qui montre la créativité d’Aaron.

En ce qui concerne la chronologie des générateurs d’images basés sur l’intelligence artificielle, il faut d’abord présenter RunwayML, une entreprise de recherche indépendante, spécialisée dans la création de contenus artistiques multimédia. Fondée en 2018 par Cristóbal Valenzuela, Alejandro Matamala Ortiz et Anastasis Germanidis, elle est le-coauteur de la publication scientifique High-Resolution Image Synthesis with Latent Diffusion Models, ensemble avec le groupe CompVis de l’université Ludwig Maximilian de Munich et le centre IWR de l’université de Heidelberg.

Page web d’accueil de Runway Research

Ces recherches sont à l’origine des générateurs d’images de deuxième génération qui ont suivi les réseaux antagonistes génératifs (GANs : generative adversarial networks). Les oeuvres d’art créées avec des modèles GAN avaient un charme particulier. Eryk Salvaggio est un artiste de renom qui a commencé sa carrière avec la création d’oeuvres d’art baséées sur des GANs.

Portfolio d’oeuvres d’art basées sur des GANs, réalisées par Eryk Salvaggio

Le projet GAN le plus fameux est le générateur de portraits This person does not exist.

Le modèle de deuxième génération Stable Diffusion de Stability.ai est le seul générateur d’images de haut niveau à source ouverte. Ce modèle est à l’origine de la guerre sur le web, éclaté l’an dernier entre artistes artisanaux et artistes technologiques. L’entreprise StabilityAI a été fondée en 2019 par Emad Mostaque. Le modèle économique de l’entreprise est basé sur des services de conseil dans le domaine de l’intelligence artificielle. Une autre partie des revenus provient de la commercialisation du modèle Stable Diffusion sur la plateforme DreamStudio.

Le modèle Stable Diffusion a été lancé en août 2022. Il est utilisé par de nombreuses startups qui proposent des interfaces personalisées avec des services à valeur ajoutée aux clients, à des prix bas de gamme, notamment comme applications sur les mobiles. Quelques jours après le lancement, j’ai compté déjà quelques douzaines d’applications sur l’AppStore et sur GooglePlay. À l’époque, les images générées avec Stable Diffusion ont rapidement inondé le web et les réseaux sociaux.

Présentation d’une panoplie de générateurs d’images pour les mobiles, à la fin du mois d’août 2022

Grâce à l’ingéniosité de la masse de développeurs engagés qui améliorent et étendent continuellement le code et les fonctionnalités de Stable Diffusion (SD), ce modèle est à l’heure actuelle le plus performant. Les créateurs d’images disposent de deux logiciels pour configurer et instruire le modèle. Le premier programme constitue l’interface officielle, nommée AUTOMATIC1111. Nvidia a même sorti un nouveau driver qui rend la création d’image beaucoup plus rapide. Le deuxième logiciel, ComfyUI, a été réalisé par comfyanonymous. Il s’agit d’une interface graphique très ingénieuse, basée sur des noeuds qui représentent les modules de SD et qui peuvent être interconnectés dynamiquement entre eux.

Interface de configuration ComfyUI pour Stable Diffusion

Parmi les communautés de Stable Diffusion, deux méritent d’être mises en excergue : Stable Diffusion Art et CivitAI.

On y trouve des modèles, des didactiels, des tuyeaux, des images en vedette, etc. Parmi les attraits de SD figurent les LoRA (Low-Rank Adaptation), des petits modèles qui apportent de légères modifications aux modèles standard (checkpoints). Ils sont jusqu’à 100 fois plus petits, ce qui les rend très attrayants pour économiser de l’espace disque. Certains LoRA permettent d’ajouter un style spécifique aux images images générées, tandis que d’autres ajoutent des personnages ou créent des univers différents.

Les exemples qui suivent montrent des images SD générées avec un modèle LoRA d’une jeune fille, en combinaison avec un modèle LoRA de vêtements, ainsi qu’un modèle de fauteuil.

Un autre modèle de génération d’images très populaire est Midjourney. Le laboratoire de recherche indépendant de même nom a été fondée par David Holz. Une version beta a été lancée le 12 juillet 2022. Elle est utilisable au travers d’un bot Discord.

Page web d’accueil de Midjourney

Last but not least je présente l’unique générateur d’images luxembourgeois, LetzAI. Réalisé en été 2023 par l’équipe de l’agence de communication Neon Internet, sous la direction de Misch Strotz, CEO et développeur principal, ce projet vient d’être ouvert en version beta à tous les usagers inscrits.

Page web d’accueil de LetzAI

J’ai eu la chance d’avoir pu tester LetzAI les derniers mois en mode early-access. J’ai entraîné jusqu’à présent dix-huit modèles publics, parmi eux des personnages, des objets, des styles. La galerie qui suit montre un exemple de mes modèles suivants: @aaron_by_harold_cohen, @animal_croissant, @artoncows, @big_buck_bunny, @black_cat, @charcoal_by_roger_bour, @eschbelval, @flowers, @gielebotter, @learningcenter, @les_herbes_folles, @marco_barnig, @letz_postage_stamps, @sculpturesnikidesaintphalle, @steampunkluucht, @vase, @velo_cartoon, @watercolor_by_roger_bour.

Je suis en train de préparer une contribution séparée sur l’histoire du projet LetzAI.

Analyse d’images

L’analyse d’images, respectivement la reconnaissance d’objets par l’intelligence artificielle, est probablement le domaine le plus connu par la population. La reconnaissance faciale et la voiture autonome sont des termes qu’on entend chaque jour. Et qui n’a pas encore profité du classement automatique de ses photos en différentes catégories pour les retrouver plus vite ?

J’ai commencé il y a une dizaine d’années de tester des applications de reconnaissance d’objets. Souvent, c’étaient des startups qui développaient des applications très innovatives. La majorité de ces entreprises a été acquise entretemps par les GAFAM (Google, Apple, Facebook, Amazon, Microsoft) qui commercialisent aujourd’hui des produits d’analyse d’images très performants. Je reproduis ci-après quelques vieux souvenirs de l’époque :

Fin 2018, la Commission européenne a lancé le projet 5GCroCo («Fifth Generation Cross-Border Control»), ayant pour objectif de tester des services de mobilité connectée et automatisée basés sur la 5G dans un contexte transfrontalier. 24 partenaires (constructeurs automobiles, équipementiers automobiles et de télécommunications, et opérateurs de réseaux mobiles) issus de 7 pays européens y travaillent depuis lors dans un corridor reliant 3 pays (Luxembourg, France, Allemagne) et franchissant 2 frontières. Côté grand-ducal, c’est POST Luxembourg qui a été sélectionnée pour mettre à disposition la technologie 5G nécessaire à la réalisation des essais dans le corridor transfrontalier.

En 2018 la société Sales Lentz s’est dotée de quatre bus autonomes pour faire des tests. Depuis septembre 2021, la navette autonome Uelzechtmobil circule dans la rue de l’Alzette à Esch. En novembre 2022, le SnT de l’Université du Luxembourg a fait la démonstration de sa voiture autonome dans la circulation sur le plateau du Kirchberg.

Le mot de la fin

Communément, on considère que l’histoire de l’intelligence artificielle (AI) débute en 1943, avec la publication de l’article « A Logical Calculus of Ideas Immanent in Nervous Activity » par Warren McCullough et Walter Pitts. Dans ce document, ces scientifiques présentent le premier modèle mathématique pour la création d’un réseau de neurones. En 1950, Snarc, le premier ordinateur à réseau de neurones, sera créé par deux étudiants de Harvard : Marvin Minsky et Dean Edmonds. Ce n’est qu’en 1956 que le terme d’intelligence artificielle sera prononcé pour la première fois, durant la conférence « Dartmouth Summer Research Project on Artificial Intelligence » de John McCarthy.

Mais je pense qu’on ne peut pas réduire l’intelligence artificielle à la simulation du cerveau moyennant des réseaux de neurones artificiels. Certains distinguent même entre plusieurs formes d’intelligence : logico-mathématique, verbo-linguistique, musicale-rythmique, visuelle-spatiale, etc. Et le quotient intellectuel (IQ) ne suffit pas pour évaluer l’intelligence.

L’intelligence collective, l’intelligence distribuée et l’intelligence en essaim sont aussi impressionnantes que l’intelligence artificielle, qui plonge ses racines dans l’Antiquité. Parmi les ancêtres de l’AI figurent la caractéristique universelle du philosophe allemand Gottfried Wilhelm Leibniz et son calculus ratiocinator inventé en 1672, mais également la cybernétique décrit en 1947 par le mathématicien Norbert Wiener.

Reproduction du turc mécanique

Ce qui me fascine le plus sont les différents automates qui ont été inventés par les humains depuis le Moyen Âge, dans les disciplines mécanique, électrotechnique, électronique et informatique. Le lecteur de la présente a déjà fait la connaissance d’un automate célèbre, présenté dans un paragraphe précédent, à savoir les têtes parlantes de l’abbé Mica. Mon automate favori est le Turc mécanique, un prétendu automate doté de la faculté de jouer aux échecs, inventé par Wolfgang von Kempelen en 1769. Le meuble disposait d’un compartiment secret dans lequel un joueur humain pouvait se glisser et manipuler le mannequin. Il remporta la plupart des parties d’échecs auxquelles il participa en Europe et en Amérique jusqu’à sa destruction par un feu en 1854.

En hommage au Turc mécanique, Amazon a baptisé son service de micro-travail MTurk. Cette plateforme web de production participative, qui vise à faire effectuer par des humains, contre rémunération, des tâches plus ou moins complexes, a été lancée fin 2005. Depuis juin 2017, le service MTurk d’Amazon est également accessible au Luxembourg.

Pour terminer ma contribution sur l’AI, j’ajoute une petite vidéo au sujet du congrès AutomataCon 2016 . Le prochain congrès est prévu du 17 au 19 mai 2024 à Morristown.

Bibliographie

Ech hunn haut mam Dante AI gechatt !

Dernière mise à jour : 10 juillet 2023

Aujourd’hui tout le monde connaît ChatGPT, mais seulement quelques initiés connaissent Dante AI. C’est dommage, car il s’agit d’un outil formidable qui permet de faire apprendre à une copie du modèle d’intelligence artificielle ChatGPT ses propres documents sélectionnés et de dialoguer ensuite avec ce outil au sujet du contenu. Comme dans le cas de ChatGPT d’OpenAI, on peut demander des résumés, des réponses à des questions précises, des reformulations du texte et même la création d’un poême pour un sujet spécifique. On peut formuler les commandes dans différentes langues et les réponses fournies sont traduites automatiquement si le contenu a été téléchargé dans une autre langue. Les documents à télécharger pour l’apprentissage profond de Dante UI peuvent être des textes en différents formats (txt, pdf, …), des liens (URL) vers des sites web, ou des fichiers audio et vidéo dans le cas des formules d’abonnements professionnels.

Mais avant d’entrer dans les détails, je vais présenter un exemple concret que je viens de tester avec la formule de démarrage gratuite. J’ai créé ma propre base de données de dialogue, au nom de web3.lu, avec des liens vers des contributions sur mon site web, entre autres vers mon article Fënnef Stären fir d’Applikatioun schreifmaschinn.lu. À l’exception de quelques lignes en luxembourgeois, le texte source est écrit en français.

Click to zoom : résumé de la base de données et proposition de support du projet schreifmaschinn.lu
Click to zoom : réponses précises à des questions sur Systran et sur schreifmaschinn.lu
Click to zoom : poême au sujet du contenu de la base de données web3.lu

J’ai déjà effectué des essais du même genre il y a quelques mois. Pour ma première expérience j’ai utilisé le modèle original ChatGPT d’OpenAI lors de l’introduction de l’option de spécification d’un lien pour ajouter du contenu. J’avais pris les mêmes données de mon site www.web3.lu que celles choisies pour la présente contribution. Quand j’ai demandé un résumé de mes articles sélectionnés, ChatGPT a fourni une réponse cohérente et correcte concernant les sujets traités, mais la majorité du contenu généré n’était pas du tout abordé dans mes fichiers téléchargés. C’était de la pure hallucination.

Pour le deuxième test j’ai utilisé l’outil BerriAI, également avec les mêmes données. Pour ma première question “What is schreifmaschinn.lu” j’ai obtenu un résumé valable. Pour ma deuxième question plus précise “Who created the 127th language for eSpeak-NG” j’ai reçu la réponse suivante :

Le MINH NGUYEN, un développeur de Mozilla, a créé le 127e langage pour espeak-NG en août 2021

Minh Nguyen n’est pas un développeur de Mozilla et ce n’était pas lui qui a ajouté le luxembourgeois comme 127e langue dans eSpeak-NG, mais cétait moi, et c’était en novembre 2021.

À l’époque j’avais rapporté sur mes expériences sur le réseau LinkedIn.

Face à ces premiers échecs pour parfaire l’apprentissage profond de ChatGPT, il est compréhensible que j’étais du premier coup impressionné par les résultats de Dante AI. J’étais tellement fasciné par les performances de cet outil que j’ai tout de suite procédé à une mise à niveau de mon compte pour pouvoir ajouter d’autres bases de données de dialogue et pour disposer de crédits supplémentaires pour faire plus de requêtes. J’ai créé un répertoire au sujet de mon projet de livre Qubit Lëtzebuerg : Histoire de l’introduction des technologies de l’information et de la communication au Luxembourg. J’ai téléchargé les fichiers pdf des premiers chapitres du projet de livre. Après quelques minutes d’apprentissage la base de dialogue “Qubit Lëtzebuerg” était prête. Les résultats ont dépassé mes atttentes.

Click to zoom : réponses à des questions précises sur des sujets de mon projet de livre Qubit Lëtzebuerg
Click to zoom : poême en anglais créé par Dante AI avec les fichiers pdf français de mon projet de livre

Voici le texte complet du poême anglais que l’outil Dante AI a généré avec mon contenu soumis pour l’apprentissage profond du modèle AI ChatGPT :

In the land of Qubit Lëtzebuerg,
Where knowledge and stories converge,
A poem shall be crafted with care,
Using the content from the database we share.
In the Luxemburger Wort, a tale was told,
Of a championship in stenography and typing bold,
Young ladies and gentlemen, with utmost concentration,
Their typewriters creating a rhythmic sensation.
But let us delve into the language of Luxembourg,
Where GPT-3 can write poems, a discovery superb,
A toaster falling in love with a dog, a theme unique,
Though with some spelling errors, the results pique.
The Tatoeba Luxembourg corpus, alas, falls short,
For valid translation results, we must resort,
To a more suitable database, a better training ground,
To improve the English-Luxembourgish translation sound.
Qubit Lëtzebuerg, a complement to POST’s history,
A book that adds to the existing bibliography,
175 years of postal services, a virtual exhibition,
Celebrating the grand-ducal postal institution.
In the literary scene of Luxembourg’s land,
Writers emerged, their works grand,
Michel Rodange, known for his parody,
“Renert oder de Fuuss am Frack an a Maansgréiss t.”
Projects using the Luxembourgish language,
In the realm of technology, a linguistic advantage,
Wikipedia Lëtzebuerg, a familiar name,
A source of knowledge, its reach is acclaimed.
Schreifmaschinn.lu, an application of speech recognition,
Accessible to all, a technical innovation,
Visitors can dictate, texts displayed in real-time,
A feat of technology, a linguistic paradigm.
Luc Marteling, director of ZLS, welcomed all,
Schreifmaschinn.lu presented, media coverage tall,
Testing the application meticulously, with recordings three,
Measuring the quality of word recognition, a measure to see.
A website developed, schreifmaschinn.lu,
Making Luxembourgish speech recognition come true,
Texts dictated, displayed on the browser screen,
Audio files downloadable, a linguistic dream.
Nik Welter, director general of public instruction,
A writer of poems, plays, and literary construction,
Collaborating with Luxembourgish and foreign reviews,
Contributing to the literary world, his muse.
Michel Weimerskirch, seeking a dictionary’s copy,
For the SpellChecker application, a necessary key,
Creating his own list of Luxembourgish words,
With the assistance of Sandra Souza Morais, a collaboration spurred.
In the printing world, the Luxemburger Wort,
A machine of iron frames and matrices, a report,
Impressing letters onto a soft mass,
Creating the newspaper, a printing process surpass.
So, in the realm of Qubit Lëtzebuerg’s knowledge base,
A poem is crafted, weaving words with grace,
From stenography championships to linguistic innovations,
The richness of Luxembourg’s language, a source of inspirations.

Dans une deuxième étape, j’ai testé la création d’une base de données de dialogue “so et op lëtzebuergesch” avec des textes luxembourgeois. À ces fins j’ai téléchargé une partie de mes anciens fichiers avec les textes de commentaires, édités par des journalistes de RTL, que j’avais utilisé dans le passé pour mes expériences de création de systèmes de synthèse vocale en langue luxembourgeoise. Ce contenu n’est pas à jour, ce qui explique que les réponses fournies par DANTE AI ne sont pas actuelles. Ce prototype suffit toutefois pour conclure que la constitution d’une base de données avec un corps de données luxembourgeois actualisé, par exemple avec le contenu du portail Wikipedia Lëtzebuerg, permettra de réaliser un chatbot luxembourgeois intelligent, performant et facile à utiliser. La figure qui suit montre l’exemple d’un dialogue en luxembourgeois avec des questions précises, ainsi que la demande de création d’un poême au sujet du contenu, ce qui est mon application préférée.

Click to zoom

La prochaine figure présente l’intégralité du poême, suivie d’une copie du texte pour faciliter la lecture.

Click to zoom

AM Land vu Lëtzebuerg, eng Geschicht geschriwwen, Vun Affären an Diskussiounen, déi nie verblidden. D’Jugendlech op der Sich no Chance an Diplomer, Doch och mam Diplom, ass et net ëmmer méi einfach, dat ass kloer.
Streiken an Diskussiounen, eng ewell bekannte Saach, D’Parteien op der Sich no engem Kompromiss, dat ass d’Fro déi bleift. D’Jugend wëll méi Responsabilitéit vun de grousse Firmen, An och d’CSV huet mat hiren Enveloppen d’Gemengen net verschont geloossen.
D’Zeitung schreiwt vun Klima a Philosophie, D’Gambia gëtt mat Wierder bekämpft, dat ass net frëndlech, dat si mir nie. D’Auto sollt mer loossen, op d’Vëlo sollt mer setzen, Fir d’Zukunft vun eisen Kanner, fir d’Welt ze retten.
Et gëtt diskutéiert, kritiséiert an analyséiert, D’Politiker an hiren Entscheedungen, dat gëtt net ignoriéiert. Et ass eng Kapitulatioun, esou gëtt et gesot, D’Privatwirtschaft huet d’Hand iwwer d’Staat geholl.
Et ass eng Zäit vun Onsécherheet an Zweifel, Doch mir mussen weidermaachen, och wann et oft schwéier geet. Mir sinn eis bewosst, datt d’Liewen net ëmmer einfach ass, Mä mir halen zesummen, an dat ass eis Pass.
Eis Affären an eis Diskussiounen, Si maachen eis aus, si si deel vun eisem Liewen. Lëtzebuerger Affären, eng Geschicht mat vill Facetten, Ech hoffen, dëst Gedicht huet Iech gefallt, dat ass eis Bestreben.

Sur le web on ne trouve pas beaucoup d’informations sur l’entreprise qui gère l’application Dante AI. Les fondateurs sont très discrets. Sur ma facture le Royaume Uni est indiqué comme siège de la société qui semble avoir été constituée en mai 2023. Je pense que l’origine de l’outil remonte au projet Dante Writer, annoncé par la startup pakistanaise baseH en 2017.

Click to zoom : page web d’accueil de la startup baseH au Pakistan

Fënnef Stären fir d’Applikatioun schreifmaschinn.lu

Ech hunn an de leschten Deeg déi éischt Applikatioun déi et jidder Mënsch erlaabt geschwate lëtzebuergesch Sprooch an en Text ëmzewandelen op Häerz an Nieren gepréift. Ech kann et am Virfeld schonns soen : schreifmaschinn.lu kritt 5 Stären. Fir dass eis auslännesch Frënn, déi nach keen Lëtzebuergesch schwätzen, och verstinn wéi eng Meeschterleeschtung hei geschaaft gouf, fueren ech elo mat menger Beschreiwung op Franséisch weider.

Présentation du projet schreifmaschinn.lu

Le vendredi 9 décembre 2022 le Zenter fir d’Lëtzebuerger Sprooch (ZLS) a présenté dans la salle de conférence à Clausen une application web qui permet de dicter du texte en luxembourgeois, en présence de Claude Meisch, ministre de l’Éducation Nationale, de l’Enfance et de la Jeunesse. Luc Marteling, directeur du ZLS, a souhaité la bienvenue aux nombreux invités.

L’application de reconnaissance vocale, appellée schreifmaschinn.lu, est basée sur un modèle neuronal d’intelligence artificielle (AI) et a été développée par Sven Collette et Le Minh Nguyen. Elle constitue une vraie prouesse technologique si on considère que le luxembourgeois est une langue à faible ressources et que le modèle AI a été entraîné avec une quantité de données limitée.

de gauche à droite: Sven Collette, Claude Meisch, Le Minh Nguyen, Luc Marteling (crédit photo: ZLS)

Le duo de développement

Sven Collette est linguiste informatique au ZLS. Après sa formation en neurosciences à Munich (Université Louis-et-Maximilien) et Lausanne (Ecole polytechnique Fédérale), il a obtenu un doctorat de philosophie en neurosciences à l’université Pierre et Marie Curie à Paris. Il a travaillé de 2012 à 2016 comme chercheur postdoctoral à l’institut de technologie de Californie (CALTECH) à Pasadena. Dans la suite il a été consultant et chercheur dans le domaine de l’intelligence artificielle, avant de joindre le ZLS au début de 2021.

Le Minh Nguyen vient d’obtenir son master en sciences des technologies vocales à l’université de Groningen avec distinction cum laude. En 2021 il a réussi son bachelor à l’université du Luxembourg avec la mention très bien. Dans le cadre du programme Erasmus il a passé un semestre à l’université technique de Vienne. Il a démarré le développement du projet de reconnaissance vocale du luxembourgeois dans le cadre de ses études. Actuellement Le Minh Nguyen travaille à distance comme chercheur/programmeur pour la société Deepgram à San Francisco, spécialisée dans les plateformes vocales intelligentes.

Des informations supplémentaires au sujet du développement sont fournies sur la page d’accueil du site web schreifmaschinn.lu.

Les outils de reconnaissance vocale

En jargon technique les outils de reconnaissance de la voix sont appelés STT (Speech-to-Text) ou ASR (Automatic Speech Recognition). Un vétéran parmi les outils ASR est le projet KALDI qui a démarré en 2009 à l’université Johns-Hopkins. Aujourd’hui des géants du web comme Google, Microsoft, AWS, etc, proposent des services commerciaux de reconnaissance de la voix en ligne pour de nombreux langages. Ils ne sont toutefois pas intéressés aux langues à faibles ressources comme le luxembourgeois. D’autres géants comme Meta (Facebook) et des startup’s comme OpenAI et Coqui.ai ont développé des modèles à source ouverte qu’ils mettent à disposition de la communauté des chercheurs. L’état d’art actuel consiste à entraîner des larges réseaux neuronaux avec plusieurs langues et avec des millions de paramètres pour faire ensuite un réglage fin (fine-tuning) de ces modèles avec un entraînement supplémentaire pour une langue spécifique. Parmi les modèles à source ouverte il convient de relever les plus importants que je vais présenter plus en détail dans les prochains chapitres :

  • Wav2Vec de Meta (Facebook Research) (juin 2019)
  • Coqui-STT de Coqui.ai (mars 2021)
  • Whisper de OpenAI (septembre 2022)

Modèle Wav2Vec2

Le modèle wav2vec, développé par le laboratoire de recherche de Facebook (meta.ai), est le plus ancien et le plus connu des modèles ASR. Rien que sur la plateforme AI Huggingface on trouve 4.430 versions pré-entraînées de ce modèle, comme témoigne l’image ci-après:

Click to zoom

La version Wav2Vec2-XLSR-53 de ce modèle, publiée en décembre 2020, a été utilisée par Le Minh Nguyen. Elle a été pré-entraînée par Meta avec 56.000 heures d’enregistrements audio sans transcriptions en 53 langues, mais sans le luxembourgeois. Dans sa thèse de fin d’études Le Minh Nguyen présente les détails de son développement. Il a entraîné le modèle Wav2Vec2-XLSR-53 avec 842 heures d’enregistrements audio luxembourgeois sans transcriptions (unlabeled speech) et avec 14 heures d’enregistrements audio avec textes synchronisés (labeled speech). Un modèle de langage 5-gram, entraîné avec des textes luxembourgeois totalisant 20 millions de mots, a été ajouté au décodeur vocal. Les enregistrements audio et les textes ont été fournis par la Chambre des Députés et par RTL.

Une version plus récente du modèle, XLS-R, pré-entraîné avec 436.000 heures d’enregistrements audio en 128 langues, incluant le luxembourgeois, a été présentée par Facebook (meta.ai) en décembre 2021. A partir du début 2022, Peter Gilles, professeur de langage et linguistique et directeur du département Humanités à la faculté des Sciences Humaines, des Sciences de l’Éducation et des Sciences Sociales (FHSE) de l’université du Luxembourg, a développé le premier prototype d’une application de reconnaissance vocale luxembourgeois basée sur ce modèle. Il a présenté ses résultats en mai 2022 sur le site web Infolux de l’université du Luxembourg avec l’attribut “A very first model“. En février 2022 il avait déjà publié un premier espace de démonstration de ce modèle sur la plateforme Huggingface qui pouvait être testé par des initiés.

Click to zoom

Cette application incluait également un modèle de langage n-gram, mais ne supportait pas encore l”usage des lettres majuscules pour les substantifs. Elle n’atteignait pas le niveau des résultats qu’on obtient avec l’application schreifmaschinn.lu actuelle, mais c’était un jalon dans le développement des technologies de la voix au Luxembourg.

Pour l’application schreifmaschinn.lu, le modèle XLS-R a également servi de base. Pour l’entraînement du luxembourgeois, la durée des enregistrements audio avec transcriptions a été étendue à 16 heures. Elle sera portée prochainement à 100 heures.

Modèle Coqui-STT

La fondation Mozilla, qui est surtout connue pour son navigateur Firefox, est également un pionnier de la synthèse (Mozilla TTS) et de la reconnaissance (Mozilla-Deepspeech) de la parole. Mozilla a lancé en juillet 2017 le projet Common Voice pour collecter de vastes échantillons de données vocales. Hélas le luxembourgeois ne fait pas encore partie des langues supportées. En août 2021 la CEO de Mozilla informait son personnel que les activités de technologie de la voix seraient abandonnées au profit d’une focalisation sur Firefox. 250 personnes ont été licenciées. Dans la suite quelques anciens employés de Mozilla ont fondé en mars 2021 la start-up Coqui.ai sur les ruines des anciens projets vocaux de Mozilla. Les idées avancées par les fondateurs m’avaient incité à reprendre mes anciens travaux de développement d’une voix synthétique luxembourgeoise. J’ai résumé cette histoire en juin 2021 dans mes contributions “Text-to-Speech sound samples from Coqui-TTS” et “The best of two breeds” sur mon site web.

Les premiers résultats tangibles étaient prêts en janvier 2022 et ont été publiés sur mon site web dans les articles “Mäi Computer schwätzt Lëtzebuergesch” et “Mäi Computer schwätzt Lëtzebuergesch mat 4 Stëmmen“. En juillet 2022 j’ai publié sur Huggingface un espace de démonstration TTS multilingue et multi-orateur, incluant le luxembourgeois, qui a été très apprécié par la communauté Coqui.ai.

Click to zoom

Au printemps 2022, dans l’attente d’une correction de quelques bogues dans les modèles Coqui-TTS, je me suis focalisé sur la reconnaissance vocale du luxembourgeois moyennant le modèle Coqui-STT. J’ai décrit en juin 2022 mes expériences dans mon récit “Mäi Computer versicht Lëtzebuergesch ze verstoen” et j’ai publié fin juillet 2022 un modèle STT multilingue “Mir verstinn och Lëtzebuergesch !” sur la plateforme d’intelligence artificielle Huggingface. Je viens toutefois me rendre compte que cette application ne fonctionne plus correctement après une mise à jour de la plateforme.

Click to zoom

Vu les performances du modèle schreifmaschinn.lu et le potentiel du modèle Whisper présenté dans le prochain chapitre, la poursuite du développement d’un modèle Coqui-STT luxembourgeois ne fait plus de sens. Je vais me concentrer de nouveau sur le perfectionnement d’une voix luxembourgeoise avec la synthèse vocale Coqui-TTS.

Modèle Whisper

Le modèle de reconnaissance vocale pré-entraîné le plus récent s’appelle Whisper et a été présenté par la société OpenAI le 21 septembre 2022 et amélioré en décembre 2022 (version 2). OpenAI a été fondée en décembre 2015 comme organisation à but non lucratif avec l’objectif de promouvoir et de développer une intelligence artificielle à visage humain qui bénéficiera à toute l’humanité. Parmi les fondateurs se trouve Elon Musk, entrepreneur et milliardaire emblématique. L’organisation a été convertie en entreprise à but lucratif plafonné en mars 2019. OpenAI est surtout connue pour ses applications récentes Dall-E2 et ChatGPT qui font ravage sur le web.

Whisper a été entraîné avec 680,000 heures d’enregistrements audio avec transcriptions, dont 83% en anglais et 17% avec 96 langues différentes. Lors de la présentation du projet schreifmaschinn.lu Peter Gilles m’a informé qu’il s’est lancé dans l’adaptation de Whisper au luxembourgeois. Il y a quelques jours j’avais découvert les premières traces afférentes sur la plateforme Huggingface.

Click to zoom

Aujourd’hui j’ai constaté que cette application est maintenant opérationnelle sur Huggingface et tourne sur une infrastructure GPU T4. A première vue les performances de ce modèle sont géniales.

Click to zoom

Je vais tester cette version plus en détail dans les prochains jours, avec les mêmes jeux de tests que j’ai utilisé pour le projet schreifmaschinn.lu, et rapporter sur mes expériences.

Au rythme effréné actuel de l’évolution de l’intelligence artificielle, on va bientôt savoir si Whisper a le potentiel de détrôner le modèle Wav2Vec-XLS-R dans l’application schreifmaschinn.lu. De toute façon, se sont les données luxembourgeoises audio, avec les transcriptions soigneusement corrigées et assemblées, ainsi que l’expérience gagnée jusqu’à présent, qui constituent la vraie valeur d’un projet de reconnaissance vocale, et non l’architecture du réseau neuronal à la base.

Mise à l’épreuve de l’application schreifmaschinn.lu

Pour tester la qualité de reconnaissance de l’application schreifmaschinn.lu d’une façon reproductible j’ai utilisé trois jeux d’enregistrements pour mesurer la qualité de reconnaissance des mots transcrits :

  1. Fichiers audio enregistrés en studio
  2. Fichiers audio enregistrés en salle de réunion
  3. Fichiers audio enregistrés à la maison

Enregistrements en studio

J’ai sélectionné au hasard des enregistrements luxembourgeois dans mon corps de paroles multilingues TTS-12800, publié en juillet 2022 sur Huggingface. Ces enregistrements proviennent de dictées et d’histoires disponibles sur le site web de l’université du Luxembourg et d’émissions radio disponibles sur le site web de RTL. Ces enregistrements se distinguent par une très bonne qualité. Pour garder un équilibre entre hommes et femmes, j’ai choisi les fichiers audio de test parmi les contributions de 4 oratrices et de 4 orateurs, avec les transcriptions originales. Les enregistrements ont tous une durée inférieure à 10 secondes et sont échantillonnés avec une fréquence de 16 KHz. Les transcriptions ont été corrigées manuellement.

Enregistrements en salle de réunion

Il s’agit de six enregistrements de discours à la Chambre des Députés que Peter Gilles a utilisé pour le test de son premier modèle ASR luxembourgeois XLS-R. J’ai édité ces fichiers pour créer des enregistrements d’une durée maximale de 30 secondes. J’ai créé moi-même des transcriptions de référence. Il faut dire que même pour un humain c’est un exercice difficile car dans ces enregistrements on trouve des termes exotiques et des défauts d’élocution et il faut parfois deviner ce que le député voulait dire. J’ai généré des fichiers avec différentes fréquences d’échantillonnage et constaté que la reconnaissance des mots diffère en fonction de ce paramètre. Dans certains cas la version originale produit les meilleurs résultats, dans d’autres cas c’est la version avec un échantillonnage réduit à 8KHz qui est la plus compréhensible. Je n’ai toutefois pas pu déceler une dépendance systématique entre résultats et fréquence d’échantillonnage et j’ai finalement utilisé les versions originales, échantillonnées à 44,1 KHz respectivement à 16 KHz.

Enregistrements à la maison

J’ai enregistré et édité moi-même les fichiers audio pour le troisième jeu de test avec l’application Voice Memos sur mon iPhone. Comme référence, j’ai lu la fable d’Esope De Nordwand an d’Sonn dans un environnement calme. Ensuite j’ai édité ce fichier audio pour le couper en deux morceaux ayant des durées inférieures à 30 secondes. Ensuite j’ai ajouté du bruit de fond avec différentes intensités. Dans un premier cas on entend comme bruit de fond mes petits-enfants qui s’amusent avec des jeux vidéo sur iPAD. Dans le deuxième cas un sèche-cheveux perturbe l’enregistrement.

Evaluation des résultats de mes tests

Pour tester l’application schreifmaschinn.lu, j’ai téléchargé (upload) les différents enregistrements, un après l’autre, sur la page web listen. Ensuite j’ai copié la transcription affichée sur cette page, avec le bouton copier/coller, dans un éditeur de texte, pour le comparer avec la transcription de référence.

Click to zoom

Pour évaluer les résultats des comparaisons, j’ai demandé conseil auprès d’un nouveau programme d’intelligence artificielle (AI) qui impressionne aussi bien les profanes techniques que les spécialistes AI, à savoir le robot ChatGPT, lancé récemment (version du 15 décembre 2022) par la société OpenAI. Ma première question était “How to evaluate the performance of an ASR system ?“. La réponse est détaillée et correcte :

Click to zoom

Comme deuxième question j’ai demandé des précisions sur la mesure du WER dans la même session: “How to measure the WER ?“. La réponse est explicite et comprend un exemple de calcul :

Click to zoom

Je suis impressionné par cette application d’OpenAI. Pour obtenir ce genre d’informations dans le passé, j’étais obligé de faire des recherches sur Google, de visiter quelques sites web parmi les liens proposés et de formuler moi-même une synthèse des informations recueillies. ChatGPT facilite cette tâchreurs et offre un gain de temps appréciable.

Avec la confirmation que WER constitue un outil de mesure simple et valable, j’ai comparé les résultats fournis par schreifmaschinn.lu avec les transcriptions de référence des trois jeux de fichiers audio présentés ci-avant. Pour relever les erreurs, j’étais indulgent. Par exemple je n’ai pas compté des erreurs répétitives dans un même enregistrement plusieurs fois et j’ai compté une séquence de plusieurs fautes combinées comme une seule erreur. Comme je présente ci-après en détail les textes produits par schreifmaschinn.lu, avec les erreurs prises en compte marquées en rouge, ainsi que les transcriptions de référence, chacun est libre de faire ses propres interprétations et calculs.

Présentation des résultats détaillés

Les résultats détaillés des 3 jeux de fichiers audio sont relevés dans des tableaux ci-après dans 4 colonnes avec les contenus suivants:

  1. Identification de l’enregistrement
  2. Transcription de référence
  3. Texte reconnu par schreifmaschinn.lu
  4. Nombre d’erreurs / nombre de mots dans transcription de référence = taux d’erreurs en %

Premier jeu : enregistrements de dictées et d’émissions radio

Spriechergebraddelten Textgeschriwwenen TextWER
CarolineA villen Industrielänner brénge Regierungen et net fäerdeg, Komma, hire Bierger plausibel ze erklären,A villen Industrielänner brénge Regierungen et net fäerdeg kommen hire Bierger plausibel ze erklären.1 / 14 = 7,1%
JudithD’Hieselter sinn a ganz Europa doheem, bis op den aacht-an-siechzegste Breedegrad, an a Klengasien.D’ Hieselter sinn a ganz Europa doheem bis op den aachtasechzegste breede Grad an a kleng Asien.2 / 14 = 14,3%
NathalieVläicht steet den Dag vun haut, wou eng ganz Natioun sech d’Fangere beim Diktat wond geschriwwen huet, och eng Kéier an de Geschichtsbicher,Vläicht steet den Dag vun haut wou eng ganz Natioun sech d’Fangere beim Diktat Wont geschriwwen huet och eng Kéier an de Geschichtsbicher.1 / 23 = 4,3%
SaraMäi Bäcker geet mer op de Wecker, vu senge Bréidercher ass ee Bréitchen sou haart wéi dat anert.Mäi Bäcker geet ma op de Becker vu senge Bréidercher ass ee Bréitchen esou haart wéi dat anert.2 / 18 = 11%
GuyEt besteet also e groussen Ënnerscheed, wéi esou dacks, tëscht dem Wonschdenken an dem realisteschen Aschätze vun der politescher Situatioun;Et besteet also e groussen Ënnerscheed wéi sou dacks tëscht dem Wonschdenken an dem realisteschen Aschätze vun der politescher Situatioun.0 / 20 = 0%
JempE schafft, oder besser gesot, en ass am Ministère vun den ongeléiste Problemer.E schafft oder besser gesot, en ass am Ministère vun den ongeléiste Problemer.0 / 13 = 0%
LucD’Manipulatioun zeechent sech jo doduerch aus, datt een déi Beaflossung net an Uecht hëlt.Manipulatioun zeechent sech jo doduerch aus, datt een déi Beaflossung net an Nuecht hëlt.1 / 14 = 7,1%
MarcoD’Aféierung vum GSM ufanks de nonzeger Joren war fir d’Postverwaltung deen ambitiéiste Projet deen se bis dohin ënnerholl huet.D’ Aféierung vum Gsm ufanks den nonzeger Joren war fir d’Post Verwaltung deen ambitiéise Projet se bis dohinner ënnerholl huet.3 / 19 =
15,8%

Le taux de reconaissance des mots du premier jeu s’élève à 10 / 135 = 7,4%

Deuxième jeu : enregistrements de la Chambre des Députés

Identificationgebraddelten Textgeschriwwenen TextWER
Chambre-1Villmools merci, Här President, den Avis vun den Experten huet kloer gewisen, datt de Covid Kris nach net eriwwer ass, datt de Risk nach ëmmer do ass an datt d’Expektative fir September, zumindestens wat d’Experten ugeet, déi sinn, datt mer eventuell virun enger neier Well kënne stoen, wëlleg, op wëllegem Datum wëlleg Variante mat wëlleger Virulenz, wëlleger Ustiechlechkeet, dat wësse mer an dësem Moment selbstverständlech…Deemools merci, Här President, den Avis vun den Experten huet kloer gewisen, datt de Covid Kris nach net eriwwer ass, dass de Risk nach ëmmer do ass an datt d’Expektative fir September, zumindestens wat d’Experten ugeet, déi sinn, datt mer eventuell virun enger neier Welt kënne stoen, wellech op wellechem Datum, Wellegvariant mat Wëllegevirulenze Wellecher ustiechlech geet, dat wësse mer an dësem Moment selbstverständlech.4 / 65
=
6,1%
Chambre-2Mir hunn eng Regierung an och an deene Rieden, déi bis elo gehal goufen, ass eigentlech, mengen ech keen op Impfniewewierkungen agaangen, mee dat ass e reelle Problem, wann Der mat villen Doktere schwätzt, soen déi Iech, datt se dee Problem, de Problematik vun den Impfniewenierkungen an hirer Praxis als e reelle Problem gesinn a mir mussen och de Leit, an sinn der ganz vill déi sech dorëm Suerge maachen, einfach dat Gefill ginn, dat mer dat eescht huelen, et musse Prozedure ginn, net bürokratesch Prozeduren …Mir hunn eng Regierung an och mir an deene Rieden, déi bis elo gehal goufen, ass een, mengen ech, keen op d’Impf Niewewierkungen agaangen, mee dat ass e reelle Problem, wann Der mat villen Doktere schwätzt, soen déi Iech, datt se dee Problem, déi Problematik vun den imnieweniewe Wierkungen an hirer Praxis als e reelle Problem gesinn a mir mussen och de Leit an, sinn der ganz vill, déi sech dorëm Suerge maachen, einfach dat Gefill ginn, dat mat dat Eescht huelen? Et musse Prozedure ginn, net bürokratesch Prozeduren.5 / 86
=
5,8%
Chambre-3Ech denken, dass de Recul ons do wäert gutt doen an dass déi Evaluatioun, déi mer matmaachen, déi wärt eis mobiliséieren, mee dass déi eis Opschlëss gëtt, fir dann fir d’Zukunft eng gutt Gesetz en Place kënnen ze kréien, wou mer och aus den Erfarunge vun deenen anere Länner kënnen léieren, mmmh, ech wollt och nach agoen op déi Convin-Studie, déi ass ugeschwat ginn, jo, déi ass iwwerholl ginn, vun der Orchestra, dat leeft nach ëmmer, d’Resultater vun de Januar, Februar sinn eran, sinn nach net statistesch ausgewäert, mee dat leeft u sech riit weider.Ech denken, dass en de Recul ons do wäert gutt doen an dass déi Evaluatioun, wou mer matmaachen, iwwert eis mobiliséieren, mee dass déi eis opschlëssgëtt, fir da fir d’Zukunft eng gutt Gesetze en place kënnen ze kréien, wou mer och eis Erfarunge vun deenen anere Länner kënnen léieren a ech wollt och nach agoen op Dekonvinsstudien, déi ass ugeschwat ginn, jo, di ass iwwerholl ginn, vun der Okestrachtut, dat leeft nach ëmmer d’Resultater vun de Januar, Februar sinneratean net statistesch ausgewäert, mee dat leeft u sech Riad weider.12
/
95
=
12.7%
Chambre-4Leider kënne mer dat net maachen, well eis Iwwerzeegung ass déi, datt mer keng Impfflicht wëllen, Dir wollt de proposéiert an de Mentiounen avant projet de loi ebe just fir eng Impflicht der Chamber virzeleeën, do hu mer einfach eng fundamental aner Vue mir sin fir d’Fräiwëllegkeet vun der Impfung, wëllen also och keen esou en avant projet de loi, mir kënnen also net mat ënnerstëtzen, mee nach eng Kéier en häerzlechen Merci och fir Är Oppenheet gëintiwwert den Oppositiounsparteien. Merci.Leider kënne mer dat net maachen, well eis Iwwerzeegung ass déi, datt mer keng Impfflicht wëllen, Dir wollt dee proposéiert an de Motiounen a ven Projet de loi ebe just fir eng Impflicht der Chamber virzeleeën, do hu mer e fir eng fundamental aner Vue mir sin fir d’Fräiwëllegkeet vun der Impfung wëllen also och keen esou en Aven Projet de loi, mir kënne se also net mat ënnerstëtzen, mir neien Kieren Hercleche merci och fir Är Oppenheet geet iwwert de Oppositiounspartei Merci.5
/
81
=
6,2%
Chambre-5Do ass vun Exzellenz Zenteren geschwat ginn, nun Branche an der Ekonomie, déi gutt forméiert Leit brauchen a mir verstinn net wéi mer probéieren op där enger Säit Secteuren ze developpéieren, wou héich qualifizéiert Leit sollen herno eng Aarbecht fannen, op där anerer Säit probéiere mer dat Mëttelméissegkeet an eiser Schoul zum Standard, zum Standard gëtt, dat passt op jidde Fall net iwwerteneen, esou kréie mer weeder déi richteg Leit forméiert, fir an deene Secteuren täteg ze sinn an esou kréie mer weeder …Do ass vun Exzellenz Zentere geschwat ginn, nu Branche an der Ekonomie, déi gutt forméiert Leit brauchen a mir verstinn net wéi mer probéieren op där enger Säit Secteuren ze developpéieren, wou héich qualifizéiert Leit sollen herno eng Aarbecht fannen op där anerer Säit probéiere mer dat Mëttelméissegkeet an eiser Schoul et zum Standard, zum Standargëtt, dat passt op jidde Fall en net iwwerteneen, esou kréie mer weeder déi richteg Leit forméiert, fir an deene Secteuren täteg ze sinn an esou kréie mer weeder.4
/
83
=
4,8%
Chambre-6Här President, d’Ried vum Premierminister huet den Tour vun enger Partie vu wichtege Problemer vum moderne Lëtzebuerg gemaacht, et war jo och kloer gesot ginn, dass dëst en Astig war an eng Debatt, déi Mëtt November weidergeet mat deem wat mer han dann hei an der Chamber iwwert den nationale Plang am Kader vun der Lissabonstrategie …E President, d’Ried vum Premierminister huet den Tour vun enger Partie vu wichtege Problemer vum moderne Lëtzebuerg gemaacht, etwar jo och kloer gesot ginn, dass dëst en Astig war an eng Debatt, déi Mëtt November weidergeet mat deem wat mer a dann hei an der Chamber iwwert den nationale Plang am Kader vun der Lissabonstrategie.3
/
56
=
5,4%

Le taux de reconnaisance des mots du deuxième jeu s’élève à 33 / 466 = 7,1%

Troisième jeu : enregistrements à domicile avec bruit de fond

Nordwand-1 : texte de référence:

An der Zäit hunn sech den Nordwand an d’Sonn gestridden, wie vun hinnen zwee wuel méi staark wier, wéi e Wanderer, deen an ee waarme Mantel agepak war, iwwert de Wee koum. Si goufen sech eens, datt deejéinege fir dee Stäerkste gëlle sollt, deen de Wanderer forcéiere géif, säi Mantel auszedoen.

Identificationgeschriwwenen TextWER
Nordwand 1: sans bruit de fondAn der Zäit hunn sech den Nordwand an d’Sonn gestridden wie vun hunnen zwee wuel méi staark wier wéi e Wanderer deen an ee waarme Mantel agepaakt war iwwert de Wee koum si goufe sech eens datt deejéinege fir dee stäerkste gëlle sollt deen de Wanderer forcéiere géif säi Mantel auszedoen.2
/
51
=
3,9%
Nordwand 1: bruit enfants
0db peak
An der Zäit hu sech den Loft Wand an Son gestridden wie vun hinnen zwee wuel méi staark wier wéi e Wanderer deen an de waarme Wandel agepakt war iwwert de Wee koum si goufe sech eens datt deejéinege fir dee stäerkste gëlle sollt deen de Wanderer forcéiere géif säi Mantel auszedoen.
Nordwand 1: bruit enfants -10db peakAn der Zäit hu sech den Noftwand an d’Sonn gestridden wie vun hunnen zwee wuel méi staark wier wéi e Wanderer deen an ee waarme Mantel agepaakt war iwwert de Wee koum si goufe sech eens datt deejéinege fir dee stäerkste gëlle sollt deen de Wanderer forcéiere géif säi Mantel auszedoen.
Nordwand 1: bruit enfants
-20db peak
An der Zäit hunn sech den Nordwand an d’Sonn gestridden wie vun hunnen zwee wuel méi staark wier wéi e Wanderer deen an ee waarme Mantel agepaakt war iwwert de Wee koum si goufe sech eens datt deejéinege fir dee stäerkste gëlle sollt deen de Wanderer forcéiere géif säi Mantel auszedoen.2
/
51
=
3,9%

Nordwand-2 : texte de référence:

Den Nordwand huet mat aller Force geblosen, awer wat e méi geblosen huet, wat de Wanderer sech méi a säi Mantel agewéckelt huet. Um Enn huet den Nordwand säi Kampf opginn. Dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt, a schonn no kuerzer Zäit huet de Wanderer säi Mantel ausgedoen. Do huet den Nordwand missen zouginn, datt d’Sonn vun hinnen zwee dee Stäerkste wier.

Identificationgeschriwwenen TextWER
Nordwand 2: sans bruit de fondDen Nordwand huet mat aller Force geblosen awer wat e méi geblosen huet wat de Wanderer sech méi a säi Mantel agewéckelt huet um Enn huet den Nordwand säi Kampf opginn dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt a schonn no kuerzer Zäit de Wanderer säi Mantel ausgedoen do huet den Nordwand missten zouginn datt d’Sonn vun hinnen zwee dee stäerkste wier.2
/
65
=
3,1%
Nordwand 2: bruit sèche-cheveux
0db peak
Neeee Eeelere eenee.
Nordwand 2: bruit sèche-cheveux
-10db peak
Den Nord dann gëtt en aller a Eiese a Eegeninteresse geheien Eau huet d’Sonn oft mat hire frendleche Strale Gewienaschonn e Dezembere Anne ausgedoe huet den No Tandis zou ginn dat ëneen zwee beschte wier.
Nordwand 2: bruit sèche-cheveux
-20db peak
Den Nordwand huet mat aller Force geblosen awer wat e méi geblosen huet wat de Wanderer sech méi a säin Mandel agewéckelt hierum Enn huet den Nord a säi Kand dunn huet d’Sond d’Loft mat hire frëndleche Strale gewiert a schonn no kuerzer Zäit de Wanderer säi Mantel ausgedoen do huet den Nordwand missten zouginn datt d’Sonn vun hinnen zwee dee stäerkste wier.
Nordwand 2: bruit sèche-cheveux
-30db peak
Den Nordwand huet mat aller Force geblosen awer wat e méi geblosen huet wat de Wanderer sech méi a säi Mantel agewéckelt huet um Enn huet den Nordwand säi Kampf opginn dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt a schonn no kuerzer Zäit de Wanderer säi Mantel ausgedoen do huet den Nordwand missten zouginn datt d’Sonn vun hinnen zwee dee stäerkste wier.2
/
65
=
3,1%

Conclusions

Pour l’évaluation globale je n’ai pas considéré les résultats des enregistrements avec un bruit de fond élevé. Pour le calcul du WER moyen pour mon test complet je me suis de nouveau adressé au modèle AI ChatGPT, avec la question suivante: “What is the WER if I found 51 errors for 833 words in the reference transcriptions ?“.

Click to zoom

ChatGPT va remplacer ma calculatrice. J’ai demandé l’avis du ChatGPT au sujet du résultat avec la question “Is this WER value good or bad for a low resource language ASR system ?“.

Click to zoom

Je me rallie à cet avis et j’attribue cinq étoiles à l’application actuelle schreifmaschinn.lu. Pour terminer, j’ai demandé l’opinion personnelle de ChatGPT concernant le résultat. Voici sa réponse:

Click to zoom

Il n’y a rien à ajouter!

Bibliographie

Das Küsschen und die Sonne stritten sich …

Introduction

Le titre de ma présente publication est le résultat d’une traduction automatique française -> allemande du début de la phrase “La bise et le soleil se disputaient, chacun assurant qu’il était le plus fort, quand ils ont vu un voyageur qui s’avançait, enveloppé dans son manteau”.

Modèle Helsinki-NLP/opus-mt-fr-de publié sur la plateforme AI Hugginface

C’est le début d’une fable d’Ésope, extraite d’un ensemble de fables en prose qu’on attribue à l’écrivain grec Ésope. Le texte de la fable La bise et le soleil est utilisé régulièrement par des linguistes dans le cadre de projets de recherche sur le traitement du language naturel (NLP: Natural Language Processing). Cette fable a été traduite dans des centaines de langues mondiales et régionales. Comme je vais me référer plusieurs fois sur cette fable, je vais d’emblée présenter l’intégralité du texte dans les versions française, allemande, anglaise et luxembourgeoise ci-après.

Fables d’Ésope

Ls fables d’Ésope sont des centaines de textes et toutes sortes de récits qui circulaient oralement dans la Grèce antique et qui ont inspiré de nombreux auteurs comme Phèdre, Marie de France, Jean de la Fontaine. La fable d’Ésope La bise et le soleil est très courte, sa morale réside dans l’enseignement que la persuasion, plus lente, s’avère toutefois plus efficace que la violence.

Oeuvre d’art générée par le programme d’intelligence artificielle DALL*E2 avec l’introduction de la description “3D rendering of the fable The North Wind and the Sun were disputing which was the stronger, when a traveler came along wrapped in a warm cloak.”

La bise et le soleil

La bise et le soleil se disputaient, chacun assurant qu’il était le plus fort, quand ils ont vu un voyageur qui s’avançait, enveloppé dans son manteau. Ils sont tombés d’accord que celui qui arriverait le premier à faire ôter son manteau au voyageur serait regardé comme le plus fort. Alors, la bise s’est mise à souffler de toute sa force mais plus elle soufflait, plus le voyageur serrait son manteau autour de lui et à la fin, la bise a renoncé à le lui faire ôter. Alors le soleil a commencé à briller et au bout d’un moment, le voyageur, réchauffé, a ôté son manteau. Ainsi, la bise a dû reconnaître que le soleil était le plus fort des deux.

Norwind und Sonne

Einst stritten sich Nordwind und Sonne, wer von ihnen beiden wohl der Stärkere wäre, als ein Wanderer, der in einen warmen Mantel gehüllt war, des Weges daherkam. Sie wurden einig, daß derjenige für den Stärkeren gelten sollte, der den Wanderer zwingen würde, seinen Mantel abzunehmen. Der Nordwind blies mit aller Macht, aber je mehr er blies, desto fester hüllte sich der Wanderer in seinen Mantel ein. Endlich gab der Nordwind den Kampf auf. Nun erwärmte die Sonne die Luft mit ihren freundlichen Strahlen, und schon nach wenigen Augenblicken zog der Wanderer seinen Mantel aus. Da mußte der Nordwind zugeben, daß die Sonne von ihnen beiden der Stärkere war.

The northwind and the sun

The North Wind and the Sun were disputing which was the stronger, when a traveler came along wrapped in a warm cloak. They agreed that the one who first succeeded in making the traveler take his cloak off should be considered stronger than the other. Then the North Wind blew as hard as he could, but the more he blew the more closely did the traveler fold his cloak around him; and at last the North Wind gave up the attempt. Then the Sun shined out warmly, and immediately the traveler took off his cloak. And so the North Wind was obliged to confess that the Sun was the stronger of the two.

De Nordwand an d’Sonn

An der Zäit hunn sech den Nordwand an d’Sonn gestridden, wie vun hinnen zwee wuel méi staark wier, wéi e Wanderer, deen an ee waarme Mantel agepak war, iwwert de Wee koum. Si goufen sech eens, datt deejéinege fir dee Stäerkste gëlle sollt, deen de Wanderer forcéiere géif, säi Mantel auszedoen. Den Nordwand huet mat aller Force geblosen, awer wat e méi geblosen huet, wat de Wanderer sech méi a säi Mantel agewéckelt huet. Um Enn huet den Nordwand säi Kampf opginn. Dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt, a schonn no kuerzer Zäit huet de Wanderer säi Mantel ausgedoen. Do huet den Nordwand missen zouginn, datt d’Sonn vun hinnen zwee dee Stäerkste wier.

Histoire de la traduction automatique au Luxembourg et au delà

Le Luxembourg figure parmi les pionniers dans l’utilisation de la traduction automatique du fait que les nombreuses institutions européennes, ayant leur siège dans le pays, doivent gérer leurs documents dans les différentes langues officielles de la communauté européenne. Hélas, le luxembourgeois ne fait pas partie de ces languages et ce n’est que récemment que la langue luxembourgeoise est supporté par les systèmes de traduction automatique.

Tout a commencé au début des années 1950 avec la fondation de la Communauté européenne du charbon et de l’acier (CECA) par six nations européennes, dont le Luxembourg. La CECA a été dirigée par la Haute Autorité qui siégeait à Luxembourg et qui gérait quatre langues officielles: français, allemand, italien et néerlandais.

Bâtiment de la Haute Autorité de la CECA. Photo Tony Krier © Phototèque de la Ville de Luxembourg

A la même époque, Warren Weaver, un mathématicien américain, concrétisait ses idées au sujet de la traduction automatique, communiquées en mars 1947 au cybernéticien Norrbert Wiener et publiées en juillet 1949 dans un mémorandum au sujet de la traduction. Sous l’influence de Warren Weaver dans sa qualité de directeur de la fondation Rockefeller, la première démonstration d’une traduction complètement automatique de 60 phrases russes en anglais a eu lieu en janvier 1954. Le développement a été conduit par l’Université de Georgetown, ensemble avec IBM.

Cuthbert Hurd, Léon Dostert et Thomas Watson lors de la 1ère démonstration de la traduction automatique

La même année, les premieres recherches en traduction automatique ont débuté en URSS. Elles se distinguaient des recherches américaines par leur caractère théorique et le choix d’une méthode faisant appel a une langue intermédiaire. Aussi bien du côté américain que du côté russe, la traduction automatique était une arme de la guerre froide. Mais le développement de la traduction automatique ne progressait pas comme prévue et au début des années 1960 les crédits publics de recherche investis dans ce domaine ont été sensiblement réduits des deux côtés.

Retournons au Luxembourg. La Haute Autorité de la CECA fusionnait en 1965 avec les commissions de la Communauté économique européenne (CEE) créée en 1957, puis en 1967 avec la Communauté européenne de l’énergie atomique (Euratom), sur base du traité de fusion des exécutifs des trois communautés. En janvier 1969 l’Office des publications officielles des Communautés européennes, devenu en 2009 l’Office des publications de l’Union européenne, a été créé et domicilié à Luxembourg. L’Office des publications publie quotidiennement le Journal officiel de l’Union européenne dans les 23 langues officielles de l’Union et propose plusieurs services en ligne destinés et aux professionnels et au grand public du monde entier. Dans son rapport d’activités des années 1975 à 1977, la Direction Générale XIII de la Commission Européenne, en charge de la gestion de l’information et de l’innovation, dont le siège se trouvait également à Luxembourg, annonçait le démarrage d’un projet pilote de traduction automatique avec le logiciel SYSTRAN.

Pendant des dizaines d’années, la DG XIII et l’Office des Publications ont été le moteur de la traduction automatique au Luxembourg.

Systran

Le logiciel SYSTRAN a été développé par Peter Toma, né en juillet 1924 à Doboz, un petit village hongrois. Marqué par les misères de la deuxième guerre mondiale, il était persuadé que les barrières linguistiques constituaient un frein pour garantir la paix. Il voulait y remédier et apprenait le russe et l’anglais, à côté de l’hongrois et de l’allemand. Après avoir immigré aux Etats-Unis en 1952, il a travaillé à partir de 1956 comme assistant à l’Institut de technologie de Californie (Caltech). Lorsqu’un ordinateur Datatron 205 a été installé à l’Institut, il espérait pouvoir réaliser son rêve d’enfant: programmer une machine pour traduire un texte en plusieurs langues. Mais les premières tentatives n’étaient pas concluantes et il quittait le Caltech en 1957. Après quelques expériences auprès de firmes privées, il joignait en mars 1959 l’Université de Georgetown pour participer aux travaux du groupe GAT (General Analysis Technique), rebaptisé dans la suite Georgetown Automatic Translation, sur un ordinateur IBM 705. Le chef de projet était Michael Zarechnak. Il est le coauteur du livre Machine Translation publié en 1979. Peter Toma dirigeait une équipe de programmeurs qui réalisait un projet surnommé SERNA. Quand il quittait l’université en 1961, il présentait SERNA comme son invention, ce qui est contesté par ses pairs de l’époque.

Image extraite du film publicitaire de Systran

Peter Toma a été engagé ensuite par la société Computer Concepts à Los Angeles où il valorisait son savoir-faire pour réaliser les projets AUTOTRAN et TECHNOTRAN qui tournaient sur des ordinateurs IBM 7090. Bien que basée toujours sur des règles algorithmiques, la conception de ces programmes était complètement différente de celle du projet SERNA. En 1964 Peter Toma présentait les systèmes de traduction automatiques à des scientifiques européens à l’Université de Bonn en Allemagne. Le problème était toutefois que l’ordinateur IBM 7090 ne disposait pas de mémoire et de puissance de calcul suffisantes pour traduire plus que des courtes phrases.

Lors du vol vers l’Allemagne, Peter Toma avait lu le manuel d’instruction du nouvel ordinateur 360, annoncé par IBM. D’emblée il était persuadé que cet ordinateur permettait de réaliser vraiment ses rêves et il concevait dans sa tête l’idée comment transformer AUTOTRAN et TECHNOTRAN dans un nouveau produit qu’il nommait SYSTRAN. Comme l’environnement de travail était plus propice en Europe qu’aux Etats-Unis pour progresser avec la traduction automatique, Peter Toma décidait de rester en Allemagne. Il commençait à enseigner la programmation à l’université de Bonn, puis à l’Université de la Sarre. En parallèle, il émulait le fonctionnement de l’ordinateur IBM 360 sur le modèle IBM 7090 pour créer un modèle SYSTRAN embryonnaire. En même temps il s’était inscrit comme étudiant à Bonn où il achevait son doctorat en 1970 avec une thèse sur la traduction automatique.

IBM 360 – Computer History Museum ; Photo : Dave Ross, 2008, CC BY 2.0

Lorsque Heinz Unger, le directeur du département mathématique à l’Université de Bonn, a obtenu les crédits pour l’installation et l’exploitation d’un ordinateur IBM 360 dans son institut, Peter Toma a pu montrer le fonctionnement correct de son système de traduction SYSTRAN. En 1965, la Fondation allemande pour la recherche (DFG: Deutsche Forschungsgesellschaft) avait invité les meilleurs informaticiens et linguistes allemands pour évaluer le projet SYSTRAN. Après une journée de test et de discussions, une bourse de recherche a été accordée à Peter Toma pour parfaire son système.

En 1967, le laboratoire de Rome, le centre de recherche et de développement de la Force aérienne américaine (RADC), lançait un appel d’offre pour la traduction de textes russes en anglais. Le responsable de ce projet était Zbigniew L. Pankowicz (Ziggy), un linguiste polonais et survivant du camp de concentration d’Auschwitz, qui est immigré aux Etat-Unis après la guerre. Il a été admis au temple de la renommé (Hall of Fame) du laboratoire de Rome en 2019. Peter Toma soumettait une offre pour son projet SYSTRAN qui a été retenue par le RADC, parmi des concurrents comme IBM et Thompson Ramo Wooldridge.

Ce succès a incité Peter Toma à créer sa propre société en 1968 pour continuer le développement de SYSTRAN, à La Jolla en Californie, sous le nom de Latsec (Language translation system and electronic communications). D’autres contrats ont été conclus avec des clients américains, par exemple avec la NASA. Avec des hauts et des bas, le projet SYSTRAN a été perfectionné, à Bonn et à La Jolla, jusqu’en 1975 quand Peter Toma a fondé le World Translation Center (WTC) pour gérer les contrats SYSTRAN en dehors des Etats-Unis.

En 1973, le Danemark, l’Irlande et le Royaume-Uni ont adhéré à la Communauté économique européenne. L’introduction de l’anglais comme langue majeure et du danois comme sixième langue officielle posait la Commission Européenne et l’Office des Publications Européennes devant des problèmes monstrueux. Il fallait engager des centaines de traducteurs diplômés additionnels pour gérer le nombre grandissant de documents à publier et à distribuer. C’était le démarrage de l’introduction d’un système de traduction automatique pour les besoins des institutions européennes et le départ pour la mise en service de SYSTRAN au Luxembourg. Il existe deux récits de la manière d’adoption de SYSTRAN. Le premier récit crédite aux institutions européennes le don d’une vue à longue distance en ayant cherché pro-activement un système sur le marché. Le deuxième récit dit que c’était l’initiative de Peter Toma qui cherchait un marché européen pour son produit SYSTRAN. La vérité se trouve probablement au milieu. Il est toutefois établi que Peter Toma présentait en juin 1975 un prototype SYSTRAN anglais-français (développé par sa filiale canadienne WTC-C) à la Commission Européenne à Luxembourg et que celle-ci évaluait un deuxième produit appelé TITUS, conçu par l’Institut Textile de France. Le projet TITUS a été retiré pendant les négociations du fait qu’il ne pouvait pas traduire des textes complets. Comme SYSTRAN pouvait être utilisé sans modification sur un IBM 360, ordinateur que la Commission possédait à cette époque, un premier contrat pour l’utilisation du système SYSTRAN par les institutions européennes a été signé fin 1975 avec WTC. Il portait sur l’adaptation du projet-pilote anglais-français aux besoins de la Commission, et le développement d’un début de système français-anglais. Le chef de projet de la Commission était Loll Rolling, responsable des développements linguistiques et technologiques dans le domaine de l’information à la DG XIII, la direction générale qui gérait également le projet Euronet-Diane à l’époque.

Un des premiers contractants externes de la Commission Européenne pour le projet SYSTRAN était la société Informalux S.A. domiciliée à Rodange. Elle a été constituée en 1977 avec le slogan centre d’énergie informatique. Les actionnaires majoritaires étaient InfoArbed et la Banque Générale, Léonard Siebenaler était le directeur général.

Six traducteurs diplômés des institutions européennes ont été affectés au projet pour assister les informaticiens au développement. Après quelques mois, il ne restait qu’un seul traducteur qui faisait confiance au projet, Ian M. Pigott. Les autres étaient retournés à leurs anciens postes de travail et s’étaient solidarisés avec la majorité des traducteurs et du personnel administratif des institutions européennes qui contestait l’utilité du projet de traduction automatique. Dans la suite Ian M. Pigott a été désigné comme chef de projet SYSTRAN et il contribuait à faire évoluer le système sensiblement. Au début des années 1980 le système permettait de traduire des textes anglais en français et en italien et des textes français en anglais, avec un taux d’erreurs suffisamment bas pour faciliter la tâche des traducteurs humains à produire des traductions avec la qualité voulue. De plus en plus d’employés des institutions européennes commençaient à apprécier cet outil.

Une licence SYSTRAN a été vendu au Japon en 1980, combinée avec la création d’une société locale Systran Corporation. En juin 1982, une société luxembourgeoise Systran International GmbH a été constituée pour commercialiser le système de traduction automatique SYSTRAN. Le registre de commerce et des sociétés luxembourgeois nous renseigne que les 500 parts de la société étaient détenues par le professeur universitaire allemand Helmut Fischer (495 parts) et l’informaticien Cay-Holger Stoll (5 parts), résidant à Gonderange. Ce dernier était membre de l’équipe projet SYSTRAN comme linguiste et figurait comme gérant de la nouvelle société qui a cessé ses activités en 1987.

En 1983, InfoArbed et Informalux ont créé la joint-venture ECAT – European Center for AutomaticTranslation s.à r.l. Chaque actionnaire détenait 2000 parts. En juillet 1984 le capital de cette société a été doublé et les 4000 nouvelles parts ont été souscrites par Systran International GmbH. Après la liquidation de cette société quelques années plus tard, la dénomination sociale de ECAT a été changé en TELECTRONICS s.à r.l. en 1991.

En février 1986, une conférence mondiale SYSTRAN a eu lieu à Luxembourg. Dans l’introduction, Peter Toma racontait pourquoi il avait demandé un faible montant pour la mise à disposition du logiciel SYSTRAN à la Commission Européenne. Il soulignait que son principal objectif était le maintien de la paix et qu’une meilleure communication entre les pays européens, grâce à la traduction automatique, constituait un moyen pour y parvenir. Il annonçait également qu’il avait vendu récemment l’ensemble de ses sociétés et des droits et licences SYSTRAN (à l’exception de la filiale japonaise) à un fabricant de robinets industriels en France, la famille Gachot, qui souhaitait diversifier ses activités. Avec les revenus de cette vente Peter Toma comptait organiser deux projets de taille dans l’intérêt du maintien de la paix. Le premier projet était l’organisation d’un symposium international au sujet de la résolution de conflits prévu le 28 octobre 1986 à l’Université d’Otago en Nouvelle-Zélande. Le deuxième projet était la création de l’université internationale Aorangi privée à Dunedin en Nouvelle-Zélande. Le symposium a effectivement eu lieu, toutefois une année plus tard que révue, du 26.10 au 5.11.1987. Quant à l’université privée, la seule référence que j’ai trouvé est le nom marqué sur le brevet européen accordé à Peter Toma pour son application SYSTRAN. C’est le premier brevet accordé dans le domaine de la traduction automatique. En 1997, on retrouve Peter Toma avec une contribution My First 30 Years with MT où il figure comme président de Voxtran Inc, avec une adresse en Allemagne. Il est décédé en 2010, la même année où la mise hors service de SYSTRAN auprès des institutions européennes a eu lieu.

Il est temps de retourner en Europe. En 1986, le siège sociale de Systran a été transféré à Paris et la gestion de la société mère Systran S.A. a été assurée par Jean Gachot. Son fils Denis Gachot était déménagé en Californie pour diriger les filiales Latsec et WTC à La Jolla. En 1989, Denis Gachot a présenté The SYSTRAN Renaissance avec l’annonce de plusieurs nouveautés, entre autres des versions SYSTRAN pour PC, la location du logiciel SYSTRAN, l’accès à distance par Telenet et même un accès Minitel pour le grand public en France.

Traduction automatique en ligne sur Minitel proposée par Gachot

Malgré ces innovations, la réussite financière n’était pas au rendez-vous pour la famille Gachot. En 1993 les activités SYSTRAN ont été cédées à quelques anciens actionnaires minoritaires, parmi eux Dimitrios Sabatakakis qui dans la suite a dirigé le groupe Systran pendant vingt ans.

En 1996 l’équipe de développement et de maintenance SYSTRAN à Luxembourg, composée de linguistes, traducteurs et informaticiens, était passée de deux personnes à une quarantaine. La Commission Européenne planifiait de confier l’exploitation du système au Centre de traduction des organes de l’Union Européenne (CdT) qui a été établi à Luxembourg en 1994. Le CdT n’est pas attaché à la Direction Générale Traduction de la Commission Européenne, mais il dispose de sa propre personnalité juridique. Dans ce contexte le député européen Ben Fayot avait posé la question écrite E-2286/96 à la Commission au sujet de l’obligation morale d’incorporer l’équipe SYSTRAN dans le CdT. La Commission précisait que le personnel était mis à disposition par des firmes privées depuis vingt ans, sous contrats temporaires renouvelés, et que le recrutement d’agents relevait de la seule compétence du CdT.

En mars 1996, une société TELINGUA s.à r.l. a été constituée par Telindus, probablement dans le contexte du remaniement des contrats par les institutions européennes. En septembre 1997 cette société a été convertie en société anonyme Systran Luxembourg par les actionnaires Systran S.A. France (250 parts), Telindus (175 parts), Norbert von Kunitzki (50 parts) et Piere Musman (25 parts). Le contrat SYSTRAN avec la Commission Européenne a été cédé à Systran Luxembourg.

Au niveau international, le groupe Systran avait réussi à décrocher des contrats auprès de plusieurs clients prestigieux comme la NASA, Ford, Price Waterhouse Coopers, Xerox. En décembre 1997, Digital Equipment Corporation et Systran S.A. avaient lancé le premier service de traduction automatique sur le web, AltaVista Translation Service, au surnom de Babelfish. Les langues française, allemande, italienne, espagnole, portugaise et anglaise ont été supportés. Jusqu’en 2007 le service Google Translate était également basé sur le système SYSTRAN.

Au Luxembourg les sociétés Informalux S.A. et Telectronics s.à r.l. ont fusionné en 2001 la nouvelle entité a été dénommée TELECTRONICS S.A. Elle est restée active pendant presque vingt ans et a été absorbée par Proximus Luxembourg S.A. en 2020.

En 2004 Pierre Musman est sorti du Conseil d’Administration de Systran Luxembourg S.A. et Norbert Kunitzki est décédé en 2005 suite à une chute dans les montagnes. A partir de ce moment Systran Luxembourg a été administré uniquement par Denis Gachot et par Dimitrios Sabatakakis (PDG de Systran S.A France). Guillaume Naigeon de Systran S.A France assurait la fonction de commissaire aux comptes.

En 2013 la société coréenne SLCI a lancé avec succès une offre publique d’achat (OPA) pour acquérir Systran. Avec l’obtention de 85% des actions de Systran par SLCI, l’acquisition a été conclue à Seoul en mai 2014. Les administrateurs français ont quitté la société Systran Luxembourg S.A. et ont été remplacés par les administrateurs coréens Ji Changjin, Kim Dong Pil et Park Ki-Hyun.

Dimitrios Sabatakakis et Park Ki-Hyun à la conférence de presse à Seoul en 2014

Pendant une année Chang-Jin Ji et Guillaume Naigeon assuraient l’intérim de PDG. En juillet 2015, Jean Senelart, un ingénieur et informaticien linguistique de renom, a pris les rênes du groupe Systran. Il avait rejoint Systran en 1999, d’abord comme chef de projet, ensuite comme directeur des équipes R&D, avec lesquelles il avait lancé quatre générations de produits SYSTRAN. En 2008 il est devenu Chief Scientist et en 2014 Global CTO du groupe. Mais le jeu des chaises musicales n’était pas encore fini. En août 2020, la majorité des actions du groupe Systran a été achetée par un consortium d’investisseurs institutionnels coréens: STIC Investments, SoftBank Korea, Korea Investment Partners et Korea Investment Securities. La présidence et direction du groupe ont été confiées en mai 2022 à Vincent Godard. De formation ingénieur, il avait occupé le poste de Directeur Commercial de 2009 à 2013 auprès de Systran, ce qui facilitait sa prise de fonction. Jean Senelart continue de siéger au Conseil d’administration de Systran en tant que conseiller scientifique.

En 2022 Systran Luxembourg S.A. est administrée complètement par Systran S.A. France, le commissaire aux comptes est la société luxembourgeoise F.C.G. S.A. La filiale luxembourgeoise et la maison mère semblent se porter bien. Systran est toujours considéré comme pionnier et leader du marché de la traduction automatique, avec des technologies basées sur l’intelligence artificielle très innovantes.

page d’accueil sur le site web de Systran

Litige Systran – Commission Européenne

Une épisode dans l’histoire farfelue de Systran au Luxembourg s’est déroulée en dehors des activités techniques et commerciales et mérite d’être racontée. Comme les institutions européennes ne pouvaient pas conclure des contrats de longue durée avec des firmes privées pour la mise à disposition de personnel spécialisé en linguistique et en informatique, ces spécialistes ont été transférés tous les quelques années à une autre entreprise qui signait un nouveau contrat. Comme le groupe Systran faisait partie d’une façon ou d’une autre de ces différents contractants, il y avait toujours moyen de régler des problèmes éventuels au niveau des licences SYSTRAN.

Tout changeait lors d’un appel d’offre lancé en octobre 2003 par les institutions européennes sans la prise en compte des intérêts du groupe Systran. L’appel d’offres at été remporté par la société luxembourgeoise Gosselies S.A. qui n’avait aucune expertise en matière de linguistique informatique. La société anonyme Gosselies a été constituée en 1994 et liquidée en 2011. Dans un article du Lëtzebuerger Land du 23.12.2010, la journaliste Sophie Mosca estimait que le fait que le ministre luxembourgeois de l’Économie de l’époque, Henri Grethen, était actionnaire de Gosselies et que son épouse assurait la gestion, avait pesé dans ce choix. Ce contrat a incité la société Systran S.A. France et sa filiale luxembourgeoise à déposer de suite une plainte pour violation des droits d’auteur contre la Commission Européenne. Ce n’est qu’en janvier 2007 que le groupe Systran a réussi à introduire une action en réparation devant la Cour de Justice Européenne. Et il fallait attendre presque 3 ans jusqu’à la réception d’une réponse. Le 16 décembre 2010 le Tribunal de l’union européenne a condamné la Commission à verser au groupe Systran une indemnité forfaitaire de 12 001 000 euros. C’était une première. Le PDG de Systran Dimitrios Sabatakakis s’est félicité et tirait son chapeau à la justice européenne. Mais il s’était réjoui trop tôt. Deux mois plus tard la Commission Européenne a introduit un pourvoi dans ce litige. Et comme les rouages de la justice sont lents, ce n’est que le 18 avril 2013 que la Cours de Justice européenne a annulé son jugement antérieur et qu’elle a renvoyé l’affaire devant les tribunaux nationaux.

Il semble que dans la suite un arrangement à l’amiable a été négocié en 2017 entre les institutions européennes et le groupe Systran et qu’une somme de quelques millions euros a été versée à Systran comme dédommagement. Cette transaction était à l’origine d’un autre procès judiciaire, cette fois entre la société coréenne SLCI et les anciens actionnaires de Systran. Les conditions de l’OPA, finalisée en 2014, stipulaient que SLCI devait reverser aux vendeurs des actions une partie d’une éventuelle indemnisation par la Commission Européenne. Comme SLCI, respectivement ses héritiers, avaient manqué à cette obligation, l’affaire s’est terminée devant les tribunaux. Le complément de prix dû aux anciens actionnaires a été payé en mars 2020.

Cette épisode termine mon récit sur l’histoire de Systran durant un demi-siècle. Dans les prochains chapitres nous allons découvrir les autres projets de traduction automatique qui touchent le Luxembourg et qui ont également une histoire passionnante. Il reste à souligner que même en 2022 Systran continue à traduire bise en Kuss au lieu de Nordwind.

Traduction en temps réel sur la plateforme SYSTRAN Translate en 2022

EUROTRA

Lors de la mise en place de SYSTRAN en 1976, il n’y avait pas seulement de la résistance auprès du personne des services de traduction des institutions européennes, mais également beaucoup de critiques de la part de linguistes dans les universités en Europe qui reprochaient à la Commission Européenne d’acheter un produit américain au lieu de promouvoir le savoir-faire européen. Le directeur général de la DG XIII, Raymond Appleyard, et le directeur responsable pour la gestion de l’information à la DG XIII, Georges J. Anderla, étaient sensibles à ces arguments et proposaient le lancement d’un projet européen de traduction automatique, tout en continuant à supporter la solution pragmatique SYSTRAN. Le projet, appelé EUROTRA, n’a été approuvé qu’en 1982 par le Conseil Européen et par le Parlement Européen et il n’a démarré qu’en 1985. Malgré un investissement de 70 millions euros pendant 10 ans, le système n’est jamais devenu opérationnel. Bryan Oakley a expliqué les raisons de cet échec dans sa contribution To Do the Right Thing for the Wrong Reason; the EUROTRA Experience.

MT@EC

Le nombre de paires de langues supportées par SYSTRAN ne cessait de croître, mais le travail lexicographique sous-jacent rendait difficile l’extension de la couverture aux nouvelles langues résultant des élargissements successifs de l’Union européenne. En décembre 2010 le système SYSTRAN a été arrêté et remplacé en 2013 par MT@EC, un système de traduction automatique basé sur les statistiques et exploitant les énormes corpus bilingues et multilingues des institutions européennes tels qu’Euramis. S’appuyant sur le système à source ouverte Moses, développé à l’Université d’Edimbourg, MT@EC supportait en 2016 plus que 500 paires de langues, avec des degrés divers de fiabilité et de qualité. Mais la durée de vie du projet MT@EC était largement inférieure à celle de SYSTRAN, le système a été rapidement remplacé par eTranslation.

eTranslation

Comme la technologie de l’intelligence artificielle se développait à un rythme stupéfiant, la méthode de traduction automatique fut surpassée par une nouvelle méthode dès 2017. La traduction automatique neuronale était arrivée, rendue possible par les progrès en matière de puissance de calcul faisant sortir l’intelligence artificielle des laboratoires. Cette nouvelle technologie exigeait encore davantage de puissance de calcul, et plus spécifiquement, des processeurs graphiques. Testé depuis 2019, un nouveau service en ligne appelé eTranslation a été ouvert en mars 2020, non seulement pour les institutions européennes, mais également pour les entreprises européennes et pour des professionnels, et ceci à titre gratuit. Markus Foti est le responsable de ce projet.

J’ai testé le service eTranslate avec la traduction française-allemande de la phrase “La bise et le soleil …”. eTranslate propose 3 termes différents pour traduire la bise en fonction du contexte: der Kuss, die Knie et der Bise. Le modèle de traduction utilisé pour eTranslate ne semble donc pas encore être à la hauteur de ses compères Google, Facebook ou IBM. Une copie écran et le texte traduit complet sont affichés ci-après:

Traduction de la fable “La bise et le soleil …” par eTranslation

Der Kuss und die Sonne stritten, und jeder versicherte, er sei der Stärkste, als sie einen Reisenden sahen, der in seinem Mantel vorrückte. Sie waren sich einig, dass derjenige, der es als Erster schafft, dem Reisenden seinen Mantel ausziehen zu lassen, als der Stärkste angesehen wird. So begann der Kuss mit seiner ganzen Kraft zu blasen, aber je mehr sie wehte, desto mehr würde der Reisende seinen Mantel um ihn spannen, und am Ende verzichtete die Knie darauf, ihn zu entfernen. Dann fing die Sonne an zu leuchten und nach einer Weile zog der Reisende, der erwärmte, seinen Mantel aus. So musste der Bise erkennen, dass die Sonne die stärkste von beiden war.

Si vous souhaitez traduire des textes étrangers en luxembourgeois, c’est en vain. La langue luxembourgeosie n’est pas encore supporté. Il faut s’adresser à Google Translate.

Google Translate

Le service de traduction en ligne Google Translate a été lancé en avril 2006. Il était d’abord basé sur la technologie SYSTRAN. En octobre 2007 Google a remplacé SYSTRAN par sa propre technologie de traduction automatique statistique, supportant 25 languages. En janvier 2010 Google a introduit une version mobile pour Android, une année plus tard une application pour iOS.

Une application de réalité virtuelle pour traduire des mots ou textes, photographiés avec un smartphone ou une tablette, appelée Word Lense, a été intégrée dans Google Translate suite à l’acquisition par Google en mai 2014 de la startup américaine Quest Visual qui avait développé ce système.

En février 2016 Google avait ajouté 13 langues additionnelles à son service Google Translate, dont le luxembourgeois, pour supporter alors un total de 103 langues. Au début ce n’était pas parfait, par exemple Lëtzebuerg ass mei Land a été traduit en Irland ist mein Land.

En novembre 2016 Google a introduit la version neuronale Google Neural Machine Translation (GNMT) de son service de traduction automatique pour 40 langues. GNMT fait partie  du projet Google Brain, lancé en 2011 par Jeff Dean et Greg Corrado des laboratoires de recherche Google X et par Andrew Yan-Tak Ng de l’université de Stanford. En août 2017 le nouveau système a été étendu aux autres langues et le support du luxembourgeois a été bien amélioré.

La traduction de la fable “La bise et le soleil avec Google Translate” est sans fautes

Le service Google Translate est gratuit pour des traductions en ligne de textes courts, mais c’est un service payant qui fait partie des produits Google Cloud pour des traductions de taille.

Prix du service Google Translate Basic

Quelques développeurs indépendants de Google publient sur la plateforme Github des logiciels permettant la traduction gratuite de documents volumineux, en contournant les barrières et restrictions intégrées dans les interfaces publics de Google Translate. Deux exemples sont les projets google-translate-php et google-trans-new.

Mon conseil est de ne pas recourir à de telles solutions qui ne sont pas fiables, illégales et qui portent le risque de voir son adresse IP bloquée par Google pour tous ses services proposés, y inclus la recherche sur le web. Il vaut mieux de passer son temps à explorer des services de traduction amusants comme Fabricius, le service en ligne de Google pour déchiffrer des hiéroglyphes. Cette application fait partie de l’espace dédié à l’Égypte ancienne au sein de sa section Google Arts & Culture, dévoilé le 15 juillet 2020 pour célébrer l’anniversaire de la découverte de la Pierre de Rosette.

Yandex Translate

Les internautes en Russie et dans différents autres pays de l’Est préfèrent utiliser Yandex Translate au lieu de Google Translate. Le service est intégré dans le moteur de recherche de même nom créé en 1997 par Arkadi Voloj. Yandex est une socitété russe dont la maison mère est basée à Amsterdam. Yandex Translate utilise un système statistique de traduction automatique par auto-apprentissage. Ce qui surprend c’est que le service supporte la langue luxembourgeoise. Les résultats de la traduction anglais-luxembourgeois de la fable d’Esope, affichés ci-après, montrent que la qualité de la traduction n’est pas très élevée.

Dans les prochains chapitres nous allons découvrir les projets de traduction automatique à source ouverte de Systran (OpenNMT), de Microsoft (MarianNMT, de Facebook (NLLB), d’Amazon (Sockeye) et de Google (T5, mt5) .

OpenNMT

OpenNMT est le projet de traduction automatique à source ouverte le plus ancien. Yoon Kim, membre du groupe NLP de l’université de Harvard, a lancé en juin 2016 le projet seq2seq-attn sur Github qui est à l’origine du projet. Yoon Kim est aujourd’hui maître assistant au MIT. En collaboration avec Systran, un premier modèle OpenNMT a été publié en décembre 2016. L’auteur principal était Guillaume Klein de Systran. Une première version OpenNMT pour PyTorch a été publiée en mars 2017 (OpenNMT-py), en collaboration avec Facebook Research. Une version pour TensorFlow suivait en juin 2017 (OpenNMT-tf). Le projet OpenNMT est actuellement maintenu par Systran et Ubiqus. L’ancien PDG de Systran, Jean Senellart, est un des administrateurs du forum OpenNMT.

Des modèles de traduction pré-entraînés pour OpenNMT sont rares. Sur le site web OpenNMT on trouve seulement deux modèles : un modèle Transformer anglais-allemand et un modèle BiLSTM allemand-anglais. Le premier est disponible sur la plateforme huggingface.co comme espace de démonstration. J’ai essayé de l’évaluer, mais sans succès. Il semble que le fichier de configuration manque, ce qui peut expliquer la traduction farfelue.

Traduction farfelue anglais-allemand avec OpenNMT sur Huggingface

MarianNMT

MarianNMT est un outil neuronal de traduction automatique entièrement programmé en C++. Pour cette raison il est deux fois plus rapide que OpenNMT si on effectue des tests dans les mêmes conditions. Le projet a été développé à l’Université d’Edimbourg et à l’Université Adam Mickiewicz à Poznań en Pologne, en collaboration avec Microsoft, à partir de 2017.

Le chef de projet était Marcin Junczys-Dowmunt, actuellement scientifique NLP principal auprès de Microsoft. Il est né à Bydgoszcz en Pologne, la ville natale de Marian Rejewski, un mathématicien et cryptologue polonais renommé. En hommage à ce scientifique, Marcin Junczys-Dowmunt a utilisé son prénom comme nom de travail du projet et le nom n’a jamais été changé. La technologie Marian est utilisée par Microsoft pour son service de traduction commercial Microsoft-Translator sur la plateforme Azure. A l’exemple de Google, une version légère est intégrée sans le moteur de recherche Bing de Microsoft pour traduire gratuitement des textes courts. Mais la langue luxembourgeoise n’est pas supportée par Microsoft.

prix de Microsoft pour la traduction sur la plateforme Azure

Une multitude de modèles de traduction pour différentes paires de langues a été publiée par l’Université d’Helsinki sous l’initiative de Jörg Tiedemann, professeur des technologies de language au département des humanités numériques (HELDIG). Ces modèles neuronaux sont connus sous les noms de Helsinki-NLP/opus-mt-xx-yy (xx = langue source, yy = langue cible). Ils ont été entraînés avec les données du corpus public ouvert OPUS, respectivement avec les données de la collection Tatoeba. Sur Huggingface 1.466 modèles sont disponibles, parmi eux le modèle opus-mt-fr-de qui est à l’origine du titre de la présente publication.

Présentation des modèles Helsinki-NLP/opus-mt-xx-yy sur Huggingface

Dans la liste des modèles MarianMT entraînés moyennant le corpus Tatoeba luxembourgeois on trouve un modéle anglais-luxembourgeois et un modèle luxembourgeois-anglais. Après conversion en format PyTorch, j’ai téléchargé les fichiers afférents comme bases de données et comme modèles sur la plateforme Huggingface. J’ai programmé en outre une application pour un espace de démonstration. Hélas le corpus Tatoeba luxembourgeois n’a ni la taille ni la qualité pour obtenir des résultats de traduction valables. Dans l’attente de la découverte d’une base de données plus appropriée pour pouvoir entraîner un meilleur modèle de traduction anglais-luxembourgeois, et éventuellement des modèles luxembourgeois avec d’autres langues comme source ou cible, je laisse la présente version en place sur Huggingface comme preuve de concept.

NLLB (No Language Left Behind)

Précédé par son modèle pytorch/translate, Facebook Research a présenté en 2019 son outil de modélisation de séquences fairseq en source ouverte qui permet, entre autres, de faire de la traduction automatique. A l’instar de OpenNMT et de MarianNMT, des modèles de traduction automatique pré-entraînés pour quelques couples de langues ont été mis à la disposition des chercheurs.

En octobre 2021 Facebook Inc., la maison mère des services Facebook, Instagram, WhatsApp et Messenger, a changé son nom en Meta Platforms Inc. et Facebook AI est devenu Meta AI. Récemment, le 6 juillet 2022, Meta AI a annoncé la mise au point du premier modèle d’intelligence artificielle unique qui permet la traduction en 200 langues différentes avec une qualité de pointe. Ce modèle, appelé NLLB-200, fait partie de l’initiative No Language Left Behind de Meta. Une publication détaillée de 190 pages sur le projet est disponible sur arXiv.

Le modèle NLLB-200 est disponible en plusieurs versions, avec des tailles allant de 4,4 GB (600 millionsde paramètres) jusqu’à 404 GB (54,5 milliards de paramètres. Pour tester NLLB, on a plusieurs possibilités :

  • moyennant un notebook sur Google Colab
  • moyennant l’espace NLLB Translatior sur Huggingface, développé par Narrativa
  • moyennant l’API de Narrativa
  • moyennant la librairie Transfomers de Huggingface
  • à partir du code source NLLB sur Github
Traduction en temps réel luxembourgeois – anglais avec NLLB sur Huggingface

Le code Python pour traduire un texte anglais en luxembourgeois avec la librairie Transformers de Huggingface est montré ci-après comme exemple:

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("facebook/nllb-200-distilled-600M", use_auth_token=False, src_lang="eng_Latn")
model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-distilled-600M", use_auth_token=False)

article = "The North Wind and the Sun were disputing which was the stronger, when a traveler came along wrapped in a warm cloak."
inputs = tokenizer(article, return_tensors="pt")

translated_tokens = model.generate(**inputs, forced_bos_token_id=tokenizer.lang_code_to_id["ltz_Latn"], max_length=100)
tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
Exécution du code Python pour la traduction anglais – luxembourgeois. Cliquez pour agrandir l’image.

Amazon Translate et Sockeye

Le service de traduction automatique commercial de Amazon repose également sur un projet à source ouverte, appelé Sockeye, disponible sur Github. Les origines du projet remontent à 2017; plus que 70 versions ont été publiées depuis, la version la plus récente ( 3.1.14.) date du 5 mai 2022. Si on passe le test de La bise et le soleil se disputaient … au traducteur Amazon Translate, on s’étonne que la traduction allemande Der Nordwind und die Sonne stritten sich … est correcte. Mais à la deuxième vue on découvre que dans les autres phrases la bise devient der Kuss comme dans la majorité des autres systèmes de traduction.

Traduction en temps réel français – allemand avec Amazon Translate

En été 2022 la langue luxembourgeoise n’était pas encore supportée par Amazon Translate.

Google T5 et mt5

Les premiers modèles neuronaux entraînés pour la traduction automatique étaient basés sur une architecture de réseau de neurones récurrents. Tout a changé en juin 2017 lorsque Google a présenté une nouvelle architecture de réseau neuronal, appelée Transformeur, dans sa publication Attention is All You Need. D’un jour à l’autre les transformeurs, qui sont conçus pour gérer des données séquentielles telles que le langage naturel, sont devenus le modèle de choix pour la traduction automatique. Cela a conduit au développement de systèmes pré-entraînés tels que BERT (Bidirectional Encoder Representations from Transformers) par Google et GPT-1 (Generative Pre-Training Transformer) par OpenAI en 2018.

Fin 2019 Google a introduit son transformeur T5, pré-entraîné avec un vaste ensemble de données C4 (Colossal Clean Crawled Corpus), publié ensemble avec le modèle. Le modèle T5 supporte 4 langues (anglais, allemand, français et roumain) et existe en cinq versions:

  • T5-Small (60 millions de paramètres)
  • T5-Base (220 millions de paramètres)
  • T5-Large (770 millions de paramètres)
  • T5-3B (3 milliards de paramètres)
  • T5-11B (11 milliards de paramètres)

Même si l’application principale du modèle T5 n’est pas la traduction, celle-ci fonctionne entre les quatre langues supportées. Une démonstration de traduction de textes anglais en allemand ou en français est accessible sur Huggingface.

Traduction en temps réel anglais-allemand et anglais-français avec le modèle T5 sur Huggingface

Un modèle multilingue mt5 supportant 101 langues, dont le luxembourgeois, a été présenté par Goggle une année après le modèle T5, en octobre 2020. Comme le modèle mt5 nécessite un réglage fin (finetuning) avant de pouvoir servir pour des applications de traitement du langage, comme la traduction automatique, Shivanand Roy a développé l’outil simpleT5 qui facilite l’entraînement du modèle pour une langue, ou pour un couple de langues déterminées. Un autre chercheur, Thilina Rajapakse, a développé un outil similaire appelé simpletransformers. L’auteur a mis en place un site web dédié pour SimpleTransformers et a publié la contribution How to Train an mT5 Model for Translation With Simple Transformers qui explique comment entraîner le modèle mt5 pour la traduction automatique du paire des langues anglais – cingalais.

Comme le réglage fin des modèles T5 et mt5 nécessitent des puissance de calcul et des tailles de mémoire très élevées, typiquement une TPU (Tensor Processing Unit) comme accélérateur sur Google Colab, je me suis limité à l’entraînement du modéle mt5-small qui a une taille de 1,2 GB. J’ai utilisé le corpus Tatoeba anglais-luxembourgeois pour la formation avecl le script Python affiché ci-après:

import logging
import pandas as pd
from simpletransformers.t5 import T5Model, T5Args

import torch.multiprocessing
torch.multiprocessing.set_sharing_strategy('file_system')

logging.basicConfig(level=logging.INFO)
transformers_logger = logging.getLogger("transformers")
transformers_logger.setLevel(logging.WARNING)

train_df = pd.read_csv("dataset/train.tsv", sep="\t").astype(str)
eval_df = pd.read_csv("dataset/eval.tsv", sep="\t").astype(str)

train_df["prefix"] = ""
eval_df["prefix"] = ""

model_args = T5Args()
model_args.max_seq_length = 72
model_args.train_batch_size = 10
model_args.eval_batch_size = 10
model_args.num_train_epochs = 5
model_args.evaluate_during_training = True
model_args.evaluate_during_training_steps = 30000
model_args.use_multiprocessing = False
model_args.fp16 = False
model_args.save_steps = -1
model_args.save_eval_checkpoints = False
model_args.no_cache = True
model_args.reprocess_input_data = True
model_args.overwrite_output_dir = True
model_args.preprocess_inputs = False
model_args.num_return_sequences = 1
model_args.wandb_project = "MT5 Luxembourgish-English Translation"

model = T5Model("mt5", "google/mt5-small", args=model_args)

# Train the model
model.train_model(train_df, eval_data=eval_df)

Le graphique enregistré sur la plateforme Weights & Biases qui suit montre l’évolution des scalaires pendant l’entraînement dont l’objectif principal est de minimiser les pertes.

On constate que le coefficient de perte train est au début en baisse pour ensuite inverser sa pente, tandis que le coefficient de perte eval augmente continuellement, ce qui signifie qu’il y a un overfitting du modèle du fait que la taille du fichier d’entraînement est trop petit. Cela se confirme si on examine les résultats de la traduction dans mon espace de démonstration sur Huggingface. J’ai programmé une application commune pour comparer les résultats de la traduction anglais-luxembourgeois et vice-versa avec les trois modèles NLLB, MarianNMT et T5/mt5.

En entrant les mêmes textes dans l’application Goggle Translate, on se rend compte de la performance supérieure de ce modèle dont le code est fermé et propriétaire.

Métriques

Dans les chapitres précédents nous avons procédé à une évaluation subjective de la qualité de traduction des différents modèles basés sur l’intelligence artificielle. Il existe toutefois de nombreuses métriques pour procéder à une évaluation objective. Quelques exemples sont relevés ci-après :

  • BLEU (Bilingual Evaluation Understudy)
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
  • METEOR (Metric for Evaluation of Translation with Explicit Ordering)
  • NIST (National Institute of Standards and Technology)
  • LEPOR ((Length Penalty, Precision, n-gram Position difference Penalty and Recall)
  • chrf++ (Character n-gram F-score)

Pour exprimer la qualité d’une traduction automatique, on mesure la différence entre la traduction machine et une, ou plusieurs, traductions de référence créées par l’humain pour une même phrase source. Il faut donc disposer d’un corpus de phrases pour la langue source et pour la langue cible. Facebook a publié récemment sur Github un corpus public de référence appelé Flores-200. Il se compose d’un fichier csv pour chacune des 200 langues supportées par le modèle NLLB. Chaque fichier inclut 998 phrases présentées dans le même ordre, ce qui permet d’automatiser aisément l’évaluation d’un nouveau modèle de traduction machine pour un couple de langues déterminées. Les trois premières phrases en anglais et en luxembourgeois du corpus Flores-200 sont affichées ci-après à titre d’exemple.

On Monday, scientists from the Stanford University School of Medicine announced the invention of a new diagnostic tool that can sort cells by type: a tiny printable chip that can be manufactured using standard inkjet printers for possibly about one U.S. cent each.
Lead researchers say this may bring early detection of cancer, tuberculosis, HIV and malaria to patients in low-income countries, where the survival rates for illnesses such as breast cancer can be half those of richer countries.
The JAS 39C Gripen crashed onto a runway at around 9:30 am local time (0230 UTC) and exploded, closing the airport to commercial flights.
……………..
E Méindeg hu Wëssenschaftler vun der Stanford University School of Medicine d’Erfindung vun engem neien Diagnosgeschier ugekënnegt, dat Zellen no Typ sortéiere kann: e klengen dréckbaren Chip, dee mat Hëllef vun engem Standardtëntestraldrécker fir méiglecherweis ongeféier een US-Cent d’Stéck hiergestallt ka ginn.
Féierend Fuerscher soen, datt dëst d’Fréierkennung vu Kriibs, Tuberkulos, HIV a Malaria bei Patienten a Länner mat nidderegem Akommes brénge kéint, wou d’Iwwerliewenstauxe bei Krankheeten ewéi Broschtkriibs hallef esou héich kënne sinn ewéi a méi räiche Länner.
D’JAS 39C Gripen ass géint 9.30 Auer Lokalzäit (0230 UTC) op eng Rullbunn gestierzt an explodéiert, wouduerch de Flughafe fir kommerziell Flich gespaart gouf.
……………..
Trois premières phrases du corpus Flores-200 anglais et luxembourgeois

Après la comparaison des résultats, un score est attribué pour chaque phrase traduite. Puis une moyenne est calculée sur l’ensemble du corpus afin d’estimer la qualité globale du texte traduit. Parmi la multitude des métriques d’évaluation MT, BLEU constitue la métrique la plus populaire et la moins coûteuse. Elle a été développée en 2002 par Kishore Papineni pour IBM. La formule mathématique pour générer les scores se base sur des unigrammes, bigrammes, trigrammes et quadrigammes (n-grammes), mais je vais vous épargner les explications afférentes qui dépassent le cadre de la présente description. Je me limite à présenter quelques résultats représentatifs extraits des métriques pour la traduction automatique des 200 x 200 couples de langues supportés par les modèles NLLB. Les scores afférents sont exprimés avec la métrique chrf++ qui fournit des évaluations plus pertinentes que la métrique BLEU.

Direction TraductionMétrique chrf++
en -> de62,8
en -> fr69,7
en -> lb56
de -> en67,5
de -> fr61,4
de -> lb52
fr -> en68,4
fr -> de56,3
fr -> lb49,6
lb -> en69,6
lb -> de60,1
lb -> fr62,4
lb -> zho12,9
lb -> ja24,6
Métriques mesurées avec corpus Flores pour modèle de traduction automatqiue NLLB

La meilleure qualité a été calculée pour la traduction luxembourgeois – anglais (chrf++ = 69,6), la plus basse pour la traduction luxembourgeois – chinois (chrf++ = 12,9).

Conclusions

J’utilise la traduction automatique depuis plus de 10 ans dans le cadre de mes projets de recherche dans le domaine de l’intelligence artificielle pour lire des informations publiées sur le web dans des langues exotiques, comme le coréen, le chinois, le russe etc. Même si la qualité de la traduction n’est pas parfaite, elle est suffisante pour comprendre l’essentiel du contenu. J’apprécie la traduction de documents étrangers en luxembourgeois sur Google Translate lors de la rédaction d’articles techniques en luxembourgeois que je partage, de temps en temps, sur les réseaux sociaux. Le support de la langue luxembourgeoise dans les modèles de traduction machine à source ouverte récents, en combinaison avec la mise à disposition d’outils de programmation libres sur les plate-formes Github et Huggingface, facilitera le fin réglage des modèles de traduction luxembourgeois pour des domaines spécifiques, par exemple pour la biologie, la médecine, les finances etc. Si on passe en revue l’histoire de la traduction automatique, on constate une évolution exponentielle. Il y a eu plus d’innovations et de changements au courant des deux dernières années que pendant la période de 50 ans (de 1970 à 2019) précédente.

Bibliographie

Livres

Magazines

Couverture de l’édition 100 du magazine MultiLingual, décembre 2008

Articles sur le web

Mäi Computer versicht Lëtzebuergesch ze verstoen

Dernière mise à jour : 1er août 2022

Introduction

Dans l’attente de l’élimination de quelques bogues dans les modèles de synthèse vocale (TTS) par la communauté Coqui.ai, aux fins de progresser avec mon projet de création d’une voix TTS luxembourgeoise, je me suis focalisé les dernières semaines sur la reconnaissance automatique de la parole luxembourgeoise (STT: Text to Speech ou ASR: Automatic Speech Recognition).

Mes premiers essais effectués dans ce domaine en janvier 2022 étaient encourageants. Impressionné par la présentation du premier modèle STT luxembourgeois par le Pr Peter Gilles de l’université du Luxembourg sur la plateforme d’intelligence artificielle HuggingFace en février 2022, j’ai poursuivi mes tests avec le projet Coqui-STT (version 1.3.0).

Bases de données LB-2880 et LB-27072

Pour entraîner un modèle STT avec des réseaux neuronaux, il faut disposer d’une base de données audio avec les transcriptions de la parole enregistrée. Au début 2022 j’avais finalisé une base de données avec les enregistrements de quatre oratrices (au total 1005 échantillons) pour l’entraînement d’un modèle TTS luxembourgeois avec quatre voix. Entretemps j’ai complété cette base avec des enregistrements publics de trois orateurs (1.676 échantillons) et je l’ai étoffé avec les enregistrements audio du dictionnaire luxembourgeois LOD (24.678 échantillons).

Ainsi j’ai pu constituer deux ensembles de données avec 2.880, respectivement 27.072, échantillons qui se prêtent pour l’entraînement de modèles TTS et STT. Je vais prochainement publier ces bases de données LB-2880 et LB-27072 sur mon compte Github.

Les deux ensembles sont segmentés en trois volets. Le plus large (train.csv) est utilisé pour l’entraînement du modèle, le deuxième (val.csv) sert à mesurer le progrès de l’entraînement après chaque cycle d’itérations (époque) et le troisième (test.csv) permet de tester la performance du modèle à la fin de l’entraînement. Les détails sont indiqués dans le tableau qui suit:

Base de donnéesLB-2880LB-27072
Durée totaleca 7 heuresca 13 heures
échantillons train256025600
échantillons val1921344
échantillons test128128

Transfert d’apprentissage

Convaincu que le seul moyen pour réussir l’entraînement d’un modèle STT luxembourgeois consiste à se baser sur un large modèle pré-entraîné dans une autre langue, je me suis tout de suite concentré sur cette option de transfert d’apprentissage. Les résultats impressionnants que le Pr Peter Gilles a obtenu sur base du modèle wav2vec2-XLS-R-300m créé par Meta AI (Facebook) ont renforcé ma conviction.

Coqui.ai a mis un modèle pré-entraîné en langue anglaise à disposition de la communauté. Comme la langue luxembourgeoise utilise un alphabet plus large que l’Anglais avec les caractères accentués suivants

['à','á','â','ä','ç','è','é','ê','ë','î','ï','ô','ö','û','ü']

il faut supprimer la dernière couche de neurones du modèle pré-entraîné anglais pour pourvoir l’entraîner avec une base de données luxembourgeoise. Le hyper-paramètre de configuration ‘--drop_source_layers 1‘ permet de remplacer la dernière couche avec une nouvelle couche, initialisée avec l’alphabet luxembourgeois.

Hélas les premiers résultats ne répondaient pas du tout à mes attentes et les métriques affichées étaient plus mauvaises que celles obtenues lors de mes premiers tests, effectués à partir de zéro au début de l’année.

Modèles HuggingFace

Pour exclure que la qualité de ma base de données soit insuffisante, j’ai essayé de reproduire l’entraînement du premier modèle STT luxembourgeois sur HuggingFace avec mes propres données. Comme l’utilisation du modèle géant wav2vec2-XLS-R-300m, qui a servi de base pour le premier modèle, dépassait avec 300 millions de paramètres la capacité de traitement de mon ordinateur desktop, ainsi que celle de mon compte Pro sur la plateforme Google Colab, j’ai choisi un modèle pré-entraîné plus simple sur HuggingFace, à savoir le modèle Wav2Vec2-XLSR-53.

Avec un résultat WER de 0,17 j’ai réussi à obtenir des valeurs de même niveau que celles rapportées par le Pr Peter Gilles. Je vais prochainement publier mon modèle résultant sur mon compte HuggingFace.

Modèle Coqui-STT

On peut se demander quel est l’intérêt de s’acharner sur d’autres modèles STT que ceux offerts en source ouverte sur la plateforme formidable HuggingFace qui constitue aujourd’hui la référence en matière de l’apprentissage automatique profond et la plus grande communauté d’intelligence artificielle (AI) sur le web.

La réponse n’est pas simple. Une raison est certainement la taille des modèles STT entraînés. Si la taille est de quelques Giga Bytes dans le premier cas, elle est de quelques dizaines de Mega Bytes dans le cas du modèle Coqui-STT, ce qui permet de le porter sur un mobilophone (iOS et Android) ou sur un nano-ordinateur mono-carte comme le Raspberry Pi. Une deuxième raison est l’adaptation plus simple à son propre environnement. La configuration fine du modèle Coqui-STT simplifie son optimisation pour une utilisation spécifique. Personnellement je suis d’avis que la majeure raison constitue toutefois la transparence des processus. Les recettes HuggingFace sont une sorte de boîte noire d’usine à gaz qui fournit des résultats spectaculaires, mais dont le fonctionnement interne est difficile à comprendre, malgré l’ouverture du code. Pour apprendre le fonctionnement interne de réseaux de neurones un modèle comme Coqui-STT est plus approprié. J’ai donc continué à explorer l’apprentissage automatique profond du modèle Coqui-STT à partir de zéro, avec la certitude que ma base de données est de qualité.

Comme le fichier de configuration Coqui-STT comporte 96 hyper-paramètres, j’ai essayé de comprendre le rôle de chaque hyper-paramètre. J’ai vérifié également l’influence de quelques hyper-paramètres clés sur l’entraînement du modèle à l’aide d’une base de données restreinte de 100 échantillons. Les résultats significatifs sont commentés ci-après:

Similarité des entraînements

La taille d’un réseau de neurones est déterminée par le nombre de couches, le nombre de neurones par couche et le nombre de connexions entre neurones. Le total constitue le nombre de paramètres du modèle, à ne pas confondre avec les hyper-paramètres qui spécifient la configuration du modèle. Les paramètres du modèle sont initialisés au hasard au début de l’entraînement. Pour cette raison chaque processus d’entraînement produit des résultats différents. Le graphique qui suit montre en trois différentes vues que les différences sont négligeables.

Nombre de couches

Le nombre de couches par défaut du modèle Coqui-STT est de 2048. Ce nombre est trop élevé pour une petite base de données. La figure suivante montre en deux vues l’évolution de l’entraînement en fonction du nombre de couches.

Nombre de lots

Les échantillons de la base de données pour entraîner le modèle STT sont répertoriés dans un fichier csv dans le format suivant:

wav_filename,wav_filesize,transcript

wavs/guy/walresultat-04.wav,232854,awer och net op eng spektakulär manéier obwuel a prozenter ausgedréckt ass de minus dach méi staark wéi a sëtz ausgedréckt

wavs/sara/Braun_042.wav,113942,ech hunn am bësch eng heemeleg kaz fonnt

wavs/jemp/WD-2007-jemp-07.wav,197962,wou en dag fir dag e puer vun deene fäll klasséiert

wavs/judith/marylux_lb-wiki-0138.wav,132754,florange ass eng franséisch uertschaft a gemeng am departement moselle a loutrengen

........... 

Chaque ligne du fichier csv correspond à un échantillon et comporte le chemin et le nom d’un fichier audio, la taille de ce fichier et la transcription de l’enregistrement audio, en lettres minuscules et sans signes de ponctuation. Les échantillons sont regroupés par lots lors de l’entraînement. Une itération d’entraînement comprend le traitement d’un seul lot. Une époque comprend le total des itérations pour traiter tous les échantillons. Si la taille d’un lot est égal à un, le nombre des itérations est égal au nombre des échantillons. Dans le cas d’un lot de 10, le nombre des itérations est seulement un dixième du nombre des échantillons. Comme le temps de calcul d’une itération n’augmente presque pas avec l’accroissement de la taille d’un lot, le temps d’entraînement se réduit de la même manière. On a donc intérêt à spécifier une taille élevée des lots. Hélas, la taille des lots est fonction de la mémoire disponible du processeur graphique (GPU). Une taille trop élevée génère des erreurs “memory overflow” .

J’ai réalisé tous mes entraînements sur mon ordinateur desktop avec GPU NVIDIA RTX2070 avec des lots de 32, respectivement de 16 dans certains cas spécifiques.

Rapport entre entraînement et validation

Le graphique qui suit montre l’évolution de l’entraînement pour une base de données déterminée en fonction de la répartition des échantillons pour l’entraînement et pour la validation.

La segmentation de 93:7 que j’ai chois semble être appropriée.

Taux Dropout

Le mécanisme de “dropout” permet de réguler l’apprentissage d’un réseau de neurones et de réduire le “overfitting“. Il consiste à la suppression au hasard de connexions entre neurones pendant chaque itération à un taux spécifié dans la configuration. Le graphique suivant montre l’influence de ce taux sur l’entraînement. La valeur par défaut est de 0.05 et produit les meilleurs résultats.

Taux d’apprentissage

Le taux d’apprentissage (learning rate) est un hyper-paramètre important dans la configuration d’un modèle STT ou TTS. La valeur par défaut du modèle Coqui-STT est de 0.001. La figure qui suit montre l’influence de ce taux sur l’entraînement.

Une option de configuration intéressante proposée par le modèle Coqui-STT est la suite des hyperparamètres suivants:

--reduce_lr_on_plateau true
--plateau_epochs 3
--plateau_reduction 0.5

Elle permet de modifier le taux d’apprentissage si la performance de l’entraînement ne progresse plus pendant trois époques. On parle de plateau dans la métrique affichée. J’ai utilisé cette option dans tous mes entraînements.

Augmentation des données

En général les modèles d’apprentissage automatique en profondeur sont très gourmands en données. Que faire si on ne dispose pas d’un nombre important de données pour alimenter un modèle ? On augmente les données existantes en ajoutant des copies modifiées des échantillons ! Dans le cas du modèle Coqui-STT on créé par exemple des fichiers audio modifiés avec les mêmes transcriptions. En changeant le volume, le ton, la cadence ou le spectre des enregistrements, on peut créer des échantillons supplémentaires.

L’outil data_augmentation_for_asr de Frederic S. Oliveira permet de générer aisément des nouveaux fichiers .wav et .cvs à ajouter à la base de données existante. J’ai réalisé des tests afférents en désignant ce processus comme augmentation externe. Le modèle Coqui-STT inclut une telle option sans recourir à un outil externe et sans augmenter le temps d’entraînement. L’hyper-paramètre suivant, ajouté au script d’entraînement,

--augment "pitch[p=1.0,pitch=1~0.2]" "tempo[p=1.0,factor=1~0.5]"

permet par exemple de tripler le nombre des échantillons.

Suivant mes tests l’augmentation des donnés ne présente plus d’intérêt si le nombre des échantillons originaux dépasse quelques milliers.

Un type d’augmentation pour l’entraînement STT que je n’ai pas encore testé est la création d’échantillons synthétiques moyennant un modèle TTS luxembourgeois. C’est une piste que je vais encore explorer.

Résultats des entraînements avec les deux bases de données

LB-2880

La base de données LB-2880 comprend 2530 échantillons enregistrés par 4 oratrices et par 3 orateurs, ainsi que 350 mots du dictionnaire LOD. Le tableau qui suit relève les résultats pour des entraînements avec différents paramètres, pendant 30 époques chacun:

coucheslotaugmentationmeilleur modèle acoustiqueWERCERLOSS
102416sansbest_dev_17600.7050.22173,9
102416internebest_dev_27200,7170.22269,0
204816sansbest_dev-14400.7230.22478.5
204816externebest_dev-23950.7760.27178.4
204816internebest_dev-35200.7100.23170,8

LB-27072

La base de données LB-72072 est identique à la base LB-2880, mais avec l’addition de 24.192 échantillons (mots) du dictionnaire LOD. Les résultats sont affichés ci-après:

coucheslotaugmentationmeilleur modèle acoustiqueWERCERLOSS
102416sansbest_dev-256000.7290.25394.2
204816sansbest_dev-192000.7320.24797.2
204816internebest_dev-416000.8700.33892.8

Comparaison

Contrairement à mes attentes, l’inclusion de tous les mots du dictionnaire LOD ne produit pas un meilleur modèle STT, au contraire. Les métriques des modèles LB-27072 sont globalement moins performants que celles des modèles entraînés avec la base de données LB-2880. Je vais prochainement explorer si la base de données LB-27072 présente des avantages pour l’entraînement d’un modèle TTS.

Les performances des cinq modèles entraînés avec la base de données LB-2880 ne diffèrent pas sensiblement. Je me propose de retenir le modèle à 1024 couches et entraîné sans augmentation de données comme meilleur modèle acoustique.

Tensorflow Lite

Il est recommandé de convertir le meilleur modèle en format Tensorflow Lite (.tflite) pour pouvoir le déployer sur des systèmes à ressources restreintes comme des mobilophones. Le script pour exporter le modèle est le suivant:

python3 -m coqui_stt_training.train \
--checkpoint_dir /home/mbarnig/STT/losanaju-camaguje/lb-datasets/checkpoints-2880-1024/ \
--export_dir /home/mbarnig/STT/losanaju-camaguje/lb-datasets/exported-model \
--export_tflite true

Le modèle exporté a une taille de 12.2 MB. Je signale qu’il existe un standard ouvert pour les modèles AI, appelé ONNX (Open Neural Network Exchange), qui n’est pas encore supporté par Coqui-STT.

Modèle de langage

Un système de reconnaissance de la parole ne comporte pas seulement un modèle acoustique comme nous l’avons vu jusqu’à présent, mais également un modèle de langage qui permet de corriger et de parfaire les résultats du modèle acoustique. L’outil KenML représente actuellement l’état d’art dans la création d’un modèle de langage. HuggingFace et Coqui-STT supportent tous les deux cet outil, en combinaison avec le modèle acoustique.

Dans le cas du projet Coqui-STT, dont le code est exécuté dans un conteneur Docker, sans intégration de l’outil KenML, la réalisation du modèle de langage luxembourgeois demande quelques bricolages informatiques. J’ai toutefois réussi à créer un modèle de langage à l’aide de la base de données LB-27072. Ce modèle se présente comme suit et comprend un vocabulaire de 25.000 mots uniques.

kenlm-luxembourgish.scorer  2.2 MB
lm.binary  887,6 kB
vocab-25000.txt  271,5 kB

Comparaison des modèles HuggingFace et Coqui-STT

A la fin de cet exposé il convient de comparer les performances de mon meilleur modèle acoustique Coqui-STT, combiné avec mon modèle de langage KenML, avec celles du modèle pgilles/wavevec2-large-xls-r-LUXEMBOURGISH-with-LM.

A ces fins j’ai sélectionné au hasard cinq échantillons qui ne font pas partie des entraînements effectués sur les deux modèles:

  • wavs/Braun_066.wav,233912,hues de do nach wierder et koum en donnerwieder an et huet emol net gereent
  • wavs/alles_besser-31.wav,168348,déngschtleeschtungen a wueren ginn automatesch och ëm zwee komma fënnef prozent adaptéiert
  • wavs/lb-northwind-0002.wav,82756,an der zäit hunn sech den nordwand an d’sonn gestridden
  • wavs/mbarnig-gsm-75.wav,104952,a wou den deemolege president et war e finnlänner
  • wavs/dictate_dict9-18.wav,182188,dobäi muss de bierger imperativ op allen niveaue méi am mëttelpunkt stoen

Les résultats sont présentés dans le tableau qui suit:

transcription sourcereconnaissance HuggingFaceWERreconnaissance
Coqui-STT
WER
hues de do nach wierder et koum en donnerwieder an et huet emol net gereenthues de do nach wierder et koum en donnerwieder an etude monet gereent0.267hues de do nach wierder et koum en donnerwieder an et huet mol net gereent0.067
déngschtleeschtungen a wueren ginn automatesch och ëm zwee komma fënnef prozent adaptéiertdéng schlecht jungenawouren ginautomatech or zweker a déiert1.0angscht leescht engen a wueren ginn automatesch och am zwee komma fanne prozent adapter0.500
an der zäit hunn sech den nordwand an d’sonn gestriddenan der zäit hunn sech de nocturnen zon gestridden0.4an der zeitung sech e nach finanzen lescht rieden0.700
a wou den deemolege president et war e finnlännerwou den deemolege president war e finnlänner0.222a wou den deemolege president et war finn aner0.222
dobäi muss de bierger imperativ op allen niveaue méi am mëttelpunkt stoendobäi muss de bierger imperativ op alle nivo méi a mëttepunkt stoen0.333do bei muss de bierger imperativ op allen niveaue ma am et e punkt stoen0.500

 

Conclusions

Il semble que le modèle HuggingFace fait moins d’erreurs, mais je pense qu’il faut faire plus de tests pour évaluer correctement la performance des deux modèles. Les résultats me réconfortent de continuer l’exploration du modèle Coqui-STT avec un apprentissage à partir de zéro. Je me propose de suivre les pistes suivantes:

  • étendre ma base de données LB-2880 avec la création d’échantillons supplémentaires à partir d’enregistrements audio de RTL Radio pour parfaire mes modèles Coqui-STT et Coqui-TTS
  • porter le modèle Coqui-STT sur iPhone
  • examiner la possibilité d’extension de ma base de données STT moyennant des échantillons synthétiques créés à l’aide de modèles TTS luxembourgeois
  • explorer l’utilisation de l’augmentation des données et d’échantillons synthétiques sur mon modèle HuggingFace

Application interactive de démonstration

J’ai publié le 31 juillet 2022 une application interactive lb-de-en-fr-pt-COQUI-STT de mon modèle sur la plateforme d’intelligence artificielle Huggingface. Veuillez utiliser un navigateur Chrome pour explorer la démo.

Bibliographie

Mäi Computer schwätzt Lëtzebuergesch mat 4 Stëmmen

Mise à jour : 1er août 2022

Introduction

Suite à mes premières expériences avec l’apprentissage profond (deep machine learning) pour réaliser un système de synthèse vocale pour la langue luxembourgeoise, dont les résultats ont été publiés sur mon blog “Mäi Computer schwätzt Lëtzebuergesch“, j’ai constaté que le recours au seul corpus de données Marylux-648 ne permet pas d’entraîner un meilleur système que le modèle VITS, présenté le 6 janvier 2022. Il fallait donc étendre la base de données TTS (text-to-speech) luxembourgeoise pour améliorer les résultats.

Le ZLS (Zentrum fir d’Lëtzebuerger Sprooch) m’a offert sa collaboration pour enregistrer un texte d’envergure par deux orateurs, l’un féminin, l’autre masculin, dans son studio d’enregistrement. Comme un tel projet demande de grands efforts, j’ai proposé d’explorer d’abord tous les enregistrements audio, avec transcriptions, qui sont disponibles sur le web. Une telle approche est typique pour le Grand-Duché de Luxembourg : réaliser des grands exploits avec un minimum de moyens.

Une première source pour l’extension du corpus TTS constitue les dictées luxembourgeoises publiées sur le site web infolux de l’Institut de linguistique et de littératures luxembourgeoises de l’Université du Luxembourg, dirigé par Pr Peter Gilles. Avec l’accord aimable de tous les ayants droit, j’ai converti les fichiers audio et texte de ces dictées dans un format qui convient pour l’apprentissage profond, avec les mêmes procédures que celles décrites dans mon dépôt Github Marylux-648.

Pour faciliter l’apprentissage du corpus TTS luxembourgeois étendu, j’ai seulement retenu les dictées lues par des orateurs féminins. Heureusement c’est le cas pour la majorité des dictées. Les oratrices sont Caroline Doehmer, Nathalie Entringer et Sara Martin.

Les résultats sont les suivants:

  • 10 Übungsdictéeën : 179 échantillons, 2.522 mots, ca 26 minutes
  • 100 Sätz : 100 échantillons, 1.117 mots, ca 9 minutes
  • Walfer-Dictéeën : 78 échantillons, 1.177 mots, ca 9 minutes

Ensemble avec Marylux-648, la nouvelle base de données TTS comprend 1005 échantillons, avec quatre voix. J’appelle ce corpus “Luxembourgish-TTS-Corpus-4-1005”. Dans une première étape j’ai utilisé ces données pour entraîner le modèle COQUI-TTS-VITS-multispeaker à partir de zéro.

Entraînement TTS avec quatre voix à partir de zéro

Après 32.200 itérations, les métriques des performances du modèle, affichés régulièrement dans les logs lors de l’entraînement, n’ont plus progressé. Mais comme le best_model.pth.tar, sauvegardé à cette occasion, n’est pas nécessairement le plus performant pour la synthèse de textes luxembourgeois inconnus, j’ai continué l’entraînement jusqu’à 76.000 itérations. Le checkpoint le plus avancé est dénommé checkpoint_76000.pth.tar.

Lors de la synthèse vocale, il faut spécifier non seulement le texte à parler, le fichier de configuration, le fichier du modèle TTS et le nom du ficher audio à sauvegarder, mais également la voix à utiliser pour la synthèse. Comme dans mes expériences précédentes, j’ai utilisé la fable “De Nordwand an d’Sonn” comme texte à synthétiser. A titre d’information j’indique un exemple de commande entrée dans le terminal linux pour procéder à la synthèse.

tts --text "An der Zäit hunn sech den Nordwand an d’Sonn gestridden, wie vun hinnen zwee wuel méi staark wier, wéi e Wanderer, deen an ee waarme Mantel agepak war, iwwert de Wee koum. Si goufen sech eens, datt deejéinege fir dee Stäerkste gëlle sollt, deen de Wanderer forséiere géif, säi Mantel auszedoen. Den Nordwand huet mat aller Force geblosen, awer wat e méi geblosen huet, wat de Wanderer sech méi a säi Mantel agewéckelt huet. Um Enn huet den Nordwand säi Kampf opginn. Dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt, a schonn no kuerzer Zäit huet de Wanderer säi Mantel ausgedoen. Do huet den Nordwand missen zouginn, datt d’Sonn vun hinnen zwee dee Stäerkste wier." --use_cuda True --config_path /media/mbarnig/T7/lb-vits-multispeaker/vits_vctk-January-21-2022_07+56AM-c63bb481/config.json --model_path /media/mbarnig/T7/lb-vits-multispeaker/vits_vctk-January-21-2022_07+56AM-c63bb481/checkpoint_76000.pth.tar --out_path /media/mbarnig/T7/lb-vits/vits_vctk-January-21-2022_07+56AM-c63bb481/walfer_checkpoint_76000.wav --speakers_file_path /media/mbarnig/T7/lb-vits-multispeaker/vits_vctk-January-21-2022_07+56AM-c63bb481/speakers.json --speaker_idx "VCTK_walfer"

Je vais présenter ci-après les auditions pour les différents cas de figure :

Voix “Judith”

Voix “Judith” : best_model à 32200 itérations (648 échantillons pour l’entraînement)
Voix “Judith” : checkpoint à 76000 itérations (648 échantillons pour l’entraînement)

Voix “Caroline”

Voix “Caroline” : best_model à 32200 itérations (179 échantillons pour l’entraînement)
Voix “Caroline” : best_model à 76000 itérations (179 échantillons pour l’entraînement)

Voix “Sara”

Voix “Sara” : best_model à 32200 itérations : (100 échantillons pour l’entraÎnement)
Voix “Sara” : checkpoint à 76000 itérations : (100 échantillons pour l’entraÎnement)

Voix “Nathalie”

Voix “Nathalie” : best_model à 32200 itérations (78 échantillons pour l’entraînement)
Voix “Nathalie” : checkpoint à 76000 itérations (78 échantillons pour l’entraînement)

Même si les résultats sont impressionnants à la première écoute, il ne s’agit pas encore de l’état d’art en matière d’apprentissage profond pour la création d’un modèle de synthèse vocale.

Entraînement TTS avec quatre voix et apprentissage par transfert

Un des atouts des réseaux neuronaux qui sont à la base de l’apprentissage profond des machines est l’apprentissage par transfert (transfer learning). Wikipedia le décrit comme suit :

L’apprentissage par transfert est l’un des champs de recherche de l’apprentissage automatique qui vise à transférer des connaissances d’une ou plusieurs tâches sources vers une ou plusieurs tâches cibles. Il peut être vu comme la capacité d’un système à reconnaître et appliquer des connaissances et des compétences, apprises à partir de tâches antérieures, sur de nouvelles tâches ou domaines partageant des similitudes.

Dans le cas de la synthèse vocale, l’apprentissage par transfert consiste à utiliser un modèle TTS, entraîné avec une large base de données dans une langue à ressources riches, pour l’entraîner dans la suite avec une petite base de données dans une langue à faibles ressources, comme le Luxembourgeois.

La communauté COQUI-TTS partage un modèle TTS-VITS anglais, entraîné avec le corpus VCTK pendant un million d’itérations et avec un large jeu de phonèmes IPA, y compris ceux que j’ai retenu pour mes modules de phonémisation luxembourgeoise gruut et espeak-ng. La base de données de référence VCTK comprend environ 44.000 échantillons, prononcés par 46 orateurs et 63 oratrices.

J’ai téléchargé ce modèle tts_models–en–ljspeech–vits et j’ai continué son entraînement avec ma base de données “Luxembourgish-TTS-Corpus-4-1005”. Le best_model.pth.tar a été sauvegardé à 1.016.100 itérations. Après mon interruption de l’entraînement, le dernier checkpoint a été enregistré à 1.034.000 itérations. Je présente ci-après seulement les auditions des synthèses réalisées avec ce checkpoint.

Voix “Judith”

Voix “Judith” : : checkpoint à 1.034.000 itérations (648 échantillons pour l’entraînement)

Voix “Caroline”

Voix “Caroline” : checkpoint à 1.034.000 itérations (179 échantillons pour l’entraînement)

Voix “Sara”

Voix “Sara” : checkpoint à 1.034.000 itérations : (100 échantillons pour l’entraÎnement)

Voix “Nathalie”

Voix “Nathalie” : checkpoint à 1.034.000 itérations (78 échantillons pour l’entraînement)

Spécifications techniques

Contrairement à ma première contribution “Mäi Computer schwätzt Lëtzebuergesch“, je n’ai pas présenté des détails techniques dans le présent rapport pour faciliter la lecture. Je vais toutefois publier prochainement les graphiques, métriques et autres caractéristiques techniques en relation avec les entraînements sur mon dépôt Github Luxembourgish-TTS-Corpus-4-1005. Avis aux amateurs des technologies de l’intelligence artificielle.

Conclusions

Les résultats obtenus avec l’apprentissage par transfert donnent envie à parfaire le modèle de synthèse vocale luxembourgeois. Plusieurs pistes restent à creuser :

  • création d’une base de données TTS luxembourgeoise multi-voix plus large avec les contenus audio et texte disponible sur le site web de RTL-Radio. Un grand Merci aux responsables de RTL qui m’ont autorisé à utiliser les ressources afférentes pour constituer un tel corpus.
  • utilisation d’un modèle TTS pré-entraîné avec une large base de données allemande, au lieu du modèle TTS anglais, pour l’apprentissage par transfert
  • utilisation d’un modèle TTS pré-entraîné multi-voix et multilingue pour l’apprentissage par transfert
  • perfectionnement du modèle de phonémisation luxembourgeoise
  • réalisation de tests avec d’autres architectures de modèles TTS

En parallèle à mes expériences de création d’un système de synthèse vocale luxembourgeoise, j’ai démarré les premiers essais avec un système de reconnaissance de la langue luxembourgeoise (STT : speech to text) avec transcription automatique, en utilisant mes bases de données TTS luxembourgeoises, converties dans un format approprié. Les premiers résultats sont encourageants.

Application interactive de démonstration

J’ai publié le 12 juillet 2022 une application interactive étendue multilingue et multivoix lb-de-en-fr-pt-COQUI-STT de mon modèle sur la plateforme d’intelligence artificielle Huggingface.

Mäi Computer schwätzt Lëtzebuergesch

Mise à jour : 15 avril 2022

Introduction

En 1960, J.C.R. Licklider a publié son fameux article au sujet de la symbiose homme-machine qui préfigurait l’informatique interactive. Huit ans plus tard, en 1968, il publiait, ensemble avec Robert W. Taylor, la contribution visionnaire The Computer as a Communication Device. Le dessin humoristique qui suit, réalisé à l’époque pour cette publication par Rowland B. Wilson, montre l’ordinateur OLIVER qui annonce à un visiteur que son patron n’est pas au bureau.

Dessin réalisé en 1968 par Roland B. Wilson pour la publication
“The Computer as a Communication Device”

Toutefois il fallait attendre presque 40 ans avant que cette vision soit devenue une réalité. Aujourd’hui la reconnaissance de la parole humaine et la synthèse vocale sont des tâches quotidiennes effectuées par les ordinateurs. La parole devient de plus en plus importante pour la communication Homme-Machine.

Hélas la majorité des humains est encore écartée de la facilité de s’entretenir avec un ordinateur dans sa langue maternelle. Des interfaces vocales performantes sont disponibles depuis quelques années pour les langues les plus parlées : anglais, mandarin, hindi, espagnol, français, allemand, … Plus que la moitié de la population mondiale parle une des autres 7.000 langues qui existent sur la planète. Parmi ce groupe il y a de nombreuses langues à faibles ressources qui ne disposent pas de règles pour l’écriture ou pour la vocalisation.

Bien que le Luxembourgeois a obtenu en 1984 le statut de langue nationale, dispose d’une orthographie, grammaire et phonologie standardisées, d’un commissaire à la langue luxembourgeoise, d’un Conseil permanent de la langue luxembourgeoise, du Zenter fir d’Lëtzebuerger Sprooch, d’un Institut National des Langues, d’une chaire de luxembourgeois à l’Université du Luxembourg, d’un outil informatique Spellchecker et d’un outil de traduction Google, il n’est pas supporté par les interfaces vocales (Alexa, Siri, Cortona, … ) proposées par les géants du web (GAFAM’s) ou par d’autres fournisseurs de systèmes informatiques.

Marylux

Depuis l’antiquité les humains ont été fascinés par les technologies de synthèse vocale. J’ai raconté l’histoire de ces technologies dans mon livre Synthèse vocale mécanique, électrique, électronique et informatique. Un des systèmes TTS (Text-to-Speech) informatiques les plus universels et performants est MaryTTS de l’université de la Sarre, dont le développement remonte à l’année 2000. En 2015, la langue luxembourgeoise a été ajoutée à ce système sous le nom de Marylux. La base de données Marylux comporte un fichier audio enregistré en 2014 par Judith Manzoni sur base de phrases luxembourgeoises (63 minutes), françaises (47 minutes) et allemandes (22 minutes), avec les textes correspondants.

Pour donner une idée sur la qualité de la voix synthétique Marylux je vais présenter l’enregistrement original et la génération synthétique par MaryTTS de la fable d’Esope “Borée et le Soleil” en langue luxembourgeoise. Voici le texte de cette fable :


Den Nordwand an d’Sonn.

An der Zäit hunn sech den Nordwand an d’Sonn gestridden, wie vun hinnen zwee wuel méi staark wier, wéi e Wanderer, deen an ee waarme Mantel agepak war, iwwert de Wee koum. Si goufen sech eens, datt deejéinege fir dee Stäerkste gëlle sollt, deen de Wanderer forcéiere géif, säi Mantel auszedoen. Den Nordwand huet mat aller Force geblosen, awer wat e méi geblosen huet, wat de Wanderer sech méi a säi Mantel agewéckelt huet. Um Enn huet den Nordwand säi Kampf opginn. Dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt, a schonn no kuerzer Zäit huet de Wanderer säi Mantel ausgedoen. Do huet den Nordwand missen zouginn, datt d’Sonn vun hinnen zwee dee Stäerkste wier.

On peut écouter ci-après la parole enregistrée

Enregistrement original de la fable “Nordwand” par Judith Manzoni en 2014

et la parole synthétisée de ce texte avec MaryTTS :

Synthèse vocale de la fable “Nordwand” par le système MaryTTS en 2015
avec la base de données Marylux

Les figures suivantes montrent l’évolution du son dans le temps pour la première phrase de la fable, ainsi que les spectrogrammes correspondants :

Signal analogique : en haut : enregistrement (ground truth) ; en bas : synthèse vocale
Spectrogramme : en haut : enregistrement (ground truth) ; en bas : synthèse vocale

Synthèse vocale avec réseaux neuronaux

La technologie de synthèse Marylux reposait sur un modèle informatique utilisant une méthode de sélection d’unités. Cette technique est devenue obsolète aujourd’hui, suite à la progression fulgurante des technologies d’apprentissage approfondi des machines (deep machine learning) sur base de réseaux neuronaux.

Lors de la conférence Interspeech 2017 à Stockholm, Google a présenté un nouveau système de synthèse vocale appelé Tacotron qui repose sur la superposition de deux réseaux neuronaux. Les résultats étaient proches d’une prononciation par des humains. La publication académique afférente porte les noms de 14 auteurs.

Depuis cette date ce modèle a été perfectionné et de nouveaux modèles neuronaux TTS ont été développés : Tacotron2-DCA, Tacotron2-DDC, GlowTTS, Fast-Pitch, Fast-Speech, AlignTTS, Speedy-Speech, VITS, … En 2021 on a pu découvrir tous les quelques jours une nouvelle publication scientifique au sujet de TTS dans l’archive ouverte de prépublications électroniques ArXiv sur Internet.

Marylux-648

Pour entraìner un modèle TTS neuronal avec la base de données Marylux, enregistrée en 2014, j’ai ajusté les fichiers correspondants pour les adopter d’une façon optimale aux besoins de l’apprentissage automatique profond (deep machine learning). J’ai publié la nouvelle base de données publique sous le nom de Marylux-648-TTS-Corpus sur mon dépôt de développement Github. Il s’agit de 648 clips audio luxembourgeois, chacun ayant une durée inférieure à 10 secondes, et des transcriptions y associées. La durée totale est de 57 minutes et 31 secondes. Le lecteur intéressé est invité à consulter les détails sur Github.

Comme les modèles TTS neuronaux sont gourmands en données et entraînés en général avec des enregistrements audio d’une durée de plusieurs dizaines d’heures, j’ai exploré dans une première phase le potentiel et les contraintes de différents modèles TTS face à une base de données dont la durée totale n’atteint même pas une heure.

Avant de présenter les résultats de mes premiers tests, je vais décrire sommairement le cadre de mes expériences.

Modèles TTS neuronaux à source ouverte

Les modèles TTS neuronaux les plus courants peuvent être répartis en quatre grandes familles:

  • Tacotron
  • Glow
  • Forward-Feed
  • Vits

Pour les trois premières familles, la synthèse (inference) de la parole à partir d’un texte se fait en deux étapes. Le texte est d’abord converti en spectrogramme, puis transformé en signal audio avec un vocodeur (vocoder). Les vocodeurs les plus courants sont relevés ci-après:

  • Griffin-Lim
  • WaveNet
  • WaveRNN
  • WaveGrad
  • WaveGAN
  • HifiGAN
  • MelGAN
  • UnivNet

À l’exception du premier vocodeur (Griffin-Lim) qui est algorithmique, les autres vocodeurs sont également entraìnés avec des réseaux neuronaux sur base d’enregistrements audio, de préférence avec la même base de données que celle utilisée pour l’apprentissage du modèle TTS. Hélas les différents vocodeurs ne sont pas tous compatibles avec les différents modèles TTS.

La quatrième famille (VITS) dispose d’une architecture de bout-à-bout (end-to-end) avec vocodeur intégré.

A côté du type de modèle TTS et du type de vocodeur, on fait la distinction entre les caractéristiques suivantes:

  • support d’une seule langue avec une voix (mono-speaker)
  • support d’une seule langue avec plusieurs voix (multi-speaker)
  • support de plusieurs langues avec une voix (multilingual, mono-speaker)
  • support de plusieurs langues avec plusieurs voix (multilingual, multi-speaker)

En ce qui concerne le choix des modèles TTS et des vocodeurs pour mener mes tests, je me suis limité à l’utilisation de projets tiers à source-ouverte (open-source) et avec des licences libres de droits (MIT, CC, …). À côté de projets de développeurs individuels que je vais présenter dans la suite, je me suis notamment basé sur les développements réalisés par les communautés Coqui-TTS et Rhasspy.

Entraînement d’un modèle TTS avec une nouvelle base de données

L’entraînement d’un modèle TTS avec une nouvelle base de données peut se faire à partir de zéro (from scratch) ou à partir d’un modèle existant. Dans le deuxième cas on parle de transfert d’apprentissage (transfer learning) ou de fin réglage (fine tuning).

Les 648 échantillons de la base de données Marylux-648 sont d’abord mélangés (shuffling), puis répartis en 640 exemples pour l’entraînement proprement dit et en 8 exemples pour l’évaluation, effectuée après chaque cycle d’apprentissage. Les six phrases de la fable “De Nordwand an d’Sonn”, qui ne font pas partie du jeu d’apprentissage, sont utilisées pour les tests automatiques réalisés après chaque évaluation.

Pour l’entraînement des modèles j’utilise les infrastructures suivantes:

  • mon ordinateur personnel avec carte graphique NVIDIA RTX 2070, système d’exploitation Linux Ubuntu 20.4 et système de développement Python 3.8
  • mon compte Google-Colab pro dans les nuages, avec CUDA P100 et système de développement Python 3.7

Un cycle d’apprentissage complet est appelé une époque (epoch). Les itérations sont effectuées par lot (batch). La durée d’une itération est fonction de la taille du lot. On a donc intérêt à choisir une taille élevée pour un lot. La différence s’exprime par des durées d’apprentissage de plusieurs heures, jours, semaines ou voire des mois. Hélas la taille des lots est tributaire de la taille de mémoire disponible sur la carte graphique (CUDA).

En général je ne peux pas dépasser une taille de lot supérieure à 10 sur mon ordinateur personnel, sans provoquer une interruption de l’entraînement à cause d’un débordement de la mémoire (memory overflow). Sur Google-Colab je ne peux guère dépasser une valeur de 32.

Pour faciliter la comparaison des performances et qualités des différents modèles TTS, j’ai défini une limite de 1000 époques pour chaque entraînement. Sur mon ordinateur personnel une époque prend donc 64 itérations, sur Google-Colab le nombre se réduit à 20. Le temps d’exécution d’une époque est en moyenne de 95 secondes sur mon ordinateur personnel, ce qui fait environ 26 heures pour l’entraînement complet d’un modèle TTS avec Marylux-648 (64.000 itérations).

Avec un lot de 32, on s’attend à une réduction du temps d’entraînement d’un facteur 3,2, c.à.d. à environ 8 heures. Or à cause du partage des ressources entre plusieurs utilisateurs sur Google-Colab, le gain est plus faible. J’ai observé un temps de calcul moyen de 72 secondes par époque, ce qui donne une durée totale d’entraînement d’environ 20 heures pour 1000 époques (20.000 itérations).

Pour entraîner une base de données de référence comme LJSpeech, VCTK ou Thorsten Voice, qui ont chacune une durée d’enregistrement d’environ 24 heures, le temps de calcul se situe donc entre 3 et 4 semaines, dans les mêmes conditions. On peut réduire le temps d’apprentissage en augmentant la taille des lots à 64, voire à 128 échantillons. Une autre possibilité consiste à utiliser plusieurs cartes graphiques connectées en réseau. Le projet Coqui-TTS supporte une telle interconnexion CUDA. Des témoignages recueillis auprès de développeurs de modèles TTS neuronaux confirment que dans la pratique il faut compter une à deux semaines pour exécuter un entraînement avec une nouvelle base de données, ayant une durée d’enregistrements d’une dizaine d’heures, sur un ensemble ordinateur & CUDA performant.

Marylux-648 Tacotron2-DCA

Pour présenter les résultats obtenus avec l’entraînement de la base de données Marylux-648, il convient de commencer avec le doyen des modèles TTS neuronaux: Tacotron. L’apprentissage profond a été réalisé à partir de zéro. Avant d’entrer dans les détails, nous allons écouter la synthèse de la fable “De Nordwand an d’Sonn”.

Clip audio de la synthèse vocale de la fable “Nordwand” avec le modèle TTS Tacotron2-DCA

Le résultat n’est pas fameux !

La prochaine image montre la séquence temporelle des signaux audio. La figure confirme qu’il y a problème.

Signal audio temporel de la synthèse vocale de la fable “Nordwand” avec le modèle TTS Tacotron2-DCA

En utilisant un vocodeur entraìné au lieu du vocodeur algorithmique Griffin-Lim, on peut améliorer la qualité de la synthèse. La première phrase de la fable Nordwand sert d’échantillon de comparaison. La synthèse avec vocodeur Griffin-Lim est reprise ci-après, suivie par la synthèse avec un vocodeur Hifigan.

Clip audio d’une synthèse TTS avec modèle Tacotron2-DCA et vocodeur Griffin-Lim
Clip audio d’une synthèse TTS avec modèle Tacotron2-DCA et vocodeur Hifigan

Le signal temporel de ces deux clips audio est affiché dans l’image qui suit. Une différence notable entre les deux clips est bien visible, mais la qualité auditive n’est pas encore satisfaisante.

Signaux temporels des clips audio synthétisés avec vocodeur Griffin-Lim (en haut) et Hifigan (en bas)

Le modèle Coqui-TTS Tacotron2-DCA (Dynamic Convolution Attention) constitue une n-ième évolution du premier modèle TTS Tacotron avec une nouvelle architecture qui est cofigurée par un ensemble de plus de 150 hyper-paramètres, en format json. La liste complète de configuration peut être téléchargée sur mon site web, un extrait est présenté dans la figure qui suit.

Présentation de la configuration d’un modèle TTS en format JSON dans le navigateur Firefox

Une possibilité théorique d’améliorer la qualité de synthèse d’un modèle TTS est de mieux régler la configuration, suivant une procédure “essai-erreur (trial and error)” ou sur base d’analyses complexes supplémentaires de la base de données. Avec le grand nombre de paramètres de configuration et les durées d’entraînement dépassant une journée pour effectuer un nouveau essai avec la base de données Marylux-648, ce n’est guère praticable.

Une deuxième possibilité consiste à prolonger l’apprentissage en continuant l’entraînement pendant plusieurs époques supplémentaires. Mais comme dans notre cas le dernier fichier de contrôle (checkpoint) avec le nom “best_model.pth.tar” a été enregistré après xxx itérations (steps), cela ne fait pas de sens de dépasser mon seuil fixé à 1000 époques (64.000 itérations).

La seule solution valable consiste à étudier en détail la progression du livre de bord (logs), enregistré lors de l’entraînement. Le modèle TTS Tacotron2-DCA de coqui.ai, comme d’ailleurs tous les modèles TTS partagés par cette jeune start-up, utilisent le fameux kit de visualisation de TensorFlow, appelé TensorBoard. L’outil permet le suivi et la visualisation de métriques relatifs à l’apprentissage profond (deep machine learning), telles que la perte (loss) et la justesse. TensorBoard peut également afficher des histogrammes de pondérations et de biais, des images, des textes et des données audio, au fur et à mesure de leur évolution.

Les métriques générés lors de l’entraînement du modèle TTS Tacotron2-DCA permettent l’affichage, sous forme graphique, de la progression des résultats relatives aux évaluations (13 scalaires, 4 images, 1 fichier audio), aux époques, respectivement aux tests (16 scalaires, 12 images, 6 fichiers audio) et aux itérations, respectivement à l’entraînement (16 scalaires, 4 images, 1 fichier audio).

Les trois images qui suivent donnent un aperçu sur l’affichage de scalaires, d’images (spectrogrammes et attentions) et de fichiers audio du modèle TTS Tacotron2-DCA, à la fin de l’entraînement avec la base de données Marylux-648.

On peut également consulter les paramètres de configuration en vigueur pour l’entraînement dans le menu “Text”.

Google, le créateur des outils TensorFlow et TensorBoard, offre une plateforme gratuite de partage des résultats d’expériences d’apprentissage profond, sous le nom de TensorBoard.dev. Malheureusement cette plateforme ne permet pas encore le partage des spectrogrammes et des données audio. J’ai toutefois installé mon livre de bord relatif au modèle Tacotron2-DCA sur cette plateforme, ce qui permet à chacun d’analyser l’évolution des scalaires afférents en temps réel.

La prochaine image donne un aperçu sur cet outil TensorBoard.dev.

Sans vouloir entrer dans les détails, l’exploration du livre de bord montre que l’entraînement dun modèle TTS Tacotron2-DCA avec la base de données Marylux-648 est entré dans une phase de sur-apprentissage (overfitting), ce qui ne permet pas de synthétiser correctement des mots ou phrases non vus lors de l’apprentissage. Il faut se rendre à l’évidence que la taille de la base de données Marylux-648 est insuffisante pour entraîner un modèle TTS Tacotron2-DCA.

Il est vrai que Tacotron est connu pour être gourmand en données.

Je vais présenter les résultats obtenus avec d’autres modèles TTS lors de prochaines contributions sur mon présent site web. Mais pour ne pas laisser le lecteur intéressé sur sa faim jusque-là, je vais rapidement introduire le dernier né des familles TTS neuronaux. Il s’appelle VITS.

Marylux-648 VITS

VITS est l’abréviation pour Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. La prochaine figure montre les signaux temporels des six phrases de la fable “Nordwand”, synthétisées avec le modèle Coqui-TTS VITS. L’allure donne confiance, et l’audition qui suit confirme que la qualité de la synthèse dépasse largement celle du modèle Tacotron2-DCA.

Signaux temporels des six phrases de la fable “Nordwand”, synthétisées avec le modèle TTS VITS
Synthèse vocale des six phrases de la fable “Nordwand”, réalisée avec le modèle TTS VITS

Les deux figures qui suivent montrent un aperçu de l’évolution des métriques lors de l’entraînement de la base de données Marylux-648 avec le modèle TTS VITS. Les graphiques peuvent être visualisés en détail sur TensorBoard.dev.

Mot de la fin

L’apprentissage profond de machines est une technique passionnante. Le comportement des réseaux neuronaux à la base des architectures de systèmes de synthèse de la parole me rappellent parfois les réactions de mes cinq petits-enfants lorsqu’ils faisaient de nouvelles découvertes ou lors d’un nouvel apprentissage. J’ai également constaté que des anciennes techniques réapparaissent dans des nouveaux systèmes. Les spectrogrammes utilisés dans les modèles neuronaux TTS ont déjà été utilisés dans la machine Pattern Playback, développé par Franklin S. Cooper à la fin des années 1940.

Assemblage de photos de la machine Pattern Playback (Laboratoires Haskins)

Liens

Furby 2012 and Furby BOOM

Last update : May 25, 2021

Furbies were the first successful attempt to produce and sell domestically-aimed robots. They were launched in 1998. In April 2012, it was announced that Hasbro will be making a new line of Furbies, which was released in September 2012. The Furby 2012 was first launched in six colors, one month later four other colors were added. A second generation of six Furbies, with styleable tufts of hair on their heads, was relased in December 2012. Compared to the original Furby, the Furby 2012 has more expressive LCD eyes, a wider range of motions, its own iOS and Android app (to feed, care and control the Furby), and the ability to adapt its personality in reaction to user behavior.

Furby 2012

Furby 2012

The Furby 2012 has 6 personalities :

  • Angry Personality : Furby will act grumpy and irritable. Get this by overfeeding.
  • Diva Personality : Furby may turn into this personality if it listens to music for an extended period of time.
  • Valley Girl Personality : Furby resembles a stereotypical teenage girl. Get this by talking for a long time.
  • Cute Personality : Furby will act friendly and sing a lot. Get this by repeatedly petting it.
  • Crazy Personality : Comedic and funny personality. Furby will often laugh like crazy over almost anything. Get by shaking and pulling tail.
  • Default Personality : When you put the batteries in for the  first time. To get it back, hold it upside down, hold the tongue, then hold the tail for a few seconds. Instead of flashing eyes, furby will reboot.

In February 2013 the Furby Party Rockers were launched. They can sing and chat with Furby 2012 and with other Party Rockers, have a new voice and can be used with the app’s for IOS and Android. They only speak Furbish. There are 4 rockers in the 1st generation (Fussby, Loveby, Twittby, Scoffby) and 2 rockers in the 2nd generation (Wittby and Nerdby).

Furby Party Rockers : Fuusby, Twittby, Lovely, Scoffby, Wittby, Nerdby

Furby Party Rockers : Fussby, Twittby, Lovely, Scoffby, Wittby, Nerdby

In August 2013, the new Furby Boom was launched and became the No1 best seller this Christmas 2013. Furby Boom is packed with loads of new features and can be encouraged to lay eggs into your tablet, via the new iOS and Android app, which then grow to become a small virtual Furby (Furbling) that you can then feed, maintain and play games with, like the former Tamagotchis. By caring the Furbling you earn Furbucks to unlock other features and extras. Up to 50 eggs can be collected and will unlock a whole Furby Boom City.

Furby Boom : Blue Waves, Zigzag, Stripes, Polka Dots, Triangles, Peacock

Furby Boom : Blue Waves, Zigzag, Stripes, Polka Dots, Triangles, Peacock

The first species of Furbies (1998 – 2005) communicate with infrared ports. The Furbies 2012 and later use an audio protocol to communicate with other nearby Furbies and with the apps. Igor Afanasyev (iafan) from Moscow, Russia, analyzed and recreated this audio protocol to communicate with Furbies using a computer.

Links

  • https://chapelierfou.org/blog/a-usb-furby.html
  • https://github.com/paullouisageneau/usb_furby