Doublage polyglotte automatique de vidéos avec HeyGen Video Translate

Introduction

Depuis la publication de mon article Das Küsschen und die Sonne stritten sich … au sujet de l’histoire de la traduction automatique, cette technologie a progressé de manière impressionnante les derniers mois. Si Google Translate est devenu un outil de travail journalier pour de nombreux internautes, les facilités de traduction automatique dans Youtube pour générer des sous-titres dans les vidéos sont moins connues. Hélas, contrairement à Google Translate, la langue luxembourgeoise n’est pas encore supportée par Google Youtube.

Génération automatique de sous-titres dans les vidéos Youtube

Pour présenter l’outil de génération automatique de sous-titres, j’ai utilisé une animation-vidéo-fiction au sujet de l’inventeur de la photographie couleur que j’avais réalisé au début de 2021. L’image qui suit montre une copie écran de la fenêtre Youtube qui affiche le texte des sous-titres de la traduction automatique, ainsi que la synchronisation automatique avec la parole.

Page de traduction et de synchronisation automatique de Youtube pour générer des sous-titres vidéo

Les ponctuations et les majuscules ne sont pas encore gérées par l’outil de traduction automatique, mais il est facile de faire des modifications ou corrections manuelles en ligne. On peut également segmenter davantage les sous-titres et ajuster la synchronisation avec la parole, si nécessaire. La vidéo avec les sous-titres générés est présentée ci-après:

Doublage polyglotte automatique de vidéos avec HeyGen Video Translate

Deux ans après le lancement du générateur d’images DALL*E par OpenAI et une année après la présentation de ChatGPT par la même société, c’est une autre société qui vient de commercialiser une application qui est devenue virale ces derniers jours. Il s’agit de HeyGen qui a développé un logiciel d’intelligence artificielle permettant de doubler instantanément une vidéo en différentes langues, avec des résultats spectaculaires. L’outil s’appelle HeyGen Video Translate et permet de réaliser un doublage en treize langues, avec une synchronisation parfaite des lèvres et avec la génération d’une voix synthétique qui conserve l’intonation originale de l’orateur.

La start-up HeyGen, localisée à Los Angeles, qui s’appelait à l’origine Movio avant d’être rebaptisée en avril, a été fondée par Joshua Xu (CEO) et par Wayne Liang (CPO) en novembre 2020. Tous les deux ont été formés par l’université Carnegie Mellon à Pittsburgh. Au début, HeyGen se focalisait sur la création de son propre avatar pour réaliser des vidéos de présentation. Au-delà de la prouesse technique, c’est surtout la facilité du processus des produits Video Translate, Instant Avatar et Photo Avatar qui impressionne.

La vidéo suivante montre l’exemple d’une vidéo que j’ai enregistrée en anglais sur mon smartphone et qui a été traduite en portugais avec HeyGen Video Translate:

1. Vidéo anglaise, traduite en portugais avec HeyGen Video Translate, avec sous-titres luxembourgeois

À ce jour, HeyGen Video Translate supporte 13 langues : anglais, allemand, chinois, coréen, espagnol, français, hindi, italien, japonais, néerlandais, polonais, portugais et turc. J’ai essayé toutes les langues disponibles et téléchargé les vidéos traduites sur Youtube. Vous pouvez les visualiser ci-après (de préférence avec le navigateur Google Chrome). J’ai ajouté les sous-titres luxembourgeois manuellement. Pour certaines langues, j’ai eu des retours de la part de personnes qui les utilisent comme langues maternelles que la traduction est correcte.

2. Vidéo anglaise, traduite en italien avec HeyGen Video Translate, avec sous-titres luxembourgeois
3. Vidéo anglaise, traduite en espagnol avec HeyGen Video Translate, avec sous-titres luxembourgeois
4. Vidéo anglaise, traduite en turc avec HeyGen Video Translate, avec sous-titres luxembourgeois
5. Vidéo anglaise, traduite en néerlandais avec HeyGen Video Translate, avec sous-titres luxembourgeois
6. Vidéo anglaise, traduite en polonais avec HeyGen Video Translate, avec sous-titres luxembourgeois
7. Vidéo anglaise, traduite en japonais avec HeyGen Video Translate, avec sous-titres luxembourgeois
8. Vidéo anglaise, traduite en coréen avec HeyGen Video Translate, avec sous-titres luxembourgeois
9. Vidéo anglaise, traduite en chinois avec HeyGen Video Translate, avec sous-titres luxembourgeois
10. Vidéo anglaise, traduite en hindi avec HeyGen Video Translate, avec sous-titres luxembourgeois
11. Vidéo anglaise, traduite en français avec HeyGen Video Translate, avec sous-titres luxembourgeois
12. Vidéo anglaise, traduite en allemand avec HeyGen Video Translate, avec sous-titres luxembourgeois
13. Vidéo original en anglais, avec sous-titres luxembourgeois

Insertion automatique et manuelle de sous-titres

La figure suivante montre la génération, segmentation et synchronisation automatique de la vidéo traduite en langue japonaise dans l’application Studio de Youtube.

L’insertion manuelle de sous-titres luxembourgeois est présentée dans l’illustration suivante:

Bibliographie

Ech hunn haut mam Dante AI gechatt !

Dernière mise à jour : 10 juillet 2023

Aujourd’hui tout le monde connaît ChatGPT, mais seulement quelques initiés connaissent Dante AI. C’est dommage, car il s’agit d’un outil formidable qui permet de faire apprendre à une copie du modèle d’intelligence artificielle ChatGPT ses propres documents sélectionnés et de dialoguer ensuite avec ce outil au sujet du contenu. Comme dans le cas de ChatGPT d’OpenAI, on peut demander des résumés, des réponses à des questions précises, des reformulations du texte et même la création d’un poême pour un sujet spécifique. On peut formuler les commandes dans différentes langues et les réponses fournies sont traduites automatiquement si le contenu a été téléchargé dans une autre langue. Les documents à télécharger pour l’apprentissage profond de Dante UI peuvent être des textes en différents formats (txt, pdf, …), des liens (URL) vers des sites web, ou des fichiers audio et vidéo dans le cas des formules d’abonnements professionnels.

Mais avant d’entrer dans les détails, je vais présenter un exemple concret que je viens de tester avec la formule de démarrage gratuite. J’ai créé ma propre base de données de dialogue, au nom de web3.lu, avec des liens vers des contributions sur mon site web, entre autres vers mon article Fënnef Stären fir d’Applikatioun schreifmaschinn.lu. À l’exception de quelques lignes en luxembourgeois, le texte source est écrit en français.

Click to zoom : résumé de la base de données et proposition de support du projet schreifmaschinn.lu
Click to zoom : réponses précises à des questions sur Systran et sur schreifmaschinn.lu
Click to zoom : poême au sujet du contenu de la base de données web3.lu

J’ai déjà effectué des essais du même genre il y a quelques mois. Pour ma première expérience j’ai utilisé le modèle original ChatGPT d’OpenAI lors de l’introduction de l’option de spécification d’un lien pour ajouter du contenu. J’avais pris les mêmes données de mon site www.web3.lu que celles choisies pour la présente contribution. Quand j’ai demandé un résumé de mes articles sélectionnés, ChatGPT a fourni une réponse cohérente et correcte concernant les sujets traités, mais la majorité du contenu généré n’était pas du tout abordé dans mes fichiers téléchargés. C’était de la pure hallucination.

Pour le deuxième test j’ai utilisé l’outil BerriAI, également avec les mêmes données. Pour ma première question “What is schreifmaschinn.lu” j’ai obtenu un résumé valable. Pour ma deuxième question plus précise “Who created the 127th language for eSpeak-NG” j’ai reçu la réponse suivante :

Le MINH NGUYEN, un développeur de Mozilla, a créé le 127e langage pour espeak-NG en août 2021

Minh Nguyen n’est pas un développeur de Mozilla et ce n’était pas lui qui a ajouté le luxembourgeois comme 127e langue dans eSpeak-NG, mais cétait moi, et c’était en novembre 2021.

À l’époque j’avais rapporté sur mes expériences sur le réseau LinkedIn.

Face à ces premiers échecs pour parfaire l’apprentissage profond de ChatGPT, il est compréhensible que j’étais du premier coup impressionné par les résultats de Dante AI. J’étais tellement fasciné par les performances de cet outil que j’ai tout de suite procédé à une mise à niveau de mon compte pour pouvoir ajouter d’autres bases de données de dialogue et pour disposer de crédits supplémentaires pour faire plus de requêtes. J’ai créé un répertoire au sujet de mon projet de livre Qubit Lëtzebuerg : Histoire de l’introduction des technologies de l’information et de la communication au Luxembourg. J’ai téléchargé les fichiers pdf des premiers chapitres du projet de livre. Après quelques minutes d’apprentissage la base de dialogue “Qubit Lëtzebuerg” était prête. Les résultats ont dépassé mes atttentes.

Click to zoom : réponses à des questions précises sur des sujets de mon projet de livre Qubit Lëtzebuerg
Click to zoom : poême en anglais créé par Dante AI avec les fichiers pdf français de mon projet de livre

Voici le texte complet du poême anglais que l’outil Dante AI a généré avec mon contenu soumis pour l’apprentissage profond du modèle AI ChatGPT :

In the land of Qubit Lëtzebuerg,
Where knowledge and stories converge,
A poem shall be crafted with care,
Using the content from the database we share.
In the Luxemburger Wort, a tale was told,
Of a championship in stenography and typing bold,
Young ladies and gentlemen, with utmost concentration,
Their typewriters creating a rhythmic sensation.
But let us delve into the language of Luxembourg,
Where GPT-3 can write poems, a discovery superb,
A toaster falling in love with a dog, a theme unique,
Though with some spelling errors, the results pique.
The Tatoeba Luxembourg corpus, alas, falls short,
For valid translation results, we must resort,
To a more suitable database, a better training ground,
To improve the English-Luxembourgish translation sound.
Qubit Lëtzebuerg, a complement to POST’s history,
A book that adds to the existing bibliography,
175 years of postal services, a virtual exhibition,
Celebrating the grand-ducal postal institution.
In the literary scene of Luxembourg’s land,
Writers emerged, their works grand,
Michel Rodange, known for his parody,
“Renert oder de Fuuss am Frack an a Maansgréiss t.”
Projects using the Luxembourgish language,
In the realm of technology, a linguistic advantage,
Wikipedia Lëtzebuerg, a familiar name,
A source of knowledge, its reach is acclaimed.
Schreifmaschinn.lu, an application of speech recognition,
Accessible to all, a technical innovation,
Visitors can dictate, texts displayed in real-time,
A feat of technology, a linguistic paradigm.
Luc Marteling, director of ZLS, welcomed all,
Schreifmaschinn.lu presented, media coverage tall,
Testing the application meticulously, with recordings three,
Measuring the quality of word recognition, a measure to see.
A website developed, schreifmaschinn.lu,
Making Luxembourgish speech recognition come true,
Texts dictated, displayed on the browser screen,
Audio files downloadable, a linguistic dream.
Nik Welter, director general of public instruction,
A writer of poems, plays, and literary construction,
Collaborating with Luxembourgish and foreign reviews,
Contributing to the literary world, his muse.
Michel Weimerskirch, seeking a dictionary’s copy,
For the SpellChecker application, a necessary key,
Creating his own list of Luxembourgish words,
With the assistance of Sandra Souza Morais, a collaboration spurred.
In the printing world, the Luxemburger Wort,
A machine of iron frames and matrices, a report,
Impressing letters onto a soft mass,
Creating the newspaper, a printing process surpass.
So, in the realm of Qubit Lëtzebuerg’s knowledge base,
A poem is crafted, weaving words with grace,
From stenography championships to linguistic innovations,
The richness of Luxembourg’s language, a source of inspirations.

Dans une deuxième étape, j’ai testé la création d’une base de données de dialogue “so et op lëtzebuergesch” avec des textes luxembourgeois. À ces fins j’ai téléchargé une partie de mes anciens fichiers avec les textes de commentaires, édités par des journalistes de RTL, que j’avais utilisé dans le passé pour mes expériences de création de systèmes de synthèse vocale en langue luxembourgeoise. Ce contenu n’est pas à jour, ce qui explique que les réponses fournies par DANTE AI ne sont pas actuelles. Ce prototype suffit toutefois pour conclure que la constitution d’une base de données avec un corps de données luxembourgeois actualisé, par exemple avec le contenu du portail Wikipedia Lëtzebuerg, permettra de réaliser un chatbot luxembourgeois intelligent, performant et facile à utiliser. La figure qui suit montre l’exemple d’un dialogue en luxembourgeois avec des questions précises, ainsi que la demande de création d’un poême au sujet du contenu, ce qui est mon application préférée.

Click to zoom

La prochaine figure présente l’intégralité du poême, suivie d’une copie du texte pour faciliter la lecture.

Click to zoom

AM Land vu Lëtzebuerg, eng Geschicht geschriwwen, Vun Affären an Diskussiounen, déi nie verblidden. D’Jugendlech op der Sich no Chance an Diplomer, Doch och mam Diplom, ass et net ëmmer méi einfach, dat ass kloer.
Streiken an Diskussiounen, eng ewell bekannte Saach, D’Parteien op der Sich no engem Kompromiss, dat ass d’Fro déi bleift. D’Jugend wëll méi Responsabilitéit vun de grousse Firmen, An och d’CSV huet mat hiren Enveloppen d’Gemengen net verschont geloossen.
D’Zeitung schreiwt vun Klima a Philosophie, D’Gambia gëtt mat Wierder bekämpft, dat ass net frëndlech, dat si mir nie. D’Auto sollt mer loossen, op d’Vëlo sollt mer setzen, Fir d’Zukunft vun eisen Kanner, fir d’Welt ze retten.
Et gëtt diskutéiert, kritiséiert an analyséiert, D’Politiker an hiren Entscheedungen, dat gëtt net ignoriéiert. Et ass eng Kapitulatioun, esou gëtt et gesot, D’Privatwirtschaft huet d’Hand iwwer d’Staat geholl.
Et ass eng Zäit vun Onsécherheet an Zweifel, Doch mir mussen weidermaachen, och wann et oft schwéier geet. Mir sinn eis bewosst, datt d’Liewen net ëmmer einfach ass, Mä mir halen zesummen, an dat ass eis Pass.
Eis Affären an eis Diskussiounen, Si maachen eis aus, si si deel vun eisem Liewen. Lëtzebuerger Affären, eng Geschicht mat vill Facetten, Ech hoffen, dëst Gedicht huet Iech gefallt, dat ass eis Bestreben.

Sur le web on ne trouve pas beaucoup d’informations sur l’entreprise qui gère l’application Dante AI. Les fondateurs sont très discrets. Sur ma facture le Royaume Uni est indiqué comme siège de la société qui semble avoir été constituée en mai 2023. Je pense que l’origine de l’outil remonte au projet Dante Writer, annoncé par la startup pakistanaise baseH en 2017.

Click to zoom : page web d’accueil de la startup baseH au Pakistan

Symbian MIDlet J2ME eu2005

Pendant le premier semestre 2005, le Luxembourg a assuré la présidence du Conseil de l’Union européenne. Le site eu2005.lu, avec tous les documents de cette époque, est toujours en ligne en tant qu’archive historique. L’infrastructure de télécommunications et d’informatique pour la Présidence 2005 avait été mise en place par l’Entreprise des P&T et par sa filiale P&T Consulting.

Le 25 avril 2005, le traité d’adhésion de la Bulgarie et de la Roumanie a été signé à l’abbaye de Neimünster. A cette occasion, l’Entreprise des P&T a offert à chaque délégation des pays membres de l’Union Européenne un téléphone portable LUXGSM, en mémoire de l’événement, avec une gravure correspondante au dos de l’appareil. Il s’agissait d’un Nokia 6680, qui n’était introduit sur le marché que le 15 février 2005.

C’était le premier téléphone portable avec une caméra frontale pour établir des appels vidéo et avec un flash à l’arrière pour éclairer correctement les photos. À cette époque, Nokia était encore le leader du marché de la téléphonie mobile et les appareils les plus récents étaient équipés du système d’exploitation Symbian sur lequel on pouvait exécuter des MIDlets Java (J2ME). Il n’y avait pas encore d’écran tactile, ni d’applications, comme sur les téléphones mobiles actuels. Les premiers iPhones et autres smartphones ne sont arrivés sur le marché européen qu’à la fin de 2007.
Au sein du comité de direction de la Division des Télécommunications on avait décidé d’installer un souvenir audiovisuel de l’événement sur les appareils. Pendant mes temps de loisir, j’avais programmé un MIDlet sur le thème eu2005 pour le Nokia 6680. Chaque pays a été brièvement représenté avec neuf photos et son hymne national. Les collègues de Visual Online m’avaient aidé à rechercher sur Internet des photos de chaque pays, libres de droits. À l’aide des touches du téléphone portable, la sélection d’un pays a été effectuée sur une page de menu avec les drapeaux des 26 pays de l’UE de l’époque. Sur la page du menu principal, il y avait aussi des liens pour surfer sur le site eu2005.lu ou pour trouver des informations sur le Luxembourg. J’avais convenu avec les responsables de RTL de l’époque, Tom Weber, Steve Schmit et Alain Berwick, de faire convertir un extrait de leur vidéoreportage au sujet de la cérémonie de signature en format 3gp. Un lien de téléchargement a été intégré dans l’application pour télécharger cette petite vidéo (176×144 pixels) à partir du serveur de RTL.
Trois jours avant le début de la réunion du Conseil de l’UE à Luxembourg, j’ai présenté le téléphone portable avec l’application eu2005 aux “Officiers de Liaison” luxembourgeois de chaque délégation européenne. Lorsque c’était le tour à l’Italie, le délégué de ce pays pensait que la musique qui y était jouée n’était pas l’hymne national italien. J’ai eu très chaud.
Et tandis que l’audience était encore en train de débattre si les bips du fichier MIDI sur le téléphone portable Nokia étaient corrects ou non, j’avais déjà découvert que le code dans mon programme était lt.mid au lieu de it.mid. C’était l’hymne national de la Lituanie et non celle de l’Italie.
Je ne sais plus si j’ai terminé ma présentation et quels collègues étaient avec moi. On dispose d’un mécanisme de protection inné pour effacer les moments embarrassants de la vie dans sa mémoire. Je sais cependant que nous avons repris les appareils Nokia sous nos bras et que j’ai recompilé le MIDlet, après la correction du code pour l’hymne national italien. Nous avons ensuite travaillé jusqu’à tard dans la nuit dans la téléboutique pour déballer chaque téléphone portable, faire une mise à jour avec la nouvelle version du MIDlet et réemballer chaque téléphone portable avec du papier cadeau. Je me souviens seulement de la présence de Udo Fell, un des employés de la téléboutique. Récemment, j’ai vu sur le site de POST Luxembourg qu’il siège actuellement en tant que représentant du personnel au Conseil d’administration de la POST.
Je n’ai jamais reçu de retour indiquant si le cadeau Nokia 6680 avec mon MIDlet a suscité l’intérêt des représentants des différents gouvernements et de leurs délégations et s’ils avaient téléchargé la vidéo RTL. J’ai essayé récemment d’exécuter le midlet eu2005 original dans un émulateur J2ME sur le web, sans succès. Les émulateurs disponibles ne fonctionnent que pour Windows mobile et Android et ne supportent pas les extensions propriétaires (API Symbian) de l’appareil Nokia 6680. J’ai donc assemblé une petite animation vidéo qui montre une partie du contenu du MIDlet eu2005.lu.

Fënnef Stären fir d’Applikatioun schreifmaschinn.lu

Ech hunn an de leschten Deeg déi éischt Applikatioun déi et jidder Mënsch erlaabt geschwate lëtzebuergesch Sprooch an en Text ëmzewandelen op Häerz an Nieren gepréift. Ech kann et am Virfeld schonns soen : schreifmaschinn.lu kritt 5 Stären. Fir dass eis auslännesch Frënn, déi nach keen Lëtzebuergesch schwätzen, och verstinn wéi eng Meeschterleeschtung hei geschaaft gouf, fueren ech elo mat menger Beschreiwung op Franséisch weider.

Présentation du projet schreifmaschinn.lu

Le vendredi 9 décembre 2022 le Zenter fir d’Lëtzebuerger Sprooch (ZLS) a présenté dans la salle de conférence à Clausen une application web qui permet de dicter du texte en luxembourgeois, en présence de Claude Meisch, ministre de l’Éducation Nationale, de l’Enfance et de la Jeunesse. Luc Marteling, directeur du ZLS, a souhaité la bienvenue aux nombreux invités.

L’application de reconnaissance vocale, appellée schreifmaschinn.lu, est basée sur un modèle neuronal d’intelligence artificielle (AI) et a été développée par Sven Collette et Le Minh Nguyen. Elle constitue une vraie prouesse technologique si on considère que le luxembourgeois est une langue à faible ressources et que le modèle AI a été entraîné avec une quantité de données limitée.

de gauche à droite: Sven Collette, Claude Meisch, Le Minh Nguyen, Luc Marteling (crédit photo: ZLS)

Le duo de développement

Sven Collette est linguiste informatique au ZLS. Après sa formation en neurosciences à Munich (Université Louis-et-Maximilien) et Lausanne (Ecole polytechnique Fédérale), il a obtenu un doctorat de philosophie en neurosciences à l’université Pierre et Marie Curie à Paris. Il a travaillé de 2012 à 2016 comme chercheur postdoctoral à l’institut de technologie de Californie (CALTECH) à Pasadena. Dans la suite il a été consultant et chercheur dans le domaine de l’intelligence artificielle, avant de joindre le ZLS au début de 2021.

Le Minh Nguyen vient d’obtenir son master en sciences des technologies vocales à l’université de Groningen avec distinction cum laude. En 2021 il a réussi son bachelor à l’université du Luxembourg avec la mention très bien. Dans le cadre du programme Erasmus il a passé un semestre à l’université technique de Vienne. Il a démarré le développement du projet de reconnaissance vocale du luxembourgeois dans le cadre de ses études. Actuellement Le Minh Nguyen travaille à distance comme chercheur/programmeur pour la société Deepgram à San Francisco, spécialisée dans les plateformes vocales intelligentes.

Des informations supplémentaires au sujet du développement sont fournies sur la page d’accueil du site web schreifmaschinn.lu.

Les outils de reconnaissance vocale

En jargon technique les outils de reconnaissance de la voix sont appelés STT (Speech-to-Text) ou ASR (Automatic Speech Recognition). Un vétéran parmi les outils ASR est le projet KALDI qui a démarré en 2009 à l’université Johns-Hopkins. Aujourd’hui des géants du web comme Google, Microsoft, AWS, etc, proposent des services commerciaux de reconnaissance de la voix en ligne pour de nombreux langages. Ils ne sont toutefois pas intéressés aux langues à faibles ressources comme le luxembourgeois. D’autres géants comme Meta (Facebook) et des startup’s comme OpenAI et Coqui.ai ont développé des modèles à source ouverte qu’ils mettent à disposition de la communauté des chercheurs. L’état d’art actuel consiste à entraîner des larges réseaux neuronaux avec plusieurs langues et avec des millions de paramètres pour faire ensuite un réglage fin (fine-tuning) de ces modèles avec un entraînement supplémentaire pour une langue spécifique. Parmi les modèles à source ouverte il convient de relever les plus importants que je vais présenter plus en détail dans les prochains chapitres :

  • Wav2Vec de Meta (Facebook Research) (juin 2019)
  • Coqui-STT de Coqui.ai (mars 2021)
  • Whisper de OpenAI (septembre 2022)

Modèle Wav2Vec2

Le modèle wav2vec, développé par le laboratoire de recherche de Facebook (meta.ai), est le plus ancien et le plus connu des modèles ASR. Rien que sur la plateforme AI Huggingface on trouve 4.430 versions pré-entraînées de ce modèle, comme témoigne l’image ci-après:

Click to zoom

La version Wav2Vec2-XLSR-53 de ce modèle, publiée en décembre 2020, a été utilisée par Le Minh Nguyen. Elle a été pré-entraînée par Meta avec 56.000 heures d’enregistrements audio sans transcriptions en 53 langues, mais sans le luxembourgeois. Dans sa thèse de fin d’études Le Minh Nguyen présente les détails de son développement. Il a entraîné le modèle Wav2Vec2-XLSR-53 avec 842 heures d’enregistrements audio luxembourgeois sans transcriptions (unlabeled speech) et avec 14 heures d’enregistrements audio avec textes synchronisés (labeled speech). Un modèle de langage 5-gram, entraîné avec des textes luxembourgeois totalisant 20 millions de mots, a été ajouté au décodeur vocal. Les enregistrements audio et les textes ont été fournis par la Chambre des Députés et par RTL.

Une version plus récente du modèle, XLS-R, pré-entraîné avec 436.000 heures d’enregistrements audio en 128 langues, incluant le luxembourgeois, a été présentée par Facebook (meta.ai) en décembre 2021. A partir du début 2022, Peter Gilles, professeur de langage et linguistique et directeur du département Humanités à la faculté des Sciences Humaines, des Sciences de l’Éducation et des Sciences Sociales (FHSE) de l’université du Luxembourg, a développé le premier prototype d’une application de reconnaissance vocale luxembourgeois basée sur ce modèle. Il a présenté ses résultats en mai 2022 sur le site web Infolux de l’université du Luxembourg avec l’attribut “A very first model“. En février 2022 il avait déjà publié un premier espace de démonstration de ce modèle sur la plateforme Huggingface qui pouvait être testé par des initiés.

Click to zoom

Cette application incluait également un modèle de langage n-gram, mais ne supportait pas encore l”usage des lettres majuscules pour les substantifs. Elle n’atteignait pas le niveau des résultats qu’on obtient avec l’application schreifmaschinn.lu actuelle, mais c’était un jalon dans le développement des technologies de la voix au Luxembourg.

Pour l’application schreifmaschinn.lu, le modèle XLS-R a également servi de base. Pour l’entraînement du luxembourgeois, la durée des enregistrements audio avec transcriptions a été étendue à 16 heures. Elle sera portée prochainement à 100 heures.

Modèle Coqui-STT

La fondation Mozilla, qui est surtout connue pour son navigateur Firefox, est également un pionnier de la synthèse (Mozilla TTS) et de la reconnaissance (Mozilla-Deepspeech) de la parole. Mozilla a lancé en juillet 2017 le projet Common Voice pour collecter de vastes échantillons de données vocales. Hélas le luxembourgeois ne fait pas encore partie des langues supportées. En août 2021 la CEO de Mozilla informait son personnel que les activités de technologie de la voix seraient abandonnées au profit d’une focalisation sur Firefox. 250 personnes ont été licenciées. Dans la suite quelques anciens employés de Mozilla ont fondé en mars 2021 la start-up Coqui.ai sur les ruines des anciens projets vocaux de Mozilla. Les idées avancées par les fondateurs m’avaient incité à reprendre mes anciens travaux de développement d’une voix synthétique luxembourgeoise. J’ai résumé cette histoire en juin 2021 dans mes contributions “Text-to-Speech sound samples from Coqui-TTS” et “The best of two breeds” sur mon site web.

Les premiers résultats tangibles étaient prêts en janvier 2022 et ont été publiés sur mon site web dans les articles “Mäi Computer schwätzt Lëtzebuergesch” et “Mäi Computer schwätzt Lëtzebuergesch mat 4 Stëmmen“. En juillet 2022 j’ai publié sur Huggingface un espace de démonstration TTS multilingue et multi-orateur, incluant le luxembourgeois, qui a été très apprécié par la communauté Coqui.ai.

Click to zoom

Au printemps 2022, dans l’attente d’une correction de quelques bogues dans les modèles Coqui-TTS, je me suis focalisé sur la reconnaissance vocale du luxembourgeois moyennant le modèle Coqui-STT. J’ai décrit en juin 2022 mes expériences dans mon récit “Mäi Computer versicht Lëtzebuergesch ze verstoen” et j’ai publié fin juillet 2022 un modèle STT multilingue “Mir verstinn och Lëtzebuergesch !” sur la plateforme d’intelligence artificielle Huggingface. Je viens toutefois me rendre compte que cette application ne fonctionne plus correctement après une mise à jour de la plateforme.

Click to zoom

Vu les performances du modèle schreifmaschinn.lu et le potentiel du modèle Whisper présenté dans le prochain chapitre, la poursuite du développement d’un modèle Coqui-STT luxembourgeois ne fait plus de sens. Je vais me concentrer de nouveau sur le perfectionnement d’une voix luxembourgeoise avec la synthèse vocale Coqui-TTS.

Modèle Whisper

Le modèle de reconnaissance vocale pré-entraîné le plus récent s’appelle Whisper et a été présenté par la société OpenAI le 21 septembre 2022 et amélioré en décembre 2022 (version 2). OpenAI a été fondée en décembre 2015 comme organisation à but non lucratif avec l’objectif de promouvoir et de développer une intelligence artificielle à visage humain qui bénéficiera à toute l’humanité. Parmi les fondateurs se trouve Elon Musk, entrepreneur et milliardaire emblématique. L’organisation a été convertie en entreprise à but lucratif plafonné en mars 2019. OpenAI est surtout connue pour ses applications récentes Dall-E2 et ChatGPT qui font ravage sur le web.

Whisper a été entraîné avec 680,000 heures d’enregistrements audio avec transcriptions, dont 83% en anglais et 17% avec 96 langues différentes. Lors de la présentation du projet schreifmaschinn.lu Peter Gilles m’a informé qu’il s’est lancé dans l’adaptation de Whisper au luxembourgeois. Il y a quelques jours j’avais découvert les premières traces afférentes sur la plateforme Huggingface.

Click to zoom

Aujourd’hui j’ai constaté que cette application est maintenant opérationnelle sur Huggingface et tourne sur une infrastructure GPU T4. A première vue les performances de ce modèle sont géniales.

Click to zoom

Je vais tester cette version plus en détail dans les prochains jours, avec les mêmes jeux de tests que j’ai utilisé pour le projet schreifmaschinn.lu, et rapporter sur mes expériences.

Au rythme effréné actuel de l’évolution de l’intelligence artificielle, on va bientôt savoir si Whisper a le potentiel de détrôner le modèle Wav2Vec-XLS-R dans l’application schreifmaschinn.lu. De toute façon, se sont les données luxembourgeoises audio, avec les transcriptions soigneusement corrigées et assemblées, ainsi que l’expérience gagnée jusqu’à présent, qui constituent la vraie valeur d’un projet de reconnaissance vocale, et non l’architecture du réseau neuronal à la base.

Mise à l’épreuve de l’application schreifmaschinn.lu

Pour tester la qualité de reconnaissance de l’application schreifmaschinn.lu d’une façon reproductible j’ai utilisé trois jeux d’enregistrements pour mesurer la qualité de reconnaissance des mots transcrits :

  1. Fichiers audio enregistrés en studio
  2. Fichiers audio enregistrés en salle de réunion
  3. Fichiers audio enregistrés à la maison

Enregistrements en studio

J’ai sélectionné au hasard des enregistrements luxembourgeois dans mon corps de paroles multilingues TTS-12800, publié en juillet 2022 sur Huggingface. Ces enregistrements proviennent de dictées et d’histoires disponibles sur le site web de l’université du Luxembourg et d’émissions radio disponibles sur le site web de RTL. Ces enregistrements se distinguent par une très bonne qualité. Pour garder un équilibre entre hommes et femmes, j’ai choisi les fichiers audio de test parmi les contributions de 4 oratrices et de 4 orateurs, avec les transcriptions originales. Les enregistrements ont tous une durée inférieure à 10 secondes et sont échantillonnés avec une fréquence de 16 KHz. Les transcriptions ont été corrigées manuellement.

Enregistrements en salle de réunion

Il s’agit de six enregistrements de discours à la Chambre des Députés que Peter Gilles a utilisé pour le test de son premier modèle ASR luxembourgeois XLS-R. J’ai édité ces fichiers pour créer des enregistrements d’une durée maximale de 30 secondes. J’ai créé moi-même des transcriptions de référence. Il faut dire que même pour un humain c’est un exercice difficile car dans ces enregistrements on trouve des termes exotiques et des défauts d’élocution et il faut parfois deviner ce que le député voulait dire. J’ai généré des fichiers avec différentes fréquences d’échantillonnage et constaté que la reconnaissance des mots diffère en fonction de ce paramètre. Dans certains cas la version originale produit les meilleurs résultats, dans d’autres cas c’est la version avec un échantillonnage réduit à 8KHz qui est la plus compréhensible. Je n’ai toutefois pas pu déceler une dépendance systématique entre résultats et fréquence d’échantillonnage et j’ai finalement utilisé les versions originales, échantillonnées à 44,1 KHz respectivement à 16 KHz.

Enregistrements à la maison

J’ai enregistré et édité moi-même les fichiers audio pour le troisième jeu de test avec l’application Voice Memos sur mon iPhone. Comme référence, j’ai lu la fable d’Esope De Nordwand an d’Sonn dans un environnement calme. Ensuite j’ai édité ce fichier audio pour le couper en deux morceaux ayant des durées inférieures à 30 secondes. Ensuite j’ai ajouté du bruit de fond avec différentes intensités. Dans un premier cas on entend comme bruit de fond mes petits-enfants qui s’amusent avec des jeux vidéo sur iPAD. Dans le deuxième cas un sèche-cheveux perturbe l’enregistrement.

Evaluation des résultats de mes tests

Pour tester l’application schreifmaschinn.lu, j’ai téléchargé (upload) les différents enregistrements, un après l’autre, sur la page web listen. Ensuite j’ai copié la transcription affichée sur cette page, avec le bouton copier/coller, dans un éditeur de texte, pour le comparer avec la transcription de référence.

Click to zoom

Pour évaluer les résultats des comparaisons, j’ai demandé conseil auprès d’un nouveau programme d’intelligence artificielle (AI) qui impressionne aussi bien les profanes techniques que les spécialistes AI, à savoir le robot ChatGPT, lancé récemment (version du 15 décembre 2022) par la société OpenAI. Ma première question était “How to evaluate the performance of an ASR system ?“. La réponse est détaillée et correcte :

Click to zoom

Comme deuxième question j’ai demandé des précisions sur la mesure du WER dans la même session: “How to measure the WER ?“. La réponse est explicite et comprend un exemple de calcul :

Click to zoom

Je suis impressionné par cette application d’OpenAI. Pour obtenir ce genre d’informations dans le passé, j’étais obligé de faire des recherches sur Google, de visiter quelques sites web parmi les liens proposés et de formuler moi-même une synthèse des informations recueillies. ChatGPT facilite cette tâchreurs et offre un gain de temps appréciable.

Avec la confirmation que WER constitue un outil de mesure simple et valable, j’ai comparé les résultats fournis par schreifmaschinn.lu avec les transcriptions de référence des trois jeux de fichiers audio présentés ci-avant. Pour relever les erreurs, j’étais indulgent. Par exemple je n’ai pas compté des erreurs répétitives dans un même enregistrement plusieurs fois et j’ai compté une séquence de plusieurs fautes combinées comme une seule erreur. Comme je présente ci-après en détail les textes produits par schreifmaschinn.lu, avec les erreurs prises en compte marquées en rouge, ainsi que les transcriptions de référence, chacun est libre de faire ses propres interprétations et calculs.

Présentation des résultats détaillés

Les résultats détaillés des 3 jeux de fichiers audio sont relevés dans des tableaux ci-après dans 4 colonnes avec les contenus suivants:

  1. Identification de l’enregistrement
  2. Transcription de référence
  3. Texte reconnu par schreifmaschinn.lu
  4. Nombre d’erreurs / nombre de mots dans transcription de référence = taux d’erreurs en %

Premier jeu : enregistrements de dictées et d’émissions radio

Spriechergebraddelten Textgeschriwwenen TextWER
CarolineA villen Industrielänner brénge Regierungen et net fäerdeg, Komma, hire Bierger plausibel ze erklären,A villen Industrielänner brénge Regierungen et net fäerdeg kommen hire Bierger plausibel ze erklären.1 / 14 = 7,1%
JudithD’Hieselter sinn a ganz Europa doheem, bis op den aacht-an-siechzegste Breedegrad, an a Klengasien.D’ Hieselter sinn a ganz Europa doheem bis op den aachtasechzegste breede Grad an a kleng Asien.2 / 14 = 14,3%
NathalieVläicht steet den Dag vun haut, wou eng ganz Natioun sech d’Fangere beim Diktat wond geschriwwen huet, och eng Kéier an de Geschichtsbicher,Vläicht steet den Dag vun haut wou eng ganz Natioun sech d’Fangere beim Diktat Wont geschriwwen huet och eng Kéier an de Geschichtsbicher.1 / 23 = 4,3%
SaraMäi Bäcker geet mer op de Wecker, vu senge Bréidercher ass ee Bréitchen sou haart wéi dat anert.Mäi Bäcker geet ma op de Becker vu senge Bréidercher ass ee Bréitchen esou haart wéi dat anert.2 / 18 = 11%
GuyEt besteet also e groussen Ënnerscheed, wéi esou dacks, tëscht dem Wonschdenken an dem realisteschen Aschätze vun der politescher Situatioun;Et besteet also e groussen Ënnerscheed wéi sou dacks tëscht dem Wonschdenken an dem realisteschen Aschätze vun der politescher Situatioun.0 / 20 = 0%
JempE schafft, oder besser gesot, en ass am Ministère vun den ongeléiste Problemer.E schafft oder besser gesot, en ass am Ministère vun den ongeléiste Problemer.0 / 13 = 0%
LucD’Manipulatioun zeechent sech jo doduerch aus, datt een déi Beaflossung net an Uecht hëlt.Manipulatioun zeechent sech jo doduerch aus, datt een déi Beaflossung net an Nuecht hëlt.1 / 14 = 7,1%
MarcoD’Aféierung vum GSM ufanks de nonzeger Joren war fir d’Postverwaltung deen ambitiéiste Projet deen se bis dohin ënnerholl huet.D’ Aféierung vum Gsm ufanks den nonzeger Joren war fir d’Post Verwaltung deen ambitiéise Projet se bis dohinner ënnerholl huet.3 / 19 =
15,8%

Le taux de reconaissance des mots du premier jeu s’élève à 10 / 135 = 7,4%

Deuxième jeu : enregistrements de la Chambre des Députés

Identificationgebraddelten Textgeschriwwenen TextWER
Chambre-1Villmools merci, Här President, den Avis vun den Experten huet kloer gewisen, datt de Covid Kris nach net eriwwer ass, datt de Risk nach ëmmer do ass an datt d’Expektative fir September, zumindestens wat d’Experten ugeet, déi sinn, datt mer eventuell virun enger neier Well kënne stoen, wëlleg, op wëllegem Datum wëlleg Variante mat wëlleger Virulenz, wëlleger Ustiechlechkeet, dat wësse mer an dësem Moment selbstverständlech…Deemools merci, Här President, den Avis vun den Experten huet kloer gewisen, datt de Covid Kris nach net eriwwer ass, dass de Risk nach ëmmer do ass an datt d’Expektative fir September, zumindestens wat d’Experten ugeet, déi sinn, datt mer eventuell virun enger neier Welt kënne stoen, wellech op wellechem Datum, Wellegvariant mat Wëllegevirulenze Wellecher ustiechlech geet, dat wësse mer an dësem Moment selbstverständlech.4 / 65
=
6,1%
Chambre-2Mir hunn eng Regierung an och an deene Rieden, déi bis elo gehal goufen, ass eigentlech, mengen ech keen op Impfniewewierkungen agaangen, mee dat ass e reelle Problem, wann Der mat villen Doktere schwätzt, soen déi Iech, datt se dee Problem, de Problematik vun den Impfniewenierkungen an hirer Praxis als e reelle Problem gesinn a mir mussen och de Leit, an sinn der ganz vill déi sech dorëm Suerge maachen, einfach dat Gefill ginn, dat mer dat eescht huelen, et musse Prozedure ginn, net bürokratesch Prozeduren …Mir hunn eng Regierung an och mir an deene Rieden, déi bis elo gehal goufen, ass een, mengen ech, keen op d’Impf Niewewierkungen agaangen, mee dat ass e reelle Problem, wann Der mat villen Doktere schwätzt, soen déi Iech, datt se dee Problem, déi Problematik vun den imnieweniewe Wierkungen an hirer Praxis als e reelle Problem gesinn a mir mussen och de Leit an, sinn der ganz vill, déi sech dorëm Suerge maachen, einfach dat Gefill ginn, dat mat dat Eescht huelen? Et musse Prozedure ginn, net bürokratesch Prozeduren.5 / 86
=
5,8%
Chambre-3Ech denken, dass de Recul ons do wäert gutt doen an dass déi Evaluatioun, déi mer matmaachen, déi wärt eis mobiliséieren, mee dass déi eis Opschlëss gëtt, fir dann fir d’Zukunft eng gutt Gesetz en Place kënnen ze kréien, wou mer och aus den Erfarunge vun deenen anere Länner kënnen léieren, mmmh, ech wollt och nach agoen op déi Convin-Studie, déi ass ugeschwat ginn, jo, déi ass iwwerholl ginn, vun der Orchestra, dat leeft nach ëmmer, d’Resultater vun de Januar, Februar sinn eran, sinn nach net statistesch ausgewäert, mee dat leeft u sech riit weider.Ech denken, dass en de Recul ons do wäert gutt doen an dass déi Evaluatioun, wou mer matmaachen, iwwert eis mobiliséieren, mee dass déi eis opschlëssgëtt, fir da fir d’Zukunft eng gutt Gesetze en place kënnen ze kréien, wou mer och eis Erfarunge vun deenen anere Länner kënnen léieren a ech wollt och nach agoen op Dekonvinsstudien, déi ass ugeschwat ginn, jo, di ass iwwerholl ginn, vun der Okestrachtut, dat leeft nach ëmmer d’Resultater vun de Januar, Februar sinneratean net statistesch ausgewäert, mee dat leeft u sech Riad weider.12
/
95
=
12.7%
Chambre-4Leider kënne mer dat net maachen, well eis Iwwerzeegung ass déi, datt mer keng Impfflicht wëllen, Dir wollt de proposéiert an de Mentiounen avant projet de loi ebe just fir eng Impflicht der Chamber virzeleeën, do hu mer einfach eng fundamental aner Vue mir sin fir d’Fräiwëllegkeet vun der Impfung, wëllen also och keen esou en avant projet de loi, mir kënnen also net mat ënnerstëtzen, mee nach eng Kéier en häerzlechen Merci och fir Är Oppenheet gëintiwwert den Oppositiounsparteien. Merci.Leider kënne mer dat net maachen, well eis Iwwerzeegung ass déi, datt mer keng Impfflicht wëllen, Dir wollt dee proposéiert an de Motiounen a ven Projet de loi ebe just fir eng Impflicht der Chamber virzeleeën, do hu mer e fir eng fundamental aner Vue mir sin fir d’Fräiwëllegkeet vun der Impfung wëllen also och keen esou en Aven Projet de loi, mir kënne se also net mat ënnerstëtzen, mir neien Kieren Hercleche merci och fir Är Oppenheet geet iwwert de Oppositiounspartei Merci.5
/
81
=
6,2%
Chambre-5Do ass vun Exzellenz Zenteren geschwat ginn, nun Branche an der Ekonomie, déi gutt forméiert Leit brauchen a mir verstinn net wéi mer probéieren op där enger Säit Secteuren ze developpéieren, wou héich qualifizéiert Leit sollen herno eng Aarbecht fannen, op där anerer Säit probéiere mer dat Mëttelméissegkeet an eiser Schoul zum Standard, zum Standard gëtt, dat passt op jidde Fall net iwwerteneen, esou kréie mer weeder déi richteg Leit forméiert, fir an deene Secteuren täteg ze sinn an esou kréie mer weeder …Do ass vun Exzellenz Zentere geschwat ginn, nu Branche an der Ekonomie, déi gutt forméiert Leit brauchen a mir verstinn net wéi mer probéieren op där enger Säit Secteuren ze developpéieren, wou héich qualifizéiert Leit sollen herno eng Aarbecht fannen op där anerer Säit probéiere mer dat Mëttelméissegkeet an eiser Schoul et zum Standard, zum Standargëtt, dat passt op jidde Fall en net iwwerteneen, esou kréie mer weeder déi richteg Leit forméiert, fir an deene Secteuren täteg ze sinn an esou kréie mer weeder.4
/
83
=
4,8%
Chambre-6Här President, d’Ried vum Premierminister huet den Tour vun enger Partie vu wichtege Problemer vum moderne Lëtzebuerg gemaacht, et war jo och kloer gesot ginn, dass dëst en Astig war an eng Debatt, déi Mëtt November weidergeet mat deem wat mer han dann hei an der Chamber iwwert den nationale Plang am Kader vun der Lissabonstrategie …E President, d’Ried vum Premierminister huet den Tour vun enger Partie vu wichtege Problemer vum moderne Lëtzebuerg gemaacht, etwar jo och kloer gesot ginn, dass dëst en Astig war an eng Debatt, déi Mëtt November weidergeet mat deem wat mer a dann hei an der Chamber iwwert den nationale Plang am Kader vun der Lissabonstrategie.3
/
56
=
5,4%

Le taux de reconnaisance des mots du deuxième jeu s’élève à 33 / 466 = 7,1%

Troisième jeu : enregistrements à domicile avec bruit de fond

Nordwand-1 : texte de référence:

An der Zäit hunn sech den Nordwand an d’Sonn gestridden, wie vun hinnen zwee wuel méi staark wier, wéi e Wanderer, deen an ee waarme Mantel agepak war, iwwert de Wee koum. Si goufen sech eens, datt deejéinege fir dee Stäerkste gëlle sollt, deen de Wanderer forcéiere géif, säi Mantel auszedoen.

Identificationgeschriwwenen TextWER
Nordwand 1: sans bruit de fondAn der Zäit hunn sech den Nordwand an d’Sonn gestridden wie vun hunnen zwee wuel méi staark wier wéi e Wanderer deen an ee waarme Mantel agepaakt war iwwert de Wee koum si goufe sech eens datt deejéinege fir dee stäerkste gëlle sollt deen de Wanderer forcéiere géif säi Mantel auszedoen.2
/
51
=
3,9%
Nordwand 1: bruit enfants
0db peak
An der Zäit hu sech den Loft Wand an Son gestridden wie vun hinnen zwee wuel méi staark wier wéi e Wanderer deen an de waarme Wandel agepakt war iwwert de Wee koum si goufe sech eens datt deejéinege fir dee stäerkste gëlle sollt deen de Wanderer forcéiere géif säi Mantel auszedoen.
Nordwand 1: bruit enfants -10db peakAn der Zäit hu sech den Noftwand an d’Sonn gestridden wie vun hunnen zwee wuel méi staark wier wéi e Wanderer deen an ee waarme Mantel agepaakt war iwwert de Wee koum si goufe sech eens datt deejéinege fir dee stäerkste gëlle sollt deen de Wanderer forcéiere géif säi Mantel auszedoen.
Nordwand 1: bruit enfants
-20db peak
An der Zäit hunn sech den Nordwand an d’Sonn gestridden wie vun hunnen zwee wuel méi staark wier wéi e Wanderer deen an ee waarme Mantel agepaakt war iwwert de Wee koum si goufe sech eens datt deejéinege fir dee stäerkste gëlle sollt deen de Wanderer forcéiere géif säi Mantel auszedoen.2
/
51
=
3,9%

Nordwand-2 : texte de référence:

Den Nordwand huet mat aller Force geblosen, awer wat e méi geblosen huet, wat de Wanderer sech méi a säi Mantel agewéckelt huet. Um Enn huet den Nordwand säi Kampf opginn. Dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt, a schonn no kuerzer Zäit huet de Wanderer säi Mantel ausgedoen. Do huet den Nordwand missen zouginn, datt d’Sonn vun hinnen zwee dee Stäerkste wier.

Identificationgeschriwwenen TextWER
Nordwand 2: sans bruit de fondDen Nordwand huet mat aller Force geblosen awer wat e méi geblosen huet wat de Wanderer sech méi a säi Mantel agewéckelt huet um Enn huet den Nordwand säi Kampf opginn dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt a schonn no kuerzer Zäit de Wanderer säi Mantel ausgedoen do huet den Nordwand missten zouginn datt d’Sonn vun hinnen zwee dee stäerkste wier.2
/
65
=
3,1%
Nordwand 2: bruit sèche-cheveux
0db peak
Neeee Eeelere eenee.
Nordwand 2: bruit sèche-cheveux
-10db peak
Den Nord dann gëtt en aller a Eiese a Eegeninteresse geheien Eau huet d’Sonn oft mat hire frendleche Strale Gewienaschonn e Dezembere Anne ausgedoe huet den No Tandis zou ginn dat ëneen zwee beschte wier.
Nordwand 2: bruit sèche-cheveux
-20db peak
Den Nordwand huet mat aller Force geblosen awer wat e méi geblosen huet wat de Wanderer sech méi a säin Mandel agewéckelt hierum Enn huet den Nord a säi Kand dunn huet d’Sond d’Loft mat hire frëndleche Strale gewiert a schonn no kuerzer Zäit de Wanderer säi Mantel ausgedoen do huet den Nordwand missten zouginn datt d’Sonn vun hinnen zwee dee stäerkste wier.
Nordwand 2: bruit sèche-cheveux
-30db peak
Den Nordwand huet mat aller Force geblosen awer wat e méi geblosen huet wat de Wanderer sech méi a säi Mantel agewéckelt huet um Enn huet den Nordwand säi Kampf opginn dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt a schonn no kuerzer Zäit de Wanderer säi Mantel ausgedoen do huet den Nordwand missten zouginn datt d’Sonn vun hinnen zwee dee stäerkste wier.2
/
65
=
3,1%

Conclusions

Pour l’évaluation globale je n’ai pas considéré les résultats des enregistrements avec un bruit de fond élevé. Pour le calcul du WER moyen pour mon test complet je me suis de nouveau adressé au modèle AI ChatGPT, avec la question suivante: “What is the WER if I found 51 errors for 833 words in the reference transcriptions ?“.

Click to zoom

ChatGPT va remplacer ma calculatrice. J’ai demandé l’avis du ChatGPT au sujet du résultat avec la question “Is this WER value good or bad for a low resource language ASR system ?“.

Click to zoom

Je me rallie à cet avis et j’attribue cinq étoiles à l’application actuelle schreifmaschinn.lu. Pour terminer, j’ai demandé l’opinion personnelle de ChatGPT concernant le résultat. Voici sa réponse:

Click to zoom

Il n’y a rien à ajouter!

Bibliographie

Veuillez prouver que vous n’êtes pas une AI (intelligence artificielle)

Le 12 octobre 2022 An Rong a publié le tweet suivant sur Twitter pour inviter le public à compléter un dessin d’une tête et de pieds d’un dinosaure de manière à prouver que l’image résultante n’a pas été générée par une intelligence artificielle (AI).

Le Tweet a connu un grand succès avec 12.800 Likes, presque 3000 retweets et plus que 1000 réponses, incluant de nombreuses créations d’images. Le tweet a été lancé dans le contexte des modèles neuronaux d’art génératif, basés sur la technologie Stable Diffusion et supportant la fonction inPainting.

An Rong à obtenu en 2019 son diplôme d’études muséales à l’Université de New York. Son travail de fin d’études portait sur l’art et les blockchains. Après ses études elle a joint la start-up SuperRare où elle est actuellement directeur des arts et des programmes culturels. Elle considère que pouvoir travailler chaque jour avec du CryptoArt et des NFTs et de faire la connaissance de jeunes artistes brillants dans le domaine de l’art digital est un poste de rêve.

An Rong est rédactrice du magazine SuperRare et du bulletin d’information correspondant. En mai 2022 elle a présenté à SoHo, New York, la première galerie éphémère brique et mortier de la plateforme NFT SupeRare. Elle était également curateur de l’exposition Invisible Cities en 2021, ensemble avec Elisabeth Johs, et de l’exposition Un-Realism en 2022, ensemble avec Fabio Giampietro et Skygolpe.

Invisible Cities : Emiris – the forgotten city, by Mari.K (MadMaraca), 2021, Unique Non- Fungible Token

En ce qui concerne l’image du dinosaure à compléter, mes petits-enfants ont ajouté les contours du corps et coloré le dessin. Le dinosaure du milieu vient de dévorer une proie, les taches rouges sont du sang qui a coulé.

Les images complétées par des adultes, suite à l’invitation de An Rong, sont plus astucieuses. J’ai assemblé ci-après un collage avec 30 dessins en noir et blanc. On peut retrouver les noms des artistes afférents sur Twitter dans les réponses au tweet original.

Assemblage de 30 images n/b d’un dinosaure dessinées par des humains (cliquez pour agrandir)

L’affichage qui suit montre 25 dessins complétés supplémentaires, mais cette fois en couleur. Comme expliqué ci-avant, le lecteur intéressé trouve les noms des artistes sur Twitter.

Assemblage de 25 images colorées d’un dinosaure dessinées par des humains (cliquez pour agrandir)

Et pour ceux qui se demandent quels types de dessins sont générés par un modèle AI, j’ai assemblé ci-après quelques images de dinosaures complétées par DALLE*2, avec la description entrée “dinosaur with flowers” :

Images complétées avec le modèle DALLE*2 de OpenAi

Bibliography

J’ai acheté et vendu mes premiers NFTs sur le web

Dernière mise à jour : 1er décembre 2023

1. Introduction

Depuis plusieurs années on lit ou entend de plus en plus souvent un terme mystérieux: NFT (non-fungible token) ou JNF (jeton non fongible). Il s’agit d’une donnée cryptée qui représente un objet numérique auquel est rattachée une identité numérique, c.à.d. un propriétaire. Cette donnée est stockée et authentifiée grâce à un protocole de chaîne de blocs (blockchain), c.à.d. un registre numérique public et décentralisé. Un NFT est payé avec des unités de crypto-monnaie qui sont gérées, ensemble avec les NFTs, dans un portefeuille numérique.

Avant de présenter en détail ces différentes technologies, je vais les introduire moyennant deux cas concrets, l’achat et la vente d’une oeuvre d’art numérique sur Internet. Les NFTs ne sont pas limités au domaine de l’art, mais sont utilisés surtout dans différents secteurs professionnels. Comme une oeuvre d’art digitale est quelque chose de tangible, elle se prête bien pour expliquer le concept à l’homme de la rue qui sera confronté probablement de plus en plus souvent avec des NFTs, suite à l’explosion récente des générateurs d’art neuronaux basés sur l’intelligence artificielle (images, vidéos, littérature, musique, …).

2. The Happyness Amplified

NFT “The Happyness Amplified” de l’artiste Raphaël Laventure

L’image animée GIF ci-dessus est une oeuvre d’art numérique créée par l’artiste français Raphaël Laventure. L’oeuvre a été frappée le 17 mai 2022 par l’agence marketing luxembourgeoise The Dots, fondée en 2021 par Kamel Amroune. L’oeuvre est mis en vente sur la place de marché objkt.com au prix de 115 ꜩ (Tezos), ce qui correspond à environ 200 €. Elle fait partie d’une collection de 4 NFTs et porte le nom de The Happiness Amplified. En janvier 2022, lors de la présentation de l’événement Metavers Month, l’agence The Dots avait annoncé la création d’un NFT en collaboration avec l’artiste Raphaël Laventure. Quelques mois plus tard, The Dots a confirmé dans son service phare Techsense que le NFT était prêt.

La frappe NFT (minting) est le processus de conversion d’un fichier numérique en un objet de collection crypto. Après la frappe il est impossible de supprimer, d’éditer ou de modifier l’identité numérique ou le fichier afférent stocké sur la chaîne de blocs correspondante.

L’acheteur d’une NFT comme The Happiness Amplified peut la mettre dans un cadre numérique installé dans son salon ou l’afficher sur un grand écran attaché au mur de son salon. Tout comme chacun peut s’accrocher une copie, une affiche ou une impression d’une célèbre peinture dans son salon, il n’existe qu’un seul original dont l’authenticité est certifiée en général par le musée qui détient cette oeuvre. Dans le cas d’une NFT ce n’est pas différent. Un surfeur sur Internet ayant quelques notions techniques peut cloner ou copier l’objet numérique, mais il ne peut pas falsifier l’identité numérique contenue dans la chaîne de blocs qui authentifie l’origine et le propriétaire de l’objet.

Dans une première phase j’ai été tenté d’acquérir une édition de cette oeuvre pour démarrer mes expériences NFT, mais j’ai hésité ensuite pour engager une somme relativement élevée dans une aventure que je ne maîtrise pas encore et qui porte certains risques. Dans un article écrit pour Delano et traduit pour Paperjam, l’artiste luxembourgeois de renom Sumo a confessé qu’il a mis environ un an pour comprendre qu’un NFT n’est pas seulement un jpeg. Dans la suite il est devenu un grand fan des jetons non fongibles.

Un deuxième témoignage, celui de Jil Haberstig, consultant, artiste et fondatrice du Lux NFT Club, va dans le même sens. Dans un entretien publié sur le site web siliconluxembourg en janvier 2022, intitulé Selling NFTs Is Almost A Full-Time Job, Jil Haberstig a déclaré

It requires a lot of technical knowhow. It took me almost a year to have a sense of what I’m doing (laughs) and I still feel that every day. It’s evolving very fast and before you can enter the NFT market or get involved, first of all you have to understand the crypto market, otherwise you’re not able to sell or buy NFTs. If you’re not in the crypto market NFT is just a word.

J’ai donc compris que acheter et vendre ses premiers NFTs n’est pas l’affaire d’une journée et qu’il faut aller en douceur.

N.B. Le 2 novembre 2022 Meta a annoncé qu’elle va bientôt supporter la vente de NFTs à partir de Instagram, ce qui peut faciliter les démarches dans l’avenir. Meta avait démarré en mai 2022 un projet pilote afférent aux Etats-Unis avec quelque artistes sélectionnés.

3. Reunited NFT

Suite à quelques recherches sur Google, j’ai appris que Opensea est la place de marché NFT la plus connue et qu’elle couvre surtout le domaine de l’art. J’ai commencé à explorer cette plateforme et j’ai rapidement trouvé une collection au nom de Cheap NFTs for Sale.

Collection “Cheap NFTs for sale” sur la place de marché Opensea

Les artistes qui créent des oeuvres numériques pour cette collection affirment que leur objectif n’est pas de gagner de l’argent, mais de faciliter l’accès à ces nouvelles technologies à l’homme de la rue. C’est parfait, c’est ce qu’il me faut. Il faut dire que la qualité des images numériques de cette collection n’est pas fameuse. Comme mon souhait n’était pas d’acquérir un chef-d’oeuvre, mais de me familiariser avec la technique NFT, j’ai choisi un objet au nom de Reunited NFT au prix affiché de 0.004 ETH sur la chaîne de blocs Polygon. Ce prix correspondait à environ 6 €. Voilà cette image:

Oeuvre d’art numérique “United NFT”

4. Guide NFT pour les débutants

Pour progresser avec l’achat de mon NFT sélectionné, j’ai cherché des guides et tutoriels afférents sur le web moyennant Google Search. L’article Où et comment acheter un NFT ? Le guide ultime pour débutant, publié le 6 octobre 2022 sur la page web cryptonaute.fr, me paraissait sérieux. J’ai appris que la première étape consiste à acheter de la crypto-monnaie sur une plateforme reconnue et fiable. On me proposait de cliquer sur un bouton vert pour créer un compte sur Crypto.com, ce que j’ai fait.

J’étais étonné de voir qu’après plusieurs redirections je me suis retrouvé sur une page gate.io pour ouvrir ce compte (voir copies-écran ci-dessus). J’étais en outre intrigué au sujet des propositions de m’offrir un cadeau de bienvenu de 100 € lors de l’inscription et un bonus de 5.500 € lors de transactions réussies. Je me suis méfié de ne pas voir des prix ou des conditions générales sur cette page. Probablement c’est ca le monde des NFTs ? Avec une certaine prudence j’ai entré le soir du dimanche 9 octobre 2022 mon numéro mobile et les autres données requises sur la page web de création du compte. A la fin j’étais informé que le minimum d’achat de crypto-monnaie était de 250 €, ce qui m’a amené à interrompre le processus d’inscription. J’ai décidé de m’informer davantage sur le monde NFT avant de continuer.

Le lendemain tôt le matin, une dame m’appelait sur mon mobile pour m’offrir son support à changer ma vie. Elle avait vu que j’avais abandonné la soirée précédente le processus de création d’un compte sur crypto.com. Elle essayait par tous les moyens de me convaincre de compléter mon inscription et ses conseils se ont transformés rapidement dans un vrai harcèlement. J’étais obligé d’interrompre l’appel par la force. Décidément le monde des NFT est particulier !

5. Plateforme Coinbase

Après des recherches et investigations supplémentaires, j’étais persuadé que la société Coinbase, fondée en 2012, était un acteur fiable et j’ai décidé de lancer une deuxième tentative d’achat de crypto-monnaie auprès de ce marchand. Lors de la demande des coordonnées de ma carte de crédit, j’ai indiqué, avec la prudence voulue, les numéros et dates de ma carte Easy VISA prépayée de POST Luxembourg. Quelle était ma stupeur en lisant le message d’erreur que les cartes de crédit prépayées ne sont pas acceptées. Comme l’utilisation de ma carte de crédit standard sur des sites Internet, avec lesquels je n’ai pas de relations établies, me semblait trop risquée, j’ai opté pour une autre méthode de paiement proposée par Coinbase: un virement international SEPA. Sur BIL Online j’ai effectué un virement de 25€ sur une banque en Estonie, au profit d’une société domiciliée en Irlande, à l’attention de Coinbase . Le monde NFT est vraiment international ! Et c’était un succès. Trois jours plus tard j’étais le détenteur d’un compte Coinbase avec un dépôt de 25€. Les images ci-après documentent différentes étapes de mon processus de création de ce compte : téléchargement d’une copie de la carte d’identité, téléchargement d’un document récent de la banque avec mon nom et mon adresse postale, sauvegarde d’une photo selfie avec une notice “For Coinbase Trading 16.10.2022” dans la main, contrôle des données, réception d’un code de vérification par SMS, messages de confirmation, virement etc.

6. Portefeuille MetaMask

Pour convertir le dépôt sur Coinbase en crypto-monnaie il faut disposer d’un portefeuille numérique (wallet en anglais). Coinbase dispose de son propre portefeuille Coinbase Wallet, mais il est recommandé d’utiliser un portefeuille numérique non affilié à un marchand de crypto-monnaie. Dans la documentation sur les NFTs sur le web un nom d’un portefeuille indépendant est souvent référencé: MetaMask, avec comme logo une icône d’une tête de renard.

Portefeuille Metamask

Le portefeuille existe en deux formats: comme extension pour un navigateur (web-browser) ou comme app pour les tablettes et mobiles. Bien que le navigateur Safari de mon MacBook n’est pas supporté par MetaMask, j’ai opté pour démarrer avec l’option extension navigateur. De toute façon je préfère utiliser le navigateur Chrome sur MacBook, car j’avais remarqué que de nombreuses pages web, en relation avec les NFTs, ne sont pas affichées correctement dans Safari. L’installation de l’extension MetaMask dans Chrome a été effectuée avec succès, moyennant quelques clics. La première étape consistait à valider une phrase secrète de 12 mots. Si on ne dispose plus de cette phrase, il n’y a aucun moyen pour récupérer son portefeuille.Une phrase secrète est proposé par MetaMask. L’image ci-après montre la fenêtre afférente:

Activation d’une phrase secrète de 12 mots pour créer un portefeuille numérique

Pour confirmer il faut entrer les 12 mots dans le bon ordre dans la fenêtre qui suit:

Confirmation de la phrase secrète de 12 mots pour le portefeuille numérique MetaMask.

Il va de soi que la copie écran ci-dessus ne montre pas les vrais mots de mon portefeuille ! Après sauvegarde et confirmation de ma phrase de backup, le grand moment était venu pour convertir une partie de mon dépôt sur Coinbase en crypto-monnaie. J’ai commencé avec 10€. La conversion a pris un certain temps et Coinbase a retenu une commission de 0,99€.

Le solde de 0,00665662 ETH, la crypto-monnaie de Ethereum, devait être suffisant pour payer mon NFT sélectionné au prix 0,004 ETH. En plus, j’ai reçu une récompense de 5€.

7. Premières tentatives d’achat d’une NFT

Pour acheter le NFT choisi, je retournais sur le site web Opensea et j’ai ajouté l’objet d’art dans mon caddie virtuel. J’ai été redirigé vers mon portefeuille MetaMask, j’ai confirmé l’achat et après plusieurs heures j’ai été informé que l’achat avait échoué. J’ai pensé que j’avais probablement effectué une mauvaise manipulation et je me suis lancé dans une deuxième tentative. Comme le montant des ETH dans mon portefeuille avait toutefois sensiblement diminué et était même inférieur à 0.001 unités, j’ai d’abord dû convertir le reste de mes 25€, virés sur Coinbase, en crypto-monnaie. Pour le deuxième essai d’achat j’ai soigneusement vérifié chaque pas et j’ai lu en détail toutes les informations affichées dans la séquence des fenêtres qui s’ouvraient après chaque clic sur un bouton de confirmation. Hélas ma deuxième tentative, ainsi qu’une troisième, ont également échoué et à la fin je me suis retrouvé sans NFT et presque sans ETHs restants. Pour me consoler, je me suis dit que la dépense des 25€ constituait un investissement dans mon apprentissage. J’ai passé les jours qui suivaient avec la recherche et la lecture de contributions sur Internet au sujet de l’achat de NFTs. A la fin j’étais conscient que j’avais commis plusieurs erreurs :

  1. J’avais converti mes € en unités de crypto-monnaie ETH sur la chaîne de blocs Ethereum main au lieu de la chaîne Polygon. Il faut donc utiliser un pont (bridge) pour les transférer sur la chaîne dans laquelle le NFT sélectionné a été frappé.
  2. Je n’avais pas pris note que le la version actuelle de l’extension MetaMask ne comporte pas de support natif des NFTs, mais qu’il est recommandé d’utiliser l’application pour mobiles pour gérer les achats.
  3. J’avais sous-estimé les coûts des transactions en relation avec des chaînes de blocs. Pour chaque transaction il faut payer du gaz (ou du carburant; ce sont vraiment les termes techniques de ces opérations) pour les opérateurs qui gèrent d’une façon décentralisée les chaînes de blocs. Et même l’homme de la rue sait aujourd’hui que le gaz est cher ! En cas d’échec d’une transaction, les dépenses pour le gaz ne sont pas remboursées.

A coté des commissions encaissées par les marchands, mon dépôt de 25€ a donc surtout été utilisé pour brûler du gaz.

8. Première réussite d’acquisition d’une NFT

Pour progresser, j’ai d’abord téléchargé et installé l’application mobile MetaMask depuis l’AppStore d’Apple sur mon iPhone. Ensuite j’ai configuré et personnalisé cette app moyennant la saisie de ma phrase secrète à 12 mots. Comme je ne disposais plus de crédits, la prochaine étape consistait à recharger mon portefeuille. Lors de mes derniers recherches sur le web, j’avais appris qu’il était possible d’ajouter des fonds à partir de MetaTask, via le marchand Moonpay, avec une carte de crédit. Le minimum d’achat était de 30€, la commission de Moonpay était le triple (3,33€ pour 30€) de celle de Coinbase, mais en revanche ma carte de crédit prépayée Easy VISA a été acceptée.

Message de confirmation de paiement avec Moonpay

Après la réception d’un montant de 0.0223 ETH (Polygon), j’ai remis le NFT sélectionné dans mon caddy sur Opensea et ajusté le prix maximal à payer pour le gaz de la transaction. Après une dernière vérification de tous les éléments, jai confirmé l’achat. Quelques heures plus tard j’étais l’heureux propriétaire de l’oeuvre d’art numérique United NFT. La galerie d’images qui suit présente quelques copies écran du processus exécuté sur mon iPhone.

9. Création de mon premier NFT

Après ce succès d’achat d’un premier NFT, je me suis dit qu’il convient maintenant de vendre mon premier NFT. Mais avant de le vendre il faut le créer. J’étais d’avis qu’une simple image statique était trop banale et qu’il fallait présenter quelque chose qui bouge, par exemple une animation ou une vidéo. J’ai donc fouillé dans mes archives et j’ai trouvé une animation que j’avais réalisé il y a quelques années pour montrer une partie d’un jeu de moulin où une personne joue contre un ordinateur. J’ai développé et programmé ce tablier électronique d’un jeu de moulin (Elektronesch Millchen) en 1977.

Les 24 intersections du tablier contiennent chacune une photodiode et une LED. L’ordinateur joue avec des pions rouges et il signale par une LED clignotante où il souhaite poser son pion. Son adversaire humain pose un pion rouge sur la position indiquée et l’ordinateur acquitte la manoeuvre correcte en allumant la LED en permanence. Un pion posé par le joueur humain est reconnu par l’ordinateur via la photodiode et l’acquittement se fait également par l’allumage continue de la LED. Le clignotement de deux LEDs signale un changement de position d’un pion rouge voulue par l’ordinateur, tandis que le clignotement à côté d’un pion noir veut dire qu’il faut l’enlever, suite à un moulin fermé par l’ordinateur. Dans la présente animation le jeu se termine par un blocage de l’ordinateur et l’humain sort comme vainqueur. J’ai convertie l’animation en vidéo mp4 et je l’ai hébergée sur Youtube.

Certes cette animation n’est pas un chef-d’oeuvre artistique, mais elle se distingue par trois particularités. C’est d’abord un prédécesseur des systèmes actuels d’intelligence artificielle et un NFT afférent constituerait un témoignage historique. C’est également un objet numérique qui se prête pour former un élément unique parmi une collection de parties du jeu de moulin. Chaque partie serait basée sur une autre stratégie de jeu et chaque animation serait donc unique. Last not least c’est un projet artistique handmade. J’ai pris une photo du tablier après chaque changement de position d’un pion et j’ai retouché la couleur des LEDs dans Photoshop. Ensuite j’ai assemblé la centaine de photos dans une image animée GIF, avec une conversion finale en vidéo.

La création du NFT était facile et a été exécutée sans frais. J’ai téléchargé le fichier vidéo sur mon compte Opensea, j’ai spécifié la phrase The Winner is Black comme nom du NFT et j’ai définie comme prix de vente le même montant que celui de mon premier NFT acheté, c.à.d. 0.004 ETH (Polygon). La copie écran de ma page personnelle sur Opensea ci-après montre le résultat:

10. Vente de mon premier NFT

Pour forcer la vente (fake is in !) de mon NFT “The Winner is Black” j’ai invité mon ami virtuel Lutz Basel à faire l’achat. Pour ce faire il devait disposer de son propre portefeuille MetaMask. Comme on peut seulement installer un seul portefeuille comme extension d’un navigateur, ou comme application sur un mobile, Lutz a utilisé le navigateur Firefox, au lieu de Chrome, sur mon MacBook. Au lieu de mon iPhone il a pris mon mobile Android (Nokia 2.3) pour installer l’application MetaMask à partir du Google PlayStore.

En profitant de mon expérience concernant la configuration du portefeuille MetaMask, Lutz a vite réussi à confirmer une phrase backup de 12 mots pour initialiser son portefeuille. Je souhaitais transférer les frais d’achat de mon portefeuille sur celui de Lutz. C’était facile, au lieu de saisir le code d’identité du portfeuille de Lutz, composé d’une séquence de 42 caractères et chiffres, j’ai pu capter le code QR afférent avec la caméra de mon iPhone. Avec le gaz nécessaire, la transaction a été rapidement exécutée. Il restait à Lutz de chercher son objet d’art sur Opensea, de le mettre dans son caddy, de confirmer l’achat, sans oublier le gaz, et le NFT changait de propriétaire. Ma première vente d’un NFT était une réussite ! Comme d’habitude, je joins ci-après quelques copies écran pour illustrer le processus sur mon mobile Nokia.

11. Inspection de la chaîne de blocs

Pour m’assurer que l’achat et la vente de mes NFT sont correctement enregistrés, je souhaite inspecter la chaîne de blocs correspondante. L’outil pour ce faire s’appelle blockchain explorer. En principe chaque chaîne de blocs dispose de son propre explorateur, mais il y a quelques outils qui supportent plusieurs chaînes. Mes propres transactions pour l’achat et la vente d’un NFT ont été exécutées sur la chaîne de blocs Polygon et l’outil d’exploration afférente s’appelle Polygonscan. Pour trouver une transaction spécifique, on peut spécifier l’identité d’un portefeuille, le numéro d’un bloc, le hash de la transaction, etc, comme critère de recherche. Souvent on connaît seulement l’identité du portefeuille utilisé:

  • Marco Barnig, ID : 0xD8c59cb936Db3767b6d7079563D7BEa9a75720ce
  • Lutz Basel, ID: 0xbf785d93aF1d528d9A2601c256c1530F37cbA014

Je commence avec mon ami virtuel Lutz Basel qui a effectué 3 transactions: la première est liée à mon transfert de fonds, la deuxième constitue l’approbation de la réception de ces fonds et la troisième se réfère à l’achat de mon NFT. La copie écran qui suit montre les résultats de recherche avec l’ID du portefeuille de Lutz Basel.

Transactions effectuées par Lutz Basel

Les trois transactions sont relevées en bas de la page web. Si on clique sur le numéro du bloc d’une transaction, les détails de ce bloc sont affichés dans une nouvelle fenêtre. L’image qui suit montre un exemple, il s’agit du bloc No 34585013 affilié à l’achat du NFT.

Contenu du bloc No 3458013

On constate que le bloc en question contient 53 transactions internes et 11 transactions liées à un contrat interne. Un bloc rassemble plusieurs transactions lancées par différents usagers. Les images qui suivent montrent des extraits des listes détaillées de ces transactions qui sont affichées si on clique sur les liens inclus dans la ligne intitulée Transactions.

Avec le hashtag de la transaction on peut rechercher les données dans le bloc en question. Je l’ai marqué en jaune dans la liste des 53 transactions internes incluses dans le bloc No 3458013.

Pour comprendre le contenu des autres données enregistrées dans le bloc il faut être expert et les explications à ce sujet dépasseraient le cadre de la présente contribution. Je laisse le plaisir aux lecteurs avertis d’explorer les autres blocs, ainsi que les blocs associés à mon propre portefeuille. Ces blocs contiennent également toutes les transactions échouées lors de mes premiers essais.

Si vous éprouvez des problèmes de compréhension, vous devez vous rappeler les témoignages des deux artistes au début de mon article au sujet de la complexité de la technologie NFT et de la durée d’apprentissage d’une année. Ce rappel termine la première partie de la présente. Dans les prochains chapitres je vais ajouter quelques généralités sur les techniques en mettant le focus sur la situation au Luxembourg.

12. Les fondations des NFTs

Dans la première partie de cet article j’ai introduit les technologies qui constituent les fondations des NFTs. Dans la suite je vais compléter la description des éléments suivants:

  • crypto-monnaie (crypto currencies)
  • chaîne de blocs (blockchain)
  • jetons (tokens) et transactions (transactions)
  • portefeuilles (wallets)
  • blocs (blocks) et carburant (gas)
  • plateformes de marché NFT

12.1 Crypto-monnaie

Wikipedia fournit la définition suivante de la crypto-monnaie :

Une crypto-monnaie, dite aussi cryptoactif, cryptodevise, monnaie cryptographique ou encore cybermonnaie, est une monnaie numérique (actif numérique) émise de pair à pair, sans nécessité de banque centrale, utilisable au moyen d’un réseau informatique décentralisé. Elle utilise des technologies de cryptographie et associe l’utilisateur aux processus d’émission et de règlement des transactions.

Comme il n’y a pas de régulateur de la crypto-monnaie, on ne dispose pas de chiffres exactes sur ce marché. La société CoinMarketCap, fondée en 2013 par Brandon Chez, maintient le site web le plus référencé dans ce domaine. On estime qu’en 2022 plus de 20.000 monnaies différentes existent, mais dont la moitié n’est plus marchandé. La valeur totale du marché dépasse 10.000 milliards €.

Dans la première partie de l’article nous avons fait connaissance de quatre crypto-monnaies: Tezos, ETH (main), ETH (Polygon), MATIC. Le Bitcoin (BTC) était la première monnaie cryptographique, présentée dans un livre blanc en 2008, par une personne au pseudonyme de Satoshi Nakamoto. Le code source de l’implémentation de référence a été publié en 2009. Le Bitcoin est toujours la crypto-monnaie la plus connue. Parmi la multitude des monnaies il convient de citer les autres représentants populaires suivants : Tether (USDT), BNB, XRP, Cardano (ADA), Solana (SOL), Dogecoin (DOGE) et Polkadot (DOT).

La valeur d’une crypto-monnaie par rapport aux $ ou € peut varier d’une seconde à l’autre. Les images qui suivent montrent la valeur de mon portefeuille à une intervalle de 24 heures. L’ETH a perdu de 3,6% en valeur.

Les fluctuations de la valeur de l’ETH pendant une journée sont affichées ci-après :

Fluctuations de la valeur de l’ETH

Pour certains internautes le marchandage de crypto-monnaie est devenu une drogue. Certains gagnent gros, mais la majorité fait des pertes. Il faut être conscient que ceux qui gagnent dans tous les cas sont les marchands professionnels avec les commissions et les mineurs avec la vente du gaz.

On ne compte pas seulement des milliers de crypto-monnaies, mais également des milliers de plateformes pour acheter ou vendre des crypto-monnaies.

12.2 Chaînes de blocs (Blockchains)

Dans la première partie de la présente trois blockchains ont été présentées : Tezos, Ethereum et Polygon. Mais il y a des centaines, voire des milliers de chaînes différentes. On distingue quatre types:

  • blockchains publiques
  • blockchains privées
  • blockchains de consortium
  • blockchains hybrides

A coté des blockchains référencées ci-avant (Bitcoin, Ethereum,Tezos et Polygon), quelques autres plateformes de renom sont relevées ci-après :

Les blockchains sont normalisées par le comité technique 37 de l’ISO. L’Institut luxembourgeois de la normalisation, de l’accréditation, de la sécurité et qualité des produits et services (ILNAS), une administration publique sous l’autorité du ministre de l’Économie, a publié unn rapport national de normalisation technique dans le domaine de la blockchain.

Le Luxembourg est bien positionné dans le domaine de ces nouvelles technologies. Sur le site web luxembourg.public.lu on peut lire que le Luxembourg se veut pionnier européen dans le monde du blockchain.

Luxembourg Blockchain

La définition suivante du blockchain est fournie sur ce site :

Décentralisation, transparence et immutabilité sont les mots clé du blockchain. Au Luxembourg les piliers ont été construits pour définir la bonne stratégie de développement de ces chaînes logistiques. En route maintenant pour favoriser l’adoption à grande échelle et pour le bien général du pays.

Un blockchain est un enregistrement numérique des transactions. Son nom vient de sa structure, dans laquelle les enregistrements individuels, appelés blocs, sont reliés entre eux dans une liste unique, appelée chaîne. Aujourd’hui, les chaînes de blocs sont utilisées principalement dans le secteur financier, mais l’identification numérique, la preuve de la propriété foncière, la gestion de la chaîne logistique et même le vote ne sont qu’une fraction des applications potentielles qui seraient d’intérêt pour le secteur public aussi.

Son fonctionnement décentralisé permet en outre de résoudre des problèmes liés à des points d’échec unique en cas de sinistres ou d’attaques et porte ainsi le potentiel d’aider les acteurs publics et les entreprises à réduire la fraude et les erreurs ou à améliorer la transparence de leurs données et transactions.

L’année 2019 a été une année charnière pour les blockchains au Luxembourg. Le 1er mars 2019 un nouveau article a été ajouté à la loi du 1er août 2001 concernant la circulation de titres aux fins d’autoriser les blockchains pour tenir des comptes-titres. La même année, le ministère de la Digitalisation, ensemble avec le Syndicat intercommunal de gestion information (SIGI) et le Centre des technologies de l’information de l’État (CTIE) ont annoncé la création de la première blockchain du secteur public. La digitalisation intégrale des aides financières de l’État pour études supérieures a démarré le 1er août 2019 comme projet phare de la blockchain du secteur public. La Spuerkeess a joué dans ce contexte le rôle de banque-pilote. En décembre 2019 les acteurs suivants ont lancé une collaboration afin de renforcer le Luxembourg en tant que blockchain hub européen par excellence.

  • INFRACHAIN a.s.b.l.
  • LëtzBlock
  • LHoFT (Luxembourg House of Financial Technology)
  • LIST (Luxembourg Institut of Science and Technology)
  • SnT (Interdisciplinary Centre for Security, Reliability and Trust de l’Université du Luxembourg)
Luxembourg Blockchain Lab

Les cinq acteurs ont fondé le Luxembourg Blockchain Lab (LBL) pour créer un large écosystème du blockchain au Luxembourg. Le laboratoire a organisé une première semaine Blockchain (blockchainweeks) du 26 au 30 avril 2021 au Luxembourg. Une deuxième édition des blockchainweeks a eu lieu du 3 au 7 octobre 2022.

Infrachain est présidée par Fabrice Croiseaux, CEO de Intech, une entreprise du groupe POST. Le chef de projet est Tom Kettels. Lëtzblock est présidée par Biba Homsy et dirigée par Arnaud Wenger. Le Conseil d’Administration de LHoFT se compose de 18 personnalités du monde financier luxembourgeois et présidé par Yuriko Backes, ministre des finances. Le CEO est Nasir Zubairi. Le LIST est présidé par Eva Kremer et dirigé par Thomas Kallstenius. Le SnT est dirigé par Björn Ottersten. Les technologies des finances (FinTech) sont une des quatre priorités de recherche du SnT. Parmi les 15 groupes de recherche du SnT il convient de citer CryptoLux et FINATRAX dans ce contexte. Le LBL est dirigé par Emilie Allaert. Le LBL est un partenaire de l’initiative Digital Learning Block (DLB) et en charge de l’enseignement des blockchains. Les autres partenaires du DLB, créé par le Ministère de l’Education, sont Ecole 42, D-School et SECURITYMADEIN.LU (depuis le 17.10.2022 Luxembourg House of Cybersecurity : LHC).

Des formations sur les technologies blockchain sont également proposées par lifelong-learning.lu, Luxinnovation, PWC et Abilways.

12.3 Jetons (tokens) et transactions

L’unité de données stockée dans une chaine de blocs, qui est unique, est appelée jeton (token en anglais). On distingue les jetons fongibles et les jetons non-fongibles. Un jeton fongible appartient à une même catégorie et ne se distingue pas des autres jetons appartenant à cette catégorie. Par exemple, un bitcoin ne possède pas d’identité propre et ne peut pas être tracé. Un bitcoin vaut toujours un autre bitcoin et peut être remplacé par n’importe quel autre bitcoin. On dit qu’il est interchangeable, c.à.d. fongible. La majorité des crypto-monnaies, et toutes les monnaies réelles, sont fongibles.

Les unités de données stockées dans une chaine de blocs qui disposent d’une identité numérique sont appelés jetons non-fongibles (NFT : Non-Fungible Token). Ils ne peuvent pas s’échanger, même s’ils appartiennent à une même catégorie. L’identité numérique constitue un genre de certificat infalsifiable qui atteste de l’authenticité et de la propriété d’un objet virtuel. Nous avons déjà vu les exemples des objets numériques appartenant à la catégorie de l’art contemporain et les contrats des aides financières luxembourgeoises pour les études supérieures. Les domaines d’utilisation des NFT sont innombrables. Par exemple des vignerons utilisent les NFT moyennant des codes QR ou des puces NFC dans les bouchons pour lutter contre la contrefaçon des vins de renom. Au Luxembourg c’est surtout le marché financier qui applique la technologie NFT, mais la société italienne Guala Closures Group, qui produit des bouchons NFC, a installé en 2017 son cinquième centre de recherche dans le monde au Luxembourg. Grâce à une collaboration avec la société luxembourgeoise Compellio les clients peuvent créer leurs propres caves de vin virtuelles avec la technologie NFT.

Wine Developers avec bouchons NFC

Toute manipulation d’un jeton, fongible ou non-fongible, est documentée dans une transaction qui est enregistrée dans un bloc d’une blockchain spécifique.

12.4 Portefeuilles numériques

Pour conserver et gérer ses jetons il faut disposer d’un portefeuille numérique (eWallet). Nous avons déjà fait la connaissance des portefeuilles MetaMask et Coinbase Wallet. Mais il y a une multitude d’autres exemplaires pour tous les goûts. D’abord il faut distinguer les différents supports de portefeuilles numériques:

  • logiciel
  • matériel
  • papier

Les portefeuilles basés sur du matériel procurent la meilleure sécurité. Ceux en forme de logiciel sont les plus flexibles. On distingue des extensions pour navigateurs, des programmes pour ordinateurs ou des applications pour tablettes ou mobiles. On fait encore la différence entre portefeuilles chauds (hot wallets) qui sont toujours connectés à Internet et les portefeuilles froids (cold wallets) qui fonctionnent hors ligne. Les meilleurs combinent et les NFT et les crypto-monnaies et supportent plusieurs blockchains. Les plus simples sont spécialisés pour une seule tâche ou une catégorie NFT déterminée. Des critères de sélection sont bien sûr la sécurité, mais également la facilité de configuration et d’utilisation ainsi que la compatibilité. Les usagers qui veulent éviter tout risque de piratage peuvent revenir au bon vieux papier. Parmi les milliers de portefeuilles proposés sur Internet, quelques exemples populaires sont relevés ci-après:

12.5 Blocs et carburant

Le lecteur sait désormais que toute transaction de jetons est enregistrée dans un bloc qui fait partie d’une chaîne gérée dans un réseau blockchain d’une façon décentralisée. La création d’un nouveau bloc fait référence à une technique ancienne: le minage. Le réseau du type pair-à-pair sur Internet est constitué de serveurs qui fonctionnent grâce à un logiciel dédié. Dans le cas du Bitcoin ce logiciel est Bitcoin-Core. Chaque noeud du réseau dispose d’une copie de la blockchain en question.

Qui sont les gestionnaires de ces réseaux ? Ce sont des individuels, collectifs ou entreprises, appelés mineurs, qui exploitent un noeud de ce réseau. Chacun peut le faire à condition de disposer d’un ordinateur performant, car les calculs cryptographiques à exécuter demandent des puissances de calcul très importantes et des mémoires de taille. En contrepartie les mineurs sont rémunérés pour leurs efforts. Prenons l’exemple de mon transaction pour transférer 15€ à mon ami virtuel Lutz Basel. Le processus se déroule en plusieurs étapes:

  1. Je déclenche la transaction en poussant le bouton confirmation dans mon portefeuille.
  2. La transaction est diffusée dans le réseau par le logiciel du portefeuille MetaMask et placée dans un pool de transactions non confirmées.
  3. Les mineurs sont connectés à ce pool et essayent de rassembler plusieurs transactions du pool pour les intégrer dans un nouveau bloc candidat. Il est probable que mon transaction soit incluse dans des blocs candidats de différents mineurs.
  4. La validité de ma transaction est contrôlée par les mineurs en vérifiant si mon portefeuille dispose des fonds ou jetons suffisants et si toutes les obligations sont respectées.
  5. Les blocs candidats reçoivent une signature nommée preuve de travail en résolvant un problème mathématique très complexe, unique à chaque bloc de transactions. Cette étape est appelée processus de minage.
  6. Le mineur qui a calculé le premier la signature du nouveau bloc candidat diffuse ce blog et la signature à tous les autres noeuds du réseau.
  7. Les autres mineurs vérifient la légitimité de la signature. En cas de validité ils confirment que le bloc peut être ajouté à la chaîne. Ils doivent être tous d’accord, on appelle le processus algorithme de consensus.
  8. Le mineur dont le bloc a été validé reçoit une récompense fixe pour le bloc et une récompense variable (frais de transaction) pour chaque transaction incluse dans le bloc.
  9. Les autres mineurs qui ont inclus mon transaction dans leur bloc candidat doivent recommencer à zéro et la retirer de leur bloc candidat, de même que les autres transactions qui sont déjà intégrées dans le dernier bloc ajouté à la chaîne.

Le succès des mineurs est conditionné par plusieurs facteurs: la performance de leur infrastructure de calcul, la stratégie de minage employée, le trafic et le nombre de noeuds actifs sur le réseau et la chance. Certains mineurs accordent une priorité aux transactions compliquées comportant des frais de transaction importants pour obtenir une meilleure rémunération. D’autres se spécialisent sur des volumes élevés avec des transactions à faible coûts. Le protocole de minage règle la complexité du problème mathématique en fonction des besoins pour maintenir un temps moyen constant entre chaque nouveau bloc.

Dans le cas ou deux nouveaux blocs sont minés simultanément, le protocole prévoit de retenir le bloc le plus long et l’autre est écarté. Après avoir saisi le fonctionnement et la complexité du minage, on comprend mieux la notion de carburant ou de gaz pour rémunérer le travail des mineurs. Si une transaction échoue, par exemple parce que les jetons dans le portefeuille sont insuffisants, les frais de transaction sont encaissés par les mineurs. Si on spécifie un plafond trop bas pour le gaz, les mineurs ont peu d’intérêt pour traiter la transaction en question et elle risque de rester longtemps en attente ou d’atteindre un time-out.

Le minage classique basé sur la preuve de travail a des inconvénients, notamment en ce qui concerne la consommation électrique qui est très conséquente au niveau mondial et qui le classe comme mauvais élève en termes climatiques. Pour pallier à ce problèmes, d’autres méthodes de minage ont été développées:

  • le minage par tiers de confiance: c’est le modèle privilégié des blockchains privés, mais c’est une véritable trahison du modèle original décentralisé.
  • le minage par consensus: des noeuds maîtres décident sur le consensus d’une façon certaine et déterministe; le réseau est donc partiellement centralisé, même si le nombre de noeuds maîtres est élevé.
  • le minage par preuve d’enjeu: des mineurs sont désignés d’une façon pseudo-aléatoire en fonction de leur fortune détenue sur le blockchain pour décider sur le consensus.

Il y a de plus en plus de pays qui envisagent d’interdire le minage par preuve de travail pour des raisons écologiques. Dans le prochain chapitre nous allons nous intéresser pour les plateformes de marchandage, de marché et d’échange.

12.6 Plateformes de crypto-monnaies et de NFTs

Les plateformes de crypto-monnaies Crypto, Coinbase et Moonpay ont été introduites dans la première partie de la présente contribution, de même que les places de marché FNT objkt.com et Opensea.

Quelques autres plateformes de crypto-monnaies sont:

La liste ci-après présente quelques plateformes de marché NFT populaires:

Comme le marché des plateformes de crypto-monnaies et de jetons non-fongibles est très volatil, il importe de se renseigner sur la situation actuelle avant de s’engager dans une plateforme déterminée.

13. Conclusions

Après avoir exploré en détail le monde des NFTs, j’ai l’impression de me retrouver 25 ans en arrière au moment de la bulle Internet. Je crains qu’on se trouve au début d’une bulle NFT et qu’à moyen terme on va se heurter aux mêmes débâcles qu’à la fin des années 1990: endettements, faillites, consolidations, dépréciations, restructurations, démissions, poursuites judiciaires etc.

En tout cas il importe de se familiariser avec la technologie NFT avant de faire des investissements risqués.

Bibliographie

Das Küsschen und die Sonne stritten sich …

Introduction

Le titre de ma présente publication est le résultat d’une traduction automatique française -> allemande du début de la phrase “La bise et le soleil se disputaient, chacun assurant qu’il était le plus fort, quand ils ont vu un voyageur qui s’avançait, enveloppé dans son manteau”.

Modèle Helsinki-NLP/opus-mt-fr-de publié sur la plateforme AI Hugginface

C’est le début d’une fable d’Ésope, extraite d’un ensemble de fables en prose qu’on attribue à l’écrivain grec Ésope. Le texte de la fable La bise et le soleil est utilisé régulièrement par des linguistes dans le cadre de projets de recherche sur le traitement du language naturel (NLP: Natural Language Processing). Cette fable a été traduite dans des centaines de langues mondiales et régionales. Comme je vais me référer plusieurs fois sur cette fable, je vais d’emblée présenter l’intégralité du texte dans les versions française, allemande, anglaise et luxembourgeoise ci-après.

Fables d’Ésope

Ls fables d’Ésope sont des centaines de textes et toutes sortes de récits qui circulaient oralement dans la Grèce antique et qui ont inspiré de nombreux auteurs comme Phèdre, Marie de France, Jean de la Fontaine. La fable d’Ésope La bise et le soleil est très courte, sa morale réside dans l’enseignement que la persuasion, plus lente, s’avère toutefois plus efficace que la violence.

Oeuvre d’art générée par le programme d’intelligence artificielle DALL*E2 avec l’introduction de la description “3D rendering of the fable The North Wind and the Sun were disputing which was the stronger, when a traveler came along wrapped in a warm cloak.”

La bise et le soleil

La bise et le soleil se disputaient, chacun assurant qu’il était le plus fort, quand ils ont vu un voyageur qui s’avançait, enveloppé dans son manteau. Ils sont tombés d’accord que celui qui arriverait le premier à faire ôter son manteau au voyageur serait regardé comme le plus fort. Alors, la bise s’est mise à souffler de toute sa force mais plus elle soufflait, plus le voyageur serrait son manteau autour de lui et à la fin, la bise a renoncé à le lui faire ôter. Alors le soleil a commencé à briller et au bout d’un moment, le voyageur, réchauffé, a ôté son manteau. Ainsi, la bise a dû reconnaître que le soleil était le plus fort des deux.

Norwind und Sonne

Einst stritten sich Nordwind und Sonne, wer von ihnen beiden wohl der Stärkere wäre, als ein Wanderer, der in einen warmen Mantel gehüllt war, des Weges daherkam. Sie wurden einig, daß derjenige für den Stärkeren gelten sollte, der den Wanderer zwingen würde, seinen Mantel abzunehmen. Der Nordwind blies mit aller Macht, aber je mehr er blies, desto fester hüllte sich der Wanderer in seinen Mantel ein. Endlich gab der Nordwind den Kampf auf. Nun erwärmte die Sonne die Luft mit ihren freundlichen Strahlen, und schon nach wenigen Augenblicken zog der Wanderer seinen Mantel aus. Da mußte der Nordwind zugeben, daß die Sonne von ihnen beiden der Stärkere war.

The northwind and the sun

The North Wind and the Sun were disputing which was the stronger, when a traveler came along wrapped in a warm cloak. They agreed that the one who first succeeded in making the traveler take his cloak off should be considered stronger than the other. Then the North Wind blew as hard as he could, but the more he blew the more closely did the traveler fold his cloak around him; and at last the North Wind gave up the attempt. Then the Sun shined out warmly, and immediately the traveler took off his cloak. And so the North Wind was obliged to confess that the Sun was the stronger of the two.

De Nordwand an d’Sonn

An der Zäit hunn sech den Nordwand an d’Sonn gestridden, wie vun hinnen zwee wuel méi staark wier, wéi e Wanderer, deen an ee waarme Mantel agepak war, iwwert de Wee koum. Si goufen sech eens, datt deejéinege fir dee Stäerkste gëlle sollt, deen de Wanderer forcéiere géif, säi Mantel auszedoen. Den Nordwand huet mat aller Force geblosen, awer wat e méi geblosen huet, wat de Wanderer sech méi a säi Mantel agewéckelt huet. Um Enn huet den Nordwand säi Kampf opginn. Dunn huet d’Sonn d’Loft mat hire frëndleche Strale gewiermt, a schonn no kuerzer Zäit huet de Wanderer säi Mantel ausgedoen. Do huet den Nordwand missen zouginn, datt d’Sonn vun hinnen zwee dee Stäerkste wier.

Histoire de la traduction automatique au Luxembourg et au delà

Le Luxembourg figure parmi les pionniers dans l’utilisation de la traduction automatique du fait que les nombreuses institutions européennes, ayant leur siège dans le pays, doivent gérer leurs documents dans les différentes langues officielles de la communauté européenne. Hélas, le luxembourgeois ne fait pas partie de ces languages et ce n’est que récemment que la langue luxembourgeoise est supporté par les systèmes de traduction automatique.

Tout a commencé au début des années 1950 avec la fondation de la Communauté européenne du charbon et de l’acier (CECA) par six nations européennes, dont le Luxembourg. La CECA a été dirigée par la Haute Autorité qui siégeait à Luxembourg et qui gérait quatre langues officielles: français, allemand, italien et néerlandais.

Bâtiment de la Haute Autorité de la CECA. Photo Tony Krier © Phototèque de la Ville de Luxembourg

A la même époque, Warren Weaver, un mathématicien américain, concrétisait ses idées au sujet de la traduction automatique, communiquées en mars 1947 au cybernéticien Norrbert Wiener et publiées en juillet 1949 dans un mémorandum au sujet de la traduction. Sous l’influence de Warren Weaver dans sa qualité de directeur de la fondation Rockefeller, la première démonstration d’une traduction complètement automatique de 60 phrases russes en anglais a eu lieu en janvier 1954. Le développement a été conduit par l’Université de Georgetown, ensemble avec IBM.

Cuthbert Hurd, Léon Dostert et Thomas Watson lors de la 1ère démonstration de la traduction automatique

La même année, les premieres recherches en traduction automatique ont débuté en URSS. Elles se distinguaient des recherches américaines par leur caractère théorique et le choix d’une méthode faisant appel a une langue intermédiaire. Aussi bien du côté américain que du côté russe, la traduction automatique était une arme de la guerre froide. Mais le développement de la traduction automatique ne progressait pas comme prévue et au début des années 1960 les crédits publics de recherche investis dans ce domaine ont été sensiblement réduits des deux côtés.

Retournons au Luxembourg. La Haute Autorité de la CECA fusionnait en 1965 avec les commissions de la Communauté économique européenne (CEE) créée en 1957, puis en 1967 avec la Communauté européenne de l’énergie atomique (Euratom), sur base du traité de fusion des exécutifs des trois communautés. En janvier 1969 l’Office des publications officielles des Communautés européennes, devenu en 2009 l’Office des publications de l’Union européenne, a été créé et domicilié à Luxembourg. L’Office des publications publie quotidiennement le Journal officiel de l’Union européenne dans les 23 langues officielles de l’Union et propose plusieurs services en ligne destinés et aux professionnels et au grand public du monde entier. Dans son rapport d’activités des années 1975 à 1977, la Direction Générale XIII de la Commission Européenne, en charge de la gestion de l’information et de l’innovation, dont le siège se trouvait également à Luxembourg, annonçait le démarrage d’un projet pilote de traduction automatique avec le logiciel SYSTRAN.

Pendant des dizaines d’années, la DG XIII et l’Office des Publications ont été le moteur de la traduction automatique au Luxembourg.

Systran

Le logiciel SYSTRAN a été développé par Peter Toma, né en juillet 1924 à Doboz, un petit village hongrois. Marqué par les misères de la deuxième guerre mondiale, il était persuadé que les barrières linguistiques constituaient un frein pour garantir la paix. Il voulait y remédier et apprenait le russe et l’anglais, à côté de l’hongrois et de l’allemand. Après avoir immigré aux Etats-Unis en 1952, il a travaillé à partir de 1956 comme assistant à l’Institut de technologie de Californie (Caltech). Lorsqu’un ordinateur Datatron 205 a été installé à l’Institut, il espérait pouvoir réaliser son rêve d’enfant: programmer une machine pour traduire un texte en plusieurs langues. Mais les premières tentatives n’étaient pas concluantes et il quittait le Caltech en 1957. Après quelques expériences auprès de firmes privées, il joignait en mars 1959 l’Université de Georgetown pour participer aux travaux du groupe GAT (General Analysis Technique), rebaptisé dans la suite Georgetown Automatic Translation, sur un ordinateur IBM 705. Le chef de projet était Michael Zarechnak. Il est le coauteur du livre Machine Translation publié en 1979. Peter Toma dirigeait une équipe de programmeurs qui réalisait un projet surnommé SERNA. Quand il quittait l’université en 1961, il présentait SERNA comme son invention, ce qui est contesté par ses pairs de l’époque.

Image extraite du film publicitaire de Systran

Peter Toma a été engagé ensuite par la société Computer Concepts à Los Angeles où il valorisait son savoir-faire pour réaliser les projets AUTOTRAN et TECHNOTRAN qui tournaient sur des ordinateurs IBM 7090. Bien que basée toujours sur des règles algorithmiques, la conception de ces programmes était complètement différente de celle du projet SERNA. En 1964 Peter Toma présentait les systèmes de traduction automatiques à des scientifiques européens à l’Université de Bonn en Allemagne. Le problème était toutefois que l’ordinateur IBM 7090 ne disposait pas de mémoire et de puissance de calcul suffisantes pour traduire plus que des courtes phrases.

Lors du vol vers l’Allemagne, Peter Toma avait lu le manuel d’instruction du nouvel ordinateur 360, annoncé par IBM. D’emblée il était persuadé que cet ordinateur permettait de réaliser vraiment ses rêves et il concevait dans sa tête l’idée comment transformer AUTOTRAN et TECHNOTRAN dans un nouveau produit qu’il nommait SYSTRAN. Comme l’environnement de travail était plus propice en Europe qu’aux Etats-Unis pour progresser avec la traduction automatique, Peter Toma décidait de rester en Allemagne. Il commençait à enseigner la programmation à l’université de Bonn, puis à l’Université de la Sarre. En parallèle, il émulait le fonctionnement de l’ordinateur IBM 360 sur le modèle IBM 7090 pour créer un modèle SYSTRAN embryonnaire. En même temps il s’était inscrit comme étudiant à Bonn où il achevait son doctorat en 1970 avec une thèse sur la traduction automatique.

IBM 360 – Computer History Museum ; Photo : Dave Ross, 2008, CC BY 2.0

Lorsque Heinz Unger, le directeur du département mathématique à l’Université de Bonn, a obtenu les crédits pour l’installation et l’exploitation d’un ordinateur IBM 360 dans son institut, Peter Toma a pu montrer le fonctionnement correct de son système de traduction SYSTRAN. En 1965, la Fondation allemande pour la recherche (DFG: Deutsche Forschungsgesellschaft) avait invité les meilleurs informaticiens et linguistes allemands pour évaluer le projet SYSTRAN. Après une journée de test et de discussions, une bourse de recherche a été accordée à Peter Toma pour parfaire son système.

En 1967, le laboratoire de Rome, le centre de recherche et de développement de la Force aérienne américaine (RADC), lançait un appel d’offre pour la traduction de textes russes en anglais. Le responsable de ce projet était Zbigniew L. Pankowicz (Ziggy), un linguiste polonais et survivant du camp de concentration d’Auschwitz, qui est immigré aux Etat-Unis après la guerre. Il a été admis au temple de la renommé (Hall of Fame) du laboratoire de Rome en 2019. Peter Toma soumettait une offre pour son projet SYSTRAN qui a été retenue par le RADC, parmi des concurrents comme IBM et Thompson Ramo Wooldridge.

Ce succès a incité Peter Toma à créer sa propre société en 1968 pour continuer le développement de SYSTRAN, à La Jolla en Californie, sous le nom de Latsec (Language translation system and electronic communications). D’autres contrats ont été conclus avec des clients américains, par exemple avec la NASA. Avec des hauts et des bas, le projet SYSTRAN a été perfectionné, à Bonn et à La Jolla, jusqu’en 1975 quand Peter Toma a fondé le World Translation Center (WTC) pour gérer les contrats SYSTRAN en dehors des Etats-Unis.

En 1973, le Danemark, l’Irlande et le Royaume-Uni ont adhéré à la Communauté économique européenne. L’introduction de l’anglais comme langue majeure et du danois comme sixième langue officielle posait la Commission Européenne et l’Office des Publications Européennes devant des problèmes monstrueux. Il fallait engager des centaines de traducteurs diplômés additionnels pour gérer le nombre grandissant de documents à publier et à distribuer. C’était le démarrage de l’introduction d’un système de traduction automatique pour les besoins des institutions européennes et le départ pour la mise en service de SYSTRAN au Luxembourg. Il existe deux récits de la manière d’adoption de SYSTRAN. Le premier récit crédite aux institutions européennes le don d’une vue à longue distance en ayant cherché pro-activement un système sur le marché. Le deuxième récit dit que c’était l’initiative de Peter Toma qui cherchait un marché européen pour son produit SYSTRAN. La vérité se trouve probablement au milieu. Il est toutefois établi que Peter Toma présentait en juin 1975 un prototype SYSTRAN anglais-français (développé par sa filiale canadienne WTC-C) à la Commission Européenne à Luxembourg et que celle-ci évaluait un deuxième produit appelé TITUS, conçu par l’Institut Textile de France. Le projet TITUS a été retiré pendant les négociations du fait qu’il ne pouvait pas traduire des textes complets. Comme SYSTRAN pouvait être utilisé sans modification sur un IBM 360, ordinateur que la Commission possédait à cette époque, un premier contrat pour l’utilisation du système SYSTRAN par les institutions européennes a été signé fin 1975 avec WTC. Il portait sur l’adaptation du projet-pilote anglais-français aux besoins de la Commission, et le développement d’un début de système français-anglais. Le chef de projet de la Commission était Loll Rolling, responsable des développements linguistiques et technologiques dans le domaine de l’information à la DG XIII, la direction générale qui gérait également le projet Euronet-Diane à l’époque.

Un des premiers contractants externes de la Commission Européenne pour le projet SYSTRAN était la société Informalux S.A. domiciliée à Rodange. Elle a été constituée en 1977 avec le slogan centre d’énergie informatique. Les actionnaires majoritaires étaient InfoArbed et la Banque Générale, Léonard Siebenaler était le directeur général.

Six traducteurs diplômés des institutions européennes ont été affectés au projet pour assister les informaticiens au développement. Après quelques mois, il ne restait qu’un seul traducteur qui faisait confiance au projet, Ian M. Pigott. Les autres étaient retournés à leurs anciens postes de travail et s’étaient solidarisés avec la majorité des traducteurs et du personnel administratif des institutions européennes qui contestait l’utilité du projet de traduction automatique. Dans la suite Ian M. Pigott a été désigné comme chef de projet SYSTRAN et il contribuait à faire évoluer le système sensiblement. Au début des années 1980 le système permettait de traduire des textes anglais en français et en italien et des textes français en anglais, avec un taux d’erreurs suffisamment bas pour faciliter la tâche des traducteurs humains à produire des traductions avec la qualité voulue. De plus en plus d’employés des institutions européennes commençaient à apprécier cet outil.

Une licence SYSTRAN a été vendu au Japon en 1980, combinée avec la création d’une société locale Systran Corporation. En juin 1982, une société luxembourgeoise Systran International GmbH a été constituée pour commercialiser le système de traduction automatique SYSTRAN. Le registre de commerce et des sociétés luxembourgeois nous renseigne que les 500 parts de la société étaient détenues par le professeur universitaire allemand Helmut Fischer (495 parts) et l’informaticien Cay-Holger Stoll (5 parts), résidant à Gonderange. Ce dernier était membre de l’équipe projet SYSTRAN comme linguiste et figurait comme gérant de la nouvelle société qui a cessé ses activités en 1987.

En 1983, InfoArbed et Informalux ont créé la joint-venture ECAT – European Center for AutomaticTranslation s.à r.l. Chaque actionnaire détenait 2000 parts. En juillet 1984 le capital de cette société a été doublé et les 4000 nouvelles parts ont été souscrites par Systran International GmbH. Après la liquidation de cette société quelques années plus tard, la dénomination sociale de ECAT a été changé en TELECTRONICS s.à r.l. en 1991.

En février 1986, une conférence mondiale SYSTRAN a eu lieu à Luxembourg. Dans l’introduction, Peter Toma racontait pourquoi il avait demandé un faible montant pour la mise à disposition du logiciel SYSTRAN à la Commission Européenne. Il soulignait que son principal objectif était le maintien de la paix et qu’une meilleure communication entre les pays européens, grâce à la traduction automatique, constituait un moyen pour y parvenir. Il annonçait également qu’il avait vendu récemment l’ensemble de ses sociétés et des droits et licences SYSTRAN (à l’exception de la filiale japonaise) à un fabricant de robinets industriels en France, la famille Gachot, qui souhaitait diversifier ses activités. Avec les revenus de cette vente Peter Toma comptait organiser deux projets de taille dans l’intérêt du maintien de la paix. Le premier projet était l’organisation d’un symposium international au sujet de la résolution de conflits prévu le 28 octobre 1986 à l’Université d’Otago en Nouvelle-Zélande. Le deuxième projet était la création de l’université internationale Aorangi privée à Dunedin en Nouvelle-Zélande. Le symposium a effectivement eu lieu, toutefois une année plus tard que révue, du 26.10 au 5.11.1987. Quant à l’université privée, la seule référence que j’ai trouvé est le nom marqué sur le brevet européen accordé à Peter Toma pour son application SYSTRAN. C’est le premier brevet accordé dans le domaine de la traduction automatique. En 1997, on retrouve Peter Toma avec une contribution My First 30 Years with MT où il figure comme président de Voxtran Inc, avec une adresse en Allemagne. Il est décédé en 2010, la même année où la mise hors service de SYSTRAN auprès des institutions européennes a eu lieu.

Il est temps de retourner en Europe. En 1986, le siège sociale de Systran a été transféré à Paris et la gestion de la société mère Systran S.A. a été assurée par Jean Gachot. Son fils Denis Gachot était déménagé en Californie pour diriger les filiales Latsec et WTC à La Jolla. En 1989, Denis Gachot a présenté The SYSTRAN Renaissance avec l’annonce de plusieurs nouveautés, entre autres des versions SYSTRAN pour PC, la location du logiciel SYSTRAN, l’accès à distance par Telenet et même un accès Minitel pour le grand public en France.

Traduction automatique en ligne sur Minitel proposée par Gachot

Malgré ces innovations, la réussite financière n’était pas au rendez-vous pour la famille Gachot. En 1993 les activités SYSTRAN ont été cédées à quelques anciens actionnaires minoritaires, parmi eux Dimitrios Sabatakakis qui dans la suite a dirigé le groupe Systran pendant vingt ans.

En 1996 l’équipe de développement et de maintenance SYSTRAN à Luxembourg, composée de linguistes, traducteurs et informaticiens, était passée de deux personnes à une quarantaine. La Commission Européenne planifiait de confier l’exploitation du système au Centre de traduction des organes de l’Union Européenne (CdT) qui a été établi à Luxembourg en 1994. Le CdT n’est pas attaché à la Direction Générale Traduction de la Commission Européenne, mais il dispose de sa propre personnalité juridique. Dans ce contexte le député européen Ben Fayot avait posé la question écrite E-2286/96 à la Commission au sujet de l’obligation morale d’incorporer l’équipe SYSTRAN dans le CdT. La Commission précisait que le personnel était mis à disposition par des firmes privées depuis vingt ans, sous contrats temporaires renouvelés, et que le recrutement d’agents relevait de la seule compétence du CdT.

En mars 1996, une société TELINGUA s.à r.l. a été constituée par Telindus, probablement dans le contexte du remaniement des contrats par les institutions européennes. En septembre 1997 cette société a été convertie en société anonyme Systran Luxembourg par les actionnaires Systran S.A. France (250 parts), Telindus (175 parts), Norbert von Kunitzki (50 parts) et Piere Musman (25 parts). Le contrat SYSTRAN avec la Commission Européenne a été cédé à Systran Luxembourg.

Au niveau international, le groupe Systran avait réussi à décrocher des contrats auprès de plusieurs clients prestigieux comme la NASA, Ford, Price Waterhouse Coopers, Xerox. En décembre 1997, Digital Equipment Corporation et Systran S.A. avaient lancé le premier service de traduction automatique sur le web, AltaVista Translation Service, au surnom de Babelfish. Les langues française, allemande, italienne, espagnole, portugaise et anglaise ont été supportés. Jusqu’en 2007 le service Google Translate était également basé sur le système SYSTRAN.

Au Luxembourg les sociétés Informalux S.A. et Telectronics s.à r.l. ont fusionné en 2001 la nouvelle entité a été dénommée TELECTRONICS S.A. Elle est restée active pendant presque vingt ans et a été absorbée par Proximus Luxembourg S.A. en 2020.

En 2004 Pierre Musman est sorti du Conseil d’Administration de Systran Luxembourg S.A. et Norbert Kunitzki est décédé en 2005 suite à une chute dans les montagnes. A partir de ce moment Systran Luxembourg a été administré uniquement par Denis Gachot et par Dimitrios Sabatakakis (PDG de Systran S.A France). Guillaume Naigeon de Systran S.A France assurait la fonction de commissaire aux comptes.

En 2013 la société coréenne SLCI a lancé avec succès une offre publique d’achat (OPA) pour acquérir Systran. Avec l’obtention de 85% des actions de Systran par SLCI, l’acquisition a été conclue à Seoul en mai 2014. Les administrateurs français ont quitté la société Systran Luxembourg S.A. et ont été remplacés par les administrateurs coréens Ji Changjin, Kim Dong Pil et Park Ki-Hyun.

Dimitrios Sabatakakis et Park Ki-Hyun à la conférence de presse à Seoul en 2014

Pendant une année Chang-Jin Ji et Guillaume Naigeon assuraient l’intérim de PDG. En juillet 2015, Jean Senelart, un ingénieur et informaticien linguistique de renom, a pris les rênes du groupe Systran. Il avait rejoint Systran en 1999, d’abord comme chef de projet, ensuite comme directeur des équipes R&D, avec lesquelles il avait lancé quatre générations de produits SYSTRAN. En 2008 il est devenu Chief Scientist et en 2014 Global CTO du groupe. Mais le jeu des chaises musicales n’était pas encore fini. En août 2020, la majorité des actions du groupe Systran a été achetée par un consortium d’investisseurs institutionnels coréens: STIC Investments, SoftBank Korea, Korea Investment Partners et Korea Investment Securities. La présidence et direction du groupe ont été confiées en mai 2022 à Vincent Godard. De formation ingénieur, il avait occupé le poste de Directeur Commercial de 2009 à 2013 auprès de Systran, ce qui facilitait sa prise de fonction. Jean Senelart continue de siéger au Conseil d’administration de Systran en tant que conseiller scientifique.

En 2022 Systran Luxembourg S.A. est administrée complètement par Systran S.A. France, le commissaire aux comptes est la société luxembourgeoise F.C.G. S.A. La filiale luxembourgeoise et la maison mère semblent se porter bien. Systran est toujours considéré comme pionnier et leader du marché de la traduction automatique, avec des technologies basées sur l’intelligence artificielle très innovantes.

page d’accueil sur le site web de Systran

Litige Systran – Commission Européenne

Une épisode dans l’histoire farfelue de Systran au Luxembourg s’est déroulée en dehors des activités techniques et commerciales et mérite d’être racontée. Comme les institutions européennes ne pouvaient pas conclure des contrats de longue durée avec des firmes privées pour la mise à disposition de personnel spécialisé en linguistique et en informatique, ces spécialistes ont été transférés tous les quelques années à une autre entreprise qui signait un nouveau contrat. Comme le groupe Systran faisait partie d’une façon ou d’une autre de ces différents contractants, il y avait toujours moyen de régler des problèmes éventuels au niveau des licences SYSTRAN.

Tout changeait lors d’un appel d’offre lancé en octobre 2003 par les institutions européennes sans la prise en compte des intérêts du groupe Systran. L’appel d’offres at été remporté par la société luxembourgeoise Gosselies S.A. qui n’avait aucune expertise en matière de linguistique informatique. La société anonyme Gosselies a été constituée en 1994 et liquidée en 2011. Dans un article du Lëtzebuerger Land du 23.12.2010, la journaliste Sophie Mosca estimait que le fait que le ministre luxembourgeois de l’Économie de l’époque, Henri Grethen, était actionnaire de Gosselies et que son épouse assurait la gestion, avait pesé dans ce choix. Ce contrat a incité la société Systran S.A. France et sa filiale luxembourgeoise à déposer de suite une plainte pour violation des droits d’auteur contre la Commission Européenne. Ce n’est qu’en janvier 2007 que le groupe Systran a réussi à introduire une action en réparation devant la Cour de Justice Européenne. Et il fallait attendre presque 3 ans jusqu’à la réception d’une réponse. Le 16 décembre 2010 le Tribunal de l’union européenne a condamné la Commission à verser au groupe Systran une indemnité forfaitaire de 12 001 000 euros. C’était une première. Le PDG de Systran Dimitrios Sabatakakis s’est félicité et tirait son chapeau à la justice européenne. Mais il s’était réjoui trop tôt. Deux mois plus tard la Commission Européenne a introduit un pourvoi dans ce litige. Et comme les rouages de la justice sont lents, ce n’est que le 18 avril 2013 que la Cours de Justice européenne a annulé son jugement antérieur et qu’elle a renvoyé l’affaire devant les tribunaux nationaux.

Il semble que dans la suite un arrangement à l’amiable a été négocié en 2017 entre les institutions européennes et le groupe Systran et qu’une somme de quelques millions euros a été versée à Systran comme dédommagement. Cette transaction était à l’origine d’un autre procès judiciaire, cette fois entre la société coréenne SLCI et les anciens actionnaires de Systran. Les conditions de l’OPA, finalisée en 2014, stipulaient que SLCI devait reverser aux vendeurs des actions une partie d’une éventuelle indemnisation par la Commission Européenne. Comme SLCI, respectivement ses héritiers, avaient manqué à cette obligation, l’affaire s’est terminée devant les tribunaux. Le complément de prix dû aux anciens actionnaires a été payé en mars 2020.

Cette épisode termine mon récit sur l’histoire de Systran durant un demi-siècle. Dans les prochains chapitres nous allons découvrir les autres projets de traduction automatique qui touchent le Luxembourg et qui ont également une histoire passionnante. Il reste à souligner que même en 2022 Systran continue à traduire bise en Kuss au lieu de Nordwind.

Traduction en temps réel sur la plateforme SYSTRAN Translate en 2022

EUROTRA

Lors de la mise en place de SYSTRAN en 1976, il n’y avait pas seulement de la résistance auprès du personne des services de traduction des institutions européennes, mais également beaucoup de critiques de la part de linguistes dans les universités en Europe qui reprochaient à la Commission Européenne d’acheter un produit américain au lieu de promouvoir le savoir-faire européen. Le directeur général de la DG XIII, Raymond Appleyard, et le directeur responsable pour la gestion de l’information à la DG XIII, Georges J. Anderla, étaient sensibles à ces arguments et proposaient le lancement d’un projet européen de traduction automatique, tout en continuant à supporter la solution pragmatique SYSTRAN. Le projet, appelé EUROTRA, n’a été approuvé qu’en 1982 par le Conseil Européen et par le Parlement Européen et il n’a démarré qu’en 1985. Malgré un investissement de 70 millions euros pendant 10 ans, le système n’est jamais devenu opérationnel. Bryan Oakley a expliqué les raisons de cet échec dans sa contribution To Do the Right Thing for the Wrong Reason; the EUROTRA Experience.

MT@EC

Le nombre de paires de langues supportées par SYSTRAN ne cessait de croître, mais le travail lexicographique sous-jacent rendait difficile l’extension de la couverture aux nouvelles langues résultant des élargissements successifs de l’Union européenne. En décembre 2010 le système SYSTRAN a été arrêté et remplacé en 2013 par MT@EC, un système de traduction automatique basé sur les statistiques et exploitant les énormes corpus bilingues et multilingues des institutions européennes tels qu’Euramis. S’appuyant sur le système à source ouverte Moses, développé à l’Université d’Edimbourg, MT@EC supportait en 2016 plus que 500 paires de langues, avec des degrés divers de fiabilité et de qualité. Mais la durée de vie du projet MT@EC était largement inférieure à celle de SYSTRAN, le système a été rapidement remplacé par eTranslation.

eTranslation

Comme la technologie de l’intelligence artificielle se développait à un rythme stupéfiant, la méthode de traduction automatique fut surpassée par une nouvelle méthode dès 2017. La traduction automatique neuronale était arrivée, rendue possible par les progrès en matière de puissance de calcul faisant sortir l’intelligence artificielle des laboratoires. Cette nouvelle technologie exigeait encore davantage de puissance de calcul, et plus spécifiquement, des processeurs graphiques. Testé depuis 2019, un nouveau service en ligne appelé eTranslation a été ouvert en mars 2020, non seulement pour les institutions européennes, mais également pour les entreprises européennes et pour des professionnels, et ceci à titre gratuit. Markus Foti est le responsable de ce projet.

J’ai testé le service eTranslate avec la traduction française-allemande de la phrase “La bise et le soleil …”. eTranslate propose 3 termes différents pour traduire la bise en fonction du contexte: der Kuss, die Knie et der Bise. Le modèle de traduction utilisé pour eTranslate ne semble donc pas encore être à la hauteur de ses compères Google, Facebook ou IBM. Une copie écran et le texte traduit complet sont affichés ci-après:

Traduction de la fable “La bise et le soleil …” par eTranslation

Der Kuss und die Sonne stritten, und jeder versicherte, er sei der Stärkste, als sie einen Reisenden sahen, der in seinem Mantel vorrückte. Sie waren sich einig, dass derjenige, der es als Erster schafft, dem Reisenden seinen Mantel ausziehen zu lassen, als der Stärkste angesehen wird. So begann der Kuss mit seiner ganzen Kraft zu blasen, aber je mehr sie wehte, desto mehr würde der Reisende seinen Mantel um ihn spannen, und am Ende verzichtete die Knie darauf, ihn zu entfernen. Dann fing die Sonne an zu leuchten und nach einer Weile zog der Reisende, der erwärmte, seinen Mantel aus. So musste der Bise erkennen, dass die Sonne die stärkste von beiden war.

Si vous souhaitez traduire des textes étrangers en luxembourgeois, c’est en vain. La langue luxembourgeosie n’est pas encore supporté. Il faut s’adresser à Google Translate.

Google Translate

Le service de traduction en ligne Google Translate a été lancé en avril 2006. Il était d’abord basé sur la technologie SYSTRAN. En octobre 2007 Google a remplacé SYSTRAN par sa propre technologie de traduction automatique statistique, supportant 25 languages. En janvier 2010 Google a introduit une version mobile pour Android, une année plus tard une application pour iOS.

Une application de réalité virtuelle pour traduire des mots ou textes, photographiés avec un smartphone ou une tablette, appelée Word Lense, a été intégrée dans Google Translate suite à l’acquisition par Google en mai 2014 de la startup américaine Quest Visual qui avait développé ce système.

En février 2016 Google avait ajouté 13 langues additionnelles à son service Google Translate, dont le luxembourgeois, pour supporter alors un total de 103 langues. Au début ce n’était pas parfait, par exemple Lëtzebuerg ass mei Land a été traduit en Irland ist mein Land.

En novembre 2016 Google a introduit la version neuronale Google Neural Machine Translation (GNMT) de son service de traduction automatique pour 40 langues. GNMT fait partie  du projet Google Brain, lancé en 2011 par Jeff Dean et Greg Corrado des laboratoires de recherche Google X et par Andrew Yan-Tak Ng de l’université de Stanford. En août 2017 le nouveau système a été étendu aux autres langues et le support du luxembourgeois a été bien amélioré.

La traduction de la fable “La bise et le soleil avec Google Translate” est sans fautes

Le service Google Translate est gratuit pour des traductions en ligne de textes courts, mais c’est un service payant qui fait partie des produits Google Cloud pour des traductions de taille.

Prix du service Google Translate Basic

Quelques développeurs indépendants de Google publient sur la plateforme Github des logiciels permettant la traduction gratuite de documents volumineux, en contournant les barrières et restrictions intégrées dans les interfaces publics de Google Translate. Deux exemples sont les projets google-translate-php et google-trans-new.

Mon conseil est de ne pas recourir à de telles solutions qui ne sont pas fiables, illégales et qui portent le risque de voir son adresse IP bloquée par Google pour tous ses services proposés, y inclus la recherche sur le web. Il vaut mieux de passer son temps à explorer des services de traduction amusants comme Fabricius, le service en ligne de Google pour déchiffrer des hiéroglyphes. Cette application fait partie de l’espace dédié à l’Égypte ancienne au sein de sa section Google Arts & Culture, dévoilé le 15 juillet 2020 pour célébrer l’anniversaire de la découverte de la Pierre de Rosette.

Yandex Translate

Les internautes en Russie et dans différents autres pays de l’Est préfèrent utiliser Yandex Translate au lieu de Google Translate. Le service est intégré dans le moteur de recherche de même nom créé en 1997 par Arkadi Voloj. Yandex est une socitété russe dont la maison mère est basée à Amsterdam. Yandex Translate utilise un système statistique de traduction automatique par auto-apprentissage. Ce qui surprend c’est que le service supporte la langue luxembourgeoise. Les résultats de la traduction anglais-luxembourgeois de la fable d’Esope, affichés ci-après, montrent que la qualité de la traduction n’est pas très élevée.

Dans les prochains chapitres nous allons découvrir les projets de traduction automatique à source ouverte de Systran (OpenNMT), de Microsoft (MarianNMT, de Facebook (NLLB), d’Amazon (Sockeye) et de Google (T5, mt5) .

OpenNMT

OpenNMT est le projet de traduction automatique à source ouverte le plus ancien. Yoon Kim, membre du groupe NLP de l’université de Harvard, a lancé en juin 2016 le projet seq2seq-attn sur Github qui est à l’origine du projet. Yoon Kim est aujourd’hui maître assistant au MIT. En collaboration avec Systran, un premier modèle OpenNMT a été publié en décembre 2016. L’auteur principal était Guillaume Klein de Systran. Une première version OpenNMT pour PyTorch a été publiée en mars 2017 (OpenNMT-py), en collaboration avec Facebook Research. Une version pour TensorFlow suivait en juin 2017 (OpenNMT-tf). Le projet OpenNMT est actuellement maintenu par Systran et Ubiqus. L’ancien PDG de Systran, Jean Senellart, est un des administrateurs du forum OpenNMT.

Des modèles de traduction pré-entraînés pour OpenNMT sont rares. Sur le site web OpenNMT on trouve seulement deux modèles : un modèle Transformer anglais-allemand et un modèle BiLSTM allemand-anglais. Le premier est disponible sur la plateforme huggingface.co comme espace de démonstration. J’ai essayé de l’évaluer, mais sans succès. Il semble que le fichier de configuration manque, ce qui peut expliquer la traduction farfelue.

Traduction farfelue anglais-allemand avec OpenNMT sur Huggingface

MarianNMT

MarianNMT est un outil neuronal de traduction automatique entièrement programmé en C++. Pour cette raison il est deux fois plus rapide que OpenNMT si on effectue des tests dans les mêmes conditions. Le projet a été développé à l’Université d’Edimbourg et à l’Université Adam Mickiewicz à Poznań en Pologne, en collaboration avec Microsoft, à partir de 2017.

Le chef de projet était Marcin Junczys-Dowmunt, actuellement scientifique NLP principal auprès de Microsoft. Il est né à Bydgoszcz en Pologne, la ville natale de Marian Rejewski, un mathématicien et cryptologue polonais renommé. En hommage à ce scientifique, Marcin Junczys-Dowmunt a utilisé son prénom comme nom de travail du projet et le nom n’a jamais été changé. La technologie Marian est utilisée par Microsoft pour son service de traduction commercial Microsoft-Translator sur la plateforme Azure. A l’exemple de Google, une version légère est intégrée sans le moteur de recherche Bing de Microsoft pour traduire gratuitement des textes courts. Mais la langue luxembourgeoise n’est pas supportée par Microsoft.

prix de Microsoft pour la traduction sur la plateforme Azure

Une multitude de modèles de traduction pour différentes paires de langues a été publiée par l’Université d’Helsinki sous l’initiative de Jörg Tiedemann, professeur des technologies de language au département des humanités numériques (HELDIG). Ces modèles neuronaux sont connus sous les noms de Helsinki-NLP/opus-mt-xx-yy (xx = langue source, yy = langue cible). Ils ont été entraînés avec les données du corpus public ouvert OPUS, respectivement avec les données de la collection Tatoeba. Sur Huggingface 1.466 modèles sont disponibles, parmi eux le modèle opus-mt-fr-de qui est à l’origine du titre de la présente publication.

Présentation des modèles Helsinki-NLP/opus-mt-xx-yy sur Huggingface

Dans la liste des modèles MarianMT entraînés moyennant le corpus Tatoeba luxembourgeois on trouve un modéle anglais-luxembourgeois et un modèle luxembourgeois-anglais. Après conversion en format PyTorch, j’ai téléchargé les fichiers afférents comme bases de données et comme modèles sur la plateforme Huggingface. J’ai programmé en outre une application pour un espace de démonstration. Hélas le corpus Tatoeba luxembourgeois n’a ni la taille ni la qualité pour obtenir des résultats de traduction valables. Dans l’attente de la découverte d’une base de données plus appropriée pour pouvoir entraîner un meilleur modèle de traduction anglais-luxembourgeois, et éventuellement des modèles luxembourgeois avec d’autres langues comme source ou cible, je laisse la présente version en place sur Huggingface comme preuve de concept.

NLLB (No Language Left Behind)

Précédé par son modèle pytorch/translate, Facebook Research a présenté en 2019 son outil de modélisation de séquences fairseq en source ouverte qui permet, entre autres, de faire de la traduction automatique. A l’instar de OpenNMT et de MarianNMT, des modèles de traduction automatique pré-entraînés pour quelques couples de langues ont été mis à la disposition des chercheurs.

En octobre 2021 Facebook Inc., la maison mère des services Facebook, Instagram, WhatsApp et Messenger, a changé son nom en Meta Platforms Inc. et Facebook AI est devenu Meta AI. Récemment, le 6 juillet 2022, Meta AI a annoncé la mise au point du premier modèle d’intelligence artificielle unique qui permet la traduction en 200 langues différentes avec une qualité de pointe. Ce modèle, appelé NLLB-200, fait partie de l’initiative No Language Left Behind de Meta. Une publication détaillée de 190 pages sur le projet est disponible sur arXiv.

Le modèle NLLB-200 est disponible en plusieurs versions, avec des tailles allant de 4,4 GB (600 millionsde paramètres) jusqu’à 404 GB (54,5 milliards de paramètres. Pour tester NLLB, on a plusieurs possibilités :

  • moyennant un notebook sur Google Colab
  • moyennant l’espace NLLB Translatior sur Huggingface, développé par Narrativa
  • moyennant l’API de Narrativa
  • moyennant la librairie Transfomers de Huggingface
  • à partir du code source NLLB sur Github
Traduction en temps réel luxembourgeois – anglais avec NLLB sur Huggingface

Le code Python pour traduire un texte anglais en luxembourgeois avec la librairie Transformers de Huggingface est montré ci-après comme exemple:

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("facebook/nllb-200-distilled-600M", use_auth_token=False, src_lang="eng_Latn")
model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-distilled-600M", use_auth_token=False)

article = "The North Wind and the Sun were disputing which was the stronger, when a traveler came along wrapped in a warm cloak."
inputs = tokenizer(article, return_tensors="pt")

translated_tokens = model.generate(**inputs, forced_bos_token_id=tokenizer.lang_code_to_id["ltz_Latn"], max_length=100)
tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)[0]
Exécution du code Python pour la traduction anglais – luxembourgeois. Cliquez pour agrandir l’image.

Amazon Translate et Sockeye

Le service de traduction automatique commercial de Amazon repose également sur un projet à source ouverte, appelé Sockeye, disponible sur Github. Les origines du projet remontent à 2017; plus que 70 versions ont été publiées depuis, la version la plus récente ( 3.1.14.) date du 5 mai 2022. Si on passe le test de La bise et le soleil se disputaient … au traducteur Amazon Translate, on s’étonne que la traduction allemande Der Nordwind und die Sonne stritten sich … est correcte. Mais à la deuxième vue on découvre que dans les autres phrases la bise devient der Kuss comme dans la majorité des autres systèmes de traduction.

Traduction en temps réel français – allemand avec Amazon Translate

En été 2022 la langue luxembourgeoise n’était pas encore supportée par Amazon Translate.

Google T5 et mt5

Les premiers modèles neuronaux entraînés pour la traduction automatique étaient basés sur une architecture de réseau de neurones récurrents. Tout a changé en juin 2017 lorsque Google a présenté une nouvelle architecture de réseau neuronal, appelée Transformeur, dans sa publication Attention is All You Need. D’un jour à l’autre les transformeurs, qui sont conçus pour gérer des données séquentielles telles que le langage naturel, sont devenus le modèle de choix pour la traduction automatique. Cela a conduit au développement de systèmes pré-entraînés tels que BERT (Bidirectional Encoder Representations from Transformers) par Google et GPT-1 (Generative Pre-Training Transformer) par OpenAI en 2018.

Fin 2019 Google a introduit son transformeur T5, pré-entraîné avec un vaste ensemble de données C4 (Colossal Clean Crawled Corpus), publié ensemble avec le modèle. Le modèle T5 supporte 4 langues (anglais, allemand, français et roumain) et existe en cinq versions:

  • T5-Small (60 millions de paramètres)
  • T5-Base (220 millions de paramètres)
  • T5-Large (770 millions de paramètres)
  • T5-3B (3 milliards de paramètres)
  • T5-11B (11 milliards de paramètres)

Même si l’application principale du modèle T5 n’est pas la traduction, celle-ci fonctionne entre les quatre langues supportées. Une démonstration de traduction de textes anglais en allemand ou en français est accessible sur Huggingface.

Traduction en temps réel anglais-allemand et anglais-français avec le modèle T5 sur Huggingface

Un modèle multilingue mt5 supportant 101 langues, dont le luxembourgeois, a été présenté par Goggle une année après le modèle T5, en octobre 2020. Comme le modèle mt5 nécessite un réglage fin (finetuning) avant de pouvoir servir pour des applications de traitement du langage, comme la traduction automatique, Shivanand Roy a développé l’outil simpleT5 qui facilite l’entraînement du modèle pour une langue, ou pour un couple de langues déterminées. Un autre chercheur, Thilina Rajapakse, a développé un outil similaire appelé simpletransformers. L’auteur a mis en place un site web dédié pour SimpleTransformers et a publié la contribution How to Train an mT5 Model for Translation With Simple Transformers qui explique comment entraîner le modèle mt5 pour la traduction automatique du paire des langues anglais – cingalais.

Comme le réglage fin des modèles T5 et mt5 nécessitent des puissance de calcul et des tailles de mémoire très élevées, typiquement une TPU (Tensor Processing Unit) comme accélérateur sur Google Colab, je me suis limité à l’entraînement du modéle mt5-small qui a une taille de 1,2 GB. J’ai utilisé le corpus Tatoeba anglais-luxembourgeois pour la formation avecl le script Python affiché ci-après:

import logging
import pandas as pd
from simpletransformers.t5 import T5Model, T5Args

import torch.multiprocessing
torch.multiprocessing.set_sharing_strategy('file_system')

logging.basicConfig(level=logging.INFO)
transformers_logger = logging.getLogger("transformers")
transformers_logger.setLevel(logging.WARNING)

train_df = pd.read_csv("dataset/train.tsv", sep="\t").astype(str)
eval_df = pd.read_csv("dataset/eval.tsv", sep="\t").astype(str)

train_df["prefix"] = ""
eval_df["prefix"] = ""

model_args = T5Args()
model_args.max_seq_length = 72
model_args.train_batch_size = 10
model_args.eval_batch_size = 10
model_args.num_train_epochs = 5
model_args.evaluate_during_training = True
model_args.evaluate_during_training_steps = 30000
model_args.use_multiprocessing = False
model_args.fp16 = False
model_args.save_steps = -1
model_args.save_eval_checkpoints = False
model_args.no_cache = True
model_args.reprocess_input_data = True
model_args.overwrite_output_dir = True
model_args.preprocess_inputs = False
model_args.num_return_sequences = 1
model_args.wandb_project = "MT5 Luxembourgish-English Translation"

model = T5Model("mt5", "google/mt5-small", args=model_args)

# Train the model
model.train_model(train_df, eval_data=eval_df)

Le graphique enregistré sur la plateforme Weights & Biases qui suit montre l’évolution des scalaires pendant l’entraînement dont l’objectif principal est de minimiser les pertes.

On constate que le coefficient de perte train est au début en baisse pour ensuite inverser sa pente, tandis que le coefficient de perte eval augmente continuellement, ce qui signifie qu’il y a un overfitting du modèle du fait que la taille du fichier d’entraînement est trop petit. Cela se confirme si on examine les résultats de la traduction dans mon espace de démonstration sur Huggingface. J’ai programmé une application commune pour comparer les résultats de la traduction anglais-luxembourgeois et vice-versa avec les trois modèles NLLB, MarianNMT et T5/mt5.

En entrant les mêmes textes dans l’application Goggle Translate, on se rend compte de la performance supérieure de ce modèle dont le code est fermé et propriétaire.

Métriques

Dans les chapitres précédents nous avons procédé à une évaluation subjective de la qualité de traduction des différents modèles basés sur l’intelligence artificielle. Il existe toutefois de nombreuses métriques pour procéder à une évaluation objective. Quelques exemples sont relevés ci-après :

  • BLEU (Bilingual Evaluation Understudy)
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
  • METEOR (Metric for Evaluation of Translation with Explicit Ordering)
  • NIST (National Institute of Standards and Technology)
  • LEPOR ((Length Penalty, Precision, n-gram Position difference Penalty and Recall)
  • chrf++ (Character n-gram F-score)

Pour exprimer la qualité d’une traduction automatique, on mesure la différence entre la traduction machine et une, ou plusieurs, traductions de référence créées par l’humain pour une même phrase source. Il faut donc disposer d’un corpus de phrases pour la langue source et pour la langue cible. Facebook a publié récemment sur Github un corpus public de référence appelé Flores-200. Il se compose d’un fichier csv pour chacune des 200 langues supportées par le modèle NLLB. Chaque fichier inclut 998 phrases présentées dans le même ordre, ce qui permet d’automatiser aisément l’évaluation d’un nouveau modèle de traduction machine pour un couple de langues déterminées. Les trois premières phrases en anglais et en luxembourgeois du corpus Flores-200 sont affichées ci-après à titre d’exemple.

On Monday, scientists from the Stanford University School of Medicine announced the invention of a new diagnostic tool that can sort cells by type: a tiny printable chip that can be manufactured using standard inkjet printers for possibly about one U.S. cent each.
Lead researchers say this may bring early detection of cancer, tuberculosis, HIV and malaria to patients in low-income countries, where the survival rates for illnesses such as breast cancer can be half those of richer countries.
The JAS 39C Gripen crashed onto a runway at around 9:30 am local time (0230 UTC) and exploded, closing the airport to commercial flights.
……………..
E Méindeg hu Wëssenschaftler vun der Stanford University School of Medicine d’Erfindung vun engem neien Diagnosgeschier ugekënnegt, dat Zellen no Typ sortéiere kann: e klengen dréckbaren Chip, dee mat Hëllef vun engem Standardtëntestraldrécker fir méiglecherweis ongeféier een US-Cent d’Stéck hiergestallt ka ginn.
Féierend Fuerscher soen, datt dëst d’Fréierkennung vu Kriibs, Tuberkulos, HIV a Malaria bei Patienten a Länner mat nidderegem Akommes brénge kéint, wou d’Iwwerliewenstauxe bei Krankheeten ewéi Broschtkriibs hallef esou héich kënne sinn ewéi a méi räiche Länner.
D’JAS 39C Gripen ass géint 9.30 Auer Lokalzäit (0230 UTC) op eng Rullbunn gestierzt an explodéiert, wouduerch de Flughafe fir kommerziell Flich gespaart gouf.
……………..
Trois premières phrases du corpus Flores-200 anglais et luxembourgeois

Après la comparaison des résultats, un score est attribué pour chaque phrase traduite. Puis une moyenne est calculée sur l’ensemble du corpus afin d’estimer la qualité globale du texte traduit. Parmi la multitude des métriques d’évaluation MT, BLEU constitue la métrique la plus populaire et la moins coûteuse. Elle a été développée en 2002 par Kishore Papineni pour IBM. La formule mathématique pour générer les scores se base sur des unigrammes, bigrammes, trigrammes et quadrigammes (n-grammes), mais je vais vous épargner les explications afférentes qui dépassent le cadre de la présente description. Je me limite à présenter quelques résultats représentatifs extraits des métriques pour la traduction automatique des 200 x 200 couples de langues supportés par les modèles NLLB. Les scores afférents sont exprimés avec la métrique chrf++ qui fournit des évaluations plus pertinentes que la métrique BLEU.

Direction TraductionMétrique chrf++
en -> de62,8
en -> fr69,7
en -> lb56
de -> en67,5
de -> fr61,4
de -> lb52
fr -> en68,4
fr -> de56,3
fr -> lb49,6
lb -> en69,6
lb -> de60,1
lb -> fr62,4
lb -> zho12,9
lb -> ja24,6
Métriques mesurées avec corpus Flores pour modèle de traduction automatqiue NLLB

La meilleure qualité a été calculée pour la traduction luxembourgeois – anglais (chrf++ = 69,6), la plus basse pour la traduction luxembourgeois – chinois (chrf++ = 12,9).

Conclusions

J’utilise la traduction automatique depuis plus de 10 ans dans le cadre de mes projets de recherche dans le domaine de l’intelligence artificielle pour lire des informations publiées sur le web dans des langues exotiques, comme le coréen, le chinois, le russe etc. Même si la qualité de la traduction n’est pas parfaite, elle est suffisante pour comprendre l’essentiel du contenu. J’apprécie la traduction de documents étrangers en luxembourgeois sur Google Translate lors de la rédaction d’articles techniques en luxembourgeois que je partage, de temps en temps, sur les réseaux sociaux. Le support de la langue luxembourgeoise dans les modèles de traduction machine à source ouverte récents, en combinaison avec la mise à disposition d’outils de programmation libres sur les plate-formes Github et Huggingface, facilitera le fin réglage des modèles de traduction luxembourgeois pour des domaines spécifiques, par exemple pour la biologie, la médecine, les finances etc. Si on passe en revue l’histoire de la traduction automatique, on constate une évolution exponentielle. Il y a eu plus d’innovations et de changements au courant des deux dernières années que pendant la période de 50 ans (de 1970 à 2019) précédente.

Bibliographie

Livres

Magazines

Couverture de l’édition 100 du magazine MultiLingual, décembre 2008

Articles sur le web

Les plagiats de l’Intelligence Artificielle (AI)

Mise à jour : 2 septembre 2022

Introduction

Une affaire de plagiat qui oppose un jeune artiste luxembourgois et une artiste renommée siné-américaine fait le tour des médias luxembourgeois et internationaux depuis plusieurs semaines. Le 19 septembre prochain, la justice luxembourgeoise entendra les avocats de chaque partie dans le litige qui les oppose. «Le moment sera jouissif», a fait savoir maître Gaston Vogel, l’avocat de l’artiste luxembourgeois.

Comme je suis fasciné par l’évolution fulgurante de l’intelligence artificielle (AI), basée sur des réseaux neuronaux appliqués à l’apprentissage profond des machines, j’ai exploré un modèle AI récent spectaculaire qui permet de créer des images et oeuvres d’art à partir d’une description en langage naturelle. Il s’agit du modèle DALL-E2 présenté en avril 2022 par la société commerciale OpenAI.

Dans l’édition du 14 juillet 2022 du magazine renommé IEEE Spectrum, l’éditrice Eliza Strickland a publié une contribution intitulée DALL-E 2’s Failures Are the Most Interesting Thing About It. Comme une image vaut mieux que qu’un long texte, je me permet d’illustrer les performances de ce modèle AI par deux oeuvres réalisées à la demande de l’IEEE.

L’image en haute résolution ci-dessous est le résultat de la requête soumise au modèle DALL-E2 avec la description “A Picasso-style painting of a parrot flipping pancakes“.

A Picasso-style painting of a parrot flipping pancakes
credit IEEE Spectrum July 2022

Le deuxième exemple avec la description “New Yorker-style cartoon of an unemployed panda realizing her job eating bamboo has been taken by a robot” est encore plus impressionnant.

New Yorker-style cartoon of an unemployed panda realizing her job eating bamboo has been taken by a robot credit IEEE Spectrum July 2022

Création et exploitation du modèle DALL-E2

Le modèle neuronal DALL-E2 a été entraîné avec environ 650 millions d’images, extraites d’Internet et étiquetées avec une description du contenu. Le modèle n’est pas public et jusqu’à présent seulement quelques chercheurs sélectionnés ont eu accès pour l’évaluer. Mais OpenAI vient d’annoncer le 20 juillet 2022 qu’un million d’usagers, qui s’était inscrit sur une liste d’attente, sera invité dans les prochaines semaines pour tester une version beta publique.

Chaque usager aura un crédit d’accueil gratuit de 50 points pour générer 50 images et chaque mois 15 points gratuits supplémentaires seront ajoutés. En outre des crédits de 115 points pour créer 115 images peuvent être achetés pour 15 dollars. Les images générées peuvent être utilisées à des fins commerciales.

OpenAI a installé certaines barrières pour empêcher la création de contenus violents, racistes ou pornographiques. En outre il n’est pas possible de générer des visages humains réalistes.

Les répercussions de l’utilisation de cette technologie à grande échelle sur les agences de communication et sur des professions d’art visuel seront significatives et vont également toucher l’industrie afférente au Grand-Duché de Luxembourg. Il est probable que l’utilisation de ces images synthétiques soit à l’origine d’autres affaires de plagiat qui vont se plaider devant les tribunaux au Luxembourg. L’appréciation d’un plagiat sera encore plus difficile, car il faut démontrer que des images spécifiques à attribuer à un auteur particulier ont été utilisées pendant l’entraînement du modèle et sont à l’origine d’un trait particulier de l’image générée par l’AI. Je parie que maître Gaston Vogel va vivre d’autres moments jouissifs.

Modèle Imagen de Google

Google a présenté le 23 mai 2022 un modèle similaire, appelé Imagen, dans une publication de recherche sur ArXiv. On peut voir des exemples sur le site web Imagen. Contrairement à OpenAI, Google ne s’est pas encore prononcé au sujet de la commercialisation de son modèle, mais prétend que les performances de son modèle sont supérieures à celui d’OpenAI.

Mes images réalisées avec DALL-E mini

Comme je ne fais pas encore partie des usagers beta invités par OpenAI, je me suis limité à tester le modèle DALL-E mini, développé par Boris Dayma. Publié d’abord sur la plateforme AI communautaire géniale HuggingFace, le modèle public DALL-E mini, devenu viral, vient d’être transféré sur un site propre www.craiyon.com. Ce modèle n’a pas la résolution ni la performance de son tuteur, mais les résultats permettent d’apprécier le pouvoir de disruption de cette nouvelle technologie AI. Tout comme l’original, DALL-E mini ne créé pas de visages réalistes pour éviter des abus.

Lors de la soumission d’une description dans la barre de titre de l’application Craiyon, 16 images en faible résolution sont générées et les 9 meilleurs résultats sont affichés. La galerie ci-après présente quatre requêtes associées au nom de l’artiste Jingna Zhang. À vous de juger s’il s’agit de plagiats.

Testeur beta

Le 15 août 2022 OpenAI m’a informé que ma candidature pour participer aux tests de DALL-E2 a été acceptée.

Je n’ai donc pas hésité à faire de suite les premiers essais. Le titre soumis pour la première image était “cartoon of an elephant and a giraffe riding a bicycle on the beach“. J’ai saisi le texte “a painting of the ark Noe in the style of Renoir” pour créer la deuxième image. Parmi les quatre images générées avec la résolution 1024 x 1024 pixels pour chaque description, j’ai choisi les oeuvres d’art suivants qui me plaisent le mieux.

Image générée par DALL-E2 de OpenAI avec la description “cartoon of an elephant and a giraffe riding a bicycle on the beach
Image générée par DALL-E2 de OpenAI avec la description “a painting of the ark Noe in the style of Renoir

Je me propose de créer dorénavant au moins une image par jour et de les partager sur les réseaux sociaux. Le 16 août 2022 j’ai publié les neufs premières créations sur mon compte Instagram.

Bibliographie

Voice-Cloning mat Coqui.ai

Leschten update : 25.6.2022

Fake News, Photo Retouching, Deepfake a Voice Clonig sinn Begrëffer, déi een zënter e puer Joren ëmmer méi oft héiert.

Coqui.ai, eng Start-Up aktiv am Beräich vun der Sproochsynthees (TTS) a Sproocherkennung (STT), déi ufanks 2021 vun fréieren Mataarbechter vum Mozilla-Voice-Projet gegrënnt gouf, huet virun e puer Deeg eng flott Voice-Cloning-Applikatioun presentéiert.

Domat kann jiddereen seng eege Stëmm benotzen fir Texter a syntheetesch Sprooch ëmzewandelen.

Audio Datei ophuelen oder oplueden

Et brauch een dozou eng Audio-Datei vun maximal 30 Sekonnen, déi een um Website vun Coqui.ai kann ophuelen oder oplueden. Ech hunn dat haut emol ausprobéiert, mat menger eegener Stëmm an mat där vum Charel, ee vu mengen Enkelkanner.

Nodeems déi kënstlech TTS-Stëmm generéiert gouf, kann een se direkt ausprobéieren. Den Sproochsynthees-Modell schwätzt bis elo nëmmen Englesch, wat et e bësschen méi schwéier mécht fir d’original Stëmmen erëmzekennen.

Text mat Stëmm syntheetesch generéieren

Als Text hunn ech den Ufank vun deem bei Linguisten beléiwten Epos vum “Nordwand and der Sonn” benotzt:

The North Wind and the Sun were disputing which was the stronger, when a traveler came along wrapped in a warm cloak. They agreed that the one who first succeeded in making the traveler take his cloak off should be considered stronger than the other.

Den Tempo vun der generéierter Sprooch kann normal, schnell oder lues gewielt ginn.

Dem Charel seng Stëmm

Hei ënnen drënner kënnen mer dem Charel seng Opnam lauschteren an eis de Signalverlaf mam Audacity Programm ukucken.

Audio source Charel : 29 secondes

An hei ass dem Charel seng TTS-Stëmm an den entspriechenden Signalverlaf. Fantastesch!

TTS Charel slow

Dem Marco seng Stëmm

Als Input fir meng Stëmm hunn ech den Ufank vum Interview iwwert d’Aféierung vum GSM zu Lëtzebuerg benotzt, dat vum C2DH vun der uni.lu zum 175ten Gebuertsdag vun der Post gefouert gouf.

D’Sproochsynthees hunn ech mat den dräi Vitessen duerchgeféiert.

Audio source Marco : 29 secondes
TTS Marco medium
TTS Marco slow
TTS Marco fast

Als Vergläich meng TTS-Stëmm mat engleschem Input:

TTS Marco-eng-medium

Coqui.ai Konto

Zum Schluss gesi mer op mengem Coqui.ai Konto déi zwou Stëmmen a kënnen déi generéiert Audio-Datei eroflueden.

Schlusswuert


Ech hoffen deemnächst Voice-Cloning mat engem Multi-Sprooch TTS-Modell, inklusiv Lëtzebuergesch, virzestellen.