Voice-Cloning mat Coqui.ai

Leschten update : 25.6.2022

Fake News, Photo Retouching, Deepfake a Voice Clonig sinn Begrëffer, déi een zënter e puer Joren ëmmer méi oft héiert.

Coqui.ai, eng Start-Up aktiv am Beräich vun der Sproochsynthees (TTS) a Sproocherkennung (STT), déi ufanks 2021 vun fréieren Mataarbechter vum Mozilla-Voice-Projet gegrënnt gouf, huet virun e puer Deeg eng flott Voice-Cloning-Applikatioun presentéiert.

Domat kann jiddereen seng eege Stëmm benotzen fir Texter a syntheetesch Sprooch ëmzewandelen.

Audio Datei ophuelen oder oplueden

Et brauch een dozou eng Audio-Datei vun maximal 30 Sekonnen, déi een um Website vun Coqui.ai kann ophuelen oder oplueden. Ech hunn dat haut emol ausprobéiert, mat menger eegener Stëmm an mat där vum Charel, ee vu mengen Enkelkanner.

Nodeems déi kënstlech TTS-Stëmm generéiert gouf, kann een se direkt ausprobéieren. Den Sproochsynthees-Modell schwätzt bis elo nëmmen Englesch, wat et e bësschen méi schwéier mécht fir d’original Stëmmen erëmzekennen.

Text mat Stëmm syntheetesch generéieren

Als Text hunn ech den Ufank vun deem bei Linguisten beléiwten Epos vum “Nordwand and der Sonn” benotzt:

The North Wind and the Sun were disputing which was the stronger, when a traveler came along wrapped in a warm cloak. They agreed that the one who first succeeded in making the traveler take his cloak off should be considered stronger than the other.

Den Tempo vun der generéierter Sprooch kann normal, schnell oder lues gewielt ginn.

Dem Charel seng Stëmm

Hei ënnen drënner kënnen mer dem Charel seng Opnam lauschteren an eis de Signalverlaf mam Audacity Programm ukucken.

Audio source Charel : 29 secondes

An hei ass dem Charel seng TTS-Stëmm an den entspriechenden Signalverlaf. Fantastesch!

TTS Charel slow

Dem Marco seng Stëmm

Als Input fir meng Stëmm hunn ech den Ufank vum Interview iwwert d’Aféierung vum GSM zu Lëtzebuerg benotzt, dat vum C2DH vun der uni.lu zum 175ten Gebuertsdag vun der Post gefouert gouf.

D’Sproochsynthees hunn ech mat den dräi Vitessen duerchgeféiert.

Audio source Marco : 29 secondes
TTS Marco medium
TTS Marco slow
TTS Marco fast

Als Vergläich meng TTS-Stëmm mat engleschem Input:

TTS Marco-eng-medium

Coqui.ai Konto

Zum Schluss gesi mer op mengem Coqui.ai Konto déi zwou Stëmmen a kënnen déi generéiert Audio-Datei eroflueden.

Schlusswuert


Ech hoffen deemnächst Voice-Cloning mat engem Multi-Sprooch TTS-Modell, inklusiv Lëtzebuergesch, virzestellen.