KI-Sprachtools für die Erwachsenenbildung

04.10.2024, Text: Gunter Schüßler, Redaktion/CONEDU
Texte von einer KI vorlesen lassen oder am Telefon mit einer KI sprechen: Künstliche Intelligenz kann für viele Sprachanwendungen nützlich sein und dabei sprachliche Bildung und Inklusion fördern.

Bitte akzeptieren Sie Marketing Cookies um diesen externen Inhalt zu laden.

Cookie-Einstellungen anpassenYouTube
Video: KI-Sprachtools für die Erwachsenenbildung
Video: CC BY 4.0, CONEDU, Oktober 2024. Von der CC BY-Lizenz ausgenommen sind alle eingeblendeten Screencasts, Screenshots sowie die enthaltenen Logos.

Gesprochene Inhalte transkribieren, Texte in gesprochene Sprache umwandeln, einen Klon der eigenen Stimme erzeugen oder sich verbal mit einem KI-Chatbot unterhalten: Künstliche Intelligenz bietet umfangreiche Möglichkeiten im Bereich der Sprache. So lassen sich sprachliche Bildung und barrierearmes Lernen fördern.

Speech-to-Text mit dem KI-Tool Gladia

Eine häufige Anwendung von Künstlicher Intelligenz im Kontext von Sprache wird als Speech-to-Text bezeichnet. Dabei geht es um das Umwandeln von Sprache in Text, also das Diktieren oder Transkribieren mithilfe von KI-Tools. Diese Funktion wurde bereits in der dritten Lerneinheit der KI-Serie anhand der Video-Transkription sowie in der vierten Lerneinheit durch die Live-Transkription in Online-Meetings demonstriert. Video-Transkription und Live-Transkription lassen sich auch mit dem KI-Tool Gladia durchführen, das sogar außerhalb von Online-Meetings Gesprächsprotokolle erstellen kann. Das KI-Tool bietet Nutzer*innen auch diverse Optionen, um ein noch genaueres und einheitlicheres Transkript zu erhalten.

Mit Gladia lassen sich auch Audioaufnahmen transkribieren. Dabei erkennt das KI-Tool verschiedene Sprachen, differenziert zwischen unterschiedlichen Sprecher*innen und erzeugt auf Wunsch auch eine Übersetzung des Transkripts. Mit Stand vom September 2024 stehen all diese Funktionen auch in der kostenlosen Version zur Verfügung, mit der Nutzer*innen monatlich bis zu zehn Stunden an Aufnahmen transkribieren können.

Text-to-Speech: Sprechstimmen mit ElevenLabs erzeugen

KI-Tools ermöglichen aber ebenso den umgekehrten Fall: Texte in gesprochene Inhalte zu verwandeln (TTS). Einer der führenden Anbieter im Bereich Sprachsynthese ist ElevenLabs. Das KI-Tool ermöglicht es, Texte von einer menschlich klingenden Sprechstimme vorlesen zu lassen. Die KI-generierten Sprechstimmen stammen zum Teil von Nutzer*innen und ergeben eine riesige Auswahl für verschiedene Anwendungsbereiche. Die Qualität der TTS-Funktion ist sehr gut.

Die Funktion „Audio Native“ stellt Anwender*innen einen html-Code für einen Audio-Player bereit. Dieser kann auf einer Webpage oder z.B. am eigenen Blog hinterlegt werden. Besucher*innen der Website bzw. des Blogs können sich die Online-Texte dann vom Audio-Player vorlesen lassen - eine Funktion, die gerade im redaktionellen Bereich für Erwachsenenbildner*innen und deren Zielgruppe nützlich sein kann.

Nutzer*innen von ElevenLabs können auch ihre eigene Stimme klonen und Aufnahmen in viele unterschiedliche Sprachen übersetzen lassen. Zudem können auch Sound-Effekte auf Basis einer kurzen Texteingabe generiert werden. Diese Funktion kann beim Erstellen von Lernvideos nützlich sein.

PlayHT ist ein TTS-Generator, der durch die Vergabe unterschiedlicher Sprechstimmen ein Gespräch oder eine Diskussion simulieren kann. Erwachsenenbilder*innen können diese KI-Anwendung etwa für Lerndialoge nutzen. In der kostenlosen Version lassen sich 12.500 Zeichen in Sprache umwandeln und als Audiodatei herunterladen. Nutzer*innen können auch ihre eigene Stimme kostenlos klonen.

Die Ergebnisse der getesteten KI-Tools waren nicht immer ganz fehlerfrei. Insgesamt sind sie aber von wirklich guter Qualität. Zudem sind sie einfacher zu bedienen als Screenreader.

TTS auch für unterwegs

Mit der Smartphone-App „ElevenReader“ bietet ElevenLabs eine vollumfänglich kostenlose Möglichkeit, auch unterwegs Texte von einer KI vorlesen zu lassen. Die jeweiligen Texte können auf unterschiedlichem Weg der App zugeführt werden: Sie lassen sich eintippen, per URL einfügen, als Datei hochladen oder mit der Smartphone-Kamera abfotografieren. Die TTS-Funktion lässt sich damit barrierearm umsetzen.

Für TTS-Anwendungen gibt es einige weitere KI-Tools, wie etwa Speechify, das als Web-Applikation, mobile App und Google Chrome-Erweiterung zur Verfügung steht.

Störgeräusche entfernen, Tonaufnahmen verbessern

Adobes Enhance Speech ist ein KI-Tool, das störende Hintergrundgeräusche aus Audiodateien entfernen kann. Ein Beispiel, das für die Praxis von Erwachsenenbildner*innen interessant sein könnte: Ist auf einer unterwegs aufgenommenen Audiodatei Lärm zu hören, wie etwa Straßenverkehr, so können die Störgeräusche mit Enhance Speech im Nachgang entfernt werden. Das KI-Tool kann in einem begrenzten Umfang kostenlos verwendet werden (Stand September 2024). Mit einem Abo der Adobe Creative Cloud lässt sich das KI-Tool unbegrenzt nutzen.

Lerninhalte mit anonymisierter Sprechstimme

Erwachsenenbildner*innen, die selbst erstellte Tonaufnahmen als Lerninhalte zur Verfügung stellen, möchten ihre Stimme ggf. anonymisieren. Dafür bietet Altered Studio eine Lösung. Mit diesem KI-Tool ist es nämlich möglich, die Sprechstimme in Video- und Audioaufnahmen zu verändern. Auch die Tonhöhe und der Satzrhythmus lassen sich anpassen.

Sprechen und Sprachen lernen mit KI-Chatbots

Anfragen an ChatGPT lassen sich auch verbal stellen und beantworten – derzeit zumindest mit der mobilen App am Smartphone sowie am Mac. Interaktionen mit dem KI-Chatbot werden dadurch dynamischer und inklusiver.

Synchron hält ChatGPT die Dialoge auch schriftlich fest und stellt am Ende das vollständige Transkript zur Verfügung. Für Sehbeeinträchtigte und Lernende mit Lese- oder Schreibschwierigkeiten kann diese Verwendungsweise eine große Unterstützung sein.

Der Einsatz der Sprachfunktion von ChatGPT eignet sich auch besonders gut zum Lernen einer Sprache. Wie der KI-Chatbot dafür genutzt werden kann, zeigt eine Beispiel-Sequenz im Video. Auf diese Weise können etwa neue Vokabeln oder Phrasen zu einem bestimmten Thema erlernt werden. Mit dem Advanced Voiced Mode von ChatGPT – der Ende September veröffentlicht wurde – ist das in noch höherer Qualität möglich. Dafür nutzt das Modell unter anderem Emotionserkennung und ist daher in Europa verboten, wo die KI-Verordnung (AI-Act) die Emotionserkennung in Arbeit und Bildung untersagt.

Über sog. Custom GPTs können Sprachtrainer*innen kostenpflichtig auch eigene KI-Chatbots erstellen. Wie das geht, wurde in der ersten Einheit der KI-Serie gezeigt.

Sprachliche Interaktionen sind mittlerweile auch bei Live-Avataren von HeyGen möglich. Nutzer*innen können mit einem Live-Avatar auf einer Website sprechen und erhalten die Antwort ggf. mit der Stimme des Avatar-Erstellers.

Schon mal ein KI-Bildungstelefon angerufen?

Noch einen Schritt weiter geht das KI-Tool Vapi, das einen Telefondienst mit Künstlicher Intelligenz bereitstellt. Nutzer*innen von Vapi können einen eigenen KI-Telefon-Assistenten einrichten, den sie nach Belieben konfigurieren und dem sie eine bestimmte „Knowledge Base“ zur Verfügung stellen können. Das sind ausgewählte Informationen, die der KI-Assistent in besonderem Maße berücksichtigt. Wurde der KI-Assistent eingerichtet, können ihn Nutzer*innen sowohl vom Computer als auch vom Smartphone aus anrufen. Damit lässt sich der KI-Assistent auch kostenlos von Menschen nutzen, die über keinen Computer verfügen. Auch für Lernende mit Lese- oder Schreibschwierigkeiten ist ein solcher KI-Telefondienst besonders interessant.

Die vorgestellten KI-Tools und Sprachanwendungen legen eindrücklich nahe: Von dieser Technologie geht einerseits ein gewisses Missbrauchspotenzial aus, insbesondere was das Klonen von Stimmen betrifft. Andererseits bieten sich zahlreiche Chancen für inklusives und barrierearmes Lernen.

Weitere Informationen:
Creative Commons License Dieser Text ist unter CC BY 4.0 International lizenziert.

Verwandte Artikel