KI-DOLMETSCHER EROBERN BABEL

COMPUTERISIERTE SIMULTAN-ÜBERSETZUNGEN RÜCKEN IN GREIFBARE NÄHE

In Star Trek, einer Science-Fiction-Fernsehserie aus den 1960er Jahren, konnte das Raumschiff Enterprise, unabhängig von der Strecke, die es im Universum zurücklegte, mit allen Außerirdischen, in fließendem California-Englisch kommunizieren. Es wurde erklärt, dass Captain Kirk und seine Mannschaft winzige, computerisierte Universal-Übersetzer mit sich führten, die die Gehirnströme der Außerirdischen scannen und gleichzeitig deren Gedanken in die entsprechenden englischen Begriffe umformulieren konnten. Science-Fiction natürlich.

Aber auch die beste Science-Fiction ist gewohnheitsgemäß von prophezeiender Natur. Viele sind der Meinung, dass die aufklappbaren Kommunikatoren aus der ersten Serie von Star Trek als Inspiration für das Design der Klapphandys diente. Was allerdings noch unheimlicher ist: Mehrere Armee- und Rüstungsbetriebe arbeiten an der Herstellung von Hochenergie-Laserwaffen, die mit den Strahlenwaffen aus Star Trek eine auffallende Ähnlichkeit aufweisen. Wie lange wird es also noch dauern, bis automatische Simultan-Übersetzungen zur Norm werden und der langweilige Sprachunterricht an Schulen als überflüssig erklärt wird?

Vielleicht nicht so lange, wie es Sprachlehrern, Dolmetschern und anderen Berufsgruppen, die mit der mangelnden Verständigung anderer ihren Lebensunterhalt verdienen, lieb wäre. Laut verschiedener Verlautbarungen von vielseitigen Quellen wie zum Beispiel der mächtigen Microsoft Corporation liegen betriebsfähige, wenn auch noch nicht einwandfrei funktionierende Geräte für Simultanübersetzungen in greifbarer Nähe.

Im Sommer stellte Will Powell, ein Erfinder aus London, ein System vor, das beide Seiten einer Unterhaltung zwischen englisch-sprachigen und spanisch-sprachigen Personen übersetzt – vorausgesetzt, sie sind geduldig und sprechen langsam. Beide Gesprächspartner tragen eine Freisprechanlage, die mit dem Mobiltelefon verbunden ist, sowie spezielle Brillen, die den übersetzten Text als Untertitel anzeigen.

Im November 2012 führte NTT DoCoMO, der größte Mobilfunkbetreiber in Japan, einen Service ein, der Anrufe in den Sprachen Japanisch, Englisch, Chinesisch und Koreanisch übersetzt. Die Firmencomputer hören die Gespräche der Gesprächsteilnehmer, die sich nacheinander äußern, mit und übersetzen das Gesprochene innerhalb weniger Sekunden. Die Übersetzung wird dann je nach Geschlecht des Gesprächspartners mit einer Männer- oder Frauenstimme wiedergegeben.

Der Beitrag von Microsoft ist womöglich am faszinierendsten. Rick Rashid, Microsofts Forschungsleiter, hielt im Oktober auf einer Konferenz in Tianjin eine Rede auf Englisch, deren Schlusswort live in die hochchinesische Sprache (Mandarin) übersetzt wurde. Die Übersetzung wurde zunächst als Untertitel auf einem Overheadbildschirm angezeigt, dann mit einer computergenerierten Stimme wiedergegeben, die bemerkenswerterweise die gleiche Ton- und Klangfarbe aufwies wie die Stimme Rick Rashids.

QUE?

Obwohl sich diese drei Systeme doch sehr voneinander unterscheiden, weisen sie dieselben Probleme auf. Die erste Herausforderung, die es zu meistern gilt, ist, das Gesprochene zu erkennen und zu digitalisieren. Früher unterteilte die Spracherkennungssoftware das Gesagte in einzelne Laute, die sogenannten Phoneme. Mandarin hat etwa 25, Englisch 40 und manche afrikanische Sprachen sogar 100 solcher Phoneme. Mit Hilfe von statistischen Sprachmodellen und einem Verfahren zur Wahrscheinlichkeitsrechnung, der sogenannten Gauß’schen Mischverteilung werden vor der Rekonstruktion des Originalwortes die einzelnen Phoneme bestimmt. Diese Technik findet insbesondere bei den verwirrenden Voicemails von Firmenanrufbeantwortern Verwendung. Bei Verwendung eines begrenzten Vokabulars funktioniert diese Technik ganz annehmbar. Bei etwas freieren Texten wird jedoch mindestens jedes vierte Wort falsch übersetzt.

Rick Rashid stellte den Angestellten einige Verbesserungen vor. Zunächst einmal geht es nun darum, nicht einzelne Phoneme, sondern Sequenzen bestehend aus drei Phonemen, sogenannte „Senone“ zu bestimmen. Im Englischen gibt es mehr als 9 000 solcher Senone. Sind die Senone bestimmbar, ist es um einiges einfacher, das dazugehörige Wort zu ermitteln, als es bei Phonemen der Fall wäre.

Microsofts System zur Bestimmung von Senonen stützt sich auf neuronale Netze, eine mathematische Technologie, die an das menschliche Gehirn angelehnt ist. Bei derartigen künstlichen Netzen handelt es sich um eine aus künstlichen Neuronen zusammengesetzte Software. Jedes Neuron verarbeitet die eingehenden Signale und sendet entsprechende Ergebnissignale aus, die an die Nachfolgeneuronen weitergeleitet werden, die diesen Vorgang wiederholen. Ein solches Netz kann trainiert werden, um den Input durch Anpassung der gewichteten Verbindung zwischen den Neuronen einem bestimmten Output zuzuordnen.

Was mit Sicherheit über das menschliche Gehirn gesagt werden kann, ist, dass die Neuronen in Schichten angeordnet sind. Ein künstlich neuronales Netz imitiert diese Anordnung. Das künstlich neuronale Netz von Microsoft hat neun solcher Schichten. Die Eingabeschicht „lernt“ die Merkmale des verarbeiteten Sprachsignals, die folgende Schicht lernt die Kombination dieser Merkmale usw. So wird das Sprachsignal mit zunehmend komplexer werdender Korrelation in jeder Schicht verarbeitet. Die Ausgabeschicht versucht dann das entsprechende Wort zu erkennen. Mit Hilfe von Bibliotheken, in denen alle Senone erfasst sind, kann das richtige Ergebnis an die Eingabeschicht zurückgesendet werden, um somit die Leistungsfähigkeit des Netzes zu verbessern.

Laut den Forschern von Microsoft macht ihr auf künstlichen neuronalen Netzen basierendes Spracherkennungssystem mindestens ein Drittel weniger Fehler als traditionelle Spracherkennungssysteme – in manchen Fällen wird sogar nur jedes achte Wort falsch übersetzt. Auch Google verwendet mittlerweile auf seinen Android Smartphones künstlich neuronale Netze zur Spracherkennung (nicht zur Übersetzung). Laut Google wurde die Fehlerquote um 20 % verringert. Nuance, ein weiterer Anbieter von Spracherkennungsdiensten, berichtet von ähnlichen Verbesserungen. Da künstlich neuronale Netze den Computer stark beanspruchen können, werden die meisten Programme zur Spracherkennung und Übersetzung (auch die von Microsoft, Google und Nuance) in leistungsstarken Netzwerken, die über Smartphones oder Homecomputer zugänglich sind (Clouds), angewandt.

QUOI?

Die Spracherkennung stellt jedoch nur den ersten Teil des Übersetzungsprozesses dar. Ebenso wichtig ist es, das Gelernte nicht nur in fremdsprachliche Wörter umzuwandeln (was sich aufgrund der in allen Sprachen vorkommenden Mehrdeutigkeit von Wörtern und der Tatsache, dass einige Begriffe schlichtweg nicht zu übersetzen sind, schon als schwierig genug erweist), sondern in Sätze. Sätze folgen meist unterschiedlichen Grammatikregeln und weisen somit unterschiedliche Wortstellungen auf. Also selbst wenn die Wörter eines Satzes im Englischen bekannt sind, könnte es sein, dass computerisierte Sprachdienste hochtrabende oder lustige Übersetzungen anfertigen.

Das System, das Google für seine Übersetzer-Smartphone-App und seinen Webservice verwendet, ist Crowdsourcing. Das System vergleicht den zu übersetzenden Text mit Millionen von Sätzen aus der Software und wählt den Satz aus, der am meisten dem Originalsatz entspricht. Das System von Jibbigo, dessen Übersetzer-App für Reisende das Ergebnis von Forschungen an der Carnegie Mellon University ist, funktioniert auf eine ähnliche Art und Weise. Allerdings bezahlt Jibbigo Nutzer in Entwicklungsländern für das Korrigieren von Fehlern, in den in ihrer Muttersprache angefertigten Übersetzungen. Dennoch können die grundlegenden Schwierigkeiten der Sprache bewirken, dass Experten für maschinelle Übersetzungen einen Hauch von Weltschmerz empfinden.

So hat zum Beispiel der schnelle und einfach zu bedienende Service von NTT DoCoMO zum Übersetzen von Anrufen Schwierigkeiten mit dem Übersetzen von Gesprächen, die über höfliche Floskeln hinausgehen. Und das, obwohl der Service sich ebenfalls eines künstlichen neuronalen Netzes bedient. Präzise Übersetzungen sind nur bei kurz formulierten Sätzen möglich, und selbst dann kommt es noch häufig vor, dass Wörter nicht richtig übersetzt werden.

Microsoft setzt darauf, dass die Nutzer weniger nachtragend sind, wenn die Übersetzung des Gesprächs mit der Stimme des Sprechers wiedergegeben wird. Microsofts neues System kann mittels einer 1-stündigen Analyse der Aufnahmen die charakteristische Klangfarbe einer Stimme enkodieren, um anschließend eine synthetische Stimme mit einem ähnlichen Frequenzbereich zu erzeugen.

Ein universeller Übersetzer, der ausschließlich in Sitzungssälen funktioniert, wäre für Reisende sowohl intergalaktisch als interkontinental nur von begrenztem Nutzen. Will Powells System zur Übersetzung von Gesprächen wird überall funktionieren, wo es Handyempfang gibt. Das Gesprochene wird über ein Headset in die Spracherkennungssoftware eines in der Nähe befindlichen Laptops eingelesen. Das Ergebnis wird dann über das Mobilfunknetz an die Online-Übersetzungsmaschine von Microsoft weitergeleitet.

Ein großes Problem beim Übersetzen von Gesprächen liegt darin, festzustellen, wer gerade spricht. Will Powells System versucht nicht, die Stimme sofort zu erkennen, um den Sprecher zu bestimmen, sondern lässt das Gesprochene zunächst durch zwei Übersetzungsmaschinen gleichzeitig laufen: Eine Übersetzungsmaschine für Übersetzungen aus dem Englischen ins Spanische und eine für Übersetzungen aus dem Spanischen ins Englische. Anhand dieser Übersetzungen, von denen wahrscheinlich nur eine Sinn ergeben wird, entscheidet das System, wer gerade spricht und zeigt dann die Übersetzung in der Spezialbrille der anderen Person an.

Da Powells System gegenwärtig nur in Verbindung mit Headsets, Cloud-Netzwerken und Laptop genutzt werden kann, handelt es sich hierbei doch eher um einen Prototypen. Die Systeme für „Einsprecher“-Übersetzungen hingegen sind fortgeschrittener. Die ausgereifteste Technik wird zur Zeit von Jibbigo angeboten. Jibbigo ist es gelungen, ein Spracherkennungssystem und einen 40 000 Wörter umfassenden Wortschatz in einer App unterzubringen, die auf den Smartphones von heute ohne jegliche Internetverbindung verwendet werden kann.

NANI?

Einige Probleme sind jedoch nicht zu lösen. In der realen Welt reden die Menschen durcheinander, verwenden umgangssprachliche Ausdrücke oder unterhalten sich auf lärmenden Straßen. All diese Faktoren können selbst dem besten Übersetzungssystem Probleme bereiten. Auch wenn es noch einige Jahre dauern kann, bis Gespräche wie in Star Trek zum Alltag werden, scheinen universelle Übersetzer dennoch die in den Filmen vorkommenden Strahlenwaffen, Teleportationen und Warp-Antriebe Wirklichkeit werden zu lassen.

Schnelles Angebot