SMÜ, NMÜ, adaptive MÜ, PEMÜ…

Jeder, der sich mit dem Thema Maschinelle Übersetzung (MÜ) auseinander gesetzt hat, wird dabei vermutlich über mindestens eine der folgenden Abkürzungen gestolpert sein: SMÜ, NMÜ und PEMÜ. Aber wofür stehen diese Abkürzungen und ihre englischen Pendants SMT, NMT und PEMT eigentlich?

Während diese Frage eingefleischten Übersetzungswissenschaftlern vermutlich nur ein müdes Lächeln abgewinnt, erschließt sich Laien die Bedeutung der Abkürzungen vermutlich nicht sofort. Sie spielen jedoch eine immer größere Rolle in der Übersetzungsindustrie. Dieser Blog-Beitrag soll daher als kurzer Guide durch den aktuellen Abkürzungsdschungel der Übersetzungswelt dienen.

SMÜ – die Statistische

Beim SMÜ-Ansatz handelt es sich um die Statistische Maschinelle Übersetzung. Die Übersetzungen eines SMÜ-Systems beruhen auf Wahrscheinlichkeiten für Wortübersetzungen und Wortfolgen. Diese Wahrscheinlichkeiten fließen dann in ein Übersetzungs- und ein Sprachmodell ein. Berechnet werden diese Wahrscheinlichkeiten auf der Basis großer mono- und bilingualer Textkorpora. die repräsentativ für den Anwendungsfall der SMÜ-Engine sind. Da SMÜ-Systeme Sequenzen von Wörtern übersetzen, wird der Ansatz auch als phrasenbasiert bezeichnet (Phrasenbasierte Statistische Maschinelle Übersetzung). Die Phrasenzentriertheit ist der größte Schwachpunkt des SMÜ-Ansatzes: Sie führt dazu, dass syntaktische Abhängigkeiten in Sätzen unter Umständen nicht korrekt erfasst werden. Die Lesbarkeit der Übersetzungen ist daher gerade bei längeren Sätzen nicht sehr gut.

NMÜ – die Vernetzte

Der zweite und aktuelle MÜ-Ansatz ist bereits seit 2015 das dominierende Thema in der Übersetzungsindustrie. Es handelt sich um die Neuronale Maschinelle Übersetzung, kurz NMÜ. Im Gegensatz zu SMÜ arbeiten NMÜ-Systeme auf der Grundlage neuronaler Netze. Diese Netze gehören verschiedenen Netzmodelltypen an, die auch in anderen Bereichen des Machine Learnings zur Klassifikation von Daten Verwendung finden. Im Gegensatz zur SMÜ nutzt die NMÜ abstrakte Repräsentationen von Wörtern, die sogenannten „word embeddings“. Auf diese Weise fließen mehr Kontextinformationen in die Berechnung einer Übersetzung ein. So wird auch der Gesamtkontext einzelner Wörter stärker berücksichtigt. Das führt dazu, dass die generierten Übersetzungen grammatikalisch und stilistisch wohlgeformt sind. Aber Vorsicht: Auch sehr gut lesbare Sätze weisen nicht selten inhaltliche Abweichungen (z.B. Auslassungen oder Hinzufügungen) zum Ausgangssatz auf!

Adaptive MÜ – die Lernende

Und was bedeutet nun „Adaptiv“ im Zusammenhang mit der MÜ? Das Adaptieren bezieht sich im Rahmen der MÜ auf die Anpassung einer Engine an Nutzereingaben. Genauer: Die MÜ-Engine passt sich an die korrigierte Version einer reinen (rohen) maschinellen Übersetzung an, die aus derselben Engine stammt. Grundsätzlich kann man jede trainierbare Engine mit neuen oder korrigierten Übersetzungen optimieren. Im Normalfall passiert dies, wenn sich eine kritische Menge neuen Trainingsmaterials angehäuft hat. Die Engine wird dann mit den neuen Daten trainiert und ist somit auf die Nutzereingaben angepasst. Im Umfeld von Übersetzungstools versteht man unter adaptiver MÜ jedoch im Regelfall Folgendes: Die Engine passt sich während des Übersetzungsprozesses an die Nutzereingaben laufend an. Dabei muss der Nutzer explizit kein Training anstoßen. Das System ist somit in der Lage, während des Einsatzes zu „lernen“. Und Schritt für Schritt den Schreibstil und die Terminologiewahl des Übersetzers zu übernehmen.

Und wofür steht PEMÜ?

Wie bereits angedeutet, arbeiten MÜ-Systeme nicht vollkommen fehlerfrei. Daher muss man die MÜ-Ausgaben beider Systeme nachbessern. Dieser Vorgang nennt sich Post-Editing Maschineller Übersetzung, kurz PEMÜ. In der Übersetzungsindustrie kommt dem eine stetig wachsende Bedeutung zu! Für PEMÜ existieren verschiedene Abstufungen. Sie kommen in Abhängigkeit der geforderten finalen Übersetzungsqualität zum Einsatz. Die ISO 18587:2017 unterscheidet zwischen Light Post-Editing (LPE) und Full Post-Editing (FPE). Heutzutage wird PEMÜ i.d.R. in einem interaktiven Kontext durchgeführt. Dabei wird ein MÜ-System direkt in ein Übersetzungssystem eingebunden, um segmentweise Vorübersetzungen zu generieren. Anschließend kann der Übersetzer diese Vorübersetzungen unmittelbar nachbessern.

Es bleibt abzuwarten, welche Abkürzungen und deren spannende Bedeutungen die (maschinelle) Übersetzungswelt in Zukunft für uns bereithält.

Beitragsbild: Lysander Yuen auf unsplash.com

Maschinelle Übersetzung bewerten – wie und wozu?

Das Interesse an maschineller Übersetzung (MÜ) war noch nie so groß wie heute, vor allem seit der Einführung der neuronalen maschinellen Übersetzung. Wir beobachten schon lange die Entwicklungen und technologischen Neuheiten und begleiten Projekte zur Einführung von MÜ. Einige Unternehmen entwickeln mittlerweile ihre eigenen Engines (z. B. Booking.com) oder binden auf ihre Domäne abgestimmte Engines in ihren bestehenden Übersetzungsworkflow ein.

Leitfaden für Post-Editing? Ja!

VonKerstin Berns

Februar 5, 2020

Sollte man seinen Post-Editoren einen Leitfaden zur Verfügung stellen? Warum? Und reicht ein Leitfaden für alle Texte? Was sollte drinstehen? Da uns bei blc der Prozess rund um maschinelle Übersetzung und Post-Editing nicht aus dem Kopf geht, widmen wir uns diesen Fragen in diesem Blogbeitrag