SMÜ, NMÜ, adaptive MÜ, PEMÜ…

Jeder, der sich mit dem Thema Maschinelle Übersetzung (MÜ) auseinander gesetzt hat, wird dabei vermutlich über mindestens eine der folgenden Abkürzungen gestolpert sein: SMÜ, NMÜ und PEMÜ. Aber wofür stehen diese Abkürzungen und ihre englischen Pendants SMT, NMT und PEMT eigentlich?

Während diese Frage eingefleischten Übersetzungswissenschaftlern vermutlich nur ein müdes Lächeln abgewinnt, erschließt sich Laien die Bedeutung der Abkürzungen vermutlich nicht sofort. Sie spielen jedoch eine immer größere Rolle in der Übersetzungsindustrie. Dieser Blog-Beitrag soll daher als kurzer Guide durch den aktuellen Abkürzungsdschungel der Übersetzungswelt dienen.

SMÜ – die Statistische

Beim SMÜ-Ansatz handelt es sich um die Statistische Maschinelle Übersetzung. Die Übersetzungen eines SMÜ-Systems beruhen auf Wahrscheinlichkeiten für Wortübersetzungen und Wortfolgen. Diese Wahrscheinlichkeiten fließen dann in ein Übersetzungs- und ein Sprachmodell ein. Berechnet werden diese Wahrscheinlichkeiten auf der Basis großer mono- und bilingualer Textkorpora. die repräsentativ für den Anwendungsfall der SMÜ-Engine sind. Da SMÜ-Systeme Sequenzen von Wörtern übersetzen, wird der Ansatz auch als phrasenbasiert bezeichnet (Phrasenbasierte Statistische Maschinelle Übersetzung). Die Phrasenzentriertheit ist der größte Schwachpunkt des SMÜ-Ansatzes: Sie führt dazu, dass syntaktische Abhängigkeiten in Sätzen unter Umständen nicht korrekt erfasst werden. Die Lesbarkeit der Übersetzungen ist daher gerade bei längeren Sätzen nicht sehr gut.

NMÜ – die Vernetzte

Der zweite und aktuelle MÜ-Ansatz ist bereits seit 2015 das dominierende Thema in der Übersetzungsindustrie. Es handelt sich um die Neuronale Maschinelle Übersetzung, kurz NMÜ. Im Gegensatz zu SMÜ arbeiten NMÜ-Systeme auf der Grundlage neuronaler Netze. Diese Netze gehören verschiedenen Netzmodelltypen an, die auch in anderen Bereichen des Machine Learnings zur Klassifikation von Daten Verwendung finden. Im Gegensatz zur SMÜ nutzt die NMÜ abstrakte Repräsentationen von Wörtern, die sogenannten „word embeddings“. Auf diese Weise fließen mehr Kontextinformationen in die Berechnung einer Übersetzung ein. So wird auch der Gesamtkontext einzelner Wörter stärker berücksichtigt. Das führt dazu, dass die generierten Übersetzungen grammatikalisch und stilistisch wohlgeformt sind. Aber Vorsicht: Auch sehr gut lesbare Sätze weisen nicht selten inhaltliche Abweichungen (z.B. Auslassungen oder Hinzufügungen) zum Ausgangssatz auf!

Adaptive MÜ – die Lernende

Und was bedeutet nun „Adaptiv“ im Zusammenhang mit der MÜ? Das Adaptieren bezieht sich im Rahmen der MÜ auf die Anpassung einer Engine an Nutzereingaben. Genauer: Die MÜ-Engine passt sich an die korrigierte Version einer reinen (rohen) maschinellen Übersetzung an, die aus derselben Engine stammt. Grundsätzlich kann man jede trainierbare Engine mit neuen oder korrigierten Übersetzungen optimieren. Im Normalfall passiert dies, wenn sich eine kritische Menge neuen Trainingsmaterials angehäuft hat. Die Engine wird dann mit den neuen Daten trainiert und ist somit auf die Nutzereingaben angepasst. Im Umfeld von Übersetzungstools versteht man unter adaptiver MÜ jedoch im Regelfall Folgendes: Die Engine passt sich während des Übersetzungsprozesses an die Nutzereingaben laufend an. Dabei muss der Nutzer explizit kein Training anstoßen. Das System ist somit in der Lage, während des Einsatzes zu „lernen“. Und Schritt für Schritt den Schreibstil und die Terminologiewahl des Übersetzers zu übernehmen.

Und wofür steht PEMÜ?

Wie bereits angedeutet, arbeiten MÜ-Systeme nicht vollkommen fehlerfrei. Daher muss man die MÜ-Ausgaben beider Systeme nachbessern. Dieser Vorgang nennt sich Post-Editing Maschineller Übersetzung, kurz PEMÜ. In der Übersetzungsindustrie kommt dem eine stetig wachsende Bedeutung zu! Für PEMÜ existieren verschiedene Abstufungen. Sie kommen in Abhängigkeit der geforderten finalen Übersetzungsqualität zum Einsatz. Die ISO 18587:2017 unterscheidet zwischen Light Post-Editing (LPE) und Full Post-Editing (FPE). Heutzutage wird PEMÜ i.d.R. in einem interaktiven Kontext durchgeführt. Dabei wird ein MÜ-System direkt in ein Übersetzungssystem eingebunden, um segmentweise Vorübersetzungen zu generieren. Anschließend kann der Übersetzer diese Vorübersetzungen unmittelbar nachbessern.

Es bleibt abzuwarten, welche Abkürzungen und deren spannende Bedeutungen die (maschinelle) Übersetzungswelt in Zukunft für uns bereithält.

Beitragsbild: Lysander Yuen auf unsplash.com

Was macht eigentlich ein Post-Editor?

VonKerstin Berns

November 8, 2019

Die Übersetzungswelt wird immer interaktiver. Neben Translation Memory und Terminologie stehen dem Übersetzer nun oft auch Übersetzungsvorschläge aus der Maschine zur Verfügung. Wie können Mensch und Technik erfolgreich zusammenarbeiten? Was ist Post-Editing und welche Fähigkeiten muss ein Post-Editor mitbringen bzw. erwerben? Das wollen wir in diesem Blogbeitrag erläutern.

Von NLP, Chatbots und Sprachassistenten

VonKerstin Berns

August 23, 2018

Natural Language Processing, kurz "NLP", bedeutet so viel wie „maschinelle Verarbeitung natürlicher Sprache“. Sie ermöglicht unter anderem die Interaktion zwischen Mensch und Maschine (Stichwort: Sprachassistenten). Wir bei blc haben täglich mit Anfragen zu diesen Themen zu tun. Aber wo wird NLP überall eingesetzt und wie funktionieren diese Technologien grundsätzlich? Das lesen Sie in meinem Blog.