Gesucht: neue Metriken für die Neuronale MÜ

In der Übersetzungswelt haben momentan alle nur Augen für: DeepL, die neuronale Übersetzungsmaschine von Linguee, die von sich behauptet, schneller und akkurater zu sein als die Maschinen von Google, Microsoft und Co. Kann es wirklich sein, dass ein Netzwerk, das innerhalb eines halben Jahres aus dem Boden gestampft wurde, etablierte Konkurrenten in die Knie zwingt? Oder ist alles bloß ein großer Marketingstreich?

Was macht DeepL besonders? Und wie bestimmt man die Qualität neuronaler maschineller Übersetzung (NMÜ)? Das wollen wir in diesem Blogeintrag herausfinden.

Das Kölner Unternehmen hat einen entscheidenden Vorteil: seit Jahren sammelt es mit dem Online-Wörterbuch Linguee Textbausteine und deren Übersetzungen. Eine Milliarde Sätze bildeten die Basis und wurden für das Training der neuronalen Netze verwendet. Und es wäre kein neuronales Netz, wenn es nicht stetig selbstständig dazulernen würde. Dabei helfen die Nutzer fleißig mit, indem sie die Maschine mit Anfragen „füttern“.

Eine kleine Einführung in neuronale Netze gibt Christian Eisold in Neuronale maschinelle Übersetzung – Mysterium?

Momentan übersetzt DeepL in und aus sieben Sprachen: Deutsch, Englisch, Französisch, Spanisch, Italienisch, Polnisch und Niederländisch. Zurzeit ist der Übersetzer nur im Browser verfügbar, eine API soll in den kommenden Monaten zur Verfügung stehen. Auch ein mobiler Zugang ist geplant.

Und was unterscheidet denn nun DeepL von beispielsweise Google Translate? Es ist eine Kombination aus mehreren Eigenschaften:

1. Convolutional Neural Networks

Google setzt sogenannte rekurrente neuronale Netze ein, DeepL dagegen Convolutional Neural Networks. Interessant ist hierbei, dass Convolutional Neural Networks über viele Schichten verfügen, wodurch die Wörter eines Satzes parallel und nicht nacheinander verarbeitet werden können. Dadurch ergibt sich ein Geschwindigkeitsvorteil.

2. Ein Aufmerksamkeitsmechanismus auf mehreren Ebenen

Die gravierendere Überlegenheit scheint in einem Aufmerksamkeitsmechanismus zu stecken, der auf mehreren Ebenen gleichzeitig wirken kann und damit einen Vorsprung gegenüber den Aufmerksamkeitsmechanismen von z. B. Google hat. So kann zum Beispiel ein Wort am Satzende die Form eines Wortes am Satzanfang bestimmen. Es geht Zeit verloren, wenn das Netzwerk erst am Ende des Satzes feststellt, dass es am Anfang die falsche Wortform gewählt hat und den Prozess mit dieser Erkenntnis neu starten muss. Die Aufmerksamkeitsmechanismen überwachen solche potenzielle „Stolperfallen“ und beseitigen sie rechtzeitig.
Aus den besseren BLEU-Scores der DeepL-Übersetzungen folgern Forscher: Wird ein solcher Mechanismus auf verschiedenen Ebenen gleichzeitig eingesetzt, können die Netzwerke einzelne Aspekte der Wortbedeutung genauer extrahieren.

3. Beam-Search-Algorithmus

DeepL setzt einen Beam-Search-Algorithmus ein, der die Wahrscheinlichkeiten für alle möglichen Sätze multipliziert, aber bei jedem Schritt nur eine kleine Gruppe wahrscheinlicher Sätze auswählt. Diese Sätze werden dann jeweils um ein Wort ergänzt, bis der Satz in sich stimmig ist. Dadurch kann das System auch mal ein leicht unwahrscheinlicheres Wort auswählen, das jedoch zu dem Rest des Satzes gut passt.

Wer oder was entscheidet, ob eine Übersetzung „gut“ ist?

In einem Testlauf wurden 100 Sätze von diversen neuronalen Übersetzungssystemen übersetzt und professionellen Übersetzern zur Auswertung vorgelegt, ohne dass diese wussten, welche Übersetzung von welchem System stammt. Laut der Pressemitteilung von DeepL bevorzugten die Tester die DeepL-Übersetzungen mit einem Faktor von 3:1 gegenüber den restlichen Übersetzungen.
Eine weit verbreitete Methode zur automatischen Auswertung von Übersetzungsqualität ist BLEU (Bilingual Evaluation Understudy). BLEU vergleicht maschinell und human übersetzte Texte und nutzt dafür Referenzübersetzungen. Ziel ist es, eine schnelle Methode zu haben, mit der gemessen werden kann, was ein Mensch von der Übersetzung halten würde. Die Auswertung erfolgt auf rein lexikalischer Ebene. Je mehr Textbausteine mit der Referenz übereinstimmen, desto besser der BLEU-Score. BLEU wurde ursprünglich für die Auswertung von statistischen maschinellen Übersetzungen (SMÜ) entworfen und funktioniert hier auch sehr gut, denn auch die SMÜ arbeitet auf der lexikalischen Ebene. Sie ermittelt die Wahrscheinlichkeit für konkrete Wortformverbindungen. Auch hier erreichen die Übersetzungen von DeepL gute Ergebnisse.

Doch ist der BLEU-Score für die Anwendung auf Ergebnisse der neuronalen maschinellen Übersetzung geeignet?

Die neuronale maschinelle Übersetzung ist in der Lage, sich flexibel an neue Eingabesätze anzupassen. Sie repräsentiert einzelne Wörter als Bündel von Informationen und erkennt den Kontext eines Wortes im kompletten Satz sowie weitere grammatikalische Eigenschaften. Das kann dazu führen, dass die Ergebnisse der NMÜ inhaltlich korrekt sind und beim Lesen natürlich klingen, jedoch halten sie sich nicht immer exakt an die Lexik der Referenzübersetzung. Ein professioneller Übersetzer würde die Ergebnisse dann trotzdem als qualitativ hochwertig bewerten, bei BLEU könnten diese Ergebnisse jedoch „durchfallen“.
Außerdem ist der Output von NMÜ (untereinander) von System zu System unterschiedlich, wobei sich phrasenbasierte Systeme im Output immer sehr ähneln.
NMÜ-Systeme ordnen Wörter innerhalb eines Satzes neu an, lassen auch mal Wörter weg oder fügen neue hinzu, um den Satz der Zielsprache anzupassen. Außerdem liefern sie bessere Ergebnisse bei der Beugung von Wörtern.

Fazit

Auch wenn die Ergebnisse neuronaler maschineller Übersetzung gerne mithilfe von BLEU gemessen werden, ist diese Evaluationsmethode vom Grundkonzept her eher ungeeignet. Metriken wie METEOR, die auch Paraphrasen und Synonyme berücksichtigen, sind für die Evaluation von NMÜ-Systemen besser geeignet, jedoch finden sie im Vergleich zu BLEU eher selten Anwendung. In Zukunft werden wir neue automatische Metriken brauchen, die den menschlichen Einschätzungen näher kommen. Hierzu müssten diese Evaluationsmetriken über Analysekomponenten verfügen, welche noch nicht standardisiert sind, an deren Entwicklung aber selbstverständlich bereits gearbeitet wird. Auf die menschliche Evaluation durch Muttersprachler können wir jedoch erstmal nicht verzichten. Kirti Vashee schlägt in seinem Blog eMpTy Pages vor, dass eine Organisation wie TAUS z. B. ihr DQF Framework nutzen könnte, um eine Variante zu entwickeln, die die elementaren Eigenschaften von NMÜs berücksichtigt.

Beitragsbild: Foto von William Bout auf Unsplash.