Training und Herausforderungen der Neuronalen MÜ

Neuronale maschinelle Übersetzung erreicht mit öffentlichen Angeboten (Software as a Service) wie DeepL eine stetig wachsende Nutzerzahl und erfreut sich dank der teils herausragenden Übersetzungsqualität auch wachsenden Vertrauens in die Technologie. Das Angebot von DeepL, Google & Co stößt jedoch dort an seine Grenzen, wenn sehr spezifische Textinhalte (Domänen) des Nutzers übersetzt werden sollen, die nicht in das Training der öffentlichen Systeme eingeflossen sind. Hier muss der Nutzer seine Texte in die Hand nehmen, um eine sog. domänenspezifische Engine mit dem System eines MÜ-Anbieters zu trainieren. Wir geben Ihnen einen Überblick, was hierzu nötig ist und wo in der NMÜ noch Entwicklungsbedarf besteht.

Terminologie

Terminologie trägt nicht nur Firmenidentität und Stil über den Text nach außen, sondern ist auch zentrales Mittel, um spezifische Benennungskonventionen verschiedener Domänen (z. B. Fachbereiche wie Marketing, Entwicklung oder Wissensgebiete wie Medizin, Recht, IT) im Text umzusetzen.

Im Gegensatz zur statistischen MÜ, bei der sich Benennungen im zu übersetzenden Text mit gewünschten Zielübersetzungen aus einer Termbank markieren lassen, hat die NMÜ noch keine verlässliche Methode gefunden, Wunschbenennungen in der Übersetzung zu erzwingen. Ansätze sind natürlich vorhanden, jedoch ist das Ergebnis nicht immer verlässlich.

Bis es soweit ist, muss die gewünschte Terminologie also über das Trainingskorpus (Menge von Satzpaaren für Ausgangs- und Zielsprache) und die darin verwendeten Benennungen umgesetzt werden.

Damit dies funktioniert, ist vor allem eine konsistente Verwendung von Benennungen zu beachten. Hierbei unterstützen Authoring-Tools in Verbindung mit domänenspezifischen Termbanken. Verfügt der Nutzer noch nicht über eine Terminologie, kann diese z. B. über eine initiale Termextraktion erstellt werden.

Text & Training

Neben der Terminologie spielen 3 weitere Faktoren eine wichtige Rolle für den Grad der Anpassung einer MÜ-Engine (Engine=trainiertes MÜ-System) an ein bestimmtes Themengebiet:

1.       Umfang und Qualität der Trainingstexte

Die Zusammenstellung des Korpus (Trainingstexte für Ausgangs- und Zielsprache) vor dem Training bildet neben einer sehr guten Textqualität die wichtigste Voraussetzung für eine erfolgreiche Domänenanpassung der Engine.

Nach der Identifikation von allgemeinsprachlichen und fachspezifischen Texten müssen die Umfänge der Textanteile für das Training gewählt werden.  Dies geschieht ggf. unter Zuhilfenahme von weiterem Textmaterial des MÜ-Anbieters und hat zum Ziel, eine Anpassung an das Fachgebiet bei gleichzeitiger Offenheit für allgemeinsprachliche Übersetzungen zu garantieren.

Viele Anbieter stellen hierzu Textmaterial in allgemeinen Wissensgebieten wie z. B. Medizin und Recht zur Verfügung. Unausgewogene Textanteile können zu einer Überanpassung (Overfitting) einer Textkategorie und somit zu schlechten Übersetzungsergebnissen führen. Mittels Suchanfragen lassen sich auf Basis einer Terminologie auch weitere domänenspezifische Texte aus dem Internet oder weiteren Quellen zusammenstellen.

2.       Vorverarbeitung

Neben einer sprachlich einwandfreien Qualität der Texte muss für die Weiterverarbeitung im Training auch die formale Einheitlichkeit der Texte gewährleistet sein.

Hierzu gehört die konsistente Verwendung landesspezifischer Datumsformate, Währungs- und Maßangaben sowie die Löschung von Satzanteilen, die im Training nicht verwendet werden können. Rechtschreibkorrekturen und eine Terminologieprüfung helfen, übersehene Fehler zu entfernen und unerwünschte oder nicht konsistente Terminologie anzupassen.

Letztlich stellt die Vorverarbeitung auch sicher, dass alle Sätze im Trainingskorpus aligniert sind, d. h. eine eindeutige Zuordnung in den Sprachpaaren besitzen.

3.       Der Trainingsprozess

Im Gegensatz zur Auswahl und Zusammenstellung der Trainingstexte hat der Endnutzer auf den eigentlichen Trainingsprozess bei SaaS-Systemen keinen Einfluss.

Dieser ist abhängig vom eingesetzten NMÜ-Framework (Umsetzung von neuralen Netzen in einer bestimmten Programmiersprache) und der spezifischen Kombination von dutzenden Trainingsparametern. Diese bestimmen u. a. welche Textanteile wie oft durch das Netzwerk geschickt werden, damit die Gewichtungen innerhalb des Netzes im Hinblick auf die eingesteuerten Satzpaare angepasst werden.

 

Inkrementelles Training einer NMÜ-Engine mit allgemeinsprachlichem (dunkelblau) und domänenspezifischem (hellblau) Textanteil.

 

Stellen Sie sich hier ein Kind vor, das anhand der Dialoge in seiner Umgebung herausfinden muss, was korrekte Übersetzungen in der jeweiligen Sprache sind.

Es gibt unzählbare Kombinationen von Netzwerktypen, Parametern und statistischen Verfahren, die die Trainingszeit verkürzen und Qualität der NMÜ verbessern sollen. Um praktikable Methoden zu finden, müssen daher mitunter sehr viele Testsysteme durch den Hersteller erstellt und optimiert werden. Hinzu kommt, dass ständig neue Frameworks entwickelt werden, die für ausgedehnte Tests an die bestehende Systemumgebung angepasst werden müssen.

Das System im eigenen Haus

Können Services in der Cloud aus Sicherheitsgründen nicht eingesetzt werden, steht der Anwender vor der Herausforderung, aus der Masse der meist unter Open-Source-Lizenz stehenden Frameworks das richtige für den Hausgebrauch (on premise) auszuwählen.

So hat die Programmiersprache z. B. Einfluss auf die Systemgeschwindigkeit und Modifizierbarkeit durch hausinterne und  -externe Softwarespezialisten.

Eine weitere Voraussetzung schneller Trainings stellt auch der Einsatz von Grafikkarten dar, die imstande sind, hohe Rechenanforderungen zu erfüllen.

Vor dem Produktiveinsatz ist es erforderlich, einen gut abgestimmten Trainings- und Testablauf zu haben, in dem Fehlertypen erfasst und von einem qualifizierten Anwenderkreis zum Zweck der Systemoptimierung an die Systemverantwortlichen weitergeleitet werden.

Möchten Sie maschinelle Übersetzung nutzen oder im eigenen Unternehmen einsetzen? Wir erstellen individuelle Konzepte zur Systemintegration und unterstützen beim Training und Optimierung Ihrer Engines. Sprechen Sie uns an!

Related Posts