NEUronale MÜ und die Crowd

NEUronale MÜ und die Crowd

Der Zug der Neuronalen Maschinellen Übersetzung (NMÜ) nimmt rasant Fahrt auf und die NMÜ ist längst in Deutschland angekommen. Dazu tragen sowohl die verbreitete Nutzung des NMÜ-Aushängeschilds DeepL bei als auch das zunehmende Interesse kleiner und großer Unternehmen, spezialisierte kundenspezifische MÜ fest in den Übersetzungsworkflow zu integrieren. In meinem Blog gehe ich auf alltägliche Fragestellungen zur Dienstleister-Landschaft, Trainingsmöglichkeiten domänenspezifischer Engines und der Umsetzung von Post-Editing-Prozessen ein.

Wie unser Besuch auf der MT Summit 2019 in Dublin gezeigt hat, ist der Übersetzer und seine Rolle im NMÜ-Workflow endlich prominenter in Evaluationsstudien vertreten. Denn: Nur wenn maschinelle Übersetzung und Post-Editing fachlich und technisch ineinander greifen, kann das Potenzial der NMÜ voll ausgeschöpft werden. Die Produktlandschaft spiegelt diese Entwicklungen wider und stellt sich zunehmend auf die Integration des Post-Editors ein. Neben der Post-Editing Integration trägt auch das Sharing von NMÜ-Engines auf anbieterspezifischen Plattformen zur beschleunigten Umsetzung von NMÜ-Prozessen bei.

Der Crowd-Gedanke stellt in beiden Fällen die treibende Idee dar, die künftig auch weitere Aspekte der maschinellen Übersetzung beflügeln wird.

Aus der Küche der NMÜ-Entwickler

Ein Dauerbrenner unter den NMÜ-bezogenen Fragen ist immer wieder die zu erwartende Qualität. Wichtige Einflussfaktoren: Menge und Qualität des Trainingsmaterials sowie Trainings- und Auswertungsmöglichkeiten des genutzten MÜ-Systems. Die zugrunde liegende Technik orientiert sich anbieterübergreifend am Status Quo: Die Entwicklergemeinde, die für den Fortschritt der NMÜ-Verfahren verantwortlich ist, operiert im Sinne des Open-Source Gedankens. Deshalb profitiert die gesamte Systemlandschaft sofort von effizienten Neuentwicklungen der Entwickler-Crowd. Diese werden von MÜ-Dienstleistern auch laufend getestet und bei erfolgreichen Ergebnissen eingesetzt.

Seit geraumer Zeit bewährt sich auf Ebene der NMÜ-Modelle die Transformer-Architektur. Aufgrund der parallelen Verarbeitungsweise und der Berücksichtigung des erweiterten lexikalischen Kontexts im Satz stellt die Architektur immer noch Grundlage vieler NMÜ-Systeme dar, die effizientes Training mit hoher Qualität verbinden. Ausreichendes und gutes Trainingsmaterial wird auch hier natürlich vorausgesetzt. Raum für Optimierung gibt es jedoch noch genug: Auch wenn die satzinterne Erkennung von Abhängigkeiten schon gut funktioniert ist bei der Interpretation terminologischer Inhalte bei der Übersetzung immer noch ein Kontextfenster erforderlich, das über den jeweiligen Satz hinausgeht. Die dokumentenbasierte NMÜ, die auch den Kontext vorausgegangener Sätze nutzbar macht, ist deshalb auch einer der NMÜ-Entwicklungsschwerpunkte für die kommenden Jahre. Darüber hinaus erscheinen regelmäßig neue Forschungsarbeiten zur Erweiterung der Transformer-Architektur und weiterer Ansätze, die eine stetige Optimierung der NMÜ-Qualität erwarten lassen.

Neue Produktfunktionen

Die Kernfunktionalitäten von MÜ-Systemen – Training und Übersetzung – werden durch die MÜ-Dienstleister zunehmend mit Komponenten erweitert, die z.B. die Wiederverwendung von Engines und deren Integration in den Übersetzungsprozess erleichtern.

So wurde der Post-Editing-Prozess bei KantanMT in eine eigenständige Cloud-Applikation namens Kantan SkyNet ausgelagert, die es internen Projektgruppen aber auch freischaffenden Post-Editoren ermöglicht, von überall aus und zu jeder Zeit Post-Editing durchzuführen. Das System bedient sich eines Bezahlmodells, bei dem der Post-Editor nach der kostenlosen Registrierung auf https://app.skynet.kantanmt.com/ pro editiertem Satz entlohnt wird. Über ein Crowd-Ranking-Verfahren werden gute Übersetzungen identifiziert, was sich in höherem Rang und höherer Entlohnung für den Post-Editor widerspiegelt. Die Bezahlung erfolgt nutzergesteuert über PayPal.

Mit dem Model Studio hat SYSTRAN eine Möglichkeit eingeführt, mit der Nutzer ihre domänenspezifisch trainierten Engines auf dem SYSTRAN Marketplace anbieten können. Die so erstellten Engines können von der Marketplace-Community kostenpflichtig genutzt oder als Basis eigener spezialisierter Engines genutzt werden. Der Wiederverwendungsgedanke hat nicht nur Auswirkungen auf die Verfügbarkeit spezialisierter Engines für verschiedenste Domänen. Er schlägt sich laut SYSTRAN auch im ökologischen Fußabdruck nieder, der durch die Vermeidung unnötiger Neutrainings durch Nutzung bestehender Engines  gering gehalten wird.

Wir sind uns sicher, dass uns Post-Editing und Wiederverwendung bestehender MÜ-Engines in crowd-getriebenen Plattformen in Zukunft immer häufiger begegnen werden.

Interesse an neuronaler Übersetzung?

Da das Thema neuronale Übersetzung, die Qualitätserwartungen, die Vielzahl an MÜ-Anbietern sowie kluge Prozesseinbindung inklusive Post-Editing unser tägliches Brot sind, bieten wir im April ein kostenfreies Webinar mit dem Titel ‚NMÜ: Systeme, Prozesse und Trends‘ an. Der konkrete Termin wird noch bekannt gegeben. Sie möchten über aktuelle Themen und unsere kostenfreien Info-Webinare informiert bleiben? Hier geht’s zur Newsletter-Anmeldung.

Und natürlich unterstützen wir Sie gerne bei Ihren konkreten MÜ-Vorhaben, einfach Kontakt aufnehmen!

Related Posts