blc auf dem MT Summit 2019

blc auf dem MT Summit 2019

Christian Eisold war für uns vom 19.08. bis zum 23.08.2019 auf dem MT Summit in Dublin und hat sich dort in Workshops, Vorträgen und Gesprächen zum aktuellen Stand der maschinellen Übersetzung informiert. Neben den akademischen Beiträgen des sogenannten Research Tracks, die sich spezifischen Fragestellungen zur technisch-linguistischen Umsetzung von Übersetzungsproblemen widmen, konnte vor allem der Translator Track mit vielen Beispielen aus der Praxis von Übersetzungsdienstleistern, Einblicke in die Anforderungen moderner Übersetzungsworkflows mit MÜ-Komponenten bieten.

Spezialisierte Testsets und MÜ für ressourcenarme Sprachen

Zum Einstieg der Woche, die sich hauptsächlich im Konferenzzentrum Helix der Dublin City University abspielte, habe ich zwei Workshops besucht, die sich mit zentralen Fragen zu Training und Evaluation von MÜ-Engines befassen. Wie können Testsets zur Evaluation spezifischer linguistischer Phänomene zusammengestellt werden? Und wie kann die MÜ für Sprachpaare verbessert werden, für die nur sehr wenige Ressourcen und Trainingsmaterial vorhanden sind?

Zur Auswahl von aussagekräftigen Testsets ist es von entscheidender Bedeutung, die zu testenden Phänomene systematisch zu erfassen, gegebenenfalls auch selbst zu erzeugen, da sich die Phänomene in der Regel nicht gleichmäßig verteilt in den Trainingsdaten finden lassen.

Die Erstellung hochqualitativer NMÜ ist für ressourcenarme Sprachen (z. B. Irisch, Galicisch, Magahi) immer noch ein großes Problem. Da der zugrundeliegende neuronale Ansatz auf möglichst viele digitalisierte Textinformationen angewiesen ist, zielen Methoden auf sprachspezifische Verbesserungen der Engines, faktorisierte MÜ auf Basis von Wortart-Informationen, das Zero-Shot-Verfahren und elaborierte Methoden für das Finden von Paralleltexten im Internet ab.

Andere Workshops des MT Summits befassten sich mit Fragestellungen zur maschinellen Übersetzung von literarischen Texten oder ethischen und nachhaltigen MÜ-Workflows.

 

The Helix

MÜ in der Praxis: Konsequenzen für den Post-Editor

Auffallend hoch war der Anteil von Übersetzungsdienstleistern auf dem MT Summit. Der disruptive Einfluss der NMT ist spätestens jetzt beim Großteil der LSPs ins Bewusstsein gerückt. Größere LSPs, allen voran Unbabel, warteten mit mehreren Beiträgen zum MÜ-Produktiveinsatz und einer regen Forschungspraxis zum Thema MÜ-Integration auf.

Generell lässt sich festhalten, dass die Rollen von Übersetzern und Post-Editoren in der Forschung immer mehr berücksichtigt werden. Der ökonomische Einsatz von CAT-Tools und deren Entwicklung sowie die Messung der kognitiven und effektiven Aufwände beim Post-Editing stehen besonders im Fokus. Dass sich die Forschung nicht allein mit der Optimierung von Algorithmen beschäftigen kann, zeigte auch ein Vortrag, der sich mit der Einführung von in Unternehmen befasste. Der Zeitfaktor bei der MÜ-Integration, samt Adaption, Deployment und Learnings, wird in Unternehmen häufig unterschätzt. Der Grund: Viele Rollen und Workflows sind von der Umstellung betroffen. Die Auswahl der richtigen MÜ-Technologie richtet sich dabei nach dem Geschäftsmodell des Unternehmens: Welche Content-Typen, Sprachpaare und CAT-Tools kommen zum Einsatz?

Auch die neuronal getriebenen Fortschritte in der Spracherkennung haben einen potenziellen Einfluss auf das Post-Editing. Laut einiger Interviews mit professionellen Übersetzern werden Spracherkennungssysteme im Übersetzungsprozess schon vielerorts eingesetzt. Der Schritt zum sprachgesteuerten Post-Editing ist also lediglich ein technologischer. Das Post-Editing über Befehle (z. B.: „Ersetze x durch y“) oder über Satzeingaben wird in nicht allzu ferner Zukunft sicher auch Einzug in CAT-Tools halten.

Selbstverständlich drängen parallel auch automatisierte Methoden zum Post-Editing in die MÜ-Praxis: Automatisiertes Post-Editing und automatisierte Qualitätsbewertung werden derzeit für das eTranslation-System der europäischen Kommission entwickelt. Das System APE-QUEST (Automated Post-Editing and Quality Estimation) ist in der Testphase mit Englisch, Portugiesisch, Französisch und Niederländisch.

NMÜ: Der Weg zur ‚Human Parity‘

Die Fragestellung, ob NMÜ bereits Ergebnisse erzielt, die mit der menschlichen Übersetzungsleistung gleichzusetzen sind, wird im Forschungs- und Anwenderumfeld weitgehend einheitlich mit Nein beantwortet. Dies liegt vor allem daran, dass lexikalische Diversität, sozio-kulturelles Hintergrundwissen, Ironie und domänenspezifische Formulierungen etc. von der MÜ bisher nicht berücksichtigt werden können. Es sind also die altbekannten Hürden, die uns mit der NMÜ auch weiterhin verfolgen.

Allerdings mit einem entscheidenden Unterschied: Die neuronale Architektur aktueller MÜ-Systeme ermöglicht es, diese Probleme auf eine neue Art anzufassen und Lösungsmethoden mit ihr zu testen und umzusetzen. Ein gutes Beispiel hiefür ist die ausgezeichnete Abschlussarbeit eines Doktoranden zur Integration von Diskurswissen in NMÜ-Modellen. Dieses Wissen optimiert die Kohärenz, Kohäsion und Konsistenz von maschinellen Übersetzungen und erweitert das MÜ-Bewusstsein gewissermaßen vom lokalen Satz bis hin zum kompletten Dokument.

Sieht man von teilweise sehr anwendungs- und sprachspezifischen Problemen der NMÜ einmal ab, zeichnet sich ein sehr positives Bild der MÜ im Übersetzungsworkflow: Praktische Post-Edit-Szenarien in Pilot- und Produktiv-Workflows belegen der NMT einen signifikanten Vorteil und einen Produktivitätszuwachs von 20% – 25%.

Das Rahmenprogramm

Neben der Vortragsreihen und Workshops kamen auf dem MT Summit 2019 das Netzwerken und Miteinander auch nicht zu kurz. Nach einem Kennenlerntreffen in den Räumlichkeiten des DCU All Hallows wurde am zweiten Konferenztag zum Gala-Dinner im Croke-Park-Stadium geladen. Bei einem Guinness konnte man im Museum des Stadions auch mehr über die beliebtesten Sportarten der Iren erfahren: Hurling und Football. Der letzte Vorabend wurde nach Dubliner Art natürlich gemeinsam in einem Pub gefeiert.

Croke Park

Der nächste MT Summit findet 2021 in Seattle statt. Wir freuen uns schon darauf, bekannte und neue Gesichter dort wiederzutreffen!

Related Posts