Unter der Lupe: Maschinelle Übersetzung in Across

Unter der Lupe: Maschinelle Übersetzung in Across

Translation Management Systeme (TMS) sind heutzutage nicht selten mit einer Vielzahl an Konnektoren zur Integration Maschineller Übersetzungssysteme (MÜ-Systeme) ausgestattet. Dieser Teil unserer Blogreihe zeigt einen solchen Integrationsprozess am Beispiel des cloudbasierten MÜ-Systems KantanMT und des TMS Across. Wir gehen in diesem Blog zunächst auf das MÜ-System KantanMT ein und erläutern im Anschluss die Einbindung in den Übersetzungsprozess mit Across.

Immer mehr Systeme – z.B. Google AutoML – ermöglichen ihren Kunden mittlerweile das Training von Engines mit eigenen Sprachdaten. Mit zunehmender Anzahl kundenspezifischer Engines in diversen Sprachen und Fachbereichen (Domänen) müssen TMS, Konnektor und Maschinelles Übersetzungssystem reibungslos zusammenspielen, um eine flexible Integration der so genannten Engines zu ermöglichen.

How to Machine Translation?

Einfach gesagt ist die Maschinelle Übersetzung (MÜ) die automatisierte Übertragung eines Ausgangstextes in eine Zielsprache ohne menschliche Einwirkung. Zu diesem Zweck werden MÜ-Engines sowohl mit fach- oder kundenspezifischen Übersetzungseinheiten als auch mit terminologischen Daten trainiert. Bindet man die gewünschte Engine später in ein Übersetzungsprojekt ein, kann man zwischen einer automatischen Vorübersetzung oder einer interaktiven Nutzung der MÜ-Vorschläge während der Übersetzung wählen.

Trotzdem muss man stets bedenken, dass Maschinelle Übersetzung allein meist nicht die gewünschte Übersetzungsqualität erzielt. Auch wenn die MÜ-Engine selbst qualitativ hochwertige Trainingsdaten enthält. Möchte man einen Zieltext erhalten, der an individuelle oder kulturelle Gegebenheiten angepasst ist, so sollte immer ein Post-Editing (also eine Nachbearbeitung durch einen Menschen) durchgeführt werden.

KantanMT: Schweizer MÜ-Messer aus Irland

KantanMT, ein in Dublin, Irland ansässiger MÜ-Dienstleister, hatte kundenspezifisches MÜ-Training schon früh im Programm und stellt einen vielfältigen Katalog an Funktionen bereit. Diese ermöglichen sowohl MÜ-Profis als auch Einsteigern, Engines für verschiedenste Anwendungsfälle in kurzer Zeit lauffähig zu machen. Wir stellen die Hauptfunktionen von KantanMT kurz vor.

Trainingsdaten: Kantan Fleet und Kantan Library

Wer kennt es nicht? Zu wenig Sprachdaten im Haus, um eine Engine von Grund auf zu trainieren. Hier hat Kantan vorgesorgt: Die Kantan Fleet ist eine ‚Flotte’ vortrainierter Engines für diverse Domänen. Die Engines in der Flotte werden über eine Sortierfunktion nach Domänen, wie Generisch, Automotive, Finanzen, Recht, Medizin und Technik aufgelistet. Wenn eine Engine in gesuchter Domäne und Sprachpaar vorhanden ist, lässt sie sich mit einem Klick in den Trainingsbereich des Systems kopieren. Dort kann sie dann mit eigenen Sprachdaten weiter spezialisiert werden. Wenn eine Domäne nicht in der benötigten Sprachkombination vorhanden ist, hilft eine Anfrage bei Kantan weiter.

Volle Kontrolle: KantanMT Dashboard und Alias-System

Im Dashboard laufen alle KantanMT-Fäden zusammen: Organisation, Training und Aktivierung von Engines für den Einsatz in TMS, CAT-Tools und API-Schnittstellen.

Besonders wichtig für die Integration von KantanMT in TMS und CAT-Tools ist die Alias-Funktion: Jede Engine kann ein frei wählbares Label (Alias) erhalten, mit der die Engine einer Gruppe oder Domäne zugewiesen wird. Dieses Alias ermöglicht über einen Konnektor im TMS oder CAT-Tool, wie z.B. Across, die automatische Auswahl der gewünschten Engines in der korrekten Domäne. In Abbildung 1 wurden die Aliase GENERIC und LEGAL vergeben. Diese werden im TMS mit den entsprechenden Fachgebieten assoziiert.

Abbildung 1: KantanMT Dashboard mit den Aliases Generic und Legal

Maschinelle Übersetzung in Across konfigurieren

Across bietet einen großen Pool an Möglichkeiten für die Integration von Maschineller Übersetzung. So kann in den Systemeinstellungen eine Vielzahl an MÜ-Systemen gewählt und nach speziellen Anforderungen konfiguriert werden.

Neben KantanMT stehen aktuell Schnittstellen zu DeepL, Moses, SYSTRAN und Google Translate zur Verfügung. So ist man als Nutzer von Across nicht gezwungen, sich für ein spezifisches MÜ-System zu entscheiden. Man kann mit dem System arbeiten, das einem am meisten zusagt. Der Einsatz mehrerer Systeme ist ebenfalls möglich, ebenso wie die Anbindung weiterer MÜ-Engines durch den Hersteller.

Abbildung 2: Konfiguration für die Maschinelle Übersetzung in Across

In unserem Beispiel haben wir KantanMT über eine API mit dem Across Language Server verknüpft und einen optionalen Alias vergeben. Dieser fungiert hier als spezifisches Label und ermöglicht sowohl die eindeutige Identifizierung als auch die automatische Auswahl der korrekten Engine. Aliase werden später mit den zugewiesenen Fachgebieten assoziiert und verknüpft.

Aber arbeitet die Engine auch einwandfrei? Das kann man in Across bereits testen, bevor man überhaupt ein Übersetzungsprojekt anlegen muss. Über die Schaltfläche „Dienst prüfen“ kann man eine erste Übersetzungsanforderung stellen, die das MÜ-System initialisiert. Läuft die Anbindung wird daraufhin eine positive Rückmeldung ausgegeben.

Für jede so konfigurierte Engine können dann zusätzlich Sprachpaare, Systemattribute (z.B. Fachgebiet „Legal“) oder erweiterte Einstellungen in Bezug auf Matchwerte und Absatzlängen festgelegt werden. Nutzer bestimmen hier frei die individuellen Bedingungen für den Einsatz ihrer angebundenen MÜ-Engines.

KantanMT im Across-Übersetzungsprojekt

Ob eine MÜ-Engine schließlich getriggert wird oder nicht, entscheidet sich dann final beim Anlegen eines Übersetzungsprojekts.

Neben standardmäßigen Einstellungen werden im Project Wizard von Across die Projektart, z.B. Standard oder MT, sowie Projektattribute festgelegt. Letztere sind essentiell für die Verwendung der MÜ-Engine im Rahmen des Projekts.

Denn: Durch Hinzufügen des Fachgebiets, wie z.B. „Legal“ als Projektattribut wird die Verknüpfung zur konfigurierten MÜ-Engine mit dem dazugehörigen Alias hergestellt. Across erkennt die Übereinstimmung des Fachgebiets und weiß, welche MÜ-Engines für das Projekt in Frage kommen und welche auszuschließen sind.

Abbildung 3: Festlegung der Projektattribute zum Anstoßen des MÜ-Systems

Als nächstes muss das Sprachpaar festgelegt werden. Bei der Zuweisung der MÜ-Engine spielt es eine entscheidende Rolle, da es ebenso wie die Projektattribute mit der Konfiguration der MÜ-Engine übereinstimmen muss.

Soweit so gut. Aber wie kann ich sichergehen, dass auch wirklich eine MÜ-Engine für mein Projekt getriggert wird? Ganz leicht: Stimmen die Projekteinstellungen mit der Konfiguration einer MÜ-Engine überein, erscheint rechts das MÜ-Symbol des Herstellers. Hierdurch wird die Verwendung der entsprechenden MÜ-Engine ohne Umschweife bestätigt.

Spannend dabei ist, dass man genau nachvollziehen kann, welche Engine für das vorliegende Projekt getriggert wird und aus welchem Grund. Hierfür muss man einfach mit der Maus über das MÜ-Symbol des Herstellers fahren.

Abbildung 4: Festlegung des Sprachpaars für die Übersetzung

Nach Abschluss der Projekterstellung und Öffnen des Übersetzungsauftrags in crossDesk, dem Übersetzungseditor von Across, sind die einzelnen Segmente bereits sichtbar maschinell vorübersetzt. Eine entsprechende Kennzeichnung des Bearbeitungsstandes der jeweiligen Segmente sorgt dafür, dass auch Auftraggeber genau sehen, ob Segmente maschinell, mit TM-Matches oder manuell übersetzt wurden. Es liegt also eine Transparenz vor, die sich viele Auftraggeber wünschen.

Abbildung 5: Ansicht der maschinellen Vorübersetzung im crossDesk

crossView: Segmentstatus

Noch mehr Transparenz bzw. auch Flexibilität liegt durch crossView vor, einer speziellen Funktionsleiste links im Übersetzungseditor. Durch Gruppierungen kann der Nutzer ganz leicht die Bearbeitungsstände aller Segmente im Dokument auf einen Blick sehen.

Wie ist das Verhältnis der mit MÜ übersetzten Segmente zu denen, die mit TM-Matches übersetzt wurden? Wurde der MÜ-Vorschlag ohne Überarbeitung übernommen, oder hat man Segmente post-editiert? Wurde ein Segment manuell übersetzt oder überarbeitet? Und von wem? All das ist immer nachvollziehbar.

Ebenso kann man über die Funktionsleiste haargenau festlegen, welche Segmente – MÜ und/oder post-editiert – später ins TM übernommen werden sollen. Der Nutzer hat hier freie Handlungsfähigkeit und kann von einmal bezahlter Maschineller Übersetzung innerhalb des TMs immer profitieren.

Hört sich spannend an?

Möchten sie Maschinelle Übersetzung in Ihren Across-Workflow einbinden? Oder würden Sie gerne wissen, wie Sie MÜ optimal für sich nutzen können? Nehmen Sie Kontakt zu uns auf (eisold@berns-language-consulting.de), gemeinsam finden wir die beste Lösung für Ihre individuellen Anforderungen, Prozesse und Systeme.

Bei allen Fragen zu Across stehen Frau Seidel von blc (seidel@berns-language-consulting.de) oder Frau Mibs von across (umibs@across.net) Ihnen gerne zur Verfügung.

Image: Photo by Josh Redd on Unsplash

Related Posts