Am dritten Tag der LREC 2016 gab es wie an den Tagen zuvor auch zahlreiche Vorträge und Postersessions, die in der einen oder anderen Weise von besonderem Interesse waren. Wir haben an dieser Stelle einige Präsentationen für Sie herausgegriffen, die sich mit der MT-Evaluation, der Terminologie und den Rechteverhältnissen bei der Nutzung von freien Services zur maschinellen Übersetzung befasst haben.
Automatische Evaluation
Die automatische Evaluation von MT-Outputs geschieht in der Regel anhand einer humanübersetzten Referenzübersetzung. Da diese Übersetzungen aber auch mit Unkosten verbunden ist, steht zur Evaluation von MT-Texten meist nur ein Referenztext zur Verfügung. Da klassische Evaluationsmetriken wie BLEU ursprünglich konzipiert wurden, anhand mehrerer Referenzsätze/-texte zu evaluieren, gingen A. Tamchyne und P. Baranchykova in ihrem Vortrag ‘Manual and Automatic Paraphrases for MT Evaluation‘ der Frage nach, inwieweit automatisch erzeugte Paraphrasen von Humanübersetzungen eine robuste Evaluation unterstützen können. Anhand der Evaluationsmetrik Meteor untersuchten sie englisch-tschechische Übersetzungen aus den WMT-Workshops 2011/13/14. Nach der Bildung von Paraphrasen über diverse Datenquellen für das Tschechische wurde über der Menge der so erzeugten Satzmenge ein Set gebildet, das nur solche Sätze mit hoher Perplexität (Grad der Überraschung) im Bezug auf ein Sprachmodell der Zielsprache aufwiesen. Dieses Set kann dazu genutzt werden, die automatische Evaluation in Verbindung mit dem bestehenden Referenztext zu verbessern.
Evolution von Termen

Termbildungsmuster im diachronen Korpus
Um die Evolution von Termen als semantisch verdichtete Kodierungen komplexer Konzepte auf morpho-syntaktischer Ebene nachzuvollziehen, annotierten A-K. Schumann und S.Fischer von der Universität des Saarlandes in einem englischen diachronen Korpus von 77 wissenschaftlichen Veröffentlichungen aus den Jahren 1665 – 1869. Nach der Einteilung des Korpus in 5 Zeitperioden und verschiedene Unterdisziplinen wurden die Konzepte in den Texten auf Basis eines Terminologieleitfadens von Annotatoren mit Konfidenzattributen gekennzeichnet, welche über ein nachfolgend ermitteltes Inter-Annotator-Agreement über den Termstatus der Begrifflichkeiten entscheiden. Nominale Komposita erscheinen laut der Analyse erst ab dem 19ten Jahrhundert in den Texten und stellen zunehmend das typische Bildungsmuster von Multiwort-Termen dar. Diese Entwicklung geht mit der zunehmenden Zeichenlänge der Terme (Einzel- und Multiwort) einher. Die Häufigkeit von Adjektiv-Nomen Komposita nimmt zu Beginn des untersuchten Zeitraums zunächst zu, stagniert in der Zeit von 1750 – 1850 und hält sich seitdem als prominentes Bildungsmuster. Generell nimmt die Länge der Terme mit der Zeit zu und scheint von analytischen, modifizierten Nomina zu reinen Nominalverbindungen zu tendieren. Auch ein Einfluss von Zipf’schen Gesetzmäßigkeiten könnte laut Autoren eine Rolle für die Termentwicklung gehabt haben. So könnte der frequentere Gebrauch kurzer Wörter im Gegensatz zu Langwörtern mit der Dynamik der Migration von Termen aus dem Standardlexikon in fachspezifische Lexika einhergegangen sein.
Datenschutz
Mit der zunehmenden Anzahl und Qualität von Online Machine Translation Services beschäftigt potenzielle Anwender solcher Angebote auch zunehmend die Frage des Datenschutzes. Die für das Training sowie für die Übersetzung benötigten Texte müssen dem Anbieter zur Verarbeitung im System übergeben werden und selbstredend möchte kein Unternehmen sicherheitsrelevante Dokumente weder dauerhaft gespeichert oder – noch kritischer – an anderer Stelle im Netz wieder auffinden können. Mit diesen bedenken setzten sich P. Kamocki und J. O’ Regan in ihrer Präsentation auseinander. Statistische maschinelle Übersetzung hat gegenüber der regelbasierten Übersetzung den Vorteil, dass sie grundsätzlich auf beliebigen Sprachpaaren trainiert werden kann, solange genug Paralleltexte für das jeweilige Paar vorhanden sind. Dieser Umstand macht das Internet als Quelle für Trainingstexte sehr attraktiv, da viele Seiten mehrsprachige Inhalte anbieten. Trotz der Menge an potenziellen Trainingstexten hat der Anbieter, der auf diese Weise sein System verbessern möchte (so bspw. Google) mit den Gesetzmäßigkeiten der Sprache zu kämpfen. Das sogenannte “Sparse Data Problem” beschreibt den Umstand, dass hochfrequente Wörter in den Sprachen weit weniger vertreten sind als niedrigfrequente Wörter, d.h. es gibt sehr viele Wörter die nur einmal in einem text auftreten, wohingegen es nur wenige Wörter mit hocher Frequnez im Text gibt. Dies hat Konsequenzen für die Qualität des übersetzten Textes, der auf Basis solcher unvollständigen Trainingsdaten trainiert wurde: Der Anteil an einmalig auftretenden Wörtern (sog. Hapax Legomena oder auch Hapaxen) führt dazu, dass das Trainingsmodell über keine ausreichende Varianz von Kontexten verfügt, um lange Sätze adäquat zu übersetzen. Das Rezept der Anbieter gegen die naturgemäß unzureichende Datenlage ist simpel: Vergrößerung der Textmenge über ausgedehntes Sammeln (Crawling) im Netz. Dieser Datenhunger ist es, der mögliche Kunden vor der Nutzung von MT-Services im Netz zurückschrecken lässt. Darüber hinaus ist die Einstufung von Eingriffen in perönliche Daten nicht ganz trivial. Gemäß Directive 95/46/EC stellt der von dem MT-Serviceanbieter notwendigerweise durchgeführte Schritt der Vorverarbeitung zum Zwecke des Trainings bereits einen Eingriff in die individuellen Rechte des Dokumenteigentümers dar, welcher der Kunde mit der Einwilligung zur Übersetzung jedoch implizit zustimmt, solange er sich der notwendigen Praxis bewusst ist. Schwieriger ist die Überschaubarkeit der Weiterverwendung von Daten durch den Anbieter. Im Fall von Gratis-Services bezahlt der Kunde sozusagen für die Nutzung mit seinen Daten. Diese werden über die Übersetzungsleistung hinaus zur Verbesserung des Services und/oder zu Marketingzwecken verwendet und evtl. auch an Dritte weitergegeben. Während die Weiterverwendung zum Zweck der Serviceverbesserung unter der Voraussetzung der Transparenz für einige Kunden evtl. vertretbar sein dürfte, stellt die kommerzielle Nutzung der Daten einen Aspekt dar, der von allen Kunden als höchst kritisch eingestuft werden dürfte. In jedem Fall sollten die Rahmenbedingungen der Weiterverarbeitung klar durch den Anbieter kommuniziert werden. Letztlich bleibt festzuhalten, dass wohl keiner der zahlreichen MT-Services in vollständiger Übereinstimmung mit der Direktive handeln kann, da immer ein Eingriff in die Kundendaten erfolgen wird – ob dieser nun dem Übersetzungsprozess oder etwaigen weiteren Zwecken dient.
Wir hoffen, dass Ihnen unser kleiner Einblick in die Themenbereiche der LREC Freude bereitet hat und freuen uns unsererseits auf die nächste LREC, die erst wieder 2018 stattfinden wird.
[twitter_buttons display=tweet,follow,]