15 Jahre blc – Maschinelles M(Ü)emory

15 Jahre blc – Maschinelles M(Ü)emory

Heute geht es in unserer Reihe ‚blc-Geschichten‘ um maschinelle Übersetzung – wer kennt sie nicht? Spätestens, seit mit neuronaler MÜ die Qualität der maschinellen Übersetzungen deutlich besser geworden ist, verbreitet sie sich wie Sie-wissen-schon-welcher-Virus *kreisch!* Und wenn man nicht weiß, wie man richtig damit umgeht, kann es böse enden.

Die Maschine ist der Knaller!

„Sag mal, kennst du schon diese Seite?“, fragt mich meine Freundin und reicht mir ihr Handy. „Die ist der Knaller! Hier kannst du sogar ganze Dateien hochladen und bekommst sofort die Übersetzung. Und die ist echt gut!“ Ich werfe einen Blick auf den Bildschirm. „Jo, kenne ich. Die machen maschinelle Übersetzung. Früher statistisch, jetzt neuronal.“ „Wie auch immer“, fährt meine Freundin unbeirrt fort, „wir benutzen das jetzt auch in der Firma. Haben da mal unsere Broschüren reingekippt, und das Ergebnis war überraschend gut. Also für so eine Maschine.“

Was sollen die schon mit unseren Daten?

Vor Schreck verschlucke ich mich glatt. „Du weißt aber schon, …hust … dass eure Daten damit für immer im Internet landen? hust… hoffe, es war nix Unveröffentlichtes.“ Sie zuckt mit den Schultern und klopft mir auf den Rücken. „Nö, glaub nicht. Aber was sollen die schon mit unseren Broschüren?“ Ich huste immer noch. „Sie dem World Wide Web frei zur Verfügung stellen zum Beispiel. Hust… und dann kann jeder eure Produktbezeichnungen klauen … hust… bevor ihr sie veröffentlicht habt.“ Meine Freundin runzelt die Stirn und klopft weiter.

Eigene Terminologie im System?

„Auf jeden Fall“, fährt sie fort, als mein Gesicht wieder eine gesunde Farbe angenommen hat, „waren wir begeistert, wie gut die Ergebnisse sind. Nur manchmal haben halt unsere eigenen Bezeichnungen gefehlt. Das ist echt schade!“ „Habt ihr denn mit euren Daten trainiert oder einfach das nackte System benutzt?“, frage ich. Aus ihren Augen starren mich zwei Fragezeichen an. Ich probiere es anders:

„Ich meine, habt ihr einfach eure Texte da hochgeladen und auf ‚Übersetzen‘ geklickt oder vorher eine eigene Engine – also Maschine – mit anderen Texten von euch als Datenbasis angelegt?“ Sie schüttelt energisch den Kopf: „Einfach nur so, wie es war quasi.“ – „Sonst hätte das System nämlich auf die Begriffe in euren Texten zugreifen können. Dafür braucht es aber eine ganze Menge Datenfutter.“ Meine Freundin hebt eine Augenbraue. „Und dann wüsste das System ganz von selbst, wie unsere Produkte heißen?“

Maschinelle Übersetzung ist wie ein Memory-Spiel

„Naja, im Grunde schon“, setze ich zu einer längeren Erklärung an. „Aber man müsste es ihm schon beibringen. Über einige Re-Trainings und Tests und Tunings. Das kannst du dir wie ein Memory-Spiel vorstellen: Am Anfang ist alles eine Black Box. Du weißt nicht, was auf der anderen Seite der Kärtchen ist. Dann machst du natürlich noch Fehler und versuchst dir jedes Mal zu merken, was wo liegt. Aber nach einigen Runden drehst du eine Karte auf…“ – „… und weißt, welches Kärtchen dazugehört“, unterbricht mich meine Freundin und klatscht in die Hände. „Bingo!“

Große Qualitätsunterschiede bei Maschineller Übersetzung

Ich kann förmlich sehen, wie es in ihrem Kopf rattert. „Aber sag mal, wieso sind die Ergebnisse denn manchmal in einer Sprache voll gut – Englisch ist zum Beispiel der Hammer! – und in anderen gar nicht? Macht die Maschine da Unterschiede?“ Ich tippe auf ihrem Handy auf die Übersicht der verfügbaren Sprachen. „Das liegt auch an der Datenbasis.

Wenn das System sehr viele Trainingsdaten zur Verfügung hat, kann es sich schneller merken, wo die Kärtchen liegen. Es sieht sie sozusagen öfter. Bei weniger Daten begegnen ihm die Kärtchen vielleicht nur ein oder zwei Mal. Da liegt es dann häufiger daneben. Für Englisch gibt es im Internet so unendlich viele verschiedene Daten, dass die Maschinen viel besser trainiert werden können als mit einer Sprache wie Ukrainisch, die digital unterrepräsentiert ist. Noch dazu unterstützt der ähnliche Sprachbau zweier Sprachen, die in einer Sprachfamilie sind wie Englisch und Deutsch, den Lernprozess – diese Sprachen können also voneinander profitieren.“ Das Gesicht meiner Freundin verwandelt sich in ein staunendes Emoji. „Aaaah, krass!“

Ein Maschinchen für jedes Plaisierchen

„Aber ich kann doch jetzt nicht einfach hier auf dieser Webseite eine eigene… wie heißt das nochmal?“ – „Engine.“ – „Genau, eine eigene Engine bauen, oder?“ Ich nehme ihr das Handy aus der Hand und scrolle nach unten. „Hier, siehst du: ‚Kundenspezifische Engine‘. Du müsstest mit denen in Kontakt treten und dann bauen die dir ein leeres System, das sie oder du selbst mit euren Daten befüllt. Aber Vorsicht!“, räume ich ein, denn meine Freundin hat schon das Kontaktformular geöffnet.

Was habe ich und was brauche ich für meine Maschinelle Übersetzung?

„Es gibt unglaublich viele Hersteller, die so ein MÜ-System entwickelt haben. Und dann müsst ihr schauen, ob es vielleicht schon passendes Material für euren Themenbereich – also eure Domäne – gibt. Dann bräuchtet ihr nämlich nicht mehr ganz so viel eigenes Datenmaterial. Und schon mal überlegen, wie es in eure IT-Infrastruktur eingebaut werden soll!

Und natürlich das Thema mit dem Datenschutz: Du hast zwar vorhin mit den Schultern gezuckt, aber deinen Chef wird es interessieren, wo bestimmte Daten später landen. Also nicht zu vorschnell für ein System entscheiden!“ Ich drücke den Power-Button, und der Bildschirm erlischt.

„Mir schwirrt der Kopf“, sagt sie nüchtern. Ich lache und lege einen Arm um ihre Schultern. „Don’t worry! Dafür gibt es ja Experten.“

Related Posts