Glossar

  • Alignment

    Das Alignment ist ein Textordnungsverfahren. Hierbei werden S√§tze in einem Ausgangstext den korrespondierenden S√§tzen in der √úbersetzung des Textes zugeordnet. Ein Alignment muss immer dann durchgef√ľhrt werden, wenn Text in einem un-segmentierten Flie√ütext vorliegen. Das Ergebnis wird dann in ein Translation Memory √ľberf√ľhrt oder als Basis f√ľr eine Maschinellen √úbersetzungsengine verwendet. Das Alignment un-segmentierter Sprachdaten ist ein wesentlicher Vorverarbeitungsschritt f√ľr das Training maschineller √úbersetzung.

  • Begriff

    Ein Begriff ist eine Wissenseinheit, die durch eine eindeutige Kombination von Merkmalen erzeugt wird (siehe auch: DIN EN ISO 18104:2014-05). In der Terminologie ist ein Begriff durch eine oder mehrere Benennungen textuell repr√§sentiert. Ein gutes Beispiel hierf√ľr sind die Benennungen "Personenkraftwagen" und "Pkw", die den Begriff "Fahrzeug" repr√§sentieren. In einer begriffsbasierten Terminologiedatenbank legt man pro Begriff einen Eintrag an.

  • Benennung

    Eine Benennung ist ein Wort oder mehrere Wörter zur Bezeichnung eines Begriffs (DIN ISO 26162:2016-12). In einer begriffsbasierten Terminologiedatenbank werden z.B. pro Begriff bei Bedarf mehrere Benennungen hinterlegt. In der Regel sollte dabei immer eine bevorzugte Benennung angegeben werden, die einheitlich verwendet wird (z. B. "Pkw"). Wenn möglich sollten zugelassene Benennungen nur bei dringendem Bedarf ergänzt werden (z. B. "Personenkraftwagen").

  • CAT-Tool

    Unter CAT-Tool (aus dem Englischen: computer-assisted/computer-aided translation) versteht man alle computer-gest√ľtzten Hilfssysteme des √úbersetzers, also W√∂rterb√ľcher, Referenztexte, Translation Memories usw. Heute verwendet man CAT-Tool h√§ufig synonym zu Translation Memory System, einem System zur Verwaltung und Wiederverwendung von √úbersetzungen. Es gibt Cloud-basierte und lokale Varianten (siehe auch Translation Memory oder Translation Memory System).

  • Fehlermetriken

    Fehlermetriken messen in der Qualit√§tsevaluierung (QE), ob die zuvor vereinbarte Sprachqualit√§t erreicht wurde. Es gibt verschiedene Metriken (MQM, DQF, SAEJ2450, LISA). Alle Metriken bieten Fehlerkriterien, Fehlerpunkte und Schweregrade, die im Vorfeld kalibriert werden sollten. Dar√ľberhinaus kann man mit Fehlermetriken wie z.B. dem Dynamic Quality Framework¬† (DQF) von TAUS verschiedene Pr√ľfprofile erstellen, je nach Textinhalt, Zielpublikum usw. (siehe auch √úbersetzungsqualit√§t, Qualit√§tsevaluierung).

  • Internationalisierung

    Internationalisierung beschäftigt sich mit der formalen Lokalisierung einer Software oder einer Webseite an die Gegebenheiten und Vorgaben der Zielkultur/des Ziellandes. Hier geht es vorrangig darum, Zahlen, Daten, Formate, Einheiten, Kalender zielkulturgerecht aufzubereiten und darzustellen.

  • Kompositum

    Ein Kompositum ist ein zusammengesetztes Wort, meistens bestehend aus zwei oder mehr Substantiven. Die häufigste Gruppe ist im Deutschen das Determinativkompositum (Beispiel Erdball, Erdapfel, Erdumrundung). Neben den reinen Substantiv-Verbindungen gibt es auch Adjektiv-Verbindungen (Bsp. schwarz-weiß), und Substantiv-Adjektiv-Komposita (Bsp. Schöngeist). Die Bestimmungen zur Kompositabildung von Fachwörtern sind in Termbildungsleitfäden festzulegen.

  • Korpus

    Ein Korpus ist eine digitalisierte Sammlung von Textdaten, die zur computergest√ľtzten Verarbeitung nat√ľrlicher Sprache herangezogen werden. Zum Beispiel in der Maschinellen √úbersetzung werden alignierte, zweisprachige Parallelkorpora als Basis f√ľr statistische Analysen und f√ľr das MT-Engine-Training verwendet.

  • Lokalisierung

    Bei der Lokalisierung passt ein Bearbeiter einen Text und dessen Bestandteile an Sprache und Kulturspezifika eines Ziellands an. Diese Anpassung erfolgt häufig im Rahmen einer Übersetzung. Das Ergebnis der Lokalisierung ist ein Produkt (wie z.B. Text, Software, Webseite), das auf den Zielmarkt und die Zielkultur zugeschnitten ist. Der Begriff der Lokalisierung wird synonym zum Begriff der Übersetzung verwendet, das ist aber nicht korrekt.

  • M√ú-Engine

    Eine MÜ-Engine (MÜ=Maschinelle Übersetzung, auch: MT-Engine) ist ein systemgebundenes Modell zur automatischen unidirektionalen Übersetzung einer Sprache in eine weitere Sprache. Die Verfahren sind entweder regelbasiert (RBMÜ), statistisch (SMÜ) oder neuronal (NMÜ). Um statistische und neuronale MÜ-Engines zu trainieren, sind große Mengen bilingualer Korpora in sehr guter sprachlicher Qualität erforderlich.
    Wenn man von MÜ spricht ist zurzeit in der Regel die NMÜ gemeint. RBMÜ und SMÜ sind nur noch in speziellen Anwendungsfällen im Einsatz.

  • Named Entity Recognition

    Named Entity Recognition (NER) bezeichnet Methoden zur Erkennung von Spracheinheiten in der nat√ľrlichen Sprachverarbeitung. Mit Methoden der NER werden Angaben wie Namen, Orte und Produkte in Text-Korpora erkannt und gekennzeichnet. Durch neuste Entwicklungen im Bereich der K√ľnstlichen Intelligenz (KI) werden NER-Routinen zunehmend exakter (siehe auch Natural Language Processing).

  • Natural Language Processing

    Natural Language Processing (NLP) ist die computergest√ľtzte Verarbeitung nat√ľrlicher Sprache. Beispielsweise die Datenbereinigung f√ľr digitale Sprachverarbeitung oder maschinelle √úbersetzung mittels Segmentierung, Tokenisierung, Textstatistik, Anonymisierung und Erkennung von Entit√§ten (NER). NLP ist ein wichtiger Kernbereich der Computerlinguistik und wird mit steigender Automatisierung und Digitalisierung im Sprachumfeld immer wichtiger.

  • Neuronale Maschinelle √úbersetzung

    Die Neuronale Maschinelle √úbersetzung (auch NM√ú, NMT) ist eine Methode der maschinellen √úbersetzung, die mit rekurrenten neuronalen Netzen (RNN) durchgef√ľhrt wird. Hierbei verschl√ľsselt ein Kodierer Sequenzen von W√∂rtern im Ausgangstext in Vektoren. Anschlie√üend entschl√ľsselt ein Dekodierer diese Vektoren und dekodiert Wort f√ľr Wort den Zieltext. Durch st√§rkere Ber√ľcksichtigung des Gesamtkontexts der W√∂rter werden grammatikalisch und stilistisch wohlgeformte √úbersetzungen generiert, die nicht immer inhaltlich korrekt sind.

  • NMT

    Das Akronym NMT steht f√ľr neural machine translation (auch NM√ú) und ist eine Methode der maschinellen √úbersetzung, die mit rekurrenten neuronalen Netzen (RNN) durchgef√ľhrt wird. Hierbei verschl√ľsselt ein Kodierer Sequenzen von W√∂rtern im Ausgangstext in Vektoren. Anschlie√üend entschl√ľsselt ein Dekodierer diese Vektoren und dekodiert Wort f√ľr Wort den Zieltext. Durch st√§rkere Ber√ľcksichtigung des Gesamtkontexts der W√∂rter werden grammatikalisch und stilistisch wohlgeformte √úbersetzungen generiert, die nicht immer inhaltlich korrekt sind.

  • NM√ú

    Das Akronym NM√ú steht f√ľr neuronale maschinelle √úbersetzung (auch NMT) und ist eine Methode der maschinellen √úbersetzung, die mit rekurrenten neuronalen Netzen (RNN) durchgef√ľhrt wird. Hierbei verschl√ľsselt ein Kodierer Sequenzen von W√∂rtern im Ausgangstext in Vektoren. Anschlie√üend entschl√ľsselt ein Dekodierer diese Vektoren und dekodiert Wort f√ľr Wort den Zieltext. Durch st√§rkere Ber√ľcksichtigung des Gesamtkontexts der W√∂rter werden grammatikalisch und stilistisch wohlgeformte √úbersetzungen generiert, die nicht immer inhaltlich korrekt sind.

  • Ontologie

    Eine Ontologie ist eine anerkannte, formale Modellierung von Wissen √ľber eine Dom√§ne (siehe auch unter DIN EN 62656-5 und VDE 0040-8-5:2018-05). Sie wird in Form von Ontologiesprachen repr√§sentiert, die Klassen, Objekte, Relationen und Attribute abbilden. Die Quintessenz einer Ontologie ist, die hierarchischen und nicht-hierarchischen Beziehungen (Relationen) f√ľr Folgeprozesse durch Maschinen verwertbar zu machen (z.B. semantische Suchen).

  • Posteditieren

    Das Posteditieren (Englisch: Post-Editing, PE) ist die T√§tigkeit, eine maschinell erstellte √úbersetzung zu editieren und korrigieren (ISO-Norm PE 18587). Hierbei unterscheidet man zwischen leichtem (light) und vollst√§ndigem (full) Posteditieren. Das leichte Posteditieren hat zum Ziel, einen verst√§ndlichen Text zu erhalten. Das vollst√§ndige Posteditieren hat das Ziel, ein Produkt zu erhalten, das mit dem Ergebnis einer Human√ľbersetzung vergleichbar ist. Menschen, die diese T√§tigkeit durchf√ľhren, sind Posteditoren.

    Mehr Info:

    [...]

    Unter Post-Editing versteht man ‚Äď vereinfacht gesagt ‚Äď das Nachbessern maschineller √úbersetzungsergebnisse. Es ist der Prozess, bei dem eine maschinell erstellte √úbersetzung durch einen Menschen gepr√ľft und angepasst wird, sodass sie eine akzeptable Qualit√§t erreicht. Hierbei unterscheidet man zwischen leichtem und vollem Post-Editing. Je nach Qualit√§tsanforderungen und Textsorte entscheidet man sich f√ľr ein leichtes Post-Editing, bei dem nur das allern√∂tigste korrigiert wird, oder f√ľr ein volles Post-Editing, nach dem man unter Umst√§nden nicht mehr unterscheiden kann, ob die √úbersetzung durch einen Menschen oder eine Maschine erstellt wurde.

    Was macht einen Post-Editor aus?

    Viele F√§higkeiten und Eigenschaften, die bei einem √úbersetzer Voraussetzung oder √ľblich sind, finden sich auch bei Post-Editoren wieder. Doch was unterscheidet nun einen Post-Editor von einem √úbersetzer? Im Idealfall verf√ľgt der Post-Editor √ľber Kenntnisse im Bereich maschineller √úbersetzung und versteht ihre Funktionsweise.

    Schnelle Entscheidungen treffen

    Au√üerdem sollte ein Post-Editor auch stets die Wirtschaftlichkeit seiner T√§tigkeit im Blick behalten. Vor allem wenn es bei einem Post-Editing-Auftrag nicht um lupenreine, sondern ‚Äěnur‚Äú um verst√§ndliche Texte geht, muss der Bearbeiter Abstriche bei der Qualit√§t machen, seinen Perfektionismus beiseitelegen und schnelle Entscheidungen dar√ľber treffen, was korrigiert werden muss und was nicht.

    Dieser Bereich wird meist gemeinsam mit dem Kunden definiert, was bedeutet, dass man als Post-Editor ggf. die eigenen ‚ÄěW√ľnsche‚Äú oder ‚ÄěImpulse‚Äú etwas zu korrigieren, ignorieren muss. Ein hoher Grad an Professionalismus ist hier mehr gefragt, als Perfektionismus. [...]

    Hier weiterlesen

  • Qualit√§tsevaluierung

    Mit einer Qualit√§tsevaluierung (QE) wird die Erreichung einer zuvor definierten √úbersetzungsqualit√§t beurteilt. Hierbei stellt man fest, ob Texte und √úbersetzungen diese Qualit√§tsziele erreichen. Hierbei werden diverse Fehlermetriken eingesetzt. In der maschinellen √úbersetzung sind Qualit√§tsevaluierungen durch Menschen (auch: Humanevaluation) zus√§tzlich zu statistischen Evaluationen mittels BLEU oder TER ma√ügeblich f√ľr die Verbesserung von M√ú-Engines.

  • Qualit√§tsmessung

    Eine Qualitätsmessung (QM) ist eine Maßnahme zur laufenden Erhebung der Sprachqualität. Das ist vor allem beim Einsatz Maschineller Übersetzung sehr wichtig. Hier wird mit Produktivitätsmessverfahren (z.B. time-to-edit, siehe auch TAUS, DQF) die Geschwindigkeiten des Posteditierens gemessen. So weiß man, wann man Engines neu trainieren oder austauschen sollte. Idealerweise laufen Qualitätsmessungen automatisch bei der Übersetzung und dem Post-Editing-Prozess mit (siehe auch Post-Editing, Übersetzungsqualität).

  • Qualit√§tssicherungstools

    Qualitätssicherungstools sichern die Sprachqualität bei Texterstellung (z.B. Congree), Übersetzung (z.B. QA Distiller) und der Pflege der Sprachressourcen, wie Terminologie (z.B. quickTerm). Hierdurch werden Fehler vor der Veröffentlichung von Texten oder der Verwendung von Ressourcen aufgefunden und korrigiert. Der konkrete Einsatz der unterschiedlichen Tools hängt stark vom individuellen Sprachproduktionsprozess ab (siehe auch Sprachqualitätssicherung, Übersetzungsqualität).