Termextraktion

Die Termextraktion ist ein manuelles, teil-automatisiertes oder voll-automatisiertes Verfahren zur Ermittlung relevanter Terme für den Aufbau einer Terminologie und der Befüllung einer Termdatenbank. Hierzu werden potenzielle Terme aus vorhandenen Korpora, wie Webseiten-Texten oder Dokumentation, extrahiert, nachqualifiziert und in eine Datenbank eingepflegt.

Mehr Info:

[…] Nachdem wir in unserem letzten Blog erklärt haben, was Termextraktion eigentlich ist, widmen wir uns heute den Methoden der Termextraktion. Bevor ein Unternehmen die Termextraktion zum Aufbau einer Terminologiedatenbank angeht, sollte man sich mit dem Bedarf und den verfügbaren Mitteln auseinandersetzen, um ein sinnvolles Vorgehen aufzusetzen. Da wir bei blc uns die Gestaltung effizienter Prozesse für einen optimalen Output auf die Fahne geschrieben haben, fangen wir heute bei den Voraussetzungen an. Welche Methoden und Hilfsmittel gibt es, um Terminologie aus den Ausgangstexten zu extrahieren?

Manuelle vs. automatische Termextraktion

Bei der manuellen Termextraktion wird im Ausgangstext über Sichtprüfung nach Termkandidaten gesucht. Vorteile sind, dass der Terminologe die Fachwörter in ihrem unmittelbaren Kontext untersucht. Dabei kann er mit Hilfe seines terminologischen Fachwissens einschätzen, ob es sich um Termkandidaten handelt. Nachteile liegen darin, dass die manuelle Termextraktion je nach Dokumentenmenge sehr aufwändig ist. Außerdem hängen die Ergebnisse von der individuellen Einschätzung ab.

Die Alternative zur manuellen Termextraktion ist die automatische Termextraktion. Dabei wird mit maschineller Unterstützung eine Liste von Termkandidaten aus ausgewählten Ausgangsdokumenten erzeugt.  Die manuelle Prüfung der ausgegebenen Termkandidatenliste durch einen Terminologen ist unerlässlich: Die Einschätzung, ob es sich bei den extrahierten Wörtern oder Wortgruppen tatsächlich um Terminologie handelt, kann eine Maschine nicht leisten. Dennoch liegt ein großer Vorteil der automatischen Termextraktion im erheblichen Zeitersparnis gegenüber der manuellen Termextraktion: Statt der kompletten Ausgangsdokumente sind nur die maschinell erzeugten Termkandidatenlisten zu prüfen.

Einsprachige vs. mehrsprachige Termextraktion

Bei der einsprachigen Termextraktion werden Benennungen in der Ausgangssprache extrahiert. Die Übertragung in andere Unternehmenssprachen kann nachgelagert nach Aufnahme in die Terminologiedatenbank erfolgen.

Eine Alternative ist die zwei- oder mehrsprachige Termextraktion. Hier werden den Benennungen aus der Ausgangssprache sofort die zielsprachlichen Entsprechungen zugeordnet. Als Ausgangsbasis dienen Translation Memories oder alignierte ausgangs- und zielsprachliche Dokumente. […]

Hier weiterlesen …