Nachdem wir in einem früheren Blog erklärt haben, was Termextraktion eigentlich ist, widmen wir uns heute den Methoden der Termextraktion. Bevor ein Unternehmen die Termextraktion zum Aufbau einer Terminologiedatenbank angeht, sollte es sich mit dem Bedarf und den verfügbaren Mitteln auseinandersetzen. Nur so kann man ein sinnvolles Vorgehen aufsetzen. Da wir uns bei blc die Gestaltung effizienter Prozesse für einen optimalen Output auf die Fahne geschrieben haben, fangen wir heute bei den Voraussetzungen an. Welche Methoden und Hilfsmittel gibt es, um Terminologie aus den Ausgangstexten zu extrahieren?
Manuelle vs. automatische Termextraktion
Bei der manuellen Termextraktion sucht man im Ausgangstext über Sichtprüfung nach Termkandidaten. Vorteile sind, dass der Terminologe die Fachwörter in ihrem unmittelbaren Kontext untersucht. Dabei kann er mit Hilfe seines terminologischen Fachwissens einschätzen, ob es sich um Termkandidaten handelt. Nachteile liegen darin, dass die manuelle Termextraktion je nach Dokumentenmenge sehr aufwändig ist. Außerdem hängen die Ergebnisse von der individuellen Einschätzung ab.
Die Alternative zur manuellen Termextraktion ist die automatische Termextraktion. Dabei wird mit maschineller Unterstützung eine Liste von Termkandidaten aus ausgewählten Ausgangsdokumenten erzeugt. Die manuelle Prüfung der ausgegebenen Termkandidatenliste durch einen Terminologen ist unerlässlich: Die Einschätzung, ob es sich bei den extrahierten Wörtern oder Wortgruppen tatsächlich um Terminologie handelt, kann eine Maschine nicht leisten. Dennoch liegt ein großer Vorteil der automatischen Termextraktion im erheblichen Zeitersparnis gegenüber der manuellen Termextraktion: Statt der kompletten Ausgangsdokumente sind nur die maschinell erzeugten Termkandidatenlisten zu prüfen.
Einsprachige vs. mehrsprachige Termextraktion
Bei der einsprachigen Termextraktion extrahiert man Benennungen nur in der Ausgangssprache. Die Übertragung in andere Unternehmenssprachen kann nachgelagert nach Aufnahme in die Terminologiedatenbank erfolgen.
Eine Alternative ist die zwei- oder mehrsprachige Termextraktion. Hier werden den Benennungen aus der Ausgangssprache sofort den zielsprachlichen Entsprechungen zugeordnet. Als Ausgangsbasis dienen Translation Memories oder alignierte ausgangs- und zielsprachliche Dokumente.
Statistische vs. linguistische Termextraktion
Bei der statistischen Termextraktion wertet man aus, wie häufig einzelne Wörter oder Wortkombinationen in den Dokumenten vorkommen. In der Regel ist im Tool konfigurierbar, ab wie vielen Vorkommen Termkandidaten extrahiert werden sollen und aus wie vielen Wörtern ein Termkandidat bestehen darf. Weiterhin kommen Methoden zur Berechnung von statistischen Zusammenhängen wie z. B. Kookurrenzmaße zum Einsatz. Kookurrenzmaße werden anhand von Auftretenshäufigkeiten von Wörtern ermittelt. Sie geben Auskunft darüber, ob das gemeinsame Auftreten von zwei oder mehreren Wörtern zufällig ist oder nicht.
Bei einer rein statistischen Extraktion erfolgt keine Analyse der Wörter. Es findet also keine Filterung nach Wortarten statt. Dadurch umfasst das Extraktionsmaterial einen hohen Anteil an allgemeinsprachlichen Benennungen. Abhilfe schaffen hier Stoppwortlisten, die bestimmte Wörter (z. B. allgemeinsprachliche Benennungen, Präpositionen und Konjunktionen) von der Extraktion ausschließen. Dennoch erfordert die Termkandidatenliste aus einer statistischen Termextraktion in der Regel eine intensive Nachbearbeitung.
Die linguistische Termextraktion basiert hingegen auf der Analyse der Morphologie und Syntax der Dokumente. So kann man die Wortarten bestimmen (über das sogenannte „Tagging“) und die Termkandidaten auf ihre Stammformen zurückgeführen („Stemming“). Zur Analyse können morphologische Regeln für die einzelnen Sprachen hinterlegt werden. Allgemeinsprachliche Wörterbücher können dabei die Ergebnisse optimieren. Häufig kommen zur Wortartbestimmung auch Klassifikatoren zum Einsatz, die auf Texten mit Wortartinformationen trainiert wurden. Aufgrund der Abhängigkeit von den sprachspezifischen Regeln und Klassifikatoren ist die linguistische Termextraktion immer nur für eine begrenzte Sprachenanzahl verfügbar.
Geht auch beides?
Durch die umfassende Analyse liefert die linguistische Extraktion in der Regel hochwertigere Ergebnisse als die statistische Extraktion. Jedoch wird bei einer linguistischen Termextraktion die Häufigkeit der Wörter nicht berücksichtigt, die oft wertvolle Rückschlüsse auf die Relevanz von Fachwörtern zulässt. Eine Lösung zur Berücksichtigung beider Ansprüche stellt die hybride Termextraktion dar. Diese umfasst eine Ermittlung der Häufigkeit und der Wortarten, aber auch eine linguistische Analyse der Termkandidaten und Zurückführung auf die Stammformen. Elaborierte Systeme verbinden in der Regel beide Ansätze.
Fazit: Der Zweck bestimmt die Mittel
Auf der Suche nach der effektivsten Methode „gewinnt“ die automatische Extraktion gegenüber der manuellen Extraktion. Ergänzend empfiehlt es sich aber, die Autoren zum Einsteuern von Termvorschlägen direkt bei der Texterstellung zu animieren, um Terminologie frühzeitig zu erkennen und einzusteuern. Die Wahl zwischen ein- vs. mehrsprachiger Termextraktion und statistischer vs. linguisitischer Termextraktion hängt von verschiedenen Faktoren ab. Dazu zählen das Textvolumen pro Jahr, die verfügbaren Kapazitäten, das Fachwissen der involvierten Personen, aber natürlich auch die Systeme, die zur Verfügung stehen.
Interesse geweckt?
Sie möchten gerne mehr über das Thema erfahren und herausfinden, welche Methode der Termextraktion am besten in Ihre Prozesse passt? Sprechen Sie uns an! Wir beraten Sie gerne und erarbeiten zusammen mit Ihnen Ihren optimalen Terminologie-Prozess.