Is it a match? Dubletten in Termbanken

„Wir haben Dubletten in unserer Terminologie, könnt ihr uns helfen, die zu entfernen?“ Dieses Anliegen bekommen wir häufig von unseren Kunden oder Interessierten zu hören. Die kurze Antwort darauf: Ja, klar. Die lange beginnt erstmal mit einer Gegenfrage: Von welcher Art Dubletten sprechen wir denn überhaupt?

Dublette ist nicht gleich Dublette

Es gibt verschiedene Arten von Dubletten, vor allem wenn man sich im Kontext von Terminologiedatenbanken (kurz Termbanken) bewegt. Da wären…

Dubletten auf Stringebene: Nur der reine Text der Benennungen ist identisch.
Dubletten auf Benennungsebene: Nicht nur der Text ist identisch, sondern auch alle Metadatenfelder und Inhalte dieser Benennung (z.B. Status, Quelle oder Definition).
Dubletten auf Begriffsebene: Alle Benennungen eines Begriffs inklusive aller Metadaten auf Benennungs- und Begriffsebene sind identisch.

Weg damit – oder?

Nun, wir wollen keine doppelten Einträge in der Termbank haben, das ist logisch. Dubletten auf Begriffsebene kann man also ohne schlechtes Gewissen entfernen. Bei den anderen ist es allerdings nicht ganz so einfach. Bei Dubletten auf Benennung- sowie auf Stringebene müssen immer die gesamten Begriffe abgeglichen werden, bevor entschieden werden kann, was damit passieren soll. Gerade rein textuelle Dubletten finden sich häufig in Termbanken – und das (oft) mit voller Absicht. Denn: Eine Benennung kann für mehrere Begriffe verboten sein, oder aber in einem Kontext als Vorzugs- und in einem anderen als verbotene Benennung fungieren. Gerade diese Unterscheidung macht ja den Wert einer begriffsorientierten Terminologiedatenbank aus. Das Löschen wäre eher kontraproduktiv.

Aber wenn nicht löschen, was denn dann?

Beim Abgleich der Begriffe bzw. Einträge können sich zwei mögliche Szenarien ergeben:

Die Einträge referenzieren nicht denselben Begriff.
Die Einträge referenzieren denselben Begriff, sind aber auf Begriffsebene nicht identisch, sondern enthalten Dubletten auf Benennungs- oder Stringebene.

Der 1. Fall wurde oben bereits erwähnt: Hier ist alles wie es sein soll und es muss nichts unternommen werden. Tatsächlich ist der 2. Fall derjenige, der in einer Termbank am meisten „stört“. Hier ist beim Nachschlagen der Terminologie nämlich nicht eindeutig, welchem Eintrag zu trauen ist – was dem Konzept Termbank etwas den Sinn nimmt. Liegt also der 2. Fall vor, besteht unter Umständen Potenzial für eine Zusammenführung der Begriffe zu einem. Ich sage „unter Umständen“, da auch dieses Unterfangen komplexer ist.

Die Essenz liegt in den Metadaten

Vor einer Zusammenführung müssen immer die Metadaten der Begriffe herangezogen werden. Beim Abgleichen der Metadaten miteinander können dann erneut zwei Szenarien unterschieden werden:

Die unterschiedlichen Metadaten in den Begriffen widersprechen sich nicht, d.h. sie ergänzen sich entweder (z.B. ein Begriff hat eine Definition und der andere nicht), oder sie lassen sich aufsummieren (z.B. Quellen).
Die unterschiedlichen Metadaten in den Begriffen widersprechen sich (z.B. Status).

Im 1. Fall können die Begriffe automatisiert zusammengeführt werden. Im 2. Fall braucht es immer die Expertise des betroffenen Fachbereichs. Hier muss vor einer Zusammenführung abgestimmt werden, welches Metadatum das „richtige“ ist.

Nicht gleich aber ähnlich…

Und wo wir von Zusammenführung sprechen, möchte ich einen weiteren Grenzfall nicht unterschlagen: Neben Dubletten gibt es in einer Termbank oftmals Benennungen (meist auf Stringebene), die zwar nicht identisch sind, aber ähnlich. Dabei sind v.a. drei Arten von Ähnlichkeiten relevant:

Morphologische Ähnlichkeit: Rechtschreibvarianten oder Bindestrichsetzung (z.B. „Rückfahr-Kamera“ vs. „Rückfahrkamera“).
String-Subsets: Eine Benennung ist rein textuell Teil einer anderen („Kamera“ in „Rückfahrkamera“) oder hat einen Teil gemeinsam mit einer anderen („Rückfahrkamera“ und „Frontkamera“).
Semantische Ähnlichkeit: Synonyme, bei denen der String ein ganz anderer sein kann (z.B. „Müdigkeitserkenner“ und „Pausenempfehlung“).

Das Ziel beim Identifizieren von morphologischen und semantischen Ähnlichkeitskandidaten ist meist das Finden von verbotenen Benennungen. Sie sind potenziell zusammenführbar und die Begriffe können äquivalent zu den Dubletten behandelt werden. String-Subsets, die sich meist auf verschiedene Begriffe beziehen, können dagegen beim Bilden von Taxonomien und Concept Maps unterstützen, in denen Beziehungen zwischen verwandten Begriffen abgebildet werden.

Und wie machen wir das?

Mithilfe des blc Data Toolkits können wir Dubletten auf Begriffsebene entfernen und die anderen Dublettenarten sowie Subsets und morphologische Ähnlichkeiten erkennen und als solche markieren. Auch semantische Ähnlichkeit kann das blc Data Toolkit mithilfe von AI ermitteln; hier sind wir allerdings auf eine große Menge Fließtext angewiesen. Zudem können Konflikte in potenziell zusammenführbaren Begriffen automatisiert ermitteln und markiert werden. Anschließend gehen wir die Potenziale manuell durch und bearbeiten sie, bis nur noch die tatsächlich kritischen Konfliktfälle übrigbleiben. Das Vorgehen erfordert dabei immer eine enge Zusammenarbeit der Terminolog:innen und Computerlinguist:innen, da die Daten zum Teil mehrere manuelle und maschinelle Schleifen durchlaufen müssen.

Fazit

Es gibt unterschiedliche Arten von Dubletten (und Ähnlichkeitskandidaten). Wie man am besten mit ihnen umgeht, um das bestmögliche aus der Termbank rauszuholen, hängt von ihrer Art ab.

Klingt kompliziert? Nicht mit unserer Hilfe!

Sie konnten bei der tekom-Jahrestagung 2023 meinen Vortrag nicht sehen? Ab dem 27. November können Sie im Tagungstool die Aufnahme zu meinem Vortrag sehen: „Vom Sprachen-Stau zur Terminologie-Autobahn – Wie Porsche das Wörter-Wirrwarr angeht“. Bei Fragen stehe ich Ihnen selbstverständlich zur Seite.

Für alle, die mehr darüber erfahren, wie man Herr oder Frau über die eigene Terminologie wird: Wir haben was für Sie.

Am 14./15. März 2024 findet Terminologie³ 2024 ein weiteres Mal im Novotel in Karlsruhe statt. Ein Event, bei dem Terminologieinteressierte, egal ob Anfänger:innen oder Vollprofis, auf ihre terminologischen Kosten kommen. Bis zum 10. Januar 2024 gibt es auch Early-Bird-Preise.