Sprachdaten aufbereiten

Daten sind wertvoll - die Sprachdaten eines Unternehmens erst recht!

Gute Sprachdaten sind essenziell für den Einsatz neuster Technologien, im KI-Bereich, wie z.B. in der maschinellen Übersetzung, für semantische Suchen oder beim Aufbau von Chatbots. Aber nicht nur! Auch für Terminologien, Ontologien oder Translation Memories ist eine qualitativ hochwertige Sprachdatenbasis wesentlich.

Aber was sind überhaupt Sprachdaten? 

Sprachdaten sind alle Daten welche in Ihrem Unternehmen als maschinenlesbarer Text, in geschriebener oder gesprochener Form, auf Servern lokal oder in der Cloud, in Content Management Systemen oder Webseiten-Backends lagert.

Gute Sprachdaten sind sauber strukturiert, häufig zweisprachig, inhaltlich und formell hochwertig und vor allem: automatisch durch die gewünschten Zielsysteme verarbeitbar!

Solche Daten gibt es bei Ihnen im Unternehmen noch nicht? Das macht nichts, denn auch unstrukturierte, einsprachige und qualitativ nicht einwandfreie Daten werden mit blc Unterstützung wertvoll. Wir sorgen mit automatisierten Prozessen dafür, dass Ihre Daten so aufbereitet werden, wie Sie sie benötigen. 

Mit uns zahlen sich Ihre Sprachdaten endlich aus.

Ganz gleich, in welchen Formaten und Qualitätsstufen Ihre Sprachdaten vorliegen, ob einsprachig oder mehrsprachig, strukturiert oder unstrukturiert, als XML, TXT, PDF, CSV, DOC, HTML… Wir extrahieren, analysieren und modifizieren Sprachdaten gemäß Ihren individuellen Anforderungen. Und so machen wir das: 

Sprachdaten-Analyse und Reporting

Mit unserem Analysemodul, welches die Ergebnisse sowohl als detaillierten Report als auch übersichtlich grafisch ausgibt, schauen uns erst einmal gemeinsam an, wie Ihre Daten aussehen. So bekommen wir, Sie und Ihr Management ein klares Bild darüber, wie es um Ihre Termbanken, Translation Memories und anderen Sprachdaten bestellt ist. Damit wissen Sie, wie Ihre Daten aussehen und ob sie so brauchbar sind und wir sehen, welches Optimierungspotenzial in den Sprachdaten es gibt. 

Datenexport zum Aufbau von Sprachdaten

Auf Wunsch und falls erforderlich extrahieren wir weitere Sprachdaten aus Ihrem Unternehmensbestand, um die Sprachdaten-Basis zu komplettieren, z.B. um weitere Sprachen zu ergänzen. 

Anreichern und Modifizieren von Daten

Wir haben setzen individuell anpassbare Skripte und Automatisierungstechniken ein um Ihre Anforderungen umzusetzen. Und wir verarbeiten Ihre Sprachdaten so, dass Sie in erforderlicher Form und gewünschter Qualität  in die Prozesse Ihres Unternehmens integriert werden können!

Egal ob KI-Anwendung oder ganz klassisch: Wir verarbeiten Ihre wertvollen Sprachdaten sorgfältig und sicher on-premise und sorgen dafür, dass sie in allen Anwendungen effizient eingesetzt werden. 

Use Case “Terminologie-Migration und Bereinigung”

Herausforderung: Ein mittelständisches Maschinenbau-Unternehmen plante den Umstieg auf ein neues Translation Management System (TMS), das seinen Anforderungen besser entsprach. Es lagen umfangreiche Sprachdaten in Form mehrsprachiger Translation Memories und Terminologie-Tabellen in Excel vor, die in das neue Zielsystem migriert werden sollten. Beim Import der Terminologie-Daten stellte sich heraus, dass personalisierte Felder in der Excel-Tabelle nicht in die Termeinträge des neuen Systems übernommen werden konnten.

Lösung: Da sich die Eintragsstrukturen der Excel-Tabelle nicht mit Bordmitteln auf das Zielsystem mappen ließen, wurden die Ausgangsdaten von berns language consulting mit Hilfe von Skripten automatisiert in ein gültiges Importformat transformiert. So wurde ein saubere Import aller relevanten Terminformationen gewährleistet. Im Zuge dieser Migration wurden zusätzlich Übersetzungseinheiten mit unerwünschter Terminologie im Translation Memory markiert, was eine gezielte Bereinigung der Segmente ermöglichte.

Use Case “Synonymfindung über Vektorraum-Modelle”

Herausforderung: Ein Automobil-Hersteller wollte die Datenbasis einer Applikation zur geführten Fehlersuche erweitern. Der Grund: Zahlreiche Anwender verwendeten bei der Fehlersuche viele verschiedene Benennungen und Abkürzungen für spezifische Bauteile, Fehlerbilder und Fehlerorte und erhielten keine Ergebnisse.

Lösung: berns language consulting schuf eine neue, erweiterte Datenbasis mit möglichst vielen Varianten. Hierfür wurden Sprachdaten aus Datenbanken, Translation Memories, Aftersales-Literatur und weiteren Quellen extrahiert und aufgearbeitet. Im Anschluss wurde ein Vektorraummodell aller verwendeten Benennungen erstellt. Mithilfe dieses Modells wurden in den Texten Synonyme für Benennungslisten identifiziert, und die Fehlersuche für viele Eingabevarianten optimiert.

Wir machen Ihre wertvollen Sprachdaten noch wertvoller.

Sprachdaten analysieren

  • Analysieren von Sprachdaten, formal und inhaltlich
  • Ausgeben von Detailreports zu problematischen Datenbereichen 
  • Erstellen grafischer Reports

Sprachdaten extrahieren

  • Extrahieren von Sprachdaten aus Unternehmensbeständen
  • Extrahieren von Sprachdaten aus externen Beständen
  • Alignieren von Sprachdaten

Sprachdaten modifizieren

  • Modifizieren & Anreichern 
    von Sprachdaten 
  • Standardisieren von Schreibvarianten
  • Löschen unerwünschter Inhalte
  • Migrieren von Sprachdaten

Möchten Sie mehr über unsere Use-Cases erfahren oder wie wir alles aus Ihren Sprachdaten herausholen? 

Machen Sie mehr aus Ihren Sprachdaten!

info@berns-language-consulting.de

+49 (0)211 22 06 77 0