Sprachdaten aufbereiten

Daten sind wertvoll - Sprachdaten erst recht!

Denn gute Sprachdaten sind das A und O für den Einsatz neuster Technologien, wie maschinelle Übersetzung, semantische Suche oder Chatbots. Aber nicht nur! Auch für Terminologiedatenbanken, Ontologien oder effiziente Translation Memories ist eine gute Sprachdatenbasis ausschlaggebend.

Was sind denn alles Sprachdaten? Alles, was bei Ihnen als Text, in geschriebener oder gesprochener Form auf Servern, in Content Management Systemen, auf Webseiten gelagert wird. Gute Sprachdaten sind zweisprachig und strukturiert, eben automatisch verarbeitbar.

Aber auch nicht strukturierte, einsprachige Daten werden durch uns wertvoll.

Ihre Sprachdaten zahlen sich endlich aus.

Sprachdaten liegen in vielen Formaten und Qualitätsstufen vor:

  • ein- oder mehrsprachig
  • strukturiert und unstrukturiert
  • in unzähligen Dateiformaten: XML, TXT, CSV, DOC, HTM, …

Wir haben das Know-How und verwenden State-of-the-Art Tools, um Sprachdaten in jedem Format zu verarbeiten, damit sie effizient in Ihre Sprachprozesse integriert werden können!

Fortschritte im Bereich der künstlichen Intelligenz sind an der Tagesordnung. Aber ohne Sprachdaten kann künstliche Intelligenz nicht wirken. Wir helfen bei der richtigen Behandlung Ihrer Sprachdaten und sorgen dafür, dass diese effizient eingesetzt werden können – egal in welcher Anwendung!

Use Case “Terminologie-Migration und Bereinigung”

Herausforderung: Ein mittelständisches Maschinenbau-Unternehmen wollte auf ein Translation Management System (TMS) umsteigen, das seinen Anforderungen besser entsprach als das Altsystem. Es lagen umfangreiche Sprachdaten in Form mehrsprachiger Translation Memories und Terminologie-Tabellen in Excel vor, die in das neue Zielsystem importiert werden sollten. Beim Import der Terminologie-Daten stellte sich heraus, dass personalisierte Felder der Excel-Tabelle nicht in die Termeinträge des neuen Systems übernommen werden konnten.

Lösung: Da sich die Eintragsstrukturen der Excel-Tabelle nicht mit Bordmitteln auf das Zielsystem mappen ließen, wurden die Ausgangsdaten von berns language consulting mit Hilfe personalisierter Skripte in ein gültiges Importformat (z.B. TBX) transformiert, um einen sauberen und automatisierten Import aller relevanten Terminformationen zu gewährleisten. Im Zuge der Migration wurden darüber hinaus Übersetzungseinheiten mit unerwünschter Terminologie im Translation Memory markiert, was eine gezielte Bereinigung der Segmente ermöglichte.

Use Case “Synonymfindung über Vektorraum-Modelle”

Herausforderung: Ein Automobil-Hersteller wollte die Datenbasis einer Applikation zur geführten Fehlersuche erweitern. Der Grund: Zahlreiche Anwender verwendeten bei der Fehlersuche viele verschiedene Benennungen und Abkürzungen für spezifische Bauteile, Fehlerbilder und Fehlerorte und erhielten dann häufig keine Ergebnisse.

Lösung: berns language consulting schuf eine neue, erweiterte Datenbasis mit möglichst vielen Varianten. Hierfür wurden zunächst Sprachdaten aus Datenbanken, Translation Memories, Aftersales-Literatur und weiteren Quellen extrahiert und aufgearbeitet. Im Anschluss wurde mithilfe dieser Daten ein Vektorraummodell aller verwendeten Benennungen erstellt. Mithilfe des so erzeugten Datenmodells wurden in den Texten Synonyme für bestehende Benennungslisten identifiziert, und so die Fehlersuche auch für unterschiedlichste Eingabevarianten effizient gestaltet.

Und so unterstützen wir Sie bei der Aufbereitung Ihrer Sprachdaten.

Sprachdaten bereinigen

  • Sprachdaten aus beliebigen Systemen extrahieren
  • Unerwünschte Inhalte automatisiert löschen
  • Schreibvarianten standardisieren

Sprachdaten migrieren

  • Sprachdaten parsen, transformieren und migrieren
  • Sprachdaten in Sprachpaaren zuordnen
  • Sprachdaten in beliebige Systeme importieren

Sprachdaten anonymisieren

  • Daten nach Regeln anonymisieren
  • Personenbezogene Daten pseudonymisieren
  • Datenaustausch mit Cloud-Tools absichern

Möchten Sie mehr über unsere Use-Cases wissen? Oder wollen Sie erfahren, wie Sie alles aus Ihren Daten herausholen können? Sprechen wir darüber, jederzeit!

 

Holen Sie alles aus Ihren Sprachdaten heraus!