Von Anonymisierung und Washington: Mein Praktikum bei blc

Anonymisierung und Washington

Mein Name ist Mohamed, ein angehender Software-Engineering-Student der Universität Duisburg-Essen. Meine Lieblingssportarten sind Schwimmen, Tauchen und Schnorcheln, warum das relevant ist, erfahren Sie später 😉. Ich hatte die Gelegenheit, mein Pflichtpraktikum bei blc zu absolvieren und in diesem Blog möchte ich darüber berichten

Im August habe ich mein dreimonatiges Praktikum bei berns language consulting im Hybridmodus begonnen. An den Tagen, an denen ich vor Ort in Düsseldorf war – dienstags und freitags – konnte ich eng mit dem Team zusammenarbeiten, aber auch aus dem Home Office, war es kein Problem, meine Aufgaben zu erledigen und mit dem gesamten Team zu kommunizieren.

Da mein Interesse an Sprachen schon immer da war und ich das klare Ziel hatte mich beruflich durch verbesserte Sprachkenntnisse weiterzuentwickeln, fiel die Wahl meines Praktikumsunternehmens schnell auf berns language consulting, weil alle meine Anforderungen erfüllt wurden. Und was soll ich sagen…

...meine Zeit bei blc war sagenhaft und hätte besser nicht sein können.

Schon bevor ich das Praktikum angefangen habe, habe ich mir Gedanken gemacht, wie meine Praktikumszeit denn sein wird. Natürlich kamen mir auch ein paar Fragen in den Sinn, nämlich:  

  • Kann ich das schaffen?  
  • Wie werde ich mit meinen Kolleg: innen zurechtkommen?  
  • Was kann ich machen, um so viel wie möglich zu lernen und diese Zeit gut zu nutzen?  

Vor dem Praktikum waren das meine größten Sorgen. Was ich noch nicht wusste: Dass ich bereits am ersten Tag eine Antwort auf jede meiner Fragen bekommen sollte.   

Wie ging es denn los?

Jenny hat Babo vertreten und mich empfangen und mir mein CL-Team vorgestellt – alle waren supernett. Ich hatte also gar kein Problem, das Eis zu brechen und mit ihnen zurechtzukommen. Besonders der freundliche Umgang im Team hat mir sehr gut gefallen. Es hat direkt eine lockere und schöne Arbeitsatmosphäre geschaffen.  

Gleich zu Beginn gab es ein Einarbeitungsboard, auf dem alle meine Aufgaben festgehalten waren, außerdem habe ich einen guten Einblick in die Funktionsweise der einzelnen Bereiche von blc bekommen. So wurden mir sofort das Management, Marketing, aber vor allem Terminologie, maschinelle Übersetzung, Programmierung und Weiteres erklärt. Ich konnte gleich mit meinen Aufgaben starten und war Teil des Teams.  

Ich hatte immer die Gelegenheit, meine Aufgaben mit dem Team zu teilen und anschließend konstruktives Feedback darüber zu bekommen. Einmal habe ich beispielsweise die Ergebnisse meiner Recherche über automatische Bildgenerierung vorgestellt und ich habe gute Ratschläge bekommen, wie ich Dinge besser präsentieren kann. Jeder hat sein Bestens gegeben, um mir zu helfen und zu erklären, damit ich weiter lerne. Dafür möchte ich mich an dieser Stelle gerne beim gesamten Team bedanken!

Meine Entdeckungen in der Welt der Anonymisierung

Natürlich habe ich mich nicht nur mit Bildgenerierung durch KI beschäftigt. Ich hatte auch weitere sehr interessante Aufgaben, die sogar als Grundlage für Projekte dienten. So konnte ich meine Kenntnisse nicht nur vertiefen, sondern auch erweitern. Zum Beispiel habe mich mit Anonymisierung in Textdaten beschäftigt, welche aus Datenschutzgründen von den Kunden oft gewünscht werden. Dafür habe ich zum Teil Reguläre Ausdrücke beziehungsweise RegEx verwendet, um bestimmte Muster in den Texten zu finden und durch einen Platzhalter zu ersetzen, wie etwa Geldbeträge. 

Zum Teil habe ich auch Sprachmodelle aus Huggingface transformers importiert, um bestimmte Entitäten zu identifizieren und dementsprechend zu anonymisieren. Das war besonders interessant, weil ich auf einmal Personennamen in russischen, spanischen, italienischen, englischen und deutschen Texten erkennen konnte und das, ohne die meisten Sprachen davon zu sprechen – das fand ich sehr faszinierend. Entitäten aus Fremdsprachentexten zu identifizieren, ohne die jeweiligen Sprachkenntnisse zu besitzen, kam mir vor wie Magie! 

Was mich beim Umgang mit Sprachmodellen auch beeindruckt hat, ist, dass das Modell zwischen zwei Wörtern mit verschiedenen Bedeutungen unterscheiden kann. Um das zu verdeutlichen, habe ich ein Beispiel mitgebracht: George Washington wohnt in Washington

Anonymisierung und Washington

Das Modell kann das erste Washington als Person und das zweite als Ort erkennen. In diesem Sinne können je nach Anforderung unterschiedliche Entitäten anonymisiert werden, auch wenn der String identisch ist. Im konkreten Beispiel wurden George und das erste Washington durch xxx xxx ersetzt, da es um die Anonymisierung von Personennamen ging. 

Abschließend kann ich nur sagen, dass mir das Praktikum nicht nur sehr gut gefallen hat, sondern mich auch weitergebracht hat: Denn nun kann ich dank blc im Sprachenmeer diese Leidenschaft ausleben, ohne unterzugehen 😉

Übrigens habe ich das Bild mittels eines KI generierten Prompts mit Canva erstellen lassen.

Related Posts