Spätestens seit der Einführung von ChatGPT im Herbst 2022 ist das Thema Künstliche Intelligenz (kurz KI) in aller Munde. Die Entwicklungen in diesem Bereich sind rasant und aufregend. Viele Aufgaben, die bisher nur von Menschen erledigt werden konnten, schaffen nun auch Maschinen. Die technologischen Fortschritte treiben die Entwicklung neuer KI-Anwendungen, auch im Sprachensektor, enorm schnell voran. Doch bei der großen Auswahl an KI-Systemen und Systemanbietern für alle möglichen Anwendungsszenarien fällt die Entscheidung nicht leicht. Eine Qualitätsbewertung kann helfen!
Wir geben einen Überblick über die Möglichkeiten der Bewertung von KI (in Bezug auf Sprache) und über das, was noch vor uns liegt.
Übrigens: Unsere spannenden KI-Coachings stehen an! In vier Online-Sessions erfahren Sie alles, was Sie über KI wissen müssen, um sie effizient in Ihrer Terminologiearbeit einzusetzen. Sichern Sie sich schon jetzt Ihren Platz, denn die Anmeldefrist läuft nur noch bis zum 20. September 2024!
Wofür Qualität bewerten?
Szenario Nummer 1 ist die Auswahl der passenden KI-Anwendung. KI hat viele Facetten. (Übrigens: Wenn Sie mehr über KI erfahren wollen, empfehlen wir Ihnen die Lektüre unseres KI-Whitepapers!)
Was ist denn der Use Case, welche Aufgabe soll die KI erfüllen? Ist die Zielfrage geklärt, kann man entscheiden, welche Art von KI sich für den individuellen Anwendungsfall eignet und welche Anwendungen infrage kommen. Aus den Anforderungen resultiert in der Regel eine Shortlist an Systemen oder Methoden, die man gegeneinander testen kann, um zu entscheiden, welche man letztlich einführt.
Szenario Nummer 2 ist die regelmäßige Qualitätsbewertung, nachdem man sich für eine KI-Anwendung entschieden hat. Dann nämlich geht es an die stetige Verbesserung dieser KI, z.B. durch (Re-)Trainings, flexible RAG-Pipelines oder durch Optimierung der Daten.
Und wie?
Für die Bewertung der Ergebnisse können verschiedene Verfahren angewendet werden. Je nach KI-Anwendungsfall sind andere Metriken geeignet. Ein paar Beispiele:
Metriken für Textklassifikation
Beispiel-Use-Case: Sentiment Analyse, Hate-Speech-Detection, Sortierung von E-Mails.
- Precision: Anteil der tatsächlich korrekten positiven Instanzen unter allen als positiv klassifizierten Vorhersagen.
- Recall: Anteil der korrekt erkannten positiven Vorhersagen unter allen tatsächlichen positiven Instanzen.
- F1-Score: Harmonischer Mittelwert von Precision und Recall.
Metriken für Natural Language Processing (NLP)
- BLEU: Bewertet, wie ähnlich ein generierter Text einem Referenztext ist, auf der Basis von übereinstimmenden Zeichenfolgen. Beispiel-Use-Case: Maschinelle Übersetzung.
- BertScore: Bewertet, wie hoch die semantische Ähnlichkeit zwischen einem generierten Text und einem Referenztext ist. Beispiel-Use-Case: Textzusammenfassung, Kontext-Adaption.
- Word Error Rate: Anteil der falsch erkannten Wörter im Vergleich zur Referenz. Beispiel-Use-Case: Spracherkennung.
- Fluency: Flüssige Lesbarkeit und grammatische Korrektheit eines Textes. Beispiel-Use-Case: Textgenerierung.
Metriken für Chatbots
- Diversity: Bestimmung des Anteils an stereotypen oder sich wiederholenden Antworten.
- Relevance: Relevanz einer generierten Antwort in Bezug auf die gestellte Frage oder den vorangegangenen Kontext.
Einige dieser Metriken lassen sich automatisch, d.h. mithilfe von Algorithmen berechnen. Für andere braucht es menschliche Evaluator:innen. Die humane Bewertung ist zwar kosten- und zeitintensiver als die automatische, liefert jedoch detaillierte und wertvolle Erkenntnisse. Da alle Metriken Stärken in gewissen Anwendungsfällen und Schwächen in anderen haben, ist es immer ratsam, mehrere miteinander zu kombinieren. So wird versucht, verschiedene Aspekte der Sprache mit unterschiedlichen Metriken abzudecken, um ein möglichst ganzheitliches Bild der Ergebnisqualität zu bekommen. Im besten Fall sollte außerdem eine Mischung aus Human- und automatischer Evaluation durchgeführt werden.
Vision: Selbstbewertende KI?
Mit dem rasanten Fortschritt in der KI-Entwicklung stellt sich die Frage: Können KI-Modelle in Zukunft selbst die Leistung anderer Modelle bewerten? Diese Idee wirft spannende Perspektiven auf, wie KI-basierte Evaluierungssysteme in der Entwicklung und Optimierung von KI eingesetzt werden könnten.
Tatsächlich ist der Gedanke gar nicht so innovativ, wie er im ersten Moment klingt. Im Kontext von maschineller Übersetzung wird automatische Qualitätssicherung z. T. schon eingesetzt. Die sogenannte Quality Risk Estimation ist ein KI-Modell, das maschinell übersetzte Texte im Hinblick auf ihre Qualität bewertet.
Auch LLMs können aufgrund ihrer analytischen Fähigkeiten zur Bewertung und Verbesserung im Kontext von Texterstellung eingesetzt werden. Die Grundlagen für ein System, bei dem eine KI eine andere bewertet, liegen bereits in den heutigen Trainingsmechanismen und Evaluationsmetriken. Künftig könnten sogenannte Meta-Modelle speziell dafür trainiert werden, nicht nur die Ergebnisse, sondern auch die Architektur, Trainingsprozesse und die Lernfähigkeiten anderer KI-Modelle zu analysieren.
Fazit und Ausblick
Wenn KI-Systeme in der Lage sind, die Leistung anderer KI-Systeme effektiv zu bewerten und zu verbessern, könnte dies den gesamten KI-Einsatz sowie den Prozess ihrer Entwicklung revolutionieren. Allerdings darf man nicht vergessen, dass auch solche Meta-Modelle bewertet werden müssen, damit sich ein KI-Fehler nicht durch die gesamte Pipeline hindurchzieht. Die Lösung: Der Einsatz von sauberen Prozessen zur Qualitätssicherung und hybriden Evaluierungskonzepten, individuell zugeschnitten auf die jeweilige KI, und mit Menschen als finale Kontrollinstanz.
Sie wollen mehr über KI und KI-Evaluierung erfahren? Kontaktieren Sie uns gerne!