Große Anbieter wie Amazon und Google verwenden häufig Online Reviews in Textform, in denen Nutzer ihre Meinung bzw. Erfahrung zu einem Produkt oder einer Dienstleistung äußern können. Es gibt mittlerweile sehr viele solcher Reviews und der Aufbau eines Reviews ist völlig dem Nutzer überlassen. Nicht zuletzt deshalb ist die automatisierte Auswertung dieser Reviews mithilfe von Text Mining – etwa im Kontext von Marktforschung – ein aktiv umforschter Bereich.
Im Rahmen meiner Bachelorarbeit habe ich mir einen Unterbereich dieser Forschung, die sogenannte Aspect Based Sentiment Analysis, mal etwas genauer angeguckt und exemplarisch eine automatisierte Analyse auf großer Skala durchgeführt. Bei die Aspect Based Sentiment Analysis geht es darum, in Online Reviews erwähnte Produkteigenschaften (Aspects) und das Sentiment zu diesen automatisiert zu extrahieren.
Auf diese Aufgabe habe ich mithilfe von Machine Learning verschiedene Modelle (künstliche neuronale Netze) trainiert. Ein besonderer Fokus lag hierbei auf sogenannten Transformer-Modellen. Bei diesen handelt es sich um Modelle mit einer bestimmten Art von Deep-Learning-Modellarchitektur, die erstmals im Jahr 2017 von Google’s Deep-Learning-Abteilung Google Brain vorgestellt wurde und in den letzten Jahren immer mehr an Relevanz im Bereich des Natural Language Processing (NLP) gewonnen hat. In vielen Bereichen setzen diese Modelle den State of the Art, sprich sie gehören zu den leistungsstärksten Modellen. Insbesondere gibt es hierbei verschiedene vortrainierte Modelle, d.h. Modelle, die auf einer großen Datenmenge und einem oder mehreren NLP-Tasks vortrainiert wurden. Zum anschließenden Erlernen eines neuen Tasks ist dann lediglich ein Fine-Tuning notwendig („Transfer Learning“). Dadurch können die bereits erlernten abstrakten Repräsentationen von natürlicher Sprache zum effektiveren Lernen des neuen Tasks genutzt werden, anstatt dass ein von Grund auf neues neuronales Netz trainiert werden muss.
Überblick über das Vorgehen:
Für meine Arbeit habe ich Online Reviews des Online-Versandhändlers amazon.com verwendet. Zunächst wurden fünf Produktkategorien ausgewählt und aus diesen jeweils einige hundert Reviews manuell nach dem beschriebenen Aspect-Based-Sentiment-Analysis-Schema annotiert. Anschließend wurden verschiedene Modelle auf diesem Datensatz trainiert und evaluiert. Die leistungsstärksten Modelle wurden dann verwendet, um auf einem großen Korpus (etwa 400.000 Reviews) automatisiert Aspects und Sentimente zu labeln. Die von den Modellen vorhergesagten Aspects habe ich dann mit verschiedenen Ansätzen geclustert (gruppiert) und anschließend analysiert.
Und welche Ergebnisse und vor allem welches Fazit ich da draus ziehen konnte, gibt es hier. Lesen Sie jetzt weiter!