Direkt zum Inhalt

Analyse von Kundenfeedback

Sentiment-Analyse und Topic Detection

Ziel des Projekts war die Sentiment Analysis & Topic Detection mittels wortlistenbasierten und supervised Machine Learning Ansätzen sowie die Dynamische Erkennung von Topics auf unterschiedlichen Abstraktionsebenen mittels unsupervised Learning (Clustering) und aspektbasierten Verfahren.

Projektdurchführung

Prof. Dr. Wolfram Höpken,

Forschungsgruppe Internet of Things (IoT), Institut für Digitalen Wandel (IDW), Amadeus Airport IT

Einführung

  • Große Mengen an Kundenfeedback und Produktbewertungen (UGC) verfügbar in nahezu allen Branchen
  • Automatische Auswertung mittels Methoden des Text Mining unumgänglich (Sentiment Analysis & Topic Detection)

Zielsetzung 

  • Sentiment Analysis & Topic Detection mittels wortlistenbasierter und supervised Machine Learning Ansätze
  • Dynamische Erkennung von Topics auf unterschiedlichen Abstraktionsebenen mittels unsupervised Learning (Clustering) und aspektbasierten Verfahren

Methodik

Datenextraktion & Aufbereitung

  • Extraktion von Produktbewertungen mittels Web Crawling (Reguläre Ausdrücke und XPath)
  • Text-Preprocessing: Tokenization, Entfernen von Stopp-Wörtern, Reduktion auf den Wortstamm, Part-of-Speech (POS) Tagging, N-Gramme, Erzeugung eines Word-Vektors (Bag of Words)

Supervised Learning

  • Wortlistenbasierte Sentiment- und Topic Detection
  • K-nearest-neighbors (k-NN), Naïve Bayes und Support Vector Machines (SVM)

Unsupervised Learning

  • Keyword Clustering (k-Means)
  • Latent Semantic Indexing (LSI)

Aspektorientierte Verfahren

  • POS Tag Patterns
  • Named Entity Recognition (NER) mit Conditional Random Fields (CRF)
  • Dependency Parsing und SentiWordNet

Verfahren

Ergebnisse

Ergebnisse Supervised Topic Detection

Tabelle Ergebnisse Supervised Topic Detection

 

Ergebnisse Sentiment Detection

Tabelle Ergebnisse Sentiment Detection

 

Ergebnisse Unsupervised Topic Detection mit k-means Clustering
 

Tabelle Ergebnisse Unsupervised Topic Detection mit k-means Clustering
Keywords = Wörter mit TF-IDF-Wert > 0.05; WCV = Within Cluster Variation; Güte = Güte der Zuordnung zu vordefiniertem Topic

 

Benchmarking auf Basis des durchschnittlichen Sentiments pro Topic und Anbieter
 

Grafik Benchmarking auf Basis des durchschnittlichen Sentiments pro Topic und Anbieter

 

Zusammenfassung

  • Text Mining als sinnvolle Möglichkeit zur automatischen Analyse von Kundenfeedback und Produktbewertungen
  • Unsupervised Topic Detection erkennt Topics dynamisch (Topic Drift) und fein-granular (Topic-Hierarchie)

Literatur

  1. Höpken, W., Fuchs, M., Menner, Th. and Lexhagen, M. 2017b. “Sensing the Online Social Sphere - the Sentiment Analytical Approach”, Xiang, Z. and Fesenmaier, D.R. (Ed.s.), Analytics in Smart Tourism Design – Concepts and Methods, Springer, Cham: 129-146.
  2. Menner, T., Höpken, W., Fuchs, M. and Lexhagen, M. 2016. “Topic detection – Identifying relevant topics in tourism reviews”, in Inversini, A. and Schegg, R. (Ed.s.), Information and Communication Technologies in Tourism 2016, Springer, New York: 411-423.
  3. Schmunk, S., Höpken, W., Fuchs, M. and Lexhagen, M. 2014. “Sentiment Analysis – Implementation and Evaluation of Methods for Sentiment Analysis with Rapid-Miner®”, in Xiang, Ph. and Tussyadiah, I. (Ed.s.), Information and Communication Technologies in Tourism 2014, Springer, New York: 253-265)