Sentiment-Analyse und Topic Detection
Ziel des Projekts war die Sentiment Analysis & Topic Detection mittels wortlistenbasierten und supervised Machine Learning Ansätzen sowie die Dynamische Erkennung von Topics auf unterschiedlichen Abstraktionsebenen mittels unsupervised Learning (Clustering) und aspektbasierten Verfahren.
Projektdurchführung
Prof. Dr. Wolfram Höpken,
Forschungsgruppe Internet of Things (IoT), Institut für Digitalen Wandel (IDW), Amadeus Airport IT
Einführung
- Große Mengen an Kundenfeedback und Produktbewertungen (UGC) verfügbar in nahezu allen Branchen
- Automatische Auswertung mittels Methoden des Text Mining unumgänglich (Sentiment Analysis & Topic Detection)
Zielsetzung
- Sentiment Analysis & Topic Detection mittels wortlistenbasierter und supervised Machine Learning Ansätze
- Dynamische Erkennung von Topics auf unterschiedlichen Abstraktionsebenen mittels unsupervised Learning (Clustering) und aspektbasierten Verfahren
Methodik
Datenextraktion & Aufbereitung
- Extraktion von Produktbewertungen mittels Web Crawling (Reguläre Ausdrücke und XPath)
- Text-Preprocessing: Tokenization, Entfernen von Stopp-Wörtern, Reduktion auf den Wortstamm, Part-of-Speech (POS) Tagging, N-Gramme, Erzeugung eines Word-Vektors (Bag of Words)
Supervised Learning
- Wortlistenbasierte Sentiment- und Topic Detection
- K-nearest-neighbors (k-NN), Naïve Bayes und Support Vector Machines (SVM)
Unsupervised Learning
- Keyword Clustering (k-Means)
- Latent Semantic Indexing (LSI)
Aspektorientierte Verfahren
- POS Tag Patterns
- Named Entity Recognition (NER) mit Conditional Random Fields (CRF)
- Dependency Parsing und SentiWordNet
Ergebnisse
Ergebnisse Supervised Topic Detection
Ergebnisse Sentiment Detection
Ergebnisse Unsupervised Topic Detection mit k-means Clustering
Benchmarking auf Basis des durchschnittlichen Sentiments pro Topic und Anbieter
Zusammenfassung
- Text Mining als sinnvolle Möglichkeit zur automatischen Analyse von Kundenfeedback und Produktbewertungen
- Unsupervised Topic Detection erkennt Topics dynamisch (Topic Drift) und fein-granular (Topic-Hierarchie)
Literatur
- Höpken, W., Fuchs, M., Menner, Th. and Lexhagen, M. 2017b. “Sensing the Online Social Sphere - the Sentiment Analytical Approach”, Xiang, Z. and Fesenmaier, D.R. (Ed.s.), Analytics in Smart Tourism Design – Concepts and Methods, Springer, Cham: 129-146.
- Menner, T., Höpken, W., Fuchs, M. and Lexhagen, M. 2016. “Topic detection – Identifying relevant topics in tourism reviews”, in Inversini, A. and Schegg, R. (Ed.s.), Information and Communication Technologies in Tourism 2016, Springer, New York: 411-423.
- Schmunk, S., Höpken, W., Fuchs, M. and Lexhagen, M. 2014. “Sentiment Analysis – Implementation and Evaluation of Methods for Sentiment Analysis with Rapid-Miner®”, in Xiang, Ph. and Tussyadiah, I. (Ed.s.), Information and Communication Technologies in Tourism 2014, Springer, New York: 253-265)