Analyse von Twitter-Posts zu Aktiengesellschaften mit Hilfe von Methoden der Textanalyse

Ziel des Projekt ist eine zweitteilige Analyse eines Twitter-Datensatzes mit einer initiale Erkennung häufig genannter Themen durch eine Topic Detection mit anschließender Sentiment-Analyse anhand der gefundenen Themen.

Projektdurchführung

Oliver Dankwart
Forschungsgruppe Forschungsgruppe Data Science, Institut für Digitalen Wandel (IDW)

Einführung

Soziale Netzwerke als essenzielle Treiber des modernen Internets und der Kommunikation
Einfluss von Twitter-Beiträgen auf Unternehmen in Form von möglichen Kapitalverlusten und Branding-Einbußen
Monitoring der sozialen Netzwerke durch automatische Analysen unter Anwendung von Methoden der Textanalyse wichtig für Unternehmen, um frühzeitig negative Beiträge zu moderieren

Zielsetzung

Zweitteilige Analyse eines Twitter-Datensatzes zu Aktiengesellschaften aus der Technologie-Branche (GAFAM)
Initiale Erkennung häufig genannter Themen durch eine Topic Detection mit folgender Sentiment-Analyse anhand der gefundenen Themen
Grafische Aufbereitung mit anschließender Analyse der kombinierten Ergebnisse

Methodik

Datenaufbereitung

Zusammenführen der Datenquellen (CSV-Dateien), Filterung auf Teildatensatz (Tweets aus 2019, nur Google & Co.) und Bereinigung der übrigen Datenzeilen
Vorverarbeitung der Textdaten durch die Entfernung von Sonderzeichen (URLs, #, @-Nutzernamen, etc.), Tokenisierung, Part-of-Speech-Tagging, Lemmatisierung und Erzeugung des Bag of Words-Models

Topic Detection

Anwendung des Latent Dirichlet Allocation-Algorithmus (LDA) zur Erkennung der Themen
Optimierung des Topic-Modells anhand der Topic Anzahl K und Hyperparametern α und η unter Auswertung quantitativer Kennzahlen (Perplexity, Coherence-Metrik Cv)

Sentiment Analyse

Lexikon-basierte Sentiment-Analyse mit Valence Aware Dictionary and Sentiment Reasoner (VADER-Algorithmus)
Automatisches Einordnen der Twitter-Beiträge in Polaritäten positiv, negativ und neutral

Evaluierung der Ergebnisse

Grafische Darstellung durch Zusammenführung der gefundenen Themen und den Häufigkeiten der Stimmungsrichtungen pro Thema
Qualitative Auswertung durch manuelle Analyse und Nutzung des Analysetools pyLDAvis

Ergebnis

Ergebnisse der Topic Model-Optimierung

Tabelle 1

Topic Anzahl 12 mit symmetrischem α und η führt zu bester Coherence/Perplexity-Kombination

Endergebnis Topic Detection & Sentiment Analyse

Bild1

Ergebnisse im Diagramm dienen der weiteren Praxisanwendung, bspw. Entscheidungsfindung in Unternehmen oder bei Finanzmarktakteuren

Ergebnisse Topic-Modell K=12

Tabelle2

Zusammenfassung

Optimierte Topic Detection erkennt relevante Themen in Social Media-Datensätzen
Sentiment-Analyse verleiht Analyse eine weitere Dimension (Stimmung des Themas)
Vielfältige Anwendungsmöglichkeiten der Ergebnisse bei Aktiengesellschaften, in der Finanzbranche selbst oder für Kleinanleger

Literatur

1. D. M. Blei, “Probabilistic Topic Models,” Commun. ACM, Jg. 55, Nr. 4, S. 77–84, Apr. 2012, issn: 0001-0782. doi: 10.1145/2133806.2133826. Adresse: https://doi.org/10.1145/2133806.2133826.
2. R. Churchill und L. Singh, “The Evolution of Topic Modeling,” S. 1–35, Nov. 2022. doi: 10.1145/3507900. Adresse: https://doi.org/10.1145/3507900
3. A. Giachanou und F. Crestani, “Like It or Not: A Survey of Twitter Sentiment Analysis Methods,” Bd. 49, Association for Computing Machinery, 2016. doi:10.1145/2938640. Adresse: https://doi.org/10.1145/2938640.

Downloads

Twitter-Posts.pdf (PDF, 761.97 KB)