Direkt zum Inhalt

Analyse von Twitter-Posts zu Aktiengesellschaften mit Hilfe von Methoden der Textanalyse

Ziel des Projekt ist eine zweitteilige Analyse eines Twitter-Datensatzes mit einer initiale Erkennung häufig genannter Themen durch eine Topic Detection mit anschließender Sentiment-Analyse anhand der gefundenen Themen.

 

Projektdurchführung

Oliver Dankwart
Forschungsgruppe Forschungsgruppe Data Science, Institut für Digitalen Wandel (IDW)

Einführung

  • Soziale Netzwerke als essenzielle Treiber des modernen Internets und der Kommunikation
  • Einfluss von Twitter-Beiträgen auf Unternehmen in Form von möglichen Kapitalverlusten und Branding-Einbußen
  • Monitoring der sozialen Netzwerke durch automatische Analysen unter Anwendung von Methoden der Textanalyse wichtig für Unternehmen, um frühzeitig negative Beiträge zu moderieren

Zielsetzung 

  • Zweitteilige Analyse eines Twitter-Datensatzes zu Aktiengesellschaften aus der Technologie-Branche (GAFAM)
  • Initiale Erkennung häufig genannter Themen durch eine Topic Detection mit folgender Sentiment-Analyse anhand der gefundenen Themen
  • Grafische Aufbereitung mit anschließender Analyse der kombinierten Ergebnisse

Methodik

Datenaufbereitung

  • Zusammenführen der Datenquellen (CSV-Dateien), Filterung auf Teildatensatz (Tweets aus 2019, nur Google & Co.) und Bereinigung der übrigen Datenzeilen
  • Vorverarbeitung der Textdaten durch die Entfernung von Sonderzeichen (URLs, #, @-Nutzernamen, etc.), Tokenisierung, Part-of-Speech-Tagging, Lemmatisierung und Erzeugung des Bag of Words-Models

Topic Detection

  • Anwendung des Latent Dirichlet Allocation-Algorithmus (LDA) zur Erkennung der Themen
  • Optimierung des Topic-Modells anhand der Topic Anzahl K und Hyperparametern α und η unter Auswertung quantitativer Kennzahlen (Perplexity, Coherence-Metrik Cv)

Sentiment Analyse

  • Lexikon-basierte Sentiment-Analyse mit Valence Aware Dictionary and Sentiment Reasoner (VADER-Algorithmus)
  • Automatisches Einordnen der Twitter-Beiträge in Polaritäten positiv, negativ und neutral

Evaluierung der Ergebnisse

  • Grafische Darstellung durch Zusammenführung der gefundenen Themen und den Häufigkeiten der Stimmungsrichtungen pro Thema
  • Qualitative Auswertung durch manuelle Analyse und Nutzung des Analysetools pyLDAvis

Ergebnis

Ergebnisse der Topic Model-Optimierung

Tabelle 1

  • Topic Anzahl 12 mit symmetrischem α und η führt zu bester Coherence/Perplexity-Kombination

 

Endergebnis Topic Detection & Sentiment Analyse

Bild1

  • Ergebnisse im Diagramm dienen der weiteren Praxisanwendung, bspw. Entscheidungsfindung in Unternehmen oder bei Finanzmarktakteuren

 

Ergebnisse Topic-Modell K=12

Tabelle2

Zusammenfassung

  • Optimierte Topic Detection erkennt relevante Themen in Social Media-Datensätzen
  • Sentiment-Analyse verleiht Analyse eine weitere Dimension (Stimmung des Themas)
  • Vielfältige Anwendungsmöglichkeiten der Ergebnisse bei Aktiengesellschaften, in der Finanzbranche selbst oder für Kleinanleger


Literatur

1. D. M. Blei, “Probabilistic Topic Models,” Commun. ACM, Jg. 55, Nr. 4, S. 77–84, Apr. 2012, issn: 0001-0782. doi: 10.1145/2133806.2133826. Adresse: https://doi.org/10.1145/2133806.2133826.
2. R. Churchill und L. Singh, “The Evolution of Topic Modeling,” S. 1–35, Nov. 2022. doi: 10.1145/3507900. Adresse: https://doi.org/10.1145/3507900
3. A. Giachanou und F. Crestani, “Like It or Not: A Survey of Twitter Sentiment Analysis Methods,” Bd. 49, Association for Computing Machinery, 2016. doi:10.1145/2938640. Adresse: https://doi.org/10.1145/2938640.

Downloads

pdf (762 kB)