Social Media Magazin™

Das Magazin für Marketing, Marktforschung und PR

  • Schrift vergrößern
  • Standard-Schriftgröße
  • Schriftgröße verkleinern
Start Heft Nr. 03-2011 Lernende Maschinen

Lernende Maschinen

Automatische Sentimentanalyse                                     maschine
von David Schönhalz

Die systematische Analyse der in Social Media stattfinden Gespräche über Unternehmen, Produkte oder Dienstleistungen, sowie die Integration der gewonnenen Erkenntnisse in PR oder Marktforschung kann für Unternehmen entscheidende strategische Vorteile mit sich bringen. Eine umfassende Analyse der im Web 2.0 vorliegenden Inhalte lässt sich aber, insbesondere bei großen Unternehmen, zu deren Produkten täglich tausende von Postings auf vielen verschiedenen Websites veröffentlicht werden, häufig nur mit Hilfe komplexer computergestützter Systeme realisieren. Eines der populärsten und meistdiskutierten Verfahren in diesem Bereich ist die sogenannte Sentiment- oder Tonalitätsanalyse.

Die Sentimentanalyse in der Wissenschaft
Die zunehmende Bedeutung des Webs als kommerzielle Plattform und der Erfolg von Social Media im letzten Jahrzehnt führten auch zu einem gesteigerten Interesse an neuartigen Verfahren zur automatischen Erkennung und Analyse von Tonalitäten im Netz. In der Wissenschaft sind es insbesondere die Informationswissenschaft und die Informatik, die sich mit der computerbasierten Analyse von Meinungen und Stimmungen im Internet bzw. Social Media befassen. »Sentiment Analysis« oder »Opinion Mining« nennt sich das entsprechende Forschungsfeld, welches sich bereits vor rund zehn Jahren etablierte und seitdem einen wahren Boom erfuhr. Mittlerweile gibt es zahlreiche unterschiedliche Ansätze - von einfachen wörterbuchbasierten Verfahren bis hin zu elaborierten Systemen, die verschiedene Methoden zum Beispiel aus den Bereichen des Machine Learning und der Informationslinguistik kombinieren. Die Resultate, welche diese Systeme erzielen, sind demzufolge qualitativ völlig unterschiedlich. Einfache Systeme produzieren erwartungsgemäß oftmals hohe Fehlerraten und sind somit für seriöse Analysen ungeeignet, doch auch komplexere Verfahren können bisweilen nicht mit der menschlichen Analysefähigkeit konkurrieren. Nicht zuletzt aus diesem Grund wird der Nutzen der automatischen Sentimentanalyse im praktischen Einsatz kontrovers diskutiert.

Was die tatsächlichen Möglichkeiten und Grenzen der automatischen Tonalitätsanalyse sind, lässt sich am besten anhand eines Blicks auf die Funktionsweise und die unterschiedlichen Ansätze der Sentimentanalyse verdeutlichen.


Die Herausforderung Social Media
Das grundsätzliche Ziel der Sentimentanalyse ist die Klassifizierung von digitalen Dokumenten nach den in ihnen vorkommenden »Sentiments«. Als »Sentiment« bezeichnet man eine Stimmung oder eine auf einer Emotion basierende Meinung, die eine Person bezüglich einer anderen Person oder Organisation, eines Gegenstandes oder eines Sachverhaltes hat bzw. äußert. Zur Klassifizierung der gefundenen Dokumente und Textausschnitte, welche Sentiments enthalten, werden häufig die drei Kategorien »positiv«, »negativ« und »neutral« bzw. verschiedene Skalen verwendet. Neben der Klassifizierung von Texten nach Sentiments, was sozusagen die Hauptaufgabe eines Sentimentanalyse-Systems ist, gibt es zudem zahlreiche Nebenaufgaben, zu denen zum Beispiel die Bestimmung der Polarität einzelner Wörter, Sätze und Texte oder die Erkennung von Subjektivität und Objektivität gehören.

So einfach dies zunächst vielleicht klingen mag – die Umsetzung in der Praxis gestaltet sich häufig schwierig. Zu den großen Herausforderungen, die es zu bewältigen gilt, zählt nicht nur das enorme Datenvolumen in Social Media, sondern vor allem die inhaltliche und strukturelle Heterogenität der nutzergenerierten Inhalte. Informationslinguistische und textstatistische Verfahren stoßen häufig an ihre Grenzen, wenn es darum geht, brauchbare Analyseergebnisse zu erzielen und eine Ordnung in das Chaos der Web-2.0-Daten zu bringen.

Sarkasmus, Ironie, Mehrdeutigkeiten, Spam, Abkürzungen, der Gebrauch von Slang und Dialekten oder eine häufig fehlerbehaftete Orthografie und Grammatik sind nur einige der auftauchenden Probleme. Schwierigkeiten bereitet zudem die Komplexität der Dialoge. Oftmals ist zum Beispiel der thematische Bezug nicht immer deutlich oder es finden Topic Drifts innerhalb einer Diskussion statt. Hinzu kommt, dass bei multilingualen Sentimentanalyse-Systemen Anpassungen für die jeweilige Sprache vorgenommen werden müssen, da die meisten Algorithmen und Module sprachübergreifend nicht einsetzbar sind.

Out of Chaos comes Order
Bevor also die eigentliche Tonalitätsbestimmung stattfinden kann, ist es zunächst erforderlich, die Heterogenität der Dokumente zu reduzieren und sprachliche Fehler zu korrigieren. Nach dem Sammeln der Dokumente mittels Crawler oder Spider und der »Tokenization« der Dokumente, also ihrer Zerlegung in einzelne Worte, Phrasen und Sätze, erfolgt deshalb häufig eine informationslinguistische Analyse und Bearbeitung der Daten - das sogenannte »Natural Language Processing (NLP)«. NLP-Verfahren sind zwar nicht zwingend erforderlich, verbessern aber in der Regel die Qualität des Retrievals. Beispielsweise würde das falsch geschriebene Wort »unzmutbar« ohne NLP bei der Analyse wegfallen und damit zu einer Ungenauigkeit der Resultate führen.

Zu den wichtigsten und am häufigsten angewandten vorbereitenden NLP-Verfahren bei der Sentimentanalyse zählen neben der automatischen Korrektur von Rechtschreibfehlern insbesondere die Erkennung von sogenannten »Named Entities« (Personen, Orte, Institutionen) oder das als »Stemming« bzw. »Lemmatisierung« bezeichnete Reduzieren von Wörtern auf ihre jeweilige Grundform.

Während die genannten Verfahren mittlerweile zu den etablierten Standards gehören, erfordern beispielsweise die Spam-Erkennung (hier nicht zu Verwechseln mit der Erkennung von professionellem Spam bei Email-Dienstleistern) und die Ironieerkennung sehr komplexe linguistische und semantische Analysen sowie in den meisten Fällen eine zusätzliche manuelle Auswertung der Ergebnisse. Gleiches gilt für die Analyse der Kommunikationsstruktur. Problematisch ist hier vor allem die korrekte automatische Zuordnung eines Sentiments zur jeweiligen Zielentität  (Produktnamen, Personen usw.), wenn in einem Text mehrere andere Entitäten erwähnt werden. Bei der Sentimentanalyse werden deshalb NLP-Verfahren auch für umfassende semantische und strukturelle Analysen eingesetzt, um zum Beispiel wiederkehrende typische Muster in der Kommunikation zu erkennen.

Die Bestimmung der Tonalität
Sentiment Analyse
Liegen die Dokumente in bereinigter und korrigierter Form vor, gilt es, die Dokumente bezüglich ihrer Tonalität zu analysieren und zu klassifizieren. Von den vielen unterschiedlichen Verfahren sollen an dieser Stelle zwei der populärsten vorgestellt werden: wörterbuchbasierte und auf Machine-Learning-Algorithmen beruhende Verfahren.

Bei wörterbuchbasierten Methoden wird auf der Wortebene angesetzt und zunächst versucht, das Sentiment bzw. die »Semantische Orientierung« (die Polarität) einzelner Wörter zu erörtern. So besitzen Begriffe wie »unzufrieden« oder »grausam« eine a priori gegebene negative semantische Orientierung, andere wie »erfreulich« oder »Begeisterung« dagegen eine positive. Diese Zuordnung kann zum Beispiel unter Zuhilfenahme eines manuell oder automatisch erstellten Wörterbuchs, mittels statistischer Methoden oder durch die Verwendung von Trainingsdokumenten erfolgen. Von den Sentiment-Worten wird anschließend versucht, auf das Sentiment eines kompletten Satzes zu schließen, um so in einem letzten Schritt die Tonalität des Textes zu erörtern. Derartige wortbasierte Ansätze sind allerdings relativ simpel und daher auch entsprechend fehleranfällig. Kommt zum Beispiel in einem Satz eine Negation, also eine Verneinung vor, kann durch ein einziges zusätzliches Wort das Wort-Sentiment in seiner Bedeutung umgekehrt werden. Sätze wie »Die Qualität ist nicht wirklich gut« oder »Dies ist kein zufrieden stellender Service« enthalten zwar durchweg positiv besetzte Adjektive, das Satz-Sentiment ist aber negativ. Negationen müssen also erkannt und dem richtigen Adjektiv oder Nomen zugeordnet werden, was aber in der Praxis aufgrund der Komplexität der Sprache oftmals nicht einfach ist. Hinzu kommt, dass nicht ausschließlich anhand der Anzahl an positiven bzw. negativen Sentiment-Wörtern in einem Text oder Satz auf das Text- oder Satz-Sentiment geschlossen werden kann. Häufig ist zum Beispiel nur ein einzelner Satz oder eine einzelnes Wort ausschlaggebend für die Bestimmung der Tonalität.

Diese Beispiele verdeutlichen bereits die Herausforderungen für die automatische Analyse der Sprache. Die einfachen, wortbasierten »Bottom Up«-Ansätze sind aufgrund ihrer großen Fehleranfälligkeit oftmals nicht für eine präzise Sentimentanalyse geeignet. Sie besitzen andererseits aber den großen Vorteil, dass sie ohne allzu großen Aufwand realisierbar sind und sich darüber hinaus trotz der erwähnten Fehleranfälligkeit durchaus für eine erste Orientierung und zur Vorauswahl für eine spätere manuelle Analyse eignen.

Lernende Maschinen
Wesentlich komplexer sind so genannte »Machine-Learning-Verfahren«, welche in vielen Anwendungsbereichen der Sentimentanalyse wie zum Beispiel bei der Analyse von Produktbewertungen deutlich bessere Resultate erzielen als wörterbuchbasierte Ansätze. Vereinfacht ausgedrückt wird beim Machine Learning versucht, dem System »beizubringen«, welche besonderen Merkmale typisch für positive, neutrale oder negative Sätze und Texte sind. Als Ausgangspunkt für das Erlernen dieser Charakteristika dient dabei stets ein Trainingskorpus, also eine Ansammlung von Dokumenten bzw. Texten, deren Tonalität in der Regel bereits bekannt ist. Dieser Korpus muss, sofern ein geeigneter nicht vorhanden ist, allerdings erst erstellt bzw. an die jeweilige Domäne, in der das System eingesetzt wird, angepasst werden. Anhand der im Korpus vorhandenen Texte werden dann neue Dokumente, deren Tonalität unbekannt ist, klassifiziert. Die drei wichtigsten Machine-Learning-Verfahren, die bei der Sentimentanalyse angewandt werden, sind:


  • Die »Naive Bayes Classification«
    Ein Machine-Learning-Ansatz, der auf Wahrscheinlichkeitsberechnungen beruht (Probabilistic ML).

  • Die Support Vector Machine (SVM)
    Ein binärer Klassifikator, dessen grundlegende Funktionsweise darin besteht, in einem Vektorraum eine Hyperebene zu platzieren, welche die Trainingsdaten in zwei unterschiedliche, binäre Klassen teilt.

  • Das »Maximum Entropy Model (ME)«
    Ebenfalls ein stochastisches Modell und eine direkte Alternative zum Naive-Bayes-Klassifikator.

Die nachfolgende Tabelle bietet eine Übersicht über die Performance verschiedener Algorithmen, die bei der Sentimentanalyse zum Einsatz kommen (Datengrundlage: 1041 englischsprachige My-Space-Kommentare).

Ssentiment Strength Detection

Quelle der Evaluationsdaten: Thelwall et al., Sentiment Strength Detection in Short Informal Text (2010)

Fazit
Jeder der vorgestellten Ansätze hat gewisse Vor- und Nachteile, sie alle erfordern aber einen gewissen zusätzlichen manuellen Aufwand. Bei der wortbasierten Methode müssen Wörterbücher erstellt und an verschiedene Domänen angepasst werden. Beim Machine Learning müssen domänenspezifische Trainingsdaten vorhanden sein oder manuell bzw. semi-automatisch erstellt werden. Und auch informationslinguistische Verfahren, die zwar domänenunabhängig und universeller einsetzbar sind,  müssen mit viel Aufwand für unterschiedliche Sprachen angepasst werden. Die optimale Lösung besteht sicherlich in einem Hybridsystem, welches eine automatische Auswertung mit einer zusätzlichen manuellen Kontrolle der Resultate und fortwährenden Optimierung der Trainingsdokumente, Wörterbücher und Algorithmen vereint. Ein derart komplexer Ansatz ist in der Praxis allerdings sehr zeit- und personalintensiv. Darüber hinaus gibt es auch patentrechtliche Einschränkungen, und es muss stets bedacht werden, dass jedes Analysemodul Speicherplatz und vor allem sehr hohe Rechenkraft voraussetzt.

Abschließend sei gesagt, dass es eine 100% fehlerfreie Sentimentanalyse nicht gibt und wohl auch nie geben wird, ganz unabhängig davon, ob sie manuell oder automatisch durchgeführt wird. Immer wieder gibt es Grenzfälle, in denen eine eindeutige Zuordnung entweder überhaupt nicht oder nur anhand eines umfassenden Hintergrundwissens möglich ist. Zudem machen verschiedene Abstufungen und Intensitäten von Stimmungen die Entscheidung, ob ein Text nun »leicht negativ« oder doch eher »neutral« ist, selbst für den Menschen schwierig. Hinzu kommen die Probleme Sarkasmus, Ironie, Mehrdeutigkeiten und Spam, deren Erkennung noch immer eine große Herausforderung für Maschinen ist.

Daher kann weder gegenwärtig noch zukünftig auf manuelle Analysen verzichtet werden, gleichzeitig aber ist der Einsatz automatischer Verfahren bei der Auswertung von Social-Media-Inhalten und der Erkennung von Tonalitäten schon aufgrund der enormen Datenmenge oft nowendig.


Quellen
[1] Boy & Moens, A Machine Learning Approach to Sentiment Analysis in  Multi lingual Web Texts in Information Retrieval Vol. 12, Number 5, 526-558, 2008.
[2] Neylon; Tyler J. et al., Domain-Specific Sentiment Classification, 2009.
[3] Pang, B. & Lee L., Opinion mining and sentiment analysis Foundations and Trends in Information Retrieval Vol. 2, No 1-2 (2008) 1–135.
[4]  Prabowo, R., & Thelwall, M., Sentiment analysis: A combined approach. Journal of Informetrics, 3(1), 143-157, 2009.
[5]  Thelwall et al., Sentiment Strength Detection in Short Informal Text, Journal of the American Society for Information Science (2010), Vol. 61, Issue: 12, Pages: 2544-2558.




Über den Autor

david SchölhalzDavid Schönhalz, M.A., studierte Informationswissenschaft, Philosophie und Medienwissenschaft an der Heinrich-Heine-Universität Düsseldorf, wo er anschließend als Lehrbeauftragter im Fachbereich für Informationswissenschaft tätig war. Zurzeit promoviert er mit einer Arbeit über Information-Retrieval-Verfahren und Suchmaschinentechnologien. Beruflich ist er in den Bereichen Online-Marketing, SEO und Webmonitoring tätig und publiziert regelmäßig Artikel zum Themenbereich Suchmaschinen, Information Retrieval und Web 2.0.

» Diese E-Mail-Adresse ist gegen Spambots geschützt! JavaScript muss aktiviert werden, damit sie angezeigt werden kann.



Social Media Magazin bestellen:
>> Bezugsquellen

Zuletzt aktualisiert am Montag, den 02. Januar 2012 um 11:28 Uhr  

Kommentar schreiben


Sicherheitscode
Aktualisieren


© Copyright by Social Media Verlag at Institut für e-Management e. V.