Mensch versus Maschine im Data Mining

Mit Webmonitoring analysieren Unternehmen die große Menge an relevanten Daten im Social Web. Das Verfahren erlaubt den Unternehmen nicht nur, Meinungen über ihre Produkte, Dienstleistungen oder das Unternehmen selbst zu erfahren, sondern auch Benchmarks durchzuführen, Rechtsverletzungen zu identifizieren und Trends zu erkennen. Vor allem spielt Webmonitoring jedoch in der Initiierung von Social-Media-Marketing-Maßnahmen eine wichtige Rolle. Erst wenn das Gefüge im Web bzw. innerhalb der Netzkultur über die Branche bekannt wird, können auch klare Maßnahmen oder Strategien entwickelt werden. Doch wie kann man die Fülle von Daten erfassen und im Dschungel der Informationen überhaupt eine gezielte Meinung erkennen? Was versprechen eigentlich automatische Lösungen?
Gegen den Information Overflow
In Deutschland spielen vor allem Foren eine große Rolle, da hier die größte Menge an Inhalten zu finden ist. Allein im Automobilforum Motor Talk befinden sich beispielsweise ca. 20 Millionen Beiträge rund um das Thema KFZ. Schränkt man den Zeitraum und die Themen weiter ein, bleiben immer noch mehrere tausende Beiträge übrig, die für das Unternehmen relevant sein können. In die gleiche Kategorie fallen beispielsweise Groups in Facebook, Xing oder StudiVZ, die innerhalb von Social-Media-Portalen eingerichtet werden. Darüber hinaus existiert eine Fülle von Quellen, wie Blogs und auch Twitter, in denen Blogger nicht nur Inhalte produzieren, sondern auch anderen Lesern durch Kommentare oder sogenannte Retweets bei Twitter die Möglichkeit zur inhaltlichen Beteiligung geben. Zieht man also weitere Quellen dem Gesamtgeflecht Social Media hinzu, hat man es schließlich mit einer nicht mehr überschaubaren Anzahl von Beiträgen zu tun. Daher scheint der Gedanke, die Auswertung einer Maschine zu überlassen, zunächst logisch und naheliegend.
Sentiment-Analyse
Die Sentiment-Analyse ist im Grunde ein Verfahren, welches aus Texten die Meinung eines Nutzers durch künstliche Intelligenz zu erfassen versucht. Hierbei werden linguistische Mittel eingesetzt, die gezielt Bedeutungen in einem Text identifizieren sollen. In der Theorie erkennt die Maschine, ob der Nutzer über ein bestimmtes Produkt negativ oder positiv spricht und/oder rechtsverletzende Inhalte publiziert. Bestenfalls soll der Computer daraufhin automatisch Handlungsempfehlungen generieren. Die Rede ist vom Traum eines Computers mit menschlichen Eigenschaften.
Diese und weitere Verfahren weisen im praktischen Einsatz allerdings noch deutliche Schwächen auf, insbesondere wenn es um User Generated Content geht. Das Problem liegt häufig darin begründet, dass Nutzer dazu tendieren, ihre persönliche »Story« zu ihrem Posting zu schreiben und der Computer nicht mehr in der Lage ist, den Inhalt nachzuvollziehen. Fehler werden schließlich erst sichtbar, wenn die Auswertungen und Resultate aus diesen Verfahren daraufhin von Menschen geprüft werden.
Zudem stellen auch ironische Beiträge ein großes Problem dar, welche in Social Media allerdings gang und gäbe sind. Nutzer erläutern oftmals ihre Probleme, zeigen Mängel von Produkten auf und bringen ihre Empörung hierbei mit verschiedenen Wortspielereien zum Ausdruck. Sie äußern sich nicht selten emotional und mit sarkastischem Ton, indem sie von »Begeisterung« sprechen: Ausrufe wie »Na Klasse«, »scheiße ist das geil!« oder Formulierungen wie »da gehe ich bestimmt wieder hin« sollen dann häufig genau das Gegenteil ausdrücken.

Der Versucht von PASW-Modeler von IBM (ehemals SPSS Clementine), die Tonalitäten in Texten automatisch zu erkennen. Der Nutzer muss die Verknüpfungen selbst erstellen bzw. konfigurieren.
»Ab inne tonne!«
Darüber hinaus muss dabei je nach Branche und Community unterschieden werden. Während in Fachkreisen grammatikalisch korrekte Sätze und ein klarer Ton verwendet werden, unterhalten sich Foren-Mitglieder in größeren Foren durchaus zügelloser. Ironie, verbunden mit Polemik und inkorrekter Schreibweise, können Ergebnisse soweit verfälschen, dass dies verheerende Folgen für das Unternehmen haben kann. Außerdem enthalten Beiträge wesentlich differenziertere Ergebnisse als nur negativ oder positiv.
Das hat auch das Forschungsteam an der Heinrich-Heine-Universität Düsseldorf, Abteilung für Informationswissenschaft am Institut für Sprache und Information unter der Leitung von Prof. Dr. Stock erkannt. Dort forscht man derweil an Erkennungsmerkmalen in Form von Gefühlen innerhalb von User Generated Content. Emotional Information Retrieval, abgekürzt EmIR, heißt das Forschungsthema, in dem man Inhalte, beispielsweise von Texten und Bildern, Gefühlen zuzuordnen versucht. Hier nutzt man Merkmale, wie Freude, Liebe, Ärger, Traurigkeit und Ekel. Dabei konzentriert sich das Forschungsteam auf die von Nutzern vergebenen Bewertungen innerhalb des Social Webs1. Kaum vorstellbar, wie hier noch eine Maschine automatisch erkennen soll, welche Emotionen ein Bild oder ein Text wohl auszudrücken vermag.
Verlässt sich das Unternehmen auf derartige automatische Auswertungen und baut strategische Entscheidungen darauf auf, sind Fehlentscheidungen vorprogrammiert.
Qualitätsmanagement
Das Thema der Social-Media-Bewertung ist für die meisten Unternehmen noch ein unbekanntes Feld, so dass ein Qualitätsmanagement oft weitgehend unbeachtet bleibt. Die Frage, ob die Ergebnisse korrekt sind, wird aufgrund der fehlenden Nachvollziehbarkeit oftmals vernachlässigt.
Das Problem der mangelhaften Qualität von automatisch ausgewerteten Daten ist derweil aber einigen Unternehmen durchaus bewusst, so dass sie vermehrt die Nachvollziehbarkeit solcher Ergebnisse einfordern. Die Software muss zu den jeweiligen grafischen Ergebnissen (z. B. positiv, negativ, neutral oder Freude, Ärger, Trauer, Liebe) auch in der Lage sein, die Beiträge bzw. Postings auflisten zu können. Nur so kann der Auftragnehmer erkennen, welche Texte von der Maschine tatsächlich auf welche Art und Weise bewertet wurden.
Wenn die Qualitätskontrolle deutliche Defizite in den Analyseergebnissen aufzeigt, wird schließlich ein Rollback notwendig, in der geprüft werden muss, an welchen Prozesspunkten die Text-Mining-Software Fehler verursacht hat. Das setzt allerdings voraus, dass die Software auch den Einblick in ihre Strukturen erlaubt und detailliert ihre Vorgehensweise aufzeigen kann.
Im Bereich der künstlichen Intelligenz, in dem komplexe Algorithmen zum Einsatz kommen, haben sich im Laufe der Jahre Prinzipien entwickeln, die Qualitätskontrollen erlauben sollen. Claude Shannons vom Massachusetts Institute of Technology, der Entwickler des ersten Schachprogramms, hatte bereits in den frühen 60er Jahren vorgewarnt: Wenn komplexe Algorithmen zum Einsatz kommen, werden deren Mängel und Fehler unter dem Vorwand der Sicherheit geschlossen gehalten. Eine Software, die grundsätzlich ihre Ergebnisse nicht preisgeben kann, arbeitet laut Shannon nach dem Prinzip des »Security by Obscurity« (zu Deutsch: Sicherheit durch Unklarheit). Bereits vor mehr als 100 Jahren hatte auch Auguste Kerckhoffs erkannt, dass ein Algorithmus nicht auf einer Geheimhaltung beruhen darf und formulierte daraufhin das Kerckhoffs’sche Prinzip, das unter anderem die Offenheit und Transparenz von Systemen verlangt.
Daher sollten Ergebnisse also nur dann in die unternehmerischen Prozesse eingebunden werden, wenn sie zurückverfolgbar sind und eine Qualitätskontrolle möglich ist.
Kostenpunkt
Etablierte Lösungsvorschläge in diesem Bereich sind beispielsweise schon seit längerer Zeit von Presseclipping-Agenturen bekannt. Diese setzen bereits seit Jahren das Prinzip der intellektuellen Bewertung durch menschliche Teams ein, wie auch beispielsweise das Düsseldorfer Unternehmen Pressrelations. Diese Methode lässt fälschlicherweise vermuten, dass dadurch höhere Kosten entstehen könnten. Der Aufwand der automatischen Auswertung, der beim Aufbau der Text-Mining-Infrastruktur entsteht, wird allerdings unterschätzt. Zwar gibt es eine große Anzahl von Wörterbüchern, die bei der automatischen Auswertung zum Einsatz kommen und standardmäßig vorkonfiguriert sind, dennoch muss für jedes Unternehmen und jede Branche individuell eine Fülle von branchenbezogenen Keywords erstellt werden. Das liegt daran, dass Nutzer je nach Themenbereichen verschiedene Abkürzungen und Synonyme verwenden. Eine Analyse von kritischen oder negativen Beiträgen ohne das Synonym »Blödmarkt« würde beispielsweise Tausende von Beiträgen in der Elektronik-markt-Branche unberücksichtigt lassen. Genauso fatal wäre es jedoch, im System derartige Synonyme ohne weiteres als negativ einzustufen. Im Web haben sich bestimmte Verwendungen von Begriffen etabliert, die nicht unbedingt in einem negativen Kontext genutzt werden, wie beispielsweise: »Ohne die Beratung bei Blödmarkt, hätte ich mir fast den falschen TV gekauft«. Weiterhin müssen auch branchenbezogene Abkürzungen gesammelt und das System damit gefüllt werden. Spezialthemen in den Bereichen wie Healthcare, Versicherungen und Elektronik beinhalten zahlreiche Abkürzungen, die Nutzer täglich benutzen. Dabei werden Falschschreibweisen häufig erst in der Gesamtbetrachtung durch einen Menschen erkannt und richtig interpretiert. Somit müssen branchenspezifische Kombinationen zum Einsatz kommen. Die Maschine muss also ständig mit neuem Wissen gefüllt werden und eine derartige Konfiguration des Systems kann bis zu mehreren Wochen oder Monaten dauern. Da sich die Produkte des Unternehmens und die Themen im Social Media rapide ändern, werden zudem kontinuierliche Nachkorrekturen und Aktualisierungen notwendig.
Fazit
Sentiment-Analysen werden vom Aufwand her oft unterschätzt. Die Annahme, dass allein eine technische und automatisierte Lösung Kosten spare, muss daher immer hinterfragt werden. Auch wenn für die Bewertung der Inhalte kein zusätzlicher Aufwand entsteht, da das System diese automatisch vornimmt, ist die Einrichtung des Systems, sowohl branchen- als auch themenbezogen, mit Zeit und hohen Kosten verbunden, die oftmals übersehen werden.
Bedenklich ist es, wenn derartiger Aufwand erst gar nicht betrieben wird und automatische Analysen ohne tiefgehende Betrachtung und Konfiguration auf das Social Web losgelassen werden. In diesem Fall kann die Fehlerquote schließlich derart hoch sein, dass die Ergebnisse als unbrauchbar zu bewerten sind. Der Worst Case entsteht,wenn

| Bereits bei derart einfachen Postings ist der Computer völlig überfordert. Hier wertet die Software die Victoria Versicherung als negativ. Zudem glaubt der Computer, der Nutzer würde die Rechtsschutzversicherung der Allianz als sehr negativ bewerten, da er den Begriff »ungern« in Kombination mit »verzichten« falsch interpretiert. Da die Frage »empfehlen« nicht mit einem Fragezeichen endet, glaubt der Computer nun auch, der Nutzer würde die Allianz Haftpflichtversicherung aufgrund der hohen Qualität weiterempfehlen. |
das Unternehmen sich blind auf die Auswertungen verlässt und erst gar nicht mehr die Korrektheit der Informationen hinterfragt. Während bei einer intellektuellen Analyse durch ein menschliches Team davon ausgegangen werden kann, dass die Qualität der Ergebnisse größtenteils stimmt, muss bei einer automatischen Lösung ein klarer Qualitätsprozess aufgebaut werden. Die Ergebnisse einer automatischen, emotionalen Intelligenz bleiben daher weiterhin fraglich. Derartige Auswertungen befinden sich derzeit noch im Aufbau, und künstliche Intelligenz wird auch in Zukunft kontrovers diskutiert werden.
Die Gefahr ist immer dann gegeben, wenn Unternehmen, in der Hoffnung auf eine schnelle und kostengünstige Alternative, auf derartige automatische Lösungen setzen, ohne das Thema differenzierter betrachtet zu haben. Vielleicht spielt beim Einsatz solcher Technologien auch verstärkt ein Glaube oder Wunsch an die Wundertechnik eine Rolle. »Künstliche Intelligenz« oder »Automatismus« klingt so schön nach Prozessoptimierung und Zukunft. Welches Unternehmen kann da schon widerstehen?
(es)
Social Media Magazin bestellen:
>> Bezugsquellen


