Automatische Informationserhebung im Web

von Alexander Graubner-Müller
Web Mining leistet, was konventionelle Suchmaschinen bisher nicht können: Inhalte aus verschiedenen Websites zu aggregieren und systematisch auszuwerten. Obwohl die Technologie viel Potential verspricht, ist die Anwendung kompliziert und erfordert einen hohen Aufwand. Ein systemorientiertes Vorgehen hilft, die benötigten Komponenten richtig auszuwählen, um Frustrationen zu vermeiden.
Eine herkömmliche Suchmaschine liefert dem Infor-mationssuchenden Websites, welche wörtlich mit dem eingegebenen Suchbegriff übereinstimmen. Dies ist ein sehr mächtiges und alltagsrelevantes Werkzeug, wenn es um das Aufspüren von Inhalten zu bestimmten Themen geht. Schwieriger wird es hingegen, wenn man auf der Suche nach Informationen ist, die nicht wortwörtlich im Seiteninhalt stehen oder das Auswerten einer Vielzahl von Daten erfordern. So sind folgende Anfragen mit bestehender Suchtechnologie nur bedingt zu beantworten und erfordern ein großes Maß an manueller Auswertung:
- Wie oft taucht ein aktueller Trend in Online-Medien auf?
- Wo wird mein Unternehmen in negativem Kontext erwähnt?
- Welches Meinungsbild ist im Web zu meinem Produkt zu finden?
Überlässt man einem menschlichen Researcher diese Aufgaben, so würde dieser jeden der Aufträge intuitiv in drei Teilschritten bewerkstelligen. Zuerst würde er versuchen, Websites im Internet zu identifizieren, welche den Bezugsbegriff enthalten. Anschließend würde er bewerten, ob die gefundenen Sites für die Fragestellung relevant sind bzw. hierzu eine inhaltliche Verbindung besteht. Letztlich würde er den Wortlaut der gefundenen Ergebnisse interpretieren, um dadurch den semantischen oder emotionalen Bezug zu erkennen. Sobald eine genügend hohe Anzahl von Inhalten untersucht wurde, können die Einzelergebnisse aggregiert und visuell etwa als Chart oder Tabelle dargestellt werden.
Liegt es sicherlich im Bereich des Menschenmöglichen, solch eine Auswertung auf einmaliger Basis vorzunehmen, so lassen sich regelmäßige oder kontinuierliche Updates der Informationen je nach Verbreitungsgrad des Bezugsbegriffs irgendwann kaum mehr manuell bewerkstelligen. Der Wunsch nach effizienteren Verfahren zur automatischen Bearbeitung und Auswertung von Webinhalten wurde daher in letzter Zeit immer lauter.
Web Mining ist der Oberbegriff für ein Spektrum von Technologien, welche genau das obige Ziel verfolgen: das systematische Aufspüren, Erfassen, Auswerten und Aggregieren von Inhalten aus Social Media.
Als junges, interdisziplinäres Forschungsgebiet vereint Web Mining Verfahren aus den Bereichen der Informationswissenschaft, Statistik, Spracherkennung und Datenanalyse. Die Herausforderung besteht hierbei in der koordinierten Anwendung dieser Methoden und der sorgfältigen Planung ihres Einsatzes. Es muss eine genaue Abstimmung stattfinden, die nicht nur die Eigendynamik und Feinheiten des Webs berücksichtigt, sondern auch das individuelle Einsatzfeld des Auftraggebers im Fokus hat.
Ebenfalls sind Kenntnisse der Leistungsfähigkeit sowie der Grenzen der eingesetzten Technologien von höchster Bedeutung. So ist es aufgrund der dezentralen Natur des Webs nicht möglich, mittels Web Mining eine umfassende Auswertung aller existierenden Webinhalte durchzuführen, wie dies zum Beispiel mit Data Mining innerhalb einer geschlossenen Datenbank möglich ist.
Durch Web Mining abgeleitete Erkenntnisse beziehen sich somit immer nur auf einen räumlichen und zeitlichen Ausschnitt der Gesamtheit des Webs. Weitere Limitationen treten auf dem Gebiet der Identifikation von relevanten Sites auf. Gemeint sind die Isolierung des Seiteninhalts sowie die sprachanalytische Interpretation des Wortlautes.
Um ein Gefühl für die benötigten Komponenten zu bekommen, empfiehlt es sich, den Web-Mining-Prozess funktional aufzugliedern. Der beste Weg hierfür ist die Orientierung am Vorgehen des menschlichen Researchers: Beiträge müssen zuerst im Netz aufgespürt, dann klassifiziert und letztlich ausgewertet werden. Die Einzelergebnisse werden anschließend aufbereitet und zusammengefasst, damit sie zur Erkenntnisgewinnung und Entscheidungsfindung eingesetzt werden können.

Vor Ausführung seines Auftrags würde sich ein Researcher dann grundsätzlich fünf Fragen stellen: »Was?«, »Wo?«, »Wie genau?«, »Wie oft?« und »Wie soll aggregiert werden?«. Die Planung des Einsatzes von Web-Mining-Methoden erfordert ebenfalls die Festlegung dieser Dimensionen. Zuerst sollten die zu Grunde liegenden Zielsetzungen des Einsatzes klar definiert werden. In einem weiteren Schritt sollte festgelegt werden, welche Arten von On-line-Medien in der Untersuchung berücksichtigt werden sollen. Bei dieser Wahl stehen unter anderem Überlegungen wie Sprache, Zeitpunkt der Erstellung und Kategorie des OnlineMediums (zum Beispiel Blogs, Foren, Twitter, Social Networks) im Vordergrund. Die Genauigkeit der Untersuchung bemisst sich nach der Granularität der zu untersuchenden Einheiten. Granularität bezieht sich hierbei auf den Teil der Website, welcher als logisch und inhaltlich zusammenhängende Einheit erfasst wird. In der Praxis könnte eine Site etwa komplett erfasst oder in separate Einheiten unterteilt werden. Diese Bestandteile, wie zum Beispiel enthaltene Userbeiträge, werden dann jeweils eigenständig erfasst und analysiert. Das Zeitintervall bemisst die Frequenz, mit welcher die Untersuchung wiederholt werden soll. Abschließend sollten noch der gewünschte Aggregationsgrad und die Art der Ergebnispräsentation bestimmt werden.
Hat man nun den konzeptionellen Anforderungsrahmen der Untersuchung bestimmt, können in einem nächsten Schritt die zur Umsetzung erforderlichen Werkzeuge ausgewählt werden. Als Orientierungsrahmen bietet es sich an, den Web-Mining-Prozess in funktionale Teilschritte entlang des Informationsflusses zu zerlegen. Eine solche Gliederung ist nicht nur übersichtlich, sondern hilft, die benötigten Komponenten anhand eines Baukastenprinzips auszuwählen. Ein Referenzprozess, wie er hier abgebildet ist, zeigt, welche technologischen Alternativen für jede Aufgabe zur Verfügung stehen. Die genaue Komponentenauswahl sollte hierbei in enger Abstimmung mit der Untersuchungsplanung erfolgen, sowie Aspekte des Performance Management und des Entwicklungsaufwands berücksichtigen. Verschiedene Überlegungen helfen, für jeden Prozessschritt die richtige Technologie zu finden.

Datensammlung
Hauptaspekt für die Auswahl einer Methode ist hier die Art der Online-Quellen, welche ausgewertet werden sollen. So lassen sich heutzutage bereits viele Webinhalte mittels eines API (Application Programming Interface) direkt abrufen.
Aufwendiger wird es, wenn eine möglichst breite Erfassung von Webinhalten angestrebt wird. In diesem Falle ist eine direkte Erfassung unumgänglich. Mit Hilfe eines Web-Crawlers ist es möglich, eine Vielzahl an Sites automatisch aufzurufen und den Seiteninhalt zur weiteren Verarbeitung lokal abzuspeichern.
Aufbereitung der gesammelten Daten
Im nächsten Schritt müssen die gesammelten Daten aufbereitet werden. Wurden die Daten mit Hilfe eines Web-Crawlers gesammelt, liegen sie meist im HTML-Format vor und müssen noch von Quelltext-Elementen und überflüssigen Teilen, sogenannten Redundanzen und Fragmenten, bereinigt werden. Besonders die Extraktion der relevanten Inhalte einer Site ist ein aufwendiges und abstimmungsintensives Verfahren, welches sich durch sogenannte Wrapper bewerkstelligen lässt.
Sobald der reine Fließtext einer Site isoliert wurde, kann dieser für die Textanalyse aufbereitet werden. Wichtige Schritte sind hierbei die Entfernung von Wortgruppen, welche wenig Inhalt übermitteln und die Analyse stören würden, wie beispielsweise Präpositionen, Konjunktionen oder Artikel.
Auswertung der Daten
Die Datenanalyse ist der Kernpunkt der Untersuchung und reflektiert das angestrebte Untersuchungsziel. Einfache Suchabfragen helfen, den Datensatz nach der Häufigkeit bestimmter Begriffe zu durchsuchen oder vorgegebene Textbausteine wie Email-Adressen, Telefonnummern oder Weblinks zu isolieren. Möchte man den Datensatz nach Textzusammenhängen wie Begriffsassoziationen untersuchen oder inhaltlich oder emotional klassifizieren, benötigt man Verfahren aus dem Bereich der statistischen Textanalyse. Die meisten dieser Methoden müssen hierbei spezifisch an die Sprache der Inhalte und die zu untersuchende Fragestellung angepasst werden. Um das benötigte Maß an Präzision zu liefern, ist es zusätzlich notwendig, diese Verfahren anhand eines vorgegebenen Testsamples zu kalibrieren.
Überprüfung der Ergebnisse
Die aus der Datenauswertung resultierenden Ergebnisse sollten nicht blind übernommen, sondern stets kritisch hinterfragt werden. Für das Qualitätsmanagement bieten sich einige Vorgehensweisen an, wie beispielsweise die Stichprobenkontrolle oder die Anwendung der Analyseverfahren auf einen Datensatz, dessen Auswertung bereits bekannt ist.
Präsentation der Ergebnisse
Ergebnisse sollten so aufbereitet werden, dass sie dem Anwender den größtmöglichen Nutzen liefern. Denkbare Präsentationsformen sind Zeitdiagramme, Tag-Clouds oder Assoziationsnetze. Sollten die Daten weiteren Systemen zur Verfügung gestellt werden, sollte das verwendete System über die benötigten Schnittstellen oder Datenexportfunktionen verfügen.
Fazit
Im Allgemeinen lässt sich festhalten, dass der Einsatz von Web-Mining-Technologien kein triviales Unterfangen ist und ein hohes Maß an Konfiguration benötigt, welches sich je nach Anwendungsfeld unterscheidet. Gerade die Datenanalyseverfahren müssen jeweils auf die Untersuchungsziele abgestimmt werden. Ist der Web-Mining-Prozess jedoch einmal kalibriert, lassen sich zumindest theoretisch kontinuierlich Ergebnisse erzielen. Web Mining kann demnach als ein Werkzeug dienen, um regelmäßige Untersuchungen im Web zu automatisieren. Sofern eine Untersuchung nur zur Überblickverschaffung oder als Einmalaufnahme angesetzt wird, ist der Einsatz von Web Mining allerdings mit zu hohem Aufwand verbunden. In diesem Fall ist die intellektuelle Auswertung geeigneter.
Über der Autor
Alexander Graubner-Müller studierte Betriebswirtschaftslehre mit Schwerpunkt Wirtschaftsinformatik sowie Volkswirtschaftslehre an der Universität St. Gallen und der ETH Zürich. Er beteiligte sich an Forschungsprojekten im Bereich der Internettechnologien, der statistischen Analyse sowie der künstlichen Intelligenz. Im Oktober 2010 haben Graubner-Müller und ein Partner mit predictx.org einen virtuellen Prognosemarkt gegründet. Zudem ist er Autor des im Januar erscheinenden Buches »Web Mining for Corporate Intelligence« (Social Media Verlag, 2011).
Social Media Magazin bestellen:
>> Bezugsquellen


