Tag Archives: DataMining

Kleine Wikipedia-Statistik

Für meine Diplomarbeit habe ich ein Informationsnetzwerk gesucht, das einerseits sehr groß und nicht komplett formalisiert, andererseits aber auch nicht sinnlos ist. Wikipedia bot sich an.

Unter der URL http://dumps.wikimedia.org/ kann man regelmäßig erstellte Datenbankdumps der Wikipedia herunterladen. Ich habe mich für den englischen Teil entschieden und auf die aktuellen Artikelversionen “beschränkt”. Der Dump ist 3,9 GB gross, nach dem Entpacken erhält man eine XML-Datei von ca. 17 GB (Gigabytes!)

Hier fangen die ersten Schwierigkeiten schon an. Solchen Dateien kann man weder mit herkömmlichen Editoren zuleibe rücken, noch mit einem DOM-Parser – beide versuchen zunächst, die Datei komplett in den Hauptspeicher zu laden. So weit sind wir mit der Hardware aber noch nicht.

Die Sprache meiner Wahl ist Java, da ich auch in Java weiterarbeiten werde. Zum Glück gibt es hier noch die SAX-Parser, die eine XML-Datei streamen und die Daten über Callback-Funktionen weitergeben. Damit baut man dann einen klassischen Automaten, der die XML-Daten extrahiert und in Objekte verpackt. Auch hier sollte man nicht auf die Idee kommen, in irgendeiner Form Objekte anzusammeln – der Hauptspeicher reicht dafür nämlich ebenfalls nicht aus.

Was ist zunächst getan habe, ist, die Anzahl der Seiten und Redirects (Artikel, die auf andere Seiten verweisen) zu zählen. Das stellte sich letztendlich doch komplizierter heraus, als ich dachte. Der Dump enthält auch sämtliche Verweise auf Bilder, Templates und andere Namespaces (mit Ausnahme von User und Discussion), die erst einmal herausgefiltert werden müssen.

Anschließend gibt es in den Erklärungen dazu, was eine Wikipedia-Seite ist, noch folgenden Text: any page that is in the article namespace, is not a redirect page and contains at least one wiki link. Der letzte Teil ist wichtig: Zusätzlich zu den Namespaces muss auch noch nach Links gefiltert werden, sonst landen jede Menge Stub-Seiten mit Verweisen zu anderen Wikis in der Statistik. Auf diesen Fakt wurde ich im Mediawiki-Channel (freenode:#mediawiki) hingewiesen.

Nach insgesamt 5 Experimenten gibt es nun also plausible Ergebnisse:

[main] INFO WikipediaImporter - Wikipedia Importer started.
[main] INFO WikipediaImporter - Time taken: 0h 11m 34s.
[main] INFO WikipediaImporter - Articles: 2863041
[main] INFO WikipediaImporter - Redirects: 2548806
[main] INFO WikipediaImporter - Wikipedia Importer finished.

Insgesamt befinden sich im Dump also 2.863.041 Artikel – nach meiner Zählung.

Als nächstes werden die Verlinkungen bereinigt (Redirects aufgelöst) und daraus ein Graph hergestellt, der dann ausschnittsweise visualisiert wird. Außerdem werde ich wohl eine Klassifikation anhand der Kategorien herstellen. Das Feld ist offen für Experimente und ich nehme gern Ideen entgegen. Aber: Bei 2.8 Millionen Knoten werden die klassischen Graphen-Algorithmen wohl gnadenlos versagen.

Ist Google wirklich böse?

Ein SPIEGEL-Artikel vom 18. Juni, “Ein Tag ohne Google”, hat mich gemeinsam mit der Lektüre des Artikels “Politische Psychologie: Thomas Kliche weiter befragt” von Hanno’s Blog motiviert, doch einmal folgende Frage zu erörtern: “Ist Google wirklich böse?”

Google, obwohl zu Zeiten seines Aufstiegs wegen der guten und schnellen Suchmaschine bejubelt, verliert immer mehr an Ruf und Vertrauen. Schuld daran ist das, was Google überhaupt erst zu einer Suchmaschine macht: Das Sammeln, Aufbereiten und Wiederfinden jeglicher Daten, die sich im Internet anhäufen.

Aber noch einmal zum Kerngeschäft: Sammeln, Aufbereiten und Wiederfinden jeglicher Daten, die sich im Internet anhäufen.

Google wird so gern beschuldigt, unsere geheimsten und persönlichsten Daten preiszugeben und es jedem dahergelaufenen Kriminellen zu ermöglichen, unser Leben auszuspähen. Dabei zeigt uns Google eigentlich nur eins: Welche Daten wir selbst in die öffentlichen Weiten des Internet bugsiert haben und was theoretisch jeder Andere über uns wissen könnte.

Dass man nur mit Kenntnis eines Namens herausfinden kann, wer derjenige ist, wo er wohnt und wie er ist, wird durch Google mit Sicherheit begünstigt, jedoch keineswegs grundlegend ermöglicht. Die Informationen selbst kamen von anderen Stellen, die völlig unabhängig vom Suchmaschinenbetreiber existieren: Die Betroffenen selbst, die private Homepages betreiben, Institutionen, die Lebensläufe ihrer Angestellten veröffentlichen und schließlich auch Regelungen wie das Telemediengesetz, die von uns verlangen, Namen und Anschrift im Impressum zu hinterlassen.

Thomas Kliche hat im E-Mail-Interview folgendes geschrieben:

Die Einführung von neuen Überwachungspraktiken hat aber auch einen einfachen Nebeneffekt: Man gewöhnt sich dran. Man findet dann selbst Rechtfertigungen, warum es gar nicht anders geht, weil man ja selbst mitmacht.

Und auf die Frage hin, warum selbst Experten freiwillige Teilnehmer an solcher Informationsverbreitung wären:

Zeigt das nicht: Selbst kritischere Betrachter haben sich an Datensammlungen gewöhnt? Gerade die kulturell kompetenten Personen haben ja auch – wie Ihre Beispiele belegen – viel Nutzen von der Menge an leicht zugänglichen Unterlagen und Fakten.

Letztendlich hilft uns Google nur, die Informationen, mit deren Preisgabe wir ja doch gewisse Zwecke verfolgen, einfacher aufzufinden. Mit einem großen Vorteil: Google zeigt uns schnell und bequem, wie viel wir von uns selbst preisgegeben haben. Verfügbar haben wir sie selbst gemacht und es stört uns immer weniger, immer mehr Informationen herauszurücken.

“Wenn ich es nicht tu, macht es ein anderer” ist ein Satz, der häufig zitiert wird, um seine Handlungen zu rechtfertigen. Ich halte diesen Satz für überaus fragwürdig, jedoch trifft er in diesem Fall zu. Das Interesse an Informationen ist da, deswegen wird auch jemand danach suchen; in diesem Fall ist das Google. Das ganze WorldWideWeb ist schließlich zum Austausch von Informationen geschaffen worden.

Natürlich ist Google auch ein Unternehmen, das weiterwachsen, Geld verdienen, Konkurrenten verdrängen und die Aktionäre glücklich machen, die, wenn die Unternehmensführung von ihren geldgierigen Zielen abkommt, diese wohl skrupellos durch eine mit weniger Idealismus und Gewissen ersetzen würde. Deswegen wird der Nutzer dazu ermutigt, seine Kalender, Adressbuch, E-Mails und Dokumente ebenfalls bei Google abzulegen, auf dass sie durchsucht werden können. Jedoch habe ich bei noch keiner Google-Suche E-Mails, Kalenderdaten oder Kontaktinformationen anderer Personen gefunden. Ich halte Google nicht für schlimmer als jedes andere Unternehmen, das versucht, Geld zu verdienen und am Markt zu bestehen.

Trotzdem werden vermehrt Stimmen laut, die eine Abkehr vom Suchmaschinenbetreiber fordern. Folgendes Gedankenexperiment: Angenommen, es gäbe Google nicht mehr. Was würde sich ändern?

Zuerst einmal wären wir eines sehr mächtigen Werkzeuges beraubt, das es uns erlaubt, anhand weniger Stichwörter relevante Informationen zu finden. Man mag argumentieren, dass es andere Suchmaschinenbetreiber gibt. Diese würden jedoch, wenn sie Ersatz für Google sind, ebenso wachsen und eines Tages abgeschafft werden.

Für die Informationen im Internet bedeutet das gar nichts. Wie oben schon angedeutet, ist es nicht Google, der die Informationen produziert. Es sind die Internetnutzer. Und die würden mit der Suchmaschine nicht verschwinden. Zwar wäre das Auffinden erschwert, im Sinne des Internets wird es aber prinzipiell immer möglich sein, dieselben Informationen zu erhalten. Wer gefunden werden möchte, verlinkt sich und wer seine Seite geheim halten möchte, kann dies auch heute schon tun. Ohne Link wird auch Google diese Seite nicht finden.

Kommen wir also zu dem Schluss, dass Google die Informationsflut weder verursacht noch fördert, sondern wir es selbst sind, die die Informationen in den öffentlichen Raum werfen. Alles, was Google tut, ist uns beim Suchen und Finden zu unterstützen – und uns einen Spiegel vorzuhalten, der zeigt, wie viel wir letztendlich preisgegeben haben. Darüber mag man verärgert sein, aber nur mit sich selbst. Die Einschränkung von Google beseitigt nur da Symptom, nicht aber die Ursache.

Keine Datenanalyse bei O₂?

Seit einigen Tagen versucht ein Teilnehmer mit unterdrückter Nummer, mich auf meinem Mobiltelefon zu erreichen. Heute ist ihm das gelungen.

Am anderen Ende war eine nette Callcenter-Dame, die mich über neue Tarife informieren wollte. Das Gespräch lief in etwa so ab:

SIE: Guten Tag […], da die Telefongebühren für Mobilfunkgespräche in den letzten Monaten rapide gefallen sind, möchten wir auch unsere Bestandskunden daran teilhaben lassen. Wir bieten Ihnen daher den Umstieg auf {komischen Deutschlandweit-Tarif}. Damit können Sie deutschlandweit kostenlos ins Festnetz telefonieren.
(Toll! denke ich mir)
ICH: Was würde eine Umstellung denn für mich bedeuten?
SIE: Alle Vorteile des jetzigen Vertrages bleiben erhalten. Sie haben einen Basisbetrag von 25 Euro, den….
ICH: Meine Telefonrechnung beträgt damit also mindestens 25 Euro im Monat?
SIE: Genau…
ICH: Aber ich zahle doch jetzt nur 10 bis 15 Euro…
(Soviel zu “alle Vorteile bleiben Ihnen erhalten”.)
SIE (sichtlich erstaunt): Sie nutzen also nur Ihre Frei-SMS und telefonieren fast gar nicht? Dann kann ich Sie heute leider nicht glücklich machen.

Ich weiß noch nicht genau, wie “glücklich machen” sonst ausgesehen hätte…wahrscheinlich wäre ein Tarifwechsel mit erneuter Vertragsbindung integraler Bestandteil gewesen.

Was hat das mit der Überschrift zu tun? Wenn O2 seine Rechnungsdaten mit der Verkaufsabteilung abgleichen und ein paar (einfach zu erhaltende) Schlüsse ziehen würde, dann wäre aufgefallen, dass

  1. meine Telefonrechnung nie ueber 15 Euro liegen, ich also mit einem Tarif, der mindestens 10 Euro darueber liegt, nicht zu locken bin
  2. ich kaum Handygespräche auf das Festnetz führe, mir also auch die Flatrate nicht viel bringt.

Damit hätten sie einen Anruf und Geld gespart, das sie von meiner Grundgebühr abziehen könnten. Leider tun sie das nicht.