Nachdem ich vor wenigen Tagen eine Infografik zum Thema „Der schwarze Donnerstag bei Twitter“ veröffentlichte kamen bei Twitter einige Nachfragen, wie ich diese erstellt habe. Das hat mich sehr gefreut, denn auch die vielen Rückmeldungen zur Infografik haben mir gezeigt, dass mein ausgedachtes System anscheinend funktioniert hat.
So bin ich vorgegangen:
Datensätze von Twitter recherchieren
Dieser Punkt war nicht so trivial, wie ich anfangs dachte, denn Twitter speichert Tweets nur für eine gewisse Zeit. Natürlich kann man sich gegen ein paar Scheinchen die Tweets von Twitter recherchieren lassen. Meine Kontaktaufnahme an das Service Team blieb jedoch erfolglos. Folglich recherchierte ich weiter und fand die Seite twittercrawl.de. Dort kann man sich kostenlos registrieren und wöchentlich 10 Suchanfragen abschicken, die auch in die Vergangenheit reichen können. Nach einigen Stunden (je nach Suchbegriff) hat man auf der Webseite die Möglichkeit das Suchergebnis als Excel Tabelle herunterzuladen. Twittercrawl berücksichtigt dabei nur Tweets aus Deutschland.
Weiterverarbeitung der Daten – Probleme
Das von Twittercrawl gelieferte Ergebnis waren 16.630 Tweets. Bei dieser Menge ist es unmöglich alles per Hand auszuwerten. Dachte ich. Also, Google anwerfen und nach „Word Counter“ und „Word Frequency“ suchen. Wow, ganz schön viele Freeware Tools. Wie fast immer leider nur für PC. Die einzige Mac Freeware die ich gefunden habe war „Supermagnus Word Counter„, was sich zwar gut las, aber einfach nicht laufen wollte. Als Backuplösung gibt es einige Online Tools, die Texte auswerten können. Leider sind diese Tools für englische Texte ausgelegt. Folglich traten Probleme bei Umlauten und „ß“ auf. Ausserdem interpretierten die Online Lösungen gewisse Zeichen als „Stopwords“. Sobald eine Zahl auftauchte war das Ergebnis nichts mehr wert. Wenn der Top Tweeter dieser Auswertung am Ende @stuttgarter1977 heisst, wäre ich also mit dieser Methode gescheitert.
Weiterverarbeitung – Die gute alte Schule
Wie man sich denken kann ist man nach stundenlanger Suche geeigneter Tools so langsam minimal angefressen. Bei aller Recherche traf ich immer wieder auf Menschen, die nur einer Version von Analyse vertrauen. Suchen und Ersetzen. Ich weigerte mich eine ganz Zeit lang diese Methode anzuwenden, aber letztendlich war es eine Chance. Dies kann man mit Word oder anderen Programmen machen. Mir schien „TextWrangler“ am geeignetsten, einfach weil ich diesen Editor kenne.
Schritt 1
Kopieren der entsprechenden Excel Spalte, zum Start den Inhalt aller Tweets. Einfügen in ein neues Dokument in „TextWrangler“. Speichern des Dokumentes unter „s21_alletweets.txt“.
Schritt 2
Vorbereitung des Inhaltes. In meiner Naivität dachte ich nicht relevante Wörter wie z.B. „der“, „die“, „das“, „und“ etc. zu löschen. Unglaublich wie viele Worte für eine Analyse nicht relevant waren;) Achtung, die Problematik dabei: Bei der „Suchen und Ersetzen“-Methode werden natürlich auch Wörter verfälscht. Wenn man nur das Wort „und“ sucht und durch „“ (leer) ersetzt passiert es, dass auch andere eventuell relevante Wörter davon betroffen sind. Um beim Beispiel des Wortes „und“ zu bleiben bedeutet dies, dass das Wort „BUND“ zu einem „B“ mutieren würde. So ein Mist. Also habe ich mich für die umgekehrte Variante entschieden. Nach einem oberflächlichen Scannen der Tweets konnte ich sehr schnell Worte ausmachen, die in der Spitzengruppe landen würde. Ich suchte die 100 häufigsten Worte in allen Tweets. Je länger ich so arbeitete, desto besser fand ich diese Methode. Zum Beispiel das Wort „Polizei“ in „Suchen und Ersetzen“ eingeben und durch die Buchstabenkombination „rrr“ ersetzen. Dies ist nur wichtig, damit man die Häufigkeit bekommt. Die Anzahl und das Wort habe ich dann in ein neues Dokument kopiert. 1168(Häufigkeit) – Polizei(Wort). Dieses Dokument als „s21_top100.txt“ gespeichert und anschliessend wieder zurück ins andere Dokument und „Strg+Z“ (rückgängig machen der letzten Änderung) gedrückt. Dadurch wurde „rrr“ wieder durch „Polizei“ ersetzt;) So arbeitete ich mich Wort für Wort voran. Also doch ein Großteil Handarbeit.
Schritt 3
Das nächste Problem stand nach dieser Auswertung fest. Inwieweit bin ich berechtigt ähnliche Wörter zusammenzufassen? Ich entschloss mich nicht zu sehr einzugreifen, jedoch gab es Wörter die in ein und demselben Zusammenhang standen. „Polizeigewalt“ und „Gewalt“ wurde z.B. nicht zu einem Begriff zusammengefasst, da es unterschiedliche Vorgänge beschreibt. „Polizeigewalt“ geht von Polizei aus. Das Wort „Gewalt“ stand zwar sehr oft in Verbindung mit „Polizei“, doch da „Gewalt“ auch in einigen Fällen in einem anderen Zusammenhang verwendet wurde erschien es mir nicht als zusammenfassbar. Anders z.B. im Fall „Stream“ und „Livestream“, was eindeutig die gleiche Aussage verfolgt. Dies wurde im Wort „Livestream“ zusammengefasst. „Bahnhof“ und „Hauptbahnhof“ wurde als „Bahnhof“ zusammengefasst. Ähnlich verhielt es sich mit Singular und Plural ein und desselben Wortes. Die nächste Problematik tauchte auf, weil Menschen bei Twitter z.B. den Ort des Geschehens unterschiedlich beschrieben. „Schlossgarten“, „Schloßgarten“, „Schloßpark“, „Schlosspark“ oder auch einfach nur „Park“ (das waren dann wahrscheinlich die Stuttgarter;)) Dies wurde unter der korrekten Ortsangabe „Schlossgarten“ zusammengefasst, denn all diese Worte umschrieben den gleichen Ort. So könnte ich noch viele Beispiele anbringen, doch sicher habt ihr die Vorgehensweise verstanden;)
Schritt 4
Wiederholen der Schritte 1-3 für die Excel-Felder „Username“ und „Uhrzeit“.
Visualisierung der bearbeiteten Daten
Nun gut, jetzt hatte ich drei Textdokumente mit denen ich hervorragend arbeiten konnte. Doch wie visualisieren? Nachdem der Auswertungsprozess schon einige Abende gefressen hatte dachte ich an eine schnelle Visualisierung der Daten über einige Online-Tools wie Wordle, mit dem man Tag Clouds erstellen kann. Doch wie es so oft ist im Leben. Da hat man sich die Mühe und Arbeit gemacht die Daten bestmöglich zu analysieren und kommt bei der Visualisierung an den Punkt: „Ne, das will ich so nicht machen, das schaut so durchschnittlich aus!“ Danach suchte ich nach einigen weiteren komplexeren Tools, die vielleicht eine umfangreichere Visualisierung zulassen. Nach diversen Tests unterschiedlicher Tools fiel mein Augenmerk auf das IBM Projekt Many Eyes. Dort kann man diverseste Daten visualisieren (für eine Tag Cloud haben sie übrigens Wordle verwendet;)) Doch auch hier verlor ich schnell mein Interesse, denn die Ergebniss sehen eben einfach so aus, wie man sie von einem Tool erwarten kann. Standardisiert. Ich wollte aber schon etwas spezielleres.
Illustrator dein Freund und Helfer
Dann kam mir die Idee mit den Schienen. Hey, letztendlich ging es am „schwarzen Donnerstag“ um den Schutz der Bäume, übergeordnet aber um die Problematik Bahnhof ja oder nein. Ohne Bahnhof wären auch keine Bäume gefallen. Die Idee weiterverfolgt. Was wäre, wenn die Top Tweeter jeweils ein Gleis bekommen und an einer Art stillgelegtem Drehkreuz vorbeifahren würden? So entwickelte sich mein Bild immer weiter, bis das finale Ergebnis feststand. Der letzte Prozess ging Hand in Hand. Während ich an der visuellen Ausarbeitung arbeitete kamen die Ideen, die ich dann wieder umsetzte. Wieso Illustrator?
Überraschung – die Infografik ist ein A1 Plakat
Vektoren lassen sich bekanntermassen ohne Qualitätsverlust skalieren. Ich habe das Dokument auf A1 Plakat Größe angelegt. Sollte aber jemand eine A0 oder A4 Variante oder gar ein 70 auf 30 Meter Plakat benötigen, alles kein Problem;)
Download der Infografik
Bei aller Freude über die Infografik habe ich beim Artikel den *.pdf Download für die große Variante vergessen. Asche auf mein Haupt, das hole ich hiermit nach. Euch allen viel Spaß damit.
Infografik Stuttgart 21 als PDF herunterladen (438 KB)
Tipp: Rechte Maustaste -> Ziel speichern unter
Fazit meiner ersten Infografik
Sicherlich gibt es unglaublich viele Möglichkeiten Texte automatisiert auszuwerten. Jeder von euch der gute Tipps und Tools kennt darf diese gerne in den Kommentaren posten. Doch bei allen Automatismen musste ich nach all der Arbeit auch erkennen, dass es nicht für alles einen Automatismus geben kann. Verfälschte Ergebnisse wären aus meiner Sicht zustande gekommen, hätte ich nicht gewisse Worte zusammengefasst. Das kann ein Automatismus nicht leisten. Deshalb glaube ich, dass der Weg vom Groben ins Feine gehen muss. In welcher Tiefe und Feinheit man sich dann damit beschäftig bleibt jedem selbst überlassen. Um jedoch wirklich nicht nur sinnlos Zahlen darzustellen ist definitiv eine gewisse Tiefe und Zeit nötig.
Wahnsinn!! Vielen Dank für diese Mühe! Das Ergebnis ist phantastisch!!
Kein Problem. Ich fand es ja selbst im Laufe der Arbeit so spannend. Deshalb habe ich mir auch Zeit für eine möglichst hohe Genauigkeit genommen. Nichts ist schlimmer als mal schnell so eine Infografik zu machen finde ich. Es freut mich sehr, dass es dir gefällt. Denn eines ist klar: ich freue mich, wenn ich anderen eine Freude machen kann. Doppelte Freude sozusagen;) Danke.