[Wikide-l] Re: Unicode oder nicht?
Jakob Voss
jakob.voss at nichtich.de
Sa Jun 25 00:03:27 UTC 2005
Hallo aka, hallo apper,
Apper schrieb:
> So, will ich mich mal melden ;). Ich sammle (derzeit nichtöffentlich)
> Bearbeitungszahlen wie aka auch.
Was für Daten genau? Wenn wir uns auf ein gemeinsames Set an
Datenfeldern einigen, lassen sich auch leichter Daten austauschen und es
muss nicht mehrfach gesammelt und ausgewertet werden. Also:
Alle Bearbeitungen (Recent Changes) mit
user VARCHAR(255)
title VARCHAR(255)
timestamp VARCHAR(14)
minor TINYINT(1)
comment TINYBLOB
bytes_diff INT(4)
Und ggf. noch die aktuelle Größe:
bytes INT(4)
oder?
Bis auf die bytes bekommt man auch alles aus der old-tabelle des dumps,
aber wenn ich nur die Recent Changes des letzten Monats haben möchte,
ist das etwas sehr (!) unpraktisch - außerdem gibt es neue dumps
anscheinend immer seltener.
> Ich speichere die Daten aber
> stundenweise. Ich kann also für einzelne Artikel und natürlich auch
> alle zusammen für jede Stunde sagen, wieviele Edits es gab. Leider weiß
> ich noch nicht ansatzweise, wie ich diese Datenflut langfristig halten
> kann, daher habe ich noch kaum Tools für die Auswertung gebastelt. Das
> ist sicher auch der Grund, wieso aka nur die letzten 24 Stunden
> speichert ;).
>
> Möglich ist aber z.B. eine grafische Anzeige, wie unter
> http://www.apper.de/wikipedia/wpstats.png.
>
> Auch die Byte-Änderungen werden entsprechend gespeichert/aufaddiert.
> Ansatzweise ist das interessant, beispielsweise kamen gestern (23.
> Juni) 4.102.761 Bytes zu Wikipedia-Seiten hinzu, davon 1.944.947 Bytes
> zu Artikeln. Über die Hälfte von allem, was geschrieben wurde, war also
> auf Diskussions/Benutzer/Wikipedia-Seiten. Dazu muss noch ergänzt
> werden, dass gelöschte Artikel nicht berechnet werden, die Zahl also
> nochmals kleiner ausfällt.
>
> Für einzelne Artikel ist es natürlich nicht sooo gut geeignet, da man
> in diesem Fall lieber direkt die Daten aus der Wikipedia holen sollte,
> aber für "Hitlisten" ist das schon brauchbar.
>
> Für gestern (23. Juni) ergibt sich ein ähnliches Bild, wie es sich in
> akas Tool für die letzten 24h auch ergibt.
>
> 1. Wikipedia:Löschkandidaten/23. Juni 2005 (480 Edits)
> 2. Wikipedia:Spielwiese (147 Edits)
> 3. Wikipedia:Löschkandidaten/22. Juni 2005 (146 Edits)
> 4. Diskussion:Jürgen Rüttgers (97 Edits)
> 5. Wikipedia:Löschkandidaten/21. Juni 2005 (77 Edits)
> 6. Wikipedia:Fragen zur Wikipedia (76 Edits)
> 7. Orte aus Star Wars (61 Edits)
> 8. Wikipedia:Kandidaten für exzellente Artikel (51 Edits)
> 9. Wikipedia:Vandalensperrung (46 Edits)
> 10. Benutzer:Factumquintus/Asyl (36 Edits)
>
> Interessant ist aber auch, dass es bei den Größenänderungen ein wenig
> anders aussieht. Beispielsweise ist die Größenänderung des Artikels
> "Orte aus Star Wars" (61 Edits) runde 0 Byte, da die 61 Edits
> rückgängig gemacht wurden und im Übrigen inzwischen auch gelöscht sind.
>
> Leider sieht man da auch, was solche Statistiken kurzfristig unnutzbar
> macht: Von den 4 MB Zuwachs insgesamt entfällt ein halbes MB auf einen
> Vandalismus auf einer Diskussionsseite, der erst am 24. rückgängig
> gemacht wurde ([[Diskussion:Hans-Hermann Hoppe]]). Ansonsten finden
> sich die ähnlichen Diskussionsseiten wieder und als Artikel bspw.
> [[Antike]] (1 Edit; 37.644 Byte) und [[U-Bahnlinie 1 (Berlin)]] (1
> Edit; 22.335 Byte).
>
> Soviel zur Statistik von mir ;)
Danke!
Es sind noch viele weitere spannende Tools und Statistiken möglich -
dafür wäre es hilfreich, das Sammeln der Daten und die Auswertung zu
trennen. Ich bin z.B. inzwischen ganz firm in [[GNU R]]. ich würde mir
z.B. gerne mal die Prozentuale Größe von Bearbeitungen ansehen. Dazu
würde es sehr helfen, wenn sich eine Tabelle wie oben als SQL-Dump oder
CSV herunterladen lässt.
Bei inzwischen knapp 350000 edits/monat auf de und geschätzten 35
Zeichen pro Kommentar im Durchschnitt komme ich auf etwa 190MB
ungepackt. Als tab-getrenne CSV-Datei dürfte es noch um einiges kleiner
sein, da die wenigsten benutzernamen und Artikel 255 Zeichen haben -
außerdem kann das dan gleich per gzip gepackt werden - ich schätze mal
das sind dann nicht mehr als 10 MB pro Monat.
Gruß,
Jakob