[Wikide-l] Re: Unicode oder nicht?

Jakob Voss jakob.voss at nichtich.de
Sa Jun 25 00:03:27 UTC 2005


Hallo aka, hallo apper,

Apper schrieb:

> So, will ich mich mal melden ;). Ich sammle (derzeit nichtöffentlich)  
> Bearbeitungszahlen wie aka auch. 

Was für Daten genau? Wenn wir uns auf ein gemeinsames Set an 
Datenfeldern einigen, lassen sich auch leichter Daten austauschen und es 
muss nicht mehrfach gesammelt und ausgewertet werden. Also:

Alle Bearbeitungen (Recent Changes) mit

user       VARCHAR(255)
title      VARCHAR(255)
timestamp  VARCHAR(14)
minor      TINYINT(1)
comment    TINYBLOB
bytes_diff INT(4)

Und ggf. noch die aktuelle Größe:

bytes      INT(4)

oder?

Bis auf die bytes bekommt man auch alles aus der old-tabelle des dumps, 
aber wenn ich nur die Recent Changes des letzten Monats haben möchte, 
ist das etwas sehr (!) unpraktisch - außerdem gibt es neue dumps 
anscheinend immer seltener.

> Ich speichere die Daten aber  
> stundenweise. Ich kann also für einzelne Artikel und natürlich auch 
> alle  zusammen für jede Stunde sagen, wieviele Edits es gab. Leider weiß 
> ich  noch nicht ansatzweise, wie ich diese Datenflut langfristig halten 
> kann,  daher habe ich noch kaum Tools für die Auswertung gebastelt. Das 
> ist  sicher auch der Grund, wieso aka nur die letzten 24 Stunden 
> speichert ;).
> 
> Möglich ist aber z.B. eine grafische Anzeige, wie unter  
> http://www.apper.de/wikipedia/wpstats.png.
> 
> Auch die Byte-Änderungen werden entsprechend gespeichert/aufaddiert.  
> Ansatzweise ist das interessant, beispielsweise kamen gestern (23. 
> Juni)  4.102.761 Bytes zu Wikipedia-Seiten hinzu, davon 1.944.947 Bytes 
> zu  Artikeln. Über die Hälfte von allem, was geschrieben wurde, war also 
> auf  Diskussions/Benutzer/Wikipedia-Seiten. Dazu muss noch ergänzt 
> werden, dass  gelöschte Artikel nicht berechnet werden, die Zahl also 
> nochmals kleiner  ausfällt.
> 
> Für einzelne Artikel ist es natürlich nicht sooo gut geeignet, da man 
> in  diesem Fall lieber direkt die Daten aus der Wikipedia holen sollte, 
> aber  für "Hitlisten" ist das schon brauchbar.
> 
> Für gestern (23. Juni) ergibt sich ein ähnliches Bild, wie es sich in 
> akas  Tool für die letzten 24h auch ergibt.
> 
>  1. Wikipedia:Löschkandidaten/23. Juni 2005 (480 Edits)
>  2. Wikipedia:Spielwiese (147 Edits)
>  3. Wikipedia:Löschkandidaten/22. Juni 2005 (146 Edits)
>  4. Diskussion:Jürgen Rüttgers (97 Edits)
>  5. Wikipedia:Löschkandidaten/21. Juni 2005 (77 Edits)
>  6. Wikipedia:Fragen zur Wikipedia (76 Edits)
>  7. Orte aus Star Wars (61 Edits)
>  8. Wikipedia:Kandidaten für exzellente Artikel (51 Edits)
>  9. Wikipedia:Vandalensperrung (46 Edits)
> 10. Benutzer:Factumquintus/Asyl (36 Edits)
> 
> Interessant ist aber auch, dass es bei den Größenänderungen ein wenig  
> anders aussieht. Beispielsweise ist die Größenänderung des Artikels 
> "Orte  aus Star Wars" (61 Edits) runde 0 Byte, da die 61 Edits 
> rückgängig gemacht  wurden und im Übrigen inzwischen auch gelöscht sind.
> 
> Leider sieht man da auch, was solche Statistiken kurzfristig unnutzbar  
> macht: Von den 4 MB Zuwachs insgesamt entfällt ein halbes MB auf einen  
> Vandalismus auf einer Diskussionsseite, der erst am 24. rückgängig 
> gemacht  wurde ([[Diskussion:Hans-Hermann Hoppe]]). Ansonsten finden 
> sich die  ähnlichen Diskussionsseiten wieder und als Artikel bspw. 
> [[Antike]] (1  Edit; 37.644 Byte) und [[U-Bahnlinie 1 (Berlin)]] (1 
> Edit; 22.335 Byte).
 >
> Soviel zur Statistik von mir ;)

Danke!

Es sind noch viele weitere spannende Tools und Statistiken möglich - 
dafür wäre es hilfreich, das Sammeln der Daten und die Auswertung zu 
trennen. Ich bin z.B. inzwischen ganz firm in [[GNU R]]. ich würde mir 
z.B. gerne mal die Prozentuale Größe von Bearbeitungen ansehen. Dazu 
würde es sehr helfen, wenn sich eine Tabelle wie oben als SQL-Dump oder 
CSV herunterladen lässt.

Bei inzwischen knapp 350000 edits/monat auf de und geschätzten 35 
Zeichen pro Kommentar im Durchschnitt komme ich auf etwa 190MB 
ungepackt. Als tab-getrenne CSV-Datei dürfte es noch um einiges kleiner 
sein, da die wenigsten benutzernamen und Artikel 255 Zeichen haben - 
außerdem kann das dan gleich per gzip gepackt werden - ich schätze mal 
das sind dann nicht mehr als 10 MB pro Monat.

Gruß,
Jakob