Re: [Wikide-l] Helfer für Forschungsprojekt

Andreas Brändle andreas at rosskur.ch
Mo Mär 7 13:54:23 UTC 2005


Ahoi Mathias
Am 07.03.2005 um 14:17 schrieb Mathias Schindler:
> Andreas Brändle schrieb:
>
>> Etwa ein drittel der Variabeln sind automatisch erfassbar, was ich 
>> auch mache. Ab f04 beginnt die manuelle Arbeit.
>
> (das ist jetzt ein IMHO und IANAinformatiker)
>
> j03: automatisierbar
> j02: automatisierbar (mit Aufwand)

>
> m01: automatisierbar
> m02: automatisierbar
> m03: automatisierbar
>
> n01: automatisierbar (mit Aufwand)
> n02: automatisierbar
> n03: automatisierbar
> n04: einigermassen automatisierbar
>
> o - einigermassen automatisierbar
> p- einigermassen automatisierbar
>

Auch wenn man diese paar Variabeln vollständig automatisiert misst, 
bleiben trotzdem 43 Indikatoren, für welche man den Text lesen muss, um 
sie zu erfassen. Bei einer Stichprobe von 450 Artikeln und 
durchschnittlich vier Seiten sind das 1800 Seiten. 1800 Seiten lesen 
und codieren ist schon unheimlich viel Arbeit. Nun ver500facht man die 
Stichprobe auf 200000. Rechne.

> Bei a04/05 kommst du bei alten Artikeln an ein Problem, weil die 
> Versionshistorie nicht völlig komplett ist.
Ich weiss. Ist aber nicht so schlimm, weil es nur die ganz alten 
betrifft. Das Alter kann für die Auswertung auch in eine ordinale Skala 
zerlegen wie beispielsweise alt, mittelalt, jung.

> Ausserdem hast du ein weiteres Problem, wenn Artikel in ihrer Historie 
> durch den BKL/deBKL-Fleischwolf gezogen wurden.
Begriffsklärungen kommen nicht in die Stichprobe.

> Ein weiteres Problem ist, wenn ein Artikel aus einer anderen 
> wikipedia-Ausgabe übersetzt wurde (zählen dann die englischen 
> Revisionen mit?). Da sollte es recht viele Beispiele aus en->de geben.
Das muss ich vernachlässigen

>
>> Die Nutzerstatistiken der WP sind nur bis 19. Oktober 2004 
>> erhältlich. Dann hat Tim wegen zu hoher Serverlast den Webalizer 
>> abgeschaltet. Leider kann ich mit den Google-Treffer nicht bis zum 
>> 19. Oktober zurück.
>
> Empfinde ich jetzt als Bruch in der Zahlensystematik.
Geht leider nicht anders. Die Variabel Nutzungshäufigkeit (Page-Views) 
ist meiner Meinung nach eine der wichtigsten zur Klärung der Frage, wie 
das Wiki-Prinzip funktioniert. Da die Nutzungsstatistiken nur bis am 
19. Oktober vorhanden sind, muss ich diesen Datum als Stichtag wählen. 
Man nimmt, was man hat.

> Vorschlag
> a26: Anzahl der Interwikilinks
>
> Aus der Zahl der Interwikilinks lassen sich begrenzt Rückschlüsse zur 
> Validität von Lemmata ableiten bzw, seeehr begrenzt zur Relevant des 
> Lemmas in anderen Sprachen.
Gute Idee. Werd ich mir überlegen.

Lieber Gruss
Andreas Brändle
--