[Wikide-l] Review - Versionsnummern

Di Dez 14 12:40:26 UTC 2004

Kurt:
> elwp at gmx.de schrieb:
> > Da muss man sich doch fragen, wann "Version 1.0" fertig sein wird.
> > 
> > Ein sehr ambitioniertes Ziel wäre, diese Version in einem Jahr
> > fertig zu haben.
> 
> "Ambitioniert"? Warum sollten wir uns Ziele setzen, die wir unmöglich
> schaffen können?
> [...]
> Zum 10. Geburtstag des Projektes 100.000 _geprüfte_ Artikel vorweisen
> zu können, würde ich ein sehr ambitioniertes Ziel nennen - aber kein
> unrealistisches.

Die englische Wikipedia war vor gut einem Jahr etwa so groß wie die
deutsche heute. Damals schrieb Jimbo über Wikipedia 1.0 und wann
sie erscheinen könnte:

http://mail.wikipedia.org/pipermail/wikipedia-l/2003-August/029065.html

Er nannte 1, 2 oder 5 Jahre, und solche Vorstellungen dürften in vielen
Köpfen herumschwirren. Ich wollte mit meinen Rechnungen nur zeigen, wie
unrealistisch sie sind, wenn man den normalen Reviewprozess verwendet.

> An dieser Stelle würden mich ein paar Zahlen interessieren:
> * Wieviel Prozent aller Artikelaufrufe entfallen auf die 1000, 10.000,
> 100.000 meistaufgerufenen Artikel?

Das hängt davon ab, wieviele Artikel es insgesamt gibt. Aus den
Webalizer-Statistiken dieses Jahres habe ich folgende Werte extrahiert
(Näheres zur Berechnung am Ende dieser Mail):

  1.000: Feb: 22.6%, Apr: 18.8%, Jun: 17.6%, Aug: 15.5%, Okt: 16.5%
 10.000: Feb: 66.2%, Apr: 56.2%, Jun: 53.9%, Aug: 47.9%, Okt: 47.6%
100.000: Feb:100.0%, Apr: 99.6%, Jun: 98.2%, Aug: 95.0%, Okt: 92.0%

Der Wert für die 100.000 meistaufgerufenen Artikel wird sicherlich
noch weiter sinken, ich schätze auf ca. 80%.

> * Oder andersherum: Wieviele der meistaufgerufenen Artikel müssten wir
> prüfen, um damit 50%, 60%, 70%, 80% oder 90% unserer Besucher glücklich
> zu machen?

Das ist schon schwieriger zu beantworten. Die meisten Benutzer dürften
sich ja wohl mehr als nur einen Artikel ansehen und erst dann zufrieden
sein, wenn die überwiegende Mehrzahl der Artikel, die sie lesen, gut und
geprüft ist. Dazu müssten dann tatsächlich etwa die 100.000 meistgelesenen
Artikel geprüft werden, denn erst dann wäre nur jeder 5. gelesene Artikel
ungeprüft (falls der o.g. Wert auf 80% fällt), was wohl noch einigermaßen
erträglich wäre.

Und damit es "nur" 100.000 zu prüfende Artikel sind, müssten auch genau
die 100.000 meistgelesenen Artikel geprüft werden. Tatsächlich werden
aber wohl nur die Artikel geprüft werden, auf die gerade ein paar Prüfer
Lust haben.

> > Mindestens müssten aber täglich so viele Artikel geprüft werden
> > wie neue hinzu kommen, also z.Z. etwa 400, wenn man irgendwann
> > mal alle geprüft haben will.
> 
> Wenn, ja, wenn. Ich denke dies wäre ein schönes Ziel für den 50.
> Geburtstag. Das exponentielle Wachstum kann ganz plötzlich wieder
> einsetzen, und niemand weiß, wann es endlich wieder aufhört ;-)

Exponentielles Wachstum der Mitarbeit kann es nur geben, wenn die
Anzahl der Internetnutzer, die neu von der Wikipedia erfahren und
sich dafür begeistern können, exponentiell zunimmt. Das ist ja wohl
bei der inzwischen erreichten Bekanntheit der Wikipedia auszuschließen.

Außerdem ist es für mein Argument völlig egal, ob das Wachstum
linear oder exponentiell oder was auch immer ist, solange es nur
gleich ist für die Anzahl der neuen Artikel und die Bereitschaft,
Artikel zu prüfen, wovon ich ausgehe.

> > Wie auch immer man rechnet, es wären viel mehr Reviews nötig als
> > die Leute (sehr wahrscheinlich) bereit sind durchzuführen.
> 
> Was bedeutet "wie auch immer"?

Ich meine natürlich unter der Voraussetzung, dass genügend Artikel
häufig genug geprüft werden.

> > Damit die Benutzer von einer solchen Basisprüfung möglichst
> > häufig Gebrauch machen, muss sie ebenso einfach wie das Ändern
> > der Artikel sein und möglichst vielen Leuten zur Verfügung
> > stehen. Ich habe auch einen konkreten Vorschlag, der evtl.
> > parallel zu Scheweks Versionskennzeichnung laufen könnte:
> > [...]
> 
> Dein Vorschlag ist interessant, und wenn ich es richtig verstanden
> habe eine Weiterentwicklung der von Magnus implementierten
> Bewertungsfunktion.

Ja.

> Allerdings bin ich sehr skeptisch was ihren praktischen Nutzen
> betrifft: Lars Aronsson hatte eine (allerdings einfacher gestrickte)
> Bewertungsfunktion auf susning.nu implementiert, er schaltete diese
> jedoch wieder ab, nachdem offensichtlich wurde, dass ein Großteil der
> Benutzer nicht die Qualität bewertete, sondern der eigenen Meinung
> zum Artikelgegenstand Ausdruck verlieh. (Lars, bitte korrigiere 
> mich, wenn ich das falsch wiedergebe.) Diesem Problem wird man durch 
> Veränderungen an der Bewertungsfunktion sicher verringern können, wie
> stark lässt sich im Vorraus aber kaum abschätzen.

Ich kann mir ja gerade noch vorstellen, dass ein paar Besoffene bei einer
nicht weiter differenzierten Bewertung eines Artikels z.B. über Hitler
eine negative Bewertung abgeben, auch wenn der Artikel gut ist, aber
wenn man wirklich konkret nach Fakten, Vollständigkeit etc. fragt, halte
ich eine solche Verwechselung für nahezu ausgeschlossen.

Es könnte allerdings sein, dass einige Benutzer bei Themen, die sie
intellektuell überfordern, negative Wertungen abgeben, auch wenn
der Artikel auf einem angemessenen Niveau geschrieben ist. Das dürfte
v.a. schwierige naturwissenschaftliche Themen betreffen. Solche
Benutzer muss man dann eben aus der Vertrauensliste entfernen.

> Auch wie fundiert die Selbsteinschätzung als Experte oder Laie ist,
> bleibt für den normalen Leser völlig intransparent.

Diese Selbsteinschätzung ist keine zentrale Information bei der
Bewertung. Ich dachte nur, einige Leute könnten sie evtl. nützlich
finden.

> Und Verknüpfung der Artikelbewertung mit einem Vertrauensnetz brächte
> sehr viele Probleme mit sich, ich denke da sollten wir ggf. separat
> drüber diskutieren.

Angeblich soll man in Mediawiki 1.5 Benutzergruppen definieren können,
und vielleicht lässt sich die Idee dann einfacher umsetzen. Also am
besten erst mal warten und dann weiterdiskutieren.

> Mir ist der Ansatz ansich nicht unsympathisch; Aber ich befürchte, dass
> wir mit so einer Funktion unseren Lesern zwar Artikelversionen anbieten
> können, deren Qualität gesicherter ist, als die jeweils aktuellste Version
> - aber nur im statistischen Mittel.

Das wäre schon ein großer Fortschritt. Leider ist das beim Review (egal
ob ein großer oder kleiner) nicht gesichert, denn im Mittel nimmt die
Artikelqualität auch ohne Review zu, sofern man zumindest offensichtlichen
Vandalismus in Grenzen halten kann, z.B. durch die neue
Recent-Changes-Patrol-Funktion. Deshalb können besonders dann, wenn zu
selten geprüft wird, die geprüften Versionen im Schnitt auch schlechter
als die aktuellen sein.

> Wie verlässlich die Bewertung bei jedem einzelnen Artikel ganz konkret
> ist, wird für den Leser nicht einschätzbar sein.

Den Benutzern sollte klar sein, was es bedeutet, wenn sie als
Qualitätsmerkmal wählen, dass eine bestimmte Anzahl von vertrauenswürdigen
Benutzeren den Artikel abgesegnet haben. Und wenn das zu kompliziert ist,
muss man es eben irgendwie genau erklären.

El

-----------------------------

Zur Berechnung des Anteils der meistaufgerufenen Artikel:

Die Webalizer-Statistiken gibt es hier:
http://wikimedia.org/stats/de.wikipedia.org/
Man kann auf die einzelnen Monate klicken und dann auf
"View All URLs", um die Zugriffslisten herunterzuladen.

Als Artikel habe ich URLs gezählt, die mit /wiki/
beginnen und die weder einen Doppelpunkt noch die
Wörter "Liste" oder "Portal" im Namen haben. Außerdem
habe ich noch einige häufig aufgerufene Seiten ausgeschlossen,
die offensichtlich keine Artikel sind, wie z.B. die Hauptseite.
Aufrufe von Redirects habe ich so behandelt, als wäre die
Seite, auf die umgeleitet wird, aufgerufen worden.

Hier der Quellcode für die, die es ganz genau wissen wollen:

#!/usr/bin/perl

open REDIR, "redir"; # vorher aus cur_table.sql.bz2 erstellt
while(<REDIR>) {
  ($von, $nach) = split;
  $redir{$von} = $nach;
}
close REDIR;

for($monat=2; $monat<=10; $monat+=2) {
  %n=(); @N=(); $N=0; $nSuch=0;
  open URL, sprintf("url_2004%02i.html", $monat);
  while(<URL>) {
    ($n, $x, $x, $x, $url) = split;
    next unless $url =~ /^\/wiki\/(.*)$/;
    $artikel = $1;
    next if $artikel =~ /:/ || $artikel eq "Hauptseite" ||
      $artikel eq "Aktuelle_Ereignisse" || $artikel =~ /Portal/ ||
	$artikel =~ /^Liste/ || $artikel =~ /^Index/ ||
	  $artikel eq "_vti_bin/owssvr.dll" ||
            $artikel eq "MSOffice/cltreq.asp" ||
	      $artikel eq "w/wiki.phtml";
    $n{defined $redir{$artikel}?$redir{$artikel}:$artikel} += $n;
  }
  close URL;

  foreach $artikel (sort {$n{$b} <=> $n{$a}} keys %n) {
    $N += $n{$artikel};
    $N[$nSuch++] = $N;
  }

  print "Monat: $monat; $N Artikelabfragen, " .
    "davon $nSuch unterschiedliche\n";
  for($i=1000; $i<$nSuch; $i*=10) {
    printf "%4.3f %i\n", $N[$i]/$N, $i;
  }
}

-- 
GMX ProMail mit bestem Virenschutz http://www.gmx.net/de/go/mail
+++ Empfehlung der Redaktion +++ Internet Professionell 10/04 +++