[Wikide-l] Re: Vorschlag für effizientere Kontrolle der neuen Beiträge

Do Mär 11 13:09:05 UTC 2004

> Ich habe ausgerechnet, ob die Möglichkeit der Artikelkontrolle
> tatsächlich mit der Größe der Wikipedia skaliert:
>
> Zuerst ein paar Definitionen:
> A: Anzahl der pro Tag zu prüfenden Artikel
> B: Anzahl der Benutzer, die die Artikel prüfen
> P: Anzahl der Prüfungen pro Benutzer und Tag
>
> Dann gibt N=BP/A an, wie oft ein Artikel
> im Mittel geprüft wird.
>
> Annahme: Kein Benutzer prüft Artikel mehrfach und
> wählt unabhängig von den anderen Benutzern
> die Artikel, die er prüft, zufällig aus.
>
> Die Wahrscheinlichkeit w für einen Artikel, von
> keinem Benutzer geprüft zu werden ist:
>
> w = X^N
> mit X=(1-P/A)^(A/P)

Zum Verständnis: 1-P/A ist die Wahrscheinlichkeit,
dass ein ganz bestimmter Benutzer einen ganz bestimmten
Artikel nicht prüft. w=(1-P/A)^B ist die Wahrscheinlichkeit,
dass kein Benutzer den Artikel prüft. Mit N*(A/P)=B stimmt
also die Behauptung von el.

> Um w möglichst klein zu halten, sollte auch
> X möglichst klein sein. Für den Genzfall
> A/P->unendlich ist X=1/e. ...

Zur Erläuterung: die eulersche Zahl e=2,71... lässt sich
genau durch den Grenzwert 

           lim (1-1/x)^x = 1/e
          x->inf.

definieren. 

> ... Schlimmer kann es
> nicht werden. Wenn man sich im Bereich
> A>>P befindet (so wie jetzt: A=1000, B=100
> (geschätzt)), kann man also sagen, dass die
> Funktionsweise der Wikipedia perfekt mit
> der Aktivität skaliert. Nur ist diese
> Funktionsweise wenig effektiv: Wenn ein
> Artikel im Schnitt von 2 Benutzern geprüft
> wird, werden ca. 14% der Artikel von niemandem
> geprüft. Bei N=3 ist immer noch w=5%. Dieses
> Gießkannenprinzip funktioniert zwar irgendwie,
> aber besonders intelligent finde ich es nicht.

Ich finde es immerhin recht genial, dass man
(unter obigen Annahmen) ausrechnen kann, wieviele
Artikel ungeprüft bleiben.

Was passiert, wenn sich die Prüfungen nicht (wie oben
angenommen) gleichmäßig auf die Prüfenden verteilen?
Dass Ergebniss sollte dann doch besser ausfallen,
da die Annahme "jeder prüft einen Artikel nur einmal"
wohl richtig ist.

Problematischer ist die Annahme, dass ein Benutzer
den zu prüfenden Artikel völlig zufällig wählt. In
der Regel arbeitet er in einem gewissen Zeitfenster.
und prüft dann alle Artikel, die gewisse Kriterien
besitzen. Das Zeitfenster ist kein Problem. Man kann
hier wieder eine Worst-Case-Betrachtung machen. Statt
einem Tag, wählt man 10min und betrachet dann die 10min
des Tages (der Woche), mit den ungünstigsten Paramtern.

Schwierig sind nur die Kriterien. Ich geh in der Liste
der neuen Artikel alle besonder kurzen Artikel durch,
wenn ich mal Bock drauf hab. Dann fliegen vor allem
Artikel raus, die zu wenig Inhalt besitzen. URVs finde
ich damit aber keine.

D.h., man muss die Betrachtungen für jede Sorte von
Fehlerquelle durchführen. Dann kann man sagen, so und
so viel Prozent der Artikel sind nicht auf dieses oder
jenes Kriterium geprüft worden.

Wir sollten die Parameter mittels Umfragen mal von
Zeit zu Zeit überprüfen und ausrechnen wie schlecht oder
gut wir in welchem Bereich (im schlimmsten Fall) sind.

Dann können wir auch bessere Maßnamen abstimmen, um die
Qualität zu erhöhen. Nicht zu letzt gibt uns dass auch
ein Argument gegen Brockhaus und Co in die Hand. Wenn
mit mathematischen Methoden nachrechnen, wie gut wir
sind, fällt es denen schwerer Einspruch zu erheben.

> Wir haben den Bereich A>>P auch erst in den
> letzten Monaten erreicht. Vorher war die
> Möglichkeit, effizient zu kontrollieren, erheblich
> besser (d.h. X war viel kleiner).
>
> Der Vorschlag, den ich gemacht hatte, läuft
> darauf hinaus, das Verhältnis A/P möglichst
> klein zu halten. Im optimalen Fall A/P=1
> wird X=0 und damit w=0.

Zur Erläuterung: A/P wird dadurch klein, dass sich die
Prüfer abstimmen. Wenn sich zwei Prüfer abstimmen und
nur Artikel prüfen, die der andere nicht prüft, kann man
sie nach diesem Modell als ein Prüfer betrachten, die
doppelt so viele Artikel prüfen (lässt sich nat. auch auf
mehere Prüfer verallgemeinern).

Der bestmögliche Fall tritt dann ein, wenn sich alle Prüfer
zu einem Prüfer zusammenschließen. Er wird otimal, wenn
dieser eine Prüfer alle Artikel prüfen kann. Logisch, darauf
zielt das System ja ab. Aber selbst wenn das nicht reicht,
wissen wir genau, wieviel uns durch die Lappen geht.

> > Erik Möller(?) hatte vor einigen Wochen auf wiki-tech vorgeschlagen
> > eine checkbox auf jede neue Seite legen, die ein Admin aktivieren
> > kann und damit in der "new articles" Liste signalisiert, dass der
> > betreffende Artikel schon überprüft wurde. Wer so etwas
> > implementieren will, wird damit bestimmt auf  wiki-tech auf offene
> > Ohren treffen.

Das finde ich nicht ausreichend. Ich prüfe wie oben schon
erläutert häufiger mal die kurzen neuen Artikel. Ich ändere
sie aber in der Regel nicht, auch wenn sie Halbsätze enthalten,
nicht wikif. sind usw. Es sollte mehere Checkboxen geben, in
denen man ankreuzen kann, was an dem Artikel noch zu erledigen
ist.

> Ein solcher Mechanismus wäre auch nicht schlecht,
> sollte aber nicht an den Adminstatus gebunden sein.
> Andererseits macht es auch wenig Sinn, jedem eine
> solche Bewertung zu ermöglichen. Man bräuchte einen
> neuen Status wie "erfahrener Benutzer" o.ä., was alles
> wieder ziemlich kompliziert machen würde.

Im Grunde läuft deine Idee auf dem von mir schon vor langer Zeit
vorgeschlagenen Reviewers-Mode hinaus. Man klickt auf einen Button "Review"
und bekommt einen ungeprüfen Artikel vorgesetzt, den man prüfen, bewerten,
verbessern kann. Das System entscheidet dann, welchen Artikel es aufgrund
der Bewertung nochmal jemand anderem Vorsetzen muss, am besten nach dessen
vorlieben...

Vollständig geprüfte Artikel werden niemandem mehr vorgesetzt...

--Ivo Köthnig