Re: [Wikide-l] Re: Vorschlag für effizientere Kontrolle der neuen Beiträge

elwp at gmx.de elwp at gmx.de
Sa Mär 13 14:03:59 UTC 2004


Marco:
> > Zuerst ein paar Definitionen:
> > A: Anzahl der pro Tag zu prüfenden Artikel
> > B: Anzahl der Benutzer, die die Artikel prüfen
> > P: Anzahl der Prüfungen pro Benutzer und Tag
> >
> > Dann gibt N=BP/A an, wie oft ein Artikel
> > im Mittel geprüft wird.
> >
> > Annahme: Kein Benutzer prüft Artikel mehrfach und
> > wählt unabhängig von den anderen Benutzern
> > die Artikel, die er prüft, zufällig aus.
> >
> > Die Wahrscheinlichkeit w für einen Artikel, von
> > keinem Benutzer geprüft zu werden ist:
> >
> > w = X^N
> > mit X=(1-P/A)^(A/P)
> 
> 
> w = X^N = (1 - P/A )^B
> 
> Für P/A << 1 
> 
> =>  w = 1 - P(B/A) + O((B/A)^2)

Diese Näherung funktioniert nicht, weil schon der zweite Summand
PB/A=N nicht klein ist, sondern sogar über 1 liegen dürfte.
In diesem Fall bekommst du, falls du den Rest vernachlässigst,
eine Wahrscheinlichkeit, die kleiner als 0 ist.

> P wird i.a. ein Konstante sein, während B und A zeitabhängig sind.
> Nimmt man an, dass die Anzahl der neuen Artikel A ungefähr
> proportional zur Anzahl  der Benutzer ist, dann ist B/A = const für
> alle Zeiten t und somit 
> 
> w = const    für alle t

Diese Schlussfolgerung ist falsch, weil eben schon die
Näherung falsch war.

> Man kann das Modell noch erweitern, indem man nicht nur die Artikel,
> die gar  nicht kontrolliert wurden als Maß benutzt, sondern den
> Gesamtnutzen der  deutschen Wikipedia berechnet.

Ich glaube nicht, dass man die Qualität der Artikel irgendwie
sinnvoll anhand messbarer Paramter bestimmen können wird. Man
könnte aber evtl. untersuchen, ob irgendwelche messbaren Parameter
(z.B. Anzahl der Bearbeitungen, Anzahl der Bearbeiter,
Bearbeitungszeiträume etc.) sich bei den "exzellenten" Artikeln deutlich
von denen der anderen Artikel unterscheiden, aber ich halte es nicht
für so aussichtsreich, dass ich mich damit beschäftigen würde.

El

-- 
+++ NEU bei GMX und erstmalig in Deutschland: TÜV-geprüfter Virenschutz +++
100% Virenerkennung nach Wildlist. Infos: http://www.gmx.net/virenschutz