Den ble litt omfattende... ;)
Etter som jeg har vært involvert i å lage slike krediteringssystemer; de
eksisterende systemene som brukes er for en stor del basert på
bidragstelling. Det gjør at ren stavesjekk og lignende, og ikke minst
vedlikehold av iw-lenker, får en uforholdsmessig stor plass. Et
fungerende system må ikke bare ta høyde for bidragstelling, antakelig er
dette en faktor som er helt uvesentlig, men det må ta høyde for mengden
bidratt innhold. Faktisk så bør det her beregnes utfra mengden bidratt
entropi i artikkelen. Dette er et mål for hvor mye informasjon som er
skrevet inn i artikkelen av den enkelte bidragsyter.
Antall bidrag er "lett" å beregne for det er en opptelling av antall
revisjoner tilhørende den enkelte bidragsyter i artikkelens historikk.
Mengden innhold er ikke så enkel å beregne for da må en hente ut
innholdet for alle versjonene og sammenligne dette. Det finnes to
forenklinger; den ene er å beregne en absolutt digest (MD5) - dette blir
gjort i trust coloring systemet som blant annet Luca de Alfaro lager og
brukes der for å påvise versjoner som skal forkastes, det andre er å
bruke en relativ digest (Nilsimsa) - dette tillater en direkte vekting
av bidragenes størrelse på en litt grov men delvis akseptabel måte som
fungerer noe bedre og er mer generell.
Hvert bidrags entropi, og hva det representerer for artikkelens totale
entropi er mer korrekt, men da må en inn å utføre nokså tunge
beregninger. Ved å summere differansen i entropi for alle bidrag fra en
bruker vil det fremkomme et tall som sammenholdt med totalen av alle
differanser er mer samsvarende med hvor mye informasjon en bruker har
bidratt med til artikkelen. To brukere som begge skriver like mye tekst
tilfører ikke nødvendigvis like mye informasjon, og det kan føre til at
den ene blir "forfatter" mens den andre blir medforfatter.
Den første metoden er den som brukes men er lite representativ for hvem
som er faktisk forfatter av en artikkel. Ved å ta ibruk en av variantene
fra den andre løsningen så bedres "godheten" til systemet vesentlig. Det
vil likevel dukke opp mange bidragsytere i lista som ikke er reelle
forfattere, mange av de er ikke engang å regne som medforfattere. Den
tredje varianten er kanskje den som er best, men den alene vil ikke
klare å fjerne mye av de sporadiske bidragene. For å klare å fjerne
disse må muligens bruke en løsning med Nilsimsa slik at bidrag under en
skranke fjernes, eller som ved MD5 at større bidrag som fjernes utgår
fra kalkuleringene.
La meg legge til at kun den første løsningen er implementert på en slik
måte at den kan brukes i Wikipedia. Det kan synes som om en løsning som
bruker både absolutte og relative digests kan bli effektiv nok til at
den er gjennomførbar. Entropi tror jeg ar kan bli for tungt til at det
er mulig å bruke det i on the fly analyser, men det er mulig å beregne
tallene for så å beregne hva dette betyr for den endelige versjonen.
Etter at en har påvist hvem som er forfatteren starter det virkelig
store problemet, i hvilken grad er forfatterne pålitelige i Wikipedia.
Dette er omtrent den normaliserte summen av skribentenes positive bidrag
på Wikipedia. For de brukerne som kan vise til sine egne credentials fra
studiesteder, eller etablerte posisjoner, så er ikke dette så viktig,
men for den altoverveiende andelen av anonyme skribenter så er dette
viktig. Det her blir forsøkt løst av de Alfaro, men modellen de bruker
er noe overforenklet (aka den normaliserte summen av skribentenes
positive bidrag) mens den reelle modellen er svært infløkt og en må
bruke spillteori for å beskrive alle relasjonene.
Hvis det hadde vært mulig å få noen til å hive på tilstrekkelig cash
slik at dette kunne implementeres på en skikkelig måte så hadde det vært
interessant. Uten støtte tror jeg det er vanskelig å få til dette for
det er ikke akkurat et lite prosjekt, selv om det ser enkelt ut ved
første øyekast.
_______________________________________________
Wikino-admin-l mailing list
Wikino-admin-l(a)lists.wikimedia.org
https://lists.wikimedia.org/mailman/listinfo/wikino-admin-l