Moin,
-------- Original-Nachricht --------
Datum: Thu, 16 Oct 2008 08:56:53 +0200
Von: Daniel Kinzler <daniel(a)brightbyte.de>
An: "Mailingliste des Wikimedia Deutschland e.V. / mailing list of the German
Wikimedia association" <vereinde-l(a)lists.wikimedia.org>
Betreff: Re: [VereinDE-l] PediaPress auf der Buchmesse
Heiko schrieb:
church.of.emacs.ml schrieb:
> 1. Auf der Homepage von pediapress lässt sich ein Beispielbuch als PDF
> downloaden. In diesem Buch ist die GFDL abgedruckt, die Liste der
> Autoren konnte ich allerdings nicht entdecken. Wie ist dies zu
erklären?
die ist jeweils am ende der artikel. tatsächlich nutzen wir zur
bestimmung der "hauptautoren" nur die letzten 500 revisionen, gefiltert
um anonymous und bots - das ist sicherlich nicht optimal. wir haben uns,
auch wenn es nicht so erscheint, viele gedanken darüber gemacht und
verschiedene ansätze ausprobiert. die problematik liegt zum einen
darin,
dass meines wissens eine genaue definition fehlt,
die festlegt wie die
hauptautoren bestimmt werden. so basierte unser erster ansatz auf den
dumps mit der vollen versionshistorie, darin die häufigsten autoren
für
jeden artikel zu bestimmen, gewichtet mit der
größe der edits. leider
war dieser ansatz erstens sehr rechenaufwendig, funktioniert zweitens
nur für wikis die einen full-history-dump bereitstellen und ist
drittens
fehleranfällig (einfach regelmäßig 5k spam an
artikel anhängen und
hoffen, dass der algorithmus zur bestimmung der hauptautoren keine
künstliche intelligenz nutzt).
Eine Lösung dieses Problems würde WikiTrust [1] liefern. WikiTrust kann
zu jedem
Wort Angeben, wer es beigetragen hat, unter Brücksichtigung von
Umstrukturierungen und Reverts. Damit ließen sich leicht die Hauptautoren
ermitteln (nach % der zur aktuellen Version beigetragenen Wörter), und
sogar bei
Bedarf im Text hervorheben, wer was geschrieben hat, ähnlich wie
Wikigenes [2]
das tut. Ich hoffe sehr, dass wir WikiTrust bald (im Laufe von 2009)
bekommen.
-- daniel
[1]
http://trust.cse.ucsc.edu/
[2]
http://www.wikigenes.org/
________________________________
Für die Wikipress-Bücher haben wir damals einen ähnlichen Weg genommen wie Wikitrust. Die
Identifizierung der Reihenfolge der Hauptautoren erfolgte auf der Basis eines
Triplettvergleichs (immer drei aufeinanderfolgende Zeichen) des importierten Textes über
ein Tool, dass im Volldumb die Versionsgeschichte durchscannte und jedes Triplett mit dem
Endtext verglich. Im Ergebniss resultierten Gesamtzeichenlisten wie sie bsp. unter
http://www.wikipress.de/Erde (ganz unten) abgebildet sind. In die Bücher wurden dann die
Autoren vollständig für jeden einzelnen Artikel absteigend nach ihrem Beitrag gelistet,
IPs wurden zusammengefasst.
Einzelheiten zu dem Tool lassen sich evtl. über Vlado oder Raul (beide
directmedia/Zenodot) erfahren. Problem hier: Ein Dumb mit allen Versionsgeschichten muss
verfügbar sein.
Wie ich bereits schrieb: Das pure Abzählen der Einzeledits halte ich für sehr bedenklich
und überhaupt nicht geeignet, Hauptautoren zu filtern. Die Begrenzung auf die letzten 500
Edits ist zudem vor allem bei zentralen und alten Artikeln extrem kritisch; und im
Regelfall sind gerade die zentralen auch die alten und viel editierten. Als Beispiel die
[[Krokodile]], die ich in der Zeit bis Dezember 2004 ausgebaut habe und die sich seitdem
inhaltlich kaum verändert haben - aber sicher weit mehr als 500 Edits seitdem aufweisen;
nach der pedia-Methode würde ich also aus der Autorenliste rausfallen, obwohl der Text
substanziell von mir stammt.
Im Ergebnis: Es wird echt Zeit, dass es eine brauchbare Implementierung in der Wikipedia
gibt, nach der auf Knopfdruck brauchbare Haupautorenlisten erscheinen (und nicht jeder
Verwerter immer was eigenes entwicklen muss, was im Endeffekt in den seltensten Fällen,
hier Pediapress und auch Bertelsmann brauchbar ist) - evtl wäre das ja auch ein prima Job
für Daniel oder für einen externen Programmierauftrag?
Gruß,
Achim
--
Psssst! Schon vom neuen GMX MultiMessenger gehört? Der kann`s mit allen:
http://www.gmx.net/de/go/multimessenger