[Wikide-l] Unterstützung gesucht

Matthias Richter wort at informatik.uni-leipzig.de
Mi Nov 9 23:51:36 UTC 2005


Hallo,
Am Mittwoch, den 09.11.2005, 19:54 +0100 schrieb Manuel Schneider
[Everything Open]:
> > Vor einiger Zeit hatte ich schon einmal auf
> > http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine textstatistische
> > Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist nunmehr ein
> > dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich würde das auch
> > gerne erneuern, es fehlt mir nur an der Zeit einen sauberen
> > Plaintext-Abzug der Wikipedia (mit sehr wenig sehr einfachem Markup fpür
> > die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware
> > vorwerfen kann. Will mir damit jemand helfen?
> was brauchst denn Du konkret? Ein PHP-Script welches die reine Wiki-Syntax aus 
> der WP rausholt habe ich bereits, das ist dank der WP-Export-Funktion auch 
> simpel.

Sehr schön. Ich bräuchte eine text/plain Version des Artikelnamensraums.
Und für jeden Artikel einen Link auf einer extra Zeile vorne dran, der
auf die Original-URL verweist in der Form (mit dem einen whitespace am
Zeilenanfang):
 <quelle><name><a href="$LINK">$TITEL</a></name></quelle>
Sei hierbei $TITEL der in HTML-Entities kodierte Titel des Eintrags und
$LINK der vollständige URL zum Original-Artikel.
Wenn es nicht viel Arbeit macht, könnte man auch daran denken, die in
den Kategorien kodierten Daten zu nutzen. Da wäre eine Form
 <kategorie><name>$KAT1</name> ... <name>$KATn</name></kategorie>
hilfreich mit den Klartextnamen der Kategorien als $KAT1 - $KATn.

Falls sich übrigens jemand dafür interessiert, einmal auf dies aufbauend
an geeigneter Stelle ein Paper über die textstatistische /
differenzanalytische / ... Auswertung der Wikipedia zu produzieren und
zu plazieren, nur zu, ich stehe gerne mit Rat und Tat und
Co-Autorenschaft zur Seite.

Viele Grüße,
Matthias
-- 
Matthias Richter - PGP-Mail welcome, use key 1024D/D5749D05 2001-03-04
Der deutsche Wortschatz im Netz -> <http://wortschatz.uni-leipzig.de/>