[Wikide-l] Unterstützung gesucht

Matthias Richter wort at informatik.uni-leipzig.de
Mi Nov 9 09:51:05 UTC 2005


Hallo,

Vor einiger Zeit hatte ich schon einmal auf
http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine textstatistische
Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist nunmehr ein
dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich würde das auch
gerne erneuern, es fehlt mir nur an der Zeit einen sauberen
Plaintext-Abzug der Wikipedia (mit sehr wenig sehr einfachem Markup fpür
die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware
vorwerfen kann. Will mir damit jemand helfen?

Danke,
Matthias
-- 
Matthias Richter - PGP-Mail welcome, use key 1024D/D5749D05 2001-03-04
Der deutsche Wortschatz im Netz -> <http://wortschatz.uni-leipzig.de/>