[Wikide-l] Unterstützung gesucht

Manuel Schneider [Everything Open] m.schneider at all-things-open.org
Mi Nov 9 18:54:31 UTC 2005


Hallo Matthias,

> Vor einiger Zeit hatte ich schon einmal auf
> http://wortschatz.uni-leipzig.de/WP/ hingewiesen, eine textstatistische
> Auswertung eines Wikipedia-Dumps. Die Datengrundlage ist nunmehr ein
> dreiviertel Jahr alt, was etwas unbefriedigend ist. Ich würde das auch
> gerne erneuern, es fehlt mir nur an der Zeit einen sauberen
> Plaintext-Abzug der Wikipedia (mit sehr wenig sehr einfachem Markup fpür
> die Artikelgrenze) zu erstellen, den ich der Auswertungssoftware
> vorwerfen kann. Will mir damit jemand helfen?
was brauchst denn Du konkret? Ein PHP-Script welches die reine Wiki-Syntax aus 
der WP rausholt habe ich bereits, das ist dank der WP-Export-Funktion auch 
simpel.
Und per Regexp wird man auch die Wiki-Syntax los.

Gruss,


Manuel


-- 
---------------------------------------------------------
All-Things-Open Projektgruppe

m.schneider at all-things-open.org
---------------------------------------------------------
-----BEGIN GEEK CODE BLOCK-----
Version: 3.1
GCM d-- s:- a? C++$ UL++++ P+> L+++>$ E- W+++$ N+ o-- K- w--$ O+ M+ V
PS+ PE- Y+ PGP+ t 5 X R UF++++ !tv b+> DI D+ G+ e> h r y++ 
------END GEEK CODE BLOCK------