[Wikide-l] Wie verarbeitet man die neue XML-Datei?

Stefan Kühn kuehns at uni-trier.de
Do Aug 4 12:43:36 UTC 2005


Hallo,

ich hab mir gerade die 470 MB Datei von http://download.wikimedia.org/wikipedia/de/ heruntergeladen und entpackt. Man erhält eine
mit den Artikelinhalten (Stand 17.7.2005) im XML-Formt und mit einer Größe von 1,4 GB. 

Ich würde jetzt gerne wie bei dem SQL-Dump etwas herausfiltern (Personendaten, Koordinaten etc.). Leider kann keins meiner Programme
mit so riesigen Dateien etwas anfangen. 

Ein kleines selbstgeschriebenes Skript was einzelne Zeilen auslesen sollte scheint auch an der Größe zu scheitern. IE6 liest ja
zumindest mal die ersten paar Zeilen aus und zeigt sie an. Das heißt die XML-Datei scheint in Ordnung zu sein.

Kennt jemand eine Programm mit dem man bestimmte Datensätze aus der riesigen XML-Datei rausfiltern kann oder einen Editor, der diese
Riesendatei verarbeitet?

Stefan