[Wikide-l] Wie verarbeitet man die neue XML-Datei?

Leon Weber leon.weber at leonweber.de
Do Aug 4 13:42:49 UTC 2005


Stefan Kühn schrieb:

>Hallo,
>
>ich hab mir gerade die 470 MB Datei von http://download.wikimedia.org/wikipedia/de/ heruntergeladen und entpackt. Man erhält eine
>mit den Artikelinhalten (Stand 17.7.2005) im XML-Formt und mit einer Größe von 1,4 GB. 
>
>Ich würde jetzt gerne wie bei dem SQL-Dump etwas herausfiltern (Personendaten, Koordinaten etc.). Leider kann keins meiner Programme
>mit so riesigen Dateien etwas anfangen. 
>
>Ein kleines selbstgeschriebenes Skript was einzelne Zeilen auslesen sollte scheint auch an der Größe zu scheitern. IE6 liest ja
>zumindest mal die ersten paar Zeilen aus und zeigt sie an. Das heißt die XML-Datei scheint in Ordnung zu sein.
>
>Kennt jemand eine Programm mit dem man bestimmte Datensätze aus der riesigen XML-Datei rausfiltern kann oder einen Editor, der diese
>Riesendatei verarbeitet?
>
Mit dem Script /maintenance/importDump.php kann man die XML-Dateien in
die lokale DB einspielen, sagt Brion. Wie das recht geht, weiß ich nicht.

Er sagte auch, dass es die großen Tabellen nur noch als XML gibt, die
kleinen weiterhin als SQL.

Gruß,
Leon