[Wikide-l] Re: Wie verarbeitet man die neue XML-Datei?

Jakob Voss jakob.voss at nichtich.de
Fr Aug 5 06:17:19 UTC 2005


Stefan Kühn wrote:

> ich hab mir gerade die 470 MB Datei von http://download.wikimedia.org/wikipedia/de/ heruntergeladen und entpackt. Man erhält eine
> mit den Artikelinhalten (Stand 17.7.2005) im XML-Formt und mit einer Größe von 1,4 GB. 
> 
> Ich würde jetzt gerne wie bei dem SQL-Dump etwas herausfiltern (Personendaten, Koordinaten etc.). Leider kann keins meiner Programme
> mit so riesigen Dateien etwas anfangen. 
> 
> Ein kleines selbstgeschriebenes Skript was einzelne Zeilen auslesen sollte scheint auch an der Größe zu scheitern. IE6 liest ja
> zumindest mal die ersten paar Zeilen aus und zeigt sie an. Das heißt die XML-Datei scheint in Ordnung zu sein.
> 
> Kennt jemand eine Programm mit dem man bestimmte Datensätze aus der riesigen XML-Datei rausfiltern kann oder einen Editor, der diese
> Riesendatei verarbeitet?

Das richtige Werkzeug für solche großen XML-Daten ist ein SAX-Parser [1] 
- solche gibt es für alle üblichen Programmiersprachen. Die Datei muss 
übrigens gar nicht auf der Platte entpackt - dass kann auch on-the-fly 
geschehen:

gzip -dc | myscript

Gruß,
Jakob