From: chris zhang <chriszscjp(a)yahoo.co.jp>
Subject: [WikiJA-l] wikipedia データベース導入についての問題
Date: Wed, 5 Jul 2006 15:50:22 +0900 (JST)
問題(1):
たくさんの画像データがimageテーブルに存在しない、
wikipediaで確認したらありました。それはなぜ?
その「wikipediaで確認したらあ」った画像とは具体的にどれでしょうか.
推測ですが,おそらく commonsに投稿された画像なのだと思います.
Wikipedia ではcommonsに投稿された画像を記事の中で利用することが
できるので,それらは単に commons の画像を参照しているだけなのだと
思います.
問題(2)
一部のページが存在しないです、同様にwikipediaで確認したらありました。
つまりダウンロードしてきたデータはwikipeidaで表示されてるデータより
かなり減っているということです。
これも,具体的にはどの記事でしょうか.
http://download-yaseo.wikimedia.org/jawiki/latest/
はタイムスタンプから分かるように,ある時点でのスナップショットでしか
ありませんから,例えばそのスナップショットを取った時点よりも後にできた
記事は,含まれていないのだと思います.
参考になりましたら.
--OTA Takashi