[Wikide-l] Kollaboration für Suchmaschinen: Wikipedia fuels Google Co-op

Mathias Schindler mathias.schindler at gmail.com
Di Jun 27 20:21:55 UTC 2006


Liebe Liste,

in den letzten Wochen habe ich sehr viel Spaß mit einem neuen Projekt
von Google gehabt, dessen erste Ergebnisse in den nächsten Tagen
online gehen. Wer mich aus dem IRC kennt, wird an meinen Schwärmereien
nicht vorbeigekommen sein.

Google Co-op ist ein Projekt, das derzeit aus zwei Teilen besteht.
Topics und Subscribed Links. Die deutlich angenehmere Lern- und
Erfahrungskurve hatte meiner Meinung nach Subscribed Links, also habe
ich damit einmal angefangen.

Exkurs: Was ist die Onebox.

Googles wichtigstes Element besteht aus den Resultaten. Zu einem
gegebenen Suchbegriff gibt Google mehr oder weniger einheitlich
Treffer aus. Die Rangfolge ergibt sich aus der angenommenen Relevant
der Suchtreffer für den Anfragenden. Suche ich nach "Angela Merkel",
warum auch immer, wirft mir die deutschsprachige Suche von Google
zuerst angela-merkel.de aus, an zweiter Stelle den deutschsprachigen
Wikipedia-Eintrag zu dieser Frau. Wikipedia hat generell ein gutes
Standbein bei Google, da die Inhalte ausführlich, aktuell, gut
verlinkt, barrierefrei und mit (als ob das noch jemanden 2006
interessieren sollte) gut mit Metadaten ausgestattet sind.

Rechts daneben findet sich für denjenigen, der das nicht browserseitig
herausfiltert, noch das Geschäftsmodell von Google in Form von
Werbung. Bei bestimmten Suchanfragen wird in der Zeile über den
Suchtreffern noch die sogenannte onebox eingeblendet. Die Suchanfrage
"Was ist eine Primzahl" triggert beispielsweise das Define-Feature von
Google und hin und wieder Google Scholar, die Suchmaschine für
wissenschaftliche Veröffentlichungen. Teilweise werden auch in dieser
Region Werbeanzeigen eingeblendet. Gängige Oneboxen sind Treffer aus
Google Booksearch, Zugverbindungen, Nachrichtentreffer, Kataloginhalte
und andere. Teilweise gibt es auch Suchprotokolltreffer für
diejenigen, die sich auf google angemeldet haben.

Inkurs: Was ist Google Co-op/Subscribed Links?

Subscribed Links sind von Diensteanbietern frei erstellbare Oneboxen.

Die Basics:

Ein Benutzer googelt nach "Angela Merkel". Wikipedia hat, wie wir
wissen, nette Inhalte zu Angela Merkel. Wikipedia bietet, nichts liegt
näher als dies, also eine Onebox an.

dewp hat derzeit über 410.000 Seiten, von denen die meisten Artikel
sind. Sonderfälle sind hierbei Listen und BKLs. Ohne jetzt die genauen
Statistiken gesehen zu haben, glaube ich, daß wir als deutschsprachige
Wikipedia einen wirklich großen Anteil der üblichen Suchanfragen in
Form eines Lemmas haben. Selbstverständlich suchen Menschen auch nach
"Telefonnummer  Karlheinz Müller" oder sonstige Anfragen, aber alle
Zweifler seien auf Google Zeitgeist verwiesen (vorsicht, das wird
rekursiv, in Deutschland ist Wikipedia seit einigen Monaten der
populärste Suchbegriff, gefolgt von Suchanfragen, zu denen wir
allesamt etwas anbieten können, ohne eine große geistige
Transferleistung hinzulegen.

Das schöne an Google Co-op ist, daß es von Menschen entwickelt wurde,
die nachgedacht haben, bevor sie losgelegt haben. Die
Onebox-Konfiguration und Befütterung geschieht über XML-Dateien, die
entweder hochgeladen werden können oder auf eigenen Webservern liegen.

Für das Beispiel Angela Merkel ist das also folgendes:


	Beispiel.

  <ResultSpec id="mw3">
    <Query>Angela Merkel</Query>
    <Response>
      <Output name="title">Wikipedia:Angela Merkel</Output>
      <Output name="more_url">http://de.wikipedia.org/wiki/Angela_Merkel</Output>
      <Output name="text1">Angela Dorothea Merkel (* 17. Juli 1954 in
Hamburg) ist eine deutsche Politikerin.</Output>
      <Output name="text2">Sie ist seit dem 22. November 2005
Bundeskanzlerin der Bundesrepublik Deutschland...</Output>
    </Response>
  </ResultSpec>

Diese Dateien sind einigermaßen gut automatisch zu erstellen, es ist
übrigens nochmal ein guter Grund, warum wir eine brauchbare
Leadsection haben sollten.

Klingt soweit ganz gut, ist es eigentlich auch. Angezeigt bekommt
jemand diese Subscribed Links dann, wenn er in google co-op auf diese
Inhalte subscribed (default). Es gibt noch einen anderen Weg, auf den
ich bei Gelegenheit zu sprechen komme.

Jetzt wird es witzig.

Googles Entwickler haben sich bei subscribed Links fröhlich austoben
können und einige features eingebaut, mit denen man noch mehr Spaß pro
Byte haben kann: Pattern.

Man definiert einfach Suchmuster (Beispielsweise "Geburtsdatum [Name])
und legt in wie üblich einer XML-Datei dann die Antworten dazu ab:

<Results>

<AuthorInfo description="Gib das Geburtsdatum einer Person aus"
author="Mathias Schindler"/>

<ResultSpec id="GeburtsdatumMatch1">
	<Query>Geburtsdatum [Geburtsdatum]</Query>
	<Response>
		<Output name="title">Geburtsdatum von [0.fullname]</Output>
		<Output name="more_url">de.wikipedia.org/wiki/[0.fullname]</Output>
		<Output name="text1">Das Geburtsdatum von [0.fullname] ist</Output>
		<Output name="text2">[0.dob] (laut Wikipedia).</Output>
	</Response>
</ResultSpec>

<DataObject id="5" type="Geburtsdatum">
	<QueryName value="Ang Lee" />
	<Attribute name="fullname" value="Ang Lee"/>
	<Attribute name="dob" value="23. Oktober 1954"/>
</DataObject>

</Results>

Wer also nach "Geburtsdatum Angela Merkel" sucht, bekommt dann in
seiner Onebox nicht nur den Link auf den Artikel zu Angela Merkel
angezeigt, sondern gleich die gewünschte Antwort. Auch diese Dateien
sind einfach zu erzeugen, denn wir haben dazu die Personendaten.

Jakob Voss stellt auf dem Toolserver Daten bereit, die aus der
Wikipedia und ihren Personendaten extrahiert wurden, die Zeile von
Angela Merkel liesst sich:

145^IAngela Merkel^IMerkel, Angela^I^I[[Bundeskanzler
(Deutschland)|Bundeskanzlerin]] der [[Deutschland|Bundesrepublik
Deutschland]] ([[Christlich Demokratische Union
Deutschlands|CDU]])^I[[17. Juli]]
[[1954]]^I[[Hamburg]]^I^I^I119545373$

Folgende Anfragen sind aus den Personendaten direkt erzeugbar:

1. Wann wurde [Name] geboren? (aka. Geburtsdatum [Name], Geburtstag
[Name]) -> GEBURTSDATUM
2. Wo wurde [Name] geboren? -> GEBURTSORT
3. Wann starb [Name]? -> STERBEDATUM
4. Wo starb [Name]? -> STERBEORT

Dann gibt es noch gewisse Varianten daraus:

5. Wie alt ist [Name]? (Feld ALTER, generiert aus $TODAY -
$GEBURTSDATUM) - macht nur bei lebenden Personen Sinn

Die anderen Felder sind denkbar:

6. Alias [Name]
7. Welchen Beruf hat/hatte [Name]? (dürfte bei vielen
Personendateneinträgen für Schmunzeln sorgen, weil Beruf nicht immer
Alleinstellungsmerkmal.
8. Literatur [Name] -> Link auf die PND-Suche von Jakob oder wahlweise
auf die DDB

Das nächste Feld sind natürlich auch die Geodaten vom WikiProjekt
Georeferenzierung. Hier habe ich testweise mal was zusammengehackt,
das zu einem gegebenen Ort das Land, in dem sichdieser Ort befindet
anzeigt.

Solange Wikidata und/oder Semantic Mediawiki noch auf sich warten
lässt, gibt es noch ein paar andere, aber nicht mehr allzu viele
Anwendungsmöglichkeiten für Wikipedia. Denkbar sind Spielereien mit
den Taxoboxen, den Townboxen und einigen anderen Dingen. Auch
Kategorien könnten möglicherweise ganz interessant sein.

Ich bin hier auf Vorschläge und Hilfestellungen und Mithilfe dankbar.
Ganz besonders dankbar bin ich denen, die mir in den letzten Wochen
geholfen haben, einige Dinge hinzubekommen: Stefan Kühn, Jens Frank,
Magnus Manske und die Leute bei Google, die co-op zum Laufen gebracht
haben.

Unter http://meta.wikimedia.org/wiki/Google_Co-op ist eine grobe
zusammengeschriebene Zusammenfassung des Standes der Entwicklung, die
Rohdaten gibt es an verteilten Orten und sind dort verlinkt.

Mathias