[Wikide-l] Wikipedia als Partnerlexikon bei Wortschatz-Lexikon

Matthias Richter wort at informatik.uni-leipzig.de
Mo Apr 19 21:05:20 UTC 2004


Hallo,
Am Fr, den 16.04.2004 schrieb Thomas R. Koll um 13:29: 
> On Fri, Apr 16, 2004 at 12:43:27PM +0200, Matthias Richter wrote:
> > > Was für uns interessant wäre ist das "Wort des Tages" [1] täglich
> > > abzugrasen.
> > Genügt <http://wortschatz.uni-leipzig.de/wort-des-tages/RDF/> hierfür
> > nicht?
> Gut verstecken, als frühe Alpha bezeichnen und dann behaupten ich hätte
> Tomaten auf den Augen ;-)

Hm, also der Link zum RSS der WdT steht auf der Begrüßungsseite. Das ist
nicht so direkt versteckt ;-) Aber eine frühe Alpha ist es wirklich...

> Lässt sich sehr gut gebrauchen, auch wenn ich in der Wochenanzeige
> bei <description> den gleichen Zähler wie bei den Tagen erwartet habe.

Die aufsummierten Frequenzen sind nicht wirklich besonders
aussagekräftig. bei den Tagen habe ich die nur mal dazu geschrieben,
weil es da momentan keine bessere Information gab.

> Beim Tages-xml steht in <title> das Datum drinnen
> 
> Ganz allgemein sollte euer Programm für die Wörter des Tages
> noch verbessert werden.

Danke für die konstruktive Kritik, solche kommt leider selten...

>  Nachnamen wie Böttcher haben (in
> der Wochenübersicht) nichts in den Top-Hits zu suchen.

Die RSS-Geschichte ist mal nebenbei ad-hoc entstanden, da kann man noch
viel tun. Für die Wörter der Woche werden so z.B. einfach ganz hart die
Top-10 nach Häufigkeit der Wörter des Tages der vergangenen sieben Tage
genommen. Ich habe für Begriffe vom Typ Person mal gefordert, dass sie
für die Wörter der Woche mindestens aus zwei Namensteilen bestehen
sollen. Das Ergebnis ist so eben etwas leer.

> Auch dass Leute wie Cruise oder Elvis ohne Vorname genannt werden
> ist auch nervig aber erträglich.

Tom und Presley stehen halt vermutlich nicht signifikant genug dabei.
Man könnte jetzt raten, dass jeder Cruise ein Tom und jeder Elvis ein
Presley ist, aber ob das Ergebnis dadurch immer besser wird, weiß ich
nicht. Wenn ich mich mit RSS besser auskennen würde, könnte noch sowas
wie die Vollform-Links im Wortschatz mitgeliefert werden, sprich die
Information, dass z.B. Cruise gerne ein Teilwort von Tom Cruise ist.

> Plural ist auch keine Stärke des Systems, Ich-AG und Ich-AGs
> nebeneinander zu sehen tut schon fast weh.

Der Schmerz entsteht durch die konsequente Entscheidung *für*
Vollformen. Das hat nicht nur Nachteile. An dieser Stelle fällt es eben
hart und spitz auf den Fuß. Aber ich schreib' das mal in die TODO, dass
man da wohl noch was machen will.

> > Bei uns kam weiterhin die Frage auf, inwieweit auf der anderen Seite das
> > Interesse besteht, Wikipedia durch Backlinks auf diejenigen Daten
> > aufzuwerten, die wir korpusbasiert berechnet haben, sprich in erster
> > Linie (statistische) Kollokationen und Graphen?
> Wir sind kein Wörterbuch.

Statistische Kollokationen sind allerdings im Gegensatz zu
linguistischen Kollokationen auch keine (reinen) Sprach- sondern
tendenziell eher Sachdaten und gehören daher auch eher in den
Lexikon-Teil als in der Wörterbuch-Teil.

>  Das Wiktionary existiert jetzt schon
> für en: fr: und pl: vielleicht kommt ja de: bald dazu.
> Interessant wäre mit euren Ergebnissen die Verlinkung zwischen
> den Artikeln der Wikipedia zu verbessern.

So richtig interessant dürfte das doch dann erst sein, wenn unsere
Programme auf Wikipedia-Daten gelaufen sind. Dann spiegeln nämlich die
ermittelten Zusammenhänge die Wikipedia wider und nicht etwas ganz
anderes. Ein Schnellschuss:
http://wortschatz.uni-leipzig.de/dewikipedia20040410/

Ciao,
Matthias
-- 
Matthias Richter - PGP-Mail welcome, use key 1024D/D5749D05 2001-03-04
Der deutsche Wortschatz im Netz -> <http://wortschatz.uni-leipzig.de/>
Wörter des Tages -> <http://wortschatz.uni-leipzig.de/wort-des-tages/>
Finden ohne zu suchen -> <http://wortschatz.uni-leipzig.de/nextlinks/>