[Wikide-l] Re: Konvertierung auf Unicode

Karl Eichwalder ke at gnu.franken.de
Sa Apr 24 13:27:37 UTC 2004


Tilman Berger <tilman_berger at web.de> writes:

> Ich meine, dass man hier einen Unterschied zwischen Sprachen machen
> sollte, die sich der Lateinschrift bedienen, und solchen, für die das
> nicht gilt. Klar, statt oder neben Чехов kann ruhig die übliche deutsche
> Umschrift "Tschechow" stehen, und auf die sog. wissenschaftliche
> Transliteration "Čechov" kann man vielleicht ganz verzichten,

"Čehov" müßte es heißen, wenn ich das system richtig verstanden habe.
ich würde nicht darauf verzichten, weil früher oder später jemand diese
variante sowieso einfügen wird und weil selbstverständlich auch
wissenschaftler den artikel finden sollten.

> wenn man die kyrillische Originalschreibung anführt. Aber wenn man aus
> "Lech Wałęsa" "Lech Walesa" macht oder aus "České Budějovice" "Ceske
> Budejovice",

es war ja meinerseits auch nicht die rede davon, einfach der 8. bit
wegzuwerfen (leider wird das in der WP wohl des öfteren so gehandhabt
:-( ).  es gibt bestimmt auch für polnisch und tschechisch diese
regeln, die eine möglichst genaue abbildung mit ASCII (oder ISO-8859-1)
erlauben.  meinen namen schreiben die amerikaner zwar "richtig", aber
die aussprache ist ihnen nicht so ohne weiteres klar.  ich würde es
durchaus akzeptieren, wenn sie meinen namen anders schrieben.

> dann empfinde ich das als kulturlos (und ahne, dass die Leute, um
> deren Sprache es geht, das ähnlich sehen). Wir wollen ja auch nicht,
> dass andere in deutschen Wörtern einfach die Umlautzeichen weglassen
> o.Ä.

ja, aber anstelle von "grüß gott" akzeptieren wir "gruess gott".

> Im Übrigen braucht man für die Zusatzzeichen zur Lateinschrift nicht
> einmal Unicode.

wie meinen?  "Wałęsa" ist mit iso-8859-1 nicht angedeckt.  es bleibt
also nur, ein dateiformat wie HTML zunehmen und entities zu verwenden
oder eine dateikodierung, bei der man mehrere encodings mischen kann
(emacs-mule, iso 2022: http://en.wikipedia.org/wiki/ISO_2022 ).  ich
glaube aber kaum, daß wir encodings mischen wollen und wir wollen
bestimmt auch nicht ein paar artikel in iso-8859-2 und den rest in
iso-8859-1 haben wollen.  also brauchen wir Unicode und als kodierung
UTF-8.

-- 
                                                         |      ,__o
                                                         |    _-\_<,
http://www.gnu.franken.de/ke/                            |   (*)/'(*)