![]() |
|
![]() |
|
|
|
|
|
|
|
|
|
|
|
|
|
die Koordinatoren des Orientalistentages |
|
Carl-Martin Bunz (cm.bunz@mx.uni-saarland.de):
When applying computers, since the beginning of electronic text processing Orientalists have been bothering with operating systems and application programs which did not meet their needs. Scripts and languages could not be stored and processed adequately: exchangeable character processing was reduced to ASCII, anything beyond ASCII was incompatible with certain other systems and programs, special fonts for special purposes had to be transmitted alongside with the document to view the text correctly, mixing of left-to-right and right-to-left text was coped with either by proprietary programs or by tweaking of some sort, etc. etc. During the past ten years, standardization bodies and computer industry have been providing a new basis for multiscript and multilingual text processing which also for Orientalists holds out hope to get rid of the most annoying difficulties they are struggling with.
The following conferences will be given in this panel:
Conference 1:
Conference 2: (not yet confirmed)
Conference 3: (not yet confirmed)
Conference 4:
V O R T R Ä G E I N D E M P A N E L:
Ralf Gehrke: Linguistische Datenbanken, Unicode und das Internet
Linguistische Datenbanken können neben Texten in unterschiedlichen Sprachen auch weitere Informationen, z. B. morphologische Analyse oder lexikalische Angaben, enthalten. Schnell treten dabei zwei Probleme auf: Neben der Wahl der angemessenen Datenbankstruktur ist die Wahl der richtigen Codierung zu treffen. Gerade bei mehrsprachigen Dokumenten oder der Verwendung nichtlateinischer Schriften bietet sich der Unicode-Standard an, der inzwischen von immer mehr Programmen und Betriebssystemen unterstützt wird. Ausgehend von Erfahrungen, die in Frankfurt bei der Arbeit an einem elektronischen Corpus für alttürkische Texte und bei weiteren Projekten gesammelt wurden, soll der Vortrag Möglichkeiten und Probleme beleuchten, die sich bei der Umwandlung von Daten in Unicode-Datenbanken, bei ihrer Darstellung im Internet und beim Retrieval ergeben. Insbesondere die Eingabe von Unicodezeichen stellt den Benutzer noch vor große Schwierigkeiten.
Claudius Naumann: Ø©¥§×#¾‡Èá†: Vom "babylonischen" Codierungs-Wirrwarr der ASCII-Ära zu einer "lingua franca" in der EDV für die Schriften und Daten der (orientalistischen) Welt - ein Plädoyer für Unicode mit praktischen
Beispielen
Unicode stellt mit 2 hoch 16 (= 65536) Codepositionen im Gegensatz zur ASCII-Codierung mit 2 hoch 8 (= 256) Codepositionen einen Standard dar, der die vielfältigen Probleme der EDV im orientalistischen Bereich bei der Codierung sowohl der Original- als auch der Umschriften mit Sonderzeichen zu überwinden verspricht. Dieser Standard wird nun in zunehmendem Umfang in der Software-Industrie realisiert, so daß es notwendig und sinnvoll erscheint, ihn auch in der orientalistischen Praxis durchzusetzen. Ein einheitlicher Standard für alle Schriften erleichtert nicht nur die Ein- und Ausgabe der Daten durch den einzelnen Nutzer, sondern bedeutet auch eine enorme Erleichterung beim Datenaustausch (mit Unicode fallen übrigens auch Barrieren zwischen IBM- und Apple-Welt).
Anhand praktischer Beispiele aus der orientalistischen Praxis soll aufgezeigt werden;
Codierung orientalischer Schriften im Unicode-Zeitalter / Encoding Oriental Scripts in the
Unicode Age
With the advent of the WWW in the early Nineties, the foundation had been laid for worldwide exchange of script and language data. By virtue of the graphic interface of the browser software, all sorts of letter shapes and symbols can be displayed on the screen. Intrinsic part of this technichal basis is an international character encoding standard so that script units can be processed precisely and unequivocally on whatever platform the relevant process (storage, display, etc.) may run. This international standard is Unicode®, since 1991 merged with ISO/IEC 10646, and continuously enlarged in code-by-code identity with ISO/IEC 10646 up to this day. Basic Unicode (Basic Multilingual Plane) comprises 65.536 code points. Unicode and ISO/IEC 10646 in the wider sense is an encoding space for more than 2 billions of characters.
Unicode is an abstract character encoding of scripts, not languages, and adheres to an abstract notion of script allowing for script unifications in case the same character repertoire is used by several writing systems. With oriental scripts, a Unicode conformant encoding is not trivial, since multiple writing systems are in fact using similar character repertoires. As for the Basic Multilingual Plane, the decisions made by the Unicode designers were dictated by legacy character sets for which one-to-one conversion to and from Unicode had to be warrantied to ensure the acceptance of the international standard in industry.
The encoding of historical scripts cannot and by definition never will obey to commercial and industrial standards. Therefore, when scholars are now planning encodings for historical scripts, they have to find their way between what has been determined in the Basic Multilingual Plane and what a sound concept would require if the script were encoded in an independant framework.
The TITUS project (cf. http://titus.uni-frankfurt.de) has been very active in this area, holding personal contact to the Unicode Technical Committee since 1996. Recently (04 Nov 2000), an Iranianist symposium was held in Paris, focussed on the encoding of Iranian scripts in Unicode, most of them historical.
Apart from the TITUS initiative, and with regard to oriental scripts, living and historical, many other encoding initiatives are currently ongoing, on different fields of language and literary research. The principal aims of this panel at DOT are:
Carl-Martin Bunz, M.A., Saarbrücken: What is Unicode? Introduction to
the architecture of Unicode / ISO/IEC 10646
Prof. Dr. Petr Vavrousek, Prag: [Encoding of the Hittite Cuneiform
Script]
Prof. Dr. Jost Gippert, Frankfurt/Main: Applying Unicode: The TITUS
Project
Claudius Naumann, M.A., Berlin: Ø©¥§×#¾‡Èá†: Vom "babylonischen"
Codierungs-Wirrwarr der ASCII-Ära zu einer "lingua franca" in der EDV
für die Schriften und Daten der (orientalistischen) Welt - ein Plädoyer
für Unicode mit praktischen Beispielen
Der Unicode-Standard ist jedoch nicht einfach nur ein "Super-ASCII", sondern beinhaltet auch solche Informationen wie Textrichtung, Verhalten der Buchstaben im Kontext (z.B. arabische und indische Schriften), so daß Unicode-konforme Anwendungen traditionelle sprachspezifische Spezialsoftware für Arabisten, Indologen, Sinologen usw. weitgehend überflüssig machen. Darüberhinaus sollen auch Anregungen gegeben werden, wie Unicode wissenschaftliche EDV erleichtert, d.h. den effektiven Einsatz des Computers nicht nur für die klassische Textverarbeitung ermöglicht, sondern auch für Zwecke wie Textanalyse, Datenbanken, Indices, Sortierung u.a., die bisher bei Verwendung "exotischer" Schriften und Sonderzeichen stets ein Problem darstellten.