Das Gralis-Korpus
Das Gralis Text-Korpus
Beim Text-Korpus handelt es sich um eine Online-Sammlung paralleler Texte für verschiedene slawische Sprachen. Fertig gestellt konnte bislang das Korpus für die Sprachen bosnisch/bosniakisch, kroatisch und serbisch werden, wobei dieses Korpus rund zwei Millionen Tokens beinhaltet. Gegenwärtig wird an der Erstellung eines solchen Korpus für weiter slawische Sprachen gearbeitet. Das Ziel des Gralis-Korpus liegt darin, ein Korpus zu erstellen, das (a) von keinerlei äußeren Faktoren abhängig ist, (b) in der Lage sein wird, mit der Geschwindigkeit und der Qualität der Informationstechnologien Schritt zu halten und (c) laufend weiterentwickelt, vervollständigt und verbessert werden kann.
Das Gralis-Korpus Team
Das Gralis-Korpus wurde im Rahmen einer Zusammenarbeit zwischen dem Institut für Slawistik und dem Zentrum für Informationsmodellierung in den Geisteswissenschaften an den Karl-Franzens-Universität Graz erstellt. Als Clientprogramm dient das vom Institut für maschinelle Sprachverarbeitung in Stuttgart entwickelte CWB. Als Leiter des Projektes fungiert Branko Tošović, die Koordinierung nimmt Arno Wonisch wahr, sämtliche Tätigkeiten im Zusammenhang mit der Softwareentwicklung und serverfertigen Aufbereitung leitet Hubert Stigler, während für die Korpusadministrierung Olga Lehner verantwortlich zeichnet.
Das Gralis-Korpus Team (Leitung, Koordinierung, Administrierung, Management, Korpus-MitarbeiterInnen)
Die Struktur des Gralis Text-Korpus
Im Unterschied zur durchaus großen Zahl an einsprachigen Korpora trifft man sowohl innerhalb der Slawia als auch in allen anderen Philologien auf eine wesentlich kleinere Zahl an Parallelkorpora für zwei oder gar mehrere Sprachen. Dieses Ungleichgewicht liegt neben dem primären Interesse der Korpuslinguistik an der eigenen Sprache vor allem auch im technisch unvergleichlich anspruchsvolleren Prozess der Entwicklung von Parallelkorpora begründet. Doch gerade im Interesse einer ausgewogenen und komplexen Untersuchung der Übereinstimmungen, Ähnlichkeiten und Unterschiede zwischen nahe verwandten Sprachen (wie eben im Falle von B, K, S) erschien es unabdingbar, ein Korpus mit mehreren Sprachen zu entwickeln.
Nach Abschluss aller Arbeitsschritte wird das Gralis Text-Korpus aus dem Archiv-Korpus und dem Warte-Korpus bestehen. Das Archiv-Korpus beinhaltet Originaltexte, so wie sie von HerausgeberInnen, Redaktionen, ProduzentInnen, FilmvertreiberInnen, AutorInnen, ÜbersetzerInnen und RechtsnachfolgerInnen verstorbener TrägerInnen von Autorenrechten erhalten werden (ist einzig dem Leiter und dem Koordinator des Korpus zugänglich), wobei eine Einsichtnahme in das Material dieses Subkorpus nicht möglich ist. Die Texte im diesen Korpus verfügen über folgende Metainformationen: Quelle des Originals (Verlag, Zeitschriftenredaktion, Autor, ÜbersetzerIn, Link), Kurztitel, Sammeltitel (z. B. Zeitungen eines Monats), Datum und Ort der Herausgabe, Datum des Einfügens in das Archiv-Korpus, Art des Originals (gemäß ISO 639-2, ISO TO 37/SC2), Identifikationsnummer, Original oder Übersetzung (Name des Übersetzers/der Übersetzerin), ISBN-Nummer und ISSN-Nummer (fakultativ), Formatierung (Übereinstimmung der Absätze, Grafik, diakritische Zeichen) sowie willkürlicher Kommentar.
Das Warte-Korpus umfasst Originaltexte, die aus dem Internet zur weiteren Bearbeitung ausgewählt werden und die einzig den am Korpus mitarbeitenden Personen zugänglich sind. Für die Erstellung des Warte-Korpus wird um keine Urheberrechte angesucht.
Die Arbeit an sämtlichen Subkorpora erfolgt parallel in verläuft in zwei Phasen: In der ersten werden Texte gesammelt und grob bearbeitet, um sie in das nichtlemmatisierte Warte-Korpus einzustellen. In der zweiten Phase wird das lemmatisierte Korpus erstellt, indem repräsentative Textstellen aus dem Warte-Koprus elektronisch bearbeitet und in das Korpus eingefügt werden.
Eine weitere Untergliederung des Warte-Koprus führt zu zwei Subkorpora, die als Roh- und Meta-Korpus bezeichnet werden. Ersterer umfasst Texte aus dem Internet, die in zumindest zwei sprachlichen Versionen vorliegen, während zweiter eine Sammlung von Texten und Artikeln zur globalen Thematik des Projektes beinhaltet (bis dato liegt das Meta-Korpus einzig zum Thema „Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen“ vor).
Im Text-Korpus werden drei Sorten von Texten proportional und ausgeglichen inkludiert: 1. Originaltexte, 2. modifizierte (adaptierte) Texte und 3. übersetzte Texte. Das Gralis-Korpus wird aus einem schriftlichen und einem mündlichen Subkorpus bestehen, deren Verhältnis sich auf 90%:10% beläuft. Der Umfang von Texten hängt von dessen funktionalstilistischer und genremäßiger Zugehörigkeit ab. Um eine Ausgewogenheit zu erreichen, werden manche Texte (z. B. Romane) nur in Auszügen herangezogen.
Abhängig von der Lösung der Urheberrechtsfrage kann das Gralis Text-Korpus (a) eine begrenzte Zeit (z. B. ein Jahr) zugänglich sein, worüber man ein Vertrag mit den InteressentInnen schließen würde und (b) von einer begrenzten Anzahl von Personen genutzt werden (wie etwa MitarbeiterInnen des Instituts der Slawistik, inskribierten Studierenden, DiplomandInnen und DoktorandInnen, Studierenden, die den Unterricht aus Fachgebieten besuchen, der in Verbindung mit dem Thema Korpus oder Korpuslinguistik steht, Gästen des Instituts, Angehörigen anderer Institute und Fakultäten usw.).
Das Gralis Text-Korpus verfügt über drei Arten der Annotation: 1. eine metatextuelle, 2. eine extralinguistische und 3. eine linguistische (morphologische, orthoepische, semantische, stilistische und syntaktische), wobei die metatextuelle Annotation Informationen zu Titel, Kapitel und Absatz bietet.
Die extralinguistische Annotation verfügt über folgende Komponenten – (1) AutorIn: individuelle(r) AutorIn (Vor- und Nachname), kollektive(r) AutorIn (Vor- und Nachname), fingierte(r) AutorIn (Vor- und Nachname), Pseudonym, unbekannte(r) AutorIn (NN), Geburtsdatum (oder ungefähres Alter), Geschlecht, Nationalität, Konfession, Herkunft (Staat, Land, Stadt), Berufsfeld (Kunst, Publizistik, Wissenschaft, Recht usw.); (2) Editionsangaben: Umfang des Textes (Seitenzahl), Zeit des Entstehens des Textes, Ort des Entstehens des Textes, HerausgeberIn; Angaben zur Sprache, zur regionalen Variante, Schrift, Übersetzung (ÜbersetzerIn); (3) textuelle Angaben: Medium (schriftlich, mündlich), Textdomäne (Recht, Psychologie usw.), funktionaler Stil (literarisch-künstlerisch, publizistisch, wissenschaftlich, administrativ, umgangssprachlich), „Unterstil“ (informativ, analytisch, populärwissenschaftlich), Genre (Prosa, Poesie, Drama, Artikel, Dissertation), Herkunft des Textes (Buch, Radiosendung, Zeitungsbeilage usw.), Typ der Sprachkommunikation (Monolog, Dialog, Gespräch, Vortrag); (4) inhaltliche Angaben: Thema (z. B. Kampf gegen Drogenmissbrauch, Kochrezept usw.), Chronotop (welche Zeit und welcher Ort werden im Text behandelt); (5) strukturelle Angaben: Art der Formatierung, Reim (falls vorhanden) und (6) kommunikatorische Angaben (für wen wurde der Text verfasst): für welche Altersgruppe, für Personen welchen Bildungsniveaus.
Die linguistische Annotation umfasst die Hervorhebung von Sätzen, Syntagmen und Wörtern, wobei zwischen folgenden weiterführenden Annotationsschritten unterschieden wird: (a) morphologische Annotation: nach morphosyntaktischen Kategorien; (b) orthoepische Annotation: nach der Art des Akzents (lang steigend, lang fallend, kurz steigend, kurz fallend, Länge); (c) semantische Annotation: gemäß dem Programm WortNet; (d) stilistische Annotation: nach der Art des Stils, der Art des funktionalen Stils (literarisch-künstlerisch, publizistisch, wissenschaftlich, administrativ, umgangssprachlich) und (e) syntaktische Annotation gemäß dem syntaktischen Baum der Abhängigkeiten.
Diese Annotationsschritte werden in mehreren Phasen erfolgen, wobei zuerst die metatextuelle Annotation, in einer zweiten Phase die morphologische und orthoepische, in einer dritten die semantische und stilistische sowie schließlich in einer vierten Phase die syntaktische Annotation durchgeführt werden. Morphosyntaktische Homographie soll händisch entfernt werden.
6. Bei der Textverarbeitung werden zwei grundlegende Verfahren zur Anwendung gebracht, nämlich die Segmentierung und das Alignieren. Im Zuge des Segmentierungsschrittes wird jeder Text in Absätze und Sätze unterteilt, woraufhin die Segmente angeglichen werden. Auf diese Weise wird eine strukturelle Übereinstimmung zwischen den Texten der untersuchten Sprachen hergestellt, sodass ein angeglichenes Parallelkorpus entsteht. Durch diese Arbeitsschritte werden die Wechselbeziehungen zwischen zwei oder mehreren sprachlichen Textversionen mit dem gleichen Inhalt dargestellt, woraufhin eine linguistische Analyse erfolgen und ein (alphabetisches) Frequenzwörterbuch ausgearbeitet werden kann.
Das Problem bei der Segmentierung und Alignierung von Texten liegt darin, dass beide Arbeitsschritte doppelt (sofern es sich um einen Text in zwei Sprachen handelt) oder sogar dreifach (wenn ein Text in drei Versionen in Frage kommt) durchgeführt werden müssen. In der Anfangsphase der Angleichung wird folgendes Modell zwischensprachlicher Beziehungen überprüft, angewandt oder modifiziert ( A – B – C ): (1) ein Satz der Sprache A hat als Äquivalent einen Satz mit übereinstimmenden Grenzen in den Sprachen B , C (Beziehung 1:1:1); (2) ein Satz der Sprache A hat als Äquivalent einen Satz mit nichtübereinstimmenden Grenzen in den Sprachen B , C (Beziehung 1:1:1); (3) ein Satz der Sprache A hat als Äquivalent zwei (oder mehr) Sätze in den Sprachen B , C (Beziehung 1:1:2, 1:2:1 oder 2:1:1); (4) ein Satz der Sprache A hat keinen Äquivalent in den Sprachen B , C (Beziehung 1:1:0, 1:0:1 oder 0:1:1).
Texte, die direkte Übersetzungen darstellen, werden nach folgenden Kombinationen angeglichen: Dem Original entspricht eine authentische Übersetzung (amtliche Dokumente mit gleichwertiger Rechtskraft); dem Original entspricht eine Übersetzung des Autors/der Autorin bzw. eine autorisierte Übersetzung (eine beauftragte Übersetzung); dem Original entspricht eine maschinelle Übersetzung; dem Original entspricht keine Übersetzung, sondern ein modifizierter Text.
Das Gralis-Korpus soll in höchstmöglichem Maße dem Anspruch der Repräsentativität (zur Filterung zuverlässiger Informationen) und der Ausgewogenheit (zu einer adäquaten Darstellung der Differenzierung vor allem in funktionalstilistischer Hinsicht) gerecht werden. Als theoretische Grundlage für die typologische Einteilung der Texte dient dabei das Buch „Die funktionalen Stile“ (Tošović 2002). Gemäß dieser Konzeption wird das Gralis-Korpus in die fünf funktionalen Stile (literarisch-künstlerisch, publizistisch, wissenschaftlich, administrativ und umgangssprachlich) unterteilt.
Die Weiterentwicklung des Gralis-Korpus geht wie folgt vor sich:
- quantitative Ergänzung durch neue Texte und Inhalte,
- qualitative Verbesserung (tiefere und umfangreichere Annotation),
- formale Verbesserungen (Erneuerung des Web-Designs),
- funktionale Beschleunigung (besseres Such- und Findsystem) und
- Weiterentwicklung der Programme (Anwendung neuer Softwarepakete).
Angesichts dessen, dass die Qualität jedes Korpus durch (a) die Tiefe und den Umfang der Annotation , (b) die Such- und Auffindmöglichkeiten, (c) die Repräsentativität, Proportionalität und Ausgewogenheit sowie (d) die Zugänglichkeit bestimmt wird, wird diesen Faktoren bei der Ausarbeitung und stetigen Weiterentwicklung des Korpus umfassend Rechnung getragen werden.
Für eine Übertragung der Urheberrechte wird um diese bei Verlagen, Zeitungs- und Zeitschriftenredaktionen, FilmproduzentInnen und Verleihen, AutorInnen gedruckter und elektronischer Versionen von Texten, ÜbersetzerInnen oder – sofern sie nicht mehr am Leben sind – rechtmäßigen ErbInnen angesucht.
Ein Teil des Gralis Text-Korpus stellt das BKS-Korpus dar, bei dem es sich um ein paralleles informationell-wissenschaftliches System für das Bosnische/Bosniakische, Kroatische und Serbische handelt, das aus zumindest in zwei Versionen vorliegenden Texten besteht (B und K, B und S, K und S). Das Ziel des BKS-Korpus liegt darin, in einer möglichst tiefen und umfassenden Untersuchung der Übereinstimmungen, Ähnlichkeiten und Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen zu eruieren. Angesichts dessen, dass es sich um nahe verwandte Sprachen handelt, deren Beziehung zueinander Grund für unterschiedliche Spekulationen liefert, soll mit der Erstellung eines solchen Korpus eine repräsentative und heterogene Quelle für eine objektive Beurteilung der Übereinstimmungen, Ähnlichkeiten und Unterschieden zwischen diesen Sprachen geschaffen werden. Basierend auf diesem Korpus könnte man mit der Ausarbeitung eines Programms für eine automatische Bestimmung des Grades der Nähe zwischen diesen Sprachen bzw. für eine Messung der typologischen Distanz beginnen. Weiters soll mithilfe des Korpus umfassendes Material für das Verfassen 1) eines komplexen korrelativen Wörterbuches der Sprachen B, K, S in einer gedruckten und einer Online-Version, 2) korrelativer Grammatiken des B, K, S und schließlich 3) eines Lehrbuchs des B, K, S zusammengetragen, aufbereitet und ausgewertet werden.
Das Gralis BKS-Korpus wendet sich an Fachleute für das BKS und LinguistInnen allgemeinen Profils (vor allem auf dem Gebiet der allgemeinen, der Systemlinguistik und der Soziolinguistik) sowie an all jene, die an den intralinguistischen, interlinguistischen und extralinguistischen Beziehungen zwischen dem B, K, S Interesse bekunden. Es kann breit und zweckmäßig im Unterricht und dabei vor allem an Hochschulen zum Einsatz gebracht werden, wobei es auch all jenen von Nutzen sein wird, die in der Praxis mit den Problemen des B, K, S konfrontiert sind (LektorInnen, Filmschaffenden, PolitikerInnen u. a.). Das Korpus stellt in erster Linie ein Parallelkorpus des Standardbosnischen, des Standardkroatischen und des Standardserbischen dar. Aus diesem Grund werden in einer ersten Phase nach dem Jahr 1991 verfasste Texte ausgewählt und bearbeitet. In einer zweiten Phase wird mit Texten gearbeitet, die zwischen 1981 und 1990 entstanden sind, in einer dritten Phase folgen Texte aus den Jahren 1961 bis 1980 und in einer vierten Phase Texte, die zwischen 1941 und 1960 erstellt wurden.
Die Entwicklung des Gralis-Korpus erfolgt gemäß den gängigsten Standards (z. B. TEI), um dadurch eine Kompatibilität und eine Vergleichbarkeit mit ähnlichen Korpora sowie breite Anwendungsmöglichkeiten zu erzielen. Die Arbeit am Gralis-Korpus ist einerseits eine einmalige (durch die Erstellung einer Online-Version) und andererseits eine laufend durchzuführende (ständige Ergänzungen, Verbesserungen und Vertiefungen).
Das Gralis BKS-Korpus soll zeigen, wie sich die BKS-Einheiten (phonetisch-phonologische, orthoepische, grammatikalische und stilistische) auf sämtlichen Ebenen und auf Basis konkreten Materials in natürlicher Umgebung darstellen. In naher Zukunft soll die Verwaltung der Textdaten im Gralis Text-Korpus, die derzeit noch Filesystem-basiert erfolgt, auf ein sogenanntes Asset Management-System (AMS) umgestellt werden. Korpustexte, aber auch zugehörige Audio-, Video- und beschreibende Metadaten, wie sie in einem multimodalen Korpus in einer Vielzahl vorhanden sind, können mittels eines solchen Frameworks einfach verwaltet und in webbasierten Workflows bearbeitet werden. Interessierte LeserInnen seien auf den Beitrag von Hubert Stigler in diesem Band verwiesen, der die Möglichkeiten dieser Umgebung detailliert darstellt.
Entwicklung des Korpus
Zum Studium slawischer Sprachen ist es überaus wichtig, über komplexes und in funktional-stilistischer Hinsicht ausgewogenes Material zu verfügen, auf das online zugegriffen werden kann. Dies trifft umso mehr auf komparative Untersuchungen nahe verwandter slawischer Sprachen, wie etwa im Falle von bosnisch/bosniakisch, kroatisch und serbisch (im Folgenden: BKS, B, K, S oder B/K/S) zu. Für derartige Analysen können zwei Arten von elektronischen Korpora herangezogen werden: Einerseits monolinguale Korpora, die zum Studium einer einzigen Sprache ohne Vergleichsmöglichkeiten mit anderen Sprachen vorgesehen sind. Derartige Korpora gibt es für beinahe alle slawischen Sprachen
- Das Nationalkorpus der russischen Sprache – Национальный корпус русского языка ,
- Das Nationalkorpus der russischen Literatursprache – Национальный корп ус русского литературного языка
- Narusco, Das Internetkorpus der weißrussischen Sprache – Ин тернет-корпус белорусского языка ,
- Das tschechische Nationalkorpus – Český národní korpus ,
- Das slowakische Nationalkorpus – Slovenský národný korpus ,
- Das Korpus des Institutes für Informatik der Polnischen Akademie der Wissenschaften – Korpus Instytuta Podstaw Informatyki Polskiej Akademii Nauk – IPI PAN ,
- Das Korpus der slowenischen Sprache FIDAPlus – Korpus slovenskega jezika FIDAPlus ,
- Das Korpus gesprochener slowenischer Sprache – Korpus govorjene slovenščine ,
- Das Korpus gesprochener bulgarischer Sprache – Корпус от разговорен български език u. a.).
Im Falle des B/K/S kann auf zwei kroatische Korpora
- Das kroatische Nationalkorpus – Hrvatski nacionalni korpus,
- Kroatische „Online-Schatzkammer“ – Hrvatska mrežna riznica) und
- ein serbisches Korpus (Korpus der modernen serbischen Sprache an der Mathematischen Fakultät der Universität Belgrad – Korpus savremenog srpskog jezika na Matematičkom fakultetu Univerziteta u Beogradu)
zurückgegriffen werden. Daneben gibt es auch ein kleineres Korpus bosnischer Texte an der Universität Oslo, das jedoch gegenwärtig leider nicht zugänglich ist. Die zweite Art von Korpora bilden parallele (bi- oder polylinguale) Korpora, die für Untersuchungen von zumindest zwei Sprachen herangezogen werden können. Beispiele dafür lassen sich in der Slawia leider kaum antreffen, wodurch die Möglichkeit komparativer, kontrastiver oder korrelationaler Analysen slawischer Sprachen kaum gegeben ist. Ein diesbezüglicher Bedarf ist ohne Zweifel vor allem bei Analysen zu sehr nahe verwandten Sprachen (wie eben des BKS) anzutreffen, um innerhalb eines Kontextes und im direkten Kontakt textueller Einheiten die Übereinstimmungen, Ähnlichkeiten und Unterschiede wie auch Nuancen in Bedeutung und Gebrauch erfassen zu können. Angesichts des Fehlens eines solchen Korpus wurde deshalb der Versuch unternommen, im Rahmen des vorliegenden FWF-Projektes ein trilinguales Korpus für das B, K, S zu entwickeln, das mit seinen beiden Subkorpora – Text-Korpus und Speech-Korpus – sowohl textuelle als auch auditive Analysen ermöglicht. Auf Grundlage dieses BKS-Korpus wurden in weiterer Folge die Konzeption und Infrastruktur für die Erstellung von Parallelkorpora für andere slawische Sprachen geschaffen, die den gemeinsamen Namen Gralis-Korpus tragen. Eine wesentliche Komponente dieses Korpus liegt auch darin, dass slawische Sprachen direkt mit dem Deutschen verglichen werden können.
Das Gralis-Korpus stellt einen online abrufbaren, informationellen und analytischen Komplex für die Sammlung, Bearbeitung und Auswertung textueller, gesprochener und visueller Informationen zur systematischen Untersuchung slawischer Sprachen dar.
Die Gesamtstruktur des Gralis-Korpus
2. Das Gralis-Korpus stellt eine online zugängliche, mehrsprachige, mehrdimensionale und multifunktionale Sammlung von Texten, Audio-, Video, TV- und anderen Aufnahmen dar, die für linguistische Untersuchungen zu slawischen Sprachen zusammengetragen und aufbereitet wurden. Es besteht aus drei großen Teilen, die mit den Bezeichnungen Gralis-Korporarium, Gralis-Komplementarium und Gralis-Tools versehen wurden.
Die Teilen des Gralis-Korpus
Mit der Entwicklung des Korpus wurde im Jahr 2006 begonnen, wobei sich das (seit diesem Zeitpunkt im Großen und Ganzen unveränderte) Korpusteam aus folgenden Personen zusammensetzt: dem Korpusleiter (Branko Tošović), dem Korpuskoordinator (Arno Wonisch), einer Person für die Erstellung relationaler Datenbanken im MySQL-Format (Olga Lehner, ab 2007), einer Person für die technische Leitung und Umsetzung, für die Textverarbeitung in den Formaten XML und TEI sowie für die serverfertige Adaptierung von Texten (Hubert Stigler, ab 2006), einem Administrator für die Schnittstellenprogrammierung (Dieter Schicker, ab 2006), einer Webdesignerin (Martina Semlak, ab 2007), einem Programmierer der Rezensariums (Stefan Kofler, ab 2007), einem Programmierer des Anketariums (Robert Thomann, ab 2007), einem für technische Unterstützung und die Gralis-Audio- und Video-Skripts verantwortlichen Mitarbeiter (Boris Tošović, 2006–2007) sowie mehreren MitarbeiterInnen für die Sammlung und Bearbeitung von Text-, Audio- und Videomaterial (Sandra Forić, ab 2006; Maja Midžić, ab 2006; Elvira Skledar, 2006; Alexander Just, 2006–2007 und Daniel Dugina, ab 2007). Bei der Erstellung des Korpus standen mit Vorschlägen, Hinweisen und Ratschlägen sowie in mehreren Beratungen Fachleute für die Korpuslinguistik aus Belgrad (Duško Vitas, Miloš Utvić, Cvetana Krsteva, Ranka Stanković und Ivan Obradović, 2006–2007), Chandler/Arizona (Danko Šipka, 2006–2007), Ljubljana (Tomaž Erjavec, 2006–2007), Moskau (Dmitrij Dobrovoljski, 2006), Zadar (Damir Ćavar, 2006), Zagreb (Marko Tadić, 2006) und Graz (Kurt Tiefenbacher, 2006) hilfreich zur Seite. An der Entwicklung des Gralis Speech-Korpus waren ExpertInnen aus Novi Sad (Milan Sečujski, 2007), Genf (Tea Pršir, ab 2007), Ljubljana (Jana Zemljarič-Miklavčič, 2006) und Moskau (Svetlana Savčuk, 2007) wesentlich beteiligt. Bei der Ausarbeitung des Akzentariums konnte auf die wertvollen Hinweise von Fachleuten aus Zagreb (Elenmari Pletikos, 2007 und des mittlerweile verstorbenen Ivan Ivas, 2006) zurückgegriffen werden. Bei der Bereitstellung von akzentuiertem Sprachmaterial waren bei der Erstellung des Akzentariums in hohem Maße Josip Matešić aus Mannheim (2007) und Milorad Dešić aus Belgrad (2007) behilflich. Die Überprüfung der von ProjektmitarbeiterInnen eingetragenen Akzente erfolgte durch Dragomir Kozorama aus Banjaluka (2007), Milan Tasić und Milorad Dešić aus Belgrad (2007). Von großer Bedeutung war die Übernahme umfangreichen Audiomaterials von Gesprächen mit den bekanntesten SlawistInnen des ehemaligen Jugoslawiens, die vom Publizisten Miloš Jevtić im Zweiten Programm des Belgrader Radios geführt und von diesem für das Frei-Korpus zur Verfügung gestellt wurden (2007).
Bei der Entwicklung des Wort- und Fix-Korpus war in erheblichem Maße Rudolf Muhr aus dem Institut für Germanistik der Karl-Franzens-Univversität Graz beteiligt (ab 2007), der für die Erstellung dieser Korpora das von ihm entwickelte Programm Adaba zur Verfügung stellte. Bei der Planung und den ersten Arbeitsschritten für die Schaffung eines Spracherkennungsprogramms mit der Bezeichnung „BKS-Voice“ waren die Hinweise von Herrn Siegfried Kunzmann aus München (2006), Igor' Chejdorov aus Minsk (2006–2007), Sanda Martinčić-Ipšić aus Rijeka (2006–2007), Vera Aleksić von der Firma Linguatec in München (ab 2006) wie auch von den Fachleuten von der Technischen Universität Graz, Gernot Kubin (ab 2006), Stefan Petrik (ab 2007) und Denis Helić (2006), von großer Hilfe.
Während einer Forschungsreise nach Zagreb (Kroatien), Belgrad (Serbien), Sarajevo und Mostar (Bosnien und Herzegowina) im von 13. bis 19. April 2006 wurde im Rahmen von Beratungen die Konzeption des Gralis-Korpus vorgestellt und gemeinsam mit den GesprächspartnerInnen analysiert. Ein weiterer dieser Forschungsaufenthalte des Korpusleiters führte im Februar 2007 nach, wo im Folgenden angeführte Konsultationen mit russischen Fachleuten auf dem Gebiet der Korpuslinguistik geführt wurden, die sich als überaus nützlich herausstellen sollten. Es waren dies in erster Linie Gespräche mit dem Leiter des Russischen Nationalkorpus, Vladimir Plugnjan (Institut für die russische Sprache „V.V. Vinogradov“ der Russischen Akademie der Wissenschaften), mit Angehörigen des EDV-Zweiges des genannten Institutes (Anatolij Šajkevič, Svetlana Savčuk u. a.), mit den Mitarbeitern des Institutes für theoretische und angewandte Sprachwissenschaft der Moskauer staatlichen Universität: Aleksandr Kibrik (Institutsleiter), Ol'ga Krivnova (Leiterin einer Gruppe zur Durchführung einer automatischen Synthese und Erkennung der russischen Sprache) und Sandro Kodzasov (Mitglied der genannten Gruppe).
Für die theoretische Konzeption und Vorbereitung des Gralis-Korpus erwies sich ein vom Korpusleiter im Sommersemester 2006 veranstaltetes Seminar von wesentlicher Bedeutung. Bei dieser Lehrveranstaltung waren folgende Fachleute auf dem Gebiet der Korpuslinguistik mit Vorträgen zu Gast: Damir Ćavar (erklärte die Konzeption und Struktur der Hrvatska mrežna riznica), Dimitrij Dobrovoljski (stellte das Russische Nationalkorpus vor), Tomaž Erjavec (demonstrierte das Korpus der slowenischen Sprache FIDAPlus und erläuterte das von ihm entwickelte Programm Multext-East), Bernhard Kettemann vom Institut für Anglistik der Karl-Franzens-Universität Graz (hielt ein Referat mit dem Thema „ Korpus von Intelligent Design Texten“), Stefan Schneider vom Institut für Romanistik der Karl-Franzens-Universität Graz (zeigte das Online-Korpus BADIP – Banca dati dell'italiano parlato), Danko Šipka (hielt ein Referat zum Thema „Textkorpora in angewandter Slawistik“), Marko Tadić (sprach über das Kroatische Nationalkorpus) und Duško Vitas (präsentierte das Korpus der modernen serbischen Sprache an der Mathematischen Fakultät der Universität Belgrad).
Im Rahmen des Seminars kam es zur Präsentation der wichtigsten slawischen Korpora, elektronischen Bibliotheken und Wörterbücher, wobei von den genannten Studierenden folgende Themen vorgetragen wurden: Angloamerikanische Korpora (Gudrun Krenn), Bosnische und serbische digitale Bibliotheken (Goran Pajičić), das Bulgarische Nationalkorpus (Iva Hristova und Petya Dimitrova), das Tschechische und das Slowakische Nationalkorpus (Rita Plos und Corinna Schnedhuber), Deutsche einsprachige Textkorpora ( Karin Markut), Einführung in die Korpuslinguistik (Branko Tošović), das Gralis-Korpus (Arno Wonisch), Was ist ein Korpus? (Branko Tošović), Korpus bosnischer Texte an der Universität Oslo (Maja Midžić und Sandra Forić), Korpus der serbischen Sprache von Đorđe Kostić (Marija Redi), Korpus des Institutes für Informatik der Polnischen Akademie der Wissenschaften (IPI PAN – Arno Wonisch), Kroatische Parallelkorpora (Silvije Beus und Ernedina Muminović), Kroatische Rohkorpora und digitale Bibliotheken (Elvira Skledar), Parallelkorpora (Florian Thelen), Russische Korpuslinguistik im Internet (Andreas Konrad und Doris Weißenböck), Slawische Korpuslinguistik (Branko Tošović und Arno Wonisch), Slawisch-französische Textkorpora (Ruth Aigner und Linde Prenn), Slawische Korpuslinguistik (Andreas Krammer und Theresa Križaj), Ukrainische und weißrussische Korpuslinguistik (Andreas Schiestl) sowie WordNet und RussNet (Tanja Eder).
Die endgültige Ausgestaltung der Konzeption des Korpus erfolgte schließlich im Vorfeld des von 12. bis 14. April 2007 in Graz abgehaltenen 1. Projekt-Symposiums, das den phonetisch-phonologischen, orthoepischen und orthographischen Unterschieden zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen gewidmet war und dessen Programm auch eigene Themenblöcke namens Gralis-Korpus und BKS-Voice umfasste. Die in diesen Sektionen präsentierten Referate und Diskussionen von Vera Aleksić, Tomaž Erjavec, Igor' Chejdorov, Cvetana Krstev, Sanda Martinčić-Ipšić, Ivan Obradović, Ranka Stanković, Stefan Patrik, Svetlana Savčuk, Milana Sečujski, Hubert Stigler, Miloš Utvić und Duško Vitas brachten wesentliche Aspekte hinsichtlich der Sammlung und Bearbeitung von Korpustexten zum Vorschein. Auf diesem Symposium kam es schließlich auch zur offiziellen Eröffnung des Gralis-Korpus. Einen Monat später, am 31. Mai 2007, wurde das Korpus im Rahmen einer Informationsveranstaltung des Institutes für Informationsverarbeitung in den Geisteswissenschaften durch den Korpusleiter ein zweites Mal einer breiteren Öffentlichkeit vorgestellt.
Im Zuge der Vorarbeiten zur Entwicklung des Korpus wurden im Rahmen der Gralis-Aktivitäten 2006 auch einige weitere Veranstaltungen abgehalten, bei denen Cvetana Krstev (Referat zu elektronischen Wörterbüchern), Duško Vitas (automatische Textbearbeitung) und Jana Zemljarič-Miklavčič (Korpus der gesprochenen slowenischen Sprache) wertvolle Aspekte aufzuzeigen vermochten. Im Jahre 2007 wurden diese Aktivitäten mit Vorträgen von Milan Sečujski ( Automatische morphologische Annotation im Lichte der Besonderheiten des BKS) und Stefan Petrik ( Grundlagen der Spracherkennung) fortgesetzt.
Im September 2006 wurde von Miloš Utvić von der Mathematischen Fakultät der Universität Belgrad für alle am Projekt mitarbeitenden Personen ein sechstägiger Kurs mit dem Thema „Textverarbeitung, Etikettierung, Parallelisierung und Vertikalisierung bei der Erstellung von Korpora“ abgehalten.
Für die Entwicklung des Gralis Speech-Korpus erwiesen sich im Folgenden genannte, im Jahre 2007 abgehaltene Veranstaltungen als überaus hilfreich und nützlich: (1) die Vorträge von Rudolf Muhr zu Themen betreffend Korpora der gesprochenen Sprache – a) Zur Theorie der plurizentrischen Varietäten des Deutschen , b) Zur Phonetik der Varietäten des Deutschen, (2) die Ausführungen von Milan Tasić hinsichtlich der Ausarbeitung des Gralis-Suprasegmentariums (Intonation in der modernen serbischen Sprache), (3) das Referat von Milorad Dešić in Bezug auf das Gralis-Akzentarium (Der Akzent in der serbischen Standardsprache), (4) der Vortrag von Tea Pršir im Lichte der akustischen Bearbeitung von Audiomaterial (Vergleichende Prosodie des BKS mithilfe des Prosogramms), (5) die Darlegungen von Dragomir Kozomara zur Ausarbeitung der Gralis-Präskriptariums (Lexikalisch-orthographische Zweifelsfälle in der serbischen Sprache) und (6) die Präsentation von Vera Aleksić angesichts der Entwicklung von BKS-Voice (Sprachtechnologien und moderne Methoden der Spracherkennung). Ebenfalls im gleichen Jahr wurde den Studierenden des Institutes für Slawistik von den KorpusmitarbeiterInnen Sandra Forić, Olga Lehner, Maja Midžić und Arno Wonisch am 23. Mai 2007 erstmals das Gralis Speech-Korpus in seinem gesamten Umfang präsentiert. Informationen zu allen angeführten (Gast)vorträgen und Referaten stehen allen Interessierten in der Rubrik Gralisarium des Gralis-Portals zur Verfügung.
Als Tribüne für unterschiedliche Fragen in Bezug auf die Entwicklung des Gralis-Korpus erwies sich der einmal monatlich durchgeführte Forschungsabend, der vor allem dazu dient, Studierenden Aspekte wissenschaftlicher Betätigung aufzuzeigen und ihnen Modelle und Nutzungsmöglichkeiten von Korpora nahe zu bringen. Angesichts dessen, dass ein Teil des Korpusmaterials durch relationale Datenbanken verwaltet wird, wurden von Dieter Schicker (Institut für Informationsverarbeitung in den Geisteswissenschaften – INIG) im Rahmen von vier Forschungsabenden (27. April, 3. Mai, 7. und 14. Juni 2006) kurze Kurse mit dem Titel „Einführung in SQL anhand der freien Datenbanksoftware MySQL“ abgehalten. Ein weiteres Resultat der Forschungsabende liegt darin, dass in mehreren Diskussionen die Erkenntnis gewonnen wurde, dass im Rahmen des Sammelns von Quellen für wissenschaftliche Arbeiten eine Online-Befragung von großem Nutzen sein kann. Dies kam besonders deutlich beim am 14. Dezember 2006 abgehaltenen 11. Forschungsabend zum Ausdruck, bei dem Michaela Handke ein Referat mit dem Titel „Der Nutzen von Umfragen und Fragenbogen für studentische wissenschaftliche Arbeiten“ vortrug. Ab diesem Zeitpunkt wurde mit der Ausarbeitung des Gralis-Anketariums begonnen, das von Robert Thomann im Herbst 2007 erfolgreich fertig gestellt werden konnte und Studierenden erstmals beim 17. Forschungsabend am 21. November 2007 präsentiert wurde (Branko Tošović – Arno Wonisch: Erstellen von Online-Umfragen für Seminar- und Diplomarbeiten mithilfe des „Gralis-Anketariums“).
Im Rahmen des Forschungsabends wurden weiters auch Fragen der Spracherkennung (Stefan Petrik: Grundlagen der Spracherkennung, 14. Juni 2007), der akustischen Analyse (Tea Pršir: Vergleichende Prosodie des BKS mithilfe des Prosogramms, 7. Oktober 2007; Arno Wonisch – Sandra Forić: Nutzung akustischer Analysen slawischer Sprachen für studentische Arbeiten, 29. März 2007) und von Parallelkorpora (Arno Wonisch: Paralleltextkorpora, 30. November 2006) erörtert.
Im Laufe der Jahre 2006 und 2007 nahmen die am Korpus mitarbeitendenden Personen an mehreren Konferenzen und Tagungen teil und stellten dabei Aspekte des Gralis-Korpus vor. Es handelte sich dabei um Referate, in denen einerseits entweder das Korpus als
- Hauptthema fungierte, wie etwa
- bei der 21. Tagung der Kroatischen Gesellschaft für angewandte Linguistik mit dem Thema „Sprachpolitik und Sprachrealität“ (Branko Tošović – Arno Wonisch: Gralis-Korpus, Split /Kroatien/, Mai 2007),
- auf der 12. Internationalen Slawistiktagung (Branko Tošović: Korporaaspekte der kroatisch-serbischen sprachlichen Berührungspunkte, Opatija /Kroatien/, Juni 2007),
- bei der selben Tagung (Hubert Stigler – Arno Wonisch: Das Gralis-Korpus als Plattform zum Studium kroatisch-serbischer sprachlicher Berührungspunkte, Opatija, Juni 2007) und
- auf der 6. Internationalen Tagung „Untrersuchungen zur gesprochenen Sprache“ (Daniel Dugina – Sandra Forić – Maja Midžić: Gralis Speech-Korpus, Zagreb, Dezember 2007) oder
- ein projekt- und korpusnahes Thema präsentiert wurde, wie etwa
- auf der 34. Österreichische Linguistiktagung (Arno Wonisch: Das Forschungsprojekt „Die Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen“, Klagenfurt, Dezember 2006),
- auf dem I. Kongress der Wissenschafler Bosnien und Herzegowinas aus der Diaspora (Branko Tošović: Forschungsprojekt „Die Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen“, Sarajevo, September 2006),
- bei der 36. Internationalen Slawistischen Tagung „Vukovi dani“ (Branko Tošović: Die grammatikalischen Unterschiede zwischen dem Serbischen, Kroatischen und Bosniakischen /Präliminarium/, Belgrad, September 2006),
- auf der 8. Internationalen wissenschaftlichen Konferenz „Zeit und Sprache“ (Branko Tošović: Die funktional-stilistischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen, Opole /Polen/, September 2006) und
- im Rahmen eines Gastvortrages am Institut für slawische Philologie der Universität Śląsk (Branko Tošović: Die Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen, Katowice /Polen/, Dezember 2006). Im Zuge dieses Aufenthaltes in Katowice wurde mit der polnischen Seite vereinbart, ein spezielles Korpus für die Aktionsarten in den slawischen Sprachen zu entwickeln, das in seinem Anfangsstadium die Sprachen BKS, polnisch und russisch umfassen soll.
Für die Erstellung des BKS-Korpus wurde aus einem Teil der vom FWF für das Projekt „Die Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen“) genehmigten finanziellen Mittel die erforderliche technische Ausstattung angeschafft (vier PCs, ein Laserdrucker, zwei Scanner, eine Leinwand, vier Diktiergeräte, ein LCD-Fernseher u. a.), und von der Firma Linguatec aus München erging als Geschenk ein Laptop. Seitens des Institutes für Slawistik wurde der Raum 1.228 zur Verfügung gestellt, in dem die angeführte technische Ausrüstung untergebracht wurde und der zur Weiterentwicklung des Gralis-Korpus und zur Durchführung des genannten Projektes dient.
Das Gralis-Korporarium stellt ein System mehrerer Subkorpora dar, die schriftliche und mündliche (Video- und Audio-)Aufnahmen umfassen, wobei eine Unterteilung in das Text- und das Speech-Korpus erfolgt.
Das Gralis-Korporarium
Die Nennung aller Korpora, Bibliotheken und Wörterbücher erfolgt entsprechend den Titeln der Referate in deutscher Sprache.
Ein weiteres Korpus – das Korpus der serbischen Sprache von Đorđe Kostić (Корпус српског језика Ђорђа Костића) – ist nicht online zugänglich.