Uni Graz > Geisteswissenschaftliche Fakultät > Institut für Slawistik
 

Das Gralis Speech-Korpus

Maja Midžić. Die Aufnahmeevidenz des Gralis Speech-Korpus.

Beschreibung:   Teil 1   Teil 2   Teil 3   Teil 4   Teil 5

Die Aufnahmeevidenz stellt einen integralen Bestandteil des Gralis Speech-Korpus (bestehend aus dem Fix-, Wort- und Frei-Korpus) dar und dient zur Verwaltung der Informationen zu den aufgenommenen Personen und den einzelnen Audiofiles. Der Evidenzeintrag bil det den ersten Arbeitsschritt unmittelbar nach der Aufnahme, wobei das erfasste Audiomaterial entweder aus Sätzen oder Wörtern besteht, für die die Evidenz des Wort- oder des Fix-Korpus auszufüllen sind. Handelt es sich um eine Aufnahme freier, spontaner Rede wie etwa um ein Interview, einen Monolog, Dialog, ein Gespräch u. Ä., werden die Metadaten zur/zum Sprechenden und das Audiofile mit der Evidenz des Frei-Korpus erfasst. Die Evidenz ist auf Deutsch und Bosnisch/Bosniakisch, Kroatisch und Serbisch (im Folgenden: BKS) abrufbar und besteht aus vier Teilen. Im ersten befinden sich Angaben zur befragten Person, d. h. derjenigen Person, die aufgenommen wurde, der zweite Teil beinhaltet Informationen zur Aufnahme selbst, der dritte Teil betrifft die Analyse, und im vierten Teil ist schließlich eine schriftliche Einverständniserklärung durch die befragte Person abzugeben. In den Teilen zwei und vier erfolgt eine Unterscheidung zwischen Fix-, Wort- und Freikorpus, während die beiden anderen für alle drei Subkorpora identisch sind. Um mit dem Ausfüllen der Evidenz beginnen zu können, ist es in einem ersten Arbeitsschritt erforderlich, für jede Person bzw. jede Aufnahme eine individuelle und unikale Chiffre festzulegen. Diese erhält man dadurch, indem zuerst der Ort, an dem die Aufnahme stattfindet, eingetragen wird, wobei die Schreibweise des Ortes derjenigen in der Originalsprache entspricht und ausschließlich in Kleinbuchstaben erfolgt. Besteht ein Ortsname aus zwei oder mehreren Wörtern, werden diese durch Unterstriche getrennt. Auf den Ortsnamen folgt eine dreistellige Zahl, die für jede Sprache mit dem Eintrag „001“ beginnt.

Eintragen einer neuen Evidenz
Eintragen einer neuen Evidenz

Das Ende der Chiffre bildet die Abkürzung für die Muttersprache der aufgenommenen Person, wobei sich ein Verzeichnis der Kürzel wie auch aller anderen Parameter zur Festlegung der Chiffre auf der Startseite der Aufnahmeevidenz befindet.

Eintragen einer neuen Evidenz
Kürzel für die einzelnen Sprachen

Wird die Aufnahme in Graz durchgeführt und handelt es sich bei der aufgenommenen Person um die siebente mit der Muttersprache bosnisch, so lautet die Chiffre in diesem Fall graz_007b. Inklusive Hinzufügung des Alters sind auf diese Weise vor dem Verlesen des Textes (Sätze oder Wörter) folgende Metainformationen bekannt zu geben: „Ja sam graz_007b. Imam … godina/godine. Rođen(a) sam u … Moj jezik je bosanski. [Ich bin graz_007b. Ich bin … Jahre alt. Ich wurde in … geboren. Meine Sprache ist bosnisch.] Die Zahl hängt davon ab, um die wievielte aufgenommene Person es sich mit dieser oder jener Muttersprache in der jeweiligen Stadt handelt. Wurde die Chiffre schließlich definiert, folgt als nächster Schritt das Ausfüllen der Evidenz, wobei dies sowohl von der aufnehmenden als auch von der aufgenommenen Person durchgeführt werden kann. Das erste Feld betrifft das Geschlecht (f/m), die Nationalität (bosnisch/bosniakisch, kroatisch, serbisch usw.), Religion (orthodox, katholisch, muslimisch u. a.) und das Geburtsjahr. Es folgen in der zweiten Rubrik der Geburtsort, die Region bzw. die politische Verwaltungseinheit, in der sich dieser befindet und abschließend der Staat, z. B.: Graz, Steiermark, Österreich. Der dritte Abschnitt der Evidenz beinhaltet Angaben zum Wohnort, gefolgt von der vierten Rubrik mit Angaben zum Beruf (Studentin/Student, Schülerin/Schüler, Angestellte(r) usw.), zu Arbeits- bzw. Ausbildungsstätte (Firma oder Universität, Fakultät, Institut, Schule; z. B.: Karl-Franzens-Universität Graz, Geisteswissenschaftliche Fakultät, Institut für Slawistik) zum Ort, an dem der Arbeit bzw. der Ausbildung nachgegangen wird und zum wissenschaftlichen Grad. Der nächste Eintrag definiert die Bildung (höhere, mittlere, Pflichtschulbildung, keine) und Ort sowie Zeit des Schul- bzw. Universitätsbesuches (z. B.: Zagreb, 1986–1994). Von wesentlicher Bedeutung sind die darauf folgenden Angaben zur Muttersprache der aufgenommenen Person, zum Dialekt (štokavisch, kajkavisch, čakavisch), zur regionalen Variante und zur Aussprache (ijekavisch, ekavisch und ikavisch) sowie zur Muttersprache der beiden Elternteile. Der vorletzte personenbezogene und überaus wichtige Eintrag betrifft die einzelnen Lebensmittelpunkte, gefolgt von den Fremdsprachenkenntnissen, die ebenso wie ein Wechsel des Wohnortes in hohem Maße auf die Ausformung der Sprache Einfluss nehmen können.

Im zweiten Teil der Evidenz wird das Thema der Aufnahme eingetragen, d. h. der Titel des Textes, der von einer aufgenommenen Person verlesen wird, woraufhin Ort und Datum der Aufnahme folgen. In der zweiten Reihe wird auf die Situation, in der eine Aufnahme entstand, hingewiesen (in einer Wohnung, auf der Straße, in einem öffentlichen Objekt u. a.). Die dritte Rubrik beinhaltet Angaben zum Aufnahmegerät, wobei zwischen einem speziellen Recorder zur Beibehaltung der hohen Frequenzen und Diktiergeräten der Marke Sony und Olympus unterschieden wird. Die letzte Zeile der Evidenz bilden Informationen zur genauen Dauer der Aufnahme und zu deren Audioformat (wma, wav, mp3, ogg, aac, m4a, cda u. a.).

Der dritte Teil der Evidenz umfasst Angaben zur Art der Analyse, wobei in einem ersten Teil definiert wird, ob es sich um eine Audio- oder Spektralanalyse handelt und in einem zweiten Teil Platz für eventuelle Anmerkungen zu aufgenommener Person oder Aufnahme vorgesehen sind.

Den vierten und letzten Teil der Evidenz bildet schließlich die schriftliche Einverständniserklärung, dass die Aufnahme für wissenschaftliche Zwecke herangezogen werden darf und lautet wie folgt: „Slažem se da se ovaj snimak / ova snimka pod šifrom i s(a) navedenim podacima uključi u Gralis-Korpus (http:www-gewi.uni-graz.at/gralis/).“ [Ich bin einverstanden, dass diese Aufnahme unter einer Chiffrenummer und mit den getätigten Angaben in das Gralis-Korpus aufgenommen wird.] Es folgt die Eingabe von Aufnahmeort und -datum.

Die Evidenz für das Frei-Korpus unterscheidet sich von denen für das Fix- und Wort-Korpus dadurch, dass nach dem Thema, Ort und Datum auch die Art der Aufnahme einzugeben ist. Es kann sich dabei um einen Monolog, Dialog, ein Interview, eine Lesung, ein Gespräch, eine Diskussion oder um einen runden Tisch handeln. Danach folgt der Verweis zum funktionalen Stil (literarisch-künstlerisch, administrativ, publizistisch oder umgangssprachlich) und abschließend zum Medium (TV, Radio, Film, Skype u. a.). Im dritten Teil der Evidenz ist bei allen Subkorpora einzutragen, um welchen der drei es sich handelt (Wort-, Fix- oder Frei-Korpus).

Beim Ausfüllen der Evidenz bietet sich die Möglichkeit des Hinzufügens neuer Tabelleneinträge, wozu der Befehl „Novo m(j)esto ili novi jezik un(ij)eti“ [Neuen Ort oder neue Sprache einfügen] anzuwählen ist, mit dem folgende Felder ergänzt werden können: Analyse, Apparat, Beruf, Format, Dialekt, Religion, Nationalität, Ort (für Geburts- und Wohnort), regionale Variante, Situation (der Aufnahme), Sprache, Staat, Thema und (akademischer) Titel. Aktiviert man nun diesen Befehl zur Ergänzung der Einträge, öffnet sich eine graphisch unterschiedlich gestaltete Tabelle, in der sich auf der linken Seite die bereits bestehenden Einträge und rechts leere Felder befinden, in die der gewünschte Begriff hinzugefügt werden kann. Die Evidenz kann auch bearbeitet werden, sodass sämtliche Einträge zu jedem Zeitpunkt abgeändert werden können.

Angesichts dessen, dass die Angaben und Einträge für alle drei Subkorpora nahezu identisch sind und ein- und dieselbe Person mehrere Texte verlesen kann, ist es möglich, eine bereits bestehende Evidenz zu duplizieren, wodurch kein erneutes Eingeben gleicher Tabelleninhalte erforderlich ist. In weiterer Folge können zu ändernde Angaben in die bereits ausgefüllte Evidenz eingegeben werden. Gleiches gilt auch für zwei Personen, deren Angaben sich in hohem Maße gleichen.

Abschließend sei ein Beispiel einer vollständig ausgefüllten Evidenz dargestellt:

Beispiel einer abgeschlossenen Aufnahmeevidenz
Beispiel einer abgeschlossenen Aufnahmeevidenz

Das Gralis Speech-Korpus: