Uni Graz > Geisteswissenschaftliche Fakultät > Institut für Slawistik
Letzte Bearbeitung: 02.04.2025 20:48
 

Dmitrij O. Dobrovol'skij, Moskau




Dmitrij O. Dobrovol'skij, Moskau

Prof. Dr. Dmitrij O. Dobrovol'skij
1. Staatliche Lomonosov-Universität Moskau
Fakultät für Fremdsprachen
Lehrstuhl für Deutsch
2. Institut für russische Sprache
der Russischen Akademie der Wissenschaften
Moskau
dm-dbrv@yandex.ru
Dmitrij.Dobrovolskij@assoc.oeaw.ac.at

28. März (Dienstag) 2006
14,30-15,30
UR 1.224
Merangasse 70

 Dmitrij O. Dobrovol'skij

Russische Corpuslinguistik (parallele Textcorpora mit Russisch)

1. Zu russischen Corpora

Das größte Corpus russischer Texte ist Национальный корпус русского языка (Russian National Corpus – RNC; Leiter: Vladimir Plungjan), das seit 2004 teilweise online zugänglich ist (http://www.ruscorpora.ru) . Das RNC ist ein work in progress, es besteht aus mehreren Modulen. Das Kernmodul gliedert sich in das „Subcorpus früherer Texte“ (Anfang des XIX. bis Mitte des XX. Jahrhunderts) und das „Subcorpus moderner Texte“ (Mitte des XX. bis Anfang des XXI. Jahrhunderts). Das letztgenannte Subcorpus beinhaltet Texte verschiedener Genres, sein geplanter Umfang beträgt 100 Millionen Textwörter, etwa 40 % davon machen belletristische Texte aus. Im Rahmen des RNC werden auch spezielle Subcorpora erstellet, darunter das Corpus paralleler Texte (russisch-englisch und englisch-russisch), das syntaktisch annotierte Corpus sowie das Corpus altrussischer Texte. Im Laufe der nächsten Jahre sollen weitere Subcorpora dazu kommen, darunter das Corpus poetischer Texte, das Corpus gesprochener Sprache, sowie die bereits vorhandenen Subcorpora weiter ausgebaut und entwickelt werden. Ausführlichere Informationen dazu finden sich in (НКРЯ 2005). Das Corpus paralleler Texte soll wesentlich erweitert werden, außer Englisch kommen noch andere Sprachen (vor allem Deutsch und Französisch) hinzu.

Ferner sind noch drei Corpora russischer Texte online zugänglich (vgl. Резникова, Копотев 2005):

  1. Die „ Tübinger Russisch en Korpora“ ( http://www.sfb441.uni-tuebingen.de/b1/korpora.html ) wurden im Rahmen des Projekts „Linguistische Datenstrukturen: Theoretische und empirische Grundlagen der Grammatikforschung“ an der Universität Tübingen unter der Leitung von Tilman Berger entwickelt. Das Corpus umfasst Texte verschiedener Genres (etwa 14 Millionen Textwörter), darunter literarische Texte des XIX. (Tolstoj, Turgenev, Dostoevskij, Leskov) und des XX. Jahrhunderts (Bulgakov, Il'f und Petrov, Rybakov, Strugackie, Marinina u.a.), moderne Kriminalromane, Interviews und moderne publizistische Texte (vor allem die Zeitschrift „Ogonek“). Das bekannte Uppsalacoprus bildet ein Modul der „ Tübinger Russisch e Korpora“.
  2. Das annotierte Helsinkicorpus HANCO ( http://www.ling.helsinki.fi/projects/hanco) wurde als Teil des Projekts „Funktionale Syntax des Russischen“ unter der Leitung von Arto Mustajoki entwickelt. Das Corpus umfasst 100 000 Textwörter und zeichnet sich durch präzise grammatische Informationen aus.
  3. Das Corpus russischer Zeitungstexte Ende des XX. Jahrhunderts ( http://www.philol.msu.ru/~lex/corpus ) wurde in den Jahren 2000-2002 an der philologischen Fakultät der Staatlichen Lomonosov-Universität Moskau unter der Leitung von Anatolij Polikarpov (Laboratorium für allgemeine und computergestützte Lexikologie und Lexikographie) erstellt. Zurzeit ist ein kleiner Ausschnitt aus dem Corpus im Internet zugänglich. Größere Corpusteile sollen den Benutzern in der nächsten Zukunft online zur Verfügung gestellt werden.

Außer diesen allgemein zugänglichen Corpora gibt es eine Reihe spezieller Corpora, die im Rahmen bestimmter Projekte für konkrete Zwecke erstellt wurden. Hier ist das Corpus des Instituts für russische Sprache der Russischen Akademie der Wissenschaften (Abteilung Experimentelle Lexikographie, Leiter: Anatolij Baranov) zu nennen. Das Corpus umfasst über 80 Millionen Textwörter, besteht aus drei Subcorpora („Moderne russische Prosa (60er-90er Jahre)“, „Russischer Kriminalroman“, „Moderne russische Publizistik“) und dient vor allem den Forschungsprojekten der Abteilung im Bereich der russischen Phraseologie.

Zu nennen sind ferner parallele Corpora mit Russisch, vor allem das parallele Textcorpus zu F.M. Dostoevskijs Roman "Der Idiot", das im Rahmen des Projekts Austrian Academy Corpus (AAC) an der Österreichischen Akademie der Wissenschaften erstellt wurde (Projektleiterin: Evelyn Breiteneder). Vgl. dazu ausführlicher in (Biber, Breiteneder, Dobrovol'skij 2002; Добровольский 2003).

In der weiteren Darstellung konzentriere ich mich nicht auf die Beschreibung und Analyse der bestehenden Corpora mit Russisch (dazu gibt es Publikationen und Ressourcen im Internet), sondern auf meine Erfahrungen bei der Arbeit an und mit parallelen Corpora. Zum einen handelt es sich dabei um allgemeine Überlegungen zu Nutzungsmöglichkeiten der Corpora paralleler Texte, insbesondere zu ihrer Anwendung bei der Untersuchung der lexikalischen Semantik (z.T. basiert auf Dobrovol'skij 200 5), zum anderen um eine exemplarische Darstellung bestimmter Ergebnisse.

2. Parallele Textcorpora als linguistische Ressource neuer Art

Parallele Textcorpora stellen ein technologisches Produkt dar, das die Möglichkeiten der Linguistik vor allem im Bereich des Sprachvergleichs erweitert. Im Idealfall sollten bei der Entwicklung paralleler Corpora ihre potentiellen Anwendungsarten berücksichtigt werden. In jedem Fall müssen die Linguisten (zumindest diejenigen, die in ihrer Arbeit Textcorpora aktiv benutzen) imstande sein, an die zur Verfügung stehenden parallelen Corpora sinnvolle Fragen zu stellen.

Einige Fragen dieser Art werden in dem Vortrag besprochen, und zwar handelt es sich hier um die Untersuchung der lexikalischen Semantik mittels der Kookkurrenzanalyse. Als empirische Basis dient hier vor allem das oben erwähnte parallele Textcorpus zu F.M. Dostoevskijs Roman "Der Idiot" (AAC – Österreichische Akademie der Wissenschaften).

Zunächst gehe ich auf die Frage kurz ein, in welchen Bereichen der linguistischen Forschung die Hinwendung zu parallelen Corpora zweckmäßig ist und welche Fragen mit Hilfe paralleler Corpora grundsätzlich beantwortet werden können (Abschnitt 3). Dann konzentriere ich mich auf den Bereich der lexikalischen Semantik, in dem sich die Analyse abspielt, deren Ergebnisse im Vortrag vorgestellt werden (Abschnitt 4). Im Abschnitt 5 werden Fallstudien vorgestellt, in denen die in früheren Abschnitten vorgestellten Prinzipien der corpusbasierten Untersuchung der lexikalischen Semantik am empirischen Material verifiziert und präzisiert werden.

3. Sinnvolle linguistische Fragen an das parallele Corpus

Es findet sich eine Reihe linguistischer, literaturwissenschaftlicher, kulturhistorischer und übersetzungskritischer Probleme, die mit Hilfe paralleler Textcorpora gelöst werden können. Uns interessieren hier nur linguistische Fragestellungen. Dabei spielen solche Parameter des betreffenden Corpus wie sein Umfang, die Entstehungszeit der im Corpus enthaltenen Texte (zeitliche Distanz zum heutigen Usus), die Anzahl der Übersetzungen des Originaltextes (d.h. ob dem Originaltext eine oder mehrere Übersetzungen gegenübergestellt werden) eine wichtige Rolle. Zu den linguistischen Disziplinen, in denen parallele Corpora effektiv eingesetzt werden, zählen zumindest die folgenden Bereiche:

  • Kontrastive Linguistik
  • Diachrone Studien zur Lexik und Grammatik
  • Übersetzungswissenschaft (genauer gesagt: ihre linguistisch relevanten Domänen, die oft als Translationslinguistik bezeichnet werden)
  • Lexikalische Semantik

Folgende Cluster linguistisch relevanter Fragen erscheinen dabei als zentral, in dem Sinne, dass sie bei der Hinwendung zu parallelen Textcorpora besonders effizient beantwortet werden können.

  1. Wie verhalten sich bestimmte Strukturen der Sprache L1 und ihre L2-Entsprechungen in authentischen Kontexten? Entspricht unser „systemimmanentes“ Wissen über diese Strukturen der diskursiven Realität? Wenn nicht, warum? Welche Typen von Kontexten sind für die Wahl eines adäquaten L2-Äquivalents relevant?
  2. Wenn das betreffende Corpus Texte mit zeitlicher Distanz enthält (dies ist bei dem parallelen Corpus zu Dostoevskijs Roman "Der Idiot" der Fall ), kann auch folgenden Fragen nachgegangen werden: Wie verhält sich der L1-Text zum heutigen Usus? Was hat sich hier verändert? Was sind die Ursachen? Gibt es reguläre Mechanismen, die diesen Sprachwechsel steuern? Wenn ja, können weitere Veränderungen sprachlicher Normen vorhergesagt werden? Dieser Fragenkomplex bezieht sich vor allem auf diachrone Prozesse in der Sprache L1 sowie generell auf das Wesen semantischer Veränderungen, was ihn auch für die allgemeine Sprachtheorie interessant macht. Der L2-Teil des Corpus spielt dabei die Rolle eines diagnostizierenden Instruments. Unterschiedliche L2-Aquivalente des gleichen L1-Wortes deuten darauf hin, dass die entsprechenden Kontexte relevante Unterschiede aufweisen, die u.a. auch auf Abweichungen von den gültigen usuellen Normen zurückzuführen sind.
  3. Wenn das betreffende Corpus mehrere Übersetzungen des Originaltextes enthält (dies ist bei dem parallelen Corpus zu Dostoevskijs Roman "Der Idiot" ebenso der Fall ), können bestimmte translationslinguistische Fragestellungen angesprochen werden, die auch für kontrastive Linguistik und lexikalische Semantik innovative Ergebnisse bringen können; vgl. Fragen wie: Was machen die Übersetzer mit dem L1-Text? Wenn sie nicht originalgetreu übersetzen, woran liegt das? An ihre r subjektiven Entscheidung? Oder an objektiven Restriktionen der L2-Strukturen? Wenn die gleiche Stelle des L1-Texts unterschiedlich übersetzt wird, liegt eine annähernde Synonymie vor oder handelt es sich um unterschiedliche Interpretationen? Wenn es sich bei verschiedenen Übersetzungen der gleichen L1-Textstelle um quasisynonymische L2-Ausdrücke handelt, fragt sich, worin die betreffenden semantischen, pragmatischen und kombinatorischen Unterschiede bestehen.

    Wenn z.B. der gleiche russische Intensivierer im gleichen Kontext vom ersten Übersetzer mit sehr , vom zweiten mit äußerst und vom dritten mit höchst übersetzt wird, ist zu fragen, welche Unterschiede die entsprechenden L2-Kontexte aufweisen. Eine auf solchen Daten basierende Analyse liefert einen Beitrag zu einer detaillierten Beschreibung der lexikalischen Semantik der betreffenden L2-Strukturen.

    Wenn es sich um unterschiedliche Interpretationen der gleichen L1-Textstelle handelt, die nicht mehr im Bereich der Quasisynonymie liegen, fragt sich, welcher Natur die betreffenden Abweichungen der Übersetzung vom Original sind. Inwieweit sind sie tolerierbar aus der Perspektive der Textrezeption?
  4. Für Texte mit zeitlicher Distanz stellen sich weitere Fragen: Was machen die Übersetzer mit den L1-Strukturen, die dem heutigen Usus nicht entsprechen? Welche Möglichkeiten gibt es in L2, um den „falschen“ (bzw. künstlerisch verfremdeten) Sprachgebrauch durch den Autor wiederzugeben? In allen genannten Bereichen sind Ergebnisse zu erwarten, die bei der Anwendung anderer Forschungsmethoden kaum erzielt werden könnten und folglich bis zu einem gewissen Grad an das corpuslinguistische Herangehen gebunden sind. Im Folgenden konzentriere ich mich auf lexikalisch-semantische Fragestellungen. Als erstes scheint es angebracht, den adäquaten Arbeitsablauf (d.h. die entsprechenden Arbeitsprozeduren in ihrer festgelegten Abfolge) bei der corpusbasierten semantischen Analyse lexikalischer Einheiten zu skizzieren.

4. Arbeitsprozeduren in der corpusbasierten lexikalischen Semantik

Eine corpusbasierte synchron orientierte Analyse semantischer Strukturen des Lexikons setzt im Idealfall folgende Schritte voraus.

  1. Es werden Gruppen lexikalischer Einheiten selektiert, die gemeinsame semantische Züge haben. Oft sind das Quasisynonyme.
  2. Dann werden Textcorpora auf diese Wörter bzw. Wortverbindungen hin durchsucht. Das größte Problem, das sich dabei stellt, hängt mit der lexikalischen Polysemie zusammen: Da ein Wort in der Regel mehrere Bedeutungen hat, entsteht bei der Suche ein beträchtliches Informationsrauschen. Aus der Notwendigkeit die betreffende lexikalische Einheit semantisch zu disambiguieren, d.h. das Target-Lexem von den "Mit-Lesarten" zu separieren, erwächst das Bedürfnis, Textcorpora semantisch zu annotierten.
  3. Relevante Kontexte werden analysiert, das kombinatorische Profil der Target-Lexeme wird bestimmt.
  4. In der nächsten Phase werden Substitutionstests mit den Target-Lexemen durchgeführt („linguistisches Experiment“ im Sinne von Ščerba ( Щерба : 1974)). Auf diese Weise werden relevante Unterschiede im kombinatorischen Profil der Target-Lexeme einschließlich nichttrivialer kombinatorischer Restriktionen ermittelt. Oft wird die Substitution verschiedener Target-Lexeme in den gleichen Kontexten als akzeptabel empfunden, aber der Sinn der betreffenden Äußerung verschiebt sich.
  5. Es wird nach plausiblen Erklärungen für die ermittelten Besonderheiten gesucht. Im Idealfall finden sich für alle kombinatorischen Besonderheiten semantische und/oder pragmatische Ursachen. Danach werden neue Bedeutungserklärungen formuliert. Oft können aber nicht alle Restriktionen in Kookkurrenzen auf die Bedeutung der Target-Lexeme zurückgeführt werden. In der Sprache gibt es immer viele ususbedingte Erscheinungen. In diesem Fall muss das kombinatorische Profil der Target-Lexeme explizit beschrieben werden.

    Die Arbeit mit parallelen Textcorpora setzt grundsätzlich die gleichen Schritte voraus. Es kommt eine weitere Dimension hinzu, nämlich die kontrastive. Wenn z.B. in der Sprache L1 im Ergebnis einer corpusbasierten Untersuchung die in Frage kommenden Quasisynonyme X, Y und Z ausdifferenziert und genau beschrieben wurden, kann im nächsten Arbeitsschritt das Gleiche gemacht werden mit der semantisch korrelierenden Reihe P, Q, R in L2. Im letzten Arbeitsschritt werden die Target-Lexeme X, Y, Z und P, Q, R aufeinander bezogen.

    Im Folgenden werden diese Analyseprinzipien an ausgewählten Beispielen verdeutlicht. Zunächst sei auf die Ziele, Hypothesen und Arbeitsverfahren der Analyse empirischer Daten kurz eingegangen.

5. Fallstudien

Bei diesen Fallstudien handelt es sich um verschiedene Aspekte der kontrastiven Lexikologie Russisch-Deutsch. Zu ähnlichen Fragestellungen im Bereich des russisch-englischen Sprachvergleichs s. ( Добровольский , Кретов , Шаров 2005 ) .

In diesem Abschnitt werden zunächst die russischen Verben оскорбить und обидеть mit ihren deutschen Quasiäquivalenten beleidigen und kränken analysiert. An diesem Beispiel wird gezeigt, dass die relevanten zwischensprachlichen Unterschiede u.a. auf die Nichtidentität der Konfigurationen der grundsätzlich parallelen semantischen Merkmale zurückgeführt werden können. Dabei spielt die unterschiedliche Profilierung (Akzentuierung) bestimmter Seme eine wichtige Rolle.

In der zweiten Fallstudie handelt es sich um die russischen Verben улыбаться, усмехаться, ухмыляться, скалиться (mit den jeweiligen Derivaten, wie z.B. улыбка, усмешка, ухмылка, оскал) in ihren Beziehungen zu den deutschen Verben lächeln und grinsen mit den entsprechenden Derivaten. Bestimmte Unterschiede zwischen den Quasiäquivalenten ergeben sich aus dem Umstand, dass der Anteil des „Mimischen“ und „Semiotischen“ an der Bedeutung jedes dieser Verben unikal ist.

Literaturverzeichnis

  • Biber, H., Breiteneder, E., Dobrovol'skij D. (2002). Corpus-based study of collocations in the AAC. In: Proceedings of the Tenth EURALEX International Congress, Vol. 1. Copenhagen: CST, 85-95.
  • Dobrovol'skij, D. (2005) . Paralleles Textcorpus bei der Untersuchung lexikalischer Semantik. In: Lenz, F., Schierholz, S.J. (Hrsg.) Corpuslinguistik in Lexik und Grammatik. Tübingen : Stauffenburg, 2005, 153-186.
  • Добровольский Д.О. (2003). Корпус параллельных текстов и литературный перевод // НТИ сер.2 , 10, 13-18.
  • Добровольский Д.О., Кретов А.А., Шаров С.А. (2005). Корпус параллельных текстов: архитектура и возможности использования // НКРЯ, 2005, 263-296.
  • НКРЯ (2005) – Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М.: Индрик, 2005.
  • Резникова Т.И., Копотев М.В. (2005). Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) // НКРЯ, 2005, 31-61.
  • Щерба Л.В. (1974). О трояком аспекте языковых явлений и об эксперименте в языкознании // Щерба Л.В. Языковая система и речевая деятельность. Ленинград : Наука, 1974, 24-39.