Published February 19, 2013 | Version v1
Data paper Restricted

Tüba-D/S: Tübinger Baumbank Deutschen/Spontansprache

  • 1. ROR icon University of Tübingen

Description

Die TüBa-D/S-Baumbank wurde im Projekt Verbmobil erstellt. Verbmobil war ein langfristig angelegtes Projekt zur maschinellen Übersetzung von Spontansprache, das vom Bundesministerium für Bildung und Forschung (BMBF) gefördert wurde. Die Tübinger Baumbank des Deutschen / Spontansprache (TüBa-D/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie umfasst ca. 38.000 Sätze bzw. 360.000 Wörter. Die Annotation erfolgte von Hand. Die syntaktische Annotation basiert auf unumstrittenen Annahmen, die den meisten Syntaxtheorien zugrunde liegen. Das Annotationsschema unterscheidet vier Ebenen syntaktischer Konstituenz: die lexikalische Ebene, die phrasale Ebene, die Ebene der topologischen Felder und die Satzebene. Die Sätze werden primär in topologische Felder unterteilt, welche die grundlegenden Wortstellungsregularitäten in den unterschiedlichen Satztypen im Deutschen erfassen, und welche unter deskriptiven Linguisten des Deutschen i.a. anerkannt sind. Zusätzlich zur Konstituentenstruktur sind die Kanten zwischen den Knoten mit Labels annotiert. Diese Kantenlabels beschreiben grammatische Funktionen (als Relationen zwischen Phrasen) sowie die Unterscheidung zwischen Head und Non-Head (phrasenintern). Das Annotationsschema ist oberflächenorientiert, insofern als es auf einem kontextfreien Gerüst basiert und weder kreuzende Kanten noch Spuren verwendet. Stattdessen werden nicht-adjazente Beziehungen durch spezifische Kantenlabels beschrieben.

Other (English)

The TüBa-D/S treebank was annotated in the project Verbmobil . Verbmobil was a longterm Machine Translation project for spontaneous speech funded by the Federal Ministry of Education and Research (BMBF). The Tübingen Treebank of Spoken German, TüBa-D/S, is a syntactically annotated corpus based on spontaneous dialogues, which were manually transliterated. The treebank comprises approximately 38 000 sentences (ca. 360 000 words). The syntactic annotation was performed manually. The syntactic annotation is based on assumptions which are uncontroversial among major syntactic theories. The annotation scheme distinguishes four levels of syntactic constituency: the lexical level, the phrasal level, the level of topological fields, and the clausal level. The primary ordering principle of a clause is the inventory of topological fields, which characterize the word order regularities among different clause types of German, and which are widely accepted among descriptive linguists of German. In addition to constituent structure, annotated trees contain edge labels between nodes. These edge labels encode grammatical functions (as relation between phrases) and the distinction between heads and non-heads (as phrase-internal relations). The annotation scheme is surface-oriented in that it relies on a context-free backbone and uses neither crossing branches nor traces. Instead, it describes long-distance relations by specific functional labels.

Files
Restricted

The record is publicly accessible, but files are restricted to users with access.

Additional details

Created:
November 15, 2023
Modified:
November 15, 2023