BOF eindverslag

Bondig wetenschappelijk eindverslag voor het BOF-project Een gelemmatiseerd, diachroon, elektronisch tekstcorpus van Germaanse talen, inzonderheid het Nederlands (1 maart 2002 – 30 april 2004, woordvoerder: Prof. J. Van Loon). Bibliografische referenties verwijzen naar de bibliografie op http://www.wulfila.be/bibliography.

TEI editie van de Gotische bijbel

Het project leverde in de eerste plaats een betrouwbare, taalkundig geannoteerde elektronische editie van de Gotische Bijbel op, gebaseerd op de standaardtekst van W. Streitberg (1919). De betrouwbaarheid van de transcriptie werd geverifieerd door het tekstmateriaal te collationeren met de vlakke Gotische tekst die wordt aangeboden door het TITUS-project. Vermits beide versies destijds onafhankelijk van elkaar werden ingevoerd, met verschillende methodes, is de kans op identieke tik- of scanfouten erg klein en kan een geautomatiseerde vergelijking fouten in beide bestanden aan het licht brengen. Daartoe werd een eenvoudige ad-hoc procedure geschreven die de teksten aligneerde en letter voor letter vergeleek, inclusief interpunctie en tekstkritische markeringen. Het programma rapporteerde ongeveer 800 verschillen, die stuk voor stuk werden nagelezen in de gedrukte bron en waar nodig gecorrigeerd. De correcties werden gesignaleerd aan TITUS (woordvoerder J. Gippert), wat resulteerde in een lidmaatschap van dat Europese consortium.

De tekst is gecodeerd in XML volgens de richtlijnen van het Text Encoding Initiative (1), het standaardformaat bij uitstek voor de uitwisseling van elektronische edities. Het bleek niet eenvoudig om zowel tekstkritische als linguïstische informatie in één document op te nemen: beide hiërarchieën overlappen en kunnen dan ook niet in één boomstructuur worden ondergebracht (zo gaan bv. onzekere lezingen vaak over de woordgrens heen). Het probleem kon vermeden worden door enerzijds een aantal elementen op te splitsen en anderzijds te kiezen voor een vrije interpretatie van de parallel-segmentation methode, waarbij elke lezing in extenso werd opgenomen (vgl. Birnbaum 1999). Dit weerspiegelt ook Streitbergs beslissing om alle lezingen integraal weer te geven; wel zijn variaties tussen getuigen in de elektronische editie expliciet gemarkeerd en gecatalogeerd, net als alle emendaties door Streitberg. In een aantal gemotiveerde gevallen werd een drukfout in de editie van 1919 gecorrigeerd; het document bevat ook een lijst afwijkingen tussen de gebruikte editie en de laatst uitgegeven herdruk (Streitberg 2000).

De taalkundige annotaties zijn opgeslagen in een strikt genormaliseerde en goed gedocumenteerde relationele databank die impliciet gekoppeld is aan het TEI bestand via corresponderende numerieke sleutels. De databank bevat onder meer een digitaal woordenboek, gebaseerd op Streitbergs Gotisch-griechisch-deutsches Wörterbuch (1910), een tabel met alle tokens in de lopende tekst, een tabel met de verschillende morfologische categorieën en een tabel met morfosyntactische tags. De taalkundige verrijking van de tekst schuilt precies in de verschillende relaties tussen deze tabellen. Uiteraard is het de bedoeling om de taalkundige analyses uiteindelijk in de TEI-editie zelf op te nemen. Zolang echter niet alle vormen gedesambigueerd zijn, biedt het gebruik van een relationele databank een aantal technische voordelen (efficiëntie, automatische controle op de referentiële integriteit). Wanneer deze fase achter de rug is, kan de vervolledigde TEI-editie eventueel gedeponeerd worden in een grotere digitale bibliotheek, zoals bijvoorbeeld het Oxford Text Archive. Het tekstmateriaal is tenslotte ook gelinkt aan enkele bijbelvertalingen, die de toegang tot de Gotische tekst kunnen vergemakkelijken, en de Griekse grondtekst (2), die een essentieel hulpmiddel vormt bij de studie van het Gotisch.

Heliand en andere teksten

De editie van E. Sievers (1878) werd volledig ingescand en op de website gepubliceerd in de vorm van een facsimile-uitgave met uitgebreide inhoudsopgave en navigatiemogelijkheden. Het boek kan in verschillende formaten geraadpleegd worden, geoptimaliseerd voor schermweergave (PNG), archivering (TIFF) of afdrukken op papier (PDF). De tekst is vervolgens ingelezen met een OCR-programma; een klein deel van die ruwe tekst is al gecorrigeerd en omgezet in TEI-formaat. Met het oog op de taalkundige annotatie van de Gotische Bijbel werd op analoge wijze een facsimile-editie voorbereid van Streitbergs Gotisches Elementarbuch (1920). De grammaticaal getagde tekst en het lexicon kunnen zo aan de relevante paragrafen in deze grammatica gelinkt worden. De expertise die werd opgedaan bij het ontwikkelen van deze edities kan in de toekomst eenvoudig worden uitgebreid tot andere werken.

Morfologische software

De Gotische bijbel werd gelemmatiseerd door op basis van het ingevoerde woordenboek en een formele beschrijving van de morfologie (cf. infra) alle mogelijke woordvormen te genereren (ongeveer 250000 vormen voor 3600 lemma’s). Daarna kon elk woord uit de overgeleverde tekst gewoon in het gegenereerde lexicon worden opgezocht. Slechts in sommige gevallen was er sprake van lexicale ambiguïteit, met als markantste voorbeeld het zeer frequente im, dat zowel werkwoordsvorm ‘ik ben’ of datief meervoud van het voornaamwoord is kan zijn. Deze ‘naïeve’ methode, die uitsluitend voortgaat op morfologische kenmerken van geïsoleerde vormen en geen rekening houdt met context, syntax of statistische gegevens, volstaat duidelijk voor het Gotisch. Die taal is immers per definitie niet-productief, beschikt nog over een relatief rijke flexie, is overgeleverd in een opmerkelijk consequente spelling en vormt een gesloten corpus van beperkte omvang (67406 tokens). Dezelfde methode werd ook toegepast om aan elk woord in de tekst morfo­syntactische tags toe te kennen, hoewel dit niet gepland was in de projectaanvraag. Uiteraard was de procedure in dit geval minder precies. Door syncretisme binnen morfologische paradigma's kan een belangrijk deel van de tokens immers niet eenduidig benoemd worden zonder de context te evalueren. In die gevallen werden de verschillende alternatieven in de databank opgeslagen; eventueel kunnen de vormen later manueel gedesambigueerd worden.

Om het Gotische lexicon te genereren is zeer veel tijd besteed aan het ontwerpen van een algemeen model voor de beschrijving van flexivische morfologie. Bij de aanvang van het project was weliswaar een rudimentair programma voor Gotische morfologie beschikbaar, maar dat bleek uiteindelijk niet adequaat en vooral moeilijk aanpasbaar, omdat de morfologische klassen en regels hard gecodeerd waren in de software zelf. Bovendien diende voor de lemmatisering van de Heliand ook een Oud-Saksisch lexicon gegenereerd te worden. Daarom werd besloten om een moderne applicatie te ontwikkelen die een strikte scheiding handhaaft tussen morfologische beschrijving en implementatie en die ook op andere talen kan toegepast worden. Als formaat voor de morfologische specificatie werd XML gekozen, met een syntax die gedeeltelijk geïnspireerd is op MathML, een markeertaal voor mathematische formules en expressies (3). Centraal staat het concept overerving: van een reeds gedefinieerde klasse kan een specifiekere klasse worden afgeleid, die de eigenschappen van de hogere klasse overneemt maar ook selectief kan overschrijven (in het Gotisch bv. substantiefa-stamMaMja) (4). Het eigenlijke paradigma wordt beschreven door de operatoren ‘concatenatie’ en ‘disjunctie’ samen met vooraf gedefinieerde functies toe te passen op benoemde morfeem­variabelen zoals wortel of suffix. De functies, die meestal fonologische regels weerspiegelen, zijn gedefinieerd aan de hand van reguliere expressies.

Er werd een concrete implementatie geschreven in Visual Basic (met als werknaam Gomorphv2). Het programma converteert de morfologische specificatie van een bepaalde taal eerst naar een tussenformaat, dat vervolgens rechtstreeks geïnterpreteerd wordt om paradigma's te genereren op basis van parameters die door de gebruiker worden opgegeven of in een digitaal woordenboek zijn opgeslagen. Hoewel het om een prototype gaat, bleek de software 100% functioneel. Een logisch vervolg zou een volwaardige compiler zijn, geschreven in een platform-onafhankelijke programmeertaal zoals Java.

De applicatie leent zich vooral voor flecterende talen. Naast de Gotische morfologie, die exhaustief werd gecodeerd, zijn ook enkele voorbeelden uitgewerkt voor talen met een erg complexe morfologie, zoals het IJslands. Uiteraard kan het programma ook gebruikt worden om paradigma's te genereren voor de meer courante, moderne Europese talen; in die zin zou het inzetbaar zijn in didactische toepassingen of om zoekopdrachten op het Internet uit te voeren op basis van lemma’s in plaats van verbogen vormen.

Presentatie

De tekstedities, databank, morfologische software en verdere documentatie worden aangeboden op een nieuwe website [http://www.wulfila.be] die zich strikt houdt aan de webstandaarden voorgeschreven door het W3C (XHTML, CSS). Voor wetenschappelijke doeleinden kunnen de edities in hun geheel gedownload worden. Daarnaast kan de geïnteresseerde bezoeker ook door de Gotische Bijbel bladeren, met een keuze aan interlineaire vertalingen en de mogelijkheid om op elk woord te klikken om gedetailleerde informatie op te roepen (lemma, korte vertaling, POS-tag(s), link naar concordantie en frequentie, mogelijkheid om het hele paradigma te tonen). Er is ook een geavanceerde zoekmachine met reguliere expressies ontwikkeld.

Een aantal punten uit de aanvraag zijn niet gerealiseerd (de teksteditie van de Heliand is nog in voorbereiding, de Wachtendonckse psalmen en Leidse Willeram zijn niet aan bod gekomen, het dagboek van Christiaan Munters is nog niet volledig gelemmatiseerd). Daar staat tegenover dat erg veel tijd en studie is besteed aan het ontwerpen en implementeren van herbruikbare morfologische software. Bovendien werden een aantal zaken gerealiseerd die niet in de aanvraag waren geformuleerd. De Gotische Bijbel werd niet enkel gelemmatiseerd, maar ook voorzien van POS-tags (waarvan weliswaar nog een belangrijk deel handmatig gedesambigueerd moet worden). Daarnaast heeft het project ook een verzorgde, digitale facsimile-uitgave opgeleverd van twee standaardwerken uit de Oud-Germanistiek, Sievers’ Heliand (1878) en Streitbergs Gotisches Elementarbuch (1920).

(1) De editie gebruikt meer bepaald de TEI P4 DTD. Voor een gedetailleerd overzicht van de principes die bij de tekstcodering gehanteerd werden, verwijzen we naar de exhaustieve TEI header.

(2) Griekse tekst in Unicode, mét diakritische tekens; het gaat om een vrij beschikbare uitgave van Nestle-Aland en dus niet om Streitbergs reconstructie van de Vorlage.

(3) MathML is een W3C standaard (http://www.w3.org/Math). De voordelen van XML lagen voor de hand: er hoeft geen parser meer geschreven te worden, XML ondersteunt per definitie Unicode – een belangrijke voorwaarde voor een systeem dat verschillende talen moet kunnen beschrijven – en tenslotte kan de formele beschrijving met XSL transformaties eenvoudig in een leesbaar rapport worden omgezet.

(4) De hiërarchie die zo gecreëerd wordt, hoeft niet noodzakelijk te corresponderen met de historische werkelijkheid. De morfologie kan naar believen vanuit synchroon of diachroon perspectief beschreven worden.