Ga naar inhoud

Corpora

Een overzicht van corpora die beschikbaar zijn in de officiële versie van AlpinoGraph.

Note

Als je Docker hebt kun je AlpinoGraph lokaal draaien, zodat je zelf corpora toe kunt voegen. Zie AlpinoGraph in Docker.

Let op

De afleiding van Universal Dependencies is ook bij handmatig verwerkte corpora automatisch gedaan.

Alpino Treebank

Info

Aantal zinnen: 7.136
Verwerking: handmatig

Dit bevat de handmatig geannoteerde zinnen die gedistribueerd worden als onderdeel van het Alpino systeem. De zinnen bestaan uit het dagbladdeel (cdbl) van het Eindhoven corpus. De eerste versie van de Alpino Treebank is verschenen op CDROM en werd in november 2002 feestelijk overhandigd aan de eerste computationeel-taalkundige van Nederland: Hugo Brandt Corstius.

De volgende attributen op (:word) zijn wel automatisch gegenereerd:

aform case comparative def frame gen iets infl lcat neclass num per personalized pron refl rnum sc sense special stype tense vform wh wk

Meer informatie op de Alpino Treebank website.

Laatste versie beschikbaar op GitHub.

BasiLex 1.0

Info

Aantal zinnen: 1.635.680
Verwerking: automatisch
Metadata: grade, level, level_determination, maintype, prod_date, type

Het BasiLex-corpus is een geannoteerde verzameling van teksten geschreven voor kinderen in de basisschoolleeftijd. Het corpus bevat 13,5 miljoen tokens, waarvan 11,5 miljoen woorden. De tokens komen voor ongeveer 40% uit educatieve materialen, 40% uit kinderliteratuur en 20% uit media.

Laatste versie beschikbaar bij het Instituut voor de Nederlandse taal.

BasiScript 1.0: Opstellen

Info

Aantal zinnen: 782.179
Verwerking: automatisch
Metadata: date, gender, grade, location, name, type

BasiScript is een corpus met 9 miljoen woorden geschreven tekst geproduceerd door leerlingen van de Nederlandse basisschool. In AlpinoGraph is het “opstellen”-deel opgenomen.

Het corpus bevat longitudinale data verzameld over drie achtereenvolgende jaren (najaar 2012 – voorjaar 2015). Het BasiScript-corpus is ontworpen om zowel de educatieve diversiteit (type school) als de geografische regio’s van Nederland te kunnen vergelijken.

De data bevat voornamelijk handgeschreven teksten en een klein aantal teksten geproduceerd met een tekstverwerker (met automatische spelling- en grammaticacontrole uitgeschakeld). De data is geanonimiseerd.

Laatste versie beschikbaar bij het Instituut voor de Nederlandse taal.

Childes Dutch

Info

Aantal zinnen: 545.476
Verwerking: automatisch
Metadata: age, code, months, paqu.path1, paqu.path2, paqu.path3, role, sex

Childes is een corpus van gesproken taal van jonge kinderen en hun gesprekspartners. De versie die in AlpinoGraph is opgenomen is op 18 november 2015 gedownload. Zie CHILDES: Child Language Data Exchange System.

Het corpus bevat de volgende onderdelen:

  • CLPF
    • Catootje, David, Elke, Enzo, Eva, Jarmo, Leon, Leonie, Noortje, Robin, Tirza, Tom
  • DeHouwer
    • Dieter, Katrien, Kim, Michiel
  • Gillis
  • Groningen
    • Abel, Daan, Iris, Josse, Matthijs, Peter, Tomas
  • Schaerlaekens
    • Arnold, Diederik, Gijs, Joost, Katelijne, Maria
  • VanKampen
  • Wijnen
  • Zink
    • David, Judith, Laurien, Meinder

CLEF

Info

Aantal zinnen: 4.266.515
Verwerking: automatisch

Dit corpus bevat alle zinnen van het Algemeen Dagblad en de NRC van 1994 en 1995. De zinnen zijn automatisch geannoteerd met de Alpino parser. Deze data is destijds gebruikt voor de CLEF shared tasks op het gebied van Question Answering.

Corpus Gesproken Nederlands

Info

Aantal zinnen: 129.921
Verwerking: handmatig
Metadata: birthyear, country, sex, source, speaker_id, talk_id

Dit bevat de handmatig geannoteerde zinnen van het CGN (ongeveer 1 miljoen woorden), Versie 2.

Meer informatie op de website van het Corpus Gesproken Nederlands.

Laatste versie beschikbaar bij het Instituut voor de Nederlandse taal.

Dutch Web Corpus

Info

Aantal zinnen: 1.498.479
Verwerking: automatisch

This automatically annotated treebank contains the first 1.5 million sentences of a crawled newspaper corpus. The corpus has been collected by Wietse de Vries, as additional data for training his Bertje language model.

Wietse de Vries, Andreas van Cranenburgh, Arianna Bisazza, Tommaso Caselli, Gertjan van Noord, Malvina Nissim, BERTje: A Dutch BERT Model. Arxiv 1912.09582.

Eindhoven

Info

Aantal zinnen: 40.524
Verwerking: automatisch

Het Eindhoven-corpus is al begin jaren zeventig verzameld. Jarenlang was de copyright status van dit corpus onduidelijk, maar inmiddels is een versie van het corpus via het Instituut voor de Nederlandse taal te downloaden. De versie in AlpinoGraph gaat terug op een versie waarvan de preciese geschiedenis in nevelen is gehuld.

Lassy Groot: Kranten

Info

Aantal zinnen: 14.974.458
Verwerking: automatisch

Dit is het deel WR-P-P-G van het corpus Lassy Groot. Dit betreft materiaal afkomstig uit dagbladen.

Meer informatie op de Lassy website.

Laatste versie beschikbaar bij het Instituut voor de Nederlandse taal

Lassy Klein

Info

Aantal zinnen: 65.200
Verwerking: handmatig
Metadata: source, type, description
Extra attributen: dscmanual, dscsense, sonar_ne, sonar_ne_begin, sonar_ne_class, sonar_ne_end

Lassy Klein is een handmatig geannoteerd corpus van ongeveer 1 miljoen woorden. De huidige versie betreft release 6 uit 2021.

De volgende attributen op (:word) zijn wel automatisch gegenereerd:

aform case comparative def frame gen iets infl lcat neclass num per personalized pron refl rnum sc sense special stype tense vform wh wk

Lassy Klein bevat delen uit een voorlopige versie van het corpus SONAR500 (de codering in bestandsnamen wijkt af van die in de definitieve versie van SONAR500), Dutch Parallel Corpus, en Wikipedia.

De attributen dscmanual en dscsense bevatten sense-informatie uit het Dutch semantic corpus. Zie DutchSemCor Project Homepage

De attributen sonar_ne, sonar_ne_begin, sonar_ne_class en sonar_ne_end bevatten informatie over named entities uit SONAR500. Zie Sonar in het receptenboek.

Meer informatie op de Lassy website.

Laatste versie beschikbaar bij het Instituut voor de Nederlandse taal.

NL-wiki 2017

Info

Aantal zinnen: 16.073.845
Verwerking: automatisch

Dit corpus bevat alle zinnen van de dump van de Nederlandse Wikipedia van 1 Augustus 2017.

Wablieft

Info

Aantal zinnen: 256.729
Verwerking: automatisch
Metadata: datum, issue, rubriek

it betreft het Wablieft corpus versie 1.2. Het Wablieft-corpus bevat het digitaal archief van de Wablieft-krant (periode 2011-2017), zoals ook beschikbaar op de wablieft website. Het bevat 2 miljoen woorden krantenmateriaal in eenvoudig te lezen Nederlands.

Meer informatie: Wablieft: An Easy-to-Read Newspaper Corpus for Dutch (PDF).

Laatste versie beschikbaar bij het Instituut voor de Nederlandse taal.