Corpora

Corpora voor gebruik met suffix-arrays

→ DBNL

Beschikbaarheid: voor iedereen

1.815.612.186 tokens

Bron: Digitale Bibliotheek voor de Nederlandse Letteren

Download van 14 februari 2023

→ Gigacorpus: Boeken

Beschikbaarheid: alleen binnen rug.nl

6.452.050.721 tokens

Bron: Het Nederlandse Gigacorpus

→ LassyLarge

Beschikbaarheid: voor iedereen

727.847.227 tokens

Bron: INT Materialen: Lassy Groot-corpus

→ LassyLargeExtra

Beschikbaarheid: voor iedereen

1.671.311.371 tokens

Heel Lassy Groot Extra, met uitzondering van Boeken uit Gigacorpus

→ NLcow

Beschikbaarheid: alleen binnen rug.nl

4.483.615.279 tokens

Bron: Corpora from the Web: NLCOW14

→ NLwiki

Beschikbaarheid: voor iedereen

464.149.185 tokens

Nederlandstalige Wikipedia van 20 juni 2024

→ SONAR

Beschikbaarheid: alleen binnen rug.nl

530.561.601 tokens

Bron: SoNaR-corpus

→ Twitter2013

Beschikbaarheid: voor iedereen

5.813.398.728 tokens

Nederlandstalige tweets uit 2013 die bij Alfa-informatica zijn verzameld, exclusief retweets, newlines genegeerd, URLs geëxpandeerd, woorden gescheiden van interpunctie, alleen de tweets waarvoor textcat Nederlands als eerste keus gaf

→ Twitter2014

Beschikbaarheid: voor iedereen

3.884.274.417 tokens

Nederlandstalige tweets uit 2014 die bij Alfa-informatica zijn verzameld, exclusief retweets, newlines genegeerd, URLs geëxpandeerd, woorden gescheiden van interpunctie