Corpora voor gebruik met suffix-arrays
Beschikbaarheid: voor iedereen
1.815.612.186 tokens
Bron: Digitale Bibliotheek voor de Nederlandse Letteren
Download van 14 februari 2023
Beschikbaarheid: alleen binnen rug.nl
6.452.050.721 tokens
Bron: Het Nederlandse Gigacorpus
Beschikbaarheid: voor iedereen
727.847.227 tokens
Bron: INT Materialen: Lassy Groot-corpus
Beschikbaarheid: voor iedereen
1.671.311.371 tokens
Heel Lassy Groot Extra, met uitzondering van Boeken uit Gigacorpus
Beschikbaarheid: alleen binnen rug.nl
4.483.615.279 tokens
Bron: Corpora from the Web: NLCOW14
Beschikbaarheid: voor iedereen
464.149.185 tokens
Nederlandstalige Wikipedia van 20 juni 2024
Beschikbaarheid: alleen binnen rug.nl
530.561.601 tokens
Bron: SoNaR-corpus
Beschikbaarheid: voor iedereen
5.813.398.728 tokens
Nederlandstalige tweets uit 2013 die bij Alfa-informatica zijn verzameld, exclusief retweets, newlines genegeerd, URLs geëxpandeerd, woorden gescheiden van interpunctie, alleen de tweets waarvoor textcat Nederlands als eerste keus gaf
Beschikbaarheid: voor iedereen
3.884.274.417 tokens
Nederlandstalige tweets uit 2014 die bij Alfa-informatica zijn verzameld, exclusief retweets, newlines genegeerd, URLs geëxpandeerd, woorden gescheiden van interpunctie