Corpora

Corpora voor gebruik met suffix-arrays

→ NLcow

Beschikbaarheid: alleen binnen rug.nl

4.483.615.279 woorden

Bron: Corpora from the Web: NLCOW14

→ NLwiki

Beschikbaarheid: voor iedereen

255.873.720 woorden

Nederlandstalige Wikipedia van 1 augustus 2017

→ SONAR

Beschikbaarheid: alleen binnen rug.nl

530.561.601 woorden

Bron: SoNaR-corpus

→ Twitter2013

Beschikbaarheid: voor iedereen

5.813.398.728 woorden

Nederlandstalige tweets uit 2013 die bij Alfa-informatica zijn verzameld, exclusief retweets, newlines genegeerd, URLs geëxpandeerd, woorden gescheiden van interpunctie, alleen de tweets waarvoor textcat Nederlands als eerste keus gaf

→ Twitter2014

Beschikbaarheid: voor iedereen

3.884.274.417 woorden

Nederlandstalige tweets uit 2014 die bij Alfa-informatica zijn verzameld, exclusief retweets, newlines genegeerd, URLs geëxpandeerd, woorden gescheiden van interpunctie