Forside / Vi arbejder også med / Store tekstsamlinger 25.10.2018

Store tekstsamlinger

Dansk Sprognævn indsamler løbende tekster om dansk i forskellige store tekstsamlinger, også kaldet korpusser. Vi bruger tekstsamlingerne til at forske i grammatik, sproglig udvikling m.m.

Korpuseksempel2

Dansk Sprognævn indsamler løbende tekster om dansk i forskellige store tekstsamlinger, også kaldet korpusser. Vi bruger tekstsamlingerne til at forske i grammatik, sproglig udvikling m.m.

Sådan bruger vi korpusser

Sprognævnet bruger korpusser i det løbende arbejde med at forske i og dokumentere brugen af det danske skriftsprog.

Af hensyn til ophavsretlige forhold er Sprognævnets korpusser ikke offentligt tilgængelig. Forskere kan dog efter aftale komme ind på nævnet og arbejde med korpusserne.

Tusindvis af avisartikler

Sprognævnets aviskorpus indeholder tusindvis af artikler fra diverse forskellige aviser. Aviskorpusset omfatter forskellige underkorpusser:

  • Landsdækkende aviser (Berlingske, Information, Jyllands-Posten, Kristeligt Dagblad, Politiken og Weekendavisen)
  • Regionale aviser (Fyens Stiftstidende, Jydske Vestkysten osv.)
  • Lokale aviser (Frederiksværk Ugeblad, Østerbro Avis osv.).

Korpusset indeholder et bredt udsnit af artikler fra disse aviser fra slutningen af 2009 og frem. Desuden er der en vis mængde tekster fra årene 2004 og 2005. I begyndelsen af 2018 bestod samlingen af avistekster af knap 900 millioner ord. Der medtages hele tiden nye tekster.

Tekster fra sociale medier

Et andet af vores underkorpusser består af tweets, dvs. statusopdateringer fra Twitter. Denne tekstgruppe består af knap 40 millioner ord. Der er tale om tweets fra en uge i september hvert år fra 2008 til 2016.

Desuden har vi en lille samling blogtekster på knap 2 millioner ord.

Fagsproglige artikler

Vi har også et lille udvalg af fagblade repræsenteret i vores korpus, herunder Erhvervsbladet, Ingeniøren og Ugeskrift for Læger.

Denne tekstgruppe bestod i starten af 2018 af ca. 26 millioner ord og indeholder tekster tilbage til 2004, dog hovedsageligt fra slutningen af 2009 og frem.

Forskellige betegnelser

Dansk Sprognævn kalder de store tekstsamlinger korpusser (nogle foretrækker flertalsformen korpora, men vi følger selvsagt Retskrivningsordbogen, hvor korpusser er det korrekte).

Korpusser er desuden en resurse for big data-analyser.

Vores hovedopgaver

Sprognævnet er en forskningsinstitution der skal 1) følge det danske sprog, 2) svare på spørgsmål om sproget og 3) fastlægge retskrivningen i Retskrivningsordbogen.

Læs mere ...

Cookies og privatliv

Dsn.dk bruger cookies, men du kan vælge dem fra.

Cookie- og privatlivspolitik