Swe-Clarins katalog

Du är här

Hem / Corpus / Swe-Clarins katalog

Spontal-Multimodal databas över spontant tal i dialog

  • Högkvalitativa ljud- och videoinspelningar av fri dialog med motion capture (120 dialoger på 30 minuter var).

Svensk teckenspråkskorpus

  • 24 timmar video med 42 talare. Av totalt 300 filer är drygt 70 redigerade och har glosor samt (eventuellt) svensk översättning. Dialog och monolog (berättelser). 

Swedish Internet Corpus

  • En korpus med text från svenska bloggar, manuellt annoterad med ordklasstaggar och namninformation (named entities), cirka 12 000 ord.

Swedish Blog Sentences

  • En (av upphovsrättsliga skäl) omkastad mängd meningar från svenska bloggar, automatiskt annoterad med ordklasser och namninformation (named entities). Cirka 2.7 miljarder ord totalt.

LONG-MINGLE

  • Longitudienell korpus med barnriktat tal, insamlad i en miljö med sessioner av fri lek. Korpusen består av video och ortografiska transkriptioner av audion.

BirdQuest-dialoger

  • Dialogkorpus mellan användare och systemet BirdQuest, med en databas om fåglar. Finns både skriftligt och i ljudformat.

Car and Travel

  • Dialogkorpus insamlad med Wizard of Oz-tekniker. Två olika domäner, bilförsäljning och turistinformation.

Gold standard for English-Swedish Europarl data (GES)

  • En referenskorpus för ordlänkning uppdelad på tränings- och testdata. Meningarna är hämtade från Europarl engelska respektive svenska delar.

Gold Standard för textsammanfattningar

  • En referenskorpus för textsammanfattningar.

Sidor