Swe-Clarins katalog

Du är här

Hem / Swe-Clarins katalog

Linköping English-Swedish Parallel Treebank (LinES)

  • Parallellställd trädbank med dependensanalyser, delvis baserad på Linköping Translation Corpus. Meningarna är hämtade från sju olika källor, inkluderande hjälptexter, Europarl och skönlitterära texter.

Linköping Translation Corpus (LTC)

  • Parallellställd korpus med engelsk-svenska texter från olika domäner, inklusive hjälptexter och skönlitteratur.

MaltParser

  • MaltParser är en datadriven dependensparser, som kan användas för att träna en parsermodell från en trädbank men också för att analysera en ny text med användning av en tränad model.

OPUS

  • OPUS är en samling av parallella korpusar från webben. Samlingen baseras på fritt tillgängliga texter samt deras översättningar. Texterna är länkade, dvs. varje rad i det ena språket motsvarar en rad i det andra språket.

PAT-PAR-korpus

  • En parallellkorpus bestående av patentansökningar på engelska och svenska från fem olika patentklasser.

Snack Sound Toolkit

  • Snack Sound Toolkit är byggt för att användas med ett skriptspråk som Tcl/Tk eller Python. Med hjälp av Snack kan du skapa kraftfulla audioprogram för flera plattformar med bara några få rader kod. Snack har kommandon för grundläggande ljudbehandling, exempelvis ljudkort och disk I/O. Viss visualisering stöds också, exempelvis vågformer och spektrogram. Verktyget är utvecklat i första hand för att hantera digitala inspelningar av tal men fungerar lika väl för ljud i allmänhet.

Swedish Treebank

  • Swedish Treebank är en syntaktiskt annoterad korpus. Annoteringen innebär ord- och meningsgränser, morfologisk information (ordklass m.m.), samt syntaktisk information (fraser och grammatiska funktioner, dependensstruktur). Swedish Treebank bygger på två redan befintliga korpusar, Talbanken och SUC, som har blivit harmoniserade. Swedish Treebank består av drygt 350.000 tokens.

Swedish UD Treebank

  • Swedish UD Treebank är en syntaktiskt annoterad korpus som, till skillnad från Swedish Treebank är annoterad med universella dependenser. Den bygger på Talbanken och består av drygt 97.000 tokens.

Uplug

  • Uplug är en samling av verktyg för textbehandling. Samlingen innebär bland annat verktyg för ordlänkning m.m. för att skapa parallela korpusar.

Uppsala Persian Corpus (UPC)

  • UPC är en stor persisk korpus. Annoteringen är baserad på 31 olika ordklasser. UPC består av drygt 2,7 miljoner tokens.

Sidor