Swe-Clarins katalog

Du är här

Hem / Uppsala universitet / Swe-Clarins katalog

Blacklist Classifier

  • Blacklist Classifier är ett enkelt verktyg för att skilja mellan besläktade språk. Det använder en lista (= 'Blacklist') med ord som kan tränas på jämförbara korpusar. Samlingen innehåller listor för bosniska, kroatiska och serbiska.

Blast

  • BLAST är ett verktyg som förenklar annotatering av fel som uppstår efter maskinöversättning.

Docent

  • Docent är en dekoder för frasbaserad statistisk maskinöversättning (SMT). Till skillnad från de flesta andra dekodrar översätter Docent hela dokumentet som en enhet i stället för att översätta varje mening för sig. Docent tillåter användning av information utöver meningsgränsen för att förenkla utvecklingen av diskursbaserade modeller för SMT.

Lingua-Align

  • Lingua-Align är en samling av verktyg för automatisk länkning av träd och ord i parallela korpusar.

MaltParser

  • MaltParser är en datadriven dependensparser, som kan användas för att träna en parsermodell från en trädbank men också för att analysera en ny text med användning av en tränad model.

OPUS

  • OPUS är en samling av parallella korpusar från webben. Samlingen baseras på fritt tillgängliga texter samt deras översättningar. Texterna är länkade, dvs. varje rad i det ena språket motsvarar en rad i det andra språket.

Swedish Treebank

  • Swedish Treebank är en syntaktiskt annoterad korpus. Annoteringen innebär ord- och meningsgränser, morfologisk information (ordklass m.m.), samt syntaktisk information (fraser och grammatiska funktioner, dependensstruktur). Swedish Treebank bygger på två redan befintliga korpusar, Talbanken och SUC, som har blivit harmoniserade. Swedish Treebank består av drygt 350.000 tokens.

Swedish UD Treebank

  • Swedish UD Treebank är en syntaktiskt annoterad korpus som, till skillnad från Swedish Treebank är annoterad med universella dependenser. Den bygger på Talbanken och består av drygt 97.000 tokens.

Uplug

  • Uplug är en samling av verktyg för textbehandling. Samlingen innebär bland annat verktyg för ordlänkning m.m. för att skapa parallela korpusar.

Uppsala Persian Corpus (UPC)

  • UPC är en stor persisk korpus. Annoteringen är baserad på 31 olika ordklasser. UPC består av drygt 2,7 miljoner tokens.

Sidor