Stockholms universitet

Du är här

Hem / Swe-Clarin / Stockholms universitet

Institutionen för lingvistik vid Stockholms universitet deltar i Swe-Clarin genom två av sina avdelningar: datorlingvistik och teckenspråk.

Forskning inom datorlingvistik har bedrivits vid institutionen (eller dess föregångare) sedan tidigt 1960-tal. En stor infrastrukturell satsning var framställandet av Stockholm–Umeå-korpusen (SUC) som omfattar en miljon ord med manuellt kontrollerade ordklasstaggar, och vars första version utvecklades 1989–97. Distributionen av SUC övergick till Språkbanken 2008 men korpusen underhålls fortfarande av institutionen; den senaste versionen (SUC 3.0) släpptes 2012. Korpusar och verktyg som för närvarande distribueras inkluderar Stagger (en ordklasstaggare med modeller för svenska och isländska), Spacos (ett system för att länka ord i parallellkorpusar), Stockholm Internet Corpus (SIC), och SUC-CORE (en delmängd av SUC med koreferensannotering för nominalfraser). Se mer information om datorlingvistiska resurser. Avdelningen bedriver forskning kopplad till förstaspråksinlärning, länkning av parallellkorpusar och användargenererat innehåll; se mer information om forskning i datorlingvistik.

Forskning i teckenspråk har bedrivits vid institutionen sedan 1972. Mycket av dagens forskning fokuserar på lexikografi och korpusar för teckenspråk, framför allt svenskt teckenspråk (SSL). Ett genombrott i representation av teckenspråksdata skedde i mitten av 1990-talet när det blev möjligt att spela video på persondatorer, vilket ersatte videoband. Ett annat viktig utveckling är de system som kommit fram för detaljerad och sökbar annotering av teckenspråksvideo. Dessa framsteg har bidragit starkt till arbetet med SSL-lexikonet, som inleddes 1988, och SSL-korpusen, som påbörjades 2003. Den senare innehåller delvis spontana dialoger och monologer med berättelser och eliciteringar. Såväl SSL-lexikonet som -korpusen distribueras av avdelningen; för mer information, se teckenspråksresurser.

Som K-center i Swe-Clarin planerar vi att fortsätta att bygga vidare på och utöka de samarbeten vi redan har med närliggande discipliner som arbetar med primärdata i form av naturligt språk, inklusive följande:

Avdelningen för datorlingvistik och Nationalekonomiska institutionen vid Stockholms universitet samarbetar kring en datamängd med nationella prov i svenska från gymnasiet. Denna datamängd har rika metadata, inklusive lärarnas ursprungsbetyg och oberoende betyg som har satts vid blind omrättning. Tidigare forskning vid Nationalekonomiska institutionen har visat att det svenska betygssystemet är behäftat med diskriminering utifrån socialgrupp, kön, etnicitet och ålder. Detta är av stort intresse inom nationalekonomi eftersom felaktiga betyg orsakar samhälleliga problem och effektivitetsförluster, alldeles frånsett de negativa konsekvenserna för individen. I det här fallet utvecklade vi ett system för automatisk betygssättning baserad på maskininlärning som kan underlätta identifiering av kandidater för felaktig betygsättning. En biprodukt av detta är ett samarbete med projektet Alla kan skriva, vilket utvecklar verktyg för språkundervisning. Detta projekt är finansierat av Vinnova, Post- och telestyrelsen (PTS) och Svenska akademien.

Tillsammans med Nationalutgåvan av August Strindbergs samlade verk och Institutionen för kultur och estetik arbetar avdelningen med att konstruera en lingvistiskt uppmärkt korpus av Strindbergs litterära fiktion. Detta är en uppföljning av den tidigare Stockholm University Strindberg Corpus (SUSC); se vidare information om datorlingvistikresurser.

Avdelningen för teckenspråk samarbetar med Institutet för språk och folkminnen för att stödja teckenspråk som ett minoritetsspråk med speciell ställning.

Contact: Mats Wirén, mats.wiren (at) ling.su.se