Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

BibTeX

@inProceedings{forsbom-wilhelmsson-2010-revision-259876,
	title        = {Revision of Part-of-Speech Tagging in Stockholm Umeå Corpus 2.0},
	abstract     = {Many parsers use a part-of-speech tagger as a first step in parsing. The accuracy of the tagger naturally affects the performance of the parser. In this experiment, we revise 1500+ proposed errors in SUC 2.0 that were mainly found during work with schema parsing, and evaluate tagger instances trained on the revised corpus. The revisions turned out to be beneficial also for the taggers.},
	booktitle    = {Proceedings of the Third Swedish Language Technology Conference (SLTC), Linköping, Sverige},
	author       = {Forsbom, Eva and Wilhelmsson, Kenneth},
	year         = {2010},
	address      = {Linköping},
}

@inProceedings{wilhelmsson-2011-automatic-259874,
	title        = {Automatic Question Generation from Swedish Documents as a Tool for Information Extraction},
	abstract     = {An implementation of automatic question generation (QG) from raw Swedish text is presented. QG is here chosen as an alternative to natural query systems where any query can be posed and no indication is given of whether the current text database includes the information sought for. The program builds on parsing with grammatical functions from which corresponding questions are generated and it incorporates the article database of Swedish Wikipedia. The pilot system is meant to work with a text shown in the GUI and auto-completes user input to help find available questions. The act of question generation is here described together with early test results regarding the current produced questions.},
	booktitle    = {Proceedings of the 18th Nordic Conference of Computational Linguistics NODALIDA 2011, NEALT Proceedings Series Vol. 11},
	author       = {Wilhelmsson, Kenneth},
	year         = {2011},
	publisher    = { Northern European Association for Language Technology (NEALT) },
	address      = {Tartu},
}

@incollection{wilhelmsson-2017-forutsattningarna-249467,
	title        = {Om förutsättningarna för språkligt datorstöd på ordnivån och uppåt},
	booktitle    = {Text och kontext - perspektiv på textanalys  / Karin Helgesson, Hans Lundqvist, Anna Lyngfelt, Andreas Nord & Åsa Wengelin (red.)},
	author       = {Wilhelmsson, Kenneth},
	year         = {2017},
	publisher    = {Gleerups},
	address      = {Malmö},
	ISBN         = {978-91-40-69364-8},
	pages        = {207--228},
}

@techreport{wilhelmsson-2016-huvudansatser-247442,
	title        = {Huvudansatser för parsningsmetoder. Om programutvecklingens förutsättningar i en svensk kontext},
	abstract     = {Syftet med denna text var att ge en inblick i området (syntaktisk) parsning. Tanken
var att ge en bild av utvecklingen som var 1) fri från alltför tekniska detaljer, då
området är programmeringstekniskt, och 2) beskriven ur ett svenskt perspektiv.
Bakgrunden till valet av ämne till texten, som var tänkt att finnas med i antologin
Text och kontext, var att parsning är relativt okänt för många personer verksamma
inom närliggande områden, samtidigt som det är ett absolut nyckelbegrepp för
den som ägnar sig åt datorlingvistik eller språkteknologi.
Målet var alltså att ge en ganska allmän utifrånblick på några centrala sidor av
utvecklingen, samtidigt som det tydligt är så att den som själv arbetat med
utveckling kan ha starka åsikter och preferenser rörande metodval, något som i
ärlighetens namn kanske inte heller denna text är lösgjord från.
Hur ska det göras? Konsten att utveckla automatisk syntaxanalys av naturlig text
kan läras ut från ett flertal perspektiv. Det kan t.ex. ske med fokus på användandet
av en viss grammatikformalism, med fokus på beräkningssnabbhet, med fokus på
entydiggörande av möjliga ambiguiteter. Tolkningsval kan göras med hjälp av
antingen handskrivna regler eller inhämtad statistik.
En sorts huvudtema i denna text är hur metoder för parsning på senare år uppvisar
förändringar som kanske kan förklaras med att programmen har fått andra
användningsområden och att metoderna har anpassats därefter (en annan tolkning
är att flera senare system inte längre gör parsning i strikt mening).
När detta tänkta ”kapitel” var färdigt fick det kommentaren att det inte var
anpassat för antologins målgrupp. Det fick skrivas en annan kapiteltext, men det
kom samtidigt ett förslag att publicera texten om parsning här som denna rapport.},
	author       = {Wilhelmsson, Kenneth},
	year         = {2016},
	publisher    = {Göteborgs universitet},
	address      = {Göteborg},
}

@misc{wilhelmsson-2015-autentiska-249227,
	title        = {Autentiska och artificiella frågor till svensk text Automatisk frågegenerering jämfört med användares frågor för informationsåtkomst},
	abstract     = {Informationssökning mot ostrukturerade datakällor som fri text är ett av de områden där användargränssnitt med fri formulering i naturligt språk har tagits fram. I ett sådant, eventuellt AI-betonat, system kan några grundläggande svårigheter från användarperspektivet märkas. En sådan svårighet är att en användare inte känner till huruvida en fråga som hon avser att ställa egentligen kan besvaras av den aktuella texten. Denna svårighet, tillsammans med andra, som de kraftiga variationsmöjligheterna för formen för ett giltigt svar på en ställd fråga, riskerar att leda till att användarintrycken av systemtypen blir negativa.
De moment som behöver ingå i ett sådant frågebaserat informationssystems funktionssätt måste på något sätt inbegripa en mappning av frågeled i frågan (t.ex. när) till den form och grammatisk funktion som svaret i texten måste ha (för frågan när normalt ett tidsadverbial). Bland annat denna iakttagelse inbjuder till användning av automatisk frågegenerering (question generation, QG). Frågegenerering innebär att frågor som en naturlig text besvarar initialt utvinns av ett program som samlar in dem i explicit form. Tanken för användning i informationssökning är att en användare i gränssnittet enbart ska kunna ställa just dessa frågor, vilka faktiskt besvaras av texten.
Denna studie gäller just de frågor som ett automatiskt frågegenereringssystem för svenska kan, och genom vidare utveckling, skulle kunna generera för godtycklig digital svensk text. Även om mängden automatiskt genererade frågor och frågeformuleringar kan bli mycket stor, utrymmesmässigt många gånger större än ursprungstexten, så är det tydligt att den beskrivna metoden för frågegenerering för svenska inte kan och troligen inte heller kommer att kunna förmås att skapa alla de frågor och frågeformuleringar som en vanlig användare skulle anse att en viss text besvarar. Men hur väl fungerar då automatiskt genererade frågor i detta sammanhang?
Denna uppsats kretsar kring en användarundersökning där undersökningsdeltagare har ombetts att formulera frågor som texter besvarar, och som anses vara relevanta frågor. Den resulterande samlingen frågor undersöktes och kategoriserades. Resultatet av undersökningens huvudfråga visar att bara 20-25 % av användarnas frågeformuleringar skulle kunna genereras direkt automatiskt med aktuell ansats – utan vissa informationstekniska förbättringar.
Uppsatsen föreslår viss ny terminologi för detta outforskade område, bl.a. för att skilja mellan de olika grader av processkrav som generering av olika frågeslag från text kräver.},
	author       = {Wilhelmsson, Kenneth},
	year         = {2015},
	address      = {Göteborgs universitet, Inst för tillämpad IT},
}

@misc{ellison-wilhelmsson-2001-implementation-249271,
	title        = {En implementation för domänoberoende textkategorisering},
	author       = {Ellison, Magnus and Wilhelmsson, Kenneth},
	year         = {2001},
	publisher    = {Datavetenskapligt program, Datalingvistikprogrammet},
	address      = {Göteborg},
}

@inProceedings{wilhelmsson-2010-automatisk-247440,
	title        = {Automatisk generering av frågor som svensk text besvarar: ett informationssystem},
	abstract     = {Vilken information kan en text sägas innehålla? Ett enkelt svar är ”de frågor som den besvarar.” I vilken grad går det i så fall att automatiskt generera dessa frågor och därmed programmera ett frågebesvarande informationssystem för svensk text?},
	booktitle    = {Röster från Humanisten 2010},
	author       = {Wilhelmsson, Kenneth},
	year         = {2010},
}

@inProceedings{wilhelmsson-2012-automatic-165989,
	title        = {Automatic question generation for Swedish: The current state},
	abstract     = {The research area of question generation (QG), in its current form, has a relatively brief history within NLP. A description of the current question generation implementation for Swedish text built on schema parsing is here presented and exemplified. Underlying the current approach is the view of ‘all textual information as answers to questions.’ This paper discusses strategies for enhanced functionality for arbitrary Swedish text through extended question generation. It also brings up some theoretical issues regarding the nature of the task, and concerns practical considerations in an area such as Intelligent CALL (ICALL) where this type of application has been considered for English.

ISSN (print): 1650-3686, ISSN (online): 1650-3740},
	booktitle    = {Proceedings of the SLTC 2012 workshop on NLP for CALL, Lund, 25th October, 2012, Linköping Electronic Conference Proceedings},
	author       = {Wilhelmsson, Kenneth},
	year         = {2012},
	volume       = {80},
	pages        = {71--79},
}

@inProceedings{wilhelmsson-2008-heuristic-79686,
	title        = {Heuristic Schema Parsing of Swedish Text},
	abstract     = {A method for identification of the primary (main clause) functional constituents of Swedish sentences is outlined. The method gives a robust analysis of the unbounded constituents (phrases which do not have an upper bound on their length: subjects, objects/predicatives and adverbials) by first identifying bounded constituents. Diderichsen’s sentence schema, chunking, syntactic valency data and heuristics are used for the delimitation of the constituents and labelling with grammatical functions.},
	booktitle    = {Proceedings of the Swedish Language Technology Conference (SLTC'08)},
	author       = {Wilhelmsson, Kenneth},
	year         = {2008},
	pages        = {41--42},
}

@techreport{hoglund-etal-2012-maskininlarningsbaserad-159347,
	title        = {Maskininlärningsbaserad indexering av digitaliserade museiartefakter - projektrapport},
	abstract     = {Projektet har genomfört försök med maskinbaserad analys och maskininlärning för 
automatisk indexering och analys av bilder som stöd för registrering av föremål i 
museibestånd. Resultaten visar att detta är möjligt för avgränsade delmängder i kombination 
med maskininlärning som stöd för, men inte som ersättning för, manuell analys. Projektet har 
också funnit behov av utveckling av ett användargränssnitt för både text och bildsökning och 
utvecklat en prototyplösning för detta, vilket finns dokumenterat i denna rapport och i ett 
separat appendix till rapporten. Materialet utgör grundunderlag för implementeringar som 
innebär utökade sökmöjligheter, effektivare registrering samt ett användarvänligt gränssnitt. 
Arbetet ligger i framkant av forskningsområdets resultat och etablerade metoder och 
kombinerar statististiska, lingvistiska och datavetenskapliga metoder.  

Se länk till rapport och även länk till appendix längre ned. 
},
	author       = {Höglund, Lars and Eklund, Johan and Wilhelmsson, Kenneth},
	year         = {2012},
	publisher    = {University of Gothenburg},
	address      = {Göteborg},
}

@techreport{wilhelmsson-2012-adverbialkarakteristik-160440,
	title        = {Adverbialkarakteristik för praktisk informationsextraktion i svensk text - Projektrapport},
	abstract     = {Den aktuella rapporten beskriver ett projekt som i första hand har inneburit ett praktiskt arbete syftande till att skapa en automatiserad process som returnerar frågeled, t.ex. varifrån, för adverbialled, t.ex. inifrån rummet, i svensk digital text. Det är en utbytesprocess som behövs av rent praktiska skäl i uppgiften frågegenerering, vilken innebär att en samling frågor som en text besvarar genereras snabbt automatiskt. Denna process finner sin plats i program som på olika sätt syftar till att ge informationsåtkomst i godtycklig okänd svensk text. Det är i detta tillämpningsfall fråga om att på något sätt öppna upp för den stora informationsmängd som i datalogiskt perspektiv ligger ’ostrukturerad’, dvs. i naturligt språk-form.

Syftet med att avgöra lämpliga frågeled (ofta till en hv-form) för förekommande satsled i text har dock förmodligen en mer allmän relevans än användning i nämnda programtyp. Förutom att också behövas i andra liknande datalingvistiska applikationer kan själva frågeställningen rymmas inom ramarna för grundforskningen. De vanliga semantiskt grundade adverbialkategorierna (vilka skiljer sig åt mellan olika grammatikor) definierar gärna adverbialkategorier just genom att beskriva vilka slags frågor de besvarar. Att som här sikta på att avgöra frågeled för adverbial är en mer detaljerad uppgift än att avgöra adverbialkategori.

Den praktiska metod som implementerats i projektet kan sönderdelas i ett antal steg som antas vara allmängiltiga och svåra att undgå med det aktuella syftet. Indata till programmet är ett i princip godtyckligt adverbialled som användaren i prototypprogrammet kan skriva in. De nämnda steg som tar vid är de följande. 1) En uppmärkning med ordklass- och annan grammatisk information för varje löpord inleder. Detta sker med en statistisk trigrambaserad s.k. Hidden Markov-modell. 2/3) Ett avgörande av vilken strukturtyp som ledet har (bisats, PP, etc.) görs utifrån löporden med informationen i föregående steg. Intimt förknippat med denna uppgift är bestämning av huvudord, och för flera led även bestämning av andra signifikanta komponenter som rektionshuvudord. Lösningen till detta delsteg heter rangbaserad chunkning. 4) De steg som följer härefter skiljer sig mycket åt beroende på den aktuella strukturtypen. För prepositionsfraser undersöks t.ex. preposition och, beroende på vilken preposition det är fråga om, rektionshuvudord, dess grundform och andra ingående textsegment. I arbetet har t.ex. SweFN (Borin, Dannélls, Forsberg, Toporowska Gronostaj, & Kokkinakis, 2010) delvis undersökts för att eventuellt förbättra avgörandet av substantivsemantik, vilket ofta blir relevant för PP-adverbial.

Rapporten visar hur uppgiften praktiskt sett varierar mycket i svårighetsgrad, från de fall där adverbialet utgörs av t.ex. particip-, adverbfraser eller bisatser, då en mappning till motsvarande frågeled ofta kan ske direkt utifrån huvudordet – till de mest komplicerade fallen av PP och s.k. som-fraser där kombinationer av huvudord, rektionshuvudord, dess grundform samt annan syntaktisk och semantisk information krävs för att urskilja förekomsters särskilda frågemotsvarigheter. Ett återkommande tema i det praktiska arbetet är undantag som behöver kännas igen. Exempelvis kategorin satsadverbial, som kan anta många olika strukturella former men som ändå oftast renderar resultatet ’ingen frågemotsvarighet’, måste kännas igen uttryckligen (ev. tillsammans med andra med samma frågeledsresultat). Även processen som helhet bygger emellertid programmeringstekniskt på grundfall och undantag. I många fall, som t.ex. för i-PP finns det en mängd olika motsvarigheter och vad som får utgöra grundfall i programmet blir en empirisk/heuristisk fråga under det att regler skrivs mot faktiska förekomster av adverbial i Stockholm Umeå Corpus (Hädanefter SUC). Att i liksom andra prepositioner kan sägas ha en prototypisk riktningsbetydelse betyder inte att var nödvändigtvis ska fungera som utgångsfall. Det förekommer ’lager’ av undantag inom olika strukturslag i programmet men även externt motiverade sådana utgående från huvudverbet, som genom valensmatchning kan klargöra att ett adverbial är ’prepositionsobjekt’ och därmed får andra omfrågningsegenskaper. De användargränssnitt som skapats och använts för regelskrivande utifrån faktiska exempel har tillåtit viss omedelbar regeluppdatering och återkontroll vid åsynen av felaktiga resultat. Det är också genom tillägg av nya undantagsregler i någon mening som programmet rimligen ska kunna förbättras framöver från den aktuella kvalitetsnivån. Korrektheten som uppnåtts hittills är inte kvantitativt övertygande men detta arbete som saknar föregångare möjliggör kontinuerlig förbättring genom programmet. 

Projektet visar att mappningsuppgiften…},
	author       = {Wilhelmsson, Kenneth},
	year         = {2012},
	publisher    = {University of Gothenburg},
	address      = {Göteborg},
}

@article{wilhelmsson-2008-automatic-79714,
	title        = {Automatic Variation of Swedish Text by Syntactic Fronting},
	abstract     = {Ongoing work with a prototype implementation for automatic fronting of primary (main clause) constituents in Swedish input text is described. Linguistic constraints and some technical aspects are also discussed.},
	journal      = {Proceedings of the Workshop on NLP for Reading and Writing — Resources, Algorithms and Tools  November 20, 2008 Stockholm, Sweden SLTC 2008, NEALT Proceedings Series},
	author       = {Wilhelmsson, Kenneth},
	year         = {2008},
	volume       = {3 },
	pages        = {22--23},
}

@article{wilhelmsson-2010-automatisk-137859,
	title        = {Automatisk generering av frågor som svensk text besvarar: ett informationssystem},
	abstract     = {Vilken information kan en text sägas innehålla? Ett enkelt svar är ”de frågor som den besvarar.” I vilken grad går det i så fall att automatiskt generera dessa frågor och därmed programmera ett frågebesvarande informationssystem för svensk text?

Ett prototypsystem för denna uppgift har skapats som en del av ett avhandlingsprojekt inom språkteknologi. Det vore till exempel möjligt att vidareutveckla det system som här visas till en allmän teknisk tjänst, t.ex. webbaserad, som ger användare möjlighet att söka efter information med naturligt språk i en valfri digital text.

Denna text tar upp de allmänna förutsättningarna för automatisk generering av de frågor som en svensk text besvarar. Själva den teoretiska uppgiften har egenskaper som kan sägas vara lingvistiska eller informationsteoretiska. För att skapa det program som här beskrivs har dessutom naturligtvis en programmeringsinsats krävts, men denna kommer inte att tas upp här, den rent praktiska sidan av uppgiften är möjlig att lösa på många sätt.

http://www.hum.gu.se/samverkan/popularvetenskap/roster-fran-humanisten-2010/

http://hdl.handle.net/2320/7176
},
	journal      = {Röster från Humanisten, 2010},
	author       = {Wilhelmsson, Kenneth},
	year         = {2010},
	volume       = {2010},
}

@book{wilhelmsson-2010-heuristisk-132135,
	title        = {Heuristisk analys med Diderichsens satsschema – Tillämpningar för svensk text, 2 uppl},
	abstract     = {A heuristic method for parsing Swedish text, heuristic schema parsing, is described and implemented. Focusing on main clause (primary) analysis, a collection of licensing techniques for removing non-primary verb candidates is employed, leaving e.g. the primary verbs, particles and conjunctions (bounded key constituents) that delimit the content of the fields in Diderichsen’s sentence schema. Hereby, the subsequent identification of constituents which do not have an upper bound on their length (subject, object/predicatives and adverbials) can be identified relying to a lesser on extent explicit pattern matching, and more on different heuristic rules. For phrase type identification and delimitation of these constituents, when adjacent to each other, a novel chunking technique, rank-based chunking, is applied. Following this, a series of further rules merge chunks into larger ones, aiming at a final number of nominal chunks compatible with the valency information of the main verb. The aim is to identify full nominal and adverbial constituents, including post-modifiers. The implementation uses the Stockholm Umeå Corpus 2.0, a corpus which is balanced for different genres in published Swedish text. SUC’s tagset is also used unmodified in part-of-speech tagging which enables the program to deal with input text. The functional parsing, which includes no explicit language-defining grammar component is carried out technically using an object-based representation of clause structure.

The thesis work also includes two prototype applications, both requiring high accuracy of the sort of functional syntactic analysis described here. The first one is an implementation of automatic syntactic fronting in the area of text editing for Swedish, where the user is presented with a syntactically analyzed copy of her writing, from which paraphrases easily can be generated. The second application is in the field of natural language query systems and produces questions with answers from an arbitrary declarative input text. This prototype incorporates a text database from Swedish Wikipedia, and investigates primarily generation of WH-questions formed via fronting of unbounded primary constituents. The questions are generated as a text is opened and thus permits users to only ask the available ones, thus aiming at a high precision value.
},
	author       = {Wilhelmsson, Kenneth},
	year         = {2010},
	publisher    = {University of Gothenburg},
	address      = {Göteborg},
	ISBN         = {978-91-977196-9-8},
}

@book{wilhelmsson-2010-heuristisk-126092,
	title        = {Heuristisk analys med Diderichsens satsschema - Tillämpningar för svensk text},
	abstract     = {A heuristic method for parsing Swedish text, heuristic schema parsing, is described and implemented. Focusing on main clause (primary) analysis, a collection of licensing techniques for removing non-primary verb candidates is employed, leaving e.g. the primary verbs, particles and conjunctions (bounded key constituents) that delimit the content of the fields in Diderichsen’s sentence schema. Hereby, the subsequent identification of constituents which do not have an upper bound on their length (subject, object/predicatives and adverbials) can be identified relying to a lesser on extent explicit pattern matching, and more on different heuristic rules. For phrase type identification and delimitation of these constituents, when adjacent to each other, a novel chunking technique, rank-based chunking, is applied. Following this, a series of further rules merge chunks into larger ones, aiming at a final number of nominal chunks compatible with the valency information of the main verb. The aim is to identify full nominal and adverbial constituents, including post-modifiers. The implementation uses the Stockholm Umeå Corpus 2.0, a corpus which is balanced for different genres in published Swedish text. SUC’s tagset is also used unmodified in part-of-speech tagging which enables the program to deal with input text. The functional parsing, which includes no explicit language-defining grammar component is carried out technically using an object-based representation of clause structure.

Although output formats and types of evaluations of correctness are very different in parsers for Swedish text, it is claimed that the manual approach presented can provide high accuracy, which can be improved given more time for development.

The thesis work also includes two prototype applications, both requiring high accuracy of the sort of functional syntactic analysis described here. The first one is an implementation of automatic syntactic fronting in the area of text editing for Swedish, where the user is presented with a syntactically analyzed copy of her writing, from which paraphrases easily can be generated. The second application is in the field of natural language query systems and produces questions with answers from an arbitrary declarative input text. This prototype incorporates a text database from Swedish Wikipedia, and investigates primarily generation of WH-questions formed via fronting of unbounded primary constituents. The questions are generated as a text is opened and thus permits users to only ask the available ones, thus aiming at a high precision value.},
	author       = {Wilhelmsson, Kenneth},
	year         = {2010},
	publisher    = {University of Gothenburg},
	address      = {Göteborg},
}