Namnigenkänning är en språkteknologisk tekniks som automatiskt känner igen och förser namn och namnliknande uttryck (s.k. entiteter) i löpande text med fördefinierade etiketter, som t. ex. person eller organisationer, men, beroende på tillämpningsområdet, även numeriska uttryck och tidsuttryck. HFST-SweNER bygger på konvertering, modellering och anpassning av en tidigare svenskt NER-system till Helsinki Finite-State Transducer Technology (HFST)-plattformen. HFST-SweNER är en fullfjädrad implementering med öppen källkod som stöder en mängd olika generiska namngivna entitetstyper och består av flera lexikala resurslager såsom olika n-gram-baserade namngivna namnlistor (s.k. gazetteers).
Citering
Språkbanken Text (2020). swe-namedentity-swener (uppdaterad: 2020-05-13). [Analysis]. Språkbanken Text.Namnigenkänning känner igen och förser namn och namnliknande uttryck (s.k. entiteter) i löpande text med fördefinierade etiketter, som organisation, person eller plats.
Exempel
This analysis is used with Sparv. Check out Sparv's quick start guide to get started!
To use this analysis, add the following lines under export.annotations
in the Sparv corpus configuration file:
- swener.ne # Named entity segments from SweNER
- swener.ne:swener.name # Names in SweNER named entities
- swener.ne:swener.ex # Named entity expressions from SweNER
- swener.ne:swener.type # Named entity types from SweNER
- swener.ne:swener.subtype # Named entity sub types from SweNER
For more info on how to use Sparv, check out the Sparv documentation.
Example output:
<ne ex="ENAMEX" name="Alfred Bernhard Nobel" subtype="HUM" type="PRS">
<token>Alfred</token>
<token>Bernhard</token>
<token>Nobel</token>
</ne>
<token>,</token>
<token>född</token>
<ne ex="TIMEX" name="21 oktober 1833" subtype="DAT" type="TME">
<token>21</token>
<token>oktober</token>
<token>1833</token>
</ne>
<token>i</token>
<ne ex="ENAMEX" name="Stockholm" subtype="PPL" type="LOC">
<token>Stockholm</token>
</ne>
<token>,</token>
<ne ex="ENAMEX" name="Italien" subtype="PPL" type="LOC">
<token>Italien</token>
</ne>
<token>,</token>
<token>var</token>
<token>en</token>
<token>svensk</token>
<token>kemist</token>
<token>och</token>
<token>stiftare</token>
<token>av</token>
<ne ex="ENAMEX" name="Nobelpriset" subtype="PRZ" type="OBJ">
<token>Nobelpriset</token>
</ne>
Utvärderingsresultat
f-score between 91.33% to 27.48%, depending on the named entity category
Övriga referenser
Dimitrios Kokkinakis. 2004. Reducing the effect of name explosion
Download HFST-SweNER: https://www.kielipankki.fi/download/HFST-SweNER/