Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

swe-namedentity-swener

Citering Information

Språkbanken Text (2020). swe-namedentity-swener (uppdaterad: 2020-05-13). [Analysis]. Språkbanken Text.
Namnigenkänning känner igen och förser namn och namnliknande uttryck (s.k. entiteter) i löpande text med fördefinierade etiketter, som organisation, person eller plats.

Namnigenkänning är en språkteknologisk tekniks som automatiskt känner igen och förser namn och namnliknande uttryck (s.k. entiteter) i löpande text med fördefinierade etiketter, som t. ex. person eller organisationer, men, beroende på tillämpningsområdet, även numeriska uttryck och tidsuttryck. HFST-SweNER bygger på konvertering, modellering och anpassning av en tidigare svenskt NER-system till Helsinki Finite-State Transducer Technology (HFST)-plattformen. HFST-SweNER är en fullfjädrad implementering med öppen källkod som stöder en mängd olika generiska namngivna entitetstyper och består av flera lexikala resurslager såsom olika n-gram-baserade namngivna namnlistor (s.k. gazetteers).

Exempel

This analysis is used with Sparv. Check out Sparv's quick start guide to get started!

To use this analysis, add the following lines under export.annotations in the Sparv corpus configuration file:

- swener.ne  # Named entity segments from SweNER
- swener.ne:swener.name  # Names in SweNER named entities
- swener.ne:swener.ex  # Named entity expressions from SweNER
- swener.ne:swener.type  # Named entity types from SweNER
- swener.ne:swener.subtype  # Named entity sub types from SweNER

For more info on how to use Sparv, check out the Sparv documentation.

Example output:

<ne ex="ENAMEX" name="Alfred Bernhard Nobel" subtype="HUM" type="PRS">
  <token>Alfred</token>
  <token>Bernhard</token>
  <token>Nobel</token>
</ne>
<token>,</token>
<token>född</token>
<ne ex="TIMEX" name="21 oktober 1833" subtype="DAT" type="TME">
  <token>21</token>
  <token>oktober</token>
  <token>1833</token>
</ne>
<token>i</token>
<ne ex="ENAMEX" name="Stockholm" subtype="PPL" type="LOC">
  <token>Stockholm</token>
</ne>
<token>,</token>
<ne ex="ENAMEX" name="Italien" subtype="PPL" type="LOC">
  <token>Italien</token>
</ne>
<token>,</token>
<token>var</token>
<token>en</token>
<token>svensk</token>
<token>kemist</token>
<token>och</token>
<token>stiftare</token>
<token>av</token>
<ne ex="ENAMEX" name="Nobelpriset" subtype="PRZ" type="OBJ">
  <token>Nobelpriset</token>
</ne>

Utvärderingsresultat

f-score between 91.33% to 27.48%, depending on the named entity category

Övriga referenser

Typ

  • Analys

Uppgift

named entity recognition

Verktyg

HFST-SweNER

Modell

Included in the tool

Skapad

2014-07-04

Uppdaterad

2020-05-13

Kontakt

Språkbanken Text
sb-info@svenska.gu.se