Hur kan datadrivna maskininlärningsmodeller som BERT och ChatGTP anpassas till språk som är underrepresenterade i digitala sammanhang? Det är en av frågorna på den andra workshopen om resurser och representationer för underrepresenterade språk och domäner, RESOURCEFUL-2023, som äger rum 22 maj på Färöarna.
Datadrivna maskininlärningsmodeller som BERT och ChatGPT har uppnått bra prestanda på engelska och andra språk som har stora mängder data att träna på. Men frågan kvarstår hur dessa modeller kan anpassas till språk och domäner som inte är lika resursstarka.
RESOURCEFUL-2023 riktar sig till forskare och doktorander inom lingvistik, psykologi, datorlingvistik, datorvetenskap och maskininlärning och syftar till att initiera diskussioner kring bland annat följande frågeställningar:
- Vilken relevant lingvistisk kunskap bör modeller lära sig, och hur kan detta utvärderas?
- Vilken typ av lingvistisk kunskap är relevant för en modell givet att den ska lösa en specifik uppgift i ett eller flera språk/domäner?
- Vilken typ av annoterad data kan användas för datadrivna metoder?