Mono- and cross-lingual evaluation of representation language models on less-resourced languages

Ulčar, Matej; Žagar, Aleš; Armendariz, Carlos S.; Repar, Andraž; Pollak, Senja; Purver, Matthew; Robnik Šikonja, Marko

Izpis gradiva
A+ | A- | | SLO | ENG

Naslov:	Mono- and cross-lingual evaluation of representation language models on less-resourced languages
Avtorji:	ID Ulčar, Matej (Avtor) ID Žagar, Aleš (Avtor) ID Armendariz, Carlos S. (Avtor) ID Repar, Andraž, Institut "Jožef Stefan" (Avtor) ID Pollak, Senja, Institut "Jožef Stefan" (Avtor) ID Purver, Matthew, Institut "Jožef Stefan" (Avtor) ID Robnik Šikonja, Marko (Avtor)
Datoteke:	URL - Izvorni URL, za dostop obiščite https://www.sciencedirect.com/science/article/pii/S0885230825000774?via%3Dihub PDF - Predstavitvena datoteka, prenos (2,28 MB) MD5: B4BE1F405393A7D919CA1A369BFD46BC
Jezik:	Angleški jezik
Tipologija:	1.01 - Izvirni znanstveni članek
Organizacija:	IJS - Institut Jožef Stefan
Povzetek:	The current dominance of large language models in natural language processing is based on their contextual awareness. For text classification, text representation models, such as ELMo, BERT, and BERT derivatives, are typically fine-tuned for a specific problem. Most existing work focuses on English; in contrast, we present a large-scale multilingual empirical comparison of several monolingual and multilingual ELMo and BERT models using 14 classification tasks in nine languages. The results show, that the choice of best model largely depends on the task and language used, especially in a cross-lingual setting. In monolingual settings, monolingual BERT models tend to perform the best among BERT models. Among ELMo models, the ones trained on large corpora dominate. Cross-lingual knowledge transfer is feasible on most tasks already in a zero-shot setting without losing much performance.
Ključne besede:	monolingual models, multilingual models, ELMo, BERT, corpus, cross-lingual datasets
Status publikacije:	Objavljeno
Verzija publikacije:	Objavljena publikacija
Poslano v recenzijo:	03.09.2023
Datum sprejetja članka:	03.06.2025
Datum objave:	27.06.2025
Založnik:	Elsevier
Leto izida:	2026
Št. strani:	1-29 str.
Številčenje:	Vol. 95, [article no.] 101852
Izvor:	Nizozemska
PID:	20.500.12556/DiRROS-22874
UDK:	004.8
ISSN pri članku:	1095-8363
DOI:	10.1016/j.csl.2025.101852
COBISS.SI-ID:	241622275
Avtorske pravice:	© 2025 The Authors.
Opomba:	Nasl. z nasl. zaslona; Opis vira z dne 7. 7. 2025;
Datum objave v DiRROS:	07.07.2025
Število ogledov:	327
Število prenosov:	214
Metapodatki:
:	Kopiraj citat

Objavi na:

Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Gradivo je del revije

Naslov:	Computer speech & language
Skrajšan naslov:	Comput. speech lang.
Založnik:	Academic Press
ISSN:	1095-8363
COBISS.SI-ID:	203927043

Gradivo je financirano iz projekta

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P6-0411
Naslov:	Jezikovni viri in tehnologije za slovenski jezik

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	P2-0103
Naslov:	Tehnologije znanja

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	L2-50070
Naslov:	Tehnike vektorskih vložitev za medijske aplikacije

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	J7-3159
Naslov:	Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	GC-0002
Naslov:	Veliki jezikovni modeli za digitalno humanistiko

Financer:	Ministry of Higher Education, Science and Innovation of the Republic of Slovenia and European Union – NextGeneration EU
Naslov:	Adaptive Natural Language Processing with Large Language Models
Akronim:	PoVeJMo

Financer:	ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:	BI-FR/23-24-PROTEUS-006
Naslov:	Čezjezikovne in čezdomenske metode za luščenje in poravnavo terminologije

Financer:	UK EPSRC
Številka projekta:	EP/S033564/1

Financer:	EPSRC/AHRC Centre for Doctoral Training in Media and Arts Technology
Številka projekta:	EP/L01632X/1

Financer:	EC - European Commission
Program financ.:	H2020
Številka projekta:	825153
Naslov:	Cross-Lingual Embeddings for Less-Represented Languages in European News Media
Akronim:	EMBEDDIA

Financer:	EC - European Commission
Program financ.:	HE
Številka projekta:	101186647
Naslov:	Centre of Excellence in Artificial Intelligence for Digital Humanities
Akronim:	AI4DH

Licence

Licenca:	CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:	To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.
Začetek licenciranja:	27.06.2025
Vezano na:	VoR

Sekundarni jezik

Jezik:	Slovenski jezik
Ključne besede:	korpusi, večjetični veliki modeli

Nazaj

Izpis gradiva A+ | A- | | SLO | ENG

Gradivo je del revije

Gradivo je financirano iz projekta

Licence

Sekundarni jezik

Izpis gradiva
A+ | A- | | SLO | ENG