Digitalni repozitorij raziskovalnih organizacij Slovenije

Izpis gradiva
A+ | A- | Pomoč | SLO | ENG

Naslov:Grammatical error correction of Slovenian school essays using large language models
Avtorji:ID Klemen, Matej (Avtor)
ID Božič, Martin (Avtor)
ID Arhar Holdt, Špela (Avtor)
ID Robnik Šikonja, Marko (Avtor)
Datoteke:URL URL - Izvorni URL, za dostop obiščite https://www.sodobna-pedagogika.net/clanki/03-2025_popravljanje-slovnicnih-napak-v-slovenskih-esejih-z-velikimi-jezikovnimi-modeli/
 
.pdf PDF - Predstavitvena datoteka, prenos (284,22 KB)
MD5: 8FCBC4808B27CF0F4E3E8D990C1369CB
 
Jezik:Angleški jezik
Tipologija:1.02 - Pregledni znanstveni članek
Organizacija:Logo ZDPDS - Zveza društev pedagoških delavcev Slovenije
Povzetek:Grammatical error correction (GEC) is the task of automatically detecting and correcting grammatical errors in text. Large language models have enabled the development of accurate automated methods for detecting and correcting certain types of errors. In the educational domain, the aim of GEC is to aid teachers in correcting student errors. Excessive paraphrasing is a property of Generative Pre-trained Transformer-based models and is undesirable in the language education context. To avoid this, we develop multiple Slovenian models for correcting errors in spelling, word case (capitalization), word form, and word order. We describe the training data construction, training process, and model evaluation approach using the Šolar-Eval 1.0 corpus of school essays authored by primary and secondary school students. Our quantitative evaluation shows that the developed models have reasonably high accuracy levels, and our qualitative evaluation highlights the strengths and weaknesses of the models and the evaluation process. The analysis reveals multiple challenges and promising future directions for improving both model development and the evaluation process.
Ključne besede:large language models, grammatical error correction, educational domain, synthetic data construction
Status publikacije:Objavljeno
Verzija publikacije:Objavljena publikacija
Datum objave:01.10.2025
Leto izida:2025
Št. strani:str. 162-176
Številčenje:Letn. 76 = 142, št. 3
PID:20.500.12556/DiRROS-24472 Novo okno
UDK:371.68
ISSN pri članku:0038-0474
DOI:10.63384/sptB53z793a Novo okno
COBISS.SI-ID:259208195 Novo okno
Datum objave v DiRROS:01.12.2025
Število ogledov:60
Število prenosov:35
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
  
Objavi na:Bookmark and Share


Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Gradivo je del revije

Naslov:Sodobna pedagogika
Skrajšan naslov:Sodob. pedagog.
Založnik:Zveza društev pedagoških delavcev Slovenije
ISSN:0038-0474
COBISS.SI-ID:761348 Novo okno

Gradivo je financirano iz projekta

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:J7-3159
Naslov:Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:GC-0002
Naslov:Veliki jezikovni modeli za digitalno humanistiko

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:L2-50070
Naslov:Tehnike vektorskih vložitev za medijske aplikacije

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:P6-0411
Naslov:Jezikovni viri in tehnologije za slovenski jezik

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:P6-0411
Naslov:Jezikovni viri in tehnologije za slovenski jezik

Financer:EC - European Commission
Program financ.:HE
Številka projekta:101186647
Naslov:Centre of Excellence in Artificial Intelligence for Digital Humanities
Akronim:AI4DH

Financer:Drugi - Drug financer ali več financerjev
Številka projekta:C3.K8.IB
Akronim:PoVeJMo

Financer:SLING
Številka projekta:S24O01-42

Licence

Licenca:CC BY-SA 4.0, Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by-sa/4.0/deed.sl
Opis:Ta licenca Creative Commons je zelo podobna običajni licenci Priznanje avtorstva, vendar zahteva, da so materialne avtorske pravice na izpeljanih delih upravljane z enako licenco.

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:Popravljanje slovničnih napak v slovenskih esejih z velikimi jezikovnimi modeli
Povzetek:Strojno popravljanje slovničnih napak je naloga, ki zajema samodejno zaznavanje in popravljanje slovničnih napak v besedilu. Na področju izobraževanja je cilj metod pomagati učiteljem pri popravljanju napak učencev. Veliki jezikovni modeli omogočajo razvoj natančnih avtomatskih metod za zaznavanje in popravljanje določenih vrst napak. Da bi se izognili pretiranemu parafraziranju, ki je značilno za modele tipa GPT, in je v kontekstu poučevanja jezika nezaželeno, predstavimo več razvitih slovenskih modelov tipa BERT in T5 za popravljanje različnih vrst napak. Te vključujejo črkovalne napake, napake v rabi velikih začetnic, besednih oblik in besednega reda. V članku opišemo postopek ustvarjanja učnih podatkov, postopek učenja ter postopek evalvacije modelov na korpusu Šolar-Eval 1.0, ki vsebuje šolske spise osnovnošolcev in srednješolcev. Avtomatska evalvacija kaže razmeroma visoko natančnost razvitih modelov, medtem ko ročna kvalitativna evalvacija razkrije prednosti in slabosti razvitih modelov ter evalvacijskega postopka. Analiza razkriva številne izzive in obetavne smeri za nadaljnje izboljšave tako pri razvoju modelov kot pri postopku evalvacije.
Ključne besede:veliki jezikovni modeli, popravljanje slovničnih napak, izobraževalna domena, sintetiziranje podatkov


Zbirka

To gradivo je del naslednjih zbirk del:
  1. Sodobna pedagogika

Nazaj