Fake news detection through LLM-driven text augmentation across media and languages

Sittar, Abdul; Smiljanić, Mateja; Guček, Alenka; Grobelnik, Marko

Izpis gradiva
A+ | A- | | SLO | ENG

Naslov:	Fake news detection through LLM-driven text augmentation across media and languages
Avtorji:	ID Sittar, Abdul, Institut "Jožef Stefan" (Avtor) ID Smiljanić, Mateja (Avtor) ID Guček, Alenka, Institut "Jožef Stefan" (Avtor) ID Grobelnik, Marko, Institut "Jožef Stefan" (Avtor)
Datoteke:	URL - Izvorni URL, za dostop obiščite https://www.mdpi.com/2504-4990/8/4/103 PDF - Predstavitvena datoteka, prenos (1,16 MB) MD5: E39200DAAD502418FED92E1A52628BBC
Jezik:	Angleški jezik
Tipologija:	1.01 - Izvirni znanstveni članek
Organizacija:	IJS - Institut Jožef Stefan
Povzetek:	The proliferation of fake news across social media, headlines, and news articles poses major challenges for automated detection, particularly in multilingual and cross-media settings affected by data imbalance. We propose a fake news detection framework based on LLM-driven, feature-guided text augmentation. The method generates realistic synthetic samples across languages, media types, and text granularities while preserving mean ing and stylistic coherence. Experiments with classical and transformer-based models (Random Forest, Logistic Regression, BERT, XLM-R) across social media, headlines, and multilingual news datasets show consistent improvements in performance. For inherently balanced datasets (e.g., social media), synthetic augmentation yields negligible but stable performance changes. Across imbalanced scenarios, synthetic augmentation substantially improves minority-class recall and F1-score (e.g., fake news recall from 0.57 to 0.86), while preserving majority-class performance, leading to more balanced and reliable classifiers, whereas oversampling significantly degrades results due to overfitting on duplicated language patterns. Overall, a hybrid semantic- and style-based model proves to be the most robust strategy, outperforming oversampling and matching or exceeding baseline performance across datasets
Ključne besede:	fake news detection, low-resource languages, data imbalance, synthetic data generation, prompt engineering, style-based features, semantic features
Status publikacije:	Objavljeno
Verzija publikacije:	Objavljena publikacija
Poslano v recenzijo:	02.03.2026
Datum sprejetja članka:	09.04.2026
Datum objave:	15.04.2026
Založnik:	MDPI
Leto izida:	2026
Št. strani:	str. 1-32
Številčenje:	Vol. 8, iss. 4, [article no.] 103
Izvor:	Švica
PID:	20.500.12556/DiRROS-29227
UDK:	004.8
ISSN pri članku:	2504-4990
DOI:	10.3390/make8040103
COBISS.SI-ID:	276627715
Avtorske pravice:	© 2026 by the authors.
Opomba:	Nasl. z nasl. zaslona; Soavtorji: Mateja Smiljanić, Alenka Guček, Marko Grobelnik; Opis vira z dne 28. 4. 2026;
Datum objave v DiRROS:	28.04.2026
Število ogledov:	321
Število prenosov:	230
Metapodatki:
:	Kopiraj citat

Objavi na:

Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Gradivo je del revije

Naslov:	Machine learning and knowledge extraction
Založnik:	MDPI
ISSN:	2504-4990
COBISS.SI-ID:	1537706179

Gradivo je financirano iz projekta

Financer:	EC - European Commission
Številka projekta:	101095095
Naslov:	TWin of Online Social Networks
Akronim:	TWON

Financer:	EC - European Commission
Številka projekta:	101252405
Naslov:	PERISCOPE project

Licence

Licenca:	CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna

Povezava:	http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:	To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.
Začetek licenciranja:	15.04.2026
Vezano na:	VoR

Sekundarni jezik

Jezik:	Slovenski jezik
Ključne besede:	prepoznavanje lažnih novic, jeziki z omejenimi viri, neuravnoteženost podatkov, generiranje sintetičnih podatkov, promptno inženirstvo, stilske značilke, semantične značilke

Nazaj

Izpis gradiva A+ | A- | | SLO | ENG

Gradivo je del revije

Gradivo je financirano iz projekta

Licence

Sekundarni jezik

Izpis gradiva
A+ | A- | | SLO | ENG