Digitalni repozitorij raziskovalnih organizacij Slovenije

Izpis gradiva
A+ | A- | Pomoč | SLO | ENG

Naslov:FuDoBa : fusing document and knowledge graph based representations with Bayesian optimisation
Avtorji:ID Koloski, Boshko, Institut "Jožef Stefan" (Avtor)
ID Pollak, Senja, Institut "Jožef Stefan" (Avtor)
ID Navigli, Roberto (Avtor)
ID Škrlj, Blaž, Institut "Jožef Stefan" (Avtor)
Datoteke:URL URL - Izvorni URL, za dostop obiščite https://link.springer.com/article/10.1007/s10994-026-07008-y
 
.pdf PDF - Predstavitvena datoteka, prenos (7,33 MB)
MD5: 9BB8D0EAE48F39924BFB52DCFE589268
 
Jezik:Angleški jezik
Tipologija:1.01 - Izvirni znanstveni članek
Organizacija:Logo IJS - Institut Jožef Stefan
Povzetek:Building on the success of large language models (LLMs), LLM-based representations have dominated the document representation landscape, achieving strong performance on document embedding benchmarks. However, high-dimensional, computationally expensive LLM embeddings can be too generic or inefficient for domain-specific and resource-scarce applications. To address these limitations, we introduce FuDoBa—a Bayesian optimisation-based representation learning method that integrates LLM embeddings with domain-specific structured knowledge, sourced both locally and from external repositories such as WikiData. This fusion produces low-dimensional, task-relevant representations while reducing training complexity and yielding interpretable early-fusion weights for improved classification performance. We demonstrate the effectiveness of our approach on six datasets across two domains, showing that when paired with robust AutoML-based classifiers, our method performs on par with, or surpasses, proprietary LLM-only embedding baselines, while offering modality-wise interpretability and a smaller dimensional footprint.
Ključne besede:document classification, Bayesian optimisation, representation learning, knowledge graphs
Status publikacije:Objavljeno
Verzija publikacije:Objavljena publikacija
Poslano v recenzijo:23.04.2025
Datum sprejetja članka:02.02.2026
Datum objave:06.03.2026
Založnik:Springer Nature
Leto izida:2026
Št. strani:str. 1-39
Številčenje:Vol. 115, article no. 61
Izvor:Švica
PID:20.500.12556/DiRROS-28309 Novo okno
UDK:004.8
ISSN pri članku:1573-0565
DOI:10.1007/s10994-026-07008-y Novo okno
COBISS.SI-ID:271609091 Novo okno
Avtorske pravice:© The Author(s) 2026
Opomba:Nasl. z nasl. zaslona; Soavtorja iz Slovenije: Senja Pollak, Blaž Škrlj; Opis vira z dne 13. 3. 2026;
Datum objave v DiRROS:13.03.2026
Število ogledov:22
Število prenosov:20
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
  
Objavi na:Bookmark and Share


Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Gradivo je del revije

Naslov:Machine learning
Skrajšan naslov:Mach. learn.
Založnik:Kluwer
ISSN:1573-0565
COBISS.SI-ID:513211417 Novo okno

Gradivo je financirano iz projekta

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:GC-0001-2024
Naslov:Umetna inteligenca za znanost

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:GC-0002-2024
Naslov:Veliki jezikovni modeli za digitalno humanistiko

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:L2-50070-2023
Naslov:Tehnike vektorskih vložitev za medijske aplikacije

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:J5-3102-2021
Naslov:Sovražni govor v sodobnih konceptualizacijah nacionalizma, rasizma, spola in migracij

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:P2-0103-2022
Naslov:Tehnologije znanja

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Program financ.:Young Researcher Grant
Številka projekta:PR-12394

Financer:Italian Ministry of University and Research (Ministero dell'Università e della Ricerca)
Številka projekta:MIUR_PRIN 2020 2020ZSL9F9
Naslov:CRoss-modal understanding and gEnerATIon of Visual and tExtual content
Akronim:CREATIVE

Licence

Licenca:CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.
Začetek licenciranja:06.03.2026
Vezano na:VoR

Sekundarni jezik

Jezik:Slovenski jezik
Naslov:FuDoBa: fusing document and knowledge graph based representations with Bayesian optimisation
Ključne besede:razvrščanje dokumentov, optimizacija, grafi znanja


Nazaj