<?xml version="1.0" encoding="utf-8"?>
<Gradivo ID="23765" NadgradivoID="0" NRID="27377963" OceID="0" DomainUrl="https://dirros.openscience.si/" IzpisPolniUrl="https://dirros.openscience.si/IzpisGradiva.php?lang=slv&amp;id=23765" StOgledov="759" StPrenosov="355" StOcen="0" VsotaOcen="0" DatumIzvoza="2026-05-04 15:03:24" OcenaSkupna="0" StPodgradiv="0" StudijskiProgramEvsID="" JeIndeksirano="0" JeVecAvtorjev="0" DovoliZahtevkeZaDostop="0">
  <PID Url="http://hdl.handle.net/20.500.12556/DiRROS-23765">20.500.12556/DiRROS-23765</PID>
  <Naslov>User-defined trade-offs in LLM benchmarking</Naslov>
  <Podnaslov>balancing accuracy, scale, and sustainability</Podnaslov>
  <TujJezik_Naslov>User-defined trade-offs in LLM benchmarking: balancing accuracy, scale, and sustainability</TujJezik_Naslov>
  <TujJezik_Podnaslov></TujJezik_Podnaslov>
  <Opis>This paper presents xLLMBench, a transparent, decision-centric benchmarking framework that empowers decision-makers to rank large language models (LLMs) based on their preferences across diverse, potentially conflicting performance and non-performance criteria, e.g., domain accuracy, model size, energy consumption, CO emissions. Existing LLM benchmarking methods often rely on individual performance criteria (metrics) or human feedback, so methods systematically combining multiple criteria into a single interpretable ranking lack. Methods considering human preferences typically rely on direct human feedback to determine rankings, which can be resource-intensive and not fully aligned with application-specific requirements. Motivated by current limitations of LLM benchmarking, xLLMBench leverages multi-criteria decision-making methods to provide decision-makers with the flexibility to tailor benchmarking processes to their requirements. It focuses on the final step of the benchmarking process (robust analysis of benchmarking results) which in LLMs’ case often involves their ranking. The framework assumes that the selection of datasets, metrics, and LLMs involved in the experiment is conducted following established best practices. We demonstrate xLLMBench’s usefulness in two scenarios: combining LLM results for one metric across different datasets and combining results for multiple metrics within one dataset. Our results show that while some LLMs maintain stable rankings, others exhibit significant changes when correlated datasets are removed, when the focus shifts to contamination-free datasets or fairness metrics. This highlights that LLMs have distinct strengths/weaknesses, going beyond overall performance. Our sensitivity analysis reveals robust rankings, while the diverse visualizations enhance transparency. xLLMBench can be used with existing platforms to support transparent, reproducible, and contextually-meaningful LLM benchmarking.</Opis>
  <TujJezik_Opis></TujJezik_Opis>
  <KljucneBesede>
    <Beseda>large language models</Beseda>
    <Beseda>benchmarking</Beseda>
    <Beseda>multi-criteria decision-making</Beseda>
  </KljucneBesede>
  <TujJezik_KljucneBesede>
    <Beseda>veliki jezikovni modeli</Beseda>
    <Beseda>večkriterijsko odločanje</Beseda>
  </TujJezik_KljucneBesede>
  <Potrjeno>true</Potrjeno>
  <JeZaklenjeno>false</JeZaklenjeno>
  <JeRecenzirano>true</JeRecenzirano>
  <Zaloznik>Elsevier</Zaloznik>
  <Izvor>Nizozemska</Izvor>
  <Jezik ID="1033" ISO639-3="eng">Angleški jezik</Jezik>
  <TujJezik ID="1060" ISO639-3="slv">Slovenski jezik</TujJezik>
  <Povezave></Povezave>
  <Pokrivanje></Pokrivanje>
  <CasovnoPokritje></CasovnoPokritje>
  <AvtorskePravice>© 2025 The Author(s).</AvtorskePravice>
  <VrstaGradiva ID="" DRIVER="info:eu-repo/semantics/other">Neznano</VrstaGradiva>
  <DatumVstavljanja>2025-10-01 12:31:14</DatumVstavljanja>
  <DatumObjave>2025-10-01 12:31:15</DatumObjave>
  <DatumSpremembe>2025-10-24 03:54:59</DatumSpremembe>
  <DatumTrajnegaHranjenja>0000-00-00 00:00:00</DatumTrajnegaHranjenja>
  <LetoIzida>2025</LetoIzida>
  <LetoIzidaDo>0</LetoIzidaDo>
  <KrajIzida></KrajIzida>
  <LetoIzvedbe>0</LetoIzvedbe>
  <KrajIzvedbe></KrajIzvedbe>
  <Opomba>Nasl. z nasl. zaslona;
Soavtorji: Ana Nikjolikj, Barbara Koroušić Seljak, Tome Eftimov;
Opis vira z dne 1. 9. 2025;
</Opomba>
  <StStrani>str. 1-30</StStrani>
  <StevilcenjeNivo1>pt. A, [article no.] 114405</StevilcenjeNivo1>
  <StevilcenjeNivo2>Vol. 330</StevilcenjeNivo2>
  <Kronologija>Nov. 2025</Kronologija>
  <Patent_Stevilka></Patent_Stevilka>
  <Patent_DatumVeljavnosti>0000-00-00</Patent_DatumVeljavnosti>
  <VerzijaDokumenta>Zaloznikova</VerzijaDokumenta>
  <StatusObjaveDrugje>Objavljeno</StatusObjaveDrugje>
  <VrstaStroskaObjave>NiDoloceno</VrstaStroskaObjave>
  <DatumPoslanoVRecenzijo>2025-05-27</DatumPoslanoVRecenzijo>
  <DatumSprejetjaClanka>2025-09-01</DatumSprejetjaClanka>
  <DatumObjaveClanka>2025-09-10</DatumObjaveClanka>
  <Licence>
    <Licenca ID="6" Kratica="CC BY 4.0" Naziv="Creative Commons Priznanje avtorstva 4.0 Mednarodna" URL="http://creativecommons.org/licenses/by/4.0/deed.sl" Logo="by.png" LogoPolniUrl="https://dirros.openscience.si/teme/dirros/img/licence/by.png" DatumZacetkaLicenciranja="2025-09-10" VezanoNa="VoR" VezanoNaAng="" Besedilo="" BesediloAng=""></Licenca>
  </Licence>
  <EmbargoDo></EmbargoDo>
  <VrstaEmbarga ID="1" Naziv="Takojšnja javna objava" OpenAIREDostop="openAccess"></VrstaEmbarga>
  <Osebe>
    <Oseba ID="21638" Ime="Ana" Priimek="Gjorgjevikj" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="451166211" Afiliacija="Institut &quot;Jožef Stefan&quot;" ArrsID="59766" ORCID=""></Oseba>
    <Oseba ID="12957" Ime="Ana" Priimek="Nikolikj" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="419638531" Afiliacija="Institut &quot;Jožef Stefan&quot;" ArrsID="58291" ORCID=""></Oseba>
    <Oseba ID="4063" Ime="Barbara" Priimek="Koroušić-Seljak" AltIme="Barbara Koroušić- Seljak; Barbara Koroušić Seljak; Barbara Koroušić Seljak; Barbara Koroušič-Seljak; Barbara Koroušič- Seljak; Barbara Koroušič Seljak; Barbara Koroušič Seljak; Barbara Koroušić; B. Koroušič Seljak; B. Koroušič Seljak; B. Koroušić Seljak; B. Koroušić Seljak; Barbara Koroušic Seljak; Barbara Koroušic Seljak; Barbara Seljak-Koroušič; Barbara Seljak- Koroušič; B. K. Seljak; Barbara Korušić Seljak; Barbara Korušić Seljak; Barbara Korousic Seljak; Barbara Korousic Seljak" VlogaID="70" VlogaNaziv="Avtor" ConorID="3372643" Afiliacija="Institut &quot;Jožef Stefan&quot;" ArrsID="10824" ORCID=""></Oseba>
    <Oseba ID="7087" Ime="Tome" Priimek="Eftimov" AltIme="T. Eftimov" VlogaID="70" VlogaNaziv="Avtor" ConorID="263108707" Afiliacija="Institut &quot;Jožef Stefan&quot;" ArrsID="50854" ORCID=""></Oseba>
  </Osebe>
  <Identifikatorji>
    <Identifikator ID="4" Sifra="UDK" Naziv="UDK" URL="">004.8</Identifikator>
    <Identifikator ID="9" Sifra="ISSN-clanka" Naziv="ISSN pri članku" URL="">1872-7409</Identifikator>
    <Identifikator ID="15" Sifra="DOI" Naziv="DOI" URL="http://dx.doi.org/10.1016/j.knosys.2025.114405">10.1016/j.knosys.2025.114405</Identifikator>
    <Identifikator ID="3" Sifra="CobissID" Naziv="COBISS_ID" URL="https://plus.cobiss.net/cobiss/si/sl/bib/251254531">251254531</Identifikator>
  </Identifikatorji>
  <Datoteke>
    <Datoteka ID="35231" DatotekaNRID="0" NamenDatotekeID="5" NamenDatoteke="Izvorni URL" FormatDatotekeID="56" FormatDatoteke="URL" MIME="text/url" IkonaFormata="html.gif" IkonaFormataPolniUrl="https://dirros.openscience.si/teme/dirros/img/fileTypes/html.gif" VelikostDatoteke="0" VelikostDatotekeKratko="0,00 KB" DatumVstavljanja="2025-10-01 12:31:16" JeZbrisana="false" JeJavnoVidna="true" JeIndeksirana="false" JeVidno="true" VidnoOd="01.01.1970" Zaporedje="0">
      <Naziv></Naziv>
      <OrgNaziv></OrgNaziv>
      <URL>https://www.sciencedirect.com/science/article/pii/S0950705125014443</URL>
      <Opis></Opis>
      <OpisTujJezik></OpisTujJezik>
      <UrlObdelave></UrlObdelave>
      <FrekvencaAzuriranjaID>1</FrekvencaAzuriranjaID>
      <Verzija></Verzija>
      <MD5></MD5>
      <SHA256></SHA256>
      <UUID>c328cde0-9eb1-11f0-9bb7-001a4af901a5</UUID>
      <PID></PID>
      <PrenosPolniUrl>https://dirros.openscience.si/Dokument.php?lang=slv&amp;id=35231</PrenosPolniUrl>
      <Vsebine>
      </Vsebine>
    </Datoteka>
    <Datoteka ID="35232" DatotekaNRID="14440239" NamenDatotekeID="2" NamenDatoteke="Predstavitvena datoteka" FormatDatotekeID="2" FormatDatoteke=".pdf" MIME="application/pdf" IkonaFormata="pdf.gif" IkonaFormataPolniUrl="https://dirros.openscience.si/teme/dirros/img/fileTypes/pdf.gif" VelikostDatoteke="35027126" VelikostDatotekeKratko="33,40 MB" DatumVstavljanja="2025-10-01 12:35:57" JeZbrisana="false" JeJavnoVidna="true" JeIndeksirana="true" JeVidno="true" VidnoOd="01.01.1970" Zaporedje="1">
      <Naziv>RAZ_Gjorgjevikj_Ana_2025.pdf</Naziv>
      <OrgNaziv>RAZ_Gjorgjevikj_Ana_2025.pdf</OrgNaziv>
      <URL></URL>
      <Opis></Opis>
      <OpisTujJezik></OpisTujJezik>
      <UrlObdelave></UrlObdelave>
      <FrekvencaAzuriranjaID>1</FrekvencaAzuriranjaID>
      <Verzija></Verzija>
      <MD5>1A7A62F9E1CE24D517D98A3072D7E171</MD5>
      <SHA256>fde6acb88f723ddf3c804b35ec851716c7e30753b706ff3aac0e3a07824a6c49</SHA256>
      <UUID>6a208116-9eb2-11f0-9bb7-001a4af901a5</UUID>
      <PID></PID>
      <PrenosPolniUrl>https://dirros.openscience.si/Dokument.php?lang=slv&amp;id=35232</PrenosPolniUrl>
      <Vsebine>
        <Vsebina TipVsebine="GoloBesedilo" JezikID="1033" Oznaka="" Dolzina="114381"></Vsebina>
      </Vsebine>
    </Datoteka>
  </Datoteke>
  <Organizacije>
    <Organizacija OrganizacijaID="11" Kratica="IJS" ZavodEvsID="1100110" Logo="ijs.png" LogoPolniUrl="https://dirros.openscience.si/teme/dirros/img/logo/ijs.png">Institut Jožef Stefan</Organizacija>
  </Organizacije>
  <OrganizacijeVira>
  </OrganizacijeVira>
  <MetodeZbiranjaPodatkov>
  </MetodeZbiranjaPodatkov>
  <TipologijaDela ID="1.01" Koda="1.01" Naziv="Izvirni znanstveni članek" SchemaOrg="Article"></TipologijaDela>
  <OpenAIRE>
    <OpenAIRE ProjektID="info:eu-repo/grantAgreement/ARIS//P2-0098" Stevilka="P2-0098" Naslov="Računalniške strukture in sistemi" Akronim="" Delez="0"></OpenAIRE>
    <OpenAIRE ProjektID="info:eu-repo/grantAgreement/ARIS//GC-0001" Stevilka="GC-0001" Naslov="Umetna inteligenca za znanost" Akronim="" Delez="0"></OpenAIRE>
    <OpenAIRE ProjektID="info:eu-repo/grantAgreement/ARIS/Young Researchers Grant/PR-12897" Stevilka="PR-12897" Naslov="" Akronim="" Delez="0"></OpenAIRE>
    <OpenAIRE ProjektID="info:eu-repo/grantAgreement/EC/HE/101211695" Stevilka="101211695" Naslov="AutoLLMSelect: Framework for Robust and Explainable Automated Large Language Model Selection" Akronim="AutoLLMSelect" Delez="0"></OpenAIRE>
    <OpenAIRE ProjektID="info:eu-repo/grantAgreement/EC/HE/101187010" Stevilka="101187010" Naslov="Leveraging Benchmarking Data for Automated Machine Learning and Optimization" Akronim="AutoLearn-SI" Delez="0"></OpenAIRE>
  </OpenAIRE>
  <Ostalo>
    <StIrodsDatotek>0</StIrodsDatotek>
    <StDatotekPodTrajnimEmbargom>0</StDatotekPodTrajnimEmbargom>
    <StDatotekZOmejenimDostopom>0</StDatotekZOmejenimDostopom>
  </Ostalo>
</Gradivo>
