<?xml version="1.0" encoding="utf-8"?>
<Gradivo ID="27357" NadgradivoID="1022" NRID="28116986" OceID="0" DomainUrl="https://dirros.openscience.si/" IzpisPolniUrl="https://dirros.openscience.si/IzpisGradiva.php?lang=slv&amp;id=27357" StOgledov="223" StPrenosov="159" StOcen="0" VsotaOcen="0" DatumIzvoza="2026-04-07 19:45:20" OcenaSkupna="0" StPodgradiv="0" StudijskiProgramEvsID="" JeIndeksirano="0" JeVecAvtorjev="0" DovoliZahtevkeZaDostop="0">
  <PID Url="http://hdl.handle.net/20.500.12556/DiRROS-27357">20.500.12556/DiRROS-27357</PID>
  <Naslov>Predobdelava podatkov za zagotavljanje varnosti in zasebnosti pri uporabi velikih jezikovnih modelov v gradbeništvu</Naslov>
  <Podnaslov></Podnaslov>
  <TujJezik_Naslov>Data preprocessing to ensure security and privacy when using large language models in construction</TujJezik_Naslov>
  <TujJezik_Podnaslov></TujJezik_Podnaslov>
  <Opis>Prispevek predstavlja izzive zagotavljanja varstva podatkov pri uporabi velikih jezikovnih modelov (VJM) v delovnih tokovih operativnega gradbeništva. Analizira, kako uspešno obstoječa orodja za prepoznavanje imenskih entitet (angl. Named Entity Recognition, NER) zaznajo in anonimizirajo občutljive informacije v tehničnih gradbenih dokumentih, zlasti v slovenskem jeziku. Opravljena je bila kvalitativna evalvacija štirih ogrodij za obdelavo naravnega jezika (SpaCy, SpaCy SLO, Flair, NLTK), ki so bile preizkušene na vzorcu petih dejanskih gradbenih dokumentov in primerjane z ročno anotiranimi referenčnimi podatki. V evalvacijo je bila vključena tudi anonimizacija z VJM, ki je občutljive podatke zakrival z uporabo regularnih izrazov. Rezultati kažejo, da je osnovna anonimizacija sicer mogoča, vendar vsa klasična ogrodja NER slabše prepoznavajo entitete specifične za področje, kot so projektne šifre, inženirski nazivi ter strukturirani šte vilčni podatki. Ugotovitve kažejo na potrebe po prilagojenih orodjih za predobdelavo, saj netočna anonimizacija predstavlja pravna in etična tveganja pri vključevanju VJM v regulirane panoge, kot je gradbeništvo. Prihodnje raziskave se morajo osredotočiti na gradnjo hibridnih anonimizacijskih tokov in učenje modelov na anotiranih podatkih, da bi izboljšali natančnost in skladnost v tehničnih panogah.</Opis>
  <TujJezik_Opis>This paper addresses the challenge of ensuring data privacy when using Large Language Models (LLMs) in Construction Management Workflows. It analyses how well existing Named Entity Recognition (NER) tools can identify and redact sensitive information in technical construction documents, particularly in the Slovenian language. A qualitative evaluation was performed with four NLP frameworks (SpaCy, SpaCy SLO, Flair, NLTK) applied to a sample of five real-world construction documents and compared with manually annotated baseline data. The evaluation also included anonymization with VJM, which masked sensitive data using regular expressions. The results show that while basic anonymisation is possible, all classical NER frameworks underperform in identifying domain-specific entities such as project codes, engineering titles and structured numerical data. These findings emphasise the urgent need for domain-adapted preprocessing tools, as inaccurate redaction po ses legal and ethical risks when integrating LLMs in regulated domains such as construction. Future work should focus on building hybrid redaction pipelines and training custom models on annotated corpora to improve accuracy and compliance in technical domains.</TujJezik_Opis>
  <KljucneBesede>
    <Beseda>veliki jezikovni modeli</Beseda>
    <Beseda>zasebnost podatkov</Beseda>
    <Beseda>prepoznavanje imenskih entitet</Beseda>
    <Beseda>operativno gradbeništvo</Beseda>
    <Beseda>predobdelava dokumentov</Beseda>
  </KljucneBesede>
  <TujJezik_KljucneBesede>
    <Beseda>large language models</Beseda>
    <Beseda>data privacy</Beseda>
    <Beseda>name entity recognition</Beseda>
    <Beseda>construction management</Beseda>
    <Beseda>document preprocessing</Beseda>
  </TujJezik_KljucneBesede>
  <Potrjeno>true</Potrjeno>
  <JeZaklenjeno>false</JeZaklenjeno>
  <JeRecenzirano>true</JeRecenzirano>
  <Zaloznik></Zaloznik>
  <Izvor></Izvor>
  <Jezik ID="1060" ISO639-3="slv">Slovenski jezik</Jezik>
  <TujJezik ID="1033" ISO639-3="eng">Angleški jezik</TujJezik>
  <Povezave></Povezave>
  <Pokrivanje></Pokrivanje>
  <CasovnoPokritje></CasovnoPokritje>
  <AvtorskePravice></AvtorskePravice>
  <VrstaGradiva ID="" DRIVER="info:eu-repo/semantics/other">Neznano</VrstaGradiva>
  <DatumVstavljanja>2026-02-03 11:50:17</DatumVstavljanja>
  <DatumObjave>2026-02-03 11:50:17</DatumObjave>
  <DatumSpremembe>2026-02-04 04:07:11</DatumSpremembe>
  <DatumTrajnegaHranjenja>0000-00-00 00:00:00</DatumTrajnegaHranjenja>
  <LetoIzida>2025</LetoIzida>
  <LetoIzidaDo>0</LetoIzidaDo>
  <KrajIzida></KrajIzida>
  <LetoIzvedbe>0</LetoIzvedbe>
  <KrajIzvedbe></KrajIzvedbe>
  <Opomba></Opomba>
  <StStrani>str. 210-219</StStrani>
  <StevilcenjeNivo1>Letn. 74</StevilcenjeNivo1>
  <StevilcenjeNivo2></StevilcenjeNivo2>
  <Kronologija>dec. 2025</Kronologija>
  <Patent_Stevilka></Patent_Stevilka>
  <Patent_DatumVeljavnosti>0000-00-00</Patent_DatumVeljavnosti>
  <VerzijaDokumenta>Zaloznikova</VerzijaDokumenta>
  <StatusObjaveDrugje>Objavljeno</StatusObjaveDrugje>
  <VrstaStroskaObjave>NiDoloceno</VrstaStroskaObjave>
  <DatumPoslanoVRecenzijo>0000-00-00</DatumPoslanoVRecenzijo>
  <DatumSprejetjaClanka>0000-00-00</DatumSprejetjaClanka>
  <DatumObjaveClanka>0000-00-00</DatumObjaveClanka>
  <Licence>
    <Licenca ID="5" Kratica="CC BY-SA 4.0" Naziv="Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna" URL="http://creativecommons.org/licenses/by-sa/4.0/deed.sl" Logo="by-sa.png" LogoPolniUrl="https://dirros.openscience.si/teme/dirros/img/licence/by-sa.png" DatumZacetkaLicenciranja="" VezanoNa="" VezanoNaAng="" Besedilo="" BesediloAng=""></Licenca>
  </Licence>
  <EmbargoDo></EmbargoDo>
  <VrstaEmbarga ID="1" Naziv="Takojšnja javna objava" OpenAIREDostop="openAccess"></VrstaEmbarga>
  <Osebe>
    <Oseba ID="26728" Ime="Anja" Priimek="Brelih" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="262508899" Afiliacija="" ArrsID="58407" ORCID=""></Oseba>
    <Oseba ID="26729" Ime="Aleksander" Priimek="Srdič" AltIme="Aleksander Srdić; A. Srdič; A. Srdic; Aleksander Srdic; Aleksandar Srdić" VlogaID="70" VlogaNaziv="Avtor" ConorID="3962979" Afiliacija="" ArrsID="14014" ORCID=""></Oseba>
    <Oseba ID="26730" Ime="Jaka" Priimek="Dujc" AltIme="J. Dujc" VlogaID="70" VlogaNaziv="Avtor" ConorID="79615075" Afiliacija="" ArrsID="26550" ORCID=""></Oseba>
    <Oseba ID="26731" Ime="Robert" Priimek="Klinc" AltIme="" VlogaID="70" VlogaNaziv="Avtor" ConorID="58616931" Afiliacija="" ArrsID="27688" ORCID=""></Oseba>
  </Osebe>
  <Identifikatorji>
    <Identifikator ID="4" Sifra="UDK" Naziv="UDK" URL="">004.434:004.8:624</Identifikator>
    <Identifikator ID="9" Sifra="ISSN-clanka" Naziv="ISSN pri članku" URL="">0017-2774</Identifikator>
    <Identifikator ID="3" Sifra="CobissID" Naziv="COBISS_ID" URL="https://plus.cobiss.net/cobiss/si/sl/bib/262447363">262447363</Identifikator>
  </Identifikatorji>
  <Datoteke>
    <Datoteka ID="39979" DatotekaNRID="14581791" NamenDatotekeID="2" NamenDatoteke="Predstavitvena datoteka" FormatDatotekeID="2" FormatDatoteke=".pdf" MIME="application/pdf" IkonaFormata="pdf.gif" IkonaFormataPolniUrl="https://dirros.openscience.si/teme/dirros/img/fileTypes/pdf.gif" VelikostDatoteke="1136116" VelikostDatotekeKratko="1,08 MB" DatumVstavljanja="2026-02-03 12:18:18" JeZbrisana="false" JeJavnoVidna="true" JeIndeksirana="true" JeVidno="true" VidnoOd="01.01.1970" Zaporedje="0">
      <Naziv>RAZ_Brelih_Anja_2025.pdf</Naziv>
      <OrgNaziv>RAZ_Brelih_Anja_2025.pdf</OrgNaziv>
      <URL></URL>
      <Opis></Opis>
      <OpisTujJezik></OpisTujJezik>
      <UrlObdelave></UrlObdelave>
      <FrekvencaAzuriranjaID>1</FrekvencaAzuriranjaID>
      <Verzija></Verzija>
      <MD5>F589CAA19550C104819031603397FC61</MD5>
      <SHA256>5d790c58ad48c38c25cdf2196279413f350724472723fa7e24c80498bcb16f54</SHA256>
      <UUID>0ad76dea-00f2-11f1-93b0-001a4af901a5</UUID>
      <PID></PID>
      <PrenosPolniUrl>https://dirros.openscience.si/Dokument.php?lang=slv&amp;id=39979</PrenosPolniUrl>
      <Vsebine>
        <Vsebina TipVsebine="GoloBesedilo" JezikID="1060" Oznaka="" Dolzina="42866"></Vsebina>
      </Vsebine>
    </Datoteka>
    <Datoteka ID="39977" DatotekaNRID="0" NamenDatotekeID="5" NamenDatoteke="Izvorni URL" FormatDatotekeID="56" FormatDatoteke="URL" MIME="text/url" IkonaFormata="html.gif" IkonaFormataPolniUrl="https://dirros.openscience.si/teme/dirros/img/fileTypes/html.gif" VelikostDatoteke="0" VelikostDatotekeKratko="0,00 KB" DatumVstavljanja="2026-02-03 11:50:36" JeZbrisana="false" JeJavnoVidna="true" JeIndeksirana="false" JeVidno="true" VidnoOd="01.01.1970" Zaporedje="1">
      <Naziv></Naziv>
      <OrgNaziv></OrgNaziv>
      <URL>https://www.zveza-dgits.si/gradbeni-vestnik-dec-2025/</URL>
      <Opis></Opis>
      <OpisTujJezik></OpisTujJezik>
      <UrlObdelave></UrlObdelave>
      <FrekvencaAzuriranjaID>1</FrekvencaAzuriranjaID>
      <Verzija></Verzija>
      <MD5></MD5>
      <SHA256></SHA256>
      <UUID>2c56986e-00ee-11f1-93b0-001a4af901a5</UUID>
      <PID></PID>
      <PrenosPolniUrl>https://dirros.openscience.si/Dokument.php?lang=slv&amp;id=39977</PrenosPolniUrl>
      <Vsebine>
      </Vsebine>
    </Datoteka>
  </Datoteke>
  <Organizacije>
    <Organizacija OrganizacijaID="60" Kratica="ZDGITS" ZavodEvsID="" Logo="zdgits.png" LogoPolniUrl="https://dirros.openscience.si/teme/dirros/img/logo/zdgits.png">Zveza društev gradbenih inženirjev in tehnikov Slovenije</Organizacija>
  </Organizacije>
  <OrganizacijeVira>
  </OrganizacijeVira>
  <MetodeZbiranjaPodatkov>
  </MetodeZbiranjaPodatkov>
  <TipologijaDela ID="1.01" Koda="1.01" Naziv="Izvirni znanstveni članek" SchemaOrg="Article"></TipologijaDela>
  <Podgradiva>
    <Potomci>
    </Potomci>
    <Starsi>
      <Gradivo ID="22708" NRID="26614407" Zaporedje="16" JeZaklenjeno="false" JePotrjeno="true">Gradbeni vestnik</Gradivo>
    </Starsi>
  </Podgradiva>
  <OpenAIRE>
    <OpenAIRE ProjektID="info:eu-repo/grantAgreement/ARIS//P2-0210-2019" Stevilka="P2-0210-2019" Naslov="E-Gradbeništvo" Akronim="" Delez="0"></OpenAIRE>
  </OpenAIRE>
  <Ostalo>
    <StIrodsDatotek>0</StIrodsDatotek>
    <StDatotekPodTrajnimEmbargom>0</StDatotekPodTrajnimEmbargom>
    <StDatotekZOmejenimDostopom>0</StDatotekZOmejenimDostopom>
  </Ostalo>
</Gradivo>
