| Title: | Predobdelava podatkov za zagotavljanje varnosti in zasebnosti pri uporabi velikih jezikovnih modelov v gradbeništvu |
|---|
| Authors: | ID Brelih, Anja (Author) ID Srdič, Aleksander (Author) ID Dujc, Jaka (Author) ID Klinc, Robert (Author) |
| Files: | PDF - Presentation file, download (1,08 MB) MD5: F589CAA19550C104819031603397FC61
URL - Source URL, visit https://www.zveza-dgits.si/gradbeni-vestnik-dec-2025/
|
|---|
| Language: | Slovenian |
|---|
| Typology: | 1.01 - Original Scientific Article |
|---|
| Organization: | ZDGITS - Union of associations of Slovenian civil engineers and technicians
|
|---|
| Abstract: | Prispevek predstavlja izzive zagotavljanja varstva podatkov pri uporabi velikih jezikovnih modelov (VJM) v delovnih tokovih operativnega gradbeništva. Analizira, kako uspešno obstoječa orodja za prepoznavanje imenskih entitet (angl. Named Entity Recognition, NER) zaznajo in anonimizirajo občutljive informacije v tehničnih gradbenih dokumentih, zlasti v slovenskem jeziku. Opravljena je bila kvalitativna evalvacija štirih ogrodij za obdelavo naravnega jezika (SpaCy, SpaCy SLO, Flair, NLTK), ki so bile preizkušene na vzorcu petih dejanskih gradbenih dokumentov in primerjane z ročno anotiranimi referenčnimi podatki. V evalvacijo je bila vključena tudi anonimizacija z VJM, ki je občutljive podatke zakrival z uporabo regularnih izrazov. Rezultati kažejo, da je osnovna anonimizacija sicer mogoča, vendar vsa klasična ogrodja NER slabše prepoznavajo entitete specifične za področje, kot so projektne šifre, inženirski nazivi ter strukturirani šte vilčni podatki. Ugotovitve kažejo na potrebe po prilagojenih orodjih za predobdelavo, saj netočna anonimizacija predstavlja pravna in etična tveganja pri vključevanju VJM v regulirane panoge, kot je gradbeništvo. Prihodnje raziskave se morajo osredotočiti na gradnjo hibridnih anonimizacijskih tokov in učenje modelov na anotiranih podatkih, da bi izboljšali natančnost in skladnost v tehničnih panogah. |
|---|
| Keywords: | veliki jezikovni modeli, zasebnost podatkov, prepoznavanje imenskih entitet, operativno gradbeništvo, predobdelava dokumentov |
|---|
| Publication status: | Published |
|---|
| Publication version: | Version of Record |
|---|
| Year of publishing: | 2025 |
|---|
| Number of pages: | str. 210-219 |
|---|
| Numbering: | Letn. 74 |
|---|
| PID: | 20.500.12556/DiRROS-27357  |
|---|
| UDC: | 004.434:004.8:624 |
|---|
| ISSN on article: | 0017-2774 |
|---|
| COBISS.SI-ID: | 262447363  |
|---|
| Publication date in DiRROS: | 03.02.2026 |
|---|
| Views: | 96 |
|---|
| Downloads: | 66 |
|---|
| Metadata: |  |
|---|
|
:
|
Copy citation |
|---|
| | | | Share: |  |
|---|
Hover the mouse pointer over a document title to show the abstract or click
on the title to get all document metadata. |