Digitalni repozitorij raziskovalnih organizacij Slovenije

Izpis gradiva
A+ | A- | Pomoč | SLO | ENG

Naslov:Ground truth clustering is not the optimum clustering
Avtorji:ID Absalom Bautista, Lucia (Avtor)
ID Hrga, Timotej (Avtor)
ID Povh, Janez (Avtor)
ID Zhao, Shudian (Avtor)
Datoteke:URL URL - Izvorni URL, za dostop obiščite https://www.nature.com/articles/s41598-025-90865-9
 
.pdf PDF - Predstavitvena datoteka, prenos (3,70 MB)
MD5: B7E811F029090C6131103F8630717E70
 
Jezik:Angleški jezik
Tipologija:1.01 - Izvirni znanstveni članek
Organizacija:Logo RUDOLFOVO - Rudolfovo – Znanstveno in tehnološko središče Novo mesto
Povzetek:Data clustering is a fundamental yet challenging task in data science. The minimum sum-of-squares clustering (MSSC) problem aims to partition data points into k clusters to minimize the sum of squared distances between the points and their cluster centers (centroids). Despite being NP-hard, solvers exist that can compute optimal solutions for small to medium-sized datasets. One such solver is SOS-SDP, a branch-and-bound algorithm based on semidefinite programming. We used it to obtain optimal MSSC solutions (optimum clusterings) for various k across multiple datasets with known ground truth clusterings. We evaluated the alignment between the optimum and ground truth clusterings using six extrinsic measures and assessed their quality using three intrinsic measures. The results reveal that the optimum clusterings often differ significantly from the ground truth clusterings. Additionally, the optimum clusterings frequently outperform the ground truth clusterings, according to the intrinsic measures that we used. However, when ground truth clusters are well-separated convex shapes, such as ellipsoids, the optimum and ground truth clusterings closely align.
Ključne besede:minimum sum-of-squares clustering, ground truth clustering, rxtrinsic measures, intrinsic measures
Verzija publikacije:Objavljena publikacija
Datum objave:01.01.2025
Leto izida:2025
Št. strani:str. 1-17
Številčenje:Vol. 15, article no. ǂ9223
PID:20.500.12556/DiRROS-22530 Novo okno
UDK:519.85
ISSN pri članku:2045-2322
DOI:10.1038/s41598-025-90865-9 Novo okno
COBISS.SI-ID:229897731 Novo okno
Opomba:Nasl. z nasl. zaslona; Opis vira z dne 22. 3. 2025; Soavtorji: Timotej Hrga, Janez Povh & Shudian Zhao;
Datum objave v DiRROS:29.05.2025
Število ogledov:568
Število prenosov:257
Metapodatki:XML DC-XML DC-RDF
:
Kopiraj citat
  
Objavi na:Bookmark and Share


Postavite miškin kazalec na naslov za izpis povzetka. Klik na naslov izpiše podrobnosti ali sproži prenos.

Gradivo je del revije

Naslov:Scientific reports
Skrajšan naslov:Sci. rep.
Založnik:Nature Publishing Group
ISSN:2045-2322
COBISS.SI-ID:18727432 Novo okno

Gradivo je financirano iz projekta

Financer:ARIS - Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije
Številka projekta:DIGITOP- RRI
Naslov:Digitalna transformacija robotiziranih tovarn prihodnosti
Akronim:DIGITOP

Licence

Licenca:CC BY 4.0, Creative Commons Priznanje avtorstva 4.0 Mednarodna
Povezava:http://creativecommons.org/licenses/by/4.0/deed.sl
Opis:To je standardna licenca Creative Commons, ki daje uporabnikom največ možnosti za nadaljnjo uporabo dela, pri čemer morajo navesti avtorja.

Sekundarni jezik

Jezik:Slovenski jezik
Povzetek:Razvrščanje podatkov v skupine je temeljna, a zelo zahtevna naloga v podatkovni znanosti. Problem razvrščanja z minimalno vsoto kvadratov odklonov (MSSC) je osredotočen na razvrščanje podatkovnih točk v k skupin na način, da bila vsota kvadratov razdalj med točkami in centri skupin (centroidi) minimalna. Kljub temu, da je to NP-težek problem, obstajajo reševalniki za ta problem, ki lahko izračunajo optimalne rešitve za majhne in srednje velike nabore podatkov. Eden takšnih reševalnikov je SOS-SDP, ki temelji na razveji in omeji algoritmu in na semidefinitnem programiranju. Uporabili smo ga za pridobitev optimalnih rešitev MSSC (optimalnih razvrščanj) za različne vrednosti k preko več naborov podatkov z znanimi dejanskimi razvrstitvami. Ugotavljali smo skladnost med optimalnimi in dejanskimi razvrstitvami z uporabo šestih zunanjih mer ter ocenili njihovo kakovost z uporabo treh notranjih mer. Rezultati kažejo, da se optimalne razvrstitve pogosto znatno razlikujejo od dejanskih razvrstitev. Poleg tega optimalne razvrstitve pogosto presegajo dejanske razvrstitve glede na vrednosti notranjih mer, ki smo jih uporabili. Kadar pa so dejanske skupine dobro ločene in imajo konveksne oblike, kot so npr. elipsoidi, so optimalne in dejanske razvrstitve tesno usklajene.
Ključne besede:razvrščanje z minimalno vsoto kvadratov, dejansko razvrščanje, zunanje mere, notranje mere


Nazaj