<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"><rdf:Description rdf:about="https://dirros.openscience.si/IzpisGradiva.php?id=21294"><dc:title>Korpus CVET 1.0</dc:title><dc:creator>Košir,	Diana	(Avtor)
	</dc:creator><dc:creator>Erjavec,	Tomaž	(Avtor)
	</dc:creator><dc:subject>starejša slovenščina</dc:subject><dc:subject>verski tisk</dc:subject><dc:subject>TEI</dc:subject><dc:subject>normalizacija</dc:subject><dc:subject>stilistična analiza</dc:subject><dc:subject>leksika</dc:subject><dc:description>V prispevku je predstavljen proces izdelave in jezikoslovnega označevanja korpusa CVET 1.0, ki vsebuje besedila patra Hijacinta Repiča v starejšem slovenskem jeziku, objavljena v verskem glasilu Cvetje z vertov sv. Frančiškav obdobju 1881–1916. Besedila so bila v obliki PDF pridobljena s portala dLib, urejena v urejevalniku Word in nato pretvorjena v zapis TEI. Starejše besedje je bilo z odprtokodnim orodjem za normalizacijo avtomatsko posodobljeno, kar olajša iskanje po korpusu in nadaljnjo analizo gradiva. V članku so izpostavljene nekatere napake, ki so nastale pri posodabljanju in bodo v naslednji verziji korpusa ročno popravljene. Posodobljena besedila so bila nato še avtomatsko jezikoslovno označena z oblikoskladnjo in skladnjo po sistemu Universal Dependencies. Zapis TEI smo pretvorili v več izvedenih formatov in zbirko objavili pod odprto licenco na repozitoriju in konkordančnikih CLARIN.SI, ki so primerni za jezikoslovne analize gradiva. V drugem deluprispevkaje prikazan primer analize avtorjevega pripovednega stila, opravljene s konkordančnikom noSketch Engine, ki temelji na frekvenčnih spremenljivkah najpogostejših in najmanj pogostih besed terključnih besed</dc:description><dc:date>2024</dc:date><dc:date>2025-01-23 13:01:59</dc:date><dc:type>Neznano</dc:type><dc:identifier>21294</dc:identifier><dc:language>sl</dc:language></rdf:Description></rdf:RDF>
