Kashubian (csb) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizecsbwiki sample
original sòm tischner wiele twòrzôł,pisôł filozoficzné dokôżë. napisôł wiele ksãżków i artiklôw do czãdników t.j. tigòdnik pòwszechny, céch,
je w dôwnym krzëżacczim zómkù. zajimô tu pôrã zalów. to je jinstitucją kùlturë, jakô pòwsta w 0000 rokù. jegò robòta polégô na rozkòscérzanim kaszëbsc
pôłczëno - to je kaszëbskô wies w gminie pùck, w pùcczim krézu pòmòrsczégò wòjewództwa. tu w spòdleczny szkòle dzece ùczą sã kaszëbsczégò jãzëka.
1000 ▁s ò m ▁ti sch n er ▁wiele ▁t wò rz ôł , pis ôł ▁fi lo zo fi cz né ▁do kô żë . ▁na pis ôł ▁wiele ▁k sã ż ków ▁i ▁ar ti k lô w ▁do ▁cz ã dni ków ▁t . j . ▁ti gò dni k ▁pòwszechny , ▁c é ch ,
▁je ▁w ▁d ôw nym ▁k rzë ża cczi m ▁z óm kù . ▁za jim ô ▁tu ▁p ôr ã ▁za l ów . ▁to ▁je ▁jin sti tu c ją ▁kùltu rë , ▁jak ô ▁pòw sta ▁w ▁0000 ▁rokù . ▁jegò ▁ro bò ta ▁po lé gô ▁na ▁roz kò sc é rza nim ▁kaszëb sc
▁pôł czë no ▁- ▁to ▁je ▁kaszëbskô ▁wies ▁w ▁gminie ▁pù ck , ▁w ▁pù cczi m ▁krézu ▁pòmòr sczégò ▁wòjewództ wa . ▁tu ▁w ▁spò dle czny ▁szkò le ▁dze ce ▁ù czą ▁sã ▁kaszëbsczégò ▁jãzëka .
3000 ▁s ò m ▁ti sch ner ▁wiele ▁twò rz ôł , pis ôł ▁filo zo fi czné ▁dokô żë . ▁napisôł ▁wiele ▁ksã ż ków ▁i ▁arti k lô w ▁do ▁czã dni ków ▁t . j . ▁ti gò dnik ▁pòwszechny , ▁céch ,
▁je ▁w ▁dôw nym ▁k rzë ża cczim ▁z óm kù . ▁zajimô ▁tu ▁pôrã ▁za lów . ▁to ▁je ▁jin stitu cją ▁kùlturë , ▁jakô ▁pòwsta ▁w ▁0000 ▁rokù . ▁jegò ▁robò ta ▁po légô ▁na ▁roz kòsc é rza nim ▁kaszëb sc
▁pôł czë no ▁- ▁to ▁je ▁kaszëbskô ▁wies ▁w ▁gminie ▁pùck , ▁w ▁pùcczim ▁krézu ▁pòmòrsczégò ▁wòjewództwa . ▁tu ▁w ▁spò dle czny ▁szkòle ▁dzece ▁ùczą ▁sã ▁kaszëbsczégò ▁jãzëka .
5000 ▁s ò m ▁ti sch ner ▁wiele ▁twò rz ôł , pisôł ▁filozo fi czné ▁dokô żë . ▁napisôł ▁wiele ▁ksã ż ków ▁i ▁arti k lô w ▁do ▁czã dni ków ▁t . j . ▁ti gò dnik ▁pòwszechny , ▁céch ,
▁je ▁w ▁dôw nym ▁krzë ża cczim ▁zóm kù . ▁zajimô ▁tu ▁pôrã ▁za lów . ▁to ▁je ▁jinstitu cją ▁kùlturë , ▁jakô ▁pòwsta ▁w ▁0000 ▁rokù . ▁jegò ▁robò ta ▁po légô ▁na ▁rozkòscé rza nim ▁kaszëb sc
▁pôł czëno ▁- ▁to ▁je ▁kaszëbskô ▁wies ▁w ▁gminie ▁pùck , ▁w ▁pùcczim ▁krézu ▁pòmòrsczégò ▁wòjewództwa . ▁tu ▁w ▁spòdle czny ▁szkòle ▁dzece ▁ùczą ▁sã ▁kaszëbsczégò ▁jãzëka .
10000 ▁s ò m ▁tisch ner ▁wiele ▁twò rzôł , pisôł ▁filozofi czné ▁dokô żë . ▁napisôł ▁wiele ▁ksãż ków ▁i ▁artik lô w ▁do ▁czã dników ▁t . j . ▁ti gò dnik ▁pòwszechny , ▁céch ,
▁je ▁w ▁dôw nym ▁krzëża cczim ▁zóm kù . ▁zajimô ▁tu ▁pôrã ▁za lów . ▁to ▁je ▁jinstitucją ▁kùlturë , ▁jakô ▁pòwsta ▁w ▁0000 ▁rokù . ▁jegò ▁robòta ▁polégô ▁na ▁rozkòscé rzanim ▁kaszëb sc
▁pôł czëno ▁- ▁to ▁je ▁kaszëbskô ▁wies ▁w ▁gminie ▁pùck , ▁w ▁pùcczim ▁krézu ▁pòmòrsczégò ▁wòjewództwa . ▁tu ▁w ▁spòdleczny ▁szkòle ▁dzece ▁ùczą ▁sã ▁kaszëbsczégò ▁jãzëka .
25000 ▁s òm ▁tischner ▁wiele ▁twò rzôł , pisôł ▁filozofi czné ▁dokô żë . ▁napisôł ▁wiele ▁ksãż ków ▁i ▁artik lô w ▁do ▁czã dników ▁t . j . ▁tigò dnik ▁pòwszechny , ▁céch ,
▁je ▁w ▁dôw nym ▁krzëża cczim ▁zómkù . ▁zajimô ▁tu ▁pôrã ▁za lów . ▁to ▁je ▁jinstitucją ▁kùlturë , ▁jakô ▁pòwsta ▁w ▁0000 ▁rokù . ▁jegò ▁robòta ▁polégô ▁na ▁rozkòscé rzanim ▁kaszëb sc
▁pôłczëno ▁- ▁to ▁je ▁kaszëbskô ▁wies ▁w ▁gminie ▁pùck , ▁w ▁pùcczim ▁krézu ▁pòmòrsczégò ▁wòjewództwa . ▁tu ▁w ▁spòdleczny ▁szkòle ▁dzece ▁ùczą ▁sã ▁kaszëbsczégò ▁jãzëka .