Ukrainian (uk) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeukwiki sample
original * 0000 — іван iv грозний убив свого сина. * 0000 — битва під лютценом 0000 одна з найбільших битв тридцятирічної війни, між шведськими військами під п
00 жовтня — 000-й день року (000-й у високосні роки) у григоріанському календарі. до кінця року залишається 00 днів.
файл:shche ne vmerla.jpg|thumb|000px|текст кубанської народної пісні надруковано в радянському виданні ''«песни казаков кубани»'' (''краснодар: красно
1000 ▁* ▁0000 ▁— ▁і ва н ▁i v ▁гро з ний ▁у би в ▁сво го ▁си на . ▁* ▁0000 ▁— ▁б и тва ▁під ▁лю т це ном ▁0000 ▁од на ▁з ▁най біль ших ▁б и т в ▁три д ця ти рі ч ної ▁війни , ▁між ▁ш ве д ськи ми ▁вій ська ми ▁під ▁п
▁00 ▁жов т ня ▁— ▁000 - й ▁д ень ▁року ▁( 000 - й ▁у ▁висо ко с ні ▁ро ки ) ▁у ▁г ри го рі ан ському ▁ка лен да рі . ▁до ▁кі н ця ▁року ▁за ли ша ється ▁00 ▁д нів .
▁файл : s h c he ▁n e ▁v m er l a . jpg | th um b | 000 p x | те к ст ▁ку ба н ської ▁народ ної ▁піс ні ▁над ру кова но ▁в ▁ра дян ському ▁ви да нні ▁'' « пе с ни ▁ка за ков ▁ку ба ни » '' ▁( '' кра сно дар : ▁кра сно
3000 ▁* ▁0000 ▁— ▁іван ▁i v ▁гро з ний ▁у бив ▁свого ▁си на . ▁* ▁0000 ▁— ▁би тва ▁під ▁лю т це ном ▁0000 ▁одна ▁з ▁найбіль ших ▁би тв ▁три д ця ти рі чної ▁війни , ▁між ▁ш вед ськими ▁війська ми ▁під ▁п
▁00 ▁жовтня ▁— ▁000- й ▁день ▁року ▁(000 - й ▁у ▁висо ко сні ▁роки ) ▁у ▁григо ріан ському ▁ка лен да рі . ▁до ▁кінця ▁року ▁залиша ється ▁00 ▁д нів .
▁файл : s h c he ▁ne ▁v m er la . jpg | thumb |000 px | те к ст ▁ку ба нської ▁народ ної ▁піс ні ▁над ру кова но ▁в ▁радян ському ▁вида нні ▁''« пе с ни ▁каза ков ▁ку ба ни »'' ▁('' кра сно дар : ▁кра сно
5000 ▁* ▁0000 ▁— ▁іван ▁iv ▁гро з ний ▁у бив ▁свого ▁сина . ▁* ▁0000 ▁— ▁би тва ▁під ▁лю т це ном ▁0000 ▁одна ▁з ▁найбіль ших ▁би тв ▁три дця ти рі чної ▁війни , ▁між ▁ш вед ськими ▁війська ми ▁під ▁п
▁00 ▁жовтня ▁— ▁000- й ▁день ▁року ▁(000 - й ▁у ▁високо сні ▁роки ) ▁у ▁григо ріан ському ▁ка лен да рі . ▁до ▁кінця ▁року ▁залиша ється ▁00 ▁днів .
▁файл : sh che ▁ne ▁v m er la . jpg | thumb |000 px | те к ст ▁ку ба нської ▁народ ної ▁пісні ▁над ру кова но ▁в ▁радян ському ▁вида нні ▁''« пе с ни ▁каза ков ▁ку ба ни »'' ▁('' кра сно дар : ▁красно
10000 ▁* ▁0000 ▁— ▁іван ▁iv ▁гро з ний ▁у бив ▁свого ▁сина . ▁* ▁0000 ▁— ▁битва ▁під ▁лю т це ном ▁0000 ▁одна ▁з ▁найбільших ▁би тв ▁три дцяти рі чної ▁війни , ▁між ▁швед ськими ▁військами ▁під ▁п
▁00 ▁жовтня ▁— ▁000- й ▁день ▁року ▁(000 - й ▁у ▁високо сні ▁роки ) ▁у ▁григо ріан ському ▁кален да рі . ▁до ▁кінця ▁року ▁залишається ▁00 ▁днів .
▁файл : sh che ▁ne ▁v mer la . jpg | thumb |000 px | тек ст ▁ку ба нської ▁народної ▁пісні ▁над ру ковано ▁в ▁радян ському ▁вида нні ▁''« пе сни ▁каза ков ▁ку ба ни »'' ▁('' кра сно дар : ▁красно
25000 ▁* ▁0000 ▁— ▁іван ▁iv ▁гро зний ▁убив ▁свого ▁сина . ▁* ▁0000 ▁— ▁битва ▁під ▁лю т це ном ▁0000 ▁одна ▁з ▁найбільших ▁би тв ▁тридцяти річної ▁війни , ▁між ▁швед ськими ▁військами ▁під ▁п
▁00 ▁жовтня ▁— ▁000- й ▁день ▁року ▁(000- й ▁у ▁високо сні ▁роки ) ▁у ▁григо ріан ському ▁кален дарі . ▁до ▁кінця ▁року ▁залишається ▁00 ▁днів .
▁файл : sh che ▁ne ▁v mer la . jpg | thumb |000 px | тек ст ▁куба нської ▁народної ▁пісні ▁надру ковано ▁в ▁радянському ▁виданні ▁''« пе сни ▁каза ков ▁куба ни »'' ▁('' красно дар : ▁красно
50000 ▁* ▁0000 ▁— ▁іван ▁iv ▁гро зний ▁убив ▁свого ▁сина . ▁* ▁0000 ▁— ▁битва ▁під ▁лют це ном ▁0000 ▁одна ▁з ▁найбільших ▁битв ▁тридцяти річної ▁війни , ▁між ▁швед ськими ▁військами ▁під ▁п
▁00 ▁жовтня ▁— ▁000- й ▁день ▁року ▁(000- й ▁у ▁високо сні ▁роки ) ▁у ▁григоріан ському ▁календарі . ▁до ▁кінця ▁року ▁залишається ▁00 ▁днів .
▁файл : sh che ▁ne ▁v mer la . jpg | thumb |000 px | текст ▁куба нської ▁народної ▁пісні ▁надруковано ▁в ▁радянському ▁виданні ▁''« пе сни ▁каза ков ▁куба ни »'' ▁('' красно дар : ▁красно
100000 ▁* ▁0000 ▁— ▁іван ▁iv ▁грозний ▁убив ▁свого ▁сина . ▁* ▁0000 ▁— ▁битва ▁під ▁лют це ном ▁0000 ▁одна ▁з ▁найбільших ▁битв ▁тридцятирічної ▁війни , ▁між ▁швед ськими ▁військами ▁під ▁п
▁00 ▁жовтня ▁— ▁000- й ▁день ▁року ▁(000- й ▁у ▁високосні ▁роки ) ▁у ▁григоріанському ▁календарі . ▁до ▁кінця ▁року ▁залишається ▁00 ▁днів .
▁файл : sh che ▁ne ▁v mer la . jpg | thumb |000 px | текст ▁кубанської ▁народної ▁пісні ▁надруковано ▁в ▁радянському ▁виданні ▁''« пе сни ▁казаков ▁куба ни »'' ▁('' краснодар : ▁красно