Upper Sorbian (hsb) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizehsbwiki sample
original * europski kapralc (''euonymus europaeus'' l.) * ''euonymus fimbriatus'' wall. * wijaty kapralc (''euonymus fortunei'' (turcz.) hand. mazz.) * ''euony
křěk (''spirodela'') je ród z podswójby kačiznowych rostlinow (''lemnoideae'') w swójbje aronowych rostlinow (''araceae'').
dadźa so rosopsida lědma wot wostatnych dwuschadźikowy rozeznawać. při wšěm je móžno, někotre drobne kajkosće spowšitkownjeć. łopjena su často zestaja
1000 ▁* ▁europ ski ▁ka p ra l c ▁('' e u o nym us ▁e u ro pa e us '' ▁l .) ▁* ▁'' e u o nym us ▁f im b ri at us '' ▁w al l . ▁* ▁wi ja ty ▁ka p ra l c ▁('' e u o nym us ▁f or t u ne i '' ▁( tur c z .) ▁h and . ▁ma z z .) ▁* ▁'' e u o ny
▁k ř ě k ▁('' sp i ro de la '') ▁je ▁r ód ▁z ▁pod s w ój by ▁ka či z n owych ▁rostlinow ▁('' le m no i de ae '') ▁w ▁swój bje ▁a ro n owych ▁rostlinow ▁('' ara ceae '').
▁da dźa ▁so ▁r os op si da ▁lě d ma ▁wot ▁wo sta t nych ▁dw us cha dźi k owy ▁roz e zna wa ć . ▁při ▁wš ěm ▁je ▁m óž no , ▁ně k ot re ▁d ro b ne ▁ka j k osće ▁sp ow š it kow nje ć . ▁łopje na ▁su ▁č a sto ▁ze sta ja
3000 ▁* ▁europ ski ▁kap ral c ▁('' eu o nym us ▁eu ropa e us '' ▁l .) ▁* ▁'' eu o nym us ▁f im bri at us '' ▁wal l . ▁* ▁wi ja ty ▁kap ral c ▁('' eu o nym us ▁for tu ne i '' ▁( tur cz .) ▁hand . ▁ma z z .) ▁* ▁'' eu o ny
▁kř ě k ▁('' sp i ro de la '') ▁je ▁ród ▁z ▁podswój by ▁ka či z n owych ▁rostlinow ▁('' lem no ide ae '') ▁w ▁swój bje ▁a ron owych ▁rostlinow ▁('' ara ceae '').
▁da dźa ▁so ▁r os op si da ▁lě d ma ▁wot ▁wo stat nych ▁dw us cha dźi k owy ▁rozezna wa ć . ▁při ▁wš ěm ▁je ▁móž no , ▁někotre ▁d ro bne ▁ka j k osće ▁sp ow š it kow nje ć . ▁łopjena ▁su ▁často ▁ze sta ja
5000 ▁* ▁europ ski ▁kap ral c ▁('' eu onymus ▁europa e us '' ▁l .) ▁* ▁'' eu onymus ▁f im bri at us '' ▁wal l . ▁* ▁wi ja ty ▁kap ral c ▁('' eu onymus ▁for tu nei '' ▁( tur cz .) ▁hand . ▁ma zz .) ▁* ▁'' eu ony
▁kř ě k ▁('' spi ro de la '') ▁je ▁ród ▁z ▁podswójby ▁ka či z nowych ▁rostlinow ▁('' lem no ideae '') ▁w ▁swój bje ▁a ron owych ▁rostlinow ▁('' ara ceae '').
▁da dźa ▁so ▁ros op si da ▁lě d ma ▁wot ▁wo stat nych ▁dw us cha dźi kowy ▁rozeznawa ć . ▁při ▁wš ěm ▁je ▁móž no , ▁někotre ▁dro bne ▁kaj kosće ▁sp ow šitkow nje ć . ▁łopjena ▁su ▁často ▁ze sta ja
10000 ▁* ▁europski ▁kap ral c ▁('' euonymus ▁europa eus '' ▁l .) ▁* ▁'' euonymus ▁f im bri atus '' ▁wal l . ▁* ▁wija ty ▁kap ral c ▁('' euonymus ▁for tu nei '' ▁( tur cz .) ▁hand . ▁ma zz .) ▁* ▁'' eu ony
▁kř ě k ▁('' spi ro de la '') ▁je ▁ród ▁z ▁podswójby ▁ka či znowych ▁rostlinow ▁('' lem no ideae '') ▁w ▁swójbje ▁a ron owych ▁rostlinow ▁('' ara ceae '').
▁da dźa ▁so ▁ros op si da ▁lědma ▁wot ▁wo stat nych ▁dwus cha dźi kowy ▁rozeznawa ć . ▁při ▁wšěm ▁je ▁móžno , ▁někotre ▁dro bne ▁kajkosće ▁sp ow šitkow nje ć . ▁łopjena ▁su ▁často ▁zesta ja
25000 ▁* ▁europski ▁kapralc ▁('' euonymus ▁europaeus '' ▁l .) ▁* ▁'' euonymus ▁f im bri atus '' ▁wall . ▁* ▁wija ty ▁kapralc ▁('' euonymus ▁fortu nei '' ▁( tur cz .) ▁hand . ▁ma zz .) ▁* ▁'' eu ony
▁kř ě k ▁('' spi ro dela '') ▁je ▁ród ▁z ▁podswójby ▁kačiznowych ▁rostlinow ▁('' lemnoideae '') ▁w ▁swójbje ▁aronowych ▁rostlinow ▁('' araceae '').
▁dadźa ▁so ▁ros opsida ▁lědma ▁wot ▁wostat nych ▁dwus cha dźi kowy ▁rozeznawać . ▁při ▁wšěm ▁je ▁móžno , ▁někotre ▁dro bne ▁kajkosće ▁sp ow šitkow njeć . ▁łopjena ▁su ▁často ▁zesta ja
50000 ▁* ▁europski ▁kapralc ▁('' euonymus ▁europaeus '' ▁l .) ▁* ▁'' euonymus ▁f im bri atus '' ▁wall . ▁* ▁wija ty ▁kapralc ▁('' euonymus ▁fortunei '' ▁( turcz .) ▁hand . ▁ma zz .) ▁* ▁'' eu ony
▁křěk ▁('' spirodela '') ▁je ▁ród ▁z ▁podswójby ▁kačiznowych ▁rostlinow ▁('' lemnoideae '') ▁w ▁swójbje ▁aronowych ▁rostlinow ▁('' araceae '').
▁dadźa ▁so ▁ros opsida ▁lědma ▁wot ▁wostatnych ▁dwuschadźi kowy ▁rozeznawać . ▁při ▁wšěm ▁je ▁móžno , ▁někotre ▁drobne ▁kajkosće ▁sp ow šitkow njeć . ▁łopjena ▁su ▁často ▁zestaja