Ossetian (os) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeoswiki sample
original *царциатау цæрдцу кæнынц: ''скитаются, подобно царциатам'' *мæнæ царциаты диссæгтæ: ''вот так чудеса царциатов''
ахастмæ гæсгæ бирæнымæцон тигры къахгæ баззайæгтæ, датировкæгонд цæуынц периодтæй рагафонæй æрæгмæ плейстоцены, бæрæг сты китайæ, суматрæйæ, явæйæ; ин
æрвылаз цæрджыты нымæцыл бафты 0,0%, иу рæстæмбис сылгоймагæн хауы 0,00 сывæллоны (0000). миграци негативон у (ома, бæстæмæ цас æрбалидзынц, уымæй фыл
1000 ▁* ц ар ци ат ау ▁ц æ рд ц у ▁к æ нынц : ▁'' ск ит а ю т с я , ▁по д об но ▁цар ци ат ам '' ▁* м æ н æ ▁цар ци аты ▁ди сс æ гт æ : ▁'' в от ▁т ак ▁ч уд ес а ▁цар ци ат ов ''
▁ах аст м æ ▁г æ сг æ ▁бир æ ны м æ ц он ▁тиг ры ▁къ ах г æ ▁базз ай æ гт æ , ▁д ат ир ов к æ гонд ▁ц æ уы нц ▁пер и о дт æ й ▁ра г аф он æ й ▁æ р æ г м æ ▁п л ей ст о ц е ны , ▁б æ р æ г ▁сты ▁к ит ай æ , ▁с ум ат р æ й æ , ▁я в æ й æ ; ▁ин
▁æ р в ыл аз ▁ц æ рджыты ▁ным æ цы л ▁ба фты ▁0 ,0 % , ▁иу ▁р æ ст æ мб ис ▁с ыл гойм аг æ н ▁х ауы ▁0 , 00 ▁сы в æ лл оны ▁(0000). ▁м иг ра ци ▁н ег ат ивон ▁у ▁( ом а , ▁б æ ст æ м æ ▁ц ас ▁æ рб ал ид зы нц , ▁уым æ й ▁фы л
3000 ▁* цар ци ат ау ▁ц æ рд ц у ▁к æ нынц : ▁'' ск ит а ют с я , ▁по д об но ▁цар ци ат ам '' ▁* м æ н æ ▁цар ци аты ▁дисс æ гт æ : ▁'' в от ▁т ак ▁ч уд ес а ▁цар ци ат ов ''
▁ахаст м æ ▁г æ сг æ ▁бир æ ным æ ц он ▁тигры ▁къах г æ ▁базз ай æ гт æ , ▁д ат ир ов к æ гонд ▁ц æ уынц ▁пер ио дт æ й ▁раг аф он æ й ▁æ р æ гм æ ▁пл ей ст о ц ены , ▁б æ р æ г ▁сты ▁кит ай æ , ▁с ум ат р æ й æ , ▁я в æ й æ ; ▁ин
▁æ рвыл аз ▁ц æ рджыты ▁ным æ цы л ▁бафты ▁0,0 % , ▁иу ▁р æ ст æ мбис ▁сылгоймаг æ н ▁хауы ▁0,00 ▁сыв æ лл оны ▁(0000). ▁м иг раци ▁н ег ат ивон ▁у ▁( ома , ▁б æ ст æ м æ ▁цас ▁æ рб ал ид зы нц , ▁уым æ й ▁фы л
5000 ▁* цар ци ат ау ▁ц æ рд ц у ▁к æ нынц : ▁'' ск ит а ют ся , ▁по д об но ▁цар ци ат ам '' ▁* м æ н æ ▁цар ци аты ▁дисс æ гт æ : ▁'' в от ▁т ак ▁ч уд ес а ▁цар ци ат ов ''
▁ахаст м æ ▁г æ сг æ ▁бир æ ным æ цон ▁тигры ▁къах г æ ▁базз ай æ гт æ , ▁дат ир овк æ гонд ▁ц æ уынц ▁перио дт æ й ▁раг аф он æ й ▁æ р æ гм æ ▁пл ей ст оц ены , ▁б æ р æ г ▁сты ▁китай æ , ▁сум ат р æ й æ , ▁я в æ й æ ; ▁ин
▁æ рвылаз ▁ц æ рджыты ▁ным æ цы л ▁бафты ▁0,0 % , ▁иу ▁р æ ст æ мбис ▁сылгоймаг æ н ▁хауы ▁0,00 ▁сыв æ ллоны ▁(0000). ▁миг раци ▁нег ативон ▁у ▁( ома , ▁б æ ст æ м æ ▁цас ▁æ рб ал ид зынц , ▁уым æ й ▁фы л
10000 ▁* цар ци ат ау ▁ц æ рд ц у ▁к æ нынц : ▁'' ск ита ют ся , ▁под об но ▁царци ат ам '' ▁* м æ н æ ▁царциаты ▁дисс æ гт æ : ▁'' в от ▁так ▁ч уд ес а ▁царци ат ов ''
▁ахаст м æ ▁г æ сг æ ▁бир æ ным æ цон ▁тигры ▁къах г æ ▁баззай æ гт æ , ▁дат ировк æ гонд ▁ц æ уынц ▁перио дт æ й ▁раг афон æ й ▁æ р æ гм æ ▁пл ейст оцены , ▁б æ р æ г ▁сты ▁китай æ , ▁суматр æ й æ , ▁яв æ й æ ; ▁ин
▁æ рвылаз ▁ц æ рджыты ▁ным æ цы л ▁бафты ▁0,0% , ▁иу ▁р æ ст æ мбис ▁сылгоймаг æ н ▁хауы ▁0,00 ▁сыв æ ллоны ▁(0000). ▁миг раци ▁нег ативон ▁у ▁( ома , ▁б æ ст æ м æ ▁цас ▁æ рбал ид зынц , ▁уым æ й ▁фы л