Tuvinian (tyv) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizetyvwiki sample
original 0000 чылдарның төнчүзүнде тывага революция чоруп эгелээн. шажын-чүдүлгениң улустарын, хамнарны, нояннарны дээш хөй-хөй кижилерни «чоннуң дайзыннары» д
чаңгыс сырганы эдилээр чүве. улус чамдыкта ийи аңгы сырганы кулаанга кедип алыр турган. өске каасталганы улус канчаар эдилеп турганын, бо үеде тода би
россияның чыынды командазы дээш, 0000 чылдан эгелеп маргылдааларга киржип келген. 0000 чылда афины хоорайга эрткен олимпиаданың киржикчизи.
1000 ▁0000 ▁чылд арның ▁тө н чү зүн де ▁тыва га ▁р ев ол ю ция ▁чор уп ▁эгелээн . ▁ш аж ын - чү дүл ген иң ▁улуст арын , ▁хам нар ны , ▁но ян нар ны ▁дээш ▁хөй - х ө й ▁кижилер ни ▁« ч он нуң ▁д ай зын н ары » ▁д
▁чаңгыс ▁с ыр ган ы ▁э д ил ээр ▁чүве . ▁улус ▁чам дыкт а ▁ийи ▁аңгы ▁с ыр ган ы ▁к ул аан га ▁к ед ип ▁алыр ▁турган . ▁өске ▁к аа ст ал ган ы ▁улус ▁кан ч аар ▁э д илеп ▁турган ын , ▁бо ▁үеде ▁то да ▁би
▁россия ның ▁чы ын ды ▁ком ан да зы ▁дээш , ▁0000 ▁чылд ан ▁эгел еп ▁мар гыл да алар га ▁кир ж ип ▁келген . ▁0000 ▁чылда ▁а ф ин ы ▁хоорай га ▁эр ткен ▁ол им п и а дан ың ▁кир ж ик чизи .
3000 ▁0000 ▁чылд арның ▁төнчү зүн де ▁тывага ▁револю ция ▁чоруп ▁эгелээн . ▁шажын - чү дүл ген иң ▁улуст арын , ▁хам нарны , ▁ноян нарны ▁дээш ▁хөй - х өй ▁кижилер ни ▁« ч он нуң ▁дай зын нары » ▁д
▁чаңгыс ▁сыр ганы ▁эд илээр ▁чүве . ▁улус ▁чамдыкта ▁ийи ▁аңгы ▁сыр ганы ▁кул аан га ▁к едип ▁алыр ▁турган . ▁өске ▁кааст ал ганы ▁улус ▁канчаар ▁эд илеп ▁турган ын , ▁бо ▁үеде ▁то да ▁би
▁россияның ▁чыынды ▁ком ан да зы ▁дээш , ▁0000 ▁чылдан ▁эгелеп ▁маргылда аларга ▁киржип ▁келген . ▁0000 ▁чылда ▁а ф ин ы ▁хоорайга ▁эрткен ▁олимп и а даның ▁кирж ик чизи .
5000 ▁0000 ▁чылдарның ▁төнчүзүнде ▁тывага ▁револю ция ▁чоруп ▁эгелээн . ▁шажын - чү дүл гениң ▁улуст арын , ▁хам нарны , ▁ноян нарны ▁дээш ▁хөй - хөй ▁кижилерни ▁« чон нуң ▁дайзын нары » ▁д
▁чаңгыс ▁сыр ганы ▁эд илээр ▁чүве . ▁улус ▁чамдыкта ▁ийи ▁аңгы ▁сыр ганы ▁кул аанга ▁к едип ▁алыр ▁турган . ▁өске ▁кааст ал ганы ▁улус ▁канчаар ▁эд илеп ▁турганын , ▁бо ▁үеде ▁тода ▁би
▁россияның ▁чыынды ▁ком анда зы ▁дээш , ▁0000 ▁чылдан ▁эгелеп ▁маргылда аларга ▁киржип ▁келген . ▁0000 ▁чылда ▁а ф ин ы ▁хоорайга ▁эрткен ▁олимпи а даның ▁киржик чизи .
10000 ▁0000 ▁чылдарның ▁төнчүзүнде ▁тывага ▁револю ция ▁чоруп ▁эгелээн . ▁шажын - чү дүл гениң ▁улуст арын , ▁хам нарны , ▁ноян нарны ▁дээш ▁хөй - хөй ▁кижилерни ▁« чоннуң ▁дайзын нары » ▁д
▁чаңгыс ▁сыр ганы ▁эдилээр ▁чүве . ▁улус ▁чамдыкта ▁ийи ▁аңгы ▁сыр ганы ▁кул аанга ▁кедип ▁алыр ▁турган . ▁өске ▁кааст алганы ▁улус ▁канчаар ▁эдилеп ▁турганын , ▁бо ▁үеде ▁тода ▁би
▁россияның ▁чыынды ▁команда зы ▁дээш , ▁0000 ▁чылдан ▁эгелеп ▁маргылдааларга ▁киржип ▁келген . ▁0000 ▁чылда ▁а фин ы ▁хоорайга ▁эрткен ▁олимпи а даның ▁киржикчизи .
25000 ▁0000 ▁чылдарның ▁төнчүзүнде ▁тывага ▁революция ▁чоруп ▁эгелээн . ▁шажын - чүдүлгениң ▁улуст арын , ▁хам нарны , ▁ноян нарны ▁дээш ▁хөй - хөй ▁кижилерни ▁« чоннуң ▁дайзыннары » ▁д
▁чаңгыс ▁сырганы ▁эдилээр ▁чүве . ▁улус ▁чамдыкта ▁ийи ▁аңгы ▁сырганы ▁кулаанга ▁кедип ▁алыр ▁турган . ▁өске ▁кааст алганы ▁улус ▁канчаар ▁эдилеп ▁турганын , ▁бо ▁үеде ▁тода ▁би
▁россияның ▁чыынды ▁командазы ▁дээш , ▁0000 ▁чылдан ▁эгелеп ▁маргылдааларга ▁киржип ▁келген . ▁0000 ▁чылда ▁афины ▁хоорайга ▁эрткен ▁олимпиаданың ▁киржикчизи .