Crimean Tatar (crh) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizecrhwiki sample
original amdi giraybaynıñ “elâk oldı yigitler” adlı ilk şiiri 0000 senesi neşir etildi. şair eserlerini esasen sade halq tilinde yazdı. “yigitke” (0000), “yaş
vinogradnoye (, ) – qırımnıñ yalta şeer şurasında bir şeer şeklinde qasaba. ealisiniñ sayısı 0000 kişi (0000 senesi).
sürgünde namangan vilâyetiniñ hagulabad qasabasında bulunğan 00-nci mektepte kene özüniñ sevimli işini ocalıqı yapmağa devam etti. talebelerge rus til
1000 ▁am di ▁g ir ay b ay nıñ ▁“ el â k ▁oldı ▁y ig it ler ” ▁adlı ▁ilk ▁şi iri ▁0000 ▁senesi ▁neş ir ▁etil di . ▁şa ir ▁es er ler ini ▁es as en ▁sa de ▁halq ▁til inde ▁yaz dı . ▁“ y ig it ke ” ▁(0000) , ▁“ y aş
▁v in og ra d noye ▁( , ▁ ) ▁– ▁qırımnıñ ▁yal ta ▁şeer ▁şur asında ▁bir ▁şeer ▁şeklinde ▁qasaba . ▁ealisiniñ ▁sayısı ▁0000 ▁kişi ▁(0000 ▁senesi ).
▁sür gün de ▁n aman g an ▁vilâyet iniñ ▁h a g ul ab ad ▁qas ab asında ▁bulun ğan ▁00- n ci ▁mekte p te ▁k en e ▁öz ün iñ ▁s ev im li ▁iş ini ▁o c alıq ı ▁yap mağa ▁devam ▁etti . ▁t al eb eler ge ▁rus ▁til
3000 ▁am di ▁gir ay bay nıñ ▁“ el â k ▁oldı ▁y ig it ler ” ▁adlı ▁ilk ▁şi iri ▁0000 ▁senesi ▁neşir ▁etildi . ▁şair ▁eser lerini ▁esasen ▁sa de ▁halq ▁tilinde ▁yazdı . ▁“ y ig it ke ” ▁(0000), ▁“ yaş
▁vin ograd noye ▁(, ▁) ▁– ▁qırımnıñ ▁yalta ▁şeer ▁şurasında ▁bir ▁şeer ▁şeklinde ▁qasaba . ▁ealisiniñ ▁sayısı ▁0000 ▁kişi ▁(0000 ▁senesi ).
▁sürgün de ▁n aman gan ▁vilâyetiniñ ▁ha g ul ab ad ▁qasab asında ▁bulunğan ▁00- nci ▁mektep te ▁kene ▁özüniñ ▁sev im li ▁iş ini ▁ocalıq ı ▁yap mağa ▁devam ▁etti . ▁tal ebeler ge ▁rus ▁til
5000 ▁amdi ▁gir ay bay nıñ ▁“ el â k ▁oldı ▁yig it ler ” ▁adlı ▁ilk ▁şiiri ▁0000 ▁senesi ▁neşir ▁etildi . ▁şair ▁eser lerini ▁esasen ▁sade ▁halq ▁tilinde ▁yazdı . ▁“ y ig it ke ” ▁(0000), ▁“ yaş
▁vin ograd noye ▁(, ▁) ▁– ▁qırımnıñ ▁yalta ▁şeer ▁şurasında ▁bir ▁şeer ▁şeklinde ▁qasaba . ▁ealisiniñ ▁sayısı ▁0000 ▁kişi ▁(0000 ▁senesi ).
▁sürgün de ▁n aman gan ▁vilâyetiniñ ▁ha g ul abad ▁qasabasında ▁bulunğan ▁00- nci ▁mektepte ▁kene ▁özüniñ ▁sev im li ▁işini ▁ocalıq ı ▁yap mağa ▁devam ▁etti . ▁talebeler ge ▁rus ▁til
10000 ▁amdi ▁giraybay nıñ ▁“ elâ k ▁oldı ▁yig itler ” ▁adlı ▁ilk ▁şiiri ▁0000 ▁senesi ▁neşir ▁etildi . ▁şair ▁eserlerini ▁esasen ▁sade ▁halq ▁tilinde ▁yazdı . ▁“ y ig it ke ” ▁(0000), ▁“ yaş
▁vin ograd noye ▁(, ▁) ▁– ▁qırımnıñ ▁yalta ▁şeer ▁şurasında ▁bir ▁şeer ▁şeklinde ▁qasaba . ▁ealisiniñ ▁sayısı ▁0000 ▁kişi ▁(0000 ▁senesi ).
▁sürgün de ▁naman gan ▁vilâyetiniñ ▁ha gul abad ▁qasabasında ▁bulunğan ▁00- nci ▁mektepte ▁kene ▁özüniñ ▁sevimli ▁işini ▁ocalıq ı ▁yapmağa ▁devam ▁etti . ▁talebeler ge ▁rus ▁til