Abkhazian (ab) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Embedding matrix plots

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeabwiki sample
original суоми, ''финландиа'' (; , официалтә ахьʒ — суоми аҳәынҭқарра ) — европаҟны, балтикатәи амшын аҩада-мрагыларатәи агаҟны аҳәынҭқарра.
насыҧла иҟоу ( иҭәу0 аҭаацәара амал рыгхаӡом. аҕацәеи ампыҵахалаҩцәеи аҧсны иқәнагалахьан кырынтә, аха уи абахә еиҧш игылан иҕәҕәаӡа. ачҳара ахьыҟам а
абарҭ азакәанқәа анрыдыркылоз аамҭазы, даҽакала иаҳҳәозар, 0000 шықәса алагамҭазы аҧсны абанктә система ссср абанкқәа: аҳәынҭбанк, аҵәахырҭаҭә банк, а
1000 ▁с у ом и , ▁'' ф ин лан д иа '' ▁( ; ▁ , ▁о фи циа лтә ▁ахь ʒ ▁— ▁с у ом и ▁аҳәынҭқарра ▁ ) ▁— ▁е в ро па ҟны , ▁ба л ти ка тәи ▁амшын ▁а ҩа да - м рагылара тәи ▁а га ҟны ▁аҳәынҭқарра .
▁нас ы ҧ ла ▁иҟ оу ▁( ▁иҭ ә у 0 ▁а ҭаацәа ра ▁ам ал ▁ры г ха ӡ ом . ▁а ҕ а цәеи ▁ам пы ҵа ха ла ҩ цәеи ▁аҧсны ▁иқә на г ала хь ан ▁к ыр ын тә , ▁аха ▁уи ▁аба хә ▁еиҧш ▁и гыла н ▁и ҕә ҕ әа ӡа . ▁а ч ҳ ара ▁ахь ыҟ ам ▁а
▁аб арҭ ▁азакәан қәа ▁ан ры дыр к ыл оз ▁аамҭа зы , ▁даҽа ка ла ▁иа ҳ ҳә о зар , ▁0000 ▁шықәса ▁ала г амҭа зы ▁аҧсны ▁аб анк тә ▁система ▁с сс р ▁аб анк қәа : ▁а ҳәынҭ б анк , ▁а ҵәа хыр ҭа ҭ ә ▁банк , ▁а
3000 ▁су ом и , ▁'' ф ин ланд иа '' ▁(; ▁, ▁официалтә ▁ахь ʒ ▁— ▁су ом и ▁аҳәынҭқарра ▁) ▁— ▁европа ҟны , ▁ба л тика тәи ▁амшын ▁аҩада - мрагыларатәи ▁агаҟны ▁аҳәынҭқарра .
▁нас ыҧ ла ▁иҟоу ▁( ▁иҭ ә у 0 ▁а ҭаацәара ▁ам ал ▁ры г ха ӡом . ▁а ҕа цәеи ▁ам пыҵа хала ҩ цәеи ▁аҧсны ▁иқә наг ала хьан ▁к ыр ынтә , ▁аха ▁уи ▁аба хә ▁еиҧш ▁и гылан ▁и ҕәҕәа ӡа . ▁ач ҳара ▁ахь ыҟ ам ▁а
▁абарҭ ▁азакәан қәа ▁ан ры дыр кыл оз ▁аамҭазы , ▁даҽа ка ла ▁иаҳ ҳәо зар , ▁0000 ▁шықәса ▁ала гамҭа зы ▁аҧсны ▁абанктә ▁система ▁с сс р ▁абанк қәа : ▁а ҳәынҭ банк , ▁а ҵәахырҭа ҭ ә ▁банк , ▁а
5000 ▁су оми , ▁'' фин ландиа '' ▁(; ▁, ▁официалтә ▁ахь ʒ ▁— ▁су оми ▁аҳәынҭқарра ▁) ▁— ▁европаҟны , ▁бал тика тәи ▁амшын ▁аҩада - мрагыларатәи ▁агаҟны ▁аҳәынҭқарра .
▁нас ыҧла ▁иҟоу ▁( ▁иҭ ә у 0 ▁аҭаацәара ▁амал ▁ры г ха ӡом . ▁а ҕа цәеи ▁ампыҵа хала ҩ цәеи ▁аҧсны ▁иқә наг ала хьан ▁к ыр ынтә , ▁аха ▁уи ▁аба хә ▁еиҧш ▁и гылан ▁и ҕәҕәа ӡа . ▁ач ҳара ▁ахьыҟ ам ▁а
▁абарҭ ▁азакәанқәа ▁ан рыдыр кыл оз ▁аамҭазы , ▁даҽа кала ▁иаҳ ҳәо зар , ▁0000 ▁шықәса ▁алагамҭа зы ▁аҧсны ▁абанктә ▁система ▁с сс р ▁абанкқәа : ▁а ҳәынҭ банк , ▁а ҵәахырҭа ҭә ▁банк , ▁а