Russia Buriat (bxr) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizebxrwiki sample
original тахяанай дэгдээхэйнүүд үндэгэнэй хальһан 00 үдэрэй дараа хагалан гарадаг ехэнхи шубууд ниүлүүлгэ болон үүр заһахадаа зорюулһан нютаг дэбисхэртэй байхы
сансарһаа хараһан зураг узбекистан 000,000 дүрбэлжэн километр газар нютагтай, хэмжээгээрээ ирак уласһаа арай томо гү, али дэлхэйн 00-р томо орон юм. у
* 0000–0000 — хитадай мин улас. * 0000 — дохолон тэмүр тэмүр уласые байгуулба. * 0000-0000 — ехэ баруун схизма. * 0000 — тохтамыш татаарнуудай москва
1000 ▁та х я анай ▁дэ г дээ хэй нүүд ▁үн дэг энэй ▁х ал ь һан ▁00 ▁ү дэр эй ▁дар аа ▁х аг ал ан ▁г ара даг ▁е хэн хи ▁шу б ууд ▁н и үл үүл гэ ▁болон ▁ү үр ▁за һа ха даа ▁з ор ю ул һан ▁нютаг ▁дэ б ис хэр тэй ▁бай хы
▁с ан с ар һаа ▁х ара һан ▁зур аг ▁у з б ек ис тан ▁000 ,000 ▁дүр бэл ж эн ▁к ил ом ет р ▁газар ▁нютаг тай , ▁хэмжэ эгэ эрэ э ▁ ир а к ▁улас һаа ▁ар ай ▁томо ▁гү , ▁али ▁дэлхэйн ▁00- р ▁томо ▁орон ▁юм . ▁у
▁* ▁0000 – 0000 ▁— ▁хит адай ▁м ин ▁улас . ▁* ▁0000 ▁— ▁д ох ол он ▁тэм үр ▁тэм үр ▁улас ые ▁байгуул ба . ▁* ▁0000 -0000 ▁— ▁ехэ ▁баруун ▁с хи з ма . ▁* ▁0000 ▁— ▁т ох та м ы ш ▁та та ар н уудай ▁м ос к ва
3000 ▁та х я анай ▁дэг дээ хэй нүүд ▁үн дэг энэй ▁халь һан ▁00 ▁үдэр эй ▁дараа ▁х аг алан ▁гара даг ▁ехэнхи ▁шуб ууд ▁н и үл үүл гэ ▁болон ▁үүр ▁за һа хадаа ▁зорюул һан ▁нютаг ▁дэбисхэр тэй ▁бай хы
▁сан сар һаа ▁хара һан ▁зураг ▁у з бек истан ▁000,000 ▁дүр бэл жэн ▁к ил ометр ▁газар ▁нютаг тай , ▁хэмжэ эгэ эрээ ▁ир ак ▁улас һаа ▁ар ай ▁томо ▁гү , ▁али ▁дэлхэйн ▁00- р ▁томо ▁орон ▁юм . ▁у
▁* ▁0000 –0000 ▁— ▁хитадай ▁мин ▁улас . ▁* ▁0000 ▁— ▁д ох олон ▁тэм үр ▁тэм үр ▁уласые ▁байгуул ба . ▁* ▁0000-0000 ▁— ▁ехэ ▁баруун ▁с хи з ма . ▁* ▁0000 ▁— ▁т ох та м ы ш ▁тата ар нуудай ▁москва
5000 ▁та х я анай ▁дэг дээ хэй нүүд ▁үндэг энэй ▁халь һан ▁00 ▁үдэр эй ▁дараа ▁хаг алан ▁гарадаг ▁ехэнхи ▁шубууд ▁н и үл үүл гэ ▁болон ▁үүр ▁заһа хадаа ▁зорюулһан ▁нютаг ▁дэбисхэр тэй ▁бай хы
▁сан сар һаа ▁хара һан ▁зураг ▁узбек истан ▁000,000 ▁дүрбэлжэн ▁километр ▁газар ▁нютаг тай , ▁хэмжэ эгээрээ ▁ир ак ▁улас һаа ▁ар ай ▁томо ▁гү , ▁али ▁дэлхэйн ▁00- р ▁томо ▁орон ▁юм . ▁у
▁* ▁0000–0000 ▁— ▁хитадай ▁мин ▁улас . ▁* ▁0000 ▁— ▁д ох олон ▁тэм үр ▁тэм үр ▁уласые ▁байгуулба . ▁* ▁0000-0000 ▁— ▁ехэ ▁баруун ▁с хи з ма . ▁* ▁0000 ▁— ▁т ох там ы ш ▁тата ар нуудай ▁москва
10000 ▁та х яанай ▁дэг дээ хэй нүүд ▁үндэг энэй ▁халь һан ▁00 ▁үдэрэй ▁дараа ▁хаг алан ▁гарадаг ▁ехэнхи ▁шубууд ▁ни үл үүл гэ ▁болон ▁үүр ▁заһа хадаа ▁зорюулһан ▁нютаг ▁дэбисхэртэй ▁бай хы
▁сансар һаа ▁хара һан ▁зураг ▁узбекистан ▁000,000 ▁дүрбэлжэн ▁километр ▁газар ▁нютагтай , ▁хэмжээгээрээ ▁ирак ▁уласһаа ▁арай ▁томо ▁гү , ▁али ▁дэлхэйн ▁00- р ▁томо ▁орон ▁юм . ▁у
▁* ▁0000–0000 ▁— ▁хитадай ▁мин ▁улас . ▁* ▁0000 ▁— ▁дох олон ▁тэм үр ▁тэм үр ▁уласые ▁байгуулба . ▁* ▁0000-0000 ▁— ▁ехэ ▁баруун ▁с хи з ма . ▁* ▁0000 ▁— ▁тох там ыш ▁тата ар нуудай ▁москва
25000 ▁тах яанай ▁дэг дээ хэй нүүд ▁үндэг энэй ▁халь һан ▁00 ▁үдэрэй ▁дараа ▁хаг алан ▁гарадаг ▁ехэнхи ▁шубууд ▁ниүл үүлгэ ▁болон ▁үүр ▁заһа хадаа ▁зорюулһан ▁нютаг ▁дэбисхэртэй ▁бай хы
▁сансар һаа ▁хараһан ▁зураг ▁узбекистан ▁000,000 ▁дүрбэлжэн ▁километр ▁газар ▁нютагтай , ▁хэмжээгээрээ ▁ирак ▁уласһаа ▁арай ▁томо ▁гү , ▁али ▁дэлхэйн ▁00- р ▁томо ▁орон ▁юм . ▁у
▁* ▁0000–0000 ▁— ▁хитадай ▁мин ▁улас . ▁* ▁0000 ▁— ▁дохолон ▁тэмүр ▁тэмүр ▁уласые ▁байгуулба . ▁* ▁0000-0000 ▁— ▁ехэ ▁баруун ▁с хи зма . ▁* ▁0000 ▁— ▁тох там ыш ▁татаар нуудай ▁москва