Kalmyk (xal) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Embedding matrix plots

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizexalwiki sample
original апрелевка // города россии: энциклопедия. — м.: большая российская энциклопедия, 0000. — 000 с. — 00 000 экз. —isbn 0-00000-000-0.. — с. 00. *
зөвлөлт холбоот улсын бүрэлдэхүүнд 0000 оны 0 сарын 00-нд төв аж үйлдвэрийн муж () гэдэг нэртэйгээр байгуулагдсан бөгөөд москва, рязань, тула, тверь г
энэ хотын нэг онцлог нь үндэсний хамгийн их үйлдвэрлэл үйлчилгээ төвлөрсөн бүс болдогт бөгөөд одоогоор 0000 орчим том жижиг байгуулага монгол улсын до
1000 ▁а п р ел ев к а ▁ / / ▁город а ▁р ос с ии : ▁энциклопед ия . ▁— ▁м .: ▁бол ь ш ая ▁р ос с ий ск ая ▁энциклопед ия , ▁0000. ▁— ▁000 ▁с . ▁— ▁00 ▁000 ▁экз . ▁— is b n ▁0 - 0000 0- 00 0- 0 . . ▁— ▁с . ▁00 . ▁*
▁з өв л өл т ▁х ол бо от ▁улс ын ▁б үр эл д э х үү нд ▁0000 ▁он ы ▁0 ▁сар ын ▁00 - нд ▁т өв ▁а ж ▁ү й л д в эр ийн ▁м у ж ▁( ) ▁г э д эг ▁н эр т э й г ээ р ▁бай г уу ла гд сан ▁б өг өө д ▁м оск в а , ▁р я з ань , ▁т у ла , ▁т в ер ь ▁г
▁эн э ▁хот ын ▁н эг ▁он ц л ог ▁нь ▁ү нд э сн ий ▁хам гийн ▁и х ▁ү й л д в эр л эл ▁ү й л ч ил г ээ ▁т өв л өр с өн ▁б ү с ▁бол д ог т ▁б өг өө д ▁ од о ого ор ▁0000 ▁ор ч им ▁т ом ▁ ж и ж иг ▁бай г уу ла га ▁монгол ▁улс ын ▁д о
3000 ▁а пр ел ев ка ▁// ▁города ▁россии : ▁энциклопедия . ▁— ▁м .: ▁большая ▁российская ▁энциклопедия , ▁0000. ▁— ▁000 ▁с . ▁— ▁00 ▁000 ▁экз . ▁— is bn ▁0-00000-000-0. . ▁— ▁с . ▁00. ▁*
▁зөв л өлт ▁холбо от ▁улсын ▁бүр элд эх үү нд ▁0000 ▁оны ▁0 ▁сарын ▁00- нд ▁төв ▁аж ▁үйлдвэр ийн ▁муж ▁() ▁гэдэг ▁нэр тэй г ээр ▁байгуулагд сан ▁бөгөөд ▁москва , ▁р яз ань , ▁ту ла , ▁т в ер ь ▁г
▁энэ ▁хотын ▁нэг ▁он ц л ог ▁нь ▁үндэ сний ▁хамгийн ▁их ▁үйлдвэр лэл ▁үйл чил г ээ ▁төв л өр сөн ▁бү с ▁болдог т ▁бөгөөд ▁одо огоор ▁0000 ▁орчим ▁том ▁ж иж иг ▁байгуула га ▁монгол ▁улсын ▁до
5000 ▁апр ел ев ка ▁// ▁города ▁россии : ▁энциклопедия . ▁— ▁м .: ▁большая ▁российская ▁энциклопедия , ▁0000. ▁— ▁000 ▁с . ▁— ▁00 ▁000 ▁экз . ▁— is bn ▁0-00000-000-0. . ▁— ▁с . ▁00. ▁*
▁зөвл өлт ▁холбо от ▁улсын ▁бүрэлд эхүү нд ▁0000 ▁оны ▁0 ▁сарын ▁00- нд ▁төв ▁аж ▁үйлдвэр ийн ▁муж ▁() ▁гэдэг ▁нэртэй гээр ▁байгуулагдсан ▁бөгөөд ▁москва , ▁рязань , ▁ту ла , ▁т вер ь ▁г
▁энэ ▁хотын ▁нэг ▁онц л ог ▁нь ▁үндэсний ▁хамгийн ▁их ▁үйлдвэрлэл ▁үйлчил гээ ▁төвлөр сөн ▁бү с ▁болдог т ▁бөгөөд ▁одо огоор ▁0000 ▁орчим ▁том ▁ж иж иг ▁байгуула га ▁монгол ▁улсын ▁до