Banjar (bjn) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizebjnwiki sample
original kota naya beisian arti penting gasan umat kerestén marga dipercayai sabagai wadah kelahiran yésus. kuburan rahél nang penting dalam agama yahudi andak
* caacupé * caaguazú * caapucú * caazapá * cambyreta * capiatá * capiíbary * capitán bado * capitán mauricio josé troche * capitán meza * capitán mira
dalam agama hindu, rama (sanskerta: राम; ''rāma'') atawa ramacandra (sansekerta: रामचन्द्र; ''rāmacandra'') adalah sa'urang raja legendaris nang tarka
1000 ▁kota ▁n aya ▁b e is ian ▁ar ti ▁p ent ing ▁gasan ▁um at ▁ker est én ▁marga ▁dip er c aya i ▁sabagai ▁w adah ▁ke lah iran ▁y és us . ▁k ub uran ▁r ah él ▁nang ▁p ent ing ▁dalam ▁agama ▁y ah ud i ▁and ak
▁* ▁c a ac up é ▁* ▁c a ag ua z ú ▁* ▁c a ap uc ú ▁* ▁c a a z ap á ▁* ▁c amb y r et a ▁* ▁c api at á ▁* ▁c api í bar y ▁* ▁c ap it á n ▁b ad o ▁* ▁c ap it á n ▁ma ur ic i o ▁j os é ▁tr o ch e ▁* ▁c ap it á n ▁m e z a ▁* ▁c ap it á n ▁m ira
▁dalam ▁agama ▁h ind u , ▁r ama ▁( s ans k er ta : ▁ र ा म ; ▁'' r ā ma '') ▁atawa ▁r am ac and ra ▁( s ans ek er ta : ▁ र ा म च न ् द ् र ; ▁'' r ā m ac and ra '') ▁adalah ▁sa ' urang ▁raja ▁l eg end ar is ▁nang ▁tar k a
3000 ▁kota ▁naya ▁be isian ▁arti ▁pent ing ▁gasan ▁umat ▁kerestén ▁marga ▁diper caya i ▁sabagai ▁wadah ▁ke lah iran ▁y és us . ▁k ub uran ▁rah él ▁nang ▁pent ing ▁dalam ▁agama ▁yahudi ▁and ak
▁* ▁c a ac up é ▁* ▁c a ag ua z ú ▁* ▁c a ap uc ú ▁* ▁c a a z ap á ▁* ▁c amb y r eta ▁* ▁c api at á ▁* ▁c api í bar y ▁* ▁c ap it á n ▁bad o ▁* ▁c ap it á n ▁ma ur ic i o ▁j os é ▁tr o ch e ▁* ▁c ap it á n ▁me za ▁* ▁c ap it á n ▁m ira
▁dalam ▁agama ▁hindu , ▁r ama ▁( s ans ker ta : ▁ र ा म ; ▁'' r ā ma '') ▁atawa ▁ram ac and ra ▁( s ans eker ta : ▁ र ा म च न ् द ् र ; ▁'' r ā m ac and ra '') ▁adalah ▁sa ' urang ▁raja ▁l eg end aris ▁nang ▁tar ka
5000 ▁kota ▁naya ▁be isian ▁arti ▁penting ▁gasan ▁umat ▁kerestén ▁marga ▁diper caya i ▁sabagai ▁wadah ▁kelahiran ▁yésus . ▁kub uran ▁rah él ▁nang ▁penting ▁dalam ▁agama ▁yahudi ▁and ak
▁* ▁ca ac up é ▁* ▁ca ag ua z ú ▁* ▁ca ap uc ú ▁* ▁ca a z ap á ▁* ▁c amb yr eta ▁* ▁c api at á ▁* ▁c api í bar y ▁* ▁cap it án ▁bad o ▁* ▁cap it án ▁maur ic io ▁jos é ▁tr och e ▁* ▁cap it án ▁me za ▁* ▁cap it án ▁m ira
▁dalam ▁agama ▁hindu , ▁r ama ▁( s ans kerta : ▁ र ा म ; ▁'' r ā ma '') ▁atawa ▁ram ac and ra ▁( s ans ekerta : ▁ र ा म च न ् द ् र ; ▁'' r ā m ac and ra '') ▁adalah ▁sa ' urang ▁raja ▁leg end aris ▁nang ▁tar ka
10000 ▁kota ▁naya ▁beisian ▁arti ▁penting ▁gasan ▁umat ▁kerestén ▁marga ▁dipercaya i ▁sabagai ▁wadah ▁kelahiran ▁yésus . ▁kub uran ▁rah él ▁nang ▁penting ▁dalam ▁agama ▁yahudi ▁and ak
▁* ▁ca ac up é ▁* ▁ca ag ua z ú ▁* ▁ca ap uc ú ▁* ▁ca az ap á ▁* ▁camb yr eta ▁* ▁c api at á ▁* ▁c api í bar y ▁* ▁cap it án ▁bad o ▁* ▁cap it án ▁maur ic io ▁josé ▁tr och e ▁* ▁cap it án ▁me za ▁* ▁cap it án ▁m ira
▁dalam ▁agama ▁hindu , ▁rama ▁( sans kerta : ▁ रा म ; ▁'' r ā ma '') ▁atawa ▁ram ac andra ▁( sans ekerta : ▁ रा म च न ् द ् र ; ▁'' r ā m ac andra '') ▁adalah ▁sa ' urang ▁raja ▁leg end aris ▁nang ▁tar ka