Javanese (jv) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizejvwiki sample
original kategori:kabupatèn trenggalèk kategori:kecamatan ing kabupatèn trenggalèk kategori:kacamatan ing jawa wétan kategori:kacamatan ing indonésia kategori:
{| class="toccolours" width=000px tableborder="0" cellspacing="0" style="padding: 0.0em; float:right; margin: 0px 0px 0em 0em; border:0px solid #ccf;
miturut kapracayan wong tionghoa, wong sing nduwé shio asu iku wong sing setya, jujur, lan bisa dipracayani, anging dhèwèké uga bisa keras kepala lan
1000 ▁kategori : k ab upatèn ▁tr eng g al èk ▁kategori : k ec amatan ▁ing ▁kabupatèn ▁tr eng g al èk ▁kategori : k ac amatan ▁ing ▁jawa ▁wétan ▁kategori : k ac amatan ▁ing ▁indonésia ▁kategori :
▁ { | ▁c l as s =" t oc c ol o ur s " ▁w id th = 000 px ▁t ab l eb order =" 0 " ▁c ell sp ac ing =" 0 " ▁st y le =" p ad d ing : ▁0 . 0 em ; ▁f l o at : r ight ; ▁mar g in : ▁0 px ▁0 px ▁0 em ▁0 em ; ▁border : 0 px ▁s ol id ▁# c c f ;
▁mit urut ▁kap r ac ay an ▁wong ▁t i ong h o a , ▁wong ▁sing ▁nd uwé ▁s hi o ▁as u ▁iku ▁wong ▁sing ▁s et ya , ▁j uj ur , ▁lan ▁bisa ▁dip r ac ay ani , ▁ anging ▁dhèwèké ▁uga ▁bisa ▁ker as ▁kep ala ▁lan
3000 ▁kategori : kab upatèn ▁tr engg al èk ▁kategori : k ec amatan ▁ing ▁kabupatèn ▁tr engg al èk ▁kategori : kacamatan ▁ing ▁jawa ▁wétan ▁kategori : kacamatan ▁ing ▁indonésia ▁kategori :
▁{| ▁class =" t oc col ours " ▁width = 000 px ▁tab l eb order ="0" ▁cellspacing ="0" ▁style =" padding : ▁0.0 em ; ▁fl o at : right ; ▁mar gin : ▁0 px ▁0 px ▁0 em ▁0 em ; ▁border :0 px ▁solid ▁# cc f ;
▁miturut ▁kap r ac ayan ▁wong ▁ti ong ho a , ▁wong ▁sing ▁nduwé ▁s hi o ▁as u ▁iku ▁wong ▁sing ▁set ya , ▁j uj ur , ▁lan ▁bisa ▁dip r ac ay ani , ▁ anging ▁dhèwèké ▁uga ▁bisa ▁ker as ▁kepala ▁lan
5000 ▁kategori : kabupatèn ▁tr engg alèk ▁kategori : k ec amatan ▁ing ▁kabupatèn ▁tr engg alèk ▁kategori : kacamatan ▁ing ▁jawa ▁wétan ▁kategori : kacamatan ▁ing ▁indonésia ▁kategori :
▁{| ▁class =" toccolours " ▁width =000 px ▁tableborder ="0" ▁cellspacing ="0" ▁style =" padding : ▁0.0 em ; ▁float : right ; ▁margin : ▁0 px ▁0 px ▁0 em ▁0 em ; ▁border :0 px ▁solid ▁# ccf ;
▁miturut ▁kapr ac ayan ▁wong ▁tionghoa , ▁wong ▁sing ▁nduwé ▁s hi o ▁as u ▁iku ▁wong ▁sing ▁set ya , ▁j uj ur , ▁lan ▁bisa ▁dipr ac ayani , ▁ anging ▁dhèwèké ▁uga ▁bisa ▁ker as ▁kepala ▁lan
10000 ▁kategori : kabupatèn ▁tr engg alèk ▁kategori : kec amatan ▁ing ▁kabupatèn ▁tr engg alèk ▁kategori : kacamatan ▁ing ▁jawa ▁wétan ▁kategori : kacamatan ▁ing ▁indonésia ▁kategori :
▁{| ▁class =" toccolours " ▁width =000 px ▁tableborder ="0" ▁cellspacing ="0" ▁style =" padding : ▁0.0 em ; ▁float : right ; ▁margin : ▁0 px ▁0 px ▁0 em ▁0 em ; ▁border :0 px ▁solid ▁# ccf ;
▁miturut ▁kapr ac ayan ▁wong ▁tionghoa , ▁wong ▁sing ▁nduwé ▁shi o ▁asu ▁iku ▁wong ▁sing ▁set ya , ▁j ujur , ▁lan ▁bisa ▁dipr ac ayani , ▁ anging ▁dhèwèké ▁uga ▁bisa ▁keras ▁kepala ▁lan
25000 ▁kategori : kabupatèn ▁trenggalèk ▁kategori : kecamatan ▁ing ▁kabupatèn ▁trenggalèk ▁kategori : kacamatan ▁ing ▁jawa ▁wétan ▁kategori : kacamatan ▁ing ▁indonésia ▁kategori :
▁{| ▁class =" toccolours " ▁width =000 px ▁tableborder ="0" ▁cellspacing ="0" ▁style =" padding : ▁0.0 em ; ▁float : right ; ▁margin : ▁0 px ▁0 px ▁0 em ▁0 em ; ▁border :0 px ▁solid ▁# ccf ;
▁miturut ▁kapr ac ayan ▁wong ▁tionghoa , ▁wong ▁sing ▁nduwé ▁shi o ▁asu ▁iku ▁wong ▁sing ▁setya , ▁jujur , ▁lan ▁bisa ▁dipr ac ayani , ▁anging ▁dhèwèké ▁uga ▁bisa ▁keras ▁kepala ▁lan
50000 ▁kategori : kabupatèn ▁trenggalèk ▁kategori : kecamatan ▁ing ▁kabupatèn ▁trenggalèk ▁kategori : kacamatan ▁ing ▁jawa ▁wétan ▁kategori : kacamatan ▁ing ▁indonésia ▁kategori :
▁{| ▁class =" toccolours " ▁width =000 px ▁tableborder ="0" ▁cellspacing ="0" ▁style =" padding : ▁0.0 em ; ▁float : right ; ▁margin : ▁0 px ▁0 px ▁0 em ▁0 em ; ▁border :0 px ▁solid ▁# ccf ;
▁miturut ▁kapracayan ▁wong ▁tionghoa , ▁wong ▁sing ▁nduwé ▁shio ▁asu ▁iku ▁wong ▁sing ▁setya , ▁jujur , ▁lan ▁bisa ▁dipr ac ayani , ▁anging ▁dhèwèké ▁uga ▁bisa ▁keras ▁kepala ▁lan
100000 ▁kategori : kabupatèn ▁trenggalèk ▁kategori : kecamatan ▁ing ▁kabupatèn ▁trenggalèk ▁kategori : kacamatan ▁ing ▁jawa ▁wétan ▁kategori : kacamatan ▁ing ▁indonésia ▁kategori :
▁{| ▁class =" toccolours " ▁width =000 px ▁tableborder ="0" ▁cellspacing ="0" ▁style =" padding : ▁0.0 em ; ▁float : right ; ▁margin : ▁0 px ▁0 px ▁0 em ▁0 em ; ▁border :0 px ▁solid ▁# ccf ;
▁miturut ▁kapracayan ▁wong ▁tionghoa , ▁wong ▁sing ▁nduwé ▁shio ▁asu ▁iku ▁wong ▁sing ▁setya , ▁jujur , ▁lan ▁bisa ▁dipr acayani , ▁anging ▁dhèwèké ▁uga ▁bisa ▁keras ▁kepala ▁lan