Malay (macrolanguage) (ms) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizemswiki sample
original kura-kura daun (bahasa inggeris: ''asian leaf turtle'') ialah salah satu daripada haiwan yang terdapat di asia tenggara, termasuk malaysia. nama sains
* 0000 (umur 00): menjemput dr mahathir mohamad, yang disingkir pada 0000, kembali ke pangkuan umno gara gara surat peribadi beliau kepada tunku.
sistem pengoperasian vista/xp menyokong unicode, dan ini membolehkan pengguna menulis jawi dengan mudah. dalam penulisan jawi di vista/xp, ia memerluk
1000 ▁k ur a - k ur a ▁da un ▁( b ah asa ▁ ingg er is : ▁'' as ian ▁le af ▁t ur t le '' ) ▁ialah ▁salah ▁satu ▁daripada ▁h ai wan ▁yang ▁terdapat ▁di ▁as ia ▁t eng g ara , ▁termasuk ▁malaysia . ▁nama ▁s ain s
▁* ▁0000 ▁( um ur ▁00 ) : ▁menj emp ut ▁d r ▁mah at hir ▁m oh am ad , ▁yang ▁dis ingk ir ▁pada ▁0000, ▁k emb ali ▁ke ▁p angk uan ▁um n o ▁g ara ▁g ara ▁s ur at ▁per ib adi ▁beliau ▁kepada ▁t un ku .
▁s ist em ▁peng o per as ian ▁v is ta / x p ▁meny ok ong ▁un ic od e , ▁dan ▁ini ▁memb o leh kan ▁peng gun a ▁men u lis ▁j aw i ▁dengan ▁m ud ah . ▁dalam ▁pen u lis an ▁j aw i ▁di ▁v is ta / x p , ▁ia ▁mem er l uk
3000 ▁k ura - k ura ▁da un ▁( bahasa ▁inggeris : ▁'' as ian ▁le af ▁tur tle '') ▁ialah ▁salah ▁satu ▁daripada ▁haiwan ▁yang ▁terdapat ▁di ▁asia ▁tenggara , ▁termasuk ▁malaysia . ▁nama ▁sains
▁* ▁0000 ▁( um ur ▁00 ): ▁menj emp ut ▁dr ▁mah at hir ▁moham ad , ▁yang ▁dis ingk ir ▁pada ▁0000, ▁kembali ▁ke ▁p angk uan ▁umno ▁g ara ▁g ara ▁surat ▁per ib adi ▁beliau ▁kepada ▁tun ku .
▁sistem ▁peng o per as ian ▁v is ta / x p ▁meny okong ▁un ic od e , ▁dan ▁ini ▁membolehkan ▁pengguna ▁menulis ▁j awi ▁dengan ▁mudah . ▁dalam ▁penulis an ▁j awi ▁di ▁v is ta / x p , ▁ia ▁memer luk
5000 ▁k ura - k ura ▁daun ▁( bahasa ▁inggeris : ▁'' as ian ▁le af ▁tur tle '') ▁ialah ▁salah ▁satu ▁daripada ▁haiwan ▁yang ▁terdapat ▁di ▁asia ▁tenggara , ▁termasuk ▁malaysia . ▁nama ▁sains
▁* ▁0000 ▁( umur ▁00 ): ▁menj emp ut ▁dr ▁mah at hir ▁mohamad , ▁yang ▁dis ingk ir ▁pada ▁0000, ▁kembali ▁ke ▁pangk uan ▁umno ▁g ara ▁g ara ▁surat ▁peribadi ▁beliau ▁kepada ▁tunku .
▁sistem ▁peng o per as ian ▁vis ta / x p ▁menyokong ▁un ic ode , ▁dan ▁ini ▁membolehkan ▁pengguna ▁menulis ▁j awi ▁dengan ▁mudah . ▁dalam ▁penulis an ▁j awi ▁di ▁vis ta / x p , ▁ia ▁memer luk
10000 ▁k ura - k ura ▁daun ▁( bahasa ▁inggeris : ▁'' as ian ▁le af ▁tur tle '') ▁ialah ▁salah ▁satu ▁daripada ▁haiwan ▁yang ▁terdapat ▁di ▁asia ▁tenggara , ▁termasuk ▁malaysia . ▁nama ▁sains
▁* ▁0000 ▁( umur ▁00 ): ▁menj emput ▁dr ▁mahathir ▁mohamad , ▁yang ▁dis ingkir ▁pada ▁0000, ▁kembali ▁ke ▁pangk uan ▁umno ▁g ara ▁g ara ▁surat ▁peribadi ▁beliau ▁kepada ▁tunku .
▁sistem ▁peng oper as ian ▁vis ta / x p ▁menyokong ▁un ic ode , ▁dan ▁ini ▁membolehkan ▁pengguna ▁menulis ▁jawi ▁dengan ▁mudah . ▁dalam ▁penulisan ▁jawi ▁di ▁vis ta / x p , ▁ia ▁memer luk
25000 ▁kura - kura ▁daun ▁( bahasa ▁inggeris : ▁'' asian ▁le af ▁tur tle '') ▁ialah ▁salah ▁satu ▁daripada ▁haiwan ▁yang ▁terdapat ▁di ▁asia ▁tenggara , ▁termasuk ▁malaysia . ▁nama ▁sains
▁* ▁0000 ▁( umur ▁00): ▁menjemput ▁dr ▁mahathir ▁mohamad , ▁yang ▁dis ingkir ▁pada ▁0000, ▁kembali ▁ke ▁pangk uan ▁umno ▁gara ▁gara ▁surat ▁peribadi ▁beliau ▁kepada ▁tunku .
▁sistem ▁pengoperasian ▁vista / x p ▁menyokong ▁unic ode , ▁dan ▁ini ▁membolehkan ▁pengguna ▁menulis ▁jawi ▁dengan ▁mudah . ▁dalam ▁penulisan ▁jawi ▁di ▁vista / x p , ▁ia ▁memer luk
50000 ▁kura - kura ▁daun ▁( bahasa ▁inggeris : ▁'' asian ▁leaf ▁turtle '') ▁ialah ▁salah ▁satu ▁daripada ▁haiwan ▁yang ▁terdapat ▁di ▁asia ▁tenggara , ▁termasuk ▁malaysia . ▁nama ▁sains
▁* ▁0000 ▁( umur ▁00): ▁menjemput ▁dr ▁mahathir ▁mohamad , ▁yang ▁disingkir ▁pada ▁0000, ▁kembali ▁ke ▁pangkuan ▁umno ▁gara ▁gara ▁surat ▁peribadi ▁beliau ▁kepada ▁tunku .
▁sistem ▁pengoperasian ▁vista / x p ▁menyokong ▁unicode , ▁dan ▁ini ▁membolehkan ▁pengguna ▁menulis ▁jawi ▁dengan ▁mudah . ▁dalam ▁penulisan ▁jawi ▁di ▁vista / x p , ▁ia ▁memer luk
100000 ▁kura - kura ▁daun ▁( bahasa ▁inggeris : ▁'' asian ▁leaf ▁turtle '') ▁ialah ▁salah ▁satu ▁daripada ▁haiwan ▁yang ▁terdapat ▁di ▁asia ▁tenggara , ▁termasuk ▁malaysia . ▁nama ▁sains
▁* ▁0000 ▁( umur ▁00): ▁menjemput ▁dr ▁mahathir ▁mohamad , ▁yang ▁disingkir ▁pada ▁0000, ▁kembali ▁ke ▁pangkuan ▁umno ▁gara ▁gara ▁surat ▁peribadi ▁beliau ▁kepada ▁tunku .
▁sistem ▁pengoperasian ▁vista / xp ▁menyokong ▁unicode , ▁dan ▁ini ▁membolehkan ▁pengguna ▁menulis ▁jawi ▁dengan ▁mudah . ▁dalam ▁penulisan ▁jawi ▁di ▁vista / xp , ▁ia ▁memer luk