Achinese (ace) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Embedding matrix plots

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeacewiki sample
original syuruga atawa surga nakeuh saboh teumpat balasan nyang göt nyang geubri keu hamba-hamba nyang seumatéh keu allah. lam syuruga nyan keuh ureueng-ureuen
semenanjung balkan (meunurôt definisi garéh danube-sava-kupa) na cit definisi la'én lam bhaih ceuë barôh balkan: * garéh krka (kruëng di slovenia) - v
na padum-padum boh keujadian lam buleuen nyo, nakeuh: * uroe 0 jumadal ula: uroe lahé zainab binti ali. * uroe 00 jumadal ula: uroe lahé khalifah ali
1000 ▁sy ur ug a ▁atawa ▁sur ga ▁nakeuh ▁saboh ▁teumpat ▁b ala s an ▁nyang ▁g öt ▁nyang ▁geub ri ▁keu ▁h amb a - h amb a ▁nyang ▁seum at éh ▁keu ▁allah . ▁lam ▁sy ur ug a ▁nyan ▁keuh ▁ureueng - ur euen
▁s em en an j ung ▁b al k an ▁( m eun ur ôt ▁de f in i si ▁g ar éh ▁dan ub e - sa v a - k upa ) ▁na ▁cit ▁de f in i si ▁la ' én ▁lam ▁b ha ih ▁c euë ▁barôh ▁b al k an : ▁* ▁g ar éh ▁kr ka ▁( k r uëng ▁di ▁s l ov en ia ) ▁- ▁v
▁na ▁padum - padum ▁boh ▁keu j ad ian ▁lam ▁buleuen ▁ny o , ▁nakeuh : ▁* ▁uroe ▁0 ▁jum ad al ▁u la : ▁uroe ▁la hé ▁z a in ab ▁bin ti ▁al i . ▁* ▁uroe ▁00 ▁jum ad al ▁u la : ▁uroe ▁la hé ▁kh ali f ah ▁al i
3000 ▁syuruga ▁atawa ▁sur ga ▁nakeuh ▁saboh ▁teumpat ▁bala san ▁nyang ▁göt ▁nyang ▁geubri ▁keu ▁h amba - h amba ▁nyang ▁seumatéh ▁keu ▁allah . ▁lam ▁syuruga ▁nyan ▁keuh ▁ureueng - ur euen
▁sem enanjung ▁balkan ▁( m eun urôt ▁de f in isi ▁garéh ▁dan ub e - sa va - k upa ) ▁na ▁cit ▁de f in isi ▁la ' én ▁lam ▁bhaih ▁ceuë ▁barôh ▁balkan : ▁* ▁garéh ▁kr ka ▁( kr uëng ▁di ▁s l ov en ia ) ▁- ▁v
▁na ▁padum - padum ▁boh ▁keujadian ▁lam ▁buleuen ▁nyo , ▁nakeuh : ▁* ▁uroe ▁0 ▁jum ad al ▁u la : ▁uroe ▁lahé ▁z ain ab ▁bin ti ▁ali . ▁* ▁uroe ▁00 ▁jum ad al ▁u la : ▁uroe ▁lahé ▁khalifah ▁ali
5000 ▁syuruga ▁atawa ▁sur ga ▁nakeuh ▁saboh ▁teumpat ▁bala san ▁nyang ▁göt ▁nyang ▁geubri ▁keu ▁hamba - h amba ▁nyang ▁seumatéh ▁keu ▁allah . ▁lam ▁syuruga ▁nyan ▁keuh ▁ureueng - ur euen
▁semenanjung ▁balkan ▁( meun urôt ▁de fin isi ▁garéh ▁dan ub e - sa va - k upa ) ▁na ▁cit ▁de fin isi ▁la ' én ▁lam ▁bhaih ▁ceuë ▁barôh ▁balkan : ▁* ▁garéh ▁kr ka ▁( kr uëng ▁di ▁sl ov en ia ) ▁- ▁v
▁na ▁padum - padum ▁boh ▁keujadian ▁lam ▁buleuen ▁nyo , ▁nakeuh : ▁* ▁uroe ▁0 ▁jum ad al ▁ula : ▁uroe ▁lahé ▁z ain ab ▁binti ▁ali . ▁* ▁uroe ▁00 ▁jum ad al ▁ula : ▁uroe ▁lahé ▁khalifah ▁ali