Navajo (nv) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Embedding matrix plots

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizenvwiki sample
original chéłchaaʼ éí ''chʼosh bijáád hastáníjiʼ'' atah daasdzoh, áádóó nahasdzáán bikáaʼgo 000,000 anééhląąʼ ałʼąą átʼé. ndaʼałkaahí bikʼehgo díí chʼosh éí ''
chʼil bikétłʼóól łitsooígíí éí náhookǫs dóó eʼeʼaahjí kéyah dah siʼánígíí bikáaʼgi hahóólįįd jiní; dííshjį́į́góó éí béésh bichʼahnii bikéyahdi hólǫ́ a
díí tsídii éí łóóʼ deilghał, áko ndi doo łóóʼ haalzheehgo ndaatʼáa da — tónteel tsídii łóóʼ yigháńdaajih. łahda éí tónteel tsídii deilghał. nááná éí t
1000 ▁ché łch aa ʼ ▁éí ▁'' ch ʼ osh ▁bijáád ▁hast ání ji ʼ '' ▁atah ▁daasdzoh , ▁áádóó ▁nahasdzáán ▁bikáa ʼ go ▁000,000 ▁an ééh l ąą ʼ ▁ał ʼ ąą ▁át ʼ é . ▁nda ʼ ałkaahí ▁bik ʼ ehgo ▁díí ▁ch ʼ osh ▁éí ▁''
▁ch ʼ il ▁bik étł ʼ óól ▁łi tsoo ígíí ▁éí ▁náhookǫs ▁dóó ▁e ʼ e ʼ aahjí ▁kéyah ▁dah ▁si ʼ ánígíí ▁bikáa ʼ gi ▁hahóólįįd ▁jiní ; ▁dííshjį ́ į ́ góó ▁éí ▁béésh ▁bich ʼ ahnii ▁bikéyahdi ▁hólǫ ́ ▁a
▁díí ▁tsídii ▁éí ▁łóó ʼ ▁deilghał , ▁áko ▁ndi ▁doo ▁łóó ʼ ▁haalzh ee hgo ▁ndaat ʼ áa ▁da ▁— ▁tónteel ▁tsídii ▁łóó ʼ ▁yi ghá ń daa ji h . ▁łahda ▁éí ▁tónteel ▁tsídii ▁deilghał . ▁nááná ▁éí ▁t
3000 ▁chéłchaa ʼ ▁éí ▁'' ch ʼ osh ▁bijáád ▁hastání ji ʼ'' ▁atah ▁daasdzoh , ▁áádóó ▁nahasdzáán ▁bikáa ʼ go ▁000,000 ▁anééhląą ʼ ▁ał ʼ ąą ▁át ʼ é . ▁nda ʼ ałkaahí ▁bik ʼ ehgo ▁díí ▁ch ʼ osh ▁éí ▁''
▁ch ʼ il ▁bikétł ʼ óól ▁łi tsooígíí ▁éí ▁náhookǫs ▁dóó ▁e ʼ e ʼ aahjí ▁kéyah ▁dah ▁si ʼ ánígíí ▁bikáa ʼ gi ▁hahóólįįd ▁jiní ; ▁dííshjį ́ į ́ góó ▁éí ▁béésh ▁bich ʼ ahnii ▁bikéyahdi ▁hólǫ ́ ▁a
▁díí ▁tsídii ▁éí ▁łóó ʼ ▁deilghał , ▁áko ▁ndi ▁doo ▁łóó ʼ ▁haalzheehgo ▁ndaat ʼ áa ▁da ▁— ▁tónteel ▁tsídii ▁łóó ʼ ▁yi gháń daa ji h . ▁łahda ▁éí ▁tónteel ▁tsídii ▁deilghał . ▁nááná ▁éí ▁t
5000 ▁chéłchaa ʼ ▁éí ▁'' ch ʼ osh ▁bijáád ▁hastáníji ʼ'' ▁atah ▁daasdzoh , ▁áádóó ▁nahasdzáán ▁bikáa ʼ go ▁000,000 ▁anééhląą ʼ ▁ał ʼ ąą ▁át ʼ é . ▁nda ʼ ałkaahí ▁bik ʼ ehgo ▁díí ▁ch ʼ osh ▁éí ▁''
▁ch ʼ il ▁bikétł ʼ óól ▁łitsooígíí ▁éí ▁náhookǫs ▁dóó ▁e ʼ e ʼ aahjí ▁kéyah ▁dah ▁si ʼ ánígíí ▁bikáa ʼ gi ▁hahóólįįd ▁jiní ; ▁dííshjį ́ į ́ góó ▁éí ▁béésh ▁bich ʼ ahnii ▁bikéyahdi ▁hólǫ ́ ▁a
▁díí ▁tsídii ▁éí ▁łóó ʼ ▁deilghał , ▁áko ▁ndi ▁doo ▁łóó ʼ ▁haalzheehgo ▁ndaat ʼ áa ▁da ▁— ▁tónteel ▁tsídii ▁łóó ʼ ▁yi gháń daa ji h . ▁łahda ▁éí ▁tónteel ▁tsídii ▁deilghał . ▁nááná ▁éí ▁t