Sango (sg) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Embedding matrix plots

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizesgwiki sample
original na hïngängö nî atene ayeke kötä yê mîngi tî mû ngangü na mäïngö tî lëngö söngö na pöpö tî ködörö ndê ndê,
na tângo sô bêafrîka agä ndepandäa, atâa sô sängö agä kôzo yângâ tî bêafrîka na wüngö tî âwatënëngö-nî kûê, a lîngbi tî mû fadë nî töngana yângâ tî ku
* senegäle (republic of senegal) * sëyshêle (republic of seychelles) * sierä-leône (republic of sierra leone) * somalïi (somali republic) * sudäan (re
1000 ▁na ▁hïngängö ▁nî ▁atene ▁ayeke ▁kötä ▁yê ▁mîngi ▁tî ▁mû ▁ngangü ▁na ▁mäïngö ▁tî ▁lëngö ▁s öngö ▁na ▁pöpö ▁tî ▁ködörö ▁ndê ▁ndê ,
▁na ▁tângo ▁sô ▁bêafrîka ▁agä ▁nd e p andäa , ▁at âa ▁sô ▁sängö ▁agä ▁kôzo ▁yângâ ▁tî ▁bêafrîka ▁na ▁w üngö ▁tî ▁âw at ë n ëngö - nî ▁kûê , ▁a ▁lîngbi ▁tî ▁mû ▁fadë ▁nî ▁töngana ▁yângâ ▁tî ▁ku
▁* ▁s ene gä le ▁( republic ▁of ▁s ene g al ) ▁* ▁së y sh ê le ▁( republic ▁of ▁se y ch el les ) ▁* ▁si er ä - le ô ne ▁( republic ▁of ▁si er ra ▁le one ) ▁* ▁so m al ïi ▁( s om ali ▁republic ) ▁* ▁su d äan ▁( re
3000 ▁na ▁hïngängö ▁nî ▁atene ▁ayeke ▁kötä ▁yê ▁mîngi ▁tî ▁mû ▁ngangü ▁na ▁mäïngö ▁tî ▁lëngö ▁söngö ▁na ▁pöpö ▁tî ▁ködörö ▁ndê ▁ndê ,
▁na ▁tângo ▁sô ▁bêafrîka ▁agä ▁ndep andäa , ▁atâa ▁sô ▁sängö ▁agä ▁kôzo ▁yângâ ▁tî ▁bêafrîka ▁na ▁wüngö ▁tî ▁âw atën ëngö - nî ▁kûê , ▁a ▁lîngbi ▁tî ▁mû ▁fadë ▁nî ▁töngana ▁yângâ ▁tî ▁ku
▁* ▁sene gäle ▁( republic ▁of ▁sene gal ) ▁* ▁sëyshêle ▁( republic ▁of ▁sey chelles ) ▁* ▁sierä - leône ▁( republic ▁of ▁sier ra ▁leone ) ▁* ▁som alïi ▁( somali ▁republic ) ▁* ▁sud äan ▁( re
5000 ▁na ▁hïngängö ▁nî ▁atene ▁ayeke ▁kötä ▁yê ▁mîngi ▁tî ▁mû ▁ngangü ▁na ▁mäïngö ▁tî ▁lëngö ▁söngö ▁na ▁pöpö ▁tî ▁ködörö ▁ndê ▁ndê ,
▁na ▁tângo ▁sô ▁bêafrîka ▁agä ▁ndepandäa , ▁atâa ▁sô ▁sängö ▁agä ▁kôzo ▁yângâ ▁tî ▁bêafrîka ▁na ▁wüngö ▁tî ▁âwatënëngö - nî ▁kûê , ▁a ▁lîngbi ▁tî ▁mû ▁fadë ▁nî ▁töngana ▁yângâ ▁tî ▁ku
▁* ▁senegäle ▁( republic ▁of ▁senegal ) ▁* ▁sëyshêle ▁( republic ▁of ▁seychelles ) ▁* ▁sierä - leône ▁( republic ▁of ▁sierra ▁leone ) ▁* ▁somalïi ▁( somali ▁republic ) ▁* ▁sudäan ▁( re