Nyanja (ny) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Embedding matrix plots

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizenywiki sample
original anthu angapewe matendawa ngati atamagona m'maneti onyikidwa m'mankhwala. zinthu zinanso zimene zingathandize munthu kupewa matendawa ndi kupopera mank
chiwawa, chilungamo wamba mwa mitundu kudya. mu hira phanga mngelo jibril anakaonekera muhammad. jibril anati "werengani", koma muhammad anayankha "si
lumbanyeni, lesa, lesa, wesu, apale calo, zambia, zambia, zambia. fwe bantungwa mu luunga lwa calo. lumbanyeni zambia. twikatane bonse.
1000 ▁anthu ▁anga pe we ▁matendawa ▁ngati ▁ata ma go na ▁m ' ma ne ti ▁ on yi ki dwa ▁m ' ma nkhwala . ▁zinthu ▁zina nso ▁zimene ▁zinga thandi ze ▁munthu ▁ku pe wa ▁matendawa ▁ndi ▁ku po pe ra ▁ma n k
▁chi wa wa , ▁chi lu nga mo ▁wa mba ▁mwa ▁mitundu ▁ku dya . ▁mu ▁h ira ▁ pha nga ▁m nge lo ▁j i b ri l ▁ana ka one kera ▁mu ha mma d . ▁j i b ri l ▁ana ti ▁" we re nga ni " , ▁koma ▁mu ha mma d ▁ana ya n kha ▁" si
▁lu mba n y eni , ▁le sa , ▁le sa , ▁we su , ▁a pa le ▁ca lo , ▁zambia , ▁zambia , ▁zambia . ▁f we ▁ba n tu ng wa ▁mu ▁lu u nga ▁ l wa ▁ca lo . ▁lu mba n y eni ▁zambia . ▁t wika ta ne ▁b onse .
3000 ▁anthu ▁anga pewe ▁matendawa ▁ngati ▁ata ma gona ▁m ' ma ne ti ▁on yi kidwa ▁m ' ma nkhwala . ▁zinthu ▁zinanso ▁zimene ▁zinga thandize ▁munthu ▁kupewa ▁matendawa ▁ndi ▁ku po pe ra ▁man k
▁chi wawa , ▁chilu ngamo ▁wamba ▁mwa ▁mitundu ▁ku dya . ▁mu ▁h ira ▁pha nga ▁m ngelo ▁j ib ril ▁anaka onekera ▁muhammad . ▁j ib ril ▁anati ▁" werenga ni ", ▁koma ▁muhammad ▁ana ya nkha ▁" si
▁lumbanyeni , ▁lesa , ▁lesa , ▁we su , ▁apa le ▁ca lo , ▁zambia , ▁zambia , ▁zambia . ▁f we ▁bantu ngwa ▁mu ▁lu u nga ▁l wa ▁ca lo . ▁lumbanyeni ▁zambia . ▁twikatane ▁bonse .
5000 ▁anthu ▁angapewe ▁matendawa ▁ngati ▁atama gona ▁m ' ma neti ▁on yi kidwa ▁m ' mankhwala . ▁zinthu ▁zinanso ▁zimene ▁zingathandize ▁munthu ▁kupewa ▁matendawa ▁ndi ▁kupo pera ▁man k
▁chiwawa , ▁chilungamo ▁wamba ▁mwa ▁mitundu ▁ku dya . ▁mu ▁hira ▁phanga ▁mngelo ▁jibril ▁anaka onekera ▁muhammad . ▁jibril ▁anati ▁" werenga ni ", ▁koma ▁muhammad ▁anayankha ▁" si
▁lumbanyeni , ▁lesa , ▁lesa , ▁we su , ▁apa le ▁calo , ▁zambia , ▁zambia , ▁zambia . ▁fwe ▁bantu ngwa ▁mu ▁lu u nga ▁lwa ▁calo . ▁lumbanyeni ▁zambia . ▁twikatane ▁bonse .