Swahili (macrolanguage) (sw) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeswwiki sample
original kwa asili kimeandikwa katika lugha ya kiebrania (neno lake la kwanza linatumika kama jina la kitabu katika lugha hiyo: במדבר bemidbàr, yaani "jangwani
aina nyingi za ndege huwa na matembezi ya kila mwaka, kwa mfano korongo mweupe husafiri kila mwaka kati ya afrika na ulaya.
tokeo moja la vita kuu ya pili ni kuanzishwa kwa umoja wa mataifa. uliundwa 0000 kama chombo cha kuzuia vita zijazo. kutokana na historia hii mataifa
1000 ▁kwa ▁asili ▁ki mea ndi kwa ▁katika ▁lugha ▁ya ▁ki e b ra nia ▁( n eno ▁lake ▁la ▁kwanza ▁lina tumika ▁kama ▁jina ▁la ▁kita bu ▁katika ▁lugha ▁hiyo : ▁ במדבר ▁be mi d b à r , ▁yaani ▁" ja ngwa ni
▁aina ▁nyingi ▁za ▁ nde ge ▁huwa ▁na ▁ma te mbe zi ▁ya ▁kila ▁mwaka , ▁kwa ▁mfano ▁ko ro ngo ▁mwe u pe ▁hu sa fi ri ▁kila ▁mwaka ▁kati ▁ya ▁afrika ▁na ▁ulaya .
▁to keo ▁moja ▁la ▁vita ▁kuu ▁ya ▁pili ▁ni ▁kuanzi shwa ▁kwa ▁u moja ▁wa ▁mata ifa . ▁uli u ndwa ▁0000 ▁kama ▁c ho mbo ▁cha ▁ku zu ia ▁vita ▁zi ja zo . ▁kutokana ▁na ▁histo ria ▁hii ▁mata ifa
3000 ▁kwa ▁asili ▁ki mea ndi kwa ▁katika ▁lugha ▁ya ▁kie bra nia ▁( n eno ▁lake ▁la ▁kwanza ▁lina tumika ▁kama ▁jina ▁la ▁kitabu ▁katika ▁lugha ▁hiyo : ▁ במדבר ▁be mi d b à r , ▁yaani ▁" ja ngwa ni
▁aina ▁nyingi ▁za ▁ndege ▁huwa ▁na ▁mate mbe zi ▁ya ▁kila ▁mwaka , ▁kwa ▁mfano ▁ko ro ngo ▁mwe upe ▁hu sa firi ▁kila ▁mwaka ▁kati ▁ya ▁afrika ▁na ▁ulaya .
▁to keo ▁moja ▁la ▁vita ▁kuu ▁ya ▁pili ▁ni ▁kuanzi shwa ▁kwa ▁umoja ▁wa ▁mataifa . ▁uli undwa ▁0000 ▁kama ▁cho mbo ▁cha ▁kuzuia ▁vita ▁zi ja zo . ▁kutokana ▁na ▁historia ▁hii ▁mataifa
5000 ▁kwa ▁asili ▁ki mea ndikwa ▁katika ▁lugha ▁ya ▁kiebrania ▁( n eno ▁lake ▁la ▁kwanza ▁lina tumika ▁kama ▁jina ▁la ▁kitabu ▁katika ▁lugha ▁hiyo : ▁ במדבר ▁be mi d b à r , ▁yaani ▁" ja ngwa ni
▁aina ▁nyingi ▁za ▁ndege ▁huwa ▁na ▁mate mbe zi ▁ya ▁kila ▁mwaka , ▁kwa ▁mfano ▁koro ngo ▁mwe upe ▁hu safiri ▁kila ▁mwaka ▁kati ▁ya ▁afrika ▁na ▁ulaya .
▁to keo ▁moja ▁la ▁vita ▁kuu ▁ya ▁pili ▁ni ▁kuanzishwa ▁kwa ▁umoja ▁wa ▁mataifa . ▁uli undwa ▁0000 ▁kama ▁chombo ▁cha ▁kuzuia ▁vita ▁zi ja zo . ▁kutokana ▁na ▁historia ▁hii ▁mataifa
10000 ▁kwa ▁asili ▁ki mea ndikwa ▁katika ▁lugha ▁ya ▁kiebrania ▁( n eno ▁lake ▁la ▁kwanza ▁lina tumika ▁kama ▁jina ▁la ▁kitabu ▁katika ▁lugha ▁hiyo : ▁ במדבר ▁be mi d b à r , ▁yaani ▁" ja ngwa ni
▁aina ▁nyingi ▁za ▁ndege ▁huwa ▁na ▁mate mbezi ▁ya ▁kila ▁mwaka , ▁kwa ▁mfano ▁koro ngo ▁mweupe ▁hu safiri ▁kila ▁mwaka ▁kati ▁ya ▁afrika ▁na ▁ulaya .
▁tokeo ▁moja ▁la ▁vita ▁kuu ▁ya ▁pili ▁ni ▁kuanzishwa ▁kwa ▁umoja ▁wa ▁mataifa . ▁uli undwa ▁0000 ▁kama ▁chombo ▁cha ▁kuzuia ▁vita ▁zi ja zo . ▁kutokana ▁na ▁historia ▁hii ▁mataifa
25000 ▁kwa ▁asili ▁ki meandikwa ▁katika ▁lugha ▁ya ▁kiebrania ▁( neno ▁lake ▁la ▁kwanza ▁linatumika ▁kama ▁jina ▁la ▁kitabu ▁katika ▁lugha ▁hiyo : ▁ במדבר ▁be mid b à r , ▁yaani ▁" jangwa ni
▁aina ▁nyingi ▁za ▁ndege ▁huwa ▁na ▁matembezi ▁ya ▁kila ▁mwaka , ▁kwa ▁mfano ▁korongo ▁mweupe ▁hu safiri ▁kila ▁mwaka ▁kati ▁ya ▁afrika ▁na ▁ulaya .
▁tokeo ▁moja ▁la ▁vita ▁kuu ▁ya ▁pili ▁ni ▁kuanzishwa ▁kwa ▁umoja ▁wa ▁mataifa . ▁uliundwa ▁0000 ▁kama ▁chombo ▁cha ▁kuzuia ▁vita ▁zijazo . ▁kutokana ▁na ▁historia ▁hii ▁mataifa
50000 ▁kwa ▁asili ▁kimeandikwa ▁katika ▁lugha ▁ya ▁kiebrania ▁( neno ▁lake ▁la ▁kwanza ▁linatumika ▁kama ▁jina ▁la ▁kitabu ▁katika ▁lugha ▁hiyo : ▁ במדבר ▁be mid b à r , ▁yaani ▁" jangwani
▁aina ▁nyingi ▁za ▁ndege ▁huwa ▁na ▁matembezi ▁ya ▁kila ▁mwaka , ▁kwa ▁mfano ▁korongo ▁mweupe ▁husafiri ▁kila ▁mwaka ▁kati ▁ya ▁afrika ▁na ▁ulaya .
▁tokeo ▁moja ▁la ▁vita ▁kuu ▁ya ▁pili ▁ni ▁kuanzishwa ▁kwa ▁umoja ▁wa ▁mataifa . ▁uliundwa ▁0000 ▁kama ▁chombo ▁cha ▁kuzuia ▁vita ▁zijazo . ▁kutokana ▁na ▁historia ▁hii ▁mataifa
100000 ▁kwa ▁asili ▁kimeandikwa ▁katika ▁lugha ▁ya ▁kiebrania ▁( neno ▁lake ▁la ▁kwanza ▁linatumika ▁kama ▁jina ▁la ▁kitabu ▁katika ▁lugha ▁hiyo : ▁ במדבר ▁be mid b à r , ▁yaani ▁" jangwani
▁aina ▁nyingi ▁za ▁ndege ▁huwa ▁na ▁matembezi ▁ya ▁kila ▁mwaka , ▁kwa ▁mfano ▁korongo ▁mweupe ▁husafiri ▁kila ▁mwaka ▁kati ▁ya ▁afrika ▁na ▁ulaya .
▁tokeo ▁moja ▁la ▁vita ▁kuu ▁ya ▁pili ▁ni ▁kuanzishwa ▁kwa ▁umoja ▁wa ▁mataifa . ▁uliundwa ▁0000 ▁kama ▁chombo ▁cha ▁kuzuia ▁vita ▁zijazo . ▁kutokana ▁na ▁historia ▁hii ▁mataifa