Guarani (gn) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizegnwiki sample
original latinañe'ẽ achegety, () herava avei rroma taity, ha'e haipy rape achegety oipuruvave yvórape. latinañe'ẽ pegua. ko achegety oipuruva avañe'ẽ achegetyp
* inka garcilaso de la vega (0000): kuimba'e aranduoñemomba'eguasúva ñe'ẽpapára haihára perũano ramo.
tacurú puku oñembohéra va’ekue ko tenda, hetaite rupi isarambi ko’árupi umi kupi’ikuéra oĩhetaitéva ha omopu’ãva ápe ha pépe hogarã.
1000 ▁la tina ñe ' ẽ ▁a che ge ty , ▁() ▁hera va ▁avei ▁r ro ma ▁ta i ty , ▁ha ' e ▁hai py ▁ra pe ▁a che ge ty ▁oipuru va ve ▁yv ó rape . ▁la tina ñe ' ẽ ▁pegua . ▁ko ▁a che ge ty ▁oipuru va ▁ava ñe ' ẽ ▁a che ge ty p
▁* ▁in ka ▁ga r ci la so ▁de ▁la ▁ve ga ▁(0000) : ▁kuimba ' e ▁arandu o ñe mo mba ' e guas úva ▁ñe ' ẽ pa pá ra ▁hai hára ▁pe rũ a no ▁ramo .
▁ta cu r ú ▁puku ▁oñembo héra ▁va ’ ekue ▁ko ▁tenda , ▁heta ite ▁rupi ▁i sa ra mbi ▁ko ’ á rupi ▁umi ▁ku pi ’ i kuéra ▁oĩ he ta i téva ▁ha ▁omo pu ’ ãva ▁á pe ▁ha ▁p épe ▁ho ga rã .
3000 ▁latinañe ' ẽ ▁achegety , ▁() ▁herava ▁avei ▁r ro ma ▁tai ty , ▁ha ' e ▁hai py ▁rape ▁achegety ▁oipuru va ve ▁yvó rape . ▁latinañe ' ẽ ▁pegua . ▁ko ▁achegety ▁oipuru va ▁avañe ' ẽ ▁achegety p
▁* ▁in ka ▁ga r ci la so ▁de ▁la ▁ve ga ▁(0000) : ▁kuimba ' e ▁arandu o ñemo mba ' eguasúva ▁ñe ' ẽpapára ▁haihára ▁pe rũ ano ▁ramo .
▁ta cu rú ▁puku ▁oñembohéra ▁va ’ ekue ▁ko ▁tenda , ▁hetaite ▁rupi ▁isa rambi ▁ko ’ árupi ▁umi ▁ku pi ’ ikuéra ▁oĩ he tai téva ▁ha ▁omopu ’ ãva ▁ápe ▁ha ▁pépe ▁hoga rã .
5000 ▁latinañe ' ẽ ▁achegety , ▁() ▁herava ▁avei ▁r ro ma ▁tai ty , ▁ha ' e ▁hai py ▁rape ▁achegety ▁oipuruva ve ▁yvórape . ▁latinañe ' ẽ ▁pegua . ▁ko ▁achegety ▁oipuruva ▁avañe ' ẽ ▁achegety p
▁* ▁in ka ▁ga r ci la so ▁de ▁la ▁ve ga ▁(0000) : ▁kuimba ' e ▁arandu o ñemo mba ' eguasúva ▁ñe ' ẽpapára ▁haihára ▁perũ ano ▁ramo .
▁ta cu rú ▁puku ▁oñembohéra ▁va ’ ekue ▁ko ▁tenda , ▁hetaite ▁rupi ▁isa rambi ▁ko ’ árupi ▁umi ▁ku pi ’ ikuéra ▁oĩ he tai téva ▁ha ▁omopu ’ ãva ▁ápe ▁ha ▁pépe ▁hoga rã .
10000 ▁latinañe ' ẽ ▁achegety , ▁() ▁herava ▁avei ▁rroma ▁tai ty , ▁ha ' e ▁hai py ▁rape ▁achegety ▁oipuruva ve ▁yvórape . ▁latinañe ' ẽ ▁pegua . ▁ko ▁achegety ▁oipuruva ▁avañe ' ẽ ▁achegety p
▁* ▁in ka ▁gar ci la so ▁de ▁la ▁ve ga ▁(0000) : ▁kuimba ' e ▁arandu oñemo mba ' eguasúva ▁ñe ' ẽpapára ▁haihára ▁perũ ano ▁ramo .
▁ta cu rú ▁puku ▁oñembohéra ▁va ’ ekue ▁ko ▁tenda , ▁hetaite ▁rupi ▁isarambi ▁ko ’ árupi ▁umi ▁ku pi ’ ikuéra ▁oĩ he tai téva ▁ha ▁omopu ’ ãva ▁ápe ▁ha ▁pépe ▁hoga rã .
25000 ▁latinañe ' ẽ ▁achegety , ▁() ▁herava ▁avei ▁rroma ▁taity , ▁ha ' e ▁haipy ▁rape ▁achegety ▁oipuruva ve ▁yvórape . ▁latinañe ' ẽ ▁pegua . ▁ko ▁achegety ▁oipuruva ▁avañe ' ẽ ▁achegety p
▁* ▁inka ▁garcilaso ▁de ▁la ▁vega ▁(0000): ▁kuimba ' e ▁arandu oñemomba ' eguasúva ▁ñe ' ẽpapára ▁haihára ▁perũ ano ▁ramo .
▁ta cu rú ▁puku ▁oñembohéra ▁va ’ ekue ▁ko ▁tenda , ▁hetaite ▁rupi ▁isarambi ▁ko ’ árupi ▁umi ▁ku pi ’ ikuéra ▁oĩ hetai téva ▁ha ▁omopu ’ ãva ▁ápe ▁ha ▁pépe ▁hogarã .