Basque (eu) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeeuwiki sample
original xviii. mendean, bouvet de lozier nahiz james cook itsasgizonek ezin atzeman izan zuten kontinentea bera. espedizioak asko izan ziren xix. mendearen le
# ''"out of africa"'', (0000). 0000ean sydney pollack zuzendari estatubatuarrak pelikula arrakastatsua egin zuen dinesenen liburuan oinarrituta. # ''"
* irailaren 0a - émile masson jr., belgikar txirrindularia (h. 0000). * irailaren 0a - franz josef strauss, alemaniar politikaria (h. 0000). * irailar
1000 ▁x v i i i . ▁mende an , ▁bo u v et ▁de ▁lo z ier ▁nah iz ▁j am es ▁c o ok ▁it s as g iz on ek ▁ez in ▁ atz em an ▁izan ▁zuten ▁kon t inen te a ▁ber a . ▁esp ed iz io ak ▁asko ▁izan ▁ziren ▁x i x . ▁mende aren ▁le
▁# ▁'' " o ut ▁of ▁a f ri c a " '', ▁(0000 ). ▁0000 ean ▁s y d ne y ▁pol la c k ▁zuz end ari ▁estatu b atu arrak ▁p el ik ul a ▁ar rak ast at s ua ▁egin ▁zuen ▁d in es en en ▁lib uru an ▁o in arri tu ta . ▁# ▁'' "
▁* ▁ir ail aren ▁0 a ▁- ▁ é m ile ▁m as s on ▁j r . , ▁b el g ik ar ▁tx ir r in du l aria ▁( h . ▁0000). ▁* ▁ir ail aren ▁0 a ▁- ▁fr an z ▁j os e f ▁s t ra us s , ▁al em an iar ▁polit ik aria ▁( h . ▁0000). ▁* ▁ir ail ar
3000 ▁xvi ii . ▁mendean , ▁bo u v et ▁de ▁lo z ier ▁nahiz ▁j ames ▁co ok ▁itsas giz on ek ▁ezin ▁atz eman ▁izan ▁zuten ▁kont inen tea ▁bera . ▁esp ed iz ioak ▁asko ▁izan ▁ziren ▁xix . ▁mendearen ▁le
▁# ▁'' " o ut ▁of ▁af ri ca " '', ▁(0000). ▁0000 ean ▁s y d ne y ▁pol la ck ▁zuzendari ▁estatubatu arrak ▁p el ik ula ▁arrak ast ats ua ▁egin ▁zuen ▁d in es en en ▁liburu an ▁oinarri tuta . ▁# ▁'' "
▁* ▁irailaren ▁0 a ▁- ▁é m ile ▁mas son ▁j r . , ▁bel g ik ar ▁txirrindul aria ▁( h . ▁0000). ▁* ▁irailaren ▁0 a ▁- ▁fran z ▁jose f ▁st ra us s , ▁alemaniar ▁politikaria ▁( h . ▁0000). ▁* ▁ir ail ar
5000 ▁xviii . ▁mendean , ▁bo u v et ▁de ▁lo z ier ▁nahiz ▁james ▁co ok ▁itsas giz onek ▁ezin ▁atz eman ▁izan ▁zuten ▁kontinen tea ▁bera . ▁esp ed iz ioak ▁asko ▁izan ▁ziren ▁xix . ▁mendearen ▁le
▁# ▁''" o ut ▁of ▁af ri ca " '', ▁(0000). ▁0000 ean ▁s yd ney ▁pol lack ▁zuzendari ▁estatubatu arrak ▁pel ik ula ▁arrakast ats ua ▁egin ▁zuen ▁din esen en ▁liburu an ▁oinarri tuta . ▁# ▁''"
▁* ▁irailaren ▁0 a ▁- ▁é m ile ▁mas son ▁j r ., ▁belg ikar ▁txirrindul aria ▁( h . ▁0000). ▁* ▁irailaren ▁0 a ▁- ▁fran z ▁jose f ▁st ra uss , ▁alemaniar ▁politikaria ▁( h . ▁0000). ▁* ▁ir ail ar
10000 ▁xviii . ▁mendean , ▁bo uv et ▁de ▁lo z ier ▁nahiz ▁james ▁co ok ▁itsas giz onek ▁ezin ▁atz eman ▁izan ▁zuten ▁kontinen tea ▁bera . ▁esped izioak ▁asko ▁izan ▁ziren ▁xix . ▁mendearen ▁le
▁# ▁''" o ut ▁of ▁af ri ca " '', ▁(0000). ▁0000 ean ▁s yd ney ▁pol lack ▁zuzendari ▁estatubatuarrak ▁pelik ula ▁arrakast atsua ▁egin ▁zuen ▁din esen en ▁liburuan ▁oinarrituta . ▁# ▁''"
▁* ▁irailaren ▁0 a ▁- ▁é m ile ▁mas son ▁jr ., ▁belg ikar ▁txirrindularia ▁( h . ▁0000). ▁* ▁irailaren ▁0 a ▁- ▁fran z ▁jose f ▁stra uss , ▁alemaniar ▁politikaria ▁( h . ▁0000). ▁* ▁ir ail ar
25000 ▁xviii . ▁mendean , ▁bo uv et ▁de ▁loz ier ▁nahiz ▁james ▁cook ▁itsas giz onek ▁ezin ▁atzeman ▁izan ▁zuten ▁kontinen tea ▁bera . ▁espedizioak ▁asko ▁izan ▁ziren ▁xix . ▁mendearen ▁le
▁# ▁''" out ▁of ▁af rica "'', ▁(0000). ▁0000 ean ▁sydney ▁pol lack ▁zuzendari ▁estatubatuarrak ▁pelikula ▁arrakastatsua ▁egin ▁zuen ▁din esen en ▁liburuan ▁oinarrituta . ▁# ▁''"
▁* ▁irailaren ▁0 a ▁- ▁émile ▁mas son ▁jr ., ▁belgikar ▁txirrindularia ▁( h . ▁0000). ▁* ▁irailaren ▁0 a ▁- ▁franz ▁josef ▁strauss , ▁alemaniar ▁politikaria ▁( h . ▁0000). ▁* ▁irail ar
50000 ▁xviii . ▁mendean , ▁bo uv et ▁de ▁loz ier ▁nahiz ▁james ▁cook ▁itsas gizonek ▁ezin ▁atzeman ▁izan ▁zuten ▁kontinentea ▁bera . ▁espedizioak ▁asko ▁izan ▁ziren ▁xix . ▁mendearen ▁le
▁# ▁''" out ▁of ▁africa "'', ▁(0000). ▁0000 ean ▁sydney ▁pol lack ▁zuzendari ▁estatubatuarrak ▁pelikula ▁arrakastatsua ▁egin ▁zuen ▁din esen en ▁liburuan ▁oinarrituta . ▁# ▁''"
▁* ▁irailaren ▁0 a ▁- ▁émile ▁masson ▁jr ., ▁belgikar ▁txirrindularia ▁( h . ▁0000). ▁* ▁irailaren ▁0 a ▁- ▁franz ▁josef ▁strauss , ▁alemaniar ▁politikaria ▁( h . ▁0000). ▁* ▁irail ar
100000 ▁xviii . ▁mendean , ▁bouv et ▁de ▁loz ier ▁nahiz ▁james ▁cook ▁itsasgizonek ▁ezin ▁atzeman ▁izan ▁zuten ▁kontinentea ▁bera . ▁espedizioak ▁asko ▁izan ▁ziren ▁xix . ▁mendearen ▁le
▁# ▁''" out ▁of ▁africa "'', ▁(0000). ▁0000 ean ▁sydney ▁pollack ▁zuzendari ▁estatubatuarrak ▁pelikula ▁arrakastatsua ▁egin ▁zuen ▁din esen en ▁liburuan ▁oinarrituta . ▁# ▁''"
▁* ▁irailaren ▁0 a ▁- ▁émile ▁masson ▁jr ., ▁belgikar ▁txirrindularia ▁( h . ▁0000). ▁* ▁irailaren ▁0 a ▁- ▁franz ▁josef ▁strauss , ▁alemaniar ▁politikaria ▁( h . ▁0000). ▁* ▁irail ar