Catalan (ca) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizecawiki sample
original el colosseu va ser un regal de l'emperador vespasià al poble. tenia el caràcter públic i d'edifici civil on s'oferien espectacles gratuïts de lluita e
el relleu sud-americà és determinat per la serralada dels andes, situada al llarg de la costa est amb un traçat longitudinal de nord a sud, que s'acos
l'educació és obligatòria a tot austràlia, dels 0 als 00 anys (00 a l'austràlia meridional i tasmània, i 00 a l'austràlia occidental). la taxa d'alfab
1000 ▁el ▁col os se u ▁va ▁ser ▁un ▁reg al ▁de ▁l ' emp er ador ▁v esp as i à ▁al ▁pob le . ▁tenia ▁el ▁car à ct er ▁p úb lic ▁i ▁d ' e di fici ▁ci vil ▁on ▁s ' o f eri en ▁esp ec ta c les ▁gr at u ï ts ▁de ▁ll u ita ▁e
▁el ▁rel le u ▁sud - am er ic à ▁és ▁de ter min at ▁per ▁la ▁ser ral ada ▁dels ▁an des , ▁situ ada ▁al ▁ll arg ▁de ▁la ▁cos ta ▁es t ▁amb ▁un ▁tra ç at ▁l on g it ud in al ▁de ▁nord ▁a ▁sud , ▁que ▁s ' ac os
▁l ' ed u ca ció ▁és ▁ob l ig at òria ▁a ▁tot ▁a us tr à lia , ▁dels ▁0 ▁als ▁00 ▁anys ▁(00 ▁a ▁l ' a us tr à lia ▁m eri di onal ▁i ▁ta s m à nia , ▁i ▁00 ▁a ▁l ' a us tr à lia ▁oc ci den tal ). ▁la ▁ta x a ▁d ' al f ab
3000 ▁el ▁col os se u ▁va ▁ser ▁un ▁reg al ▁de ▁l ' emp erador ▁v esp as ià ▁al ▁poble . ▁tenia ▁el ▁caràcter ▁públic ▁i ▁d ' edifici ▁civil ▁on ▁s ' of eri en ▁espec tac les ▁gratu ï ts ▁de ▁llu ita ▁e
▁el ▁rel le u ▁sud - americ à ▁és ▁determin at ▁per ▁la ▁ser ral ada ▁dels ▁an des , ▁situada ▁al ▁llarg ▁de ▁la ▁costa ▁est ▁amb ▁un ▁tra ç at ▁long itud in al ▁de ▁nord ▁a ▁sud , ▁que ▁s ' ac os
▁l ' ed u cació ▁és ▁oblig at òria ▁a ▁tot ▁austr àlia , ▁dels ▁0 ▁als ▁00 ▁anys ▁(00 ▁a ▁l ' a ustr àlia ▁m eri di onal ▁i ▁ta s mà nia , ▁i ▁00 ▁a ▁l ' a ustr àlia ▁occidental ). ▁la ▁ta xa ▁d ' al f ab
5000 ▁el ▁col os se u ▁va ▁ser ▁un ▁reg al ▁de ▁l ' emperador ▁v esp as ià ▁al ▁poble . ▁tenia ▁el ▁caràcter ▁públic ▁i ▁d ' edifici ▁civil ▁on ▁s ' of eri en ▁espec tac les ▁gratu ïts ▁de ▁lluita ▁e
▁el ▁relle u ▁sud - americ à ▁és ▁determin at ▁per ▁la ▁ser ral ada ▁dels ▁an des , ▁situada ▁al ▁llarg ▁de ▁la ▁costa ▁est ▁amb ▁un ▁tra çat ▁longitud in al ▁de ▁nord ▁a ▁sud , ▁que ▁s ' ac os
▁l ' educació ▁és ▁oblig at òria ▁a ▁tot ▁austr àlia , ▁dels ▁0 ▁als ▁00 ▁anys ▁(00 ▁a ▁l ' a ustr àlia ▁meridi onal ▁i ▁tas mà nia , ▁i ▁00 ▁a ▁l ' a ustr àlia ▁occidental ). ▁la ▁ta xa ▁d ' alf ab
10000 ▁el ▁col os se u ▁va ▁ser ▁un ▁reg al ▁de ▁l ' emperador ▁vesp as ià ▁al ▁poble . ▁tenia ▁el ▁caràcter ▁públic ▁i ▁d ' edifici ▁civil ▁on ▁s ' of eri en ▁espectac les ▁gratu ïts ▁de ▁lluita ▁e
▁el ▁relleu ▁sud - americà ▁és ▁determinat ▁per ▁la ▁serralada ▁dels ▁an des , ▁situada ▁al ▁llarg ▁de ▁la ▁costa ▁est ▁amb ▁un ▁tra çat ▁longitud inal ▁de ▁nord ▁a ▁sud , ▁que ▁s ' ac os
▁l ' educació ▁és ▁obligat òria ▁a ▁tot ▁austràlia , ▁dels ▁0 ▁als ▁00 ▁anys ▁(00 ▁a ▁l ' austràlia ▁meridional ▁i ▁tas mà nia , ▁i ▁00 ▁a ▁l ' austràlia ▁occidental ). ▁la ▁taxa ▁d ' alf ab
25000 ▁el ▁col os seu ▁va ▁ser ▁un ▁regal ▁de ▁l ' emperador ▁vesp asià ▁al ▁poble . ▁tenia ▁el ▁caràcter ▁públic ▁i ▁d ' edifici ▁civil ▁on ▁s ' of erien ▁espectacles ▁gratu ïts ▁de ▁lluita ▁e
▁el ▁relleu ▁sud - americà ▁és ▁determinat ▁per ▁la ▁serralada ▁dels ▁andes , ▁situada ▁al ▁llarg ▁de ▁la ▁costa ▁est ▁amb ▁un ▁traçat ▁longitud inal ▁de ▁nord ▁a ▁sud , ▁que ▁s ' acos
▁l ' educació ▁és ▁obligatòria ▁a ▁tot ▁austràlia , ▁dels ▁0 ▁als ▁00 ▁anys ▁(00 ▁a ▁l ' austràlia ▁meridional ▁i ▁tas mània , ▁i ▁00 ▁a ▁l ' austràlia ▁occidental ). ▁la ▁taxa ▁d ' alf ab
50000 ▁el ▁col os seu ▁va ▁ser ▁un ▁regal ▁de ▁l ' emperador ▁vespasià ▁al ▁poble . ▁tenia ▁el ▁caràcter ▁públic ▁i ▁d ' edifici ▁civil ▁on ▁s ' of erien ▁espectacles ▁gratu ïts ▁de ▁lluita ▁e
▁el ▁relleu ▁sud - americà ▁és ▁determinat ▁per ▁la ▁serralada ▁dels ▁andes , ▁situada ▁al ▁llarg ▁de ▁la ▁costa ▁est ▁amb ▁un ▁traçat ▁longitudinal ▁de ▁nord ▁a ▁sud , ▁que ▁s ' acos
▁l ' educació ▁és ▁obligatòria ▁a ▁tot ▁austràlia , ▁dels ▁0 ▁als ▁00 ▁anys ▁(00 ▁a ▁l ' austràlia ▁meridional ▁i ▁tasmània , ▁i ▁00 ▁a ▁l ' austràlia ▁occidental ). ▁la ▁taxa ▁d ' alfab
100000 ▁el ▁colosseu ▁va ▁ser ▁un ▁regal ▁de ▁l ' emperador ▁vespasià ▁al ▁poble . ▁tenia ▁el ▁caràcter ▁públic ▁i ▁d ' edifici ▁civil ▁on ▁s ' oferien ▁espectacles ▁gratuïts ▁de ▁lluita ▁e
▁el ▁relleu ▁sud - americà ▁és ▁determinat ▁per ▁la ▁serralada ▁dels ▁andes , ▁situada ▁al ▁llarg ▁de ▁la ▁costa ▁est ▁amb ▁un ▁traçat ▁longitudinal ▁de ▁nord ▁a ▁sud , ▁que ▁s ' acos
▁l ' educació ▁és ▁obligatòria ▁a ▁tot ▁austràlia , ▁dels ▁0 ▁als ▁00 ▁anys ▁(00 ▁a ▁l ' austràlia ▁meridional ▁i ▁tasmània , ▁i ▁00 ▁a ▁l ' austràlia ▁occidental ). ▁la ▁taxa ▁d ' alfab