Sardinian (sc) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizescwiki sample
original sas imbestigaduras, in realidade, gràssias a s'agatamentu de sa boeta niedda, nch'aiant zutu a unu cuncruimentu meda prus banale e galu prus tràzigu a
su chestore, mancari siat istadu postu a su cunnoschimentu de sas cundissiones sicolòzigas difìziles in ue s'agatat su cummessàriu, at a insister pro
sa carruba (''ceratonia siliqua l.'') est una àrvure chi s'agatat in sa zona de su mediterraneu orientale e nord africa, creschet
1000 ▁sas ▁im b est ig adu ras , ▁in ▁real idade , ▁g rà ss ias ▁a ▁s ' agata mentu ▁de ▁sa ▁bo eta ▁n i edda , ▁n ch ' a iant ▁z u tu ▁a ▁unu ▁cun c ru imentu ▁meda ▁prus ▁ban ale ▁e ▁gal u ▁prus ▁t rà z igu ▁a
▁su ▁ch est ore , ▁manca ri ▁siat ▁istadu ▁pos tu ▁a ▁su ▁cun nos chi mentu ▁de ▁sas ▁cun d iss iones ▁s ic ol ò z ig as ▁dif ì z il es ▁in ▁ue ▁s ' agatat ▁su ▁cu m m ess à riu , ▁at ▁a ▁in s ist er ▁pro
▁sa ▁car ru ba ▁('' c era t on ia ▁s il i qu a ▁l . '') ▁est ▁una ▁à r v u re ▁chi ▁s ' agatat ▁in ▁sa ▁z ona ▁de ▁su ▁m ed it er ran eu ▁or i ent ale ▁e ▁nord ▁a f rica , ▁c res ch et
3000 ▁sas ▁imb est igadu ras , ▁in ▁real idade , ▁grà ss ias ▁a ▁s ' agata mentu ▁de ▁sa ▁bo eta ▁ni edda , ▁nch ' aiant ▁zu tu ▁a ▁unu ▁cun c ru imentu ▁meda ▁prus ▁ban ale ▁e ▁galu ▁prus ▁trà z igu ▁a
▁su ▁ch est ore , ▁mancari ▁siat ▁istadu ▁postu ▁a ▁su ▁cun nos chi mentu ▁de ▁sas ▁cun diss iones ▁sic ol ò z igas ▁dif ìz iles ▁in ▁ue ▁s ' agatat ▁su ▁cum m ess àriu , ▁at ▁a ▁ins ister ▁pro
▁sa ▁car ru ba ▁('' c era ton ia ▁s ili qu a ▁l . '') ▁est ▁una ▁à r vu re ▁chi ▁s ' agatat ▁in ▁sa ▁zona ▁de ▁su ▁mediter ran eu ▁orientale ▁e ▁nord ▁af rica , ▁cres chet
5000 ▁sas ▁imb est igadu ras , ▁in ▁real idade , ▁gràssias ▁a ▁s ' agata mentu ▁de ▁sa ▁bo eta ▁ni edda , ▁nch ' aiant ▁zu tu ▁a ▁unu ▁cunc ru imentu ▁meda ▁prus ▁ban ale ▁e ▁galu ▁prus ▁trà z igu ▁a
▁su ▁ch est ore , ▁mancari ▁siat ▁istadu ▁postu ▁a ▁su ▁cun nos chimentu ▁de ▁sas ▁cun diss iones ▁sic olò z igas ▁dif ìz iles ▁in ▁ue ▁s ' agatat ▁su ▁cumm ess àriu , ▁at ▁a ▁ins ister ▁pro
▁sa ▁car ru ba ▁('' c era ton ia ▁s ili qu a ▁l . '') ▁est ▁una ▁àr vure ▁chi ▁s ' agatat ▁in ▁sa ▁zona ▁de ▁su ▁mediterran eu ▁orientale ▁e ▁nord ▁africa , ▁cres chet
10000 ▁sas ▁imbestigaduras , ▁in ▁realidade , ▁gràssias ▁a ▁s ' agata mentu ▁de ▁sa ▁bo eta ▁niedda , ▁nch ' aiant ▁zutu ▁a ▁unu ▁cunc ru imentu ▁meda ▁prus ▁ban ale ▁e ▁galu ▁prus ▁trà z igu ▁a
▁su ▁ch est ore , ▁mancari ▁siat ▁istadu ▁postu ▁a ▁su ▁cunnos chimentu ▁de ▁sas ▁cundissiones ▁sic olòz igas ▁dif ìz iles ▁in ▁ue ▁s ' agatat ▁su ▁cumm ess àriu , ▁at ▁a ▁ins ister ▁pro
▁sa ▁car ru ba ▁('' c era ton ia ▁s ili qua ▁l . '') ▁est ▁una ▁àr vure ▁chi ▁s ' agatat ▁in ▁sa ▁zona ▁de ▁su ▁mediterraneu ▁orientale ▁e ▁nord ▁africa , ▁creschet
25000 ▁sas ▁imbestigaduras , ▁in ▁realidade , ▁gràssias ▁a ▁s ' agata mentu ▁de ▁sa ▁bo eta ▁niedda , ▁nch ' aiant ▁zutu ▁a ▁unu ▁cuncru imentu ▁meda ▁prus ▁ban ale ▁e ▁galu ▁prus ▁trà zigu ▁a
▁su ▁ch est ore , ▁mancari ▁siat ▁istadu ▁postu ▁a ▁su ▁cunnoschimentu ▁de ▁sas ▁cundissiones ▁sic olòzigas ▁difìz iles ▁in ▁ue ▁s ' agatat ▁su ▁cummessàriu , ▁at ▁a ▁ins ister ▁pro
▁sa ▁carru ba ▁('' c era tonia ▁sili qua ▁l . '') ▁est ▁una ▁àr vure ▁chi ▁s ' agatat ▁in ▁sa ▁zona ▁de ▁su ▁mediterraneu ▁orientale ▁e ▁nord ▁africa , ▁creschet
50000 ▁sas ▁imbestigaduras , ▁in ▁realidade , ▁gràssias ▁a ▁s ' agata mentu ▁de ▁sa ▁bo eta ▁niedda , ▁nch ' aiant ▁zutu ▁a ▁unu ▁cuncruimentu ▁meda ▁prus ▁ban ale ▁e ▁galu ▁prus ▁trà zigu ▁a
▁su ▁chestore , ▁mancari ▁siat ▁istadu ▁postu ▁a ▁su ▁cunnoschimentu ▁de ▁sas ▁cundissiones ▁sic olòzigas ▁difìziles ▁in ▁ue ▁s ' agatat ▁su ▁cummessàriu , ▁at ▁a ▁ins ister ▁pro
▁sa ▁carru ba ▁('' cera tonia ▁sili qua ▁l .'') ▁est ▁una ▁àr vure ▁chi ▁s ' agatat ▁in ▁sa ▁zona ▁de ▁su ▁mediterraneu ▁orientale ▁e ▁nord ▁africa , ▁creschet