Estonian (et) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeetwiki sample
original autor juan gris pablo picasso portree. autor juan gris kubism on 00. sajandi kunstivool, mis hakkas kujunema pariisis 0000. aastal pablo picasso ja ge
inimtekkelised kemikaalid, nagu no ja no0 jpt, katalüüsivad osooni lagunemist. peter atkins ja loretta jones on raamatu "keemia alused. teekond teadmi
00. septembril 0000 kirjutas jeltsin alla seadlusele "venemaa föderatsiooni subjektide riigivõimuorganite ja kohaliku omavalitsuse organite valimistes
1000 ▁aut or ▁ju an ▁g ris ▁p ab lo ▁p i c as s o ▁p or tr ee . ▁aut or ▁ju an ▁g ris ▁ku b is m ▁on ▁00. ▁sajand i ▁kun sti v ool , ▁mis ▁hak kas ▁ku j une ma ▁p ari isi s ▁0000. ▁aastal ▁p ab lo ▁p i c as s o ▁ja ▁ge
▁inim te k ke lised ▁k em ik aal id , ▁na gu ▁n o ▁ja ▁n o 0 ▁j pt , ▁kat al üü si vad ▁os ooni ▁la g une mist . ▁p et er ▁a t k in s ▁ja ▁l or et ta ▁j on es ▁on ▁raamat u ▁" k ee mia ▁al used . ▁tee kond ▁tead mi
▁00. ▁sep te m bril ▁0000 ▁kir jut as ▁j el ts in ▁al la ▁se ad l usele ▁" v ene maa ▁f ö der atsiooni ▁s ub je k tide ▁riigi võ im u or g an ite ▁ja ▁koh al iku ▁oma val its use ▁o rg an ite ▁val i mist es
3000 ▁aut or ▁ju an ▁g ris ▁p ab lo ▁pi c as so ▁por tr ee . ▁aut or ▁ju an ▁g ris ▁ku b is m ▁on ▁00. ▁sajandi ▁kunsti v ool , ▁mis ▁hakkas ▁kuj une ma ▁pari isi s ▁0000. ▁aastal ▁p ab lo ▁pi c as so ▁ja ▁ge
▁inim te k ke lised ▁k em ik aal id , ▁nagu ▁no ▁ja ▁no 0 ▁j pt , ▁kat al üü si vad ▁os ooni ▁la g une mist . ▁peter ▁at kin s ▁ja ▁l or et ta ▁j on es ▁on ▁raamat u ▁" kee mia ▁al used . ▁tee kond ▁tead mi
▁00. ▁septembril ▁0000 ▁kirjutas ▁j el ts in ▁alla ▁sead l usele ▁" vene maa ▁f ö der atsiooni ▁sub je k tide ▁riigi võim u org an ite ▁ja ▁kohal iku ▁oma valits use ▁org an ite ▁vali mist es
5000 ▁autor ▁ju an ▁g ris ▁p ab lo ▁pi c as so ▁por tr ee . ▁autor ▁ju an ▁g ris ▁ku b ism ▁on ▁00. ▁sajandi ▁kunsti v ool , ▁mis ▁hakkas ▁kuj une ma ▁pariisi s ▁0000. ▁aastal ▁p ab lo ▁pi c as so ▁ja ▁ge
▁inim te kke lised ▁k em ik aal id , ▁nagu ▁no ▁ja ▁no 0 ▁j pt , ▁kat al üü si vad ▁os ooni ▁lag une mist . ▁peter ▁at kin s ▁ja ▁l or et ta ▁j on es ▁on ▁raamatu ▁" kee mia ▁al used . ▁tee kond ▁tead mi
▁00. ▁septembril ▁0000 ▁kirjutas ▁j el ts in ▁alla ▁sead l usele ▁" venemaa ▁f öder atsiooni ▁sub je ktide ▁riigi võim u org an ite ▁ja ▁kohaliku ▁omavalits use ▁org an ite ▁vali mist es
10000 ▁autor ▁ju an ▁g ris ▁p ab lo ▁pi cas so ▁portree . ▁autor ▁ju an ▁g ris ▁ku b ism ▁on ▁00. ▁sajandi ▁kunsti vool , ▁mis ▁hakkas ▁kujune ma ▁pariisis ▁0000. ▁aastal ▁p ab lo ▁pi cas so ▁ja ▁ge
▁inim te kke lised ▁kem ikaal id , ▁nagu ▁no ▁ja ▁no 0 ▁j pt , ▁katal üüsi vad ▁os ooni ▁lagune mist . ▁peter ▁at kin s ▁ja ▁lor etta ▁jon es ▁on ▁raamatu ▁" kee mia ▁al used . ▁tee kond ▁tead mi
▁00. ▁septembril ▁0000 ▁kirjutas ▁j el ts in ▁alla ▁sead l usele ▁" venemaa ▁föderatsiooni ▁sub je ktide ▁riigi võimu organ ite ▁ja ▁kohaliku ▁omavalitsuse ▁organ ite ▁vali mist es
25000 ▁autor ▁juan ▁g ris ▁pab lo ▁pi cas so ▁portree . ▁autor ▁juan ▁g ris ▁kub ism ▁on ▁00. ▁sajandi ▁kunsti vool , ▁mis ▁hakkas ▁kujune ma ▁pariisis ▁0000. ▁aastal ▁pab lo ▁pi cas so ▁ja ▁ge
▁inimte kke lised ▁kemikaal id , ▁nagu ▁no ▁ja ▁no 0 ▁jpt , ▁katal üüsi vad ▁os ooni ▁lagunemist . ▁peter ▁at kins ▁ja ▁lor etta ▁jones ▁on ▁raamatu ▁" keemia ▁alused . ▁teekond ▁tead mi
▁00. ▁septembril ▁0000 ▁kirjutas ▁jel tsin ▁alla ▁sead lusele ▁" venemaa ▁föderatsiooni ▁sub jektide ▁riigi võimu organite ▁ja ▁kohaliku ▁omavalitsuse ▁organ ite ▁valimist es
50000 ▁autor ▁juan ▁gris ▁pablo ▁picasso ▁portree . ▁autor ▁juan ▁gris ▁kub ism ▁on ▁00. ▁sajandi ▁kunsti vool , ▁mis ▁hakkas ▁kujunema ▁pariisis ▁0000. ▁aastal ▁pablo ▁picasso ▁ja ▁ge
▁inimte kke lised ▁kemikaal id , ▁nagu ▁no ▁ja ▁no 0 ▁jpt , ▁katalüüsi vad ▁os ooni ▁lagunemist . ▁peter ▁at kins ▁ja ▁lor etta ▁jones ▁on ▁raamatu ▁" keemia ▁alused . ▁teekond ▁tead mi
▁00. ▁septembril ▁0000 ▁kirjutas ▁jeltsin ▁alla ▁sead lusele ▁" venemaa ▁föderatsiooni ▁sub jektide ▁riigivõimu organite ▁ja ▁kohaliku ▁omavalitsuse ▁organite ▁valimist es
100000 ▁autor ▁juan ▁gris ▁pablo ▁picasso ▁portree . ▁autor ▁juan ▁gris ▁kub ism ▁on ▁00. ▁sajandi ▁kunsti vool , ▁mis ▁hakkas ▁kujunema ▁pariisis ▁0000. ▁aastal ▁pablo ▁picasso ▁ja ▁ge
▁inimtekke lised ▁kemikaalid , ▁nagu ▁no ▁ja ▁no 0 ▁jpt , ▁katalüüsi vad ▁osooni ▁lagunemist . ▁peter ▁atkins ▁ja ▁lor etta ▁jones ▁on ▁raamatu ▁" keemia ▁alused . ▁teekond ▁tead mi
▁00. ▁septembril ▁0000 ▁kirjutas ▁jeltsin ▁alla ▁sead lusele ▁" venemaa ▁föderatsiooni ▁subjektide ▁riigivõimu organite ▁ja ▁kohaliku ▁omavalitsuse ▁organite ▁valimist es