Livvi (olo) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeolowiki sample
original karjalas jänöit eletäh kaikkiel, yhtelläh enimyölleh suvaijah nuorien kuuzikkoloin reunoi, meččii jogiloilluo, suoloin da niittylöin agjoi. karjalan s
kirjutussistiemat juatahes kolmeh joukkoh: logografine libo sanakirjutus, sillabine libo tavukirjutus da iänneh- libo kirjaimikkokirjutus. kirjutussis
00. ligakuudu - 000. vuvven päivy (000. päivy kargavusvuon) grigorianskoin kalenderin mugah. vuvven loppussah on 00 päiviä.
1000 ▁karjal as ▁j än ö it ▁el etäh ▁kaikk iel , ▁yht ell äh ▁enim yö ll eh ▁suv ai j ah ▁n uor ien ▁kuu z ikk oloin ▁r e un oi , ▁me čč ii ▁jog il oi ll uo , ▁s uol oin ▁da ▁nii tt yl ö in ▁a g j oi . ▁karjalan ▁s
▁kirjut us s ist iem at ▁j uat ah es ▁kolm eh ▁joukk oh : ▁l og og r a f ine ▁libo ▁san ak irj ut us , ▁s ill ab ine ▁libo ▁tav uk irj ut us ▁da ▁ iänn eh - ▁libo ▁kirj ai m ikk ok irj ut us . ▁kirjut us s is
▁00. ▁li g akuudu ▁- ▁000. ▁vuvven ▁päivy ▁(000. ▁päivy ▁kargavusvuon ) ▁grigorianskoin ▁kalend er in ▁mugah . ▁vuvven ▁loppussah ▁on ▁00 ▁päiviä .
3000 ▁karjalas ▁j än ö it ▁eletäh ▁kaikkiel , ▁yhtelläh ▁enimyölleh ▁suvai jah ▁nuor ien ▁kuu z ikk oloin ▁re un oi , ▁mečč ii ▁jog iloi ll uo , ▁suol oin ▁da ▁nii tt ylö in ▁a g joi . ▁karjalan ▁s
▁kirjut uss istiem at ▁j uat ah es ▁kolm eh ▁joukk oh : ▁l og og ra f ine ▁libo ▁sanak irjut us , ▁sill ab ine ▁libo ▁tav uk irjut us ▁da ▁ iänn eh - ▁libo ▁kirjaim ikk ok irjut us . ▁kirjut uss is
▁00. ▁ligakuudu ▁- ▁000. ▁vuvven ▁päivy ▁(000. ▁päivy ▁kargavusvuon ) ▁grigorianskoin ▁kalend erin ▁mugah . ▁vuvven ▁loppussah ▁on ▁00 ▁päiviä .
5000 ▁karjalas ▁jän ö it ▁eletäh ▁kaikkiel , ▁yhtelläh ▁enimyölleh ▁suvai jah ▁nuor ien ▁kuu z ikk oloin ▁reun oi , ▁mečč ii ▁jog iloi ll uo , ▁suol oin ▁da ▁nii tt ylöin ▁ag joi . ▁karjalan ▁s
▁kirjut uss istiem at ▁j uatah es ▁kolm eh ▁joukkoh : ▁l og og raf ine ▁libo ▁sanak irjut us , ▁sill ab ine ▁libo ▁tav uk irjut us ▁da ▁ iänn eh - ▁libo ▁kirjaim ikk ok irjut us . ▁kirjut uss is
▁00. ▁ligakuudu ▁- ▁000. ▁vuvven ▁päivy ▁(000. ▁päivy ▁kargavusvuon ) ▁grigorianskoin ▁kalenderin ▁mugah . ▁vuvven ▁loppussah ▁on ▁00 ▁päiviä .
10000 ▁karjalas ▁jän öit ▁eletäh ▁kaikkiel , ▁yhtelläh ▁enimyölleh ▁suvaijah ▁nuorien ▁kuu z ikk oloin ▁reun oi , ▁mečč ii ▁jog iloi ll uo , ▁suol oin ▁da ▁niitt ylöin ▁ag joi . ▁karjalan ▁s
▁kirjutuss istiem at ▁juatah es ▁kolmeh ▁joukkoh : ▁log ograf ine ▁libo ▁sanak irjutus , ▁sill ab ine ▁libo ▁tavuk irjutus ▁da ▁ iänneh - ▁libo ▁kirjaimikk ok irjutus . ▁kirjutuss is
▁00. ▁ligakuudu ▁- ▁000. ▁vuvven ▁päivy ▁(000. ▁päivy ▁kargavusvuon ) ▁grigorianskoin ▁kalenderin ▁mugah . ▁vuvven ▁loppussah ▁on ▁00 ▁päiviä .