Romanian (ro) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizerowiki sample
original * depresiunea giurgeului pe valea superioară a mureșului cu o lungime de 00 km. și o lățime maximă de 00 km. * depresiunea ciucului este situată în pa
* județele româniei * județele interbelice ale regatului româniei * listă de localități din județul giurgiu * listă de comune din județul giurgiu * li
pentru toate genurile de sisteme (care pot fi de numerație sau nu, binare sau nu) vezi sistem (dezambiguizare).
1000 ▁* ▁de pre si unea ▁g i ur ge ului ▁pe ▁v ale a ▁su peri o ară ▁a ▁mu re ș ului ▁cu ▁o ▁l ung im e ▁de ▁00 ▁k m . ▁și ▁o ▁l ă ți me ▁ma x im ă ▁de ▁00 ▁k m . ▁* ▁de pre si unea ▁c i uc ului ▁este ▁s itu ată ▁în ▁pa
▁* ▁jude țele ▁român iei ▁* ▁jude țele ▁inter b el ice ▁ale ▁reg at ului ▁român iei ▁* ▁l ist ă ▁de ▁local ități ▁din ▁județul ▁g i urg iu ▁* ▁l ist ă ▁de ▁com une ▁din ▁județul ▁g i urg iu ▁* ▁li
▁pentru ▁toate ▁gen urile ▁de ▁s iste me ▁( care ▁pot ▁fi ▁de ▁nume ra ție ▁sau ▁nu , ▁b in are ▁sau ▁nu ) ▁ve zi ▁s iste m ▁( de z am b ig ui z are ).
3000 ▁* ▁de pre siunea ▁gi ur ge ului ▁pe ▁valea ▁superi oară ▁a ▁mu reș ului ▁cu ▁o ▁lung ime ▁de ▁00 ▁km . ▁și ▁o ▁lă ți me ▁maxim ă ▁de ▁00 ▁km . ▁* ▁de pre siunea ▁ci uc ului ▁este ▁situ ată ▁în ▁pa
▁* ▁jude țele ▁româniei ▁* ▁jude țele ▁inter bel ice ▁ale ▁reg atului ▁româniei ▁* ▁l istă ▁de ▁local ități ▁din ▁județul ▁gi urg iu ▁* ▁l istă ▁de ▁com une ▁din ▁județul ▁gi urg iu ▁* ▁li
▁pentru ▁toate ▁gen urile ▁de ▁siste me ▁( care ▁pot ▁fi ▁de ▁nume rație ▁sau ▁nu , ▁b in are ▁sau ▁nu ) ▁ve zi ▁sistem ▁( de z amb ig ui zare ).
5000 ▁* ▁de pre siunea ▁gi ur ge ului ▁pe ▁valea ▁superioară ▁a ▁mureș ului ▁cu ▁o ▁lungime ▁de ▁00 ▁km . ▁și ▁o ▁lă ți me ▁maxim ă ▁de ▁00 ▁km . ▁* ▁de pre siunea ▁ci uc ului ▁este ▁situată ▁în ▁pa
▁* ▁jude țele ▁româniei ▁* ▁jude țele ▁inter bel ice ▁ale ▁regatului ▁româniei ▁* ▁listă ▁de ▁localități ▁din ▁județul ▁gi urg iu ▁* ▁listă ▁de ▁comune ▁din ▁județul ▁gi urg iu ▁* ▁li
▁pentru ▁toate ▁gen urile ▁de ▁siste me ▁( care ▁pot ▁fi ▁de ▁nume rație ▁sau ▁nu , ▁b in are ▁sau ▁nu ) ▁ve zi ▁sistem ▁( dez amb ig ui zare ).
10000 ▁* ▁depre siunea ▁gi ur ge ului ▁pe ▁valea ▁superioară ▁a ▁mureș ului ▁cu ▁o ▁lungime ▁de ▁00 ▁km . ▁și ▁o ▁lățime ▁maximă ▁de ▁00 ▁km . ▁* ▁depre siunea ▁ci uc ului ▁este ▁situată ▁în ▁pa
▁* ▁jude țele ▁româniei ▁* ▁jude țele ▁interbel ice ▁ale ▁regatului ▁româniei ▁* ▁listă ▁de ▁localități ▁din ▁județul ▁giurgiu ▁* ▁listă ▁de ▁comune ▁din ▁județul ▁giurgiu ▁* ▁li
▁pentru ▁toate ▁gen urile ▁de ▁sisteme ▁( care ▁pot ▁fi ▁de ▁nume rație ▁sau ▁nu , ▁bin are ▁sau ▁nu ) ▁vezi ▁sistem ▁( dezambiguizare ).
25000 ▁* ▁depresiunea ▁gi ur ge ului ▁pe ▁valea ▁superioară ▁a ▁mureșului ▁cu ▁o ▁lungime ▁de ▁00 ▁km . ▁și ▁o ▁lățime ▁maximă ▁de ▁00 ▁km . ▁* ▁depresiunea ▁ciuc ului ▁este ▁situată ▁în ▁pa
▁* ▁județele ▁româniei ▁* ▁județele ▁interbel ice ▁ale ▁regatului ▁româniei ▁* ▁listă ▁de ▁localități ▁din ▁județul ▁giurgiu ▁* ▁listă ▁de ▁comune ▁din ▁județul ▁giurgiu ▁* ▁li
▁pentru ▁toate ▁genurile ▁de ▁sisteme ▁( care ▁pot ▁fi ▁de ▁nume rație ▁sau ▁nu , ▁bin are ▁sau ▁nu ) ▁vezi ▁sistem ▁( dezambiguizare ).
50000 ▁* ▁depresiunea ▁giur ge ului ▁pe ▁valea ▁superioară ▁a ▁mureșului ▁cu ▁o ▁lungime ▁de ▁00 ▁km . ▁și ▁o ▁lățime ▁maximă ▁de ▁00 ▁km . ▁* ▁depresiunea ▁ciuc ului ▁este ▁situată ▁în ▁pa
▁* ▁județele ▁româniei ▁* ▁județele ▁interbelice ▁ale ▁regatului ▁româniei ▁* ▁listă ▁de ▁localități ▁din ▁județul ▁giurgiu ▁* ▁listă ▁de ▁comune ▁din ▁județul ▁giurgiu ▁* ▁li
▁pentru ▁toate ▁genurile ▁de ▁sisteme ▁( care ▁pot ▁fi ▁de ▁numerație ▁sau ▁nu , ▁binare ▁sau ▁nu ) ▁vezi ▁sistem ▁( dezambiguizare ).
100000 ▁* ▁depresiunea ▁giurgeului ▁pe ▁valea ▁superioară ▁a ▁mureșului ▁cu ▁o ▁lungime ▁de ▁00 ▁km . ▁și ▁o ▁lățime ▁maximă ▁de ▁00 ▁km . ▁* ▁depresiunea ▁ciucului ▁este ▁situată ▁în ▁pa
▁* ▁județele ▁româniei ▁* ▁județele ▁interbelice ▁ale ▁regatului ▁româniei ▁* ▁listă ▁de ▁localități ▁din ▁județul ▁giurgiu ▁* ▁listă ▁de ▁comune ▁din ▁județul ▁giurgiu ▁* ▁li
▁pentru ▁toate ▁genurile ▁de ▁sisteme ▁( care ▁pot ▁fi ▁de ▁numerație ▁sau ▁nu , ▁binare ▁sau ▁nu ) ▁vezi ▁sistem ▁( dezambiguizare ).