Bosnian (bs) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizebswiki sample
original tešanj će u austrijske ruke pasti 0. septembra 0000. godine.tada je već bio skršen otpor okupaciji bosne i situacija je išla ka smirivanju. na ovim pr
* 0000 – počelo drugo službeno svjetsko prvenstvo u šahu 0000. između steinitza i čigorina. * 0000 – održana wannsee konferencija u berlinu, na kojom
ukrajinski filmski radnici su aktivni u međunarodnim koprodukcijama sa ukrajinskim glumcima. režiseri i ekipa redovno učestvuju u filmovima o ruskoj (
1000 ▁te ša n j ▁će ▁u ▁au stri jske ▁ru ke ▁pa sti ▁0. ▁se p te mbra ▁0000. ▁godine . ta da ▁je ▁ve ć ▁bio ▁s k r š en ▁ot po r ▁o ku pa ciji ▁bosne ▁i ▁si tu a cija ▁je ▁i š la ▁ka ▁s mi ri va nju . ▁na ▁o vim ▁pr
▁* ▁0000 ▁– ▁poče lo ▁drugo ▁slu ž be no ▁svjet sko ▁prven stvo ▁u ▁š a hu ▁0000. ▁između ▁ste i ni t za ▁i ▁či go ri na . ▁* ▁0000 ▁– ▁od rža na ▁w an n se e ▁kon fe ren cija ▁u ▁b er li nu , ▁na ▁ko jom
▁u kra ji nski ▁film ski ▁ra dni ci ▁su ▁a kti vni ▁u ▁među naro d nim ▁ko pro du k cija ma ▁sa ▁u kra ji nski m ▁g lu m cima . ▁re ži se ri ▁i ▁e ki pa ▁re do vno ▁u če st vu ju ▁u ▁fil mo vima ▁o ▁ru skoj ▁(
3000 ▁te ša n j ▁će ▁u ▁austri jske ▁ru ke ▁pa sti ▁0. ▁septembra ▁0000. ▁godine . ta da ▁je ▁već ▁bio ▁s kr šen ▁ot por ▁oku pa ciji ▁bosne ▁i ▁si tua cija ▁je ▁i šla ▁ka ▁smi ri vanju . ▁na ▁o vim ▁pr
▁* ▁0000 ▁– ▁poče lo ▁drugo ▁službe no ▁svjet sko ▁prvenstvo ▁u ▁ša hu ▁0000. ▁između ▁ste i ni t za ▁i ▁či go rina . ▁* ▁0000 ▁– ▁održa na ▁w an n se e ▁kon feren cija ▁u ▁ber li nu , ▁na ▁ko jom
▁u kraji nski ▁film ski ▁ra dnici ▁su ▁akti vni ▁u ▁međunaro dnim ▁ko pro du k cijama ▁sa ▁u kraji nskim ▁glu m cima . ▁reži se ri ▁i ▁ekipa ▁redo vno ▁uče stvu ju ▁u ▁fil mo vima ▁o ▁ru skoj ▁(
5000 ▁te šan j ▁će ▁u ▁austri jske ▁ru ke ▁pa sti ▁0. ▁septembra ▁0000. ▁godine . ta da ▁je ▁već ▁bio ▁s kr šen ▁ot por ▁oku pa ciji ▁bosne ▁i ▁situa cija ▁je ▁i šla ▁ka ▁smi ri vanju . ▁na ▁ovim ▁pr
▁* ▁0000 ▁– ▁poče lo ▁drugo ▁službe no ▁svjetsko ▁prvenstvo ▁u ▁ša hu ▁0000. ▁između ▁ste ini t za ▁i ▁či go rina . ▁* ▁0000 ▁– ▁održa na ▁w an n se e ▁kon feren cija ▁u ▁ber linu , ▁na ▁kojom
▁ukraji nski ▁filmski ▁ra dnici ▁su ▁akti vni ▁u ▁međunaro dnim ▁ko produ k cijama ▁sa ▁ukraji nskim ▁glum cima . ▁reži se ri ▁i ▁ekipa ▁redo vno ▁učestvu ju ▁u ▁fil mo vima ▁o ▁ru skoj ▁(
10000 ▁te šan j ▁će ▁u ▁austri jske ▁ruke ▁pa sti ▁0. ▁septembra ▁0000. ▁godine . ta da ▁je ▁već ▁bio ▁s kr šen ▁otpor ▁okupa ciji ▁bosne ▁i ▁situacija ▁je ▁i šla ▁ka ▁smi ri vanju . ▁na ▁ovim ▁pr
▁* ▁0000 ▁– ▁počelo ▁drugo ▁službeno ▁svjetsko ▁prvenstvo ▁u ▁šahu ▁0000. ▁između ▁steini t za ▁i ▁či go rina . ▁* ▁0000 ▁– ▁održana ▁w an n see ▁kon ferencija ▁u ▁berlinu , ▁na ▁kojom
▁ukraji nski ▁filmski ▁ra dnici ▁su ▁akti vni ▁u ▁međunarodnim ▁ko produ k cijama ▁sa ▁ukraji nskim ▁glum cima . ▁reži seri ▁i ▁ekipa ▁redovno ▁učestvuju ▁u ▁filmovima ▁o ▁ru skoj ▁(
25000 ▁tešanj ▁će ▁u ▁austrijske ▁ruke ▁pasti ▁0. ▁septembra ▁0000. ▁godine . tada ▁je ▁već ▁bio ▁skr šen ▁otpor ▁okupa ciji ▁bosne ▁i ▁situacija ▁je ▁išla ▁ka ▁smi ri vanju . ▁na ▁ovim ▁pr
▁* ▁0000 ▁– ▁počelo ▁drugo ▁službeno ▁svjetsko ▁prvenstvo ▁u ▁šahu ▁0000. ▁između ▁steini tza ▁i ▁či go rina . ▁* ▁0000 ▁– ▁održana ▁wan n see ▁konferencija ▁u ▁berlinu , ▁na ▁kojom
▁ukrajinski ▁filmski ▁radnici ▁su ▁aktivni ▁u ▁međunarodnim ▁ko produ kcijama ▁sa ▁ukraji nskim ▁glum cima . ▁režiseri ▁i ▁ekipa ▁redovno ▁učestvuju ▁u ▁filmovima ▁o ▁ru skoj ▁(
50000 ▁tešanj ▁će ▁u ▁austrijske ▁ruke ▁pasti ▁0. ▁septembra ▁0000. ▁godine . tada ▁je ▁već ▁bio ▁skr šen ▁otpor ▁okupa ciji ▁bosne ▁i ▁situacija ▁je ▁išla ▁ka ▁smi ri vanju . ▁na ▁ovim ▁pr
▁* ▁0000 ▁– ▁počelo ▁drugo ▁službeno ▁svjetsko ▁prvenstvo ▁u ▁šahu ▁0000. ▁između ▁steini tza ▁i ▁čigo rina . ▁* ▁0000 ▁– ▁održana ▁wan n see ▁konferencija ▁u ▁berlinu , ▁na ▁kojom
▁ukrajinski ▁filmski ▁radnici ▁su ▁aktivni ▁u ▁međunarodnim ▁koprodu kcijama ▁sa ▁ukraji nskim ▁glumcima . ▁režiseri ▁i ▁ekipa ▁redovno ▁učestvuju ▁u ▁filmovima ▁o ▁ruskoj ▁(
100000 ▁tešanj ▁će ▁u ▁austrijske ▁ruke ▁pasti ▁0. ▁septembra ▁0000. ▁godine . tada ▁je ▁već ▁bio ▁skr šen ▁otpor ▁okupaciji ▁bosne ▁i ▁situacija ▁je ▁išla ▁ka ▁smiri vanju . ▁na ▁ovim ▁pr
▁* ▁0000 ▁– ▁počelo ▁drugo ▁službeno ▁svjetsko ▁prvenstvo ▁u ▁šahu ▁0000. ▁između ▁steinitza ▁i ▁čigo rina . ▁* ▁0000 ▁– ▁održana ▁wan nsee ▁konferencija ▁u ▁berlinu , ▁na ▁kojom
▁ukrajinski ▁filmski ▁radnici ▁su ▁aktivni ▁u ▁međunarodnim ▁koprodu kcijama ▁sa ▁ukrajinskim ▁glumcima . ▁režiseri ▁i ▁ekipa ▁redovno ▁učestvuju ▁u ▁filmovima ▁o ▁ruskoj ▁(