Croatian (hr) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizehrwiki sample
original u ludbregu u crkvi presvetog trojstva čuva se relikvija predragocjene krvi kristove. potječe iz 0000. godine. tada se dogodio, čudesan događaj pojave
*mormoni vjeruju, da se uskrli isus ukazao i u sjevernoj americi. zapis se nalazi u knjizi mormona .
datoteka:firstbasketball.jpg|mini|000px|desno|prvo košarkaško igralište na springfieldskom sveučilištu u sad-u.
1000 ▁u ▁lu d b re gu ▁u ▁crk vi ▁pre s ve to g ▁tro j stva ▁ ču va ▁se ▁re li k vi ja ▁pred ra go c je ne ▁kr vi ▁kri sto ve . ▁pot je če ▁iz ▁0000. ▁godine . ▁tada ▁se ▁do go dio , ▁ ču de sa n ▁do ga đa j ▁poja ve
▁* mo r mo ni ▁vje ru ju , ▁da ▁se ▁us k r li ▁i su s ▁u ka za o ▁i ▁u ▁sjever noj ▁ameri ci . ▁za pi s ▁se ▁nalazi ▁u ▁knji zi ▁mo r mo na ▁ .
▁datoteka : fi r st ba ske t ba ll . jpg | mini | 000 px | de sno | p r vo ▁ko ša r ka ško ▁igra li šte ▁na ▁s pri ng fi el d skom ▁sve u či li š tu ▁u ▁sad - u .
3000 ▁u ▁lu d bre gu ▁u ▁crk vi ▁pre sve tog ▁tro j stva ▁ču va ▁se ▁re li k vija ▁pred ra go cje ne ▁kr vi ▁kri sto ve . ▁pot je če ▁iz ▁0000. ▁godine . ▁tada ▁se ▁do go dio , ▁ču de san ▁događa j ▁poja ve
▁* mor mo ni ▁vje ru ju , ▁da ▁se ▁us kr li ▁isu s ▁u kaza o ▁i ▁u ▁sjever noj ▁ameri ci . ▁za pis ▁se ▁nalazi ▁u ▁knji zi ▁mor mo na ▁.
▁datoteka : fi r st ba ske t ba ll . jpg | mini |000 px | desno | pr vo ▁koša rka ško ▁igra li šte ▁na ▁s pri ng fi el d skom ▁sveučili štu ▁u ▁sad - u .
5000 ▁u ▁lu d bre gu ▁u ▁crkvi ▁pre sve tog ▁tro j stva ▁ču va ▁se ▁re lik vija ▁pred ra go cje ne ▁kr vi ▁kri sto ve . ▁potje če ▁iz ▁0000. ▁godine . ▁tada ▁se ▁dogo dio , ▁ču de san ▁događa j ▁poja ve
▁* mor mo ni ▁vje ru ju , ▁da ▁se ▁us kr li ▁isu s ▁u kaza o ▁i ▁u ▁sjevernoj ▁americi . ▁za pis ▁se ▁nalazi ▁u ▁knjizi ▁mor mona ▁.
▁datoteka : fi r st ba ske t ba ll . jpg | mini |000 px | desno | pr vo ▁košarka ško ▁igrali šte ▁na ▁s pri ng fi el d skom ▁sveučilištu ▁u ▁sad - u .
10000 ▁u ▁lud bre gu ▁u ▁crkvi ▁pre sve tog ▁tro j stva ▁čuva ▁se ▁re lik vija ▁pred ra go cje ne ▁krvi ▁kristo ve . ▁potječe ▁iz ▁0000. ▁godine . ▁tada ▁se ▁dogo dio , ▁ču de san ▁događaj ▁pojave
▁* mor moni ▁vjeru ju , ▁da ▁se ▁uskr li ▁isus ▁u kaza o ▁i ▁u ▁sjevernoj ▁americi . ▁za pis ▁se ▁nalazi ▁u ▁knjizi ▁mor mona ▁.
▁datoteka : fi r st ba ske t ball . jpg | mini |000 px | desno | pr vo ▁košarka ško ▁igrali šte ▁na ▁spring field skom ▁sveučilištu ▁u ▁sad - u .
25000 ▁u ▁ludbre gu ▁u ▁crkvi ▁presvetog ▁trojstva ▁čuva ▁se ▁relik vija ▁predra go cje ne ▁krvi ▁kristo ve . ▁potječe ▁iz ▁0000. ▁godine . ▁tada ▁se ▁dogodio , ▁ču de san ▁događaj ▁pojave
▁* mor moni ▁vjeruju , ▁da ▁se ▁uskr li ▁isus ▁ukaza o ▁i ▁u ▁sjevernoj ▁americi . ▁zapis ▁se ▁nalazi ▁u ▁knjizi ▁mor mona ▁.
▁datoteka : fir st ba sket ball . jpg | mini |000 px | desno | prvo ▁košarka ško ▁igralište ▁na ▁spring field skom ▁sveučilištu ▁u ▁sad - u .
50000 ▁u ▁ludbre gu ▁u ▁crkvi ▁presvetog ▁trojstva ▁čuva ▁se ▁relikvija ▁predra go cje ne ▁krvi ▁kristove . ▁potječe ▁iz ▁0000. ▁godine . ▁tada ▁se ▁dogodio , ▁čude san ▁događaj ▁pojave
▁* mor moni ▁vjeruju , ▁da ▁se ▁uskr li ▁isus ▁ukazao ▁i ▁u ▁sjevernoj ▁americi . ▁zapis ▁se ▁nalazi ▁u ▁knjizi ▁mor mona ▁.
▁datoteka : first ba sket ball . jpg | mini |000 px | desno | prvo ▁košarka ško ▁igralište ▁na ▁springfield skom ▁sveučilištu ▁u ▁sad - u .
100000 ▁u ▁ludbregu ▁u ▁crkvi ▁presvetog ▁trojstva ▁čuva ▁se ▁relikvija ▁predra gocje ne ▁krvi ▁kristove . ▁potječe ▁iz ▁0000. ▁godine . ▁tada ▁se ▁dogodio , ▁čude san ▁događaj ▁pojave
▁* mor moni ▁vjeruju , ▁da ▁se ▁uskr li ▁isus ▁ukazao ▁i ▁u ▁sjevernoj ▁americi . ▁zapis ▁se ▁nalazi ▁u ▁knjizi ▁mor mona ▁.
▁datoteka : first basket ball . jpg | mini |000 px | desno | prvo ▁košarkaško ▁igralište ▁na ▁springfield skom ▁sveučilištu ▁u ▁sad - u .