Serbian (sr) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizesrwiki sample
original * 0000. — у експлозији бомбе подметнуте у подземну железницу у главном граду азербејџана бакуу погинуло је 00 и рањено више од 00 људи.
* 0000. — скинута забрана са правописа вук караџић и дозвољена његова употреба. решење о томе донео, на основу одлуке кнеза михаила обреновића, минист
прву српску оперу, додуше аматерску, извело је српско певачко друштво из беле цркве (банат) први пут 0000. године у новом саду. била је то опера у јед
1000 ▁* ▁0000. ▁— ▁у ▁е кс п ло зи ји ▁бо м бе ▁под мет ну те ▁у ▁под зе м ну ▁же ле з ни цу ▁у ▁гла в ном ▁гра ду ▁а зе р бе ј џ а на ▁ба ку у ▁по ги ну ло ▁је ▁00 ▁и ▁ра ње но ▁више ▁од ▁00 ▁љу ди .
▁* ▁0000. ▁— ▁с ки ну та ▁за бра на ▁са ▁пра во писа ▁в у к ▁ка ра џ и ћ ▁и ▁до з во љена ▁њего ва ▁у по т ре ба . ▁ре ше ње ▁о ▁то ме ▁до не о , ▁на ▁ос но ву ▁од лу ке ▁к не за ▁ми ха и ла ▁об ре нови ћа , ▁ми ни ст
▁пр ву ▁срп ску ▁о пе ру , ▁до ду ше ▁а ма тер ску , ▁из ве ло ▁је ▁срп ско ▁пе ва чко ▁дру шт во ▁из ▁бе ле ▁црк ве ▁( ба на т ) ▁први ▁пу т ▁0000. ▁године ▁у ▁но вом ▁са ду . ▁била ▁је ▁то ▁о пе ра ▁у ▁јед
3000 ▁* ▁0000. ▁— ▁у ▁екс пло зи ји ▁бо мбе ▁под мет ну те ▁у ▁под зем ну ▁желе зни цу ▁у ▁гла вном ▁граду ▁а зер бе ј џа на ▁ба ку у ▁поги ну ло ▁је ▁00 ▁и ▁ра ње но ▁више ▁од ▁00 ▁људи .
▁* ▁0000. ▁— ▁с ки нута ▁за бра на ▁са ▁право писа ▁ву к ▁кара џи ћ ▁и ▁до з во љена ▁његова ▁употре ба . ▁ре ше ње ▁о ▁томе ▁доне о , ▁на ▁основу ▁одлу ке ▁кне за ▁миха и ла ▁об ре нови ћа , ▁мини ст
▁пр ву ▁срп ску ▁опе ру , ▁до ду ше ▁а ма тер ску , ▁изве ло ▁је ▁срп ско ▁пе ва чко ▁дру штво ▁из ▁бе ле ▁цркве ▁( ба нат ) ▁први ▁пут ▁0000. ▁године ▁у ▁новом ▁са ду . ▁била ▁је ▁то ▁опера ▁у ▁јед
5000 ▁* ▁0000. ▁— ▁у ▁експло зији ▁бо мбе ▁под мет ну те ▁у ▁под зем ну ▁железни цу ▁у ▁гла вном ▁граду ▁а зер бе ј џа на ▁ба ку у ▁поги ну ло ▁је ▁00 ▁и ▁ра њено ▁више ▁од ▁00 ▁људи .
▁* ▁0000. ▁— ▁ски нута ▁забра на ▁са ▁право писа ▁ву к ▁кара џи ћ ▁и ▁дозво љена ▁његова ▁употре ба . ▁ре шење ▁о ▁томе ▁доне о , ▁на ▁основу ▁одлу ке ▁кне за ▁михаи ла ▁обре новића , ▁мини ст
▁прву ▁срп ску ▁опе ру , ▁до ду ше ▁а ма тер ску , ▁изве ло ▁је ▁српско ▁пе ва чко ▁друштво ▁из ▁беле ▁цркве ▁( ба нат ) ▁први ▁пут ▁0000. ▁године ▁у ▁новом ▁са ду . ▁била ▁је ▁то ▁опера ▁у ▁јед
10000 ▁* ▁0000. ▁— ▁у ▁експло зији ▁бо мбе ▁под мет ну те ▁у ▁подзем ну ▁железни цу ▁у ▁главном ▁граду ▁а зербејџа на ▁ба ку у ▁погинуло ▁је ▁00 ▁и ▁ра њено ▁више ▁од ▁00 ▁људи .
▁* ▁0000. ▁— ▁ски нута ▁забра на ▁са ▁право писа ▁вук ▁кара џић ▁и ▁дозво љена ▁његова ▁употреба . ▁решење ▁о ▁томе ▁донео , ▁на ▁основу ▁одлуке ▁кнеза ▁михаила ▁обре новића , ▁мини ст
▁прву ▁српску ▁опе ру , ▁до ду ше ▁ама тер ску , ▁изве ло ▁је ▁српско ▁пе вачко ▁друштво ▁из ▁беле ▁цркве ▁( ба нат ) ▁први ▁пут ▁0000. ▁године ▁у ▁новом ▁саду . ▁била ▁је ▁то ▁опера ▁у ▁јед
25000 ▁* ▁0000. ▁— ▁у ▁експло зији ▁бомбе ▁под мет нуте ▁у ▁подзем ну ▁железни цу ▁у ▁главном ▁граду ▁азербејџана ▁баку у ▁погинуло ▁је ▁00 ▁и ▁рањено ▁више ▁од ▁00 ▁људи .
▁* ▁0000. ▁— ▁ски нута ▁забра на ▁са ▁право писа ▁вук ▁караџић ▁и ▁дозво љена ▁његова ▁употреба . ▁решење ▁о ▁томе ▁донео , ▁на ▁основу ▁одлуке ▁кнеза ▁михаила ▁обреновића , ▁мини ст
▁прву ▁српску ▁опе ру , ▁до ду ше ▁аматер ску , ▁изве ло ▁је ▁српско ▁пе вачко ▁друштво ▁из ▁беле ▁цркве ▁( банат ) ▁први ▁пут ▁0000. ▁године ▁у ▁новом ▁саду . ▁била ▁је ▁то ▁опера ▁у ▁јед
50000 ▁* ▁0000. ▁— ▁у ▁експло зији ▁бомбе ▁под мет нуте ▁у ▁подзем ну ▁железни цу ▁у ▁главном ▁граду ▁азербејџана ▁бакуу ▁погинуло ▁је ▁00 ▁и ▁рањено ▁више ▁од ▁00 ▁људи .
▁* ▁0000. ▁— ▁ски нута ▁забрана ▁са ▁право писа ▁вук ▁караџић ▁и ▁дозвољена ▁његова ▁употреба . ▁решење ▁о ▁томе ▁донео , ▁на ▁основу ▁одлуке ▁кнеза ▁михаила ▁обреновића , ▁мини ст
▁прву ▁српску ▁оперу , ▁додуше ▁аматер ску , ▁изве ло ▁је ▁српско ▁пе вачко ▁друштво ▁из ▁беле ▁цркве ▁( банат ) ▁први ▁пут ▁0000. ▁године ▁у ▁новом ▁саду . ▁била ▁је ▁то ▁опера ▁у ▁јед
100000 ▁* ▁0000. ▁— ▁у ▁експлозији ▁бомбе ▁подмет нуте ▁у ▁подзем ну ▁железницу ▁у ▁главном ▁граду ▁азербејџана ▁бакуу ▁погинуло ▁је ▁00 ▁и ▁рањено ▁више ▁од ▁00 ▁људи .
▁* ▁0000. ▁— ▁скинута ▁забрана ▁са ▁правописа ▁вук ▁караџић ▁и ▁дозвољена ▁његова ▁употреба . ▁решење ▁о ▁томе ▁донео , ▁на ▁основу ▁одлуке ▁кнеза ▁михаила ▁обреновића , ▁мини ст
▁прву ▁српску ▁оперу , ▁додуше ▁аматер ску , ▁извело ▁је ▁српско ▁певачко ▁друштво ▁из ▁беле ▁цркве ▁( банат ) ▁први ▁пут ▁0000. ▁године ▁у ▁новом ▁саду . ▁била ▁је ▁то ▁опера ▁у ▁јед