Bulgarian (bg) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizebgwiki sample
original от цитонамазката може да се предположи, макар и с голяма вероятност, наличието на неопластичен процес – т.е. тя е само ориентировъчен метод. когато от
най-простото лечение би се състояло в това, човек да избягва алергените. за съжаление този метод е практически неосъществим, защото човек не може да и
* 0 декември – терористи нападат американското посолство в джеда, саудитска арабия, убивайки 0 души и ранявайки над 00, преди да бъдат застреляни от с
1000 ▁от ▁ ци то на ма з ката ▁може ▁да ▁се ▁пред поло жи , ▁ма кар ▁и ▁с ▁голя ма ▁ве ро ят ност , ▁на ли чи ето ▁на ▁не о п ла сти чен ▁про це с ▁– ▁т . е . ▁тя ▁е ▁само ▁о ри ен ти ров ъ чен ▁ме то д . ▁когато ▁от
▁най - про сто то ▁ле чение ▁би ▁се ▁съ стоя ло ▁в ▁това , ▁ч ове к ▁да ▁из б я г ва ▁а ле р ге ните . ▁за ▁съ жа ление ▁този ▁ме то д ▁е ▁пра кти чески ▁не о съ ще стви м , ▁за що то ▁ч ове к ▁не ▁може ▁да ▁и
▁* ▁0 ▁де ке мври ▁– ▁те ро ри сти ▁на па дат ▁америка н ското ▁по со л ство ▁в ▁д же да , ▁са у ди т ска ▁а ра б ия , ▁у би ва йки ▁0 ▁души ▁и ▁ра нява йки ▁над ▁00 , ▁преди ▁да ▁бъ дат ▁за ст ре ля ни ▁от ▁с
3000 ▁от ▁ци то на ма з ката ▁може ▁да ▁се ▁пред поло жи , ▁макар ▁и ▁с ▁голяма ▁веро ят ност , ▁на ли чи ето ▁на ▁нео пла сти чен ▁проце с ▁– ▁т . е . ▁тя ▁е ▁само ▁ори ен ти ров ъ чен ▁мето д . ▁когато ▁от
▁най - про сто то ▁ле чение ▁би ▁се ▁състоя ло ▁в ▁това , ▁човек ▁да ▁изб я г ва ▁а лер ге ните . ▁за ▁съ жа ление ▁този ▁мето д ▁е ▁практи чески ▁нео съ ще стви м , ▁защото ▁човек ▁не ▁може ▁да ▁и
▁* ▁0 ▁декември ▁– ▁те ро ристи ▁напа дат ▁америка нското ▁посо л ство ▁в ▁дже да , ▁са у ди т ска ▁ара бия , ▁уби ва йки ▁0 ▁души ▁и ▁ра нява йки ▁над ▁00, ▁преди ▁да ▁бъдат ▁за стре ля ни ▁от ▁с
5000 ▁от ▁ци то на ма з ката ▁може ▁да ▁се ▁пред поло жи , ▁макар ▁и ▁с ▁голяма ▁веро ят ност , ▁нали чието ▁на ▁нео пла сти чен ▁процес ▁– ▁т . е . ▁тя ▁е ▁само ▁ори ен ти ров ъ чен ▁мето д . ▁когато ▁от
▁най - про сто то ▁ле чение ▁би ▁се ▁състоя ло ▁в ▁това , ▁човек ▁да ▁избя гва ▁а лер ге ните . ▁за ▁съ жа ление ▁този ▁мето д ▁е ▁практи чески ▁нео съ ще стви м , ▁защото ▁човек ▁не ▁може ▁да ▁и
▁* ▁0 ▁декември ▁– ▁те ро ристи ▁напа дат ▁америка нското ▁посо лство ▁в ▁дже да , ▁са у ди т ска ▁ара бия , ▁уби ва йки ▁0 ▁души ▁и ▁ра нява йки ▁над ▁00, ▁преди ▁да ▁бъдат ▁за стре ля ни ▁от ▁с
10000 ▁от ▁ци то на ма з ката ▁може ▁да ▁се ▁пред поло жи , ▁макар ▁и ▁с ▁голяма ▁вероят ност , ▁наличието ▁на ▁нео пла сти чен ▁процес ▁– ▁т . е . ▁тя ▁е ▁само ▁ори енти ров ъ чен ▁метод . ▁когато ▁от
▁най - про сто то ▁лечение ▁би ▁се ▁състоя ло ▁в ▁това , ▁човек ▁да ▁избя гва ▁а лер ге ните . ▁за ▁съ жа ление ▁този ▁метод ▁е ▁практически ▁нео съ ще стви м , ▁защото ▁човек ▁не ▁може ▁да ▁и
▁* ▁0 ▁декември ▁– ▁теро ристи ▁напа дат ▁америка нското ▁посо лство ▁в ▁дже да , ▁сау ди тска ▁арабия , ▁уби вайки ▁0 ▁души ▁и ▁ра нява йки ▁над ▁00, ▁преди ▁да ▁бъдат ▁за стре ляни ▁от ▁с
25000 ▁от ▁ци тона ма зката ▁може ▁да ▁се ▁предполо жи , ▁макар ▁и ▁с ▁голяма ▁вероятност , ▁наличието ▁на ▁нео пла стичен ▁процес ▁– ▁т . е . ▁тя ▁е ▁само ▁ори енти ровъ чен ▁метод . ▁когато ▁от
▁най - про стото ▁лечение ▁би ▁се ▁състоя ло ▁в ▁това , ▁човек ▁да ▁избягва ▁алер ге ните . ▁за ▁съжаление ▁този ▁метод ▁е ▁практически ▁нео съ ще стви м , ▁защото ▁човек ▁не ▁може ▁да ▁и
▁* ▁0 ▁декември ▁– ▁терористи ▁нападат ▁американското ▁посолство ▁в ▁дже да , ▁саудитска ▁арабия , ▁уби вайки ▁0 ▁души ▁и ▁ра нява йки ▁над ▁00, ▁преди ▁да ▁бъдат ▁за стре ляни ▁от ▁с
50000 ▁от ▁ци тона ма зката ▁може ▁да ▁се ▁предположи , ▁макар ▁и ▁с ▁голяма ▁вероятност , ▁наличието ▁на ▁неопла стичен ▁процес ▁– ▁т . е . ▁тя ▁е ▁само ▁ориенти ровъ чен ▁метод . ▁когато ▁от
▁най - про стото ▁лечение ▁би ▁се ▁състояло ▁в ▁това , ▁човек ▁да ▁избягва ▁алер гените . ▁за ▁съжаление ▁този ▁метод ▁е ▁практически ▁нео съще стви м , ▁защото ▁човек ▁не ▁може ▁да ▁и
▁* ▁0 ▁декември ▁– ▁терористи ▁нападат ▁американското ▁посолство ▁в ▁дже да , ▁саудитска ▁арабия , ▁убивайки ▁0 ▁души ▁и ▁ранява йки ▁над ▁00, ▁преди ▁да ▁бъдат ▁застре ляни ▁от ▁с
100000 ▁от ▁ци тона ма зката ▁може ▁да ▁се ▁предположи , ▁макар ▁и ▁с ▁голяма ▁вероятност , ▁наличието ▁на ▁неопла стичен ▁процес ▁– ▁т . е . ▁тя ▁е ▁само ▁ориенти ровъчен ▁метод . ▁когато ▁от
▁най - про стото ▁лечение ▁би ▁се ▁състояло ▁в ▁това , ▁човек ▁да ▁избягва ▁алер гените . ▁за ▁съжаление ▁този ▁метод ▁е ▁практически ▁неосъще стви м , ▁защото ▁човек ▁не ▁може ▁да ▁и
▁* ▁0 ▁декември ▁– ▁терористи ▁нападат ▁американското ▁посолство ▁в ▁джеда , ▁саудитска ▁арабия , ▁убивайки ▁0 ▁души ▁и ▁ранява йки ▁над ▁00, ▁преди ▁да ▁бъдат ▁застреляни ▁от ▁с