Belarusian (be) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizebewiki sample
original * ''дашков с. б., «императоры византии» м. 0000'' * ''рыжов к. в., «все монархи мира. древняя греция. древний рим. византия» м. 0000''
прывакзальная плошча ў кастрычніцкім раёне мінска спецыялізацыя раёна — транспарт. тут размешчаны прадпрыемствы мінскага аддзялення беларускай чыгункі
катэгорыя:футбалісты аргенціны катэгорыя:ігракі зборнай аргенціны па футболе катэгорыя:ігракі фк рывер плэйт катэгорыя:ігракі фк велес сарсфілд катэго
1000 ▁* ▁'' да ш ко в ▁с . ▁б ., ▁« и м пера то ры ▁в и за н т и и » ▁м . ▁0000 '' ▁* ▁'' ры жо в ▁к . ▁в ., ▁« в се ▁мо нар х и ▁м и ра . ▁д р е в ня я ▁г р е ц и я . ▁д р е в ни й ▁р и м . ▁в и за н т и я » ▁м . ▁0000 ''
▁пры ва к за льная ▁пло шча ▁ў ▁ка стры ч ні цкі м ▁раёне ▁мін ска ▁с пе цыя лі за цыя ▁раёна ▁— ▁тра н спа р т . ▁ту т ▁размешча ны ▁прад пры ем ст вы ▁мі нскага ▁ад дзя лення ▁беларускай ▁чы гу нкі
▁катэгорыя : ф ут ба лі сты ▁ар г ен ці ны ▁катэгорыя : і гра кі ▁з бор най ▁ар г ен ці ны ▁па ▁ф ут бо ле ▁катэгорыя : і гра кі ▁ф к ▁ры вер ▁п л эй т ▁катэгорыя : і гра кі ▁ф к ▁ве ле с ▁са р с фі л д ▁катэго
3000 ▁* ▁'' да ш ко в ▁с . ▁б ., ▁« и м пера то ры ▁в и за нт ии » ▁м . ▁0000 '' ▁* ▁'' ры жо в ▁к . ▁в ., ▁« в се ▁мо нар х и ▁ми ра . ▁д ре в няя ▁г ре ц ия . ▁д ре в ни й ▁р и м . ▁в и за нт ия » ▁м . ▁0000 ''
▁прыва к за льная ▁плошча ▁ў ▁кастрыч ні цкім ▁раёне ▁мін ска ▁спецыя ліза цыя ▁раёна ▁— ▁тран спа рт . ▁тут ▁размешчаны ▁прадпрыем ствы ▁мі нскага ▁аддзя лення ▁беларускай ▁чыгу нкі
▁катэгорыя : ф ут ба лісты ▁ар ген ці ны ▁катэгорыя : ігракі ▁зборнай ▁ар ген ці ны ▁па ▁футбо ле ▁катэгорыя : ігракі ▁фк ▁ры вер ▁п л эй т ▁катэгорыя : ігракі ▁фк ▁ве ле с ▁са р с фі л д ▁катэго
5000 ▁* ▁'' да шко в ▁с . ▁б ., ▁« и м пера то ры ▁в и за нт ии » ▁м . ▁0000 '' ▁* ▁'' ры жо в ▁к . ▁в ., ▁« в се ▁мо нар х и ▁ми ра . ▁д ре в няя ▁г ре ц ия . ▁д ре в ни й ▁р и м . ▁в и за нт ия » ▁м . ▁0000 ''
▁прыва к за льная ▁плошча ▁ў ▁кастрыч ні цкім ▁раёне ▁мінска ▁спецыя ліза цыя ▁раёна ▁— ▁транспарт . ▁тут ▁размешчаны ▁прадпрыем ствы ▁мінскага ▁аддзялення ▁беларускай ▁чыгункі
▁катэгорыя : футбалісты ▁арген ціны ▁катэгорыя : ігракі ▁зборнай ▁арген ціны ▁па ▁футболе ▁катэгорыя : ігракі ▁фк ▁ры вер ▁п л эй т ▁катэгорыя : ігракі ▁фк ▁ве ле с ▁сар с фі л д ▁катэго
10000 ▁* ▁'' да шко в ▁с . ▁б ., ▁« и м пера торы ▁ви за нт ии » ▁м . ▁0000 '' ▁* ▁'' ры жо в ▁к . ▁в ., ▁« в се ▁мо нар хи ▁ми ра . ▁древ няя ▁г ре ция . ▁древ ний ▁р и м . ▁ви за нт ия » ▁м . ▁0000 ''
▁прыва к за льная ▁плошча ▁ў ▁кастрыч ні цкім ▁раёне ▁мінска ▁спецыя лізацыя ▁раёна ▁— ▁транспарт . ▁тут ▁размешчаны ▁прадпрыемствы ▁мінскага ▁аддзялення ▁беларускай ▁чыгункі
▁катэгорыя : футбалісты ▁аргенціны ▁катэгорыя : ігракі ▁зборнай ▁аргенціны ▁па ▁футболе ▁катэгорыя : ігракі ▁фк ▁ры вер ▁п л эй т ▁катэгорыя : ігракі ▁фк ▁ве лес ▁сар с фі лд ▁катэго
25000 ▁* ▁'' да шко в ▁с . ▁б ., ▁« им пера торы ▁ви за нт ии » ▁м . ▁0000'' ▁* ▁'' ры жо в ▁к . ▁в ., ▁« в се ▁мо нар хи ▁ми ра . ▁древ няя ▁г ре ция . ▁древ ний ▁р им . ▁ви за нт ия » ▁м . ▁0000''
▁прыва к за льная ▁плошча ▁ў ▁кастрыч ніцкім ▁раёне ▁мінска ▁спецыя лізацыя ▁раёна ▁— ▁транспарт . ▁тут ▁размешчаны ▁прадпрыемствы ▁мінскага ▁аддзялення ▁беларускай ▁чыгункі
▁катэгорыя : футбалісты ▁аргенціны ▁катэгорыя : ігракі ▁зборнай ▁аргенціны ▁па ▁футболе ▁катэгорыя : ігракі ▁фк ▁ры вер ▁плэй т ▁катэгорыя : ігракі ▁фк ▁ве лес ▁сар с філд ▁катэго
50000 ▁* ▁'' да шко в ▁с . ▁б ., ▁« им пера торы ▁визант ии » ▁м . ▁0000'' ▁* ▁'' ры жо в ▁к . ▁в ., ▁« все ▁мо нар хи ▁мира . ▁древ няя ▁гре ция . ▁древ ний ▁рим . ▁визант ия » ▁м . ▁0000''
▁прыва кза льная ▁плошча ▁ў ▁кастрыч ніцкім ▁раёне ▁мінска ▁спецыя лізацыя ▁раёна ▁— ▁транспарт . ▁тут ▁размешчаны ▁прадпрыемствы ▁мінскага ▁аддзялення ▁беларускай ▁чыгункі
▁катэгорыя : футбалісты ▁аргенціны ▁катэгорыя : ігракі ▁зборнай ▁аргенціны ▁па ▁футболе ▁катэгорыя : ігракі ▁фк ▁рывер ▁плэй т ▁катэгорыя : ігракі ▁фк ▁ве лес ▁сар с філд ▁катэго
100000 ▁* ▁'' да шков ▁с . ▁б ., ▁« им пера торы ▁визант ии » ▁м . ▁0000'' ▁* ▁'' ры жо в ▁к . ▁в ., ▁« все ▁монар хи ▁мира . ▁древняя ▁гре ция . ▁древний ▁рим . ▁визант ия » ▁м . ▁0000''
▁прывакза льная ▁плошча ▁ў ▁кастрычніцкім ▁раёне ▁мінска ▁спецыялізацыя ▁раёна ▁— ▁транспарт . ▁тут ▁размешчаны ▁прадпрыемствы ▁мінскага ▁аддзялення ▁беларускай ▁чыгункі
▁катэгорыя : футбалісты ▁аргенціны ▁катэгорыя : ігракі ▁зборнай ▁аргенціны ▁па ▁футболе ▁катэгорыя : ігракі ▁фк ▁рывер ▁плэйт ▁катэгорыя : ігракі ▁фк ▁ве лес ▁сар сфілд ▁катэго