Silesian (szl) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeszlwiki sample
original passy – gmin we francyji, we regijůńe burgůndyjo, we departamyńće saône-et-loire. mo 0,00 km² wjyrchu a podug danych ze 0000 roku půmjyszkiwało sam 00
colturano – gmin we italiji, we regijůńe lombardyjo, we prowincyji milano. mo 0,00 km² wjyrchu a podug danych ze 0000 roku půmjyszkiwało sam 0000 ludź
plik:brynica rzeka piekary slaskie brzozowice-kamien.jpg|thumb|left|000px|brynica – kraj miēndzy tajlōm gōrnygo ślōnska a tajlōm małopolski, drzewij g
1000 ▁p as sy ▁– ▁gmin ▁we ▁francyji , ▁we ▁regijůńe ▁b ur g ůnd yjo , ▁we ▁departamyńće ▁sa ô ne - et - lo i re . ▁mo ▁0,00 ▁km 2 ▁wjyrchu ▁a ▁podug ▁danych ▁ze ▁0000 ▁roku ▁půmjyszkiwało ▁sam ▁00
▁c ol t ur ano ▁– ▁gmin ▁we ▁i ta li ji , ▁we ▁regijůńe ▁lo m b ard yjo , ▁we ▁prow in cyji ▁m il ano . ▁mo ▁0,00 ▁km 2 ▁wjyrchu ▁a ▁podug ▁danych ▁ze ▁0000 ▁roku ▁půmjyszkiwało ▁sam ▁0000 ▁ludź
▁plik : b r yn i ca ▁r ze ka ▁pi ek ary ▁s la ski e ▁b rz oz owi ce - ka mi en . jpg | th umb | le f t | 000 px | b r yn i ca ▁– ▁kra j ▁mi ē n d zy ▁taj l ōm ▁g ō r nygo ▁ś l ōn ska ▁a ▁taj l ōm ▁ma ło pol ski , ▁d rze wi j ▁g
3000 ▁pas sy ▁– ▁gmin ▁we ▁francyji , ▁we ▁regijůńe ▁bur g ůnd yjo , ▁we ▁departamyńće ▁sa ône - et - lo ire . ▁mo ▁0,00 ▁km 2 ▁wjyrchu ▁a ▁podug ▁danych ▁ze ▁0000 ▁roku ▁půmjyszkiwało ▁sam ▁00
▁col tur ano ▁– ▁gmin ▁we ▁italiji , ▁we ▁regijůńe ▁lo m b ard yjo , ▁we ▁prowincyji ▁mil ano . ▁mo ▁0,00 ▁km 2 ▁wjyrchu ▁a ▁podug ▁danych ▁ze ▁0000 ▁roku ▁půmjyszkiwało ▁sam ▁0000 ▁ludź
▁plik : b ryn i ca ▁rze ka ▁pi ek ary ▁s la skie ▁b rz oz owice - ka mi en . jpg | thumb | le ft |000 px | b ryn i ca ▁– ▁kraj ▁mi ē nd zy ▁tajl ōm ▁g ōr nygo ▁ślōn ska ▁a ▁tajl ōm ▁ma ło polski , ▁d rze wi j ▁g
5000 ▁pas sy ▁– ▁gmin ▁we ▁francyji , ▁we ▁regijůńe ▁burg ůnd yjo , ▁we ▁departamyńće ▁sa ône - et - lo ire . ▁mo ▁0,00 ▁km 2 ▁wjyrchu ▁a ▁podug ▁danych ▁ze ▁0000 ▁roku ▁půmjyszkiwało ▁sam ▁00
▁col tur ano ▁– ▁gmin ▁we ▁italiji , ▁we ▁regijůńe ▁lo mb ardyjo , ▁we ▁prowincyji ▁mil ano . ▁mo ▁0,00 ▁km 2 ▁wjyrchu ▁a ▁podug ▁danych ▁ze ▁0000 ▁roku ▁půmjyszkiwało ▁sam ▁0000 ▁ludź
▁plik : b ryn ica ▁rze ka ▁pi ek ary ▁s la skie ▁b rz oz owice - ka mi en . jpg | thumb | left |000 px | b ryn ica ▁– ▁kraj ▁mi ē nd zy ▁tajl ōm ▁g ōr nygo ▁ślōn ska ▁a ▁tajl ōm ▁mało polski , ▁drze wi j ▁g
10000 ▁pas sy ▁– ▁gmin ▁we ▁francyji , ▁we ▁regijůńe ▁burgůndyjo , ▁we ▁departamyńće ▁sa ône - et - loire . ▁mo ▁0,00 ▁km 2 ▁wjyrchu ▁a ▁podug ▁danych ▁ze ▁0000 ▁roku ▁půmjyszkiwało ▁sam ▁00
▁col tur ano ▁– ▁gmin ▁we ▁italiji , ▁we ▁regijůńe ▁lo mb ardyjo , ▁we ▁prowincyji ▁mil ano . ▁mo ▁0,00 ▁km 2 ▁wjyrchu ▁a ▁podug ▁danych ▁ze ▁0000 ▁roku ▁půmjyszkiwało ▁sam ▁0000 ▁ludź
▁plik : b ryn ica ▁rze ka ▁pi ek ary ▁sla skie ▁brz oz owice - kami en . jpg | thumb | left |000 px | b ryn ica ▁– ▁kraj ▁mi ē nd zy ▁tajl ōm ▁gōr nygo ▁ślōnska ▁a ▁tajl ōm ▁mało polski , ▁drze wi j ▁g
25000 ▁passy ▁– ▁gmin ▁we ▁francyji , ▁we ▁regijůńe ▁burgůndyjo , ▁we ▁departamyńće ▁saône - et - loire . ▁mo ▁0,00 ▁km 2 ▁wjyrchu ▁a ▁podug ▁danych ▁ze ▁0000 ▁roku ▁půmjyszkiwało ▁sam ▁00
▁col tur ano ▁– ▁gmin ▁we ▁italiji , ▁we ▁regijůńe ▁lo mb ardyjo , ▁we ▁prowincyji ▁milano . ▁mo ▁0,00 ▁km 2 ▁wjyrchu ▁a ▁podug ▁danych ▁ze ▁0000 ▁roku ▁půmjyszkiwało ▁sam ▁0000 ▁ludź
▁plik : b ryn ica ▁rzeka ▁piek ary ▁sla skie ▁brzoz owice - kami en . jpg | thumb | left |000 px | b ryn ica ▁– ▁kraj ▁mi ē nd zy ▁tajlōm ▁gōr nygo ▁ślōnska ▁a ▁tajlōm ▁małopolski , ▁drze wij ▁g