Lower Sorbian (dsb) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizedsbwiki sample
original wenedyk jomiemiejmi tycieciejci iłłułuli łałąlejlej łułułuli nunosznosznów wuwoszwoszwów liłoszłórlew lełaszłarlew lelełórlew
* spohn, aichele, golte-bechtle, spohn: was blüht denn da? kosmos naturführer (0000), isbn 000-0-000-00000-0, bok 000, z wědomnostnym mjenim ''frangul
- 0 000 000 wobydlarjow * brasilia - 0 000 000 wobydlarjow * fortaleza - 0 000 000 wobydlarjow * belo horizonte - 0 000 000 wobydlarjow * curitiba - 0
1000 ▁we ne dy k ▁jo mi e mi ej mi ▁ty ci e ci ej ci ▁i ł łu łu li ▁ ła ł ą le j le j ▁łu łu łu li ▁n u no sz no sz n ów ▁wu wo sz wo sz wó w ▁li ło sz ł ó r le w ▁le ła sz ł ar le w ▁le le ł ó r le w
▁* ▁s po hn , ▁a i che le , ▁g ol te - be ch t le , ▁s po hn : ▁w as ▁b l ü ht ▁d en n ▁da ? ▁ko s mo s ▁na tur f ü hr er ▁(0000 ), ▁isbn ▁000-0 -000 -00000 -0, ▁bo k ▁000 , ▁z ▁w ěd om no st nym ▁mje nim ▁'' f ran gu l
▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁bra si li a ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁for ta le za ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁b el o ▁h ori z on te ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁c u ri ti ba ▁- ▁0
3000 ▁we ne dy k ▁jo mie mi ej mi ▁ty cie ci ej ci ▁i ł łu łu li ▁ła ł ą lej lej ▁łu łu łu li ▁nu no sz no sz n ów ▁wu wo sz wo sz wó w ▁li ło sz ł ó r le w ▁le ła sz ł ar le w ▁le le ł ó r le w
▁* ▁spohn , ▁aichele , ▁golte - bechtle , ▁spohn : ▁was ▁blüht ▁denn ▁da ? ▁kosmos ▁naturführer ▁(0000), ▁isbn ▁000-0 -000-00000-0, ▁bok ▁000, ▁z ▁wědomnost nym ▁mjenim ▁'' fran gu l
▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁bra si lia ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁for ta le za ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁bel o ▁h ori z on te ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁cu ri ti ba ▁- ▁0
5000 ▁we ne dy k ▁jo mie mi ej mi ▁ty cie ci ej ci ▁i ł łu łu li ▁ła ł ą lej lej ▁łu łu łu li ▁nu no sz no sz n ów ▁wu wo sz wo sz wó w ▁li ło sz ł ór lew ▁le ła sz ł ar lew ▁le le ł ór lew
▁* ▁spohn , ▁aichele , ▁golte - bechtle , ▁spohn : ▁was ▁blüht ▁denn ▁da ? ▁kosmos ▁naturführer ▁(0000), ▁isbn ▁000-0 -000-00000-0, ▁bok ▁000, ▁z ▁wědomnost nym ▁mjenim ▁'' fran gu l
▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁bra si lia ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁for ta le za ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁bel o ▁h ori z on te ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁cu ri ti ba ▁- ▁0
10000 ▁wene dy k ▁jo mie mi ej mi ▁ty cie ci ej ci ▁i ł łu łu li ▁ła ł ą lej lej ▁łu łu łu li ▁nu no sz no sz nów ▁wu wo sz wo sz wó w ▁li ło sz ł ór lew ▁le ła sz ł ar lew ▁le le ł ór lew
▁* ▁spohn , ▁aichele , ▁golte - bechtle , ▁spohn : ▁was ▁blüht ▁denn ▁da ? ▁kosmos ▁naturführer ▁(0000), ▁isbn ▁000-0 -000-00000-0, ▁bok ▁000, ▁z ▁wědomnostnym ▁mjenim ▁'' fran gu l
▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁bra si lia ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁for ta le za ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁bel o ▁hori zon te ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁cu ri ti ba ▁- ▁0
25000 ▁wenedyk ▁jo mie miej mi ▁ty cie ciej ci ▁i ł łu łu li ▁ła łą lej lej ▁łu łu łu li ▁nu no sz no sz nów ▁wu wosz wosz wów ▁li ło sz ł ór lew ▁le ła sz łar lew ▁le le ł ór lew
▁* ▁spohn , ▁aichele , ▁golte - bechtle , ▁spohn : ▁was ▁blüht ▁denn ▁da ? ▁kosmos ▁naturführer ▁(0000), ▁isbn ▁000-0 -000-00000-0, ▁bok ▁000, ▁z ▁wědomnostnym ▁mjenim ▁'' fran gul
▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁bra si lia ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁for ta leza ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁bel o ▁hori zon te ▁- ▁0 ▁000 ▁000 ▁wobydlarjow ▁* ▁curi tiba ▁- ▁0