Vlaams (vls) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizevlswiki sample
original woapnschild van filips den goein (achter 0000) zyn ofoudienge wa e vrêe schone bedoeninge, want j'ad vele soutjes. vloandern was in dien tyd toch êen
't ope me z'n broers wili en we aat y den oerreus ymir versleegn en mè zyn lichaam en z'n bloed en ze midgard, de weireld van de menschn gemakt.
tusschn 0000 en 0000 reist ’n oek deur spanje, vrankryk, iengeland en de noordelikke nederlandn op diplomatieke missies vo de spoansche habsburgers vo
1000 ▁woa pn sch il d ▁van ▁filips ▁den ▁goe in ▁( a chter ▁0000) ▁zyn ▁of ou d ienge ▁wa ▁e ▁v rêe ▁sch one ▁be d oen inge , ▁w ant ▁j ' ad ▁vele ▁s out jes . ▁vloandern ▁was ▁in ▁dien ▁tyd ▁to ch ▁êen
▁' t ▁o pe ▁me ▁z ' n ▁bro ers ▁wil i ▁en ▁we ▁a at ▁y ▁den ▁o er re us ▁y m ir ▁ver s le egn ▁en ▁mè ▁zyn ▁l ich a am ▁en ▁z ' n ▁bl oed ▁en ▁ze ▁mid g ard , ▁de ▁weireld ▁van ▁de ▁men schn ▁ge makt .
▁tusschn ▁0000 ▁en ▁0000 ▁re ist ▁’ n ▁oek ▁deur ▁sp an je , ▁vrankryk , ▁ien ge land ▁en ▁de ▁n oor delik ke ▁nederland n ▁op ▁d ip l om at ieke ▁m iss ies ▁vo ▁de ▁sp oansche ▁h ab s burg ers ▁vo
3000 ▁woapn sch ild ▁van ▁filips ▁den ▁goein ▁( achter ▁0000) ▁zyn ▁of oud ienge ▁wa ▁e ▁vrêe ▁sch one ▁bed oen inge , ▁want ▁j ' ad ▁vele ▁s out jes . ▁vloandern ▁was ▁in ▁dien ▁tyd ▁toch ▁êen
▁' t ▁o pe ▁me ▁z ' n ▁bro ers ▁wil i ▁en ▁we ▁a at ▁y ▁den ▁o er re us ▁y m ir ▁vers le egn ▁en ▁mè ▁zyn ▁l ich aam ▁en ▁z ' n ▁bloed ▁en ▁ze ▁mid g ard , ▁de ▁weireld ▁van ▁de ▁menschn ▁gemakt .
▁tusschn ▁0000 ▁en ▁0000 ▁re ist ▁’ n ▁oek ▁deur ▁spanje , ▁vrankryk , ▁iengeland ▁en ▁de ▁noor delikke ▁nederlandn ▁op ▁d ip lom at ieke ▁m iss ies ▁vo ▁de ▁spoansche ▁habsburg ers ▁vo
5000 ▁woapn sch ild ▁van ▁filips ▁den ▁goein ▁( achter ▁0000) ▁zyn ▁of oud ienge ▁wa ▁e ▁vrêe ▁sch one ▁bed oen inge , ▁want ▁j ' ad ▁vele ▁s out jes . ▁vloandern ▁was ▁in ▁dien ▁tyd ▁toch ▁êen
▁' t ▁o pe ▁me ▁z ' n ▁broers ▁wil i ▁en ▁we ▁a at ▁y ▁den ▁o er re us ▁y m ir ▁vers leegn ▁en ▁mè ▁zyn ▁lich aam ▁en ▁z ' n ▁bloed ▁en ▁ze ▁mid g ard , ▁de ▁weireld ▁van ▁de ▁menschn ▁gemakt .
▁tusschn ▁0000 ▁en ▁0000 ▁re ist ▁’ n ▁oek ▁deur ▁spanje , ▁vrankryk , ▁iengeland ▁en ▁de ▁noor delikke ▁nederlandn ▁op ▁d ip lom at ieke ▁miss ies ▁vo ▁de ▁spoansche ▁habsburg ers ▁vo
10000 ▁woapnschild ▁van ▁filips ▁den ▁goein ▁( achter ▁0000) ▁zyn ▁of oudienge ▁wa ▁e ▁vrêe ▁schone ▁bed oen inge , ▁want ▁j ' ad ▁vele ▁s out jes . ▁vloandern ▁was ▁in ▁dien ▁tyd ▁toch ▁êen
▁' t ▁o pe ▁me ▁z ' n ▁broers ▁wil i ▁en ▁we ▁aat ▁y ▁den ▁oer re us ▁y mir ▁versleegn ▁en ▁mè ▁zyn ▁lich aam ▁en ▁z ' n ▁bloed ▁en ▁ze ▁mid gard , ▁de ▁weireld ▁van ▁de ▁menschn ▁gemakt .
▁tusschn ▁0000 ▁en ▁0000 ▁re ist ▁’ n ▁oek ▁deur ▁spanje , ▁vrankryk , ▁iengeland ▁en ▁de ▁noordelikke ▁nederlandn ▁op ▁diplom at ieke ▁miss ies ▁vo ▁de ▁spoansche ▁habsburgers ▁vo
25000 ▁woapnschild ▁van ▁filips ▁den ▁goein ▁( achter ▁0000) ▁zyn ▁of oudienge ▁wa ▁e ▁vrêe ▁schone ▁bed oen inge , ▁want ▁j ' ad ▁vele ▁s out jes . ▁vloandern ▁was ▁in ▁dien ▁tyd ▁toch ▁êen
▁' t ▁ope ▁me ▁z ' n ▁broers ▁wil i ▁en ▁we ▁aat ▁y ▁den ▁oer reus ▁y mir ▁versleegn ▁en ▁mè ▁zyn ▁lichaam ▁en ▁z ' n ▁bloed ▁en ▁ze ▁mid gard , ▁de ▁weireld ▁van ▁de ▁menschn ▁gemakt .
▁tusschn ▁0000 ▁en ▁0000 ▁re ist ▁’ n ▁oek ▁deur ▁spanje , ▁vrankryk , ▁iengeland ▁en ▁de ▁noordelikke ▁nederlandn ▁op ▁diplomatieke ▁miss ies ▁vo ▁de ▁spoansche ▁habsburgers ▁vo
50000 ▁woapnschild ▁van ▁filips ▁den ▁goein ▁( achter ▁0000) ▁zyn ▁of oudienge ▁wa ▁e ▁vrêe ▁schone ▁bed oen inge , ▁want ▁j ' ad ▁vele ▁sout jes . ▁vloandern ▁was ▁in ▁dien ▁tyd ▁toch ▁êen
▁' t ▁ope ▁me ▁z ' n ▁broers ▁wil i ▁en ▁we ▁aat ▁y ▁den ▁oer reus ▁y mir ▁versleegn ▁en ▁mè ▁zyn ▁lichaam ▁en ▁z ' n ▁bloed ▁en ▁ze ▁midgard , ▁de ▁weireld ▁van ▁de ▁menschn ▁gemakt .
▁tusschn ▁0000 ▁en ▁0000 ▁reist ▁’ n ▁oek ▁deur ▁spanje , ▁vrankryk , ▁iengeland ▁en ▁de ▁noordelikke ▁nederlandn ▁op ▁diplomatieke ▁missies ▁vo ▁de ▁spoansche ▁habsburgers ▁vo