Western Frisian (fy) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizefywiki sample
original * it folksliet fan nederlân, ''het wilhelmus'', is it âldste folksliet fan de wrâld. it waard skreaun tusken 0000 en 0000. * ''god save the queen'', i
karl marx skreau ûnder oaren: * ''communist manifesto'' (0000) (''kommunistysk manifest''), tegearre mei friedrich engels. * ''das kapital'' (0000) ('
lemsterlân is yn 'e 00e iuw ûntstean as de lemster fiifgea. de gritenij lemsterlân waard yn 0000 in gemeente nei de ynfiering yn nederlân fan de gemee
1000 ▁* ▁it ▁fol ks l iet ▁fan ▁nederlân , ▁'' h et ▁w il h el m us '', ▁is ▁it ▁ âld ste ▁fol ks l iet ▁fan ▁de ▁wrâld . ▁it ▁waard ▁skre aun ▁tusken ▁0000 ▁en ▁0000. ▁* ▁'' g od ▁sa ve ▁the ▁ qu e en '', ▁i
▁kar l ▁mar x ▁skre au ▁ûnder ▁oar en : ▁* ▁'' c om m un ist ▁man if est o '' ▁(0000) ▁('' kom m un ist ysk ▁man if est '' ), ▁te ge arre ▁mei ▁fr ied ri ch ▁en gel s . ▁* ▁'' d as ▁k ap it al '' ▁(0000) ▁( '
▁le m ster lân ▁is ▁yn ▁' e ▁00 e ▁iuw ▁ûn tste an ▁as ▁de ▁le m ster ▁f i if ge a . ▁de ▁gri ten ij ▁le m ster lân ▁waard ▁yn ▁0000 ▁in ▁gemeente ▁nei ▁de ▁yn fier ing ▁yn ▁nederlân ▁fan ▁de ▁ge me e
3000 ▁* ▁it ▁folks l iet ▁fan ▁nederlân , ▁'' het ▁wil hel mus '', ▁is ▁it ▁âldste ▁folks l iet ▁fan ▁de ▁wrâld . ▁it ▁waard ▁skreaun ▁tusken ▁0000 ▁en ▁0000. ▁* ▁'' g od ▁sa ve ▁the ▁qu een '', ▁i
▁kar l ▁mar x ▁skreau ▁ûnder ▁oaren : ▁* ▁'' com m un ist ▁man if est o '' ▁(0000) ▁('' kom m un ist ysk ▁man if est ''), ▁tegearre ▁mei ▁fr ied rich ▁en gels . ▁* ▁'' d as ▁kap it al '' ▁(0000) ▁( '
▁le m ster lân ▁is ▁yn ▁' e ▁00 e ▁iuw ▁ûn tste an ▁as ▁de ▁le m ster ▁fiif gea . ▁de ▁gri ten ij ▁le m ster lân ▁waard ▁yn ▁0000 ▁in ▁gemeente ▁nei ▁de ▁yn fier ing ▁yn ▁nederlân ▁fan ▁de ▁ge me e
5000 ▁* ▁it ▁folks liet ▁fan ▁nederlân , ▁'' het ▁wilhel mus '', ▁is ▁it ▁âldste ▁folks liet ▁fan ▁de ▁wrâld . ▁it ▁waard ▁skreaun ▁tusken ▁0000 ▁en ▁0000. ▁* ▁'' g od ▁sa ve ▁the ▁qu een '', ▁i
▁kar l ▁mar x ▁skreau ▁ûnder ▁oaren : ▁* ▁'' com m un ist ▁man if est o '' ▁(0000) ▁('' kom m un ist ysk ▁man if est ''), ▁tegearre ▁mei ▁fr ied rich ▁en gels . ▁* ▁'' d as ▁kap it al '' ▁(0000) ▁('
▁lem sterlân ▁is ▁yn ▁' e ▁00 e ▁iuw ▁ûntstean ▁as ▁de ▁lem ster ▁fiif gea . ▁de ▁gri ten ij ▁lem sterlân ▁waard ▁yn ▁0000 ▁in ▁gemeente ▁nei ▁de ▁yn fier ing ▁yn ▁nederlân ▁fan ▁de ▁ge me e
10000 ▁* ▁it ▁folks liet ▁fan ▁nederlân , ▁'' het ▁wilhel mus '', ▁is ▁it ▁âldste ▁folks liet ▁fan ▁de ▁wrâld . ▁it ▁waard ▁skreaun ▁tusken ▁0000 ▁en ▁0000. ▁* ▁'' god ▁sa ve ▁the ▁qu een '', ▁i
▁karl ▁mar x ▁skreau ▁ûnder ▁oaren : ▁* ▁'' com mun ist ▁man if est o '' ▁(0000) ▁('' kom mun istysk ▁man if est ''), ▁tegearre ▁mei ▁friedrich ▁en gels . ▁* ▁'' das ▁kap ital '' ▁(0000) ▁('
▁lem sterlân ▁is ▁yn ▁' e ▁00 e ▁iuw ▁ûntstean ▁as ▁de ▁lem ster ▁fiif gea . ▁de ▁gritenij ▁lem sterlân ▁waard ▁yn ▁0000 ▁in ▁gemeente ▁nei ▁de ▁ynfiering ▁yn ▁nederlân ▁fan ▁de ▁ge me e
25000 ▁* ▁it ▁folksliet ▁fan ▁nederlân , ▁'' het ▁wilhelmus '', ▁is ▁it ▁âldste ▁folksliet ▁fan ▁de ▁wrâld . ▁it ▁waard ▁skreaun ▁tusken ▁0000 ▁en ▁0000. ▁* ▁'' god ▁sa ve ▁the ▁queen '', ▁i
▁karl ▁marx ▁skreau ▁ûnder ▁oaren : ▁* ▁'' com mun ist ▁manifest o '' ▁(0000) ▁('' kommun istysk ▁manifest ''), ▁tegearre ▁mei ▁friedrich ▁engels . ▁* ▁'' das ▁kap ital '' ▁(0000) ▁('
▁lemsterlân ▁is ▁yn ▁' e ▁00 e ▁iuw ▁ûntstean ▁as ▁de ▁lemster ▁fiif gea . ▁de ▁gritenij ▁lemsterlân ▁waard ▁yn ▁0000 ▁in ▁gemeente ▁nei ▁de ▁ynfiering ▁yn ▁nederlân ▁fan ▁de ▁ge mee
50000 ▁* ▁it ▁folksliet ▁fan ▁nederlân , ▁'' het ▁wilhelmus '', ▁is ▁it ▁âldste ▁folksliet ▁fan ▁de ▁wrâld . ▁it ▁waard ▁skreaun ▁tusken ▁0000 ▁en ▁0000. ▁* ▁'' god ▁sa ve ▁the ▁queen '', ▁i
▁karl ▁marx ▁skreau ▁ûnder ▁oaren : ▁* ▁'' commun ist ▁manifest o '' ▁(0000) ▁('' kommun istysk ▁manifest ''), ▁tegearre ▁mei ▁friedrich ▁engels . ▁* ▁'' das ▁kap ital '' ▁(0000) ▁('
▁lemsterlân ▁is ▁yn ▁' e ▁00 e ▁iuw ▁ûntstean ▁as ▁de ▁lemster ▁fiifgea . ▁de ▁gritenij ▁lemsterlân ▁waard ▁yn ▁0000 ▁in ▁gemeente ▁nei ▁de ▁ynfiering ▁yn ▁nederlân ▁fan ▁de ▁ge mee
100000 ▁* ▁it ▁folksliet ▁fan ▁nederlân , ▁'' het ▁wilhelmus '', ▁is ▁it ▁âldste ▁folksliet ▁fan ▁de ▁wrâld . ▁it ▁waard ▁skreaun ▁tusken ▁0000 ▁en ▁0000. ▁* ▁'' god ▁save ▁the ▁queen '', ▁i
▁karl ▁marx ▁skreau ▁ûnder ▁oaren : ▁* ▁'' commun ist ▁manifest o '' ▁(0000) ▁('' kommun istysk ▁manifest ''), ▁tegearre ▁mei ▁friedrich ▁engels . ▁* ▁'' das ▁kapital '' ▁(0000) ▁('
▁lemsterlân ▁is ▁yn ▁' e ▁00 e ▁iuw ▁ûntstean ▁as ▁de ▁lemster ▁fiifgea . ▁de ▁gritenij ▁lemsterlân ▁waard ▁yn ▁0000 ▁in ▁gemeente ▁nei ▁de ▁ynfiering ▁yn ▁nederlân ▁fan ▁de ▁ge mee