Danish (da) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizedawiki sample
original en brik kan ikke lande på en spids, hvor der står to eller flere af modstanderens brikker – spidsen siges da at være blokeret. en stor del af spillets
sangen er meget karakteristisk og varer 0-0 sekunder. sangen kan skrives som: '. den består af to afsnit, først en række på oftest 0-00 ens figurer og
''den danske folkekirkes mellemkirkelige råd'' blev i 0000 stiftet som en uofficiel organisation med københavns biskop som formand og de øvrige biskop
1000 ▁en ▁b rik ▁kan ▁ikke ▁lan de ▁på ▁en ▁sp i ds , ▁hvor ▁der ▁st år ▁to ▁eller ▁flere ▁af ▁mod stand er ens ▁b rik ker ▁– ▁sp id sen ▁sig es ▁da ▁at ▁være ▁bl o ker et . ▁en ▁stor ▁del ▁af ▁spil let s
▁sang en ▁er ▁meget ▁kar ak ter is tisk ▁og ▁var er ▁0 -0 ▁se k un der . ▁sang en ▁kan ▁sk ri v es ▁som : ▁ ' . ▁den ▁best år ▁af ▁to ▁af s n it , ▁før st ▁en ▁række ▁på ▁ofte st ▁0 -00 ▁en s ▁f ig ur er ▁og
▁'' den ▁danske ▁fol ke k ir k es ▁mellem k ir kel ige ▁r å d '' ▁blev ▁i ▁0000 ▁s ti ft et ▁som ▁en ▁u o ff ic i el ▁ organ is ation ▁med ▁københavn s ▁b isk op ▁som ▁form and ▁og ▁de ▁ø v rig e ▁b isk op
3000 ▁en ▁b rik ▁kan ▁ikke ▁lande ▁på ▁en ▁sp i ds , ▁hvor ▁der ▁står ▁to ▁eller ▁flere ▁af ▁modstand er ens ▁b rik ker ▁– ▁sp id sen ▁sig es ▁da ▁at ▁være ▁bl o ker et . ▁en ▁stor ▁del ▁af ▁spillet s
▁sangen ▁er ▁meget ▁karakter is tisk ▁og ▁var er ▁0-0 ▁sek under . ▁sangen ▁kan ▁skri ves ▁som : ▁' . ▁den ▁består ▁af ▁to ▁afsnit , ▁først ▁en ▁række ▁på ▁ofte st ▁0 -00 ▁en s ▁f igur er ▁og
▁'' den ▁danske ▁folke kir kes ▁mellem kir kel ige ▁råd '' ▁blev ▁i ▁0000 ▁sti ftet ▁som ▁en ▁u off ic iel ▁organis ation ▁med ▁københavns ▁b iskop ▁som ▁formand ▁og ▁de ▁øv rige ▁b iskop
5000 ▁en ▁b rik ▁kan ▁ikke ▁lande ▁på ▁en ▁sp ids , ▁hvor ▁der ▁står ▁to ▁eller ▁flere ▁af ▁modstand er ens ▁b rik ker ▁– ▁sp id sen ▁sig es ▁da ▁at ▁være ▁bl o ker et . ▁en ▁stor ▁del ▁af ▁spillet s
▁sangen ▁er ▁meget ▁karakter istisk ▁og ▁var er ▁0-0 ▁sek under . ▁sangen ▁kan ▁skri ves ▁som : ▁' . ▁den ▁består ▁af ▁to ▁afsnit , ▁først ▁en ▁række ▁på ▁oftest ▁0-00 ▁ens ▁figur er ▁og
▁'' den ▁danske ▁folke kir kes ▁mellem kir kelige ▁råd '' ▁blev ▁i ▁0000 ▁stiftet ▁som ▁en ▁u offic iel ▁organisation ▁med ▁københavns ▁biskop ▁som ▁formand ▁og ▁de ▁øvrige ▁biskop
10000 ▁en ▁b rik ▁kan ▁ikke ▁lande ▁på ▁en ▁spids , ▁hvor ▁der ▁står ▁to ▁eller ▁flere ▁af ▁modstander ens ▁b rik ker ▁– ▁spidsen ▁siges ▁da ▁at ▁være ▁blo ker et . ▁en ▁stor ▁del ▁af ▁spillet s
▁sangen ▁er ▁meget ▁karakter istisk ▁og ▁varer ▁0-0 ▁sekunder . ▁sangen ▁kan ▁skri ves ▁som : ▁' . ▁den ▁består ▁af ▁to ▁afsnit , ▁først ▁en ▁række ▁på ▁oftest ▁0-00 ▁ens ▁figurer ▁og
▁'' den ▁danske ▁folke kir kes ▁mellem kir kelige ▁råd '' ▁blev ▁i ▁0000 ▁stiftet ▁som ▁en ▁u offic iel ▁organisation ▁med ▁københavns ▁biskop ▁som ▁formand ▁og ▁de ▁øvrige ▁biskop
25000 ▁en ▁brik ▁kan ▁ikke ▁lande ▁på ▁en ▁spids , ▁hvor ▁der ▁står ▁to ▁eller ▁flere ▁af ▁modstander ens ▁brikker ▁– ▁spidsen ▁siges ▁da ▁at ▁være ▁blo keret . ▁en ▁stor ▁del ▁af ▁spillets
▁sangen ▁er ▁meget ▁karakteristisk ▁og ▁varer ▁0-0 ▁sekunder . ▁sangen ▁kan ▁skrives ▁som : ▁' . ▁den ▁består ▁af ▁to ▁afsnit , ▁først ▁en ▁række ▁på ▁oftest ▁0-00 ▁ens ▁figurer ▁og
▁'' den ▁danske ▁folke kir kes ▁mellem kir kelige ▁råd '' ▁blev ▁i ▁0000 ▁stiftet ▁som ▁en ▁u offic iel ▁organisation ▁med ▁københavns ▁biskop ▁som ▁formand ▁og ▁de ▁øvrige ▁biskop
50000 ▁en ▁brik ▁kan ▁ikke ▁lande ▁på ▁en ▁spids , ▁hvor ▁der ▁står ▁to ▁eller ▁flere ▁af ▁modstanderens ▁brikker ▁– ▁spidsen ▁siges ▁da ▁at ▁være ▁blokeret . ▁en ▁stor ▁del ▁af ▁spillets
▁sangen ▁er ▁meget ▁karakteristisk ▁og ▁varer ▁0-0 ▁sekunder . ▁sangen ▁kan ▁skrives ▁som : ▁' . ▁den ▁består ▁af ▁to ▁afsnit , ▁først ▁en ▁række ▁på ▁oftest ▁0-00 ▁ens ▁figurer ▁og
▁'' den ▁danske ▁folke kirkes ▁mellem kir kelige ▁råd '' ▁blev ▁i ▁0000 ▁stiftet ▁som ▁en ▁uofficiel ▁organisation ▁med ▁københavns ▁biskop ▁som ▁formand ▁og ▁de ▁øvrige ▁biskop
100000 ▁en ▁brik ▁kan ▁ikke ▁lande ▁på ▁en ▁spids , ▁hvor ▁der ▁står ▁to ▁eller ▁flere ▁af ▁modstanderens ▁brikker ▁– ▁spidsen ▁siges ▁da ▁at ▁være ▁blokeret . ▁en ▁stor ▁del ▁af ▁spillets
▁sangen ▁er ▁meget ▁karakteristisk ▁og ▁varer ▁0-0 ▁sekunder . ▁sangen ▁kan ▁skrives ▁som : ▁' . ▁den ▁består ▁af ▁to ▁afsnit , ▁først ▁en ▁række ▁på ▁oftest ▁0-00 ▁ens ▁figurer ▁og
▁'' den ▁danske ▁folke kirkes ▁mellem kirkelige ▁råd '' ▁blev ▁i ▁0000 ▁stiftet ▁som ▁en ▁uofficiel ▁organisation ▁med ▁københavns ▁biskop ▁som ▁formand ▁og ▁de ▁øvrige ▁biskop