Dutch (nl) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizenlwiki sample
original alle erfelijke eigenschappen worden samen, of ze nu wel of niet tot uiting komen, het genotype van een organisme genoemd. alle eigenschappen die samen
in de theoretische chemie tracht men met behulp van wiskunde of computersimulaties en -berekeningen de eigenschappen van afzonderlijke moleculen of ma
* ''a dog of flanders'' (0000): verfilming van de roman van ouida (''een hond van vlaanderen'') door kevin brodie. * ''als het mes valt in brugge'' (0
1000 ▁alle ▁er f elijke ▁eigen schapp en ▁worden ▁samen , ▁of ▁ze ▁n u ▁wel ▁of ▁niet ▁tot ▁uit ing ▁k omen , ▁het ▁gen ot yp e ▁van ▁een ▁or g anis me ▁gen oemd . ▁alle ▁eigen schapp en ▁die ▁samen
▁in ▁de ▁the or et ische ▁ch em ie ▁t racht ▁men ▁met ▁beh ul p ▁van ▁w is k un de ▁of ▁comp ut ers im ul aties ▁en ▁- ber e ken ingen ▁de ▁eigen schapp en ▁van ▁af z onder lijke ▁m ol ec ul en ▁of ▁ma
▁* ▁'' a ▁d og ▁of ▁f l an ders '' ▁(0000) : ▁ver f ilm ing ▁van ▁de ▁ro man ▁van ▁o uid a ▁('' een ▁h ond ▁van ▁v la ander en '') ▁door ▁ke vin ▁bro d ie . ▁* ▁'' als ▁het ▁m es ▁val t ▁in ▁b ru g ge '' ▁( 0
3000 ▁alle ▁erf elijke ▁eigen schappen ▁worden ▁samen , ▁of ▁ze ▁nu ▁wel ▁of ▁niet ▁tot ▁uit ing ▁komen , ▁het ▁gen ot yp e ▁van ▁een ▁organis me ▁genoemd . ▁alle ▁eigen schappen ▁die ▁samen
▁in ▁de ▁the or et ische ▁ch em ie ▁t racht ▁men ▁met ▁beh ulp ▁van ▁w is k unde ▁of ▁comp ut ers im ul aties ▁en ▁- ber e ken ingen ▁de ▁eigen schappen ▁van ▁af zonder lijke ▁mol ec ul en ▁of ▁ma
▁* ▁'' a ▁d og ▁of ▁fl an ders '' ▁(0000) : ▁ver film ing ▁van ▁de ▁roman ▁van ▁o uid a ▁('' een ▁h ond ▁van ▁vla anderen '') ▁door ▁ke vin ▁bro die . ▁* ▁'' als ▁het ▁m es ▁valt ▁in ▁brug ge '' ▁(0
5000 ▁alle ▁erf elijke ▁eigen schappen ▁worden ▁samen , ▁of ▁ze ▁nu ▁wel ▁of ▁niet ▁tot ▁uit ing ▁komen , ▁het ▁gen ot ype ▁van ▁een ▁organis me ▁genoemd . ▁alle ▁eigen schappen ▁die ▁samen
▁in ▁de ▁the or et ische ▁chem ie ▁t racht ▁men ▁met ▁behulp ▁van ▁wis kunde ▁of ▁comp uters im ul aties ▁en ▁- ber e ken ingen ▁de ▁eigen schappen ▁van ▁af zonder lijke ▁mol ec ulen ▁of ▁ma
▁* ▁'' a ▁d og ▁of ▁fl an ders '' ▁(0000) : ▁ver film ing ▁van ▁de ▁roman ▁van ▁o uid a ▁('' een ▁hond ▁van ▁vlaanderen '') ▁door ▁ke vin ▁bro die . ▁* ▁'' als ▁het ▁mes ▁valt ▁in ▁brugge '' ▁(0
10000 ▁alle ▁erf elijke ▁eigenschappen ▁worden ▁samen , ▁of ▁ze ▁nu ▁wel ▁of ▁niet ▁tot ▁uit ing ▁komen , ▁het ▁gen otype ▁van ▁een ▁organis me ▁genoemd . ▁alle ▁eigenschappen ▁die ▁samen
▁in ▁de ▁the or etische ▁chem ie ▁t racht ▁men ▁met ▁behulp ▁van ▁wiskunde ▁of ▁comp uters im ul aties ▁en ▁- ber e ken ingen ▁de ▁eigenschappen ▁van ▁afzonder lijke ▁molec ulen ▁of ▁ma
▁* ▁'' a ▁dog ▁of ▁fl an ders '' ▁(0000) : ▁ver film ing ▁van ▁de ▁roman ▁van ▁o uid a ▁('' een ▁hond ▁van ▁vlaanderen '') ▁door ▁kevin ▁bro die . ▁* ▁'' als ▁het ▁mes ▁valt ▁in ▁brugge '' ▁(0
25000 ▁alle ▁erfelijke ▁eigenschappen ▁worden ▁samen , ▁of ▁ze ▁nu ▁wel ▁of ▁niet ▁tot ▁uiting ▁komen , ▁het ▁gen otype ▁van ▁een ▁organisme ▁genoemd . ▁alle ▁eigenschappen ▁die ▁samen
▁in ▁de ▁theoretische ▁chemie ▁tracht ▁men ▁met ▁behulp ▁van ▁wiskunde ▁of ▁computers im ul aties ▁en ▁- bere ken ingen ▁de ▁eigenschappen ▁van ▁afzonderlijke ▁moleculen ▁of ▁ma
▁* ▁'' a ▁dog ▁of ▁fl anders '' ▁(0000): ▁verfilming ▁van ▁de ▁roman ▁van ▁o uid a ▁('' een ▁hond ▁van ▁vlaanderen '') ▁door ▁kevin ▁bro die . ▁* ▁'' als ▁het ▁mes ▁valt ▁in ▁brugge '' ▁(0
50000 ▁alle ▁erfelijke ▁eigenschappen ▁worden ▁samen , ▁of ▁ze ▁nu ▁wel ▁of ▁niet ▁tot ▁uiting ▁komen , ▁het ▁gen otype ▁van ▁een ▁organisme ▁genoemd . ▁alle ▁eigenschappen ▁die ▁samen
▁in ▁de ▁theoretische ▁chemie ▁tracht ▁men ▁met ▁behulp ▁van ▁wiskunde ▁of ▁computers im ulaties ▁en ▁- bere keningen ▁de ▁eigenschappen ▁van ▁afzonderlijke ▁moleculen ▁of ▁ma
▁* ▁'' a ▁dog ▁of ▁flanders '' ▁(0000): ▁verfilming ▁van ▁de ▁roman ▁van ▁o uid a ▁('' een ▁hond ▁van ▁vlaanderen '') ▁door ▁kevin ▁bro die . ▁* ▁'' als ▁het ▁mes ▁valt ▁in ▁brugge '' ▁(0
100000 ▁alle ▁erfelijke ▁eigenschappen ▁worden ▁samen , ▁of ▁ze ▁nu ▁wel ▁of ▁niet ▁tot ▁uiting ▁komen , ▁het ▁gen otype ▁van ▁een ▁organisme ▁genoemd . ▁alle ▁eigenschappen ▁die ▁samen
▁in ▁de ▁theoretische ▁chemie ▁tracht ▁men ▁met ▁behulp ▁van ▁wiskunde ▁of ▁computers im ulaties ▁en ▁- berekeningen ▁de ▁eigenschappen ▁van ▁afzonderlijke ▁moleculen ▁of ▁ma
▁* ▁'' a ▁dog ▁of ▁flanders '' ▁(0000): ▁verfilming ▁van ▁de ▁roman ▁van ▁o uid a ▁('' een ▁hond ▁van ▁vlaanderen '') ▁door ▁kevin ▁brodie . ▁* ▁'' als ▁het ▁mes ▁valt ▁in ▁brugge '' ▁(0