Haitian (ht) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizehtwiki sample
original *kominote ayisyen, relasyon ant eta sa epi ayiti *0 fevrye 0000 : gouvènman ayisyen reprann kontak ak otorite kiben ( 0 chanselye ayisyen epi kiben em
popilasyon ayisyen nan kiba rive 000000 moun nan lane 0000. kreyòl ayisyen se dezyèm lang ki pale nan kiba, lang ayisyen an gen menm yon estasyon rady
* ''la vie en marelle'', yon rekèy powèm ki ekri avèk denise bernhardt. liv sa piblye new york nan edition rivarti collection, 0000. * ''l'amour du mo
1000 ▁* kominote ▁ayisyen , ▁relasyon ▁ant ▁eta ▁sa ▁epi ▁ayiti ▁*0 ▁fevrye ▁0000 ▁: ▁gouvènman ▁ayisyen ▁reprann ▁kontak ▁ak ▁otorite ▁kiben ▁( ▁0 ▁chanselye ▁ayisyen ▁epi ▁kiben ▁em
▁popilasyon ▁ayisyen ▁nan ▁kiba ▁rive ▁000000 ▁moun ▁nan ▁lane ▁0000. ▁kreyòl ▁ayisyen ▁se ▁dezyèm ▁lang ▁ki ▁pale ▁nan ▁kiba , ▁lang ▁ayisyen ▁an ▁gen ▁menm ▁yon ▁estasyon ▁rad y
▁* ▁'' la ▁vi e ▁en ▁mar el le '', ▁yon ▁re k è y ▁pow èm ▁ki ▁ek ri ▁avèk ▁d en is e ▁b ern h ard t . ▁li v ▁sa ▁pi b l ye ▁n ew ▁yo r k ▁nan ▁e di tion ▁ri var ti ▁c ol le c tion , ▁0000. ▁* ▁'' l ' am our ▁du ▁mo
3000 ▁* kominote ▁ayisyen , ▁relasyon ▁ant ▁eta ▁sa ▁epi ▁ayiti ▁*0 ▁fevrye ▁0000 ▁: ▁gouvènman ▁ayisyen ▁reprann ▁kontak ▁ak ▁otorite ▁kiben ▁( ▁0 ▁chanselye ▁ayisyen ▁epi ▁kiben ▁em
▁popilasyon ▁ayisyen ▁nan ▁kiba ▁rive ▁000000 ▁moun ▁nan ▁lane ▁0000. ▁kreyòl ▁ayisyen ▁se ▁dezyèm ▁lang ▁ki ▁pale ▁nan ▁kiba , ▁lang ▁ayisyen ▁an ▁gen ▁menm ▁yon ▁estasyon ▁rad y
▁* ▁'' la ▁vie ▁en ▁mar elle '', ▁yon ▁re k èy ▁pow èm ▁ki ▁ekri ▁avèk ▁den ise ▁bern h ard t . ▁liv ▁sa ▁pi bl ye ▁new ▁york ▁nan ▁edi tion ▁ri var ti ▁colle ction , ▁0000. ▁* ▁'' l ' amour ▁du ▁mo
5000 ▁* kominote ▁ayisyen , ▁relasyon ▁ant ▁eta ▁sa ▁epi ▁ayiti ▁*0 ▁fevrye ▁0000 ▁: ▁gouvènman ▁ayisyen ▁reprann ▁kontak ▁ak ▁otorite ▁kiben ▁( ▁0 ▁chanselye ▁ayisyen ▁epi ▁kiben ▁em
▁popilasyon ▁ayisyen ▁nan ▁kiba ▁rive ▁000000 ▁moun ▁nan ▁lane ▁0000. ▁kreyòl ▁ayisyen ▁se ▁dezyèm ▁lang ▁ki ▁pale ▁nan ▁kiba , ▁lang ▁ayisyen ▁an ▁gen ▁menm ▁yon ▁estasyon ▁rad y
▁* ▁'' la ▁vie ▁en ▁mar elle '', ▁yon ▁rek èy ▁pow èm ▁ki ▁ekri ▁avèk ▁den ise ▁bern h ard t . ▁liv ▁sa ▁pi bl ye ▁new ▁york ▁nan ▁edi tion ▁ri var ti ▁colle ction , ▁0000. ▁* ▁'' l ' amour ▁du ▁mo
10000 ▁* kominote ▁ayisyen , ▁relasyon ▁ant ▁eta ▁sa ▁epi ▁ayiti ▁*0 ▁fevrye ▁0000 ▁: ▁gouvènman ▁ayisyen ▁reprann ▁kontak ▁ak ▁otorite ▁kiben ▁( ▁0 ▁chanselye ▁ayisyen ▁epi ▁kiben ▁em
▁popilasyon ▁ayisyen ▁nan ▁kiba ▁rive ▁000000 ▁moun ▁nan ▁lane ▁0000. ▁kreyòl ▁ayisyen ▁se ▁dezyèm ▁lang ▁ki ▁pale ▁nan ▁kiba , ▁lang ▁ayisyen ▁an ▁gen ▁menm ▁yon ▁estasyon ▁rad y
▁* ▁'' la ▁vie ▁en ▁mar elle '', ▁yon ▁rekèy ▁pow èm ▁ki ▁ekri ▁avèk ▁den ise ▁bern hard t . ▁liv ▁sa ▁pi bl ye ▁new ▁york ▁nan ▁edition ▁ri var ti ▁collection , ▁0000. ▁* ▁'' l ' amour ▁du ▁mo
25000 ▁* kominote ▁ayisyen , ▁relasyon ▁ant ▁eta ▁sa ▁epi ▁ayiti ▁*0 ▁fevrye ▁0000 ▁: ▁gouvènman ▁ayisyen ▁reprann ▁kontak ▁ak ▁otorite ▁kiben ▁( ▁0 ▁chanselye ▁ayisyen ▁epi ▁kiben ▁em
▁popilasyon ▁ayisyen ▁nan ▁kiba ▁rive ▁000000 ▁moun ▁nan ▁lane ▁0000. ▁kreyòl ▁ayisyen ▁se ▁dezyèm ▁lang ▁ki ▁pale ▁nan ▁kiba , ▁lang ▁ayisyen ▁an ▁gen ▁menm ▁yon ▁estasyon ▁rad y
▁* ▁'' la ▁vie ▁en ▁mar elle '', ▁yon ▁rekèy ▁powèm ▁ki ▁ekri ▁avèk ▁den ise ▁bernhardt . ▁liv ▁sa ▁pi bl ye ▁new ▁york ▁nan ▁edition ▁ri var ti ▁collection , ▁0000. ▁* ▁'' l ' amour ▁du ▁mo