Hakka Chinese (hak) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

2-D UMAP plots

Embedding matrix plots

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizehakwiki sample
original *kóng-chû-sṳ *chhṳ̂m-chun-sṳ *chû-hói-sṳ *sân-thèu-sṳ *sèu-kôan-sṳ *fu̍t-sân-sṳ *kông-mùn-sṳ *chhám-kông-sṳ *sau-khin-sṳ *fi-chû-sṳ *mòi-chû-sṳ *sân-m
phû-sien-ngî/hîn-fa-ngî (pô-sing-gṳ̂ / hing-hua̍-gṳ̂),he yit-tsúng fûn-phu tshai-yî chûng-koet fuk-kian tûng-phu yèn-hói ke mén-ngî tsṳ̂-yit, sṳ́-yung
chêu-sién hói-hia̍p (朝鮮海峽, korea strait), he hòn-koet lâu ngit-pún lióng-koet chṳ̂-kiên ke hói-hia̍p, lièn-chiap vòng-hói, tûng-hói lâu ngit-pún-hói c
5000 ▁* kóng - chû - sṳ ▁* chhṳ ̂ m - ch un - sṳ ▁* chû - hói - sṳ ▁* sân - thèu - sṳ ▁* s èu - kôan - sṳ ▁* fu ̍ t - sân - sṳ ▁* kông - mùn - sṳ ▁* chh ám - kông - sṳ ▁* s au - khin - sṳ ▁* fi - chû - sṳ ▁* m òi - chû - sṳ ▁* sân - m
▁phû - sien - ngî / hîn - fa - ngî ▁( pô - si ng - g ṳ ̂ ▁/ ▁hi ng - hu a ̍ - g ṳ ̂ ), he ▁yit - tsúng ▁fûn - phu ▁tshai - yî ▁chûng - koet ▁fuk - ki an ▁tûng - phu ▁yèn - hói ▁ke ▁mén - ngî ▁tsṳ ̂ - yit , ▁sṳ ́ - yung
▁chêu - sién ▁hói - hia ̍ p ▁( 朝 鮮 海 峽 , ▁k or e a ▁st ra it ), ▁he ▁hòn - koet ▁lâu ▁ngit - pún ▁lióng - koet ▁chṳ ̂ - kiên ▁ke ▁hói - hia ̍ p , ▁lièn - chiap ▁vòng - hói , ▁tûng - hói ▁lâu ▁ngit - pún - hói ▁c
10000 ▁* kóng - chû - sṳ ▁* chhṳ ̂ m - chun - sṳ ▁* chû - hói - sṳ ▁* sân - thèu - sṳ ▁* s èu - kôan - sṳ ▁* fu ̍ t - sân - sṳ ▁* kông - mùn - sṳ ▁* chh ám - kông - sṳ ▁* sau - khin - sṳ ▁* fi - chû - sṳ ▁* mòi - chû - sṳ ▁* sân - m
▁phû - sien - ngî / hîn - fa - ngî ▁( pô - sing - gṳ ̂ ▁/ ▁hi ng - hu a ̍ - gṳ ̂ ), he ▁yit - tsúng ▁fûn - phu ▁tshai - yî ▁chûng - koet ▁fuk - kian ▁tûng - phu ▁yèn - hói ▁ke ▁mén - ngî ▁tsṳ ̂ - yit , ▁sṳ ́ - yung
▁chêu - sién ▁hói - hia ̍ p ▁( 朝鮮 海 峽 , ▁k ore a ▁st rait ), ▁he ▁hòn - koet ▁lâu ▁ngit - pún ▁lióng - koet ▁chṳ ̂ - kiên ▁ke ▁hói - hia ̍ p , ▁lièn - chiap ▁vòng - hói , ▁tûng - hói ▁lâu ▁ngit - pún - hói ▁c