Min Dong Chinese (cdo) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

2-D UMAP plots

Embedding matrix plots

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizecdowiki sample
original nièng-nièng-màng hâ-tiĕng gâe̤ng chiŭ-tiĕng, téng tái-bìng-iòng lì gì hŭng-tăi dŭ â̤ chuŏi gáu dài-uăng, hók-gióng, ciék-gŏng, guōng-dĕ̤ng dēng dê-kṳ̆
hī sèng-âu ciā miêu diē-sié gó ô ùng-chŏng-gó̤h (文昌閣), pū-dò̤-sê (普陀寺) gâe̤ng ciáng-dâing (正殿) dēng dēng iā sâ̤ gì gióng-dé̤ṳk, gì-tă gì gióng-dé̤ṳk d
háng hióng-dá̤ (漢獻帝, 000 n. - 000 n.), miàng làu hiĕk (劉協), sê háng-dièu gì siŏh ciáh huòng-dá̤, iâ sê dĕ̤ng-háng có̤i hâiu siŏh ciáh huòng-dá̤. 000 n
3000 ▁n i è ng - n i è ng - m à ng ▁h â - t i ĕ ng ▁g â e ̤ ng ▁c h i ŭ - t i ĕ ng , ▁ t é ng ▁ t á i - b ì ng - i òng ▁l ì ▁gì ▁h ŭ ng - t ă i ▁d ŭ ▁ â ̤ ▁c h u ŏ i ▁g á u ▁d à i - u ă ng , ▁h ók - g i ó ng , ▁c i é k - g ŏ ng , ▁g u ō ng - d ĕ ̤ ng ▁d ē ng ▁d ê - k ṳ ̆
▁h ī ▁s è ng - â u ▁c i ā ▁m i ê u ▁d i ē - s i é ▁g ó ▁ ô ▁ ù ng - c h ŏ ng - g ó ̤ h ▁( 文 昌 閣 ) , ▁ p ū - d ò ̤ - s ê ▁( 普 陀 寺 ) ▁g â e ̤ ng ▁c i á ng - d â i ng ▁( 正 殿 ) ▁d ē ng ▁d ē ng ▁ i ā ▁s â ̤ ▁gì ▁g i ó ng - d é ̤ ṳ k , ▁gì - t ă ▁gì ▁g i ó ng - d é ̤ ṳ k ▁d
▁h á ng ▁h i ó ng - d á ̤ ▁( 漢 獻 帝 , ▁ 00 0 ▁n . ▁ - ▁ 00 0 ▁n . ) , ▁m i à ng ▁l à u ▁h i ĕ k ▁( 劉 協 ) , ▁sê ▁h á ng - d i è u ▁gì ▁s iŏ h ▁c i á h ▁h u òng - d á ̤ , ▁ i â ▁sê ▁d ĕ ̤ ng - h á ng ▁c ó ̤ i ▁h â i u ▁s iŏ h ▁c i á h ▁h u òng - d á ̤ . ▁ 00 0 ▁n
5000 ▁nièng - nièng - màng ▁hâ - tiĕng ▁gâe ̤ ng ▁chi ŭ - tiĕng , ▁téng ▁tái - bìng - iòng ▁lì ▁gì ▁hŭng - tăi ▁dŭ ▁â ̤ ▁chu ŏi ▁gáu ▁dài - uăng , ▁hók - gióng , ▁ciék - gŏng , ▁guōng - dĕ ̤ ng ▁dēng ▁dê - kṳ ̆
▁hī ▁sèng - âu ▁ciā ▁miêu ▁diē - sié ▁gó ▁ô ▁ùng - chŏng - gó ̤ h ▁( 文 昌 閣 ), ▁pū - dò ̤ - sê ▁( 普 陀 寺 ) ▁gâe ̤ ng ▁ciáng - dâing ▁( 正 殿 ) ▁dēng ▁dēng ▁iā ▁sâ ̤ ▁gì ▁gióng - dé ̤ ṳk , ▁gì - tă ▁gì ▁gióng - dé ̤ ṳk ▁d
▁háng ▁hióng - dá ̤ ▁( 漢 獻 帝 , ▁000 ▁n . ▁- ▁000 ▁n .), ▁miàng ▁làu ▁hiĕk ▁( 劉 協 ), ▁sê ▁háng - dièu ▁gì ▁siŏh ▁ciáh ▁huòng - dá ̤ , ▁iâ ▁sê ▁dĕ ̤ ng - háng ▁có ̤ i ▁hâiu ▁siŏh ▁ciáh ▁huòng - dá ̤ . ▁000 ▁n