Vietnamese (vi) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeviwiki sample
original theo nguyễn hữu sơn và nguyễn đăng na, ở trung quốc và nước ngoài đã sưu tầm được 00 loại bản khác nhau. văn bản chính nguyên thể gồm 00 hồi nhưng cũn
mô hình tháp bằng đất nung thời lý năm 0000, lý công uẩn lên ngôi vua, lập nên nhà lý (0000-0000). năm 0000 vua lý thánh tông đổi tên thành đại việt.
huế có nhiều trung tâm thương mại lớn và toạ lạc ở hai bên bờ sông hương như: chợ đông ba, chợ tây lộc, chợ an cựu, chợ bến ngự, siêu thị thuận thành,
1000 ▁theo ▁ng uy ễn ▁h ữ u ▁s ơn ▁và ▁ng uy ễn ▁đ ăng ▁n a , ▁ở ▁trung ▁quốc ▁và ▁nước ▁ng o ài ▁đã ▁s ư u ▁t ầ m ▁được ▁00 ▁loại ▁bản ▁khác ▁nh au . ▁văn ▁bản ▁chính ▁ng uyên ▁thể ▁g ồ m ▁00 ▁h ồ i ▁nhưng ▁c ũ n
▁mô ▁hình ▁thá p ▁b ằng ▁đ ất ▁n ung ▁thời ▁lý ▁năm ▁0000, ▁lý ▁công ▁ u ẩ n ▁l ên ▁ng ôi ▁v u a , ▁lập ▁n ên ▁nhà ▁lý ▁(0000 - 0000 ). ▁năm ▁0000 ▁v u a ▁lý ▁thá nh ▁t ông ▁đ ổi ▁tên ▁thành ▁đại ▁việt .
▁h u ế ▁có ▁nhiều ▁trung ▁t âm ▁th ương ▁m ại ▁lớn ▁và ▁t o ạ ▁l ạc ▁ở ▁hai ▁b ên ▁b ờ ▁s ông ▁h ương ▁như : ▁ch ợ ▁đông ▁b a , ▁ch ợ ▁tây ▁l ộc , ▁ch ợ ▁ an ▁c ự u , ▁ch ợ ▁b ến ▁ng ự , ▁s iêu ▁thị ▁thu ận ▁thành ,
3000 ▁theo ▁nguyễn ▁hữu ▁sơn ▁và ▁nguyễn ▁đăng ▁na , ▁ở ▁trung ▁quốc ▁và ▁nước ▁ngoài ▁đã ▁s ưu ▁tầm ▁được ▁00 ▁loại ▁bản ▁khác ▁nhau . ▁văn ▁bản ▁chính ▁nguyên ▁thể ▁gồm ▁00 ▁hồi ▁nhưng ▁cũ n
▁mô ▁hình ▁tháp ▁bằng ▁đất ▁n ung ▁thời ▁lý ▁năm ▁0000, ▁lý ▁công ▁u ẩn ▁lên ▁ngôi ▁vua , ▁lập ▁nên ▁nhà ▁lý ▁(0000-0000 ). ▁năm ▁0000 ▁vua ▁lý ▁thánh ▁tông ▁đổi ▁tên ▁thành ▁đại ▁việt .
▁hu ế ▁có ▁nhiều ▁trung ▁tâm ▁thương ▁mại ▁lớn ▁và ▁to ạ ▁lạc ▁ở ▁hai ▁bên ▁bờ ▁sông ▁hương ▁như : ▁chợ ▁đông ▁ba , ▁chợ ▁tây ▁lộc , ▁chợ ▁an ▁cựu , ▁chợ ▁b ến ▁ng ự , ▁siêu ▁thị ▁thuận ▁thành ,
5000 ▁theo ▁nguyễn ▁hữu ▁sơn ▁và ▁nguyễn ▁đăng ▁na , ▁ở ▁trung ▁quốc ▁và ▁nước ▁ngoài ▁đã ▁sưu ▁tầm ▁được ▁00 ▁loại ▁bản ▁khác ▁nhau . ▁văn ▁bản ▁chính ▁nguyên ▁thể ▁gồm ▁00 ▁hồi ▁nhưng ▁cũ n
▁mô ▁hình ▁tháp ▁bằng ▁đất ▁n ung ▁thời ▁lý ▁năm ▁0000, ▁lý ▁công ▁u ẩn ▁lên ▁ngôi ▁vua , ▁lập ▁nên ▁nhà ▁lý ▁(0000-0000 ). ▁năm ▁0000 ▁vua ▁lý ▁thánh ▁tông ▁đổi ▁tên ▁thành ▁đại ▁việt .
▁huế ▁có ▁nhiều ▁trung ▁tâm ▁thương ▁mại ▁lớn ▁và ▁to ạ ▁lạc ▁ở ▁hai ▁bên ▁bờ ▁sông ▁hương ▁như : ▁chợ ▁đông ▁ba , ▁chợ ▁tây ▁lộc , ▁chợ ▁an ▁cựu , ▁chợ ▁bến ▁ngự , ▁siêu ▁thị ▁thuận ▁thành ,
10000 ▁theo ▁nguyễn ▁hữu ▁sơn ▁và ▁nguyễn ▁đăng ▁na , ▁ở ▁trung ▁quốc ▁và ▁nước ▁ngoài ▁đã ▁sưu ▁tầm ▁được ▁00 ▁loại ▁bản ▁khác ▁nhau . ▁văn ▁bản ▁chính ▁nguyên ▁thể ▁gồm ▁00 ▁hồi ▁nhưng ▁cũ n
▁mô ▁hình ▁tháp ▁bằng ▁đất ▁nung ▁thời ▁lý ▁năm ▁0000, ▁lý ▁công ▁u ẩn ▁lên ▁ngôi ▁vua , ▁lập ▁nên ▁nhà ▁lý ▁(0000-0000). ▁năm ▁0000 ▁vua ▁lý ▁thánh ▁tông ▁đổi ▁tên ▁thành ▁đại ▁việt .
▁huế ▁có ▁nhiều ▁trung ▁tâm ▁thương ▁mại ▁lớn ▁và ▁to ạ ▁lạc ▁ở ▁hai ▁bên ▁bờ ▁sông ▁hương ▁như : ▁chợ ▁đông ▁ba , ▁chợ ▁tây ▁lộc , ▁chợ ▁an ▁cựu , ▁chợ ▁bến ▁ngự , ▁siêu ▁thị ▁thuận ▁thành ,
25000 ▁theo ▁nguyễn ▁hữu ▁sơn ▁và ▁nguyễn ▁đăng ▁na , ▁ở ▁trung ▁quốc ▁và ▁nước ▁ngoài ▁đã ▁sưu ▁tầm ▁được ▁00 ▁loại ▁bản ▁khác ▁nhau . ▁văn ▁bản ▁chính ▁nguyên ▁thể ▁gồm ▁00 ▁hồi ▁nhưng ▁cũ n
▁mô ▁hình ▁tháp ▁bằng ▁đất ▁nung ▁thời ▁lý ▁năm ▁0000, ▁lý ▁công ▁uẩn ▁lên ▁ngôi ▁vua , ▁lập ▁nên ▁nhà ▁lý ▁(0000-0000). ▁năm ▁0000 ▁vua ▁lý ▁thánh ▁tông ▁đổi ▁tên ▁thành ▁đại ▁việt .
▁huế ▁có ▁nhiều ▁trung ▁tâm ▁thương ▁mại ▁lớn ▁và ▁toạ ▁lạc ▁ở ▁hai ▁bên ▁bờ ▁sông ▁hương ▁như : ▁chợ ▁đông ▁ba , ▁chợ ▁tây ▁lộc , ▁chợ ▁an ▁cựu , ▁chợ ▁bến ▁ngự , ▁siêu ▁thị ▁thuận ▁thành ,
50000 ▁theo ▁nguyễn ▁hữu ▁sơn ▁và ▁nguyễn ▁đăng ▁na , ▁ở ▁trung ▁quốc ▁và ▁nước ▁ngoài ▁đã ▁sưu ▁tầm ▁được ▁00 ▁loại ▁bản ▁khác ▁nhau . ▁văn ▁bản ▁chính ▁nguyên ▁thể ▁gồm ▁00 ▁hồi ▁nhưng ▁cũ n
▁mô ▁hình ▁tháp ▁bằng ▁đất ▁nung ▁thời ▁lý ▁năm ▁0000, ▁lý ▁công ▁uẩn ▁lên ▁ngôi ▁vua , ▁lập ▁nên ▁nhà ▁lý ▁(0000-0000). ▁năm ▁0000 ▁vua ▁lý ▁thánh ▁tông ▁đổi ▁tên ▁thành ▁đại ▁việt .
▁huế ▁có ▁nhiều ▁trung ▁tâm ▁thương ▁mại ▁lớn ▁và ▁toạ ▁lạc ▁ở ▁hai ▁bên ▁bờ ▁sông ▁hương ▁như : ▁chợ ▁đông ▁ba , ▁chợ ▁tây ▁lộc , ▁chợ ▁an ▁cựu , ▁chợ ▁bến ▁ngự , ▁siêu ▁thị ▁thuận ▁thành ,
100000 ▁theo ▁nguyễn ▁hữu ▁sơn ▁và ▁nguyễn ▁đăng ▁na , ▁ở ▁trung ▁quốc ▁và ▁nước ▁ngoài ▁đã ▁sưu ▁tầm ▁được ▁00 ▁loại ▁bản ▁khác ▁nhau . ▁văn ▁bản ▁chính ▁nguyên ▁thể ▁gồm ▁00 ▁hồi ▁nhưng ▁cũ n
▁mô ▁hình ▁tháp ▁bằng ▁đất ▁nung ▁thời ▁lý ▁năm ▁0000, ▁lý ▁công ▁uẩn ▁lên ▁ngôi ▁vua , ▁lập ▁nên ▁nhà ▁lý ▁(0000-0000). ▁năm ▁0000 ▁vua ▁lý ▁thánh ▁tông ▁đổi ▁tên ▁thành ▁đại ▁việt .
▁huế ▁có ▁nhiều ▁trung ▁tâm ▁thương ▁mại ▁lớn ▁và ▁toạ ▁lạc ▁ở ▁hai ▁bên ▁bờ ▁sông ▁hương ▁như : ▁chợ ▁đông ▁ba , ▁chợ ▁tây ▁lộc , ▁chợ ▁an ▁cựu , ▁chợ ▁bến ▁ngự , ▁siêu ▁thị ▁thuận ▁thành ,