Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizetlwiki sample
original sa panahon ng mga kastila, ang lalawigan ay ginawang bahagi ng ambos camarines (kabahagi ang lalawigan ng ngayo'y camarines norte). ang mga kastila ay
malaking dahilan nito ang katotohanang palatago at mahiyain sa tao ang mga indibidwal na kasapi ng uri.
ang internet ay ang mga magkakabit na mga computer network na maaaring gamitin ng mga tao sa buong mundo.
1000 ▁sa ▁panahon ▁ng ▁mga ▁ka sti la , ▁ang ▁lalawigan ▁ay ▁gina wang ▁bahagi ▁ng ▁a mb os ▁ca ma rin es ▁( ka ba ha gi ▁ang ▁lalawigan ▁ng ▁ng a yo ' y ▁ca ma rin es ▁n or te ). ▁ang ▁mga ▁ka sti la ▁ay
▁mala king ▁dahil an ▁nito ▁ang ▁ka to to han ang ▁pala ta go ▁at ▁ma hi ya in ▁sa ▁tao ▁ang ▁mga ▁in di bi d wal ▁na ▁kasa pi ▁ng ▁uri .
▁ang ▁in ter n et ▁ay ▁ang ▁mga ▁magka ka b it ▁na ▁mga ▁co mp u ter ▁n et w or k ▁na ▁maaaring ▁ga mit in ▁ng ▁mga ▁tao ▁sa ▁bu ong ▁m undo .
3000 ▁sa ▁panahon ▁ng ▁mga ▁kastila , ▁ang ▁lalawigan ▁ay ▁gina wang ▁bahagi ▁ng ▁a mb os ▁ca ma rin es ▁( ka ba hagi ▁ang ▁lalawigan ▁ng ▁nga yo ' y ▁ca ma rin es ▁norte ). ▁ang ▁mga ▁kastila ▁ay
▁malaking ▁dahilan ▁nito ▁ang ▁kato to han ang ▁pala ta go ▁at ▁mahi ya in ▁sa ▁tao ▁ang ▁mga ▁indibidwal ▁na ▁kasapi ▁ng ▁uri .
▁ang ▁inter net ▁ay ▁ang ▁mga ▁magkaka bit ▁na ▁mga ▁comp u ter ▁network ▁na ▁maaaring ▁gamitin ▁ng ▁mga ▁tao ▁sa ▁buong ▁mundo .
5000 ▁sa ▁panahon ▁ng ▁mga ▁kastila , ▁ang ▁lalawigan ▁ay ▁ginawang ▁bahagi ▁ng ▁a mb os ▁cama rin es ▁( ka ba hagi ▁ang ▁lalawigan ▁ng ▁nga yo ' y ▁cama rin es ▁norte ). ▁ang ▁mga ▁kastila ▁ay
▁malaking ▁dahilan ▁nito ▁ang ▁katoto han ang ▁pala ta go ▁at ▁mahi ya in ▁sa ▁tao ▁ang ▁mga ▁indibidwal ▁na ▁kasapi ▁ng ▁uri .
▁ang ▁internet ▁ay ▁ang ▁mga ▁magkaka bit ▁na ▁mga ▁comp uter ▁network ▁na ▁maaaring ▁gamitin ▁ng ▁mga ▁tao ▁sa ▁buong ▁mundo .
10000 ▁sa ▁panahon ▁ng ▁mga ▁kastila , ▁ang ▁lalawigan ▁ay ▁ginawang ▁bahagi ▁ng ▁amb os ▁camarines ▁( kaba hagi ▁ang ▁lalawigan ▁ng ▁ngayo ' y ▁camarines ▁norte ). ▁ang ▁mga ▁kastila ▁ay
▁malaking ▁dahilan ▁nito ▁ang ▁katoto hanang ▁pala ta go ▁at ▁mahi ya in ▁sa ▁tao ▁ang ▁mga ▁indibidwal ▁na ▁kasapi ▁ng ▁uri .
▁ang ▁internet ▁ay ▁ang ▁mga ▁magkaka bit ▁na ▁mga ▁computer ▁network ▁na ▁maaaring ▁gamitin ▁ng ▁mga ▁tao ▁sa ▁buong ▁mundo .
25000 ▁sa ▁panahon ▁ng ▁mga ▁kastila , ▁ang ▁lalawigan ▁ay ▁ginawang ▁bahagi ▁ng ▁amb os ▁camarines ▁( kaba hagi ▁ang ▁lalawigan ▁ng ▁ngayo ' y ▁camarines ▁norte ). ▁ang ▁mga ▁kastila ▁ay
▁malaking ▁dahilan ▁nito ▁ang ▁katotohanang ▁pala tago ▁at ▁mahi yain ▁sa ▁tao ▁ang ▁mga ▁indibidwal ▁na ▁kasapi ▁ng ▁uri .
▁ang ▁internet ▁ay ▁ang ▁mga ▁magkaka bit ▁na ▁mga ▁computer ▁network ▁na ▁maaaring ▁gamitin ▁ng ▁mga ▁tao ▁sa ▁buong ▁mundo .
50000 ▁sa ▁panahon ▁ng ▁mga ▁kastila , ▁ang ▁lalawigan ▁ay ▁ginawang ▁bahagi ▁ng ▁ambos ▁camarines ▁( kaba hagi ▁ang ▁lalawigan ▁ng ▁ngayo ' y ▁camarines ▁norte ). ▁ang ▁mga ▁kastila ▁ay
▁malaking ▁dahilan ▁nito ▁ang ▁katotohanang ▁pala tago ▁at ▁mahiyain ▁sa ▁tao ▁ang ▁mga ▁indibidwal ▁na ▁kasapi ▁ng ▁uri .
▁ang ▁internet ▁ay ▁ang ▁mga ▁magkakabit ▁na ▁mga ▁computer ▁network ▁na ▁maaaring ▁gamitin ▁ng ▁mga ▁tao ▁sa ▁buong ▁mundo .
100000 ▁sa ▁panahon ▁ng ▁mga ▁kastila , ▁ang ▁lalawigan ▁ay ▁ginawang ▁bahagi ▁ng ▁ambos ▁camarines ▁( kabahagi ▁ang ▁lalawigan ▁ng ▁ngayo ' y ▁camarines ▁norte ). ▁ang ▁mga ▁kastila ▁ay
▁malaking ▁dahilan ▁nito ▁ang ▁katotohanang ▁pala tago ▁at ▁mahiyain ▁sa ▁tao ▁ang ▁mga ▁indibidwal ▁na ▁kasapi ▁ng ▁uri .
▁ang ▁internet ▁ay ▁ang ▁mga ▁magkakabit ▁na ▁mga ▁computer ▁network ▁na ▁maaaring ▁gamitin ▁ng ▁mga ▁tao ▁sa ▁buong ▁mundo .