Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeanwiki sample
original o termin municipal d'alagón ye trescruzato por o río ebro y por o suyo afluyent o xalón. tamién i discurre a canal imperial d'aragón, que trescruza o
o baile y canto popular ye a hota aragonesa, que ye muit rasmiuda y goyosa. se baila con muito movimiento y grans blincos. o canto gosa estar de ritmo
* 0000 - naixencia en betanzos (galicia) d'o melitar espanyol d'orichen aragonés manuel villacampa del castillo (†0000). * 0000 - naixencia en sevilla
1000 ▁o ▁termin ▁municip al ▁d ' al ag ón ▁ye ▁tres c ru z ato ▁por ▁o ▁río ▁e b ro ▁y ▁por ▁o ▁suyo ▁a f lu y ent ▁o ▁x al ón . ▁tamién ▁i ▁dis c ur re ▁a ▁can al ▁im per ial ▁d ' aragón , ▁que ▁tres c ru za ▁o
▁o ▁ba il e ▁y ▁can to ▁po p ular ▁ye ▁a ▁h o ta ▁aragon esa , ▁que ▁ye ▁mu it ▁r as mi u da ▁y ▁g o yos a . ▁se ▁ba i la ▁con ▁mu ito ▁mo v im iento ▁y ▁gran s ▁b l in cos . ▁o ▁can to ▁g osa ▁estar ▁de ▁r it mo
▁* ▁0000 ▁- ▁naixencia ▁en ▁b et an z os ▁( g al i cia ) ▁d ' o ▁mel itar ▁espan y ol ▁d ' or ichen ▁aragonés ▁man uel ▁v illa c am pa ▁del ▁casti l lo ▁(†0000). ▁* ▁0000 ▁- ▁naixencia ▁en ▁se v illa
3000 ▁o ▁termin ▁municipal ▁d ' al ag ón ▁ye ▁tresc ruz ato ▁por ▁o ▁río ▁e bro ▁y ▁por ▁o ▁suyo ▁af luy ent ▁o ▁x al ón . ▁tamién ▁i ▁dis c ur re ▁a ▁can al ▁imper ial ▁d ' aragón , ▁que ▁tresc ru za ▁o
▁o ▁ba ile ▁y ▁canto ▁popular ▁ye ▁a ▁ho ta ▁aragonesa , ▁que ▁ye ▁muit ▁r as mi u da ▁y ▁go yos a . ▁se ▁ba ila ▁con ▁muito ▁movimiento ▁y ▁grans ▁b lin cos . ▁o ▁canto ▁gosa ▁estar ▁de ▁r it mo
▁* ▁0000 ▁- ▁naixencia ▁en ▁b et an z os ▁( g al icia ) ▁d ' o ▁melitar ▁espanyol ▁d ' orichen ▁aragonés ▁manuel ▁villa cam pa ▁del ▁casti l lo ▁(†0000). ▁* ▁0000 ▁- ▁naixencia ▁en ▁sevilla
5000 ▁o ▁termin ▁municipal ▁d ' al ag ón ▁ye ▁trescruz ato ▁por ▁o ▁río ▁ebro ▁y ▁por ▁o ▁suyo ▁af luy ent ▁o ▁xalón . ▁tamién ▁i ▁dis c urre ▁a ▁canal ▁imperial ▁d ' aragón , ▁que ▁tresc ru za ▁o
▁o ▁ba ile ▁y ▁canto ▁popular ▁ye ▁a ▁ho ta ▁aragonesa , ▁que ▁ye ▁muit ▁ras mi u da ▁y ▁go yos a . ▁se ▁ba ila ▁con ▁muito ▁movimiento ▁y ▁grans ▁b lin cos . ▁o ▁canto ▁gosa ▁estar ▁de ▁r it mo
▁* ▁0000 ▁- ▁naixencia ▁en ▁b et an zos ▁( gal icia ) ▁d ' o ▁melitar ▁espanyol ▁d ' orichen ▁aragonés ▁manuel ▁villa cam pa ▁del ▁casti llo ▁(†0000). ▁* ▁0000 ▁- ▁naixencia ▁en ▁sevilla
10000 ▁o ▁termin ▁municipal ▁d ' al agón ▁ye ▁trescruzato ▁por ▁o ▁río ▁ebro ▁y ▁por ▁o ▁suyo ▁afluyent ▁o ▁xalón . ▁tamién ▁i ▁dis c urre ▁a ▁canal ▁imperial ▁d ' aragón , ▁que ▁trescruza ▁o
▁o ▁baile ▁y ▁canto ▁popular ▁ye ▁a ▁ho ta ▁aragonesa , ▁que ▁ye ▁muit ▁ras mi uda ▁y ▁go yos a . ▁se ▁ba ila ▁con ▁muito ▁movimiento ▁y ▁grans ▁b lin cos . ▁o ▁canto ▁gosa ▁estar ▁de ▁rit mo
▁* ▁0000 ▁- ▁naixencia ▁en ▁bet an zos ▁( gal icia ) ▁d ' o ▁melitar ▁espanyol ▁d ' orichen ▁aragonés ▁manuel ▁villa cam pa ▁del ▁castillo ▁(†0000). ▁* ▁0000 ▁- ▁naixencia ▁en ▁sevilla
25000 ▁o ▁termin ▁municipal ▁d ' alagón ▁ye ▁trescruzato ▁por ▁o ▁río ▁ebro ▁y ▁por ▁o ▁suyo ▁afluyent ▁o ▁xalón . ▁tamién ▁i ▁disc urre ▁a ▁canal ▁imperial ▁d ' aragón , ▁que ▁trescruza ▁o
▁o ▁baile ▁y ▁canto ▁popular ▁ye ▁a ▁hota ▁aragonesa , ▁que ▁ye ▁muit ▁ras mi uda ▁y ▁go yosa . ▁se ▁ba ila ▁con ▁muito ▁movimiento ▁y ▁grans ▁blin cos . ▁o ▁canto ▁gosa ▁estar ▁de ▁ritmo
▁* ▁0000 ▁- ▁naixencia ▁en ▁bet an zos ▁( galicia ) ▁d ' o ▁melitar ▁espanyol ▁d ' orichen ▁aragonés ▁manuel ▁villa cam pa ▁del ▁castillo ▁(†0000). ▁* ▁0000 ▁- ▁naixencia ▁en ▁sevilla
50000 ▁o ▁termin ▁municipal ▁d ' alagón ▁ye ▁trescruzato ▁por ▁o ▁río ▁ebro ▁y ▁por ▁o ▁suyo ▁afluyent ▁o ▁xalón . ▁tamién ▁i ▁discurre ▁a ▁canal ▁imperial ▁d ' aragón , ▁que ▁trescruza ▁o
▁o ▁baile ▁y ▁canto ▁popular ▁ye ▁a ▁hota ▁aragonesa , ▁que ▁ye ▁muit ▁ras mi uda ▁y ▁go yosa . ▁se ▁baila ▁con ▁muito ▁movimiento ▁y ▁grans ▁blin cos . ▁o ▁canto ▁gosa ▁estar ▁de ▁ritmo
▁* ▁0000 ▁- ▁naixencia ▁en ▁bet an zos ▁( galicia ) ▁d ' o ▁melitar ▁espanyol ▁d ' orichen ▁aragonés ▁manuel ▁villacampa ▁del ▁castillo ▁(†0000). ▁* ▁0000 ▁- ▁naixencia ▁en ▁sevilla
100000 ▁o ▁termin ▁municipal ▁d ' alagón ▁ye ▁trescruzato ▁por ▁o ▁río ▁ebro ▁y ▁por ▁o ▁suyo ▁afluyent ▁o ▁xalón . ▁tamién ▁i ▁discurre ▁a ▁canal ▁imperial ▁d ' aragón , ▁que ▁trescruza ▁o
▁o ▁baile ▁y ▁canto ▁popular ▁ye ▁a ▁hota ▁aragonesa , ▁que ▁ye ▁muit ▁ras mi uda ▁y ▁goyosa . ▁se ▁baila ▁con ▁muito ▁movimiento ▁y ▁grans ▁blincos . ▁o ▁canto ▁gosa ▁estar ▁de ▁ritmo
▁* ▁0000 ▁- ▁naixencia ▁en ▁betanzos ▁( galicia ) ▁d ' o ▁melitar ▁espanyol ▁d ' orichen ▁aragonés ▁manuel ▁villacampa ▁del ▁castillo ▁(†0000). ▁* ▁0000 ▁- ▁naixencia ▁en ▁sevilla