Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizelmowiki sample
original el primm nucli del grupp el nass intorna al 0000-0000 al licee einstein de milan, indè che in de l'istessa classa i studiaven el stefano belisari, el
balazuc l'è 'n cümü fransés de la regiù rhône-alpes, endèla frància meridiunàla. el fa part del cantù de vallon-pont-d'arc, del circondàre (''arrondis
u in d'òolt tèrmen :al esiist un cungjuunt ''a'' taal che, par cada cungjuunt''b'' qual-sa-vöör, ''b'' al è mia un elemeent da ''a''.
1000 ▁el ▁pri mm ▁n u c li ▁del ▁g ru pp ▁el ▁na ss ▁int or na ▁al ▁0000 -0000 ▁al ▁li ce e ▁e in st ein ▁de ▁milan , ▁in dè ▁che ▁in ▁de ▁l ' ist es sa ▁c la ssa ▁i ▁st u dia ven ▁el ▁st e f ano ▁bel is ari , ▁el
▁b ala z u c ▁l ' è ▁' n ▁cümü ▁fransés ▁de ▁la ▁regiù ▁rhône - alpes , ▁endèla ▁frància ▁meridiunàla . ▁el ▁fa ▁part ▁del ▁cantù ▁de ▁val l on - p ont - d ' ar c , ▁del ▁circondàre ▁('' arr ond is
▁u ▁in ▁d ' ò ol t ▁t èr men ▁: al ▁e si ist ▁un ▁cun g ju unt ▁'' a '' ▁ta al ▁che , ▁par ▁ca da ▁cun g ju unt '' b '' ▁qu al - sa - v ö ö r , ▁'' b '' ▁al ▁è ▁mia ▁un ▁el em e ent ▁da ▁'' a ''.
3000 ▁el ▁primm ▁nu c li ▁del ▁grupp ▁el ▁nass ▁int orna ▁al ▁0000-0000 ▁al ▁li ce e ▁e in stein ▁de ▁milan , ▁indè ▁che ▁in ▁de ▁l ' ist essa ▁cla ssa ▁i ▁stu dia ven ▁el ▁ste f ano ▁bel is ari , ▁el
▁b ala z u c ▁l ' è ▁' n ▁cümü ▁fransés ▁de ▁la ▁regiù ▁rhône - alpes , ▁endèla ▁frància ▁meridiunàla . ▁el ▁fa ▁part ▁del ▁cantù ▁de ▁vall on - p ont - d ' ar c , ▁del ▁circondàre ▁('' arr ond is
▁u ▁in ▁d ' ò olt ▁t èr men ▁: al ▁e si ist ▁un ▁cungjuunt ▁'' a '' ▁ta al ▁che , ▁par ▁cada ▁cungjuunt '' b '' ▁qual - sa - v ö ör , ▁'' b '' ▁al ▁è ▁mia ▁un ▁elemeent ▁da ▁'' a ''.
5000 ▁el ▁primm ▁nu cli ▁del ▁grupp ▁el ▁nass ▁intorna ▁al ▁0000-0000 ▁al ▁li cee ▁e in stein ▁de ▁milan , ▁indè ▁che ▁in ▁de ▁l ' istessa ▁cla ssa ▁i ▁stu dia ven ▁el ▁stefano ▁bel is ari , ▁el
▁b ala zu c ▁l ' è ▁' n ▁cümü ▁fransés ▁de ▁la ▁regiù ▁rhône - alpes , ▁endèla ▁frància ▁meridiunàla . ▁el ▁fa ▁part ▁del ▁cantù ▁de ▁vall on - pont - d ' ar c , ▁del ▁circondàre ▁('' arr ond is
▁u ▁in ▁d ' ò olt ▁tèr men ▁: al ▁esi ist ▁un ▁cungjuunt ▁'' a '' ▁ta al ▁che , ▁par ▁cada ▁cungjuunt '' b '' ▁qual - sa - v ö ör , ▁'' b '' ▁al ▁è ▁mia ▁un ▁elemeent ▁da ▁'' a ''.
10000 ▁el ▁primm ▁nu cli ▁del ▁grupp ▁el ▁nass ▁intorna ▁al ▁0000-0000 ▁al ▁li cee ▁ein stein ▁de ▁milan , ▁indè ▁che ▁in ▁de ▁l ' istessa ▁classa ▁i ▁studia ven ▁el ▁stefano ▁bel is ari , ▁el
▁bala zu c ▁l ' è ▁' n ▁cümü ▁fransés ▁de ▁la ▁regiù ▁rhône - alpes , ▁endèla ▁frància ▁meridiunàla . ▁el ▁fa ▁part ▁del ▁cantù ▁de ▁vall on - pont - d ' arc , ▁del ▁circondàre ▁('' arr ond is
▁u ▁in ▁d ' ò olt ▁tèr men ▁: al ▁esiist ▁un ▁cungjuunt ▁'' a '' ▁ta al ▁che , ▁par ▁cada ▁cungjuunt '' b '' ▁qual - sa - vöör , ▁'' b '' ▁al ▁è ▁mia ▁un ▁elemeent ▁da ▁'' a ''.
25000 ▁el ▁primm ▁nucli ▁del ▁grupp ▁el ▁nass ▁intorna ▁al ▁0000-0000 ▁al ▁li cee ▁einstein ▁de ▁milan , ▁indè ▁che ▁in ▁de ▁l ' istessa ▁classa ▁i ▁studia ven ▁el ▁stefano ▁bel is ari , ▁el
▁bala zu c ▁l ' è ▁' n ▁cümü ▁fransés ▁de ▁la ▁regiù ▁rhône - alpes , ▁endèla ▁frància ▁meridiunàla . ▁el ▁fa ▁part ▁del ▁cantù ▁de ▁vallon - pont - d ' arc , ▁del ▁circondàre ▁('' arr ond is
▁u ▁in ▁d ' òolt ▁tèrmen ▁: al ▁esiist ▁un ▁cungjuunt ▁'' a '' ▁taal ▁che , ▁par ▁cada ▁cungjuunt '' b '' ▁qual - sa - vöör , ▁'' b '' ▁al ▁è ▁mia ▁un ▁elemeent ▁da ▁'' a ''.
50000 ▁el ▁primm ▁nucli ▁del ▁grupp ▁el ▁nass ▁intorna ▁al ▁0000-0000 ▁al ▁licee ▁einstein ▁de ▁milan , ▁indè ▁che ▁in ▁de ▁l ' istessa ▁classa ▁i ▁studia ven ▁el ▁stefano ▁belisari , ▁el
▁bala zu c ▁l ' è ▁' n ▁cümü ▁fransés ▁de ▁la ▁regiù ▁rhône - alpes , ▁endèla ▁frància ▁meridiunàla . ▁el ▁fa ▁part ▁del ▁cantù ▁de ▁vallon - pont - d ' arc , ▁del ▁circondàre ▁('' arr ond is
▁u ▁in ▁d ' òolt ▁tèrmen ▁: al ▁esiist ▁un ▁cungjuunt ▁'' a '' ▁taal ▁che , ▁par ▁cada ▁cungjuunt '' b '' ▁qual - sa - vöör , ▁'' b '' ▁al ▁è ▁mia ▁un ▁elemeent ▁da ▁'' a ''.
100000 ▁el ▁primm ▁nucli ▁del ▁grupp ▁el ▁nass ▁intorna ▁al ▁0000-0000 ▁al ▁licee ▁einstein ▁de ▁milan , ▁indè ▁che ▁in ▁de ▁l ' istessa ▁classa ▁i ▁studiaven ▁el ▁stefano ▁belisari , ▁el
▁bala zu c ▁l ' è ▁' n ▁cümü ▁fransés ▁de ▁la ▁regiù ▁rhône - alpes , ▁endèla ▁frància ▁meridiunàla . ▁el ▁fa ▁part ▁del ▁cantù ▁de ▁vallon - pont - d ' arc , ▁del ▁circondàre ▁('' arr ond is
▁u ▁in ▁d ' òolt ▁tèrmen ▁: al ▁esiist ▁un ▁cungjuunt ▁'' a '' ▁taal ▁che , ▁par ▁cada ▁cungjuunt '' b '' ▁qual - sa - vöör , ▁'' b '' ▁al ▁è ▁mia ▁un ▁elemeent ▁da ▁'' a ''.