Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizegawiki sample
original * 0000 - peadar mór, impire na huile-rúise (r.0000) * 0000 - uinseann "mad dog" ó colla, drongadóir (r.0000) * 0000 - halldór laxness, úrscéalaí íosla
saolaíodh buscetta do lánúin bhocht i bpalermo a raibh seachtar duine déag de chlann acu roimhesean. ba é dríodar an chrúiscín é. ní nach ionadh, chua
lexicelt.org — foghlaim na breatnaise trí mheán na gaeilge, agus foghlaim na gaeilge trí mheán na breatnaise. *
1000 ▁* ▁0000 ▁- ▁p ead ar ▁mór , ▁im p ire ▁na ▁h u ile - rú ise ▁( r . 0000) ▁* ▁0000 ▁- ▁u ins eann ▁" m ad ▁do g " ▁ó ▁co l la , ▁d r on g ad óir ▁( r . 0000) ▁* ▁0000 ▁- ▁h all d ór ▁la x n es s , ▁ úr sc éa laí ▁ íos la
▁sao la íodh ▁b us ce t ta ▁do ▁lán ú in ▁bh o cht ▁i ▁bp al er m o ▁a ▁raibh ▁s eacht ar ▁duine ▁déag ▁de ▁chl ann ▁acu ▁roimh es ean . ▁ba ▁é ▁d río d ar ▁an ▁ch rú isc ín ▁é . ▁ní ▁nach ▁iona dh , ▁chu a
▁le x ic el t . or g ▁ — ▁fo gh l aim ▁na ▁brea t n ais e ▁trí ▁mh e án ▁na ▁gaeilge , ▁agus ▁fo gh l aim ▁na ▁gaeilge ▁trí ▁mh e án ▁na ▁brea t n ais e . ▁*
3000 ▁* ▁0000 ▁- ▁p eadar ▁mór , ▁impire ▁na ▁hu ile - rú ise ▁( r .0000) ▁* ▁0000 ▁- ▁u ins eann ▁" mad ▁do g " ▁ó ▁col la , ▁dr ong adóir ▁( r .0000) ▁* ▁0000 ▁- ▁h all d ór ▁la x n ess , ▁úr sc éalaí ▁ íos la
▁saolaíodh ▁b us ce t ta ▁do ▁lán úin ▁bh ocht ▁i ▁bp al er mo ▁a ▁raibh ▁seacht ar ▁duine ▁déag ▁de ▁chl ann ▁acu ▁roimh es ean . ▁ba ▁é ▁d río dar ▁an ▁ch rú isc ín ▁é . ▁ní ▁nach ▁iona dh , ▁chu a
▁le x ic el t . org ▁— ▁fo gh laim ▁na ▁brea tn aise ▁trí ▁mheán ▁na ▁gaeilge , ▁agus ▁fo gh laim ▁na ▁gaeilge ▁trí ▁mheán ▁na ▁brea tn aise . ▁*
5000 ▁* ▁0000 ▁- ▁peadar ▁mór , ▁impire ▁na ▁hu ile - rú ise ▁( r .0000) ▁* ▁0000 ▁- ▁u ins eann ▁" mad ▁do g " ▁ó ▁col la , ▁dr ong adóir ▁( r .0000) ▁* ▁0000 ▁- ▁hall d ór ▁la x n ess , ▁úrsc éalaí ▁íos la
▁saolaíodh ▁bus ce t ta ▁do ▁lán úin ▁bh ocht ▁i ▁bp al er mo ▁a ▁raibh ▁seacht ar ▁duine ▁déag ▁de ▁chlann ▁acu ▁roimh es ean . ▁ba ▁é ▁d río dar ▁an ▁ch rú isc ín ▁é . ▁ní ▁nach ▁iona dh , ▁chu a
▁le x ic el t . org ▁— ▁fogh laim ▁na ▁brea tn aise ▁trí ▁mheán ▁na ▁gaeilge , ▁agus ▁fogh laim ▁na ▁gaeilge ▁trí ▁mheán ▁na ▁brea tn aise . ▁*
10000 ▁* ▁0000 ▁- ▁peadar ▁mór , ▁impire ▁na ▁hu ile - rú ise ▁( r .0000) ▁* ▁0000 ▁- ▁u ins eann ▁" mad ▁do g " ▁ó ▁col la , ▁drong adóir ▁( r .0000) ▁* ▁0000 ▁- ▁hall d ór ▁la x ness , ▁úrscéalaí ▁íos la
▁saolaíodh ▁bus ce tta ▁do ▁lánúin ▁bh ocht ▁i ▁bp al er mo ▁a ▁raibh ▁seacht ar ▁duine ▁déag ▁de ▁chlann ▁acu ▁roimh es ean . ▁ba ▁é ▁d río dar ▁an ▁ch rú isc ín ▁é . ▁ní ▁nach ▁iona dh , ▁chu a
▁le x ic el t . org ▁— ▁foghlaim ▁na ▁brea tn aise ▁trí ▁mheán ▁na ▁gaeilge , ▁agus ▁foghlaim ▁na ▁gaeilge ▁trí ▁mheán ▁na ▁brea tn aise . ▁*
25000 ▁* ▁0000 ▁- ▁peadar ▁mór , ▁impire ▁na ▁huile - rú ise ▁( r .0000) ▁* ▁0000 ▁- ▁uinseann ▁" mad ▁dog " ▁ó ▁colla , ▁drong adóir ▁( r .0000) ▁* ▁0000 ▁- ▁hall d ór ▁la x ness , ▁úrscéalaí ▁íos la
▁saolaíodh ▁bus ce tta ▁do ▁lánúin ▁bhocht ▁i ▁bpal ermo ▁a ▁raibh ▁seachtar ▁duine ▁déag ▁de ▁chlann ▁acu ▁roimh esean . ▁ba ▁é ▁dríodar ▁an ▁chrú isc ín ▁é . ▁ní ▁nach ▁ionadh , ▁chu a
▁lex ic el t . org ▁— ▁foghlaim ▁na ▁breatnaise ▁trí ▁mheán ▁na ▁gaeilge , ▁agus ▁foghlaim ▁na ▁gaeilge ▁trí ▁mheán ▁na ▁breatnaise . ▁*
50000 ▁* ▁0000 ▁- ▁peadar ▁mór , ▁impire ▁na ▁huile - rúise ▁( r .0000) ▁* ▁0000 ▁- ▁uinseann ▁" mad ▁dog " ▁ó ▁colla , ▁drongadóir ▁( r .0000) ▁* ▁0000 ▁- ▁halldór ▁laxness , ▁úrscéalaí ▁íos la
▁saolaíodh ▁buscetta ▁do ▁lánúin ▁bhocht ▁i ▁bpalermo ▁a ▁raibh ▁seachtar ▁duine ▁déag ▁de ▁chlann ▁acu ▁roimh esean . ▁ba ▁é ▁dríodar ▁an ▁chrú iscín ▁é . ▁ní ▁nach ▁ionadh , ▁chu a
▁lex ic elt . org ▁— ▁foghlaim ▁na ▁breatnaise ▁trí ▁mheán ▁na ▁gaeilge , ▁agus ▁foghlaim ▁na ▁gaeilge ▁trí ▁mheán ▁na ▁breatnaise . ▁*
100000 ▁* ▁0000 ▁- ▁peadar ▁mór , ▁impire ▁na ▁huile - rúise ▁( r .0000) ▁* ▁0000 ▁- ▁uinseann ▁" mad ▁dog " ▁ó ▁colla , ▁drongadóir ▁( r .0000) ▁* ▁0000 ▁- ▁halldór ▁laxness , ▁úrscéalaí ▁íos la
▁saolaíodh ▁buscetta ▁do ▁lánúin ▁bhocht ▁i ▁bpalermo ▁a ▁raibh ▁seachtar ▁duine ▁déag ▁de ▁chlann ▁acu ▁roimhesean . ▁ba ▁é ▁dríodar ▁an ▁chrúiscín ▁é . ▁ní ▁nach ▁ionadh , ▁chu a
▁lexic elt . org ▁— ▁foghlaim ▁na ▁breatnaise ▁trí ▁mheán ▁na ▁gaeilge , ▁agus ▁foghlaim ▁na ▁gaeilge ▁trí ▁mheán ▁na ▁breatnaise . ▁*