Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizecywiki sample
original dros gyfnod o flwyddyn mae cyflymder a chryfder y gwynt yn eitha cyson, ond yn y tymor byr, gall fod yn eitha anghyson: heb ddim gwynt ar adegau. caif
*grugiar, grugiar goch (red grouse, ''lagopus lagopus'') *grugiar yr alban, grugiar wen (ptarmigan, ''lagopus mutus'') *grugiar ddu (black grouse, ''t
*00 ionawr - mahatma gandhi, gwleidydd, 00 *00 chwefror - sergei eisenstein, cyfarwyddwr ffilm, 00 *00 awst - david john de lloyd, cyfansoddwr, 00 *00
1000 ▁dros ▁gyf nod ▁o ▁fl wyddyn ▁mae ▁cyf l ym der ▁a ▁ch r yf der ▁y ▁gwyn t ▁yn ▁ei th a ▁c ys on , ▁ond ▁yn ▁y ▁t ym or ▁b yr , ▁gall ▁fod ▁yn ▁ei th a ▁an gh ys on : ▁h eb ▁ddi m ▁gwyn t ▁ar ▁ad eg au . ▁c ai f
▁* gr ug i ar , ▁gr ug i ar ▁goch ▁( r ed ▁g ro us e , ▁'' l ag op us ▁l ag op us '') ▁* gr ug i ar ▁yr ▁alban , ▁gr ug i ar ▁w en ▁( p t ar m ig an , ▁'' l ag op us ▁m ut us '') ▁* gr ug i ar ▁dd u ▁( bl ac k ▁g ro us e , ▁'' t
▁* 00 ▁i on awr ▁- ▁m ah at m a ▁gan d h i , ▁gwl eid ydd , ▁00 ▁* 00 ▁chw ef r or ▁- ▁s er g ei ▁ei s en st ein , ▁cyf ar wydd wr ▁ffilm , ▁00 ▁* 00 ▁awst ▁- ▁dav id ▁john ▁de ▁llo yd , ▁cyf ans odd wr , ▁00 ▁* 00
3000 ▁dros ▁gyfnod ▁o ▁flwyddyn ▁mae ▁cyfl ym der ▁a ▁ch r yf der ▁y ▁gwyn t ▁yn ▁eith a ▁c ys on , ▁ond ▁yn ▁y ▁tym or ▁byr , ▁gall ▁fod ▁yn ▁eith a ▁angh ys on : ▁heb ▁ddim ▁gwyn t ▁ar ▁adeg au . ▁c ai f
▁* grug i ar , ▁gr ug i ar ▁goch ▁( red ▁gro us e , ▁'' l ag op us ▁l ag op us '') ▁* grug i ar ▁yr ▁alban , ▁gr ug i ar ▁wen ▁( pt ar m ig an , ▁'' l ag op us ▁m ut us '') ▁* grug i ar ▁ddu ▁( bl ack ▁gro us e , ▁'' t
▁*00 ▁ionawr ▁- ▁m ah at ma ▁gan d h i , ▁gwleidydd , ▁00 ▁*00 ▁chwefror ▁- ▁ser g ei ▁ei sen st ein , ▁cyf arwyddwr ▁ffilm , ▁00 ▁*00 ▁awst ▁- ▁david ▁john ▁de ▁lloyd , ▁cyfansoddwr , ▁00 ▁*00
5000 ▁dros ▁gyfnod ▁o ▁flwyddyn ▁mae ▁cyfl ym der ▁a ▁chr yf der ▁y ▁gwyn t ▁yn ▁eith a ▁cys on , ▁ond ▁yn ▁y ▁tymor ▁byr , ▁gall ▁fod ▁yn ▁eith a ▁angh ys on : ▁heb ▁ddim ▁gwyn t ▁ar ▁adeg au . ▁c ai f
▁* grug i ar , ▁grug i ar ▁goch ▁( red ▁gro use , ▁'' l ag op us ▁l ag op us '') ▁* grug i ar ▁yr ▁alban , ▁grug i ar ▁wen ▁( pt ar m ig an , ▁'' l ag op us ▁m ut us '') ▁* grug i ar ▁ddu ▁( black ▁gro use , ▁'' t
▁*00 ▁ionawr ▁- ▁m ah at ma ▁gan d h i , ▁gwleidydd , ▁00 ▁*00 ▁chwefror ▁- ▁ser g ei ▁ei sen stein , ▁cyfarwyddwr ▁ffilm , ▁00 ▁*00 ▁awst ▁- ▁david ▁john ▁de ▁lloyd , ▁cyfansoddwr , ▁00 ▁*00
10000 ▁dros ▁gyfnod ▁o ▁flwyddyn ▁mae ▁cyflym der ▁a ▁chr yf der ▁y ▁gwynt ▁yn ▁eitha ▁cys on , ▁ond ▁yn ▁y ▁tymor ▁byr , ▁gall ▁fod ▁yn ▁eitha ▁angh ys on : ▁heb ▁ddim ▁gwynt ▁ar ▁adegau . ▁cai f
▁* grug i ar , ▁grug i ar ▁goch ▁( red ▁gro use , ▁'' l ag opus ▁l ag opus '') ▁* grug i ar ▁yr ▁alban , ▁grug i ar ▁wen ▁( pt arm igan , ▁'' l ag opus ▁m ut us '') ▁* grug i ar ▁ddu ▁( black ▁gro use , ▁'' t
▁*00 ▁ionawr ▁- ▁mah at ma ▁gan d hi , ▁gwleidydd , ▁00 ▁*00 ▁chwefror ▁- ▁ser g ei ▁ei sen stein , ▁cyfarwyddwr ▁ffilm , ▁00 ▁*00 ▁awst ▁- ▁david ▁john ▁de ▁lloyd , ▁cyfansoddwr , ▁00 ▁*00
25000 ▁dros ▁gyfnod ▁o ▁flwyddyn ▁mae ▁cyflymder ▁a ▁chryf der ▁y ▁gwynt ▁yn ▁eitha ▁cyson , ▁ond ▁yn ▁y ▁tymor ▁byr , ▁gall ▁fod ▁yn ▁eitha ▁angh yson : ▁heb ▁ddim ▁gwynt ▁ar ▁adegau . ▁cai f
▁* grug iar , ▁grugiar ▁goch ▁( red ▁gro use , ▁'' lag opus ▁lag opus '') ▁* grug iar ▁yr ▁alban , ▁grugiar ▁wen ▁( pt arm igan , ▁'' lag opus ▁mut us '') ▁* grug iar ▁ddu ▁( black ▁gro use , ▁'' t
▁*00 ▁ionawr ▁- ▁mah at ma ▁gandhi , ▁gwleidydd , ▁00 ▁*00 ▁chwefror ▁- ▁sergei ▁eisen stein , ▁cyfarwyddwr ▁ffilm , ▁00 ▁*00 ▁awst ▁- ▁david ▁john ▁de ▁lloyd , ▁cyfansoddwr , ▁00 ▁*00
50000 ▁dros ▁gyfnod ▁o ▁flwyddyn ▁mae ▁cyflymder ▁a ▁chryfder ▁y ▁gwynt ▁yn ▁eitha ▁cyson , ▁ond ▁yn ▁y ▁tymor ▁byr , ▁gall ▁fod ▁yn ▁eitha ▁anghyson : ▁heb ▁ddim ▁gwynt ▁ar ▁adegau . ▁cai f
▁* grug iar , ▁grugiar ▁goch ▁( red ▁grouse , ▁'' lag opus ▁lag opus '') ▁* grug iar ▁yr ▁alban , ▁grugiar ▁wen ▁( pt arm igan , ▁'' lag opus ▁mut us '') ▁* grug iar ▁ddu ▁( black ▁grouse , ▁'' t
▁*00 ▁ionawr ▁- ▁mahatma ▁gandhi , ▁gwleidydd , ▁00 ▁*00 ▁chwefror ▁- ▁sergei ▁eisen stein , ▁cyfarwyddwr ▁ffilm , ▁00 ▁*00 ▁awst ▁- ▁david ▁john ▁de ▁lloyd , ▁cyfansoddwr , ▁00 ▁*00
100000 ▁dros ▁gyfnod ▁o ▁flwyddyn ▁mae ▁cyflymder ▁a ▁chryfder ▁y ▁gwynt ▁yn ▁eitha ▁cyson , ▁ond ▁yn ▁y ▁tymor ▁byr , ▁gall ▁fod ▁yn ▁eitha ▁anghyson : ▁heb ▁ddim ▁gwynt ▁ar ▁adegau . ▁cai f
▁* grugiar , ▁grugiar ▁goch ▁( red ▁grouse , ▁'' lagopus ▁lagopus '') ▁* grugiar ▁yr ▁alban , ▁grugiar ▁wen ▁( pt arm igan , ▁'' lagopus ▁mut us '') ▁* grugiar ▁ddu ▁( black ▁grouse , ▁'' t
▁*00 ▁ionawr ▁- ▁mahatma ▁gandhi , ▁gwleidydd , ▁00 ▁*00 ▁chwefror ▁- ▁sergei ▁eisenstein , ▁cyfarwyddwr ▁ffilm , ▁00 ▁*00 ▁awst ▁- ▁david ▁john ▁de ▁lloyd , ▁cyfansoddwr , ▁00 ▁*00