Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizescnwiki sample
original la lingua serba (ntô serbu: српски jезик o srpski jezik siddu scriutu cu l'alfabbetu latinu) è una dî virsiuna standard dû diasistema slàvicu centru-m
* laval (mayenne), cumuni francisi ntô ripartu dû mayenne. * laval (isère), cumuni francisi ntô ripartu dû isère. * laval-atger, cumuni francisi ntô r
* giuseppi sorgi: "''mussomeli, dall'origine all'abolizione della feudalità''" - 0000-0000 * giuseppi sorgi: "''mussomeli nel secolo xix, cronache dal
1000 ▁la ▁lingua ▁s er ba ▁( n t ô ▁s er bu : ▁ с р п с к и ▁j е з и к ▁o ▁s r p s ki ▁j e zi k ▁si ddu ▁sc riu tu ▁cu ▁l ' al fa bb e tu ▁la tinu ) ▁è ▁una ▁dî ▁vir si una ▁st and ard ▁dû ▁di a si ste ma ▁s l à vi cu ▁centru - m
▁* ▁la va l ▁( ma y en ne ), ▁cumuni ▁francisi ▁ntô ▁ri p ar tu ▁dû ▁ma y en ne . ▁* ▁la va l ▁( is è re ), ▁cumuni ▁francisi ▁ntô ▁ri p ar tu ▁dû ▁is è re . ▁* ▁la va l - at g er , ▁cumuni ▁francisi ▁ntô ▁r
▁* ▁giu se ppi ▁s or gi : ▁" '' mu ss o me li , ▁d all ' ori g in e ▁all ' a bo li zi one ▁del la ▁fe u d ali tà '' " ▁- ▁0000 -0000 ▁* ▁giu se ppi ▁s or gi : ▁" '' mu ss o me li ▁n el ▁se co lo ▁x i x , ▁c r ona che ▁d al
3000 ▁la ▁lingua ▁ser ba ▁( nt ô ▁ser bu : ▁ с р п с к и ▁j е з и к ▁o ▁s r ps ki ▁je zi k ▁siddu ▁sc riu tu ▁cu ▁l ' al fa bbe tu ▁latinu ) ▁è ▁una ▁dî ▁vir si una ▁st and ard ▁dû ▁dia si ste ma ▁s là vi cu ▁centru - m
▁* ▁la val ▁( ma y en ne ), ▁cumuni ▁francisi ▁ntô ▁rip ar tu ▁dû ▁may en ne . ▁* ▁la val ▁( is è re ), ▁cumuni ▁francisi ▁ntô ▁rip ar tu ▁dû ▁is è re . ▁* ▁la val - at ger , ▁cumuni ▁francisi ▁ntô ▁r
▁* ▁giuseppi ▁sor gi : ▁"'' mu sso me li , ▁d all ' ori gin e ▁all ' a bo li zione ▁della ▁fe u d ali tà ''" ▁- ▁0000-0000 ▁* ▁giuseppi ▁sor gi : ▁"'' mu sso me li ▁nel ▁se colo ▁xix , ▁c r ona che ▁dal
5000 ▁la ▁lingua ▁ser ba ▁( ntô ▁ser bu : ▁ с р п с к и ▁j е з и к ▁o ▁s r ps ki ▁je zi k ▁siddu ▁sc riu tu ▁cu ▁l ' al fabbetu ▁latinu ) ▁è ▁una ▁dî ▁vir si una ▁standard ▁dû ▁dia si ste ma ▁s là vi cu ▁centru - m
▁* ▁la val ▁( may enne ), ▁cumuni ▁francisi ▁ntô ▁rip artu ▁dû ▁may enne . ▁* ▁la val ▁( is è re ), ▁cumuni ▁francisi ▁ntô ▁rip artu ▁dû ▁is è re . ▁* ▁la val - at ger , ▁cumuni ▁francisi ▁ntô ▁r
▁* ▁giuseppi ▁sor gi : ▁"'' mu sso me li , ▁dall ' ori gin e ▁all ' a bo li zione ▁della ▁fe ud ali tà ''" ▁- ▁0000-0000 ▁* ▁giuseppi ▁sor gi : ▁"'' mu sso me li ▁nel ▁se colo ▁xix , ▁c r ona che ▁dal
10000 ▁la ▁lingua ▁ser ba ▁( ntô ▁ser bu : ▁ с р п ск и ▁j е з и к ▁o ▁s r ps ki ▁je zi k ▁siddu ▁sc riu tu ▁cu ▁l ' alfabbetu ▁latinu ) ▁è ▁una ▁dî ▁vir si una ▁standard ▁dû ▁dia siste ma ▁s là vicu ▁centru - m
▁* ▁la val ▁( may enne ), ▁cumuni ▁francisi ▁ntô ▁ripartu ▁dû ▁may enne . ▁* ▁la val ▁( is ère ), ▁cumuni ▁francisi ▁ntô ▁ripartu ▁dû ▁is ère . ▁* ▁la val - at ger , ▁cumuni ▁francisi ▁ntô ▁r
▁* ▁giuseppi ▁sor gi : ▁"'' mu sso meli , ▁dall ' ori gine ▁all ' a bo li zione ▁della ▁fe ud alità ''" ▁- ▁0000-0000 ▁* ▁giuseppi ▁sor gi : ▁"'' mu sso meli ▁nel ▁secolo ▁xix , ▁c rona che ▁dal
25000 ▁la ▁lingua ▁ser ba ▁( ntô ▁serbu : ▁с р п ски ▁j е з и к ▁o ▁sr ps ki ▁je zi k ▁siddu ▁scriu tu ▁cu ▁l ' alfabbetu ▁latinu ) ▁è ▁una ▁dî ▁vir siuna ▁standard ▁dû ▁dia sistema ▁s là vicu ▁centru - m
▁* ▁laval ▁( may enne ), ▁cumuni ▁francisi ▁ntô ▁ripartu ▁dû ▁may enne . ▁* ▁laval ▁( is ère ), ▁cumuni ▁francisi ▁ntô ▁ripartu ▁dû ▁is ère . ▁* ▁laval - at ger , ▁cumuni ▁francisi ▁ntô ▁r
▁* ▁giuseppi ▁sorgi : ▁"'' mu sso meli , ▁dall ' ori gine ▁all ' a boli zione ▁della ▁fe ud alità ''" ▁- ▁0000-0000 ▁* ▁giuseppi ▁sorgi : ▁"'' mu sso meli ▁nel ▁secolo ▁xix , ▁crona che ▁dal
50000 ▁la ▁lingua ▁serba ▁( ntô ▁serbu : ▁с р п ски ▁j е з и к ▁o ▁sr ps ki ▁je zi k ▁siddu ▁scriutu ▁cu ▁l ' alfabbetu ▁latinu ) ▁è ▁una ▁dî ▁vir siuna ▁standard ▁dû ▁dia sistema ▁slà vicu ▁centru - m
▁* ▁laval ▁( may enne ), ▁cumuni ▁francisi ▁ntô ▁ripartu ▁dû ▁may enne . ▁* ▁laval ▁( is ère ), ▁cumuni ▁francisi ▁ntô ▁ripartu ▁dû ▁is ère . ▁* ▁laval - at ger , ▁cumuni ▁francisi ▁ntô ▁r
▁* ▁giuseppi ▁sorgi : ▁"'' mu sso meli , ▁dall ' ori gine ▁all ' a boli zione ▁della ▁feud alità ''" ▁- ▁0000-0000 ▁* ▁giuseppi ▁sorgi : ▁"'' mu sso meli ▁nel ▁secolo ▁xix , ▁crona che ▁dal
100000 ▁la ▁lingua ▁serba ▁( ntô ▁serbu : ▁ср п ски ▁j е з ик ▁o ▁sr ps ki ▁jezik ▁siddu ▁scriutu ▁cu ▁l ' alfabbetu ▁latinu ) ▁è ▁una ▁dî ▁virsiuna ▁standard ▁dû ▁dia sistema ▁slà vicu ▁centru - m
▁* ▁laval ▁( may enne ), ▁cumuni ▁francisi ▁ntô ▁ripartu ▁dû ▁mayenne . ▁* ▁laval ▁( is ère ), ▁cumuni ▁francisi ▁ntô ▁ripartu ▁dû ▁is ère . ▁* ▁laval - at ger , ▁cumuni ▁francisi ▁ntô ▁r
▁* ▁giuseppi ▁sorgi : ▁"'' mussomeli , ▁dall ' origine ▁all ' aboli zione ▁della ▁feud alità ''" ▁- ▁0000-0000 ▁* ▁giuseppi ▁sorgi : ▁"'' mussomeli ▁nel ▁secolo ▁xix , ▁cronache ▁dal