Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizekuwiki sample
original navê sîstema paketan ya debian .deb e, ev sîstem gelek xurt e. rojanekirina bi vê sîstemê gelek hesan e. sîstema .deb ji aliyê ubuntu jî tê bi kar anî
qedr yek sûreyek ji quran a pîroz e. va sûra li bajarê mekkê ji mihemmed pêxamber ra hatiye wahîy kirin û bi temamî ji 0 ayetan pêk tê. sûre qala şeva
* 0000 – karesata herî mezin a di dîroka deryavantiya tirkiyeyê de li kendava îzmîtê qewimî. keştiya bi navê „üsküdar" lûqî bin avê bû û 000 kesên tê
1000 ▁navê ▁s îst ema ▁p ak et an ▁ya ▁de bi an ▁ . d eb ▁e , ▁ev ▁s îst em ▁gelek ▁x ur t ▁e . ▁roj an ekirin a ▁bi ▁vê ▁s îst emê ▁gelek ▁hes an ▁e . ▁s îst ema ▁ . d eb ▁ji ▁aliyê ▁u b un t u ▁jî ▁tê ▁bi ▁kar ▁an î
▁q ed r ▁yek ▁s ûr ey ek ▁ji ▁q ur an ▁a ▁pîr oz ▁e . ▁v a ▁s ûr a ▁li ▁bajarê ▁m ek kê ▁ji ▁m ih em med ▁pê x am ber ▁ra ▁hatiye ▁w ah îy ▁kirin ▁û ▁bi ▁tem am î ▁ji ▁0 ▁ ay et an ▁pêk ▁tê . ▁s ûr e ▁q ala ▁ş ev a
▁* ▁0000 ▁– ▁kar es ata ▁herî ▁mezin ▁a ▁di ▁dîrok a ▁der y av ant iya ▁tirk iy eyê ▁de ▁li ▁k end ava ▁ îz m ît ê ▁q ew im î . ▁ke şt iya ▁bi ▁navê ▁ „ ü s k ü dar " ▁l û q î ▁bin ▁avê ▁bû ▁û ▁000 ▁kes ên ▁tê
3000 ▁navê ▁sîstema ▁pak etan ▁ya ▁de bi an ▁. d eb ▁e , ▁ev ▁sîst em ▁gelek ▁xurt ▁e . ▁rojan ekirina ▁bi ▁vê ▁sîst emê ▁gelek ▁hes an ▁e . ▁sîstema ▁. d eb ▁ji ▁aliyê ▁u b un t u ▁jî ▁tê ▁bi ▁kar ▁anî
▁qed r ▁yek ▁sûr eyek ▁ji ▁qur an ▁a ▁pîroz ▁e . ▁va ▁sûr a ▁li ▁bajarê ▁mek kê ▁ji ▁mihem med ▁pêx am ber ▁ra ▁hatiye ▁w ah îy ▁kirin ▁û ▁bi ▁tem amî ▁ji ▁0 ▁ay etan ▁pêk ▁tê . ▁sûr e ▁q ala ▁şev a
▁* ▁0000 ▁– ▁kar es ata ▁herî ▁mezin ▁a ▁di ▁dîroka ▁der y av ant iya ▁tirkiyeyê ▁de ▁li ▁kend ava ▁ îzm ît ê ▁qew im î . ▁ke şt iya ▁bi ▁navê ▁„ ü sk ü dar " ▁l û qî ▁bin ▁avê ▁bû ▁û ▁000 ▁kesên ▁tê
5000 ▁navê ▁sîstema ▁pak etan ▁ya ▁de bi an ▁. d eb ▁e , ▁ev ▁sîst em ▁gelek ▁xurt ▁e . ▁rojan ekirina ▁bi ▁vê ▁sîst emê ▁gelek ▁hes an ▁e . ▁sîstema ▁. d eb ▁ji ▁aliyê ▁u b un tu ▁jî ▁tê ▁bi ▁kar ▁anî
▁qed r ▁yek ▁sûr eyek ▁ji ▁qur an ▁a ▁pîroz ▁e . ▁va ▁sûr a ▁li ▁bajarê ▁mek kê ▁ji ▁mihem med ▁pêx amber ▁ra ▁hatiye ▁w ah îy ▁kirin ▁û ▁bi ▁temamî ▁ji ▁0 ▁ay etan ▁pêk ▁tê . ▁sûre ▁qala ▁şev a
▁* ▁0000 ▁– ▁kar es ata ▁herî ▁mezin ▁a ▁di ▁dîroka ▁dery av ant iya ▁tirkiyeyê ▁de ▁li ▁kendava ▁ îzm îtê ▁qew imî . ▁keşt iya ▁bi ▁navê ▁„ ü sk ü dar " ▁l û qî ▁bin ▁avê ▁bû ▁û ▁000 ▁kesên ▁tê
10000 ▁navê ▁sîstema ▁pak etan ▁ya ▁de bi an ▁. deb ▁e , ▁ev ▁sîstem ▁gelek ▁xurt ▁e . ▁rojan ekirina ▁bi ▁vê ▁sîst emê ▁gelek ▁hes an ▁e . ▁sîstema ▁. deb ▁ji ▁aliyê ▁u bun tu ▁jî ▁tê ▁bi ▁kar ▁anî
▁qed r ▁yek ▁sûreyek ▁ji ▁quran ▁a ▁pîroz ▁e . ▁va ▁sûr a ▁li ▁bajarê ▁mekkê ▁ji ▁mihemmed ▁pêxamber ▁ra ▁hatiye ▁wah îy ▁kirin ▁û ▁bi ▁temamî ▁ji ▁0 ▁ayetan ▁pêk ▁tê . ▁sûre ▁qala ▁şeva
▁* ▁0000 ▁– ▁kar es ata ▁herî ▁mezin ▁a ▁di ▁dîroka ▁dery av ant iya ▁tirkiyeyê ▁de ▁li ▁kendava ▁îzm îtê ▁qewimî . ▁keştiya ▁bi ▁navê ▁„ ü sk ü dar " ▁l û qî ▁bin ▁avê ▁bû ▁û ▁000 ▁kesên ▁tê
25000 ▁navê ▁sîstema ▁pak etan ▁ya ▁de bian ▁. deb ▁e , ▁ev ▁sîstem ▁gelek ▁xurt ▁e . ▁rojan ekirina ▁bi ▁vê ▁sîstemê ▁gelek ▁hesan ▁e . ▁sîstema ▁. deb ▁ji ▁aliyê ▁ubuntu ▁jî ▁tê ▁bi ▁kar ▁anî
▁qedr ▁yek ▁sûreyek ▁ji ▁quran ▁a ▁pîroz ▁e . ▁va ▁sûra ▁li ▁bajarê ▁mekkê ▁ji ▁mihemmed ▁pêxamber ▁ra ▁hatiye ▁wahîy ▁kirin ▁û ▁bi ▁temamî ▁ji ▁0 ▁ayetan ▁pêk ▁tê . ▁sûre ▁qala ▁şeva
▁* ▁0000 ▁– ▁kares ata ▁herî ▁mezin ▁a ▁di ▁dîroka ▁deryav antiya ▁tirkiyeyê ▁de ▁li ▁kendava ▁îzm îtê ▁qewimî . ▁keştiya ▁bi ▁navê ▁„ ü sk ü dar " ▁lû qî ▁bin ▁avê ▁bû ▁û ▁000 ▁kesên ▁tê
50000 ▁navê ▁sîstema ▁pak etan ▁ya ▁debian ▁. deb ▁e , ▁ev ▁sîstem ▁gelek ▁xurt ▁e . ▁rojan ekirina ▁bi ▁vê ▁sîstemê ▁gelek ▁hesan ▁e . ▁sîstema ▁. deb ▁ji ▁aliyê ▁ubuntu ▁jî ▁tê ▁bi ▁kar ▁anî
▁qedr ▁yek ▁sûreyek ▁ji ▁quran ▁a ▁pîroz ▁e . ▁va ▁sûra ▁li ▁bajarê ▁mekkê ▁ji ▁mihemmed ▁pêxamber ▁ra ▁hatiye ▁wahîy ▁kirin ▁û ▁bi ▁temamî ▁ji ▁0 ▁ayetan ▁pêk ▁tê . ▁sûre ▁qala ▁şeva
▁* ▁0000 ▁– ▁karesata ▁herî ▁mezin ▁a ▁di ▁dîroka ▁deryav antiya ▁tirkiyeyê ▁de ▁li ▁kendava ▁îzm îtê ▁qewimî . ▁keştiya ▁bi ▁navê ▁„ ü skü dar " ▁lû qî ▁bin ▁avê ▁bû ▁û ▁000 ▁kesên ▁tê
100000 ▁navê ▁sîstema ▁pak etan ▁ya ▁debian ▁. deb ▁e , ▁ev ▁sîstem ▁gelek ▁xurt ▁e . ▁rojanekirina ▁bi ▁vê ▁sîstemê ▁gelek ▁hesan ▁e . ▁sîstema ▁. deb ▁ji ▁aliyê ▁ubuntu ▁jî ▁tê ▁bi ▁kar ▁anî
▁qedr ▁yek ▁sûreyek ▁ji ▁quran ▁a ▁pîroz ▁e . ▁va ▁sûra ▁li ▁bajarê ▁mekkê ▁ji ▁mihemmed ▁pêxamber ▁ra ▁hatiye ▁wahîy ▁kirin ▁û ▁bi ▁temamî ▁ji ▁0 ▁ayetan ▁pêk ▁tê . ▁sûre ▁qala ▁şeva
▁* ▁0000 ▁– ▁karesata ▁herî ▁mezin ▁a ▁di ▁dîroka ▁deryav antiya ▁tirkiyeyê ▁de ▁li ▁kendava ▁îzm îtê ▁qewimî . ▁keştiya ▁bi ▁navê ▁„ üskü dar " ▁lû qî ▁bin ▁avê ▁bû ▁û ▁000 ▁kesên ▁tê