Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizetgwiki sample
original 0) тангенси кунҷ гуфта нисбати дарозии тарафи муқобил ба дарозии тарафи ба кунҷ часпидаро меноманд. дар ҳолати мо
карина нахустин нақшашро дар филми «фирорӣ»(соли 0000) иҷро кардааст. ҳунарнамоӣ дар ин филм ӯро барандаи чанд ҷоизаи синамои ҳиндустон кард ки аз ҷум
акс:flag of the emirate of bukhara.svg|парчами аморат то 0 сентябри соли 0000 акс:bukhara nsr.png|аз 00 сентябри соли 0000 то 00 августи соли 0000 акс
1000 ▁0 ) ▁т анг ен си ▁кун ҷ ▁гу фта ▁ни с б ати ▁дар оз ии ▁тар афи ▁му қ о би л ▁ба ▁дар оз ии ▁тар афи ▁ба ▁кун ҷ ▁ч ас пи дар о ▁ме ном анд . ▁дар ▁ ҳол ати ▁мо
▁кар ина ▁нахустин ▁нақ ш аш ро ▁дар ▁ф ил ми ▁« ф ир орӣ » ( со ли ▁0000 ) ▁иҷ ро ▁кардааст . ▁ҳ унар нам оӣ ▁дар ▁ин ▁ф ил м ▁ӯ ро ▁бар андаи ▁ч анд ▁ҷ ои заи ▁с ин ам ои ▁ҳ ин ду стон ▁кард ▁ки ▁аз ▁ҷум
▁ак с : f l a g ▁of ▁the ▁ e m ir at e ▁of ▁b u k h ar a . s v g | п ар ч ами ▁ам орат ▁то ▁0 ▁с ент я б ри ▁соли ▁0000 ▁ак с : b u k h ar a ▁n s r . p n g | аз ▁00 ▁с ент я б ри ▁соли ▁0000 ▁то ▁00 ▁ав г у сти ▁соли ▁0000 ▁ак с
3000 ▁0) ▁т анг ен си ▁кун ҷ ▁гуфта ▁нис бати ▁дароз ии ▁тарафи ▁муқ оби л ▁ба ▁дароз ии ▁тарафи ▁ба ▁кун ҷ ▁ч ас пи дар о ▁ме ном анд . ▁дар ▁ҳолати ▁мо
▁кар ина ▁нахустин ▁нақш ашро ▁дар ▁филми ▁« ф ир орӣ » ( соли ▁0000) ▁иҷро ▁кардааст . ▁ҳунар нам оӣ ▁дар ▁ин ▁филм ▁ӯро ▁бар андаи ▁чанд ▁ҷоизаи ▁синам ои ▁ҳиндустон ▁кард ▁ки ▁аз ▁ҷум
▁акс : f l ag ▁of ▁the ▁e m ir at e ▁of ▁b u k h ar a . s v g | пар ч ами ▁ам орат ▁то ▁0 ▁сентябри ▁соли ▁0000 ▁акс : b u k h ar a ▁n s r . p n g | аз ▁00 ▁сентябри ▁соли ▁0000 ▁то ▁00 ▁ав гу сти ▁соли ▁0000 ▁акс
5000 ▁0) ▁танг ен си ▁кун ҷ ▁гуфта ▁нисбати ▁дарозии ▁тарафи ▁муқ обил ▁ба ▁дарозии ▁тарафи ▁ба ▁кун ҷ ▁час пи даро ▁меноманд . ▁дар ▁ҳолати ▁мо
▁кар ина ▁нахустин ▁нақш ашро ▁дар ▁филми ▁« фир орӣ » ( соли ▁0000) ▁иҷро ▁кардааст . ▁ҳунар нам оӣ ▁дар ▁ин ▁филм ▁ӯро ▁барандаи ▁чанд ▁ҷоизаи ▁синамои ▁ҳиндустон ▁кард ▁ки ▁аз ▁ҷум
▁акс : f l ag ▁of ▁the ▁e m ir ate ▁of ▁b u k h ar a . s v g | пар ч ами ▁ам орат ▁то ▁0 ▁сентябри ▁соли ▁0000 ▁акс : b u k h ar a ▁n s r . p n g | аз ▁00 ▁сентябри ▁соли ▁0000 ▁то ▁00 ▁августи ▁соли ▁0000 ▁акс
10000 ▁0) ▁танг ен си ▁кун ҷ ▁гуфта ▁нисбати ▁дарозии ▁тарафи ▁муқ обил ▁ба ▁дарозии ▁тарафи ▁ба ▁кун ҷ ▁час пи даро ▁меноманд . ▁дар ▁ҳолати ▁мо
▁кар ина ▁нахустин ▁нақш ашро ▁дар ▁филми ▁« фир орӣ » ( соли ▁0000) ▁иҷро ▁кардааст . ▁ҳунар намоӣ ▁дар ▁ин ▁филм ▁ӯро ▁барандаи ▁чанд ▁ҷоизаи ▁синамои ▁ҳиндустон ▁кард ▁ки ▁аз ▁ҷум
▁акс : fl ag ▁of ▁the ▁em ir ate ▁of ▁bu kh ara . svg | пар ч ами ▁ам орат ▁то ▁0 ▁сентябри ▁соли ▁0000 ▁акс : b u kh ara ▁n s r . png | аз ▁00 ▁сентябри ▁соли ▁0000 ▁то ▁00 ▁августи ▁соли ▁0000 ▁акс
25000 ▁0) ▁танг ен си ▁кунҷ ▁гуфта ▁нисбати ▁дарозии ▁тарафи ▁муқобил ▁ба ▁дарозии ▁тарафи ▁ба ▁кунҷ ▁часпи даро ▁меноманд . ▁дар ▁ҳолати ▁мо
▁кар ина ▁нахустин ▁нақш ашро ▁дар ▁филми ▁« фир орӣ »( соли ▁0000) ▁иҷро ▁кардааст . ▁ҳунарнамоӣ ▁дар ▁ин ▁филм ▁ӯро ▁барандаи ▁чанд ▁ҷоизаи ▁синамои ▁ҳиндустон ▁кард ▁ки ▁аз ▁ҷум
▁акс : fl ag ▁of ▁the ▁em ir ate ▁of ▁bu kh ara . svg | парчами ▁аморат ▁то ▁0 ▁сентябри ▁соли ▁0000 ▁акс : bu kh ara ▁n sr . png | аз ▁00 ▁сентябри ▁соли ▁0000 ▁то ▁00 ▁августи ▁соли ▁0000 ▁акс
50000 ▁0) ▁танг ен си ▁кунҷ ▁гуфта ▁нисбати ▁дарозии ▁тарафи ▁муқобил ▁ба ▁дарозии ▁тарафи ▁ба ▁кунҷ ▁часпидаро ▁меноманд . ▁дар ▁ҳолати ▁мо
▁карина ▁нахустин ▁нақшашро ▁дар ▁филми ▁« фир орӣ »( соли ▁0000) ▁иҷро ▁кардааст . ▁ҳунарнамоӣ ▁дар ▁ин ▁филм ▁ӯро ▁барандаи ▁чанд ▁ҷоизаи ▁синамои ▁ҳиндустон ▁кард ▁ки ▁аз ▁ҷум
▁акс : flag ▁of ▁the ▁emir ate ▁of ▁bu khara . svg | парчами ▁аморат ▁то ▁0 ▁сентябри ▁соли ▁0000 ▁акс : bukhara ▁n sr . png | аз ▁00 ▁сентябри ▁соли ▁0000 ▁то ▁00 ▁августи ▁соли ▁0000 ▁акс
100000 ▁0) ▁танген си ▁кунҷ ▁гуфта ▁нисбати ▁дарозии ▁тарафи ▁муқобил ▁ба ▁дарозии ▁тарафи ▁ба ▁кунҷ ▁часпидаро ▁меноманд . ▁дар ▁ҳолати ▁мо
▁карина ▁нахустин ▁нақшашро ▁дар ▁филми ▁« фирорӣ »( соли ▁0000) ▁иҷро ▁кардааст . ▁ҳунарнамоӣ ▁дар ▁ин ▁филм ▁ӯро ▁барандаи ▁чанд ▁ҷоизаи ▁синамои ▁ҳиндустон ▁кард ▁ки ▁аз ▁ҷум
▁акс : flag ▁of ▁the ▁emirate ▁of ▁bukhara . svg | парчами ▁аморат ▁то ▁0 ▁сентябри ▁соли ▁0000 ▁акс : bukhara ▁nsr . png | аз ▁00 ▁сентябри ▁соли ▁0000 ▁то ▁00 ▁августи ▁соли ▁0000 ▁акс