Kazakh (kk) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizekkwiki sample
original ислам дінінде сүндеттелу өте үлкен мәнге ие. өйткені, ол үмбеті ретінде мұхаммед пайғамбарымыздың (с.а.у.) ісін қайталауға, яғни сүннет амалын жасауға
''бағдарламаланатын логикалық автомат (автомат с программируемой логикой)'' — жұмыс істеу алгоритмі микрокомандалардан тұратын микробағдарлама ретінде
«наурыз – қазақша жыл басы. «наурыз қазақтардың ұлт мейрамы. наурызды қазақтан басқа күншығыс жұрттарының көбі мейрам етеді. бірақ бұлардың бәрін салы
1000 ▁и с л ам ▁д ін інде ▁сү н де т телу ▁ө те ▁үлкен ▁мә н ге ▁и е . ▁ө й т кен і , ▁ол ▁ү м б ет і ▁ретінде ▁мұ х ам м ед ▁пай ғам б ар ым ыз дың ▁( с . а . у . ) ▁і с ін ▁қай тал ау ға , ▁я ғ ни ▁сү н н ет ▁а м ал ын ▁жас ау ға
▁'' б ағ дар л ам ал ан атын ▁л ог икалық ▁ав т ом ат ▁( ав т ом ат ▁с ▁пр ог р ам ми ру ем ой ▁л ог ик ой ) '' ▁— ▁жұмыс ▁і ст еу ▁ал г ор ит м і ▁м ик ро к ом ан д алар дан ▁тұр атын ▁м ик ро б ағ дар л ама ▁ретінде
▁« н ау р ыз ▁– ▁қазақ ша ▁жыл ▁бас ы . ▁« н ау р ыз ▁қазақ тар дың ▁ұл т ▁м ей р ам ы . ▁н ау р ыз ды ▁қазақ тан ▁басқа ▁күн ш ығы с ▁ж ұр т тар ының ▁кө б і ▁м ей р ам ▁ет еді . ▁бір ақ ▁бұл ар дың ▁б әр ін ▁с алы
3000 ▁ислам ▁дін інде ▁сү нде т телу ▁өте ▁үлкен ▁мән ге ▁ие . ▁ө й ткен і , ▁ол ▁ү мб еті ▁ретінде ▁мұх ам мед ▁пай ғам бар ымыз дың ▁( с . а . у .) ▁і сін ▁қай тал ау ға , ▁яғни ▁сү н н ет ▁ам ал ын ▁жасау ға
▁'' б ағ дар лам ал ан атын ▁л ог икалық ▁автом ат ▁( ав т ом ат ▁с ▁пр ограм ми ру ем ой ▁л ог ик ой ) '' ▁— ▁жұмыс ▁іст еу ▁ал г ор ит мі ▁мик ро ком ан д алар дан ▁тұратын ▁мик ро б ағ дар л ама ▁ретінде
▁« н аурыз ▁– ▁қазақ ша ▁жыл ▁бас ы . ▁« н аурыз ▁қазақ тардың ▁ұлт ▁м ей рам ы . ▁наурыз ды ▁қазақ тан ▁басқа ▁күн шығыс ▁ж ұр т тарының ▁кө бі ▁м ей рам ▁етеді . ▁бірақ ▁бұл ардың ▁б әр ін ▁с алы
5000 ▁ислам ▁дін інде ▁сү нде т телу ▁өте ▁үлкен ▁мән ге ▁ие . ▁өйткені , ▁ол ▁ү мб еті ▁ретінде ▁мұхаммед ▁пайғамбар ымыз дың ▁( с . а . у .) ▁і сін ▁қайтал ауға , ▁яғни ▁сү н нет ▁ам ал ын ▁жасауға
▁'' б ағ дар лам алан атын ▁лог икалық ▁автом ат ▁( ав т омат ▁с ▁програм ми ру ем ой ▁лог ик ой )'' ▁— ▁жұмыс ▁істеу ▁ал гор ит мі ▁микро ком анд алардан ▁тұратын ▁микро б ағ дар л ама ▁ретінде
▁« н аурыз ▁– ▁қазақ ша ▁жыл ▁басы . ▁« н аурыз ▁қазақ тардың ▁ұлт ▁мей рам ы . ▁наурыз ды ▁қазақ тан ▁басқа ▁күн шығыс ▁жұрт тарының ▁кө бі ▁мей рам ▁етеді . ▁бірақ ▁бұл ардың ▁бәр ін ▁с алы
10000 ▁ислам ▁дін інде ▁сү нде т телу ▁өте ▁үлкен ▁мән ге ▁ие . ▁өйткені , ▁ол ▁ү мб еті ▁ретінде ▁мұхаммед ▁пайғамбар ымыз дың ▁( с . а . у .) ▁ісін ▁қайтал ауға , ▁яғни ▁сү н нет ▁амал ын ▁жасауға
▁'' бағ дар лам алан атын ▁логикалық ▁автомат ▁( авт омат ▁с ▁програм ми ру ем ой ▁лог ик ой )'' ▁— ▁жұмыс ▁істеу ▁ал гор ит мі ▁микро ком анд алардан ▁тұратын ▁микро бағ дар лама ▁ретінде
▁« н аурыз ▁– ▁қазақша ▁жыл ▁басы . ▁« н аурыз ▁қазақтардың ▁ұлт ▁мейрам ы . ▁наурыз ды ▁қазақ тан ▁басқа ▁күн шығыс ▁жұрт тарының ▁көбі ▁мейрам ▁етеді . ▁бірақ ▁бұлардың ▁бәрін ▁с алы
25000 ▁ислам ▁дін інде ▁сү ндет телу ▁өте ▁үлкен ▁мәнге ▁ие . ▁өйткені , ▁ол ▁ү мб еті ▁ретінде ▁мұхаммед ▁пайғамбар ымыздың ▁( с . а . у .) ▁ісін ▁қайтал ауға , ▁яғни ▁сүннет ▁амал ын ▁жасауға
▁'' бағдар лам аланатын ▁логикалық ▁автомат ▁( авт омат ▁с ▁програм ми ру ем ой ▁лог ик ой )'' ▁— ▁жұмыс ▁істеу ▁алгор ит мі ▁микро ком анд алардан ▁тұратын ▁микро бағдар лама ▁ретінде
▁« наурыз ▁– ▁қазақша ▁жыл ▁басы . ▁« наурыз ▁қазақтардың ▁ұлт ▁мейрамы . ▁наурыз ды ▁қазақ тан ▁басқа ▁күн шығыс ▁жұрт тарының ▁көбі ▁мейрам ▁етеді . ▁бірақ ▁бұлардың ▁бәрін ▁с алы
50000 ▁ислам ▁дінінде ▁сүндет телу ▁өте ▁үлкен ▁мәнге ▁ие . ▁өйткені , ▁ол ▁ү мб еті ▁ретінде ▁мұхаммед ▁пайғамбар ымыздың ▁( с . а . у .) ▁ісін ▁қайтал ауға , ▁яғни ▁сүннет ▁амалын ▁жасауға
▁'' бағдарлам аланатын ▁логикалық ▁автомат ▁( автомат ▁с ▁програм ми ру ем ой ▁лог ик ой )'' ▁— ▁жұмыс ▁істеу ▁алгорит мі ▁микро команд алардан ▁тұратын ▁микро бағдарлама ▁ретінде
▁« наурыз ▁– ▁қазақша ▁жыл ▁басы . ▁« наурыз ▁қазақтардың ▁ұлт ▁мейрамы . ▁наурыз ды ▁қазақтан ▁басқа ▁күн шығыс ▁жұрт тарының ▁көбі ▁мейрам ▁етеді . ▁бірақ ▁бұлардың ▁бәрін ▁с алы
100000 ▁ислам ▁дінінде ▁сүндет телу ▁өте ▁үлкен ▁мәнге ▁ие . ▁өйткені , ▁ол ▁үмб еті ▁ретінде ▁мұхаммед ▁пайғамбар ымыздың ▁( с . а . у .) ▁ісін ▁қайталауға , ▁яғни ▁сүннет ▁амалын ▁жасауға
▁'' бағдарлам аланатын ▁логикалық ▁автомат ▁( автомат ▁с ▁програм миру ем ой ▁логик ой )'' ▁— ▁жұмыс ▁істеу ▁алгоритмі ▁микро команд алардан ▁тұратын ▁микро бағдарлама ▁ретінде
▁« наурыз ▁– ▁қазақша ▁жыл ▁басы . ▁« наурыз ▁қазақтардың ▁ұлт ▁мейрамы . ▁наурызды ▁қазақтан ▁басқа ▁күншығыс ▁жұрт тарының ▁көбі ▁мейрам ▁етеді . ▁бірақ ▁бұлардың ▁бәрін ▁салы