Central Kurdish (ckb) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeckbwiki sample
original ھەرچییەک بێ پەیوەندییەک دە نێوان بیرۆکەی کۆمەڵگای تێر وتەسەل وتێئۆری کۆمەڵگای سوننەتی و کۆنەپەرەستانەی رودۆڵف شێلێن جێی ھیچ باسێکی نەھێشتبێتەوە ،تەنان
له دۆڵهسزه و پيرمام و ديبهگه و هەولێر گەشەی کردوە و چۆتە بەرخوێندن. له ئامادهيی كوردستان له ههولێر دهرچووه کۆلیژی پزیشکی لە شاری بەغداد خوێندوە. له كۆ
نەوشیروان مستەفا لەنێو یەکێتیی نیشتمانیی کوردستان لە باڵی ڕیفۆرم بوو، دوای ئەوەی نەیتوانی ڕیفۆرم لەنێو یەکێتیدا بکات لە ساڵی ٢٠٠٦ وازی لە کاری حیزبی ھ
1000 ▁ھەر چی ی ەک ▁بێ ▁پەی وەندی ی ەک ▁دە ▁نێوان ▁بیر ۆک ەی ▁کۆمەڵ گای ▁ت ێر ▁و ت ەس ەل ▁و تێ ئ ۆری ▁کۆمەڵ گای ▁س ون ن ەتی ▁و ▁کۆ نە پ ەر ە ستان ەی ▁ رو د ۆڵ ف ▁شێ ل ێن ▁ج ێی ▁ھی چ ▁ب اس ێکی ▁نە ھ ێ شت ب ێتەوە ▁، ت ەن ان
▁له ▁د ۆڵ ه س ز ه ▁و ▁پ ي ر م ام ▁و ▁د ي ب ه گ ه ▁و ▁ه ەو ل ێر ▁گ ەش ەی ▁کرد وە ▁و ▁چ ۆت ە ▁بەر خ وێن د ن . ▁له ▁ئام اد ه ي ی ▁ك و رد ستان ▁له ▁ه هو ل ێر ▁د هر چوو ه ▁ک ۆلی ژی ▁پ زی ش کی ▁لە ▁شاری ▁بە غ دا د ▁خوێند وە . ▁له ▁ك ۆ
▁ن ەو شی ر وان ▁م ست ەف ا ▁لەن ێ و ▁یەک ێتی ی ▁نی شت مانی ی ▁کوردستان ▁لە ▁ب اڵی ▁ڕی ف ۆر م ▁بوو ، ▁دوای ▁ئەوەی ▁ن ەی ت وانی ▁ڕی ف ۆر م ▁لەن ێ و ▁یەک ێتی دا ▁بکات ▁لە ▁ساڵی ▁0000 ▁و ازی ▁لە ▁کاری ▁ح ی ز بی ▁ھ
3000 ▁ھەر چی یەک ▁بێ ▁پەیوەندی یەک ▁دە ▁نێوان ▁بیرۆک ەی ▁کۆمەڵ گای ▁ت ێر ▁وت ەس ەل ▁و تێ ئ ۆری ▁کۆمەڵ گای ▁سون ن ەتی ▁و ▁کۆ نە پەر ە ستان ەی ▁رو د ۆڵ ف ▁شێ ل ێن ▁ج ێی ▁ھیچ ▁باس ێکی ▁نە ھ ێشت ب ێتەوە ▁، ت ەن ان
▁له ▁د ۆڵ ه س ز ه ▁و ▁پ ي ر م ام ▁و ▁د ي به گه ▁و ▁هەو لێر ▁گەش ەی ▁کردوە ▁و ▁چ ۆتە ▁بەر خ وێن دن . ▁له ▁ئاماد ه ي ی ▁كورد ستان ▁له ▁ه هو لێر ▁دهر چوو ه ▁ک ۆلی ژی ▁پزیشکی ▁لە ▁شاری ▁بەغدا د ▁خوێند وە . ▁له ▁ك ۆ
▁نەو شی ر وان ▁م ستەف ا ▁لەن ێو ▁یەکێتیی ▁نیشتمانی ی ▁کوردستان ▁لە ▁ب اڵی ▁ڕی ف ۆر م ▁بوو ، ▁دوای ▁ئەوەی ▁ن ەیت وانی ▁ڕی ف ۆر م ▁لەن ێو ▁یەکێتی دا ▁بکات ▁لە ▁ساڵی ▁0000 ▁و ازی ▁لە ▁کاری ▁حیزبی ▁ھ
5000 ▁ھەر چی یەک ▁بێ ▁پەیوەندی یەک ▁دە ▁نێوان ▁بیرۆکەی ▁کۆمەڵگای ▁ت ێر ▁وت ەس ەل ▁و تێ ئ ۆری ▁کۆمەڵگای ▁سون ن ەتی ▁و ▁کۆ نە پەر ە ستان ەی ▁رو د ۆڵ ف ▁شێ ل ێن ▁جێی ▁ھیچ ▁باس ێکی ▁نە ھێشت ب ێتەوە ▁، ت ەن ان
▁له ▁دۆڵ ه س ز ه ▁و ▁پ ير م ام ▁و ▁د ي به گه ▁و ▁هەولێر ▁گەشەی ▁کردوە ▁و ▁چ ۆتە ▁بەر خوێن دن . ▁له ▁ئاماد ه ي ی ▁كورد ستان ▁له ▁ه هو لێر ▁دهر چوو ه ▁ک ۆلی ژی ▁پزیشکی ▁لە ▁شاری ▁بەغدا د ▁خوێند وە . ▁له ▁ك ۆ
▁نەو شیر وان ▁مستەفا ▁لەنێو ▁یەکێتیی ▁نیشتمانیی ▁کوردستان ▁لە ▁باڵی ▁ڕی فۆر م ▁بوو ، ▁دوای ▁ئەوەی ▁نەیت وانی ▁ڕی فۆر م ▁لەنێو ▁یەکێتی دا ▁بکات ▁لە ▁ساڵی ▁0000 ▁و ازی ▁لە ▁کاری ▁حیزبی ▁ھ
10000 ▁ھەرچی یەک ▁بێ ▁پەیوەندی یەک ▁دە ▁نێوان ▁بیرۆکەی ▁کۆمەڵگای ▁تێر ▁وت ەس ەل ▁و تێ ئ ۆری ▁کۆمەڵگای ▁سونن ەتی ▁و ▁کۆنە پەر ە ستانەی ▁رو د ۆڵ ف ▁شێ لێن ▁جێی ▁ھیچ ▁باس ێکی ▁نە ھێشت بێتەوە ▁، ت ەن ان
▁له ▁دۆڵ هس زه ▁و ▁پ ير مام ▁و ▁د ي به گه ▁و ▁هەولێر ▁گەشەی ▁کردوە ▁و ▁چۆتە ▁بەر خوێن دن . ▁له ▁ئاماد ه ي ی ▁كوردستان ▁له ▁ههو لێر ▁دهر چوو ه ▁کۆلی ژی ▁پزیشکی ▁لە ▁شاری ▁بەغداد ▁خوێند وە . ▁له ▁ك ۆ
▁نەو شیر وان ▁مستەفا ▁لەنێو ▁یەکێتیی ▁نیشتمانیی ▁کوردستان ▁لە ▁باڵی ▁ڕی فۆر م ▁بوو ، ▁دوای ▁ئەوەی ▁نەیتوانی ▁ڕی فۆر م ▁لەنێو ▁یەکێتی دا ▁بکات ▁لە ▁ساڵی ▁0000 ▁وازی ▁لە ▁کاری ▁حیزبی ▁ھ
25000 ▁ھەرچی یەک ▁بێ ▁پەیوەندی یەک ▁دە ▁نێوان ▁بیرۆکەی ▁کۆمەڵگای ▁تێر ▁وت ەس ەل ▁و تێ ئۆری ▁کۆمەڵگای ▁سوننەتی ▁و ▁کۆنە پەر ە ستانەی ▁رو د ۆڵف ▁شێ لێن ▁جێی ▁ھیچ ▁باسێکی ▁نە ھێشت بێتەوە ▁، تەن ان
▁له ▁دۆڵ هس زه ▁و ▁پ ير مام ▁و ▁دي به گه ▁و ▁هەولێر ▁گەشەی ▁کردوە ▁و ▁چۆتە ▁بەر خوێندن . ▁له ▁ئاماد هي ی ▁كوردستان ▁له ▁ههولێر ▁دهرچوو ه ▁کۆلیژی ▁پزیشکی ▁لە ▁شاری ▁بەغداد ▁خوێندوە . ▁له ▁كۆ
▁نەوشیروان ▁مستەفا ▁لەنێو ▁یەکێتیی ▁نیشتمانیی ▁کوردستان ▁لە ▁باڵی ▁ڕی فۆرم ▁بوو ، ▁دوای ▁ئەوەی ▁نەیتوانی ▁ڕی فۆرم ▁لەنێو ▁یەکێتی دا ▁بکات ▁لە ▁ساڵی ▁0000 ▁وازی ▁لە ▁کاری ▁حیزبی ▁ھ
50000 ▁ھەرچی یەک ▁بێ ▁پەیوەندییەک ▁دە ▁نێوان ▁بیرۆکەی ▁کۆمەڵگای ▁تێر ▁وت ەس ەل ▁و تێ ئۆری ▁کۆمەڵگای ▁سوننەتی ▁و ▁کۆنە پەرە ستانەی ▁رود ۆڵف ▁شێ لێن ▁جێی ▁ھیچ ▁باسێکی ▁نەھێشت بێتەوە ▁، تەن ان
▁له ▁دۆڵ هس زه ▁و ▁پ ير مام ▁و ▁دي به گه ▁و ▁هەولێر ▁گەشەی ▁کردوە ▁و ▁چۆتە ▁بەر خوێندن . ▁له ▁ئاماد هي ی ▁كوردستان ▁له ▁ههولێر ▁دهرچووه ▁کۆلیژی ▁پزیشکی ▁لە ▁شاری ▁بەغداد ▁خوێندوە . ▁له ▁كۆ
▁نەوشیروان ▁مستەفا ▁لەنێو ▁یەکێتیی ▁نیشتمانیی ▁کوردستان ▁لە ▁باڵی ▁ڕیفۆرم ▁بوو ، ▁دوای ▁ئەوەی ▁نەیتوانی ▁ڕیفۆرم ▁لەنێو ▁یەکێتی دا ▁بکات ▁لە ▁ساڵی ▁0000 ▁وازی ▁لە ▁کاری ▁حیزبی ▁ھ
100000 ▁ھەرچی یەک ▁بێ ▁پەیوەندییەک ▁دە ▁نێوان ▁بیرۆکەی ▁کۆمەڵگای ▁تێر ▁وت ەس ەل ▁و تێ ئۆری ▁کۆمەڵگای ▁سوننەتی ▁و ▁کۆنە پەرە ستانەی ▁رود ۆڵف ▁شێ لێن ▁جێی ▁ھیچ ▁باسێکی ▁نەھێشت بێتەوە ▁، تەن ان
▁له ▁دۆڵ هس زه ▁و ▁پ ير مام ▁و ▁دي به گه ▁و ▁هەولێر ▁گەشەی ▁کردوە ▁و ▁چۆتە ▁بەرخوێندن . ▁له ▁ئاماد هي ی ▁كوردستان ▁له ▁ههولێر ▁دهرچووه ▁کۆلیژی ▁پزیشکی ▁لە ▁شاری ▁بەغداد ▁خوێندوە . ▁له ▁كۆ
▁نەوشیروان ▁مستەفا ▁لەنێو ▁یەکێتیی ▁نیشتمانیی ▁کوردستان ▁لە ▁باڵی ▁ڕیفۆرم ▁بوو ، ▁دوای ▁ئەوەی ▁نەیتوانی ▁ڕیفۆرم ▁لەنێو ▁یەکێتیدا ▁بکات ▁لە ▁ساڵی ▁0000 ▁وازی ▁لە ▁کاری ▁حیزبی ▁ھ