Egyptian Arabic (arz) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizearzwiki sample
original * 0 اكتوبر - كريستيانا دروموند مورجان عالمة نفس امريكانيه. * بول جوزيف جوبلز وزير دعايه نازى. * ابو العلا عفيفى مؤرخ فلسفه مصرى.
بعد ما راح راسپوتين على القصر و وقف يستنى مجى ايرينا جه راجل و قدم لراسبوتين كيك و خمره فيهم سم. بعد راسپوتين ما اكل الكيك و شرب الخمره ما جرالهوش حاج
" ألا قل لمصر ها هلاون ( هولاكو ) قد اتى .. بحد سيوف تنتضى و بواتر. يصير أعز القوم منا أذلة..ويلحق أطفالاً لهم بالأكابر " .
1000 ▁* ▁0 ▁اكتوبر ▁- ▁ك ري ست يان ا ▁د ر وم ون د ▁م ور ج ان ▁ع الم ة ▁نفس ▁امريك انيه . ▁* ▁بول ▁ج وز يف ▁ج وب ل ز ▁وز ير ▁د ع ا يه ▁ن از ى . ▁* ▁ابو ▁الع لا ▁ع ف يف ى ▁مؤ ر خ ▁فل س فه ▁مصرى .
▁بعد ▁ما ▁را ح ▁را س پ وت ين ▁على ▁الق صر ▁و ▁وق ف ▁ي ست نى ▁مج ى ▁ا ير ينا ▁ج ه ▁را جل ▁و ▁قدم ▁ل را سب وت ين ▁ك يك ▁و ▁خ مر ه ▁فيه م ▁س م . ▁بعد ▁را س پ وت ين ▁ما ▁ا كل ▁الك يك ▁و ▁ش رب ▁الخ مر ه ▁ما ▁ج ر اله وش ▁حاج
▁" ▁أ لا ▁ق ل ▁لم صر ▁ ها ▁ه لا ون ▁( ▁ه ول اك و ▁) ▁قد ▁ات ى ▁.. ▁ب حد ▁س ي وف ▁ت نت ض ى ▁و ▁ب وات ر . ▁ي ص ير ▁أ ع ز ▁الق وم ▁من ا ▁أ ذ لة .. و يل ح ق ▁أ ط ف ال ا ً ▁ل هم ▁بال أ ك اب ر ▁" ▁.
3000 ▁* ▁0 ▁اكتوبر ▁- ▁كري ست يان ا ▁د ر وم وند ▁م ور جان ▁عالم ة ▁نفس ▁امريك انيه . ▁* ▁بول ▁جوز يف ▁ج وب ل ز ▁وزير ▁د عا يه ▁ن از ى . ▁* ▁ابو ▁الع لا ▁ع ف يف ى ▁مؤ رخ ▁فل س فه ▁مصرى .
▁بعد ▁ما ▁راح ▁راس پ وت ين ▁على ▁القصر ▁و ▁وق ف ▁يست نى ▁مج ى ▁اير ينا ▁جه ▁راجل ▁و ▁قدم ▁ل را سب وت ين ▁ك يك ▁و ▁خ مره ▁فيهم ▁سم . ▁بعد ▁راس پ وت ين ▁ما ▁ا كل ▁الك يك ▁و ▁ش رب ▁الخ مره ▁ما ▁ج ر اله وش ▁حاج
▁" ▁أ لا ▁قل ▁لمصر ▁ها ▁ه لا ون ▁( ▁هولاكو ▁) ▁قد ▁ات ى ▁.. ▁ب حد ▁سي وف ▁ت نت ضى ▁و ▁ب وات ر . ▁ي ص ير ▁أع ز ▁القوم ▁منا ▁أ ذ لة .. ويل ح ق ▁أ ط فال ا ً ▁لهم ▁بال أ ك ابر ▁" ▁.
5000 ▁* ▁0 ▁اكتوبر ▁- ▁كريست يانا ▁د روم وند ▁مور جان ▁عالم ة ▁نفس ▁امريك انيه . ▁* ▁بول ▁جوز يف ▁ج وب لز ▁وزير ▁د عا يه ▁ن از ى . ▁* ▁ابو ▁العلا ▁عف يف ى ▁مؤرخ ▁فلس فه ▁مصرى .
▁بعد ▁ما ▁راح ▁راس پ وت ين ▁على ▁القصر ▁و ▁وقف ▁يست نى ▁مج ى ▁اير ينا ▁جه ▁راجل ▁و ▁قدم ▁ل را سب وت ين ▁ك يك ▁و ▁خ مره ▁فيهم ▁سم . ▁بعد ▁راس پ وت ين ▁ما ▁ا كل ▁الك يك ▁و ▁ش رب ▁الخ مره ▁ما ▁جر اله وش ▁حاج
▁" ▁أ لا ▁قل ▁لمصر ▁ها ▁ه لا ون ▁( ▁هولاكو ▁) ▁قد ▁ات ى ▁.. ▁ب حد ▁سي وف ▁ت نت ضى ▁و ▁ب وات ر . ▁ي ص ير ▁أع ز ▁القوم ▁منا ▁أ ذ لة .. ويل حق ▁أ ط فال ا ً ▁لهم ▁بالأ ك ابر ▁" ▁.
10000 ▁* ▁0 ▁اكتوبر ▁- ▁كريست يانا ▁د روم وند ▁مور جان ▁عالم ة ▁نفس ▁امريك انيه . ▁* ▁بول ▁جوزيف ▁ج وب لز ▁وزير ▁دعا يه ▁ناز ى . ▁* ▁ابو ▁العلا ▁عف يفى ▁مؤرخ ▁فلس فه ▁مصرى .
▁بعد ▁ما ▁راح ▁راس پ وتين ▁على ▁القصر ▁و ▁وقف ▁يست نى ▁مج ى ▁اير ينا ▁جه ▁راجل ▁و ▁قدم ▁ل را سب وتين ▁ك يك ▁و ▁خ مره ▁فيهم ▁سم . ▁بعد ▁راس پ وتين ▁ما ▁اكل ▁الك يك ▁و ▁ش رب ▁الخ مره ▁ما ▁جر اله وش ▁حاج
▁" ▁أ لا ▁قل ▁لمصر ▁ها ▁ه لا ون ▁( ▁هولاكو ▁) ▁قد ▁ات ى ▁.. ▁ب حد ▁سي وف ▁تنت ضى ▁و ▁ب وات ر . ▁يص ير ▁أع ز ▁القوم ▁منا ▁أ ذ لة .. ويل حق ▁أط فال ا ً ▁لهم ▁بالأ ك ابر ▁" ▁.
25000 ▁* ▁0 ▁اكتوبر ▁- ▁كريست يانا ▁د روم وند ▁مورجان ▁عالم ة ▁نفس ▁امريكانيه . ▁* ▁بول ▁جوزيف ▁ج وب لز ▁وزير ▁دعا يه ▁ناز ى . ▁* ▁ابو ▁العلا ▁عفيفى ▁مؤرخ ▁فلسفه ▁مصرى .
▁بعد ▁ما ▁راح ▁راس پ وتين ▁على ▁القصر ▁و ▁وقف ▁يست نى ▁مج ى ▁اير ينا ▁جه ▁راجل ▁و ▁قدم ▁ل را سب وتين ▁ك يك ▁و ▁خ مره ▁فيهم ▁سم . ▁بعد ▁راس پ وتين ▁ما ▁اكل ▁الك يك ▁و ▁شرب ▁الخمره ▁ما ▁جر اله وش ▁حاج
▁" ▁أ لا ▁قل ▁لمصر ▁ها ▁هلا ون ▁( ▁هولاكو ▁) ▁قد ▁ات ى ▁.. ▁بحد ▁سي وف ▁تنت ضى ▁و ▁ب وات ر . ▁يص ير ▁أعز ▁القوم ▁منا ▁أذ لة .. ويل حق ▁أط فال ا ً ▁لهم ▁بالأ ك ابر ▁" ▁.
50000 ▁* ▁0 ▁اكتوبر ▁- ▁كريست يانا ▁د روم وند ▁مورجان ▁عالمة ▁نفس ▁امريكانيه . ▁* ▁بول ▁جوزيف ▁جوب لز ▁وزير ▁دعايه ▁نازى . ▁* ▁ابو ▁العلا ▁عفيفى ▁مؤرخ ▁فلسفه ▁مصرى .
▁بعد ▁ما ▁راح ▁راس پوتين ▁على ▁القصر ▁و ▁وقف ▁يستنى ▁مج ى ▁ايرينا ▁جه ▁راجل ▁و ▁قدم ▁لرا سبوتين ▁كيك ▁و ▁خمره ▁فيهم ▁سم . ▁بعد ▁راس پوتين ▁ما ▁اكل ▁الك يك ▁و ▁شرب ▁الخمره ▁ما ▁جر اله وش ▁حاج
▁" ▁ألا ▁قل ▁لمصر ▁ها ▁هلاون ▁( ▁هولاكو ▁) ▁قد ▁ات ى ▁.. ▁بحد ▁سيوف ▁تنت ضى ▁و ▁ب واتر . ▁يصير ▁أعز ▁القوم ▁منا ▁أذ لة .. ويل حق ▁أطفال ا ً ▁لهم ▁بالأ كابر ▁" ▁.
100000 ▁* ▁0 ▁اكتوبر ▁- ▁كريستيانا ▁دروموند ▁مورجان ▁عالمة ▁نفس ▁امريكانيه . ▁* ▁بول ▁جوزيف ▁جوبلز ▁وزير ▁دعايه ▁نازى . ▁* ▁ابو ▁العلا ▁عفيفى ▁مؤرخ ▁فلسفه ▁مصرى .
▁بعد ▁ما ▁راح ▁راسپوتين ▁على ▁القصر ▁و ▁وقف ▁يستنى ▁مجى ▁ايرينا ▁جه ▁راجل ▁و ▁قدم ▁لرا سبوتين ▁كيك ▁و ▁خمره ▁فيهم ▁سم . ▁بعد ▁راسپوتين ▁ما ▁اكل ▁الكيك ▁و ▁شرب ▁الخمره ▁ما ▁جر الهوش ▁حاج
▁" ▁ألا ▁قل ▁لمصر ▁ها ▁هلاون ▁( ▁هولاكو ▁) ▁قد ▁اتى ▁.. ▁بحد ▁سيوف ▁تنتضى ▁و ▁بواتر . ▁يصير ▁أعز ▁القوم ▁منا ▁أذلة .. ويلحق ▁أطفالا ً ▁لهم ▁بالأكابر ▁" ▁.