Yiddish (yi) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeyiwiki sample
original דאס איז ווען עס פאנגט אהן בלוטען פון די פרוי, און געשעהט צוליב דעם וואס די רחם ווארפט ארויס די שיכט פון זיך, אריינגעמישט אין די בלוט איז אסאך מאהל אוי
אין אמעריקא איז די באקאנטסטע הכשר די "יוניאן פון ארטאדאקס דזשושאיש קאנג." באקאנט מיט אירע בוכשטאבן ou. אדער די ok וואס אינטער די אויפזיכט פון ר' דן יו
רבי נפתלי'טשע איז געבוירן אין באבאוו כ"ה סיון תרצ"א צו זיין פאטער הרב שלמה האלבערשטאם, דער דריטער באבאווער רב, א זון פון הרב בן-ציון האלבערשטאם, רב אי
1000 ▁דאס ▁איז ▁ווען ▁עס ▁פ אנ גט ▁אה ן ▁בל וט ען ▁פון ▁די ▁פר וי , ▁און ▁גע שע ה ט ▁צוליב ▁דעם ▁וואס ▁די ▁ר ח ם ▁וואר פט ▁ארויס ▁די ▁ש יכט ▁פון ▁זיך , ▁אריינ גע מ ישט ▁אין ▁די ▁בל וט ▁איז ▁אסאך ▁מ אה ל ▁אוי
▁אין ▁אמעריק א ▁איז ▁די ▁באקאנט סטע ▁ה כ שר ▁די ▁" י ונ י אן ▁פון ▁ארט אד אק ס ▁דזש וש א יש ▁קאנ ג . " ▁באקאנט ▁מיט ▁איר ע ▁ב ו כ שט א בן ▁ ou . ▁אדער ▁די ▁ o k ▁וואס ▁אינטער ▁די ▁אויפ ז יכט ▁פון ▁ר ' ▁ד ן ▁יו
▁רבי ▁נ פ ת לי ' ט שע ▁איז ▁געבוירן ▁אין ▁בא ב אוו ▁כ " ה ▁ס י ון ▁תר צ " א ▁צו ▁זיין ▁פאטער ▁הרב ▁של מה ▁האלבערשטאם , ▁דער ▁ד רי טער ▁בא ב אווער ▁רב , ▁א ▁זון ▁פון ▁הרב ▁ב ן - צי ון ▁האלבערשטאם , ▁רב ▁אי
3000 ▁דאס ▁איז ▁ווען ▁עס ▁פ אנגט ▁אה ן ▁בלוט ען ▁פון ▁די ▁פרוי , ▁און ▁געשע ה ט ▁צוליב ▁דעם ▁וואס ▁די ▁רח ם ▁וואר פט ▁ארויס ▁די ▁ש יכט ▁פון ▁זיך , ▁אריינ געמ ישט ▁אין ▁די ▁בלוט ▁איז ▁אסאך ▁מ אהל ▁אוי
▁אין ▁אמעריק א ▁איז ▁די ▁באקאנט סטע ▁הכ שר ▁די ▁" י ונ יאן ▁פון ▁ארטאד אקס ▁דזש וש איש ▁קאנ ג . " ▁באקאנט ▁מיט ▁אירע ▁בו כ שט א בן ▁ ou . ▁אדער ▁די ▁o k ▁וואס ▁אינטער ▁די ▁אויפ ז יכט ▁פון ▁ר ' ▁ד ן ▁יו
▁רבי ▁נפתלי ' ט שע ▁איז ▁געבוירן ▁אין ▁באב אוו ▁כ " ה ▁סיון ▁תר צ " א ▁צו ▁זיין ▁פאטער ▁הרב ▁שלמה ▁האלבערשטאם , ▁דער ▁דריטער ▁באב אווער ▁רב , ▁א ▁זון ▁פון ▁הרב ▁בן - ציון ▁האלבערשטאם , ▁רב ▁אי
5000 ▁דאס ▁איז ▁ווען ▁עס ▁פ אנגט ▁אהן ▁בלוט ען ▁פון ▁די ▁פרוי , ▁און ▁געשע ה ט ▁צוליב ▁דעם ▁וואס ▁די ▁רח ם ▁וואר פט ▁ארויס ▁די ▁ש יכט ▁פון ▁זיך , ▁אריינ געמ ישט ▁אין ▁די ▁בלוט ▁איז ▁אסאך ▁מ אהל ▁אוי
▁אין ▁אמעריקא ▁איז ▁די ▁באקאנט סטע ▁הכ שר ▁די ▁" יונ יאן ▁פון ▁ארטאדאקס ▁דזש וש איש ▁קאנ ג . " ▁באקאנט ▁מיט ▁אירע ▁בו כ שט א בן ▁ ou . ▁אדער ▁די ▁o k ▁וואס ▁אינטער ▁די ▁אויפ ז יכט ▁פון ▁ר ' ▁דן ▁יו
▁רבי ▁נפתלי ' טשע ▁איז ▁געבוירן ▁אין ▁באב אוו ▁כ " ה ▁סיון ▁תרצ " א ▁צו ▁זיין ▁פאטער ▁הרב ▁שלמה ▁האלבערשטאם , ▁דער ▁דריטער ▁באב אווער ▁רב , ▁א ▁זון ▁פון ▁הרב ▁בן - ציון ▁האלבערשטאם , ▁רב ▁אי
10000 ▁דאס ▁איז ▁ווען ▁עס ▁פאנגט ▁אהן ▁בלוט ען ▁פון ▁די ▁פרוי , ▁און ▁געשע הט ▁צוליב ▁דעם ▁וואס ▁די ▁רח ם ▁ווארפט ▁ארויס ▁די ▁שיכט ▁פון ▁זיך , ▁אריינ געמישט ▁אין ▁די ▁בלוט ▁איז ▁אסאך ▁מאהל ▁אוי
▁אין ▁אמעריקא ▁איז ▁די ▁באקאנט סטע ▁הכ שר ▁די ▁" יונ יאן ▁פון ▁ארטאדאקס ▁דזש וש איש ▁קאנג ." ▁באקאנט ▁מיט ▁אירע ▁בוכשטאבן ▁ ou . ▁אדער ▁די ▁o k ▁וואס ▁אינטער ▁די ▁אויפ זיכט ▁פון ▁ר ' ▁דן ▁יו
▁רבי ▁נפתלי ' טשע ▁איז ▁געבוירן ▁אין ▁באב אוו ▁כ " ה ▁סיון ▁תרצ " א ▁צו ▁זיין ▁פאטער ▁הרב ▁שלמה ▁האלבערשטאם , ▁דער ▁דריטער ▁באבאווער ▁רב , ▁א ▁זון ▁פון ▁הרב ▁בן - ציון ▁האלבערשטאם , ▁רב ▁אי
25000 ▁דאס ▁איז ▁ווען ▁עס ▁פאנגט ▁אהן ▁בלוט ען ▁פון ▁די ▁פרוי , ▁און ▁געשע הט ▁צוליב ▁דעם ▁וואס ▁די ▁רחם ▁ווארפט ▁ארויס ▁די ▁שיכט ▁פון ▁זיך , ▁אריינגעמישט ▁אין ▁די ▁בלוט ▁איז ▁אסאך ▁מאהל ▁אוי
▁אין ▁אמעריקא ▁איז ▁די ▁באקאנטסטע ▁הכשר ▁די ▁" יונ יאן ▁פון ▁ארטאדאקס ▁דזש וש איש ▁קאנג ." ▁באקאנט ▁מיט ▁אירע ▁בוכשטאבן ▁ ou . ▁אדער ▁די ▁o k ▁וואס ▁אינטער ▁די ▁אויפזיכט ▁פון ▁ר ' ▁דן ▁יו
▁רבי ▁נפתלי ' טשע ▁איז ▁געבוירן ▁אין ▁באבאוו ▁כ " ה ▁סיון ▁תרצ " א ▁צו ▁זיין ▁פאטער ▁הרב ▁שלמה ▁האלבערשטאם , ▁דער ▁דריטער ▁באבאווער ▁רב , ▁א ▁זון ▁פון ▁הרב ▁בן - ציון ▁האלבערשטאם , ▁רב ▁אי
50000 ▁דאס ▁איז ▁ווען ▁עס ▁פאנגט ▁אהן ▁בלוט ען ▁פון ▁די ▁פרוי , ▁און ▁געשעהט ▁צוליב ▁דעם ▁וואס ▁די ▁רחם ▁ווארפט ▁ארויס ▁די ▁שיכט ▁פון ▁זיך , ▁אריינגעמישט ▁אין ▁די ▁בלוט ▁איז ▁אסאך ▁מאהל ▁אוי
▁אין ▁אמעריקא ▁איז ▁די ▁באקאנטסטע ▁הכשר ▁די ▁" יונ יאן ▁פון ▁ארטאדאקס ▁דזש וש איש ▁קאנג ." ▁באקאנט ▁מיט ▁אירע ▁בוכשטאבן ▁ou . ▁אדער ▁די ▁o k ▁וואס ▁אינטער ▁די ▁אויפזיכט ▁פון ▁ר ' ▁דן ▁יו
▁רבי ▁נפתלי ' טשע ▁איז ▁געבוירן ▁אין ▁באבאוו ▁כ " ה ▁סיון ▁תרצ " א ▁צו ▁זיין ▁פאטער ▁הרב ▁שלמה ▁האלבערשטאם , ▁דער ▁דריטער ▁באבאווער ▁רב , ▁א ▁זון ▁פון ▁הרב ▁בן - ציון ▁האלבערשטאם , ▁רב ▁אי