Church Slavic (cu) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Embedding matrix plots

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizecuwiki sample
original · южьнословѣньскъ народъ ѥстъ ⁙ блъгаръ родьнъ ѩꙁꙑкъ блъгарьскъ ѥстъ ⁙ чисмєньмь блъгаръ до 00 лєѡдръ ѥстъ · ихъжє до 0 лєѡдръ блъгарїи обитаѥтъ ⁙ вѣр
· нєбєсьно тѣло ѥстъ ⁙ Ꙁємлѩ ѥдьнъ природьнъ съпѫтьникъ ѥстъ ⁙ прьвъ чьловѣкъ ижє на мѣсѧць стѫпи нилъ армстронгъ ѥстъ ⁙ мѣсѧца срѣдьнѥ отъ Ꙁємлѩ раст
· єѵрѡпꙑ сѣвєра дрьжава ѥстъ ⁙ стольнъ градъ хєлсинки ѥстъ ⁙ соуми людии 0 000 000 обитаѥтъ ⁙ дрьжавьна ѩꙁꙑка соуми свєньскъ и соумьскъ ѥстє
1000 ▁· ▁юж ьнословѣн ьскъ ▁народъ ▁ѥстъ ▁⁙ ▁блъга ръ ▁родьнъ ▁ѩꙁꙑкъ ▁блъгар ьскъ ▁ѥстъ ▁⁙ ▁чисмєньмь ▁блъга ръ ▁до ▁00 ▁лєѡдръ ▁ѥстъ ▁· ▁ихъжє ▁до ▁0 ▁лєѡдръ ▁блъга рї и ▁обитаѥтъ ▁⁙ ▁вѣ р
▁· ▁нє б єс ьно ▁т ѣ ло ▁ѥстъ ▁⁙ ▁ꙁємлѩ ▁ѥ дьнъ ▁при ро дьнъ ▁съ п ѫ т ьникъ ▁ѥстъ ▁⁙ ▁прь въ ▁чь ловѣ къ ▁ижє ▁на ▁мѣ с ѧ ць ▁ст ѫ п и ▁ни лъ ▁а р м ст ро н гъ ▁ѥстъ ▁⁙ ▁мѣ с ѧ ца ▁срѣ дьнѥ ▁отъ ▁ꙁємлѩ ▁ра ст
▁· ▁єѵрѡпꙑ ▁сѣвє ра ▁дрьжава ▁ѥстъ ▁⁙ ▁стольнъ ▁градъ ▁х єл с ин ки ▁ѥстъ ▁⁙ ▁соу ми ▁людии ▁0 ▁000 ▁000 ▁обитаѥтъ ▁⁙ ▁дрьжав ьна ▁ѩꙁꙑка ▁соу ми ▁св єн ьскъ ▁и ▁соу м ьскъ ▁ѥстє
3000 ▁· ▁юж ьнословѣньскъ ▁народъ ▁ѥстъ ▁⁙ ▁блъга ръ ▁родьнъ ▁ѩꙁꙑкъ ▁блъгарьскъ ▁ѥстъ ▁⁙ ▁чисмєньмь ▁блъга ръ ▁до ▁00 ▁лєѡдръ ▁ѥстъ ▁· ▁ихъжє ▁до ▁0 ▁лєѡдръ ▁блъга рїи ▁обитаѥтъ ▁⁙ ▁вѣр
▁· ▁нєб єсьно ▁тѣ ло ▁ѥстъ ▁⁙ ▁ꙁємлѩ ▁ѥ дьнъ ▁приро дьнъ ▁съп ѫ тьникъ ▁ѥстъ ▁⁙ ▁прьвъ ▁чьловѣкъ ▁ижє ▁на ▁мѣ сѧ ць ▁ст ѫпи ▁ни лъ ▁ар м стро н гъ ▁ѥстъ ▁⁙ ▁мѣ сѧ ца ▁срѣ дьнѥ ▁отъ ▁ꙁємлѩ ▁раст
▁· ▁єѵрѡпꙑ ▁сѣвєра ▁дрьжава ▁ѥстъ ▁⁙ ▁стольнъ ▁градъ ▁х єл с ин ки ▁ѥстъ ▁⁙ ▁соуми ▁людии ▁0 ▁000 ▁000 ▁обитаѥтъ ▁⁙ ▁дрьжавьна ▁ѩꙁꙑка ▁соуми ▁свєн ьскъ ▁и ▁соум ьскъ ▁ѥстє
5000 ▁· ▁южьнословѣньскъ ▁народъ ▁ѥстъ ▁⁙ ▁блъга ръ ▁родьнъ ▁ѩꙁꙑкъ ▁блъгарьскъ ▁ѥстъ ▁⁙ ▁чисмєньмь ▁блъга ръ ▁до ▁00 ▁лєѡдръ ▁ѥстъ ▁· ▁ихъжє ▁до ▁0 ▁лєѡдръ ▁блъгарїи ▁обитаѥтъ ▁⁙ ▁вѣр
▁· ▁нєбєсьно ▁тѣло ▁ѥстъ ▁⁙ ▁ꙁємлѩ ▁ѥдьнъ ▁приро дьнъ ▁съпѫтьникъ ▁ѥстъ ▁⁙ ▁прьвъ ▁чьловѣкъ ▁ижє ▁на ▁мѣсѧць ▁ст ѫпи ▁нилъ ▁ар мстронгъ ▁ѥстъ ▁⁙ ▁мѣсѧ ца ▁срѣ дьнѥ ▁отъ ▁ꙁємлѩ ▁раст
▁· ▁єѵрѡпꙑ ▁сѣвєра ▁дрьжава ▁ѥстъ ▁⁙ ▁стольнъ ▁градъ ▁х єлсинки ▁ѥстъ ▁⁙ ▁соуми ▁людии ▁0 ▁000 ▁000 ▁обитаѥтъ ▁⁙ ▁дрьжавьна ▁ѩꙁꙑка ▁соуми ▁свєн ьскъ ▁и ▁соум ьскъ ▁ѥстє