Corsican (co) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizecowiki sample
original a ''curdigliera urientali'' si sipara gradualamenti versu livanti, criendu tandu a conca di u fiumu più impurtanti di a culumbia, u río magdalena. sta
quistu hè l'elencu di i capimaestri di u muvimentu quandu l'impiratori ripresi u puteri grazia à l'apportu di
i corsi è e piante salvatiche, avà è innanzi, 0000, adecec * gamisans, jacques (0000), a flora endemica di corsica - la flore endémique de corse , edi
1000 ▁a ▁'' cu r di gli era ▁uri en tali '' ▁si ▁si para ▁gra du a lamenti ▁versu ▁liv anti , ▁c ri endu ▁tandu ▁a ▁con ca ▁di ▁u ▁fiu mu ▁più ▁impur tanti ▁di ▁a ▁cu lu mb ia , ▁u ▁r í o ▁ma g d al ena . ▁sta
▁qu istu ▁hè ▁l ' el en cu ▁di ▁i ▁capi ma es tri ▁di ▁u ▁mu vi mentu ▁quandu ▁l ' i mpi ra tori ▁ri p res i ▁u ▁pu te ri ▁gra zia ▁à ▁l ' a pp ortu ▁di
▁i ▁corsi ▁è ▁e ▁pi ante ▁sal va ti che , ▁av à ▁è ▁in n an zi , ▁0000, ▁a de ce c ▁* ▁ga mis an s , ▁j ac qu es ▁(0000 ), ▁a ▁f lo ra ▁en de mica ▁di ▁corsica ▁- ▁la ▁f l ore ▁en d é mi que ▁de ▁cor se ▁ , ▁e di
3000 ▁a ▁'' cur di gli era ▁uri en tali '' ▁si ▁si para ▁gra du a lamenti ▁versu ▁livanti , ▁cri endu ▁tandu ▁a ▁con ca ▁di ▁u ▁fiumu ▁più ▁impurtanti ▁di ▁a ▁culu mbia , ▁u ▁r í o ▁mag d al ena . ▁sta
▁qu istu ▁hè ▁l ' el en cu ▁di ▁i ▁capi ma es tri ▁di ▁u ▁muvimentu ▁quandu ▁l ' i mpi ra tori ▁rip res i ▁u ▁puteri ▁grazia ▁à ▁l ' app ortu ▁di
▁i ▁corsi ▁è ▁e ▁pi ante ▁sal vati che , ▁avà ▁è ▁inn anzi , ▁0000, ▁a de ce c ▁* ▁ga mis ans , ▁j acqu es ▁(0000), ▁a ▁flora ▁endemica ▁di ▁corsica ▁- ▁la ▁fl ore ▁en d é mi que ▁de ▁corse ▁, ▁edi
5000 ▁a ▁'' cur di gli era ▁uri entali '' ▁si ▁sipara ▁gradu a lamenti ▁versu ▁livanti , ▁cri endu ▁tandu ▁a ▁con ca ▁di ▁u ▁fiumu ▁più ▁impurtanti ▁di ▁a ▁culu mbia , ▁u ▁r í o ▁mag dal ena . ▁sta
▁quistu ▁hè ▁l ' el en cu ▁di ▁i ▁capi ma es tri ▁di ▁u ▁muvimentu ▁quandu ▁l ' i mpi ratori ▁rip resi ▁u ▁puteri ▁grazia ▁à ▁l ' app ortu ▁di
▁i ▁corsi ▁è ▁e ▁piante ▁sal vati che , ▁avà ▁è ▁innanzi , ▁0000, ▁ade ce c ▁* ▁gamisans , ▁jacques ▁(0000), ▁a ▁flora ▁endemica ▁di ▁corsica ▁- ▁la ▁fl ore ▁en dé mi que ▁de ▁corse ▁, ▁edi
10000 ▁a ▁'' cur digliera ▁uri entali '' ▁si ▁sipara ▁gradu a lamenti ▁versu ▁livanti , ▁cri endu ▁tandu ▁a ▁conca ▁di ▁u ▁fiumu ▁più ▁impurtanti ▁di ▁a ▁culumbia , ▁u ▁r í o ▁mag dal ena . ▁sta
▁quistu ▁hè ▁l ' el en cu ▁di ▁i ▁capi ma es tri ▁di ▁u ▁muvimentu ▁quandu ▁l ' impi ratori ▁rip resi ▁u ▁puteri ▁grazia ▁à ▁l ' app ortu ▁di
▁i ▁corsi ▁è ▁e ▁piante ▁salvatiche , ▁avà ▁è ▁innanzi , ▁0000, ▁adecec ▁* ▁gamisans , ▁jacques ▁(0000), ▁a ▁flora ▁endemica ▁di ▁corsica ▁- ▁la ▁flore ▁endémique ▁de ▁corse ▁, ▁edi
25000 ▁a ▁'' curdigliera ▁urientali '' ▁si ▁sipara ▁gradu alamenti ▁versu ▁livanti , ▁criendu ▁tandu ▁a ▁conca ▁di ▁u ▁fiumu ▁più ▁impurtanti ▁di ▁a ▁culumbia , ▁u ▁río ▁mag dalena . ▁sta
▁quistu ▁hè ▁l ' el encu ▁di ▁i ▁capima estri ▁di ▁u ▁muvimentu ▁quandu ▁l ' impiratori ▁ripresi ▁u ▁puteri ▁grazia ▁à ▁l ' apportu ▁di
▁i ▁corsi ▁è ▁e ▁piante ▁salvatiche , ▁avà ▁è ▁innanzi , ▁0000, ▁adecec ▁* ▁gamisans , ▁jacques ▁(0000), ▁a ▁flora ▁endemica ▁di ▁corsica ▁- ▁la ▁flore ▁endémique ▁de ▁corse ▁, ▁edi