Romansh (rm) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizermwiki sample
original la viafier matterhorn-gottard (''matterhorn gotthard bahn'', mgb) datti dapi l’emprim da schaner 0000. la viafier furma il resultat da la fusiun trant
la novella vegn partgida en treis parts: l’ emprema ha num “ils ratuns vegnan”, la secunda “ils affons vegnan” e la tiarza “ils ratuns tuornan”.
la vischnanca da gondo-zwischbergen giascha en la val divedro sin 000 m. s. m. per gondo e 0'000 m. s. m. per zwischbergen. las vischnancas cunfiantas
1000 ▁la ▁via f ier ▁m at ter h or n - g ott ard ▁('' m at ter h or n ▁g ott h ard ▁ba h n '', ▁m g b ) ▁dat ti ▁dapi ▁l ’ emprim ▁da ▁sch aner ▁0000. ▁la ▁via f ier ▁furma ▁il ▁res ult at ▁da ▁la ▁f us iun ▁tr ant
▁la ▁nov ella ▁vegn ▁part g ida ▁en ▁tr e is ▁parts : ▁l ’ ▁empr em a ▁ha ▁num ▁ “ ils ▁r at uns ▁vegnan ” , ▁la ▁s ec unda ▁ “ ils ▁a ff ons ▁vegnan ” ▁e ▁la ▁t i ar za ▁ “ ils ▁r at uns ▁t u or n an ” .
▁la ▁vischnanca ▁da ▁g ond o - z w isch ber g en ▁gi asch a ▁en ▁la ▁val ▁div ed r o ▁sin ▁000 ▁m . ▁s . ▁m . ▁per ▁g ond o ▁e ▁0 ' 000 ▁m . ▁s . ▁m . ▁per ▁z w isch ber g en . ▁las ▁vischnanc as ▁cun f i antas
3000 ▁la ▁viafier ▁m atter h orn - g ott ard ▁('' m atter h orn ▁gott hard ▁ba hn '', ▁m g b ) ▁datti ▁dapi ▁l ’ emprim ▁da ▁schaner ▁0000. ▁la ▁viafier ▁furma ▁il ▁result at ▁da ▁la ▁f usiun ▁tr ant
▁la ▁nov ella ▁vegn ▁part g ida ▁en ▁tr e is ▁parts : ▁l ’ ▁empr ema ▁ha ▁num ▁ “ ils ▁r at uns ▁vegnan ” , ▁la ▁sec unda ▁ “ ils ▁aff ons ▁vegnan ” ▁e ▁la ▁ti ar za ▁ “ ils ▁r at uns ▁t uor n an ” .
▁la ▁vischnanca ▁da ▁g ond o - z w isch berg en ▁giascha ▁en ▁la ▁val ▁div ed ro ▁sin ▁000 ▁m . ▁s . ▁m . ▁per ▁g ond o ▁e ▁0'000 ▁m . ▁s . ▁m . ▁per ▁z w isch berg en . ▁las ▁vischnancas ▁cunf i antas
5000 ▁la ▁viafier ▁m atter h orn - g ott ard ▁('' m atter h orn ▁gott hard ▁ba hn '', ▁m g b ) ▁datti ▁dapi ▁l ’ emprim ▁da ▁schaner ▁0000. ▁la ▁viafier ▁furma ▁il ▁resultat ▁da ▁la ▁fusiun ▁tr ant
▁la ▁nov ella ▁vegn ▁part g ida ▁en ▁tr eis ▁parts : ▁l ’ ▁empr ema ▁ha ▁num ▁ “ ils ▁r at uns ▁vegnan ” , ▁la ▁sec unda ▁ “ ils ▁aff ons ▁vegnan ” ▁e ▁la ▁ti ar za ▁ “ ils ▁r at uns ▁t uorn an ” .
▁la ▁vischnanca ▁da ▁g ond o - z w isch berg en ▁giascha ▁en ▁la ▁val ▁div ed ro ▁sin ▁000 ▁m . ▁s . ▁m . ▁per ▁g ond o ▁e ▁0'000 ▁m . ▁s . ▁m . ▁per ▁zw isch berg en . ▁las ▁vischnancas ▁cunf i antas
10000 ▁la ▁viafier ▁matter horn - g ott ard ▁('' m atter horn ▁gott hard ▁ba hn '', ▁m g b ) ▁datti ▁dapi ▁l ’ emprim ▁da ▁schaner ▁0000. ▁la ▁viafier ▁furma ▁il ▁resultat ▁da ▁la ▁fusiun ▁tr ant
▁la ▁nov ella ▁vegn ▁part g ida ▁en ▁treis ▁parts : ▁l ’ ▁empr ema ▁ha ▁num ▁“ ils ▁rat uns ▁vegnan ” , ▁la ▁secunda ▁“ ils ▁affons ▁vegnan ” ▁e ▁la ▁ti ar za ▁“ ils ▁rat uns ▁t uorn an ” .
▁la ▁vischnanca ▁da ▁g ondo - z w isch berg en ▁giascha ▁en ▁la ▁val ▁div ed ro ▁sin ▁000 ▁m . ▁s . ▁m . ▁per ▁g ondo ▁e ▁0'000 ▁m . ▁s . ▁m . ▁per ▁zw isch berg en . ▁las ▁vischnancas ▁cunf i antas
25000 ▁la ▁viafier ▁matterhorn - gottard ▁('' m atter horn ▁gotthard ▁bahn '', ▁m gb ) ▁datti ▁dapi ▁l ’ emprim ▁da ▁schaner ▁0000. ▁la ▁viafier ▁furma ▁il ▁resultat ▁da ▁la ▁fusiun ▁tr ant
▁la ▁novella ▁vegn ▁part gida ▁en ▁treis ▁parts : ▁l ’ ▁emprema ▁ha ▁num ▁“ ils ▁ratuns ▁vegnan ” , ▁la ▁secunda ▁“ ils ▁affons ▁vegnan ” ▁e ▁la ▁tiarza ▁“ ils ▁ratuns ▁tuorn an ” .
▁la ▁vischnanca ▁da ▁gondo - zw isch bergen ▁giascha ▁en ▁la ▁val ▁div ed ro ▁sin ▁000 ▁m . ▁s . ▁m . ▁per ▁gondo ▁e ▁0'000 ▁m . ▁s . ▁m . ▁per ▁zw isch bergen . ▁las ▁vischnancas ▁cunfiantas
50000 ▁la ▁viafier ▁matterhorn - gottard ▁('' matterhorn ▁gotthard ▁bahn '', ▁mgb ) ▁datti ▁dapi ▁l ’ emprim ▁da ▁schaner ▁0000. ▁la ▁viafier ▁furma ▁il ▁resultat ▁da ▁la ▁fusiun ▁tr ant
▁la ▁novella ▁vegn ▁part gida ▁en ▁treis ▁parts : ▁l ’ ▁emprema ▁ha ▁num ▁“ ils ▁ratuns ▁vegnan ” , ▁la ▁secunda ▁“ ils ▁affons ▁vegnan ” ▁e ▁la ▁tiarza ▁“ ils ▁ratuns ▁tuornan ” .
▁la ▁vischnanca ▁da ▁gondo - zwischbergen ▁giascha ▁en ▁la ▁val ▁divedro ▁sin ▁000 ▁m . ▁s . ▁m . ▁per ▁gondo ▁e ▁0'000 ▁m . ▁s . ▁m . ▁per ▁zw ischbergen . ▁las ▁vischnancas ▁cunfiantas