Norwegian (no) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizenowiki sample
original hei! – tēriņtš!vel bekomme – jõvvõ sīemnaigõ!god morgen! – jõvā ūomõg! / jõvvõ ūomõgt!god dag! – jõvā pǟva! / jõvvõ päuvõ!takk! – tienū!godt nyttår! –
det som karakteriserer det økonomiske markedet for gnu/linux-distribusjoner er at prisen på selve programvaren ofte er svært nær grensekostnaden ved å
fil:imac00pouces.png|right|thumb|000px|den første intel-baserte macen: imac en datamaskin består av noen hoveddeler som en datamaskinbruker bør kjenne
1000 ▁he i ! ▁– ▁t ē ri ņ t š ! v el ▁be kom me ▁– ▁j õ v v õ ▁s ī em na ig õ ! g od ▁m or gen ! ▁– ▁j õ v ā ▁ ū om õ g ! ▁ / ▁j õ v v õ ▁ ū om õ g t ! g od ▁dag ! ▁– ▁j õ v ā ▁p ǟ va ! ▁ / ▁j õ v v õ ▁p ä u v õ ! t a kk ! ▁– ▁t ien ū ! g od t ▁ny tt år ! ▁–
▁det ▁som ▁kar ak ter iser er ▁det ▁ø kon om iske ▁mar k ed et ▁for ▁g n u / lin u x - d ist ri b us jon er ▁er ▁at ▁pri sen ▁på ▁sel ve ▁pro gra m var en ▁ofte ▁er ▁sv ært ▁nær ▁gr en se k o st n ad en ▁ved ▁å
▁fil : im ac 00 p ou c es . p n g | ri g h t | th umb | 000 p x | den ▁første ▁in tel - b as erte ▁ma c en : ▁i m ac ▁en ▁d at am a sk in ▁best år ▁av ▁noen ▁hoved del er ▁som ▁en ▁d at am a sk in bru ker ▁b ør ▁k jen ne
3000 ▁he i ! ▁– ▁t ē ri ņ t š ! vel ▁be kom me ▁– ▁j õ v v õ ▁s ī em na ig õ ! g od ▁mor gen ! ▁– ▁j õ v ā ▁ ū om õ g ! ▁/ ▁j õ v v õ ▁ ū om õ g t ! g od ▁dag ! ▁– ▁j õ v ā ▁p ǟ va ! ▁/ ▁j õ v v õ ▁p ä u v õ ! ta kk ! ▁– ▁t ien ū ! g od t ▁nytt år ! ▁–
▁det ▁som ▁karakter iserer ▁det ▁økonom iske ▁mark ed et ▁for ▁g n u / lin u x - d istri b usjon er ▁er ▁at ▁pri sen ▁på ▁sel ve ▁program var en ▁ofte ▁er ▁svært ▁nær ▁gren se k ost n aden ▁ved ▁å
▁fil : im ac 00 p ou c es . p ng | right | thumb | 000 px | den ▁første ▁in tel - bas erte ▁mac en : ▁i m ac ▁en ▁dat ama sk in ▁består ▁av ▁noen ▁hoved del er ▁som ▁en ▁dat ama sk in bru ker ▁bør ▁kjen ne
5000 ▁he i ! ▁– ▁t ē ri ņ t š ! vel ▁be kom me ▁– ▁j õ v v õ ▁s ī em na ig õ ! g od ▁mor gen ! ▁– ▁j õ v ā ▁ ū om õ g ! ▁/ ▁j õ v v õ ▁ ū om õ g t ! g od ▁dag ! ▁– ▁j õ v ā ▁p ǟ va ! ▁/ ▁j õ v v õ ▁p ä u v õ ! ta kk ! ▁– ▁t ien ū ! g od t ▁nytt år ! ▁–
▁det ▁som ▁karakter iserer ▁det ▁økonomiske ▁marked et ▁for ▁g n u / lin ux - distri b usjoner ▁er ▁at ▁prisen ▁på ▁selve ▁program var en ▁ofte ▁er ▁svært ▁nær ▁grense k ost n aden ▁ved ▁å
▁fil : im ac 00 p ou ces . p ng | right | thumb |000 px | den ▁første ▁in tel - bas erte ▁mac en : ▁im ac ▁en ▁dat ama skin ▁består ▁av ▁noen ▁hoved del er ▁som ▁en ▁dat ama skin bru ker ▁bør ▁kjen ne
10000 ▁he i ! ▁– ▁t ē ri ņ t š ! vel ▁be kom me ▁– ▁j õ v v õ ▁s ī em na ig õ ! god ▁morgen ! ▁– ▁j õ v ā ▁ ū om õ g ! ▁/ ▁j õ v v õ ▁ ū om õ gt ! god ▁dag ! ▁– ▁j õ v ā ▁p ǟ va ! ▁/ ▁j õ v v õ ▁p ä uv õ ! ta kk ! ▁– ▁t ien ū ! god t ▁nytt år ! ▁–
▁det ▁som ▁karakter iserer ▁det ▁økonomiske ▁markedet ▁for ▁g nu / lin ux - distri b usjoner ▁er ▁at ▁prisen ▁på ▁selve ▁program var en ▁ofte ▁er ▁svært ▁nær ▁grense k ost n aden ▁ved ▁å
▁fil : im ac 00 p ou ces . png | right | thumb |000 px | den ▁første ▁intel - bas erte ▁mac en : ▁im ac ▁en ▁datama skin ▁består ▁av ▁noen ▁hoved deler ▁som ▁en ▁datama skin bruker ▁bør ▁kjen ne
25000 ▁hei ! ▁– ▁t ē ri ņ t š ! vel ▁be kom me ▁– ▁j õ v v õ ▁s ī em na ig õ ! god ▁morgen ! ▁– ▁j õ v ā ▁ ū om õ g ! ▁/ ▁j õ v v õ ▁ ū om õ gt ! god ▁dag ! ▁– ▁j õ v ā ▁p ǟ va ! ▁/ ▁j õ v v õ ▁p ä uv õ ! ta kk ! ▁– ▁t ien ū ! god t ▁nyttår ! ▁–
▁det ▁som ▁karakter iserer ▁det ▁økonomiske ▁markedet ▁for ▁gnu / linux - distribusjoner ▁er ▁at ▁prisen ▁på ▁selve ▁program varen ▁ofte ▁er ▁svært ▁nær ▁grense kost naden ▁ved ▁å
▁fil : im ac 00 p ou ces . png | right | thumb |000 px | den ▁første ▁intel - baserte ▁mac en : ▁im ac ▁en ▁datamaskin ▁består ▁av ▁noen ▁hoved deler ▁som ▁en ▁datamaskin bruker ▁bør ▁kjenne
50000 ▁hei ! ▁– ▁t ē ri ņ t š ! vel ▁be komme ▁– ▁j õ vv õ ▁s ī em na ig õ ! god ▁morgen ! ▁– ▁j õ v ā ▁ ū om õ g ! ▁/ ▁j õ vv õ ▁ ū om õ gt ! god ▁dag ! ▁– ▁j õ v ā ▁p ǟ va ! ▁/ ▁j õ vv õ ▁pä uv õ ! takk ! ▁– ▁tien ū ! godt ▁nyttår ! ▁–
▁det ▁som ▁karakteriserer ▁det ▁økonomiske ▁markedet ▁for ▁gnu / linux - distribusjoner ▁er ▁at ▁prisen ▁på ▁selve ▁programvaren ▁ofte ▁er ▁svært ▁nær ▁grense kost naden ▁ved ▁å
▁fil : im ac 00 p ou ces . png | right | thumb |000 px | den ▁første ▁intel - baserte ▁mac en : ▁im ac ▁en ▁datamaskin ▁består ▁av ▁noen ▁hoved deler ▁som ▁en ▁datamaskin bruker ▁bør ▁kjenne
100000 ▁hei ! ▁– ▁t ē ri ņ t š ! vel ▁be komme ▁– ▁j õ vv õ ▁s ī em na ig õ ! god ▁morgen ! ▁– ▁j õ v ā ▁ ū om õ g ! ▁/ ▁j õ vv õ ▁ ū om õ gt ! god ▁dag ! ▁– ▁j õ v ā ▁p ǟ va ! ▁/ ▁j õ vv õ ▁pä uv õ ! takk ! ▁– ▁tien ū ! godt ▁nyttår ! ▁–
▁det ▁som ▁karakteriserer ▁det ▁økonomiske ▁markedet ▁for ▁gnu / linux - distribusjoner ▁er ▁at ▁prisen ▁på ▁selve ▁programvaren ▁ofte ▁er ▁svært ▁nær ▁grense kostnaden ▁ved ▁å
▁fil : im ac 00 p ou ces . png | right | thumb |000 px | den ▁første ▁intel - baserte ▁mac en : ▁im ac ▁en ▁datamaskin ▁består ▁av ▁noen ▁hoveddeler ▁som ▁en ▁datamaskin bruker ▁bør ▁kjenne