Faroese (fo) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizefowiki sample
original leikararnir hava handska á hondini og rimagrímu fyri andlitinum. hornabóltur, á donskum og fleiri øðrum málum verður ''baseball'' brúkt, er tjóðarítró
oxynios og skamandrios (0) vóru tveir synir hektors, sum priamos sendi burtur til lydia tá troya týndist, fyri at teir ikki skuldu doyggja. eftir at t
00. mai er dagur 000 í árinum í tí gregorianska kalendaranum (dagur 000 um skotár). tað eru 000 dagar eftur av árinum.
1000 ▁leik arar nir ▁hava ▁hand ska ▁á ▁hon d ini ▁og ▁ri m ag r í m u ▁fyri ▁and lit inum . ▁h or na ból tur , ▁á ▁d on skum ▁og ▁fleiri ▁øðrum ▁mál um ▁verður ▁'' b as e b all '' ▁brú kt , ▁er ▁tjóð ar í tr ó
▁o x y ni os ▁og ▁sk am and ri os ▁( 0 ) ▁vóru ▁tv e ir ▁s y nir ▁he kt or s , ▁sum ▁p ri am os ▁s en di ▁bur tur ▁til ▁l y di a ▁tá ▁tr oy a ▁tý n di st , ▁fyri ▁at ▁teir ▁ikki ▁skul du ▁d oy ggja . ▁eftir ▁at ▁t
▁00. ▁mai ▁er ▁dag ur ▁000 ▁í ▁ár inum ▁í ▁tí ▁gr eg ori anska ▁kal end ar anum ▁( d ag ur ▁000 ▁um ▁skot ár ). ▁tað ▁eru ▁000 ▁dag ar ▁e ftur ▁av ▁ár inum .
3000 ▁leik ararnir ▁hava ▁hand ska ▁á ▁hond ini ▁og ▁ri m agr ím u ▁fyri ▁and lit inum . ▁hor na ból tur , ▁á ▁don skum ▁og ▁fleiri ▁øðrum ▁mál um ▁verður ▁'' b as e b all '' ▁brúkt , ▁er ▁tjóð ar í tr ó
▁o x y ni os ▁og ▁sk am and ri os ▁(0) ▁vóru ▁tveir ▁sy nir ▁he kt or s , ▁sum ▁pri am os ▁s endi ▁burtur ▁til ▁l y dia ▁tá ▁tr oy a ▁tý ndi st , ▁fyri ▁at ▁teir ▁ikki ▁skuldu ▁doy ggja . ▁eftir ▁at ▁t
▁00. ▁mai ▁er ▁dagur ▁000 ▁í ▁árinum ▁í ▁tí ▁gregorianska ▁kalendaranum ▁( dagur ▁000 ▁um ▁skotár ). ▁tað ▁eru ▁000 ▁dagar ▁e ftur ▁av ▁árinum .
5000 ▁leik ararnir ▁hava ▁hand ska ▁á ▁hond ini ▁og ▁ri m agr ím u ▁fyri ▁and lit inum . ▁hor na ból tur , ▁á ▁donskum ▁og ▁fleiri ▁øðrum ▁málum ▁verður ▁'' b as eb all '' ▁brúkt , ▁er ▁tjóð arí tr ó
▁o x y ni os ▁og ▁sk am and ri os ▁(0) ▁vóru ▁tveir ▁sy nir ▁he kt ors , ▁sum ▁pri am os ▁sendi ▁burtur ▁til ▁ly dia ▁tá ▁tr oy a ▁tý ndi st , ▁fyri ▁at ▁teir ▁ikki ▁skuldu ▁doy ggja . ▁eftir ▁at ▁t
▁00. ▁mai ▁er ▁dagur ▁000 ▁í ▁árinum ▁í ▁tí ▁gregorianska ▁kalendaranum ▁( dagur ▁000 ▁um ▁skotár ). ▁tað ▁eru ▁000 ▁dagar ▁e ftur ▁av ▁árinum .
10000 ▁leik ararnir ▁hava ▁hand ska ▁á ▁hond ini ▁og ▁ri m agr ím u ▁fyri ▁andlit inum . ▁hor na ból tur , ▁á ▁donskum ▁og ▁fleiri ▁øðrum ▁málum ▁verður ▁'' b as eb all '' ▁brúkt , ▁er ▁tjóð arí tr ó
▁ox yni os ▁og ▁sk am and ri os ▁(0) ▁vóru ▁tveir ▁synir ▁he kt ors , ▁sum ▁pri am os ▁sendi ▁burtur ▁til ▁ly dia ▁tá ▁tr oya ▁tý ndi st , ▁fyri ▁at ▁teir ▁ikki ▁skuldu ▁doyggja . ▁eftir ▁at ▁t
▁00. ▁mai ▁er ▁dagur ▁000 ▁í ▁árinum ▁í ▁tí ▁gregorianska ▁kalendaranum ▁( dagur ▁000 ▁um ▁skotár ). ▁tað ▁eru ▁000 ▁dagar ▁eftur ▁av ▁árinum .
25000 ▁leikararnir ▁hava ▁hand ska ▁á ▁hondini ▁og ▁rim agr ím u ▁fyri ▁andlit inum . ▁hor na bóltur , ▁á ▁donskum ▁og ▁fleiri ▁øðrum ▁málum ▁verður ▁'' bas eball '' ▁brúkt , ▁er ▁tjóð arí tr ó
▁ox yni os ▁og ▁skam and ri os ▁(0) ▁vóru ▁tveir ▁synir ▁hekt ors , ▁sum ▁pri amos ▁sendi ▁burtur ▁til ▁ly dia ▁tá ▁troya ▁tý ndi st , ▁fyri ▁at ▁teir ▁ikki ▁skuldu ▁doyggja . ▁eftir ▁at ▁t
▁00. ▁mai ▁er ▁dagur ▁000 ▁í ▁árinum ▁í ▁tí ▁gregorianska ▁kalendaranum ▁( dagur ▁000 ▁um ▁skotár ). ▁tað ▁eru ▁000 ▁dagar ▁eftur ▁av ▁árinum .
50000 ▁leikararnir ▁hava ▁hand ska ▁á ▁hondini ▁og ▁rim agr ím u ▁fyri ▁andlitinum . ▁hornabóltur , ▁á ▁donskum ▁og ▁fleiri ▁øðrum ▁málum ▁verður ▁'' bas eball '' ▁brúkt , ▁er ▁tjóðarí tr ó
▁ox yni os ▁og ▁skam andrios ▁(0) ▁vóru ▁tveir ▁synir ▁hekt ors , ▁sum ▁priamos ▁sendi ▁burtur ▁til ▁lydia ▁tá ▁troya ▁týndi st , ▁fyri ▁at ▁teir ▁ikki ▁skuldu ▁doyggja . ▁eftir ▁at ▁t
▁00. ▁mai ▁er ▁dagur ▁000 ▁í ▁árinum ▁í ▁tí ▁gregorianska ▁kalendaranum ▁( dagur ▁000 ▁um ▁skotár ). ▁tað ▁eru ▁000 ▁dagar ▁eftur ▁av ▁árinum .