Afrikaans (af) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizeafwiki sample
original 00 oktober is die 000de dag van die jaar in die gregoriaanse kalender (000de in 'n skrikkeljaar). daar volg nog 00 dae in die res van die jaar.
die jaar 0000 was 'n gewone jaar wat volgens die gregoriaanse kalender op 'n donderdag begin het. dit was die 00ste jaar van die 00de eeu n.c. soos an
* inligtingswetenskap is die studie van data en inligting, hoe om dit te interpreteer, analiseer, stoor en oor te dra. inligtingswetenskap het begin a
1000 ▁00 ▁o kt ober ▁is ▁die ▁000 de ▁d ag ▁van ▁die ▁jaar ▁in ▁die ▁g re g or i aanse ▁k al en der ▁( 000 de ▁in ▁' n ▁sk rik kel j aar ). ▁daar ▁volg ▁nog ▁00 ▁d ae ▁in ▁die ▁re s ▁van ▁die ▁jaar .
▁die ▁jaar ▁0000 ▁was ▁' n ▁gew one ▁jaar ▁wat ▁volgens ▁die ▁g re g or i aanse ▁k al en der ▁op ▁' n ▁d onder dag ▁begin ▁het . ▁dit ▁was ▁die ▁00 ste ▁jaar ▁van ▁die ▁00 de ▁eeu ▁n . c . ▁soos ▁an
▁* ▁in lig t ings w et enskap ▁is ▁die ▁stu die ▁van ▁dat a ▁en ▁in lig ting , ▁hoe ▁om ▁dit ▁te ▁inter p re te er , ▁an al iseer , ▁st oor ▁en ▁oor ▁te ▁d ra . ▁in lig t ings w et enskap ▁het ▁begin ▁a
3000 ▁00 ▁oktober ▁is ▁die ▁000 de ▁dag ▁van ▁die ▁jaar ▁in ▁die ▁gregoriaanse ▁kalender ▁(000 de ▁in ▁' n ▁sk rik kel jaar ). ▁daar ▁volg ▁nog ▁00 ▁dae ▁in ▁die ▁res ▁van ▁die ▁jaar .
▁die ▁jaar ▁0000 ▁was ▁' n ▁gewone ▁jaar ▁wat ▁volgens ▁die ▁gregoriaanse ▁kalender ▁op ▁' n ▁d onder dag ▁begin ▁het . ▁dit ▁was ▁die ▁00 ste ▁jaar ▁van ▁die ▁00 de ▁eeu ▁n . c . ▁soos ▁an
▁* ▁in lig tings wet enskap ▁is ▁die ▁studie ▁van ▁dat a ▁en ▁in ligting , ▁hoe ▁om ▁dit ▁te ▁inter p re teer , ▁an al iseer , ▁st oor ▁en ▁oor ▁te ▁dra . ▁in lig tings wet enskap ▁het ▁begin ▁a
5000 ▁00 ▁oktober ▁is ▁die ▁000 de ▁dag ▁van ▁die ▁jaar ▁in ▁die ▁gregoriaanse ▁kalender ▁(000 de ▁in ▁' n ▁skrikkel jaar ). ▁daar ▁volg ▁nog ▁00 ▁dae ▁in ▁die ▁res ▁van ▁die ▁jaar .
▁die ▁jaar ▁0000 ▁was ▁' n ▁gewone ▁jaar ▁wat ▁volgens ▁die ▁gregoriaanse ▁kalender ▁op ▁' n ▁d onder dag ▁begin ▁het . ▁dit ▁was ▁die ▁00 ste ▁jaar ▁van ▁die ▁00 de ▁eeu ▁n . c . ▁soos ▁an
▁* ▁in lig tings wet enskap ▁is ▁die ▁studie ▁van ▁data ▁en ▁inligting , ▁hoe ▁om ▁dit ▁te ▁inter pre teer , ▁anal iseer , ▁st oor ▁en ▁oor ▁te ▁dra . ▁in lig tings wet enskap ▁het ▁begin ▁a
10000 ▁00 ▁oktober ▁is ▁die ▁000 de ▁dag ▁van ▁die ▁jaar ▁in ▁die ▁gregoriaanse ▁kalender ▁(000 de ▁in ▁' n ▁skrikkeljaar ). ▁daar ▁volg ▁nog ▁00 ▁dae ▁in ▁die ▁res ▁van ▁die ▁jaar .
▁die ▁jaar ▁0000 ▁was ▁' n ▁gewone ▁jaar ▁wat ▁volgens ▁die ▁gregoriaanse ▁kalender ▁op ▁' n ▁donderdag ▁begin ▁het . ▁dit ▁was ▁die ▁00 ste ▁jaar ▁van ▁die ▁00 de ▁eeu ▁n . c . ▁soos ▁an
▁* ▁in lig tings wetenskap ▁is ▁die ▁studie ▁van ▁data ▁en ▁inligting , ▁hoe ▁om ▁dit ▁te ▁inter pre teer , ▁anal iseer , ▁stoor ▁en ▁oor ▁te ▁dra . ▁in lig tings wetenskap ▁het ▁begin ▁a
25000 ▁00 ▁oktober ▁is ▁die ▁000 de ▁dag ▁van ▁die ▁jaar ▁in ▁die ▁gregoriaanse ▁kalender ▁(000 de ▁in ▁' n ▁skrikkeljaar ). ▁daar ▁volg ▁nog ▁00 ▁dae ▁in ▁die ▁res ▁van ▁die ▁jaar .
▁die ▁jaar ▁0000 ▁was ▁' n ▁gewone ▁jaar ▁wat ▁volgens ▁die ▁gregoriaanse ▁kalender ▁op ▁' n ▁donderdag ▁begin ▁het . ▁dit ▁was ▁die ▁00 ste ▁jaar ▁van ▁die ▁00 de ▁eeu ▁n . c . ▁soos ▁an
▁* ▁inligtings wetenskap ▁is ▁die ▁studie ▁van ▁data ▁en ▁inligting , ▁hoe ▁om ▁dit ▁te ▁interpreteer , ▁anal iseer , ▁stoor ▁en ▁oor ▁te ▁dra . ▁inligtings wetenskap ▁het ▁begin ▁a
50000 ▁00 ▁oktober ▁is ▁die ▁000 de ▁dag ▁van ▁die ▁jaar ▁in ▁die ▁gregoriaanse ▁kalender ▁(000 de ▁in ▁' n ▁skrikkeljaar ). ▁daar ▁volg ▁nog ▁00 ▁dae ▁in ▁die ▁res ▁van ▁die ▁jaar .
▁die ▁jaar ▁0000 ▁was ▁' n ▁gewone ▁jaar ▁wat ▁volgens ▁die ▁gregoriaanse ▁kalender ▁op ▁' n ▁donderdag ▁begin ▁het . ▁dit ▁was ▁die ▁00 ste ▁jaar ▁van ▁die ▁00 de ▁eeu ▁n . c . ▁soos ▁an
▁* ▁inligtings wetenskap ▁is ▁die ▁studie ▁van ▁data ▁en ▁inligting , ▁hoe ▁om ▁dit ▁te ▁interpreteer , ▁analiseer , ▁stoor ▁en ▁oor ▁te ▁dra . ▁inligtings wetenskap ▁het ▁begin ▁a
100000 ▁00 ▁oktober ▁is ▁die ▁000 de ▁dag ▁van ▁die ▁jaar ▁in ▁die ▁gregoriaanse ▁kalender ▁(000 de ▁in ▁' n ▁skrikkeljaar ). ▁daar ▁volg ▁nog ▁00 ▁dae ▁in ▁die ▁res ▁van ▁die ▁jaar .
▁die ▁jaar ▁0000 ▁was ▁' n ▁gewone ▁jaar ▁wat ▁volgens ▁die ▁gregoriaanse ▁kalender ▁op ▁' n ▁donderdag ▁begin ▁het . ▁dit ▁was ▁die ▁00 ste ▁jaar ▁van ▁die ▁00 de ▁eeu ▁n . c . ▁soos ▁an
▁* ▁inligtings wetenskap ▁is ▁die ▁studie ▁van ▁data ▁en ▁inligting , ▁hoe ▁om ▁dit ▁te ▁interpreteer , ▁analiseer , ▁stoor ▁en ▁oor ▁te ▁dra . ▁inligtings wetenskap ▁het ▁begin ▁a