Macedonian (mk) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
1000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
3000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizemkwiki sample
original двете маски поврзани со драмата ја претставуваат традиционалната видовна разлика помеѓу комедијата и трагедијата. тие се симболи на старогрчките музи,
медалите на нобеловата награда, кои биле ковани од минтверкет во шведска и ковачницата во норвешка од 0000 година, се регистриран заштитен знак на ноб
во европа, како во античкиот, така и во средовековниот период, градбите не биле препишувани на одредени индивидуи и имињата на архитектите биле често
1000 ▁две те ▁ма ски ▁повр за ни ▁со ▁д ра мата ▁ја ▁претста в уваат ▁тра ди ционал ната ▁ви до вна ▁раз лика ▁помеѓу ▁ко ме ди јата ▁и ▁тра ге ди јата . ▁тие ▁се ▁си м бо ли ▁на ▁ста ро г р чки те ▁му зи ,
▁ме да лите ▁на ▁но бе ло вата ▁на гра да , ▁кои ▁биле ▁ко ва ни ▁од ▁ми нт вер ке т ▁во ▁ш вед ска ▁и ▁ко ва ч ница та ▁во ▁но р ве ш ка ▁од ▁0000 ▁година , ▁се ▁ре ги ст ри ран ▁за ш тите н ▁зна к ▁на ▁но б
▁во ▁евро па , ▁како ▁во ▁а нти чкиот , ▁така ▁и ▁во ▁сре до ве ков ниот ▁период , ▁град б ите ▁не ▁биле ▁пре пи ш ува ни ▁на ▁од ре дени ▁ин ди вид у и ▁и ▁и ми њата ▁на ▁ар х ите к тите ▁биле ▁често
3000 ▁двете ▁ма ски ▁поврзани ▁со ▁дра мата ▁ја ▁претста вуваат ▁традиционал ната ▁ви до вна ▁разлика ▁помеѓу ▁ко ме ди јата ▁и ▁тра ге ди јата . ▁тие ▁се ▁симбо ли ▁на ▁старо гр чките ▁музи ,
▁ме да лите ▁на ▁но бе ло вата ▁награда , ▁кои ▁биле ▁ко ва ни ▁од ▁ми нт вер ке т ▁во ▁ш вед ска ▁и ▁ко ва ч ницата ▁во ▁нор ве шка ▁од ▁0000 ▁година , ▁се ▁реги стри ран ▁за ш тите н ▁зна к ▁на ▁но б
▁во ▁европа , ▁како ▁во ▁анти чкиот , ▁така ▁и ▁во ▁сре до ве ков ниот ▁период , ▁град бите ▁не ▁биле ▁пре пи шува ни ▁на ▁од редени ▁инди вид у и ▁и ▁имињата ▁на ▁архите к тите ▁биле ▁често
5000 ▁двете ▁ма ски ▁поврзани ▁со ▁дра мата ▁ја ▁претставуваат ▁традиционал ната ▁ви до вна ▁разлика ▁помеѓу ▁коме ди јата ▁и ▁тра ге ди јата . ▁тие ▁се ▁симбо ли ▁на ▁старо гр чките ▁музи ,
▁меда лите ▁на ▁нобело вата ▁награда , ▁кои ▁биле ▁ко вани ▁од ▁ми нт вер ке т ▁во ▁шведска ▁и ▁ко ва ч ницата ▁во ▁норве шка ▁од ▁0000 ▁година , ▁се ▁реги стри ран ▁за штите н ▁зна к ▁на ▁но б
▁во ▁европа , ▁како ▁во ▁анти чкиот , ▁така ▁и ▁во ▁сре до ве ков ниот ▁период , ▁град бите ▁не ▁биле ▁пре пи шува ни ▁на ▁одредени ▁индивид у и ▁и ▁имињата ▁на ▁архитек тите ▁биле ▁често
10000 ▁двете ▁ма ски ▁поврзани ▁со ▁дра мата ▁ја ▁претставуваат ▁традиционал ната ▁ви до вна ▁разлика ▁помеѓу ▁коме дијата ▁и ▁тра ге дијата . ▁тие ▁се ▁симболи ▁на ▁старо гр чките ▁музи ,
▁меда лите ▁на ▁нобеловата ▁награда , ▁кои ▁биле ▁ко вани ▁од ▁ми нт вер кет ▁во ▁шведска ▁и ▁ко вач ницата ▁во ▁норвешка ▁од ▁0000 ▁година , ▁се ▁регистри ран ▁заштите н ▁знак ▁на ▁но б
▁во ▁европа , ▁како ▁во ▁анти чкиот , ▁така ▁и ▁во ▁средо ве ковниот ▁период , ▁град бите ▁не ▁биле ▁пре пи шува ни ▁на ▁одредени ▁индивид у и ▁и ▁имињата ▁на ▁архитек тите ▁биле ▁често
25000 ▁двете ▁маски ▁поврзани ▁со ▁драмата ▁ја ▁претставуваат ▁традиционалната ▁видо вна ▁разлика ▁помеѓу ▁комедијата ▁и ▁траге дијата . ▁тие ▁се ▁симболи ▁на ▁старогр чките ▁музи ,
▁меда лите ▁на ▁нобеловата ▁награда , ▁кои ▁биле ▁ко вани ▁од ▁ми нт вер кет ▁во ▁шведска ▁и ▁ко вач ницата ▁во ▁норвешка ▁од ▁0000 ▁година , ▁се ▁регистриран ▁заштитен ▁знак ▁на ▁ноб
▁во ▁европа , ▁како ▁во ▁античкиот , ▁така ▁и ▁во ▁средо ве ковниот ▁период , ▁градбите ▁не ▁биле ▁препишува ни ▁на ▁одредени ▁индивидуи ▁и ▁имињата ▁на ▁архитек тите ▁биле ▁често
50000 ▁двете ▁маски ▁поврзани ▁со ▁драмата ▁ја ▁претставуваат ▁традиционалната ▁видо вна ▁разлика ▁помеѓу ▁комедијата ▁и ▁трагедијата . ▁тие ▁се ▁симболи ▁на ▁старогрчките ▁музи ,
▁медалите ▁на ▁нобеловата ▁награда , ▁кои ▁биле ▁ковани ▁од ▁ми нт вер кет ▁во ▁шведска ▁и ▁ковач ницата ▁во ▁норвешка ▁од ▁0000 ▁година , ▁се ▁регистриран ▁заштитен ▁знак ▁на ▁ноб
▁во ▁европа , ▁како ▁во ▁античкиот , ▁така ▁и ▁во ▁средове ковниот ▁период , ▁градбите ▁не ▁биле ▁препишува ни ▁на ▁одредени ▁индивидуи ▁и ▁имињата ▁на ▁архитектите ▁биле ▁често
100000 ▁двете ▁маски ▁поврзани ▁со ▁драмата ▁ја ▁претставуваат ▁традиционалната ▁видо вна ▁разлика ▁помеѓу ▁комедијата ▁и ▁трагедијата . ▁тие ▁се ▁симболи ▁на ▁старогрчките ▁музи ,
▁медалите ▁на ▁нобеловата ▁награда , ▁кои ▁биле ▁ковани ▁од ▁ми нт вер кет ▁во ▁шведска ▁и ▁ковач ницата ▁во ▁норвешка ▁од ▁0000 ▁година , ▁се ▁регистриран ▁заштитен ▁знак ▁на ▁ноб
▁во ▁европа , ▁како ▁во ▁античкиот , ▁така ▁и ▁во ▁средове ковниот ▁период , ▁градбите ▁не ▁биле ▁препишува ни ▁на ▁одредени ▁индивидуи ▁и ▁имињата ▁на ▁архитектите ▁биле ▁често