Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizesawiki sample
original * कसबा गणपतिः, चतुःशृङ्गी इत्यस्थं मातामन्दिरं, सिंहगड-दुर्गः, खडकवासला-जलबन्धः, पानशेत-जलबन्धः, माळशेज पर्वतमार्गः, ताम्हिणी पर्वतमार्गः, भुलेश्वरमन्
लोणार सरोवरविषये पुराणग्रन्थेषु 'बैरजतीर्थ' इत्यनेन नाम्ना उल्लेखोऽस्ति इति कथ्यते । प्राचीने कुन्तलप्रदेशे अयं परिसर: समाविष्ट: । मण्डलेऽस्मिन् मौर्य
'नवम्बर'-मासस्य पञ्चमे दिनाङ्के सर्वकारेण सरदार मुक्तः कृतः । परन्तु पुनः सरदार सर्वकारविरोधिभाषणं कृत्वा 'दिसम्बर'-मासे कारावासं प्रत्यगच्छत् । तस्मि
1000 ▁* ▁क स ब ा ▁ग ण प तिः , ▁चतु ः श ृ ङ्ग ी ▁इत्य स्थ ं ▁म ात ाम न्दि रं , ▁सि ंह ग ड - द ु र् गः , ▁ख ड क वा स ला - ज ल बन्ध ः , ▁प ान श ेत - ज ल बन्ध ः , ▁मा ळ श े ज ▁प र्व त मा र् गः , ▁त ाम् ह िण ी ▁प र्व त मा र् गः , ▁भ ु ल ेश्व र म न्
▁लो ण ार ▁स रो व र विष ये ▁पु रा ण ग्र न्थ ेषु ▁' ब ै र ज ती र्थ ' ▁इत्य नेन ▁न ाम् ना ▁उ ल् लेख ोऽ स्ति ▁इति ▁कथ ्यते ▁। ▁प्रा च ीन े ▁कु न्त ल प्रदेश े ▁अयं ▁परि स र : ▁समा वि ष्ट : ▁। ▁म ण्डले ऽ स्मिन् ▁म ौ र्य
▁' न व म्ब र ' - मास स्य ▁पञ्च मे ▁दि नाङ् के ▁सर्व कार ेण ▁स र द ार ▁मु क्त ः ▁कृ तः ▁। ▁पर न्तु ▁पु नः ▁स र द ार ▁सर्व कार वि रो धि भाष णं ▁कृ त्वा ▁' दि स म्ब र ' - मास े ▁कार ा वा सं ▁प्र त्य ग च्छ त् ▁। ▁त स्मि
3000 ▁* ▁क स बा ▁गण पतिः , ▁चतु ः श ृ ङ्ग ी ▁इत्य स्थं ▁मात ाम न्दि रं , ▁सिंह ग ड - दु र्गः , ▁ख ड क वास ला - जल बन्ध ः , ▁प ान श ेत - जल बन्ध ः , ▁मा ळ शे ज ▁पर्वत मा र्गः , ▁त ाम् ह िण ी ▁पर्वत मा र्गः , ▁भ ुल ेश्वर म न्
▁लो ण ार ▁स रो वर विषये ▁पु राण ग्रन्थ ेषु ▁' ब ैर ज तीर्थ ' ▁इत्यनेन ▁नाम्ना ▁उल् लेख ोऽस्ति ▁इति ▁कथ्यते ▁। ▁प्राचीन े ▁कु न्त ल प्रदेशे ▁अयं ▁परि सर : ▁समा वि ष्ट : ▁। ▁मण्डले ऽस्मिन् ▁मौ र्य
▁' नव म्बर '- मासस्य ▁पञ्च मे ▁दिनाङ्के ▁सर्व कारेण ▁सर दार ▁मु क्तः ▁कृतः ▁। ▁परन्तु ▁पुनः ▁सर दार ▁सर्व कार वि रो धि भाष णं ▁कृत्वा ▁' दि स म्बर '- मासे ▁कार ा वा सं ▁प्रत्य ग च्छत् ▁। ▁त स्मि
5000 ▁* ▁क स बा ▁गण पतिः , ▁चतु ः श ृङ्ग ी ▁इत्य स्थं ▁मात ाम न्दि रं , ▁सिंह ग ड - दु र्गः , ▁ख ड क वास ला - जल बन्धः , ▁प ान श ेत - जल बन्धः , ▁मा ळ शे ज ▁पर्वत मार्गः , ▁त ाम् ह िणी ▁पर्वत मार्गः , ▁भ ुल ेश्वर मन्
▁लो ण ार ▁सरो वर विषये ▁पुराण ग्रन्थेषु ▁' ब ैर ज तीर्थ ' ▁इत्यनेन ▁नाम्ना ▁उल्लेख ोऽस्ति ▁इति ▁कथ्यते ▁। ▁प्राचीन े ▁कु न्त ल प्रदेशे ▁अयं ▁परि सर : ▁समा वि ष्ट : ▁। ▁मण्डले ऽस्मिन् ▁मौ र्य
▁' नव म्बर '- मासस्य ▁पञ्च मे ▁दिनाङ्के ▁सर्वकारेण ▁सर दार ▁मु क्तः ▁कृतः ▁। ▁परन्तु ▁पुनः ▁सर दार ▁सर्वकार वि रो धि भाष णं ▁कृत्वा ▁' दि स म्बर '- मासे ▁कार ा वा सं ▁प्रत्य ग च्छत् ▁। ▁त स्मि
10000 ▁* ▁क स बा ▁गण पतिः , ▁चतु ः श ृङ्ग ी ▁इत्य स्थं ▁मात ाम न्दि रं , ▁सिंह गड - दुर्गः , ▁ख ड क वास ला - जलबन्धः , ▁पान श ेत - जलबन्धः , ▁मा ळ शे ज ▁पर्वत मार्गः , ▁त ाम् ह िणी ▁पर्वत मार्गः , ▁भ ुल ेश्वर मन्
▁लो ण ार ▁सरो वर विषये ▁पुराण ग्रन्थेषु ▁' ब ैर ज तीर्थ ' ▁इत्यनेन ▁नाम्ना ▁उल्लेख ोऽस्ति ▁इति ▁कथ्यते ▁। ▁प्राचीन े ▁कुन्त ल प्रदेशे ▁अयं ▁परि सर : ▁समा विष्ट : ▁। ▁मण्डलेऽस्मिन् ▁मौर्य
▁' नव म्बर '- मासस्य ▁पञ्चमे ▁दिनाङ्के ▁सर्वकारेण ▁सरदार ▁मुक्तः ▁कृतः ▁। ▁परन्तु ▁पुनः ▁सरदार ▁सर्वकार वि रो धि भाष णं ▁कृत्वा ▁' दि सम्बर '- मासे ▁कारा वासं ▁प्रत्य ग च्छत् ▁। ▁त स्मि
25000 ▁* ▁क स बा ▁गण पतिः , ▁चतुः शृङ्ग ी ▁इत्य स्थं ▁मात ाम न्दिरं , ▁सिंह गड - दुर्गः , ▁ख ड क वास ला - जलबन्धः , ▁पान श ेत - जलबन्धः , ▁मा ळ शे ज ▁पर्वत मार्गः , ▁ताम् ह िणी ▁पर्वत मार्गः , ▁भ ुल ेश्वर मन्
▁लो ण ार ▁सरोवर विषये ▁पुराण ग्रन्थेषु ▁' ब ैर ज तीर्थ ' ▁इत्यनेन ▁नाम्ना ▁उल्लेख ोऽस्ति ▁इति ▁कथ्यते ▁। ▁प्राचीने ▁कुन्त ल प्रदेशे ▁अयं ▁परिसर : ▁समा विष्ट : ▁। ▁मण्डलेऽस्मिन् ▁मौर्य
▁' नवम्बर '- मासस्य ▁पञ्चमे ▁दिनाङ्के ▁सर्वकारेण ▁सरदार ▁मुक्तः ▁कृतः ▁। ▁परन्तु ▁पुनः ▁सरदार ▁सर्वकार विरोधि भाष णं ▁कृत्वा ▁' दिसम्बर '- मासे ▁कारा वासं ▁प्रत्य गच्छत् ▁। ▁त स्मि
50000 ▁* ▁क स बा ▁गणपतिः , ▁चतुः शृङ्ग ी ▁इत्य स्थं ▁मात ामन्दिरं , ▁सिंह गड - दुर्गः , ▁ख ड क वास ला - जलबन्धः , ▁पान श ेत - जलबन्धः , ▁मा ळ शे ज ▁पर्वत मार्गः , ▁ताम् ह िणी ▁पर्वत मार्गः , ▁भ ुल ेश्वर मन्
▁लो ण ार ▁सरोवर विषये ▁पुराण ग्रन्थेषु ▁' ब ैर ज तीर्थ ' ▁इत्यनेन ▁नाम्ना ▁उल्लेख ोऽस्ति ▁इति ▁कथ्यते ▁। ▁प्राचीने ▁कुन्तल प्रदेशे ▁अयं ▁परिसर : ▁समाविष्ट : ▁। ▁मण्डलेऽस्मिन् ▁मौर्य
▁' नवम्बर '- मासस्य ▁पञ्चमे ▁दिनाङ्के ▁सर्वकारेण ▁सरदार ▁मुक्तः ▁कृतः ▁। ▁परन्तु ▁पुनः ▁सरदार ▁सर्वकार विरोधि भाषणं ▁कृत्वा ▁' दिसम्बर '- मासे ▁कारा वासं ▁प्रत्यगच्छत् ▁। ▁तस्मि
100000 ▁* ▁कस बा ▁गणपतिः , ▁चतुः शृङ्ग ी ▁इत्य स्थं ▁मात ामन्दिरं , ▁सिंहगड - दुर्गः , ▁खड क वास ला - जलबन्धः , ▁पान शेत - जलबन्धः , ▁माळ शे ज ▁पर्वत मार्गः , ▁ताम् ह िणी ▁पर्वत मार्गः , ▁भ ुल ेश्वर मन्
▁लोण ार ▁सरोवर विषये ▁पुराण ग्रन्थेषु ▁' ब ैर ज तीर्थ ' ▁इत्यनेन ▁नाम्ना ▁उल्लेखोऽस्ति ▁इति ▁कथ्यते ▁। ▁प्राचीने ▁कुन्तल प्रदेशे ▁अयं ▁परिसर : ▁समाविष्ट : ▁। ▁मण्डलेऽस्मिन् ▁मौर्य
▁' नवम्बर '- मासस्य ▁पञ्चमे ▁दिनाङ्के ▁सर्वकारेण ▁सरदार ▁मुक्तः ▁कृतः ▁। ▁परन्तु ▁पुनः ▁सरदार ▁सर्वकारविरोधि भाषणं ▁कृत्वा ▁' दिसम्बर '- मासे ▁कारावासं ▁प्रत्यगच्छत् ▁। ▁तस्मि