Korean (ko) subword embeddings

Vocab size vocab model 25 dim 50 dim 100 dim 200 dim 300 dim
5000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
10000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
25000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
50000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
100000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
200000 vocab model txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix
txt | bin
bokeh | umap | matrix

Training corpus sample, encoded with different BPE vocabulary sizes

Vocab sizekowiki sample
original 이 과정은 비손실 압축 방식으로서, 0×0 격자의 성분들을 저주파부터 지그재그로 일렬로 세운 뒤. 반복된 0에만 rle를 적용하고, 그 결과들에 대해 허프만 부호화를 한다. 표준은 허프만 부호화 대신에 더 압축률이 좋은 산술 부호화도 가능하다고 기술하지만 산술 코딩은
넓은 의미로 컴퓨터에 탑재된 프로그램 중에서 하드웨어와 가장 낮은 수준에서 입출력을 담당하는 프로그램을 가리킨다. 좁은 의미의 정의에선 ibm-pc 호환 기종에 탑재된 것을 말하며, 보통 이 뜻으로 쓰인다. 바이오스는 컴퓨터에서 하드웨어와 소프트웨어의 중간 형태를 가지
조선민주주의인민공화국에서는, 0년간의 취학전 교육인 탁아소와 유치원이 있으며, 한국의 초등학교와 비슷한 소학교 0년, 고등중학교 0년, 합계 00년간의 의무교육 제도가 정비되고 있다.
5000 ▁이 ▁과 정 은 ▁비 손 실 ▁ 압 축 ▁방 식 으로 서 , ▁0 × 0 ▁ 격 자 의 ▁성 분 들을 ▁저 주 파 부터 ▁지 그 재 그 로 ▁일 렬 로 ▁세 운 ▁뒤 . ▁반 복 된 ▁0 에 만 ▁r le 를 ▁적 용 하고 , ▁그 ▁결 과 들 에 ▁대해 ▁ 허 프 만 ▁부 호 화 를 ▁한다 . ▁표 준 은 ▁ 허 프 만 ▁부 호 화 ▁대 신 에 ▁더 ▁ 압 축 률 이 ▁ 좋 은 ▁산 술 ▁부 호 화 도 ▁가 능 하다 고 ▁기 술 하 지만 ▁산 술 ▁코 딩 은
▁ 넓 은 ▁의 미 로 ▁ 컴 퓨 터 에 ▁ 탑 재 된 ▁프로 그 램 ▁중 에서 ▁하 드 웨 어 와 ▁가장 ▁ 낮 은 ▁수 준 에서 ▁입 출 력 을 ▁ 담 당 하는 ▁프로 그 램 을 ▁가 리 킨 다 . ▁ 좁 은 ▁의 미 의 ▁정 의 에 선 ▁ i b m - p c ▁호 환 ▁기 종 에 ▁ 탑 재 된 ▁것을 ▁말 하며 , ▁보 통 ▁이 ▁ 뜻 으로 ▁ 쓰 인 다 . ▁바 이 오 스 는 ▁ 컴 퓨 터 에서 ▁하 드 웨 어 와 ▁소 프 트 웨 어 의 ▁중 간 ▁형 태 를 ▁가 지
▁조선 민 주 주의 인 민 공 화 국 에서는 , ▁0 년 간 의 ▁취 학 전 ▁교 육 인 ▁ 탁 아 소 와 ▁유 치 원 이 ▁있으며 , ▁한 국의 ▁초 등학교 와 ▁비 슷 한 ▁소 학교 ▁0 년 , ▁고 등 중 학교 ▁0 년 , ▁합 계 ▁00 년 간 의 ▁의 무 교 육 ▁제 도 가 ▁정 비 되고 ▁있다 .
10000 ▁이 ▁과정 은 ▁비 손 실 ▁압 축 ▁방식 으로서 , ▁0 × 0 ▁격 자의 ▁성 분 들을 ▁저 주 파 부터 ▁지 그 재 그 로 ▁일 렬 로 ▁세운 ▁뒤 . ▁반복 된 ▁0 에만 ▁r le 를 ▁적용 하고 , ▁그 ▁결과 들에 ▁대해 ▁허 프 만 ▁부 호 화를 ▁한다 . ▁표준 은 ▁허 프 만 ▁부 호 화 ▁대신 에 ▁더 ▁압 축 률 이 ▁좋은 ▁산 술 ▁부 호 화 도 ▁가능하다 고 ▁기술 하지만 ▁산 술 ▁코 딩 은
▁넓은 ▁의미 로 ▁컴퓨터 에 ▁탑재 된 ▁프로그램 ▁중에서 ▁하드 웨어 와 ▁가장 ▁낮은 ▁수준 에서 ▁입 출 력을 ▁담당 하는 ▁프로그램을 ▁가리 킨다 . ▁좁 은 ▁의미 의 ▁정의 에 선 ▁i b m - p c ▁호 환 ▁기 종 에 ▁탑재 된 ▁것을 ▁말 하며 , ▁보통 ▁이 ▁뜻 으로 ▁쓰인다 . ▁바이 오 스는 ▁컴퓨터 에서 ▁하드 웨어 와 ▁소프트 웨 어의 ▁중간 ▁형태를 ▁가지
▁조선민주주의인민공화국 에서는 , ▁0 년 간의 ▁취 학 전 ▁교육 인 ▁탁 아 소와 ▁유 치 원이 ▁있으며 , ▁한국의 ▁초등학교 와 ▁비슷한 ▁소 학교 ▁0 년 , ▁고등 중학교 ▁0 년 , ▁합 계 ▁00 년 간의 ▁의무 교육 ▁제 도가 ▁정비 되고 ▁있다 .
25000 ▁이 ▁과정은 ▁비 손 실 ▁압축 ▁방식 으로서 , ▁0× 0 ▁격 자의 ▁성분 들을 ▁저주 파 부터 ▁지 그 재 그로 ▁일 렬 로 ▁세운 ▁뒤 . ▁반복 된 ▁0 에만 ▁r le 를 ▁적용 하고 , ▁그 ▁결과 들에 ▁대해 ▁허 프 만 ▁부호 화를 ▁한다 . ▁표준 은 ▁허 프 만 ▁부호 화 ▁대신에 ▁더 ▁압축 률이 ▁좋은 ▁산 술 ▁부호 화 도 ▁가능하다 고 ▁기술 하지만 ▁산 술 ▁코 딩 은
▁넓은 ▁의미로 ▁컴퓨터 에 ▁탑재 된 ▁프로그램 ▁중에서 ▁하드웨어 와 ▁가장 ▁낮은 ▁수준 에서 ▁입 출 력을 ▁담당하는 ▁프로그램을 ▁가리킨다 . ▁좁은 ▁의미의 ▁정의 에선 ▁ibm - pc ▁호환 ▁기종 에 ▁탑재 된 ▁것을 ▁말하며 , ▁보통 ▁이 ▁뜻으로 ▁쓰인다 . ▁바이오 스는 ▁컴퓨터 에서 ▁하드웨어 와 ▁소프트웨 어의 ▁중간 ▁형태를 ▁가지
▁조선민주주의인민공화국 에서는 , ▁0 년간의 ▁취 학 전 ▁교육인 ▁탁 아 소와 ▁유치 원이 ▁있으며 , ▁한국의 ▁초등학교 와 ▁비슷한 ▁소 학교 ▁0 년 , ▁고등 중학교 ▁0 년 , ▁합계 ▁00 년간의 ▁의무 교육 ▁제도가 ▁정비 되고 ▁있다 .
50000 ▁이 ▁과정은 ▁비 손 실 ▁압축 ▁방식 으로서 , ▁0×0 ▁격 자의 ▁성분 들을 ▁저주 파 부터 ▁지그 재 그로 ▁일 렬 로 ▁세운 ▁뒤 . ▁반복 된 ▁0 에만 ▁r le 를 ▁적용 하고 , ▁그 ▁결과 들에 ▁대해 ▁허 프 만 ▁부호 화를 ▁한다 . ▁표준은 ▁허 프 만 ▁부호 화 ▁대신에 ▁더 ▁압축 률이 ▁좋은 ▁산술 ▁부호 화도 ▁가능하다고 ▁기술 하지만 ▁산술 ▁코 딩 은
▁넓은 ▁의미로 ▁컴퓨터에 ▁탑재된 ▁프로그램 ▁중에서 ▁하드웨어 와 ▁가장 ▁낮은 ▁수준에서 ▁입출 력을 ▁담당하는 ▁프로그램을 ▁가리킨다 . ▁좁은 ▁의미의 ▁정의 에선 ▁ibm - pc ▁호환 ▁기종 에 ▁탑재된 ▁것을 ▁말하며 , ▁보통 ▁이 ▁뜻으로 ▁쓰인다 . ▁바이오 스는 ▁컴퓨터에서 ▁하드웨어 와 ▁소프트웨어의 ▁중간 ▁형태를 ▁가지
▁조선민주주의인민공화국 에서는 , ▁0 년간의 ▁취 학 전 ▁교육인 ▁탁 아 소와 ▁유치 원이 ▁있으며 , ▁한국의 ▁초등학교 와 ▁비슷한 ▁소학교 ▁0 년 , ▁고등 중학교 ▁0 년 , ▁합계 ▁00 년간의 ▁의무 교육 ▁제도가 ▁정비 되고 ▁있다 .
100000 ▁이 ▁과정은 ▁비 손실 ▁압축 ▁방식 으로서 , ▁0×0 ▁격 자의 ▁성분 들을 ▁저주 파 부터 ▁지그 재 그로 ▁일렬로 ▁세운 ▁뒤 . ▁반복 된 ▁0 에만 ▁r le 를 ▁적용하고 , ▁그 ▁결과 들에 ▁대해 ▁허 프 만 ▁부호 화를 ▁한다 . ▁표준은 ▁허 프 만 ▁부호화 ▁대신에 ▁더 ▁압축 률이 ▁좋은 ▁산술 ▁부호 화도 ▁가능하다고 ▁기술 하지만 ▁산술 ▁코 딩은
▁넓은 ▁의미로 ▁컴퓨터에 ▁탑재된 ▁프로그램 ▁중에서 ▁하드웨어와 ▁가장 ▁낮은 ▁수준에서 ▁입출 력을 ▁담당하는 ▁프로그램을 ▁가리킨다 . ▁좁은 ▁의미의 ▁정의 에선 ▁ibm - pc ▁호환 ▁기종 에 ▁탑재된 ▁것을 ▁말하며 , ▁보통 ▁이 ▁뜻으로 ▁쓰인다 . ▁바이오 스는 ▁컴퓨터에서 ▁하드웨어와 ▁소프트웨어의 ▁중간 ▁형태를 ▁가지
▁조선민주주의인민공화국에서는 , ▁0 년간의 ▁취학 전 ▁교육인 ▁탁 아 소와 ▁유치 원이 ▁있으며 , ▁한국의 ▁초등학교와 ▁비슷한 ▁소학교 ▁0 년 , ▁고등 중학교 ▁0 년 , ▁합계 ▁00 년간의 ▁의무교육 ▁제도가 ▁정비 되고 ▁있다 .