반응형

토큰화란?

- 문장을 토큰으로 분할하는 과정으로, NLP의 핵심 구성 요소

- Word-based, Character-based, Subword 의 3가지 방법이 있음

- 주요 Subword Tokenization 방법으로 BPE, WordPiece, Unigram 등이 있음

 

 

1) BPE (Byte Pair Encoding)

- 1994년 제안된 데이터 압축 알고리즘

- 자연어 처리에서 Subword로 분리하기 위한 목적으로 활용함

- 기본단위(단일문자)의 리스트로 Dictionary를 만들고, 가장 많이 등장하는 글자 쌍을 토큰으로 병합

- GPT, GPT-2, RoBERTa, BARD 등

 

 

2) WordPiece Tokenizer

- Google이 BERT의 사전학습을 위해 개발

- BPE와 동일하게 특수 토큰과 알파벳을 포함한 작은 Vocabulary로 시작

- 접두사 (BERT ##)를 추가하여 하위단어 식별

- Likelihood 값이 가장 높은 쌍을 병합하는 방법

 

 

3) Unigram Tokenizer

- 빈도수가 아닌 Subword에 대한 확률 모델을 사용

- 손실(Loss)은 Subword가 어휘 사전에서 제거되었을 경우 코퍼스의 Likelihood 값의 감소 정도

- 전체 손실에 영향을 적게 미치는 10~20% 토큰을 제거, 원하는 사전 사이즈가 될 때까지 반복

반응형
복사했습니다!