반응형
토큰화란?
- 문장을 토큰으로 분할하는 과정으로, NLP의 핵심 구성 요소
- Word-based, Character-based, Subword 의 3가지 방법이 있음
- 주요 Subword Tokenization 방법으로 BPE, WordPiece, Unigram 등이 있음
1) BPE (Byte Pair Encoding)
- 1994년 제안된 데이터 압축 알고리즘
- 자연어 처리에서 Subword로 분리하기 위한 목적으로 활용함
- 기본단위(단일문자)의 리스트로 Dictionary를 만들고, 가장 많이 등장하는 글자 쌍을 토큰으로 병합
- GPT, GPT-2, RoBERTa, BARD 등
2) WordPiece Tokenizer
- Google이 BERT의 사전학습을 위해 개발
- BPE와 동일하게 특수 토큰과 알파벳을 포함한 작은 Vocabulary로 시작
- 접두사 (BERT ##)를 추가하여 하위단어 식별
- Likelihood 값이 가장 높은 쌍을 병합하는 방법
3) Unigram Tokenizer
- 빈도수가 아닌 Subword에 대한 확률 모델을 사용
- 손실(Loss)은 Subword가 어휘 사전에서 제거되었을 경우 코퍼스의 Likelihood 값의 감소 정도
- 전체 손실에 영향을 적게 미치는 10~20% 토큰을 제거, 원하는 사전 사이즈가 될 때까지 반복
반응형
'AI > Deep Learning' 카테고리의 다른 글
| [딥러닝] 인공신경망(Artifical Neural Network) (0) | 2025.12.07 |
|---|---|
| [딥러닝] 선형회귀와 경사하강법 (0) | 2025.12.07 |
| [딥러닝] TensorFlow란? (0) | 2025.12.06 |
| [딥러닝] 생성형 AI의 발전 과정 (0) | 2025.08.06 |
| [딥러닝] CNN (Convolutional Neural Network) (0) | 2024.12.11 |