tokenizer

Huggingface Transformer
토크나이저

src: HuggingFace Transformer


토크나이저는 자연어 처리(Natural Language Processing, NLP) 분야에서 텍스트를 작은 단위로 나누는 도구 또는 프로세스를 가리킵니다. 이 작은 단위는 토큰(Token)이라고 불리며, 일반적으로 단어, 문장 부호, 혹은 하나의 글자와 같은 작은 텍스트 조각을 말합니다.

토크나이저의 주요 목적은 텍스트를 기계 학습 알고리즘, 딥러닝 모델 또는 다른 자연어 처리 작업에 입력으로 사용할 수 있는 형식으로 변환하는 것입니다. 이렇게 텍스트를 토큰으로 분할하면 기계는 더 쉽게 텍스트를 이해하고 처리할 수 있습니다.

참조

  1. [tokenizer]. https://chat.openai.com/