반응형
컴퓨터의 한계: 기본적으로 컴퓨터 알고리즘은 수치로 된 데이터만 이해할 수 있으며, 인간이 쓰는 텍스트의 의미를 그대로 이해하지 못합니다.
분석 가능 상태로 변환: 따라서 이미지나 텍스트 같은 비정형 데이터를 분석에 사용하려면, 이를 컴퓨터가 계산할 수 있는 정형 데이터 형태로 만드는 과정이 선행되어야 합니다.
컴퓨터가 인간의 언어(비정형 데이터)를 수치화된 데이터(정형 데이터)로 변환하여 이해하기 위해 가장 먼저 거치는 핵심 단계가 바로 "토큰화(Tokenization)"입니다.
1. 토큰(Token)과 토큰화(Tokenization)의 개념
- 토큰(Token): 문법적으로 더 이상 나눌 수 없는 기본적인 언어 요소를 의미합니다. 문장이라는 큰 덩어리를 잘게 쪼갠 '최소 단위'라고 볼 수 있습니다.
- 토큰화(Tokenization): 입력된 텍스트(비정형 데이터)를 토큰 단위로 나누는 작업을 말합니다.
2. 왜 토큰화가 필요한가?
- 컴퓨터의 한계 극복: 컴퓨터 알고리즘은 텍스트의 의미를 직접 이해하지 못하고 오직 수치로 된 데이터만 이해할 수 있습니다. 따라서 텍스트를 숫자로 바꾸기 전, 먼저 의미 있는 단위(토큰)로 쪼개는 작업이 필요합니다.
- 비정형의 정형화: 자유로운 형태의 문장(비정형)을 토큰 리스트라는 일정한 규칙을 가진 형태로 만듦으로써, AI가 패턴을 학습할 수 있는 기반을 마련합니다.
- 자연어 처리의 첫 단추: 가상 도우미, 스팸 필터링, 번역 등 모든 자연어 처리(NLP) 기술의 시작점은 텍스트를 토큰으로 분리하는 것에서 출발합니다.
3. 토큰화의 단위
토큰을 어떤 기준으로 나누느냐에 따라 AI의 학습 효율이 달라집니다.
- 단어 단위 (Word Tokenization): 공백이나 구두점을 기준으로 나눕니다. (예: "나는 사과를 먹는다" → "나는", "사과를", "먹는다")
- 문자 단위 (Character Tokenization): 알파벳이나 한글 자모 단위로 나눕니다. (예: "Apple" → "A", "p", "p", "l", "e")
- 서브워드 단위 (Subword Tokenization): 의미가 있는 더 작은 단위로 나눕니다. 현대 AI(GPT 등)가 가장 많이 사용하는 방식으로, '사과를'을 '사과' + '를'로 분리하여 효율을 높입니다.
"컴퓨터는 '사과'라는 글자를 읽지 못합니다.
그래서 우리는 문장을 토큰이라는 조각으로 나누고, 이 조각들에 **번호(숫자)**를 매겨서 컴퓨터에게 전달합니다. 이것이 바로 자연어 처리의 마법이 시작되는 지점입니다."
■ 토큰화의 언어 해부술
■ 토큰화, 벡터화, 임베딩
■ 임베딩 이란?
임베딩(Embedding) 은 앞서 설명한 토큰화 이후의 단계로, 조각난 토큰(글자/단어)들을 컴퓨터가 계산할 수 있도록 고차원의 숫자로 된 목록(벡터)으로 변환하는 기술을 말합니다. "컴퓨터 알고리즘은 수치로 된 데이터만 이해한다."는 내용을 실현하는 핵심 수단입니다.
임베딩의 과정 요약
- 입력: "사과" (비정형 텍스트)
- 토큰화: 문장에서 '사과'라는 토큰 추출
- 임베딩: '사과' → [0.12, -0.59, 0.88, ...] (수백 개의 숫자로 된 리스트)
- 결과: 컴퓨터가 이 숫자 목록을 보고 "아, 과일 카테고리에 속하고 빨간색 특징을 가진 개체구나"라고 계산 시작

반응형
'업무 자동화 > AI' 카테고리의 다른 글
| 회귀 분석(Regression Analysis) 이란? (0) | 2026.03.11 |
|---|---|
| 데이터 표준화, 정규화 의미 (0) | 2026.03.08 |
| 컴퓨터가 이해 할 수 있도록, 데이터를 변환이 필요하다. #1 (0) | 2026.03.08 |
| 클릭 스트림(Clickstream) 데이터 (0) | 2026.03.01 |
| 데이터 조사 (0) | 2026.03.01 |