본문 바로가기
  • You find inspiration to create your own path !
업무 자동화/AI

컴퓨터가 이해 할 수 있도록, 데이터를 변환이 필요하다. #2

by ToolBOX01 2026. 3. 8.
반응형

컴퓨터의 한계: 기본적으로 컴퓨터 알고리즘은 수치로 된 데이터만 이해할 수 있으며, 인간이 쓰는 텍스트의 의미를 그대로 이해하지 못합니다.

분석 가능 상태로 변환: 따라서 이미지나 텍스트 같은 비정형 데이터를 분석에 사용하려면, 이를 컴퓨터가 계산할 수 있는 정형 데이터 형태로 만드는 과정이 선행되어야 합니다.


컴퓨터가 인간의 언어(비정형 데이터)를 수치화된 데이터(정형 데이터)로 변환하여 이해하기 위해 가장 먼저 거치는 핵심 단계가 바로 "토큰화(Tokenization)"입니다.

1. 토큰(Token)과 토큰화(Tokenization)의 개념

  • 토큰(Token): 문법적으로 더 이상 나눌 수 없는 기본적인 언어 요소를 의미합니다. 문장이라는 큰 덩어리를 잘게 쪼갠 '최소 단위'라고 볼 수 있습니다.
  • 토큰화(Tokenization): 입력된 텍스트(비정형 데이터)를 토큰 단위로 나누는 작업을 말합니다.

 

2. 왜 토큰화가 필요한가? 

  • 컴퓨터의 한계 극복: 컴퓨터 알고리즘은 텍스트의 의미를 직접 이해하지 못하고 오직 수치로 된 데이터만 이해할 수 있습니다. 따라서 텍스트를 숫자로 바꾸기 전, 먼저 의미 있는 단위(토큰)로 쪼개는 작업이 필요합니다.
  • 비정형의 정형화: 자유로운 형태의 문장(비정형)을 토큰 리스트라는 일정한 규칙을 가진 형태로 만듦으로써, AI가 패턴을 학습할 수 있는 기반을 마련합니다.
  • 자연어 처리의 첫 단추: 가상 도우미, 스팸 필터링, 번역 등 모든 자연어 처리(NLP) 기술의 시작점은 텍스트를 토큰으로 분리하는 것에서 출발합니다.

 

3. 토큰화의 단위

토큰을 어떤 기준으로 나누느냐에 따라 AI의 학습 효율이 달라집니다.

  • 단어 단위 (Word Tokenization): 공백이나 구두점을 기준으로 나눕니다. (예: "나는 사과를 먹는다" → "나는", "사과를", "먹는다")
  • 문자 단위 (Character Tokenization): 알파벳이나 한글 자모 단위로 나눕니다. (예: "Apple" → "A", "p", "p", "l", "e")
  • 서브워드 단위 (Subword Tokenization): 의미가 있는 더 작은 단위로 나눕니다. 현대 AI(GPT 등)가 가장 많이 사용하는 방식으로, '사과를'을 '사과' + '를'로 분리하여 효율을 높입니다.

 

"컴퓨터는 '사과'라는 글자를 읽지 못합니다.
그래서 우리는 문장을 토큰이라는 조각으로 나누고, 이 조각들에 **번호(숫자)**를 매겨서 컴퓨터에게 전달합니다. 이것이 바로 자연어 처리의 마법이 시작되는 지점입니다."


■ 토큰화의 언어 해부술

 

■ 토큰화, 벡터화, 임베딩

 

 

임베딩 이란?

임베딩(Embedding) 은 앞서 설명한 토큰화 이후의 단계로, 조각난 토큰(글자/단어)들을 컴퓨터가 계산할 수 있도록 고차원의 숫자로 된 목록(벡터)으로 변환하는 기술을 말합니다. "컴퓨터 알고리즘은 수치로 된 데이터만 이해한다."는 내용을 실현하는 핵심 수단입니다.

임베딩의 과정 요약

  1. 입력: "사과" (비정형 텍스트)
  2. 토큰화: 문장에서 '사과'라는 토큰 추출
  3. 임베딩: '사과' → [0.12, -0.59, 0.88, ...] (수백 개의 숫자로 된 리스트)
  4. 결과: 컴퓨터가 이 숫자 목록을 보고 "아, 과일 카테고리에 속하고 빨간색 특징을 가진 개체구나"라고 계산 시작

 

반응형