본문 바로가기
  • You find inspiration to create your own path !
업무 자동화/AI

데이터 표준화, 정규화 의미

by ToolBOX01 2026. 3. 8.
반응형

■ 데이터 표준화, 정규화의 필요성

AI가 데이터를 효과적으로 학습하고 예측의 정확도를 높이기 위해서는 수집된 데이터를 그대로 사용하는 것이 아니라, 일정한 기준에 맞춰 다듬는 데이터 전처리(Preprocessing) 과정이 필수적입니다. 그중 핵심인 표준화(Standardization)와 정규화(Normalization) 입니다.

1. 데이터 표준화와 정규화가 필요한 이유

컴퓨터 알고리즘은 수치로 된 데이터만 이해하며, 서로 다른 단위나 범위를 가진 데이터를 평등하게 비교하지 못합니다.

  • 변수 간 단위 차이 극복: 예를 들어 '나이(0~100)'와 '연봉(0~수억)'처럼 단위가 크게 다를 경우, 알고리즘은 숫자가 큰 연봉 데이터가 훨씬 더 중요하다고 잘못 판단할 수 있습니다.
  • 학습 속도 및 안정성 향상: 데이터의 범위가 너무 넓으면 인공지능이 정답을 찾아가는 과정(최적화)에서 계산 시간이 오래 걸리거나 오류가 발생할 수 있습니다. 수치를 일정 범위로 좁혀주면 학습이 훨씬 빠르고 안정적으로 진행됩니다.
  • 이상치(Outlier) 영향 최소화: 표준화를 통해 평균에서 멀리 떨어진 특이한 데이터값이 전체 분석 결과에 미치는 과도한 영향을 줄일 수 있습니다.

 

2. 개념 비교: 표준화 vs 정규화

2-1 표준화 (Standardization)  :

데이터 표준화(Standardization)는 서로 다른 척도(Scale)를 가진 데이터들을 일정한 기준에 맞춰 변형하는 과정입니다.
데이터를 평균 0, 표준편차 1이 되도록 변환 합니다.

[175cm, 70k가 중심]

 

1) "평균 0, 표준편차 1"의 진짜 의미

데이터를 표준화하면 모든 데이터 군의 중심이 '0'으로 이동하고, 흩어진 정도가 '1'이라는 공통된 기준으로 통일됩니다.

  • 평균 0 (Zero-centered): 데이터의 중심을 원점(0)으로 맞춘다는 뜻입니다. 이렇게 하면 데이터가 양수(+)인지 음수(-)인지에 따라 평균보다 높은지 낮은지를 즉시 알 수 있습니다.
  • 표준편차 1 (Unit Variance): 데이터가 퍼져 있는 정도를 '1'이라는 단위로 맞춘다는 뜻입니다. 키(cm)는 숫자가 크고 몸무게(kg)는 상대적으로 작지만, 표준화를 거치면 두 데이터 모두 비슷한 범위 내에 위치하게 되어 공정한 비교가 가능해집니다.

 

2) 표준화가 필요한 이유 (비유와 이미지)

이미지에서 보시는 것처럼, 표준화는 "서로 다른 산들을 하나의 모양으로 겹쳐놓는 과정"입니다.

  • 비유: 수학 80점과 영어 80점 중 무엇을 더 잘했는지 판단하려면, 각 과목의 평균과 난이도를 고려해야 합니다. 표준화는 이 과목 점수들을 '공통의 난이도 기준'으로 환산하여 누가 더 평균에서 멀리 떨어져 잘했는지를 수치로 보여줍니다.
  • AI 모델에서의 역할: 숫자가 큰 데이터(예: 연봉)가 숫자가 작은 데이터(예: 나이)보다 더 중요하다고 알고리즘이 착각하는 것을 방지합니다.

 

표준화는 "서로 다른 기준을 가진 데이터들에게 공통된 옷을 입히는 것"입니다.
이를 통해 AI는 데이터의 '절대적 크기'가 아니라 '상대적 위치와 패턴'에 집중하여 더 똑똑한 예측을 할 수 있게 됩니다.

 

※ 표준 편?

 

재미있는갓

 

 

 

 


2-2. 데이터 정규화(Normalization)

데이터의 범위를 일정한 구간(주로 0과 1 사이)으로 맞추는 과정입니다. 특히 Min-Max Scaling은 데이터의 최소값과 최대값을 활용하여 이 범위를 조정하는 가장 대표적인 방법입니다.

 

1)  Min-Max Scaling: 데이터를 0과 1 사이로 변환하는 의미

데이터의 원래 수치에 상관없이, 가장 작은 값은 0, 가장 큰 값은 1이 되도록 비례적으로 압축하는 것을 의미합니다.

  • 비례적 압축: 데이터의 상대적인 크기 관계는 유지하면서 전체적인 '스케일'만 줄입니다.
  • 공정한 비교: 예를 들어, '상품 가격(1,000원~1,000,000원)'과 '고객 평점(1점~5점)'은 단위가 너무 다릅니다. 이를 정규화하면 두 데이터 모두 0~1 사이의 값이 되어 AI가 어느 한쪽에 편중되지 않고 공정하게 학습할 수 있습니다.
  • 수식:

2) 정규화의 이해 

정규화는 "서로 다른 크기의 자를 가진 데이터들을 0부터 1까지 적힌 하나의 자로 옮겨 그리는 작업"입니다.

  • 비유: 100점 만점인 시험의 80점과 10점 만점인 퀴즈의 8점을 비교할 때, 둘 다 '0.8'이라는 비율로 변환하면 성적이 동일하다는 것을 쉽게 알 수 있는 것과 같습니다.

정규화(Min-Max Scaling)는 "모든 데이터를 0과 1이라는 동일한 체급으로 맞추는 과정"입니다.
이를 통해 AI는 숫자의 단위 차이에서 오는 혼란을 피하고,
데이터 속에 숨겨진 진짜 패턴을 정확하게 찾아낼 수 있게 됩니다.

 

 

 

반응형