본문 바로가기
  • You find inspiration to create your own path !
업무 자동화/AI

기계학습 용어들 - 상관관계

by ToolBOX01 2026. 3. 26.
반응형

상관관계(Correlation)의 사전적 의미는 '두 가지 중 한쪽이 변화하면 다른 한쪽도 따라서 변화하는 관계'를 말합니다.

1. 통계학적 정의

"두 변수 사이의 선형적 연관성"을 의미합니다. 한 변수(X)의 값이 커질 때 다른 변수(Y)의 값도 커지는지, 혹은 작아지는지를 수치화하여 나타냅니다.

  • 상관계수(r): 상관관계의 정도를 나타내는 수치로, 보통 -1에서 +1 사이의 값을 가집니다.
    • +1에 가까울수록: 강한 양의 상관관계 (함께 증가)
    • -1에 가까울수록: 강한 음의 상관관계 (한쪽이 늘면 한쪽은 감소)
    • 0에 가까울수록: 상관관계 없음 (서로 독립적임)

 

상관계수 구하기

2. 기계학습에서의 의미 (입력과 출력의 관계)

기계학습 용어로 풀이하자면, 특징(독립변수)이 레이블(종속변수)을 예측하는 데 얼마나 '힌트'가 되는가를 뜻합니다.

  • 높은 상관관계 = 좋은 힌트: 기계가 "아, X가 이 정도면 Y는 대략 이 정도겠구나"라고 판단할 근거가 명확해집니다.
  • 낮은 상관관계 = 노이즈: 아무리 데이터를 많이 줘도 XY 사이에 관계가 없다면 기계는 학습을 할 수 없습니다.

 


1. 특징(X)과 레이블(Y) 사이의 상관관계

기계학습의 목적은 X를 보고 Y를 맞히는 것입니다. 따라서 특징과 레이블 사이에 강한 상관관계가 있을수록 학습이 잘 됩니다.

  • 양의 상관관계: 집의 '평수'(X)가 커질수록 '집값'(Y)이 올라간다면, 평수는 집값을 예측하는 데 아주 훌륭한 특징입니다.
  • 음의 상관관계: 자동차의 '연식'(X)이 오래될수록 '중고차 가격'(Y)이 떨어진다면, 이 또한 예측에 유용한 특징입니다.
  • 상관관계 없음: '어제 먹은 점심 메뉴'(X)와 '오늘의 주가'(Y)는 상관관계가 거의 없습니다. 이런 특징을 모델에 넣으면 성능만 떨어뜨리는 노이즈(Noise)가 됩니다.

 

인포그래픽

 

이 인포그래픽은 산점도를 사용하여 두 변수 간의 다양한 유형의 선형 상관관계를 시각화합니다. 선형 상관관계는 두 변수 간의 직선 관계를 의미합니다. 즉, 한 변수가 변할 때 다른 변수도 예측 가능한 방식으로 변한다는 뜻입니다. 선형 상관관계에는 양의 상관관계, 음의 상관관계, 그리고 상관관계가 없는 경우의 세 가지 주요 유형이 있습니다.

1. Positive correlation

양의 상관관계는 두 변수가 같은 방향으로 변화할 때 발생합니다. 즉, 한 변수가 증가하면 다른 변수도 증가한다는 뜻입니다. 산점도에서는 왼쪽에서 오른쪽으로 올라가는 선으로 표현됩니다. 산점도의 점들은 이 선 주위에 밀집되어 있으며, 이는 강한 양의 상관관계를 나타냅니다.

2. Negative Correlation

음의 상관관계는 두 변수가 서로 반대 방향으로 변화할 때 발생합니다. 즉, 한 변수가 증가할 때 다른 변수는 감소합니다. 산점도에서는 왼쪽에서 오른쪽으로 내려가는 선으로 나타납니다. 산점도의 점들은 이 선 주위에 밀집되어 있으며, 이는 강한 음의 상관관계를 나타냅니다.

3. No Correlation

두 변수 사이에 관계가 없을 때는 상관관계가 없다고 합니다. 즉, 한 변수의 변화가 다른 변수에 영향을 미치지 않는다는 뜻입니다. 산점도에서는 이러한 현상이 점들이 무작위로 흩어져 있는 형태로 나타납니다. 점들을 연결하는 명확한 패턴이나 선을 그릴 수 없습니다.

 


위 인포그래픽 이미지는 산포도(Scatter Plot) 입니다, 더 정확하게 표현하자면, 데이터의 분포를 한눈에 보여주는 산점도(Scatter Diagram) 형식의 그래프입니다.

1. 산포도란?

산포도는 두 변수 사이의 관계를 점으로 찍어서 표현하는 방식입니다. 해당 이미지처럼 가로축(x)과 세로축(y)에 데이터를 배치하여 점들이 흩어져 있는 모양(산포)을 보면 다음과 같은 정보를 알 수 있습니다.

 

  • 상관관계: 점들이 오른쪽 위로 향하면 양의 상관관계, 오른쪽 아래로 향하면 음의 상관관계입니다.
  • 밀집도: 점들이 특정 구역에 모여 있는지, 아니면 넓게 퍼져 있는지 확인하여 데이터의 변동성을 파악합니다.
  • 이상치(Outlier): 혼자 멀리 떨어져 있는 점을 통해 특이한 데이터를 찾아낼 수 있습니다.

2. 산포도해석의 팁

만약 이 산포도에서 점들이 직선에 가깝게 모여 있다면 두 변수는 아주 밀접한 관계가 있는 것이고, 그냥 무작위로 흩어져 있다면 서로 관련이 없다고 해석하면 됩니다.

산포도는 상관 관계를 알수 있는 이미지 입니다. 그런데 수백, 수천개의 데이터의 상관 관계를 확인하여, 학습에 필요없는 데이터를 제외 하려면 산포도를 이용하는 것은 효율적이 않습니다. 즉, 프로그램으로 데이터를 제외 해야 합니다.

상관계수(흔히 $r$로 표기하는 피어슨 상관계수)는 두 변수 사이의 선형적 관계의 강도와 방향을 나타내는 지표입니다. 이 값은 항상 -1에서 1 사이의 값을 가집니다. 일반적으로 상관관계의 유무와 강도를 판단하는 기준은 다음과 같습니다.
(학문이나 산업 분야에 따라 엄격함의 차이는 있지만, 통상적으로 아래와 같은 기준으로 해석합니다.)

 

상관계수(r) 값 관계의 강도 해석
0.7 ~ 1.0 강한 양의 상관관계
한 변수가 커질 때 다른 변수도 확실히 커짐
0.3 ~ 0.7 뚜렷한 양의 상관관계
어느 정도 비례하는 경향이 있음
0.1 ~ 0.3 약한 양의 상관관계
관계가 있긴 하지만 희미함
-0.1 ~ 0.1 상관관계 없음
두 변수는 서로 독립적이거나 선형 관계가 없음
-0.3 ~ -0.1 약한 음의 상관관계
희미하게 반비례하는 경향이 있음
-0.7 ~ -0.3 뚜렷한 음의 상관관계
어느 정도 반비례하는 경향이 있음
-1.0 ~ -0.7 강한 음의 상관관계
한 변수가 커질 때 다른 변수는 확실히 작아짐

 

"상관관계가 있다"고 말할 수 있는 지점

단순히 숫자만 보고 판단하기보다는 다음 두 가지를 함께 고려해야 합니다.

  • 최소 기준: 보통 |r|의 값이 0.1 이상이면 미약하게나마 관계가 있다고 보며, 실무적으로 의미 있는 데이터로 취급하려면 최소 0.3 이상은 되어야 "상관관계가 눈에 띈다"고 말합니다.
  • 통계적 유의성(p-value): 데이터 개수(샘플 수)가 적으면 상관계수가 높게 나와도 우연일 가능성이 큽니다. 따라서 반드시 p-value가 0.05보다 작은지 확인하여 이 결과가 통계적으로 믿을만한지 검증해야 합니다.

 

주의할 점 (중요)

  1. 인과관계와 혼동 금지: r 값이 높다고 해서 "A 때문에 B가 발생했다"는 인과관계가 성립하는 것은 아닙니다. 단순히 "둘이 같이 움직인다"는 뜻입니다.
  2. 직선 관계만 측정: 상관계수는 '직선' 형태의 관계만 측정합니다. 만약 데이터가 곡선(U자 형태 등)으로 분포되어 있다면, 실제로는 깊은 관련이 있어도 상관계수는 0에 가깝게 나올 수 있습니다.

 

 

 

 

반응형