본문 바로가기
  • You find inspiration to create your own path !
업무 자동화/AI

머신러닝의 작동 원리

by ToolBOX01 2026. 3. 11.
반응형

데이터를 학습 하여 아파트 가격을 예측 하는 프로그램 만들기

 

1. 인간의 지식과 경험:

사람들은 "보통 집이 넓을수록, 지은 지 얼마 안 될수록 가격이 비싸다"라는 경험적 지식을 가지고 있습니다.

2. 데이터를 학습:

실제로 거래된 수만 건의 아파트 평수, 연식, 가격 데이터를 컴퓨터(엑셀이나 머신러닝 모델)에 입력합니다.

3. 스스로 패턴을 찾음:

회귀 분석 알고리즘이 데이터를 훑으며 "평수가 1평 늘어날 때마다 가격은 평균 5,000만 원씩 오르는구나"라는 수학적 공식($y = ax + b$)을 찾아냅니다. 이것이 바로  '패턴'입니다.

4. 새로운 지식 창출 및 예측하는 통찰 제공:

이제 한 번도 거래된 적 없는 새로운 아파트 정보(평수)를 넣으면, 모델이 "이 집은 약 12억 원 정도 할 것입니다"라고 예측 값을 내놓습니다. 이것이 우리가 얻는 통찰입니다.

 

 

 


■ 머신러닝의 5단계 기본 프로세스

1. 데이터 수집 (Data Collection)

머신러닝의 가장 첫 단계이자 가장 중요한 단계입니다. 문제 해결에 필요한 데이터를 모으는 과정입니다.

  • 예: 아파트 가격 예측을 위해 공공데이터 포털에서 과거 거래 내역, 평수, 위치, 건축 연도 등의 데이터를 가져옵니다.

2. 데이터 전처리 및 준비 (Data Preparation)

수집된 원본 데이터는 바로 사용할 수 없는 경우가 많습니다. "쓰레기를 넣으면 쓰레기가 나온다(Garbage In, Garbage Out)"는 말처럼 이 단계가 모델의 성능을 결정합니다.

  • 결측치 처리: 비어있는 데이터 채우기
  • 이상치 제거: 말도 안 되게 높거나 낮은 튀는 값 정리
  • 데이터 정규화: 서로 다른 단위(평수와 가격 등)를 일정한 범위로 맞추기

3. 모델 선택 및 학습 (Model Selection & Training)

데이터의 특성에 맞는 알고리즘을 고르고, 데이터를 컴퓨터에 학습시켜 "패턴(공식)"을 찾게 하는 단계입니다.

  • 모델 선택: 회귀(수치 예측), 분류(A/B 판별) 등 목적에 맞는 알고리즘 선택
  • 학습: 전체 데이터 중 일부(Train Set)를 사용해 컴퓨터가 스스로 규칙을 찾도록 함

4. 모델 평가 (Evaluation)

학습에 사용하지 않은 나머지 데이터(Test Set)를 넣어 모델이 얼마나 정확하게 맞히는지 확인합니다.

  • 지표 확인: 오차가 얼마나 적은지, 정확도는 몇 %인지 체크합니다. 만약 성적이 좋지 않다면 다시 2번이나 3번 단계로 돌아가서 수정합니다.

5. 배포 및 예측 (Deployment & Prediction)

검증이 완료된 모델을 실제 서비스에 적용하여 새로운 데이터를 입력받고 결과를 내놓는 단계입니다.

  • 예: 사용자가 "34평, 2020년 신축"이라고 입력하면 모델이 "예상 가격은 15억 원입니다"라고 답을 줍니다.

 

🔄 프로세스는 끊임없이 반복됩니다

머신러닝 프로세스는 한 번으로 끝나지 않습니다. 시간이 지나 새로운 데이터가 쌓이면 모델은 다시 학습(Retraining)하여 더 똑똑해져야 합니다.

 

반응형