본문 바로가기
  • You find inspiration to create your own path !
업무 자동화/AI

컴퓨터가 이해 할 수 있도록, 데이터를 변환이 필요하다. #1

by ToolBOX01 2026. 3. 8.
반응형

■ AI는 왜? 데이터가 필요 할까?

AI가 데이터를 필요로 하는 이유는 사람의 학습 방식과 아주 비슷하기 때문입니다. 아이가 "사과"라는 단어를 배우기 위해 수많은 사과를 보고 만져봐야 하는 것처럼, AI도 세상의 법칙과 패턴을 익히기 위해 엄청난 양의 정보가 필요합니다.

1. AI와 데이터의 관계: "지능의 원재료"

AI에게 데이터는 단순한 정보가 아니라, 지능을 형성하는 핵심 동력입니다.

  • 비유: 아이가 '사과'를 배우는 과정
    • 아이 : 여러 개의 사과를 보고, 만지고, 맛보며 '사과'라는 개념 정립
    • AI : 수만 장의 사과 사진을 분석하여 '사과'의 특징(색, 모양) 학습
  • 정의: 데이터는 AI에게 **'교과서'**이자 '경험' 그 자체입니다.

 

2. 데이터가 필요한 3가지 핵심 이유

① 패턴 인식과 규칙의 자가 학습

  • 전통적 컴퓨팅: 사람이 모든 규칙(If-Then)을 직접 입력
  • AI(머신러닝): 데이터 속에서 스스로 규칙을 발견
  • 예: 스팸 메일의 수만 가지 패턴을 읽고 스팸의 특징을 스스로 정의

② 예측 정확도와 범용성 확보

  • 데이터의 양이 많을수록 예외 상황에 강해집니다.
  • 학습 원리: 다량의 문제를 풀어본 학생이 변형 문제에도 당황하지 않는 것과 같은 원리입니다.

③ 복잡한 구조의 미세 조정 (Optimization)

  • 현대 AI(딥러닝)는 수십억 개의 연결 고리로 구성됩니다.
  • 이 연결망을 정교하게 다듬기 위해 방대한 양의 데이터가 '가이드라인' 역할을 합니다.

 

3. 결론: 데이터의 질과 양이 AI의 성능을 결정한다

구분 데이터가 부족할 때
데이터가 풍부할 때
판단력 할루시네이션(환각) 발생 가능
논리적이고 정확한 답변
유연성 새로운 상황에서 오류 발생
다양한 케이스에 유연하게 대응
신뢰도 편향된 결과 도출 위험
객관적이고 보편적인 지능 구현

 

참고 : 패턴 인식과 규칙 학습 (Learning Patterns)

전통적인 컴퓨터 프로그램은 사람이 일일이 "A이면 B를 해라"라고 코드를 짜줘야 했습니다. 하지만 AI(머신러닝)는 다릅니다. 수많은 데이터를 통해 스스로 규칙을 찾아냅니다.

  • 예시: 스팸 메일 수만 통을 읽어본 AI는 "광고", "무료", "당첨" 같은 단어의 조합이 스팸일 확률이 높다는 패턴을 스스로 깨우칩니다.

"AI에게 데이터는 단순한 정보가 아니라, 지능을 형성하는 원재료입니다."


데이터는 정형 데이터, 반 정향 데이터, 비정형 데이터가 있습니다.

📊 데이터의 3가지 분류 체계

AI가 학습하는 데이터는 그 형태에 따라 다음과 같이 나뉩니다.

1. 정형 데이터 (Structured Data)

"틀이 딱 짜인 데이터" 고정된 필드(열)에 저장되어 있어 컴퓨터가 가장 이해하기 쉬운 형태입니다. 보통 엑셀 시트나 데이터베이스(DB)의 표 형태를 떠올리면 됩니다.

  •  특징: 수치화가 쉽고 연산이 빠름.
  •  예시: 이름, 나이, 날짜, 주소, 상품 가격, 매출액 등.
  •  AI 활용: 고객 이탈률 예측, 주가 예측, 마케팅 타겟 분석.

2. 비정형 데이터 (Unstructured Data)

"형태가 정해지지 않은 자유로운 데이터" 일정한 규칙이나 틀이 없어 가공되지 않은 상태의 데이터입니다. 현대 데이터의 약 80% 이상을 차지하며, AI 기술의 핵심 도전 과제입니다.

  •  특징: 용량이 크고 복잡하며, 텍스트·이미지·영상 등이 포함됨.
  •  예시: 이메일 내용, SNS 포스팅 글, 사진, 동영상, 음성 통화 기록 등.
  •  AI 활용: 챗봇(NLP), 자율주행(이미지 분석), 통역 서비스(음성 인식).

3. 반정형 데이터 (Semi-structured Data)

"틀은 없지만 규칙이 있는 데이터" 정형 데이터처럼 표 형태는 아니지만, 데이터 안에 메타데이터나 태그가 포함되어 있어 내용의 의미를 파악할 수 있는 구조입니다.

  •  특징: 유연성이 높으며, 웹 환경에서 데이터를 주고받을 때 주로 사용됨.
  •  예시: HTML 코딩 파일, JSON, XML, 로그 데이터(Log files).
  •  AI 활용: 웹 사이트 정보 수집(크롤링), 시스템 로그 분석을 통한 이상 징후 감지.

과거에는 정형화(데이터 베이스 구성)가 필수였지만, 현대 AI 기술 덕분에 비정형 상태 그대로도 충분히 재활용과 분석이 가능합니다.

1. 꼭 정형 데이터가 되어야 하나요? (No)

과거의 전통적인 통계 분석이나 데이터베이스(SQL) 시스템에서는 컴퓨터가 이해할 수 있도록 데이터를 표 형태로 만드는 *정형화 단계'가 반드시 필요했습니다. 하지만 지금은 다릅니다.

  • 과거: 사진을 분석하려면 사람이 "이 사진은 사과, 빨간색, 동그란 모양"이라고 표(정형 데이터)에 적어줘야 컴퓨터가 인식했습니다.
  • 현재(AI 시대): 딥러닝 기술 덕분에 컴퓨터가 이미지(비정형)나 문장(비정형)을 있는 그대로 받아들여 그 안의 특징을 스스로 추출합니다.

 

2. 데이터는 저장이 되어야 재활용이 되나? (Yes, But...)

데이터가 어떤 형태로든 "저장(Storage)"되어야 나중에 다시 꺼내 쓸 수 있는 것은 맞습니다. 하지만 '어디에, 어떻게' 저장하느냐가 핵심입니다.

  •  정형 데이터: 규격화된 "데이터베이스(RDB)"에 저장합니다.
  •  비정형/반정형 데이터: 최근에는 규격에 상관없이 원본 그대로를 저장하는 "데이터 레이크(Data Lake)"라는 기술을 사용합니다. 클라우드에 데이터를 저장해야 유리 합니다.
    •  일단 원본(사진, 로그, 음성)을 몽땅 저장해두고, 필요할 때 AI 모델이 이를 읽어 들여 학습용으로 재활용합니다.

 

과거에는 데이터를 컴퓨터의 입맛에 맞게 '가공'하는 것이 중요했다면, 이제는 방대한 비정형 데이터 속에 숨겨진 가치를 AI로 직접 찾아내는 것이 기업의 핵심 경쟁력입니다."

 

참고  :관계형 데이터베이스 란?

 

[DB] 관계형 데이터베이스란

관계형 데이터베이스는현재 가장 많이 사용되는 데이터베이스의 한 종류이다.관계형 데이터베이스는 테이블로 이루어져 있으며 이 테이블은 키와 밸류의 관계를 나타낸다.이처럼 데이터의 종

velog.io

 

참고 : 데이터베이스와 데이터 분석 문맥에서 "종속 변수(Dependent Variable)"란 (레코드)

'우리가 알고 싶어 하는 결과값' 또는 **'예측하고자 하는 목표'**를 의미 합니다.

레코드를 통해 이끌어낼 수 있는 이 값의 의미를 세 가지 관점에서 설명

1. 데이터의 역할: "원인과 결과"

데이터 분석 모델을 만들 때, 데이터는 크게 두 종류로 나뉩니다.

  •  독립 변수 (입력, 원인): 결과에 영향을 주는 조건들 (예: 공부 시간, 운동량, 날씨).
  •  종속 변수 (출력, 결과): 독립 변수에 따라 변하는 최종 결과값 (예: 시험 점수, 체중, 매출액).
    • 비유: 요리를 할 때 '재료(독립 변수)'를 넣었을 때 완성된 '음식(종속 변수)'이라고 이해합니다.

 

2. 데이터베이스 레코드에서의 종속 변수 의미

데이터베이스의 한 행(Record)을 분석할 때, 그 안에 포함된 응답(Response)이나 출력(Output) 값이 바로 종속 변수입니다.

  •  예시 (고객 구매 데이터):
    •  고객의 나이, 지역, 방문 횟수 → 독립 변수
    •  최종 구매 여부 (Yes/No) → 종속 변수 (우리가 분석을 통해 알아내고 싶은 값)

 

" 데이터베이스에서 종속변수란 "다른 데이터들에 의해 결정되는 값"이자,

우리가 AI나 분석 도구를 통해 "최종적으로 도출하고자 하는 해답"을 의미합니다. "

 

 


데이터 정형화

🛠️ 데이터 정형화(Data Structuring)란?

데이터 정형화는 형태가 없고 복잡한 비정형 데이터를 컴퓨터가 즉시 계산하고 분석할 수 있는 "정형 데이터(표 형태)"로 변환하는 과정을 말합니다.

1. 왜 정형화가 필요한가?

  •  분석의 전제 조건: 이미지나 긴 텍스트 자체로는 통계 연산이나 비교가 불가능합니다. 데이터를 분석에 사용하려면 반드시 일정한 규칙을 가진 정형 데이터 형태여야 합니다.
  •  AI의 이해도 향상: 비정형 데이터를 그대로 학습하는 딥러닝 기술도 존재하지만, 전통적인 머신러닝이나 정확한 수치 분석을 위해서는 정형화 과정이 필수적입니다.

2. 정형화의 과정: 비정형 → 정형

비정형 데이터를 분석 가능한 형태로 만드는 대표적인 방법들은 다음과 같습니다.

원본 데이터 (비정형) 정형화 방법 (특징 추출)
결과 (정형 데이터)
고객 상담 음성 STT(Voice to Text) 변환 + 키워드 추출
상담 카테고리, 불만 점수(수치)
SNS 게시글 감성 분석(긍정/부정 분류)
긍정 확률(%), 핵심 태그
CCTV 영상 객체 인식(Object Detection)
통과한 차량 수, 사람 수

 

3. 데이터베이스 관점에서의 정형화

데이터베이스에 저장할 때, 각 레코드(행)에서 우리가 이끌어내고자 하는 결과값을 설정하는 것도 정형화의 일부입니다.

  • 입력값(독립 변수): 정형화된 여러 특징들 (예: 게시글 길이, 업로드 시간).
  • 결과값(종속 변수): 분석을 통해 도출한 응답이나 출력 (예: 광고 클릭 여부, 스팸 판정).

 

"데이터 정형화는 '가공되지 않은 원석(비정형)'을 깎아서 '보석(정형)'으로 만드는 과정입니다.
아무리 방대한 데이터가 있어도 정형화 과정을 거치지 않으면
비즈니스에 바로 활용할 수 있는 인사이트를 얻기 어렵다."

 

 


 

 

반응형