본문 바로가기
  • You find inspiration to create your own path !
업무 자동화/AI

추가 자료 : 데이터 속성(Attribute) 의 특징

by ToolBOX01 2026. 2. 24.
반응형

데이터 속성 (Attribute) 은 단 하나의 독립적인 의미를 가지고 있어야 하며, 여러 개의 속성을 통합하여 하나의 의미를 가지는 것을 지양 함. "더 이상 나눌 수 없을 때까지 쪼개라!"

데이터를 설계할 때는 나중에 이 데이터를 '어떤 단위로 검색하거나 필터링할 것인가?'를 미리 고민해 보세요. "성" 따로 "이름" 따로 검색할 일이 있다면, 처음부터 두 칸으로 나누는 것이 정답입니다. 엑셀의 필터 기능을 사용 할수 있는지

 

 

1. 쪼개지 말아야 할 것: "완전한 하나" (주민번호)

주민등록번호처럼 여러 숫자가 모여야만 비로소 하나의 의미를 갖는 데이터는 억지로 쪼개지 않습니다.

  • 이유: 앞자리(생년월일)와 뒷자리(성별/지역 등)를 따로 떼어놓으면 '신원 확인'이라는 본래의 기능을 수행하기 어렵기 때문입니다.
  • 원칙: 데이터가 결합했을 때만 고유한 가치를 지닌다면, 그것을 하나의 속성으로 봅니다.

2. 합쳐야 할 것: "동일한 의미" (주문일자 = 등록일자)

만약 시스템에서 '주문을 받은 날'과 '데이터가 등록된 날'이 항상 같다면, 굳이 두 개의 칸을 만들 필요가 없습니다.

  • 이유: 똑같은 값을 두 군데에 저장하면 데이터 용량도 낭비되고, 나중에 한쪽만 수정되었을 때 데이터 불일치(결함)가 생길 수 있습니다.
  • 원칙: 의미와 값이 중복된다면 가장 대표적인 이름 하나로 통합합니다.

3. 통합 관리해야 할 것: "상반된 개념의 상태 전환" (입고 vs 출고)

입고와 출고를 각각의 날짜로 관리하기보다 '처리일자'와 '구분값(입고/출고)'으로 관리하는 방식입니다.

  • 이유: 나중에 "오늘 일어난 모든 물류 이동(입출고)을 보여줘"라고 할 때, 하나의 속성(처리일자)만 조회하면 되므로 훨씬 효율적입니다.
  • 원칙: 프로세스의 흐름상 발생하는 상반된 데이터는 공통 분모(처리일자)로 묶고 구분자를 둡니다.

데이터를 통합하거나 쪼갤 때는 "나중에 어떻게 불러다 쓸 것인가?"를 반드시 생각해야 합니다.

만약 우리 회사가 '입고일'과 '출고일'이 동시에 발생하여 한 화면에 나란히 보여줘야 하는 비즈니스라면, 때로는 통합하지 않고 분리하는 것이 더 편할 수도 있습니다. 즉, 원칙을 알되 상황에 맞게 적용하는 유연함이 필요합니다.


데이터 속성(Attribute)은 그 성격과 관리 목적에 따라 크게 특성(Origin)에 의한 분류와 데이터 타입(Type)에 의한 분류로 나눌 수 있습니다.

1. 데이터 특성에 따른 속성의 분류  : 데이터가 어디서 왔느냐에 따라 크게 세 가지로 나뉩니다. 

종류 설명 예시
기본 속성 비즈니스 과정에서 자연스럽게 발생하는 데이터입니다.
가장 기본이 되는 정보들입니다.
회원ID,
이름,
계좌번호,
주문 일자
설계 속성 원래 업무에는 없었지만,데이터를 효율적으로 관리하기 위해 모델링 과정에서 인위적으로 만든 속성입니다.
상품코드,
사번 (중복을 막기 위한 고유 번호)
파생 속성 다른 속성들을 계산하거나 가공해서 얻어지는 데이터입니다.
관리의 편의를 위해 만듭니다.
합계,
평균,
이자 등

 

2. 데이터 표현 방식(타입)에 따른 분류

데이터가 "어떤 형태의 값을 가지는가"를 기준으로 구분하며, 분석 활용도가 달라집니다.

 

  • 범주형 속성 (Categorical Attributes)
    • 정의: 숫자가 아닌 '분류'를 위한 명목형 데이터입니다.
    • 예시: 성별, 도시 이름.
    • 활용: 범주 간의 관계 확인이나 빈도 분석에 사용됩니다.
  • 수치형 속성 (Numerical Attributes)
    • 정의: 크기를 측정할 수 있는 숫자로 표현되는 데이터입니다.
    • 예시: 온도, 나이, 매출, 이익.
    • 활용: 평균, 분산, 상관관계 분석 등 수학적 통계에 활용됩니다.
  • 순서형 속성 (Ordinal Attributes)
    • 정의: 범주형과 유사하지만, 값들 사이에 명확한 '순서'가 있는 데이터입니다.
    • 예시: 학력 수준, 고객 만족도.
    • 활용: 순위 통계나 랭킹 분석에 적합합니다.
  • 시계열 속성 (Time-Series Attributes)
    • 정의: 시간에 따라 변화하는 데이터 포인트를 기록한 데이터입니다.
    • 예시: 주식 가격, 기후 데이터.
    • 활용: 시간에 따른 추세 분석 및 미래 예측에 활용됩니다.

 


반응형