본문 바로가기
  • You find inspiration to create your own path !
업무 자동화/AI

데이터 저장소

by ToolBOX01 2026. 2. 26.
반응형

데이터는 단순히 숫자의 나열처럼 보일 수 있지만, 현대 사회에서는 '새로운 시대의 원유'라고 불릴 만큼 강력한 힘을 가진 자원입니다. 객관적 사실이나 관찰을 통해 얻은 가공되지 않은 원재료를 의미합니다.

  • 데이터: "30도" (단순한 수치)
  • 정보: "오늘 기온은 30도로 매우 덥다." (데이터에 맥락이 더해진 상태)
  • 지식: "더운 날에는 시원한 음료가 잘 팔린다." (정보가 체계화되어 통찰을 주는 상태)

 

새로운 시대의 원유


데이터의 형태 (종류)

데이터가 어떻게 저장되는지에 따라 데이터의 종류가 나뉩니다. 데이터는 그 구조에 따라 크게 세 가지로 나뉩니다.

분류 특징 예시
정형 데이터 고정된 필드에 저장되어 정리가 쉬운 데이터
이름, 생년월일, 결제 금액 (Excel, SQL)
반정형 데이터 고정된 형태는 없으나 메타데이터를 포함한 데이터
HTML, XML, JSON 파일
비정형 데이터 일정한 규칙이 없어 가공이 까다로운 데이터
텍스트 메시지, 영상, 이미지, 음성

 

* 메타데이터 란?

'데이터를 설명하기 위한 데이터'입니다. 주인공(데이터)이 누구인지, 어디서 왔는지, 어떤 특징을 가졌는지 알려주는 '이름표'나 '설명서'라고 생각 하십시요.

일상 속의 메타데이터 예시

우리가 매일 접하는 것들 속에 메타데이터가 숨어 있습니다.

  • 사진 파일:
    • 데이터: 사진 이미지 그 자체 (풍경, 얼굴 등)
    • 메타데이터: 촬영 날짜, 촬영 장소(GPS), 카메라 모델, 노출 값, 파일 크기
  • 도서관의 책:
    • 데이터: 책 속에 담긴 내용 (줄거리, 지식)
    • 메타데이터: 도서명, 저자, 출판사, ISBN(국제표준도서번호), 분류 번호
  • 음악 스트리밍:
    • 데이터: 노래 소리(음원)
    • 메타데이터: 곡 제목, 아티스트 이름, 앨범명, 장르, 재생 시간

 

왜 메타데이터가 필요한가?

데이터의 양이 방대해질수록 메타데이터의 역할은 절대적입니다.

  1. 검색과 발견: 컴퓨터는 사진 속 내용이 '바다'인지 '산'인지 바로 알기 어렵습니다. 하지만 메타데이터에 '바다'라고 적혀 있으면 즉시 찾아낼 수 있죠.
  2. 관리와 조직: 수천 개의 파일을 일일이 열어보지 않고도 날짜순이나 크기순으로 정리할 수 있게 해줍니다.
  3. 신뢰성 확인: 이 데이터가 언제 생성되었고, 누가 마지막으로 수정했는지 추적하여 데이터의 신뢰도를 높입니다.

 


■ 정형 데이터 (전통적인 데이터)

정형 데이터는 이름 그대로 '정해진 형식과 구조'를 가진 데이터를 말합니다. 우리가 일상적으로 접하는 많은 정보가 이 정형 데이터의 형태를 띠고 있습니다.

테이블

 

정형 데이터를 이해하는 데 필요한 핵심 특징들은 다음과 같습니다.

  1. 구조화된 형태 (Structured Framework):
    정형 데이터의 가장 큰 특징은 행 (Row)과 열 (Column)로 구성된 체계적인 구조를 가진다는 점입니다.
    데이터가 미리 정의된 규칙에 따라 칸(cell)에 깔끔하게 정리되어 있습니다.
  2. 표 형식 저장 (Tabular Format):
    이 구조적인 특징 때문에 정형 데이터는 관계형 데이터베이스 (RDBMS)나 스프레드시트 (예: 마이크로소프트 엑셀, 구글 스프레드시트)와 같은 표 형식으로 저장되고 관리됩니다. 우리가 흔히 보는 Excel 시트가 정형 데이터의 가장 대표적인 예입니다.
  3. 고정된 필드 (열):
    각 열은 특정한 유형 (Data Type)의 정보를 포함하도록 고정되어 있습니다.
    예를 들어, '이름' 열에는 텍스트만, '나이' 열에는 숫자만, '가입일' 열에는 날짜 형식만 입력되도록 미리 정해집니다.
  4. 쉬운 수집 및 분석 (Ease of Collection and Analysis):
    구조가 명확하기 때문에 기계가 데이터를 읽고, 검색하고, 분석하기 매우 쉽습니다.
    따라서 기업이나 조직에서는 SQL (Structured Query Language)과 같은 도구를 사용하여 필요한 정보를 빠르게 추출하고 통계 분석을 수행할 수 있습니다.
  5. 예측 가능성:
    데이터의 형태가 규칙적이기 때문에, 어떤 정보가 어디에 저장되어 있는지 쉽게 알 수 있으며 분석 결과 역시 예측 가능하고 신뢰도가 높습니다.

정형 데이터 (전통적인 데이터)

 

▪ 여러 테이블이 연속적으로 연결되어 있으며 관계형 데이터베이스가 생성됨
▪ 항목 코드라는 공통 속성을 사용하여 판매 데이터베이스를 재고
  데이터베이스에 연결하여 세 테이블을 모두 관계형 데이터 베이스로 연결
  이와같은 정형데이터는 RDBMS 에 저장된다.
▪ SQL 을 사용하여 작성, 읽기, 조작을 할 수 있음
▪ SQL 은 Relational software 에 의해 대중화됨

■ 비정형( Unstructured Data )데이터  (빅데이터)

비정형 데이터는 정해진 구조나 형식이 없는 데이터를 말합니다. 우리가 일상에서 가장 많이 만들어내는 데이터가 바로 이것이죠. 엑셀 칸에 딱딱 맞춰 넣을 수 없는 자유로운 형태의 정보라고 생각하시면 쉽습니다.

비정형 데이터는 다루기 까다롭지만, 그 안에 숨겨진 가치는 엄청납니다.

  • 정형화된 틀이 없음:
    행과 열로 구분되지 않으며, 데이터마다 크기와 형태가 제각각입니다.
  • 폭발적인 양:
    현대 데이터의 약 80% 이상이 비정형 데이터입니다. SNS 포스팅, 영상 스트리밍 등이 매 순간 쏟아지기 때문이죠.
  • 깊은 인사이트 제공:
    숫자로만 알 수 없는 '맥락(Context)'과 '감정(Sentiment)'을 담고 있습니다.
    예를 들어, 매출 숫자보다 고객이 남긴 긴 리뷰(텍스트)에서 진짜 개선점을 찾을 수 있는 것과 같습니다.

 

빅데이터 시장에서의 역할 : 비정형 데이터는 예측 분석과 데이터 마이닝의 핵심 재료입니다.

  • 인공지능(AI)의 학습 도구:
    챗GPT 같은 생성형 AI는 수많은 비정형 텍스트를 학습하여 만들어졌습니다.
  • 고객 심리 분석:
    소비자가 남긴 사진과 댓글을 분석해 시장 트렌드를 정확하게 예측합니다.
  • 효율성 향상:
    공장 내 소음(음성 데이터)을 분석해 기계 고장을 미리 감지하는 등 비즈니스 기회를 창출합니다.

빅데이터

혼돈스럽고 거대한 디지털 풍경 속에서 가공되지 않은 데이터 원소들이 마치 역동적인 디지털 '원유'처럼 소용돌이치고 있습니다. 
0과 1의 이진 코드 스트림, 센서 판독값, 파편화된 픽셀, 여러 언어의 텍스트 조각, 
그리고 다양한 추상적 기호들이 정돈되지 않은 채 거대한 정보의 강을 이룹니다. 
이 데이터의 물결은 어두운 추상적 공간을 가르며 흐릅니다. 
차갑고 푸르스름한 조명이 아직 가공되지 않은 정보의 거친 에너지를 강조하며, 전체적인 구조는 파편화되어 형태가 일정하지 않습니다.

 

빅데이터의 4가지 핵심 요소 (4V)

 

1. 규모 (Volume)

  • 의미: 데이터의 물리적인 양을 뜻합니다.
  • 설명: 기존의 일반적인 데이터베이스로는 저장하거나 처리하기 힘들 정도로 데이터가 본질적으로 매우 큽니다. 테라바이트(TB)를 넘어 페타바이트(PB), 엑사바이트(EB) 단위까지 확장됩니다.
  • 예시: 전 세계에서 매일 발생하는 수조 개의 센서 로그, SNS 포스팅 등.

2. 다양성 (Variety)

  • 의미: 데이터의 형태가 매우 다양하다는 뜻입니다.
  • 설명: 앞서 살펴본 것처럼 정해진 틀이 있는 정형 데이터, 형식이 없는 비정형 데이터, 그리고 그 중간 형태인 반정형 데이터(JSON, XML 등)가 모두 포함됩니다.
  • 예시: 텍스트, 이미지, 오디오, 비디오, 로그 파일 등.

3. 속도 (Velocity)

  • 의미: 데이터가 생성되고 유통되는 속도를 뜻합니다.
  • 설명: 데이터가 매우 빠르게 생성되며, 이를 가치 있게 쓰기 위해서는 실시간 혹은 실시간에 가까운 속도로 즉시 처리하는 능력이 필수적입니다.
  • 예시: 주식 거래 데이터, 실시간 내비게이션 교통 정보, 센서 데이터의 스트리밍 처리.

4. 정확성 (Veracity)

  • 의미: 데이터의 품질과 신뢰성을 뜻합니다.
  • 설명: 데이터가 아무리 많아도 오류가 많으면 가치가 없습니다. 따라서 데이터의 정확성이 매우 중요하며, 분석 결과의 신뢰도를 확보하기 위해 노이즈를 제거하고 품질을 관리하는 과정이 필요합니다.
  • 예시: 가짜 뉴스 필터링, 부정확한 센서 데이터 보정.

 

빅데이터 처리 방법

이런 복잡한 4V를 해결하기 위해 다음과 같은 기술들이 사용됩니다.

  • 분산 처리: 데이터를 여러 대의 컴퓨터로 나누어 동시에 처리 (예: Hadoop, Spark)
  • NoSQL 데이터베이스: 비정형 데이터를 유연하게 저장 (예: MongoDB, Cassandra)
  • 클라우드 컴퓨팅: 필요에 따라 서버 자원을 유연하게 확장하여 대규모 볼륨 처리

▪ 비정형 데이터를 저장하기 위한 데이터베이스
  1) 비관계형 데이터베이스
  2) NoSQL 데이터베이스 
▪ 비관계형 데이터 저장소
  1) 관계형 데이터 저장소와 같은 행 및 열의 테이블 형식, 스키마가 없는 데이터베이스
  2) NoSQL 데이터 저장소
▪ 구조를 가질 수 있는 일부 관련 메타데이터가 포함될 수 있음

🍃 NoSQL: 정해진 틀을 깨는 데이터베이스

전통적인 SQL 데이터베이스가 칸이 딱딱 나눠진 '엑셀 시트'라면, NoSQL은 필요에 따라 크기와 형태가 변하는 '유연한 수납 상자'와 같습니다.

1. NoSQL의 핵심 특징

  • Not Only SQL:
    단순히 SQL을 부정하는 것이 아니라, 관계형 데이터베이스(RDBMS)의 한계를 넘어 더 넓고 복잡한 범위의 데이터를 처리할 수 있다는 의미입니다.
  • 스키마리스 (Schema-less):
    데이터를 저장하기 위해 미리 테이블 구조(행과 열의 규칙)를 정의할 필요가 없습니다. 데이터가 들어올 때마다 자유롭게 형태를 바꿀 수 있습니다.
  • 수평적 확장 (Scalability):
    데이터 양이 늘어나면 비싼 고성능 서버 한 대를 사는 대신, 저렴한 서버 여러 대를 연결해 성능을 무한히 확장할 수 있습니다.
  • 그룹화된 데이터 모음:
    관계(Relation)보다는 문서(Document), 키-값(Key-Value) 등 연관된 데이터를 하나의 덩어리로 모아서 저장하는 방식을 선호합니다.

2. NoSQL의 주요 데이터 모델

NoSQL은 데이터가 저장되는 방식에 따라 크게 4가지로 나뉩니다.

유형 특징 대표 예시
Document 데이터를 JSON이나 XML 같은 문서 형태로 저장 (가장 범용적)
MongoDB, CouchDB
Key-Value 이름(Key)과 값(Value)의 쌍으로 저장 (속도가 매우 빠름)
Redis, Amazon DynamoDB
Wide-Column 행마다 열의 이름과 개수가 달라도 저장 가능
Cassandra, HBase
Graph 데이터 간의 '연결 관계'를 지도처럼 저장 Neo4j

 

3. 왜 비정형 데이터에 NoSQL을 쓸까요?

비정형 데이터(이미지, 영상, SNS 글 등)는 구조가 제각각입니다.

  1. 유연성: 갑자기 새로운 종류의 정보가 추가되어도 데이터베이스 구조를 바꿀 필요가 없습니다.
  2. 속도: 복잡한 관계를 계산하지 않고 데이터를 통째로 읽어오기 때문에 실시간 처리에 유리합니다.
  3. 대용량 처리: 빅데이터의 엄청난 볼륨(Volume)과 속도(Velocity)를 감당하기에 최적화되어 있습니다.

 


🛠️ 파싱(Parsing)이란 무엇인가?

컴퓨터 과학에서 파싱은 어떤 데이터를 분석하여 기계가 이해하고 처리하기 쉬운 구조로 바꾸는 과정을 말합니다. 쉽게 비유하자면, 문장이 복잡하게 얽힌 편지를 읽고 "누가, 언제, 어디서, 무엇을" 했는지 핵심 정보를 추출해 표나 리스트로 정리하는 작업과 같습니다.

업로드하신 이미지의 맥락에서 파싱은 다음과 같은 의미를 갖습니다:

  • 원재료 분석: 텍스트나 파일(비정형/반정형 데이터)을 낱낱이 분석합니다.
  • 구조화: 분석된 데이터를 메타구조(데이터에 대한 데이터)를 갖는 데이터 세트 형태로 변환합니다.
  • 변환: 최종적으로 정형 데이터 형태의 구조(표, 데이터베이스 등)로 만들 수 있도록 아키텍처를 수정하는 핵심 전처리 단계입니다.

 

🔍 왜 파싱이 필요한가요? (비정형 → 정형)

컴퓨터는 사람처럼 "대충 읽고 이해"하지 못합니다. 따라서 자유로운 형태의 데이터를 분석하려면 반드시 파싱을 거쳐야 합니다.

  1. 데이터 해석: 복잡한 로그 파일이나 텍스트에서 필요한 정보(날짜, ID, 메시지 등)만 골라냅니다.
  2. 데이터베이스 저장: NoSQL이나 SQL 데이터베이스에 저장하기 위해 데이터를 규격에 맞게 나눕니다.
  3. 오류 검출: 데이터가 정해진 규칙(구문)에 맞게 작성되었는지 확인합니다.

 

💡 파싱의 예시: 날것의 데이터가 표가 되기까지

만약 아래와 같은 '비정형/반정형' 텍스트 데이터가 있다고 가정해 봅시다.

" 날것의 데이터: "2024-05-20, 유저ID: Gem, 메시지: 안녕, 상태: 접속중" "

파싱 과정을 거치면: 파서(Parser)가 쉼표(,)와 콜론(:)을 기준으로 데이터를 나눕니다.

날짜 유저 ID 메시지 상태
2024-05-20 Gem 안녕 접속중

 

파싱(Parsing)

이미지에서 보신 문구들을 파싱의 관점에서 정리 합니다

1. 텍스트나 파일을 파싱: 
거칠고 정돈되지 않은 원재료(비정형)를 한 글자씩 읽어 들여 의미 있는 단위로 쪼개는 행위입니다.

2. 메타구조를 갖는 데이터 셋: 
"이 숫자는 '가격'이다", "이 문자는 '이름'이다"와 같이 데이터에 의미(메타 정보)를 부여하여 묶은 상태입니다.

3. 정형 데이터 형태의 구조: 
최종적으로 엑셀이나 데이터베이스(SQL)에 딱 맞게 들어갈 수 있는 행과 열의 구조를 갖추게 되는 것입니다.
반응형