본문 바로가기
  • Welcome!
Creo Reference Room/Preferences

데이터 마이닝(Data Mining)

by ToolBOX01 2025. 4. 1.
반응형

□ 데이터 마이닝(Data Mining)

데이터 마이닝(Data Mining)은 대규모의 데이터 집합에서 유용한 정보, 패턴, 숨겨진 관계, 규칙 등을 발견하고 추출하는 과정을 말합니다. 마치 광산에서 광물을 캐내는 것에 비유할 수 있습니다.

쉽게 말해, 방대한 데이터 속에서 의미 있는 것을 찾아내어 비즈니스 의사 결정, 새로운 지식 습득, 문제 해결 등에 활용하는 것을 목표로 합니다.

데이터 마이닝을 통해 얻을 수 있는 것들은 다음과 같습니다

  • 패턴: 특정 상품을 함께 구매하는 경향, 웹사이트 방문자의 공통적인 탐색 경로 등
  • 연관성: 특정 조건과 결과 사이의 관계 (예: 특정 연령대의 고객은 특정 프로모션에 더 잘 반응한다)
  • 이상치: 일반적인 데이터와는 다른 특이한 데이터 (예: 신용 카드 부정 사용)
  • 예측: 과거 데이터를 기반으로 미래의 사건이나 추세를 예측 (예: 특정 상품의 다음 달 판매량 예측)
  • 클러스터링: 유사한 특성을 가진 데이터들을 그룹으로 묶기 (예: 고객들을 구매 행동에 따라 여러 그룹으로 나누기)

데이터 마이닝은 다양한 분야에서 활용되고 있으며, 오렌지 3와 같은 도구를 사용하면 이러한 데이터 마이닝 작업을 더욱 쉽게 수행할 수 있습니다.

□  텍스트 분석 개념

1.토큰화(Tokenization):

  •  텍스트 데이터를 분석 가능한 작은 단위로 나누는 과정입니다. 예를 들어, 문장을 단어나 형태소 단위로 분리합니다
  • 이는 컴퓨터가 텍스트를 이해하고 처리할 수 있도록 만드는 기본적인 단계입니다.

2. 유용한 정보 추출:

  • 토큰화된 데이터를 바탕으로 의미 있는 패턴, 관계, 또는 인사이트를 찾아내는 과정입니다.
  • 여기에는 단어 빈도 분석, 감성 분석, 토픽 모델링 등 다양한 기법이 사용됩니다.

 

 

[pytorch] 토큰화 | 토크나이저(Tokenization)

자연어 처리(NLP)의 세계에서 '토큰화'는 텍스트 데이터를 컴퓨터가 이해할 수 있는 형태로 변환하기 위한 과정 중 하나로, 자연어를 잘게 쪼개어 분석 가능한 단위로 만드는 작업을 말합니다. 이

resultofeffort.tistory.com