반응형 분류 전체보기1857 자동차 연비를 예측 하는 프로그램 UCI Machine Learning Repository 데이터(Auto MPG 데이터셋)를 활용위 데이터틑 연비(MPG)뿐만 아니라 실린더 수, 배기량, 마력, 무게 등 연비에 영향을 주는 다양한 수치들이 포함되어 있어, 엑셀의 '회귀 분석' 기능을 활용하기에 아주 적합합니다. 이 데이터는 MPG(연비)를 예측하기 위한 타겟(Target)으로 하고, 나머지 항목들을 원인(Feature)으로 분석하게 됩니다.MPG (연비)CylindersDisplacementHorsepowerWeightAccelerationModel YearOriginCar Name188307130350412701chevrolet chevelle malibu158350165369311.5701buick skylark 320188318.. 2026. 3. 15. 어쩌다 탄생한 넥슨게임즈 ■ 넥슨게임즈넥슨그룹 계열의 게임업체. 주된 사업은 게임 소프트웨어 개발 및 서비스이며, 개발한 게임콘텐츠를 국내 및 해외에 공급.넥슨은 넷게임즈와 넥슨지티의 합병하여 넥슨게임즈로 출범 하였습니다1. 엔에이치스팩9와 넷게임즈 합병엔에이치스팩9는 넷게임즈(17년6월) 와 합병하며 넷게임즈를 코스닥 시장에 상장, 당시 넷게임즈는 모바일 RPG '히트(HIT)'의 흥행으로 큰 주목을 받던 개발사였습니다.스팩은 비상장 기업과의 합병을 유일한 목적으로 하는 페이퍼 컴퍼니입니다.수익 모델: 유망한 기업과 합병 소식이 들리면 주가가 급등하며, 이때 차익을 실현하는 것이 일반적입니다. 넷게임즈를 창업하고 현재까지 이끌고 있는 대표이사는 박용현 대표입니다. 그는 한국 게임 산업에서 'MMORPG의 거두'이자 흥행 보.. 2026. 3. 14. 머신러닝의 작동 원리 데이터를 학습 하여 아파트 가격을 예측 하는 프로그램 만들기 1. 인간의 지식과 경험:사람들은 "보통 집이 넓을수록, 지은 지 얼마 안 될수록 가격이 비싸다"라는 경험적 지식을 가지고 있습니다.2. 데이터를 학습:실제로 거래된 수만 건의 아파트 평수, 연식, 가격 데이터를 컴퓨터(엑셀이나 머신러닝 모델)에 입력합니다.3. 스스로 패턴을 찾음:회귀 분석 알고리즘이 데이터를 훑으며 "평수가 1평 늘어날 때마다 가격은 평균 5,000만 원씩 오르는구나"라는 수학적 공식($y = ax + b$)을 찾아냅니다. 이것이 바로 '패턴'입니다.4. 새로운 지식 창출 및 예측하는 통찰 제공:이제 한 번도 거래된 적 없는 새로운 아파트 정보(평수)를 넣으면, 모델이 "이 집은 약 12억 원 정도 할 것입니다"라고 예측 .. 2026. 3. 11. 회귀 분석(Regression Analysis) 이란? ■ 회귀 분석(Regression Analysis)둘 이상의 변수 간의 관계를 파악하고, 이를 바탕으로 미래의 수치를 예측하는 통계적 방법입니다. 쉽게 말해, '원인'이 되는 변수가 '결과'가 되는 변수에 어떤 영향을 미치는지 수학적 모델로 설명하는 과정입니다. 1. 핵심 개념회귀 분석의 목적은 흩어져 있는 데이터들 사이를 가장 잘 설명하는 '최적의 선(Best-fit Line)'을 찾는 것입니다.독립 변수 ($x$): 원인이 되는 변수 (예: 공부 시간, 광고비, 아파트 평수)종속 변수 ($y$): 결과가 되는 변수 (예: 시험 성적, 매출액, 아파트 가격) 2. 주요 유형회귀 분석은 변수의 개수나 데이터의 특성에 따라 다음과 같이 나뉩니다.단순 선형 회귀 (Simple Linear Regressio.. 2026. 3. 11. 데이터 표준화, 정규화 의미 ■ 데이터 표준화, 정규화의 필요성AI가 데이터를 효과적으로 학습하고 예측의 정확도를 높이기 위해서는 수집된 데이터를 그대로 사용하는 것이 아니라, 일정한 기준에 맞춰 다듬는 데이터 전처리(Preprocessing) 과정이 필수적입니다. 그중 핵심인 표준화(Standardization)와 정규화(Normalization) 입니다.1. 데이터 표준화와 정규화가 필요한 이유컴퓨터 알고리즘은 수치로 된 데이터만 이해하며, 서로 다른 단위나 범위를 가진 데이터를 평등하게 비교하지 못합니다.변수 간 단위 차이 극복: 예를 들어 '나이(0~100)'와 '연봉(0~수억)'처럼 단위가 크게 다를 경우, 알고리즘은 숫자가 큰 연봉 데이터가 훨씬 더 중요하다고 잘못 판단할 수 있습니다.학습 속도 및 안정성 향상: 데이터의.. 2026. 3. 8. 컴퓨터가 이해 할 수 있도록, 데이터를 변환이 필요하다. #2 컴퓨터의 한계: 기본적으로 컴퓨터 알고리즘은 수치로 된 데이터만 이해할 수 있으며, 인간이 쓰는 텍스트의 의미를 그대로 이해하지 못합니다.분석 가능 상태로 변환: 따라서 이미지나 텍스트 같은 비정형 데이터를 분석에 사용하려면, 이를 컴퓨터가 계산할 수 있는 정형 데이터 형태로 만드는 과정이 선행되어야 합니다.컴퓨터가 인간의 언어(비정형 데이터)를 수치화된 데이터(정형 데이터)로 변환하여 이해하기 위해 가장 먼저 거치는 핵심 단계가 바로 "토큰화(Tokenization)"입니다.1. 토큰(Token)과 토큰화(Tokenization)의 개념토큰(Token): 문법적으로 더 이상 나눌 수 없는 기본적인 언어 요소를 의미합니다. 문장이라는 큰 덩어리를 잘게 쪼갠 '최소 단위'라고 볼 수 있습니다.토큰화(Tok.. 2026. 3. 8. 컴퓨터가 이해 할 수 있도록, 데이터를 변환이 필요하다. #1 ■ AI는 왜? 데이터가 필요 할까?AI가 데이터를 필요로 하는 이유는 사람의 학습 방식과 아주 비슷하기 때문입니다. 아이가 "사과"라는 단어를 배우기 위해 수많은 사과를 보고 만져봐야 하는 것처럼, AI도 세상의 법칙과 패턴을 익히기 위해 엄청난 양의 정보가 필요합니다.1. AI와 데이터의 관계: "지능의 원재료"AI에게 데이터는 단순한 정보가 아니라, 지능을 형성하는 핵심 동력입니다.비유: 아이가 '사과'를 배우는 과정아이 : 여러 개의 사과를 보고, 만지고, 맛보며 '사과'라는 개념 정립AI : 수만 장의 사과 사진을 분석하여 '사과'의 특징(색, 모양) 학습정의: 데이터는 AI에게 **'교과서'**이자 '경험' 그 자체입니다. 2. 데이터가 필요한 3가지 핵심 이유① 패턴 인식과 규칙의 자가 학습.. 2026. 3. 8. 왜? 주식을 매수, 투자를 할까? 주식은 눈에 보이는 실체가 없는 '종이 조각(혹은 데이터)'처럼 느껴질 수 있지만, 사람들이 여기에 돈을 거는 이유가 있는 무엇일까요? 단순히 운에 맡기는 도박이라기보다, 미래의 가치와 권리를 사는 행위에 가깝기 때문이라 합니다.기업 입장에서 주식은 컴퓨터 자판 몇 번 두드려 발행할 수 있는 데이터에 불과해 보일 수 있죠. 실제로 경영진이 마음대로 주식을 마구 찍어내면 그 주식은 정말 '휴지'가 되기도 합니다. 그럼에도 불구하고 이 '종이 조각'이 가치를 유지하며 거래되는 이유는 크게 세 가지 제동 장치와 약속 때문입니다.1. '희소성'을 지키는 법적 규제회사가 마음대로 주식을 무한정 찍어낼 수 없도록 법과 제도가 막고 있습니다. 정관의 제한: 회사가 발행할 수 있는 전체 주식 수(발행예정주식총수)는 미.. 2026. 3. 1. 클릭 스트림(Clickstream) 데이터 웹사이트나 앱에서 이동하며 남긴 '디지털 발자국'입니다. 단순히 어떤 페이지를 보았는지뿐만 아니라, 무엇을 클릭하고 얼마나 머물렀는지 등의 모든 행동 시퀀스를 시간순으로 기록한 것입니다. 1. 클릭 스트림 데이터란?사용자가 인터넷에서 활동하는 동안 발생하는 모든 클릭 이벤트를 수집한 데이터입니다. 보통 로그 파일 형태로 저장되며, 다음과 같은 정보들이 포함됩니다.방문 경로: 어떤 광고나 검색어를 통해 유입되었는가?행동 패턴: 어떤 버튼을 클릭하고, 어떤 이미지를 보았는가?체류 시간: 특정 페이지에 얼마나 머물렀는가?이탈 지점: 장바구니에 상품을 담고 왜 결제하지 않고 나갔는가?2. DB 데이터와 결합했을 때의 시너지클릭 스트림 데이터는 '행동'을 보여주지만, 데이터베이스(DB) 데이터는 '정체'**와 '.. 2026. 3. 1. 데이터 조사 ■ 데이터 조사(Data Research) 이미 존재하는 내·외부 데이터를 수집·탐색·조사하여 문제 정의, 가설 수립, 분석 방향 설정, 벤치마킹 등을 하는 사전 탐색 및 자료 수집 단계를 의미합니다.즉, "직접 새로운 데이터를 생성(생성 조사)하기 전에, 이미 있는 데이터를 최대한 활용해서 상황을 파악하고 분석의 토대를 만드는 작업"이라고 볼 수 있습니다. "조직에서 해결하고자 하는 문제와 관련하여 어떠한 조사 방법을 사용할지 결정하는 것"■ 데이터 조사가 필요한 이유조직이 감(Intuition)이 아닌 데이터에 기반해 움직여야 하는 이유는 크게 세 가지입니다.의사결정의 불확실성 감소: 막연한 추측으로 사업을 진행할 때 발생하는 리스크를 줄여줍니다. "고객이 좋아할 것 같다"가 아니라 "데이터상 고객의.. 2026. 3. 1. 데이터 저장소 데이터는 단순히 숫자의 나열처럼 보일 수 있지만, 현대 사회에서는 '새로운 시대의 원유'라고 불릴 만큼 강력한 힘을 가진 자원입니다. 객관적 사실이나 관찰을 통해 얻은 가공되지 않은 원재료를 의미합니다.데이터: "30도" (단순한 수치)정보: "오늘 기온은 30도로 매우 덥다." (데이터에 맥락이 더해진 상태)지식: "더운 날에는 시원한 음료가 잘 팔린다." (정보가 체계화되어 통찰을 주는 상태) 데이터의 형태 (종류) 데이터가 어떻게 저장되는지에 따라 데이터의 종류가 나뉩니다. 데이터는 그 구조에 따라 크게 세 가지로 나뉩니다.분류특징예시정형 데이터고정된 필드에 저장되어 정리가 쉬운 데이터이름, 생년월일, 결제 금액 (Excel, SQL)반정형 데이터고정된 형태는 없으나 메타데이터를 포함한 데이터HT.. 2026. 2. 26. 추가 자료 : 데이터 속성(Attribute) 의 특징 데이터 속성 (Attribute) 은 단 하나의 독립적인 의미를 가지고 있어야 하며, 여러 개의 속성을 통합하여 하나의 의미를 가지는 것을 지양 함. "더 이상 나눌 수 없을 때까지 쪼개라!"데이터를 설계할 때는 나중에 이 데이터를 '어떤 단위로 검색하거나 필터링할 것인가?'를 미리 고민해 보세요. "성" 따로 "이름" 따로 검색할 일이 있다면, 처음부터 두 칸으로 나누는 것이 정답입니다. 엑셀의 필터 기능을 사용 할수 있는지 1. 쪼개지 말아야 할 것: "완전한 하나" (주민번호)주민등록번호처럼 여러 숫자가 모여야만 비로소 하나의 의미를 갖는 데이터는 억지로 쪼개지 않습니다.이유: 앞자리(생년월일)와 뒷자리(성별/지역 등)를 따로 떼어놓으면 '신원 확인'이라는 본래의 기능을 수행하기 어렵기 때문입니다.. 2026. 2. 24. 이전 1 2 3 4 ··· 155 다음 반응형