본문 바로가기

전체 글

(24)
KHUDA Data Business 05 Chapter 14-1 학습셋, 검증 셋, 테스트 셋과 과적합 해결 Degree 1 : 모델이 너무 단순해서 Y값을 제대로 예측하지 못함, 학습이 너무 덜 된 경우 과소적합(underfitting) Degree 15 : 학습 셋에 과도하게 적합(fit)하도록 학습된 과적합 상태(overfitting) -> 학습이 너무 많이 이루어지거나, 변수가 너무 복잡해서 발생, train 데이터와 test 데이터가 중복될 경우 발생 Degree 5 : 최적의 모델 True function과 가장 유사한 모델 검증셋 학습 셋 데이터를 통해 모델을 만들 때 과도하게 학습되지 않도록 조정해주는 역할을 함 테스트 셋 학습 셋과 검증 셋으로 만든 최종 모델의 실제 '최종 성능'을 평가할 때 사용 -> 검증 셋도 결국 모델을 ..
KHUDA Business 03 practice https://colab.research.google.com/drive/1uWEooSZm8cNc_8PKIzsd214Knf2c95ha?
KHUDA Data business 04 chatper 13.4 선형 판별분석과 이차 판별분석(분류모델) 판별분석 로지스틱 회귀분석처럼 질적 척도로 이루어진 종속변수를 분류할 떄 쓰이는 분석 기법이다. 기계 학습보다는 통계기반의 데이터 분류 모델에 더 가깝다. 회귀 분석처럼 최소 제곱법을 사용하는 추정방법을 통해 독립변수의 최적 가중치를 구한다. 종속 변수의 범주가 두 개일 경우 : 두 집단 판별분석 종속 변수의 범주가 세 개 이상 : 다중 판별분석 결정경계선 산출 방식에 따라 선형 판별 분석, 이차 판별분석 으로 나뉜다. 선형 판별분석 전체 범주의 분류 오차를 최소화하는 선형 판별 함수를 도출한 다음 모든 관측치의 분류점수를 도출한다. 집단 내 분산에 비해 집단 간 분산의 차이를 최대화하는 독립변수의 함수를 찾는 것이다. 이렇게 최적의 분류손..
KHUDA Data buisness 03 chapter 12 통계 기반 분석 방법론 분석 모델 개요 방법론은 크게 기계학습, 통계모델 두가지로 나누어 진다. 통계 모델 모형과 해석을 중요하게 생각하며, 오차와 불확정성을 강조한다. 기계 학습 대용량 데이터를 활용하여 예측의 정확도를 높이는 것을 중요하게 생각한다 . 기계 학습도 통계 모델의 원리를 기본으로 하고있다. 기계 학습 데이터 분석 방법론은 크게 지도학습과 비지도 학습(강화학습)으로 구분할 수 있다. 또 독립변수와 종속변수의 속성에 따라 방법론이 결정된다. 질적 척도인지, 양적척도인지에 따라 분석 방법론이 달라진다. 하나의 방법론이 양적, 질적 변수 형태 모두 사용가능한 경우도 있다. 지도학습은 입력에 대한 정답이 주어져 결과와 정답사이의 오차가 줄어들도록 학습과 모델수정을 반복한다. 결..
KHUDA Data business 02 practice 결측값, 이상치 처리 실습 !pip install missingno import missingno as msno from sklearn.experimental import enable_iterative_imputer from sklearn.impute import IterativeImputer import matplotlib.pyplot as plt import pandas as pd import numpy as np plt.rcParams['figure.dpi'] = 300 df = pd. read_csv("/content/sampled_car_prices.csv") df.head() msno.matrix(df) plt.show() msno.bar(df) plt.show() def is_emptystr..
KHUDA Data business 02 심화발제 Clustering 클러스터링(Clustering) 데이터를 비슷한 속성을 가진 그룹으로 나누는 기술이다. 데이터를 이러한 그룹으로 나눔으로써 데이터 간의 구조를 파악하거나 패턴을 발견할 수 있다. 클러스터링은 데이터 마이닝, 패턴 인식, 정보 검색, 고객 세분화 등 다양한 분야에서 활용된다. 평균 기반 클러스터링(k_means()) 평균기반 클러스터링은 가장 널리 사용되는 클러스터링 기법 중 하나다. 이 방법은 각 클러스터의 중심을 찾고, 해당 중심과 다른 데이터 포인트 간의 거리를 계산하여 데이터를 그룹화한다. 그 중에서도 대표적으로 사용되는 알고리즘은 K-평균(K-Means) 알고리즘이다. 이 알고리즘은 다음과 같은 단계로 동작한다. 중심 초기화: 사용자는 클러스터의 수를 지정하고, 각 클러스터의 ..
KHUDA Data buisenss 02 11.데이터 전처리와 파생변수 생성 chapter 11-1 결측값 처리 대부분의 데이터는 결측값(missing value)나 이상치가 없는 경우가 드물다. 그러므로 데이터 탐색 단계에서 결측값을 처리해야 한다. 완전 무작위 결측( MCMR ) 이름 그대로 순수하게 결측값이 무작위로 발생한 경우 결측치 데이터를 제거해도 편향은 발생하지 않음. 무작위 결측(MAR) 다른 변수의 특성에 의해 결측치가 체계적으로 발생한 경우 결측값은 데이터 수집 장치에 특성에 영향을 받음 비무작위 결측(NMAR) 결측값들이 해당 변수 자체의 특성을 가지고 있는 경우 그 값이 실제로 무엇인지 확인할 수 없으므로 비무작위 결측을 구분하기 어렵다 ex) 고객 소득 변수에서 결측값 대부분이 소득이 적어서 소득을 공개하기 꺼려해서 결측..
KHUDA Data buiseness 01 practice chapter 10-1 EDA plt.rcParams['figure.dpi'] = 300 sns.distplot(df['lane_count']) chapter 10-2 비교상관성 분석 sns.heatmap(df.corr(), cmap='viridis') chapter 10-3 시간 시각화 import datetime import matplotlib.pyplot as plt df['date'] = pd.to_datetime(df['base_date'], format = '%Y%m%d') df1 = df.groupby('date')['target'].mean().reset_index() df1.head() df1['month'] = df1['target'].rolling(window = 30).mean() ..