본문 바로가기

KHUDA

KHUDA Data business 02 심화발제

Clustering

클러스터링(Clustering)
데이터를 비슷한 속성을 가진 그룹으로 나누는 기술이다. 데이터를 이러한 그룹으로 나눔으로써 데이터 간의 구조를 파악하거나 패턴을 발견할 수 있다. 클러스터링은 데이터 마이닝, 패턴 인식, 정보 검색, 고객 세분화 등 다양한 분야에서 활용된다.

 

평균 기반 클러스터링(k_means())
평균기반 클러스터링은 가장 널리 사용되는 클러스터링 기법 중 하나다. 이 방법은 각 클러스터의 중심을 찾고, 해당 중심과 다른 데이터 포인트 간의 거리를 계산하여 데이터를 그룹화한다. 그 중에서도 대표적으로 사용되는 알고리즘은 K-평균(K-Means) 알고리즘이다. 이 알고리즘은 다음과 같은 단계로 동작한다.

중심 초기화: 사용자는 클러스터의 수를 지정하고, 각 클러스터의 초기 중심을 임의로 선택한다.
할당 단계: 각 데이터 포인트를 가장 가까운 중심에 할당ㅎㄴ다.
재계산 단계: 각 클러스터의 중심을 해당 클러스터에 속한 데이터 포인트의 평균으로 다시 계산힌다.
갱신: 할당과 재계산 단계를 반복하며 클러스터 중심과 할당을 업데이트 한다.

 

모델기반 클러스터링

모델기반 클러스터링은 데이터에 확률 모델을 적용하여 클러스터를 찾는 방법이다. 대표적인 알고리즘으로는 가우시안 혼합 모델(Gaussian Mixture Model, GMM)이 있다. GMM은 데이터가 여러 개의 가우시안 분포로부터 생성되었다고 가정하며, 각 클러스터가 가우시안 분포의 혼합으로 표현된다고 가정한다.
GMM은 다음과 같은 단계로 동작한다.

초기화: 클러스터의 수와 초기 파라미터(가우시안 분포의 평균과 공분산)를 설정한다.
E 단계 (Expectation): 각 데이터 포인트가 각 클러스터에 속할 확률을 계산한다.
M 단계 (Maximization): 각 클러스터의 파라미터를 업데이트한다.
반복: E와 M 단계를 번갈아 가며 클러스터 파라미터를 조정한다.
이러한 클러스터링 방법은 데이터가 가우시안 분포를 따를 때 유용하며, 데이터의 분포를 정확하게 모델링하는 데 도움이 된다.

가우시안 혼합 모델(Gaussian Mixture Model, GMM)
데이터가 여러 개의 가우시안 분포로부터 생성되었다고 가정하며, 각 클러스터가 가우시안 분포의 혼합으로 표현된다. 이 모델은 확률적인 방법을 사용하여 데이터를 클러스터링하며, 데이터가 특정한 클러스터에 속할 확률을 계산한다.
GMM은 다음과 같은 주요 요소로 구성된다.

가우시안 분포(Gaussian Distribution):가우시안 분포는 연속적인 확률 분포로서, 평균과 분산을 사용하여 데이터의 분포를 모델링한다. 이는 종 모양의 곡선으로 표현되며, 중심을 중심으로 대칭적으로 분포된다.

혼합 가우시안(Mixture of Gaussians):GMM은 여러 개의 가우시안 분포가 혼합된 모델로서, 각 가우시안 분포가 하나의 클러스터를 나타낸다. 따라서 데이터는 여러 개의 가우시안 분포로부터 생성될 수 있으며, 이러한 혼합 가우시안을 통해 다양한 형태의 데이터를 모델링할 수 있다.

모델 파라미터:GMM은 각 클러스터의 가우시안 분포를 설명하는 파라미터를 포함한다. 주요 파라미터로는 각 클러스터의 평균(centroid), 공분산(covariance), 그리고 혼합 가중치(mixing weights)가 있다.

 

 

가우시안 혼합 모델(Gaussian Mixture Model, GMM)은 다양한 분야에서 사용될 수 있다. 여기에는 다음과 같은 예시가 있다.

  1. 이미지 세분화(Image Segmentation):
    • 이미지에서 서로 다른 물체나 배경을 구분하고자 할 때 GMM을 사용할 수 있다. 각 픽셀은 RGB(또는 다른 색상 공간) 값으로 표현된다. GMM은 픽셀의 색상 분포를 모델링하여 유사한 색상 그룹으로 픽셀을 클러스터링할 수 있다. 이를 통해 이미지의 물체와 배경을 구분하거나 특정 물체를 추출할 수 있다.
  2. 금융 데이터 분석(Financial Data Analysis):
    • 주식 시장에서 주식 가격의 변동을 모델링하고 예측하기 위해 GMM을 사용할 수 있다. 주식 가격은 다양한 요소들에 의해 영향을 받으며, 이러한 요소들이 여러 가우시안 분포를 따를 수 있다. GMM을 사용하여 이러한 다양한 요소들을 모델링하고 주식 가격의 패턴을 파악할 수 있다.
  3. 고객 세분화(Customer Segmentation):
    • 고객의 구매 이력이나 특성을 기반으로 고객을 서로 다른 그룹으로 분류하는 경우에 GMM을 사용할 수 있다. 각 고객의 구매 패턴이나 특성은 다양한 요소들에 의해 영향을 받을 수 있으며, 이를 여러 가우시안 분포로 모델링하여 고객을 클러스터링할 수 있다. 이를 통해 각 그룹의 특성을 파악하고 개별적인 마케팅 전략을 수립할 수 있다.
  4. 자연어 처리(Natural Language Processing):
    • 텍스트 데이터에서 주제나 문서 유형을 식별하는 데에 GMM을 사용할 수 있다. 각 단어나 문장은 특정한 특성을 가지며, 이를 여러 가우시안 분포로 모델링하여 주제나 문서 유형을 클러스터링할 수 있다. 이를 통해 텍스트 데이터를 구조화하고 분류할 수 있다.
고객 세분화(Customer Segmentation):

배민 운영사 우아한형제들은 고객관계관리(CRM) 솔루션 고객 관리 기능을 도입한다고 2일 밝혔다. CRM은 고객 관련 데이터를 분석해 특성에 맞는 마케팅 활동을 연결해주는 기능이다.

신규 주문 고객과 재주문 고객 등 고객 그룹과 그룹별 주문 현황 정보도 제공한다. 신규, 재주문 고객 주문이 얼마나 늘었는지, 그룹별 인기메뉴, 배달 지역별 정보도 확인할 수 있다. 가게에 처음 주문하는 고객 수가 적다고 판단되면, 쿠폰을 발행해 효율적으로 신규 고객을 유치할 수도 있다.


'KHUDA' 카테고리의 다른 글

KHUDA Data buisness 03  (0) 2024.03.26
KHUDA Data business 02 practice  (1) 2024.03.26
KHUDA Data buisenss 02  (0) 2024.03.20
KHUDA Data buiseness 01 practice  (3) 2024.03.18
KHUDA Data buisness 01  (0) 2024.03.13