ml_technique 부스트캠프 AITech recsys ML Clustering 클러스터링 K-Means DBSCAN GMM

[ML 경진대회/기법] 클러스터링 (Clustering)

Kwangjin Park

Oct 01, 2024 · 2 min read

Follow

1. Clustering Overview

Clustering

  • 데이터에서 유사한 특징을 가진 데이터 포인트들을 그룹화하여 의미있는 패턴을 발견하는 기술
    • 정답이 주어지지 않은 상황에서, 데이터 자체의 구조를 파악
  • ML의 비지도 학습(Unsupervised Learning) 영역에서 중요한 기법 중 하나
    • 데이터 단순화
      • 데이터의 복잡성을 줄이고, 이를 의미 있는 그룹으로 구조화해줌
    • 패턴 인식
      • 데이터 노이즈 제거 / 기본적인 구조를 형성시켜 숨겨진 패턴 발견
    • 다른 알고리즘을 위한 전처리
      • 다른 알고리즘(분류/회귀 등)에 앞서 수행되는 전처리 작업으로서 활용

  • 다른 알고리즘을 위한 전처리 example
    • 과제: 백화점 고객들을 그룹화해서 분석
      image1
      • 연간 수입 및 지출을 기반으로 그룹화
        • 가로축: 수입
        • 세로축: 지출
      • 크게 다섯 그룹으로 구분 / 다섯 그룹으로 구분되지 않는 특수 케이스 존재
        • 다섯 그룹안에 속하는 고객 → 데이터 그룹화 및 패턴 분석
        • 다섯 그룹에 속하지 않는 특수 케이스 → 이상치
        • 이상치에 대해서는 추가적인 Clustering을 수행할 수도
    • 선형회귀: 지출은 비슷한데 수입은 다른 그룹을 선형회귀하면?
      image2
      • 묶어서 선형회귀 → 선형회귀가 잘못된 방향으로 표현됨
        • 수입이 적은 그룹은 수입에 따른 지출 증가가 없지만 선형회귀 모델은 수입이 적은 그룹의 지출 증가가 있는 것처럼 표현하게 됨
          image3
      • 나눠서 선형회귀 → 선형회귀를 명확한 방향으로 표현할 수 있게 됨
        • 수입 많은 그룹의 수입 증가에 따른 지출 증가 / 수입 적은 그룹의 지출 성향은 반대
          image4

Clustering 방법의 종류

  1. Partitioning Methods → 데이터를 그룹으로 나누는 방법
    • 데이터를 K개의 그룹으로 나누고, 각 그룹의 중심점을 최적화하는 과정 반복
    • 알고리즘이 간편 / 계산 속도가 빠름
    • 원형 분포 데이터에 적합
    • 대표 Partioning Methods: K-Means / (K-medoids)
      image5
  2. Hierarchical Methods
    • 점진적으로 작은 그룹을 병합 / 큰 그룹을 나누는 알고리즘 → 계층 형성
    • 계층적 결과물 형성 / 덴드로그램 사용하여 시각적 표현 가능(주요 활용도)
    • 대표 Hierarchical Methods: 병합/분할적 방법
      image6
  3. Density-based Methods
    • 데이터 포인트를 밀도에 기반하여 그룹 형성 → 일정 수준으로 밀집한 영역을 그룹으로 간주
    • 원형 뿐 아니라, 임의의 모양을 지닌 클러스터를 감지할 수 있음
    • 저밀도 지역은 노이즈/이상치 처리 → 노이즈/이상치 처리에 강한 기법
    • 클러스터 숫자를 사전에 지정하지 않아도 됨
    • 데이터 밀도가 균일치 못하면 성능이 저하될 수 있음
    • 대표 Density-based Methods: DBSCAN / OPTICS
      image7
  4. Grid-based Methods
    • 데이터가 분포한 공간을 격자로 나누어, 격자 셀 별로 데이터를 분석하여 그룹을 형성하는 기법
    • 격자로 나누어 처리하기 때문에, 속도가 빠름 → 대규모 데이터 세트에 적합
    • 계층적 격자 구조를 활용하기에 데이터 공간을 효율적으로 탐색
    • 다양한 밀도의 cluster를 효과적으로 식별 가능
    • 대표 Grid-based Methods: STING / CLIQUE
      image8
  5. Model-based Methods
    • 데이터가 특정 통계 모델을 따른다고 가정한 클러스터링 방법
      • GMM: 데이터가 여러 개의 가우시안 분포로 구성되어 있음을 가정
      • EM Algorithm: 각 데이터 포인트가 각 가우시안 분포에 속할 확률을 반복적으로 계산
        image9
    • 확률적 접근: 각 데이터 포인트가 클러스터에 속할 확률 제공
    • 유연한 클러스터 형태: 타원형 등 다양한 형태의 클러스터에 효과적
    • 혼합 분포 처리: 데이터가 여러 분포의 혼합으로 구성된 경우 유용
    • 대표 Model-based Methods: GMM(Gaussian Mixture Models) / EM(Expectation-Maximization)

chat_bubble 0

chat_bubble 댓글남기기

댓글남기기