adsp_data_analyze ADsP 분석 기획 분석 방법론 KDD 분석 방법론 CRISP-DM 분석 방법론 빅데이터 분석 방법론

[ADsP / 데이터 분석 기획] 데이터 분석 기획의 이해 (분석 기획의 방향성/분석 방법론)

Kwangjin Park

Jan 14, 2026 · 13 min read

Follow

분석 기획 방향성 도출

분석 기획의 정의 및 특징

분석 기획의 정의

  • 실제 분석을 수행 전, 분석 대상인 과제에 대해 의도했던 결과를 도출할 수 있도록 관리하는 방안을 사전 계획하는 작업
  • 분석 직접 수행 X, 어떠한 목표를 달성하기 위해 어떻게 수행할 지 계획을 수립하는 중요한 사전작업
    • 어떠한 데이터를 활용할 것인가
    • 어떠한 방식으로 수행할 것인가

분석 기획의 특징

  • 분석 기획을 수행하기 위해서는, 데이터 사이언티스트의 요구 역량이 필요
    • 수학/통계학적 지식
    • 분석 도구(데이터/프로그래밍 기술/해당 도메인에 대한 전문성 등)

분석 대상과 및 방법에 따른 4가지 분석 주제

  1. 최적화
    • 분석 대상 및 방법 모두를 알고 있을 때
  2. 통찰력
    • 분석 대상은 모르지만, 분석 방법은 알고 있을 때
  3. 솔루션
    • 분석 대상은 알고 있지만, 그 분석 방법은 모를 경우
  4. 발견
    • 분석 대상과 분석 방법 모두를 모를 때

목표 시점별 분석 기획

  • 당면한 과제를, 언제 해결해야 하는가에 따라 두 가지로 분류
    • 과제 중심적인 접근: 빠르게 해결해야 하는 경우
    • 장기적인 마스터플랜: 지속적인 분석 내재화가 필요함 → 문제 정의가 목적(정확도, 무엇이 문제인가 등)
  • 단위별 분석 기획 비교/분류: 과제 단위 vs 마스터플랜 단위
    • 과제 단위 → 당면한 분석 주제 해결
      • 목적: 빠른 해결
      • 1차 목표: Speed & Test
      • 과제 유형: Quick & Win
      • 접근 방식: Problem Solving
    • 마스터플랜 단위 → 지속적 분석 문화 내재화
      • 목적: 지속적인 해결
      • 1차 목표: Accuracy & Deploy
      • 과제 유형: Long Term View
      • 접근 방식: Problem Definition

분석 기획 시 고려 사항

1) 가용 데이터 고려

  • 데이터: 분석의 가장 기본
  • 데이터 확보에 대한 고려가 필요 → 데이터 유형에 따라 분석 방법이 다르기 때문

2) 적절한 활용 방안 및 Usecase 탐색

  • 기존에 문제없이 구현 및 활용되고 있는 솔루션(or 유사 시나리오)을 최대한 활용하는 것이 중요
  • 과거 유사 분석 사례가 있다면, 해당 시나리오를 최대한 활용 → 과거 실패 반복 막고 성공적 분석을 위한 가이드로 참조

3) 장애 요소에 대한 대비

  • 발생 가능한 장애요소를 분석 시 파악하고, 사전 예방을 위한 대비책 수립이 필요

분석 방법론

개요

  • 분석 방법론
    • 주어진 과제를 해결하기 위해, 조직이 어떠한 절차로 작업을 수행해 나갈 것인지 일련의 절차를 정의한 것
  • 분석 방법론: 개인/소규모 조직 vs 대규모 조직
    • 개인/소규모 조직: 의사소통이 크게 어렵지 않으므로, 방법론의 필요성을 크게 느끼기 어려울 수 있음
    • 대규모 조직: 구성원 간 업무상 통일을 위해, 철저한 조직 관리성공적 프로젝트 수행을 위한 방법론 필요

분석 방법론의 필요성

  • 데이터 분석
    • 효과적으로 기업 내 정착하기 위해서는, 체계화한 절차 및 방법을 정리한 데이터 분석 방법론 수립은 필수
  • 데이터 분석 프로젝트
    • 개인의 역량/우연한 성공에 기인하면 안됨
    • 일정 수준 이상의 품질을 갖춘 산출물, 프로젝트의 성공 가능성을 확보 및 제시
  • 분석 방법론의 구성 요소
    • 상세한 절차(Procedure)
      • 작업 수행을 위한 절차
    • 방법(Methods)
      • 해당 절차를 수행하기 위한 방법
      • 전문가에 자문 요청/고객의 요구사항 파악을 위한 대면 조사
    • 도구 및 기법(Tools & Techniques)
      • 작업 수행에 필요한 것 의미
      • 분석 수행 언어(R/파이썬)
      • 오피스 프로그램(PPT, Excel)
      • 분석 환경 도구(Hadoop, Flume)
    • 템플릿 및 산출물(Templates & Outputs)
      • 템플릿: 특정 작업에 대한 문서 작성 시 참고 가능한 양식
      • 산출물: 해당 작업 종료 이후, 작성되는 문서/프로그램 의미
  • 기업의 합리적인 의사결정을 방해하는 요소
    • 고정관념
    • 편향된 생각
    • 프레이밍 효과
      • 동일한 사건 및 상황을 두고도, 개인의 판단/선택이 달라질 수 있는 현상

분석 방법론의 생성 과정

  • 개인의 암묵지 → 조직의 형식지로 형식화 → 체계화되어 방법론으로
  • 체계화된 방법론내재화 과정 → 다시 개인의 암묵지

적용되는 업무 특성에 따른 분석 방법론 모델

폭포수 모델

  • 단계를 거쳐 순차적으로 진행하는 방법
    • 현재 단계가 완료 되어야 → 다음 단계 진행 가능(하향식 방향)
  • 문제/개선사항이 발견될 경우, 이전 단계로 돌아가 피드백 가능

프로토타입 모델

  • 사용자 중심의 개발방법
  • 고객의 요구를 완전히 이해하지 못하였을 경우 적용
  • 개선작업을 통한 점진적 시스템 개발 과정 거침
    • 일부분 먼저 개발 → 사용자 요구 분석 → 정당성 점검 → 성능 평가 → 개선 → 반복

나선형 모델

  • 반복을 통해 점증적으로 개발(프로토타입 방식과 유사)
  • 사용자 요구에 초점을 두기 보다, 위험요소를 사전에 제거한다는 차이점
  • 장단점
    • 처음으로 시도하는 프로젝트에는 적용 용이
    • 관리 체계를 잘 구축하고 있지 못하다면, 복잡도가 상승

계층적 프로세스 모델

  • 일반적으로 분석 방법론은 계층적 프로세스 모델 형태로 구성
  • 구성: 단계-태스크-스텝

    • 몇 개의 단계(최상의 계층)로 구성
      • 단계(Phase): 프로세스 그룹을 통해 완성된 단계별 산출물 생성/버전 관리를 통한 통제 필요
    • 하나의 단계는 여러 개의 태스크로 구성
      • 태스크(Task): 단계를 구성하는 단위 활동
    • 하나의 태스크는 여러 개의 스텝으로 구성
      • ** 스텝(Step):** WBS(Work Breakdown Structure)의 워크패키지, ‘입력 - 처리 및 도구 - 출력’ 단위로 구성된 프로세스

전통적인 분석 방법론

1) KDD 분석 방법론

  • KDD(Knowledge Discovery in Database)
    • 데이터로부터 통계적 패턴/지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스
    • 데이터 마이닝부터, 기계학습/인공지능/패턴인식/시각화 등에서 응용 가능한 구조를 지님
  • KDD 프로세스

    1. 데이터셋 선택
      • 비즈니스 도메인에 대한 이해/목표설정
      • 분석에 필요한 데이터 선택 → 타깃 데이터 생성
    2. 데이터 전처리
      • 잡음/이상치/결측치 제거
      • 의미 있는 데이터로 재가공
      • 추가로 요구하는 데이터셋이 있다면, 1번 과정으로 다시 복귀
    3. 데이터 변환
      • 변수 생성/선택, 데이터 차원 축소
      • Train/Valid dataset 분리
    4. 데이터 마이닝
      • Train dataset 이용 → 분석 목적에 맞는 데이터 마이닝 기법 선택/적절한 알고리즘 적용
      • (필요에 따라) 전처리/변환 프로세스 적용
    5. 해석 및 평가
      • 분석 목적과의 일치성 확인/평가
      • 발견 지식을 업무에 활용키 위한 방안 마련

2) CRISP-DM 분석 방법론

  • CRISP-DM(Cross Industry Standard Process for Data Mining)
    • 1999, EU 발표된 계층적 프로세스 모델
    • KDD와 유사하지만, 약간 더 세분화 되어 있음
  • CRISP-DM 프로세스
    • 4개의 레벨: 단계/일반화 태스크/세분화 태스크/프로세스 실행
    • 6단계 구성: 업무 이해/데이터 이해/데이터 준비/모델링/평가/전개

      1. 업무 이해
        • 업무 목적 파악
        • 상황 파악
        • 데이터 마이닝 목표 설정
        • 프로젝트 계획 수립
      2. 데이터 이해
        • 초기 데이터 수집
        • 데이터 기술 분석
        • 데이터 탐색/품질 확인
      3. 데이터 준비
        • 분석용 데이터셋 선택/편성
        • 데이터 정제/통합/포매팅
      4. 모델링
        • 모델링 기법 선택
        • 모델 테스트 계획 설계
        • 모델 작성/평가
      5. 평가
        • 분석 결과 평가
        • 모델링 과정 평가
        • 모델 적용성 평가
      6. 전개
        • 전개 계획 수립
        • 모니터링/유지보수 계획 수립
        • 프로젝트 종료 보고서 작성
        • 프로젝트 리뷰

빅데이터 분석 방법론

계층적 프로세스

  • 3계층 레벨: 단계/태스크/스텝
    • 단계: 5단계 구성, “프로세스 그룹” → 각 단계는 여러 개의 태스크로 구성
    • 태스크: 각 태스크는 물리적/논리적 품질 검토의 항목
    • 스텝: 입력자료/출력 및 도구/출력자료 등으로 구성, “유닛 프로세스”
  • 각 단계 별 분석 방법론 플로우
    • 단계 1: 분석 기획
      • 태스크 1: 비즈니스 이해 및 범위 설정
        • 비즈니스 이해
        • 프로젝트 범위 설정
      • 태스크 2: 프로젝트 정의 및 계획 수립
        • 데이터 분석 프로젝트 정의
        • 프로젝트 수행 계획 수립
      • 태스크 3: 프로젝트 위험 계획 수립
        • 데이터 분석 위험 식별
        • 위험 대응 계획 수립
    • 단계 2: 데이터 준비
      • 태스크 1: 필요 데이터 정의
        • 데이터 정의
        • 데이터 획득 방안 수립
      • 태스크 2: 데이터 스토어 설계
        • 정형 데이터 스토어 설계
        • 비정형 데이터 스토어 설계
      • 태스크 3: 데이터 수집 및 정합성 검증
        • 데이터 수집 및 저장
        • 데이터 정합성 검증
    • 단계 3: 데이터 분석
      • 태스크 1: 분석용 데이터 준비
        • 비즈니스 룰 확인
        • 분석용 데이터셋 준비
      • 태스크 2: 텍스트 분석
        • 텍스트 데이터 확인 및 추출
        • 텍스트 데이터 분석
      • 태스크 3: 탐색적 분석
        • 탐색적 데이터 분석
        • 데이터 시각화
      • 태스크 4: 모델링
        • 데이터 분할
        • 데이터 모델링
        • 모델 적용 및 운영 방안
      • 태스크 5: 모델 평가 및 검증
        • 모델 평가
        • 모델 검증
    • 단계 4: 시스템 구현
      • 태스크 1: 설계 및 구현
        • 시스템 분석 및 설계
        • 시스템 구현
      • 태스크 2: 시스템 테스트 및 운영
        • 시스템 테스트
        • 시스템 운영 계획
    • 단계 5: 평가 및 전개
      • 태스크 1: 모델 발전 계획
        • 모델 발전 계획
      • 태스크 2: 프로젝트 평가 및 보고
        • 프로젝트 성과 평가
        • 프로젝트 종료
  • 위험 대응 계획 수립: “회피, 전이, 완화, 수용”
    • 회피: 위험 자체를 회피
    • 전이: 위험을 다른 주체에 이전하는 방법
    • 완화: 위험의 영향을 줄이는 방법
    • 수용: 위험을 받아들이고 대비

빅데이터 분석 방법론 단계별 태스크 이해

  1. 분석 기획 단계
    • 태스크 1: 비즈니스 이해 및 범위 설정
      • 비즈니스 이해
        • 분석 대상인 업무 도메인에 대한 이해
        • 입력 자료: 업무 메뉴얼/업무 전문가의 지식
        • 출력 자료: 비즈니스의 이해/도메인 문제점
      • 프로젝트 범위 설정
        • 프로젝트의 목적에 부합하는 범위 설정
        • 입력 자료: 중장기 계획서/빅데이터 분석 프로젝트 지시서
          • 입력 자료들을 활용하여 SOW 작성 절차 거침
        • 출력 자료: 프로젝트 범위 정의서(SOW, State Of Work)
    • 태스크 2: 프로젝트 정의 및 계획 수립
      • 데이터 분석 프로젝트 정의
        • 프로젝트 목표를 명확히 하기 위한 평가기준 설정
        • 입력자료: SOW, 빅데이터 분석 프로젝트 지시서
          • 입력 자료를 활용하여, 프로젝트의 목표를 구체화함
        • 출력자료: 프로젝트 정의서, 모델 운영 이미지, 설계서
      • 프로젝트 수행 계획 수립
        • 프로젝트 수행 계획서 작성(프로젝트 목적, 기대효과 프로젝트 관리방안 등)
        • 입력자료: 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준
          • 입력 자료를 활용하여, 프로젝트 수행 계획을 작성
        • 출력자료: 프로젝트 수행 계획서, WBS
    • 태스크 3: 프로젝트 위험 계획 수립
      • 데이터 분석 위험 식별
        • 프로젝트를 진행하면서 발생 가능한 위험을 식별
        • 입력 자료: SOW, 프로젝트 수행 계획서, 선행 프로젝트 산출물
          • 위험 식별 절차를 거쳐, 위험 영향도/발생가능성을 분석하여 위험 우선순위를 판단함
        • 출력 자료: 식별된 위험 목록
      • 위험 대응 계획 수립
        • 식별된 위험에 대한 분석 → 대응 방안 수립
        • 입력 자료: 식별된 위험 목록, 프로젝트 정의서, 프로젝트 수행 계획서
          • 위험성에 관해 정성적/정량적으로 분석
        • 출력 자료: 위험 관리 계획서
  2. 데이터 준비 단계
    • 태스크 1: 필요 데이터 정의
      • 데이터 정의
        • 다양한 데이터 소스 → 필요 데이터 정의
        • 입력 자료: 프로젝트 수행 계획서, 시스템 설계서, ERD(Entity Relationship Diagram ), 메타데이터 정의서
          • 내/외부 데이터 정의
          • 정형/비정형/반정형 데이터 정의
        • 출력 자료: 데이터 정의서
      • 데이터 획득 방안 수립
        • 데이터 수집을 위한 구체적 방안 수립
        • 입력 자료: 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서
        • 출력 자료: 데이터 획득 계획서
    • 태스크 2: 데이터 스토어 설계
      • 정형 데이터 스토어 설계
        • 데이터의 효율적 저장/활용을 위한 데이터 스토어
        • 입력 자료: 데이터 정의서, 데이터 획득 계획서
          • 데이터베이스 논리설계/물리설계데이터 매핑을 통해 데이터 스토어 설계
        • 출력 자료: 정형 데이터 스토어 설계서/데이터 매핑 정의서
      • 비정형 데이터 스토어 설계
        • 반/비정형 데이터 저장을 위한 데이터 스토어 설계(Hadoop, NoSQL 활용)
        • 입력 자료: 데이터 정의서, 데이터 획득 계획서
          • 비정형/반정형 데이터 논리설계/물리설계를 통해 데이터 스토어 설계
        • 출력 자료: 비정형 데이터 스토어 설계서/데이터 매핑 정의서
    • 태스크 3: 데이터 수집 및 정합성 검정
      • 데이터 수집 및 저장
        • 수집된 데이터를 설계된 스토어에 저장
        • 입력 자료: 데이터 정의서, 데이터 획득계획서, 데이터 스토어 설계서
          • 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트 활용
          • ETL 도구: 다양한 소스에서 데이터를 추출(Extract)하고, 분석하기 좋게 변환(Transform)하며, 중앙 저장소(데이터 웨어하우스, 데이터 레이크 등)에 로드(Load)하는 과정을 자동화해주는 소프트웨어
        • 출력 자료: 수집된 분석용 데이터
      • 데이터 정합성 점검
        • 데이터 품질 점검을 통한 정합성 확보
        • 입력 자료: 수집된 분석용 데이터
          • 데이터 정합성 점검 리스트를 체크하며 데이터 품질 확인
        • 출력 자료: 데이터 정합성 점검 보고서
  3. 데이터 분석 단계
    • 태스크 1: 분석용 데이터 준비
      • 비즈니스 룰 확인
        • 프로젝트 목표 인식, 세부적인 비즈니스 룰, 필요 데이터 범위 확인
        • 입력 자료: 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어
          • 프로젝트 목표 및 비즈니스 룰 확인
        • 출력 자료: 비즈니스 룰 분석에 필요한 데이터 범위
      • 분석용 데이터셋 준비
        • 데이터 스토어 → 분석에 필요한 데이터 추출
        • 입력 자료: 데이터 정의서/데이터 스토어
          • 데이터 선정 및 변환작업을 거친 후, ETL 도구를 활용하여 추출
        • 출력 자료: 분석용 데이터셋
    • 태스크 2: 텍스트 분석
      • 텍스트 데이터 확인 및 추출
        • 텍스트 분석에 필요한 데이터 대상
        • 입력 자료: 비정형 데이터 스토어
          • 텍스트 데이터를 추출하여 분석용 텍스트 데이터를 확인함
        • 출력 자료: 분석용 텍스트 데이터
      • 텍스트 데이터 분석
        • 추출된 텍스트 데이터를 분석 도구로 적재 → 다양한 기법으로 분석 및 모델 구축
        • 입력 자료: 분석용 텍스트 데이터 용어사전
          • 기법들: 분류체계 설계/형태소 분석/키워드 추출/감성분석 등
        • 출력 자료: 텍스트 분석 보고서
    • 태스크 3: 탐색적 분석
      • 탐색적 데이터 분석
        • 다양한 관점으로 데이터의 분포 및 특성을 확인
        • 입력 자료: 분석용 데이터셋
          • 활용 도구: EDA
          • 프로세스: 통계 분석, 변수 간 연관성 분석, 데이터 분포 확인 등
        • 출력 자료: 데이터 탐색 보고서
      • 데이터 시각화
        • 탐색적 데이터 분석을 위해 활용
        • 입력 자료: 분석용 데이터셋
          • 시각화 도구 및 패키지 활용
          • 인포그래픽, 시각화 방법론 적용
        • 출력 자료: 데이터 시각화 보고서
    • 태스크 4: 모델링
      • 데이터 분할
        • 모델의 과적합 문제 해결/모델 검증력 테스트
        • 입력 자료: 분석용 데이터셋
          • 데이터 분할 패키지
        • 출력 자료: 훈련용 데이터/테스트용 데이터
      • 데이터 모델링
        • ML 등을 이용한 분류/예측,군집 등의 모델 구축
        • 입력 자료: 분석용 데이터셋
          • Machine Learning/통계 모델링/모델 테스트 등의 기법
        • 출력 자료: 모델링 결과 보고서
      • 모델 적용 및 운영 방안
        • 모델 적용을 위한 상세 알고리즘 설명 작성/모델 운영 모니터링 방안 수립
        • 입력 자료: 모델링 결과 보고서
          • 모니터링 방안 수립 및 알고리즘 설명서 작성
        • 출력 자료: 모니터링 방안
    • 태스크 5: 모델 평가 및 검증
      • 모델 평가
        • 모델의 객관적 평가 진행 by 모델 평가 기준
        • 입력 자료: 모델링 결과 보고서, 평가용 데이터
          • 모델 평가 및 품질관리/개선작업 진행
        • 출력 자료: 모델 평가 보고서
      • 모델 검증
        • 모델의 적용성 검증 작업, 실제 모델 품질 최종 검증
        • 입력 자료: 모델링 결과/평가 보고서, 검증용 데이터
        • 출력 자료: 모델 검증 보고서
  4. 시스템 구현 단계
    • 태스크 1: 설계 및 구현
      • 시스템 분석 및 설계
        • 가동중인 시스템 분석 및 시스템 구축 설계 프로세스 진행
        • 입력 자료: 알고리즘 설명서, (운영 중인)시스템 설계서
          • 정보시스템을 활용하여 개발방법론 적용
        • 출력 자료: 시스템 분석 및 설계서
      • 시스템 구현
        • 새로운 시스템 구축 및 가동 중인 운영 시스템 커스터마이징을 통해 설계된 모델 구현
        • 입력 자료: 시스템 분석 및 설계서, 알고리즘 설명서
          • 시스템 통합개발도구/프로그래밍 언어/패키지 등
        • 출력 자료: 구현된 시스템
    • **태스크 2: 시스템 테스트 및 운영 **
      • 시스템 테스트
        • 구축된 시스템 검증을 위한 테스트, 단위/통합/시스템 테스트 등
        • 입력 자료: 구현 시스템, 시스템 테스트, 계획서
          • 여러 품질관리 활동을 통해 시스템 테스트
        • 출력 자료: 시스템 테스트, 결과 보고서
      • 시스템 운영 계획
        • 구현된 시스템의 지속적 활용을 위한 계획
        • 시스템 운영자/사용자 교육 실시/시스템 운영 계획 수립
        • 입력 자료: 시스템 분석 및 설계서, 구현 시스템
          • 운영계획 수립, 운영자 및 사용자 교육
        • 출력 자료: 운영자/사용자 메뉴얼, 시스템 운영 계획서
  5. 평가 및 전개 단계
    • 태스크 1: 모델 발전 계획 수립
      • 모델 발전 계획
        • 지속적인 운영 및 기능 향상을 위한 계획
        • 입력 자료: 구현 시스템, 프로젝트 산출물 → 활용하여 발전 계획 수립
        • 출력 자료: 모델 발전 계획서
    • 태스크 2: 프로젝트 평가 및 보고
      • 프로젝트 성과 평가
        • 정량적 성과/정성적 성과 나눠서 성과 평가서 작성
        • 입력 자료: 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서
          • 평가 기준을 적용하여, 정량적/정성적 평가 진행
        • 프로젝트 성과 평가서
      • 프로젝트 종료
        • 프로젝트 과정 간 모든 산출물 및 프로세스의 지식 자산화 → 최종 보고서 작성

단계별 요약

  • 5단계 및 단계별 태스크 요약/정리

단계별 다양한 산출물

  • 프로젝트는 규모가 커질 수록 관리가 어려워 산출물의 관리는 필수적이다.
  • 다양한 산출물
    • 요구사항 정의서
      • 개발/분석이 수행되길 원하는 고객이 무엇을 원하는 정확하게 파악하기 위해 작성하는 문서
    • 업무 분업 구조(WBS)
      • 개발/분석을 수행하는 전체 과정 → 수십/수백/수천 개의 작은 단위의 업무로 나눔, 수행 담당자 및 기간 등을 작성한 문서
    • 프로그램 목록(명세서)
      • 개발/분석을 수행하는 중간 과정프로그램/모델을 관리하기 위한 문서
    • 데이터 정의서
      • (다수의 인원으로 구성된 프로젝트 수행 시)변수 및 데이터를 생성한 작성자의 의도를 정의한 문서
      • 데이터의 일관성 유지 목표
    • ERD(개체-관계 다이어그램)
      • 데이터-개체 간 관계를 그림/글로 표현한 것, 효율적인 데이터 운영을 목적으로 하는 문서
    • (클라우드) 자원 명세서
      • 개발, 분석을 수행하기 위한 컴퓨팅 자원을 명세한 내역
      • CPU의 코어 수, 하드 용량, 메모리 크기 등을 정의한 문서
chat_bubble 0

chat_bubble 댓글남기기

댓글남기기