adsp_data_basic ADsP 빅데이터 빅데이터 활용 테크닉 7가지 연관 규칙 학습 유형 분석 유전 알고리즘 회귀분석 감정분석 텍스트 마이닝 Association Analysis 소셜 네트워크 분석 빅데이터 활용 3요소 기술 데이터 인력

[ADsP / 데이터의 이해] 데이터의 미래 (빅데이터의 활용/위기요인 및 통제방안/미래의 빅데이터 활용 3요소)

Kwangjin Park

Jan 13, 2026 · 5 min read

Follow

비즈니스 모델

빅데이터 활용 사례

기업혁신

  • 구글 검색 기능
  • 월마트 매출 성장
  • 의료 분야(질병 예후 진단 등)

정부 활용

  • 실시간 교통 정보 수집
  • 기후 정보
  • 각종 지질 활동
  • 국가 안전 확보
  • 의료/교육분야 개선 활용 방안

빅데이터 활용 기본 테크닉 7가지

1) 연관 규칙 학습(Association Rule Learning, 장바구니 분석)

  • 어떤 변인 간, 주목할 만한 상관관계가 있는지 찾아내는 방법
  • 고객이 구매한 물품 분석 → 품목 간 어떤 규칙이 있는지 찾아내는 분석 기법
  • ex) A를 구매한 사람이 B를 더 많이 사는가?

2) 유형 분석(Classification tree analysis)

  • 새로운 사건이 속할 범주 찾아내는 방법
  • “이 사용자가 어떤 특성을 가진 집단에 속할 것인가?”와 같은 문제를 해결하는 방법
  • ex) 조직을 어떻게 여러 그룹으로 나눌 것인가?
  • 분류와 군집
    • “유형 분석”이라는 방법론이 분류 쪽에 가까운지, 군집 쪽에 가까운지 모호함
    • 엄밀히 두 방식은 다른 방법
    • 분류는 Classification, 군집은 Clustering
    • 자세한 내용은 뒤쪽 내용에서(추후 링크 첨부 예정)

3) 유전 알고리즘(Genetic Algorithm)

  • 최적화가 필요한 문제를 → 메커니즘(자연선택, 돌연변이 등)을 통해 점진적으로 진화시켜 나가면서 해결하는 방법
  • “최대 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?”와 같은 문제를 해결하는 방법론
  • ex) 최적화된 택배 차량 배치 / 최고의 시청률을 위한 방송 프로그램 배치

4) 기계학습=머신러닝(Machine Learning)

  • 컴퓨터가 데이터로부터 규칙을 찾고 → 이를 활용해 예측하는 데에 초점을 두는 방법론
  • ex) 유튜브 / 넷플릭스의 미디어 추천 시스템
  • Machine Learning 알고리즘
    • 단순히 하나의 분석 방법은 아님
    • 다양한 분석 알고리즘을 통해 예측하는 분석모델을 아우르는 넓은 개념

5) 회귀분석(Regression)

  • 독립 변수를 조작함에 따라 종속 변수가 어떻게 변하는지 관찰 → 두 변인 간 관계를 수치형으로 파악하는 방법
  • “구매자의 나이가 구매 타입에 어떤 영향을 미치는가?”와 같은 문제를 해결하는 방법론
  • ex) 사용자의 만족도가 충성도에 어떤 영향을 미치는가?

6) 감정분석(Sentiment Analysis)

  • 특정 주제에 대하 말하거나 글을 쓴 사람의 감정을 분석하는 방법
  • 비정형 데이터 마이닝의 대표 기법 중 하나
  • 텍스트 파일에서 단어 추출 → 추출된 단어의 긍정/부정 선별 → 글을 쓴 사람의 감정을 분석
  • 텍스트 마이닝
    • 비정형 데이터 분석의 일종
    • 관련 용어
      • 스태밍(Stemming)
        • 단어의 원형을 찾는 작업
        • 텍스트 마이닝 수행 시, 해당 단어의 원형을 찾아서 그 본래의 의미를 파악해야 함
      • 코퍼스(Corpus, 말뭉치)
        • 텍스트 분석을 위해 모아둔 단어 혹은 문장을 보유한 저장소
        • 다양한 목적으로 활용 가능(특정 단어는 어떤 단어들과 주로 어울리는가? 등)
      • 토큰화(Tokenization)
        • 문장/코퍼스를 여러 개의 뜻을 지닌 가장 작은 단위의 단어로 쪼개는 작업
        • 한글의 경우는 토큰화보다 상위 개념인 형태소 분석을 수행해야 함
          • ‘-은, -는, -이, -가’와 같이, 조사 때문에 띄어쓰기로 나누는 것은 토큰화가 될 수 없음
      • 임베딩(Embedding)
        • 토큰화가 수행된 단어 집합 → 일련의 벡터로 변환 작업
  • “새로운 환불 정책에 대한 고객의 평가는 어떠한가?”와 같은 문제를 해결하는 방법론
  • ex) 호텔에서 고객의 후기 분석 → 고객의 니즈 판별

7) 소셜 네트워크 분석(SNA, Social Network Analysis)

  • 사회 관계망 분석
  • 온라인 공간에서 유저 간 팔로워-팔로잉 관계를 분석 → 영향력 있는 사람 발굴 → 다양한 분야에 활용(기업의 효율적인 마케팅/범죄 수사에서 공범 수색 등)
  • 오피니언 리더(영향력 있는 사람) → 고객 간 소셜 관계 파악
  • SNA 요소
    • SNA는 비정형 데이터 분석의 일종
    • 관련 용어
      • 연결 중심성
        • 하나의 점에 얼마나 많은 다른 점이 연결돼 있는지 나타내는 척도
        • 연결된 노드들 숫자의 합
      • 근접 중심성
        • 노드 사이의 거리를 기반으로 측정한 척도
      • 매개 중심성
        • 네트워크 내 각 노드의 위치 파악 → 각 노드가 미치는 영향력 파악 가능
      • 아이겐벡터 중심성
        • 네트워크 내 노드와 다른 벡터의 중심성 및 가중치를 활용하여 계산하는 방법
        • 해당 노드와 연결된 다른 노드들이, 네트워크 내에서 얼마나 중요한지 파악하는 지표
  • ex) 도시계획 및 지리학 분야에서 SNA를 활용하여 도시공간분석에 이용

위기 요인과 통제 방안

위기 요인

1) 사생활 침해

  • 개인의 사생활 침해 → 이를 넘어 사회/경제적 위협으로 변형,발전될 수 있음
  • 익명화 기술 발전중(아직 충분치 않음), 정보 오용 시 위협의 크기는 막대함
  • ex) 조지 오웰의 «1984», ‘빅브라더’

2) 책임 원칙 훼손

  • 빅데이터 기반 분석/예측 기술 발전 → 정확도 증가 → 분석 대상의 사람들은 예측 알고리즘의 희생양
  • 부당하게 피해보는 피해자를 보호해주는 장치 마련이 필요함
  • ex) 영화 <마이너리티 리포트="">: 범죄자를 예지하는 예언자에 의해, 발생되지 않은 사건에 대한 범죄자 체포

3) 데이터 오용

  • 데이터 과신/잘못된 지표의 사용 → 잘못된 인사이트 도출 → 비즈니스 적용 : 직접 손실이 발생할 수 있음
  • 빅데이터는 과거 데이터를 분석하는 것이기에, 창조적 미래를 예측하는 경우 잘못된 활용을 할 가능성이 높음
  • ex) 포드 자동차 발명 vs 더 빠른 말 / 아이폰 vs 그냥 전화기(피처폰)

통제 방안

1) ‘동의’에서 ‘책임’으로 (사생활 침해 통제 방안)

  • 개인정보 사용자의 ‘책임’으로 오용되지 않도록 해결

2) 결과 기반 책임 원칙 고수 (책임 원칙 훼손 통제 방안)

  • 특정인에 대한 처벌의 원인은 “성향”이 아니라 “행동에 대한 결과”로

3) 알고리즘 접근 허용

  • 데이터로 인해 피해를 본 피해자가 발생하였다면, 어떻게 피해를 입었는지 데이터 활용 로직인 알고리즘을 통해 파악
  • 직업 ‘알고리즈미스트’ → 알고리즘을 이해하고 해석하여 사전에 피해자 발생 방지 및 피해자 구제

빅데이터의 위기 요인 → 통제방안 정리

  1. 사생활 침해 → 동의에서 책임으로
  2. 책임 원칙 훼손 → 결과 기반 책임 원칙 고수
  3. 데이터 오용 → 알고리즘 접근 허용

개인정보 비식별 기술

  • 데이터 속에서 특정 개인을 식별할 수 있는 요인을 숨김으로서, 특정 개인을 식별하지 못하도록 하는 것
  • 빅데이터로 인해 발생하는 위기 요인들에 대한 대처 방안으로서 각광
  • 5가지 구성 요소
    • 데이터 마스킹: 데이터의 기존 형식을 유지한 채, 식별할 수 없는 임의의 값(혹은 기호)으로 대체
    • 가명 처리: 데이터의 값을 다른 값으로 아예 변경
    • 총계 처리: 전체 데이터들을 각각의 값으로 보여주지 않고, 전체 데이터에 대한 총합 / 평균으로 표시
    • 데이터 값 삭제: 데이터 값의 일부 삭제
    • 데이터 범주화: 특정 데이터 값을 명시적 수치로 표현하지 않고, 범위로 표시

FTC(미연방거래위원회)의 소비자 프라이버시 보호

  • 3대 권고 사항
    • 기업은 상품 개발 단계부터 소비자 프라이버시 보호 방안 적용
    • 기업은 소비자에게 공유정보 선택 옵션 제공
    • 기업은 소비자에게 수집된 정보 내용 공개 및 접근권 부여

미래의 빅데이터

빅데이터 활용에 필요한 3요소

1) 데이터

  • 모든 것의 ‘데이터화’
  • 다양한 방식으로 축적된 방대한 데이터 기반 → 창의적인 분석 가능
  • 이를 통해, 새로운 가치 창출의 기반이 마련됨
  • IoT(Internet of Things, 사물인터넷)
    • 현실 세계에서, 사물에 부착된 센서들을 통해 다양한 상태의 정보를 실시간으로 수집 → 데이터로 전환하는 기술
    • 대표적인 데이터화의 사례
  • 데이터화 vs 디지털화
    • 디지털화: 아날로그 정보를 단순히 디지털 형태로 변환하는 과정(.pdf, .mp3 등)
    • 데이터화: 인간의 행동, 현상, 과정을 측정 및 수집 → 분석 가능한 데이터로 생성하는 과정

2) 기술

  • 날이 거듭할 수록 진일보하는 기술, 인공지능
  • 대용량/다양성/고속성을 갖춘 데이터 → 신속하게 처리하기 위한 고성능 알고리즘 등장
  • 특히 그중, 스스로 학습 및 추론이 가능한 인공지능 기술이 발전하면서 데이터 활용 수준이 급상승

3) 인력

  • 데이터 사이언티스트, 알고리즈미스트
  • 빅데이터를 효과적으로 처리 및 분석하기 위한 직업군 등장
  • 그 직업군들의 역할이 점점 중요해지고, 데이터를 기반으로 한 인사이트 도출의 필요성이 더욱 강조되는 중
chat_bubble 0

chat_bubble 댓글남기기

댓글남기기