ADSP (2) 데이터의 가치와 미래
ADSP 관련 글
- ADSP (1) 데이터의 이해
- ADSP (2) 데이터의 가치와 미래
- ADSP (3) 데이터 분석 기회의 이해
- ADSP (4) 분석 마스터플랜
- ADSP (5) R 기초와 데이터 마트
- ADSP (6) 통계 분석 (1)
- ADSP 합격 후기
ADSP를 준비하면서 공부한 내용을 정리한 글입니다.
1과목 2장 데이터의 가치와 미래에 대한 부분을 정리한 글입니다.
- 빅데이터의 이해
- 빅데이터의 특징
- 빅데이터의 출현 배경
- 빅데이터의 기능과 변화
- 데이터의 가치와 미래
- 빅데이터의 가치
- 빅데이터 활용 기술
- 빅데이터의 위기 요인과 통제 방안
- 가치창조를 위한 데이터 사이언스와 전략 인사이트
- 빅데이터 분석과 전략 인사이트
- 데이터 사이언스에 대한 이해
빅데이터의 이해
빅데이터란 큰 용량과 복잡성으로 기존 애플리케이션이나 툴로는 다루기 어려운 데이터셋의 집합
빅데이터의 특징
3V
Volume
데이터 양의 증가
Variety
데이터 유형 증가
Velocity
데이터 수집 및 처리 속도의 증가
4V
4V는 3V에 추가된 특징이다.
Value
데이터 가치의 중요성
Veracity
예측 분석 결과에 대한 신뢰성의 중요성
밑에 두개는 의견이 갈린다
Visualization
데이터의 시각화
Variability
데이터의 가변성
Validility
데이터의 정확성
Volarility
데이터의 휘발성
빅데이터 출현 배경
- 데이터의 양적 증가
과학기술의 발달로 인한 데이터의 양적 증가 - 산업계의 변화
정보의 축적과 기술이 만나 새로운 가치를 창출할 수 있는 변화의 상태 - 학계의 변화
다양한 분야에서의 데이터 이용으로 필요한 기술 아키텍처 및 통계 도구의 발전 - 관련 기술의 발전
디지털화, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 클라우드 컴퓨팅와 같은 빅데이터와 연관된 기술의 발전
빅데이터의 기능과 변화
빅데이터는 석탄, 철, 원유, 렌즈, 플랫폼과 같은 역할을 한다.
빅데이터로 인한 변화
사전처리 -> 사후처리
표본조사 -> 전수조사
질 -> 양
인과관계 -> 상관관계
데이터 처리, 저장, 분석, 아키텍처, 클라우드 컴퓨팅과 같은 기술 변화
데이터의 양, 유형, 수집 및 처리 기술과 같은 데이터의 변화
데이터 사이언티스트, 데이터 중심 조직과 같은 인재 조직 변화
데이터의 가치와 미래
빅데이터의 가치
빅데이터의 가치는 어떻게 활용할 것인지에 달렸다.
데이터의 활용 방식, 가치 창출 방식, 분석 기술의 발전과 같은 이유로 가치 산정은 어렵다.
빅데이터 활용 기술
-
연관규칙 학습 (Association rule learning)
변인간의 상관 관계를 찾는 방법 -
유형분석 (Classification tree analysis)
새로운 사건이 속할 범주를 찾는 방법 -
유전 알고리즘 (Genetic algorithms)
최적화가 필요한 문제의 해결책의 진화 방법 -
기계학습 (Machine learning)
훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법 -
회귀분석 (Regression analysis)
독립변수를 조작하면서 종속변수가 어떻게 변하는지 보며 관계를 파악하는 방법 -
감정분석 (Sentiment analysis)
특정 주제에 대한 말이나 글의 감정을 분석하는 방법 -
소셜 네트워크 분석 (Social network analysis)
사회 관계망 분석으로 사람 사이의 관계를 분석하는 방법
빅데이터의 위기 요인과 통제 방안
위기 요인
-
사생활 침해
개인의 사생활 침해 및 정보의 오용 위험 -
책임 원칙 훼손
알고리즘으로 인한 피해 발생 위험 -
데이터 오용
데이터 과신 및 잘못된 지표 사용으로 피해 발생 위험
통제 방안
-
사생활 침해의 통제 방안
제공자의 ‘동의’에서 사용자의 ‘책임’으로
개인정보 비식별 기술 (데이터 마스킹, 가명 처리, 총계 처리, 값 삭제, 범주화) -
책임 원칙 훼손의 통제 방안
결과 기반 책임 원칙 고수 -
알고리즘 접근 허용
알고리즘으로 인한 피해 발생 시 알고리즘 접근을 허용하여 피해자 구제
가치창조를 위한 데이터 사이언스와 전략 인사이트
빅데이터 분석과 전략 인사이트
빅데이터에서 중요한 것은 ‘크기’가 아니라 ‘인사이트’이다.
데이터 분석을 많이 사용하는 것이 아닌 전략적으로 사용해야 효과적인 운영이 가능하다.
일차원적 분석에서 시작하여 전략 도출을 위한 가치 기반 분석까지 확장되어야한다.
데이터 사이언스에 대한 이해
데이터 사이언스는 데이터로부터 의미 있는 정보를 추출해내는 학문
데이터 마이닝은 분석에 포커스를 둔다면 데이터 사이언스는 분석뿐 아니라 효과적으로 구현하고 전달하는 과정까지 포괄하는 개념
수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 같은 Analytics,
프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징과 같은 Data Management,
커뮤니케이션, 시각화, 프레젠테이션, 스토리텔링과 같은 비즈니스 분석으로 구성된다.
기술적 능력으로 이루어진 하드 스킬과 분석, 전달, 협력으로 이루어진 소프트 스킬이 합쳐져야한다.
따라서 인문학적 사고 특성도 길러야한다.