ADSP (1) 데이터의 이해
ADSP 관련 글
- ADSP (1) 데이터의 이해
- ADSP (2) 데이터의 가치와 미래
- ADSP (3) 데이터 분석 기회의 이해
- ADSP (4) 분석 마스터플랜
- ADSP (5) R 기초와 데이터 마트
- ADSP (6) 통계 분석 (1)
- ADSP 합격 후기
ADSP를 준비하면서 공부한 내용을 정리한 글입니다.
1과목 1장 데이터 이해에 대한 부분을 정리한 글입니다.
- 데이터의 정의
- 데이터의 유형
- 데이터와 정보
- DIKW 피라미드
- 데이터의 단위
- 데이터베이스 개요
- 데이터베이스의 특징
- 데이터베이스의 활용
- 데이터베이스의 종류
- SQL의 이해
- 데이터베이스 구성요소
데이터의 정의
데이터란?
기술적이고 사실적인 의미의 자료. 객관적 사실
정보는 데이터로 부터 얻은 것으로 가공된 자료
존재적 특성
있는 그대로의 객관적 사실
당위적 특성
데이터는 추론, 예측, 전망, 추정을 위한 근거
데이터의 유형
정성적 데이터 (언어, 문자)
집합으로 표현할 수 없는 기준이 명확하지 않은 데이터
정량적 데이터 (수치, 모형, 기호)
집합으로 표현할 수 있는 기준이 명확한 데이터
정형 데이터 (CSV, 엑셀)
고정된 틀을 가지고 있으며 연산이 가능한 데이터로 관계형 DB에 저장하며 수집과 관리가 용이
비정형 데이터 (소셜 데이터, 댓글, 음성, 영상)
고정된 틀이 존재하지 않고 연산이 불가능
관계형 DB가 아닌 NoSQL DB에 저장
반정형 데이터 (XML, JSON, 센서 데이터)
고정된 형태는 있지만 연산이 불가능
테이블 형태보다는 파일 형태로 저장하여 가공을 거쳐 정형 데이터로 변환 가능
암묵지와 형식지
암묵지
학습과 체험을 통해 개인에게 습득되어 있지만 겉으로 드러나지 않는 상태의 지식
형식지
암묵지를 여러 사람이 공유할 수 있게 형상화된 지식
개인에 내면화된 암묵지가 출화하고 이를 개인의 지식으로 연결화 되는 과정을 거치면 조직의 지식으로 공통화되어 형식지가 된다.
데이터와 정보
DIKW 피라미드
데이터 (Data)
개별 데이터 자체는 의미가 중요하지 않은 객관적 사실
정보 (Information)
데이터의 가공, 처리와 데이터 간 연관 관계 속에서 의미 도출
정보가 내포하는 의미는 유용하지 않을 수 있음
지식 (Knowledge)
데이터를 통해 얻은 정보를 구조화하여 유의미한 정보를 분류하고 경험과 결합해 고유의 지식으로 내재화
지혜 (Wisdom)
지식의 축적과 아이디어가 결합된 창의적 산물
데이터 단위
비트
‘0’과 ‘1’의 두 가지 값으로 신호를 나타내는 최소단위
바이트
8개의 비트로 구성된 데이터의 양을 나타내는 단위
숫자와 영어는 1바이트, 한글은 2바이트
킬로-메가-기가-테라-페타-엑사-제타-요타 (각 단위는 1024배)
데이터베이스 개요
DB
체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있게 정리한 정보의 집합체
DBMS
이용자가 쉽게 데이터베이스를 구축, 유지할 수 있게 하는 관리 소프트웨어
데이터베이스의 특징
통합된 데이터
동일한 내용의 데이터가 중복되어 있지 않다.
저장된 데이터
컴퓨터가 매체에 접근할 수 있는 저장 매체에 저장되어 있다.
공용 데이터
여러 사용자가 공유할 수 있다.
변화하는 데이터
삽입, 수정, 삭제를 통해 항상 현재의 정확한 데이터를 유지해야 한다.
정보의 축적 및 전달 측면
기계의 가독성 대량의 정보를 일정한 형식에 따라 정보처리기기가 읽고 쓸 수 있다.
검색 가능성
다양한 방법으로 필요한 정보를 검색할 수 있다.
원격 조작성 정보통신망을 통해 원거리에서도 즉시 온라인으로 이용 가능하다.
트랜잭션 특성
트랜잭션이란 데이터 베이스에서 명령을 수행하는 하나의 논리적 기능 단위
원자성 데이터베이스에 모두 적용되거나 모두 적용되지 않아야 한다
일관성
트랜잭션의 결과는 항상 일관성을 띠어야 한다
고립성
하나의 트랜잭션이 다른 트랜잭션에 영향을 주지 않아야 한다
지속성
트랜잭션이 성공적으로 수행된 경우 그 결과는 영구적이어야 한다
데이터베이스 활용
기업 내부의 데이터베이스 활용
인하우스 DB, OLTP, OLAP, CRM, SCM, ERP, BI, RTE 등이 있다.
사회 기반 구조 데이터베이스
물류 부문
CALS, PORT-MIS, KROIS
지리부문
GIS, LBS, SIM
교통부문
ITS
의료부문
PACS, U-Health
교육부문
NEIS
데이터베이스의 종류
관계형 데이터베이스
데이터를 테이블에 저장되고 하나의 열은 하나의 속성을 나타내고 같은 속성 값만 가진다. 정형 데이터를 다루는 데 좋다.
Oracle, MySQL, MS-SQL, SQLite
NoSQL
비관계형을 의미하며 대용량의 데이터 분석 및 분산 처리에 용이하다.
MongoDB, Dynamo, Bigtable
SQL의 이해
SQL은 DBMS에서 데이터베이스에 내리는 명령이다.
DB마다 문법이 다르지만 기본적인 데이터 추출과 분석에 사용되는 문법은 거의 동일하다.
데이터 정의 언어 (DDL)
CREATE, ALERT, RENAME, DROP
데이터 조작 언어 (DML)
SELECT, INSERT, UPDATE, DELETE
데이터 제어 언어 (DCL)
GRANT, REVOKE
트랜잭션 제어 언어 (TCL)
COMMIT, SAVEPOINT, ROLLBACK
데이터베이스 구성요소
인스턴스
하나의 객체를 의미 (홍길동, 남자,000-0000-0000)
속성
객체를 표현하기 위해 사용되는 값 (이름, 성별, 주민번호)
엔터티
데이터의 집합, 테이블과 달리 개념적인 존재
메타데이터
데이터를 설명하는 데이터
인덱스
데이터베이스에 저장할 때 지정되는 데이터의 이름