본문 바로가기

자격증/ADsP 요약 정리

[ADsP 요약 정리] 1. 데이터 이해

I. 데이터 이해

1. 데이터의 이해

1) 데이터

- 존재적 특성: 객관적 사실

- 당위적 특성: 추론, 예측, 전망, 추정을 위한 근거


2) 특징

- 정성적 데이터: 언어, 문자

- 정량적 데이터: 수치, 도형, 기호


3) 지식

- 암묵지: 학습과 경험을 통한 지식(내면화->공통화 필요)

- 형식지: 형식화된 지식(표준화-> 연결화)


2. 데이터와 정보

1) 데이터의 활용 단계

- 데이터: 객관적 사실

- 정보: 연관관계=>의미 도출

- 지식: 정보 구조화&분류+개인적 경험=내재화

- 지혜: 지식의 축적+아이디어=창의적 산물

3. 데이터베이스

1) 정의

- EU: 체계적으로 정리되고 전자식으로 개별접근 가능한 독립된 데이터

- 국내 저작권법: 소재를 체계적으로 구성한 편집물로 개별적으로 접근 가능한 것

- 국내 컴퓨터 용어사전: 동시에 복수 업무 지원이 가능한 데이터의 집합


2) 특징

- 통합된 데이터: 중복 없음

- 저장된 데이터: 저장매체에 저장

- 공용 데이터: 공동 이용

- 변화되는 데이터: 변화하면서도 현재의 정확한 데이터 유지


4. 빅데이터

1) 정의

Mckinsey: 일반적인 DBMS 이용 규모를 초과하는 데이터

IDC: 대규모 데이터로부터 저비용 고가치 추출 가능한 차세대 기술

Doug Laney: 3V(Volume, Variety, Velocity)


2) 빅데이터 정의의 범주 및 효과

- 데이터 변화: 규모, 형태, 속도

- 기술변화: 신데이터 처리, 저장, 분석 기술, 클라우드 컴퓨팅 활용

- 인재, 조직 변화: 데이터 중심 조직으로 변화


3) 빅데이터 활용 기본 테크닉

- 연관 규칙 학습, 유형분석, 유전 알고리즘, 기계학습, 회귀분석, 감정분석, 소셜네트워크 분석


4) 위기요인

- 사생활 침해 -> 동의에서 책임으로

- 책임 원칙 훼손 -> 결과 기반 책임 원칙 고수

- 데이터 오용 -> 알고리즘 접근 허용


5) 빅데이터로 인한 변화

- 사전처리 -> 사후처리

- 표본조사 -> 전수조사

- 데이터의 질 -> 데이터의 양

- 인과관계 -> 상관관계


6) 빅데이터의 미래

- 모든 것의 데이터화, 인공지능, 데이터 사이언티스트, 알고리즈미스트


5. 데이터 사이언스

1) 빅데이터 회의론 원인

- 부정적 학습 효과: 과거의 CRM(고객 관계 관리) -> 공포 마케팅, 투자대비 효과 미흡

- 부정적 성공 사례: 빅데이터가 불필요한 분석사례, 기존 CRM 분석 성과


2) 실패 사례

- 싸이월드 퇴보 원인: OLAP같은 분석인프라 있으나 활용 못함, 웹 로그와 같은 일차원적 분석에 집중, 관련 프레임워크 혹은 평가지표 없음, 전략적 통찰 없음


3) 전략적 통찰이 없는 분석의 함정

- 일차원적 분석의 반복: 해당 부서 업무 영역에는 효과적, 환경|고객 변화 대처의 어려움

- 가치기반 분석 단계: 일차원적 분석 -> 경험 -> 활용범위 확장 -> 사업성과


4) 데이터 사이언스

- 데이터로부터 정보 추출-> 분석 -> 구현 -> 전달

- 영역: 분석 분야, IT 분야, 비즈니스 분야

- 다양한 유형의 데이터(정형, 비정형)를 대상으로 분석

- 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 분야별 전문지식 종합


5) 데이터 사이언티스트

- 역할: 데이터 소스 발견, 대용량 데이터 구조화, 불완전 데이터 연결

- 요구사항: 창의적 사고, 호기심, 논리적 비판을 통한 통찰력, 전달력, 커뮤니케이션 능력


6) 빅데이터와 데이터 사이언스의 미래

- 외부 환경적 측면의 인문학 열풍

세계화: 단순 세계화->복잡한세계화(컨버전스->디버전스)

비즈니스 중심: 제품 생산 위주 -> 서비스(품질->서비스)

경제산업 논리: 생산->시장창조(공급자 중심 기술경쟁->무형자산의 경쟁)

- 가치 패러다임의 변화

1단계 디지털화: 가치 형상화, 표준화(문서의 디지털화)

2단계 연결: 정보의 효율적인 연결 및 제공(인터넷 모바일 기술의 발전)

3단계 에이전시: 필요정보 효과적 제공 및 관리(개인, 기기, 사물 하이퍼 연결)

- 데이터 사이언스의 한계: 분석에서 인간의 개입(가정->해석)