III - 1. 데이터 분석
1. 데이터 분석 기법
1) 데이터 처리
- 데이터 웨어하우스, 데이터마트를 통해 분석 데이터 활용
- 스테이징, 운영데이터저장소(ODS)에 저장된 신규데이터를 DW, DM에 결합
2) 시각화
- 복잡한 분석을 효율적으로 해석(차트, 트리, 다이어그램 맵, 워드 클라우드)
- 탐색적 분석시 필수
3) 공간분석
- 공간적 차원과 관련된 속성의 시각화
- 공간적 차원에 생성한 속성의 크기, 모양, 선굵기 등을 통해 인사이트 도출
4) 탐색적 자료분석(EDA)
- 다양한 차원의 값을 조합해가며 관계 도출, 빅데이터에 활용
- 주제: 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
5) 통계분석
- 어떠한 현상을 체계기반으로 숫자, 표, 그림 형태로 표현
- 기술통계: 표본의 정보를 정리, 요약 -> 숫자, 그래프 형태로 표현
- 추측통계: 표본통계량 -> 모수(모집단의 특성) 통계적 추론
6) 데이터마이닝
- 대용량의 정보 요약 -> 관계, 패턴, 규칙 탐색 -> 모형화 -> 지식 추출
- 방법론
DB 지식탐색: 데이터웨어하우스에서 데이터마트 생성 -> 속성 사전 분석 -> 지식 추출
기계학습: 컴퓨터 자체 학습 알고리즘(인공신경망, 의사결정나무, 클러스터링, 베이지안분류, SVM 등)
패턴인식: 사전지식 및 패턴 통계정보 추출 -> 자료 및 패턴 분류(장바구니 분석, 연관규칙)
7) 시뮬레이션
- 복잡한 상황 모델링 후 결과 예측 및 변경 활용
8) 최적화
- 목적함수와 제약조건 정의로 목표값 개선
2. R
1) R 기능 기초
- 함수 선언 방법: function(매개변수, 매개변수,...) {}
- setwd("작업디렉토리"): 작업환경 설정
- help(), ?함수, RsiteSearch(): 도움말
- history(), savehistory(file="파일명"), loadhistory(file="파일명"): 히스토리
- Ctrl+L: 콘솔 청소
- Ctrl+R: 한 줄 실행(드래그 하면 여러 줄 실행)
- #: 주석 처리
- install.packages("패키지명"): 패키지 자동 설치(매개변수 "패키지위치" 추가시 수동)
- R CMD BATCH 주소\batch.R: 배치(자동 구동)파일 실행
2) 변수
- 변수명 선언 후 입력된 값을 스스로 인식
- 변수에 값 할당: 대입연산자 활용( <-, <<-, =, ->, ->>)
- a<-1, a=1: 변수 a에 1 할당
- print(변수명), 변수명: 출력
- ls(): 메모리에 불필요 변수 여부 확인(삭제는 rm())
3) 기본 코드
- seq(from=시작점, to=끝지점, by=증가값, length.out=갯수 지정, length=간격): 수열생성
- rep(시작,time=횟수, each=각반복횟수): 반복 / rep(c(내용), 횟수) : 문자열 반복
- substr("문자열",시작,끝): 해당 문자열 추출
4) 벡터
- c(), V[n]: 벡터 생성
- mean(): 평균
- sum(): 합계
- median(): 중간값
- sd(): 표준편차
- var(): 분산
- cov(): 공분산
- cor(): 상관계수
- split(vec, fac): 집단 분할(벡터, 팩터값 일치 필수)
5) 행렬
- v<-c(v, newItems): 데이터 추가
- f<-foctor(v, levels): 요인 생성
- rownames(mtrx)<-c("rowname1","rowname2"...): 행 이름 설정(colnames로 열 이름)
- apply(mtr, 1, func): 함수 적용
6) 데이터 프레임
- data.frame(v1,v2...): 데이터 프레임 생성
- dfm[[1]], dfm[["name"]], dfm$name 등: 데이터 프레임 내 데이터 선택
- rbind(), cbind(), merge(): 데이터 프레임 결합
- subset(): 데이터 프레임 추출
- split(dfm, fac): 데이터 프레임 내 집단 분할
- apply(dfm,func): 함수 적용(동질인 경우 가능), lapply, sapply
3-1. 데이터마트(데이터 변경 요약)
1) 요약변수
- 수집된 정보를 분석에 맞게 종합하는 변수(데이터마트의 기본 변수)
- 재활용성: 많은 모델이 공통 사용 가능
2) 파생변수
- 특정 함수에 의해 값을 만들어 의미를 부여
- 주관성: 논리적 타당성 필요
3) reshape 패키지
- 2개의 핵심 함수 melt() (//녹임) + cast() (//구조 생성)로 구성
4) sqldf 패키지
- R에서 sql 명령어를 사용가능하게 해주는 패키지
5) plyr패키지
- apply함수를 기반으로 데이터 및 출력변수 동시 치환 처리
- split-apply-combine방식: 분리 -> 처리 -> 결합
6) data.table 패키지
- R에서 가장 많이 사용하는 데이터 핸들링 패키지
- 목적: 대용량 데이터 탐색, 연산, 병합 / 기존 data.frame 방식보다 빠름
3-2. 데이터마트(데이터 가공 및 기초분석)
1) 변수의 구간화
- 변수들을 구간화해서 점수를 적용하는 방식
- binning: 연속형 변수->범주형 변수 변환 // 50개 이하 구간에서 점차 구간 축소
- 의사결정나무: 연속형 변수-> 범주형 변수 변환 // 모형 활용
2) 결측값
- 변수에 데이터가 비어있는 경우: Null, NA, ., 999999, Unknown, Not Answer등
- 단순 대치법: completes analysis(결측값 레코드 삭제)
평균 대치법: 실험 데이터의 평균으로 대치
조건부 평균 대치법: 회귀분석을 통해 대치
*단순확률 대치법: 평균대치법 발전형(Hot-deck, nearest Neighbor)
- 다중 대치법: 단순 대치법 m번 실시->m개의 가상 자료를 만들어 대치
3) 이상값
- bad data: 오입력, 비적합 값 -> 삭제
- 이상값: 의도 외의 입력, 의도된 극단값-> 처리해서 활용
- 이상값 인식 오차: 평균~3표준편차 / 기하평균~2.5표준편차 / 1,3사분위 값~2.5배
- 이상값 처리: 절단(레코드 삭제), 조정(상하한 조정)
4. 통계분석
1) 통계
- 특정 집단 대상 조사 결과에 대한 요약된 형태의 표현
- 총조사: 대상 집단 모두 조사(큰 비용 및 시간 소모)
- 표본조사: 표본을 추출해서 조사
모집단: 조사 대상 집단 전체
원소: 모집단 구성 개체
표본: 모집단의 일부 원소
모수: 모집단을 나타내기 위한 정보값
- 표본 추출: 모집단을 대표할 수 있는 표본 추출
단순랜덤추출: 임의 추출
계통추출: 구간 구분 후 임의 인덱스 위치 추출
집락추출: 군집별 단순랜덤 추출
층화추출: 유사한 원소끼리 층을 나누어서 랜덤 추출
- 측정
명목척도: 집단 분류
순서척도: 서열관계 측정
구간척도: 속성의 양 측정
비율척도: 간격에 대한 비율에서 의미 도출
2) 통계분석
- 통계적추론: 수집자료 기반으로 모집단에 대한 의사 결정
모수추정: 모집단의 특성(평균, 분산 등)을 분석
가설검정: 특정 가설 설정 후 채택 여부 결정
예측: 미래의 불확실성 해결
- 기술통계: 주관 배제 후 객관성 확보(평균, 표준편차, 중위수, 최빈값, 그래프의 표현)
3) 확률 및 확률 분포
- 확률 변수: 특정값이 나타날 가능성
표본공간: 실험 결과물의 집합
사건: 관찰자가 관심있는 사건(표본공간의 부분집합)
원소: 나타날 수 있는 모든 결과
- 이산형 확률변수: 확률값을 셀 수 있는 경우(0제외)
베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포
- 연속형 확률변수: 확률값이 특정 구간 전체에 해당
균일분포, 정규분포, 지수분포, t분포, F분포, x제곱 분포
4) 추정 및 가설검정
- 추정: 표본으로부터 미지의 모수 추측
- 점추정: 표본 평균, 중위수, 최빈값 등을 사용해서 모수의 값 추정
- 점추정 조건: 불편성, 효율성, 일치성, 충족성
- 구간추정: 점추정의 정확성을 보완하기 위해 모수의 특정 구간 추정(신뢰수준 필수)
- 모분산이 알려진 경우 표준정규분포 사용, 그렇지 않으면 모분산 대신 표본분산 사용(t분포)
- 가설검정: 가설 설정 후 표본 관찰을 통해 가설 채택여부 결정
- 귀무가설: 비교대상값과 동일함을 전제하는 가설
- 대립가설: 정확한 증거를 전제하는 가설
1종오류: 옳은 귀무가설 기각
2종오류: 틀린 귀무가설 채택
오류해결: 1종 오류의 크기를 고정하고 2종오류의 최소 기각역 설정
5) 비모수 검정
- 모수적 검정: 특정 가정 하에 검정통계량 및 분포를 유도해 검정
- 비모수 검정: 모집단의 분포에 대한 제약 없이 검정(가정이 불가능할 경우 사용)
관측값의 순위나 차이의 부호 등을 이용해서 검정
- 순위 or 두 관측값 차이를 부호 이용 검정
- 비모수 검정의 예시: 부호검정, 윌콕슨의 순위합검정; 부호순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위상관계수
5. 기초 통계 분석
1) 기술 통계
-자료의 특성을 표, 그림, 통계량 등을 사용해서 정리요약하는 기초적 통계
2) 통계량에 의한 자료분석
- 중심위치: 평균, 중앙값, 최빈값
- 산포의 척도: 분산, 표준편차, 범위, 사분위수범위, 변동계수, 표준오차
- 분포의 형태: 왜도, 첨도
3) 그래프를 통한 자료 분석
- 범주형자료: 막대그래프와 파이차트 등
- 연속형자료: 히스토그램, 줄기-잎 그림, 상자그림 등
- 시계열자료: 꺾은 선 그래프
4) 연관성 분석
- 종속변수: 다른변수의 영향을 받는 변수
- 독립변수: 영향을 주는 변수
- 산점도: 좌표평면 위에 점으로 표현
- 산점도에서 확인사항: 선형관계, 함수관계 성립 여부, 이상값 존재여부, 집단의 수
- 공분산: 두 확률변수 간의 방향성을 확인
5) 상관 분석
- 정의: 두 변수간의 관계를 알아보는 분석방법(상관계수 이용)
- 상관계수는 -1~1사이 값(0이면 무관한 상태)
- 피어스 상관계수: 등간척도 이상으로 측정된 두 변수의 상관관계(연속형 변수, 정규성 가정)
- 스피어만 순서상관계수: 순서 or 서열척도인 두 변수의 상관관계(순서형 변수, 비모수)
6. 회귀 분석
1) 정의
- 독립변수가 종속변수에 미치는 영향 추정이 가능한 통계기법
- 단순선형회귀분석: 독립변수가 하나인 경우
- 다중선형회귀분석: 독립변수가 둘 이상인 경우
2) 선형 회귀 분석
-선형회귀분석의 가정
선형성: 입력변수와 출력변수의 관계
등분산성: 오차의 분산이 입력변수와 무관하게 일정
독립성: 독립변인과 잔차는 관련 없음
비상관성: 오차들간 상관없음
정상성: 오차의 분포가 정규분포를 따름
- F검정: 회귀식(모형) 검증
- t검정: 회귀계수들의 의미 검증
- 모형의 설명력: 결정계수로 확인
- 모형의 적합성: 잔차와 종속변수의 산점도로 확인
3) 다중 선형 회귀 분석
- 다중공선성: 다중회귀 분석에서 설명변수들간 선형관계 존재시 정확한 회귀계수 추정 불가
- 다중 공선성 검사법
분산팽창요인(VIF): 10 이상 심각한 문제
상태지수: 10 이상은 문제, 30이상은 심각한 문제
- 해결: 선형관계가 강한 변수 제거, 주성분 회귀, 능형회귀로 활용
4) 변수선택법
-가능한 모든 독립변수들의 조합에 대한 회귀모형 분석 후 적합한 모형 선택
-전진선택법: 절편만 있는 상수모형으로 시작, 중요한 설명변수부터 차례로 모형에 추가
*이해가 쉽고 많은 변수에서 활용 가능하지만 안정성 부족(작은 변동에도 결과가 달라짐)
*변수 추가시 기존 변수들의 중요도에 영향을 줌
-후진소거법: 독립변수를 모두 포함 후 가장 적은 영향을 주는 변수부터 하나씩 제거
*전체 변수들의 정보 이용 가능, 변수가 많은 경우 활용이 어려움, 안정성 부족
-단계별 방법: 전진선택법에 의해 변수 추가, 중요도 약화시 삭제
7. 시계열 분석
1) 시계열 자료
- 시간의 흐름에 따라 관찰된 값들
- 분석목적: 미래의 값 예측, 시계열 데이터의 특성 파악(경향, 주기, 계절성, 불규칙성)
- 분석방법: 회귀분석방법, Box-Jenkins방법, 지수평활법, 시계열 분해법 등
2) 정상성
- 일정한 평균: 모든 시점에 대해 일정한 평균을 가짐
평균이 일정하지 않은 시계열 -> 차분(현시점 자료에서 전 시점 자료 제거)으로 정상화
- 일정하지 않은 평균, 분산도 시점에 미의존: 변환을 통해 정상화
- 공분산도 특정 시점에서 t, s 미의존 상태로 일정함
3) 정상시계열의 특징
- 자기공분산 측정시 동일한 값(어떤 시점에서 평균과 분산, 시차의 길이를 갖는 자기공분산)
- 평균값 회귀 경향(평균값 주변에서 일정한 폭을 유지한 변동)
- 비정상시계열은 다른 시기로 일반화 불가
4) 시계열 모형
- 자기회귀 모형(AR 모형)
자기상관함수(ACF)는 빠르게 감소하고 부분자기함수(PACF)는 절단점이 존재
- 이동평균 모형(MA모형)
자기상관함수(ACF)는 절단점이 존재하고 부분자기함수(PACF)는 빠르게 감소
- 자기회귀누적이동평균 모형(ARIMA(p,d,q)
비정상 시계열 모형으로 차분, 변환을 통해 AR, MA, ARMA 모형으로 정상화
5) 분해 시계열
- 일반적인 요인을 시계열에서 분리해서 분석하는 방법(주로 회귀분석 사용)
- 추세요인: 자료 그림의 형태 오르내림 추세, 선형, 이차식 형태, 지수적 형태
- 계절요인: 요일반복, 월 변화, 분기 변화, 주기 변화
- 순환요인: 명백한 이유 없이 주기변환하는 자료
- 불규칙요인: 위 세가지 요인으로 설명 불가한 오차 요인
8. MDS/PCA
1) 다차원 척도법(MDS)
- 객체간 근접성을 시각화하는 통계기법
- 개체들의 변수 측정 후 유사성/비유사성 측정, 2~3차원 공간에 점으로 표현
- 개체간 거리계산은 유클리드 거리행렬 활용(루트 각값의차제곱++)
- 계량적 MDS: 데이터가 구간척도, 비율척도인 경우 활용
N개의 케이스에 대해 p개의 특성변수 존재시 거리를 계산한 비유사성 S를 공간상에 표현
- 비계량적 MDS: 데이터가 순서척도인 경우 활용
순서척도를 거리의 속성과 같도록 변환하여 거리를 생성해서 적용
- (s-)stress와 정합도 수준 M: 부적합도 기준으로 사용, 부적합도 최소화 목적 반복 수행
2) 주성분 분석(PCA)
- 상관관계 내 변수를 결합 상관관계 없는 변수로 분산 극대화, 선형결합으로 변수축약
- 요인 분석: 요인 추출을 위한 방법의 집합(주성분 분석은 원소) / 데이터 축소에 활용
- 주성분 분석: 보통 2개의 변수 생성(중요도에 따라 제1,2성분으로 분류), 목표 변수 고려
3) 주성분 분석 활용
- 주성분(상관성 높은 변수들)의 선형결합으로 고상관성 변수들을 요약
- 목적
주성분차원으로 변수 축소로 이해 및 관리 용이
다중공선성 존재시 상관도 낮은 변수 축소로 모형개발에 활용
고연관성 변수의 주성분 분석으로 군집화, 연산속도 개선
기계 센서데이터를 주성분분석으로 차원 축소 후 시계열 분석으로 고장징후 포착
'자격증 > ADsP 요약 정리' 카테고리의 다른 글
[ADsP 요약 정리] 3-2. 데이터 마이닝 (0) | 2019.02.10 |
---|---|
[ADsP 요약 정리] 2. 데이터 분석 기획 (0) | 2019.02.10 |
[ADsP 요약 정리] 1. 데이터 이해 (0) | 2019.02.10 |