본문 바로가기

자격증/ADsP 요약 정리

[ADsP 요약 정리] 3-1. 데이터 분석

III - 1. 데이터 분석

1. 데이터 분석 기법

1) 데이터 처리

- 데이터 웨어하우스, 데이터마트를 통해 분석 데이터 활용

- 스테이징, 운영데이터저장소(ODS)에 저장된 신규데이터를 DW, DM에 결합


2) 시각화

- 복잡한 분석을 효율적으로 해석(차트, 트리, 다이어그램 맵, 워드 클라우드)

- 탐색적 분석시 필수


3) 공간분석

- 공간적 차원과 관련된 속성의 시각화

- 공간적 차원에 생성한 속성의 크기, 모양, 선굵기 등을 통해 인사이트 도출


4) 탐색적 자료분석(EDA)

- 다양한 차원의 값을 조합해가며 관계 도출, 빅데이터에 활용

- 주제: 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성


5) 통계분석

- 어떠한 현상을 체계기반으로 숫자, 표, 그림 형태로 표현

- 기술통계: 표본의 정보를 정리, 요약 -> 숫자, 그래프 형태로 표현

- 추측통계: 표본통계량 -> 모수(모집단의 특성) 통계적 추론


6) 데이터마이닝

- 대용량의 정보 요약 -> 관계, 패턴, 규칙 탐색 -> 모형화 -> 지식 추출

- 방법론

DB 지식탐색: 데이터웨어하우스에서 데이터마트 생성 -> 속성 사전 분석 -> 지식 추출

기계학습: 컴퓨터 자체 학습 알고리즘(인공신경망, 의사결정나무, 클러스터링, 베이지안분류, SVM 등)

패턴인식: 사전지식 및 패턴 통계정보 추출 -> 자료 및 패턴 분류(장바구니 분석, 연관규칙)


7) 시뮬레이션

- 복잡한 상황 모델링 후 결과 예측 및 변경 활용


8) 최적화

- 목적함수와 제약조건 정의로 목표값 개선

2. R

1) R 기능 기초

- 함수 선언 방법: function(매개변수, 매개변수,...) {}

- setwd("작업디렉토리"): 작업환경 설정

- help(), ?함수, RsiteSearch(): 도움말

- history(), savehistory(file="파일명"), loadhistory(file="파일명"): 히스토리

- Ctrl+L: 콘솔 청소

- Ctrl+R: 한 줄 실행(드래그 하면 여러 줄 실행)

- #: 주석 처리

- install.packages("패키지명"): 패키지 자동 설치(매개변수 "패키지위치" 추가시 수동)

- R CMD BATCH 주소\batch.R: 배치(자동 구동)파일 실행


2) 변수

- 변수명 선언 후 입력된 값을 스스로 인식

- 변수에 값 할당: 대입연산자 활용( <-, <<-, =, ->, ->>)

- a<-1, a=1: 변수 a에 1 할당

- print(변수명), 변수명: 출력

- ls(): 메모리에 불필요 변수 여부 확인(삭제는 rm())


3) 기본 코드

- seq(from=시작점, to=끝지점, by=증가값, length.out=갯수 지정, length=간격): 수열생성

- rep(시작,time=횟수, each=각반복횟수): 반복 /  rep(c(내용), 횟수) : 문자열 반복

- substr("문자열",시작,끝): 해당 문자열 추출


4) 벡터

- c(), V[n]: 벡터 생성

- mean(): 평균

- sum(): 합계

- median(): 중간값

- sd(): 표준편차

- var(): 분산

- cov(): 공분산

- cor(): 상관계수

- split(vec, fac): 집단 분할(벡터, 팩터값 일치 필수)


5) 행렬

- v<-c(v, newItems): 데이터 추가

- f<-foctor(v, levels): 요인 생성

- rownames(mtrx)<-c("rowname1","rowname2"...): 행 이름 설정(colnames로 열 이름)

- apply(mtr, 1, func): 함수 적용


6) 데이터 프레임

- data.frame(v1,v2...): 데이터 프레임 생성

- dfm[[1]], dfm[["name"]], dfm$name 등: 데이터 프레임 내 데이터 선택

- rbind(), cbind(), merge(): 데이터 프레임 결합

- subset(): 데이터 프레임 추출

- split(dfm, fac): 데이터 프레임 내 집단 분할

- apply(dfm,func): 함수 적용(동질인 경우 가능), lapply, sapply

3-1. 데이터마트(데이터 변경 요약)

1) 요약변수

- 수집된 정보를 분석에 맞게 종합하는 변수(데이터마트의 기본 변수)

- 재활용성: 많은 모델이 공통 사용 가능


2) 파생변수

- 특정 함수에 의해 값을 만들어 의미를 부여

- 주관성: 논리적 타당성 필요


3) reshape 패키지

- 2개의 핵심 함수 melt() (//녹임) + cast() (//구조 생성)로 구성


4) sqldf 패키지

- R에서 sql 명령어를 사용가능하게 해주는 패키지


5) plyr패키지

- apply함수를 기반으로 데이터 및 출력변수 동시 치환 처리

- split-apply-combine방식: 분리 -> 처리 -> 결합


6) data.table 패키지

- R에서 가장 많이 사용하는 데이터 핸들링 패키지

- 목적: 대용량 데이터 탐색, 연산, 병합 / 기존 data.frame 방식보다 빠름


3-2. 데이터마트(데이터 가공 및 기초분석)


1) 변수의 구간화

- 변수들을 구간화해서 점수를 적용하는 방식

- binning: 연속형 변수->범주형 변수 변환 // 50개 이하 구간에서 점차 구간 축소

- 의사결정나무: 연속형 변수-> 범주형 변수 변환 // 모형 활용


2) 결측값

- 변수에 데이터가 비어있는 경우: Null, NA, ., 999999, Unknown, Not Answer등

- 단순 대치법: completes analysis(결측값 레코드 삭제)

평균 대치법: 실험 데이터의 평균으로 대치

조건부 평균 대치법: 회귀분석을 통해 대치

*단순확률 대치법: 평균대치법 발전형(Hot-deck, nearest Neighbor)

- 다중 대치법: 단순 대치법 m번 실시->m개의 가상 자료를 만들어 대치


3) 이상값

- bad data: 오입력, 비적합 값 -> 삭제

- 이상값: 의도 외의 입력, 의도된 극단값-> 처리해서 활용

- 이상값 인식 오차: 평균~3표준편차 / 기하평균~2.5표준편차 / 1,3사분위 값~2.5배

- 이상값 처리: 절단(레코드 삭제), 조정(상하한 조정)


4. 통계분석

1) 통계

- 특정 집단 대상 조사 결과에 대한 요약된 형태의 표현

- 총조사: 대상 집단 모두 조사(큰 비용 및 시간 소모)

- 표본조사: 표본을 추출해서 조사

모집단: 조사 대상 집단 전체

원소: 모집단 구성 개체

표본: 모집단의 일부 원소

모수: 모집단을 나타내기 위한 정보값

- 표본 추출: 모집단을 대표할 수 있는 표본 추출

단순랜덤추출: 임의 추출

계통추출: 구간 구분 후 임의 인덱스 위치 추출

집락추출: 군집별 단순랜덤 추출

층화추출: 유사한 원소끼리 층을 나누어서 랜덤 추출

- 측정

명목척도: 집단 분류

순서척도: 서열관계 측정

구간척도: 속성의 양 측정

비율척도: 간격에 대한 비율에서 의미 도출


2) 통계분석

- 통계적추론: 수집자료 기반으로 모집단에 대한 의사 결정

모수추정: 모집단의 특성(평균, 분산 등)을 분석

가설검정: 특정 가설 설정 후 채택 여부 결정

예측: 미래의 불확실성 해결

- 기술통계: 주관 배제 후 객관성 확보(평균, 표준편차, 중위수, 최빈값, 그래프의 표현)


3) 확률 및 확률 분포

- 확률 변수: 특정값이 나타날 가능성

표본공간: 실험 결과물의 집합

사건: 관찰자가 관심있는 사건(표본공간의 부분집합)

원소: 나타날 수 있는 모든 결과

- 이산형 확률변수: 확률값을 셀 수 있는 경우(0제외)

베르누이분포, 이항분포, 기하분포, 다항분포, 포아송분포

- 연속형 확률변수:  확률값이 특정 구간 전체에 해당

균일분포, 정규분포, 지수분포, t분포, F분포, x제곱 분포


4) 추정 및 가설검정

- 추정: 표본으로부터 미지의 모수 추측

- 점추정: 표본 평균, 중위수, 최빈값 등을 사용해서 모수의 값 추정

- 점추정 조건: 불편성, 효율성, 일치성, 충족성

- 구간추정: 점추정의 정확성을 보완하기 위해 모수의 특정 구간 추정(신뢰수준 필수)

- 모분산이 알려진 경우 표준정규분포 사용, 그렇지 않으면 모분산 대신 표본분산 사용(t분포)

- 가설검정: 가설 설정 후 표본 관찰을 통해 가설 채택여부 결정

- 귀무가설: 비교대상값과 동일함을 전제하는 가설

- 대립가설: 정확한 증거를 전제하는 가설

1종오류: 옳은 귀무가설 기각

2종오류: 틀린 귀무가설 채택

오류해결: 1종 오류의 크기를 고정하고 2종오류의 최소 기각역 설정


5) 비모수 검정

- 모수적 검정: 특정 가정 하에 검정통계량 및 분포를 유도해 검정

- 비모수 검정: 모집단의 분포에 대한 제약 없이 검정(가정이 불가능할 경우 사용)

관측값의 순위나 차이의 부호 등을 이용해서 검정

- 순위 or 두 관측값 차이를 부호 이용 검정

- 비모수 검정의 예시: 부호검정, 윌콕슨의 순위합검정; 부호순위합검정, 만-위트니의 U검정, 런검정, 스피어만의 순위상관계수


5. 기초 통계 분석

1) 기술 통계

-자료의 특성을 표, 그림, 통계량 등을 사용해서 정리요약하는 기초적 통계


2) 통계량에 의한 자료분석

- 중심위치: 평균, 중앙값, 최빈값

- 산포의 척도: 분산, 표준편차, 범위, 사분위수범위, 변동계수, 표준오차

- 분포의 형태: 왜도, 첨도


3) 그래프를 통한 자료 분석

- 범주형자료: 막대그래프와 파이차트 등

- 연속형자료: 히스토그램, 줄기-잎 그림, 상자그림 등

- 시계열자료: 꺾은 선 그래프


4) 연관성 분석

- 종속변수: 다른변수의 영향을 받는 변수

- 독립변수: 영향을 주는 변수

- 산점도: 좌표평면 위에 점으로 표현

- 산점도에서 확인사항: 선형관계, 함수관계 성립 여부, 이상값 존재여부, 집단의 수

- 공분산: 두 확률변수 간의 방향성을 확인


5) 상관 분석

- 정의: 두 변수간의 관계를 알아보는 분석방법(상관계수 이용)

- 상관계수는 -1~1사이 값(0이면 무관한 상태)

- 피어스 상관계수: 등간척도 이상으로 측정된 두 변수의 상관관계(연속형 변수, 정규성 가정)

- 스피어만 순서상관계수: 순서 or 서열척도인 두 변수의 상관관계(순서형 변수, 비모수)


6. 회귀 분석

1) 정의

- 독립변수가 종속변수에 미치는 영향 추정이 가능한 통계기법

- 단순선형회귀분석: 독립변수가 하나인 경우

- 다중선형회귀분석: 독립변수가 둘 이상인 경우


2) 선형 회귀 분석

-선형회귀분석의 가정

선형성: 입력변수와 출력변수의 관계

등분산성: 오차의 분산이 입력변수와 무관하게 일정

독립성: 독립변인과 잔차는 관련 없음

비상관성: 오차들간 상관없음

정상성: 오차의 분포가 정규분포를 따름

- F검정: 회귀식(모형) 검증

- t검정: 회귀계수들의 의미 검증

- 모형의 설명력: 결정계수로 확인

- 모형의 적합성: 잔차와 종속변수의 산점도로 확인


3) 다중 선형 회귀 분석

- 다중공선성: 다중회귀 분석에서 설명변수들간 선형관계 존재시 정확한 회귀계수 추정 불가

- 다중 공선성 검사법

분산팽창요인(VIF): 10 이상 심각한 문제

상태지수: 10 이상은 문제, 30이상은 심각한 문제

- 해결: 선형관계가 강한 변수 제거, 주성분 회귀, 능형회귀로 활용


4) 변수선택법

-가능한 모든 독립변수들의 조합에 대한 회귀모형 분석 후 적합한 모형 선택

-전진선택법: 절편만 있는 상수모형으로 시작, 중요한 설명변수부터 차례로 모형에 추가

*이해가 쉽고 많은 변수에서 활용 가능하지만 안정성 부족(작은 변동에도 결과가 달라짐)

*변수 추가시 기존 변수들의 중요도에 영향을 줌

-후진소거법: 독립변수를 모두 포함 후 가장 적은 영향을 주는 변수부터 하나씩 제거

*전체 변수들의 정보 이용 가능, 변수가 많은 경우 활용이 어려움, 안정성 부족

-단계별 방법: 전진선택법에 의해 변수 추가, 중요도 약화시 삭제


7. 시계열 분석

1) 시계열 자료

- 시간의 흐름에 따라 관찰된 값들

- 분석목적: 미래의 값 예측, 시계열 데이터의 특성 파악(경향, 주기, 계절성, 불규칙성)

- 분석방법: 회귀분석방법, Box-Jenkins방법, 지수평활법, 시계열 분해법 등


2) 정상성

- 일정한 평균: 모든 시점에 대해 일정한 평균을 가짐

평균이 일정하지 않은 시계열 -> 차분(현시점 자료에서 전 시점 자료 제거)으로 정상화

- 일정하지 않은 평균, 분산도 시점에 미의존: 변환을 통해 정상화

- 공분산도 특정 시점에서 t, s 미의존 상태로 일정함


3) 정상시계열의 특징

- 자기공분산 측정시 동일한 값(어떤 시점에서 평균과 분산, 시차의 길이를 갖는 자기공분산)

- 평균값 회귀 경향(평균값 주변에서 일정한 폭을 유지한 변동)

- 비정상시계열은 다른 시기로 일반화 불가


4) 시계열 모형

- 자기회귀 모형(AR 모형)

자기상관함수(ACF)는 빠르게 감소하고 부분자기함수(PACF)는 절단점이  존재

- 이동평균 모형(MA모형)

자기상관함수(ACF)는 절단점이 존재하고 부분자기함수(PACF)는 빠르게 감소

- 자기회귀누적이동평균 모형(ARIMA(p,d,q)

비정상 시계열 모형으로 차분, 변환을 통해 AR, MA, ARMA 모형으로 정상화


5) 분해 시계열

- 일반적인 요인을 시계열에서 분리해서 분석하는 방법(주로 회귀분석 사용)

- 추세요인: 자료 그림의 형태 오르내림 추세, 선형, 이차식 형태, 지수적 형태

- 계절요인: 요일반복, 월 변화, 분기 변화, 주기 변화

- 순환요인: 명백한 이유 없이 주기변환하는 자료

- 불규칙요인: 위 세가지 요인으로 설명 불가한 오차 요인


8. MDS/PCA

1) 다차원 척도법(MDS)

- 객체간 근접성을 시각화하는 통계기법

- 개체들의 변수 측정 후 유사성/비유사성 측정, 2~3차원 공간에 점으로 표현

- 개체간 거리계산은 유클리드 거리행렬 활용(루트 각값의차제곱++)

- 계량적 MDS:  데이터가 구간척도, 비율척도인 경우 활용

N개의 케이스에 대해 p개의 특성변수 존재시 거리를 계산한 비유사성 S를 공간상에 표현

- 비계량적 MDS:  데이터가 순서척도인 경우 활용

순서척도를 거리의 속성과 같도록 변환하여 거리를 생성해서 적용

- (s-)stress와 정합도 수준 M: 부적합도 기준으로 사용, 부적합도 최소화 목적 반복 수행


2) 주성분 분석(PCA)

- 상관관계 내 변수를 결합 상관관계 없는 변수로 분산 극대화, 선형결합으로 변수축약

- 요인 분석: 요인 추출을 위한 방법의 집합(주성분 분석은 원소) / 데이터 축소에 활용

- 주성분 분석: 보통 2개의 변수 생성(중요도에 따라 제1,2성분으로 분류), 목표 변수 고려


3) 주성분 분석 활용

- 주성분(상관성 높은 변수들)의 선형결합으로 고상관성 변수들을 요약

- 목적

주성분차원으로 변수 축소로 이해 및 관리 용이

다중공선성 존재시 상관도 낮은 변수 축소로 모형개발에 활용

고연관성 변수의 주성분 분석으로 군집화, 연산속도 개선

기계 센서데이터를 주성분분석으로 차원 축소 후 시계열 분석으로 고장징후 포착