[ADsP] 6. 데이터 마트 & 데이터 탐색

1. 데이터마트

- 데이터 마트란 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스

2. 데이터 전처리

- 데이터 마트에 사용자가 원하는 데이터를 수집하고 변형하여 적재했다면, 전처리 단계를 거쳐야함

- 데이터 전처리에는 데이터 정제 과정(결측, 이상값 처리)과 분석 변수 처리(파생변수, 변수변환, 클래스 불균형) 과정이 포함됨

3. R 패키지

a. reshape: 데이터프레임을 특정 변수 기준으로 나누거나 원하는 구성으로 재구성하는 함수 등을 제공

b. sqldf: sql 문장을 활용해 데이터 프레임을 다루는 것을 가능하게 해주는 패키지

c. plyr: apply 함수 기반으로 데이터를 분리하고 다시 결합하는 필수적인 데이터 처리 기능 제공

- ddply (입,출력이 모두 데이터프레임일 때 사용 가능)

d. data.table

- 데이터 테이블은 데이터프레임과 유사하지만 특정 칼럼별로 주솟값을 주는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조

- 기존 데이터프레임보다 4~100배 가까운 속도로 데이터를 탐색/연산/정렬/병합 가능하게 함

4. 데이터 구조 파악(str 함수)

- str(iris) 입력시, iris 데이터에 대한 데이터 구조 관련 정보가 나타남

5. 결측값

- 존재하지 않는 데이터를 의미하며 NA, null, 공백, -1 등 다양하게 표현됨

- Amelia, DMwR2 패키지로 결측값 처리

6. 결측값 대치 방법

a. 단순 대치법: 결측값이 존재하는 데이터를 삭제 (단점: 결측값이 많은 경우 데이터 손실 발생)

- complete.cases 함수 사용 시, 하나의 열에 결측값이 존재하면 FALSE, 존재하지 않으면 TRUE 반환

b. 평균 대치법: 평균 혹은 중앙값으로 결측값 대치

- 비조건부 평균 대치법: 데이터의 평균값으로 결측값 대치

- 조건부 평균 대치법: 회귀분석 값으로 결측값 대치

- DMwR2 패키지의 central Imputation 함수로 대체

c. 단순 확률 대치법

- KNN: K 최근접 이웃 알고리즘으로, 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법 (K의 선정이 어려움)

d. 다중 대치법

- 여러번의 대치를 통해 n개의 임의 완전자료를 만드는 방법으로, (대치 -> 분석 -> 결합)의 세 단계로 구성됨

7. 이상값

- 다른 데이터와 비교했을 때 극단적으로 크거나 극단적으로 작은 값

- ESD: 평균으로부터 3 표준편차 만큼 떨어진 값을 이상값으로 인식하는 방법 (0.3%)

- 사분위수: Q1 - 1.5 * IQR 혹은 Q3 + 1.5 * IQR 바깥 부분을 이상값으로 간주 (IQR = Q3 - Q1)

포인트 니모