1. 데이터마트
- 데이터 마트란 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스

2. 데이터 전처리
- 데이터 마트에 사용자가 원하는 데이터를 수집하고 변형하여 적재했다면, 전처리 단계를 거쳐야함
- 데이터 전처리에는 데이터 정제 과정(결측, 이상값 처리)과 분석 변수 처리(파생변수, 변수변환, 클래스 불균형) 과정이 포함됨
3. R 패키지
a. reshape: 데이터프레임을 특정 변수 기준으로 나누거나 원하는 구성으로 재구성하는 함수 등을 제공
b. sqldf: sql 문장을 활용해 데이터 프레임을 다루는 것을 가능하게 해주는 패키지
c. plyr: apply 함수 기반으로 데이터를 분리하고 다시 결합하는 필수적인 데이터 처리 기능 제공
- ddply (입,출력이 모두 데이터프레임일 때 사용 가능)
d. data.table
- 데이터 테이블은 데이터프레임과 유사하지만 특정 칼럼별로 주솟값을 주는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조
- 기존 데이터프레임보다 4~100배 가까운 속도로 데이터를 탐색/연산/정렬/병합 가능하게 함
4. 데이터 구조 파악(str 함수)
- str(iris) 입력시, iris 데이터에 대한 데이터 구조 관련 정보가 나타남
5. 결측값
- 존재하지 않는 데이터를 의미하며 NA, null, 공백, -1 등 다양하게 표현됨
- Amelia, DMwR2 패키지로 결측값 처리
6. 결측값 대치 방법
a. 단순 대치법: 결측값이 존재하는 데이터를 삭제 (단점: 결측값이 많은 경우 데이터 손실 발생)
- complete.cases 함수 사용 시, 하나의 열에 결측값이 존재하면 FALSE, 존재하지 않으면 TRUE 반환
b. 평균 대치법: 평균 혹은 중앙값으로 결측값 대치
- 비조건부 평균 대치법: 데이터의 평균값으로 결측값 대치
- 조건부 평균 대치법: 회귀분석 값으로 결측값 대치
- DMwR2 패키지의 central Imputation 함수로 대체
c. 단순 확률 대치법
- KNN: K 최근접 이웃 알고리즘으로, 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법 (K의 선정이 어려움)
d. 다중 대치법
- 여러번의 대치를 통해 n개의 임의 완전자료를 만드는 방법으로, (대치 -> 분석 -> 결합)의 세 단계로 구성됨
7. 이상값
- 다른 데이터와 비교했을 때 극단적으로 크거나 극단적으로 작은 값
- ESD: 평균으로부터 3 표준편차 만큼 떨어진 값을 이상값으로 인식하는 방법 (0.3%)
- 사분위수: Q1 - 1.5 * IQR 혹은 Q3 + 1.5 * IQR 바깥 부분을 이상값으로 간주 (IQR = Q3 - Q1)
'ADsP' 카테고리의 다른 글
| [ADsP] 8. 기초통계 (0) | 2026.02.02 |
|---|---|
| [ADsP] 7. 통계의 이해 (0) | 2026.02.02 |
| [ADsP] 5. R (0) | 2026.01.31 |
| [ADsP] 4. 분석 마스터플랜(2) (1) | 2026.01.31 |