ADsP18 [ADsP] 9. 회귀분석 1. 최적의 회귀 방정식을 도출하기 위한 방법(1) 변수 선택법- 부분집합법: 가능한 모든 모델을 고려하여 가장 좋은 모델을 선정하는 방법 (변수가 적을 때 효과적) (임베디드 = 라쏘, 릿지 등)- 단계적 변수선택법: 일정한 단계를 거치면서 변수를 추가하거나 제거하는 방식으로 최적의 회귀방정식을 도출, 전진선택법, 후진제거법, 단계선택법 등이 있음2. 변수 선택에 사용되는 성능지표(1) 벌점화 방식의 AIC와 BIC- 회귀모형은 변수의 수가 증가할수록 편향은 작아지고 분산은 커진다- 그렇기에 변수의 수가 많아 복잡해진 모형에 벌점, 일종의 페널티를 주어 최적 회귀방정식을 도출하고자하는 방법이다 (2) AIC- 모델의 성능지표로서 MSE에 변수의 수만큼 페널티를 주는 지표- 일반적으로 회귀분석에서 모델 .. 2026. 2. 2. [ADsP] 8. 기초통계 1. t-검정(1) 일 표본 t-검정a. 일 표본 t-검정의 개념- 하나의 모집단의 평균값을 특정값과 비교하는 경우 사용 b. 일 표본 단측 t-검정- ~보다 크다, ~보다 작다 등 한쪽으로의 방향성을 갖는 경우 수행되는 검정 방법 c.일 표본 양측 t-검정- ~이다 혹은 ~이 아니다와 같이 방향성이 없는 경우 수행되는 검정 방법 (2) 이 표본 t- 검정a. 이 표본 t-검정의 개념- 서로 독립적인 두 집단에 대하여 모수(모평균)의 값이 같은 값을 갖는지 통계적으로 검정하는 방법- 등분산성이 만족되어야함 b. 이 표본 단측 t-검정c. 이 표본 양측 t-검정- 두 집단이 같다/다르다 (3) 대응 표본 t-검정a. 대응 표본 t-검정의 개념- 동일한 대상에 대해 두 가지 관측치가 있는 경우 차이가 있는지.. 2026. 2. 2. [ADsP] 7. 통계의 이해 1. 표본추출 방법(1) 단순 랜덤 추출법(2) 계통 추출법- 모집단의 원소에 차례대로 번호를 부여한 뒤 일정한 간격을 두고 데이터를 추출하는 방법 - N개의 모집단에서 K개씩 n개의 구간으로 나눈 뒤, 첫 구간에서 하나를 임의로 선택하고 K개씩 띄어서 표본을 추출 (3) 집락(군집) 추출법- 데이터를 여러 집락으로 구분한 뒤, 단순 랜덤 추출법에 의해 선택된 집락의 데이터를 표본으로 사용- 각 집락은 서로 동질적이며, 집락 내 데이터는 서로 이질적 (4) 층화 추출법- 데이터를 여러 집락으로 구분하지만, 각 집락은 서로 이질적이며, 군집 내 데이터들은 서로 동질적 2. 측정과 척도질적 척도명목척도 성별, 지역순서척도(서열척도)명목척도이면서 서열 관계를 갖는 자료선호도, 학년, 신용도양적 척도구간척도(등.. 2026. 2. 2. [ADsP] 6. 데이터 마트 & 데이터 탐색 1. 데이터마트- 데이터 마트란 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스 2. 데이터 전처리- 데이터 마트에 사용자가 원하는 데이터를 수집하고 변형하여 적재했다면, 전처리 단계를 거쳐야함- 데이터 전처리에는 데이터 정제 과정(결측, 이상값 처리)과 분석 변수 처리(파생변수, 변수변환, 클래스 불균형) 과정이 포함됨 3. R 패키지a. reshape: 데이터프레임을 특정 변수 기준으로 나누거나 원하는 구성으로 재구성하는 함수 등을 제공 b. sqldf: sql 문장을 활용해 데이터 프레임을 다루는 것을 가능하게 해주는 패키지c. plyr: apply 함수 기반으로 데이터를 분리하고 다시 결합하는 필수적인 데이터 처리 .. 2026. 2. 1. [ADsP] 5. R 1. R의 데이터 타입(1) 문자형 타입 - 따옴표 혹은 쌍따옴표로 표시하며, 숫자/문자/논리형 모두 따옴표나 쌍따옴표로 묶을 시 문자형이 됨 (2) 숫자형 타입- numeric(숫자형), double(실수), integer(정수), complex(복소수) 등이 있음 (3) 논리형 타입 (logical)- 참 혹은 거짓 (4) NaN, NA, NULL- Not a number = 숫자가 아님- Not Available = 결측값 (NA는 공간을 차지하는 결측, NULL은 공간을 차지하지 않는 존재하지 않는 값) 2. R 기본 문법(1) 대입 연산자- 오른쪽 값을 왼쪽에 대입 (- 왼쪽 값을 오른쪽에 대입 (->, ->>) (2) 비교 연산자- NA는 비교할 값이 존재하지 않으므로 어떤 것과 비교해도 .. 2026. 1. 31. [ADsP] 4. 분석 마스터플랜(2) 1. 분석 거버넌스 체계 개요- 거버넌스는 '통치'라는 뜻으로 기업에서 의사결정을 위한 데이터의 분석과 활용을 위한 체계적인 관리를 의미- 단순히 데이터를 수집하는 것이 아닌 데이터 관리 체계를 수립하는 것 2. 분석 거버넌스 체계 구성 요소- 조직- 과제 기획 및 운영 프로세스- 분석 관련 시스템- 데이터- 분석 관련 교육 및 마인드 육성 체계 3. 분석 수준 진단 프레임 워크- 최근 들어 데이터를 어떻게 활용하느냐가 기업의 경쟁력을 좌우하는 궁극적 요소가 됨- 분석 준비도와 분석 성숙도를 통해 데이터 분석 수준을 진단 4. 분석 준비도분석 업무 파악- 발생한 사실 분석- 예측 분석- 시뮬레이션/최적화 분석분석 인력 및 조직- 분석전문가 직무 존재- 분석전문가 교육 프로그램- 관리자 기본 분석 능력분석.. 2026. 1. 31. 이전 1 2 3 다음