본문 바로가기

통계학10

[통계학] 10장 - 이항공식 1. 성공과 실패의 연속(1) 이항계수● 동전을 네 번 던질 때 앞면이 한 번 나올 확률은 얼마인가?● 주사위를 열 번 던질 때 1이 세 번 나올 확률은 얼마인가?● 한 장의 붉은 카드와 아홉 장의 푸른 카드가 든 상자가 있다. 무작위로 다섯 번 복원추출할 때 붉은 카드를 두 장 뽑을 확률은? 이항공식(binomial formula)을 이용하면 위와 같은 질문에 답할 수 있다.위의 질문 중 상자로부터 카드를 추출하는 경우를 살펴보자. 상자로부터 다섯 번 복원추출할 때 정확히 두 번 붉은 카드를 뽑으려면 세 번은 푸른 카드를 뽑아야 한다. 예를 들어 처음 두 번은 붉은 카드를 뽑고, 그 다음에 세 번 연속 푸른 카드를 뽑는 것이다.(RRBBB) 하지만 BRBBR과 같이 순서가 달라지는 다양한 경우가 존재한.. 2025. 3. 15.
[통계학] 9장 - 확률이란 무엇인가 1. 가능성, 확률(1) 가능성확률을 보는 관점은 크게 도수이론(frequency theory)과 주관적 견해(subjective view)로 양분된다.  도수이론은 "어떤 시행 또는 실험을 반복적으로 실시하면, 하나의 사건이 일어나는 상대도수는 반복횟수가 무한히 증가함에 따라 하나의 상수에 수렴하게 된다"는 이론이다. 이는 하나의 시행을 동일한 조건하에서 독립적으로 무한히 반복할 수 있을 때 잘 적용된다. (ex. 동전던지기) 도수이론 말고 다른 견해가 필요한 이유는 많은 경우 반복시행이 원천적으로 불가능하기 때문이다. 즉, 상대도수 자체가 정의될 수 없다. 예를 들어 '그녀가 나를 사랑하고 있을 가능성', '내가 이번 기말고사에서 1등을 차지할 확률'과 같은 질문에선 반복시행을 정의하기 어려워 도수이.. 2025. 2. 4.
[통계학] 8장 - 회귀직선 1. 기울기와 절편(1) 기울기 하나의 직선은 기울기와 절편으로 표현된다. 절편은 x가 0일 때 y값을 의미하고 기울기는 x가 1단위 증가할 때 y가 증가하는 정도를 의미한다.  해당 그림은 만 30-40세의 도시 남성 198명을 대상으로 조사한 교육과 월소득의 관계이다. 교육년수의 평균은 12.5년, 표준편차(SDx)는 2년이다. 소득은 평균이 163만원, 표준편차(SDy)는 77만원이다. 교육년수와 소득간의 상관계수(r)는 0.33이다. 이때 회귀직선은 교육수준별로 평균소득의 추정치를 하나의 직선으로 근사시킨다. 직선은 우상향하기에 교육을 많이 받을수록 소득이 높아지는 경향이 있다. 교육이 1SDx만큼 증가할 때 소득은 r * SDy만큼 증가한다. 즉, 교육을 1SDx = 2년 더 받으면 소득은 0... 2024. 12. 14.
[통계학] 데이터 사이언스 인터뷰를 위해 필수적으로 알아둬야 할 통계적 개념 https://www.linkedin.com/posts/taemo_%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4-%EC%9D%B8%ED%84%B0%EB%B7%B0%EB%A5%BC-%EC%9C%84%ED%95%B4-%ED%95%84%EC%88%98%EC%A0%81%EC%9C%BC%EB%A1%9C-%EC%95%8C%EC%95%84%EB%91%AC%EC%95%BC-%ED%95%A0-%ED%86%B5%EA%B3%84%EC%A0%81-%EA%B0%9C%EB%85%90-%EC%82%AC%EC%8B%A4-activity-7262104185448349697-w7Ue?utm_source=share&utm_medium=member_desktop Link.. 2024. 12. 11.
[통계학] 7장 - 회귀분석의 오차 1. 실제값과 추정치의 차이(1) 제곱근-평균-제곱 오차(RMSE)회귀분석은 x로부터 y를 예측하는 데 쓰인다. 하지만 실제값과 예측치 사이에는 차이가 나기 마련이다. 그 차이를 나타내는 방법 중 하나가 바로 제곱근-평균-제곱 오차(root-mean-square error : RMSE)다. RMSE는 표준편차를 구하는 것과 작동 방식이 같다. 그래서 회귀직선의 RMSE는 추정의 표준오차 혹은 회귀의 표준오차라고도 한다.  2007년 국민건강 영양조사의 만 10-90세의 한국인 남성 1,503명의 자료를 살펴보자.펑균키 = 167.08cm키의 표준편차(SDx) = 8.81cm평균몸무게 = 65.48kg몸무게의 표준편차(SDy) = 12.08kg키와 몸무게의 상관계수 = 0.69  해당 자료의 회귀분석 과정.. 2024. 12. 7.
[통계학] 6장 - 회귀분석 1. 변수간의 관계회귀분석(regression analysis)은 하나의 변수와 다른 여러 변수간의 관계를 밝히기 위한 통계적 기법이다. 회귀분석은 대표적으로 두가지로 나뉜다. ● 단순회귀분석(simple regression analysis) : 하나의 변수와 다른 또 하나 변수간의 관계를 분석하는 방법● 다중회귀분석(multiple regression analysis) : 하나의 변수와 둘 또는 그 이상 변수간의 관계를 분석하는 방법 우선 단순회귀분석을 먼저 봤을 때, 다음은 2007년 국민건강영양조사 중에서 만 10세 - 90세의 한국인 남성 4,514명을 대상으로 키와 몸무게의 자료를 요약한 것이다. 평균키 = 167.5cm 키의 표준편차 = 8.5cm 평균몸무게 = 63.5kg몸무게의 표준편차 .. 2024. 12. 4.