본문 바로가기

통계학7

[통계학] 9장 - 확률이란 무엇인가 1. 가능성, 확률(1) 가능성확률을 보는 관점은 크게 도수이론(frequency theory)과 주관적 견해(subjective view)로 양분된다.  도수이론은 "어떤 시행 또는 실험을 반복적으로 실시하면, 하나의 사건이 일어나는 상대도수는 반복횟수가 무한히 증가함에 따라 하나의 상수에 수렴하게 된다"는 이론이다. 이는 하나의 시행을 동일한 조건하에서 독립적으로 무한히 반복할 수 있을 때 잘 적용된다. (ex. 동전던지기) 도수이론 말고 다른 견해가 필요한 이유는 많은 경우 반복시행이 원천적으로 불가능하기 때문이다. 즉, 상대도수 자체가 정의될 수 없다. 예를 들어 '그녀가 나를 사랑하고 있을 가능성', '내가 이번 기말고사에서 1등을 차지할 확률'과 같은 질문에선 반복시행을 정의하기 어려워 도수이.. 2025. 2. 4.
[통계학] 데이터 사이언스 인터뷰를 위해 필수적으로 알아둬야 할 통계적 개념 https://www.linkedin.com/posts/taemo_%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4-%EC%9D%B8%ED%84%B0%EB%B7%B0%EB%A5%BC-%EC%9C%84%ED%95%B4-%ED%95%84%EC%88%98%EC%A0%81%EC%9C%BC%EB%A1%9C-%EC%95%8C%EC%95%84%EB%91%AC%EC%95%BC-%ED%95%A0-%ED%86%B5%EA%B3%84%EC%A0%81-%EA%B0%9C%EB%85%90-%EC%82%AC%EC%8B%A4-activity-7262104185448349697-w7Ue?utm_source=share&utm_medium=member_desktop Link.. 2024. 12. 11.
[통계학] 7장 - 회귀분석의 오차 1. 실제값과 추정치의 차이(1) 제곱근-평균-제곱 오차(RMSE)회귀분석은 x로부터 y를 예측하는 데 쓰인다. 하지만 실제값과 예측치 사이에는 차이가 나기 마련이다. 그 차이를 나타내는 방법 중 하나가 바로 제곱근-평균-제곱 오차(root-mean-square error : RMSE)다. RMSE는 표준편차를 구하는 것과 작동 방식이 같다. 그래서 회귀직선의 RMSE는 추정의 표준오차 혹은 회귀의 표준오차라고도 한다.  2007년 국민건강 영양조사의 만 10-90세의 한국인 남성 1,503명의 자료를 살펴보자.펑균키 = 167.08cm키의 표준편차(SDx) = 8.81cm평균몸무게 = 65.48kg몸무게의 표준편차(SDy) = 12.08kg키와 몸무게의 상관계수 = 0.69  해당 자료의 회귀분석 과정.. 2024. 12. 7.
[통계학] 6장 - 회귀분석 1. 변수간의 관계회귀분석(regression analysis)은 하나의 변수와 다른 여러 변수간의 관계를 밝히기 위한 통계적 기법이다. 회귀분석은 대표적으로 두가지로 나뉜다. ● 단순회귀분석(simple regression analysis) : 하나의 변수와 다른 또 하나 변수간의 관계를 분석하는 방법● 다중회귀분석(multiple regression analysis) : 하나의 변수와 둘 또는 그 이상 변수간의 관계를 분석하는 방법 우선 단순회귀분석을 먼저 봤을 때, 다음은 2007년 국민건강영양조사 중에서 만 10세 - 90세의 한국인 남성 4,514명을 대상으로 키와 몸무게의 자료를 요약한 것이다. 평균키 = 167.5cm 키의 표준편차 = 8.5cm 평균몸무게 = 63.5kg몸무게의 표준편차 .. 2024. 12. 4.
[통계학] 5장 - 상관관계 1. 산포도두 변수 사이의 상호관계를 분석하는 방법 중 하나로 '산포도'가 있다. 중간고사와 기말고사 성적간의 관계를 예로 들어보자. 다음은 어떤 한 강좌 수강생 190명의 중간고사와 기말고사 성적이다. 중간고사 성적과 기말고사 성적을 각각 분석하면 두 변수간의 관계를 파악하지 못해, 결합분포(joint distribution)를 보이는 산포도로 나타내었다.  x축은 중간고사, y축은 기말고사 성적을 나타내며, 산포도에 나타난 점은 중간고사 성적과 기말고사 성적으로 이루어진 한 개의 순서쌍을 의미한다. 이 둘은 x값이 증가할 때 y값도 증가하는 양의 상관관계(우상향)를 보이며, 두 시험의 성적이 같은 순서쌍은 원점을 지나는 45도 점선으로 표시되어 있다. 중간고사 성적과 기말고사의 성적이 대체로 비슷하다.. 2024. 11. 28.
[통계학] 3장 - 평균과 표준편차 1. 자료의 중심과 퍼진 정도히스토그램은 많은 양의 자료를 그림으로 나타내며, 그에 따라 중심과 '중심 주위로 퍼진 정도'를 측정할 수 있다.이때 평균(mean)과 중앙값(median)은 중심을 찾는 데 사용하며, 표준편차(standard deviation)와 사분위수 범위(interquartile range)는 중심으로부터 퍼진 정도를 측정하는 데 사용한다.   두 히스토그램은 동일한 중심을 갖고 있지만, 중심 주위로 퍼진 정도는 우측의 히스토그램이 더 크다.  해저의 지표가 해상의 지표보다 훨씬 많은 비중을 차지하고 있는 것을 알 수 있다. 또한, 봉우리가 두 개라는 사실은 중심의 의미를 퇴색시키고, 중심 주위로 퍼진 정도의 의미도 반감시킨다.  2. 평균, 중앙값, 최빈치자료를 요약해주는 대표값으로.. 2024. 11. 22.