전체 글102 [통계학] 통계 중요 개념 정리 1. Population parameter(s)- 모수: 모집단의 특성을 나타내는 수치 (ex. 모집단의 평균, 분산 등) 2. Sample estimate(s)- 추정량: 표본으로부터 계산된 값으로, 모수를 추론하기 위해 사용됨 (ex. 표본평균, 표본분산 등)3. Sampling (and random sampling)- 모집단에서 표본을 선택하는 과정 - 랜덤 샘플링의 경우, 모집단의 개체가 표본으로 뽑힐 동일한 확률을 갖도록 표본을 추출하는 방법4. Null hypothesis (H0)- 영가설: 관측된 결과가 차이가 없다, 우연에 불과하다5. Alternative hypothesis (H1)- 대립가설: 관측된 결과엔 유의미한 무언가가 있다, 우연에 의해 발생된 게 아니다6. Type-1 erro.. 2025. 9. 18. [빅분기] 12.3. 분석결과 활용 1. 분석모형 전개(배포)- 분석모형 개발 및 운영 절차에 따라 모델 성능 평가가 완료되면 해당 프로세스를 거쳐 실제 업무에 적용 1) 분석 모델 배포- 분석 모델 전개는 배포라고도 하며, 분석 모델을 운영계 환경과 통합하고 이를 실행하는 것을 의미함- 분석 모델을 운영 시스템에 적용시키는 것 2) 모델 배포 과정의 이슈이슈설명서로 다른 환경- 모델 개발에 사용하는 언어와 운영계에서 사용하는 언어의 차이로 인해 변환이 필요모델 저장소 부재- 모델을 저장하는 저장소가 없다면 개발된 수많은 모델의 정보를 추적할 수 없음성능 모니터링 부재- 모델 성능을 지속적으로 모니터링 해야함 (데이터 속성이 매일 수정되기 때문)규제 요구 사항 준수- 많은 산업에서 모델에 대한 통제를 투명하게 설명해야하는 규제 압력이 증가.. 2025. 9. 1. [빅분기] 12.2. 분석결과 시각화 1. 시공간 시각화1) 시간 시각화- 시간 시각화는 시계열 데이터 값의 변화에 대한 패턴을 찾고 표현하는 방법 a. 이산형 시계열 데이터로 시간 시각화 구현- 막대그래프- 누적 막대그래프- 점그래프: 면적을 표시할 필요가 없기에 더 작은 공간에 그릴 수 있고, 흐름을 파악하기 용이 b. 연속형 시계열 데이터로 시간 시각화 구현- 히스토그램: 세로축에 빈도를 표현- 선 그래프: y축 0부터 시작- 계단식 그래프: 연속된 두 시점에 값의 변화가 없거나, 급격할 때는 선 그래프보다 계단식 그래프가 용이- 영역형 차트: 선그래프와 비슷하지만 y축이 0부터 시작하지 않아도 되며 색을 채워 구분 2) 공간 시각화a. 지리-공간 데이터를 매핑하는 방법- 등치 지역도: 지도상에서 지리적 단위로 데이터에 대한 의미를 색.. 2025. 9. 1. [빅분기] 12.1. 분석결과 해석 1. 분석모형 해석서술적분석- 무슨 일이 일어났는가? 무슨일이 일어나고 있는가? (탐구적 분석 / 이상탐지)진단분석- 왜, 어떻게 일어났는가? (모델링, 실험)예측분석- 무슨일이 일어날 것인가? (예측 기법)규범분석- 최선의 대응은 무엇인가? 최선의 상황을 위해 필요한 조치는 무엇인가? (실시간 대응 / 개인화 추천, 시각화) 1) 데이터 시각화a. 시각화 개요정보전달- 데이터에 내재된 정보를 간단하고 정확하게 전달설득- 데이터를 통해 전달하고자 하는 메시지에 대한 공감, 설득 b. 시각화 기능※ 설명/탐색/표현설명- 시각화를 통해 전달하려는 메시지와 주요 분석 결과를 설명하는 기능탐색- 데이터에 숨겨져 있는 관계와 패턴을 찾기 위한 시각적 분석 기능 표현- 데이터를 활용한 개인 작품이나 예술적 표현을.. 2025. 8. 31. [빅분기] 11.2. 분석모형 개선 1. 과대적합 방지1) 과대적합의 개념- 휸련데이터가 존재할 때 예측모델이 좌측과 같이 단순히 직선으로 추정하는 경우 실제 데이터에서 오차가 클 확률이 높고, 이러한 현상을 과소적합이라고 함 (모델이 너무 단순해서 데이터에 내재도니 구조를 학습하지 못한 경우) - 우측의 경우, 예측 모델 함수가 훈련 데이터셋의 모든 데이터를 오차 없이 추정하고 있으나, 새로운 데이터에서 오차가 커질 확률이 높음 이러한 현상을 과적합이라고 함 - 가운데의 경우, 약간의 오차는 존재하지만, 예측 모델이 비교적 훈련 데이터셋에 대한 특성을 잘 나타내고 있고, 정상 추정이 되었다고 봄- 그러므로 과적합은 일반화 오류, 과소적합은 학습 오류에서 발생함 2) 과대적합 억제- 분석 모델에 매개변수가 많고, 표현력이 높거나(은닉층이 .. 2025. 8. 31. [빅분기] 11.1. 분석모형 평가 1. 성능평가 지표1) 범주형 모델의 성능 평가a. 혼동 행렬을 이용한 분류 모형의 평가 지표- FP는 1종 오류- FN은 2종 오류 - 순서대로 정분류율, 재현율, 특이도, 정밀도, F1-Score- 민감도/재현율: 실제로 참인 것 중에서 모델이 참이라고 예측한 비율- 특이도: 실제로 거짓인 것 중에서 모델이 거짓이라고 예측한 비율- 정밀도: 모델이 참이라고 한 것 중에서 실제로 참인 것의 비율- F1-Score : 정밀도와 재현율의 조화평균 b. 향상도 곡선 (이익도표)- 랜덤 모델과 비교하여 해당 분류 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프 - 임의로 나눈 각 등급별로 분류된 관측치에 대해 얼마나 예측이 잘 이루어져있는지를 나타내는 반응검출율, 반응률, 향상도 등의 정보가 .. 2025. 8. 31. 이전 1 2 3 4 ··· 17 다음