✏️통계분석에 자주 사용되는 R함수
정규분포(기본값은 표준정규분포, mean = 0, sd = 1)
- dnorm : 정규 분포의 주어진 값에서 함수 값을 구한다.
- rnorm : 정규 분포에서 주어진 개수만큼 표본을 추출하다.
- pnorm : 정규 분포에서 주어진 값보다 작을 확률 값을 구한다.
- qnorm : 정규 분포에서 주어진 넓이 값을 갖는 x값을 구한다.
✏️결측값 대치 방법
1) 단순 대치법
- 결측값이 존재하는 데이터를 삭제하는 방법
- complete.cases 함수
- 하나의 열에 결측값이 존재하면 FALSE, 존재하지 않으면 TRUE
2) 평균 대치법
- 평균 혹은 중앙값으로 결측값 대치
- 비조건부 평균 대치법 : 데이터의 평균값으로 대치
- 조건부 평균 대치법 : 실게 값들을 분석하여 회귀분석을 활용하는 대치 방법
- DMwR2 패키지의 central Imputation 함수
3) 단순 확률 대치법
- 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안
- K-Narest Neighbor : k최근접 이웃 알고리즘으로 주변 k개의 데이터 중 가장 많은 데이터로 대치하는 방법
4) 다중 대치법
- 결측값 대치, 분석, 결합의 세단계
✏️표본추출방법
1) 단순 랜덤 추출법
2) 계통 추출법
3) 집락(군집:cluster) 추출법
- 각 집락은 서로 동질적, 집락 내 데이터는 서로 이질적
4) 층화추출법
- 각 집락은 서로 이질적, 집락 내 데이터는 서로 동질적
- 비례 층화 추출법 : 전체 데이터의 분포를 반영하여 각 군집별 데이터를 추출하는 방법
- 불비례 층화 추출법 : 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출하는 방법. 원하는 군집에서 원하는 는표본의 개수 추출.
✏️왜도
확률분포의 비대칭 정도를 나타내는 측도
왜도값이 0인 경우 정규분포와 유사
왜도값 > 0 : 최빈값<중앙값<평균(최중평)