취준일지

ADsP 3과목

gamnyam 2024. 10. 10. 18:02

✏️통계분석에 자주 사용되는 R함수

 

정규분포(기본값은 표준정규분포, mean = 0, sd = 1)

- dnorm : 정규 분포의 주어진 값에서 함수 값을 구한다.

- rnorm : 정규 분포에서 주어진 개수만큼 표본을 추출하다.

- pnorm : 정규 분포에서 주어진 값보다 작을 확률 값을 구한다.

- qnorm : 정규 분포에서 주어진 넓이 값을 갖는 x값을 구한다.

 

✏️결측값 대치 방법

1) 단순 대치법

- 결측값이 존재하는 데이터를 삭제하는 방법

- complete.cases 함수

- 하나의 열에 결측값이 존재하면 FALSE, 존재하지 않으면 TRUE

 

2) 평균 대치법

- 평균 혹은 중앙값으로 결측값 대치

- 비조건부 평균 대치법 : 데이터의 평균값으로 대치

- 조건부 평균 대치법 : 실게 값들을 분석하여 회귀분석을 활용하는 대치 방법

- DMwR2 패키지의 central Imputation 함수

 

3) 단순 확률 대치법

- 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안

- K-Narest Neighbor : k최근접 이웃 알고리즘으로 주변 k개의 데이터 중 가장 많은 데이터로 대치하는 방법

 

4) 다중 대치법

- 결측값 대치, 분석, 결합의 세단계

 

✏️표본추출방법

1) 단순 랜덤 추출법

2) 계통 추출법

3) 집락(군집:cluster) 추출법

- 각 집락은 서로 동질적, 집락 내 데이터는 서로 이질적

4) 층화추출법

- 각 집락은 서로 이질적, 집락 내 데이터는 서로 동질적

- 비례 층화 추출법 : 전체 데이터의 분포를 반영하여 각 군집별 데이터를 추출하는 방법

- 불비례 층화 추출법 : 전체 데이터의 분포를 반영하지 않고 각 군집에서 원하는 개수의 데이터를 추출하는 방법. 원하는 군집에서 원하는 는표본의 개수 추출. 

 

✏️왜도

확률분포의 비대칭 정도를 나타내는 측도

왜도값이 0인 경우 정규분포와 유사

왜도값 > 0 : 최빈값<중앙값<평균(최중평)

'취준일지' 카테고리의 다른 글

1108 일지  (1) 2024.11.08
1107 일지  (1) 2024.11.07
빅분기 공부기록  (0) 2024.09.21
ADsP 공부기록  (0) 2024.09.21
새싹 청년취업사관학교 금융데이터 분석가 양성 과정 6기 합격 후기  (1) 2024.06.12