<복습>
교차검증
사람이 조정할 수 있는 값 : 학습률, 차원
kfold 상세조정
cross_val_score에서 폴드 수 조정 가능
설명력을 나타내는게 r2 score (오전 두 번째 시간 다시보기)
학습곡선
오버피팅/언더피팅
accuracy
train 할 때 r2 = 0.8 / test 할 때 r2=0.5 이면 과대적합
오버핏팅이 나타나는 경우
복잡한 어쩌구
분류문제 해결 시
언더피팅 : 분류를 잘 못함(모델이 넘 단순)
오버피팅이 됐다 = variance 가 높다 <-> 바이어스(bias)가 높다
훈련세트의 크기와 과적합 분석
높은 분산 : 차이가 크다(오버피팅)
모델 재구성
오른족 두개는 하이퍼 파라미터 재조정
첫 번 쨰는 그름. 모델 새로 만들어야함. 성능 자체가 안좋음
모델이 복잡해질수록오버피딩 심해짐
차수도
반복문으로 돌려서 최적값을 나타냄
적당한 크기의 신경망
이걸 깨트린거 : LLM
오버피팅이 나야하는데 안나고 성능이 더 좋아졌다?!
정규화(규제)
4차식 : 3번 꺾일 수 있음
4차식 w값 적당히 조절하면 2차식을 만들 수 있음
w-i 값을 적당하게 조절 = 학습
cost function에 억제기 달음
rasso/ ridge
cost function + 람다 시그마
억제기를 단 상태로 최적화
최적화가 끝난 이후 람다 빼주기
규제를 어떤 방식으로 줄 것인가?
제곱으로 주는 경우/절대값으로 주는 경우 => 매트릭(어떤 식으로 값을 측정하느냐)에 따라 달라짐
L1 Norm(rasso), L2 Norm(ridge), L1 + L2 Norm
최적화 하는 식 가운데 점 : cost function 이 완전히 0인 상태 => 과적합
제약조건 : 방향이 넓어짐
리그리션 할 때는 엘라스틱 써라
최적화 할 때 w값을 어떻게 줄 것인가
오버피팅 되었을 때 테크닉을 이용해 모델을 러프하게만들자.
면접 기출 : 정규화
에러가 최소인게 좋은게 아님. 오버피팅이기때문.
엘라스틱넷 p처럼 생긴거 : 로우
<오후>
arm? risc-v?
3. Classification
다차원, 다변수 => regression
생각보다 어려움.
regression <= new feature를 만듦. 도메인에 대한 기본적인 지식이 필요함.(사람의 개입 필요)
classification은 머신러닝, 딥러닝으로 해결하기 좋음
확률.
복숭아기계 익으면 따고 안익으면 안땀
y_p : 익었다 1 덜익었다 0
미분이 안되면 최적화를 못함
최적화안되면 강화학습으로 시키는 방법도 있긴 있음..
연속적이고 기준이 있고 확률을 내보낼 수 있는 값이 있으면 좋겠음
직선은 확률을 표현을 못함
꺾여있는 모서리는 미분 못함
* step function
출력하면 0or1 (이산)
true false
sigmoid function
0 < 1 /1+e^-s < 1
odd -> logit -> sigmoid -> softmax
내보내는 값에 sigmoid 적용
회기결과 -> sigmoid 적용 -> MSE 적용 -> none compex => 안쓰는게 좋다
cross entropy 를 lost function으로 쓴다
자기자신 확률 x 원래 출력되는 확률 + 여사건(여집합)
1 = True
2 = False
예측
세타 = sigmoid
linear regrssion 은 regression
이걸 이용해
sigmoid
cross entropy 넣어서
logistic regression 을 만듦
=> classfication 문제로 바뀜