0617 새싹일지

새싹일지

0617 새싹일지

gamnyam 2024. 6. 17. 17:31

<오전>

- 복습

머신러닝과 딥러닝(머신러닝이 딥러닝 포함)

머신러닝

: 뭘로 학습 시켰지? 선형회귀(리니어 리그리션)은 경사하강법으로 학습시킴

딥러닝은 특징과 판단을 기계가 하도록. 블랙박스라고 함

데이터를 가지고 모델의 퍼포먼스를 향상 시킴 : 머신러닝

이말년생성기

레이블된 데이터 : 정답이 있는 데이터. 직접적인 피드백을 주면서 학습시킴.

큰 사이즈의 모델 -> 모델 사이즈를 어떻게 줄여 중소모델에 탑제할 수 있을까에 대한 연구가 많음

(gpt는 사이즈가 너무 큼) ex) 로라튜닝

머신러닝은 데이터와 라벨(해답)을 넣고 규칙을 찾는 것

데이터와 데이터(자기자신)을 넣고 규칙을 찾는 것? 머신러닝의 일종

train, evaluate 과정부터 개발영역이라고 생각

deploy : 배포하

레드햇 자격증

회귀는 수치를 예측, 분류는 확률을 예측. 이게 몇 퍼센트의 확률로 얘일 것이다

단변량 2차식은 비선형

다중선형회귀 -> 평면그래프 (선형은 직선그래프)

n분의 1로 나누면 코스트 펑션, 안나누면 에러펑션

수치 미분은 어떤 로직에 의해 찾아내는거(값을 대입해서 미분값이 0인 지점을 찾아내는 것)

<오후>

차수 올려서 문제해결? 폴리노미픽쳐스

성능측정

실습 : 당뇨병 진행 예측

교차검증

data sets : 트레이닝용 데이터 + test data

시험공부할 때 이론 먼저 공부 -> 문제 -> 연습문제-> 실제 시험

model 학습 -> 트레이닝데이터 -> 테스트 데이터 -> 테스트

data set [ train | test ] 분류해서 학습 가능 -> best model

^---- 평가 후 다시 학습 시킴

지금은 모델의 파라미터를 조정을 안함

best model을 만들기 위해 성능이 좋아야함(요건 2개)

최적의 hyper parameter :사람이 조정 ex) 차수, 학습률

최적의 parameter (가중치, weight, wi) <=다 같은말

1) train + test 같이 넣고 학습돌림 -> test : 성능은 좋지만 일반화는 떨어짐

2) rain 학습-> test : 일반화는 잘함

어떤 것이 성능이 더 좋을까? 성능 자체는 1)

지능은 IQ + 과제집착도

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(DATA이름, DATA Target)

랜덤스테이트를 고정하는 이유 : 매번 할 때 마다 다른 결과가 나오면 통제할 수 없음.

best model을 만들 때 weight 값의 고정을 위해 sklearn의 seed 고정, dataset의 seed도 고정시킨 후 학습

=> 항상 동일한 결과. model의 학습 best model -> seed를 바꿔가면서 학습(최적의 seed를 찾기 위해)

1만개 중 8천 개 트레이닝 set, 나머지 test set

Validation Set : 검증하는 데이터셋

과적합(over fit)

모델을 조정 = model hyper parameter을 조정(튜닝)

오버피팅 : 학습이 너무 잘됨. <-> 언더피팅

train : vallid : test 비율

9 : 0.5 : 0.5

선형모델 주피터

전처리를 하고 모델을 한번 돌려보는게 가장 좋음.

교차 검증

트레이닝 데이터와 테스트 데이터셋을 나누고 번갈아가면서 확인함

cross_validation이 train하고 vaild를 나눠줌

....

k겹 교차검증

어떤 데이터에 편향되는 경우가 있음

생산공장 -> 불량품 예측 ->

10,000개 -> 불량 100개, 정상 9900개

불량이 적어 셔플된 애들 중에 불량이 없을 수도 있음(불량없는 폴드도 있을 수 있음)

보스턴, 캘리포니아 주택 데이터

'새싹일지' 카테고리의 다른 글

0619 새싹일지 (0)	2024.06.19
0618 새싹일지_<블록체인과 암호화폐> 특강 (1)	2024.06.18
0614 새싹일지 (1)	2024.06.14
0613 새싹일지 (0)	2024.06.13
0612 새싹일지 (0)	2024.06.13

현재글0617 새싹일지

감냠이의 한 걸음

감냠이의 뭐라도 되어가는 하루하루

청년취업사관학교새싹, 금리와인플레이션 #서브프라임모기지사태 #엔캐리트레이드, pandas #python, #pandas #python, 프로그래머스 #코딩 #파이썬 #비전공자코딩연습, 금융데이터분석가양성과정, pandas연습문제, 서울경제진흥원 #새싹금융데이터분석가양성과정, 티스토리챌린지, swapcase #파이썬, python #pandas, 새싹면접후기 #새싹사전테스트 #sba #, 오블완, 특수문자r #매일코딩, pandas, 프로그래머스레벨0, 매일코딩, 영등포청년취업사관학교, python #프로그래머스, pandas예제 #python,

Today :
Yesterday :

감냠이의 한 걸음