분류 전체보기 114

0624 새싹일지

폴란드 부도 데이터셋 분석 보고서 실습 비대칭문제 해결 전 후 비교하는게 좋음 63까지 있는 데이터를 저차원 투영 머신러닝에 있는 데이터로 머신러닝이 학습(기계로 만든 데이터를 기계가 학습)-> 성능이 조금 낮아질 순 있지만 그래도 이렇게 하는게 나음. 지피티에 데이터셋 때려놓고 학습 파이프라인 만드는 방법 두 가지 - pipeline의 pipeline(사이킷런)- make_pipeline  Pipeline vs make_pipeline:첫 번째 코드는 Pipeline 클래스를 사용하여 파이프라인을 수동으로 정의합니다.두 번째 코드는 make_pipeline 함수를 사용하여 간단하게 파이프라인을 정의합니다. make_pipeline은 자동으로 각 단계에 이름을 할당합니다. 한경 크롤링 실습 간단 설명 6..

새싹일지 2024.06.24

05_Time_Series_Investor_Flow_of_Funds_US

1. 필요한 라이브러리들을 import 하세요.import pandas as pd 2. 다음과 같은 DataSet을 import 하세요.url = "https://raw.githubusercontent.com/myoh0623/dataset/main/weekly.csv" 3. df라는 변수에 DataFrame을 할당하세요.df = pd.read_csv(url) 4. Date column을 index로 할당하세요.df.set_index('Date', inplace=True, drop=True) 5. index의 data type은 무엇인가요?df.index.dtype dtype('O') 6. index를 DatetimeIndex type으로 변경하세요.df.index = pd.to_datetime(df.in..

05_Time_Series_Apple_Stock_Exercises

1. 필요한 라이브러리들을 import 하세요.import pandas as pdimport numpy as np 2. 다음과 같은 DataSet을 import 하세요.url = "https://raw.githubusercontent.com/myoh0623/dataset/main/appl_1980_2014.csv" 3. apple 라는 변수에 DataFrame을 할당 하세요.apple = pd.read_csv(url)apple.head() 4. 각 column들의 data type을 확인하세요.apple.dtypes 5. Date column을 datetime type으로 변경하세요.apple['Date'] = pd.to_datetime(apple['Date'], format='%Y-%m-%d')appl..

04_Apply_US_Crime_Rates_Exercises

1. 필요한 librarie를 import 하세요.import pandas as pd 2. 다음 주소로부터 Data를 import 하세요.url = "https://raw.githubusercontent.com/myoh0623/dataset/main/US_Crime_Rates_1960_2014.csv" 3. crime 변수에 DataFrame을 할당 하세요.crime = pd.read_csv(url) 4. column의 data type은 무엇입니까?crime.dtypes# crime.info() 5. column Year의 dtype을 datetime64로 변경하세요. (to_datetime 을 사용)crime.Year.dtype  dtype('int64') crime['Year'] = pd.to_da..

04_Apply_Students_Alcohol_Consumption_Exercises

1. 필요한 librarie들을 import 하세요.import pandas as pdimport numpy as np 2. 다음 주소의 dataset을 import 하세요.url = "https://raw.githubusercontent.com/myoh0623/dataset/main/student-mat.csv" 3. df라는 변수에 DataFrame을 할당하세요..df = pd.read_csv(url)df.head() 4. school"부터 "guardian"까지 DataFrame을 슬라이싱 하여 stud_alcoh에 할당하세요. 단 "guardian" column이 포함되어야 합니다.stud_alcoh = df.loc[:, 'school':'guardian'] 5. 문자열의 앞글자를 대문자로 변경해..

0621 새싹일지

classfication 애매한 애들은 구분이 어려움 저차원을 투영시켜 직선, 1 차원을 이용해 분류문제 해결저차원으로 만든 다음 다시 고차원으로 입력은 직선, 출력은 곡선 Batch(딥러닝에서는 잘라서 시킴) 병렬처리데이터가 처리되는 단위 :   미니배치가 1이면 스톡캐스트? counfusio matrix : 잘 학습됐는지 확인리니어의 r2스코어랑  유사   3_4. 분류모델 성능측정 손글씨 분류 문제 로지스틱 리그리션을 쓰면 성능이 별로 안좋음 y_true = y_test(모를 땐 외우지 말고 ? 써서 예시 보고 따라넣기) confusion_matrix로우 부분이 실제 값, 컬럼이 예측0이라고 예측했을 때 0인거 몇 개 이런 식으로Examples-------->>> from sklearn.metric..

새싹일지 2024.06.21

03_Grouping_Regiment_Exercises

1. 필요한 라이브러리 들을 import 하세요.import pandas as pd 2. 다음 raw_data 를 이용하여 DataFrame을 만드세요.raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'], 'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'], 'name': ['Miller', 'Jacobson', ..

0620 새싹일지

복습 회귀 배우고 분류 학습중 피쳐 : 물렁도, 크기, 색깔 2차원의 문제를 해결하기 위해선? 직선을 그으면 해결 Step func 외우기value는 x값 스탭펑션 : 불연속함수, 이산적인값(0과 1)이문제를 해결하기위해로지스틱펑션 1/1+e&-s0과 1사이의 값으로 제한, 연속적, 곡선형태(=> 미분 가능)  cost func 최적화MSE쓰는게 비효율적로지스틱회귀에서는 교차 엔트로피 비용 선형 회귀에서 코스트펑션은 MSE로지스틱 회귀에서는 코스트펑션은 교차 엔트로피  엔트로피 값이 크면 클루록 두 클래스가 혼재, 값이 작으면 두 클래스가 분리 등가표현식에서 앞부분 양의 확률 / 뒷부분 음의 확률 캘리포니아 주택가격 예측 standardScaler() : 정규화(통계적) - 엄청 큰 값(-45000524..

새싹일지 2024.06.20

0619 새싹일지

교차검증사람이 조정할 수 있는 값 : 학습률, 차원 kfold 상세조정 cross_val_score에서 폴드 수 조정 가능 설명력을 나타내는게 r2 score (오전 두 번째 시간 다시보기)  학습곡선오버피팅/언더피팅 accuracytrain 할 때 r2 = 0.8 / test 할 때 r2=0.5 이면 과대적합 오버핏팅이 나타나는 경우복잡한 어쩌구 분류문제 해결 시언더피팅 : 분류를 잘 못함(모델이 넘 단순)오버피팅이 됐다 = variance 가 높다 바이어스(bias)가 높다 훈련세트의 크기와 과적합 분석 높은 분산 : 차이가 크다(오버피팅) 모델 재구성오른족 두개는 하이퍼 파라미터 재조정 첫 번 쨰는 그름. 모델 새로 만들어야함. 성능 자체가 안좋음  모델이 복잡해질수록오버피딩 심해짐차수도 반복문으..

새싹일지 2024.06.19