0819 새싹일지

새싹일지

0819 새싹일지

gamnyam 2024. 8. 19. 19:47

실습 가이드

1. 크롤링 정리

2. Feature Selection 파트에서 Ngram 수행(멀티프로세싱 활용 요망)

3. 모델링 작업 진행

- NBC 모델링(시장접근법)

- KoBERT 모델링(딥러닝)
- 추가적으로 긍/부정 사전 구축

지금까지 크롤링하면서,

2019까진 동일 코드로 진행

list에 담을 수 없다해서 find all 이런 부분 손봤는데 돌아감

soup_in 에서 <title>에 들어간 내용 형식 바뀌어서 손봄.

최종적으로 링크 수집하고 문제 발생시에는 error 뜨도록 코드 수정.

브랜치 새로 만들어서 add 하려는데 이런 오류

꼬여서 git revert 로 초기화한 후( $ git revert HEAD)

초기화 한 내용 add, commit, push

그 후 다시 폴더 자체 add, commit, push

더이상 처리할 것 없는 깨끗한 상태임을 확인

깃허브에서 merge 해주고 brunch 삭제

로컬에서 삭제

라벨링 중.

날짜 계산하는데 shift 쓰는 경우

결측값의 경우 bfill 쓰기

Q. merged_df_b = pd.merge(news, call_rate, left_on="before_m", right_on="범례명", how="left") 이 코드를 자세히 설명해줘

이 코드는 pandas 라이브러리의 merge 함수를 사용하여 두 개의 데이터프레임(news와 call_rate)을 병합하는 방법을 보여줍니다. 여기서는 news 데이터프레임과 call_rate 데이터프레임이 주어졌다고 가정합니다.

각 요소의 의미

merged_df_b: 병합 결과가 저장될 새로운 데이터프레임입니다. 병합 작업 후 이 데이터프레임에는 news와 call_rate 데이터프레임의 데이터를 결합한 결과가 담깁니다.
pd.merge: pandas 라이브러리에서 두 개의 데이터프레임을 병합(조인)하는 함수입니다. 이 함수는 SQL의 JOIN과 유사한 기능을 제공합니다.
news: 병합의 왼쪽(기준) 데이터프레임입니다. 여기서는 news라는 이름의 데이터프레임이 사용됩니다.
call_rate: 병합의 오른쪽(대상) 데이터프레임입니다. 여기서는 call_rate라는 이름의 데이터프레임이 사용됩니다.
left_on="before_m": 왼쪽 데이터프레임(news)에서 병합할 기준이 되는 열을 지정합니다. 여기서는 news 데이터프레임의 before_m 열을 기준으로 병합합니다.
right_on="범례명": 오른쪽 데이터프레임(call_rate)에서 병합할 기준이 되는 열을 지정합니다. 여기서는 call_rate 데이터프레임의 범례명 열을 기준으로 병합합니다.
how="left": 병합의 방식(조인의 유형)을 지정합니다. how="left"는 "왼쪽 조인"을 의미합니다. 즉, 왼쪽 데이터프레임(news)의 모든 행을 유지하고, 오른쪽 데이터프레임(call_rate)에서 일치하는 데이터가 있으면 이를 결합합니다. 만약 오른쪽 데이터프레임에 일치하는 데이터가 없다면, 결과 데이터프레임의 해당 열에 NaN 값이 들어갑니다.

병합 과정 설명

기준 설정:
- news 데이터프레임의 before_m 열과 call_rate 데이터프레임의 범례명 열을 기준으로 데이터를 병합합니다.
- 즉, before_m과 범례명 열의 값이 같은 행들끼리 데이터를 결합하게 됩니다.
Left Join 수행:
- how="left"를 사용했기 때문에, 병합 결과는 news 데이터프레임을 기준으로 합니다.
- news 데이터프레임의 모든 행이 결과 데이터프레임에 포함됩니다.
- before_m과 범례명이 일치하는 경우, call_rate 데이터프레임의 해당 행이 merged_df_b에 병합됩니다.
- 만약 일치하는 값이 없으면, call_rate 데이터프레임에서 해당 열의 값은 NaN으로 채워집니다.
결과:
- merged_df_b 데이터프레임에는 news 데이터프레임의 열들과 call_rate 데이터프레임의 열들이 결합된 새로운 데이터프레임이 생성됩니다.
- before_m과 범례명의 값이 같은 행들은 결합되고, 그렇지 않은 경우에는 NaN 값이 삽입됩니다.

'새싹일지' 카테고리의 다른 글

0909 새싹일지 (0)	2024.09.09
0827 새싹일지 (0)	2024.08.27
0731 새싹일지 (0)	2024.07.31
0726 새싹일지 (0)	2024.07.26
SQL, 크롤링, 머신러닝, 딥러닝 (5)	2024.07.25

현재글0819 새싹일지

감냠이의 한 걸음

감냠이의 뭐라도 되어가는 하루하루

swapcase #파이썬, 프로그래머스 #코딩 #파이썬 #비전공자코딩연습, 매일코딩, pandas, 새싹면접후기 #새싹사전테스트 #sba #, 서울경제진흥원 #새싹금융데이터분석가양성과정, pandas #python, python #pandas, 특수문자r #매일코딩, 금융데이터분석가양성과정, 청년취업사관학교새싹, pandas연습문제, 영등포청년취업사관학교, pandas예제 #python, 티스토리챌린지, 금리와인플레이션 #서브프라임모기지사태 #엔캐리트레이드, 프로그래머스레벨0, 오블완, #pandas #python, python #프로그래머스,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

감냠이의 한 걸음