실습 가이드
1. 크롤링 정리
2. Feature Selection 파트에서 Ngram 수행(멀티프로세싱 활용 요망)
3. 모델링 작업 진행
- NBC 모델링(시장접근법)
- KoBERT 모델링(딥러닝)
- 추가적으로 긍/부정 사전 구축
지금까지 크롤링하면서,
2019까진 동일 코드로 진행
list에 담을 수 없다해서 find all 이런 부분 손봤는데 돌아감
soup_in 에서 <title>에 들어간 내용 형식 바뀌어서 손봄.
최종적으로 링크 수집하고 문제 발생시에는 error 뜨도록 코드 수정.
브랜치 새로 만들어서 add 하려는데 이런 오류
꼬여서 git revert 로 초기화한 후( $ git revert HEAD)
초기화 한 내용 add, commit, push
그 후 다시 폴더 자체 add, commit, push
더이상 처리할 것 없는 깨끗한 상태임을 확인
깃허브에서 merge 해주고 brunch 삭제
로컬에서 삭제
라벨링 중.
날짜 계산하는데 shift 쓰는 경우
결측값의 경우 bfill 쓰기
Q. merged_df_b = pd.merge(news, call_rate, left_on="before_m", right_on="범례명", how="left") 이 코드를 자세히 설명해줘
A.
이 코드는 pandas 라이브러리의 merge 함수를 사용하여 두 개의 데이터프레임(news와 call_rate)을 병합하는 방법을 보여줍니다. 여기서는 news 데이터프레임과 call_rate 데이터프레임이 주어졌다고 가정합니다.
각 요소의 의미
- merged_df_b: 병합 결과가 저장될 새로운 데이터프레임입니다. 병합 작업 후 이 데이터프레임에는 news와 call_rate 데이터프레임의 데이터를 결합한 결과가 담깁니다.
- pd.merge: pandas 라이브러리에서 두 개의 데이터프레임을 병합(조인)하는 함수입니다. 이 함수는 SQL의 JOIN과 유사한 기능을 제공합니다.
- news: 병합의 왼쪽(기준) 데이터프레임입니다. 여기서는 news라는 이름의 데이터프레임이 사용됩니다.
- call_rate: 병합의 오른쪽(대상) 데이터프레임입니다. 여기서는 call_rate라는 이름의 데이터프레임이 사용됩니다.
- left_on="before_m": 왼쪽 데이터프레임(news)에서 병합할 기준이 되는 열을 지정합니다. 여기서는 news 데이터프레임의 before_m 열을 기준으로 병합합니다.
- right_on="범례명": 오른쪽 데이터프레임(call_rate)에서 병합할 기준이 되는 열을 지정합니다. 여기서는 call_rate 데이터프레임의 범례명 열을 기준으로 병합합니다.
- how="left": 병합의 방식(조인의 유형)을 지정합니다. how="left"는 "왼쪽 조인"을 의미합니다. 즉, 왼쪽 데이터프레임(news)의 모든 행을 유지하고, 오른쪽 데이터프레임(call_rate)에서 일치하는 데이터가 있으면 이를 결합합니다. 만약 오른쪽 데이터프레임에 일치하는 데이터가 없다면, 결과 데이터프레임의 해당 열에 NaN 값이 들어갑니다.
병합 과정 설명
- 기준 설정:
- news 데이터프레임의 before_m 열과 call_rate 데이터프레임의 범례명 열을 기준으로 데이터를 병합합니다.
- 즉, before_m과 범례명 열의 값이 같은 행들끼리 데이터를 결합하게 됩니다.
- Left Join 수행:
- how="left"를 사용했기 때문에, 병합 결과는 news 데이터프레임을 기준으로 합니다.
- news 데이터프레임의 모든 행이 결과 데이터프레임에 포함됩니다.
- before_m과 범례명이 일치하는 경우, call_rate 데이터프레임의 해당 행이 merged_df_b에 병합됩니다.
- 만약 일치하는 값이 없으면, call_rate 데이터프레임에서 해당 열의 값은 NaN으로 채워집니다.
- 결과:
- merged_df_b 데이터프레임에는 news 데이터프레임의 열들과 call_rate 데이터프레임의 열들이 결합된 새로운 데이터프레임이 생성됩니다.
- before_m과 범례명의 값이 같은 행들은 결합되고, 그렇지 않은 경우에는 NaN 값이 삽입됩니다.