새싹일지

0819 새싹일지

gamnyam 2024. 8. 19. 19:47

실습 가이드

1. 크롤링 정리

2. Feature Selection 파트에서 Ngram 수행(멀티프로세싱 활용 요망)

3. 모델링 작업 진행

- NBC 모델링(시장접근법)

- KoBERT 모델링(딥러닝)
- 추가적으로 긍/부정 사전 구축

 

지금까지 크롤링하면서,

 

2019까진 동일 코드로 진행

list에 담을 수 없다해서 find all 이런 부분 손봤는데 돌아감

soup_in 에서 <title>에 들어간 내용 형식 바뀌어서 손봄.

최종적으로 링크 수집하고 문제 발생시에는 error 뜨도록 코드 수정.

 

 

브랜치 새로 만들어서 add 하려는데 이런 오류

꼬여서 git revert 로 초기화한 후( $ git revert HEAD)

초기화 한 내용 add, commit, push

그 후 다시 폴더 자체 add, commit, push

 

더이상 처리할 것 없는 깨끗한 상태임을 확인

 

깃허브에서 merge 해주고 brunch 삭제

로컬에서 삭제

 

 

라벨링 중.

날짜 계산하는데 shift 쓰는 경우

결측값의 경우 bfill 쓰기

 

Q. merged_df_b = pd.merge(news, call_rate, left_on="before_m", right_on="범례명", how="left") 이 코드를 자세히 설명해줘

 

A.

이 코드는 pandas 라이브러리의 merge 함수를 사용하여 두 개의 데이터프레임(news와 call_rate)을 병합하는 방법을 보여줍니다. 여기서는 news 데이터프레임과 call_rate 데이터프레임이 주어졌다고 가정합니다.

각 요소의 의미

  • merged_df_b: 병합 결과가 저장될 새로운 데이터프레임입니다. 병합 작업 후 이 데이터프레임에는 news와 call_rate 데이터프레임의 데이터를 결합한 결과가 담깁니다.
  • pd.merge: pandas 라이브러리에서 두 개의 데이터프레임을 병합(조인)하는 함수입니다. 이 함수는 SQL의 JOIN과 유사한 기능을 제공합니다.
  • news: 병합의 왼쪽(기준) 데이터프레임입니다. 여기서는 news라는 이름의 데이터프레임이 사용됩니다.
  • call_rate: 병합의 오른쪽(대상) 데이터프레임입니다. 여기서는 call_rate라는 이름의 데이터프레임이 사용됩니다.
  • left_on="before_m": 왼쪽 데이터프레임(news)에서 병합할 기준이 되는 열을 지정합니다. 여기서는 news 데이터프레임의 before_m 열을 기준으로 병합합니다.
  • right_on="범례명": 오른쪽 데이터프레임(call_rate)에서 병합할 기준이 되는 열을 지정합니다. 여기서는 call_rate 데이터프레임의 범례명 열을 기준으로 병합합니다.
  • how="left": 병합의 방식(조인의 유형)을 지정합니다. how="left"는 "왼쪽 조인"을 의미합니다. 즉, 왼쪽 데이터프레임(news)의 모든 행을 유지하고, 오른쪽 데이터프레임(call_rate)에서 일치하는 데이터가 있으면 이를 결합합니다. 만약 오른쪽 데이터프레임에 일치하는 데이터가 없다면, 결과 데이터프레임의 해당 열에 NaN 값이 들어갑니다.

병합 과정 설명

  1. 기준 설정:
    • news 데이터프레임의 before_m 열과 call_rate 데이터프레임의 범례명 열을 기준으로 데이터를 병합합니다.
    • 즉, before_m과 범례명 열의 값이 같은 행들끼리 데이터를 결합하게 됩니다.
  2. Left Join 수행:
    • how="left"를 사용했기 때문에, 병합 결과는 news 데이터프레임을 기준으로 합니다.
    • news 데이터프레임의 모든 행이 결과 데이터프레임에 포함됩니다.
    • before_m과 범례명이 일치하는 경우, call_rate 데이터프레임의 해당 행이 merged_df_b에 병합됩니다.
    • 만약 일치하는 값이 없으면, call_rate 데이터프레임에서 해당 열의 값은 NaN으로 채워집니다.
  3. 결과:
    • merged_df_b 데이터프레임에는 news 데이터프레임의 열들과 call_rate 데이터프레임의 열들이 결합된 새로운 데이터프레임이 생성됩니다.
    • before_m과 범례명의 값이 같은 행들은 결합되고, 그렇지 않은 경우에는 NaN 값이 삽입됩니다.

'새싹일지' 카테고리의 다른 글

0909 새싹일지  (0) 2024.09.09
0827 새싹일지  (0) 2024.08.27
0731 새싹일지  (0) 2024.07.31
0726 새싹일지  (0) 2024.07.26
SQL, 크롤링, 머신러닝, 딥러닝  (5) 2024.07.25