[KT AIVLE SCHOOL]

데이터 수집(2)

조진목_스터디 2024. 10. 6. 11:31

API 데이터 수집


API 키를 얻는다. > 요청 URL을 변수에 저장한다. > 파라미터와 헤드를 설정하고 requests.post를 사용해 데이터를 수집

 

json.dumps를 사용해 한글인 데이터를 읽어올 수 있다. ex) json.dumps(params)

 

 

geohash2 패키지로 위도 경도를 불러올 수 있다.

import geohash2

geohash2.encode(lat, lng, precision=5)

 

 

여러 개의 데이터 프레임으로 구성된 변수는 concat으로 붙여줄 수 있다.

result = pd.concat(dfs, ignore_index=True)
result.tail(2)

 

 

HTML 구성요소 : Document, Element, Tag, Attribute, Text

 

Tag 종류: div(레이아웃), h(제목), p(한 줄 문자열), span(한 블럭 문자열), ul li(메뉴 목록), a, img

 

CSS Selector 

1) Tag Selector

div 태그를 사용하면 가장 위에 있는 데이터 선택

 

2) ID Selector

#(아이디 이름)으로 선택 / 아이디에 맞는 데이터 선택

 

3) Class Selctor
.(클래스 이름)으로 선택 

 

4) Attribute Selector

[속성키='속성값']으로 선택 / [val='ds1']

 

5) not Selector

:not(제외 셀렉터) / ex) ds:not(ds.2)

 

6) nth-child Selector

n번째 엘리먼트와 일치하는 셀렉터 선택 / .ds:bth-child(3) 

 

7) 다영한 방법

#ds2, #ds3로 여러 개 선택

.contants h1을 사용하여 h1 아래 모든 엘리먼트 선택

.contants > h1을 사용해 바로 아래 엘리먼트 선

 

 

정적 페이지 파싱

BeautifulSoup(response.text, 'html.parser')

 

'[KT AIVLE SCHOOL]' 카테고리의 다른 글

데이터 시각화(2)  (0) 2024.10.14
데이터 시각화(1)  (1) 2024.10.10
데이터 수집(1)  (1) 2024.10.03
데이터 분석(4)  (0) 2024.10.01
데이터 분석(3)  (0) 2024.09.29