크롤링 2

파이썬으로의 웹 크롤링: 절차적 튜토리얼 초보자 가이드

웹 크롤링을 위한 Python을 배우려는 경우 집중해야 할 몇 가지 주요 개념 및 라이브러리는 다음과 같습니다. 1. HTTP 및 HTML: HTTP 프로토콜 및 HTML 구조의 기본 사항을 이해하는 것은 웹 크롤링에 중요합니다. 2. 요청 라이브러리: 요청은 HTTP 요청을 보내고 응답을 처리하는 데 널리 사용되는 Python 라이브러리입니다. 이를 사용하여 웹 페이지에 요청을 보내고 HTML 콘텐츠를 검색합니다. 3. BeautifulSoup 라이브러리: BeautifulSoup은 HTML 및 XML 콘텐츠를 구문 분석하기 위한 라이브러리입니다. 웹 페이지의 HTML 콘텐츠에서 데이터를 추출하는 데 사용합니다. 4. 정규식: 정규식은 텍스트의 패턴 일치를 위한 강력한 도구입니다. 이를 사용하여 HTM..

파이썬 초보 프로젝트 크롤링 2편 - 웹 크롤링 심화 selenium 사용하기.

크롬드라이버 설치가 필요함. from selenium import webdriver import time #크롤링에 주의가 필요함. #네이버 정책상 자사의 데이터를, 다른 개인이나 업체가 디비화하는 것을 금지하고 있습니다. #실습시 너무 빠르게 요소를 클릭하거나 이상할정도의 빈번한 접근은 네이버에 의해 차단이 걸림 딜레이를 5초~ 이상 주면서 주의합니다... #크롬 개발자 모드에 대한 설명이 필요하다. ctrl+ f로 필요한 태그 찾는 방법도 알아야됨. def macroRun(): #chromedriver를 다운받는다. driver = webdriver.Chrome('/Users/gimdonghwan/파이썬강의준비/chromedriver') url = "https://finance.na..

파이썬 python 2021.08.20