๋ฐ์ํ
์น ํฌ๋กค๋ง์ ํตํ ์ ๋ณด์ ์์ง
์น ํฌ๋กค๋ง / ์น ์คํฌ๋ฉํ
- ์น ํฌ๋กค๋ง : ์น์ ์กด์ฌํ๋ ๋ฌธ์๋ฅผ ๋ค์ด๋ก๋ํ์ฌ ๊ฐ์ ธ์ค๋ ๊ฒ
- ์น ์คํฌ๋ฉํ : ์น ๋ฌธ์๋ก๋ถํฐ ๋ถ์ํ๊ณ ์ ํ๋ ์ ์๋ฏธํ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๊ฒ
BeautifulSoup์ ํ์ฉ (์ ์ ํฌ๋กค๋ง)
- requests : HTTP ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ํ๋๋ก, URL ์ฃผ์๋ฅผ ํ ๋๋ก ์น ๋ฌธ์๋ฅผ ๋ถ๋ฌ์ฌ ๋ ์ ์ฉํ๊ฒ ์ฐ์
- import requests
- page = page.text → ๋ฅผ ํตํด ํ ์คํธ์ ํํ๋ก ๋ณํํด์ค์ผ ํจ
- BeautifulSoup( ) → ๋ณผ ์ ์๋ ํํ๋ก ๋ณด์ฌ์ค
BeautifulSoup์ ‘find_all( ‘ ‘ , class_ = ‘~~ ‘ )๋ฅผ ํตํด ์ํ๋ ์์๋ฅผ ๋นผ๋ด์ฌ ์ ์์
๊ณต๋ฐฑ ์ ๊ฑฐ์, ๊ตฌ๋ฌธ ์ญ์
- each_data.txt → ๋ถํ์ํ ๊ตฌ๋ฌธ๋ค ์ญ์
- (๋์).strip( ) → ๊ณต๋ฐฑ ์ ๊ฑฐ
Selenium์ ๊ธฐ์ด (๋์ ํฌ๋กค๋ง)
- ๋ก๊ทธ์ธ์ด ๊ฐ๋ฅํด์ผํจ! → ๋ฒํผ ํด๋ฆญ, ์ต์ ์ ํ, ๋ก๊ทธ์ธ ๋ฑ์ ๋์ ์ธ ์ํธ์์ฉ์ ๊ฐ๋ฅ์ผ ํ๋ ํ๋ก๊ทธ๋จ
- ์ ๋จ๊ณ์ ๋ง์ฐฌ๊ฐ์ง๋ก, ๋น์นธ ์
๋ ฅ์ด๋ ๋ฐ์ดํฐ ์ถ์ถ์ ๊ฐ๋ฅํ๋, ๋ฒํผ์ ๋๋ฅด๋๋ฐ ์ฌ์ฉ๋๋ ๊ฒ! → ๋ฐ๋ผ์, xpath ‘ ๋ฒํผ ์กฐ์ ‘
- .find_element(By.NAME, ‘id’) → name์ผ๋ก ์์ด๋ ์ ๋ ฅ ์นธ ์ฐพ๊ธฐ
- .send_keys(’MY_ID’) → ์์ด๋ ์ ๋ ฅ ์นธ์ ํด๋น ๊ฐ ์ ์ก
์ ๋ฆฌ
- ์์ด๋ ์ ๋ ฅ ์นธ → ๊ฐ๋ฐ์ ๋๊ตฌ๋ก ํ์ธํ๋ฉด name = id
- ๋น๋ฐ๋ฒํธ ์ ๋ ฅ ์นธ → ๊ฐ๋ฐ์ ๋๊ตฌ๋ก ํ์ธํ๋ฉด name = pw
- ๋ก๊ทธ์ธ ๋ฒํผ → ๊ฐ๋ฐ์ ๋๊ตฌ๋ก XPaht ํ์ธ ๋ฐ ๋ณต์ฌ ๊ฐ๋ฅ
- soup = BeautifulSoup(driver.page_source, ‘html.parser’) → Selenium์ผ๋ก ์กฐ์ํ ์น ํ์ด์ง ์ ๋ณด๋ฅผ BeautifulSoup์ผ๋ก ์ถ์ถ ๊ฐ๋ฅ
๋ฐ์ํ