-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathweb_scraping_exemplo.py
34 lines (27 loc) · 1.05 KB
/
web_scraping_exemplo.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
"""
Extraindo dados da internet (HTML)
Ref: livro "Data Science from Scratch" de Joel Grus
"""
import requests
from bs4 import BeautifulSoup
URL = "https://www.gov.br/pt-br/categorias/assistencia-social/programas-sociais/assistencia-direta"
html = requests.get(URL).text
soup = BeautifulSoup(html, "html5lib")
first_parag = soup.find("p") # ou somente soup.p
print("Parágrafo HTML")
print(first_parag)
print("--------------------------------------------------------------------")
# Obs: para todos os parágrafos usar soup.find_all("p")
print("Parágrafo em texto")
first_parag_text = soup.p.text
print(first_parag_text)
print("--------------------------------------------------------------------")
print("Primeiras palavras")
first_parag_words = soup.p.text.replace('.', ' ').split()
print(first_parag_words)
print("--------------------------------------------------------------------")
# Busca itens da lista classe "servico"
print("Lista de serviços:")
servicos = soup("li", "servico")
for i, servico in enumerate(servicos):
print(i, servico.a.text.strip())