Não é possível analisar elementos de um site que contém dados tabulares (iframe)

Dec 21 2020

Estamos tentando analisar os hrefatributos do DOM de um site de empregos . Queremos obter um hrefpara cada trabalho.

Normalmente usamos caminhos CSS e os passamos para o find_elements_by_cssmétodo Selenium .

Infelizmente, notamos que o plugin do navegador SelectorGadget teve problemas para nos fornecer um caminho CSS. Passamos a usar um caminho CSS usando o Google Chrome (ctrl + shift + c). O Chrome pode extrair um caminho, mas nem Selenium nem BeautifulSoup podem funcionar com esses caminhos.

Depois de muitas tentativas fracassadas de extrair os elementos usando classes e tags diferentes, acreditamos que algo está totalmente errado com nossa abordagem ou com o site. Nossa hipótese é que os elementos desejados são impossíveis de analisar pelo Selenium e BeautifulSoup por qualquer motivo? As iframetags no DOM podem ser uma fonte de erro (consulte esta pergunta do SO )? O que faz com que a análise falhe aqui e há uma maneira de contornar esse problema? Uma fonte de problema relacionada ao site também explicaria por que o Selector Gadget não conseguiu obter um caminho em primeiro lugar. Nossa conclusão seria usar expressões regulares para extrair os hrefatributos de que precisamos. Esta seria apenas uma solução de último recurso.

Para pessoas de língua alemã, por favor nota thatthere é um erro de ortografia nos elementos alvo: <div class="stellenagebot">. Por favor, não se deixe confundir por eles (como nós).

Sem sorte com BeautifulSoup:

import re
import requests
from bs4 import BeautifulSoup


url = 'https://www.artemiskliniken.de/Karriere/%C3%84rzte/'

page = requests.get(url)

soup = BeautifulSoup(page.text, 'html.parser')

print(soup.prettify())
# Out: ...

#<div class="col-md-4 wow fadeInUp">
# <div class="stellenagebot">
#  <h3>
#   Facharzt (m/w/d) für Augenheilkunde in Voll- oder Teilzeit
#  </h3>
#  <h4>
#   Erfurt
#  </h4>
#  <a class="btn btn-default" href="/Stellenangebot/Facharzt_Augenheilkunde_Erfurt/">
#   Mehr
#  </a>
# </div>
#</div>
#<div class="col-md-4 wow fadeInUp">
# <div class="stellenagebot">
#  <h3>
#   Facharzt (m/w/d) für Augenheilkunde in Voll- oder Teilzeit
#  </h3>
#  <h4>
#   Eschwege
#  </h4>
#  <a class="btn btn-default" href="/Stellenangebot/Facharzt_Augenheilkunde_Eschwege/">
#   Mehr
#  </a>
# </div>
#</div>

# ...

print(soup.find_all('.stellenagebot'))
# Out: []

print(soup.find_all(string=re.compile("Stellenangebot")))
# ['Stellenangebote Facharzt für Augenheilkunde und Karrierewege für Ärzte', '<h3>Zur Verst&auml;rkung unseres Teams suchen wir:</h3>\n\n<p class="hyphenate" lang="de">&nbsp;</p>\n\n<div id=\'jobauflistung\' class=\'row\'><div class=\'col-md-4 wow  fadeInUp\'><div class="stellenagebot">\n<h3>Facharzt (m/w/d) für Augenheilkunde in Voll- oder Teilzeit</h3>\n\n<h4>Aachen</h4>\n<a class="btn btn-default" href="/Stellenangebot/Facharzt_Augenheilkunde_Aachen/">Mehr</a></div></div><div class=\'col-md-4 wow  fadeInUp\'><div class="stellenagebot">\n<h3>Facharzt (m/w/d) fü
# ...
# ></div>\n</div>\n</div>\n</div>\n</footer>\n</div><!-- AUF ALLEN SEITEN IN DEN BODY-TAG EINFÜGEN ']

print(len(soup.find_all(string=re.compile("Stellenangebot"))))
# Out: 2

Então, sem sorte com o Selenium:

from selenium import webdriver

from job_scraper.configuration import CHROMEDRIVER_VERSION, ROOT_PATH, \
    CHROME_OPTIONS


driver = webdriver.Chrome(
    ROOT_PATH / f'assets/chrome_drivers/{CHROMEDRIVER_VERSION}',
    options=CHROME_OPTIONS
)
driver.maximize_window()
driver.get(url)
driver.find_elements_by_css_selector('.stellenagebot')
# Out: []

Respostas

3 KunduK Dec 21 2020 at 23:25

O elemento que você está procurando está dentro comments. você precisa ter essas informações de tag primeiro e depois converter em string e depois analisar novamente para obter o valor.