Como contornar a limitação de taxa ..HTML Error 1015 using Python

Dec 03 2020

Então eu criei um bot de automação para fazer algumas coisas para mim na internet .. Usando Selenium Python .. Depois de longas sessões de codificação .. dias e noites trabalhando neste projeto eu finalmente concluí ... Só para ser saudado aleatoriamente com um erro 1015 "Você está sendo limitado por taxa".

Eu entendo que isso é para prevenir ataques DDOS. Mas é um grande golpe.

Entrei em contato com o site para resolver o assunto, mas sem sucesso. Mas o software de segurança de terceiros que eles usam diz que o site pode conceder a exclusão de limitação de taxa ao meu ip.

Eu estava me perguntando se existe alguma outra maneira de contornar isso .. talvez de uma perspectiva de codificação ... Eu não acho que coisas como limpar os cookies resolverão nada ..

Nota: O TofC do site no qual estou executando meu bot não diz que você não pode usar software de automação nele ... mas também não diz que você não pode.

Não me importo de codificar mais para evitar negações de acesso aleatório ... que acho que duram 24 horas, o que pode ser prejudicial, já que o estágio final dessa compilação é fazer com que meu programa seja executado diariamente por longos períodos de tempo.

Você acha que eu poderia entrar em contato com a segurança de terceiros para pedir-lhes que pedissem ao site para me conceder acesso ... Já tentei resolver o problema com o site. Tudo o que disseram foi que A. Lá está escrito que estou bem B. O problema está provavelmente do meu lado .. "Talvez algum software malicioso esteja tentando acessar nosso site" que .. malicioso não, mas um bot sim. Foi isso que me fez pensar que seria melhor se eu resolvesse o problema sozinho.

Você acha que posso ter que implementar tempos de espera entre os processos ou algo assim. Estou preso.

Obrigado por qualquer ajuda. E é um único bot!

Respostas

1 DebanjanB Dec 04 2020 at 07:08

Se você for saudado aleatoriamente com ...

... implica que o proprietário do site implementou o Limite de taxa que afeta o tráfego de visitantes.


razão de limitação de taxa

O Cloudflare pode limitar a taxa do tráfego de visitantes tentando conter um possível ataque do Dicionário .


limiares de limite de taxa

Em casos genéricos, o Cloudflare limita a taxa do visitante quando o tráfego do visitante ultrapassa os limites do limite de taxa, que é calculado pela divisão de 24 horas de solicitações de site não armazenadas em cache pelos visitantes únicos nas mesmas 24 horas. Em seguida, divida pela média estimada de minutos de uma visita. Finalmente, multiplique por 4 (ou maior) para estabelecer um limite estimado por minuto para seu site. Um valor superior a 4 é adequado, pois a maioria dos ataques está em uma ordem de magnitude acima das taxas de tráfego típicas.


Solução

Nesses casos, uma solução potencial seria usar o cromo-cromo não detectado para inicializar o Contexto de navegação do Chrome .

undetected-chromedriver é um patch Selenium Chromedriver otimizado que não ativa serviços anti-bot como Distill Network / Imperva / DataDome / Botprotect.io. Ele baixa automaticamente o binário do driver e o corrige.

  • Bloco de código:

    import undetected_chromedriver as uc
    from selenium import webdriver
    
    options = webdriver.ChromeOptions() 
    options.add_argument("start-maximized")
    driver = uc.Chrome(options=options)
    driver.get('https://bet365.com')
    

Referências

Você pode encontrar algumas discussões detalhadas relevantes em:

  • O aplicativo Selenium redireciona para a página Cloudflare quando hospedado no Heroku
  • Limite de aceleração da API Linkedin
1 hhz Dec 03 2020 at 22:26

Eu vejo algumas possibilidades para você aqui:

  • Apresente o tempo de espera entre as solicitações ao site
  • Reduza as solicitações que você faz
  • Estenda seu bot para detectar quando ele atingir o limite e altere seu endereço IP (por exemplo, reiniciando seu roteador)

O último é o menos preferível que eu diria e também o mais demorado.

1 ex-zac-tly Dec 03 2020 at 22:30

Primeiro: leia os Termos de Uso do site, por exemplo, olhe para o robots.txt, geralmente ele está na raiz do site como www.google.com/robots.txt . Observe que ir contra os termos explícitos do proprietário do site pode ser ilegal dependendo da jurisdição e pode resultar no bloqueio do proprietário da sua ferramenta e / ou ip.

https://www.robotstxt.org/robotstxt.html

Isso permitirá que você saiba o que o proprietário do site permite explicitamente para automação e remoção.

Depois de revisar os termos do site e entender o que eles permitem, e eles não responderem a você, e você determinar que não está violando os termos de uso do site, a única outra opção real seria utilizar proxies e / ou VPSs isso dará ao sistema que executa os scripts IPs diferentes.