Selenium funziona su AWS EC2 ma non su AWS Lambda

Nov 16 2020

Ho guardato e provato quasi tutti gli altri post su questo argomento senza fortuna.

EC2

Sto usando python 3.6quindi sto usando la seguente AMI amzn-ami-hvm-2018.03.0.20181129-x86_64-gp2(vedi qui ). Una volta effettuato l'accesso SSH al mio EC2, scarico Chrome con:

sudo curl https://intoli.com/install-google-chrome.sh | bash
cp -r /opt/google/chrome/ /home/ec2-user/
google-chrome-stable --version
# Google Chrome 86.0.4240.198

E scarica e decomprimi il Chromedriver corrispondente:

sudo wget https://chromedriver.storage.googleapis.com/86.0.4240.22/chromedriver_linux64.zip
sudo unzip chromedriver_linux64.zip

Installo python36e seleniumcon:

sudo yum install python36 -y
sudo /usr/bin/pip-3.6 install selenium

Quindi esegui lo script:

import os
import selenium
from selenium import webdriver

CURR_PATH = os.getcwd()
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--headless')
chrome_options.add_argument('--window-size=1280x1696')
chrome_options.add_argument('--disable-gpu')
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument('--hide-scrollbars')
chrome_options.add_argument('--enable-logging')
chrome_options.add_argument('--log-level=0')
chrome_options.add_argument('--v=99')
chrome_options.add_argument('--single-process')
chrome_options.add_argument('--ignore-certificate-errors')
chrome_options.add_argument('--remote-debugging-port=9222')
chrome_options.binary_location = f"{CURR_PATH}/chrome/google-chrome"
driver = webdriver.Chrome(
    executable_path = f"{CURR_PATH}/chromedriver",
    chrome_options=chrome_options
)
driver.get("https://www.google.com/")
html = driver.page_source
print(html)

Funziona

Lambda

Quindi comprimo i miei file Chromedriver e Chrome:

mkdir tmp
mv chromedriver tmp
mv chrome tmp
cd tmp
zip -r9 ../chrome.zip chromedriver chrome

E copia il file zippato in un S3bucket

Questa è la mia funzione lambda:

import os
import boto3
from botocore.exceptions import ClientError
import zipfile
import selenium
from selenium import webdriver

s3 = boto3.resource('s3')

def handler(event, context):
    chrome_bucket = os.environ.get('CHROME_S3_BUCKET')
    chrome_key = os.environ.get('CHROME_S3_KEY')
    # DOWNLOAD HEADLESS CHROME FROM S3
    try:    
        # with open('/tmp/headless_chrome.zip', 'wb') as data:
        s3.meta.client.download_file(chrome_bucket, chrome_key, '/tmp/chrome.zip')
        print(os.listdir('/tmp'))
    except ClientError as e:
        raise e
    # UNZIP HEADLESS CHROME
    try:
        with zipfile.ZipFile('/tmp/chrome.zip', 'r') as zip_ref:
            zip_ref.extractall('/tmp')
        # FREE UP SPACE
        os.remove('/tmp/chrome.zip')
        print(os.listdir('/tmp'))
    except:
        raise ValueError('Problem with unzipping Chrome executable')
    # CHANGE PERMISSION OF CHROME
    try:
        os.chmod('/tmp/chromedriver', 0o775)
        os.chmod('/tmp/chrome/chrome', 0o775)
        os.chmod('/tmp/chrome/google-chrome', 0o775)
    except:
        raise ValueError('Problem with changing permissions to Chrome executable')
    # GET LINKS
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--window-size=1280x1696')
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_argument('--hide-scrollbars')
    chrome_options.add_argument('--enable-logging')
    chrome_options.add_argument('--log-level=0')
    chrome_options.add_argument('--v=99')
    chrome_options.add_argument('--single-process')
    chrome_options.add_argument('--ignore-certificate-errors')
    chrome_options.add_argument('--remote-debugging-port=9222')
    chrome_options.binary_location = "/tmp/chrome/google-chrome"
    driver = webdriver.Chrome(
        executable_path = "/tmp/chromedriver",
        chrome_options=chrome_options
    )
    driver.get("https://www.google.com/")
    html = driver.page_source
    print(html)

Sono in grado di vedere i miei file decompressi nel /tmppercorso.

E il mio errore:

{
  "errorMessage": "Message: unknown error: unable to discover open pages\n",
  "errorType": "WebDriverException",
  "stackTrace": [
    [
      "/var/task/lib/observer.py",
      69,
      "handler",
      "chrome_options=chrome_options"
    ],
    [
      "/var/task/selenium/webdriver/chrome/webdriver.py",
      81,
      "__init__",
      "desired_capabilities=desired_capabilities)"
    ],
    [
      "/var/task/selenium/webdriver/remote/webdriver.py",
      157,
      "__init__",
      "self.start_session(capabilities, browser_profile)"
    ],
    [
      "/var/task/selenium/webdriver/remote/webdriver.py",
      252,
      "start_session",
      "response = self.execute(Command.NEW_SESSION, parameters)"
    ],
    [
      "/var/task/selenium/webdriver/remote/webdriver.py",
      321,
      "execute",
      "self.error_handler.check_response(response)"
    ],
    [
      "/var/task/selenium/webdriver/remote/errorhandler.py",
      242,
      "check_response",
      "raise exception_class(message, screen, stacktrace)"
    ]
  ]
}

EDIT: sono disposto a provare qualsiasi cosa a questo punto. Diverse versioni di Chrome o Chromium, Chromedriver, Python o Selenium.

EDIT2: la risposta di seguito non ha risolto il problema.

Risposte

5 DebanjanB Nov 18 2020 at 21:13

Questo messaggio di errore ...

"errorMessage": "Message: unknown error: unable to discover open pages\n",
"errorType": "WebDriverException"

... implica che ChromeDriver non è stato in grado di avviare / generare un nuovo contesto di navigazione, ad esempio la sessione del browser Chrome .

Sembra che il problema sia con ChromeDriver , la funzione di sicurezza di Sandboxing .

Regola del pollice

Una causa comune dell'arresto anomalo di Chrome durante l'avvio è l'esecuzione di Chrome come rootutente ( administrator) su Linux. Sebbene sia possibile aggirare questo problema passando il --no-sandboxflag durante la creazione della sessione WebDriver, tale configurazione non è supportata e altamente sconsigliata. Devi invece configurare il tuo ambiente per eseguire Chrome come un utente normale.

Dettagli

Qualche dettaglio in più sul tuo caso d'uso ci avrebbe aiutato ad analizzare meglio l'utilizzo degli argomenti che hai usato e la causa principale dell'errore. Tuttavia, alcuni pensieri:

Selenium funziona su AWS EC2 ma non su AWS Lambda

EC2

Lambda

Risposte

Regola del pollice

Dettagli

Considerazioni aggiuntive

Riferimenti

Headless-Chromium

Chromedriver

Lambda