Dołączanie innego pliku do szablonu Flex Dataflow Python, ImportError

Nov 18 2020

Czy istnieje przykład szablonu Python Dataflow Flex z więcej niż jednym plikiem, w którym skrypt importuje inne pliki zawarte w tym samym folderze?

Struktura mojego projektu jest następująca:

├── pipeline
│   ├── __init__.py
│   ├── main.py
│   ├── setup.py
│   ├── custom.py

Próbuję zaimportować plik custom.py do pliku main.py dla szablonu przepływu danych.

Otrzymuję następujący błąd podczas wykonywania potoku:

"ModuleNotFoundError: No module named 'custom'"

Potok działa dobrze, jeśli zawrę cały kod w jednym pliku i nie dokonam żadnych importów.

Przykładowy plik Dockerfile:

FROM gcr.io/dataflow-templates-base/python3-template-launcher-base

ARG WORKDIR=/dataflow/template/pipeline
RUN mkdir -p ${WORKDIR} WORKDIR ${WORKDIR}

COPY pipeline /dataflow/template/pipeline

COPY spec/python_command_spec.json /dataflow/template/

ENV DATAFLOW_PYTHON_COMMAND_SPEC /dataflow/template/python_command_spec.json

RUN pip install avro-python3 pyarrow==0.11.1 apache-beam[gcp]==2.24.0

ENV FLEX_TEMPLATE_PYTHON_SETUP_FILE="${WORKDIR}/setup.py" ENV FLEX_TEMPLATE_PYTHON_PY_FILE="${WORKDIR}/main.py"

Plik specyfikacji Pythona:

{
    "pyFile":"/dataflow/template/pipeline/main.py"
}
  

Wdrażam szablon za pomocą następującego polecenia: gcloud builds submit --project=${PROJECT} --tag ${TARGET_GCR_IMAGE} .

Każda pomoc jest mile widziana.

Odpowiedzi

3 AkshayApte Nov 19 2020 at 21:58

Właściwie rozwiązałem to, przekazując dodatkowy parametr plik_konfiguracji do wykonania szablonu. Należy również dodać setup_fileparametr do metadanych szablonu

--parameters setup_file="/dataflow/template/pipeline/setup.py"

Najwyraźniej polecenie ENV FLEX_TEMPLATE_PYTHON_SETUP_FILE="${WORKDIR}/setup.py" w pliku Dockerfile jest bezużyteczne i faktycznie nie pobiera pliku instalacyjnego.

Mój plik instalacyjny wyglądał następująco:

import setuptools

setuptools.setup(
    packages=setuptools.find_packages(),
    install_requires=[
        'apache-beam[gcp]==2.24.0'
    ],
 )
3 rsantiago Nov 20 2020 at 11:00

Po kilku testach odkryłem, że z nieznanych powodów pliki phyton w katalogu roboczym ( WORKDIR) nie mogą być przywoływane podczas importu. Ale działa, jeśli utworzysz podfolder i przeniesiesz do niego zależności Pythona. Przetestowałem i zadziałało, na przykład w twoim przypadku użycia możesz mieć następującą strukturę:

├── pipeline
│   ├── main.py
│   ├── setup.py
│   ├── mypackage
│   │   ├── __init__.py
│   │   ├── custom.py

I będzie w stanie odniesienia: import mypackage.custom. Plik Docker powinien zostać przeniesiony custom.pydo odpowiedniego katalogu.

RUN mkdir -p ${WORKDIR}/mypackage RUN touch ${WORKDIR}/mypackage/__init__.py
COPY custom.py ${WORKDIR}/mypackage

Zależność zostanie dodana do katalogu instalacyjnego Pythona:

$ docker exec -it <container> /bin/bash
# find / -name custom.py
/usr/local/lib/python3.7/site-packages/mypackage/custom.py
jamiet Feb 28 2021 at 16:42

@ pavan-kumar-kattamuri poprosił mnie o opublikowanie mojego rozwiązania, więc oto ono.

FROM gcr.io/dataflow-templates-base/python3-template-launcher-base:flex_templates_base_image_release_20210120_RC00

ARG WORKDIR=/dataflow/template
RUN mkdir -p ${WORKDIR} WORKDIR ${WORKDIR}

COPY requirements.txt .


# Read https://stackoverflow.com/questions/65766066/can-i-make-flex-template-jobs-take-less-than-10-minutes-before-they-start-to-pro#comment116304237_65766066
# to understand why apache-beam is not being installed from requirements.txt
RUN pip install --no-cache-dir -U apache-beam==2.26.0
RUN pip install --no-cache-dir -U -r ./requirements.txt

COPY mymodule.py setup.py ./
COPY protoc_gen protoc_gen/

ENV FLEX_TEMPLATE_PYTHON_REQUIREMENTS_FILE="${WORKDIR}/requirements.txt" ENV FLEX_TEMPLATE_PYTHON_PY_FILE="${WORKDIR}/mymodule.py"
ENV FLEX_TEMPLATE_PYTHON_SETUP_FILE="${WORKDIR}/setup.py"

a oto mój setup.py:

import setuptools

setuptools.setup(
    packages=setuptools.find_packages(),
    install_requires=[],
    name="my df job modules",
)