Cómo instalar una biblioteca en un clúster automatizado de Databricks

Aug 20 2020

Estoy ejecutando un trabajo en un clúster automatizado de Databricks, pero el trabajo sigue fallando porque necesita la siguiente biblioteca:

com.microsoft.azure:azure-sqldb-spark:1.0.2

Sin embargo, el clúster debe estar ejecutándose para poder instalar la biblioteca, pero el clúster nunca se ejecutará porque falla ... una especie de situación catch-22.

Por lo tanto, ¿alguien puede decirme cómo instalar una biblioteca en un clúster automatizado de Databricks?

Como puede ver en la imagen, no hay una selección para agregar ninguna biblioteca.

Respuestas

2 CHEEKATLAPRADEEP-MSFT Aug 21 2020 at 11:44

Los paquetes / bibliotecas se pueden cargar como dependencia en la configuración del trabajo.

Estos son los pasos para cargar la dependencia en clústeres automatizados.

Paso 1: descargue la biblioteca del repositorio de maven.

Ejemplo: tengo el com.microsoft.azure:azure-sqldb-spark:1.0.2archivo jar download ( ) del repositorio de maven.

Paso 2: cargue la biblioteca en el espacio de trabajo de Databricks.

Vaya a Workspace => Create => Library => cargue el archivo jar previamente descargado => Haga clic en crear .

Ahora tiene un archivo jar en su espacio de trabajo.

Paso 3: vaya al trabajo creado y agregue la biblioteca como biblioteca dependiente para el trabajo.

Vaya al trabajo creado => Haga clic en Bibliotecas dependientes: Agregar => Seleccione la biblioteca que está disponible en el espacio de trabajo => Haga clic en Aceptar .