PySpark에서 MSSQL에 연결

Nov 29 2020

spark.read.jdbc를 사용하여 PySpark 에서 MS SQL DB 에 연결하려고합니다 .

import os
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark import SparkContext;
from pyspark.sql.session import SparkSession
sc = SparkContext('xx')
spark = SparkSession(sc)

    spark.read.jdbc('DESKTOP-XXXX\SQLEXPRESS',
"""(select COL1, COL2 from tbl1 WHERE COL1 = 2) """,
properties={'user': sa, 'password': 12345, 'driver': xxxx})

잘 모르겠 sc = SparkContext('xx')으며 'driver': xxxx어떤 매개 변수를 전달해야합니까?

답변

2 mck Nov 29 2020 at 17:27

serveraddress데이터베이스 주소로 바꿉니다 .

sc = SparkContext()
spark = SparkSession(sc)
spark.read \
     .format('jdbc') \
     .option('url', 'jdbc:sqlserver://serveraddress:1433') \
     .option('user', 'sa') \
     .option('password', '12345') \
     .option('dbtable', '(select COL1, COL2 from tbl1 WHERE COL1 = 2)')