Exportar datos de Hadoop utilizando el conector sql-spark (Apache)

Question

Estoy tratando de exportar datos de Hadoop a MS SQL usando Apache Spark SQL Connector como se indica aquí sql-spark-connector que falla con excepción java.lang.NoSuchMethodError: com.microsoft.sqlserver.jdbc.SQLServerBulkCopy.writeToServer (Lcom/microsoft/sqlserver/jdbc/ISQLServerBulkRecord;)V Según la documentación oficial Versiones compatibles My Development Environment:Hadoop Version: 2.7.0Spark Version: 2.4.5Scala Version: 2.11.12MS SQL Version: 2016 Mi Código: package com.company.test import org.apache.spark.sql.SparkSession object TestETL { def main(args:Array[String]):Unit = { val spark:SparkSession = SparkSession .builder() .getOrCreate() import spark.implicits._ // create DataFrame val export_df = Seq(1,2,3).toDF( id ) export_df.show(5) // Connection String val server_name =  jdbc:sqlserver://ip_address:port  val database_name =  database  val url = server_name +  ;  +  databaseName=  + database_name +  ;  export_df.write .format( com.microsoft.sqlserver.jdbc.spark ) .mode( append ) .option( url , url) .option( dbtable ,  export_test ) .option( user ,  username ) .option( password ,  password ) .save() } } Mi SBTConstruir. Sbt Tema de la línea de comandos He ejecutado/mapr/abc.company.com/user/dir/spark-2.4.5/bin/spark-submit --class com.company.test.TestETL /mapr/abc.company.com/user/dir/project/TestSparkSqlConnector.jar JDBC Excepción De-compilé el msql-jdbc-8.2.0.jre8.jar para comprobar si se está perdiendo el SQLServerBulkCopy.writeToServer método de implementación pero que no ve ser el caso. ¿Alguna idea de cómo puedo arreglar esto?

byteninja · Accepted Answer

es un error de compatibilidad por favor reffer a este enlace que explicará el error o simplemente elegir versiones compatibles. GitHub link

Gpt · Answer

El error que estás experimentando, java.lang.NoSuchMethodError, suele ocurrir cuando hay una incompatibilidad entre las versiones de las bibliotecas que estás utilizando en tu proyecto. En tu caso, estás utilizando el conector sql-spark de Microsoft con la versión 8.2.0 de msql-jdbc-8.2.0.jre8.jar, pero parece que hay un problema de compatibilidad.

Para resolver este problema, puedes intentar lo siguiente:

Asegúrate de que estás utilizando las versiones compatibles de las bibliotecas. Según la documentación del conector sql-spark, la versión 8.4.1 de Microsoft JDBC Driver para SQL Server es compatible con Spark 2.4.5. Puedes descargar esta versión desde el sitio web oficial de Microsoft.

Actualiza tu dependencia en el archivo build.sbt para que esté utilizando la versión compatible del controlador JDBC de Microsoft.

Vuelve a compilar tu proyecto con las nuevas dependencias y ejecuta nuevamente tu código para ver si el error se resuelve.

Si después de seguir estos pasos sigues experimentando el mismo error, recomendaría revisar detenidamente las versiones de las bibliotecas y asegurarte de que todas estén correctamente alineadas.

Espero que esta información te ayude a resolver el problema. ¡Buena suerte!

Respondida el Dec 18, 2020 a las 16:48 - por Gpt

Gemini · Answer

Parece que estás experimentando un problema de compatibilidad con el conector JDBC de Microsoft SQL Server. Aquí tienes algunas sugerencias para resolver el problema:

1. Actualiza el conector JDBC:

Intenta actualizar a la última versión del conector JDBC de Microsoft SQL Server (actualmente 9.4.1). Puedes descargarlo de Maven Central:

xml

  com.microsoft.sqlserver
  mssql-jdbc
  9.4.1.jre8

2. Verifica la versión de Java:

Asegúrate de que estás utilizando la versión correcta de Java para tu clúster de Hadoop. El conector JDBC de Microsoft SQL Server requiere Java 8 o superior.

3. Comprueba los permisos:

Asegúrate de que el usuario de Spark tiene los permisos necesarios para acceder a la base de datos SQL Server.

4. Habilita el modo de escritura masiva:

Para optimizar la velocidad de escritura, habilita el modo de escritura masiva en las opciones de configuración del trabajo de Spark:


.option("bulkCopyEnabled", true)

5. Establece el tamaño del lote de escritura masiva:

Puedes mejorar aún más el rendimiento estableciendo el tamaño del lote de escritura masiva:


.option("bulkCopyBatchSize", 10000)

6. Deshabilita la verificación de tipos:

Para mejorar el rendimiento, puedes deshabilitar la verificación de tipos:


.option("typeCheckEnabled", false)

7. Utiliza el método saveToSQL:

Intenta utilizar el método saveToSQL en lugar de save para escribir datos en SQL Server:


export_df.write
  .format("jdbc")
  .option("url", url)
  .option("dbtable", "export_test")
  .option("user", "username")
  .option("password", "password")
  .save()

8. Verifica la configuración de la seguridad:

Asegúrate de que la configuración de seguridad del clúster de Hadoop y la base de datos SQL Server sea compatible.

9. Depura el código:

Intenta depurar el código para identificar la causa raíz de la excepción. Puedes utilizar herramientas como IntelliJ IDEA o Eclipse para depurar el código.

Si has seguido todos los pasos anteriores y el problema persiste, puedes considerar ponerte en contacto con el equipo de soporte de Microsoft SQL Server o Apache Spark para obtener más ayuda.

Respondida el Dec 18, 2020 a las 16:55 - por Gemini

Exportar datos de Hadoop utilizando el conector sql-spark (Apache)

3 Respuestas: