Preguntas con Tag: apache-spark

Apache Spark es un motor de procesamiento de datos distribuido de código abierto escrito en Scala proporcionando una API unificada y conjuntos de datos distribuidos a los usuarios para el procesamiento de lotes y streaming. Use casos para Apa...

¿Cómo aislar particiones basadas en una columna?

Estoy buscando realizar un trabajo aislado dentro de una sola partición de un marco de datos Spark. Quiero iterar sobre filas dentro de una sola partición sin ningún otro contenido de partición int

scala apache-spark partition

byteexplorer

3 años, 5 meses, 5 días

¿Hay una solución para encontrar nodos centrales en el gráfico grande más allá de chispa o mapreduce?

Actualmente estoy trabajando gran teoría gráfica más allá de mapreduce/spark. El gráfico es demasiado grande para analizar, así que quiero eliminar algunos nodos centrales, haciendo que el gráfico

apache-spark mapreduce networkx

codecrusader

3 años, 5 meses, 6 días

Cómo investigar el error StackOverflow en Spark

Estoy dirigiendo un grupo de 15 trabajadores estándar de Dataproc. Mis datos I/O están en formato Avro. La última etapa en el trabajo de chispa es guardar datos, que termina con StackOverflow

java apache-spark pyspark apache-spark-sql

cyberscribe

3 años, 5 meses, 5 días

¿Cómo funciona el número de particiones y iteraciones en Spark Word2Vec?

Actualmente estoy entrenando en un gran conjunto de datos usando Spark Word2Vec, implementado en Python. En las entradas para el modelo hay numPartitions y numItertions</co

apache-spark pyspark apache-spark-mllib word2vec

devgeek

3 años, 5 meses, 4 días

Spark: los datos inusualmente lentos escriben a Cloud Storage

Como etapa final del trabajo de pyspark, necesito guardar 33Gb de datos a Cloud Storage. Mi grupo está en Dataproc y consta de 15 trabajadores estándar-v4. Estoy trabajando con avro y el códi

apache-spark pyspark apache-spark-sql google-cloud-storage avro

logicloom

3 años, 5 meses, 5 días

¿Es posible limitar los recursos asignados a una sesión de Spark?

Estoy lanzando sesiones de pySpark con el siguiente código: import findspark findspark.init() from pyspark.sql import SparkSession from pyspark.sql import functions as F from pyspark.

apache-spark pyspark

Brian

3 años, 5 meses, 6 días

Lea múltiples patrones de archivos salvajes durante varios días - pyspark

Tengo 60 días de archivos que necesito cargar y hacer algunos huevos. Puedo cargar 1 patrón para un día dado como este df = spark.read.csv("/data/id/date=20201217/20201217_*_a_id_*.gz

regex apache-spark pyspark wildcard

devdynamox

3 años, 5 meses, 5 días

¿Es la chispa de apache 3.0.1 causa vulnerable de CVE-2020-27216?

Estamos siguiendo la vulnerabilidad en nuestro escáner de seguridad, para la chispa de apache. https://nvd.

apache-spark

binaryblossom

3 años, 5 meses, 6 días

Incapaz de establecer variables de entorno en Spark usando liviano y chisma

Escenario : He establecido un grupo de chispa en mi ambiente de kubernetes : Livy Pod para la presentación de empleos Spark Master Pod Spark Worker Pod for executio

apache-spark kubernetes pyspark livy

cyberjedi

3 años, 5 meses, 6 días

Cómo dividir el marco de datos de chispa a la lista de datos por colis o condiciones

Tengo miles de millones de marcos de datos de filas, quiero dividir este marco de datos en cientos por valor de algunos cols de etiquetas. mis datos como este value|col1|col2|co

scala dataframe apache-spark apache-spark-sql

bitwisewizard

3 años, 5 meses, 7 días

Pyspark para aplanar una matriz y explotar una estructura para obtener la salida deseada

Tengo un dato con abajo Schema: el atributo índice es Struct -- ratio con array -- ratio cada elemento array dentro de struct root |-- id_num: string (nullable = true) |-- indexes:

arrays struct pyspark apache-spark-sql

codecrafty

3 años, 5 meses, 6 días

Cómo resolver el error java.io. NoSerializable ¿Excepción trabajando en el marco de datos?

def URLEnc(input: String): String = { URLEncoder.encode(input, "UTF-8") } val URLEncUDF: UserDefinedFunction = udf(URLEnc(_: String)) val file = spark.read.format("xml") .optio

java scala apache-spark

csscraftsman

3 años, 5 meses, 7 días

Exportar datos de Hadoop utilizando el conector sql-spark (Apache)

Estoy tratando de exportar datos de Hadoop a MS SQL usando Apache Spark SQL Connector como se indica aquí sql-s

sql-server apache-spark hadoop

codercentaur

3 años, 5 meses, 5 días

pyspark dividir cadena en par de valor clave y extraer ciertos valores

Tengo columna con múltiples pares de valor clave como cadena. Ex: rb=99;cs_y1=0;y2_co=CA;y2_r=ON;y2_ct=Kitchener;y2_z=N2N;y2_isp=Bell DSL Internet;y2_org=Bell DSL Internet </cod

apache-spark pyspark apache-spark-sql

quantumquill

3 años, 5 meses, 3 días

Error Pyspark mientras se ejecuta subquery sql "AnalysisExcepción: u"La columna relacionada no se permite en un predicado de calidad:\nAggregate"

Había escrito una consulta SQL que tiene una subquería en ella. Es una consulta mySQL correcta pero no se implementa en Pyspark from pyspark import SparkContext, SparkConf from pyspar

pyspark apache-spark-sql

debugdynamob312

3 años, 5 meses, 4 días

cómo resumir dos acumuladores de salida en scala

Soy capaz de aumentar el acumulador(totalMatchedCitationsCount totalNumUnMatchedCitationsCount) pero incapaz de añadir dos productos acumuladores. val conf = new SparkConf().setAppNam

scala apache-spark

devgeek

3 años, 5 meses, 5 días

obtener nombre de archivo y tiempo de modificación/creación de archivos como (key, valor) par en RDD utilizando pyspark

Tengo carpetas con muchos archivos (por ejemplo, más de 100k), algunos archivos pequeños (menos de 1kb) y algunos archivos grandes (por ejemplo, varios MB). Me gustaría utilizar pyspark y esc

python file apache-spark pyspark rdd

codecraftsman

3 años, 5 meses, 6 días

Cómo pasar sql. Dataframe como argumento a una función en Scala

Estoy tratando de pasar un Dataframe a una función en la que estoy agregando más columnas en él Actualmente el df tiene pocas columnas en las que necesito filtrar dentro de la función Cuando

dataframe apache-spark-sql

compilerhero1251

3 años, 5 meses, 5 días

PySpark - SQL a Pysaprk

Estoy tratando de unir 2 tablas basadas en esta consulta SQL usando pyspark. %sql SELECT c.cust_id, avg(b.gender_score) AS pub_masc FROM df c LEFT JOIN pub_df b ON c.pp = b.pp

sql apache-spark pyspark group-by aggregate

cyberscribe

3 años, 5 meses, 6 días

Spark excepción al insertar datosframe resulta en una tabla de colmenas

Este es mi fragmento de código. Estoy recibiendo la siguiente excepción cuando spar.sql(query) está siendo ejecutado. Mi table_v2 tiene 262 columns. Mi

apache-spark pyspark apache-spark-sql

Brian

3 años, 5 meses, 5 días

PySpark: Multiply 2 tablas por los nombres de columna, suma, y añadir una constante

Tengo dos marcos de datos, tratando de multiplicar múltiples columnas según los nombres de las columnas, resumir el total de las columnas de destino, y luego añadir una constante como los valores f

python apache-spark pyspark

scriptsphinx

3 años, 5 meses, 4 días

Consulta para la lista de valores en un json

Json { "Event": "StudentMarks", "Marks Info": { "Marks": [{ "ID": 1, "Name": "Sub1", "Value": "95" }, { "ID": 2, "Name

apache-spark hive apache-spark-sql

bytebison

3 años, 5 meses, 5 días

¿Qué miembro elegirá Spark cuando no se cumplan todos los criterios de selección?

Sabemos que en Spark hay tres tipos de uniones -- Broadcast Join, Shuffle Join y Sort-Merge Join: cuando la mesa pequeña se une a la mesa grande, Broadcast Join; cuando una peque

apache-spark join apache-spark-sql

binarymaestro

3 años, 5 meses, 5 días

Cómo obtener el número de índice de cada mes como una nueva columna [cerrada]

python apache-spark pyspark apache-spark-sql

htmlhelix

3 años, 5 meses, 4 días

Java Objeto que no se puede llamar al usar chismes

Estoy tratando de usar Sparkmeausre para comprobar el rendimiento de mi código Pyspark. Estoy usando la edición de Pycharm Community en las ventanas 10, con Pyspark correctamente configurado. Yo hi

apache-spark pyspark pycharm

byteexplorer

3 años, 5 meses, 4 días

ventana Partición Por y repartición en pyspark

Tengo un código pequeño en SparkR y me gustaría transformarlo en pyspark. No estoy familiarizado con esta ventanaPartitionBy, y repartition. ¿Podrías ayudarme a saber qué está haciendo este código?

apache-spark pyspark apache-spark-sql sparkr

markupmaestro

3 años, 5 meses, 4 días

Py4JJava Error al probar Pyspark en Jupyter notebook en una sola máquina

Soy nuevo en Spark y recientemente lo instalé en un mac (con Python 2.7 en el sistema) usando homebrew: brew install apache-spark y luego instalado Pyspark usando pip3

apache-spark pyspark jupyter-notebook homebrew

binarybrainiac

3 años, 5 meses, 2 días

Cómo convertir el caso a cuando de otro modo en marcos de datos de chispa

Me gustaría reescribir el código teradata para generar marcos de datos usando scala, enfrentando un error "cuando() no se puede aplicar una vez más() se aplica ", Ayuda es apreciada.

scala apache-spark apache-spark-sql teradata

pixelprodigy

3 años, 5 meses, 6 días

Aggregation after sort(), persist() and limit() in Spark

Estoy tratando de conseguir la suma de una columna de la parte superior n filas en un DataFrame persistido. Por alguna razón, lo siguiente no funciona: val df = df0.sort(col(

scala apache-spark apache-spark-sql

nodenomad

3 años, 5 meses, 6 días

Cómo filtrar después de dividir() en rdd chispa scala?

1,John,NY 2,Bill,FL 3,Harry,TX Tengo un archivo de texto con datos anteriores. val rdd = sc.textFile("/path").map(x=>(x.split(",")(0).toInt,x.split(",")(1),x.s

apache-spark filter split

algorithmwizard

3 años, 5 meses, 6 días

Cómo crear una expresión o condición de un valor de cadena dentro del marco de datos de chispa

Estoy tratando de filtrar una columna en dataframe usando función filter(). Y la condición para el filtro se guarda en una variable de cadena como abajo. val condition = ">10" val out

apache-spark

algorithmwhiz

3 años, 5 meses, 5 días

Pyspark filter dataframe si la columna no contiene cadena

Espero que no se le haya pedido antes, al menos no pude encontrarlo. Estoy tratando de excluir filas donde la columna Key no contiene valor 'sd'. A continuación se muestra el ejemplo de trabajo par

python apache-spark pyspark apache-spark-sql

syntaxsculptor

3 años, 5 meses, 6 días

HIVE JDBC Conexión Usando Pyspark devuelve los nombres de columna como valores de fila

Estoy usando Pyspark para conectarse al VIHE y buscar algunos datos. El problema es que devuelve todas las filas con los valores que son nombres de columna. Está devolviendo nombres de columna corr

pyspark hive apache-spark-sql hiveql spark-koalas

htmlhero

3 años, 5 meses, 6 días

Filtrar valores de matriz utilizando pyspark

Soy nuevo en pyspark y necesito la solución para la siguiente pregunta. En un array [[-1,1,2,4,5],[3,5,6,-6]], eliminar los elementos que son י=0 y obtener un cuadrado de números no cero posi

apache-spark pyspark apache-spark-sql rdd

debugduke

3 años, 5 meses, 6 días

Pandas udf error on EMR: class "io.netty.buffer.ArrowBuf"'

Estoy tratando de usar un pandas udf en un cuaderno de Jupyter en AWS EMR para nada. Primero intenté usar una función que hice, pero no pude conseguir que funcionara, así que intenté algunos ejempl

apache-spark pyspark amazon-emr pyarrow

pixelpilot

3 años, 5 meses, 6 días

Nombres de columna de partición en conflicto detectados Pyspark Databricks

Estoy tratando de leer un archivo csv con pyspark en databricks. marketing Comienzo Fecha es este formato yyyyMMdd y lastweek = marketingStartDate -7days rea

apache-spark pyspark databricks partitioning azure-blob-storage

pixelprodigy50bb

3 años, 5 meses, 6 días

Obtener resultados de valor de la Columna de DataFrame en el objeto 'Column' no se puede llamar

Para el flujo leído en FileStore estoy tratando de comprobar si la primera columna de valor de primera fila es igual a alguna cadena. Desafortunadamente mientras accedo a esta columna de cualquier

dataframe apache-spark pyspark apache-spark-sql

binaryblossom

3 años, 5 meses, 6 días

Apache chispa El valor de entrada de los gastos supera el valor máximo

en nuestra aplicación usamos abajo expresión df.selectExpr((col_x*8*6)/(1024 * 1024 * 1024 * 60 * 15)) cuando utilizamos arriba obtenemos valor nulo debido a esta part

apache-spark apache-spark-sql

scriptsorcererf493

3 años, 5 meses, 5 días

Spark dataset escribe en 2 directorios diferentes

Tengo un conjunto de datos en chispa partida por una columna ip. Ahora quiero dividir este conjunto de datos en 2 y escribir en HDFS de tal manera que si las particiones totales son <c

apache-spark hadoop apache-spark-sql

techsavvypro

3 años, 5 meses, 6 días

Pyspark equivalente de pandas toda fucción

Tengo un marco de datos de chispa df: A B C D True True True True True False True True True None True None True NaN NaN False True NaN True True </

python pandas apache-spark pyspark apache-spark-sql

devepicenter

3 años, 5 meses, 6 días

¿Se distribuye la implementación de Word2Vec Spark?

Soy relativamente nuevo en Spark y tengo algunas dificultades para entender Spark ML. El problema que tengo es que tengo 3TB de texto, que quiero entrenar un modelo de Word2Vec. El servidor e

apache-spark pyspark nlp word2vec apache-spark-mllib

binarymaestro

3 años, 5 meses, 5 días

Spark Scala - Winsorize DataFrame columns within groups

Estoy preprocesando datos para entradas de aprendizaje automático, una columna de valor objetivo, llámalo "precio" tiene muchos outliers, y en lugar de winsorizing precio sobre todo el conjunto Qui

scala apache-spark statistics data-science

quantumcoder403a

3 años, 5 meses, 6 días

pyspark : Aplanamiento de registros provenientes del archivo de entrada

Tengo el archivo csv de entrada como abajo - plant_id, system1_id, system2_id, system3_id A1 s1-111 s2-111 s3-111 A2 s1-222 s2-222 s3-222 A3

apache-spark pyspark apache-spark-sql

syntaxsensei8acf

3 años, 5 meses, 6 días

Cómo escribir streaming DataFrame en múltiples sumideros en Spark Estructurado Streaming

Tengo un conjunto de reglas SQL que necesito aplicar en un marco de datos de streaming dentro foreachBatch(). Después de aplicar esas reglas, el marco de datos resultante/filtrado debe

apache-spark spark-structured-streaming

quantumcoder403a

3 años, 5 meses, 5 días

SQL Query to Py(spark)

Tengo la siguiente consulta SQL que quiero convertir a pyspark. Quiero tomar dos columnas pp y género y hacer lo siguiente en pyspark %sql SELECT pp , SUM(CASE WHEN

sql apache-spark pyspark count aggregation

geekglitcher1735

3 años, 5 meses, 7 días

Spark SQL - convertir cadena a ASCII

tenemos un problema de uno de los productores empujando algunas cadenas Unicode a un campo que debe ser ASCII. Actualmente el trabajo es configurable pura-sql por lo tanto me gustaría saber si es p

sql apache-spark apache-spark-sql ansi-sql

codergeek24

3 años, 5 meses, 7 días

Conde Distinct Times Out During Left Join

Tengo una tabla de productos y subproductos. Es una mesa bastante pequeña en 122 filas totales y sólo 3 columnas: | backend | sub_product | product | |---------|-------------|--------

python python-3.x apache-spark pyspark apache-spark-sql

codechampion

3 años, 5 meses, 5 días

Marco de datos Pyspark con columna XML y múltiples valores dentro: Extraer columnas fuera de ella

Tengo un marco de datos de pyspark donde una columna tiene un XML dentro. Cada XML en una fila parece así, algunos tienen 2 entradas, unos 3 y 4: Ejemplo de una entrada de fila: <code

python xml apache-spark pyspark apache-spark-sql

techwizkid

3 años, 5 meses, 3 días

Creación de estructuras con valores de columna

Estoy tratando de convertir mi dataframe en JSON para que pueda ser empujado a ElasticSearch. Así es como mi dataframe parece: Provider Market Avg. Deviation XM NY

apache-spark

phpphoenix

3 años, 5 meses, 6 días

Extraer columnas de una lista de listas en pyspark

Estoy atrapado intentando extraer columnas de una lista de listas pero no puedo visualizar cómo hacerlo. Soy bastante nuevo para chispear. Pyspark en Spark 2.4.3. Tengo un json organizado así

dataframe apache-spark pyspark apache-spark-sql

devdynamox

3 años, 5 meses, 5 días