Preguntas con Tag: apache-spark-sql
Apache Spark SQL es una herramienta para "SQL y procesamiento de datos estructurados" en Spark, un sistema de computación de racimo rápido y de uso general. Se puede utilizar para recuperar datos de Hive, Parquet etc. y ejecutar SQL q...
Cómo investigar el error StackOverflow en Spark
Estoy dirigiendo un grupo de 15 trabajadores estándar de Dataproc. Mis datos I/O están en formato Avro.
La última etapa en el trabajo de chispa es guardar datos, que termina con StackOverflow
java
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 6 días
Spark: los datos inusualmente lentos escriben a Cloud Storage
Como etapa final del trabajo de pyspark, necesito guardar 33Gb de datos a Cloud Storage.
Mi grupo está en Dataproc y consta de 15 trabajadores estándar-v4. Estoy trabajando con avro y el códi
apache-spark
pyspark
apache-spark-sql
google-cloud-storage
avro
3 años, 5 meses, 5 días
Cómo dividir el marco de datos de chispa a la lista de datos por colis o condiciones
Tengo miles de millones de marcos de datos de filas, quiero dividir este marco de datos en cientos por valor de algunos cols de etiquetas.
mis datos como este
value|col1|col2|co
scala
dataframe
apache-spark
apache-spark-sql
3 años, 5 meses, 7 días
Pyspark para aplanar una matriz y explotar una estructura para obtener la salida deseada
Tengo un dato con abajo Schema: el atributo índice es Struct -- ratio con array -- ratio cada elemento array dentro de struct
root
|-- id_num: string (nullable = true)
|-- indexes:
arrays
struct
pyspark
apache-spark-sql
3 años, 5 meses, 6 días
pyspark dividir cadena en par de valor clave y extraer ciertos valores
Tengo columna con múltiples pares de valor clave como cadena.
Ex:
rb=99;cs_y1=0;y2_co=CA;y2_r=ON;y2_ct=Kitchener;y2_z=N2N;y2_isp=Bell DSL Internet;y2_org=Bell DSL Internet
</cod
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 3 días
Error Pyspark mientras se ejecuta subquery sql "AnalysisExcepción: u"La columna relacionada no se permite en un predicado de calidad:\nAggregate"
Había escrito una consulta SQL que tiene una subquería en ella. Es una consulta mySQL correcta pero no se implementa en Pyspark
from pyspark import SparkContext, SparkConf
from pyspar
pyspark
apache-spark-sql
3 años, 5 meses, 5 días
Cómo pasar sql. Dataframe como argumento a una función en Scala
Estoy tratando de pasar un Dataframe a una función en la que estoy agregando más columnas en él
Actualmente el df tiene pocas columnas en las que necesito filtrar dentro de la función
Cuando
dataframe
apache-spark-sql
3 años, 5 meses, 5 días
Spark excepción al insertar datosframe resulta en una tabla de colmenas
Este es mi fragmento de código. Estoy recibiendo la siguiente excepción cuando spar.sql(query) está siendo ejecutado.
Mi table_v2 tiene 262 columns. Mi
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 5 días
Consulta para la lista de valores en un json
Json
{
"Event": "StudentMarks",
"Marks Info": {
"Marks": [{
"ID": 1,
"Name": "Sub1",
"Value": "95"
}, {
"ID": 2,
"Name
apache-spark
hive
apache-spark-sql
3 años, 5 meses, 5 días
¿Qué miembro elegirá Spark cuando no se cumplan todos los criterios de selección?
Sabemos que en Spark hay tres tipos de uniones -- Broadcast Join, Shuffle Join y Sort-Merge Join:
cuando la mesa pequeña se une a la mesa grande, Broadcast Join;
cuando una peque
apache-spark
join
apache-spark-sql
3 años, 5 meses, 5 días
Cómo obtener el número de índice de cada mes como una nueva columna [cerrada]
<
python
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 5 días
ventana Partición Por y repartición en pyspark
Tengo un código pequeño en SparkR y me gustaría transformarlo en pyspark. No estoy familiarizado con esta ventanaPartitionBy, y repartition. ¿Podrías ayudarme a saber qué está haciendo este código?
apache-spark
pyspark
apache-spark-sql
sparkr
3 años, 5 meses, 5 días
Cómo convertir el caso a cuando de otro modo en marcos de datos de chispa
Me gustaría reescribir el código teradata para generar marcos de datos usando scala, enfrentando un error "cuando() no se puede aplicar una vez más() se aplica ", Ayuda es apreciada.
scala
apache-spark
apache-spark-sql
teradata
3 años, 5 meses, 6 días
Aggregation after sort(), persist() and limit() in Spark
Estoy tratando de conseguir la suma de una columna de la parte superior n filas en un DataFrame persistido. Por alguna razón, lo siguiente no funciona:
val df = df0.sort(col(
scala
apache-spark
apache-spark-sql
3 años, 5 meses, 6 días
Pyspark filter dataframe si la columna no contiene cadena
Espero que no se le haya pedido antes, al menos no pude encontrarlo. Estoy tratando de excluir filas donde la columna Key no contiene valor 'sd'. A continuación se muestra el ejemplo de trabajo par
python
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 6 días
HIVE JDBC Conexión Usando Pyspark devuelve los nombres de columna como valores de fila
Estoy usando Pyspark para conectarse al VIHE y buscar algunos datos. El problema es que devuelve todas las filas con los valores que son nombres de columna. Está devolviendo nombres de columna corr
pyspark
hive
apache-spark-sql
hiveql
spark-koalas
3 años, 5 meses, 6 días
Filtrar valores de matriz utilizando pyspark
Soy nuevo en pyspark y necesito la solución para la siguiente pregunta.
En un array [[-1,1,2,4,5],[3,5,6,-6]], eliminar los elementos que son י=0 y obtener un cuadrado de números no cero posi
apache-spark
pyspark
apache-spark-sql
rdd
3 años, 5 meses, 6 días
Obtener resultados de valor de la Columna de DataFrame en el objeto 'Column' no se puede llamar
Para el flujo leído en FileStore estoy tratando de comprobar si la primera columna de valor de primera fila es igual a alguna cadena. Desafortunadamente mientras accedo a esta columna de cualquier
dataframe
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 6 días
Apache chispa El valor de entrada de los gastos supera el valor máximo
en nuestra aplicación usamos abajo expresión
df.selectExpr((col_x*8*6)/(1024 * 1024 * 1024 * 60 * 15))
cuando utilizamos arriba obtenemos valor nulo debido a esta part
apache-spark
apache-spark-sql
3 años, 5 meses, 5 días
Spark dataset escribe en 2 directorios diferentes
Tengo un conjunto de datos en chispa partida por una columna ip. Ahora quiero dividir este conjunto de datos en 2 y escribir en HDFS de tal manera que si las particiones totales son <c
apache-spark
hadoop
apache-spark-sql
3 años, 5 meses, 6 días
Pyspark equivalente de pandas toda fucción
Tengo un marco de datos de chispa df:
A B C D
True True True True
True False True True
True None True None
True NaN NaN False
True NaN True True
</
python
pandas
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 7 días
pyspark : Aplanamiento de registros provenientes del archivo de entrada
Tengo el archivo csv de entrada como abajo -
plant_id, system1_id, system2_id, system3_id
A1 s1-111 s2-111 s3-111
A2 s1-222 s2-222 s3-222
A3
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 6 días
Spark SQL - convertir cadena a ASCII
tenemos un problema de uno de los productores empujando algunas cadenas Unicode a un campo que debe ser ASCII. Actualmente el trabajo es configurable pura-sql por lo tanto me gustaría saber si es p
sql
apache-spark
apache-spark-sql
ansi-sql
3 años, 5 meses, 7 días
Conde Distinct Times Out During Left Join
Tengo una tabla de productos y subproductos. Es una mesa bastante pequeña en 122 filas totales y sólo 3 columnas:
| backend | sub_product | product |
|---------|-------------|--------
python
python-3.x
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 5 días
Marco de datos Pyspark con columna XML y múltiples valores dentro: Extraer columnas fuera de ella
Tengo un marco de datos de pyspark donde una columna tiene un XML dentro. Cada XML en una fila parece así, algunos tienen 2 entradas, unos 3 y 4:
Ejemplo de una entrada de fila:
<code
python
xml
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 4 días
Extraer columnas de una lista de listas en pyspark
Estoy atrapado intentando extraer columnas de una lista de listas pero no puedo visualizar cómo hacerlo. Soy bastante nuevo para chispear. Pyspark en Spark 2.4.3.
Tengo un json organizado así
dataframe
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 5 días