Preguntas con Tag: pyspark
El Spark Python API (PySpark) expone el modelo de programación Apache Spark a Python.
Cómo investigar el error StackOverflow en Spark
Estoy dirigiendo un grupo de 15 trabajadores estándar de Dataproc. Mis datos I/O están en formato Avro.
La última etapa en el trabajo de chispa es guardar datos, que termina con StackOverflow
java
apache-spark
pyspark
apache-spark-sql
3 años, 4 meses, 28 días
¿Este DynamicFrame se une al comportamiento intencional? ¿O es un bicho?
El comportamiento de unión para un marco dinámico es diferente de lo que esperaba. Ofrecemos dos listas de columnas al método de unión, y parece que si las columnas de la primera coinciden con cual
dataframe
join
pyspark
aws-glue
3 años, 4 meses, 27 días
Pyspark - operación de filtro equivalente de dataframe da diferente salida
Estoy enfrentando un problema particularmente extraño mientras disparando consultas de filtros en un marco de datos de chispa. Aquí hay una captura del comando de filtro que estoy tratando de ejecu
dataframe
hadoop
pyspark
3 años, 4 meses, 27 días
¿Cómo funciona el número de particiones y iteraciones en Spark Word2Vec?
Actualmente estoy entrenando en un gran conjunto de datos usando Spark Word2Vec, implementado en Python.
En las entradas para el modelo hay numPartitions y numItertions</co
apache-spark
pyspark
apache-spark-mllib
word2vec
3 años, 4 meses, 27 días
Spark: los datos inusualmente lentos escriben a Cloud Storage
Como etapa final del trabajo de pyspark, necesito guardar 33Gb de datos a Cloud Storage.
Mi grupo está en Dataproc y consta de 15 trabajadores estándar-v4. Estoy trabajando con avro y el códi
apache-spark
pyspark
apache-spark-sql
google-cloud-storage
avro
3 años, 4 meses, 28 días
¿Es posible limitar los recursos asignados a una sesión de Spark?
Estoy lanzando sesiones de pySpark con el siguiente código:
import findspark
findspark.init()
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.
apache-spark
pyspark
3 años, 4 meses, 29 días
Lea múltiples patrones de archivos salvajes durante varios días - pyspark
Tengo 60 días de archivos que necesito cargar y hacer algunos huevos. Puedo cargar 1 patrón para un día dado como este
df = spark.read.csv("/data/id/date=20201217/20201217_*_a_id_*.gz
regex
apache-spark
pyspark
wildcard
3 años, 4 meses, 28 días
Incapaz de establecer variables de entorno en Spark usando liviano y chisma
Escenario :
He establecido un grupo de chispa en mi ambiente de kubernetes :
Livy Pod para la presentación de empleos
Spark Master Pod
Spark Worker Pod for executio
apache-spark
kubernetes
pyspark
livy
3 años, 4 meses, 29 días
Pyspark para aplanar una matriz y explotar una estructura para obtener la salida deseada
Tengo un dato con abajo Schema: el atributo índice es Struct -- ratio con array -- ratio cada elemento array dentro de struct
root
|-- id_num: string (nullable = true)
|-- indexes:
arrays
struct
pyspark
apache-spark-sql
3 años, 4 meses, 29 días
Spark Schema No ser usado para Parquet Write
He estado tratando con un problema relacionado con la escritura de un archivo Parquet en Spark, cuando el archivo de entrada es Parquet también y contiene algunos nombres de columna inválidos.<
parquet
pyspark
3 años, 4 meses, 28 días
pyspark dividir cadena en par de valor clave y extraer ciertos valores
Tengo columna con múltiples pares de valor clave como cadena.
Ex:
rb=99;cs_y1=0;y2_co=CA;y2_r=ON;y2_ct=Kitchener;y2_z=N2N;y2_isp=Bell DSL Internet;y2_org=Bell DSL Internet
</cod
apache-spark
pyspark
apache-spark-sql
3 años, 4 meses, 26 días
Partición por columnas: datos que se truncan a otra partición
Estoy usando repartitionByRange en PySpark mientras ahorra más de 2.000 CSV.
df.repartitionByRange(, col).write\
.option("sep
pyspark
partitioning
azure-databricks
3 años, 4 meses, 28 días
Error Pyspark mientras se ejecuta subquery sql "AnalysisExcepción: u"La columna relacionada no se permite en un predicado de calidad:\nAggregate"
Había escrito una consulta SQL que tiene una subquería en ella. Es una consulta mySQL correcta pero no se implementa en Pyspark
from pyspark import SparkContext, SparkConf
from pyspar
pyspark
apache-spark-sql
3 años, 4 meses, 27 días
obtener nombre de archivo y tiempo de modificación/creación de archivos como (key, valor) par en RDD utilizando pyspark
Tengo carpetas con muchos archivos (por ejemplo, más de 100k), algunos archivos pequeños (menos de 1kb) y algunos archivos grandes (por ejemplo, varios MB).
Me gustaría utilizar pyspark y esc
python
file
apache-spark
pyspark
rdd
3 años, 5 meses, 0 días
PySpark - SQL a Pysaprk
Estoy tratando de unir 2 tablas basadas en esta consulta SQL usando pyspark.
%sql
SELECT c.cust_id, avg(b.gender_score) AS pub_masc
FROM df c
LEFT JOIN pub_df b
ON c.pp = b.pp
sql
apache-spark
pyspark
group-by
aggregate
3 años, 5 meses, 0 días
Spark excepción al insertar datosframe resulta en una tabla de colmenas
Este es mi fragmento de código. Estoy recibiendo la siguiente excepción cuando spar.sql(query) está siendo ejecutado.
Mi table_v2 tiene 262 columns. Mi
apache-spark
pyspark
apache-spark-sql
3 años, 4 meses, 28 días
PySpark: Multiply 2 tablas por los nombres de columna, suma, y añadir una constante
Tengo dos marcos de datos, tratando de multiplicar múltiples columnas según los nombres de las columnas, resumir el total de las columnas de destino, y luego añadir una constante como los valores f
python
apache-spark
pyspark
3 años, 4 meses, 27 días
Cómo obtener el número de índice de cada mes como una nueva columna [cerrada]
<
python
apache-spark
pyspark
apache-spark-sql
3 años, 4 meses, 27 días
Java Objeto que no se puede llamar al usar chismes
Estoy tratando de usar Sparkmeausre para comprobar el rendimiento de mi código Pyspark. Estoy usando la edición de Pycharm Community en las ventanas 10, con Pyspark correctamente configurado. Yo hi
apache-spark
pyspark
pycharm
3 años, 4 meses, 27 días
ventana Partición Por y repartición en pyspark
Tengo un código pequeño en SparkR y me gustaría transformarlo en pyspark. No estoy familiarizado con esta ventanaPartitionBy, y repartition. ¿Podrías ayudarme a saber qué está haciendo este código?
apache-spark
pyspark
apache-spark-sql
sparkr
3 años, 4 meses, 27 días
Py4JJava Error al probar Pyspark en Jupyter notebook en una sola máquina
Soy nuevo en Spark y recientemente lo instalé en un mac (con Python 2.7 en el sistema) usando homebrew:
brew install apache-spark
y luego instalado Pyspark usando pip3
apache-spark
pyspark
jupyter-notebook
homebrew
3 años, 4 meses, 25 días
Pyspark no puede encontrar csv en docker
Soy nuevo en Docker y Pyspark...
Tengo una imagen de docker que funciona en pitón3.7-alpina. Por ahora solo quiero leer un archivo csv en un marco de datos de chispa
spark =
docker
csv
pyspark
3 años, 4 meses, 25 días
Pyspark filter dataframe si la columna no contiene cadena
Espero que no se le haya pedido antes, al menos no pude encontrarlo. Estoy tratando de excluir filas donde la columna Key no contiene valor 'sd'. A continuación se muestra el ejemplo de trabajo par
python
apache-spark
pyspark
apache-spark-sql
3 años, 4 meses, 29 días
Para el bucle no mantener el orden a través de iteraciones (Python)
Supuestamente, un bucle siempre debe mantener orden a través de iteraciones; sin embargo, es
python
pandas
for-loop
pyspark
iteration
3 años, 4 meses, 29 días
HIVE JDBC Conexión Usando Pyspark devuelve los nombres de columna como valores de fila
Estoy usando Pyspark para conectarse al VIHE y buscar algunos datos. El problema es que devuelve todas las filas con los valores que son nombres de columna. Está devolviendo nombres de columna corr
pyspark
hive
apache-spark-sql
hiveql
spark-koalas
3 años, 4 meses, 29 días
Filtrar valores de matriz utilizando pyspark
Soy nuevo en pyspark y necesito la solución para la siguiente pregunta.
En un array [[-1,1,2,4,5],[3,5,6,-6]], eliminar los elementos que son י=0 y obtener un cuadrado de números no cero posi
apache-spark
pyspark
apache-spark-sql
rdd
3 años, 4 meses, 29 días
Pandas udf error on EMR: class "io.netty.buffer.ArrowBuf"'
Estoy tratando de usar un pandas udf en un cuaderno de Jupyter en AWS EMR para nada.
Primero intenté usar una función que hice, pero no pude conseguir que funcionara, así que intenté algunos ejempl
apache-spark
pyspark
amazon-emr
pyarrow
3 años, 4 meses, 29 días
Nombres de columna de partición en conflicto detectados Pyspark Databricks
Estoy tratando de leer un archivo csv con pyspark en databricks.
marketing Comienzo Fecha es este formato yyyyMMdd y lastweek = marketingStartDate -7days
rea
apache-spark
pyspark
databricks
partitioning
azure-blob-storage
3 años, 4 meses, 29 días
¿Es reducir el método que requiere inicializador?
Estoy tratando de adjuntar un número arbitrario de marcos de datos PySpark juntos.
Esto es intento con el union_all función a continuación:
from functools import reduce
f
python
python-3.x
dataframe
pyspark
3 años, 4 meses, 28 días
Obtener resultados de valor de la Columna de DataFrame en el objeto 'Column' no se puede llamar
Para el flujo leído en FileStore estoy tratando de comprobar si la primera columna de valor de primera fila es igual a alguna cadena. Desafortunadamente mientras accedo a esta columna de cualquier
dataframe
apache-spark
pyspark
apache-spark-sql
3 años, 4 meses, 29 días
Pyspark equivalente de pandas toda fucción
Tengo un marco de datos de chispa df:
A B C D
True True True True
True False True True
True None True None
True NaN NaN False
True NaN True True
</
python
pandas
apache-spark
pyspark
apache-spark-sql
3 años, 5 meses, 0 días
Recorra columnas en un marco de datos y agrega una nueva columna al marco de datos con el primer valor no nulo encontrado. Usando PySpark
Soy nuevo en PySpark intentando averiguar cómo lograr los resultados deseados a continuación.
Tengo un marco de datos que contiene varias columnas. Quiero bucle a través de columnas id1, id2
dataframe
pyspark
3 años, 4 meses, 28 días
¿Se distribuye la implementación de Word2Vec Spark?
Soy relativamente nuevo en Spark y tengo algunas dificultades para entender Spark ML.
El problema que tengo es que tengo 3TB de texto, que quiero entrenar un modelo de Word2Vec. El servidor e
apache-spark
pyspark
nlp
word2vec
apache-spark-mllib
3 años, 4 meses, 29 días
pyspark : Aplanamiento de registros provenientes del archivo de entrada
Tengo el archivo csv de entrada como abajo -
plant_id, system1_id, system2_id, system3_id
A1 s1-111 s2-111 s3-111
A2 s1-222 s2-222 s3-222
A3
apache-spark
pyspark
apache-spark-sql
3 años, 4 meses, 29 días
SQL Query to Py(spark)
Tengo la siguiente consulta SQL que quiero convertir a pyspark. Quiero tomar dos columnas pp y género y hacer lo siguiente en pyspark
%sql
SELECT pp
, SUM(CASE WHEN
sql
apache-spark
pyspark
count
aggregation
3 años, 5 meses, 0 días
Conde Distinct Times Out During Left Join
Tengo una tabla de productos y subproductos. Es una mesa bastante pequeña en 122 filas totales y sólo 3 columnas:
| backend | sub_product | product |
|---------|-------------|--------
python
python-3.x
apache-spark
pyspark
apache-spark-sql
3 años, 4 meses, 28 días
Marco de datos Pyspark con columna XML y múltiples valores dentro: Extraer columnas fuera de ella
Tengo un marco de datos de pyspark donde una columna tiene un XML dentro. Cada XML en una fila parece así, algunos tienen 2 entradas, unos 3 y 4:
Ejemplo de una entrada de fila:
<code
python
xml
apache-spark
pyspark
apache-spark-sql
3 años, 4 meses, 26 días
Extraer columnas de una lista de listas en pyspark
Estoy atrapado intentando extraer columnas de una lista de listas pero no puedo visualizar cómo hacerlo. Soy bastante nuevo para chispear. Pyspark en Spark 2.4.3.
Tengo un json organizado así
dataframe
apache-spark
pyspark
apache-spark-sql
3 años, 4 meses, 28 días