Preguntas con Tag: rdd
Los Datasets Distribuidos Resilient (RDDs) son una abstracción de memoria distribuida que permite a los programadores realizar computaciones en memoria en grandes grupos al tiempo que conservan la tolerancia de falla del flujo de datos ...
obtener nombre de archivo y tiempo de modificación/creación de archivos como (key, valor) par en RDD utilizando pyspark
Tengo carpetas con muchos archivos (por ejemplo, más de 100k), algunos archivos pequeños (menos de 1kb) y algunos archivos grandes (por ejemplo, varios MB).
Me gustaría utilizar pyspark y esc
python
file
apache-spark
pyspark
rdd
3 años, 5 meses, 7 días
Filtrar valores de matriz utilizando pyspark
Soy nuevo en pyspark y necesito la solución para la siguiente pregunta.
En un array [[-1,1,2,4,5],[3,5,6,-6]], eliminar los elementos que son י=0 y obtener un cuadrado de números no cero posi
apache-spark
pyspark
apache-spark-sql
rdd
3 años, 5 meses, 6 días