Preguntas con Tag: rdd

Los Datasets Distribuidos Resilient (RDDs) son una abstracción de memoria distribuida que permite a los programadores realizar computaciones en memoria en grandes grupos al tiempo que conservan la tolerancia de falla del flujo de datos ...

obtener nombre de archivo y tiempo de modificación/creación de archivos como (key, valor) par en RDD utilizando pyspark

Tengo carpetas con muchos archivos (por ejemplo, más de 100k), algunos archivos pequeños (menos de 1kb) y algunos archivos grandes (por ejemplo, varios MB). Me gustaría utilizar pyspark y esc
python file apache-spark pyspark rdd
codecraftsman
3 años, 4 meses, 29 días

Filtrar valores de matriz utilizando pyspark

Soy nuevo en pyspark y necesito la solución para la siguiente pregunta. En un array [[-1,1,2,4,5],[3,5,6,-6]], eliminar los elementos que son י=0 y obtener un cuadrado de números no cero posi
apache-spark pyspark apache-spark-sql rdd
debugduke
3 años, 4 meses, 28 días