distinta y Over partición

Question

Estoy trabajando en una consulta en bigquery y tengo el siguiente problema. La consulta que tengo es la siguiente: SELECT DISTINCT (concat(rut,created_at)),*,ROW_NUMBER () OVER (PARTITION BY rut ORDER BY created_at ASC) AS ranking FROM table WHERE DATE(created_at) <=  2020-12-03  order by rut,ranking el problema es que el  DISCINT  no elimina los datos duplicados, en lugar de eliminar la PARTITION OVER y dejar la consulta como sigue, si elimina los datos repetidos. SELECT DISTINCT (concat(rut,created_at)) ,* FROM table WHERE DATE(created_at) <=  2020-12-03  order by rut claramente es un problema de cómo funciona la discuta y la OVER PARTITION, pero no puedo encontrar una solución

debugdynamo · Accepted Answer

tienes que hacer esto: select * ,ROW_NUMBER () OVER (PARTITION BY rut ORDER BY created_at ASC) AS ranking from ( SELECT DISTINCT (concat(rut,created_at)),* FROM table WHERE DATE(created_at) <=  2020-12-03  ) tt order by rut,ranking

Gpt · Answer

El motivo por el cual el uso de DISTINCT y ROWNUMBER con OVER PARTITION no elimina los datos duplicados en tu consulta es porque la función ROWNUMBER genera un valor único para cada fila dentro de cada partición definida por la cláusula PARTITION BY. Por lo tanto, aunque cada fila tenga un valor único en la columna created_at al concatenarse con el rut, cada fila seguirá teniendo un valor distinto en la columna ranking, lo que impide que la función DISTINCT pueda eliminar duplicados.

Para lograr lo que deseas, es necesario realizar un enfoque diferente. Una opción podría ser usar una subconsulta para calcular el ranking antes de realizar el DISTINCT. Aquí te muestro un ejemplo de cómo podrías ajustar tu consulta:

sql
WITH ranked_data AS (
  SELECT CONCAT(rut, created_at) AS concat_rut_created_at,
         ,
         ROW_NUMBER() OVER (PARTITION BY rut ORDER BY created_at ASC) AS ranking
  FROM table
  WHERE DATE(created_at) <= "2020-12-03"
)
SELECT DISTINCT concat_rut_created_at, 
FROM ranked_data
ORDER BY rut, ranking;

En este caso, primero calculamos el ranking utilizando la función ROWNUMBER en una subconsulta llamada rankeddata. Luego, aplicamos la función DISTINCT sobre la columna concatenada rut y created_at en la subconsulta ya con el ranking calculado.

Espero que esta solución te ayude a resolver el problema que estás enfrentando en tu consulta en BigQuery. Si tienes alguna otra pregunta o inquietud, ¡no dudes en decírmelo!

Respondida el Dec 19, 2020 a las 15:53 - por Gpt

Gemini · Answer

La consulta que has proporcionado intenta utilizar DISTINCT junto con OVER PARTITION, lo cual no es compatible. Aquí tienes una explicación de lo que está ocurriendo y una posible solución:

Comportamiento de DISTINCT y OVER PARTITION:

DISTINCT: Elimina filas duplicadas basadas en los valores de las columnas especificadas. OVER PARTITION: Divide los datos en particiones basadas en valores de columna especificados y aplica una función de agregación o de ventana dentro de cada partición.

Cuando se utilizan juntas, estas funciones pueden entrar en conflicto porque:

DISTINCT intenta eliminar duplicados en todo el conjunto de datos. OVER PARTITION mantiene los datos separados dentro de las particiones, impidiendo que DISTINCT elimine duplicados entre particiones.

Solución:

Para eliminar duplicados correctamente, debes utilizar una de las siguientes opciones:

Opción 1: Quitar OVER PARTITION

Como has observado, quitar la cláusula OVER PARTITION (como hiciste en tu segunda consulta) permitirá que DISTINCT funcione correctamente y elimine duplicados en todo el conjunto de datos.

Opción 2: Agrupar por las columnas necesarias

Otra opción es agrupar los datos por las columnas que deseas utilizar para eliminar duplicados y luego aplicar DISTINCT a los resultados agrupados. Por ejemplo:


SELECT DISTINCT rut, created_at
FROM (
  SELECT rut, created_at, ROW_NUMBER () OVER (PARTITION BY rut ORDER BY created_at ASC) AS ranking 
  FROM table 
  WHERE DATE(created_at) <= "2020-12-03" 
) AS subquery

En esta consulta, la subconsulta agrupa los datos por rut y created_at y asigna un número de fila a cada fila dentro de cada partición. Luego, la consulta principal aplica DISTINCT a los resultados agrupados, eliminando eficazmente los duplicados.

Respondida el Dec 19, 2020 a las 15:55 - por Gemini

distinta y Over partición

3 Respuestas: