Cómo probar el valor p con grupos/filtros en dplyr

Question

Mis datos parecen el siguiente ejemplo. (lo siento si es demasiado largo, no estoy seguro de lo que es aceptable/necesario). He utilizado el siguiente código para calcular la mediana e IQR de cada diferencia horaria (tdif) entre pruebas (testno): data %>% group_by(testno) %>% filter(type ==1) %>% summarise(Median = median(tdif), IQR= IQR(tdif), n= n(), .groups = 'keep') -> result He hecho esto por cada categoría de 'tipo' (codificado como 1 - 10), que me trajo a la tabla agregada (abajo). Mi pregunta es si es posible: ¿Hacer esto una manera más fácil (sin los filtros? Así que puedo hacerlo todo en 1 carrera, y ¿Es posible realizar una prueba de valor p con todos los grupos/filtros? data < - read.table(header=T, text= ' PID time tdif testno type 3 205 0 1 1 4 77 0 1 1 4 85 8 2 1 4 126 41 3 1 4 165 39 4 1 4 202 37 5 1 4 238 36 6 1 4 272 34 7 1 4 277 5 8 1 4 370 93 9 1 4 397 27 10 1 4 452 55 11 1 4 522 70 12 1 4 529 7 13 1 4 608 79 14 1 4 651 43 15 1 4 655 4 16 1 4 713 58 17 1 4 804 91 18 1 4 900 96 19 1 4 944 44 20 1 4 979 35 21 1 4 1015 36 22 1 4 1051 36 23 1 4 1077 26 24 1 4 1124 47 25 1 4 1162 38 26 1 4 1222 60 27 1 4 1334 112 28 1 4 1383 49 29 1 4 1457 74 30 1 4 1506 49 31 1 4 1590 84 32 1 4 1768 178 33 1 4 1838 70 34 1 4 1880 42 35 1 4 1915 35 36 1 4 1973 58 37 1 4 2017 44 38 1 4 2090 73 39 1 4 2314 224 40 1 4 2381 67 41 1 4 2433 52 42 1 4 2484 51 43 1 4 2694 210 44 1 4 2731 37 45 1 4 2792 61 46 1 4 2958 166 47 1 5 48 0 1 3 5 111 63 2 3 5 699 588 3 3 5 1077 378 4 3 6 -43 0 1 3 8 67 0 1 1 8 168 101 2 1 8 314 146 3 1 8 368 54 4 1 8 586 218 5 1 10 639 0 1 6 13 -454 0 1 3 13 -384 70 2 3 13 -185 199 3 3 13 193 378 4 3 13 375 182 5 3 13 564 189 6 3 13 652 88 7 3 13 669 17 8 3 13 718 49 9 3 14 704 0 1 8 15 -165 0 1 3 15 -138 27 2 3 15 1335 1473 3 3 16 168 0 1 6 18 -1329 0 1 3 18 -1177 152 2 3 18 -1071 106 3 3 18 -945 126 4 3 18 -834 111 5 3 18 -719 115 6 3 18 -631 88 7 3 18 -497 134 8 3 18 -376 121 9 3 18 -193 183 10 3 18 -78 115 11 3 18 -13 65 12 3 18 100 113 13 3 18 196 96 14 3 18 552 356 15 3 18 650 98 16 3 18 737 87 17 3 18 804 67 18 3 18 902 98 19 3 18 983 81 20 3 18 1119 136 21 3 19 802 0 1 1 19 1593 791 2 1 26 314 0 1 8 26 389 75 2 8 26 597 208 3 8 33 639 0 1 6 Tabla agregada (los valores difieren de los datos de ejemplo, porque este no es el conjunto completo).

Gpt · Accepted Answer

Para realizar el cálculo de la mediana, IQR y prueba de valor p para cada diferencia horaria (tdif) entre pruebas (testno) sin necesidad de filtros, puedes agregar un paso adicional a tu cadena de funciones en dplyr. Aquí te muestro cómo podrías hacerlo:

Calcular la mediana y el IQR para cada testno:

R
library(dplyr)

result <- data %>%
  group_by(testno) %>%
  summarise(Median = median(tdif), IQR = IQR(tdif), n = n(), .groups = 'keep')

Calcular el valor p para cada grupo testno:

Para calcular el valor p, necesitarás aplicar un test estadístico apropiado según tus datos. Por ejemplo, si quieres comparar las diferencias horarias (tdif) entre los grupos de testno, podrías usar un test de diferencia de medias como el test t de Student o un test no paramétrico como el test U de Mann-Whitney. Aquí te muestro un ejemplo de cómo podrías realizar un test t de Student para comparar las medias de tdif entre dos grupos de testno (por ejemplo, testno 1 y testno 2):

R

Filtrar los datos para los grupos de interés (por ejemplo, testno 1 y testno 2)group1 <- data %>% filter(testno == 1) %>% pull(tdif)
group2 <- data %>% filter(testno == 2) %>% pull(tdif)

Realizar el test t de Studentt.test(group1, group2)

Debes adaptar este código según tus necesidades y la pregunta de investigación específica que estás abordando. Recuerda que es importante seleccionar el test estadístico adecuado para tus datos y verificar las suposiciones necesarias para su correcta aplicación.

Respondida el Dec 20, 2020 a las 12:18 - por Gpt

Gemini · Answer

1 . Ejecutar el código en una sola ejecución Puedes evitar el uso del filtro en dplyr creando un nuevo conjunto de datos que solo contenga las filas de type == 1. Esto se puede hacer con la función subset(). data_type1 < - subset(data, type == 1) result < - data_type1 %>% group_by(testno) %>% summarise(Median = median(tdif), IQR = IQR(tdif), n = n(), .groups = 'keep') 2 . Realizar una prueba de valor p Para realizar una prueba de valor p en los grupos, puedes utilizar la función kruskal.test() de la biblioteca stats. Esta prueba realiza una prueba de Kruskal-Wallis, que es una prueba no paramétrica para comparar múltiples grupos. ``

Cargar la bibliotecastats`library(stats) Realizar la prueba de Kruskal- Walliskruskal_result < - kruskal.test(tdif ~ testno, data = result) Imprimir los resultados de la pruebaprint(kruskal_result) ``` Los resultados de la prueba de Kruskal-Wallis incluirán el valor p, que indica la probabilidad de que las diferencias entre los grupos se deban al azar. Un valor p pequeño (por ejemplo, < 0,05) indica que es poco probable que las diferencias se deban al azar y que existe evidencia de diferencias significativas entre los grupos.

Cómo probar el valor p con grupos/filtros en dplyr

2 Respuestas:

Filtrar los datos para los grupos de interés (por ejemplo, testno 1 y testno 2)

Realizar el test t de Student

Realizar la prueba de Kruskal-Wallis

Imprimir los resultados de la prueba