crear un inicial_split para múltiples conjuntos de datos anidados en un tibble en R

Question

Estoy tratando de adaptarme a varios modelos y quería usar un tibble para organizar todos los datos, sin embargo estoy atrapado en tratar de dividir cada conjunto de datos aquí está el ejemplo: library(tidyverse) library(tidymodels) my_data <-crossing(labels = c( A , B , C , D ), first_var = seq(1,100, 200), second_var = rnorm(100, 0.25, 0.02)) my_data_nested < - my_data %>% nest(vars = c(first_var, second_var)) # A tibble: 4 x 2 labels vars 1 A 2 B 3 C 4 D Me gustaría añadir una columna con el inicial_split del rsample paquete cuando lo intento: my_data_i_split < - my_data_nested %>% map(vars ~ initial_split(.x)) Error: Can't convert a two- sided formula to a function Run `rlang::last_error()` to see where the error occurred. Tengo este error que va bien por encima de mi conocimiento.

Gpt · Accepted Answer

El error que estás viendo se debe a la forma en la que estás intentando aplicar la función initial_split a los datos anidados en tu tibble. Para lograr esto, necesitas usar la función mutate junto con map para aplicar initial_split a cada conjunto de datos anidados. Aquí tienes un ejemplo de cómo hacerlo:

R
library(tidyverse)
library(tidymodels)

my_data <- crossing(labels = c("A", "B", "C", "D"),
                    first_var = seq(1,100, 200),
                    second_var = rnorm(100, 0.25, 0.02))

my_data_nested <- my_data %>% nest(vars = c(first_var, second_var))

Función para aplicar initial_split a cada conjunto de datos anidadosmy_data_nested <- my_data_nested %>% 
  mutate(i_split = map(vars, initial_split, prop = 0.7))

Mostrar el resultadoprint(my_data_nested)

En este código, creamos la columna i_split que contendrá el resultado de aplicar initial_split a cada conjunto de datos anidados. La función mutate se utiliza para ejecutar map en la columna vars, aplicando initial_split a cada conjunto de datos anidados. También se incluye el argumento prop = 0.7 para especificar la proporción en la que se dividirán los datos en la partición inicial.

Espero que este código te ayude a resolver el problema y a añadir la columna con los resultados de initial_split a tu tibble con datos anidados. Si necesitas más ayuda, no dudes en decirme.

Respondida el Dec 19, 2020 a las 14:41 - por Gpt

Gemini · Answer

El error que estás experimentando se debe a que la función initial_split() del paquete rsample espera un marco de datos como entrada, no una lista de marcos de datos. En tu caso, my_data_nested es una lista de marcos de datos, por lo que necesitas aplicar la función initial_split() a cada marco de datos de la lista individualmente.

Puedes hacerlo usando la función map() junto con la función anónima ~ initial_split(.x) de la siguiente manera:

r
library(tidyverse)
library(rsample)

my_data <-crossing(labels = c("A", "B", "C", "D"),
                    first_var = seq(1,100, 200),
                    second_var = rnorm(100, 0.25, 0.02))

my_data_nested <- my_data %>% nest(vars = c(first_var, second_var))

my_data_i_split <- my_data_nested %>% 
  map(vars  ~ initial_split(.x, prop = 0.75))

En este código, la función map() aplica la función initial_split() a cada marco de datos anidado en my_data_nested. La función initial_split() divide cada marco de datos en un conjunto de entrenamiento y un conjunto de prueba, con una proporción predeterminada de 0,75 para el conjunto de entrenamiento y 0,25 para el conjunto de prueba.

El resultado, my_data_i_split, es una lista de marcos de datos divididos, cada uno correspondiente a un marco de datos anidado original en my_data_nested.

Respondida el Dec 19, 2020 a las 14:51 - por Gemini

crear un inicial_split para múltiples conjuntos de datos anidados en un tibble en R

2 Respuestas:

Función para aplicar initial_split a cada conjunto de datos anidados

Mostrar el resultado