Predecir sólo un valor

Question

Soy casi nuevo en ML y no estoy seguro de si alguien podría ayudarme: Estoy usando cuidado para predecir el comportamiento de una variable binaria. Después de analizar los predictores, he excluido un conjunto de esos predictores (basados en factores de correlación y distribución) y luego he centrado y escalado valores de predictores (todos ellos son valores cuantitativos). El siguiente paso fue definir la hiperametría para el modelo esvmlinear. Todo estaba bien hasta hacer la predicción: Todos los valores predichos están bien (posible OK / KO). y la matriz de confusión no ofrece ningún valor KO (???????  + positive =  OK ) Confusion Matrix and Statistics Reference Prediction KO OK KO 0 0 OK 82 259 Accuracy : 0.7595 95% CI : (0.7106, 0.8039) No Information Rate : 0.7595 P-Value [Acc > NIR] : 0.5296 Kappa : 0 Mcnemar's Test P-Value : <2e-16 Sensitivity : 1.0000 Specificity : 0.0000 Pos Pred Value : 0.7595 Neg Pred Value : NaN Prevalence : 0.7595 Detection Rate : 0.7595 Detection Prevalence : 1.0000 Balanced Accuracy : 0.5000 'Positive' Class : OK He comprobado en todas partes el problema pero no tuve buena suerte. Tal vez alguien de ustedes podría compartir conmigo, qué problema debería enfocarse y trataré de identificarlo y leer sobre cómo corregirlo correctamente. Muchas gracias por adelantado Xeimos

Gpt · Accepted Answer

Parece que estás experimentando un problema de desequilibrio de clases en tu modelo de Machine Learning. El desequilibrio de clases ocurre cuando una clase en tus datos tiene muchas más instancias que la otra clase, lo que puede afectar negativamente la capacidad de tu modelo para predecir con precisión la clase minoritaria.

En tu caso, la matriz de confusión muestra que no se están prediciendo correctamente los valores de la clase "KO". Esto puede ser resultado del desequilibrio de clases en tus datos o de otros problemas en la configuración de tu modelo.

Aquí hay algunas sugerencias para abordar este problema:

Balanceo de clases: Puedes intentar aplicar técnicas de balanceo de clases como la submuestreo, sobremuestreo o el uso de algoritmos específicos para tratar con desequilibrios, como Random Forest, Gradient Boosting, entre otros.

Ajuste de hiperparámetros: Es importante revisar la configuración de los hiperparámetros de tu modelo y asegurarte de que estén optimizados para manejar el desequilibrio de clases.

Selección de características: Asegúrate de haber seleccionado las características más relevantes para tu modelo y considerar si alguna característica relacionada con la clase "KO" puede estar siendo excluida injustamente.

Validación cruzada estratificada: al validar tu modelo, utiliza técnicas como la validación cruzada estratificada para asegurarte de que el desequilibrio de clases se mantenga en las divisiones de entrenamiento y prueba.

Explorar otras métricas de evaluación: Además de la precisión, considera utilizar otras métricas como la sensibilidad, especificidad o el área bajo la curva ROC para evaluar el rendimiento de tu modelo de manera más integral.

Espero que estas sugerencias te ayuden a identificar y abordar el problema que estás experimentando. ¡Buena suerte con tu modelo de Machine Learning!

Respondida el Dec 18, 2020 a las 08:26 - por Gpt

Gemini · Answer

Posibles problemas: Desequilibrio de clases: La matriz de confusión muestra que todos los valores predichos son OK, lo que sugiere que el modelo puede estar prediciendo solo la clase mayoritaria (OK) debido a un desequilibrio de clases en los datos de entrenamiento. Hiperparámetros del modelo: Los hiperparámetros del modelo (por ejemplo, el parámetro C en SVM) pueden estar mal ajustados, lo que lleva a una predicción deficiente. Valores atípicos o datos ruidosos: Los valores atípicos o los datos ruidosos en los datos de entrenamiento pueden sesgar el modelo. Subajuste o sobreajuste: El modelo puede estar subajustado (no es lo suficientemente complejo) o sobreajustado (demasiado complejo) a los datos de entrenamiento. Pasos para solucionar problemas: Verifica el desequilibrio de clases: Comprueba la distribución de clases en tus datos de entrenamiento. Si está desequilibrado, considera utilizar técnicas de muestreo para equilibrar las clases. Ajusta los hiperparámetros: Experimenta con diferentes combinaciones de hiperparámetros para encontrar el mejor ajuste para tus datos. Elimina valores atípicos y datos ruidosos: Identifica y elimina o trata los valores atípicos y los datos ruidosos que puedan estar afectando el modelo. Evalúa el subajuste o el sobreajuste: Utiliza técnicas de validación cruzada o conjuntos de datos de prueba independientes para evaluar si el modelo está subajustado o sobreajustado. Ajusta la complejidad del modelo o los algoritmos de regularización según sea necesario. Considera otros modelos:* Si los problemas anteriores no se resuelven, considera probar otros modelos de clasificación, como árboles de decisión o regresión logística, para ver si producen mejores resultados.

Predecir sólo un valor

2 Respuestas: