Análisis comparativo de técnicas de machine learning sobre el método de muestreo para la predicción de diabetes
Fecha
2023Metadatos
Mostrar el registro completo del ítemResumen
En siguiente trabajo se realizó con el objeto de aplicar un análisis comparativo
de técnicas de Machine Learning sobre el método de muestreo para la predicción de
la diabetes. Para esto, se realizó una investigación usando un método de enfoque
cuantitativo, aplicado a los datos de un repositorio de base de datos de Kaggle de
medición de factores de diabetes en mujeres de al menos 21 años de herencia
indígena Pima, la misma que consta de 768 ítems, las mismas que han sido
considerados como población para posteriormente ser usada como muestra.
Asimismo, el estudio es de tipo aplicada, con un diseño de investigación experimental
de tipo pre-experimental de un solo grupo, ya que luego de aplicar las técnicas de
Machine Learning a través de métricas como rendimiento; exactitud, precisión,
especificidad, sensibilidad y F1 Score, se podrá verificar los resultados y realizar la
medición.
Para ello, se consideró aplicar la metodología Knowledge Discovery in Databases
(KDD), la misma que está divida de 5 etapas, la primera comienza con la selección de
datos, la segunda y tercera etapa, con el preprocesamiento y transformación de los
datos, en la cuarta etapa se efectúa la minería de datos, aplicado a la presente
investigación, haciendo el entrenamiento en 6 algoritmos de aprendizaje automático
Árbol de decisiones (DT), Random Forest (RF), máquina de vectores de soporte
(SVM), Gradient Boosting Machine (GBM), K-vecino más cercano (K-NN) y Redes
Neuronales (ANN), basando los resultado en los mejores hiperparámetros y por último
en la quinta etapa, se diseñó un software para apoyar en la detección de la diabetes
en función a 5 métricas, obteniendo los resultados en base a 6 algoritmos.
Como resultado se obtuvo que el modelo Random Forest (RF), Gradient Boosting
Machine (GBM) y Árbol de Decisiones (DT) superaron a los demás modelos, el modelo
Random Forest obtuvo un 79,22%, en cuanto a la métrica exactitud, mientras que el
modelo GMB obtuvo un 75,32%, de exactitud, del mismo modo el árbol de decisiones
(DT) obtuvo un 74.09% en cuanto a la precisión. Por otro lado, el KNN, ANN y SVM
fueron los modelos de menor rendimiento en la mayoría de las cinco métricas, KNN
con un 74.02%, ANN con un 63.63 % y SVM con un 73.10% de exactitud. Finalmente,
en función a los resultados obtenidos por las métricas evaluadas se puede afirmar que
el uso de Técnicas de Machine Learning para la predicción de la diabetes, son
favorables para el sector salud.
Colecciones
- Lima Norte [1459]