population. This paper describes the use and comparison of some machine learning algorithms with
the aim of offering a window of opportunity in the classification of data in an efficient way. We used
three machine learning algorithms to perform a diagnosis of the PCOS using 18 features extracted
from the “PCOS Dataset” hosted on the Kaggle.com platform. An Artificial Neural Network (ANN)
with 97.5 % F1, a Bayesian algorithm with 97.6 % F1 and a K-Nearest Neighbors (KNN) algorithm
with 100 % F1 were designed. The analysis performed showed that the KNN algorithm classifies the
data used optimally, suggesting that it can be used to obtain diagnostics in laboratory applications
to obtain a complementary evaluation.
Keywords: polycystic ovary, artificial neural network, Bayesian network, KNN, machine learning.
1. Introducción
El Síndrome de Ovario Poliquístico (SOP) es una de las endocrinopatías más comunes entre las
mujeres que se encuentran en edad reproductiva (Guadamuz-Delgado, et al., 2022). Hay estudios
que exponen que esta patología afecta entre el 3-15 % de toda la población femenina (Mubasher-
Hassan, et al., 2020). La principal causa de este trastorno es una anormalidad en los ovarios, pero
algunos agentes adicionales tales como el sobrepeso y factores ambientales pueden influir en el
desarrollo de los síntomas individuales del SOP (Aguayo-González, 2023). Actualmente se han
estado utilizando los Criterios de Rotterdam (2003) para su diagnóstico. Este trastorno es
diagnosticado si se cumplen dos de las tres condiciones que presentan estos criterios: 1)
Hiperandrogenismo clínico o bioquímico, 2) Anormalidades en la ovulación (Oligoovulación
crónica), y 3) Poliquistosis ovárica por ecografía y un volumen ovárico mayor a 10 ml (Carvajal, et
al., 2010).
Esta anomalía es un trastorno endocrino que se diagnostica después de descartar otras patologías
con síntomas similares, como pueden ser la hiperplasia suprarrenal congénita no clásica, tumores
productores de andrógenos, el síndrome de Cushing y otras formas de hiperandrogenismo. Esto
hace que su diagnóstico sea complejo, ya que existe una alta heterogeneidad de su expresión clínica,
Esto toma importancia debido a comorbilidades metabólicas y trastornos reproductivos (Mubasher
Hassan, 2020).
La evidencia sugiere que el hiperandrogenismo es el factor más determinante en la fisiopatología del
SOP, lo que se puede determinar si se observan síntomas como hipertensión, acné, menstruación
irregular y producción inmoderada de andrógenos. Cabe destacar que el SOP es una de las
principales causas de infertilidad femenina, ya que impide la correcta evolución de los folículos.
(Winnykamien et al., 2016).
Actualmente se ha reportado el uso automatizado de imágenes de ultrasonido para la detección de
SOP y hay algunos trabajos de Machine Learning (Alam-Suha et al., 2022). En este trabajo fueron
utilizados tres métodos de Machine Learning: Clasificador Bayesiano Ingenuo (NB), K-Nearest
Neighbors (KNN) y Red Neuronal Artificial (ANN). Para poder hacer uso de estos fue necesario
elegir las principales características responsables del SOP y gracias a ellas lograr crear un modelo
predictivo para la identificación del SOP con la finalidad de generar un algoritmo que sirva como
apoyo a los especialistas de salud y con ello evitar el error humano.