Assessing the efficacy of convolutional neural networks for Pap smear classification: a real world analysis
Resumo
Lesões cervicais não detectadas podem evoluir para câncer, uma das principais causas de mortalidade entre mulheres no mundo. Embora a análise automatizada de imagens de Papanicolaou (Papanicolau) por meio de redes neurais convolucionais (CNNs) tenha demonstrado potencial significativo para rastreamento, a maioria dos estudos existentes baseia-se em conjuntos de dados únicos e selecionados. Esse aspecto limita a generalização do modelo devido ao ruído e à variabilidade inerentes à citologia clínica no mundo real. Avaliamos três arquiteturas de CNN (VGG16, ResNet50 e InceptionV3) em quatro conjuntos de dados de Papanicolaou selecionados, utilizando validação cruzada estratificada de 5-folds. Para cada conjunto de dados, o modelo com a maior pontuação média de Macro-F1 foi selecionado para análise posterior. Para avaliar a robustez contra mudanças de domínio, realizamos uma avaliação externa com um conjunto de dados não selecionado, do mundo real, composto por imagens clínicas de rotina. Todas as arquiteturas apresentaram desempenho robusto nos benchmarks selecionados, com pontuações médias de Macro-F1 entre 73,58% e 99,28%. No entanto, o desempenho caiu significativamente quando os modelos foram avaliados no conjunto de dados do mundo real (Macro-F1: 33,25–55,91%), o que evidencia a dificuldade de generalização entre domínios. Notavelmente, o modelo treinado em um conjunto de dados heterogêneo combinado alcançou o melhor desempenho entre os domínios, sugerindo que a diversidade de dados melhora a robustez. A análise por classe revelou que as lesões de alto grau foram as mais sensíveis à variabilidade do mundo real. Embora as CNNs alcancem excelentes resultados em benchmarks selecionados, sua aplicabilidade direta aos fluxos de trabalho de citologia de rotina é dificultada pela mudança de domínio. Nossos resultados enfatizam que a avaliação de modelos em conjuntos de dados heterogêneos e de múltiplas fontes é um pré-requisito para uma implementação clínica confiável.