Processamento de linguagem natural não supervisionado na identificação de pacientes suspeitos de infecção por COVID-19

Procesamiento del lenguaje natural no supervisado para identificar a los pacientes sospechosos de infección por COVID-19

Rildo Pinto da Silva Juliana Tarossi Pollettini Antonio Pazin FilhoSobre os autores

Resumos

Os pacientes com síndrome pós-COVID-19 se beneficiam de programas de promoção de saúde e sua rápida identificação é importante para a utilização custo efetiva desses programas. Técnicas tradicionais de identificação têm fraco desempenho, especialmente em pandemias. Portanto, foi realizado um estudo observacional descritivo utilizando 105.008 autorizações prévias pagas por operadora privada de saúde com aplicação de método não supervisionado de processamento de linguagem natural por modelagem de tópicos para identificação de pacientes suspeitos de infecção por COVID-19. Foram gerados seis modelos: três utilizando o algoritmo BERTopic e três modelos Word2Vec. O modelo BERTopic cria automaticamente grupos de doenças. Já no modelo Word2Vec, para definição dos tópicos relacionados a COVID-19, foi necessária análise manual dos 100 primeiros casos de cada tópico. O modelo BERTopic com mais de 1.000 autorizações por tópico sem tratamento de palavras selecionou pacientes mais graves - custo médio por autorizações prévias pagas de BRL 10.206 e gasto total de BRL 20,3 milhões (5,4%) em 1.987 autorizações prévias (1,9%). Teve 70% de acerto comparado à análise humana e 20% de casos com potencial interesse, todos passíveis de análise para inclusão em programa de promoção à saúde. Teve perda importante de casos quando comparado ao modelo tradicional de pesquisa com linguagem estruturada e identificou outros grupos de doenças - ortopédicas, mentais e câncer. O modelo BERTopic serviu como método exploratório a ser utilizado na rotulagem de casos e posterior aplicação em modelos supervisionados. A identificação automática de outras doenças levanta questionamentos éticos sobre o tratamento de informações em saúde por aprendizado de máquina.

Palavras-chave:
COVID-19; Processamento de Linguagem Natural; Atenção à Saúde; Critérios de Seleção de Pacientes; Instituições Privadas de Saúde


Los pacientes con síndrome pos-COVID-19 pueden beneficiarse de los programas de promoción de la salud. Su rápida identificación es importante para el uso efectivo de estos programas. Las técnicas de identificación tradicionales no tienen un buen desempeño, especialmente en pandemias. Se realizó un estudio observacional descriptivo, con el uso de 105.008 autorizaciones previas pagadas por un operador de salud privado mediante la aplicación de un método no supervisado de procesamiento del lenguaje natural mediante modelado temático para identificar a los pacientes sospechosos de estar infectados por COVID-19. Se generaron 6 modelos: 3 con el uso del algoritmo BERTopic y 3 modelos Word2Vec. El modelo BERTopic crea automáticamente grupos de enfermedades. En el modelo Word2Vec para definir temas relacionados con la COVID-19, fue necesario el análisis manual de los primeros 100 casos de cada tema. El modelo BERTopic con más de 1.000 autorizaciones por tema sin tratamiento de palabras seleccionó a pacientes más graves: costo promedio por autorizaciones previas pagada de BRL 10.206 y gasto total de BRL 20,3 millones (5,4%) en 1.987 autorizaciones previas (1,9%). Además, contó con el 70% de aciertos en comparación con el análisis humano y el 20% de los casos con potencial interés, todos los cuales pueden analizarse para su inclusión en un programa de promoción de la salud. Hubo una pérdida significativa de casos en comparación con el modelo tradicional de investigación con lenguaje estructurado y se identificó otros grupos de enfermedades: ortopédicas, mentales y cáncer. El modelo BERTopic sirvió como un método exploratorio para ser utilizado en el etiquetado de casos y su posterior aplicación en modelos supervisados. La identificación automática de otras enfermedades plantea preguntas éticas sobre el tratamiento de la información de salud mediante el aprendizaje de máquina.

Palabras-clave:
COVID-19; Procesamiento de Lenguaje Natural; Atención a la Salud; Criterios de Seleción de Pacientes; Instituciones Privadas de Salud


Introdução

A pandemia de COVID-19 11. Adil MT, Rahman R, Whitelaw D, Jain V, Al-Taan O, Rashid F, et al. SARS-CoV-2 and the pandemic of COVID-19. Postgrad Med J 2021; 97:110-6. reforçou a preocupação histórica de pesquisadores quanto à ameaça de novos vírus e mutação dos existentes. Isso implicou pressão sobre serviços de saúde já sobrecarregados 22. Noronha KVMS, Guedes GR, Turra CM, Andrade MV, Botega L, Nogueira D, et al. The COVID-19 pandemic in Brazil: analysis of supply and demand of hospital and ICU beds and mechanical ventilators under different scenarios. Cad Saúde Pública 2020; 36:e00115320., por formas graves da doença (aproximadamente 25% dos pacientes vulneráveis ou com comorbidades) e alta taxa de letalidade (5,6% na primeira onda 33. Li J, Huang DQ, Zou B, Yang H, Hui WZ, Rui F, et al. Epidemiology of COVID-19: a systematic review and meta-analysis of clinical characteristics, risk factors, and outcomes. J Med Virol 2021; 93:1449-58.). Adicionalmente, alterações estruturais nos serviços de saúde, maior impacto em países de baixa e média renda 44. Victora CG, Hartwig FP, Vidaletti LP, Martorell R, Osmond C, Richter LM, et al. Effects of early-life poverty on health and human capital in children and adolescents: analyses of national surveys and birth cohort studies in LMICs. Lancet 2022; 399:1741-52., conflitos éticos na priorização do cuidado 55. Mannelli C. Whose life to save? Scarce resources allocation in the COVID-19 outbreak. J Med Ethics 2020; 46:364-66. e desafios financeiros acentuaram seu impacto. Essas dificuldades foram, ainda, agravadas pelo surgimento da COVID-19 longa ou síndrome pós-COVID-19 66. Crook H, Raza S, Nowell J, Young M, Edison P. Long covid-mechanisms, risk factors, and management. BMJ 2021; 374:n1648.,77. Hope AA, Evering TH. Postacute sequelae of severe acute respiratory syndrome coronavirus 2 infection. Infect Dis Clin North Am 2022; 36:379-95., que acomete de 10% a 30% dos pacientes 88. Pavli A, Theodoridou M, Maltezou HC. Post-COVID syndrome: incidence, clinical spectrum, and challenges for primary healthcare professionals. Arch Med Res 2021; 52:575-81.. É esperado que novas pandemias surjam no futuro 99. Khan A, Khan M, Ullah S, Wei D-Q. Hantavirus: the next pandemic we are waiting for? Interdiscip Sci 2021; 13:147-52. e a identificação precoce de pacientes será importante para a adoção correta e custo-efetiva de cuidados.

O tratamento de informações é um desafio, pelo seu volume crescente 1010. Fayyad U, Piatetsky-Shapiro G, Smyth P. From data mining to knowledge discovery in databases. AI Magazine 1996; 17:37-54. ou pelas peculiaridades das diferentes áreas do conhecimento. Na saúde, os dados são incompletos, heterogêneos, multidimensionais, não estruturados e imprecisos 1111. Dinov ID. Volume and value of big healthcare data. J Med Stat Inform 2016; 4:3.,1212. Esfandiari N, Babavalian MR, Moghadam A-ME, Tabar VK. Knowledge discovery in medicine: current issue and future trend. Expert Systems with Applications 2014; 41:4434-63.. Para tratamento desses problemas, foi proposta a descoberta de conhecimento através dos dados KDD (knowledge discovery in database) na mineração (data mining) de grandes volumes de dados (big data) 1313. Cios KJ, Kurgan LA. Trends in data mining and knowledge discovery. In: Pal NR, Jain L, editors. Advanced techniques in knowledge discovery and data mining. London: Springer London; 2005. p. 1-26.,1414. Idri A, Benhar H, Fernández-Alemán JL, Kadi I. A systematic map of medical data preprocessing in knowledge discovery. Comput Methods Programs Biomed 2018; 162:69-85..

Técnicas de aprendizado de máquina (ML - machine learning) permitem que o algoritmo aprenda padrões não identificáveis por técnicas para classificação ou predição 1515. Alloghani M, Al-Jumeily D, Mustafina J, Hussain A, Aljaaf AJ. A systematic review on supervised and unsupervised machine learning algorithms for data science. In: Berry MW, Mohamed A, Yap BW, editors. Supervised and unsupervised learning for data science. Cham: Springer International Publishing; 2020. p. 3-21.. Esse aprendizado pode ser supervisionado - quando existem rótulos que classifiquem o objeto de estudo - ou não supervisionados - a classificação não existe. Nesse caso, utilizam-se técnicas exploratórias para criação dos rótulos e posterior aplicação de técnicas supervisionadas 1515. Alloghani M, Al-Jumeily D, Mustafina J, Hussain A, Aljaaf AJ. A systematic review on supervised and unsupervised machine learning algorithms for data science. In: Berry MW, Mohamed A, Yap BW, editors. Supervised and unsupervised learning for data science. Cham: Springer International Publishing; 2020. p. 3-21.. A rotulagem dos dados médicos é difícil e depende de trabalho especializado, sendo um fator limitante nos estudos da pandemia 1616. Dogan O, Tiwari S, Jabbar MA, Guggari S. A systematic review on AI/ML approaches against COVID-19 outbreak. Complex Intell Systems 2021; 7:2655-78.. Assim, técnicas exploratórias não supervisionadas são um passo importante na aplicação de ML em grandes volumes de dados para a descoberta de conhecimento.

A mineração de dados textuais (text mining) se resume à descoberta de padrões, como proposto por Fayyad et al. 1010. Fayyad U, Piatetsky-Shapiro G, Smyth P. From data mining to knowledge discovery in databases. AI Magazine 1996; 17:37-54., enquanto o processamento de linguagem natural (NLP - natural language processing) é tido como ramo da inteligência artificial que lida com a linguagem humana 1717. Lauriola I, Lavelli A, Aiolli F. An introduction to deep learning in natural language processing: models, techniques, and tools. Neurocomputing 2022; 470:443-56. ou torna essa linguagem compreensível aos computadores 1818. Junaid T, Sumathi D, Sasikumar AN, Suthir S, Manikandan J, Khilar R, et al. A comparative analysis of transformer based models for figurative language classification. Comput Electr Eng 2022; 101:108051., permitindo diferentes abordagens, entre elas o agrupamento de textos por tópicos (topic modeling). Os tópicos são grupos de objetos similares entre si, tratando-se de um caso particular de clusterização.

As operadoras de planos de saúde processam dados necessários à coesão regulatória 1919. Agência Nacional de Saúde Suplementar. TISS - padrão para troca de informação de saúde suplementar. https://www.gov.br/ans/pt-br/assuntos/prestadores/padrao-para-troca-de-informacao-de-saude-suplementar-2013-tiss (accessed on 20/Dec/2021).
https://www.gov.br/ans/pt-br/assuntos/pr...
e assistencial. Entre eles, a autorização prévia é o processo de verificação da elegibilidade dos pacientes e da coerência entre a doença e o tratamento. Ela é solicitada antes do atendimento assistencial. Esse processo é regulado indiretamente pela Agência Nacional de Saúde Suplementar (ANS) através da garantia de prazos de atendimento 2020. Agência Nacional de Saúde Suplementar. Resolução Normativa nº 259, de 17 de junho de 2011. Dispõe sobre a garantia de atendimento dos beneficiários de plano privado de assistência à saúde e altera a Instrução Normativa - IN nº 23, de 1º de dezembro de 2009, da Diretoria de Normas e Habilitação dos Produtos DIPRO. Diário Oficial da União 2011; 20 jun..

A análise das autorizações prévias oferece oportunidade de seleção precoce dos pacientes. Contudo, devido ao sigilo médico, não há informações sobre a Classificação Internacional de Doenças, 10ª revisão (CID-10), os procedimentos assistenciais solicitados não permitem a correlação correta com a doença a ser tratada e as informações complementares das autorizações prévias não são estruturadas. Há, portanto, oportunidade para soluções inovadoras na identificação de pacientes em operadoras de planos de saúde no Brasil. Trata-se de um importante setor econômico que cobre aproximadamente 25% da população brasileira com gastos equivalentes a 5,7% do produto interno bruto (PIB) 2121. Instituto Brasileiro de Geografia e Estatística. Conta-satélite de saúde: Brasil - 2010-2019. https://biblioteca.ibge.gov.br/visualizacao/livros/liv101928_informativo.pdf (accessed on 07/Jul/2022).
https://biblioteca.ibge.gov.br/visualiza...
.

Existem poucos estudos utilizando NLP em saúde no Brasil. Duval et al. 2222. Duval FV, Silva FAB. Mining in Twitter for adverse events from malaria drugs: the case of doxycycline. Cad Saúde Pública 2019; 35:e00033417. construíram um sistema de farmacovigilância utilizando o Twitter para a deteção de eventos adversos causados por medicamentos - usaram como modelo o medicamento doxiciclina para tratamento de malária. Moreira et al. 2323. Moreira LB, Namen AA. A hybrid data mining model for diagnosis of patients with clinical suspicion of dementia. Comput Methods Programs Biomed 2018; 165:139-49. propuseram um modelo híbrido pelo qual o NLP criou clusters de pacientes utilizando dados não estruturados. Esses clusters foram incorporados a dados estruturados, melhorando a acurácia do diagnóstico de pacientes com suspeita de demência. Diniz et al. 2424. Diniz EJS, Fontenele JE, Oliveira AC, Bastos VH, Teixeira S, Rabêlo RL, et al. Boamente: a natural language processing-based digital phenotyping tool for smart monitoring of suicidal ideation. Healthcare (Basel) 2022; 10:698. criaram um sistema em celular para identificação de pacientes com ideação suicida que permitiu a quantificação individual do risco momento a momento (digital phenotyping), possibilitando a ação dos profissionais de saúde.

Não foram encontrados estudos utilizando dados da saúde suplementar, provavelmente pela dificuldade de acesso a dados nesse setor da saúde, limitados por barreiras de sigilo profissional e comercial. Este estudo preenche essa lacuna e contribui com a aplicação de métodos de ML em softwares livres através de um estudo de caso real.

O objetivo deste artigo é descrever um método de NLP não supervisionado para identificar pacientes suspeitos de infecção por COVID-19, por meio da análise de uma base de dados reais, de autorizações prévias emitidas por operadora de planos privados de saúde da modalidade de autogestão do Estado de São Paulo, Brasil.

Métodos

Desenho e população do estudo

Trata-se de um estudo observacional descritivo, com base em dados secundários de autorizações prévias de uma operadora de planos privados de saúde do Estado de São Paulo da modalidade de autogestão. As autorizações prévias são solicitadas por prestadores de serviços assistenciais ou beneficiários antes da realização de consultas, exames, internações e outros procedimentos eletivos. Os atendimentos de emergência têm liberação automática atendendo às regras da legislação. Para internações é emitida somente uma autorização abrangendo todo o período de internação do paciente. O pagamento da assistência para o prestador somente ocorre mediante apresentação da autorização prévia.

A base de dados estudada é anonimizada; contudo, cada autorização prévia é emitida para um beneficiário específico e há relação biunívoca entre autorização prévia e beneficiário. O método proposto seleciona autorizações que contêm informações sobre suspeita de infecção por COVID-19 e, portanto, considera-se que as autorizações selecionadas representam um paciente suspeito de infecção por COVID-19.

A operadora teve, no período, 29.336 beneficiários expostos, dos quais 14.663 (50%) eram do sexo feminino e 28.820 (98,2%) residiam no Estado de São Paulo. A idade média do grupo foi de 45 anos.

Base de dados e variáveis estudadas

Cada autorização contém um campo de texto livre, “indicacaoclinica”, no qual é indicado o motivo ou justificativa para a solicitação da autorização prévia. O preenchimento desse campo não é obrigatório. O prestador pode apenas anexar documentos justificando o pedido do procedimento. Nesse caso, é comum preencher o campo com texto “em anexo” ou não o preencher. A variável “indicacaoclinica” é a variável de interesse deste estudo.

Foram selecionadas autorizações prévias emitidas entre 1º de setembro de 2019 e 30 de junho de 2022 (n = 742.901). Foram excluídas aquelas sem preenchimento da justificativa (valores faltantes) no campo “indicacaoclinica” (n = 558.530, 75%). Foram incluídas neste estudo, portanto, 184.371 (25%) autorizações prévias das quais 105.008 contêm informação de pagamento. Cada autorização prévia contém pelo menos um evento de atenção à saúde identificado nas variáveis “estruturaevento” e “descricaoevento” correspondendo, respectivamente, ao código do evento solicitado e sua descrição. A autorização é classificada segundo: tipo (“tipotratamento”), regime (“regimeatendimento”) e objetivo de atendimento (“objetivotratamento”). O preenchimento do campo CID-10 não é obrigatório. Elas têm data de validade (“datavalidade”) e podem ser canceladas, reemitidas ou revalidadas de acordo com critérios administrativos da operadora. O Quadro 1 contém as variáveis presentes na base de dados e utilizadas neste estudo.

Quadro 1
Variáveis da base de dados de autorizações prévias de operadora privada de planos de saúde. São Paulo, Brasil.

Processamento de linguagem natural

Foram aplicados dois modelos de NLP - BERTopic (https://maartengr.github.io/BERTopic/index.html) e Word2Vec - descritos brevemente a seguir.

Modelo BERTopic

O modelo BERTopic é um algoritmo não supervisionado para modelagem de tópicos baseado em vetores. A modelagem por tópicos é um método de mineração cujo objetivo é descobrir padrões ocultos considerando o contexto e classificar os respectivos textos em grupos similares 2525. Liu L, Tang L, Dong W, Yao S, Zhou W. An overview of topic modeling and its current applications in bioinformatics. Springerplus 2016; 5:1608.,2626. Alghamdi R, Alfalqi K. A survey of topic modeling in text mining. International Journal of Advanced Computer Science and Applications 2015; 6:147-56., chamados tópicos.

Inicialmente, cada documento, neste caso autorização prévia, é convertido em sua representação vetorial (word embedding) usando o modelo Bidirectional Encoder Representations from Transformers (BERT - representações de codificadores bidireccionais a partir de transformadores). A dimensionalidade dessa representação é reduzida utilizando-se a técnica Uniform Manifold Approximation and Projection for Dimension Reduction (UMAP - aproximação e projeção uniforme de Manifolds para redução de dimensões) e aplicado o algoritmo Density-Based Clustering Based on Hierarchical Density Estimates (HDBSCAN - agrupamento por densidade baseado em estimativas de densidade hierárquica) para criar os tópicos de documentos que são similares semanticamente 2727. McInnes L, Healy J, Melville J. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. arXiv 2018; 9 feb. https://arxiv.org/abs/1802.03426.
https://arxiv.org/abs/1802.03426...
. Para a descrição de cada tópico utiliza-se o método frequência do termo/frequência inversa dos documentos (TF-IDF) 2828. Grootendorst M. BERTopic: neural topic modeling with a class-based TF-IDF procedure. https://maartengr.github.io/BERTopic/algorithm/algorithm.html (accessed on 14/Dec/2022).
https://maartengr.github.io/BERTopic/alg...
,2929. Reimers N, Gurevych I. Sentence-BERT: sentence embeddings using siamese BERT-networks. arXiv 2019, 27 aug. https://arxiv.org/abs/1908.10084.
https://arxiv.org/abs/1908.10084...
,3030. Devlin J, Chang M-W, Lee K, Toutanova K. BERT: pre-training of deep bidirectional transformers for language understanding. arXiv 2022; 24 may. https://arxiv.org/pdf/1810.04805.pdf.
https://arxiv.org/pdf/1810.04805.pdf...
,3131. Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. Attention Is All You Need: 31st Conference on Neural Information Processing Systems (NIPS 2017). https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf (accessed on 17/Oct/2023).
https://proceedings.neurips.cc/paper_fil...
. Os documentos não classificados pelo modelo são agrupados em um tópico específico contendo valores discrepantes (outliers). Neste trabalho, a aplicação dos métodos deu-se por meio de uma biblioteca gratuita baseada em Python 2828. Grootendorst M. BERTopic: neural topic modeling with a class-based TF-IDF procedure. https://maartengr.github.io/BERTopic/algorithm/algorithm.html (accessed on 14/Dec/2022).
https://maartengr.github.io/BERTopic/alg...
chamada BERTopic.

Foram utilizados dois parâmetros para definir a quantidade mínima de autorizações existentes em cada tópico criado: 500 ou mais (BERTopic +500) e 1.000 ou mais (BERTopic +1.000) definidos no parâmetro min_topic_size do modelo. Como é um modelo automático, o número total de tópicos criados depende desse parâmetro. O parâmetro language foi definido como multilingual para modelagem do texto em português e o modelo de vetorização (embedding_model) como all-MiniLM-L6-v2, que é o padrão do modelo.

Para identificação dos tópicos pertencentes a COVID-19, foi utilizado o método get_topic_info() do próprio modelo, que gera a descrição automática do tópico.

Modelo Word2Vec

Word2Vec é um modelo de NLP que utiliza redes neurais para aprender a representação de palavras (word embedding) em um espaço vetorial de alta dimensão, capaz de capturar o contexto semântico e sintático das palavras em um determinado corpus de texto. Para a análise comparativa, foi utilizado o modelo continuous Bag-of-Words3232. Mikolov T, Chen K, Corrado G, Dean J. Efficient estimation of word representations in vector space. arXiv 2013; 16 jan. https://arxiv.org/abs/1301.3781.
https://arxiv.org/abs/1301.3781...
,3333. Mikolov T, Sutskever I, Chen K, Corrado G, Dean J. Distributed representations of words and phrases and their compositionality. https://proceedings.neurips.cc/paper_files/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf (accessed on 17/Oct/2023).
https://proceedings.neurips.cc/paper_fil...
do algoritmo Word2Vec. Os textos da variável “indicacaoclinica” foram separados em palavras (tokens), utilizando-se a biblioteca NLTK (https://www.nltk.org/), sobre os quais foi aplicado o algoritmo Word2Vec da biblioteca Gensim (https://pypi.org/project/gensim/), sendo utilizados tamanho de vetor igual a 300, recalculados considerando sua média e categorizados em 20 clusters utilizando-se o algoritmo K-Means. Esses clusteres foram considerados os tópicos desse modelo. Esse método não atribui automaticamente nomes aos tópicos. Para identificação dos clusteres com casos suspeitos de infecção por COVID-19, cada um dos 20 clusters foi analisado manualmente pelo pesquisador principal. Para isso selecionou-se, em cada cluster, as primeiras 100 autorizações classificadas por ordem decrescente de gasto. Cada texto presente na variável “indicacaoclinica” foi analisado e o respectivo cluster classificado, ou não, no grupo COVID-19.

Cada um dos dois modelos foi aplicado sobre as descrições de solicitação de autorização da variável “indicacaoclinica” originais ou tratadas. O tratamento da variável é recomendável para melhorar a performance do modelo Word2Vec.

O tratamento da variável “indicacaoclinica” ocorreu da seguinte forma: conversão de todas as palavras em minúsculas, remoção de stopwords em português, exclusão de palavras mais comuns em saúde e exclusão de caracteres especiais. Não foram substituídos acentos ou outras características do português. As palavras COVID-19 e SARS-CoV-2 foram transformadas em covid. Também foi realizada a padronização das palavras relacionadas a CID-10 presentes na variável “indicacaoclinica”.

Avaliação da qualidade da classificação gerada pelos modelos

Chegou-se, portanto, a seis tipos diferentes de modelos: BERTopic +500, BERTopic +1.000 e Word2Vec, cada um deles com e sem tratamento de texto da variável “indicacaoclinica” (tratado e não tratado).

Para avaliar a qualidade da classificação, o autor principal analisou o modelo BERTopic +1.000, porque esse apresentou o maior custo médio por autorização. Assim, as primeiras 100 autorizações classificadas como eventos suspeitos ou relacionados à COVID-19 por esse modelo foram ordenadas em ordem decrescente de custo. O texto da “indicacaoclinica” de cada uma dessas autorizações foi analisado manualmente classificando-o em classes de interesse de estudo. Essa classificação manual foi comparada com a classificação automática gerada nesse modelo.

Para comparação com métodos tradicionais de pesquisa de linguagem estruturada SQL (structured query language), todas as autorizações prévias contendo as palavras covid, sars, coronavirus e coronavírus maiúsculas ou minúsculas foram selecionadas e confrontadas com os modelos gerados utilizando-se como índice de ligação o número da autorização e identificando se faziam parte dos grupos designados como suspeitos de infecção por COVID-19.

Custo das autorizações prévias

O custo das autorizações prévias corresponde aos gastos assistenciais de cada autorização prévia. A base de pagamento contém as despesas pagas aos prestadores de serviços, líquidas de glosa. Os custos foram obtidos utilizando-se o número da autorização prévia como chave de ligação.

O valor total pago corresponde à soma de todas as despesas no período de setembro de 2019 a julho de 2022, identificadas na base de pagamento para cada autorização prévia. O número de autorizações pagas corresponde à contagem das autorizações com valor de gasto por autorização maior que BRL 0.

O custo médio por autorização paga corresponde à razão entre o gasto com autorizações pelo número de autorizações pagas. Neste estudo, foram considerados casos mais graves aqueles com maior custo médio por autorização prévia. Os gastos são apresentados em reais e sem ajuste inflacionário.

Acesso aos dados foi concedido por meio de um termo de sigilo e cooperação científica com a operadora e aprovado por Comitê de Ética em Pesquisa do Faculdade de Medicina de Ribeirão Preto, Universidade de São Paulo (protocolo nº 55685722.9.0000.5440).

Resultados

Foram emitidas 742.901 autorizações nos 34 meses analisados, das quais 184.371 (24,9%) foram preenchidas com pelo menos um número ou palavra, fazem parte deste estudo e foram analisadas. Destas, 105.008 foram autorizações pagas (14,1%). O gasto total no período foi de BRL 374.089.836. Esse gasto tem desvio à direita (D(105.008) = 0,438, p = 0,000 - skewness 41,3) (Figura 1).

Figura 1
Gasto percentual acumulado (até 50%) e percentual acumulado de autorizações prévias (%) de operadora de saúde suplementar. São Paulo, Brasil, setembro/2019 a junho/2022.

Os eventos assistenciais mais frequentes nas autorizações analisadas foram: consulta em pronto-socorro (6,1% das autorizações analisadas contêm esse evento), sessão de psicoterapia individual (5,7%) e pesquisa por RT-PCR para COVID-19 (5%). 96,2% das autorizações prévias não tem descrição de CID-10 e somente 587 (0,3%) têm o CID-10 B34.2 - Infecção por coronavírus, não especificada.

A variável “indicacaoclinica” teve 64.917 (35,2%) autorizações com apenas uma palavra ou número e 77,6% das autorizações tiveram até 5 palavras. Após o tratamento da variável, as palavras mais comuns foram “covid”, aparecendo 6.561 vezes, “pronto” (3.821) e “socorro” (3.692). A frase mais longa teve 104 palavras.

Quanto ao tipo de tratamento, 90,7% foram tratamentos clínicos, 7,8% cirúrgicos e 0,3% obstétricos. Quanto ao regime de atendimento, 81% foram ambulatoriais, 16,9% hospitalares e 1% domiciliares. Os atendimentos clínicos internados corresponderam a 15.741 autorizações - 8,5% do total (Tabela 1).

Tabela 1
Número de autorizações prévias analisadas por tipo de tratamento segundo regime de atendimento de autorizações de operadora de saúde suplementar. São Paulo, Brasil, setembro/2019 a junho/2022.

Em relação ao objetivo de atendimento, 75,1% foram para diagnóstico e 6,5% tratamento reparador - 18,3% das autorizações prévias não tiveram objetivo de atendimento preenchido. No regime ambulatorial, o objetivo “diagnóstico” foi mais frequente (80,6%). No regime internação hospitalar, há um grupo importante de “atendimentos reparadores” (34,5%) (Tabela 2).

Tabela 2
Número de autorizações prévias analisadas por objetivo de tratamento segundo regime de atendimento de autorizações de operadora de saúde suplementar. São Paulo, Brasil, setembro/2019 a junho/2022.

Nos tópicos classificados como COVID-19, os modelos BERTopic sem tratamento apresentaram maiores custos médios por autorização paga - BRL 10.205 naquele com mais de 1.000 autorizações e BRL 10.138 naquele com mais de 500 autorizações por tópico. Correspondem, respectivamente, a 1,9% (1.987) e 2,3% (2.443) das autorizações pagas, e gastos de BRL 20,3 milhões (5,4% do gasto total) e BRL 24,8 milhões (6,6%). Os dois modelos apresentaram número expressivo de autorizações pagas consideradas discrepantes - 58,8% (61.723) no modelo BERTopic +1.000 e 48,3% (50.716) no modelo BERTopic +500 (Tabela 3).

Tabela 3
Modelos e características das autorizações prévias pagas segundo suspeita de infecção por COVID-19 e valores discrepantes de autorizações emitidas por operadora de saúde suplementar. São Paulo, Brasil, setembro/2019 a junho/2020.

Com o tratamento da variável “indicacaoclinica”, houve aumento do número de autorizações de casos suspeitos de infecção por COVID-19 no modelo BERTopic +500 autorizações (para 3,3% do total de autorizações pagas) e diminuição no modelo com mais de 1.000 palavras (1,7%) acompanhada de redução importante no total gasto - BRL 5,2 milhões e BRL 14 milhões, respectivamente - quando comparados aos mesmos modelos sem tratamento de palavras, resultando na diminuição dos custos médios por autorização nos dois modelos. Houve diminuição do número de autorizações prévias consideradas discrepantes - embora ainda elevadas (36,3% no modelo BERTopic +1.000 e 45,2% no modelo BERTopic +500) (Tabela 3).

O tratamento da variável “indicacaoclinica” modificou substancialmente os indicadores do modelo Word2Vec. Para os casos classificados como COVID-19, sem tratamento, esse modelo apresentou menor número de autorizações pagas (n = 1.005, 0,5%), de gasto total (BRL 4.909.189, 1,3%) e de custo médio por autorização (BRL 4.885) que aqueles do modelo com tratamento de palavras: 5.989 - 5,7%, BRL 30,1 milhões - 8% e BRL 5.021 de custo médio, respectivamente (Tabela 3).

A comparação entre os seis modelos mostrou que o modelo BERTopic +1.000 sem tratamento tem número menor de autorizações classificadas como suspeitas de COVID-19 com gasto total elevado e o modelo Word2Vec com tratamento tem um número maior de autorizações classificadas como suspeitas de COVID-19 com gasto total maior (BRL 30 milhões) mas resultando em custo médio menor (Tabela 3).

A avaliação da qualidade de classificação do modelo BERTopic +1.000, mostra que, dos 100 primeiros casos analisados manualmente, 70 estão relacionados à suspeita ou infecção por COVID, claramente indicados no texto da variável “indicacaoclinica”. Esses pacientes tiveram gasto de BRL 11,5 milhões - 56,5% do gasto total identificado nesse modelo (Quadro 2).

Quadro 2
Avaliação do modelo BERTopic +1.000 sem tratamento por classificação manual das 100 autorizações, ordenadas por custo de casos suspeitos de infecção por COVID-19 em operadora da saúde suplementar. São Paulo, Brasil, setembro/2019 a junho/2022.

Outros 20 pacientes apresentam sinais, sintomas ou doenças respiratórias que podem ou não estar relacionadas à COVID-19. O gasto, nesse grupo, foi de BRL 2,5 milhões. Outros oito casos são de recém-nascidos com desconforto respiratório, todos sem conexão com a doença, exceto um recém-nascido extremo filho de mãe com COVID-19. Os outros dois casos apresentam sinais e sintomas respiratórios sem relação com a doença (Quadro 2). O Quadro 3 mostra as 15 primeiras autorizações dessa avaliação de qualidade com a descrição original da autorizações prévias, a respectiva classificação manual e gasto por autorização. A análise dos 100 primeiros casos pode ser encontrada no Quadro 2.

Quadro 3
Avaliação do modelo BERTopic +1.000 sem tratamento por classificação manual das 15 autorizações, ordenadas por custo de casos suspeitos de infecção por COVID-19 em operadora da saúde suplementar. São Paulo, Brasil, setembro/2019 a junho/2022.

O método tradicional, usando SQL e seleção de autorizações prévias contendo as palavras covid, sars, coronavirus e coronavírus, resultou em 3.703 autorizações pagas com gasto total de BRL 23.611.018 - custo médio de BRL 6.376.

Confrontando-se o método tradicional com os modelos NLP gerados, têm-se autorizações prévias selecionadas não classificadas pelos modelos, casos de interesse que foram perdidos. Essas autorizações se espalharam nos diferentes tópicos dos modelos, mas concentraram-se no tópico com valores discrepantes, onde não é possível fazer a classificação.

Nos modelos BERTopic, a maior perda de casos ocorreu no modelo não tratado com mais de 1.000 autorizações - 2.377 (64,2%) autorizações não foram classificadas pelo modelo, tiveram gasto total de BRL 8,7 milhões e custo médio de BRL 3.673. O modelo BERTopic com mais de 500 autorizações não tratado foi pouco melhor - 1.622 (43,8%) autorizações não classificadas, gasto de BRL 5,1 milhões e custo médio por autorização de BRL 3.214. Esses casos perdidos têm custo médio por autorização quase 3 vezes menor que aqueles classificados pelos modelos. O tratamento das palavras fez com que esses modelos deixassem de classificar os casos menos graves, os custos médios por autorização dos casos perdidos foram BRL 9.323 e BRL 7.217 nos modelos BERTopic +1.000 e +500, respectivamente.

Por outro lado, os modelos classificaram autorizações não selecionadas no método tradicional. As 362 autorizações excedentes no modelo BERTopic +500 sem tratamento que não contêm as palavras da pesquisa tradicional têm custo médio de BRL 17.196 - gasto de BRL 6,2 milhões. No modelo BERTopic +1.000 sem tratamento as autorizações prévias com a mesma característica (661 autorizações) têm custo médio de BRL 8.165 e gasto total de BRL 5,4 milhões. O modelo Word2Vec com melhor desempenho, nesse sentido - 2.703 autorizações, gasto de BRL 11.369.283 e custo médio por autorização de BRL 4.206 - é o tratado (Tabela 4).

Tabela 4
Compara modelos com método tradicional de seleção de palavras na classificação de autorizações emitidas por operadora de saúde suplementar. São Paulo, Brasil, setembro/2019 a junho/2020.

Os modelos BERTopic geraram outros tópicos de interesse - relacionados a câncer (1.500 autorizações prévias e gasto de BRL 6.662.411), doenças ortopédicas (4.531 autorizações prévias e gasto de BRL 13.675.723) e doenças mentais (3.603 autorizações prévias e gasto de BRL 818.893). Esses tópicos variam em função do método empregado - os modelos BERTopic +1.000, tratados ou não, foram piores gerando poucos tópicos adicionais. Os tópicos formados por cada modelo encontram-se nos Quadros 4, 5, 6 e 7.

Quadro 4
Número de autorizações prévias por tópicos gerados pelo modelo BERTopic +500 sem tratamento de palavras e respectiva descrição dos autores.
Quadro 5
Número de autorizações prévias por tópicos gerados pelo modelo BERTopic +500 com tratamento de palavras e respectiva descrição dos autores.
Quadro 6
Número de autorizações prévias por tópicos gerados pelo modelo BERTopic +1.000 sem tratamento de palavras e respectiva descrição dos autores.
Quadro 7
Número de autorizações prévias por tópicos gerados pelo modelo BERTopic +1.000 com tratamento de palavras e respectiva descrição dos autores.

Discussão

O modelo BERTopic sem tratamento de palavras selecionou pacientes mais graves, enquanto o modelo Word2Vec com tratamento de palavras selecionou pacientes menos graves. Já em 1998, Hernández & Stolfo 3434. Hernández MA, Stolfo SJ. Real-world data is dirty: data cleansing and the merge/purge problem. Data Min Knowl Discov 1998; 2:9-37. discutiam a dificuldade em se trabalhar com dados de mundo real. Esse desafio é maior com uso de dados não estruturados. Os 100 casos manualmente analisados mostram diferenças quanto às formas de nomear o vírus, ampliadas pelas peculiaridades da língua portuguesa - acentos, por exemplo. Outro desafio é a amplitude das informações - grande parte das autorizações foram preenchidas com frases de até cinco palavras. Ainda assim, o modelo BERTopic conseguiu selecionar casos com a descrição “sintomas gripais há 10 dias. Desconforto respiratório com taquidispneia” como suspeitos de infecção pelo vírus. Observa-se que não há menção explícita à COVID-19 e enquanto respiratório tem acento, taquidispneia não tem, um exemplo do problema de dados não estruturados.

Essa dificuldade deve explicar por que existem poucos estudos utilizando NLP aplicados à detecção precoce da doença. Em revisão de uso de ferramentas de inteligência artificial aplicadas na resposta à pandemia, Syrowatka et al. 3535. Syrowatka A, Kuznetsova M, Alsubai A, Beckman AL, Bain PA, Craig KJT, et al. Leveraging artificial intelligence for pandemic preparedness and response: a scoping review to identify key use cases. NPJ Digit Med 2021; 4:96. indicaram somente um estudo baseado em NLP para diagnóstico precoce ou triagem de pacientes. O maior volume de estudos (65 de 78) utilizaram técnicas de processamento de imagens de tórax. As autoras indicam que a maioria dos estudos analisados ainda estão em fase de pesquisa e poucos são utilizados para tomada de decisão 3535. Syrowatka A, Kuznetsova M, Alsubai A, Beckman AL, Bain PA, Craig KJT, et al. Leveraging artificial intelligence for pandemic preparedness and response: a scoping review to identify key use cases. NPJ Digit Med 2021; 4:96.. Uma revisão específica sobre uso de NLP na pandemia mostrou o uso de modelagem de tópico aplicados na busca de literatura relacionada à COVID-19 e à não aderência ao distanciamento social 3636. Chen Q, Leaman R, Allot A, Luo L, Wei C-H, Yan S, et al. Artificial intelligence in action: addressing the COVID-19 pandemic with natural language processing. Annu Rev Biomed Data Sci 2021; 4:313-39..

Em estudo comparando diferentes métodos de modelagem por tópicos em mídias sociais, Egger et al. 3737. Egger R, Yu J. A topic modeling comparison Between LDA, NMF, Top2Vec, and BERTopic to demystify Twitter posts. Front Sociol 2022; 7:886498. mostraram que o modelo BERTopic separou melhor os tópicos e suas ferramentas de análise possibilitam melhor entendimento das inter-relações entre os tópicos. Tais ferramentas são visuais e os autores afirmam que os tópicos precisam de interpretação humana.

Quanto à participação humana, é preciso uma visão holística e multidisciplinar, partindo da interpretação humana dos tópicos (dimensão modelagem) para o bem-estar do paciente (dimensão saúde) considerando aspectos financeiros (dimensão econômica).

Como exemplo do desafio dessa visão holística, observa-se que os modelos estudados têm comportamentos opostos: um seleciona casos graves e outro casos menos graves. A implantação de um programa de promoção à saúde no contexto da síndrome pós-COVID-19 é muito maior que a simples interpretação dos tópicos gerados por um modelo automático. Trata-se de um empreendimento multidisciplinar abrangendo também o desenho do programa, identificação e alocação correta dos pacientes, seu acompanhamento, avaliação dos desfechos e resultados financeiros.

Os pacientes com síndrome pós-COVID-19 necessitam de ampla gama de cuidados especiais, variando do restabelecimento das condições precedentes de saúde até a reabilitação 3838. Leavell HR. The basic unity of private practice and public health. Am J Public Health Nations Health 1953; 43:1501-6.. Nesse cenário, é importante observar que modelos gerados automaticamente e a interpretação de seus tópicos, ainda que interessantes, estão inseridos num processo altamente dependente de pessoas. Apesar de, no domínio da saúde, os recursos humanos serem especializados e caros, é imprescindível a participação humana, não somente interpretando os tópicos gerados, mas também desenhando todo o programa alinhado com essa interpretação. Vale a pena utilizar um modelo de NLP na identificação precoce de doenças desde que uma equipe multidisciplinar leve à frente a tarefa de prover saúde de qualidade, acessível e sustentável aos pacientes.

Olhando especificamente a dimensão informacional, um modelo não supervisionado, especialmente quando não há tratamento de palavras, apresenta algumas vantagens. Não sofre influência do pesquisador. Outra vantagem é servir como suporte para os modelos supervisionados sendo empregados como técnicas exploratórias 3939. Nadif M, Role F. Unsupervised and self-supervised deep learning approaches for biomedical text mining. Brief Bioinform 2021; 22:1592-603.. A necessária interpretação humana casa-se perfeitamente num fluxo de descoberta de pacientes com os seguintes passos: (1) análise exploratória não supervisionada - objeto deste estudo; (2) interpretação humana e rotulagem, baseada no desenho do programa; (3) classificação dos casos; (4) aplicação dos rótulos em um modelo supervisionado com descoberta de novos pacientes. Um modelo supervisionado tem melhor desempenho e medidas diretas de avaliação da qualidade classificatória, mas a falta de rótulos em informações não estruturadas dificulta muito sua aplicabilidade.

Neste estudo foram empregados dois métodos indiretos de avaliação da qualidade. No primeiro, a análise e classificação humana dos pedidos de autorização do modelo BERTopic +1.000, selecionado em função de sua possível maior gravidade e simulando o passo classificação de casos por especialista. Esse exercício prático mostra a dependência da interpretação humana. Enquanto a maioria dos casos (90%) seria de interesse para uma avaliação criteriosa através de contato com o paciente, por exemplo, outros claramente foram classificados erroneamente (p.ex.: desconforto respiratório), mesmo que interessantes - um dos casos é um recém-nascido prematuro de mãe infectada por COVID-19, cuja análise pode ensejar um programa específico para grávidas nesse período pandêmico.

O segundo método de avaliação indireta da qualidade usou pesquisa de linguagem estruturada (SQL), indicando que os modelos BERTopic perdem um grupo significativo de pacientes suspeitos. Esses casos foram de menor gravidade. A perda não foi resolvida com alteração do número de documentos por tópicos - houve aumento de outliers - nem com o tratamento de palavras - os grupos ficaram menos identificáveis. Esses casos não classificados reforçam a necessidade de contexto semântico para a aplicação do método, que está atrelado à qualidade da informação do pedido de autorização. Somente 25% das autorizações prévias têm alguma informação e, entre elas, a maioria tem poucas palavras, dificultando a análise contextual pelo método. É antiga a discussão sobre qualidade dos dados e sua solução no processo de descoberta de conhecimento em bases de dados - KDD 1010. Fayyad U, Piatetsky-Shapiro G, Smyth P. From data mining to knowledge discovery in databases. AI Magazine 1996; 17:37-54.. O uso de bases de dados reais, como a utilizada aqui, tem grande potencial, sendo inclusive passível de utilização nas evidências baseadas em dados reais desde que corrigidas as limitações impostas pela qualidade 4040. Liu F, Demosthenes P. Real-world data: a brief review of the methods, applications, challenges and opportunities. BMC Med Res Methodol 2022; 22:287.,4141. Raoof S, Kurzrock R. For insights into the real world, consider real-world data. Sci Transl Med 2022; 14:eabn6911..

O modelo Word2Vec desempenhou melhor com o tratamento de palavras quando comparado a métodos tradicionais, em parte porque o tratamento envolveu a padronização das palavras COVID-19 escritas de diferentes formas. Apesar de vantajoso, isso expõe a dificuldade de manutenção de um modelo desse tipo e é preciso considerar se a pesquisa tradicional via SQL não seria melhor que esse modelo tratado. Contudo, deve-se considerar que formas tradicionais de extração de dados de textos estão sujeitas a erros humanos, a escolha a priori de palavras presentes nesse texto exigem conhecimento especializado 4242. Chen T, Dredze M, Weiner JP, Hernandez L, Kimura J, Kharrazi H. Extraction of geriatric syndromes from electronic health record clinical notes: assessment of statistical natural language processing methods. JMIR Med Inform 2019; 7:e13039. e podem não aproveitar completamente as informações de mundo real. Opções tradicionais de análise de banco de dados para identificação dos pacientes com determinadas doenças em operadoras são limitadas - os CID-10 não são informados e os procedimentos pagos não permitem identificar a doença tratada (p.ex.: tomografia computadorizada de pulmão é paga da mesma forma para cânceres, infecções e check-up). Resta o acesso à ampla gama de informações não estruturadas, em que novos métodos, ainda que precisem de ajustes, podem ser mais eficazes.

Nesse ambiente real com baixa qualidade de informação, de alto volume autorizações prévias com valores faltantes ou preenchidos com apenas uma palavra, observa-se que o estudo demonstrou a viabilidade de um modelo não supervisionado para análise de autorizações prévias de operadora de plano de saúde sem nenhum tratamento prévio com uso de softwares livres, de fácil utilização e implementação. Esse tipo de modelo é especialmente útil na língua portuguesa onde “coronavirus” e “coronavírus” são palavras diferentes para o computador, mas com significados idênticos. Também endereça frases como - “FC: 65BPM FR: 26IPM PA:100/57MMGH SAT: 95% em AA. mantêm quadro de desconforto respiratório” por “entender” que desconforto respiratório pode estar relacionado à COVID-19.

Inesperadamente o modelo gerou outros grupos de interesse. Notadamente um grupo de pacientes com câncer em que o tópico formado praticamente descreve o diagnóstico atribuído aos pacientes - “neoplasia, maligna, mama” e grupos de pacientes com problemas ortopédicos e transtornos mentais. Certamente são pacientes que podem se beneficiar de programas de promoção de saúde.

Por outro lado, um modelo não supervisionado selecionou autorização prévia pertencentes a pacientes com câncer. Isso levanta sérias preocupações sobre o tratamento ético e responsável das informações. Esse trabalho evidencia os problemas que esses modelos podem ocasionar no campo ético 4343. Schwalbe N, Wahl B. Artificial intelligence and the future of global health. Lancet 2020; 395:1579-86., especialmente pelo foco na aplicação técnica de NLP desconsiderando-se a dimensão humana. Há necessidade da ampla participação humana em diferentes etapas da criação de um programa de promoção à saúde para pacientes com síndrome pós-COVID-19. Isso não torna o método menos importante, apenas reforça a necessidade de controle humano.

Até onde é dado saber, trata-se do primeiro estudo empregando essa técnica utilizando dados de saúde em saúde suplementar no Brasil.

Limitações do estudo

É um modelo pouco generalizável por conta de fatores como: (i) ser uma base proprietária; (ii) dificuldade de acesso a informações devido ao sigilo ético e legal; e (iii) pelo uso do modelo treinado em corpus não médicos de língua inglesa. Também foi observado que existe uma quantidade importante de autorizações com descrições pobres semanticamente, prejudicando a classificação. A avaliação da qualidade do modelo dependeu de análise manual do pesquisador principal, o que pode introduzir um viés que está sendo mitigado pela exposição da informação, e respectiva classificação.

Estudos adicionais

O modelo deve ser aprimorado por método supervisionado com a inclusão de rótulos criados por especialistas. Também pode ser enriquecido com outros métodos de aprendizado de máquina, como a análise das imagens anexadas às autorizações. É necessária a discussão ética sobre a aplicação de modelos automatizados, especialmente quando classificam pessoas em grupos de doenças. É preciso avaliar qual é o impacto dos regimes e objetivos de tratamento (p.ex.: ambulatorial e diagnóstico) no comportamento dos modelos. São necessários estudos adicionais sobre o inter-relacionamento de diferentes dimensões de conhecimento e respectivos profissionais na provisão de uma atenção integrativa, colaborativa e sustentável.

Conclusão

O modelo BERTopic sem tratamento de palavras selecionou pacientes suspeitos de infecção por COVID-19 mais graves que o modelo Word2Vec com tratamento de palavras. Por outro lado, o último modelo foi capaz de selecionar um grupo maior de casos suspeitos. Observa-se que a decisão sobre o melhor modelo depende da análise humana complementar e do programa de promoção à saúde desenhado.

Comparados a métodos tradicionais, observou-se que os modelos BERTopic não classificaram casos suspeitos, em sua maioria de menor gravidade, mas que podem ser relevantes em um modelo integrado de atenção à saúde. Reforça-se, assim, o caráter exploratório, seu uso intermediário para aplicação de um modelo supervisionado e a necessidade de comparação de resultados com métodos tradicionais de pesquisa.

Por outro lado, o modelo gerou tópicos de interesse para estudos futuros, especial atenção aos casos suspeitos de pacientes com câncer.

Os achados demonstram a importância da participação humana - análise dos tópicos gerados para correta classificação gerando informações para um modelo supervisionado, escolha do melhor modelo de acordo com a perspectiva de gerenciamento de saúde (pacientes mais graves versus menos graves), desenho de um programa de promoção à saúde (alinhado a essa escolha) e atenção aos aspectos éticos do uso de ferramentas de aprendizado de máquina em saúde.

Referências

  • 1
    Adil MT, Rahman R, Whitelaw D, Jain V, Al-Taan O, Rashid F, et al. SARS-CoV-2 and the pandemic of COVID-19. Postgrad Med J 2021; 97:110-6.
  • 2
    Noronha KVMS, Guedes GR, Turra CM, Andrade MV, Botega L, Nogueira D, et al. The COVID-19 pandemic in Brazil: analysis of supply and demand of hospital and ICU beds and mechanical ventilators under different scenarios. Cad Saúde Pública 2020; 36:e00115320.
  • 3
    Li J, Huang DQ, Zou B, Yang H, Hui WZ, Rui F, et al. Epidemiology of COVID-19: a systematic review and meta-analysis of clinical characteristics, risk factors, and outcomes. J Med Virol 2021; 93:1449-58.
  • 4
    Victora CG, Hartwig FP, Vidaletti LP, Martorell R, Osmond C, Richter LM, et al. Effects of early-life poverty on health and human capital in children and adolescents: analyses of national surveys and birth cohort studies in LMICs. Lancet 2022; 399:1741-52.
  • 5
    Mannelli C. Whose life to save? Scarce resources allocation in the COVID-19 outbreak. J Med Ethics 2020; 46:364-66.
  • 6
    Crook H, Raza S, Nowell J, Young M, Edison P. Long covid-mechanisms, risk factors, and management. BMJ 2021; 374:n1648.
  • 7
    Hope AA, Evering TH. Postacute sequelae of severe acute respiratory syndrome coronavirus 2 infection. Infect Dis Clin North Am 2022; 36:379-95.
  • 8
    Pavli A, Theodoridou M, Maltezou HC. Post-COVID syndrome: incidence, clinical spectrum, and challenges for primary healthcare professionals. Arch Med Res 2021; 52:575-81.
  • 9
    Khan A, Khan M, Ullah S, Wei D-Q. Hantavirus: the next pandemic we are waiting for? Interdiscip Sci 2021; 13:147-52.
  • 10
    Fayyad U, Piatetsky-Shapiro G, Smyth P. From data mining to knowledge discovery in databases. AI Magazine 1996; 17:37-54.
  • 11
    Dinov ID. Volume and value of big healthcare data. J Med Stat Inform 2016; 4:3.
  • 12
    Esfandiari N, Babavalian MR, Moghadam A-ME, Tabar VK. Knowledge discovery in medicine: current issue and future trend. Expert Systems with Applications 2014; 41:4434-63.
  • 13
    Cios KJ, Kurgan LA. Trends in data mining and knowledge discovery. In: Pal NR, Jain L, editors. Advanced techniques in knowledge discovery and data mining. London: Springer London; 2005. p. 1-26.
  • 14
    Idri A, Benhar H, Fernández-Alemán JL, Kadi I. A systematic map of medical data preprocessing in knowledge discovery. Comput Methods Programs Biomed 2018; 162:69-85.
  • 15
    Alloghani M, Al-Jumeily D, Mustafina J, Hussain A, Aljaaf AJ. A systematic review on supervised and unsupervised machine learning algorithms for data science. In: Berry MW, Mohamed A, Yap BW, editors. Supervised and unsupervised learning for data science. Cham: Springer International Publishing; 2020. p. 3-21.
  • 16
    Dogan O, Tiwari S, Jabbar MA, Guggari S. A systematic review on AI/ML approaches against COVID-19 outbreak. Complex Intell Systems 2021; 7:2655-78.
  • 17
    Lauriola I, Lavelli A, Aiolli F. An introduction to deep learning in natural language processing: models, techniques, and tools. Neurocomputing 2022; 470:443-56.
  • 18
    Junaid T, Sumathi D, Sasikumar AN, Suthir S, Manikandan J, Khilar R, et al. A comparative analysis of transformer based models for figurative language classification. Comput Electr Eng 2022; 101:108051.
  • 19
    Agência Nacional de Saúde Suplementar. TISS - padrão para troca de informação de saúde suplementar. https://www.gov.br/ans/pt-br/assuntos/prestadores/padrao-para-troca-de-informacao-de-saude-suplementar-2013-tiss (accessed on 20/Dec/2021).
    » https://www.gov.br/ans/pt-br/assuntos/prestadores/padrao-para-troca-de-informacao-de-saude-suplementar-2013-tiss
  • 20
    Agência Nacional de Saúde Suplementar. Resolução Normativa nº 259, de 17 de junho de 2011. Dispõe sobre a garantia de atendimento dos beneficiários de plano privado de assistência à saúde e altera a Instrução Normativa - IN nº 23, de 1º de dezembro de 2009, da Diretoria de Normas e Habilitação dos Produtos DIPRO. Diário Oficial da União 2011; 20 jun.
  • 21
    Instituto Brasileiro de Geografia e Estatística. Conta-satélite de saúde: Brasil - 2010-2019. https://biblioteca.ibge.gov.br/visualizacao/livros/liv101928_informativo.pdf (accessed on 07/Jul/2022).
    » https://biblioteca.ibge.gov.br/visualizacao/livros/liv101928_informativo.pdf
  • 22
    Duval FV, Silva FAB. Mining in Twitter for adverse events from malaria drugs: the case of doxycycline. Cad Saúde Pública 2019; 35:e00033417.
  • 23
    Moreira LB, Namen AA. A hybrid data mining model for diagnosis of patients with clinical suspicion of dementia. Comput Methods Programs Biomed 2018; 165:139-49.
  • 24
    Diniz EJS, Fontenele JE, Oliveira AC, Bastos VH, Teixeira S, Rabêlo RL, et al. Boamente: a natural language processing-based digital phenotyping tool for smart monitoring of suicidal ideation. Healthcare (Basel) 2022; 10:698.
  • 25
    Liu L, Tang L, Dong W, Yao S, Zhou W. An overview of topic modeling and its current applications in bioinformatics. Springerplus 2016; 5:1608.
  • 26
    Alghamdi R, Alfalqi K. A survey of topic modeling in text mining. International Journal of Advanced Computer Science and Applications 2015; 6:147-56.
  • 27
    McInnes L, Healy J, Melville J. UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction. arXiv 2018; 9 feb. https://arxiv.org/abs/1802.03426
    » https://arxiv.org/abs/1802.03426
  • 28
    Grootendorst M. BERTopic: neural topic modeling with a class-based TF-IDF procedure. https://maartengr.github.io/BERTopic/algorithm/algorithm.html (accessed on 14/Dec/2022).
    » https://maartengr.github.io/BERTopic/algorithm/algorithm.html
  • 29
    Reimers N, Gurevych I. Sentence-BERT: sentence embeddings using siamese BERT-networks. arXiv 2019, 27 aug. https://arxiv.org/abs/1908.10084
    » https://arxiv.org/abs/1908.10084
  • 30
    Devlin J, Chang M-W, Lee K, Toutanova K. BERT: pre-training of deep bidirectional transformers for language understanding. arXiv 2022; 24 may. https://arxiv.org/pdf/1810.04805.pdf
    » https://arxiv.org/pdf/1810.04805.pdf
  • 31
    Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. Attention Is All You Need: 31st Conference on Neural Information Processing Systems (NIPS 2017). https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf (accessed on 17/Oct/2023).
    » https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
  • 32
    Mikolov T, Chen K, Corrado G, Dean J. Efficient estimation of word representations in vector space. arXiv 2013; 16 jan. https://arxiv.org/abs/1301.3781
    » https://arxiv.org/abs/1301.3781
  • 33
    Mikolov T, Sutskever I, Chen K, Corrado G, Dean J. Distributed representations of words and phrases and their compositionality. https://proceedings.neurips.cc/paper_files/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf (accessed on 17/Oct/2023).
    » https://proceedings.neurips.cc/paper_files/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf
  • 34
    Hernández MA, Stolfo SJ. Real-world data is dirty: data cleansing and the merge/purge problem. Data Min Knowl Discov 1998; 2:9-37.
  • 35
    Syrowatka A, Kuznetsova M, Alsubai A, Beckman AL, Bain PA, Craig KJT, et al. Leveraging artificial intelligence for pandemic preparedness and response: a scoping review to identify key use cases. NPJ Digit Med 2021; 4:96.
  • 36
    Chen Q, Leaman R, Allot A, Luo L, Wei C-H, Yan S, et al. Artificial intelligence in action: addressing the COVID-19 pandemic with natural language processing. Annu Rev Biomed Data Sci 2021; 4:313-39.
  • 37
    Egger R, Yu J. A topic modeling comparison Between LDA, NMF, Top2Vec, and BERTopic to demystify Twitter posts. Front Sociol 2022; 7:886498.
  • 38
    Leavell HR. The basic unity of private practice and public health. Am J Public Health Nations Health 1953; 43:1501-6.
  • 39
    Nadif M, Role F. Unsupervised and self-supervised deep learning approaches for biomedical text mining. Brief Bioinform 2021; 22:1592-603.
  • 40
    Liu F, Demosthenes P. Real-world data: a brief review of the methods, applications, challenges and opportunities. BMC Med Res Methodol 2022; 22:287.
  • 41
    Raoof S, Kurzrock R. For insights into the real world, consider real-world data. Sci Transl Med 2022; 14:eabn6911.
  • 42
    Chen T, Dredze M, Weiner JP, Hernandez L, Kimura J, Kharrazi H. Extraction of geriatric syndromes from electronic health record clinical notes: assessment of statistical natural language processing methods. JMIR Med Inform 2019; 7:e13039.
  • 43
    Schwalbe N, Wahl B. Artificial intelligence and the future of global health. Lancet 2020; 395:1579-86.

Datas de Publicação

  • Publicação nesta coleção
    04 Dez 2023
  • Data do Fascículo
    2023

Histórico

  • Recebido
    19 Jan 2023
  • Revisado
    26 Jun 2023
  • Aceito
    04 Jul 2023
Escola Nacional de Saúde Pública Sergio Arouca, Fundação Oswaldo Cruz Rio de Janeiro - RJ - Brazil
E-mail: cadernos@ensp.fiocruz.br