Categorias

A IA do Google derrubou o câncer de mama? Não exatamente

Novamente, “Inteligência Artificial” e “Google” ganharam as manchetes do mundo inteiro no início do ano com uma notícia tratada como bombástica: DeepMind teria conseguido sucesso absoluto no diagnóstico do câncer de mama. Embora o progresso seja significativo e qualquer progresso nessa área seja sempre muito bem-vindo, é necessária sobriedade no tratamento do feito.

Quando o Google anunciou ter quebrado paradigmas no desenvolvimento de sua tecnologia de computação quântica, os resultados foram contestados pela concorrência e por especialistas e, no frigir dos ovos, não eram tão grandiosos quanto foram alardeados. Outra vez, a imprensa de forma geral abraça o sensacionalismo em busca de cliques fáceis e não estuda os meandros do projeto efetivamente apresentado.

Felizmente, o site ZDNet foi à fundo nessa reportagem e descobriu que ainda é muito cedo para a tecnologia substituir profissionais de saúde gabaritados.

A história começou quando a divisão DeepMind do Google, em conjunto com 31 acadêmicos do Google Health, mais autores do Imperial College of London publicou um artigo na primeira edição do ano da revista científica Nature, uma das mais prestigiadas publicações do mundo. De acordo com o artigo, os pesquisadores utilizaram aprendizado profundo para ensinar os algoritmos do DeepMind a reconhecerem indícios de câncer na mamografia de pacientes, com uma taxa de acertos e falsos positivos mais eficaz do que um conjunto de seis radiologistas dedicados.

Imediatamente, jornais do mundo todo trabalharam em cima do resumo do artigo, proclamando que a Inteligência Artificial era capaz de detectar câncer de mama com precisão, uma conquista que teria um impacto gigantesco na prevenção da doença. Com 42 milhões de exames sendo realizados todos os anos, somente nos Estados Unidos e no Reino Unido, de acordo com dados do próprio Google, a promessa de diagnósticos perfeitos seria uma garantia de esperança para vencer a doença.

Entretanto, os dados puros da pesquisa são menos otimistas que as manchetes. E alguns detalhes importantes foram ignorados pela imprensa.

Para alimentar os algoritmos utilizados, os pesquisadores reuniram dados de três hospitais diferentes do Reino Unido relativos a mulheres que foram submetidas a exames de mama entre 2012 e 2015, totalizando 13.918 pacientes. Entretanto, essa amostragem foi limitada a mulheres que atendiam a critérios pré-determinados de idade e exames específicos.

Uma vez treinados os algoritmos, o projeto foi testado contra outros 26.000 casos com a mesma origem. Um processo similar foi utilizado com dados do hospital norte-americano Northwestern Memorial Hospital, coletados entre 2001 e 2018, mas a amostragem era bem menor.

Na mídia, DeepMind se tornou uma figura conhecida em relação ao cenário da pesquisa de Inteligência Artificial, frequentando manchetes, ao derrotar campeões de Go, se dedicar a StarCraft II e outras peripécias no campo dos jogos. Aparentemente, não há limites para o que os algoritmos podem aprender e o Google teria trazido de volta seu garoto-propaganda das IAs para um contexto em que ele possa salvar vidas.

Embora DeepMind tenha levado os créditos pelos resultados, essa é uma afirmação incorreta. Essa força-tarefa de pesquisa empregou nada menos que três redes neurais diferentes para atingir a performance desejada. Uma delas chama-se ResNet V-1 50, desenvolvida inicialmente por Kaiming He e colegas da Microsoft em 2015, para reconhecimento de imagens. A segunda rede neural é a RetinaNet, desenvolvida pelo departamento de Inteligência Artificial do Facebook em 2017. Por último, entrou em cena MobileNet V2, essa sim uma rede neural desenvolvida pela unidade DeepMind do Google no ano passado.

Entretanto, a grande diferença entre um diagnóstico preciso e o que esse projeto realmente atingiu é outro. Uma análise de mamografia não é um resultado definitivo, uma garantia da presença ou não de um câncer de mama e isso só foi obtido nas amostras utilizadas através do processo da biopsia de tecido. O que o uso de redes neurais obteve não foi um sim/não, mas uma escala contínua de probabilidade de presença de câncer, que foi posteriormente transformada em valores binários por outro processo. Esse processo secundário foi validado utilizando um conjunto separado de testes que selecionava respostas individuais. Não se trata, portanto, de garantir que “sim” ou garantir que “não”, mas avaliar um valor e bater o martelo baseado em uma decisão relativamente arbitrária.

Mas a Inteligência Artificial superou mesmo os humanos em analisar essa mamografia? Essa também é uma conclusão relativa. No conjunto de dados do Reino Unido, os algoritmos obtiveram uma performance “não-inferior” à avaliação humana.

O único quesito em que o processo foi superior foi em relação à chamada “especificidade”, um termo estatístico que, nesse caso, significa que as máquinas conseguiram menos diagnósticos falso positivos que os radiologistas humanos. Esses são casos em que o paciente foi diagnosticado com um possível câncer, mas exames posteriores revelaram que a doença não estava presente.

Mesmo nesse contexto, os resultados podem ser considerados triviais. Foi registrada uma redução de 5.7% em falsos positivos nos dados norte-americanos e meros 1.2% nos dados britânicos. A mesma pesquisa apontou uma redução mais significativa de 9.4% nos dados norte-americanos e 2.7% nos falsos negativos nos dados do Reino Unido.

Certamente, evitar o falso positivo é um alívio no stress de mulheres afetadas por esse tipo de diagnóstico. Contudo, como aponta Tiernan Ray, o articulista convidado da ZDNet, “a pontuação humana, nesse caso, foi de médicos que tiveram que julgar se outros exames seriam realizados com base na mamografia, como a biópsia. É concebível que os médicos nos estágios iniciais do diagnóstico possam fazer uma avaliação excessivamente ampla, a fim de levar o paciente a mais testes, para não arriscar a incidência de câncer não detectado”. E ele alerta: “essa é uma diferença fundamental entre um médico que decide para onde seguir com um paciente e uma máquina que adivinha a probabilidade de um resultado anos depois”.

Em outras palavras, o elemento humano, o zelo do médico pelo paciente, tem um peso que distorce os resultados da avaliação de radiologistas, um viés que não pode ser reproduzido por algoritmos e que tampouco deve ser comparado contra os resultados frios dos números. Deve-se levar em conta o uso ético da tecnologia e o bem-estar do paciente em primeiro lugar. Como lembra Ray, “se a IA determinar, em um caso específico, que a probabilidade de câncer é baixa com base na mamografia, um paciente gostaria que o médico errasse por precaução e prescrevesse uma biópsia, que é mais seguro do que remediar?”.

Nesses e na maioria dos casos, a tecnologia deve servir como um complemento na saúde. Embora os algoritmos utilizados tenham detectado pelo menos um caso de câncer confirmado que os seis radiologistas que avaliaram o teste não viram, também houve pelo menos um caso em que os seis especialistas humanos reconheceram um câncer real na mamografia que não havia sido detectado pelos algoritmos.

Uma combinação de resultados teria eliminado esse problema com alta margem de segurança. Essa é uma recomendação que a própria pesquisa faz: “a presença de tais casos extremos sugere papéis potencialmente complementares para o sistema de IA e leitores humanos na obtenção de conclusões precisas”. Caminhando juntos, a saúde só tem a ganhar.