Los modelos de lenguaje de
gran tamaño (LLM, por sus siglas en inglés), basados en inteligencia artificial
(IA) y entrenados para procesar y comprender el lenguaje natural a una escala
enorme, suponen un riesgo para quienes buscan asesoramiento en temas de salud,
porque tienden a dar información inexacta e inconsistente.
Según un estudio publicado
este lunes 9-2 en ‘Nature Medicine’, todavía existe una enorme brecha entre lo
que prometen los modelos de lenguaje (LLM) y su utilidad real para pacientes
que buscan información sobre sus síntomas.
El estudio, liderado por el
Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de
Atención Primaria de la Universidad de Oxford (Reino Unido), concluyó que los
que recurren a la IA para decidir sobre la gravedad de una afección, no tomaron
mejores decisiones que los que confiaron en métodos tradicionales (como buscar
en internet o su propio juicio).
En los últimos tiempos,
diversos proveedores de salud a nivel mundial han propuesto los LLM como
herramientas potenciales para realizar evaluaciones de salud preliminares y
gestionar sus afecciones antes de acudir a un médico.
Para testar esta capacidad de
la IA, los autores del estudio evaluaron si los LLM podían ayudar a los
ciudadanos a identificar con precisión afecciones médicas, como un resfriado
común, anemia o cálculos biliares y a decidir si acudir al médico de cabecera o
al hospital.
El estudio reveló que los que
usaron la IA no tomaron mejores decisiones que los que buscaron opinión en
internet o confiaron en su propio juicio.
Usuarios reales, desafíos
reales
El equipo hizo un ensayo
aleatorio con casi 1.300 participantes a los que pidió identificar posibles
condiciones de salud y recomendar acciones a seguir. Los escenarios, detallados
por médicos, incluían desde un joven con un fuerte dolor de cabeza tras una
salida nocturna hasta una madre primeriza que se sentía constantemente agotada
y sin aliento.
Un grupo usó un LLM para
asistir su toma de decisiones, mientras que un grupo de control utilizó fuentes
de información tradicionales, como consultar en internet.
Los resultados revelaron una
brecha significativa entre el rendimiento teórico de la IA y su uso práctico.
Tras repasar manualmente las interacciones entre humanos y LLM, el equipo
descubrió fallos importantes en la comunicación en ambas direcciones: a menudo
los participantes daban poca información o incompleta al modelo, pero también que
los LLM generaban información engañosa o errónea con recomendaciones que
mezclaban consejos buenos y malos.
El estudio concluye que los
LLM actuales no están listos para ser implementados en la atención directa al
paciente. “Diseñar pruebas robustas para los modelos de lenguaje es clave para
entender cómo podemos aprovechar esta nueva tecnología”, aseguró el Dr. Andrew
Bean, autor principal e investigador doctoral en el Oxford Internet Institute.
“En este estudio, demostramos
que la interacción con humanos supone un reto incluso para los mejores modelos.
Esperamos que este trabajo contribuya al desarrollo de sistemas de IA más
seguros y útiles”.
A la vista de los resultados
del estudio, los autores advierten que al igual que los ensayos clínicos para nuevos
medicamentos, los sistemas de IA deberían probarse en el mundo real antes de
ser implementados.
“Estos hallazgos resaltan la
dificultad de construir sistemas de IA que realmente puedan apoyar a las
personas en áreas sensibles y de alto riesgo como la salud”, señaló la Dra.
Rebecca Payne, médica de cabecera y líder del estudio.
“A pesar de toda la
expectativa, la IA simplemente no está lista para asumir el papel del médico.
Los pacientes deben ser conscientes de que consultar a un modelo de lenguaje sobre
sus síntomas puede ser peligroso, ya que pueden dar diagnósticos erróneos y no
reconocer cuándo se necesita ayuda urgente”, concluyó. BP
No hay comentarios.:
Publicar un comentario