jueves, 7 de mayo de 2020

Qué es y qué no es confusión en estadística



Por ejemplo, si estamos probando los efectos del ejercicio físico respecto a la longevidad de las personas jubiladas o retiradas, entonces tomamos un grupo de pacientes que caminan mucho y lo comparamos con otro que no caminan y los seguimos en un período de cinco años. En este caso, el ejercicio físico es X y longevidad es Y. ¿Qué esperaríamos en este ejemplo?. Esperamos que el grupo que realiza más actividad física sean más longevos que aquellos que lo hacen pobremente.
Ahora, si la edad promedio de los grupos es diferente al comenzar el estudio, podemos arribar a un resultado erróneo. Si, por dar un ejemplo hipotético, el grupo que realiza poca actividad física son en promedio más jóvenes que aquellos que caminan más, se registrarán más fallecimientos en el grupo que camina más, pero estas se deberán a las diferencias de edad de ambos grupos y no a los efectos del ejercicio físico. En ese caso, la Edad es el factor de confusión.

Ahora, uno se puede realizar otra pregunta, ¿pueden haber otros factores que no hayamos tenido en cuenta que modifiquen aún más los resultados?. ¿cuál era la dieta de los grupos?, ¿tenían enfermedades subyacentes?

Este es un ejemplo real, que proviene de un  trabajo realizado en Honolulu. En este trabajo se seguían a 8000 hombres jubilados desde el año 1965 hasta 1977. Los investigadores querían saber si un mayor ejercicio físico prolongaba la vida en hombres jubilados. Ellos encontraron que los que caminaban menos de una milla por día tenían una tasa de mortalidad dos veces mayor que los que caminaban más de una milla por día.
Los investigadores pensaron en todo esto, así que midieron la edad, dieta, cigarrillo, peso, enfermedades preexistentes. Y efectivamente encontraron una diferencia en el promedio de edad entre los grupos. Así que realizaron lo que se conoce como ajuste del factor de confusión o controlar por el factor de confusión. Él único requisito que se debe tener es medir la variable ateriormente. Ellos tenían la edad y muchas otras medidas de las personas. Lo que hicieron fue diviri a los grupos de pacientes y al grupo control en intervalos de edad, y medimos el efecto que tiene la dieta en pacientes y controles de cada intervalo por separado. Después promediamos los efectos, considerando o ponderando cuánto porcentaje de personas había en cada intérvalo de edad. Este procedimiento se denomina "ajuste de Z" o "controlar Z".

Luego de ajustar los resultados, encontraron que el 43% de los poco caminadores habían muerto,en comparación con el fallecimiento de solamente el 21% de los caminadores intensos.

¿Porqué es a veces muy difícil detectar la confusión en un estudio? 
La razón de tal dificultad se basa en dos premisas, primero es la diferencia entre lo que queremos calcular (la relación causal entre dos variables, X e Y, como vimos) y como diseñamos el estudio para detectarlo.
Hay dos conceptos fundamentales en la confusión: la incomparabilidad de los grupos, como vimos, y la búsqueda de la tercer variable o de confusión.
Cuando decimos que vamos a comparar dos tratamientos, por ejemplo, una vacuna y un placebo, los grupos a quienes probamos deben ser iguales en las variables más importantes. Pero... que son las variables más importantes para ese tratamiento? Cómo se que la edad es importante para los caminadores de Honolulu?, pensamos que el sentido común nos dará la respuesta, pero las cosas siempre son más complicadas de lo que parecen.
El problema de la definir la variable de confusión también es problemático. Es una variable que tenga una causa común con X o Y, o es simplementa una variable que esté correlacionada con X o Y.
Entonces tenemos dos grupos de definiciones:
Proce

No hay comentarios:

Publicar un comentario

¿Es la edad del calendario igua a nuestra edad biológica?

Se dice que el tiempo que se desperdicia no se recupera más y que el reloj es un enemigo imbatible. Durante décadas, el avance de la ciencia...