sábado, 29 de mayo de 2021

Variables de Confusión: Qué es la paradoja de Berkson, o sesgo de encuentro, y el riesgo atribuido al COVID

 Vamos a ver un caso muy especial que está asociado a las variables de confusión. La denominada Paradoja de Berkson, también denominada Sesgo de encuentro, sesgo de colisión, o falacia de Berkson. En inglés se denomina Collider Bias. 

La importancia de la paradoja de Berkson se encuentra en la interpretación de los estudios de bioestadística, de los estudios de biomedicina y de medicina. 

En el año 1946, un estadístico de la clínica de Mayo, en USA, hizo una observación que dejó un poco perpleja a la comunidad científica. Analizando los datos epidemiológicos del Hospital, se dió cuenta que la relación estadística entre las enfermedades puede ser engañosa si se la estudia solamente en pacientes de los hospitales. Qué significa esto?, que los datos de un hospital o una internación nos piede mostrar asociación entre dos condiciones, cuando en realidad no existe, o alternativamente, puede aparecer una asociación ficticia, o bien una asociación en sentido inverso. 

Pero, ¿Qué es lo que encontró Berkson específicamente?. Berkson estudió la diabetes y la inflamación de la vesícula, o colecistitis. Se sabe que la diabetes es un factor de riesgo para la inflamación, y naturalmente tendrían que estar correlacionadas positivamente, pero analizando los datos del hospital, Berkson encontró un correlación negativa entre las enfermedades. Inmediatamente Berkson publicó los resultados, sosteniendo que era una asociación espúrea o sesgada, por ser estudiada únicamente en personal hospitalario, aunque tardaría mucho tiempo hasta que la comunidad científica comience a tomarse en serio sus observaciones.

Para entender mejor esto, veamos un ejemplo que surgió unos años después. En 1979, el dr. Sackett encontró que el 7.5% de la población general tenía enfermedades de los huesos, y que este porcentaje no estaba relacionado para nada con la presencia de una enfermedad respiratoria. Pero si observaba en la población hospitalaria, es decir, en pacientes itnernados con enfermedad respiratoria, el porcentaje de personas con enfermedades en los huesos se disparaba al 25%. Si en la ciudad no habia alguna relación entre los huesos y las enfermedades respiratorios, porqué las personas internadas con enfermedades respiratorias tenían un gran número de problemas en los huesos. Sackett denominó a este sesgo, el sesgo de Berkson, o el sesgo de la tasas de admisión.

La cuestión se encuentra en que hay tres variables, la primera es una enfermedad, en este caso la enfermedad respiratoria, la segunda variable es la segunda enfermedad, la enfermedad de los huesos. Pero ambas variables influyen sobre la tercer variable, la denominada collider, o colisión, es la hospitalización. La probabilidad de encontrar a una persona que posea una enfermedad de huesos y una enfermedad respiratoria aumentan en la población hospitalaria, porque la muestra no es representativa. Ambas variables influyen en la hospitalización, y  por ende, en que muestra coy a tomar para analizar, es un sesgo de selección.

Otro caso interesante es el de los tests COVID en Gran Bretaña. Sabemos que en la población general , las personas de mayorpía de edad poseen una correlación entre el peso y la edad. A mayor edad, mayor peso. Es una de las asociaciones más consistentes en la medicina. Sin embargo, si tomamos solamente la población que que se ha realizado el test COVID, y analizamos la relación entre la edad y el peso entre los testeados, encontramos que la edad está inversamente correlacionado al peso. Es decir, a mayor edad, menor peso. ¿Como puede ser esto?, es otro caso de la paradoja de Berkson. 

Esto es porque en un momento los tests eran realizados primariamente a las personas de mayor riesgo, y quienes eran las personas de más riesgo, aquellas que eran jóvenes pero tenían alto peso, y personas mayores, que no eran necesariamente obesas. Si tomo esta subpoblación, la correlación entre la edad y el peso era inversa, al contrario que la población general.

Esto puede verse en el gráfico, donde la raya roja es la relación positiva que se obtiene entre la edad y el peso, mientras que la raya azul es la relación engativa que se observa entre las personas que obtuvieron el test.

En general, si dos factores influencian la manera en que son seleccionados en una muestra, se dice que esos factores "colisionan sobre la selección". En el casos del ejemplo de la enfermedad respiratoria y la del hueso, ambos factores influian directamente en la hospitalización. En el caso de la edad y del peso, las dos variables influían en si se tomaba el test o no se tomaba el test.

En el gráfico vemos una representación del fenómeno, las flechas indican las relaciones causales y la relación entre las variables puede ser alterada si ambas influyen en la selección de la muestra. Se pueden generar asociaciones que no existían anteriormente, como las enfermedades del hueso y respiratoria. O invertir relaciones existentes, como el peso y la edad; o exagerar algunas otras.

Veamos un tercer ejemplo. Un trabajo interesante, publicado por Herbert, Griffith y colaboradores en el año 2020, ilustra como esta paradoja puede explicar algunos resultados aparentemente sorprendentes que se observaron en la pandemia. 

Un trabajo epidemiológico que llamó mucho la atención a comienzos del año pasado fue a partir de unos datos que sostenían que el tabaco era un factor protector contra el COVID. La reacción inicial ante esta sugerencia fue tomada con mucho escepticismo. El Tabaco es muy malo para el sistema respiratorio, ¿como puede ser que sea beneficioso para el virus? . Pero los datos que emergían de los paises donde el virus pegó primero parecían avalar esta hipótesis: la proporción de fumadores entre los pacientes hospitalizados por COVID era una proporción mucho más baja que la proporción de fumadores de la población general. En China, el 8% de los pacientes hospitalizados por COVID eran fumadores, mientras que en la población general ese porcentaje llegaba a un 25%. En Italia, está diferencia era también notoria, el 8% de los hospitalizados fumaban, mientras que el 19% de la población general lo hacía. Era un resultado raro, ¿podría ser que el tabaco protegía a las personas de las hospitalizaciones por COVID, o estaba siendo otro caso de la paradoja de Berkson?

La explicación es la siguiente. Para que una persona sea hospitalizada, debe tener un grado serio de COVID. Por otro lado, el tabaco ocasiona un gran número de enfermedades colaterales, como cardíacas, cáncer, arteriosclerosis, etc, que pueden devenir en hospitalizaciones. Por tanto, una persona que está hospitalizada, tendrá un grado muy severo de COVID, o no será hospitalizada, pero entre los pacientes que no tengan COVID, habrá una mayor proporción de internados por causas relacionadas al tabaco, es decir, habrá una mayor proporcion de fumandores en internados no COVID. Dicho de otra manera, Los test COVID en los internados mostrarán menor tasa de infección entre fumadores que en no fumadores, porque los fumadores también están internados por enfermedades relacionadas al cigarrillo, y no necesariamente COVID. mostrando un sesgo de selección.

Por esta razón es tan importante el proceso de selección. El hecho de pertencer a un cierto grupo de riesgo poseer ciertos síntomas aumenta la chance de ser seleccioado para un test y colisionan en la selección. Es por eso que el proceso de selección debe ser representativo. Es importante donde la inferencia causal es el foco del trabajo.


Ecuación de la Regresión Lineal simple

 En el corazón de los análisis de las ciencias de la salud, normalmente es común o conveniente observar como es la relación entre dos variables. Digamos, edad y estatura, alimentación y ganancia de peso, o ingreso familiar y gastos médicos. 

La naturaleza e intensidad de las relaciones entre dos variables pueden ser analizadas por regresión y correlación. Las dos técnicas están relacionadas, pero sus usos son diferentes y cumplen diferentes funciones. 


El objeto de la regresión es predecir la forma de la relación entre las variables, y el objetivo final, es predecir o estimar el valor de una variable dado que se sabe el valor de otra variable.

Las ideas de regresión fueron expuestas primero por Sir Francis Dalton, investigando sobre la estatura humana. Concluyó que que la estatura de un individuo adulto, sin importar si desciende de padres altos o bajos, tiende a revertirse a la estatura promedio de la población.

Como todos los otros problemas en la estadísticas, los investigadores poseen muestras poblacionales de un apoblación real, en base a esa muestra se propone tomar una decisión con respecto a la población donde se extrajo la muestra. Por lo tanto, es importante que si uno va a utilizar un modelo de regresión lineal simple, este represente la población. No es de esperarse que el modelo represente fielmente la población, porque raramente se encuentra esto en modelos de aplicación práctica. Por otra parte, si se forzan los datos a un modelo que no se ajusta bien tampoco tiene valor. Sin embargo, un modelo que no está perfectamente ajustado no es un obstáculo para obtener valores útiles. Y ahi es donde juega el investigador, debe ser capaz de decidir cuando el modelo elegido y los dartos son lo suficentemenete compatibles como para poder proceder y en el que se deberá rechazar dicho modelo.

Tipos de Variables.

La regresión lineal simple utiliza dos variables. X e Y. A la variable X se la conoce como variable independiente, y es la que con frecuencia se encuetra en control del onvestigador, es decir, los valores de X pueden ser seleccionados por el investigador para obtener los valores de Y. Por cada valor de X que elija el investigador, correponderá un valor de Y que saldrá como respuesta. Por eso, a la variable Y se la denomina variable dependiente o variable de respuesta. Se habla de la regresión de Y sobre X

Supuestos

1. Los valores de la variable X son fijos, lo que quiere decir es que son previamente elegidos por el investigador, y no pueden variar. También se llama variable no aleatoria o variable matemática. 

2. La variable X se mide sin error, o con error insignificante.

3. Por cada valor de X, existe uns subpoblación de valores probables de Y. Para que las pruebas de hipótesis e inferencia estadística funcionene, esa subpoblación debe poseer un distriución normal 

4. Todas las varianzas de las subpoblaciones de Y son iguales, como se observa en el gráfico

5. Todas las medias de las subpoblaciones de Y se encuentran en la misma linea recta. Es la denominada suposición de linealidad


Donde u es la media de la subpoblación de los valores de Y para un X determinado, alfa y beta representan a los coeficientes de regresión de la recta. Alfa es la ordenada de origen y beta es la pendiente de la recta en donde están todas las medias. 

 6. Los valores de Y son estadísticamente independientes. En otras palabras, al extraer la muestra, los valores de Y obtenidos a partir de un valor de X de ninguna manera dependen de los valores de Y elegidos para otro valor de X.


Estas suposiciones se resumen en la siguiente ecuació, que es la del modelo de regresión.

Donde y es un valor representativo de una de las subpoblaciones de Y (para un X dado), alfa y beta son los coeficientes de represión y e es el error.

Se puede apreciar que despejando la fóruma nos queda que e indica la cantidad en que el valor y de la recta de regresión se desvía de la media de los valores Y de la población en que se extrae (uy|x). COmo consecuencia que las subpoblaciones Y siguen una distribución normal con varianzas iguales, los errores también deben seguir una distribuión normal con varianzas iguales a la varianza común de las poblaciones donde se extraen


EL primer paso en querer evaluar una relación es graficar un diagrama de dispersión, por ejemplo, la circunferencia de cintura y grasa abdominal. Si tenemos evidencia que están relacionadas linealmente podremos formar una recta. 

La recta de los mínimos cuadrados, es aquella recta que minimiza las desviaciones verticales al cuadrado de los puntos observados (yi) y es menor que cualquier otra recta.

Si la hipótesis nula no es rechazada (aceptada),la hipótesis de no diferencia, en esta, la pendiente de la curva es igual a 0. Es una relación lineal que tiene poco o ningún valor pronóstico para la otra variable, es probable que la dispersión tenga otra descripción no lineal.

Error de tipo I: rechazar una hipótesis nula verdadera. No hay diferencia, pero declaro que la hay, un falso Positivo


Hipótesis nula rechazada, se acepta la alternativa. Existe una relación lineal entre las variables. Se dice que un modelo lienal otorga un buen ajuste de datos

Error de tipo II: aceptar una hipótesis nula falsa. Hay diferencia, pero declaro que no la hay. un Falso Negativo.

Coeficiente de Determinación

Para evaluar el ajuste se observa la dispersión de puntos alrededor de la recta de regresión. La recta de regresión expresa la media de los valores






 

Asociación e Interacción

Es muy fácil confundir los términos de asociación e interacción en la estadística. Se puede asumir que para que dos variables interaccionen, si o si deben estar asociadas, o correlacionadas. Pero esto, no es cierto.

En la estadística, existen varias relaciones entre variables, y los términos de asociación e interacción tienen diferentes connotaciones, especialmente cuando estamos hablando de modelos de regresión ANOVA-

En breve, el término asociación consiste en una relación exclusiva de dos variables, por ejemplo, digamos, que esas dos variables son el la edad (X) y el peso (Y). Ahora, sabemos que el peso y la edad están correlacionados, porque el peso aumenta con la edad en la población

Si ponemos los datos en una curva de regresión, podemos decir que X, la variable independiente es la edad, e Y, la variable dependiente es el peso. Cuando aumentamos la edad, como respuesta, aumenta el peso.

Pero en la interacción, salimos de la relación estricta que tienen dos variables y nos adentramos en la relación que tienen las dos variables con una tercera.
Por ejemplo, introducimos la ingestión de te. Digamos que la toma de te es independiente d la edad, aproximadamente la misma cantidad de gente joven toma cafe que la gente más grande.
Las variables de tomar te y la edad no están asociadas en los más mínimo. Sin embargo, cuando vemos que efecto tienen sobre la variable respuesta, que en este caso es el peso, vemos que una mayor toma de te está asociada a un menor peso, y que com habíamos visto, una mayor edad también está asociado a la toma del te.
Sin embargo, al analizar más detalladamente las variables, podemos encontrar que el te tiene un efecto dietético mayor en personas mayores, y un efecto menor en personas de menos años. El problema de la interacción, es que si solo analizamos la edad y el peso, y no preguntamos si esas personas toman o no toman te, entonces podemos subestimar o sobreestimar el efecto de la edad.

Ese es el concepto, ahora veamos en detalle.

Ejemplo:

Veremos un ejemplo con tres variables, X1, X2 e Y.   X1 es independiente continua, X2 es independiente categórica e Y es dependiente. Aunque pueden tratarse de cualquier continua o independiente, es más fácil plotear así.

Volvamos a nuestro ejemplo, digamos que X1 es continua, la cantidad de te que tomamos, y X2 es categótica, la edad. Como vimos, la variable Y es el peso. Por conveniencia, vamos a graficar una de las variables independientes, el te, en el eje de las X, y la dependiente, el peso, en el eje de las Y.

Vemos como se comporta el gráfico de dispersión cuando no hay una asociación entre la edad y el peso, idealmente es una recta que va ascendiendo con una pendiente. Ahora introducimos la información de tomar el te, los puntos azules corresponden a los grandes tomadores de te, que llamaremos tomadores fuertes, y los puntos rojos son los tomadores débiles. En el caso que vemos, estos se distribuyen uniformemente en todo el gráfico. Por tanto, esto nos dice que no asociación entre las dos variables independientes y tampoco interacción. También nos indica que el té no está asociado al peso.

En el segundo caso, que pasaría si hay un asociación entre las variables independientes, digamos, a mayor cantidad de años, mayor infusión de te, entonces podríamos tener una distribución parecida a esta. donde las personas que menos toman te se acercan a las edades mas bajas, y que las que más toman te a las edades mas altas. Pero ojo, todavia no tenemos ningún tipo de interacción. Este es el caso de asociación sin interacción. También nos indica que el té no está asociado al peso.

Pero que pasaría ahora pasaría si el te tiene una asociación con la variable dependiente, el peso. Entonces obtendríamos dos rectas, una con aquellas personas que menos toman, que estaría expresando solamente la relación entre la edad y el peso, y otra recta, paralela, indicando las personas que más toman. Todavía no tenemos interacción. Solo para demostrar las diferencias en las rectas, en este caso vemos que hay asociación entre las variables, y en este otro vemos que las variables no están asociadas.

Una situación parecida es el peso en jóvenes, si se discrimina por sexo, veremos que los varones poseen más peso que las mujeres, y se obtienen dos rectas similares de acuerdo al sexo. A su vez, sabemos que hay una pequeña asociación entre el peso y el sexo.


Volvamos al primer caso, en que no hay asociación entre las variables o interacción. La media de X1, la cantidad de te, es la misma para todas las categorías de X2, la edad, no hay asociación. Pero como X1, en este caso, la cantidad de te, afecta al peso, va a depender de que categoría

Y ahora vamos al caso más complejo, en que tenemos asociación e interacción. Hay asociación entre el te y la edad, ya que habíamos establecido que más gente grande toma te, pero también hay interacción, porque el efecto dietético del té es más potente en personas más grandes.

Una nota al pie, a veces estas interacciones se vuelven aparentes recién cuando observamos los gráficos, por eso es que es importante detenernos y hacer la exploración de los datos antes de ver que está sucediendo exactamente con ellos.

¿Es la edad del calendario igua a nuestra edad biológica?

Se dice que el tiempo que se desperdicia no se recupera más y que el reloj es un enemigo imbatible. Durante décadas, el avance de la ciencia...