Es muy fácil confundir los términos de asociación e interacción en la estadística. Se puede asumir que para que dos variables interaccionen, si o si deben estar asociadas, o correlacionadas. Pero esto, no es cierto.
En la estadística, existen varias relaciones entre variables, y los términos de asociación e interacción tienen diferentes connotaciones, especialmente cuando estamos hablando de modelos de regresión ANOVA-
En breve, el término asociación consiste en una relación exclusiva de dos variables, por ejemplo, digamos, que esas dos variables son el la edad (X) y el peso (Y). Ahora, sabemos que el peso y la edad están correlacionados, porque el peso aumenta con la edad en la población
Si ponemos los datos en una curva de regresión, podemos decir que X, la variable independiente es la edad, e Y, la variable dependiente es el peso. Cuando aumentamos la edad, como respuesta, aumenta el peso.
Pero en la interacción, salimos de la relación estricta que tienen dos variables y nos adentramos en la relación que tienen las dos variables con una tercera.
Por ejemplo, introducimos la ingestión de te. Digamos que la toma de te es independiente d la edad, aproximadamente la misma cantidad de gente joven toma cafe que la gente más grande.
Las variables de tomar te y la edad no están asociadas en los más mínimo. Sin embargo, cuando vemos que efecto tienen sobre la variable respuesta, que en este caso es el peso, vemos que una mayor toma de te está asociada a un menor peso, y que com habíamos visto, una mayor edad también está asociado a la toma del te.
Sin embargo, al analizar más detalladamente las variables, podemos encontrar que el te tiene un efecto dietético mayor en personas mayores, y un efecto menor en personas de menos años. El problema de la interacción, es que si solo analizamos la edad y el peso, y no preguntamos si esas personas toman o no toman te, entonces podemos subestimar o sobreestimar el efecto de la edad.
Ese es el concepto, ahora veamos en detalle.
Ejemplo:
Veremos un ejemplo con tres variables, X1, X2 e Y. X1 es independiente continua, X2 es independiente categórica e Y es dependiente. Aunque pueden tratarse de cualquier continua o independiente, es más fácil plotear así.
Volvamos a nuestro ejemplo, digamos que X1 es continua, la cantidad de te que tomamos, y X2 es categótica, la edad. Como vimos, la variable Y es el peso. Por conveniencia, vamos a graficar una de las variables independientes, el te, en el eje de las X, y la dependiente, el peso, en el eje de las Y.
Vemos como se comporta el gráfico de dispersión cuando no hay una asociación entre la edad y el peso, idealmente es una recta que va ascendiendo con una pendiente. Ahora introducimos la información de tomar el te, los puntos azules corresponden a los grandes tomadores de te, que llamaremos tomadores fuertes, y los puntos rojos son los tomadores débiles. En el caso que vemos, estos se distribuyen uniformemente en todo el gráfico. Por tanto, esto nos dice que no asociación entre las dos variables independientes y tampoco interacción. También nos indica que el té no está asociado al peso.
En el segundo caso, que pasaría si hay un asociación entre las variables independientes, digamos, a mayor cantidad de años, mayor infusión de te, entonces podríamos tener una distribución parecida a esta. donde las personas que menos toman te se acercan a las edades mas bajas, y que las que más toman te a las edades mas altas. Pero ojo, todavia no tenemos ningún tipo de interacción. Este es el caso de asociación sin interacción. También nos indica que el té no está asociado al peso.
Pero que pasaría ahora pasaría si el te tiene una asociación con la variable dependiente, el peso. Entonces obtendríamos dos rectas, una con aquellas personas que menos toman, que estaría expresando solamente la relación entre la edad y el peso, y otra recta, paralela, indicando las personas que más toman. Todavía no tenemos interacción. Solo para demostrar las diferencias en las rectas, en este caso vemos que hay asociación entre las variables, y en este otro vemos que las variables no están asociadas.
Una situación parecida es el peso en jóvenes, si se discrimina por sexo, veremos que los varones poseen más peso que las mujeres, y se obtienen dos rectas similares de acuerdo al sexo. A su vez, sabemos que hay una pequeña asociación entre el peso y el sexo.
Volvamos al primer caso, en que no hay asociación entre las variables o interacción. La media de X1, la cantidad de te, es la misma para todas las categorías de X2, la edad, no hay asociación. Pero como X1, en este caso, la cantidad de te, afecta al peso, va a depender de que categoría
Y ahora vamos al caso más complejo, en que tenemos asociación e interacción. Hay asociación entre el te y la edad, ya que habíamos establecido que más gente grande toma te, pero también hay interacción, porque el efecto dietético del té es más potente en personas más grandes.
Una nota al pie, a veces estas interacciones se vuelven aparentes recién cuando observamos los gráficos, por eso es que es importante detenernos y hacer la exploración de los datos antes de ver que está sucediendo exactamente con ellos.
Este blog tiene como objeto exponer conceptos novedosos de genética y también explicaciones simples a los grandes descubrimientos de la ciencia.
Suscribirse a:
Enviar comentarios (Atom)
¿Es la edad del calendario igua a nuestra edad biológica?
Se dice que el tiempo que se desperdicia no se recupera más y que el reloj es un enemigo imbatible. Durante décadas, el avance de la ciencia...
-
Tener confianza en los resultados es uno de los pilares de la medicina moderna y de la ciencia en general. La eficiencia de los ensayos de ...
-
En el corazón de los análisis de las ciencias de la salud, normalmente es común o conveniente observar como es la relación entre dos variab...
-
Vamos a ver un caso muy especial que está asociado a las variables de confusión. La denominada Paradoja de Berkson, también denominada Sesg...
No hay comentarios:
Publicar un comentario