martes, 19 de julio de 2022

¿Es la edad del calendario igua a nuestra edad biológica?

Se dice que el tiempo que se desperdicia no se recupera más y que el reloj es un enemigo imbatible. Durante décadas, el avance de la ciencia y la salud han permitido que el hombre pase de un promedio de edad de 50 años hasta prácticamente los 80 años que tenemos en la epoca actual. Hoy en día, no es tan raro que una persona llegue y pase los 90 años.

Pero el aumento en el número de años y la prolognación de nuestra esperanza de vida no siempre se ve reflejada en un aumento en la calidad de vida. Esto quiere decir que nuestra edad biológica no siempre coincida con la edad cronológica. La edad cronológica, o edad de calendario, es aquella que festejamos en los cumpleaños. La edad biológica, es más importante desde el punto de vista de la salud, ya que nos cuenta cómo están envejecido nuestras células y por ende nuestro cuerpo.

Tenemos muchas maneras de valorar nuestro estado de salud, pero la pregunta de muchos científicos es si existe o no un biomarcador que nos indique a qué velocidad estamos envejeciendo. Se sabe que los efectos de la edad son un producto de una serie de factores, que son una combinación de la susceptibilidad de  nuestro organismo y el resultado de lss agresiones externas, cómo las radiaciones o los agentes químicos. 

Es por eso que ciertos trabajos poseen un retiro anticipado, como los pilotos de aerolineas, que están más horas a grandes alturas y a mayor exposición de los rayos del sol, o los trabajadores de los hornos industriales, que están expuestos a grandes cantidades de calor.

El año 2011 se postuló una teoría revolucionaria, basada en en una serie de descubrimietos reveladores, denominada el reloj epigenético. Este reloj es básicamente un reloj biológico que está basado en cambios químicos que ocurren en el ADN y que reflejan el paso del tiempo. 

La palabra epigenético deriva del hecho de que el prefijo "epi" que significa arriba o sobre el ADN. Los cambios epigenéticos son cambios químicos reversibles en el ADN que no cambian su secuencia pero influyen en como los genes se expresan. Haciendo una analogía con una cocina, el ADN pueden representar todos los ingredientes que contamos para desarrollarnos y vivir, y la epigenética sería el libro de recetas, que nos indica que genes se expresan en que tejidos. De esta manera la epigenética es un regulador más de la expresión genética y es uno de los procesos involucrados en la diferenciación celular, o dicho de otro modo, que los genes de un tejido solo se expresen en ese tejido. El efecto más conocido de la metilación es el silenciamiento génico, o el apagado de genes, las enzimas metiladoras encuentran sitios ricos en Citosica Guanina denominados islas CpG, las metilan e inhiben la transcripción génica de esa región. Como vemos, la metilación tiene una función natural y necesaria, pero también se demostró que el ADN se va metilando en otras regiones con significado menos claro. 

Lo que si se encontró es que el grado de metilación del ADN está directamente relacionado con la edad normal. Aún más, cuando nacemos, el reloj se resetea, vuelve a cero, lo que quiere decir es que no heredamos los cambios de nuestros padres.

El primero en publicar estos descubrimientos fue el investigador aleman Steve Horvath. Utilizando 16 regiones de metilación CpG en muestras de saliva, pudo predecir la edad de las personas con un 95% de exactitud. Muy entusiasmado por su descubrimiento, Steve fue aumentando su muestra y analizando más tejidos y encontró que el reloj anda mucho mejor si se utilizan 353 sitios o marcadore.

El reloj epigenético es una rareza en el mundo de los biomarcadores, un marcador biológico  generalmente tiene una correlación de 0.6 o 0.7 con la enfermedad o el fenotipo que quiere predecir, por ejemplo, el acortamiento de los telómeros es otro marcador conocido de la edad biológica y posee menos de 0.5 de correlación con la edad. Pero el método que Steve encontró, basado en metlación, posee más del 98% de capacidad predictiva de la edad de personas normales, una precisión tan alta que dió enormes problemas al investigador cuando intentó publicar sus resultados. Sus colegas no le creian al principio, aunque hoy en día ya fue plenamente confirmado de manera independiente.

Se demostró que en una persona normal, el grado de metilación está correlacionado de manera sorprendentemente precisa a la edad cronológica. El error medio del reloj biológico es de 3.6 años, pero si se analizan las células de algunas partes del cuerpo, como la saliva, la exactitud de predicción mejora a solo 2 años. Las células que indican mejor el paso del tiempo son muestras del córtex cerebral, con un error de únicamente 1.5 años. 

La pregunta que queda hacer es, después del desubrmiento del reloj epigenético, ¿Tiene alguna aplicación práctica?. 

Se puede pensar en algunas aplicaciones prácticas: en criminología y forense, en las escenas del crimen, se puede estimar la edad de una víctima o la de un victimario analizando los fluidos que ha dejado. En esta linea, hay médicos forenses que están poniendo a punto un reloj epigenético a partir de muestras de sangre utilizando los mismos principios de Steve.

Pero la aplicación más interesante sería la estimación de personas con envejecimiento prematuro o aceleración de la edad, es decir, personas que poseen discrepancias entre la edad biológica y la cronológica, ya sea en todo el cuerpo o solo en algunos tejidos. Si es asi, una discrepancia de este tipo indicaría de que algo está mal.

Cuando se analiza la edad con el reloj epigenético muestras de cánceres, se encuentra que los tumores tienen un 40% más de edad que el resto del cuerpo, como si fuera tejidos envejecidos. Sin emargo, la estimación de la edad no es tan clara para todos los tipos de tumores, donde la edad parece revertirse inexplicablemente. 

También en muestras de personas enfermas con HIV, aquellos que tiene el virus circulante parecen tener más edad biológica que aquellos que tienen al virus supromido. Y esta misma aceleración de la edad se observa en obesos mórbidos.

¿Que se espera del reloj?. Aunque no se sepa bien que lo produce, se espera que ayude a diagnosticar y clasificar mejor las enfermedades. La gran pregunta es si estos procesos de metilación son una respuesta de un proceso bioquímico con alguna intención adecuada, o son procesos aleatorios o residuales. Tal vez es un sistema de manteniemiento que permite estabilizar la expresión gnénica cuando la persona va creciendo. Pero si es un proceso directamente relacionado al envejecimiento y además se sabe que la metilación es un proceso reversible, entonces tal vez se podría encontrar una clave para desacelerarla el envejecimiento. 

Todavía queda mucho por descubrir, en este momento Horvarth está investiganco cientos de miles de perfiles de metilación de diferentes tejidos y pueblos, además de diferentes especies.



martes, 22 de marzo de 2022

Se puede cambiar el ADN de una persona: Terapia génica

 El ADN, o ácido desoxirribonucleico, contiene la información genética de cada individuo. Se trata de una molécula extremadamente larga que está compuesta por tres bloques fundamentales. Un esqueleto de fosfatos, azucares y las bases nitrogenadas. El orden que toman las bases nitrogenadas, Guanina, Citosina, Timina y Adenina, es lo que constituye la información genética de cada persona.

El código de cada persona es único, por eso se puede identificar con una precisión asombrosa a los delincuentes con muestras de una escena del crimen. Aunque hay una única excepción, los gemelos idénticos, son los únicos que comparten el ADN, porque provienen de un mismo embrión. 

El ADN se encuentra empaquetado en cromosomas, y los cromosomas se encuentran en el núcleo de cada célula de nuestro cuerpo.

Ahora, vamos a nuestra pregunta. ¿Se puede cambiar el ADN del cuerpo?. En teoría no se puede, porque el código se encuentra repetido en cada célula de nuestro cuerpo, en cada una de las una de las trillones de células. Intenar cambiar la información genética de todas las células es imposible, al menos con el nivel que tenemos de tecnología hoy en día. Inclusive, cambiar el ADN de una célula es difícil, se puede hacer, se puede realizar cambios, pero lograr cambiar lo que queremos sin alterar el resto del ADN no es un acerteza. Y un cambio errática no nos interesa. Si el ser humano cambia el ADN, tendrá que hacerlo con algún fin. 

Los cambios erráticos del ADN se denominan mutaciones. En el transcurso de la vida ciertas células del cuerpo sufran cambios erráticos en su ADN, productos de factores externos como tabaco, radiación, contaminación, o bien como consecuencias de errores en los procesos fisiológicos naturales, como la replicación del ADN. Estos cambios no dirigidos, sino que son aleatorios, Esas son las mutaciones.

Las mutaciones ocurren naturalmente en muy baja proporción, y el cuerpo posee mecanismos que enmiendan, o corrigen, los cambios. Los agentes cancerígenos pueden aumentar el porcentaje de errores y hacer que los sistemas de defensa sean desborados, ocurriendo crecimientos anormales que pueden terminar en tumores. 

Pero las mutaciones no es lo que estamos hablando en este pregunta. Si ya sabemos que no e puede cambiar la el ADN de una persona en todo el cuerpo, podemos cambiar la pregunta, se puede cambiar el ADN en una región del cuerpo, digamos, soo en el hígado, o el riñón, o en la retina?. Aqui tenemos un panorama diferente. Como en mucahs ocasiones las enfermedades atacan un órgano determinado, es más fácil en enfocarse en intentar cambiar el ADN de ese órgano y no en toda la información del individuo. Así y todo, los problemas de especificdad en el cambio siguen siendo los mismos. Como cambiar un gen de manera precisa, restaurando su función, sin afectar el resto de los genes que los rodean. 

Durante años los investigadores han tratado de combatir las enfermedades de origen genético Lamentablemente, si el origen es genético, lo único que se podía hacer era combatir los síntomas, pero no el origen, porque como establecimos, el ADN no se puede cambiar. 

Pero el sueño que tardaría en hacerse realidad comenzó décadas atrás, en el área que se conoce como Terapia Genética. Ya desde los noventa se iniciaron los primero intentos de cambiar el ADN de una persona para sanar una enfermedad. Un caso que quedó marcado en la historia fue el de Jessie Gelginser, un adolescente de Arizona, EEUU, que iba a la secundaria y hacía medio tiempo trabajando en un supermercado, Jesse sufría de síndrome de deficiencia de transcarbamilasa, o OTCD, una enfermedad en la que el amonio sube a niveles letales en sagre. Los recién nacidos con OTCD caen en coma después del necimiento y quedan con daños cerebrales. La mitad muere al mes. Jesse tenía una versión más suave de la enfermedad que fue diagnosticada cuando tenía dos años. Vivía con una dieta baja en proteínas y un régimen de casi 50 pastillas al día. Las pastillas eran vitales para seguir viviendo. En el otro lado del país, la universidad de Pensilvania estaba buscando voluntarios para probar una cura al gen OTC, el causante de la enfermedad, que evita que se acumule el amonio. Las pacientes iban a ser inyectados con un adenovirus, el virus, alterado para ser inofensivo y con una copia sana del gen OTC, infectaria las células del hígado del paciente e integraría el ADN sano en el ADN cromosómico. 

Jesse se anotó como un voluntario para pruebas de seguridad, que es la primer instancia de la prueba de un medicamento. Los voluntarios anteriores habpian tenido respuestas parecidas a un resfrío, pero cuando le tocó a Jesse este comenzó a tener una respuesta inflamatoria tremenda, seguida de falla de órganos total. Fue internado, y al cuarto día estaba con muerte cerebral.

La terapia génica, con sus sueños de curas milagrosa, había tenido un golpe tremendo, y atrasaría las investigaciones por 10 años o más.

Por supuesto, que el campo volvió a resurgir. Luego de 20 años de la muerte  de Jesse, los investigadores volvieron a enfocarse en el reemplazo o alteración de genes con errores. Hasta la fecha, solo unas pocas medicinas han terminado en el mercado. Dos medicamentos para el linfoma y un tratamiento que revierte una forma de ceguera hereditaria. Más recientemente, se aprobó una terapia para la atrofia muscular espinal.

Los avances siguen son lentos, dada la complejidad de la edición genética. Sin embargo, aparreció una nueva tecología que ha acelerado las investigaciones y renovado las esperanzas. Se trata del sistema CRISPR, un proceso molecular que proviene de las bacterias y que permite dirigir y editar regiones del genoma con mayor facilidad técnica de lo que se venía haciendo. CRISPR se trata de una especie de sistema inmune que tienen las bacterias y le permite recordar con que virus han sido infectadas para ofrecer resistencia a nuevas infecciones por el mismo virus. 

Este sistema usa enzimas denominadas endonucleasas que reconocen que secuencia tienen que cortar mediante la guía de secuencias cortas de ARN y siguiendo un principio simple de emparejamiento de secuencias.  Aunque también tiene sus limitaciones técnicas, es mucho más accesible que lo que se venía haciendo. Aunqeu es de bacterias, la adaptación de este sistema a las células eucariotas permite estar a un paso más de tratar de forma definitiva a enfermedades genéticas incurables como la hemofilia, la distrofia muscular y cientos más. Hoy en día se está probando en fase 2 la eliminación del HIV en pacientes crónicos.

sábado, 29 de mayo de 2021

Variables de Confusión: Qué es la paradoja de Berkson, o sesgo de encuentro, y el riesgo atribuido al COVID

 Vamos a ver un caso muy especial que está asociado a las variables de confusión. La denominada Paradoja de Berkson, también denominada Sesgo de encuentro, sesgo de colisión, o falacia de Berkson. En inglés se denomina Collider Bias. 

La importancia de la paradoja de Berkson se encuentra en la interpretación de los estudios de bioestadística, de los estudios de biomedicina y de medicina. 

En el año 1946, un estadístico de la clínica de Mayo, en USA, hizo una observación que dejó un poco perpleja a la comunidad científica. Analizando los datos epidemiológicos del Hospital, se dió cuenta que la relación estadística entre las enfermedades puede ser engañosa si se la estudia solamente en pacientes de los hospitales. Qué significa esto?, que los datos de un hospital o una internación nos piede mostrar asociación entre dos condiciones, cuando en realidad no existe, o alternativamente, puede aparecer una asociación ficticia, o bien una asociación en sentido inverso. 

Pero, ¿Qué es lo que encontró Berkson específicamente?. Berkson estudió la diabetes y la inflamación de la vesícula, o colecistitis. Se sabe que la diabetes es un factor de riesgo para la inflamación, y naturalmente tendrían que estar correlacionadas positivamente, pero analizando los datos del hospital, Berkson encontró un correlación negativa entre las enfermedades. Inmediatamente Berkson publicó los resultados, sosteniendo que era una asociación espúrea o sesgada, por ser estudiada únicamente en personal hospitalario, aunque tardaría mucho tiempo hasta que la comunidad científica comience a tomarse en serio sus observaciones.

Para entender mejor esto, veamos un ejemplo que surgió unos años después. En 1979, el dr. Sackett encontró que el 7.5% de la población general tenía enfermedades de los huesos, y que este porcentaje no estaba relacionado para nada con la presencia de una enfermedad respiratoria. Pero si observaba en la población hospitalaria, es decir, en pacientes itnernados con enfermedad respiratoria, el porcentaje de personas con enfermedades en los huesos se disparaba al 25%. Si en la ciudad no habia alguna relación entre los huesos y las enfermedades respiratorios, porqué las personas internadas con enfermedades respiratorias tenían un gran número de problemas en los huesos. Sackett denominó a este sesgo, el sesgo de Berkson, o el sesgo de la tasas de admisión.

La cuestión se encuentra en que hay tres variables, la primera es una enfermedad, en este caso la enfermedad respiratoria, la segunda variable es la segunda enfermedad, la enfermedad de los huesos. Pero ambas variables influyen sobre la tercer variable, la denominada collider, o colisión, es la hospitalización. La probabilidad de encontrar a una persona que posea una enfermedad de huesos y una enfermedad respiratoria aumentan en la población hospitalaria, porque la muestra no es representativa. Ambas variables influyen en la hospitalización, y  por ende, en que muestra coy a tomar para analizar, es un sesgo de selección.

Otro caso interesante es el de los tests COVID en Gran Bretaña. Sabemos que en la población general , las personas de mayorpía de edad poseen una correlación entre el peso y la edad. A mayor edad, mayor peso. Es una de las asociaciones más consistentes en la medicina. Sin embargo, si tomamos solamente la población que que se ha realizado el test COVID, y analizamos la relación entre la edad y el peso entre los testeados, encontramos que la edad está inversamente correlacionado al peso. Es decir, a mayor edad, menor peso. ¿Como puede ser esto?, es otro caso de la paradoja de Berkson. 

Esto es porque en un momento los tests eran realizados primariamente a las personas de mayor riesgo, y quienes eran las personas de más riesgo, aquellas que eran jóvenes pero tenían alto peso, y personas mayores, que no eran necesariamente obesas. Si tomo esta subpoblación, la correlación entre la edad y el peso era inversa, al contrario que la población general.

Esto puede verse en el gráfico, donde la raya roja es la relación positiva que se obtiene entre la edad y el peso, mientras que la raya azul es la relación engativa que se observa entre las personas que obtuvieron el test.

En general, si dos factores influencian la manera en que son seleccionados en una muestra, se dice que esos factores "colisionan sobre la selección". En el casos del ejemplo de la enfermedad respiratoria y la del hueso, ambos factores influian directamente en la hospitalización. En el caso de la edad y del peso, las dos variables influían en si se tomaba el test o no se tomaba el test.

En el gráfico vemos una representación del fenómeno, las flechas indican las relaciones causales y la relación entre las variables puede ser alterada si ambas influyen en la selección de la muestra. Se pueden generar asociaciones que no existían anteriormente, como las enfermedades del hueso y respiratoria. O invertir relaciones existentes, como el peso y la edad; o exagerar algunas otras.

Veamos un tercer ejemplo. Un trabajo interesante, publicado por Herbert, Griffith y colaboradores en el año 2020, ilustra como esta paradoja puede explicar algunos resultados aparentemente sorprendentes que se observaron en la pandemia. 

Un trabajo epidemiológico que llamó mucho la atención a comienzos del año pasado fue a partir de unos datos que sostenían que el tabaco era un factor protector contra el COVID. La reacción inicial ante esta sugerencia fue tomada con mucho escepticismo. El Tabaco es muy malo para el sistema respiratorio, ¿como puede ser que sea beneficioso para el virus? . Pero los datos que emergían de los paises donde el virus pegó primero parecían avalar esta hipótesis: la proporción de fumadores entre los pacientes hospitalizados por COVID era una proporción mucho más baja que la proporción de fumadores de la población general. En China, el 8% de los pacientes hospitalizados por COVID eran fumadores, mientras que en la población general ese porcentaje llegaba a un 25%. En Italia, está diferencia era también notoria, el 8% de los hospitalizados fumaban, mientras que el 19% de la población general lo hacía. Era un resultado raro, ¿podría ser que el tabaco protegía a las personas de las hospitalizaciones por COVID, o estaba siendo otro caso de la paradoja de Berkson?

La explicación es la siguiente. Para que una persona sea hospitalizada, debe tener un grado serio de COVID. Por otro lado, el tabaco ocasiona un gran número de enfermedades colaterales, como cardíacas, cáncer, arteriosclerosis, etc, que pueden devenir en hospitalizaciones. Por tanto, una persona que está hospitalizada, tendrá un grado muy severo de COVID, o no será hospitalizada, pero entre los pacientes que no tengan COVID, habrá una mayor proporción de internados por causas relacionadas al tabaco, es decir, habrá una mayor proporcion de fumandores en internados no COVID. Dicho de otra manera, Los test COVID en los internados mostrarán menor tasa de infección entre fumadores que en no fumadores, porque los fumadores también están internados por enfermedades relacionadas al cigarrillo, y no necesariamente COVID. mostrando un sesgo de selección.

Por esta razón es tan importante el proceso de selección. El hecho de pertencer a un cierto grupo de riesgo poseer ciertos síntomas aumenta la chance de ser seleccioado para un test y colisionan en la selección. Es por eso que el proceso de selección debe ser representativo. Es importante donde la inferencia causal es el foco del trabajo.


Ecuación de la Regresión Lineal simple

 En el corazón de los análisis de las ciencias de la salud, normalmente es común o conveniente observar como es la relación entre dos variables. Digamos, edad y estatura, alimentación y ganancia de peso, o ingreso familiar y gastos médicos. 

La naturaleza e intensidad de las relaciones entre dos variables pueden ser analizadas por regresión y correlación. Las dos técnicas están relacionadas, pero sus usos son diferentes y cumplen diferentes funciones. 


El objeto de la regresión es predecir la forma de la relación entre las variables, y el objetivo final, es predecir o estimar el valor de una variable dado que se sabe el valor de otra variable.

Las ideas de regresión fueron expuestas primero por Sir Francis Dalton, investigando sobre la estatura humana. Concluyó que que la estatura de un individuo adulto, sin importar si desciende de padres altos o bajos, tiende a revertirse a la estatura promedio de la población.

Como todos los otros problemas en la estadísticas, los investigadores poseen muestras poblacionales de un apoblación real, en base a esa muestra se propone tomar una decisión con respecto a la población donde se extrajo la muestra. Por lo tanto, es importante que si uno va a utilizar un modelo de regresión lineal simple, este represente la población. No es de esperarse que el modelo represente fielmente la población, porque raramente se encuentra esto en modelos de aplicación práctica. Por otra parte, si se forzan los datos a un modelo que no se ajusta bien tampoco tiene valor. Sin embargo, un modelo que no está perfectamente ajustado no es un obstáculo para obtener valores útiles. Y ahi es donde juega el investigador, debe ser capaz de decidir cuando el modelo elegido y los dartos son lo suficentemenete compatibles como para poder proceder y en el que se deberá rechazar dicho modelo.

Tipos de Variables.

La regresión lineal simple utiliza dos variables. X e Y. A la variable X se la conoce como variable independiente, y es la que con frecuencia se encuetra en control del onvestigador, es decir, los valores de X pueden ser seleccionados por el investigador para obtener los valores de Y. Por cada valor de X que elija el investigador, correponderá un valor de Y que saldrá como respuesta. Por eso, a la variable Y se la denomina variable dependiente o variable de respuesta. Se habla de la regresión de Y sobre X

Supuestos

1. Los valores de la variable X son fijos, lo que quiere decir es que son previamente elegidos por el investigador, y no pueden variar. También se llama variable no aleatoria o variable matemática. 

2. La variable X se mide sin error, o con error insignificante.

3. Por cada valor de X, existe uns subpoblación de valores probables de Y. Para que las pruebas de hipótesis e inferencia estadística funcionene, esa subpoblación debe poseer un distriución normal 

4. Todas las varianzas de las subpoblaciones de Y son iguales, como se observa en el gráfico

5. Todas las medias de las subpoblaciones de Y se encuentran en la misma linea recta. Es la denominada suposición de linealidad


Donde u es la media de la subpoblación de los valores de Y para un X determinado, alfa y beta representan a los coeficientes de regresión de la recta. Alfa es la ordenada de origen y beta es la pendiente de la recta en donde están todas las medias. 

 6. Los valores de Y son estadísticamente independientes. En otras palabras, al extraer la muestra, los valores de Y obtenidos a partir de un valor de X de ninguna manera dependen de los valores de Y elegidos para otro valor de X.


Estas suposiciones se resumen en la siguiente ecuació, que es la del modelo de regresión.

Donde y es un valor representativo de una de las subpoblaciones de Y (para un X dado), alfa y beta son los coeficientes de represión y e es el error.

Se puede apreciar que despejando la fóruma nos queda que e indica la cantidad en que el valor y de la recta de regresión se desvía de la media de los valores Y de la población en que se extrae (uy|x). COmo consecuencia que las subpoblaciones Y siguen una distribución normal con varianzas iguales, los errores también deben seguir una distribuión normal con varianzas iguales a la varianza común de las poblaciones donde se extraen


EL primer paso en querer evaluar una relación es graficar un diagrama de dispersión, por ejemplo, la circunferencia de cintura y grasa abdominal. Si tenemos evidencia que están relacionadas linealmente podremos formar una recta. 

La recta de los mínimos cuadrados, es aquella recta que minimiza las desviaciones verticales al cuadrado de los puntos observados (yi) y es menor que cualquier otra recta.

Si la hipótesis nula no es rechazada (aceptada),la hipótesis de no diferencia, en esta, la pendiente de la curva es igual a 0. Es una relación lineal que tiene poco o ningún valor pronóstico para la otra variable, es probable que la dispersión tenga otra descripción no lineal.

Error de tipo I: rechazar una hipótesis nula verdadera. No hay diferencia, pero declaro que la hay, un falso Positivo


Hipótesis nula rechazada, se acepta la alternativa. Existe una relación lineal entre las variables. Se dice que un modelo lienal otorga un buen ajuste de datos

Error de tipo II: aceptar una hipótesis nula falsa. Hay diferencia, pero declaro que no la hay. un Falso Negativo.

Coeficiente de Determinación

Para evaluar el ajuste se observa la dispersión de puntos alrededor de la recta de regresión. La recta de regresión expresa la media de los valores






 

Asociación e Interacción

Es muy fácil confundir los términos de asociación e interacción en la estadística. Se puede asumir que para que dos variables interaccionen, si o si deben estar asociadas, o correlacionadas. Pero esto, no es cierto.

En la estadística, existen varias relaciones entre variables, y los términos de asociación e interacción tienen diferentes connotaciones, especialmente cuando estamos hablando de modelos de regresión ANOVA-

En breve, el término asociación consiste en una relación exclusiva de dos variables, por ejemplo, digamos, que esas dos variables son el la edad (X) y el peso (Y). Ahora, sabemos que el peso y la edad están correlacionados, porque el peso aumenta con la edad en la población

Si ponemos los datos en una curva de regresión, podemos decir que X, la variable independiente es la edad, e Y, la variable dependiente es el peso. Cuando aumentamos la edad, como respuesta, aumenta el peso.

Pero en la interacción, salimos de la relación estricta que tienen dos variables y nos adentramos en la relación que tienen las dos variables con una tercera.
Por ejemplo, introducimos la ingestión de te. Digamos que la toma de te es independiente d la edad, aproximadamente la misma cantidad de gente joven toma cafe que la gente más grande.
Las variables de tomar te y la edad no están asociadas en los más mínimo. Sin embargo, cuando vemos que efecto tienen sobre la variable respuesta, que en este caso es el peso, vemos que una mayor toma de te está asociada a un menor peso, y que com habíamos visto, una mayor edad también está asociado a la toma del te.
Sin embargo, al analizar más detalladamente las variables, podemos encontrar que el te tiene un efecto dietético mayor en personas mayores, y un efecto menor en personas de menos años. El problema de la interacción, es que si solo analizamos la edad y el peso, y no preguntamos si esas personas toman o no toman te, entonces podemos subestimar o sobreestimar el efecto de la edad.

Ese es el concepto, ahora veamos en detalle.

Ejemplo:

Veremos un ejemplo con tres variables, X1, X2 e Y.   X1 es independiente continua, X2 es independiente categórica e Y es dependiente. Aunque pueden tratarse de cualquier continua o independiente, es más fácil plotear así.

Volvamos a nuestro ejemplo, digamos que X1 es continua, la cantidad de te que tomamos, y X2 es categótica, la edad. Como vimos, la variable Y es el peso. Por conveniencia, vamos a graficar una de las variables independientes, el te, en el eje de las X, y la dependiente, el peso, en el eje de las Y.

Vemos como se comporta el gráfico de dispersión cuando no hay una asociación entre la edad y el peso, idealmente es una recta que va ascendiendo con una pendiente. Ahora introducimos la información de tomar el te, los puntos azules corresponden a los grandes tomadores de te, que llamaremos tomadores fuertes, y los puntos rojos son los tomadores débiles. En el caso que vemos, estos se distribuyen uniformemente en todo el gráfico. Por tanto, esto nos dice que no asociación entre las dos variables independientes y tampoco interacción. También nos indica que el té no está asociado al peso.

En el segundo caso, que pasaría si hay un asociación entre las variables independientes, digamos, a mayor cantidad de años, mayor infusión de te, entonces podríamos tener una distribución parecida a esta. donde las personas que menos toman te se acercan a las edades mas bajas, y que las que más toman te a las edades mas altas. Pero ojo, todavia no tenemos ningún tipo de interacción. Este es el caso de asociación sin interacción. También nos indica que el té no está asociado al peso.

Pero que pasaría ahora pasaría si el te tiene una asociación con la variable dependiente, el peso. Entonces obtendríamos dos rectas, una con aquellas personas que menos toman, que estaría expresando solamente la relación entre la edad y el peso, y otra recta, paralela, indicando las personas que más toman. Todavía no tenemos interacción. Solo para demostrar las diferencias en las rectas, en este caso vemos que hay asociación entre las variables, y en este otro vemos que las variables no están asociadas.

Una situación parecida es el peso en jóvenes, si se discrimina por sexo, veremos que los varones poseen más peso que las mujeres, y se obtienen dos rectas similares de acuerdo al sexo. A su vez, sabemos que hay una pequeña asociación entre el peso y el sexo.


Volvamos al primer caso, en que no hay asociación entre las variables o interacción. La media de X1, la cantidad de te, es la misma para todas las categorías de X2, la edad, no hay asociación. Pero como X1, en este caso, la cantidad de te, afecta al peso, va a depender de que categoría

Y ahora vamos al caso más complejo, en que tenemos asociación e interacción. Hay asociación entre el te y la edad, ya que habíamos establecido que más gente grande toma te, pero también hay interacción, porque el efecto dietético del té es más potente en personas más grandes.

Una nota al pie, a veces estas interacciones se vuelven aparentes recién cuando observamos los gráficos, por eso es que es importante detenernos y hacer la exploración de los datos antes de ver que está sucediendo exactamente con ellos.

viernes, 28 de agosto de 2020

Es confiable la PCR?


Voy a hacer este video porque últimamente se están diciendo muchísimas cosas por Internet respecto al virus y a la situación que estamos viviendo. De lo que voy a hablar específicamente, es sobre algo que conozco porque tengo experiencia. Que es la efectividad de la PCR en el área de diagnóstico. 

Como vimos en los videos pasados, la eficacia de una técnica, cuando hablamos estrictamente de la técnica, está dada por los parámetros denominados especificidad y sensibilidad. Para una descripción detallada sobre lo que es la especificidad y sensibilidad en el diagnóstico los invito a ver mi video pasado. 

Recapitulando, la probabilidad que el test detecte el virus en las personas infectadas se denomina sensibilidad, es una propiedad de la técnica. La especificidad, en contraparte, es la capacidad de la técnica de no detectar el virus en las personas sin infección.

Estos dos parámetros, sensibilidad y especificidad, son características propias de una técnica, pero no no nos hablan de la población de donde se toman las muestras, nos hablan de las características operativas del diagnóstico.

 Por ejemplo, una especificidad del 95% nos indica que del total de ensayos que se hacen a las personas sanas, va a salir correctamente negativo en el 95% de ellos, mientras que será un falso positivo en el 5%. 

Entonces, si uno va a hacerse un test y el test sale positivo, ¿Cómo se si es un falso positivo o un verdadero positivo?, ¿Cuál es la probabilidad que haya sido un error?. Un amala interpretación de este parámetro sería que, si tengo una especificidad del 95%, tengo una chance del 5% de tener un falso positivo. No, no es así, esto es una mala interpretación. La chance de ser un falso positivo es mucho menor, básicamente porque tenemos que considerar la cantidad de personas infectadas en la población y la sensibilidad de la técnica. 

Lo que queremos averiguar es la capacidad predictiva de la técnica, para eso tenemos que considerar el porcentaje de infectados en la población.. 

El valor que realmente estamos buscando es cuál es la probabilidad de poseer el virus si me salió positivo la técnica. O dicho de otra manera, me salió positiva la técnica, que probabilidad tengo de tener el virus. 

¿Porqué es importante saber la cantidad de virus circulante?,  porque cuanto menos virus tengo en la población, también disminuye la chance de informar un falso negativo, porque simplemente, no hay casi, virus, en el caso que no haya ningun virus circulando, entonces la posibilidad de informar un falso negativo es cero, porque no hay virus. En el caso contrario, si hay mucho virus circulando, la probabilidad de informar un falso positivo disminuye también, si, por ejemplo, toda la pobllación está infectada, la probabilidad de infectar un falso positivo es cero también. Entonces, el porcentaje de virus circulante influyen en la capacidad predictiva de la técnica. ¿Pero cómo sabemos con qué porcentaje de virus tenemos si no hemos realizado algún test?.  En realidad, no lo sabemos, lo podemos intuir, calcular por otros métodos.

Calculemos la capacidad predictiva de la PCR del virus con el teorema de Bayes

P(+|V) , es la sensiblidad de la técnica, que son los test positivos en las personas infectadas

P(V), es el porcentaje del virus circulante, cuyo valor podemos estimar

P(+), es el porcentaje de los test positivos que tiene la población, que es un dato empírico, sabemos cuantos no dieron positivo. Ahora, este valor, en realidad es la suma de los falsos positivos (+|-V) . P(-V) más los verdaderos positivos. 

Nos da la fórmula

P(V|+) = P (+|V) . P(V) / P(+)

Donde P(V|+)  srepresentan el porcentaje o probabilidad de los tests positivos que realmente tienen el virus.  Y que es el cociente entre la cantidad de ensayos positivos que me detectaron correctamente el virus, dividido todos los ensayos positivos.

Ahora, vamos a calcular la capacidad predictiva de la técnica en cuestión. Según lo reportado por los primeros estudios, la sensibilidad de la PCR están en 80%% aproximadamente, como son diferentes las técnicas algunas son 85%, otras 95%. 

Esto nos dice que la técnica tiene un 20% de falsos negativos, pero como vamos a ver a continuación, la sensibilidad no influye tanto en la eficacia de la técnica. Aparte, los negativos se realizan dos veces, disminuyendo esta probabilidad. Los parámetros que más afectan la eficacia de la técnica son la especificidad y la circulación del patógeno o virus. En general, la técnica de PCR es una técnica exquisitamente específica, porque se fundamenta en la complementariedad del ADN. Dicho de otra manera, puede ser que a veces en cantidades muy pequeñas  del virus no lo detecta, pero cuando lo detecta no se equivoca. La especificidad es del 99%, es decir, un 1% de falsos positivos. Ahora, digamos que la circulación del patógeno en la población está en un 40%.  Calculamos según la forma y nos da un 98% de calor predictivo positivo. Es decir, podemos asegurar que la tenemos un 98% de certeza que el test positivo me indica que tengo el virus. Pero, si la circulación del virus es más baja este porcentaje también lo hace, y si sube la circulación del virus también lo hace la chance de ser informado correctamente. Pero sobre todo siempre se encuentra por arriba del 90%.



0.8 * 0.4 / (0.8 * 0.4 + 0.01 * 0.6)

 0.08/ 0.08 + 0.0196

0.0996

80%

De acuerdo a estos datos, y considerando una sensibilidad del 77% y una prevalencia de 

0.81%

Si aumentamos la sensibilidad de la técnica a 0.85, el valor predictivo positivo se va a 0.89

La capacidad predictiva del test de PCR es muy buena, pero fundamentalmente en un aspecto, La técnica de PCR es una técnica altamente específica, es decir, disminuye grandemente los falsos positivos. Lo que generalmente se regula es su sensibilidad. Dicho de otra manera, es más probable que salga un falso negativo que un falso positivo, y está bien que sea así. De todas maneras, en la práctica, los resultados se repiten, lo que aumenta la eficacia de detección.

P (+|V) sensibilidad

P (-|V) falso negativo 

P (-|(-V)) especificidad

P(+| (-V)) falso positivo


jueves, 7 de mayo de 2020

Qué es y qué no es confusión en estadística



Por ejemplo, si estamos probando los efectos del ejercicio físico respecto a la longevidad de las personas jubiladas o retiradas, entonces tomamos un grupo de pacientes que caminan mucho y lo comparamos con otro que no caminan y los seguimos en un período de cinco años. En este caso, el ejercicio físico es X y longevidad es Y. ¿Qué esperaríamos en este ejemplo?. Esperamos que el grupo que realiza más actividad física sean más longevos que aquellos que lo hacen pobremente.
Ahora, si la edad promedio de los grupos es diferente al comenzar el estudio, podemos arribar a un resultado erróneo. Si, por dar un ejemplo hipotético, el grupo que realiza poca actividad física son en promedio más jóvenes que aquellos que caminan más, se registrarán más fallecimientos en el grupo que camina más, pero estas se deberán a las diferencias de edad de ambos grupos y no a los efectos del ejercicio físico. En ese caso, la Edad es el factor de confusión.

Ahora, uno se puede realizar otra pregunta, ¿pueden haber otros factores que no hayamos tenido en cuenta que modifiquen aún más los resultados?. ¿cuál era la dieta de los grupos?, ¿tenían enfermedades subyacentes?

Este es un ejemplo real, que proviene de un  trabajo realizado en Honolulu. En este trabajo se seguían a 8000 hombres jubilados desde el año 1965 hasta 1977. Los investigadores querían saber si un mayor ejercicio físico prolongaba la vida en hombres jubilados. Ellos encontraron que los que caminaban menos de una milla por día tenían una tasa de mortalidad dos veces mayor que los que caminaban más de una milla por día.
Los investigadores pensaron en todo esto, así que midieron la edad, dieta, cigarrillo, peso, enfermedades preexistentes. Y efectivamente encontraron una diferencia en el promedio de edad entre los grupos. Así que realizaron lo que se conoce como ajuste del factor de confusión o controlar por el factor de confusión. Él único requisito que se debe tener es medir la variable ateriormente. Ellos tenían la edad y muchas otras medidas de las personas. Lo que hicieron fue diviri a los grupos de pacientes y al grupo control en intervalos de edad, y medimos el efecto que tiene la dieta en pacientes y controles de cada intervalo por separado. Después promediamos los efectos, considerando o ponderando cuánto porcentaje de personas había en cada intérvalo de edad. Este procedimiento se denomina "ajuste de Z" o "controlar Z".

Luego de ajustar los resultados, encontraron que el 43% de los poco caminadores habían muerto,en comparación con el fallecimiento de solamente el 21% de los caminadores intensos.

¿Porqué es a veces muy difícil detectar la confusión en un estudio? 
La razón de tal dificultad se basa en dos premisas, primero es la diferencia entre lo que queremos calcular (la relación causal entre dos variables, X e Y, como vimos) y como diseñamos el estudio para detectarlo.
Hay dos conceptos fundamentales en la confusión: la incomparabilidad de los grupos, como vimos, y la búsqueda de la tercer variable o de confusión.
Cuando decimos que vamos a comparar dos tratamientos, por ejemplo, una vacuna y un placebo, los grupos a quienes probamos deben ser iguales en las variables más importantes. Pero... que son las variables más importantes para ese tratamiento? Cómo se que la edad es importante para los caminadores de Honolulu?, pensamos que el sentido común nos dará la respuesta, pero las cosas siempre son más complicadas de lo que parecen.
El problema de la definir la variable de confusión también es problemático. Es una variable que tenga una causa común con X o Y, o es simplementa una variable que esté correlacionada con X o Y.
Entonces tenemos dos grupos de definiciones:
Proce

¿Es la edad del calendario igua a nuestra edad biológica?

Se dice que el tiempo que se desperdicia no se recupera más y que el reloj es un enemigo imbatible. Durante décadas, el avance de la ciencia...