sábado, 29 de mayo de 2021

Ecuación de la Regresión Lineal simple

 En el corazón de los análisis de las ciencias de la salud, normalmente es común o conveniente observar como es la relación entre dos variables. Digamos, edad y estatura, alimentación y ganancia de peso, o ingreso familiar y gastos médicos. 

La naturaleza e intensidad de las relaciones entre dos variables pueden ser analizadas por regresión y correlación. Las dos técnicas están relacionadas, pero sus usos son diferentes y cumplen diferentes funciones. 


El objeto de la regresión es predecir la forma de la relación entre las variables, y el objetivo final, es predecir o estimar el valor de una variable dado que se sabe el valor de otra variable.

Las ideas de regresión fueron expuestas primero por Sir Francis Dalton, investigando sobre la estatura humana. Concluyó que que la estatura de un individuo adulto, sin importar si desciende de padres altos o bajos, tiende a revertirse a la estatura promedio de la población.

Como todos los otros problemas en la estadísticas, los investigadores poseen muestras poblacionales de un apoblación real, en base a esa muestra se propone tomar una decisión con respecto a la población donde se extrajo la muestra. Por lo tanto, es importante que si uno va a utilizar un modelo de regresión lineal simple, este represente la población. No es de esperarse que el modelo represente fielmente la población, porque raramente se encuentra esto en modelos de aplicación práctica. Por otra parte, si se forzan los datos a un modelo que no se ajusta bien tampoco tiene valor. Sin embargo, un modelo que no está perfectamente ajustado no es un obstáculo para obtener valores útiles. Y ahi es donde juega el investigador, debe ser capaz de decidir cuando el modelo elegido y los dartos son lo suficentemenete compatibles como para poder proceder y en el que se deberá rechazar dicho modelo.

Tipos de Variables.

La regresión lineal simple utiliza dos variables. X e Y. A la variable X se la conoce como variable independiente, y es la que con frecuencia se encuetra en control del onvestigador, es decir, los valores de X pueden ser seleccionados por el investigador para obtener los valores de Y. Por cada valor de X que elija el investigador, correponderá un valor de Y que saldrá como respuesta. Por eso, a la variable Y se la denomina variable dependiente o variable de respuesta. Se habla de la regresión de Y sobre X

Supuestos

1. Los valores de la variable X son fijos, lo que quiere decir es que son previamente elegidos por el investigador, y no pueden variar. También se llama variable no aleatoria o variable matemática. 

2. La variable X se mide sin error, o con error insignificante.

3. Por cada valor de X, existe uns subpoblación de valores probables de Y. Para que las pruebas de hipótesis e inferencia estadística funcionene, esa subpoblación debe poseer un distriución normal 

4. Todas las varianzas de las subpoblaciones de Y son iguales, como se observa en el gráfico

5. Todas las medias de las subpoblaciones de Y se encuentran en la misma linea recta. Es la denominada suposición de linealidad


Donde u es la media de la subpoblación de los valores de Y para un X determinado, alfa y beta representan a los coeficientes de regresión de la recta. Alfa es la ordenada de origen y beta es la pendiente de la recta en donde están todas las medias. 

 6. Los valores de Y son estadísticamente independientes. En otras palabras, al extraer la muestra, los valores de Y obtenidos a partir de un valor de X de ninguna manera dependen de los valores de Y elegidos para otro valor de X.


Estas suposiciones se resumen en la siguiente ecuació, que es la del modelo de regresión.

Donde y es un valor representativo de una de las subpoblaciones de Y (para un X dado), alfa y beta son los coeficientes de represión y e es el error.

Se puede apreciar que despejando la fóruma nos queda que e indica la cantidad en que el valor y de la recta de regresión se desvía de la media de los valores Y de la población en que se extrae (uy|x). COmo consecuencia que las subpoblaciones Y siguen una distribución normal con varianzas iguales, los errores también deben seguir una distribuión normal con varianzas iguales a la varianza común de las poblaciones donde se extraen


EL primer paso en querer evaluar una relación es graficar un diagrama de dispersión, por ejemplo, la circunferencia de cintura y grasa abdominal. Si tenemos evidencia que están relacionadas linealmente podremos formar una recta. 

La recta de los mínimos cuadrados, es aquella recta que minimiza las desviaciones verticales al cuadrado de los puntos observados (yi) y es menor que cualquier otra recta.

Si la hipótesis nula no es rechazada (aceptada),la hipótesis de no diferencia, en esta, la pendiente de la curva es igual a 0. Es una relación lineal que tiene poco o ningún valor pronóstico para la otra variable, es probable que la dispersión tenga otra descripción no lineal.

Error de tipo I: rechazar una hipótesis nula verdadera. No hay diferencia, pero declaro que la hay, un falso Positivo


Hipótesis nula rechazada, se acepta la alternativa. Existe una relación lineal entre las variables. Se dice que un modelo lienal otorga un buen ajuste de datos

Error de tipo II: aceptar una hipótesis nula falsa. Hay diferencia, pero declaro que no la hay. un Falso Negativo.

Coeficiente de Determinación

Para evaluar el ajuste se observa la dispersión de puntos alrededor de la recta de regresión. La recta de regresión expresa la media de los valores






 

No hay comentarios:

Publicar un comentario

¿Es la edad del calendario igua a nuestra edad biológica?

Se dice que el tiempo que se desperdicia no se recupera más y que el reloj es un enemigo imbatible. Durante décadas, el avance de la ciencia...