Está en la página 1de 5

TECNOLÓGICO NACIONAL DE MÉXICO

INSTITUTO TECNOLÓGICO DE MÉRIDA

Estadística Inferencial II

Actividad 1. Resumen

Grupo 5G1

Alumna:
 Contreras Bautista Mariel de Atocha

Maestro: Raúl Álvar Rodríguez Sánchez

Fecha de entrega: 03.09.21


Regresión lineal simple y correlación

1.1 Regresión y correlación lineal simple El término regresión fue utilizado por
primera vez por el genetista y estadístico inglés Francis Galton (1822-1911). En
1877 Galton efectúo un estudio que demostró que la altura de los hijos de padres
altos tendía a retroceder, o “regresar”, hacia la talla media de la población. El
análisis de regresión se desarrolla una ecuación de estimación, es decir, una
fórmula matemática que relaciona las variables conocidas con las desconocidas.
Luego de obtener el patrón de dicha relación, se aplica el análisis de correlación
para determinar el grado de relación que hay entre las variables.
Regresión lineal simple. Es el proceso general de predecir una variable (y) a
partir de otra (X). Las relaciones entre las variables pueden ser directas o también
inversas.

1.2 Supuestos. La regresión múltiple tiene 4 supuestos importantes que hay


que seguir para hacer un análisis preciso y no sesgado:

1) Normalidad. Todos nuestros datos, tanto nuestras variables independientes, así


como nuestra variable dependiente, tienen que tener puntajes que están
distribuidos normalmente, inclusive los residuos (error) de estos puntajes deben
tener una distribución normal.
2) Relación lineal. Debe haber una correlación entre las variables independientes y
la dependiente.
3) Aditividad y Multicolinealidad. Cada variable independiente por sí sola, suma a
la explicación de la variable dependiente y por consiguiente no hay relación entre
las variables independientes, Caso contrario es la multicolinealidad (dos variables
independientes están relacionadas
4) Homocedasticidad. La varianza de los errores de medición de nuestro análisis es igual para
todas las variables independientes.

1.3 Determinación de la ecuación de regresión. El método que por lo común


se utiliza para ajustar una línea a los datos muestrales indicados en el diagrama
de dispersión, se llama método de mínimos cuadrados: sirve para determinar la
recta que mejor se ajuste a los datos muestrales, y los supuestos de este método
son:

 El error es cero.
 Los datos obtenidos de las muestras son estadísticamente independientes.
 La varianza del error es igual para todos los valores de X.

Una línea de regresión calculada a partir de los datos muestrales, por el método
de mínimos cuadrados se llama línea de regresión estimada o línea de regresión
muestral. Dicha línea recta es la que mejor se ajusta al conjunto de datos (X, Y) y
es aquella en que la distancia que hay entre los datos y la supuesta recta es la
menor posible, y se calcula mediante la siguiente formula: yˆ  a  bx.

1.4 Medidas de variación. Las medidas de variabilidad nos informan sobre


el grado de concentración o dispersión que presentan los datos respecto a su
promedio. Existen muchas formas de medir la variabilidad. Se Destacan las más
importantes:

 Rango. Es la diferencia entre el máximo valor del conjunto de datos y el


mínimo de ellos.
 Desviación media. Es la media aritmética de las desviaciones individuales
respecto a la media, tomadas en valor absoluto.
 Varianza. Es propia de las medidas de intervalo o razón. Su inconveniente
es que no usa la misma unidad que los datos, sino su cuadrado.
 Desviación típica. Es la raíz cuadrada de la anterior. Su objeto es
conseguir medir la variabilidad en las mismas unidades que los datos.

1.5 Cálculo de los coeficientes de correlación y de determinación. El


coeficiente de correlación lineal es el cociente entre la covarianza y el producto de
las desviaciones típicas de ambas variables.

Propiedades:
1. El coeficiente de correlación no varía al hacerlo la escala de medición. Es decir,
si expresamos la altura en metros o en centímetros el coeficiente de correlación no
varía.
2. El signo del coeficiente de correlación es el mismo que el de la covarianza. Si la
covarianza es positiva, la correlación es directa. Si la covarianza es negativa, la
correlación es inversa. Si la covarianza es nula, no existe correlación.
3. El coeficiente de correlación lineal es un número real comprendido entre −1 y 1.
−1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación
es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.
5. Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación
es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
6. Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación
es débil.
7. Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente.
Entre ambas variables hay dependencia funcional.

1.6 Análisis residual. Los residuos (o errores) son la diferencia entre los
valores observados y los valores que predice el modelo: Residuos = Valores
observados – Valores que predice el modelo e = y – ŷ.

En un analisis de residuales se puede detectar:

• Si efectivamente la relación entre las variables X e Y es lineal.


• Si hay normalidad de los errores.
• Si hay valores anormales en la distribución de errores.
• Si hay varianza constante (propiedad de Homocedasticidad).
• Si hay independencia de los errores.

1.7 Inferencias acerca de la pendiente. La pendiente β indica el cambio


promedio en la variable de respuesta cuando la variable predictora aumenta en
una unidad adicional. El intercepto α indica el valor promedio de la variable de
respuesta cuando la variable predictora vale 0. Sin embargo, carece de
interpretación práctica si es irrazonable considerar que el rango de valores de x
incluye a cero.

La estructura del modelo de regresión lineal es la siguiente: Y = β0 + β1X + ε. En


esta expresión estamos admitiendo que todos los factores o causas que influyen
en la variable respuesta Y pueden dividirse en dos grupos: el primero contiene a
una variable explicativa X y el segundo incluye un conjunto amplio de factores no
controlados que englobaremos bajo el nombre de perturbación o error aleatorio, ε,
que provoca que la dependencia entre las variables dependiente e independiente
no sea perfecta, sino que esté sujeta a incertidumbre.

También podría gustarte