Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Profesorado de Educación
Secundaria en Matemática.
Materia: Estadística y Probabilidad
Unidad 2
Profesor: Cantero Eusebio
2023
UNIDAD 2: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL
Cantero Eusebio 2
MODELO
REGRESIÓN LINEAL
El término regresión fue introducido por Francis Galton (1822-1911) en el siglo XIX. El
análisis de regresión es conocido como una técnica estadística que permite modelar
la relación entre variables, es decir, permite el estudio de asociación cuantitativa
entre variables. Su objetivo principal, es explorar la relación existente entre las
variables para obtener información de una de ellas a través del conocimiento de los
valores de la otra. (Moreno Echavarría, 2012, Pág. 10).
Una variable puede pensarse como explicativa (no aleatoria) que se grafica en el eje
horizontal x y la otra variable respuesta (aleatoria) en el eje vertical y. Así la variable
Y no solo depende de una ley probabilística cuyos parámetros son desconocidos,
sino también de otra variable x controlada arbitrariamente.
Cantero Eusebio 3
AJUSTAMIENTO
Obtener datos que muestren los valores de las variables que se están
considerando
X1, X2, . . . , XN y los correspondientes Y1 Y2, . . . , YN.
Graficar los puntos (X1, Y1), (X2, Y2), . . . , (XN, YN) en un sistema de
coordenadas rectangulares.
Por ejemplo:
Cantero Eusebio 4
MÉTODO DE MÍNIMOS CUADRADOS
Dado los puntos (X1, Y1), (X2, Y2), . . . , (XN, YN). Para X=Xi, el valor Yi y el valor
correspondiente determinado de acuerdo con la curva C habrá una diferencia Di
llamada desviación y puede ser positivo, negativo o cero. Una medida de la “bondad
de ajuste” de la curva C a los datos dados es la cantidad min {D21+ D22+…+D2N}
llamada curva de mínimos cuadrados.
Una alternativa al uso de las fórmulas anteriores está en el hecho que es posible
reducir el cálculo pues
∑𝑌 ∑𝑋
∑ 𝑌 = 𝑎0. 𝑁 + 𝑎1 ∑ 𝑋 (𝑑𝑖𝑣𝑖𝑑𝑖𝑒𝑛𝑡𝑜 𝑝𝑜𝑟 𝑁) = 𝑎0 + 𝑎1 resulta 𝑎0 = 𝑌̅ − 𝑎1. 𝑋̅
𝑁 𝑁
Cantero Eusebio 5
La ecuación buscada de la recta de mínimos cuadrados es X = b0 + b1Y
Propiedad. Toda recta de mínimos cuadrados pasa por (Ẋ,Ẏ) llamado centroide.
Cantero Eusebio 6
PARÁBOLA DE MÍNIMOS CUADRADOS
Y = a0 + a1. X + a2. X2
Sus ecuaciones normales son:
REGRESIÓN
CORRELACIÓN
Grado de relación entre las variables, en el que se busca determinar qué tan bien una
ecuación, describe o explica la relación entre las variables.
Si todos los valores de las variables satisfacen con exactitud una ecuación, se dice
que las variables están en perfecta correlación o que hay una correlación perfecta
entre ellas. Variables como el peso y la estatura de una persona muestran cierta
correlación.
Cuando intervienen sólo dos variables se habla de correlación simple y de regresión
simple. Cuando intervienen más de dos variables, se habla de correlación múltiple y
de regresión múltiple.
CORRELACIÓN LINEAL
Si todos los puntos parecen encontrarse cerca en una curva, esta correspondencia
se llama no lineal, y lo apropiado para la regresión es una ecuación no lineal.
Cantero Eusebio 7
Las ecuaciones de regresión son idénticas si y sólo si todos los puntos del diagrama
de dispersión se encuentran en una recta. En tales casos, existe una correlación
lineal perfecta entre X y Y.
Si r =1, existe una correlación positiva perfecta. El índice indica una dependencia
total entre las dos variables denominada relación directa: cuando una de ellas
aumenta, la otra también lo hace en proporción constante.
Si 0 < r < 1, existe una correlación positiva.
Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las
variables son independientes: pueden existir todavía relaciones no lineales entre
las dos variables.
Si -1 < r < 0, existe una correlación negativa.
Si r = -1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa: cuando una de
ellas aumenta, la otra disminuye en proporción constante.
No depende de las unidades en que se miden las variables.
No distingue entre variable explicativa (X) y variable respuesta (Y): el coeficiente
de correlación entre X e Y es igual al coeficiente de correlación entre Y y X.
A mayor valor absoluto de r, mayor el grado de asociacion lineal.
Como el denominador de r es siempre positivo, para comprender de donde se
obtiene su signo, sólo es necesario estudiar el signo del numerador.
Cuando la mayoría de los sumandos son positivos: (xi-ẋ) (yi-ȳ) > 0 la suma es
positiva y por lo tanto r es positivo. Ocurre cuando la mayoría de los puntos (xi, yi)
Cantero Eusebio 8
se encuentran en los cuadrantes (I) y (III). En esos cuadrantes los desvíos xi-x e
yi-ȳ tienen el mismo signo y su producto es positivo.
Cuando la mayoría de los sumandos son negativos: (xi- ẋ) (yi-ȳ) < 0, o sea cuando
los puntos (xi, yi) se encuentran en su mayoría en los cuadrantes (II) y (IV), allí los
desvíos xi- ẋ e yi-ȳ tienen signos opuestos y su producto es negativo. La suma
resulta negativa y por lo tanto r es negativo.
COEFICIENTE DE DETERMINACIÓN: R²
Cantero Eusebio 9
LA PRUEBA JI CUADRADA DE BONDAD DE AJUSTE
La prueba chi cuadrada puede emplearse para determinar qué tan bien se ajustan
Cuando a datos discretos se aplican fórmulas para datos continuos, como se ha visto
en capítulos anteriores, es necesario hacer una corrección por continuidad..
Bibliografía
Cantero Eusebio 10
Cantero Eusebio 11