Está en la página 1de 11

Instituto Superior de Formación

Docente Dr. Juan Pujol

Profesorado de Educación
Secundaria en Matemática.
Materia: Estadística y Probabilidad
Unidad 2
Profesor: Cantero Eusebio

2023
UNIDAD 2: ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

Regresión lineal. Ecuación de regresión. Estimación de los parámetros. Correlación


lineal. Coeficiente de correlación lineal de Pearson. Bondad de ajuste.

Cantero Eusebio 2
MODELO

Expresión formal de las relaciones existentes entre entidades reales o abstractas


definidas en términos matemáticos. (Bonacina Marta. Pág. 200).

Partiremos inicialmente de la noción determinística donde: si hay igualdad de causas


podemos considerar obtener igual efecto, o a iguales estímulos obtener la misma
respuesta, o partiendo de un estado inicial conocido poder anticipar el estado final.
Esta variedad de ejemplos similares conlleva a observar que el campo de aplicación
de las funciones es muy amplio pues está presente en las concepciones básicas de
ciencias tan variadas que intentan explicar desde fenómenos físicos y naturales hasta
sociales.

REGRESIÓN LINEAL

El término regresión fue introducido por Francis Galton (1822-1911) en el siglo XIX. El
análisis de regresión es conocido como una técnica estadística que permite modelar
la relación entre variables, es decir, permite el estudio de asociación cuantitativa
entre variables. Su objetivo principal, es explorar la relación existente entre las
variables para obtener información de una de ellas a través del conocimiento de los
valores de la otra. (Moreno Echavarría, 2012, Pág. 10).

Una variable puede pensarse como explicativa (no aleatoria) que se grafica en el eje
horizontal x y la otra variable respuesta (aleatoria) en el eje vertical y. Así la variable
Y no solo depende de una ley probabilística cuyos parámetros son desconocidos,
sino también de otra variable x controlada arbitrariamente.

Función lineal Regresión lineal


La variación de una o ambas, x e y es
La variación de x e y no es aleatoria
aleatoria
El vínculo estadístico que extiende la
Relación funcional
noción de dependencia funcional.
Los puntos no necesariamente deben
Los puntos deben pertenecer a la recta
pertenecer a la recta.
El cálculo de los parámetros es
La estimación de los parámetros depende
independiente de los puntos
de los puntos seleccionados.
seleccionados sobre la recta.
Dada una tabla de valores de x e y se Dada una tabla de valores de x e y se
obtiene una recta y dada esta es posible obtiene una recta pero ella no permite
reproducir la tabla. reproducir la tabla.
Cuadro comparativo (Agnelli, Héctor. Pág. 4).

Cantero Eusebio 3
AJUSTAMIENTO

Para hallar una ecuación que relacione las variables:

 Obtener datos que muestren los valores de las variables que se están
considerando
X1, X2, . . . , XN y los correspondientes Y1 Y2, . . . , YN.
 Graficar los puntos (X1, Y1), (X2, Y2), . . . , (XN, YN) en un sistema de
coordenadas rectangulares.

Al conjunto de puntos obtenido se le llama diagrama de dispersión.

Por ejemplo:

En el diagrama de dispersión es posible visualizar alguna curva cuya forma se


aproxime a los datos. A esta curva se le llama curva de aproximación.

Al problema de hallar la ecuación de una curva de aproximación que se ajuste a un


conjunto dado de datos se le conoce como ajuste de curvas.

ECUACIONES DE CURVAS DE APROXIMACIÓN MÁS UTILIZADAS

Línea recta: 𝑌 = 𝑎0 + 𝑎1. 𝑋


Parábola: 𝑌 = 𝑎0 + 𝑎1. 𝑋 + 𝑎2. 𝑋 2
Polinomial de grado n: 𝑌 = 𝑎0 + 𝑎1𝑋 + 𝑎2𝑋 2 + ⋯ + 𝑎𝑛𝑋 𝑛
1
Hipérbola 𝑌 = 𝑎0 + 𝑎1 𝑋
Exponencial 𝑌 = 𝑎. 𝑏 𝑋 o bien log 𝑌´ = 𝑙𝑜𝑔 𝑎 + (𝑙𝑜𝑔 𝑏)𝑋 = 𝑎0 + 𝑎1. 𝑋
Potencial 𝑌 = 𝑎. 𝑋 𝑏 o bien log Y = log a + b.(log X )

Cantero Eusebio 4
MÉTODO DE MÍNIMOS CUADRADOS

Dado los puntos (X1, Y1), (X2, Y2), . . . , (XN, YN). Para X=Xi, el valor Yi y el valor
correspondiente determinado de acuerdo con la curva C habrá una diferencia Di
llamada desviación y puede ser positivo, negativo o cero. Una medida de la “bondad
de ajuste” de la curva C a los datos dados es la cantidad min {D21+ D22+…+D2N}
llamada curva de mínimos cuadrados.

RECTA DE MÍNIMOS CUADRADOS

La recta de mínimos cuadrados que aproxima el conjunto de puntos (X1,Y1),


(X2,Y2),…, (XN, YN) tiene la ecuación 𝑌 = 𝑎0 + 𝑎1. 𝑋 donde las constantes a0 y a1 se
determinan resolviendo las ecuaciones simultáneas.

Que se denominan ecuaciones normales de la recta de mínimos cuadrados.

Una alternativa al uso de las fórmulas anteriores está en el hecho que es posible
reducir el cálculo pues
∑𝑌 ∑𝑋
∑ 𝑌 = 𝑎0. 𝑁 + 𝑎1 ∑ 𝑋 (𝑑𝑖𝑣𝑖𝑑𝑖𝑒𝑛𝑡𝑜 𝑝𝑜𝑟 𝑁) = 𝑎0 + 𝑎1 resulta 𝑎0 = 𝑌̅ − 𝑎1. 𝑋̅
𝑁 𝑁

Si X es considerada como la variable dependiente, entonces Y es la variable


independiente; la ecuación de la recta de mínimos cuadrados es X = b0 + b1Y y las
ecuaciones normales son:

Cantero Eusebio 5
La ecuación buscada de la recta de mínimos cuadrados es X = b0 + b1Y

Si obtenemos Y a partir de esta última expresión:

Que no es igual a la obtenida en el caso de X variable independiente.

Propiedad. Toda recta de mínimos cuadrados pasa por (Ẋ,Ẏ) llamado centroide.

Caso 1 (X es la variable independiente)


La ecuación de la recta de mínimos cuadrados es Y = a0 + a1.X (a)
Una de las ecuaciones normales de la recta de mínimos cuadrados es:

Y = a0N + a1 X, dividiendo por N: Ẏ = a0 + a1 Ẋ (b)

Restando la ecuación (a) de la ecuación (b), la recta de mínimos cuadrados se puede


escribir como: Y – Ẏ = a1. (X – Ẋ) y la recta pasa a través del punto (Ẋ, Ẏ).

Caso 2 (Y es la variable independiente)


Procediendo como en el caso 1, intercambiando X e Y y sustituyendo las constantes
a0 y a1 por b0 y b1, respectivamente, la recta de mínimos cuadrados puede
escribirse como: X – Ẋ = b1. (Y – Ẏ) y la recta pasa por el punto (Ẋ, Ẏ).

Las rectas no coinciden, sino que se intersecan en (Ẋ, Ẏ).

Cantero Eusebio 6
PARÁBOLA DE MÍNIMOS CUADRADOS

Que aproxima el conjunto de puntos (X1,Y1), (X2,Y2), . . . ,(XN,YN) tiene la ecuación

Y = a0 + a1. X + a2. X2
Sus ecuaciones normales son:

REGRESIÓN

Con frecuencia se desea estimar el valor de la variable Y que corresponde a un valor


dado de la variable X, basándose en los datos muestrales. Esto se hace estimando el
valor de Y a partir de la curva de mínimos cuadrados ajustada a los datos muestrales.
A la curva de mínimos cuadrados se le llama curva de regresión de Y en X, debido a
que Y se estima a partir de X.

Si lo que se desea es estimar un valor de X a partir de un valor dado de Y, se emplea


la curva de regresión de X en Y, que es lo mismo que intercambiar las variables en el
diagrama de dispersión, de manera que X sea la variable dependiente y Y sea la
variable independiente. En este caso se sustituyen las desviaciones verticales, de la
definición de la curva de mínimos cuadrados, por desviaciones horizontales.

CORRELACIÓN

Grado de relación entre las variables, en el que se busca determinar qué tan bien una
ecuación, describe o explica la relación entre las variables.

Si todos los valores de las variables satisfacen con exactitud una ecuación, se dice
que las variables están en perfecta correlación o que hay una correlación perfecta
entre ellas. Variables como el peso y la estatura de una persona muestran cierta
correlación.
Cuando intervienen sólo dos variables se habla de correlación simple y de regresión
simple. Cuando intervienen más de dos variables, se habla de correlación múltiple y
de regresión múltiple.

CORRELACIÓN LINEAL

Si X y Y son las dos variables en consideración, un diagrama de dispersión localiza


de los puntos (X, Y) en un sistema de coordenadas rectangulares, si todos los puntos
parecen encontrarse cerca de una línea recta, la correlación se llama lineal.

Si Y tiende a aumentar cuando X aumenta, la correlación es positiva o directa.


Si Y tiende a disminuir cuando X aumenta, la correlación es negativa o inversa.

Si todos los puntos parecen encontrarse cerca en una curva, esta correspondencia
se llama no lineal, y lo apropiado para la regresión es una ecuación no lineal.

Cantero Eusebio 7
Las ecuaciones de regresión son idénticas si y sólo si todos los puntos del diagrama
de dispersión se encuentran en una recta. En tales casos, existe una correlación
lineal perfecta entre X y Y.

VARIACIÓN EXPLICADA Y NO EXPLICADA

La variación total de Y = , esta expresión se puede expresar como:

COEFICIENTE DE CORRELACIÓN DE PEARSON

r mide el grado de relación respecto al tipo de ecuación que se emplee. Así, si se


utiliza una ecuación lineal si r resulta cercano a cero, esto significa que entre las
variables casi no hay correlación lineal. Pero esto no significa que no haya
correlación alguna, pues entre estas variables puede haber una fuerte correlación no
lineal. En otras palabras, el coeficiente de correlación mide la bondad de ajuste entre:
la ecuación empleada y los datos.

Propiedades del coeficiente de correlación r

 Si r =1, existe una correlación positiva perfecta. El índice indica una dependencia
total entre las dos variables denominada relación directa: cuando una de ellas
aumenta, la otra también lo hace en proporción constante.
 Si 0 < r < 1, existe una correlación positiva.
 Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las
variables son independientes: pueden existir todavía relaciones no lineales entre
las dos variables.
 Si -1 < r < 0, existe una correlación negativa.
 Si r = -1, existe una correlación negativa perfecta. El índice indica una
dependencia total entre las dos variables llamada relación inversa: cuando una de
ellas aumenta, la otra disminuye en proporción constante.
 No depende de las unidades en que se miden las variables.
 No distingue entre variable explicativa (X) y variable respuesta (Y): el coeficiente
de correlación entre X e Y es igual al coeficiente de correlación entre Y y X.
 A mayor valor absoluto de r, mayor el grado de asociacion lineal.
 Como el denominador de r es siempre positivo, para comprender de donde se
obtiene su signo, sólo es necesario estudiar el signo del numerador.
 Cuando la mayoría de los sumandos son positivos: (xi-ẋ) (yi-ȳ) > 0 la suma es
positiva y por lo tanto r es positivo. Ocurre cuando la mayoría de los puntos (xi, yi)

Cantero Eusebio 8
se encuentran en los cuadrantes (I) y (III). En esos cuadrantes los desvíos xi-x e
yi-ȳ tienen el mismo signo y su producto es positivo.
 Cuando la mayoría de los sumandos son negativos: (xi- ẋ) (yi-ȳ) < 0, o sea cuando
los puntos (xi, yi) se encuentran en su mayoría en los cuadrantes (II) y (IV), allí los
desvíos xi- ẋ e yi-ȳ tienen signos opuestos y su producto es negativo. La suma
resulta negativa y por lo tanto r es negativo.

(8∗364 – 56∗40) 672


𝑟 = = = 0,9770
√(8∗5242 – 562 )∗√(8∗2562 – 402 ) √3136∗√522688
Correlación positiva fuerte 97,70%

COEFICIENTE DE DETERMINACIÓN: R²

Cantero Eusebio 9
LA PRUEBA JI CUADRADA DE BONDAD DE AJUSTE

La prueba chi cuadrada puede emplearse para determinar qué tan bien se ajustan

una distribución teórica a una distribución empírica.

Si χ2 = 0, las frecuencias observadas y las frecuencias teóricas coinciden


exactamente; en tanto que si χ2 > 0, la coincidencia no es exacta. Cuanto mayor sea
el valor de χ2, mayor la discrepancia entre frecuencias observadas y frecuencias
esperadas.

El número de grados de libertad, ν = k − 1 si las frecuencias esperadas pueden


calcularse sin tener que estimar parámetros poblacionales a partir de estadísticos
muestrales.

Las frecuencias esperadas se calculan basándose en la hipótesis H0. Si de acuerdo


con esta hipótesis el valor calculado para χ2, es mayor a algún valor crítico (por
ejemplo, χ2.95 o χ2.99, que son los valores críticos para los niveles de significancia
0.05 y 0.01, respectivamente), se concluye que las frecuencias observadas difieren
en forma significativa de las frecuencias esperadas y se rechaza H0 al
correspondiente nivel de significancia; si no es así, se acepta H0 (o por lo menos no
se rechaza). A este procedimiento se le conoce como prueba ji cuadrada de hipótesis
o de significancia.

CORRECCIÓN DE YATES POR CONTINUIDAD

Cuando a datos discretos se aplican fórmulas para datos continuos, como se ha visto
en capítulos anteriores, es necesario hacer una corrección por continuidad..

Bibliografía

Estadística. Murray R. Spiegel, Larry J. Stephens. Ed Mcgraw-Hill/Interamericana


Editores. Cuarta edición. Impreso en México.

Inferencia estadística y análisis de datos. Santiago L. Ipiña, Ana Durand. 2008,


Pearson Educación S.A. Madrid (España)

Relación entre variables: causalidad, correlación y regresión. Blanca de la Fuente.


Universidad Oberta de Catalunya.

Cantero Eusebio 10
Cantero Eusebio 11

También podría gustarte