Está en la página 1de 59

Regresión lineal y

correlación.
• Estudio entre dos variables (independiente y dependiente) (¿cómo modifica una
variable a otra?).
X y Y

CONCEPTOS TEÓRICOS
• Análisis de correlación: grupo de técnicas para medir la asociación entre
dos variables (X y Y). Utiliza datos pasados (estadísticos)
• Análisis de regresión: Desarrollo de una ecuación matemática para
estimar el valor de una variable con base en el valor de otra. Pronostica
datos futuros (probabilidad)
• En conclusión, el análisis de regresión y
correlación están encargados de ver si hay
relación entre dos valores, todo a partir de un
estudio numérico que nos permitirá ir haciendo
conclusiones y un ejercicio completo.

NOTA: PARA RESOLVER EL EJERCICIO DE MANERA PRÁCTICA TE SUGIERO QUE VAYAS SIGUIENDO PASO POR PASO DE ACUERDO A COMO SE
PLANTEA EN LA SIGUIENTE LISTA DE ACTIVIDADES.
PASOS PARA HACER UN ANÁLISIS DE CORRELACIÓN LINEAL
Y REGRESIÓN.
1. Cálculo de las medias de ambas variables ( , )
2. Cálculo de las desviaciones estándares de ambas variables (𝑆𝑥 𝑦 𝑆𝑦 )
3. Trazar diagrama de dispersión ( ejes coordenados de x con y)
4. Cálculo del coeficiente de correlación (r de Pearson)
5. Hacer prueba de hipótesis para comprobar el coeficiente de correlación
poblacional(ρ=0 ó ρ‡0)
6. Cálculo de la ecuación de regresión (ŷ)
7. Trazo de la recta de regresión
8. Cálculo del error estándar
Tabla de distribución
• Para hacer el ejercicio de correlación es necesario llenar una tabla de distribuciones
que te ayudará a ir calculando todos los valores necesarios. A continuación se presenta
la tabla como vendría dentro de un ejercicio con valores simulados. Siempre te darán
el valor de la columna x y de la columna y.
Columna 1 Columna 2 Columna 3 Columna Columna 5 Columna 6 Columna 7 Columna 8 Columna 9 Columna 10
4
x X- 𝒙− 𝟐 y Y- Y− 𝟐 X− Y− ŷ Y-Ŷ Y−Ŷ
𝟐

Valor 1 Valor 1
Valor 2 Valor 2
Valor 3 Valor 3
Total (Σ)
• Los valores de la columna de X y de Y son números proporcionados dentro del ejercicio inicial
1. Cálculo de las medias de ambas variables ( , )
• Antes de empezar a hacer el análisis de regresión es necesario que calcules la media
tanto de la variable x como de la variable y.

• FÓRMULAS
• Media de X Media de Y
Σ𝑿 Σ𝒀
= =
𝒏 𝒏

Nota: después de calcular la media de ambas variables necesitas completar la


tabla de distribución hasta la columna 7, siguiendo la operación indicada en el
encabezado de cada columna.
2.- Cálculo de las desviaciones estándares de
ambas variables (𝑆𝑥 𝑦 𝑆𝑦 )
• Este paso del ejercicio también se debe de resolver antes de empezar el análisis de
correlación.

• FÓRMULAS
• Desviación estándar X Desviación estándar Y

𝟐 𝟐
𝑿− 𝒀−
• 𝑆𝑥 = 𝑛−1
𝑆𝑦 =
𝑛−1

NOTA: Para resolver estas fórmulas ocuparás la sumatoria de la columna 3 y 6 respectivamente.


3.-Trazar diagrama de dispersión ( ejes coordenados de x con y)
• Este paso es el primero del análisis de correlación y requiere una interpretación o conclusión al
final de realizarlo.

• Es una gráfica de ejes coordenados X y Y con pares ordenados (x , y) formados por la pareja
de datos de la columna 1 con la columna 4 𝑉𝑎𝑙𝑜𝑟1𝑥 , 𝑉𝑎𝑙𝑜𝑟 1𝑦

y
4
(Ejemplo: si los ejes fueran 2, 4)

2 x
4.-Cálculo del coeficiente de correlación (r de Pearson)
• Este coeficiente fue creado por Karl Pearson, describe la fuerza de la relación entre dos
conjuntos de variables. Se designa con la letra r.
• Puede adoptar cualquier valor desde -1.00 hasta +1.00; un coeficiente de +1.00
indicaría que las variables están perfectamente relacionadas de manera positiva y, por
otra parte, un valor calculado de -1.00 revela una relación perfecta pero de manera
inversa o negativa.
• Si no hay relación entre los dos conjuntos de variables, la r de Pearson es cero.
• Un coeficiente cercano a 0 nos indica una relación débil ya sea de lado positivo o
negativo.
-1.00 0 +1.00
Relación fuerte Relación nula Relación fuerte
negativa positiva

El resultado de esta fórmula no puede exceder por nada los valores límite de -1.00 y +1.00
Σ X− y−
r=
𝑛−1 𝑆𝑋 𝑆𝑌

Nota: el resultado del numerador en la fracción es la sumatoria de la columna 7 (es importante


que no desarrolles la fórmula por partes, solo es escribir el resultado total de la columna). El
denominador tiene el valor de n que representa el total de parejas en la tabla y los otros valores
son el resultado de las desviaciones estándares.
5.-Hacer prueba de hipótesis para comprobar el coeficiente de
correlación poblacional(ρ=0 ó ρ‡0)
• En esta parte del análisis se busca comprobar que el coeficiente de correlación
obtenido en el paso anterior sea real, por lo que se realizará una prueba de hipótesis
con el valor poblacional de r (ρ). Debes de realizar los 5 pasos de la prueba de
hipótesis de la siguiente forma:
• PASO 1: 𝐻0 : ρ=0 𝐻1 = ρ‡0
• PASO 2: α= (Utiliza tabla t de student) con grados de libertad gl=n-2
𝑟 𝑛−2
• PASO 3 : Estadístico de la prueba t = 1−𝑟 2
NOTA: esta fórmula SOLO se usará para esta prueba de hipótesis y los resultados de ésta solo se ocuparán para
comparar con el valor crítico.
• PASO 4: Establecer regla de decisión. ( la prueba de hipótesis siempre será de 2
colas)

Valor crítico(negativo de lado izquierdo, positivo de lado derecho)


Regla de decisión : rechazo 𝐻0 si t > valor crítico ó t < valor crítico

PASO 5 : Resolución del estadístico de la prueba y comparación con valor crítico para
hacer conclusión.

Nota: solo se busca comprobar que r es o no es igual a 0


6.-Cálculo de la ecuación de regresión (ŷ)
• En este paso se inicia con el análisis de regresión. ( pronóstico de valores ideales)
• Expresa la relación lineal entre dos variables.

• Al utilizarla se puede estimar el valor de la variable dependiente y con base en un valor seleccionado de la
variable independiente X.
• Para encontrar la ecuación que nos permitirá relacionar las dos variables se utiliza la siguiente fórmula:
Ŷ = 𝒂 + 𝒃𝒙
Donde:
Ŷ(“ y prima”)= valor de la estimación de la variable y para un valor x seleccionado
a= intersección de y. Valor estimado de Y cuando x=0
b= pendiente de la recta.
x= cualquier valor de la variable independiente que se seleccione.
• Para poder hacer la ecuación de regresión (Ŷ = 𝒂 + 𝒃𝒙 ) primero necesitamos
encontrar el valor de a y de b con las siguientes fórmulas.
𝑆𝑦
• 𝑏=𝑟 𝑆𝑥
𝑎 = -b
Nota: primero resuelve la fórmula para la letra b y posteriormente para la letra a.

• r es el coeficiente de correlación
• 𝑆𝑥 es la desviación estándar de la variable X
• 𝑆𝑦 es la desviación estándar de la variable Y
• es la media de la variable Y
• es la media de la variable X
Nota: Una vez que termines estas fórmulas y las apliques a la ecuación de regresión podrás completar la tabla
de distribución.
7.-Trazo de la recta de regresión
• La ecuación de regresión se traza en un diagrama de dispersión como en el paso 3 del
análisis, se podría hacer un comparativo entre ambos diagramas, la diferencia es que el
primero queda disperso ( puntos desalineados) y el segundo queda en línea recta ya que
representa valores ideales relacionados.

a
8.-Cálculo del error estándar
• El error estándar representa una estimación o un valor de dispersión para la recta de
regresión para un valor dado de X.

• Cuando el error estándar de estimación es pequeño, los datos están relativamente


cercanos a la recta de regresión, y se predice que hay poco error respecto a los valores
ideales; pero si dicho error es muy grande, significa que estos están muy dispersos
respecto a la recta y la ecuación no proporcionará una estimación precisa de y.
𝟐
Σ Y−Ŷ
𝑺𝑿.𝒀 =
𝒏−𝟐
La sección de sumatoria es el total de la columna 10

También podría gustarte