Está en la página 1de 32

Capitulo 13

Correlación y regresión lineal


Objetivos de aprendizaje
• Explicar el propósito del análisis de correlación.
• Calcular un coeficiente para probar e interpretar la relación entre
dos variables
• Aplicar análisis de regresión para estimar la relación lineal entre
dos variables
• Evaluar la importancia de la pendiente de la ecuación de regresión
• Evaluar la capacidad de una ecuación de regresión para predecir
usando la estimación
• Calcular e interpretar intervalos de confianza y predicción
• Usar una función de registro para transformar una relación no
lineal del error y el coeficiente de determinación

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


¿Qué es el análisis de correlación?
• Se utiliza para informar la relación entre dos variables

Es un grupo de técnicas para medir la relación


entre dos variables
• Ejemplos:
¿La cantidad que Healthex gasta por mes en la capacitación
de su fuerza de ventas afecta sus ventas mensuales?
¿El número de horas que los estudiantes estudian para un
examen influye en la puntuación del examen?

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Diagrama de dispersión
• Un diagrama de dispersión es una herramienta gráfica utilizada para
representar la relación entre dos variables.
• La variable independiente se escala en el eje X, es la variable utilizada
como predictor
• La variable dependiente se escala en el eje Y, es la variable que se
estima
Graficar los datos en un
diagrama de dispersión hará
que la relación entre
llamadas de ventas y ventas
de fotocopiadoras sea mas
fácil de ver.

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Diagrama de dispersión
• Ejemplo:
North American Copier Sales vende copiadoras a
empresas de todos los tamaños en los Estados Los representantes de ventas
Unidos y Canadá. El nuevo gerente de ventas que hacen más llamadas tienden
nacional se está preparando para una próxima a vender mas copiadoras
reunión de ventas y le gustaría dejar en claro a
los representantes de ventas la importancia de
hacer una llamada de ventas adicional cada día.
Ella toma una muestra aleatoria de 15
representantes de ventas y recopila información
sobre la cantidad de llamadas de ventas
realizadas el mes pasado y la cantidad de
fotocopiadoras vendidas. Desarrolle un diagrama
de dispersión de los datos.
UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN
Coeficiente de correlación

Es una medida de la fuerza de la relación lineal


entre dos variables
Las características son:
• El coeficiente de correlación de la muestra se identifica como r.
• Muestra la dirección y la fuerza de la relación lineal entre dos
variables de escala de intervalo o relación
• Va de -1.00 a 1.00
• Si es 0, no hay asociación.
• Un valor cercano a 1.00 indica una correlación directa o positiva
• Un valor cercano a -1.00 indica una correlación negativa
UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN
Correlación negativa perfecta Correlación positiva perfecta

La línea tiene
pendiente negativa

La línea tiene
pendiente positiva
Coeficiente de correlación

• Los siguientes gráficos resumen la fuerza y la dirección del


coeficiente de correlación.
Correlación Correlación
negativa No positiva
perfecta correlación perfecta

Fuerte Correlación Débil Fuerte Correlación Débil


correlación negativa correlación correlación positiva correlación
negativa moderada negativa positiva moderada positiv
a

Correlación
Correlación
negativa
positiva

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Fuerte correlación positiva
Sin correlación entre ingresos y Débil correlación negativa entre las horas estudiadas y la
Ingresos en miles número de hijos. entre precio y cantidad puntuación

Numero de niños Precio Horas


Coeficiente de correlación, r
¿Cómo se determina el coeficiente de correlación? Utilizaremos las ventas de
copiadoras norteamericanas como ejemplo. Comenzamos con un diagrama de
dispersión, pero esta vez dibujaremos una línea vertical en la media de los valores
de x (96 llamadas de ventas) y una línea horizontal en la media de los valores de y
(45 copiadoras).
Cuadrante 2 Cuadrante 1

Venta de copiadoras
Cuadrante 3 Cuadrante 4

Venta en llamadas

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Coeficiente de correlación, r
¿Cómo se determina el coeficiente de correlación? Ahora encontramos
las desviaciones del número medio de llamadas de ventas y el número
medio de fotocopiadoras vendidas; luego multiplíquelos. La suma de su
producto es 6.672 y se usará en la fórmula 13-1 para encontrar r.
También necesitamos las desviaciones estándar. El resultado, r = .865
indica una relación fuerte y positiva.
6672
r= = 0.865
(15−1)(42.76)(12.89)

Coeficiente de correlación

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Ejemplo de coeficiente de correlación
El departamento de marketing de Applewood Auto Group cree que los compradores
más jóvenes compran vehículos en los que se obtienen menores ganancias y los
compradores mayores compran vehículos en los que se obtienen mayores
ganancias. Quisieran usar esta información como parte de una próxima campaña
publicitaria para tratar de atraer compradores más viejos. Desarrolle un diagrama de
dispersión y luego determine el coeficiente de correlación. ¿Sería esta una
característica publicitaria útil?

El diagrama de dispersión sugiere que Luego, calcule r, es 0.262. La relación es


existe una relación positiva entre la edad y positiva pero débil. ¡Los datos no respaldan
el beneficio. Pero no parece ser una una decisión comercial de crear una
relación fuerte. campaña publicitaria para atraer a
compradores mayores!

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Diagrama de dispersión de ganancia vs edad
Ganancia

Edad Ganancias
Edad
Ganancias

Edad
Prueba de la importancia de r

• Recuerde que el gerente de ventas de North American venta de


copiadoras encontró una r de 0.865
• ¿Podría el resultado ser debido a un error de muestreo?
Recuerde que solo se tomaron muestras de 15 vendedores
• Hacemos la pregunta, ¿podría haber una correlación cero en la
población de la que se seleccionó la muestra?
• Dejaremos que "ρ" represente la correlación en la población y
realizaremos una prueba de hipótesis para averiguar

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Prueba de la importancia de r
Ejemplo
Paso 1: Indique la hipótesis nula y alternativa
H0: "ρ" = 0 La correlación en la población es cero
H1: "ρ" ≠ 0 La correlación en la población es diferente de cero
Paso 2: Seleccione el nivel de significación, usaremos .05
Paso 3: Seleccione la estadística de prueba, usamos t
Paso 4: Formule la regla de decisión, rechace H0 si t <2.160 o> 2.160
Paso 5: tomar una decisión, rechazar H0, t = 6.216
Paso 6: Interprete, existe una correlación con respecto al número de
llamadas de ventas realizadas y el número de fotocopiadoras vendidas
en la población de vendedores.
UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN
Prueba de la importancia de r
Región de Región de
rechazo (hay rechazo (hay
correlación correlación
.025) rechazada .025)
(sin
correlación
en la
población)

Escala t

Prueba de coeficiente de
correlación

Con n grados de
libertad hasta 2

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Prueba de la importancia del coeficiente de
correlación
En el ejemplo de Applewood Auto Group, encontramos un r = 0.262 que es positivo, pero
bastante débil. Probamos nuestra conclusión realizando una prueba de hipótesis de que la
correlación es mayor que 0.
Paso 1: Indique la hipótesis nula y alternativa
H0: "ρ" ≤ 0 La correlación en la población es negativa o cero
H1: "ρ"> 0 La correlación en la población es positiva
Paso 2: Seleccione el nivel de significación, usaremos .05
Paso 3: Seleccione la estadística de prueba, usamos t
Paso 4: Formule la regla de decisión, rechace H0 si t> 1.653
Paso 5: Tomar la decisión, rechazar H0, t = 3.622
Paso 6: Interprete, existe una correlación con respecto a las ganancias y la edad
del comprador
Prueba de coeficiente de correlacion
Con n grados de libertad hasta
2

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Análisis de regresión
• En el análisis de regresión, estimamos una variable basada en otra variable
• La variable que se estima es la variable dependiente
• La variable utilizada para hacer la estimación o predecir el valor es la variable
independiente
• La relación entre las variables es lineal.
• Tanto las variables independientes como las dependientes deben ser de
intervalo o escala de razón

Es una ecuación que expresa la relación


lineal entre dos variables.

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Principio de mínimos cuadrados

• En el análisis de regresión, nuestro objetivo es utilizar los


datos para posicionar una línea que mejor represente la
relación entre dos variables
• El primer enfoque es utilizar un diagrama de dispersión para
posicionar visualmente la línea.
• Pero esto depende del juicio, preferiríamos un método que dé
como resultado una única y mejor línea de regresión.

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Línea A
Ventas en copiadoras

Ventas de copiadoras
Ventas en llamadas Ventas en llamadas
Línea de regresión de mínimos cuadrados

Es un procedimiento matemático que utiliza los datos para colocar


una línea con el objetivo de minimizar la suma de los cuadrados
de las distancias verticales entre los valores reales de “y” y los
valores pronosticados de y.

• Para ilustrar, los mismos datos se trazan en los tres cuadros


a continuación.

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Puntuación de logro

Puntuación de logro
Puntuación de logro

Años de servicio con Años de servicio Años de servicio


la empresa. con la con la
empresa. empresa.

La línea de mínimos Línea diferente


Línea dibujada con
cuadrados dibujada con un
un borde recto
borde recto
Línea de regresión de mínimos cuadrados
• Esta es la ecuación de una recta.

• "y" es el valor estimado de y para un valor seleccionado de x


• a es la constante o intersección
• b es la pendiente de la línea ajustada
• x es el valor de la variable independiente
• Las fórmulas para a y b son

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Línea de regresión de mínimos cuadrados
Recordemos el ejemplo de las ventas de copiadoras norteamericanas. El gerente de ventas recopiló
información sobre la cantidad de llamadas de ventas realizadas y la cantidad de fotocopiadoras vendidas.
Use el método de mínimos cuadrados para determinar una ecuación lineal para expresar la relación entre
las dos variables.

El primer paso es encontrar la pendiente de la línea de regresión de mínimos cuadrados, b

Entonces, si un vendedor hace


100 llamadas, puede esperar
vender 46.0432 copiadoras

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Dibujando la línea de regresión
La ecuación de mínimos cuadrados se puede dibujar en el diagrama de dispersión. Por ejemplo, el quinto representante de
ventas es Jeff Hall. Hizo 164 llamadas. Su número estimado de fotocopiadoras vendidas es 62.7344. La gráfica x = 164 e
"y" ̂ = 62.7344 se ubica moviéndose a 164 en el eje xy luego yendo verticalmente a 63.7344. Los otros puntos en la
ecuación de regresión se pueden determinar sustituyendo un valor particular de x en la ecuación de regresión y calculando
"y"
Ventas en copiadoras

Venta en llamadas

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Evaluación de una ecuación de regresión
Capacidad de predecir
• La predicción perfecta es prácticamente imposible en casi todas las
disciplinas, incluidas la economía y los negocios.
• El ejemplo de ventas de copiadoras de América del Norte mostró una relación
significativa entre las llamadas de ventas y las ventas de copiadoras,
la ecuación es
• Número de fotocopiadoras vendidas = 19.9632 + .2608 (Número de
llamadas de ventas)
• ¿Qué sucede si la cantidad de llamadas de ventas es 84? Calculamos que la
cantidad de fotocopiadoras vendidas es de 41.8704; tuvimos dos
empleados con 84 llamadas de ventas, vendieron solo 30 y 24
• Entonces, ¿es la ecuación de regresión un buen predictor?
• Necesitamos una medida que diga cuán inexacta puede ser la estimación.

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


El error estándar de la estimación
Es una medida de la dispersión, o dispersión, de los valores
observados alrededor de la línea de regresión para un valor
dado de x.
• El error estándar de estimación mide la variación alrededor de la línea de regresión
• Está en las mismas unidades que la variable dependiente
• Se basa en desviaciones al cuadrado de la línea de regresión.
• Los valores pequeños indican que los puntos se agrupan cerca de la línea de regresión.
• Se calcula usando la siguiente fórmula

Error estándar
o estimación

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


El error estándar de la estimación

Calculamos el error estándar de estimación en este ejemplo. Necesitamos la suma de las


diferencias al cuadrado entre cada valor observado de y y el valor predicho de y, que es 𝑦.
Usamos una hoja de cálculo para ayudar con los cálculos.

El error estándar de dimensiones es 6.720

Si el error estándar de estimación es pequeño, esto indica que los datos están
relativamente cerca de la línea de regresión y se puede usar la ecuación de regresión. Si
es grande, los datos están ampliamente dispersos alrededor de la línea de regresión y la
ecuación de regresión no proporcionará una estimación precisa de y.

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Estimación de ventas
Coeficiente de determinación
Es la proporción de la variación total en la variable dependiente Y que se explica, o
explica, por la variación en la variable independiente X.
• Va de 0 a 1.0
• Es el cuadrado del coeficiente de correlación.
• Se encuentra a partir de la siguiente fórmula

Coeficiente de

determinación

• En el ejemplo de ventas de copiadoras de América del Norte, el coeficiente de correlación


fue de .865; solo cuadre que (.865) 2 = .748; este es el coeficiente de determinación
• Esto significa que el 74.8% de la variación en el número de fotocopiadoras vendidas
se explica por la variación en las llamadas de ventas

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN


Relaciones entre r, r2 y sy, x
• Recordemos que el error estándar de la estimación mide qué tan cerca están
los valores reales de la línea de regresión
• Cuando es pequeño, las dos variables están estrechamente relacionadas.
• El coeficiente de correlación mide la fuerza de la asociación lineal entre dos
variables.
• Cuando los puntos en el diagrama de dispersión están cerca de la línea, el
coeficiente de correlación tiende a ser grande
• Por lo tanto, el coeficiente de correlación y el error estándar de estimación
están inversamente relacionados.
• Como se señaló anteriormente, el coeficiente de determinación es el
coeficiente de correlación al cuadrado

UNIVERSIDAD AUTÓNOMA DE NUEVO LEÓN I FACULTAD DE CONTADURÍA PÚBLICA Y ADMINISTRACIÓN

También podría gustarte