Está en la página 1de 55

Análisis de Datos

II. Análisis de regresión y Correlación


Algunos Ejemplos de Variables y
su relación

• ¿Existe alguna relación entre la cantidad que Telcel


gasta por mes en publicidad y sus ventas mensuales?
• Con base en el costo de calefacción de una casa en el
mes de enero. ¿Es posible estimar el área de la casa?
• ¿Hay alguna relación entre las millas por galón que
rinde una camioneta grande y el tamaño del motor?
• ¿Hay alguna relación entre el número de horas que
estudiaron los alumnos para un examen y la
calificación que obtuvieron?
TENDENCIA LINEAL

• Es la que puede señalarse en una línea recta o


curva suave, y puede ser ascendente o
descendente.
REGRESIÓN Y CORRELACIÓN

Los análisis de Regresión y de Correlación están basados en la


relación o asociación, entre 2 o más variables:
• Una variable conocida llamada Variable Independiente.
• La variable que se está tratando de predecir es la Variable
Dependiente.

La regresión y los análisis de correlación muestran como


determinar tanto la naturaleza como la fuerza de una relación
entre dos variables.
REGRESIÓN Y CORRELACIÓN
 La Regresión y la correlación son dos técnicas
estadísticas que se pueden utilizar para solucionar
problemas comunes en los negocios.
 Muchos estudios se basan en la creencia de que es
posible identificar y cuantificar alguna Relación
Funcional entre dos o más variables, donde una
variable depende de la otra variable.
 Se puede decir que Y depende de X, en donde Y y X
son dos variables cualquiera en un modelo de
Regresión Simple.

5
Métodos para obtener una
línea recta y su ecuación:

• Método Gráfico,
• Método de Semipromedios,
• Método de Promedios Móviles y
• Método de Mínimos Cuadrados.
Método de Mínimos
Cuadrados:
Para el ajuste de la línea se utiliza el Método de
Mínimos Cuadrados, con la Ecuación de la Línea
Recta:

Y = a + bx
Y cuando se usa para describir la tendencia es
escrita así:
Yc = a + bx
ANÁLISIS DE REGRESIÓN

Es la técnica mas usada en investigación


económica y comercial para buscar una
relación entre 2 o mas variables ligadas de un
modo causal.

Consiste en general en: una función a partir de


datos o información conocida para hacer
estimaciones .
TIPOS ANÁLISIS DE REGRESIÓN

a) REGRESION LINEAL SIMPLE


Se refiere al análisis de 2 variables.

b) REGRESION MÚLTIPLE
Cuando se relacionan 3 o mas variables.
Regresión Lineal Simple

En el análisis de regresión se desarrolla una ecuación


de estimación, esto es, una fórmula matemática que
relaciona las variables conocidas con la variable
desconocida.
Modelo de Regresión
 
 En el Modelo de Regresión es muy importante
identificar cuál es la variable dependiente y
cuál es la variable independiente.
 En el Modelo de Regresión Simple se
establece que “Y” es una función de sólo una
variable independiente, razón por la cual se le
denomina también Regresión Divariada porque
sólo hay dos variables, una dependiente y otra
independiente.

11
11
Modelo de Regresión

La variable dependiente es la variable que se


desea explicar, predecir. También se le llama
REGRESANDO ó VARIABLE DE RESPUESTA.

La variable Independiente «X» se le denomina


VARIABLE EXPLICATIVA ó REGRESOR y se le
utiliza para EXPLICAR «Y» 

12
12
Técnicas más utilizadas en el análisis
de regresión lineal simple

1) Ordenamiento y análisis de la información original


2) CÁLCULO DE DATOS ESTIMADOS
3) Diagrama de dispersión e interpretación
El primer paso para determinar si existe o no una
relación entre dos variables es analizar la gráfica de
datos observados.

13
Técnicas más utilizadas en el análisis de
regresión lineal simple

La gráfica se llama Diagrama de Dispersión y es un diagrama


que nos puede dar dos tipos de información:
• (visualmente) patrones que nos indiquen que las variables
están relacionadas
• Entonces (si esto sucede), podemos ver que tipo de línea, o
ecuación de estimación, describe esta relación.

14
Diagrama de Dispersión
Es una gráfica con datos muestrales apareados
(x, y) en un sistema de ejes rectangular, y cada
par ordenado representa un solo punto. Sirve más
para visualizar la asociación entre las variables
que las gráficas de barras de los hechos aislados,
que nos muestran tendencias al estar ordenados
en una secuencia temporal. Al observar una
gráfica debemos “ver”:
 ¿Que dirección tiene?
 Si una variable se incrementa, ¿qué sucede
con la otra?
 ¿Existen datos distantes?
15
15
Diagramas de Dispersión

 
 

16
16
Tipos de relaciones
lineales:

• RELACION LINEAL ASCEDENTE


• RELACION LINEAL DESCENDENTE
• RELACION LINEAL CURVILÍNEA
• RELACION LINEAL CONSTANTE
REGRESIÓN LINEAL SIMPLE

Para este análisis es necesario ajustar los


datos a una línea recta, para poder estimar
una variable con relación a otra. Para esto
utilizamos la ecuación de la línea recta:

Y = a+ bx === Yc = a+ bx = Ecuación
de Regresión
REGRESIÓN LINEAL SIMPLE

Donde:

Yc = Variable estimada o calculada.


a y b = Coeficientes de regresión.
X= Variable que sirve para estimar la otra variable.
Predictor en base a ella se estima el predictando.
(Variable Independiente).
Y = Constituye la Variable a estimar y recibe el nombre
de Predictando. (Variable Dependiente).
ECUACIONES NORMALES:

• y = N . a + Xb

•  Xy =  X . a +  X^2b
FÓRMULAS PARA ENCONTRAR
"a" y "b":

 Y    X    X   XY 
2
a
n  X     X 
2 2

n  XY    X   Y 
b
n  X     X 
2 2
Análisis de
Correlación

• El análisis de correlación se APLICA para


determinar el grado en el que están relacionadas
las variables.
• El análisis de correlación, INDICA qué tan bien
están relacionadas las variables.
• El análisis de correlación, MUESTRA que tan bien
la ecuación de estimación realmente describe la
relación.

22
Coeficiente de Correlación Lineal
“r”
Mide la fuerza de la relación lineal
entre dos valores cualitativos
apareados, en una muestra. También
se llama “Coeficiente de correlación
producto momento de Pearson.”.
LETRA "r"

23
Coeficiente de
Correlación Lineal “r”
Si “r” es igual a 0 = no existe correlación
Si “r” mayor que 0 = correlación positiva
Si “r” menor que 0 = correlación negativa
Si “r” es igual a menos 1 = correlación perfecta
negativa
Si “r” es igual a uno = correlación perfecta
positiva.
Los límites o extremos del coeficiente de
correlación son –1 y 1.
Coeficiente de Correlación - Interpretación

25
COEFICIENTE DE CORRELACIÓN:

Sirve para medir la relación entre dos


variables. Es la segunda medida que se pueda
usar para describir lo bien que una variable
se explica por otra. Cuando se está tratando
de muestras, el coeficiente de correlación se
denota por “1” y es la raíz cuadrada del
coeficiente de determinación muestral .
Análisis de correlación
• El análisis de correlación es un grupo de técnicas estadísticas
usadas para medir la fuerza de la asociación entre dos
variables.
• Un diagrama de dispersión es una gráfica que representa la
relación entre dos variables.
• La variable dependiente es la variable que se predice o
calcula.
• La variable independiente proporciona las bases para el
cálculo. Es la variable de predicción.
El coeficiente de correlación, r

El coeficiente de correlación (r) es una medida de la intensidad


de la relación lineal entre dos variables.
• Requiere datos de nivel de razón.
• Puede tomar cualquier valor de -1.00 a 1.00.
• Los valores de -1.00 o 1.00 indican la correlación perfecta y
fuerte.
• Los valores cerca de 0.0 indican la correlación débil.
• Los valores negativos indican una relación inversa y los valores
positivos indican una relación directa.
Correlación negativa perfecta

10
9
8
7
6
Y
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Correlación positiva perfecta

10
9
8
7
6
Y
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Correlación cero

10
9
8
7
6
Y
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Correlación positiva fuerte

10
9
8
7
6
Y
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
X
Fórmula para r

• Calculamos el coeficiente de correlación de las


fórmulas siguientes.

( X  X )(Y  Y )
r
(n  1) s x s y
n(XY )  (X )(Y )

 n ( X 2 2

)  ( X ) n   Y     Y 
2 2

Coeficiente de
determinación
El coeficiente de determinación (r2) es la proporción de la
variación total en la variable dependiente (y) que se explica
por la variación en la variable independiente (x).
• Es el cuadrado del coeficiente de correlación.
• Su rango es de 0 a 1.
• No da ninguna información sobre la dirección de la relación
entre las variables.
Ejemplo 1
• Juan Escobedo, presidente de la sociedad de alumnos de la
UVM, se ocupa de estudiar el costo de los libros de texto. Él
cree que hay una relación entre el número de páginas en el
texto y el precio de venta del libro. Para proporcionar una
prueba, selecciona una muestra de ocho libros de texto
actualmente en venta en la librería. Dibuje un diagrama de
dispersión. Compruebe el coeficiente de correlación.
Ejemplo 1 (Continuación)
Libro Páginas Precio ($)
• Intr. a la Historia 500 84
• Álgebra 700 75
• Intr.a la Psicología 800 99
• Intr. a la Sociología 600 72
• Mercadotecnia 400 69
• Intr. a la Biología 500 81
• Fund. de Jazz 600 63
• Intr.a la Enfermería 800 93
Ejemplo 1 (Continuación)

Scatter Diagram of Number of Pages and Selling Price of Text

100

90
Price ($)

80

70

60
400 500 600 700 800
Page
Ejemplo 1 (Continuación)

Libro Páginas Precio ($)


X Y XY X2 Y2
Intr. a la Historia 500 84 42,000 250,000 7,056
Álgebra 700 75 52,500 490,000 5,625
Intr. a la Psicología 800 99 79,200 640,000 9,801
Intr. a la Sociología 600 72 43,200 360,000 5,184
Mercadotecnia 400 69 27,600 160,000 4,761
Intr. a la Biología 500 81 40,500 250,000 6,561
Fund. de Jazz 600 63 37,800 360,000 3,969
Intr. a la Enfermería 800 93 74,400 640,000 8,649
Total 4,900 636 397,200 3,150,000 51,606
Ejemplo 1 (Continuación)

n(XY )  (X )(Y )


r
 n (X 2
 
)  ( X ) n Y    Y 
2 2
 2

8(397,200)  (4,900)(636)

8(3,150,000  (4,900) 8(51,606)  (636) 
2 2

 0.614
Ejemplo 1 (Continuación)

• La correlación entre el número de páginas y el precio de


venta del libro es 0.614. Esto indica una asociación
moderada entre las variables. Pruebe la hipótesis de que no
hay correlación en la población. Utilice un nivel de la
significancia del .02.
Paso 1: H0: La correlación en la población es cero.
H1: La correlación en la población no es cero.
Paso 2: H0 es rechazada si t>3.143 o si t<-3.143.
Hay 6 grados de libertad, encontrados cerca.
n–2=8–2 = 6.
Ejemplo 1 (Continuación)
Paso 3: Para encontrar el valor del estadístico de
prueba, utilizamos:
r n2 .614 8  2
t   1.905
1 r 2 1  (. 614) 2

Paso 4: H0 no se rechaza. No podemos rechazar la


hipótesis de que no hay correlación en la
población. La cantidad de asociación puede ser
debido al azar.
Análisis de regresión
• En análisis de regresión utilizamos la variable independiente
(X) para estimar la variable dependiente (Y).
• La relación entre las variables es lineal.
• Ambas variables deben ser por lo menos escala del intervalo.
• El criterio de mínimos cuadrados se utiliza para determinar la
ecuación. Este es el término (Y – Y')2
Análisis de regresión

La ecuación de regresión es: Y' = a + bX, donde:


• Y' es el valor pronosticado de la variable Y para un valor
seleccionado de X.
• a es la ordenada de la intersección con el eje Y cuando X = 0.
Es el valor estimado de Y cuando X=0
• b es la pendiente de la recta, o el cambio promedio en Y' para
cada cambio de una unidad en X.
• el principio de mínimos cuadrados se utiliza para obtener a y
b.
Análisis de regresión

• El principio de mínimos cuadrados se utiliza para obtener a


y b. Las ecuaciones para determinar a y b son:

n(  XY )  ( X )(  Y )
b
n(  X )  (  X )
2 2

Y X
a b
n n
Ejemplo 2 (Continuación)

• Desarrolle una ecuación de regresión para la información


dada en el Ejemplo 1 que se puede utilizar para estimar el
precio de venta basado en el número de páginas.

8(397,200)  (4,900)( 636)


b 2
 .05143
8(3,150,000)  (4,900)

636 4,900
a  0.05143  48.0
8 8
Ejemplo 2 (Continuación)

La ecuación de regresión es:


Y' = 48.0 + .05143X
• La ecuación cruza al eje Y en $48. Un libro sin las páginas
costaría $48.
• La pendiente de la línea es .05143. El costo de cada página
adicional es de cinco céntimos.
• El signo del valor de b y el signo del valor de r serán siempre
iguales.
Ejemplo 2 (Continuación)

Podemos utilizar la ecuación de regresión para


estimar valores de Y.
• El precio de venta estimado de un libro de 800 páginas es
$89.14, encontrado por

Y   48.0  0.05143X
 48.0  0.05143(800)  89.14
El error estándar de estimación

• El error estándar de estimación mide la dispersión de los


valores observados alrededor de la línea de regresión.
• Las fórmulas que se utilizan para comprobar el error
estándar son:

(Y  Y ) 2
s y. x 
n2
Y 2  aY  bXY

n2
Ejemplo 3

Encuentre el error estándar de estimación para el


problema que implica el número de páginas en un libro
y el precio de venta.

Y 2  aY  bXY
s y. x 
n2
51,606  48(636)  0.05143(397,200)

82
 10.408
Suposiciones subyacentes en
el análisis de regresión lineal

• Para cada valor de X, hay un grupo de valores de Y, y estos


valores de Y se distribuyen normalmente.
• Las medias de estas distribuciones normales de valores Y,
caen todas en la recta de regresión.
• Las desviaciones estándar de estas distribuciones normales
son iguales.
• Los valores de Y son estadísticamente independendientes.
Esto significa que en la selección de una muestra, los valores
de Y elegidos para un valor particular de X no dependen de los
valores de Y de ningún otro valor de X.
Intervalo de confianza

• El intervalo de confianza para el valor medio de Y para un


valor dado de X está dado por:

1 ( X  X )2
Y   ts y. x  2
n (  X )
X 2 
n
1 (800  612.5) 2
89.14  2.447(10.408) 
8 (4900) 2
3,150,000 
8
89.14  15.31
Intervalo de predicción

• El intervalo de predicción para un valor individual de Y para


un valor dado de X se da por:

1 ( X  X )2
Y   ts y. x 1 
n 2 ( X ) 2
X 
n
1 (800  612.5) 2
89.14  2.447(10.408) 1  
8 ( 4900) 2
3,150,000 
8
89.14  29.72
Ejemplo 3 (Continuación)

Resumir los resultados:


• El precio de venta estimado para un libro con 800 páginas es
$89.14.
• El error estándar de estimación es $10.41.
• El intervalo de confianza de 95% para todos los libros con 800
páginas es $89.14+-$15.31. Esto significa que los límites están
entre $73.83 y $104.45.
• El intervalo de predicción de 95% para un libro particular con
800 páginas es $89.14+-$29.72. Esto significa que los límites
están entre $59.42 y $118.86.
• Estos resultados aparecen en la siguiente salida de MINITAB.
Ejemplo 3 (Continuación)

Regression Analysis: Price versus Pages


The regression equation is
Price = 48.0 + 0.0514 Pages

Predictor Coef SE Coef T P


Constant 48.00 16.94 2.83 0.030
Pages 0.05143 0.02700 1.90 0.105

S = 10.41 R-Sq = 37.7% R-Sq(adj) = 27.3%

Analysis of Variance

Source DF SS MS F P
Regression 1 393.4 393.4 3.63 0.105
Residual Error 6 650.6 108.4
Total 7 1044.0

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI


1 89.14 6.26 ( 73.82, 104.46) ( 59.41, 118.88)
Gracias !!

También podría gustarte