Está en la página 1de 65

LA RECTA DE

REGRESIÓN Y
CORRELACION

CONTENIDOS:

 Técnicas cuantitativas para el análisis de datos


 Dependencia funcional y dependencia estadística
 Concepto de regresión
 ¿Es buena la aproximación?
 Error cuadrático medio, varianza residual
 coeficiente de determinación lineal
Coeficiente de correlación
lineal de Pearson r cuyo Tipos de correlación
ANÁLISIS DE CORRELACIÓN valor oscila entre -1 y 1
(Nos ayuda a identificar si
existe o no algún tipo de
relación entre 2 ó más variables
aleatorias

ANÁLISIS DE
CORRELACIÓN Y
REGRESIÓN
LINEAL
ANÁLISIS DE REGRESIÓN El coeficiente de
(Describe la ecuación Ecuación lineal y = a + determinación (r2) es la
matemática o línea recta de la bx proporción de la variación
relación entre 2 o más variables total en la variable
aleatorias) dependiente (y) que se
explica por la variación en la
Diagrama de variable independiente (x).
dispersión
Es una gráfica que representa la relación entre dos Es el cuadrado del
variables. coeficiente de correlación.
La variable dependiente es la variable que se predice o Su rango es de 0 a 1.
calcula.
La variable independiente proporciona las bases para el
cálculo.

El (r) es una medida de la intensidad de la relación lineal


entre dos variables.
Puede tomar cualquier valor de -1.00 a 1.00.
Los valores de -1.00 o 1.00 indican la correlación perfecta y
fuerte.
Independencia -
Dependencia
Al estudiar dos características simultáneamente de una muestra:
 ¿están relacionadas? ¿interdependencia? ¿cómo lo hacen?
 altura vs peso. horas de estudio vs calificación en un
examen.
El objetivo principal es determinar el modo en que se relacionan.
Dos variables pueden considerarse:
 Independientes  ninguna explica el comportamiento de la
otra
 Dependencia funcional (exacta)  Y=f(x)
 Dependencia estadística  está entre las dos anteriores

330 25,00

280
20,00

230
15,00

180
10,00

130
5,00
80 r=0,1
0,00
30 0,00 20,00 40,00 60,00 80,00
140 150 160 170 180 190 200

Independencia estadística Dependencia Dependencia funcional


estadística

- +
Grado de asociación entre dos variables
Estudio conjunto de dos variables
• A la derecha tenemos los datos obtenido
observando dos variables estadísticas en varios Altur Peso
individuos de una muestra. a en en
cm. Kg.
– En cada fila tenemos los datos de un individuo 162 61

– Cada columna contiene los valores que toma una 154 60


variable sobre los individuos. 180 78

– Las individuos no se muestran en ningún orden 158 62


particular.
171 66
• Podemos representar las observaciones en un 169 60
diagrama de dispersión (‘scatterplot’). En él,
cada individuo es un punto cuyas coordenadas son 166 54
los valores de las variables. 176 84

• En primera instancia, pretendemos reconocer a 163 68


partir del diagrama si hay relación entre las ... ...
variables, de qué tipo y, si es posible predecir el
valor de una de ellas en función de la otra.
Diagramas de dispersión o nube de puntos

Altura y peso de 30 individuos.

100
90
Pesa 76 kg.
80
70

Mide 187 cm.


60
50
Pesa 50 kg.
40
30
140 150 Mide
160 161
170 cm. 180 190 200
Relación entre variables
Altura y peso
de 30 individuos.

l tu ra
la a
100
con
90 enta
au m
80
e s o
70 el p
que
e60
arec 50
P
40
30
140 150 160 170 180 190 200
Relación entre variables
Altura y peso
de 30 individuos.

l tu ra
la a
100
con
90 enta
au m
80
e s o
70 el p
que
e60
arec 50
P
40
30
140 150 160 170 180 190 200
Relación entre variables
Altura y peso • ¿Qué recta explica mejor la relación peso-altura?
de 30 individuos. • mejor...¿en qué sentido?

l tu ra
la a
100
con
90 enta
au m
80
e s o
70 el p
que
e
60
arec 50
P
40
30
140 150 160 170 180 190 200
Covarianza de dos variables X e Y
 La pendiente de la recta de regresión es Sxy/
S2X
 El signo de la covarianza indica si la posible
relación entre dos variables es directa o
inversa.
 Directa: Sxy >0
 Inversa: Sxy <0
 Incorreladas: Sxy =0
Coef. de correlación lineal de
Pearson
 La coeficiente de correlación lineal de
Pearson de dos variables, r, nos indica
si los puntos tienen una tendencia ar  SS S xy

disponerse alineadamente x y

(excluyendo rectas horizontales y


verticales).

 tiene el mismo signo que Sxy por tanto


de su signo obtenemos el que la
posible relación sea directa o inversa.

 r es útil para determinar si hay


relación lineal entre dos variables
Propiedades de r
 Es adimensional
 Sólo toma valores en [-1,1]
 Las variables son incorreladas  r=0
 Relación lineal perfecta entre dos variables  r=+1 o
r=-1
 Excluimos los casos de puntos alineados horiz. o verticalmente.
 Cuanto más cerca esté r de +1 o -1 mejor será el
grado de relación lineal.
 Siempre que no existan observaciones anómalas.

Relació
n Relació
inversa n
perfect Variables
directa
a incorreladas
casi
perfect
a

-1 0 +1
Cómo calcular el coeficiente de
correlación de Pearson
Covarianza

y
Problema
 Se recabaron datos de una muestra de la
inteligencia y del desempeño académico de 10
estudiantes.
 Se desea averiguar si hay relación entre la
inteligencia y el desempeño académico.
 A continuación se muestran los datos
recabados:
Inteligencia Desemp.Acad.
X Y
105 4
116 8
103 2
124 7
137 9
126 9
112 3
129 10
118 7
105 6
Ejemplo 1

 En una empresa a 12 trabajadores se


les preguntó a qué distancia estaba su
casa de la empresa, con la finalidad de
saber si esta variable estaba relacionada
con la producción obtenida. Se
obtuvieron los datos que figuran en la
siguiente tabla:
Ejemplo 1
Ejemplo 1

Se pudo observar en la
gráfica que entre los
trabajadores no afecta el que
esté lejos su casa de la
empresa en donde trabajan
ya que el llegar tarde no
afecta para que haya una
buena producción.
Ejemplo 2.

 Una compañía desea hacer pronósticos del


valor anual de sus ventas totales en todo el
país donde X representa las ventas totales
en la ciudad de México y Y representa las
ventas totales internacionales.
Ejemplo 2
Ejemplo 2

 Lagráfica resultante muestra una


predicción de lo que va a pasar ya
que si el jefe de la empresa se
basó con datos históricos para
poder sacar los pronósticos de las
ventas futuras y observando dicha
gráfica, tenemos un poco de
variación pero con un crecimiento
en las ventas.
Ejemplo 3

 En una empresa que elabora galletas


de 10 productos, se obtuvieron los
siguientes datos de las muestras de
embolsado de los productos. La
finalidad de las muestras es checar la
producción y saber si estaba siendo
llenado de manera adecuada.
Ejemplo 3
Ejemplo 3

 Con ayuda de la gráfica se


puede observar que existe
demasiada variación entre
las muestras que la empresa
tomó y considerando que el
valor de r es negativo,
entonces existe un error y
pocas probabilidades de que
haya una buena producción.
Coeficiente de determinación
 No mide la validez del modelo de
regresión propuesto.
 Sí mide cuanto de la variabilidad se
explica por la ecuación de regresión
estimada.
 En general, se pueden clasificar los
valores de R2 como sigue:
Ejemplos
Regresión lineal simple
RECTA DE REGRESIÓN
Pendiente

yn
yn 1 yˆi
y3
u3 ui
yi
y1 yi
y2

Ordenada
x1 x2 x3 xi xn 1 xn
en el origen

yi  a  bxi  ui ui  yi  yˆi
Error: residuo
RECTA DE REGRESIÓN

Llamemos a “u” residuo, perturbación o error: es la diferencia que hay entre


el valor observado de la variable “y” y el valor que tendría (valor estimado)
si la relación fuera lineal, es decir, través de la recta de regresión

y i  a  bxi
IDEA: hacer MÍNIMA la suma de los CUADRADOS de los residuos.

n n

u  ( yi  yˆi ) 2
2
i  i 
u 2

i 1
 i i
( y
i 1
 ˆ
y ) 2

 n 2 n n
2
min   ui   ( yi  yˆi )    yi   a  bxi   
2

a ,b  i 1 i 1 i 1 
EQUIVALE a buscar los coeficientes de la recta que hacen MÍNIMA la suma de
los CUADRADOS de los residuos.
La recta de regresión de y sobre x es:
S xy S xy
yˆ  y  2
x 2
x
S x S x

Es decir, los valores de los coeficientes son


S xy S xy
ay 2
x b
S x S 2
x

1 n 1 n
Covarianz S xy   ( xk  x )( yk  y )   xk yk  x y
n k 1 n k 1
a
Medida de variables en el SPSS
¿Qué tipo de correlación usar?
 Ordinal + Ordinal: Spearman
 Ordinal + cuantitativa discreta: Spearman
 Ordinal + Cuantitativa continua: Spearman
 Cuantitativa discreta + Cuantitativa discreta:
Spearman
 Cuantitativa continua+cuantitativa continua:

- Pearson ( si la distribución es normal)


- Spearman (si la distribución no es normal)
- Spearman (si son puntos atípicos)
Tablas cruzadas/Análisis de
variables categóricas
 En las investigaciones de mercados y otros trabajos de investigación,
en ocasiones, es importante entregar resultados categorizados, es
decir, agrupados por alguna categoría o variable que sirva para
separar los resultados y dar visiones separadas de estos, como por
ejemplo cuando se entregan resultados separados para mujeres y
hombres.
 Para realizar estas labores SPSS posee una herramienta de análisis
que se llama “Tablas de contingencia”, que consiste en una tabla que
muestra información categorizada de acuerdo a los parámetros que
se hayan definido previamente.
 Para que este tipo de análisis tenga sentido, se necesita al menos de
dos variables: una variable que sirva para categorizar y una variable
que se desee categorizar. Estas variables deben poseer unidades de
medida “Ordinal” o “Nominal”, por lo que utilizar variables con
medida de Escala no tiene mayor sentido y no ofrecería resultados de
los que se pueda extraer mucha información.
 Ejemplo: sexo de estudiantes por carrera.
Pruebas de hipótesis
 En términos generales, las pruebas de hipótesis se
utilizan cuando se quiere determinar, a través de una
muestra, que la totalidad de la población posee una
característica determinada, además de aquellas
ocasiones en que esto no es así.
 La prueba de hipótesis consta de dos afirmaciones: 1.Una
hipótesis del investigador (que se identifica como H1) y
 2.una hipótesis nula (identificada como H0).
 Cada una de estas afirmaciones puede escribir en
términos normales, pero también se debe identificar
como notación matemática.
 Por ejemplo, si deseamos determinar que el promedio de
las edad de las mujeres es menor que el de los hombres,
se deberá expresar de la siguiente manera:
Pruebas de hipótesis
Estadístico p
 Una vez establecidas las hipótesis, es necesario
conocer el método por el cual el investigador escogerá
entre una hipótesis y la otra. Para ello, de manera
general, se utiliza un estadístico llamado “valor p”.
 Este estadístico indica la probabilidad que existe de
rechazar la hipótesis del investigador, cuando esta es
verdadera.
 Por convención, se asume que si esta probabilidad es
más de un 5% (0,05) debemos rechazar la hipótesis
del investigador (H1) en favor de la hipótesis nula
(H0). Entonces:
Pruebas de hipótesis
 Comparar medias/Prueba T para
muestras independientes
 Comparar medias/Prueba T para una
muestra
 Comparar medias/Prueba T para
muestras relacionadas
 Comparar medias/ANOVA de un factor
Prueba T para muestras
independientes
 Compara la media de una única variable para
sujetos de un grupo con la de otro grupo.
Responde a preguntas del tipo: Dadas dos
muestras independientes de datos normales,
¿tienen la misma media?, esto es:
 H0: MediaX (Mujeres) = MediaY
(Hombres)
 Hi: Las mujeres tienen menor actitud
hacia la ciencia que los hombres
Resultados pruebas T.
Muestras independientes

Como p es mayor a .05 no se puede rechazar la hipótesis nula:


No hay diferencias entre la actitud hacia la ciencia entre
hombres y Mujeres.
Prueba T una muestra
 La prueba T de Student para una muestra
compara la media de una única variable respecto a
un valor constante. Ha de verificarse que la variable
que se compare sea Normal.
 La hipótesis a contrastar es:
 H0: Valor muestra=valor referencia. Si el valor
asociado al estadístico es menor que el nivel de
significación del contraste se rechaza la hipótesis
Nula.
 Ho: La actitud hacia la ciencia es = 5.5
 Hi: La actitud hacia la ciencia es <> a 5.5
Pruebas T. Una muestra

Como p es menor a 0.05 se acepta la hipótesis alternativa


Prueba T para muestras
relacionadas
 La prueba T para muestras relacionadas comprueba
si la media de diferencias por casos
entre dos variables difiere de 0. El diseño del estudio para
esta prueba implica medir cada sujeto dos
veces, antes y después de una intervención. Por ejemplo, se
puede realizar un test a alumnos antes
de asistir a un curso y después de haberlo recibido.
Comparando si se ha mejorado con la realización
de dicho curso.
 Ho: La actitud hacia la ciencia es igual o menor para
2016 respecto a 2017
 Hi: La actitud hacia la ciencia es mayor en 2017
Pruebas T muestras
relacionadas

Como p es mayor a 0.05 no se puede rechazar la hipótesis de


nula: la actitud hacia la ciencia en 2017 es igual o menor que la
del 2016.
Anova

ANOVA de un factor/ Análisis


factorial de varianza
ANOVA
Anova

Análisis factorial de varianza


¿Qué sucede entonces, cuando se desea contrastar el
promedio entre más de dos grupos de datos?.
Obviamente, el uso de las técnicas anteriores no logra
cumplir ese cometido, por lo que resulta necesario
utilizar una técnica diferente, que se denomina Análisis
de Varianza (ANOVA, por sus siglas en inglés).

La ANOVA se basa en el análisis de las varianzas de los


grupos de datos presentados y se utiliza comúnmente
para demostrar que el promedio de un grupo de datos
es diferente al de los demás. Por ende la prueba de
hipótesis asociada a esta prueba es las siguiente:
Prueba de hipótesis
 H0 : β0 = β1 = β 2 = β n =0
 H1: β j ≠ 0 para algún j=1,2,...,n
ANOVA
Prueba de hipótesis
 H0 : β0 = β1 = β 2 = β n =0
 H1: β j ≠ 0 para algún j=1,2,...,n

La prueba anterior indica bajo la hipótesis nula, que el


promedio para cada uno de los conjuntos de datos es
igual entre ellos y a su vez es igual a cero, mientras
que la hipótesis del investigador indica que al menos
un promedio es distinto de cero.
ANOVA un factor
 La empresa “OMG” fabrica mesas y sillas, las cuales
son iguales para cada lugar al que distribuyen. De
acuerdo a los reportes de la fuerza de ventas, existe
descontento por parte de los clientes de algunas de las
cuatro localidades a las que se distribuye los
productos.
 Para verificar esta información, la empresa decide
preguntar a sus clientes de las cuatro localidades sobre
el grado de satisfacción del producto. Para ello se les
pide que evalúen el producto con una nota del 1 al 10,
permitiendo usar cifras decimales, donde 1 sería muy
insatisfactorio y 10 sería completamente satisfecho.
Resultados ANOVA de un factor
Ejercicios Pruebas de hipótesis
 Resumen de los tipos de hipótesis nula y
alternativa.
1. H0: μ >= μ0

H1: μ < μ0
2. H0: μ <= μ0
H1: μ > μ0
3. H0: μ = μ0
H1: μ <> μ0
Ejercicios Pruebas de hipótesis
1. El gerente del Hotel Windham afirma que la media de los
cuentas de los huéspedes que pasan un fin de semana en
el hotel es de 4,000 o menos. El contador afirma que
gastan más que eso. Se basa en una muestra de los
clientes de los últimos tres fines de semana.

 Escribe la hipótesis nula y alternativa que sirvan para


probar la afirmación del gerente.
H0: μ < = μ0
H1: μ > μ0

 ¿Qué conclusión es adecuada cuando no se puede


rechazar Ho?
 ¿Qué conclusión es la adecuada cuando sí se puede
rechazar Ho?
Diferencia medias: una sola
muestra
Ejercicios pruebas de hipótesis
2. En una fábrica se deben llenar cajas con detergente hasta un peso promedio de
32 onzas. Se selecciona una muestra de cajas llenas que se pesan para determinar si
están faltas o sobradas de llenado. Si les falta o sobra detergente se debe parar la
línea de producción y ajustar las máquinas para que el llenado sea el correcto.
a) Formula las Ho y H1 que ayuden a decidir si es conveniente parar y ajustar o no
b) Cuál sería la decisión cuando no se puede rechazar Ho?
c) Cuàl sería cuando sí se puede rechazar Ho.

3.El gerente de grupo Premiere quiere implantar un bono para aumentar el volumen
de ventas. En la actualidad, la media es de 14 carros vendidos a la semana. El
gerente quiere hacer una investigación para ver si con el bono aumentan las ventas.
Tiene un plan alterno que compartirá con los vendedores y tomará datos durante un
mes.
d) Formula las Ho y H1 adecuadas para este caso.
e) A que conclusión se llagaría cuando no se pueda rechazar Ho.
f) A qué conclusión se llegaría cuando sí se puede rechazar Ho.

4.Debido a los costos un gerente de producción debe convencer a su jefe que un


nuevo método de fabricación podría reducir los costos. El método actual funciona
con un costo promedio de 2200 pesos por hora. Se hará una investigación donde se
medirá el costo del nuevo método durante un periodo muestra de producción.
g) Define Ho y H1 que sean adecuadas para este estudio
h) Comente qué pasaría cuando no se pueda rechazar Ho.
i) Y cuando sí se pueda rechazar Ho
Ejercicios (continuación)
 Pruebas T de una muestra
1. Se tiene la siguiente prueba de hipótesis:
Ho: μ >= 15
H1: μ < 15
Es una muestra de 40 elementos con una p=0.0869
¿Cuál es la conclusión?

2. Se tiene la siguiente prueba de hipótesis:


Ho: μ <= 15
H1: μ > 15
Suponga que tiene los siguientes valores de P:
P= 0.0344 ¿Conclusión?
P= 0.3264
P= 0.0668
P= 0.0000
Ejercicios (continuación)
 Pruebas T de una muestra
3. Se tiene la siguiente prueba de hipótesis:
Ho: μ = 15
H1: μ <> 15
Es una muestra de 50 elementos con una
p=0.2584 ¿Cuál es la conclusión?

4. Se les pidió a una muestra de 12 pasajeros del


aeropuerto de Culiacán que evaluaran los
servicios del mismo en una escala del 1 al 10.Las
calificaciones fueron: 7,8,10,8,6,9,6,7,7,8,9,8.
Se pide realizar una prueba para ver si la media
de calificación para el aeropuerto es mayor a 7.
Determine la Ho y la H1. ¿Conclusión?
Ejercicios (continuación)
 Pruebas T de una muestra
 5. Un proceso de producción debe llenar recipientes
con una media de 16 onzas. No es deseable que les
falta líquido porque el consumidor no recibirá lo que
dice la etiqueta. Tampoco se desea que se llenen
demasiado para no dar más producto del necesario. El
personal de calidad toma una muestra aleatoria de
ocho recipientes y mide el líquido: 16.02, 16.22, 15.82,
15.92, 16.22, 16.32, 16.12 y 15.92
 Plantea las hipótesis y da la conclusión sobre la
decisión de parar la producción y corregir el proceso
de llenado o continuar.
Ejercicio: dif.medias muestras
independientes
Ho: μ1 – μ2 = 0
H1: μ1 – μ2 <> 0
1. Se planteó un estudio para evaluar las
diferencias en los niveles educativos de dos
universidades que ofrecen la carrera de Ing.
Mecatrónica. La Ho señala que no hay
diferencia en la calidad de la enseñanza de
las dos universidades. Se pide:
Plantear Ho y H1
Decir si hay o no diferencias significativas en la
calidad de la educación en los dos planteles.
Ejercicio: dif.medias muestras
independientes (continuación)
 Los sueldos diarios iniciales para quienes comienzan en las profesiones
de ing. Industrial e ing. Mecatrónico aparecieron en Expansión. A
continuación vemos los sueldos en una muestra de 12 ing. industriales y
14 ing. mecatrónicos. Los datos están en pesos diarios.
 a) Pruebe si hay diferencias entre las medias de los sueldos iniciales en
las dos profesiones ¿Cuál es la conclusión?
 b)¿Qué profesión tiene el mayor sueldo inicial diario?
 Se rechaza Ho/Ing. Indust. $305
Ejercicio: diferencia de medias
muestra relacionadas
 Una empresa manufacturera tiene dos métodos con los que se puede
hacer una tarea de producción. La empresa desea identificar el método
con la menor media de tiempo de terminación por unidad. Se empieza
por suponer que los dos métodos tienen la misma media del tiempo de
terminación.
Ho: μd= 0
H1: μd <> 0
Diseño: Se seleciona uma muestra aleatoria simple de obreros. Cada uno usa
primero un método y después el otro. El orden de los métodos se asigna al
azar a los obreros. Algunos siguen primero el método 1 y otros el método 2.
Cada obrero produce un par de valores, uno para el método 1 y otro para el
método 2.

Esta prueba T prueba los dos métodos con los mismos obreros. Este diseño
conlleva um error muestral menor que el diseño con muestras independientes
ya que elimina la variación entre obreiros como fuente de error muestral.
 Resultados: como p>0.05, no se tienen
elementos para rechazar la Ho. No hay diferencia
significativa entre medias.
Dif. de medias relacionadas
 Para investigar el monto de los ahorros por compra de marcas propias
en comparación con marcas de fábrica, la revista del Consumidor
elaboró una lista de artículos en un supermercado (Ley). Un carrito se
llenó con productos de marcas de fábrica y el otro con productos de
marca propia.
 ¿Hay diferencia en los ahorros si se compran artículos de marca de
fábrica vs marca propia?
Ho: μd= 0
H1: μd <> 0
Ejercicio: diferencia de medias
muestra relacionadas
 Se hizo una investigación de mercados para evaluar el potencial de la
publicidad para la compra de un nuevo producto. Los clientes evaluaron el
potencial de compra en una escala del 1 al 10. La Ho establecía que la
media de la calificación “después” de ver el comercial, sería igual que la de
“antes” El rechazo de la Ho mostraría que el comercial mejoraba el potencial
de compra. Prueba la Ho y comenta el valor del comercial.
Ho: μd= 0
H1: μd <> 0
Ejercicios
ANOVA de un factor
 Se hizo una prueba de esfuerzo cardiaco
después de usar cuatro aparatos diferentes.
 ¿Hay diferencias significativa entre ellas?
Resultados
 ¡Estudien para su examen!

También podría gustarte