Capitulo 5: Analisis Estadistico Iv Sesión 1: Correlación y Regresión II

CAPITULO 5: ANALISIS ESTADISTICO IV
Sesión 1: Correlación y Regresión II

Coeficiente de correlación
Una vez que los diagramas de dispersión se han usado para buscar correlaciones, un coeficiente
de correlación puede usarse para medir la fuerza de cualquier correlación.
El análisis de correlación pone una magnitud cuantificable en la relación gráfica del diagrama de
dispersión.
 Un coeficiente de correlación se usa para medir el grado de asociación linear (correlación) entre
conjuntos de datos continuos.
 El coeficiente de correlación se refiere como “r.”
 El rango posible de “r” es: +1 hasta -1

 r = +1 Relación positiva perfecta
 r= 0 No existe relación linear
 r = -1 Relación negativa perfecta
(mientras el valor de r sea más alto, más fuerte será la correlación)
 El coeficiente de correlación (r):

 Refleja el grado en el que los puntos de datos están agrupados firmemente.
 A veces se le denomina coeficiente de variación de Pearson.
Interpretación del coeficiente de correlación
Ejemplos de diagramas de dispersión y sus coeficientes de correlación asociados:
Indica una fuerte correlación
Tiempo de ciclo de pago

r = - 0.98 positiva, así que el valor r es muy
50 r = +0.06
Velocidad de respuesta
elevado. El r es un número positivo

para representar la inclinación hacia
30 arriba.
Interpretación: mientras haya más
representantes en una central
10 telefónica, mayor será el tiempo de 30
100 110 120 llamada. 100 110 120
N.º de representantes N.º de representantes
50
r = +0.96
Indica una fuerte correlación Indica que no existe correlación,
Tiempo de llamada
negativa, así que el valor r es muy así que el valor de r es muy bajo.
elevado. El r es un número
Interpretación: no existe relación
negativo para representar la
entre la cantidad de
inclinación hacia abajo.
representantes de una central
Interpretación: mientras haya más 10 telefónica y el tiempo de ciclo de
representantes en una central 100 110 120
reclamos.
telefónica disponibles, más rápido No. de recepcionistas
será el tiempo de respuesta.
Interpretación del coeficiente de
correlación
 Antes de poder usar el coeficiente de correlación, se
deberá evaluar el significado estadístico de la
correlación.
 Debido a la naturaleza inconsistente de los datos, es
posible que un diagrama de dispersión sugiera una
correlación entre variables cuando, en realidad, no exista
ninguna.
 Hay un mayor riesgo de que esto ocurra si un r = - 0.98
diagrama de dispersión se basa en una muestra
pequeña
Efecto-y
 Para resolver este problema, se debe revisar el valor-p
correspondiente al coeficiente de correlación
 Así como pasa en la prueba de hipótesis, un valor-p es
generado para un coeficiente de correlación que use
un software estadístico. r = - 0.98
 Si el valor-p es < 0.05, se puede tener un 95% de Valor-p 0.000
seguridad de la existencia de la correlación.
Regresión lineal – Cómo funciona
 El análisis de regresión tiene su propia medida para la
fuerza de la relación. Esta medida es el cuadrado del
coeficiente de correlación, y se le denomina simplemente
como “r-cuadrado” (R-sq).
 R-cuadrado es la medida de cuánta variación en el

resultado del proceso es tomada en cuenta en el modelo.
Otra maneara de verlo, es la medida de qué tan bien la
línea de regresión describe los datos. (Así, mientras más se
acerque al 100%, será mejor).
 Ya que es un valor cuadrado, puede ir desde 0 hasta 1

positivo.
 Se define como la proporción de la variabilidad en Y Y
(el resultado) que se explica por la X ( el aporte y/o el
proceso).
 El proceso de regresión crea una línea que refleja X

mejor la relación entre el proceso o el aporte (X) y el
resultado (Y).
Análisis de la regresión lineal
 La regresión lineal desarrolla un modelo matemático para representar los datos en un
diagrama de dispersión
 Define la relación matemática entre dos variables
 Genera una línea de curva ajustada que cuantifica la relación entre X e Y
 Permite predecir el valor de Y con un valor de X dado Residuales
 La ecuación de la regresión o de la línea es

representada de las siguiente manera:
Línea
y = b0 + b1 “multiplicado por” x 1, donde de curva
ajustada
y = resultado Y
x1 = un aporte
b1 = la inclinación de la línea (se eleva, o cambia
en Y por incremento de unidad en X)
b0 = el valor predicho de y cuando x1 = 0 X1
Regresión lineal – Cómo funciona
 El análisis de regresión tiene su propia medida para la
fuerza de la relación. Esta medida es el cuadrado del
coeficiente de correlación, y se le denomina simplemente
como “r-cuadrado” (R-sq).
 R-cuadrado es la medida de cuánta variación en el

resultado del proceso es tomada en cuenta en el modelo.
Otra maneara de verlo, es la medida de qué tan bien la
línea de regresión describe los datos. (Así, mientras más se
acerque al 100%, será mejor).
 Ya que es un valor cuadrado, puede ir desde 0 hasta 1

positivo.
 Se define como la proporción de la variabilidad en Y Y
(el resultado) que se explica por la X ( el aporte y/o el
proceso).
 El proceso de regresión crea una línea que refleja X

mejor la relación entre el proceso o el aporte (X) y el
resultado (Y).
Interpretación de la regresión lineal
Existen dos valores que se generan a partir del análisis de regresión y que sirven como
indicadores de cómo interpretar los resultados de la regresión:
Valor-p
Valor de R-sq
Interpretación del valor-p:
Hipótesis nula
H0: inclinación = 0 (o sin diferencia en Y cuando X cambia)
Hipótesis alternativa
Ha: inclinación = 0 (o Y cambia cuando X cambia)
Interpretación del valor R-sq:
Representa la cantidad de la variación en el resultado del
proceso que se toma en cuenta en el modelo, de manera
que mientras más se acerque al 100%, se podrá tener más
confianza en los resultados.
Ejemplo de la interpretación de la
Teoría:
regresión lineal
 Un equipo de Lean Six Sigma quería ver si la
cantidad de representantes de centrales
telefónicas afectaba en la velocidad de
respuesta.
Y
Pasos tomados:
 Con sus datos realizaron en primer lugar un
diagrama de dispersión y obtuvieron un valor-r.
 Después, realizaron un análisis de regresión en
un programa de software estadístico para crear X1
una línea de curva ajustada.
N.º de reps. de central telefónica
 Finalmente obtuvieron el valor R-sq y el valor P
Los resultados: Interpretación:
 El número de representantes de la central telefónica afecta
 R-sq = 95.4% considerablemente en la velocidad de respuesta (95.4% de la variación
en la velocidad de respuesta se explica con la cantidad de
 Valor-p = 0.0 representantes).
 Esto es X fundamental (ya que p < 0.05,se rechaza H0, y se determina que
Y cambia cuando X cambia)
Consejos y trampas de la regresión
¡No trate de realizar predicciones más allá del rango de sus datos!
0.055
El rango de los datos termina aquí
0.045
Índice de abandono
0.035
0.025
0.015
0.005
10 20 30
Ejemplo de Correlación
\DataFile\Correlat.mtw
En dos estaciones se realiza la medida del voltaje de la potencia

suministrada.
¿Hay correlación?
Minitab: Stat>basic stat>correlation
Correlación de Estación 1 y Estación 2 = 0.959, P-Value = 0.000
Las dos están fuertemente correlacionadas (0.959)
¿Es razonable ésto?
?
¿Está satisfecho con 0.959?
¿Qué significa ésto para usted?
¿Que apariencia tienen los datos actualmente?
¿Cómo podría ponerlo de manifiesto?
Minitab
Ejemplo de Correlación
\DataFile\Correlat.mtw
En dos estaciones se realiza la medida del voltaje de la potencia

suministrada.
¿Hay correlación?
Minitab: Stat>basic stat>correlation
Correlación de Estación 1 y Estación 2 = 0.959, P-Value = 0.000
Las dos están fuertemente correlacionadas (0.959)
¿Es razonable ésto?
?
¿Está satisfecho con 0.959?
¿Qué significa ésto para usted?
¿Que apariencia tienen los datos actualmente?
¿Cómo podría ponerlo de manifiesto?
Minitab
Ejemplo 1 Continuación
¿En qué difiere este

gráfico del anterior?
Gráfica de línea ajustada
Station 1 = 1.020 + 0.8729 Station 2
9.5 S 0.0557288
¿Qué implicaciones
R-cuad. 92.0%
9.4 R-cuad.(ajustado) 91.5% tiene?
9.3
9.2
Station 1
9.1
¿Qué acción tomaría?
9.0
8.9
8.8
8.7
8.6
8.6 8.8 9.0 9.2 9.4 9.6

Station 2
Minitab
Fitted Line Plot
Station 1 = 1.020 + 0.8729 Station 2
Regression
9.50 95% CI
95% PI
S 0.0557288
9.25 R-Sq 92.0%
R-Sq(adj) 91.5%
Station 1
9.00
8.75
8.50
8.6 8.8 9.0 9.2 9.4 9.6

Station 2
Minitab
Residual Plots for Station 1
Normal Probability Plot Versus Fits
99
0.10
90
0.05
Residual
Percent
50
0.00
10 -0.05
1 -0.10
-0.10 -0.05 0.00 0.05 0.10 8.50 8.75 9.00 9.25 9.50
Residual Fitted Value
Histogram Versus Order

4.8
0.10
3.6
Frequency
0.05
Residual
2.4 0.00
1.2 -0.05
0.0 -0.10
-0.05 0.00 0.05 0.10 2 4 6 8 10 12 14 16 18 20
Residual Observation Order
Minitab
Recogida del Conjunto de Datos
\DataFile\Cases.mtw Para estudiar la resistencia de fundas de joyas, se
hicieron al mismo tiempo, y en cada lote, pequeñas
Número piezas de funda para realizar un test.
Muestra Test Pieza Funda
1 61 52 Para determinar si la pieza de ensayo es capaz de

2 48 67 predecir la resistencia de los lotes, 31 de ellas y
3 50 69
4 66 85
muestras de fundas de joyas fueron elegidas
5 73 88 aleatoriamente.
6 84 70
7 57 84
8 83 78 Usaremos este ejemplo para profundizar un poco más
9 76 90 en la regresión.
10 95 97
11 73 79 Ver los resultados a la izquierda.
12 78 95
Método de los Mínimos Cuadrados
Método de los Mínimos Cuadrados Se utiliza un método
100
denominado “mínimos
cuadrados” para calcular la
}r “línea que mejor ajusta”

90
80 minimizando los residuos r.

Cases (Y)
i
Las distancias verticales
} r1
70
60 r2{ r1, r2, r3, son ejemplos de

residuos, distancia desde
50 el dato observado hasta
40 la línea.
40 50 60 70 80 90 100
Test Piece (X)
¿Los Residuos son positivos,
negativos o cero?
100
}r
90 Un residuo puede ser
positivo, negativo o cero:
Cases (Y)
80
i
70 Positivo: punto encima línea
60 r2{ }r1 Negativo: punto debajo línea
Cero: punto sobre la línea

50
40
40 50 60 70 80 90 100
Test Piece (X)
Residuo, ri =Yi -Yajuste (ó Observado - Predicho)

Análisis con Minitab
Stat>Regression>Fitted Line Plot
Seleccione la variable-Y (Cases) como respuesta.

Seleccione la variable-X (Test Piece) como predictor.
Recogida del Conjunto de Datos
\DataFile\Cases.mtw Para estudiar la resistencia de fundas de joyas, se
hicieron al mismo tiempo, y en cada lote, pequeñas
Número piezas de funda para realizar un test.
Muestra Test Pieza Funda
1 61 52 Para determinar si la pieza de ensayo es capaz de

2 48 67 predecir la resistencia de los lotes, 31 de ellas y
3 50 69
4 66 85
muestras de fundas de joyas fueron elegidas
5 73 88 aleatoriamente.
6 84 70
7 57 84
8 83 78 Usaremos este ejemplo para profundizar un poco más
9 76 90 en la regresión.
10 95 97
11 73 79 Ver los resultados a la izquierda.
12 78 95
Método de los Mínimos Cuadrados Se utiliza un método
100
denominado “mínimos
cuadrados” para calcular la
}r “línea que mejor ajusta”

90
80 minimizando los residuos r.

Cases (Y)
i
Las distancias verticales
} r1
70
60 r2{ r1, r2, r3, son ejemplos de

residuos, distancia desde
50 el dato observado hasta
40 la línea.
40 50 60 70 80 90 100
Test Piece (X)
¿Los Residuos son positivos,
negativos o cero?
100
}r
90 Un residuo puede ser
positivo, negativo o cero:
Cases (Y)
80
i
70 Positivo: punto encima línea
60 r2{ }r1 Negativo: punto debajo línea
Cero: punto sobre la línea

50
40
40 50 60 70 80 90 100
Test Piece (X)
Residuo, ri =Yi -Yajuste (ó Observado - Predicho)

Análisis con Minitab
Stat>Regression>Fitted Line Plot
Seleccione la variable-Y (Cases) como respuesta.

Seleccione la variable-X (Test Piece) como predictor.
Minitab
Análisis de Regresión en Minitab
Los resultados del análisis de regresión se dan por escrito en la ventana
“Session”. Esta es la primera parte de la salida de Minitab.
Regression Analysis
La Ecuación de Regresión es
Cases = 22.47 + 0.755 Test Piece
Coeficiente del término constante = 22.47

Coeficiente del Predictor X = 0.755
Puesto que es una línea de mínimos cuadrados, es imposible encontrar una línea
recta que tenga una suma de cuadrados de los residuos más pequeña.
Análisis con Minitab de “Cases” 1
Esta es la segunda parte de la salida:
Predictor Coef SE Coef T P

Constant 22.47 10.22 2.20 0.036
Test Pie 0.7546 0.1417 5.32 0.000
P < 0.05 generalmente significa que existe una relación real entre el predictor,
X, y la respuesta, Y.
Análisis con Minitab del
Conjunto de Datos
Otra parte de la salida es el Análisis de Varianza (ANOVA):
Análisis de Varianza
Fuente DF SS MS F P
Regresión 1 3757.4 3757.4 28.35 0.000
Error 29 3844.0 132.6
Total 30 7601.4
Análisis con Minitab de “Cases” 3
Unusual Observations
Obs Test Pie Cases Fit StDev Fit Residual St Resid
28 75.0 52.00 79.06 2.16 -27.06 -2.39R
R denotes an observation with a large standardized residual.
La parte final de la salida nos informa acerca de los residuos que son grandes.
Tales observaciones son posibles “outliers”.
La 28ª observación tiene un valor Y = 52

La línea de mejor ajuste predice una Y = 79.06
El residuo de esta observación es 52 - 79.06 = -27.06
¿Qué Confianza tenemos en la predicción?
Stat>Regression>Fitted
Line Plot
Seleccionar
Seleccionar “Fits y
Residuals”
Seleccionar
Intervalos de Confianza
Fitted Line Plot
Cases = 22.47 + 0.7546 Test Piece
120 Regression
95% CI
95% PI
100 S 11.5131
R-Sq 49.4%
R-Sq(adj) 47.7%
80
Cases
Intervalo de Confianza
60 para la línea ajustada
40
Intervalo de confianza
para las predicciónes
20
40 50 60
individuales
70 80 90 100
Test Piece
Worksheet: cases.MTW

Capitulo 5: Analisis Estadistico Iv Sesión 1: Correlación y Regresión II

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo 5: Analisis Estadistico Iv Sesión 1: Correlación y Regresión II

Cargado por

Copyright:

Formatos disponibles

CAPITULO 5: ANALISIS ESTADISTICO IV

Sesión 1: Correlación y Regresión II

 El rango posible de “r” es: +1 hasta -1

 El coeficiente de correlación (r):

Indica una fuerte correlación

Tiempo de ciclo de pago

elevado. El r es un número positivo

 R-cuadrado es la medida de cuánta variación en el

 Ya que es un valor cuadrado, puede ir desde 0 hasta 1

 El proceso de regresión crea una línea que refleja X

 La ecuación de la regresión o de la línea es

 R-cuadrado es la medida de cuánta variación en el

 Ya que es un valor cuadrado, puede ir desde 0 hasta 1

 El proceso de regresión crea una línea que refleja X

En dos estaciones se realiza la medida del voltaje de la potencia

Correlación de Estación 1 y Estación 2 = 0.959, P-Value = 0.000

Las dos están fuertemente correlacionadas (0.959)

¿Es razonable ésto?

En dos estaciones se realiza la medida del voltaje de la potencia

Correlación de Estación 1 y Estación 2 = 0.959, P-Value = 0.000

Las dos están fuertemente correlacionadas (0.959)

¿Es razonable ésto?

¿En qué difiere este

8.6 8.8 9.0 9.2 9.4 9.6

8.6 8.8 9.0 9.2 9.4 9.6

Histogram Versus Order

1 61 52 Para determinar si la pieza de ensayo es capaz de

}r “línea que mejor ajusta”

80 minimizando los residuos r.

60 r2{ r1, r2, r3, son ejemplos de

Cero: punto sobre la línea

Residuo, ri =Yi -Yajuste (ó Observado - Predicho)

Seleccione la variable-Y (Cases) como respuesta.

1 61 52 Para determinar si la pieza de ensayo es capaz de

}r “línea que mejor ajusta”

80 minimizando los residuos r.

60 r2{ r1, r2, r3, son ejemplos de

Cero: punto sobre la línea

Residuo, ri =Yi -Yajuste (ó Observado - Predicho)

Seleccione la variable-Y (Cases) como respuesta.

Coeficiente del término constante = 22.47

Predictor Coef SE Coef T P

R denotes an observation with a large standardized residual.

La 28ª observación tiene un valor Y = 52

También podría gustarte