Regrcorr PDF

B REGRESIÓN Y CORRELACIÓN LINEAL
ÍNDICE
Índice 1
Introducción 2
Regresión Lineal Simple 3
Método de los mínimos cuadrados 4
Correlación Lineal Simple
Aplicación Práctica
Regresión Lineal Múltiple
Estimación de coeficientes
Correlación Lineal Múltiple
Aplicación Práctica
Conclusiones
Bibliografía
1
Estadística Aplicada
INTRODUCCIÓN
En la industria con mucha frecuencia es necesario resolver problemas que

implican conjuntos de variables, cuando se sabe que existe alguna relación inherente
entre ellas. A partir de lo anterior, es necesario establecer modelos que expliquen dicha
relación.
Cuando, simultáneamente, contemplamos dos variables continuas, aunque por

extensión se pueden emplear para variables discretas cuantitativas, surgen preguntas y
problemas específicos. Esencialmente, se emplearán estadísticos descriptivos y
técnicas de estimación para contestar esas preguntas, y técnicas de contraste de
hipótesis específicos para resolver dichos problemas. La mayoría de estos métodos
están encuadrados en las técnicas regresión y correlación
En forma más especifica el análisis de correlación y regresión comprende el

análisis de los datos muestrales para saber que es y como se relacionan entre si dos o
mas variables en una población. El análisis de correlación produce un número que
resume el grado de la fuerza de relación entre dos variables; y el análisis de regresión
da lugar a una ecuación matemática que describe dicha relación.
La técnica de regresión lineal simple está indicada cuando se pretende explicar

una variable respuesta cuantitativa en función de una variable explicativa cuantitativa
también llamada variable independiente, variable regresora o variable predictora. Por
ejemplo, se podría intentar explicar el peso en función de la altura. El modelo intentaría
aproximar la variable respuesta mediante una función lineal de la variable explicativa.
A partir de la presente investigación, se pretende mostrar la aplicación práctica

de la regresión y correlación lineal simple y múltiple en la industria. Ya que la aplicación
de las técnicas estadísticas contribuyen a la optimización de los procesos.
2
REGRESIÓN LINEAL SIMPLE
La finalidad de una ecuación de regresión es estimar los valores de una variable

con base en los valores conocidos de la otra. Otra forma de emplear una ecuación de
regresión es para explicar los valores de una variable en términos de otra. El análisis de
regresión únicamente indica qué relación matemática podría haber, de existir una.
Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son:
• El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y
la variable explicada, y esta relación es lineal). Es decir se asume que:
Var respuesta = βo + variable explicativa . β 1 + ε
siendo β 0 el término independiente (constante) β 1 el coeficiente de regresión de la

variable explicativa (pendiente) y ε es una variable aleatoria que se llama error residual.
• La variable explicativa se ha medido sin error.

• El valor esperado de e del modelo es cero.
• La varianza de e (y por lo tanto de la variable respuesta) es constante.
• Los ε son independientes entre sí.
• Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o
sobre el modelo, también es necesario que la distribución de ε sea normal.
Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el
estudio de los residuos (valores observados - valores predichos): normalidad,
tendencias, etc. Cuando no se cumplen los criterios de aplicación es necesario realizar
transformaciones a las variables, o bien para obtener una relación lineal o bien para
homogeneizar la varianza.
La regresión lineal simple comprende el intento de desarrollar una línea recta o

ecuación matemática lineal que describa la relación entre dos variables. La regresión
puede ser utilizada de diversas formas. Se emplean en situaciones en la que las dos
variables miden aproximadamente lo mismo, pero en las que una variable es
relativamente costosa, o por el contrario, es poco interesante trabajar con ella, mientras
que con la otra variable no ocurre lo mismo.
Ecuación Lineal Simple
Dos características importantes de una ecuación lineal:
• La independencia de la recta
• La localización de la recta en algún punto. Una ecuación lineal tiene la forma:
3
Forma general de la ecuación de regresión lineal simple
Y´= a + Bx
Donde:
Y´ se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado

de X.
a es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y

cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la recta
de regresión cruza el eje Y, cuando X = 0.
B es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio

(incremento o decremento) en la variable independiente X.
x es cualquier valor seleccionado de la variable independiente.
Con esta expresión se hace referencia al proceso matemático que sirve para
ajustar una línea recta a través de un conjunto de datos bivariables asentados en una
gráfica de dispersión. Dicha línea se conoce como línea de regresión simple.
El primer paso es recoger datos experimentales correspondientes a n individuos

con información de dos variables cuantitativas: una de ellas se considera variable
explicativa (Variable x) y la otra se considera variable respuesta (Variable y). El modelo
que se asume es:
y = βo + x β 1 + ε
Los coeficientes βo y β 1 se estiman por b0 y por b1 a través del método de

mínimos cuadrados.
Método de mínimos cuadrados

Es el procedimiento mas utilizado por adaptar una recta aun conjunto de punto
se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2
característica importantes:
• Es nula la suma de desviaciones verticales en los puntos a partir de la recta

• Es mínima la suma de los cuadrados de dichas desviaciones
Para un valor dado de X, por ejemplo, X1, habrá una diferencia entre el valor Y1
y el correspondiente valor de la curva C. Esta diferencia se denota por D1, que se
conoce como desviación, error o residuo.
4
De todas las curvas de aproximación a una serie de datos puntuales la curva que
tiene la propiedad de que: D21 + D22 + . . . + D2N Se conoce como Mejor curva de
ajuste
(XN,YN)
DN
C
(X1,Y1)
D1
(X2,Y2)
D2
X1 X2 XN
La suma de cuadrados de desviación se le llama suma de cuadrados por falla

(SCF). Esta suma de cuadrados proporciona la medida de que tan bien se ajusta la
línea al conjunto completo de puntos.
Si la SCF es cero, implica que los puntos caen exactamente sobre la línea. Por el
contrario entre más grande es SCF respecto de cero, menor es el ajuste. La recta que
tenga una suma de cuadrados menor para un conjunto de puntos, que cualquier otra
línea recta es la línea recta llamada línea de regresión de los mínimos cuadrados.
Las ecuaciones normales son un conjunto de ecuaciones cuya solución produce

un valor único para la pendiente B y la ordenada a asociada con los datos bivariables.
Obteniéndose así:
El problema que se plantea es entonces el de cómo calcular las cantidades a y b

a partir de un conjunto de n observaciones:
(X1, Y1)
(X2, Y2)
...
(XN, YN)
De forma que se minimice el error. Las etapas en que se divide el proceso que
se va a desarrollar son de forma esquemática, las que siguen:
1. Dadas dos variables X, Y, sobre las que se define:
5
Se mide el error que se comete al aproximar Y mediante calculando la suma de las

diferencias entre los valores reales y los aproximados al cuadrado (para que sean
positivas y no se compensen los errores):
2. Una aproximación de Y, se define a partir de dos cantidades a y b. Se va

a calcular aquellas que minimizan la función
3. Posteriormente se encontraran las fórmulas para el cálculo directo de a y b que

sirvan para cualquier problema.
∑ yi − m∑i =1 xi
n n
Ordenada al origen
a= i =1
n
n∑i =1 xiyi − (∑i =1 xi )(∑i =1 yi )

n n n
B=
n∑i =1 xi − (∑i =1 xi )
Pendiente de la recta n n
6
DIAGRAMA DE DISPERSIÓN
La correlación, método por el cual se relacionan dos variables se pude graficar

con un diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de
puntos, encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar
una recta y cuyos puntos mas cercanos de una recta hablaran de una correlación mas
fuerte, a esta recta se le denomina recta de regresión, que puede ser positiva o
negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente.
También se puede describir un diagrama de dispersión en coordenadas

cartesianas valores, en donde la nube de puntos representa los pares de valores.
Gráficos de recta de regresión
Regresión Negativa Regresión Positiva
Gráfico de dispersión
7
CORRELACION
La correlación, o el grado de relación entre las variables, se estudia para

determinar en que medida una ecuación lineal o de otro tipo describe o explica de una
forma adecuada la relación entre variables.
El análisis de correlación intenta medir la fuerza de las relaciones entre dos

variables por medio de un solo número llamado coeficiente de correlación.
Si todos lo valores de las variables satisfacen exactamente una ecuación, se dice

que las variables están correlacionadas perfectamente o que hay una correlación
perfecta entre ellas.
Cuando se trata de dos variables solamente, se habla de correlación simple y de

regresión simple. Cuando se trata de más de dos variables se habla de correlación
múltiple y de regresión múltiple.
CORRELACION LINEAL SIMPLE
Si “X” y “Y” denotan las dos variables que se consideran, un diagrama de

dispersión muestra la localización de los puntos (X, Y) en un sistema de coordenadas
rectangulares. Si todos los puntos en este diagrama de dispersión parecen encontrarse
cerca de una recta, como en (a) y (b) de la figura 1, la correlación se dice lineal. En
tales casos es adecuada una ecuación lineal.
Si “Y” tiende a incrementarse cuando se incrementa “X”, como en (a), la

correlación se dice positiva o correlación directa. Si “Y” tiende a disminuir cuando se
incrementa “X”, como en (b) la correlación se dice negativa o correlación inversa.
Si todos los puntos parecen estar cerca de alguna curva, la correlación se dice
no lineal y una ecuación no lineal es la apropiada para la regresión o estimación. Es
evidente que una correlación no lineal puede ser a veces positiva y a veces negativa.
Si no hay ninguna relación entre las variables, como la figura 1(c), se dice que no
hay correlación entre ellas, es decir, no están correlacionadas.
8
Y Y Y
X X X
(a) Correlación lineal positiva (b) Correlación lineal negativa (c) No hay correlación
Figura 1
Medidas de correlación
Una forma de determinar de una manera cualitativa, lo bien que una recta o
curva dada describe la relación entre variables es la observación directa del diagrama
de dispersión. Por ejemplo se ve que para los datos de la fig.-1(a) la recta representada
describe mucho mejor la relación entre “X” y “Y” que la de la fig.-1(b) lo hace para los
suyos, debido al hecho de que hay menos dispersión alrededor de la recta de la fig.1(a).
Si se trata el problema de la dispersión de los datos muestrales alrededor de

rectas o curvas de una manera cuantitativa, será necesario definir unas medidas de
correlación.
Error típico de la estimación
Si Yest.. representa el valor de Y estimado de la ecuación de regresión lineal

simple para valores de X dados, una medida de la dispersión alrededor de la recta de
regresión de Y sobre X viene dada por la cantidad:
2
Σ(Y - Y est. )
s Y.X =
N
que se llama error típico de la estimación de Y sobre X.
Variación explicada y no explicada
Y - Y )2
La variación total de Y se define como: Σ(
es decir, la suma de los cuadrados de las desviaciones de los valores de Y de su media Y
lo cual puede escribirse como:
9
2 2 2
Σ(Y - Y ) = Σ(Y - Y est. ) + Σ(Y est. - Y )
Siendo Yest. el valor de Y estimado de la ecuación de regresión de la recta de

mínimos cuadrados para valores de X dados: Y´= a + Bx
El primer término del segundo miembro se llama variación no explicada, mientras

que el segundo término se llama variación explicada, y esto es así, porque las
desviaciones de “Y estimada” menos “Y media” tienen un patrón definido, mientras que
las desviaciones “Y” menos “Y estimada” se comportan de una forma aleatoria o no
previsible.
Coeficiente de correlación
La razón de la variación explicada a la variación total se llama coeficiente de

determinación. Si la variación explicada es cero, es decir, la variación total es toda no
explicada, esta razón es cero. Si la variación no explicada es cero, es decir, la variación
total es toda explicada, la razón es uno. En los demás casos la razón se encuentra
entre cero y uno. Puesto que la razón es siempre no negativa, se denota por r2. La
cantidad r se llama coeficiente de correlación y esta dado por:
variación explicada Σ(Yest. - Y)

2
r =± =±
variación total Σ(Y - Y)
2
y varía entre -1 y +1, los signos ± se utilizan para la correlación lineal positiva y la
correlación lineal negativa, respectivamente. Nótese que r es una cantidad sin
dimensiones, es decir, no depende de las unidades empleadas. De esta manera un
valor de r igual a +1 implica una relación lineal perfecta con una pendiente positiva,
mientras que un valor de r igual a -1 resulta de una relación lineal perfecta con
pendiente negativa. Se puede decir entonces que las estimaciones muestrales de r
cercanas a la unidad en magnitud implican una buena correlación o una asociación
lineal entre X y Y, mientras que valores cercanos a cero indican poca o ninguna
correlación.
Otra forma de medir el coeficiente de correlación muestral es:
S2Y .X
r = 1-
S 2Y
Ecuaciones similares se obtienen cuando se intercambian X y Y.
10
Para el caso de una correlación lineal la cantidad r es la misma, tanto si es X

como Y considerada como variables independientes. Así, pues, r es una medida muy
buena de la correlación lineal entre dos variables.
Las dos definiciones anteriores de r “coeficiente de correlación” son

completamente generales y pueden utilizarse para relaciones no lineales, tanto como
para lineales, las únicas diferencias, son que Yest. Se calcula en aquel caso, a partir de
una ecuación de regresión no lineal en lugar de una ecuación de regresión lineal y los
signos ± se omiten.
El coeficiente de determinación muestral r2 expresa la proporción de la variación

total en los valores de la variable Y que dan razón o se pueden explicar mediante una
relación lineal con los valores de la variable aleatoria X. De esta manera una correlación
de 0.6 significa que 0.36, o 36%, de la variación total de los valores de Y en nuestra
muestra se explican mediante una relación lineal con los valores de X.
Se debe señalar que en estudios de correlación, como en problemas de

regresión lineal, los resultados que se obtienen sólo tan buenos como el modelo que se
supone. En la técnica de correlación de nuestro caso se supone una densidad normal
bivariada para las variables X y Y, con el valor medio de Y en cada valor x linealmente
relacionado con x. Para observar la conveniencia de la suposición de linealidad, a
menudo es útil una graficación preliminar de los datos experimentales. Un valor del
coeficiente de correlación muestral cercano a cero resultará de datos que muestren un
efecto estrictamente aleatorio, lo que implica poca o ninguna relación causal. Es
importante recordar que el coeficiente de correlación entre dos variables es una medida
de su relación lineal, y que un valor de r igual con cero implica una falta de linealidad y
no una falta de asociación. Por ello, si existe una fuerte relación cuadrática entre X y Y,
podemos aún obtener una correlación cero que indique una relación no lineal.
11
APLICACIÓN PRÁCTICA
En la industria de las Artes Gráficas es importante el tiempo de secado una vez

que el impreso sale de la prensa Offset, ya que de la rapidez de lo anterior dependerá
la agilización del proceso posterior y la eliminación de cuellos de botella innecesarios.
Durante el mes de Julio de 2005; en la empresa Surtidora Gráfica S.A. de C.V.,

se desarrollo un muestreo a partir de un impreso estándar en PMS con un área de
impresión gráfica aproximada del 75%, ya que generalmente este impreso responde al
formato común a producir. El objetivo de dicho estudio, fue determinar la relación
existente entre gramaje y tiempo de secado.
Conocimiento Teórico.-
El mecanismo de secado de la tinta se refiere a la forma en que la tinta impresa

húmeda se transforma en película permanente sobre la superficie de impresión.
Especificaciones del proceso Offset:
Máquina.- Speed Master CD (5 colores)

Proveedor Papel.- Pochteca (Couche Brillante)
Proveedor Tinta.- Sun Chemical
Ganancia de Punto.- 72%
Solución de la fuente:
PH.- 3.0-4.5Conductividad.- 800-1200 microhms
Temperatura.- 120oC
Tiempo de Tiempo de Tiempo de

Medida Gramaje Secado Medida Gramaje Secado Medida Gramaje Secado
(Min) (Min) (Min)
57X87 90 130 61x90 90 140 70X95 90 180

57X87 100 110 61X90 100 120 70X95 100 120
57X87 115 150 61X90 115 150 70X95 115 180
57X87 135 180 61X90 135 145 70X95 135 210
58X88 150 168 61X90 150 180 70X95 150 200
58X88 200 240 61X90 200 280 70X95 200 260
58X88 250 200 61X90 250 250 70X95 250 289
58X89 300 260 61X90 300 280 70X95 300 320
12
DIAGRAMA DE DISPERSIÓN
350
y = 0.7447x + 72.842
300
250
Tiempo de secado
200
150
100
50
0
0 50 100 150 200 250 300
Gramaje
A partir del software Statgraphics es posible definir el modelo y la correlación

correspondiente de la relación entre gramaje y tiempo de secado.
Regression Analysis - Linear model: Y = a + b*X
Parameter
Estímate Error P-Value
Intercept 72.8425 15.6932 0.0001
Slope 0.744722 0.0862982 0.0000
Dependent variable: Tiempo

Independen variable: Gramaje Correlation Coefficient = 0.878607
R-squared = 77.1951 %Standard
Error of Est. = 29.9319
Análisis de Resultados
A continuación se muestran los resultados apropiados del modelo lineal que se

describe:
a) La ecuación del modelo establece la relación entre el Tiempo de secado y el

gramaje
Tiempo = 72.8425 + 0.744722*Gramaje
b) La r-cuadrada indica estadísticamente al modelo como apto para explicar con

77.1951% la variabilidad en relación al gramaje.
13
c) El coeficiente de correlación igual a 0.878607 indica una relación moderadamente

fuerte entre las variables.
d) El error estándar de la estimación muestra la desviación estándar de 29.9319. Este

valor puede ser usado para construir límites de predicción en nuevas observaciones
para elaborar pronósticos.
e) El p-value muestra que efectivamente no se rechaza la hipótesis del modelo que

explica la relación moderadamente fuerte del tiempo de secado con el gramaje.
Software Statgraphic
Fig. 1 Pantalla Central del Software

Statgraphic.
Fig. 2 Pantalla en la que se

muestran los cálculos obtenidos a
partir del software.
14
REGRESIÓN LINEAL MÚLTIPLE
En la mayor parte de los problemas que se generan en la industria en que se

aplica el análisis de regresión, se requiere más de una variable independiente en el
modelo de regresión. La complejidad de la mayoría de los mecanismos científicos es tal
que, con objeto de estar en condiciones de pronosticar una respuesta, se necesita un
modelo de regresión múltiple..
La regresión múltiple comprende tres o más variables. Existe solo una variable
dependiente, pero hay dos o más de tipo independiente. En esta operación se
desarrolla una ecuación la cual se puede utilizar para predecir valore de y, respecto a
valores dados de la diferencia de variables independientes adicionales a través de
incrementar la capacidad predicativa sobre la de la regresión lineal simple.
Aunque hay muchos problemas en los cuales una variable puede predecirse con
bastante exactitud en términos de otra, parece razonable que las predicciones deban
mejorar si adicionalmente se considera información relevante.
Estimación de los coeficientes por el método de mínimos cuadrados
En el caso de la regresión múltiple la ecuación se amplía y puede tener más

variables independientes adicionales. Esto puede ampliarse a cualquier número (k) de
variables independientes, siendo la ecuación general de regresión múltiple:
Forma general de la ecuación de regresión lineal múltiple
Y1= a + B1 x1i + B2 x2i + . . . + Bk xki + ε i
Donde:
X1, Xk son las variables independientes.
a es la intersección con el eje Y. Es la ordenada del punto de intersección con el

eje Y.
B1 es la variación neta en Y por cada unidad de variación en X1 manteniendo X2

constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta,
o simplemente coeficiente de regresión.
Bk es el cambio neto en Y para cada cambio unitario en Xk manteniendo X1 constante.

También se le conoce como coeficiente de regresión parcial, coeficiente de regresión
neta, o simplemente coeficiente de regresión.
15
Se pueden aplicar técnicas de mínimos cuadrados similares para estimar los

coeficientes cuando los modelos lineales involucran potencias y productos de las
variables independientes.
nbo+b1 ∑i =1 X 1i +b2 ∑i =1 X 2i + . . . + bk ∑i =1 Xki = ∑

n n n n
i =1
Yi
∑ X 1i +b1 ∑i =1 X 1i +b2 ∑i =1 X 2i + . . . + bk ∑i =1 X 1 XK = ∑
n n n n n
bo i =1 i =1
XiYi
∑ XKi +b1 ∑i =1 XKi X 1i +b2 ∑i =1 Xki X 2i + . . . + bk ∑i =1 X 2 Ki = ∑

n n n n n
bo i =1 i =1
XkiYi
La solución de este conjunto de ecuaciones de las estimaciones únicas produce

los coeficientes b0, b1, b2,...bk.
Regresión lineal matricial
Al ajustar un modelo de regresión lineal múltiple, en particular cuando el número

de variables excede de 2, el conocimiento de la teoría matricial puede facilitar las
manipulaciones matemáticas. Supóngase que el experimentador tiene k variables
independientes X1, X2 . . ., XK, y n observaciones y1, y2 . . ., y yn, cada una de las
cuales se puede expresar por la ecuación:
Y1= a + B1 x1i + B2 x2i + . . . + Bk xki + ⌡i
Este modelo representa n ecuaciones que describen cómo se generan los

valores de respuesta. Con la notación matricial, se pueden escribir las ecuaciones.
β 0
 y1  1X 11 X 21... Xk1  β 1 
 y 2 1X 12 X 22... Xk 2   
     β 2
 
.  .  β = . 
y=  X = 
.  .  . 
.  .   
    . 
 yn  1X 1nX 2 n... Xkn   βk 
 
Dada la complejidad de las matrices, de acuerdo al número de variables

independientes, es conveniente resolverlas a través de un software.
16
CORRELACION MULTIPLE
El grado de relación existente entre tres o más variables se llama correlación

múltiple. Los principios fundamentales implicados en los problemas de correlación
múltiple son análogos a los de la correlación simple tratada con anterioridad.
Como se observó en la parte de regresión lineal múltiple, existe una ecuación de

regresión para estimar una variable dependiente, a partir de variables independientes.
También, como observamos en la parte de regresión lineal múltiple,

análogamente a como existen las rectas de regresión de mínimos cuadrados de
aproximación a una serie de N datos puntuales (X, Y) en un diagrama de dispersión de
dos dimensiones, existen los planos de regresión de mínimos cuadrados que se ajustan
a una serie de N datos puntuales (X1, X2, X3) en un diagrama de dispersión de tres
dimensiones.
La base del cálculo de la correlación múltiple se basa en la teoría de la regresión

múltiple, ya sea por mínimos cuadrados o matricialmente, de acuerdo a nuestra parte
de regresión lineal múltiple.
Planos de regresión y coeficientes de correlación
Vamos a suponer una ecuación de regresión para el caso de tres variables,

como a continuación se indica:
X1 = b1.23 + b12.3 X2 + b 13.2 X3
Esta ecuación se llama ecuación de regresión lineal de X1 sobre X2 y X3; con b1.23,
b12.3, y b13.2 los coeficientes de regresión parcial de acuerdo a la teoría de regresión
múltiple. Como observamos, tenemos una variable dependiente X1 y dos variables
independientes X2 y X3.
Tomando como referencia esta ecuación, si los coeficientes de correlación lineal

entre las variables X1 y X2, X1 y X3, X2 y X3 se calculan como en la parte de correlación
lineal simple y se denotan, respectivamente, por r12, r13, r23 (también llamados
coeficientes de correlación de orden cero), el plano de regresión de mínimos cuadrados
tiene la ecuación:
x1 r12 - r13r23 x2 r13 - r12r23 x3

= +
s1 1 - r223 s2 1 - r223 s3
donde:
x 1 = X1 - X1, x2 = X2 - X2, x 3 = X3 - X3, y s 1, s2 y s3 son las desviaciones típicas de X1, X2 y X3,
respectivamente
17
Error típico de la estimación
Tomando como base la teoría de la regresión lineal simple como una

generalización de esta definimos al error de la siguiente manera:
2
Σ(X 1 - X 1 est. )
s 1.23 =
N
donde X1 est. Indica los valores de X1 estimados en la recta de regresión.
En términos de los coeficientes de correlación r12, r13, y r23, el error típico de la

estimación puede calculares por medio de:
1 - r 212 + r 213 - r223 + 2r 12r 13r 23

s 1.23 =
1 - r 223
Coeficiente de correlación múltiple
Por analogía con la teoría de correlación simple, el coeficiente de correlación

múltiple queda defino por una extensión de la ecuación del coeficiente en correlación
simple. En el caso, por ejemplo, de dos variables independientes, el coeficiente de
correlación múltiple esta dado por:
s 21.23
R 1.23 = 1-
s 21
Donde s1 es la desviación típica de la variable X1 y s1.23 se calcula de acuerdo a la

fórmula vista en la parte de error típico de la estimación. La cantidad R21.23 se llama
coeficiente de determinación múltiple.
Cuando se utiliza una ecuación de regresión lineal, el coeficiente de correlación

múltiple se llama coeficiente de correlación múltiple lineal. A menos que se especifique
de otro modo, siempre que se refiera a correlación múltiple se tratará de correlación
múltiple lineal.
En términos de r12, r13, y r23, la ecuación anterior puede escribirse como:
r 212 + r 213 - 2r 12r 13r 23

R 1.23 =
1 - r 223
18
Un coeficiente de correlación múltiple, tal como R1.23, se encuentra entre 0 y 1.

Cuanto más se acerque a 1 mejor es la relación lineal entre las variables. Cuanto más
cerca se encuentra de cero la relación lineal es peor. Si el coeficiente de correlación
múltiples 1, la correlación se dice perfecta. Aunque un coeficiente de correlación con
valor 0 indica que no existe relación lineal entre las variables, es posible que exista
entre ellas una relación no lineal.
19
APLICACIÓN PRÁCTICA
En la empresa Surtidora Gráfica S.A. de C.V. Se desea saber si se relacionan las

variables de lineatura de trama de PMS con la ganancia de punto, cómo se relacionan y
el grado en el que las variables se relacionan. Para tal efecto se realizo un estudio del
impreso “Carta Bienvenida Bancomer” impreso en selección de color en papel couche
de 120 grs. La máquina Offset proporciona las medidas de lineatura por pulgada,
mientras que el densitómetro es empleado para determinar la ganancia de punto
correspondiente.
En una corrida de 1000T/L se realizo a cabo el siguiente estudio con un n= 20

impresos
L IN E A S P O R P U L G A D A
G a n a n c ia d e
L in e a tu r a s L in e a tu r a s L in e a tu r a s L in e a tu ra s
p u n to Y 1
N eg ro X 1 M a g e n ta X 2 C yan X3 Y e llo w X 4
%
75 85 90 95 7 .5
90 89 128 150 25
90 85 89 96 7 .5
165 135 140 150 30
100 95 120 100 25
125 165 185 100 30
128 150 140 110 25
100 125 200 160 30
110 130 210 210 30
115 125 128 130 25
120 190 200 169 30
180 160 190 200 30
250 189 220 200 40
140 200 250 280 42
280 250 200 240 43
300 320 290 260 45
350 290 280 290 49
300 320 350 300 50
320 350 360 320 50
310 350 320 310 50
Conocimiento Teórico.-
La definición de ganancia de punto trata del incremento en los valores tonales del punto
de trama (es decir, la superficie relativa que ocupa en la trama) que experimenta en los
diversos procesos gráficos por los que atraviesa
20
A partir del software Statgraphics es posible definir el modelo y la correlación

correspondiente de la relación entre gramaje y tiempo de secado.
Regression Analysis - Linear model: Y = a + b1*X1 + b2*X2+ b3*X3 + b4*X4
Parameter
Estímate Error P-Value
CONSTANT 3.711982 3.06246 0.2433
Negro 0.0510435 0.0341314 0.1555
Magenta -0.0224212 0.0518854 0.6718
Cyan 0.0870096 0.0503742 0.1046
Yellow 0.0343141 0.0404302 0.4094
Correlation Coefficient = 0.94403

R-squared = 89.1202 %
Dependent variable: Ganancia Punto
Independen variable: Lineatura de trama
Error of Est. = 4.74695
Análisis de Resultados
A continuación se muestran los resultados apropiados del modelo lineal que se

describe:
La ecuación del modelo establece la relación entre la ganancia de punto y las lineaturas
de trama del PMS.
Ganancia Punto =3.71982+0.0510435*Negro – 0.0224212*Magenta + 0.870096*Cyan

+ 0.0343141*Yellow
b) La r-cuadrada indica estadísticamente al modelo como apto para explicar con

89.1202 % la variabilidad en relación al gramaje.
c) El coeficiente de correlación igual a 0.94403 indica una relación fuerte entre las
variables.
d) El error estándar de la estimación muestra la desviación estándar de 4.74695. Este

valor puede ser usado para construir límites de predicción en nuevos experimentos. Se
observa que el margen de error es reducido.
e) El p-value muestra que efectivamente no se rechaza la hipótesis del modelo que

explica la relación fuerte de la lineatura del tramado de selección de color con la
ganancia de punto. A partir de lo anterior, el color magenta tiene un p-value lo cual
significa que este color representa de manera efectiva la correlación existente.
21
CONCLUSIONES
El análisis de regresión y correlación lineal constituyen métodos que se emplean

para conocer las relaciones y significación entre series de datos. Lo anterior, es de
suma importancia para la industria ya que es aquí en donde se presentan variables de
respuesta e independientes las cuales interactúan para originar las características de
un proceso en particular y por ende; analizar, predecir valores de la variable
dependiente y examinar el grado de fuerza con que se relacionan dichas variables.
La regresión lineal simple y la regresión múltiple, analiza la relación de dos o mas

variables continuas, cuando analiza dos variables a esta se el conoce como variable
bivariantes que pueden corresponder a variables cualitativas. La finalidad de una
ecuación de regresión es la de estimar los valores de una variable con base en los
valores conocidos de la otra. Del mismo modo, una ecuación de regresión explica los
valores de una variable en términos de otra. Es decir, se puede intuir una relación de
causa y efecto entre dos o más variables. El análisis de regresión únicamente indica
qué relación matemática podría haber, de existir una.
Por otro lado, Al ajustar un modelo de regresión simple o múltiple a una nube de
observaciones es importante disponer de alguna medida que permita medir la bondad
del ajuste. Esto se consigue con los coeficientes de correlación. Si el modelo que se
ajusta es un modelo de regresión lineal, a R se le denomina coeficiente de
correlación y representa el porcentaje de variabilidad de la Y que explica el modelo de
regresión.
Estas técnicas estadísticas constituyen una herramienta útil para el análisis de

las variables de un proceso ya que a través de la aplicación de éstas, es posible
conocer el modelo que siguen y la fuerza con que se encuentran relacionadas.
Asimismo, es posible explicar la relación que guardan dos o más causas de un posible
defecto.
22
BIBLIOGRAFÍA
1. Ronald E. Walpole y Raymond H Myers. PROBABILIDAD Y ESTADÍSTICA, Sexta

Edición. 1998.
2. William Mendenhall y Dennos D. Wackerly. ESTADÍSTICA MATEMÁTICA CON

APLICACIONES, Segunda Edición. 1994 Editorial Iberoamericana.
3. Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2005), CONTROL ESTADÍSTICO DE

CALIDAD Y SEIS SIGMA, Primera Edición. 2005 Editorial McGraw-Hill, México.
4. Gutiérrez-Pulido, H. y De la Vara Salazar, R. (2003), DISEÑO Y ANÁLISIS DE

EXPERIMENTOS, McGraw-Hill, México.
23

Regrcorr PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regrcorr PDF

Cargado por

Copyright:

Formatos disponibles

B REGRESIÓN Y CORRELACIÓN LINEAL

Regresión Lineal Simple 3

Método de los mínimos cuadrados 4

Correlación Lineal Simple

Regresión Lineal Múltiple

Correlación Lineal Múltiple

En la industria con mucha frecuencia es necesario resolver problemas que

Cuando, simultáneamente, contemplamos dos variables continuas, aunque por

En forma más especifica el análisis de correlación y regresión comprende el

La técnica de regresión lineal simple está indicada cuando se pretende explicar

A partir de la presente investigación, se pretende mostrar la aplicación práctica

REGRESIÓN LINEAL SIMPLE

La finalidad de una ecuación de regresión es estimar los valores de una variable

Var respuesta = βo + variable explicativa . β 1 + ε

siendo β 0 el término independiente (constante) β 1 el coeficiente de regresión de la

• La variable explicativa se ha medido sin error.

La regresión lineal simple comprende el intento de desarrollar una línea recta o

Ecuación Lineal Simple

Dos características importantes de una ecuación lineal:

Forma general de la ecuación de regresión lineal simple

Y´ se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado

a es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y

B es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio

x es cualquier valor seleccionado de la variable independiente.

El primer paso es recoger datos experimentales correspondientes a n individuos

Los coeficientes βo y β 1 se estiman por b0 y por b1 a través del método de

Método de mínimos cuadrados

• Es nula la suma de desviaciones verticales en los puntos a partir de la recta

La suma de cuadrados de desviación se le llama suma de cuadrados por falla

Las ecuaciones normales son un conjunto de ecuaciones cuya solución produce

El problema que se plantea es entonces el de cómo calcular las cantidades a y b

1. Dadas dos variables X, Y, sobre las que se define:

Se mide el error que se comete al aproximar Y mediante calculando la suma de las

2. Una aproximación de Y, se define a partir de dos cantidades a y b. Se va

3. Posteriormente se encontraran las fórmulas para el cálculo directo de a y b que

n∑i =1 xiyi − (∑i =1 xi )(∑i =1 yi )

La correlación, método por el cual se relacionan dos variables se pude graficar

También se puede describir un diagrama de dispersión en coordenadas

Gráficos de recta de regresión

Regresión Negativa Regresión Positiva

La correlación, o el grado de relación entre las variables, se estudia para

El análisis de correlación intenta medir la fuerza de las relaciones entre dos

Si todos lo valores de las variables satisfacen exactamente una ecuación, se dice

Cuando se trata de dos variables solamente, se habla de correlación simple y de

CORRELACION LINEAL SIMPLE

Si “X” y “Y” denotan las dos variables que se consideran, un diagrama de

Si “Y” tiende a incrementarse cuando se incrementa “X”, como en (a), la

Si se trata el problema de la dispersión de los datos muestrales alrededor de

Error típico de la estimación

Si Yest.. representa el valor de Y estimado de la ecuación de regresión lineal

que se llama error típico de la estimación de Y sobre X.

Variación explicada y no explicada

Siendo Yest. el valor de Y estimado de la ecuación de regresión de la recta de

El primer término del segundo miembro se llama variación no explicada, mientras

La razón de la variación explicada a la variación total se llama coeficiente de

variación explicada Σ(Yest. - Y)

Otra forma de medir el coeficiente de correlación muestral es:

Ecuaciones similares se obtienen cuando se intercambian X y Y.

Para el caso de una correlación lineal la cantidad r es la misma, tanto si es X

Las dos definiciones anteriores de r “coeficiente de correlación” son

El coeficiente de determinación muestral r2 expresa la proporción de la variación

Se debe señalar que en estudios de correlación, como en problemas de

En la industria de las Artes Gráficas es importante el tiempo de secado una vez

Regression Analysis - Linear model: Y = a + b1X1 + b2X2+ b3X3 + b4X4

Ganancia Punto =3.71982+0.0510435Negro – 0.0224212Magenta + 0.870096*Cyan