Está en la página 1de 17

INTRODUCCIN

En la industria con mucha frecuencia es necesario resolver problemas que


implican conjuntos de variables, cuando se sabe que existe alguna relacin inherente
entre ellas. A partir de lo anterior, es necesario establecer modelos que expliquen dicha
relacin.

Cuando, simultneamente, contemplamos dos variables continuas, aunque por


extensin se pueden emplear para variables discretas cuantitativas, surgen preguntas y
problemas especficos. Esencialmente, se emplearn estadsticos

descriptivos

tcnicas de estimacin para contestar esas preguntas, y tcnicas de contraste de


hiptesis especficos para resolver dichos problemas. La mayora de estos mtodos
estn encuadrados en las tcnicas regresin y correlacin

En forma ms especifica el anlisis de correlacin y regresin comprende el


anlisis de los datos muestrales para saber que es y como se relacionan entre si dos o
mas variables en una poblacin. El anlisis de correlacin produce un nmero que
resume el grado de la fuerza de relacin entre dos variables; y el anlisis de regresin
da lugar a una ecuacin matemtica que describe dicha relacin.

La tcnica de regresin lineal simple est indicada cuando se pretende explicar


una variable respuesta cuantitativa en funcin de una variable explicativa cuantitativa
tambin llamada variable independiente, variable regresora o variable predictora. Por
ejemplo, se podra intentar explicar el peso en funcin de la altura. El modelo intentara
aproximar la variable respuesta mediante una funcin lineal de la variable explicativa.

A partir de la presente investigacin, se pretende mostrar la aplicacin prctica de


la regresin y correlacin lineal simple y mltiple en la industria. Ya que la aplicacin de
las tcnicas estadsticas contribuyen a la optimizacin de los procesos.

REGRESIN LINEAL SIMPLE


La finalidad de una ecuacin de regresin es estimar los valores de una variable
con base en los valores conocidos de la otra. Otra forma de emplear una ecuacin de
regresin es para explicar los valores de una variable en trminos de otra. El anlisis de
regresin nicamente indica qu relacin matemtica podra haber, de existir una.
Las suposiciones que se realizan al aplicar las tcnicas de regresin lineal son:
El modelo propuesto es lineal (es decir existe relacin entre la variable explicativa y la
variable explicada, y esta relacin es lineal). Es decir se asume que:
Var respuesta = o + variable explicativa . 1 +
siendo 0 el trmino independiente (constante) 1 el coeficiente de regresin de la
variable explicativa (pendiente) y es una variable aleatoria que se llama error residual.
La variable explicativa se ha medido sin error.
El valor esperado de e del modelo es cero.
La varianza de e (y por lo tanto de la variable respuesta) es constante.
Los son independientes entre s.
Si se desean realizar contrastes de hiptesis sobre los parmetros (coeficientes) o sobre
el modelo, tambin es necesario que la distribucin de sea normal.
Para estudiar la validez del modelo es necesario confirmar estas hiptesis mediante el
estudio de los residuos (valores observados - valores predichos):
normalidad,
tendencias, etc. Cuando no se cumplen los criterios de aplicacin es necesario realizar
transformaciones a las variables, o bien para obtener una relacin lineal o bien para
homogeneizar la varianza.
La regresin lineal simple comprende el intento de desarrollar una lnea recta o
ecuacin matemtica lineal que describa la relacin entre dos variables. La regresin
puede ser utilizada de diversas formas. Se emplean en situaciones en la que las dos
variables miden aproximadamente lo mismo, pero en las que una variable es
relativamente costosa, o por el contrario, es poco interesante trabajar con ella, mientras
que con la otra variable no ocurre lo mismo.
Ecuacin Lineal Simple
Dos caractersticas importantes de una ecuacin lineal:

La independencia de la recta
La localizacin de la recta en algn punto. Una ecuacin lineal tiene la forma:

Forma general de la ecuacin de regresin lineal simple

Y= a + Bx
Donde:
Y se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado
de X.
a es la ordenada de la interseccin con el eje Y, es decir, el valor estimado de Y
cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la recta
de regresin cruza el eje Y, cuando X = 0.
B es la pendiente de la recta, o el cambio promedio en Y por unidad de cambio
(incremento o decremento) en la variable independiente X.
x es cualquier valor seleccionado de la variable independiente.
Con esta expresin se hace referencia al proceso matemtico que sirve para
ajustar una lnea recta a travs de un conjunto de datos bivariables asentados en una
grfica de dispersin. Dicha lnea se conoce como lnea de regresin simple.
El primer paso es recoger datos experimentales correspondientes a n individuos
con informacin de dos variables cuantitativas: una de ellas se considera variable
explicativa (Variable x) y la otra se considera variable respuesta (Variable y). El modelo
que se asume es:
y = o + x 1 +
Los coeficientes o y 1 se estiman por b0 y por b1 a travs del mtodo de
mnimos cuadrados.
Mtodo de mnimos cuadrados
Es el procedimiento mas utilizado por adaptar una recta aun conjunto de punto
se le que conoce como mtodo de mnimos cuadrados. La recta resultante presenta 2
caracterstica importantes:

Es nula la suma de desviaciones verticales en los puntos a partir de la recta


Es mnima la suma de los cuadrados de dichas desviaciones

Para un valor dado de X, por ejemplo, X1, habr una diferencia entre el valor Y1
y el correspondiente valor de la curva C. Esta diferencia se denota por D 1, que se
conoce como desviacin, error o residuo.
Estadstica Aplicada

Estadstica Aplicada

De todas las curvas de aproximacin a una serie de datos puntuales la curva que
tiene la propiedad de que: D21 + D22 + . . . + D2N Se conoce como Mejor curva de
ajuste

X1

X2

XN

La suma de cuadrados de desviacin se le llama suma de cuadrados por falla


(SCF).
(SCF) Esta suma de cuadrados proporciona la medida de que tan bien se ajusta la
lnea al conjunto completo de puntos.
Si la SCF es cero, implica que los puntos caen exactamente sobre la lnea. Por el
contrario entre ms grande es SCF respecto de cero, menor es el ajuste. La recta que
tenga una suma de cuadrados menor para un conjunto de puntos, que cualquier otra
lnea recta es la lnea recta llamada lnea de regresin de los mnimos cuadrados.
Las ecuaciones normales son un conjunto de ecuaciones cuya solucin produce
un valor nico para la pendiente B y la ordenada a asociada con los datos bivariables.
Obtenindose as:
El problema que se plantea es entonces el de cmo calcular las cantidades a y b
a partir de un conjunto de n observaciones:
(X1, Y1)
(X2, Y2)
...
(XN, YN)
De forma que se minimice el error. Las etapas en que se divide el proceso que
se va a desarrollar son de forma esquemtica, las que siguen:
5
Estadstica Aplicada

1. Dadas dos variables X, Y, sobre las que se define:

6
Estadstica Aplicada

Se mide el error que se comete al aproximar Y mediante


calculando la suma de las
diferencias entre los valores reales y los aproximados al cuadrado (para que sean
positivas y no se compensen los errores):

2. Una aproximacin
de Y, se define a partir de dos cantidades a y b. Se va
a calcular aquellas que minimizan la funcin

3. Posteriormente se encontraran las frmulas para el clculo directo de a y b que sirvan


para cualquier problema.

Ordenada al origen

n
i1

yi

i1

xi

n
n

Pendiente de la recta

ni1 xiyi (i1 xi)( i1 yi)


n
n
B

xi)
n i 1

(i1
xi

DIAGRAMA DE DISPERSIN
La correlacin, mtodo por el cual se relacionan dos variables se pude graficar
con un diagrama de dispersin de puntos, a la cual muchos autores le llaman nubes de
puntos, encuadrado dentro de un grfico de coordenadas X Y en la cual se pude trazar
una recta y cuyos puntos mas cercanos de una recta hablaran de una correlacin mas
fuerte, a esta recta se le denomina recta de regresin, que puede ser positiva o
negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente.
Tambin se puede describir un diagrama de dispersin en coordenadas
cartesianas valores, en donde la nube de puntos representa los pares de valores.
Grficos de recta de regresin

Regresin Negativa

Regresin Positiva

Grfico de dispersin

CORRELACION
La correlacin, o el grado de relacin entre las variables, se estudia para
determinar en que medida una ecuacin lineal o de otro tipo describe o explica de una
forma adecuada la relacin entre variables.
El anlisis de correlacin intenta medir la fuerza de las relaciones entre dos
variables por medio de un solo nmero llamado coeficiente de correlacin.
Si todos lo valores de las variables satisfacen exactamente una ecuacin, se dice
que las variables estn correlacionadas perfectamente o que hay una correlacin
perfecta entre ellas.
Cuando se trata de dos variables solamente, se habla de correlacin simple y de
regresin simple. Cuando se trata de ms de dos variables se habla de correlacin
mltiple y de regresin mltiple.

CORRELACION LINEAL SIMPLE


Si X y Y denotan las dos variables que se consideran, un diagrama de
dispersin muestra la localizacin de los puntos (X, Y) en un sistema de coordenadas
rectangulares. Si todos los puntos en este diagrama de dispersin parecen encontrarse
cerca de una recta, como en (a) y (b) de la figura 1, la correlacin se dice lineal. En
tales casos es adecuada una ecuacin lineal.
Si Y tiende a incrementarse cuando se incrementa X, como en (a), la
correlacin se dice positiva o correlacin directa. Si Y tiende a disminuir cuando se
incrementa X, como en (b) la correlacin se dice negativa o correlacin inversa.
Si todos los puntos parecen estar cerca de alguna curva, la correlacin se dice
no lineal y una ecuacin no lineal es la apropiada para la regresin o estimacin. Es
evidente que una correlacin no lineal puede ser a veces positiva y a veces negativa.
Si no hay ninguna relacin entre las variables, como la figura 1(c), se dice que no
hay correlacin entre ellas, es decir, no estn correlacionadas.

X
(a) Correlacin lineal positiva

(b) Correlacin lineal negativa

(c) No hay correlacin

Figura 1

Medidas de correlacin
Una forma de determinar de una manera cualitativa, lo bien que una recta o
curva dada describe la relacin entre variables es la observacin directa del diagrama de
dispersin. Por ejemplo se ve que para los datos de la fig.-1(a) la recta representada
describe mucho mejor la relacin entre X y Y que la de la fig.-1(b) lo hace para los
suyos, debido al hecho de que hay menos dispersin alrededor de la recta de la fig.1(a).
(XN,YN)
DN

Si se trata el problema de la dispersin de los datos muestrales alrededor de


rectas o curvas de una manera cuantitativa, ser necesario definir unas medidas de
(X1,Ycorrelacin.
1)
D1

Error tpico de la estimacin


Si Yest.. representa el valor de Y estimado de la ecuacin de regresin lineal
simple
valores de X dados, una medida de la dispersin alrededor de la recta de
(X2,Ypara
2)
D2 de Y sobre X viene dada por la cantidad:
regresin

s Y.X =

que se llama error tpico de la estimacin de Y sobre X.


Variacin explicada y no explicada

La variacin total de Y se define como:

Y - Y )

es decir, la suma de los cuadrados de las desviaciones de los valores de Y de su media Y


lo cual puede escribirse como:

(Y - Y
N

B
2

Y - Y ) = (Y - Y est.) + (Y est. - Y )

Siendo Yest. el valor de Y estimado de la ecuacin de regresin de la recta de


mnimos cuadrados para valores de X dados: Y= a + Bx
El primer trmino del segundo miembro se llama variacin no explicada, mientras
que el segundo trmino se llama variacin explicada, y esto es as, porque las
desviaciones de Y estimada menos Y media tienen un patrn definido, mientras que
las desviaciones Y menos Y estimada se comportan de una forma aleatoria o no
previsible.
Coeficiente de correlacin
La razn de la variacin explicada a la variacin total se llama coeficiente de
determinacin. Si la variacin explicada es cero, es decir, la variacin total es toda no
explicada, esta razn es cero. Si la variacin no explicada es cero, es decir, la variacin
total es toda explicada, la razn es uno. En los dems casos la razn se encuentra
2
entre cero y uno. Puesto que la razn es siempre no negativa, se denota por r . La
cantidad r se llama coeficiente de correlacin y esta dado por:

r =

est.)2

y vara entre -1 y +1, los signos se utilizan para la correlacin lineal positiva y la
correlacin lineal negativa, respectivamente. Ntese que r es una cantidad sin
dimensiones, es decir, no depende de las unidades empleadas. De esta manera un
valor de r igual a +1 implica una relacin lineal perfecta con una pendiente positiva,
mientras que un valor de r igual a -1 resulta de una relacin lineal perfecta con
pendiente negativa. Se puede decir entonces que las estimaciones muestrales de r
cercanas a la unidad en magnitud implican una buena correlacin o una asociacin
lineal entre X y Y, mientras que valores cercanos a cero indican poca o ninguna
correlacin.
Otra forma de medir el coeficiente de correlacin muestral es:

r=

Ecuaciones similares se obtienen cuando se intercambian X y Y.


10
Estadstica Aplicada

Para el caso de una correlacin lineal la cantidad r es la misma, tanto si es X


como Y considerada como variables independientes. As, pues, r es una medida muy
buena de la correlacin lineal entre dos variables.
Las dos definiciones anteriores de r coeficiente de correlacin son
completamente generales y pueden utilizarse para relaciones no lineales, tanto como
para lineales, las nicas diferencias, son que Yest. Se calcula en aquel caso, a partir de
una ecuacin de regresin no lineal en lugar de una ecuacin de regresin lineal y los
signos se omiten.
2

El coeficiente de determinacin muestral r expresa la proporcin de la variacin


total en los valores de la variable Y que dan razn o se pueden explicar mediante una
relacin lineal con los valores de la variable aleatoria X. De esta manera una correlacin
de 0.6 significa que 0.36, o 36%, de la variacin total de los valores de Y en nuestra
muestra se explican mediante una relacin lineal con los valores de X.
Se debe sealar que en estudios de correlacin, como en problemas de
regresin lineal, los resultados que se obtienen slo tan buenos como el modelo que se
supone. En la tcnica de correlacin de nuestro caso se supone una densidad normal
bivariada para las variables X y Y, con el valor medio de Y en cada valor x linealmente
relacionado con x. Para observar la conveniencia de la suposicin de linealidad, a
menudo es til una graficacin preliminar de los datos experimentales. Un valor del
coeficiente de correlacin muestral cercano a cero resultar de datos que muestren un
efecto estrictamente aleatorio, lo que implica poca o ninguna relacin causal. Es
importante recordar que el coeficiente de correlacin entre dos variables es una medida
de su relacin lineal, y que un valor de r igual con cero implica una falta de linealidad y
no una falta de asociacin. Por ello, si existe una fuerte relacin cuadrtica entre X y Y,
podemos an obtener una correlacin cero que indique una relacin no lineal.

S 2Y.X

S2Y

Estadstica Aplicada

CONCLUSIONES
El anlisis de regresin y correlacin lineal constituyen mtodos que se emplean
para conocer las relaciones y significacin entre series de datos. Lo anterior, es de
suma importancia para la industria ya que es aqu en donde se presentan variables de
respuesta e independientes las cuales interactan para originar las caractersticas de
un proceso en particular y por ende; analizar, predecir valores de la

variable

dependiente y examinar el grado de fuerza con que se relacionan dichas variables.

La regresin lineal simple y la regresin mltiple, analiza la relacin de dos o mas


variables continuas, cuando analiza dos variables a esta se el conoce como variable
bivariantes que pueden corresponder a variables cualitativas. La finalidad de una
ecuacin de regresin es la de estimar los valores de una variable con base en los
valores conocidos de la otra. Del mismo modo, una ecuacin de regresin explica los
valores de una variable en trminos de otra. Es decir, se puede intuir una relacin de
causa y efecto entre dos o ms variables. El anlisis de regresin nicamente indica
qu relacin matemtica podra haber, de existir una.

Por otro lado, Al ajustar un modelo de regresin simple o mltiple a una nube de
observaciones es importante disponer de alguna medida que permita medir la bondad
del ajuste. Esto se consigue con los coeficientes de correlacin. Si el modelo que se
ajusta es un modelo de regresin lineal, a R se le

denomina

coeficiente

de

correlacin y representa el porcentaje de variabilidad de la Y que explica el modelo de


regresin.

Estas tcnicas estadsticas constituyen una herramienta til para el anlisis de


las variables de un proceso ya que a travs de la aplicacin de stas, es posible
conocer el modelo que siguen y la fuerza con que se encuentran

relacionadas.

Asimismo, es posible explicar la relacin que guardan dos o ms causas de un posible


defecto.

22
variacin
(Yest. explicada
- Y)2
variacin total
(Y - Y)2

Estadstica Aplicada

También podría gustarte