Está en la página 1de 14

ANALISIS CORRELACIONAL Y REGRESION SIMPLE

 Fundamentación teórica
La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian
la relación lineal existente entre dos variables.

La correlación cuantifica como de relacionadas están dos variables, mientras que la


regresión lineal consiste en generar una ecuación (modelo) que, basándose en la
relación existente entre ambas variables, permita predecir el valor de una a partir de la
otra. El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a X e Y, mide únicamente la relación entre ambas sin
considerar dependencias. En el caso de la regresión lineal, el modelo varía según qué
variable se considere dependiente de la otra (lo cual no implica causa-efecto.

Por norma general, los estudios de correlación lineal preceden a la generación de


modelos de regresión lineal. Primero se analiza si ambas variables están correlacionadas
y, en caso de estarlo, se procede a generar el modelo de regresión.

 Coeficiente de correlación

El Coeficiente de correlación es una medida que permite conocer el grado de asociación


lineal entre dos variables cuantitativas (X, Y).

Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos
variables, es decir, si se representan en un diagrama de dispersión los valores que toman
dos variables, el coeficiente de correlación lineal señalará lo bien o lo mal que el
conjunto de puntos representados se aproxima a una recta.

De otra forma, la podemos definir como el número que mide el grado de intensidad y el
sentido de la relación entre dos variables.

El coeficiente de correlación de Pearson viene definido por la siguiente expresión:


Ejemplo:

Tengamos las siguientes puntuaciones en las variables X (inteligencia) e Y(rendimiento


académico):

Calcular el coeficiente de correlación de Pearson:

a) en puntuaciones directas,

b) Puntuaciones diferenciales y

c) puntuaciones estandarizadas
 Coeficiente de determinación

El coeficiente de determinación r 2 o coeficiente de correlación múltiple al cuadrado,


es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo
datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el
cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:

El coeficiente de determinación, se define como la proporción de la varianza total de la


variable explicada por la regresión. El coeficiente de determinación, también llamado R
cuadrado, refleja la bondad del ajuste de un modelo a la variable que pretender explicar.

Es importante saber que el resultado del coeficiente de determinación oscila entre 0 y 1.


Cuanto más cerca de 1 se sitúe su valor, mayor será el ajuste del modelo a la variable
que estamos intentando explicar. De forma inversa, cuanto más cerca de cero, menos
ajustado estará el modelo y, por tanto, menos fiable será.
Ejemplo

Cómo podemos ver en el gráfico, la relación es positiva. A más partidos jugados, como
es lógico, más goles anota en la temporada. El ajuste, según el cálculo del R cuadrado,
es de 0.835. Lo cual quiere decir que es un modelo cuyas estimaciones se ajustan
bastante bien a la variable real. Aunque técnicamente no sería correcto, podríamos decir
algo así como que el modelo explica en un 83.5% a la variable real.

 Prueba de significancia del coeficiente de correlación

La prueba de significación del coeficiente de correlación de Pearson puede plantearse:

Bilateral (a doble cola) si se contrasta la hipótesis nula de ausencia de asociación lineal


sin especificar de antemano en la hipótesis alternativa la dirección o sentido de la
asociación, en caso de que ésta exista.

Unilateral (a una sola cola) si se contrasta la hipótesis nula especificando de antemano


en la hipótesis alternativa la dirección de la asociación. Si se desea un contraste
unilateral es necesario activar la opción correspondiente.

Valor p ≤ α: La correlación es estadísticamente significativa

Si el valor p es menor que o igual al nivel de significancia, entonces usted puede


concluir que la correlación es diferente de 0.
Valor p > α: La correlación no es estadísticamente significativa

Si el valor p es mayor que el nivel de significancia, entonces usted no puede concluir


que la correlación es diferente de 0.

 Ecuación de regresión

La ecuación de regresión es una representación algebraica de la línea de regresión.


Ingrese el valor de cada predictor en la ecuación para calcular el valor de respuesta
medio. A diferencia de la regresión lineal, una ecuación de regresión no lineal puede
tomar muchas formas diferentes.

Ejemplo

Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44


kilos.

1 Hallar la ecuación de la recta de regresión de la edad sobre el peso.

2 ¿Cuál sería el peso aproximado de un niño de seis años?


2, si x= 6 años

 Error estándar de estimación

El error estándar es una estimación de cuánto varía el valor de una estadística de prueba
de muestra a muestra. Es una medida de la incertidumbre de la estadística de prueba. El
error estándar podría abreviarse como error Es.

El error estándar se calcula tomando la desviación estándar de la distribución de


muestreo para la estadística de prueba. La distribución de muestreo es la distribución de
todas las muestras posibles.

El error estándar de estimación se calcula mediante la siguiente fórmula:

Ejemplo

Tomamos una ecuación de la recta de regresión de y sobre x:

y = 0.2854x + 2.7388
Para calcular el error de estimación, construimos la tabla auxiliar:

Por tanto, debemos hacer las sustituciones necesarias:

 Intervalos de confianza e intervalos de predicción

Intervalos de confianza

Se construyen intervalos de confianza para los parámetros poblacionales. Supongamos


que tenemos una muestra aleatoria X = {X1, . . . , Xn} de una población F(x|θ), con θ
fijo pero desconocido. Un intervalo de confianza 100(1 − α)% para θ está formado por
dos estadísticos L(X) y U(X) tales que

P (L(X) ≤ θ ≤ U(X)) ≥ 1 – α
Intervalos de predicción

Se construyen intervalos de confianza para variables aleatorias. Supongamos que


tenemos una muestra aleatoria X de una población F(x|θ) y se quiere predecir el valor
de una nueva observación Xnew a partir de la información de la muestra observada.
Formalmente Xnew ⊥ X por lo que toda la información sobre Xnew se obtiene del
hecho que viene de un población F(x|θ). Como θ es desconocido, es encontrar dos
estadísticos, funciones de X cuya distribución no dependa de los parámetros
desconocidos. Un intervalo de confianza está formado por dos estadísticos Lp(X) y
Up(X) tales que

P (Lp(X) ≤ Xnew ≤ Up(X)) ≥ 1 – α

APLICACION ESTADISTICA EN LA PRODUCTIVIDAD

 Diagrama de control para la proporción y el número de elementos que no se


ajustan

Un gráfico de control es una herramienta utilizada para distinguir las variaciones


debidas a causas asignables o especiales a partir de las variaciones aleatorias inherentes
al proceso. Las variaciones aleatorias se repiten casualmente dentro de los límites
predecibles.

Las variaciones debidas a causas asignables o especiales indican que es necesario


identificar, investigar y poner bajo control algunos factores que afectan al proceso.

La construcción de gráficos de control está basada en la estadística matemática. Los


gráficos de control emplean datos de operación para establecer límites dentro de los
cuales se espera hacer observaciones futuras, si el proceso demuestra no haber sido
afectado por causas asignables o especiales.

Ejemplo
Procedimiento para hacer un gráfico de control

Seleccionar la característica objeto de análisis en el gráfico de control.

Seleccionar el tipo apropiado de gráfico de control.

Decidir el subgrupo (una pequeña recopilación de artículos, en el marco de los cuales


las variaciones se deben probable y únicamente al azar), sus dimensiones, y la
frecuencia de muestreo del subgrupo.

Recolectar y registrar datos sobre 20 ó 25 subgrupos por lo menos, o utilizar datos


registrados previamente.

Calcular estadísticamente las características de cada muestra del subgrupo.

Calcular los límites de control sobre la base de las estadísticas de las muestras de
subgrupos.

Construir un gráfico y plotear las estadísticas del subgrupo.


Examinar el ploteo por si hay puntos fuera de los límites de control y patrones que
indiquen la presencia de causas asignables o especiales.

Decidir las acciones a tomar en el futuro.

 Diagrama de control: un diagrama de control para el numero de ocurrencias


por unidad

Consideremos el caso en el cual cada elemento de la muestra puede tener un número de


diferentes defectos. La variable de interés es el número de defectos por unidad.

Utilizaremos la siguiente notación:

c = Número de defectos en una muestra de producto.

cbarra= El promedio de una serie de conteos de defectos c de varias muestras.

cprima= El valor estándar o verdadero valor promedio de defectos por muestra.

Se inspeccionan todas las unidades de la muestra, se registran el número de defectos c.

Para la aplicación del gráfico de control c, suponemos que lo siguiente se cumple:

La probabilidad de que ocurra un defecto es, p, un valor muy pequeño. Además de que
los defectos ocurren en forma independiente, es decir, el que ocurra un defecto no
afecta la probabilidad de que ocurran los siguientes defectos.

Las muestras tienen las mismas áreas de oportunidad para los defectos, es decir, las
piezas deben ser del mismo tipo y tamaño. Esto es, no considerar piezas de diferente
tamaño, unas demasiado grandes y otras demasiado pequeñas. No considerar números
variables n de tamaño de muestra.

El número de defectos es bastante mayor al parámetro c.

Todos los defectos están bien definidos.


 Diagrama de control para la media y el intervalo R

Supongamos que la característica de la calidad estudiada, X, se distribuye según una

Normal con parámetros µ y σ. Es bien conocido que, para una muestra de tamaño n, la

Media muestral X¯ se distribuye según una Normal con parámetros µ yσ(n)1/2

.En el caso en el que µ y σ sean parámetros conocidos, los límites del grafico de control

Vienen dados por

Cuando los parámetros poblaciones son desconocidos, se estiman a partir de m


muestras piloto como sigue:

 Diagrama de control para valores individuales

Los gráficos de control son un método eficaz para decidir si un proceso está
estadísticamente bajo control o no. Disponemos de una variedad de diferentes gráficos
de control que se pueden utilizar para alcanzar diferentes objetivos.
La herramienta de gráficos individuales permite utilizar los siguientes tipos de gráficos
solos o en combinación:

X Individual

Rango móvil (MR moving range)

Un gráfico X individual es útil para el seguimiento de la media móvil de un proceso de


producción. Los mean shifts resultan fácilmente visibles en los diagramas.

Un gráfico MR (diagrama de rango móvil, moving range diagram) es útil para analizar
la variabilidad de la producción. Las grandes diferencias en la producción, provocadas
por el uso de diferentes líneas de producción, serán fácilmente visibles.

Nota 1. Si lo que quiere es investigar cambios más pequeños en la media (mean shifts),
puede utilizar también tablas individuales tipo CUSUM, que normalmente se emplean
más que las tablas de control individuales, ya que permiten detectar mejor este tipo de
cambios.

Nota 2: Si usted tiene más de una medición para cada punto de tiempo, por favor utilice
los gráficos de control para los subgrupos.

Nota 3: Si tiene mediciones en valores cualitativos (por ejemplo de acuerdo, en


desacuerdo, conforme, no conforme), utilice los gráficos de control para atributos.

Además de los gráficos de control, están disponibles funciones conectadas:

Transformación de Box-Cox

Capacidad de procesamiento

Pruebas de normalidad
Las gráficas de control de x individuales pueden construirse para observaciones
individuales provenientes de una línea de producción, estas graficas es utilizan
principalmente cuando las muestras de tamaño mayor a 1 resulten ser demasiado
costosas, inconvenientes o demasiado caras. También son utilizadas cuando la
producción es demasiado baja por lo que es más conveniente utilizar esta grafica de
control para datos individuales o de rangos móviles.