Está en la página 1de 16

DIAGRAMA DE DISPERCION

El diagrama de dispersión permite estudiar las relaciones entre dos conjuntos


asociados de datos que aparecen en pares (por ejemplo, (x,y), uno de cada
conjunto). El diagrama muestra estos pares como una nube de puntos.

Las relaciones entre los conjuntos asociados de datos se infieren a partir de la forma
de las nubes.

 Una relación positiva entre x y y significa que los valores crecientes de x


están asociados con los valores crecientes de y.
 Una relación negativa significa que los valores crecientes de x están
asociados con los valores decrecientes de y.
COEFICIENTE DE CORRELACION

La correlación, también conocida como coeficiente de correlación lineal (de


Pearson), es una medida de regresión que pretende cuantificar el grado de variación
conjunta entre dos variables.

Por tanto, es una medida estadística que cuantifica la dependencia lineal entre dos
variables, es decir, si se representan en un diagrama de dispersión los valores que
toman dos variables, el coeficiente de correlación lineal señalará lo bien o lo mal que
el conjunto de puntos representados se aproxima a una recta.

De una forma menos coloquial, la podemos definir como el número que mide el grado
de intensidad y el sentido de la relación entre dos variables.

Siendo:

Cov (x;y): la covarianza entre el valor «x» e «y».

σ(x): desviación típica de «x».

σ(y): desviación típica de «y»


ECUACION DE REGRESION

La ecuación de la recta de regresión permite pronosticar la puntuación que alcanzará


cada sujeto en una variable Y conociendo su puntuación en otra variable X. A la
variable Y se le denomina criterio y a la variable X predictor.

Sin embargo, raramente la nube de puntos que representa la relación entre dos
variables X e Y adopta la forma de una línea recta perfecta. En el caso en que exista
una relación alta entre las variables, la nube de puntos tiende a parecerse a una recta.
Sólo en el caso de rxy=1 la nube de puntos se ajusta perfectamente a la línea recta.

Teniendo esto en cuenta, la recta de regresión es la línea recta que mejor se ajusta a
la nube de puntos para dos variables X e Y, es decir, la que permitiría minimizar el
error medio cometido al hacer los pronósticos como si la nube de puntos tuviera una
forma lineal.

Por ejemplo: Consideremos un grupo de 4 personas para las que conocemos sus
puntuaciones en determinadas variables X e Y, según se muestra en las dos primeras
columnas de la siguiente tabla:

X Y Y´ Y´-Y (Y´-Y)2
5 3 2 -1 1

6 2 4 2 4

7 4 6 2 4

8 5 8 3 9

A partir de estos valores, y suponiendo que existe una relación lineal entre X e Y,
podemos tratar de pronosticar el valor que alcanzará en la variable Y un sujeto,
conociendo su puntuación en la variable X.

Supongamos que la relación existente entre ambas variables viene determinada por
la recta Y = 2X-8. Para comprobar si esta recta permite realizar un buen pronóstico,
comprobaremos si los valores que toma Y para los cuatro sujetos (según la recta)
coinciden con los que efectivamente hemos observado. Denominamos Y´ a las
puntuaciones pronosticadas usando la recta Y = 2X-8.

Así observamos que la puntuación pronosticada para el primer sujeto es de 2,


mientras que la puntuación real obtenida por dicho sujeto ha sido de 3. Se ha cometido
un error en la predicción, que viene determinado por (Y´-Y) (a menudo interesa que
el error no aparezca negativo, es decir, nos da igual que sea por exceso o por defecto;
una forma de evitar el signo es considerando las diferencias al cuadrado).

La diferencia entre las puntuaciones pronosticadas y las observadas en los sujetos se


aprecian en la figura 3, que representa el diagrama de dispersión y la ecuación de la
recta utilizada para predecir los valores Y´.

Figura 3: Diagrama de dispersión y predicción de la recta Y=2X+8

Como hemos podido comprobar, la recta no estima demasiado bien los valores de Y´.
Nuestro interés se centrará en encontrar la recta que permita llevar a cabo una
estimación de los valores de Y´ con el menor error posible. Esa recta es la que
denominaremos recta de regresión de Y sobre X.

El criterio que ha de satisfacer esta recta, es que la suma de los errores cuadráticos

( [D]) en la predicción de Y a partir de X sea mínima.

La recta de regresión vendrá determinada por una ecuación del tipo: Y´= A+BX.
El valor de las constantes A y B puede ser hallado a partir del cálculo diferencial.
Presentamos en el siguiente cuadro los valores de A y B en el caso de que trabajemos
con puntuaciones directas, diferenciales y típicas, y pretendamos calcular las
constantes correspondientes a la recta de regresión de Y sobre X.

ECUACIÓN DE LA RECTA
DE REGRESIÓN DE Y
SOBRE X
Puntuaciones Directas Puntuaciones Puntuaciones Típicas
Diferenciales
Y´=A+BX y´=A+Bx

A= -B A=0
A=0

B= rxy
PRONOSTICO EN REGRESION LINEAL

Dentro de los modelos causales o asociativos encontramos el análisis de regresión o


regresión lineal, que es un método con enfoque cuantitativo que nos permite
pronosticar la demanda. Agrupa una variable dependiente (la demanda) con una o
más variables independientes a través de una ecuación lineal.

El objetivo del análisis de regresión como método causal es pronosticar la demanda


a partir de una o más causas (variables independientes), las cuales pueden ser por
ejemplo el tiempo, precios del producto o servicio, precios de la competencia,
economía del país, acciones del gobierno o fomentos publicitarios.

Algunos apuntes importantes sobre éste método son:

 Puedes calcular series de tiempo y relaciones causales. En el primer caso,


ubicas la demanda histórica de tu bien o servicio para que cambie en función
del tiempo. El segundo caso es cuando la variable que pronosticas cambia en
función de otra (variable causal).
 Lineal significa que los datos del periodo anterior y la proyección para el
periodo futuro que vas a obtener caen sobre una recta.
 Si hablamos de una sola variable independiente, es una regresión lineal simple,
contrario a si son dos o más variables independientes, donde hablaríamos de
regresión lineal múltiple.

El análisis de regresión es pertinente cuando se evidencia una tendencia en los datos


históricos del pronóstico. ¿Cómo? Dibuja los datos de meses anteriores, los de la
demanda real. Si lo estás haciendo en Excel 2010 o superior, da clic derecho sobre
la serie de datos graficados y luego clic en agregar línea de tendencia. Si no,
simplemente analiza la tendencia de los datos, ¿es creciente o decreciente?

¿Cómo es la relación entre la demanda y el tiempo? Para responder esta pregunta,


haremos uso del coeficiente de correlación (r).

Este coeficiente, te permitirá entender qué tanta correlación existe entre la demanda
y el tiempo.
 Correlación perfecta: Cuando el resultado de coeficiente es igual a 1 o -1. En
este caso existe una relación directamente proporcional entre la demanda y el
tiempo.
 Correlación fuerte: Cuando el resultado es mayor a 0.5 y menor que 1
(correlación positiva) o menor a -0.5 y mayor que -1(correlación negativa).
 Correlación débil: Valores que están entre -0.5 y 0.5.

Entre más cercano se encuentre el coeficiente de correlación a +1 o -1 más fuerte


será la tendencia y más apropiado será aplicar un modelo de regresión lineal. Por
ejemplo, si la correlación es igual a 1, observaremos que la relación entre las variables
es directamente proporcional, en el sentido que, si uno aumenta, la otra también lo
hará.
EXPERIMENTO

Al hablar de experimentos se hace de la manera más amplia posible, es decir, no sólo


incluyen hechos asociados a situaciones experimentales en un laboratorio, sino
también se contemplan cualesquiera otras situaciones que den origen a sucesos de
interés.

Experimentos determinísticos: también llamados exactos, los cuales se caracterizan


porque cada vez que se realizan bajo condiciones similares, producen el mismo
resultado. Estos fenómenos no son de interés para la Estadística.

Experimento Aleatorio: Es cualquier acción o proceso que no se tiene certeza de su


resultado final, hasta tanto no se ejecute. Este tipo de experimento debe satisfacer
con los siguientes requerimientos:

-Puede repetirse un número ilimitado de veces bajo las mismas condiciones.

- Es posible conocer por adelantado todos los posibles resultados a que puede dar
origen.

- No puede predecirse con exactitud un resultado en una realización particular del


experimento.
FUENTES DE VARIANZA

El análisis de varianza es una técnica que se puede utilizar para decidir si las medias
de dos o más poblaciones son iguales. La prueba se basa en una muestra única,
obtenida a partir de cada población. El análisis de varianza puede servir para
determinar si las diferencias entre las medias muéstrales revelan las verdaderas
diferencias entre los valores medios de cada una de las poblaciones, o si las
diferencias entre los valores medios de la muestra son más indicativas de una
variabilidad de muestreo.

Si el valor estadístico de prueba (análisis de varianza) nos impulsa a aceptar la


hipótesis nula, se concluiría que las diferencias observadas entre las medias de las
muestras se deben a la variación casual en el muestreo (y por tanto, que los valores
medios de población son iguales). Si se rechaza la hipótesis nula, se concluiría que
las diferencias entre los valores medios de la muestra son demasiado grandes como
para deberse únicamente a la casualidad (y por ello, no todas las medias de población
son iguales).

Los datos para el análisis de varianza se obtienen tomando una muestra de cada
población y calculando la media muestral y la variancia en el caso de cada muestra.

Supuestos:

Existen tres supuestos básicos que se deben satisfacer antes de que se pueda utilizar
el análisis de variancia.

1) Las muestras deben ser de tipo aleatorio independiente.

2) Las muestras deben ser obtenidas a partir de poblaciones normales.

3) Las poblaciones deben tener variancias iguales


Procedimiento para calcular una varianza muestral

El análisis de varianza, como su nombre lo indica, comprende el cálculo de varianzas.


La varianza de una muestra es el promedio de las desviaciones elevadas al cuadrado
de la media del grupo. Simbólicamente, esto se representa de la siguiente manera:

varianza de la muestra= s2=xi-x2n-1

Cabe observar que se debe utilizar n - 1, ya que se está trabajando con datos
muéstrales. De ahí que, para obtener la varianza muestral, el procedimiento sea el
siguiente:

1) Calcular la media muestral

2) Restar la media de cada valor de la muestra.

3) Elevar al cuadrado cada una de las diferencias.

4) Sumar las diferencias elevadas al cuadrado.

5) Dividir entre n - 1
Estimación interna de varianza

Aunque parezca extraño un examen de las varianzas puede revelar si todas las
medias de la población son iguales o no. El análisis de varianza utiliza dos métodos
un poco diferentes para estimar las varianzas de la población (iguales). Si las dos
estimaciones son aproximadamente iguales, esto tiende a confirmar H0; si una de las
dos estimaciones es mucho mayor que la otra, esto tiende a confirmar H1. Si la
hipótesis nula es verdadera, entonces las muestras se habrán obtenido de
poblaciones con medias iguales. Y como se supone que todas las poblaciones son
normales y poseen variancias iguales, cuando H0 es verdadera se presenta una
situación conceptualmente idéntica a otra en la que todas las muestras hayan sido
tomadas realmente a partir de una población única. Si H0 es falsa, entonces las
muestras provendrán de poblaciones que no presentan todas la misma media, sin
embargo, cabe observar que, aún en ese caso, se debe suponer que las poblaciones
son normales y tienen variancias iguales.

Una forma de calcular la varianza poblacional es sacar el promedio de las varianzas


de las muestras. Es evidente que se podrá utilizar cualquiera de las varianzas
muéstrales, pero el promedio de todas ellas por lo general proporcionará la mejor
estimación debido al mayor número de observaciones que representa. Como cada
varianza muestral sólo refleja la variación dentro de una muestra en particular, la
estimación de la varianza basada en el promedio de las varianzas muéstrales se llama
estimación interna de variancia. La estimación interna de variancia se calcula de la
siguiente manera: sw2=s12+s22+s32+...………sk2k

Donde:

s12 = variancia de variancia de una muestra

s22 = variancia de variancia de dos muestras

s32 = variancia de variancia de tres muestras

sk2 = variancia de variancia de k muestras

k = número de muestras
Estimación intermediante de varianza

Como se supone que las varianzas de la población son iguales, independientemente


de si las medias lo son o no, la estimación interna de varianza no se altera por la
verdad o falsedad de H0. Por tanto, no se puede utilizar por sí misma para determinar
si las medias de la población podrían ser iguales. No obstante, sirve como una norma
de comparación respecto a la cual puede evaluarse una segunda estimación llamada
estimación intermediante de varianza. Esta segunda estimación es sensible a
diferencias entre las medias de población.

La estimación interna de varianza sirve como una norma respecto a la cual se puede
comparar la estimación intermediante de varianza.

La estimación de varianza entre muestras determina una estimación de las varianzas


iguales de la población de una forma indirecta a través de una distribución de
muestreo de medias. Recuérdese que si H0, es verdadera, esto equivale a tomar
todas las muestras de la misma población normal. Además, por el Teorema del Límite
Central, se sabe que la distribución de muestreo de medias, obtenida de una
población normal, estará distribuida normalmente, y que la desviación estándar de la
distribución de muestreo (raíz cuadrada de su varianza) está directamente
relacionada con el tamaño de la desviación estándar de la población (raíz cuadrada
de la varianza de la población). Es decir,
SUMA DE CUADRADOS

Suma de los cuadrados en ANOVA

En el análisis de varianza (ANOVA), la suma total de los cuadrados ayuda a expresar


la variación total que se puede atribuir a diferentes factores. Por ejemplo, usted hace
un experimento para probar la efectividad de tres detergentes para ropa.

La suma total de los cuadrados = suma de los cuadrados del tratamiento (SST) +
suma de los cuadrados del error residual (SSE)

La suma de los cuadrados del tratamiento es la variación atribuida a, o en este caso


entre, los detergentes para ropa. La suma de los cuadrados del error residual es la
variación atribuida al error.

El convertir la suma de los cuadrados en cuadrados medios al dividir entre los grados
de libertad le permitirá comparar estas relaciones y determinar si existe una diferencia
significativa debido al detergente. Mientras mayor sea esta relación, más afectarán
los tratamientos el resultado.

Suma de los cuadrados en regresión

En la regresión, la suma total de los cuadrados ayuda a expresar la variación total de


las Y. Por ejemplo, usted recoge datos para determinar un modelo que explique las
ventas generales en función de su presupuesto de publicidad.

La suma total de los cuadrados = suma de los cuadrados de la regresión (SSR) +


suma de los cuadrados del error residual (SSE)

La suma de los cuadrados de la regresión es la variación atribuida a la relación entre


las X y las Y o, en este caso, entre el presupuesto de publicidad y las ventas. La suma
de los cuadrados del error residual es la variación atribuida al error.
Al comparar la suma de los cuadrados de la regresión con la suma total de los
cuadrados, se determina la proporción de la variación total que es explicada por el
modelo de regresión (R2, el coeficiente de determinación). Mientras más grande sea
este valor, mejor será la relación que explique las ventas en función del presupuesto
de publicidad.
ESTADISTICO DE PRUEBA

Un estadístico de prueba es una variable aleatoria que se calcula a partir de datos de


muestra y se utiliza en una prueba de hipótesis. Puede utilizar los estadísticos de
prueba para determinar si puede rechazar la hipótesis nula. El estadístico de prueba
compara sus datos con lo que se espera bajo la hipótesis nula. El estadístico de
prueba se utiliza para calcular el valor p.

Un estadístico de prueba mide el grado de concordancia entre una muestra de datos


y la hipótesis nula. Su valor observado cambia aleatoriamente de una muestra
aleatoria a una muestra diferente. Un estadístico de prueba contiene información
acerca de los datos que es relevante para decidir si se puede rechazar la hipótesis
nula. La distribución del muestreo del estadístico de prueba bajo la hipótesis nula se
denomina distribución nula. Cuando los datos muestran evidencia clara en contra de
los supuestos de la hipótesis nula, la magnitud del estadístico de prueba se vuelve
demasiado grande o demasiado pequeña dependiendo de la hipótesis alternativa.
Esto hace que el valor p de la prueba se vuelva lo suficientemente pequeño como
para rechazar la hipótesis nula.

Por ejemplo, el estadístico de prueba para una prueba Z es el estadístico Z, que sigue
la distribución normal estándar bajo la hipótesis nula. Supongamos que usted realiza
una prueba Z de dos colas con un nivel de significancia (α) de 0.05 y un obtiene un
estadístico Z (también denominado valor Z) de 2.5 basado en sus datos. Este valor Z
corresponde a un valor p de 0.0124. Puesto que este valor p es menor que α, usted
declara significancia estadística y rechaza la hipótesis nula.

Las diferentes pruebas de hipótesis utilizan diferentes estadísticos de prueba según


el modelo de probabilidad asumido en la hipótesis nula. Las pruebas comunes y sus
respectivos estadísticos de prueba incluyen:

Prueba de hipótesis Estadístico de prueba

Prueba Z Estadístico Z

Pruebas t Estadístico t

ANOVA Estadístico F

También podría gustarte