Está en la página 1de 31

Análisis de varianza.

Definición.
Recordemos.

Medida de Dispersión de
Variancia datos con respecto a la media.

Poblacional
La media aritmética de las

Muestral desviaciones cuadráticas con


respecto a la media.

ANOVA
ANOVA.

Sirve para comparar si los valores de un conjunto de datos


numéricos, son significativamente distintos a los valores de otro o
más conjuntos de datos.

Lo vamos a entender mejor cuando veamos sus aplicaciones.


Conceptos Fundamentales.

² Ѕ² Variancia Poblacional y Muestral

Η₀ Hipótesis Nula: Afirmación acerca del valor de un


parámetro
poblacional.

Η₁ Hipótesis Alternativa: Afirmación que se aceptará si los


datos
muéstrales proporcionan amplia evidencia de que las
hipótesis
nula es amplia.

F Distribución F (Fisher): Se emplea como estadístico de


prueba para problemas anova, sus características se verán en su
momento.
Grados de Libertad: Número de elementos en una muestra que puede
variar.

Nivel de Significancia Probabilidad de rechazar la hipótesis nula


cuando
es verdadera

Población Normal: Cantidad de datos numéricos que se distribuyen de


acuerdo
a una distribución normal.

Veamos solo 3 de las muchas aplicaciones del ANOVA.


1. Líneas o Trenes de envasado o llenado.

2. Rutas o tiempos de recorrido.


Ruta 1
100 min.

Hotel Tiempo medio de Aeropuerto


recorrido

Ruta 2
105 min.
Nivel de significancia de 0.10
3. Ventas. Determinar si las ventas de una empresa que vende Shampoo
para
cabello.

Seco Normal Grasoso

Meses
1 ____ ____ ____
2 ____ ____ ____
3 ____ ____ ____

Son iguales
Análisis de Varianza de 1 Vía o Factor.
Definición:
Es una metodología para analizar la variación entre muestras y la variación al
interior de las mismas mediante la determinación de variancias.
Es llamado de un criterio o una vía; porque analiza una variable independiente o
factor . Ejem: velocidad, precio, capacidad, etc.

Ejemplo. Prueba de Hipótesis.


La compañía de TAXI SEGURO, ofrece un servicio de transporte desde el CCB
al AICMBJ, está considerando 2 rutas. Una la P-25 y la otra CI-75. Desea
hacer un estudio para ambas vías y después comparar los resultados.
Registraron los siguientes datos de muestra. Si se utiliza el nivel de
significancia de 0.10, ¿existe una diferencia en la variación de las dos rutas?

Desviación
Tiempo medio estándar Tamaño de
Ruta (minutos) (minutos) Muestra.

P-25 56 12 7
CI-75 58 5 8
Consideraciones:
1. Los tiempos son similares, pero hay + variación en la ruta P-25.
2. La ruta CI-75 es más larga en kilómetros.
3. Es necesario obtener una ruta consistente, sobre todo en tiempo, además
que ayude a la conservación de las unidades.

Por lo que se decide realizar una prueba estadística para determinar si en


realidad existe diferencia en la variación de las dos rutas.

Se usará el procedimiento usual de 5 pasos para pruebas de hipótesis.

1. Se plantea la hipótesis nula y alternativa.

Η₀ : σ₁² = σ₂²
La prueba es de dos colas, ya que se busca la
diferencia en la variación de las dos rutas.
Η₁ : σ₁²  σ₂²

2. Se selecciona el nivel de significancia de 0.10.


3. El valor estadístico de prueba adecuado es Ѕ₁²/Ѕ₂² que sigue la
distribución F
cuando H₀ es verdadera.

4. Se utiliza la tabla F con 0.05%.

a) Al ser una prueba de 2 colas el nivel de significancia es de 0.05.


∞ = 0.10 = 0.05
2 2
b) Hay n₁ - 1 = 7 – 1 = 6 grados de libertad en el numerador.
n₂ - 1 = 8 – 1 = 7 grados de libertad en el denominador.

Utilizando la Tabla se obtiene


GL GL
denominador Numerador
6
7 3.87

VALOR CRITICO

Regla de Decisión: Si la razón de las variancias muestrales Ѕ₁²/Ѕ₂² es


mayor que 3.87, se rechaza la hipótesis nula.
5. Efectuar operaciones: Determinar el valor estadístico de prueba.

Prueba para F = S₁² = 12² = 5.76


Variancias Iguales S₂² 5²

La hipótesis nula se rechaza y se acepta la alternativa.

Se concluye que existe una diferencia en la variación del tiempo de viaje


por una y otra ruta.
REGRESION LINEAL Y CORRELACIÓN.

Objetivos.

•Trazar un diagrama de dispersión.

• Entender e interpretar los términos variable dependiente y variable


independiente.

• Calcular y explicar el coeficiente de correlación y el coeficiente de


determinación, así como el error estándar de estimación.
Introducción.

A continuación se estudiará la relación entre dos o más


variables y se desarrollará una ecuación que permita calcular
una variable basada en otra.

Por ejemplo, ¿existe relación entre lo que gasta una empresa


en publicidad y sus ventas? ¿Existe una relación entre la
antigüedad en el trabajo de un empleado de producción y el
número de unidades que elabora.

Es necesario que observemos que en cada caso hay dos


variables, por ejemplo, el número de años en un trabajo y la
cantidad de unidades producidas.
¿Qué es un análisis de correlación?

Es el conjunto de técnicas estadísticas empleadas para medir la intensidad


de la asociación entre dos variables.
Ejemplo:
Llamadas y copiadoras vendidas por 10 representantes.

Parece haber cierta relación entre el número de llamadas y la cantidad de


copiadoras vendidas.
Diagrama de dispersión.
Grafica que representa la relación entre dos variables.
Con base a la tabla anterior se elabora un diagrama de dispersión.

La deducción es que el número de copiadoras vendidas tiene relación


con la cantidad de llamadas realizadas.
A medida que aumenta el número de llamadas crece la cantidad de
copiadoras vendidas.
NUMERO DE LLAMADAS → Variable Independiente.
NUMERO DE COPIADORAS VENDIDAS → Variable Dependiente.
VARIABLE DEPENDIENTE: La variable que se predice o calcula.

VARIABLE INDEPENDIENTE: Una variable que proporciona las bases


para el calculo. Es la variable de predicción.

El diagrama de dispersión indica que los representantes de ventas que


hacen más llamadas telefónicas, tienden a vender más copiadoras. Es
razonable decir que cuanto más llamadas efectúen los representantes de
ventas, más copiadoras esperen vender.

Obsérvese que aunque parece haber una relación positiva entre las dos
variables, no todos los puntos quedan en una misma línea recta. Por lo
que a continuación se medirá la intensidad y la dirección de esta relación
entre dos variables.
Coeficiente de correlación.
Describe la intensidad de la relación entre dos conjuntos de variables
escalizadas por intervalo o por relación o razón.
Se denota como “r” o como coeficiente de correlación. Puede tomar
cualquier valor de -1.00 a + 1.00.
La fórmula para r es:

Donde:
¿Cómo se interpreta una correlación de 0.759?

Primero: es positiva; así que existe una relación directa entre el número de
llamadas y copiadoras vendidas.

Segundo: El valor 0.759 está muy cerca de 1.00, la asociación es fuerte.


Coeficiente de determinación.

0.759 se interpretó como “fuente”. Sin embargo los términos débil, moderado
y fuerte no tienen significado preciso. Una medida que tiene una aceptación
más fácil de interpretar es el coeficiente de determinación. Se calcula
elevando al cuadrado el coeficiente de correlación.

Coeficiente
de determinación = r²

= (0.759)² = 0.576

Esta es una relación proporcional o porcentaje, puede decirse que 57.6% de


variación en el número de copiadoras vendidas, se explica por la variación
en el número de telefonemas.
Prueba de Significancia,
Del coeficiente de Correlación.

Recordemos que 0.759 fue el coeficiente de correlación entre las


llamadas y la venta de copiadoras. Esto indica una marcada
relación entre las dos variables. Sin embargo, solo se incluyeron
10 vendedores en la muestra. ¿Podría ser que la correlación en la
población sea en realidad nula? Esto significa que la correlación de
0.759 se debió a azar. La población en este ejemplo son todos los
vendedores de la compañía.

Resolver este dilema exige una prueba para contestar la pregunta


obvia: ¿Podría haber una correlación igual a cero entre la
población de la cual se tomó la muestra?, en otras palabras, ¿la r
calculada proviene de una población de observaciones por pares
con correlación nula?

La pregunta se puede considerar una hipótesis y toda hipótesis


necesita ser comprobada.
Utilizaremos la letra griega (ro) para representar la correlación en la
población.

Continuaremos con el problema de las llamadas.

Las hipótesis nula y alternativa son:

Η₀ :  = 0 (La correlación de la población es nula)

Η₁ :   0 (La correlación de la población no es nula)

La prueba es de dos colas.

La fórmula para t es:

Utilizando el nivel de significancia de 0.05, la regla de decisión indica que


si la t calculada se encuentra en el área entre más 2.405 y menos 2.306,
se aceptará la hipótesis nula.
Distribución F para gl = n-2 = 10-2 = 8
gl = 8 nivel de significancia 0.05 Prueba de 2 colas.
2.306
Ver también gráfica.

El valor calculado t, de manera que queda en el área de rechazo Η₀ se


rechaza al nivel de significancia 0.05, lo cual significa que la correlación en la
población no es nula. Es decir, existe correlación entre llamadas y ventas.
ANALISIS DE REGRESION.

A continuación se desarrollará una ecuación para expresar la relación


entre dos variables y obtener el valor de la variable dependiente y con
base a un valor seleccionado de la variable independiente X. A la
técnica empleada para desarrollar la ecuación de la recta y hacer
estas predicciones se le denomina análisis de regresión.

La ecuación para la línea recta empleada para calcular Y con base a


X se conoce como ecuación de regresión.

Ecuación de Regresión: Expresión matemática que define la


relación entre dos variables.
Principio de mínimos cuadrados.

Método matemático que proporciona la recta de mejor ajuste.

Se dice que es la técnica empleada para obtener la ecuación de


regresión, minimizando la suma de los cuadrados de las distancias
verticales entre los valores Y verdaderos y los valores
pronosticados de Y.

Continuando con el problema de las llamadas, se muestra la recta


de ajuste de los datos mencionados
La forma general de la ecuación de regresión es:
’ = a + b 
donde
’ = Es el valor pronosticado de la variable Y
a Es la ordenada de la intersección con el eje Y.
b Es la pendiente de la recta.
 Es cualquier valor de la variable independiente.

b = n() – () ()


n(X²) – ((X)²

a =   b 
n n
Los cálculos necesarios para determinar la ecuación de regresión son
los siguientes:
b = n()   = 10(10800) – (220)(450) = 1.1842
n ²  (²) 10(5600) – (220)²

a =   b  = 450 – (1.1842) 220 = 18.9476


n n 10 10

’ = 18.9476 + 1.1842
De modo que si un vendedor hace 20 llamadas, puede esperarse que
venda 42,6316 copiadoras.

’ = 18.9476 + 1.1842
= 18.9476 + 1.1842 (20) = 42.6316

Analicemos esto:

El valor de b de 1.1842 significa que por cada llamada adicional se


puede esperar aumentar en 1.2 el número de copiadoras vendidas.

Si los vendedores no llamaran, se venderán 18.94 copiadoras.


Error estándar de estimación.

Medida de la dispersión de los valores observados, con respecto a la


línea de regresión.

El error estándar de estimación se determina aplicando la siguiente


ecuación. Observe que ésta es muy semejante a la de la desviación
estándar de una muestra.

S y . x = √(’)²
2

La desviación estándar se basa en las desviaciones al cuadrado con


respecto a la media, mientras que el error estándar de estimación se
fundamenta en las desviaciones cuadratizadas respecto de la recta de
regresión. Si tales desviaciones resultan en un total pequeño, esto
significa que la recta en cuestión es representativa de los datos.

Si las desviaciones cuadráticas son de valor grande, entonces a línea de


regresión podría no ser representativa de la información.
Las desviaciones (Y-Y’) son desviaciones verticales con respecto a la
recta de regresión. Obsérvese en la tabla que la suma de las
desviaciones señaladas es igual a cero, lo cual indica que las
desviaciones positivas (por encima de la línea de regresión), están
compensadas por las desviaciones negativas (por debajo de tal recta).
Consideraciones básicas para la regresión lineal.

Para comprender mejor la aplicación de error estándar de estimación de


9.901 en el análisis de regresión, deben enunciarse, primero las
consideraciones básicas con respecto a la regresión lineal y la correlación.

1. Para cada valor de X existe un grupo de valores Y y estos valores Y se


distribuyen en forma normal.

2. La media de estas distribuciones normales de valores Y se encuentran


todas en la línea de regresión.

3. Las desviaciones estándar de dichas distribuciones normales son


iguales.

4. Los valores Y son estadísticamente independientes: Esto significa que


al seleccionar una muestra, los valores Y seleccionados para un valor
X específico, no depende de los valores Y para cualquier otro valor X.
Representación gráfica de las consideraciones básicas de la regresión.

Observe que tres de las 10 desviaciones exceden a un error estándar de


estimación. Esto es, la observación de -12.6316, -12.6316 y +15.5264,
exceden el valor de 9.901.
Es decir, 7 de 10 desviaciones en la muestra quedan dentro de un error
estándar con relación a la línea de regresión, lo que es un buen resultado

También podría gustarte