Está en la página 1de 13

Estadística y Probabilidad

Dra. Sara Adelina Arana López

ESTADISTICA Y PROBABILIDAD

ANALISIS DE VARIANZA

x11 , x12 , x13 , xk 1

x21 , x22 , x23 , x2 k

...............................

xn1 , xn 2 , xn3 , xnk

T1 .. T2 .. T3 .. T .1..

Dra. SARA ADELINA ARANA LOPEZ

LIMA, 2019
Estadística y Probabilidad
Dra. Sara Adelina Arana López

INTRODUC CION

El análisis de la varianza (ANOVA) es un método estadístico, de gran utilidad tanto en


la industria, para el control de procesos, como en el laboratorio de análisis, para el
control de métodos analíticos. Los ejemplos de aplicación son múltiples, pudiéndose
agrupar, según el objetivo que persiguen, en dos principalmente: la comparación de
múltiples columnas de datos y la estimación de los componentes de variación de un
proceso.

En múltiples ocasiones el analista o investigador se enfrenta al problema de determinar


si dos o más grupos son iguales, si dos o más cursos de acción arrojan resultados
similares o si dos o más conjuntos de observaciones son parecidos. Pensemos por
ejemplo en el caso de determinar si dos niveles de renta producen consumos iguales o
diferentes de un determinado producto, si las notas de dos grupos en una asignatura
son similares, si tres muestras de análisis químico de una sustancia son iguales, o si los
municipios de cuatro provincias colindantes tienen el mismo nivel de paro
Una aproximación simple sería comparar las medias de estos grupos y ver si las medias
aritméticas de la variable estudiada son parecidas o diferentes. Pero tal aproximación
no es válida ya que la dispersión de las observaciones influirá en la posibilidad de
comparar los promedios o medias de cada grupo. Así, supongamos que tenemos una
variable X (consumo) y dos grupos (nivel de renta alto y medio) y que tenemos dos
resultados distintos correspondientes a dos provincias

Es evidente que la conclusión de que con renta alta el consumo es mayor que con renta
media es más rotundo en la provincia B que en la A. En la provincia A existen familias
de renta media con un consumo superior a otras familias de renta alta aunque en
promedio X 21  X 11 . Esta situación no se produce en la provincia B donde todas las
Estadística y Probabilidad
Dra. Sara Adelina Arana López

observaciones de renta alta son superiores a las de renta media. En consecuencia la


dispersión deberá tenerse en cuenta para realizar una comparación de medias o de
grupos y esto es lo que se pretende con el Análisis de la Varianza. El Análisis de la
Varianza puede contemplarse como un caso especial de la modelización econométrica,
donde el conjunto de variables explicativas son variables ficticias y la variable
dependiente es de tipo continuo. En tales situaciones la estimación del modelo significa
la realización de un análisis de la varianza clásica (ANOVA), de amplia tradición en los
estudios y diseños experimentales. Una ampliación a este planteamiento es cuando se
dispone de una variable de control que nos permite corregir el resultado del experimento
mediante el análisis de la covariación con la variable a estudiar. Esta problemática es
un caso de un análisis de la covarianza

Ejemplo: Pretendemos medir la influencia que tiene en la venta de un producto de


alimentación, la posición en que se exhibe al público dentro del establecimiento. Las
posiciones establecidas son:
 ALTA: por encima de los ojos.
 MEDIA: nivel de los ojos.
 BAJA: por debajo del nivel de los ojos.

Para la realización del experimento se han seleccionado 12 autoservicios de


dimensiones similares. Los autoservicios se agrupan en tres conjuntos de cuatro
elementos cada uno, procediendo de forma aleatoria en su asignación. Con ello
suponemos que los tres conjuntos son de características similares, colocándose el
producto en cada uno de ellos, de una de las formas anteriormente descritas y
registrando sus ventas durante veinte días. Las ventas resultantes, en unidades, quedan
recogidas en el cuadro I. Se pretende responder a las siguientes preguntas:
1º¿Tiene alguna influencia el posicionamiento del producto en la venta del mismo?.
2º¿Qué posicionamiento es más eficaz?
3º¿Son estadísticamente significativas las diferencias obtenidas?

ANALISIS DE VARIANZA

El análisis de varianza se utiliza para contrastar hipótesis relativas a las diferencias de


las medias de más de dos poblacionales, este procedimiento exige que se analicen las
varianzas de las muestras estudiadas (de allí el termino análisis de varianza). El
procedimiento consiste en analizar si un tratamiento en particular aplicado a la población
Estadística y Probabilidad
Dra. Sara Adelina Arana López

tendrá un efecto significativo sobre la media. Surge y es muy importante en el campo de


la agricultura, donde se usa el término tratamiento para analizar varias parcelas de tierra
con diferentes fertilizantes y anotar el rendimiento medio en las cosechas del producto.
Actualmente el termino tratamiento se emplea, en sentido amplio, para referirse al
tratamiento de clientes con distintas presentaciones publicitarias y detectar las
diferencias posteriores de sus compras medias, al tratamiento de tres grupos con tres
tipos diferentes de programas de formación para observar ls diferencias que aparecen
en los niveles medios de productividad o a cualquier otra situación en que se dese
comprar medias

DISEÑO COMPLETAMENTE ALEATORIZADO

Las unidades experimentales son asignadas completamente al azar a los diversos


tratamientos. Todas las unidades elegidas al azar para el estudio tienen la misma
probabilidad de ser asignadas a un tratamiento

MODELO A EFECTOS FIJOS

Se fijas o eligen tratamientos específicos antes de emprender el estudio

MODELO A EFECTOS ALEATORIOS

Los niveles (tratamientos) usados en el estudio se eligen al azar de una población de


niveles posibles

CARACTERISTICAS PARA APLICAR UN ANALISIS DE VARIANZA

1. Todas las poblaciones implicadas son normales


2. Todas las poblaciones tienen varianzas iguales
3. Las muestras se eligen de manera independiente

EFECTO DEL TRATAMIENTO


Como las distintas muestras son sometidas a tratamientos diferentes, la variación
intramuestral puede ser causada por los diferentes efectos del tratamiento.

RELACION F USADO EN EL ANOVA


Estadística y Probabilidad
Dra. Sara Adelina Arana López

La relación F utilizada en el análisis de varianza es la que existe en la variación


intermuestral y la variación intramuestral

RELACION F

Cuando las medias poblacionales son diferentes existe un efecto de tratamiento y las
desviaciones intermuestrales pueden ser grandes comparadas con las desviaciones
debido al error dentro de una muestra. Por lo tanto el valor de F, que es una relación
entre la variación debida al tratamiento y la variación debido al error, aumentara.

PROCEDIMIENTO

1. Descripción de los datos

Tratamientos
1 2 3 ……. K

x11 , x12 , x13 , xk 1

x21 , x22 , x23 , x2 k

...............................

xn1 , xn 2 , xn3 , xnk

T .. T2 .. T3 .. T .1..
Total : T .1 1 T ..2 T .3 T. K T ...

Medias: X .1 X .2 X .3 X .K X ..

2. Supuestos
Junto con las suposiciones que fundamenta el análisis, se presenta el modelo
de cada diseño estudiado.
Estadística y Probabilidad
Dra. Sara Adelina Arana López

El modelo es una representación simbólica de un valor representativo del


conjunto de datos:
El modelo del ANOVA unilateral es:

xij     j   ij
i= 1, 2,3,…, nj j= 1,2,…, k

a. La media de la población representa todas las k –medias poblacionales y


se le conoce como la gran media
b.  j : representa la diferencia entre la media de la j-ésima población y la gran

media. Se le conoce como efecto del tratamiento


c.  ij : representa la cantidad en que difieren una medición individual de la

media poblacional a la que pertenece. Se le conoce como termino de error

3. Hipótesis

H 0 : 1   2  ...   k
H A : no todas las Muestras son iguales

Si las medias de las poblaciones son iguales, y el efecto de cada tratamiento es


igual a cero, alternativamente, las hipótesis pueden escribirse como sigue:

H0 :  j  0 , j  1,2,.....k
H A : no todas las  j  0

4. Estadística de prueba
Es el cálculo de la razón de las varianzas (R.V.), son las mismas

5. Distribución de la estadística de prueba


La RV sigue una distribución F, cuando la Ho es verdadera y se cumplen las
suposiciones.

6. Regla de decisión
Es rechazar la Ho, si el valor calculado para R.V. es mayor o igual que el valor
critico de F con un nivel alfa 
Estadística y Probabilidad
Dra. Sara Adelina Arana López

7. Calculo de la estadística de prueba


El resultado de los cálculos aritméticos se resume en una tabla llamada análisis
de varianza (ANOVA), facilita la evaluación de los resultados del análisis
Se definió el análisis de varianza cono un proceso por el que la variación total
representa el conjunto de datos

Sumas de cuadrados
a. Sumas de cuadrados para el total
b. Suma de cuadrados entre de los grupos
c. Suma de cuadrados dentro grupos

Grados de libertad
a. Grados de libertad para el total : n-1
b. Grados de libertad entre grupos (muestras) : k - 1
c. Grados de libertad dentro de los grupos n- k

Cuadrados medios
a. Cuadrados medios entre grupos : CME = SCE/k-1
b. Cuadrado medio dentro de los grupos : CMD = SCD/n – k

Razón de la Varianza: F = R.V.


F = CME/CMD

8. Decisión estadística
Comparar la R.V. Calculada con el valor crítico de F (se obtiene en la tabla) con
los grados de libertad ( k – 1)/(n – k)
Si R.V. Es mayor o igual al valor crítico de F la hipótesis nula se rechaza.

R.V .  Ftabla

9. Conclusión
Si se rechaza se concluye que no todas las medias son iguales.
10. Cálculo del valor p
Estadística y Probabilidad
Dra. Sara Adelina Arana López

EJEMPLO

El gerente de una empresa industrial quiere determinar si tres programas de formación


ejercen efectos distintos sobre la productividad de los empleados. Estos programas son
los tratamientos que el análisis de varianza puede analizar. Eligen a 14 empleados y se
les asigna al azar a uno de los tres programas. Al terminar la formación, cada empleado
realiza un examen para determinar su competencia, a 4 empleados se les imparte el
primer programa, a los grupos de 5 empleados cada grupo, los otros dos programas.
Los grupos serán tratados como muestras separadas y utilizadas para extraer la
inferencia sobre las poblaciones de empleados que pudieran pasar por los programas
de formación respectiva. Las puntuaciones de los empleados en el examen posterior a
la formación se muestran a continuación

Tratamientos
Programa 1 Programa 2 Programa
85 80 82
72 84 80
83 81 85
80 78 90
…. 82 88
Total : 320 405 425 T ..  1150
n: 4 5 5 n.. = 14

Medias: 80 81 85 X ..  82.14
Estadística y Probabilidad
Dra. Sara Adelina Arana López

ANALISIS DE REGRESION: VARIABLES

CUALITATIVAS INDEPENDIENTES

INTRODUCCION

El estudio de análisis de regresión lineal y regresión múltiple es el de obtener una


ecuación o modelo en base a variables cuantitativas las que se pueda emplear para
hacer predicciones y estimaciones en relación a una(s) variable(s) dependiente (s) a
partir del conocimiento de alguna(s) otra(s) variables individual(s) denominada variables
independiente, predictoras o explicativa. Es interesante conocer que todas las variables
que se incluyen en modelo de regresión no son solamente variables cuantitativas , un
modelo también incluye a aquellas variables que de origen son cualitativas (nivel
socioeconómico, segmentación de mercado, niveles de ingreso, grado de instrucción,
genero, estado civil, grupo racial ) las que pasan por un proceso de categorización para
ser incluidas en este tipo de predicciones.
Para incorporar una variable cualitativa independiente en el modelo de regresión
múltiple, esta se cuantifica, esto se logra mediante el uso de las variables imaginarias o
ficticias, o el uso de la escala de licker.

VARIABLES IMAGINARIAS O FICTICIAS

Se pueden encontrar muchas variables que pueden modificar el valor de la variable


dependiente. Existen variables para explicar los niveles de renta, los estudio muestran
que el género y la geografía tiene poder explicativo, es decir que un hombre que haya
cursado los mismos años de enseñanza y formación que una mujer no tendrá la misma
renta, un docente de educación secundaria que trabaja en la región de la costa no
ganara igual que un profesor que labora en la sierra, esto muestra que el sexo y la
geografía son variables explicativas de gran utilidad para predecir la renta de una
persona, pero estas variables no son numéricas y no se pueden incluir directamente en
el modelo de regresión múltiple.
Una variable ficticia o imaginaria solo toma un numero finito de valores para identificar
las diferentes categorías de una variable cualitativa, también se les conoce con el
Estadística y Probabilidad
Dra. Sara Adelina Arana López

nombre de indicativas y solo cuando se trata de dos valores se les llama dicotómicas
(como 0,1).

Cuando la variable tiene K categorías es necesario definir K – 1 variables imaginarias,


para codificar adecuadamente todas las categorías. Esta condición es aplicable para
toda regresión múltiple que contenga una constante de intercepción

Aplicativo

El gerente de una cadena de almacenes desea estudiar la relación entre gastos medios
de sus clientes y las variables que podrían explicar el nivel de dic hos gastos, elige la
renta como variable explicativa, pero también considera el sexo de sus clientes, que
podría representar un papel en la explicación en sus gastos. Renta y gastos en soles y
sexo.

Observación Gasto (Y) Renta (X1) Sexo


Miles de Miles de (X2)
soles soles
1 51 40 1
2 30 25 0
3 32 27 0
4 45 32 1
5 51 45 1
6 31 29 0
7 50 42 1
8 47 38 1
9 45 30 0
10 39 29 1
11 50 41 1
12 35 23 1
13 40 36 0
14 45 42 0
15 50 48 0
Solución
Haciendo uso del programa SPSS
Estadística y Probabilidad
Dra. Sara Adelina Arana López

Yˆ  b0  b1 X 1  b2 X 2
Yˆ  12.21X 1  0.791  5.11X 2

los valores de p para ambos casos 0.000 y 0.000

El uso de la variable ficticio sexo dará lugar a dos rectas de regresión, una para hombres
y otra para mujeres. Las rectas tienen l misma pendiente, pero diferentes ordenadas en
el origen. Es decir la ecuación da lugar a dos rectas de regresión paralelas, que inician
con valores diferentes.
Como se ha codificado a hombres con cero, la ecuación será:

Yˆ  b0  b1 X 1  b2 X 2
Yˆ  12.21X 1  0.791  5.11(0) 2
Yˆ  12.21X  0.791
1

La recta tiene una ordenada en el origen 12.21 y la pendiente de 0.791 X1

COMPROBACIÓN DE LA NORMALIDAD

Los residuos deben de tener distribución normal.


Las observaciones originales también, pero cada grupo con media diferente, por ello es
preciso estimar el modelo para descontar a cada observación su media y obtener
valores con la misma distribución.
Herramientas de comprobación:
 Histograma de residuos
 Gráfico de probabilidad normal (Q-Q plot)
 Contrastes formales (Kolmogorov-Smirnov)

GRAFICO PROBABILIDATICA NORMAL

Es un gráfico X-Y de los residuos frente a los percentiles de la distribución normal La


idea básica es que cuando los residuos tienen distribución normal, los puntos deben
formar aproximadamente una línea recta
Estadística y Probabilidad
Dra. Sara Adelina Arana López

Procedimiento

1. Ordenar los residuos de menor a mayor  (1) ,   ( 2) ,  . . .   ( n )


2. Calcular los percentiles de la distribución normal

 i  0.5 
Yi    X Sˆ R ,
1
 i  1,2, . . . , n
 n 

3. Representar :  i  , Yi

En el proceso de estimación se ha supuesto que los distintos tratamientos tienen la


misma varianza

Herramientas

 Gráficos de residuos:
 Frente a valores previstos
 Frente a tratamientos (o factor,etc.)
 Contrastes formales:
 Bartlett, Cochran, Hartley, Levene
Estadística y Probabilidad
Dra. Sara Adelina Arana López

RESIDUOS - VALORES PREVISTOS

En este modelo los valores previstos corresponden a la media del tratamiento


 Los puntos deben aparecer dispuestos al azar en una banda horizontal alrededor
del eje horizontal.

HETEROCEDASTICIDAD:
a veces la dispersión aumenta conforme la media crece.

RESIDUOS POR TRATAMIENTOS

En cada grupo los residuos aparecen esparcidos con dispersión similar y media cero