Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MODULO
PROBABILIDAD E INFERENCIA
LIMA, 2018
I. PROBABILIDADES
II. INFERENCIA
2.1. Introducción
2.2. Definiciones
2.3. Estimaciones
2.4. Estimaciones Puntuales
2.5. Estimaciones por Intervalos
2.5.1. Estimaciones para la Media (para una y dos poblaciones)
2.5.1.1. Para la Media con Varianza Conocida
2.5.1.2. Para la Media con Varianza Desconocida
2.5.2. Estimaciones para la Proporción
2.5.3. Estimaciones para la Varianza
2.6. Pruebas De Hipótesis
2.6.1. Prueba de hipótesis para la media
2.6.2. Prueba de hipótesis para la varianza
2.6.3. Prueba de hipótesis para la proporción
2.7. Errores
2.8. Análisis de Regresión
2.9. Análisis de varianza
2.10. Pruebas no paramétricas
MODULO
PROBABILIDADES
INTRODUCCION A PROBABILIDADES
0 P( A) 1
Condiciones
1. P( A) 1 : suceso seguro
2. 0 P( A) 1 : suceso posible
3. P( A) 0 : sucesoimposible
OBJETIVOS
DEFINICIONES DE
PROBABILIDAD
DEFINICION DEFINICION
CLASICA DEFINICION POR SUBJETIVA
FRECUENCIA
RELATIVA
P(C) = (PA)+P(B)
n ( Ai )
P ( A) lim n , i 1,2,3,..., k
n
C. Probabilidad Subjetiva
Ejemplo:
Espacio Muestral
Eventos: A,B,…
Suceso
Son todos los elementos del espacio muestral
1 , 2 , 3 , .. . , 8
EJEMPLO:
SOLUCION
PROBABILIDADES - EXPERIMENTO ALEATORIO
W 1 / 8
M
C
A
Z
N
A
L
º
O
3
T
N
IE
C
M
A
Z
N
A
L
º
W 1 / 8
2
W
S
C
1 / 4
O
NT
IE
W
1 / 8
AM
W
C
NZ
LA
1 / 2
S
1º
W
W 1 / 8
S
1 / 4
W 1 / 8
C
W 1 / 8
S C
1 / 4
W W 1 / 8
C
1 / 2
W 1 / 8
C
W
1 / 4
0 {sss} 1 1/8
1 {css, scs, ssc} 3 3/8
2 {ccs, csc, scc} 3 3/8
3 {ccc 1 1/8
Total 8 sucesos 8
N(A) 3
P(A) 0,375
N() 8
SUCESOS
1, 2, 3, 4, 5, 6, 7, 8
Unión de Eventos
Sean A y B dos eventos cualesquiera del espacio de eventos. La unión de
los eventos A y B es el evento que consta de los elementos que pertenecen
tanto a A como a B y se representa por (A B).
1
A B
A B I / I A o I B
Complemento de Eventos
Intersección de Eventos
1
A B ( A B)
A B I / i A y B A /
c
I i no B
Igualdad de Eventos
Inclusión de Eventos
A B, si w A w B. A = B, si A B y B A.
0 P A 1 P 1
P A
K
P K
i 1 Ai i
i 1
TEOREMAS
TEOREMA 1:
P P P
TEOREMA 2:
P AC 1 P A
TEOREMA 3
P A Bi P( A) P(B) P( A B)
P( A B)
P A / Bi
P( B)
P A / Bi
P( A) P( A / B)
P( A1 ) P( A / B1 ) P( A2 ) P( A / B2 ) ... P( An ) P( A / Bn )
A. VARIABLE ALEATORIA
Es una función que asigna a cada elemento del espacio muestral uno y solo un
número real.
X X ( )
Una variable aleatoria X, es discreta si, los valores que toma la variable son
enumerarles.
Función de probabilidad
P ( xi ) P X xi
Condiciones de la función de probabilidad
1. 0 P ( x) 1
2. P ( xi 1)
Tabla :
x x1 x2 x3 . . . xk
P ( xi ) P X xi P ( x1 ) P ( x2 ) P ( x3 ) . . .
Grafico
p ( xi )
p ( x3 )
p ( x2 ) p ( x4 )
p ( x15 )
p ( x1 ) p ( x6 )
x1 x21 x3. x4 x5 x6 X
k
V ( xi ) ( xi E ( x)) 2 pxi
i 1
Ejemplo
X 0 1 2 3 Total
B. VARIABLE CONTINUAS
x
1.7. Distribuciones de probabilidad discretas (Binomial,
Poisson, Hipergeométrica)
DISTRIBUCIÓN BINOMIAL
CARACTERISTICAS
Función de Probabilidad
n
n, x, p p x q n x
Se reserva derechos de autor
x 15
PROBABILIDD E INFERENCIA
Donde
EJEMPLO 1:
SOLUCION
X: N° de pacientes curados
n: 6 pacientes
X B(n 6; p 0.75)
Rx 0,1,2,3,4,5,6
EJEMPLO 2
Supongamos que la probabilidad de que una pareja tenga un hijo o una hija es
igual. Calcular la probabilidad de que una familia con 6 descendientes tenga 2
hijos.
SOLUCION
6
p( x) * (0.5) 2 * (0.5) 4 0.2344
2
La probabilidad de que la familia tenga dos hijos es 0.2344
DISTRIBUCIÓN DE POISSON
x
e
p ( x)
x!
Donde:
p(x) : Probabilidad de X
: Promedio
e : Constante (2.71828)
x : Observaciones seleccionadas
EJEMPLO:
Solución :
p ( x) 4 :
: 10 clientes por hora
e : (2.71828)
x : 5 clientes
10 5 (2.71828) 10
p( x) 0.378 0.4
5!
La probabilidad que durante la próxima hora lleguen cinco clientes es 0.4, o un
4% hay de posibilidad que en la próxima entren al establecimiento 5 clientes.
DISTRIBUCION HIPERGEOMETRICA
Suponga que tenemos “N” artículos de los cuales “A” son éxitos y “N-A”
son fracasos.
El experimento “Hipergeométrico” consiste en escoger al azar una muestra
de tamaño “n”, uno por uno sin Sustitución o Reemplazamiento
Función de Probabilidad
M N M
n x
X , x 0,1,2,..., min( n, M )
N
n
P ( X x)
0 en otros casos
P (x) : probabilidad de x
N: Población ( se divide en dos clases)
X: Nº de éxitos en la muestra (de los éxitos en M)
M: Elementos de éxito de una clase de la población
N – M: elementos de fracaso en la otra clase de la población
n: tamaño de la muestra
EJEMPLO
SOLUCIÓN
N: 10 autos
M : cuatro autos con falla
n: 3 autos
x: 2 autos fallados
4 10 4
2 3 2
P( x 2) 0.30
10
3
La probabilidad que 2 autos estén fallados es 0.30
NORMAL
x 2
1
f ( x) e 2 2
2
FUNCIÓN DE DENSIDAD
2
1 -x
f(x) = e 2 ; - < x < +
2π
PROPIEDADES
a
1. P( x a) P
a
2. P( x b) 1 P
b a
3. P(a x b) P P
En las tablas como las del modelo la distribución normal estándar, se distribuye
desde Z = - 4 hasta Z = 4, frente a cada valor de Z se observa a su respectiva
probabilidad.
Ejemplo :
E X i y Var ( X ) 2
Si:
Yn x1 , x2 , x3 , xn
Se tiene:
X
Z Tiene aproximación a N (0,1)
n
A. Distribución de la Media
2
x Var ( xi ) , la variable aleatoria X N (0,1) X
n
X
Z N (0,1)
n
Ejemplo:
Solución
X-------- N(12,6)
n = 10 alumnos
Promedio= 12 minutos
Desviación estándar = 6 minutos
17 12 15a 12
P(15 x 17) P P
6 6 10
B. Distribución de la Proporción
p: proporción
Ejemplo:
Solución
p 0.90
pˆ 0.85
n 200
p p( ) 0.85 0.90
Z Z 2.36
p(1 p) 0.90(0.10)
n 200
MODULO
PROBABILIDAD E INFERENCIA
INTRODUCCION
INFERENCIA
ESTIMACIONES ERRORES
HIPOTESIS
PUNTUALES POR INTERVALOS
DE CONFIANZA
PARA LA PARA LA
MEDIA PROPORCION
INDICE
1. Introducción
2. Definiciones
3. Estimaciones
4. Pruebas De Hipótesis
4.1. Hipótesis
5. Errores
3. ESTIMACION
ESTIMACION:
ESTIMADOR:
Propiedades
a. Insesgado:
si : E ˆ
de lo contrario se dice que es sesgado, un estimador Insesgado es aquel cuya
media o valor esperado de la distribución de las de las estimaciones es igual al
parámetro estimado.
Es decir:
Al aumentar el tamaño de la muestra, su media tiende a coincidir con el
parámetro θ, y por lo tanto, su sesgo tiende a cero.
lim E ˆ
Esto es:
n
E ˆ
b. Consistente
Se utiliza cuando no es posible utilizar estimador de mínima varianza, ya que a
medida que crece el tamaño de la muestra las estimaciones que nos
proporciona el estimador se aproximan cada vez más al valor del parámetro θ .
Si el estimador es Insesgado o asintóticamente Insesgado (carece de sesgo),
para que sea consistente es suficiente que, cuando el tamaño de la muestra
tiende a infinito (es decir, se hace muy grande), la varianza del estimador se
aproxime a cero. Esto es,
lim Var 0
n
c. Eficiente
La eficiencia de un estimador está vinculada a su varianza muestral. Así, para
Si un estadístico es más eficiente que otro, significa que varía menos de unas
muestras a otras. La media es un estimador del parámetro µ es más eficiente
que la mediana. Del mismo modo, la varianza Sn-12 es un estimador de σ2 más
eficiente que Sn2. (demostración para el alumno)
Conclusión:
d. Suficiencia:
x
i 1
i
X
n
Para el cálculo se tienen en cuenta todas las puntuaciones Xi. también ocurre
con los estimadores Sn-12 y Sn2 de la varianza. Todos ellos pueden ser
considerados estimadores suficientes de los respectivos parámetros.
ESTIMACION
Media
X SI x
Varianza
S 2 s2 SI s
2
2
Desviación típica
S s NO s
Proporción p̂ SI p̂
P
Es decir, estimar por intervalos es obtener dos valores estadísticos que definen
el intervalo (un límite inferior y un límite superior) con un grado específico de
confianza incluye al parámetro a estimar. La probabilidad de que una
estimación por intervalo incluya al parámetro se denomina nivel de confianza.
confianza: Y significancia:
0.99. 0.01 1.00
0.975 0.025 1.00
0.95 0.05 1.00
0.90 0.10 1.00
0.80 0.20 1.00
d. Construir el intervalo
e. Interpretación
Ejemplo:
Solución
f. Muestra: n = 25 alumnos
g. Nivel de confianza : 90%
h. Estadístico de la muestra: es Z, se conoce la varianza.
i. Calculo de los valores del intervalo (puntos críticos)
IC ( ) : X Z
1 n
2
desconocida
a. Para n > 30
b. Para n < 30
r. Muestra: n = 15 alumnos
s. Nivel de confianza : 90%
t. Estadístico de la muestra: es t, no se conoce la varianza
u. La media y la varianza se han obtenido de la muestra (media = 5
y la varianza = 2, desviación estándar =1.464.)
v. Calculo de los valores del intervalo (puntos críticos
s
IC ( ) : X t 2 *
n 1,1 n
1.464
IC ( ) : 5 1.761* 5 0.666 (4.334, 5.666)
15
S
EZ * Et *
1 n 1 n
2 2
p * (1 p)
IC ( ) : p Z
PZ
1
p * (1 p)
n
PZ
1
p * (1 p)
n
1 n 2 2
2
Ejemplo
0.333* (1 0.333
IC ( ) : 0.333 1.28 (0.28, 0.38)
150
Otra manera de hacer inferencia es haciendo una afirmación acerca del valor
que el parámetro de la población bajo estudio puede tomar. Esta afirmación
puede estar basada en alguna creencia o experiencia pasada que será
contrastada con la evidencia que nosotros obtengamos a través de la
información contenida en la muestra. Esto es a lo que llamamos Prueba de
Hipótesis
HIPOTESIS:
Hipótesis de Investigación
Hipótesis Estadística
Prueba de Hipótesis
Es una regla que cuando los valores experimentales son observados nos
conduce a una decisión, No rechazar “Aceptar”, Rechaza, bajo consideración
A. Hipótesis Nula: Ho
H 0 : 0 , H 0 : 0 , H 0 : 0
B. Hipótesis Alternativa: H1
H1 : 0 , H 0 : 0 , H 0 : 0
región de región de
región región aceptación rechazo
Se reserva
dederechos de autor de 41
1
1
PROBABILIDD E INFERENCIA
región de aceptación
región de
región de rechazo
rechazo
1
/2 /2
1 2
Hipótesis Nula: H 0 : 0
Hipótesis Alternativa: H1 : 0
H 0 : 0 , H 0 : 0 , H 0 : 0
H1 : 0 , H 0 : 0 , H 0 : 0
2. Definir un nivel de confianza
Nota:
6. Decisión
7. Conclusión
Una caja de 300cm3de leche evaporada se diseña para que contenga una
cantidad ligeramente mayor que 300cm3, de tal manera que si excede este
volumen hay problemas. Sin embargo, un volumen menor a 300cm3ocasiona
que los consumidores demanden al fabricante. En el proceso normal de
producción, el fabricante supone que la media es igual o mayor
a300cm3Suponiendoquese prueba una muestra de 45 cajas y se encuentra un
volumen promedio de 290cm3.Sepuedeafirmarqueel fabricante está en lo
correcto, si se sabe que la desviación estándar de las cajas de leche de 6 cm3,
con un nivel de significancia de 0.01
Solución
1. Formular la hipótesis
Ho : 300 cm 3
H 1 : 300 cm 3
2. Nivel de Significancia
0.01
3. Estadística de Prueba
4. Región Critica
5. Decisión
Si Z calc Z tabl Ho se acepta
5.833 2.326 Ho no se acepta
6. Conclusión
.Se puede afirmar que el fabricante no está en lo correcto, el contenido de
las cajas no es 300cm3 , con un nivel de significancia de 0.01
Una empresa que regula el consumo eléctrico de cierta localidad, publica los
resultados del consumo anual en número de Kilowatt-hora que gastan varios
aparatos electrodomésticos. Se afirma que una aspiradora gasta un promedio
de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se
incluye en un estudio indica que las aspiradoras gastan un promedio de 42
kilowatt-hora al año con una desviación estándar de 11.9 kilowatt-hora.
¿Se puede concluir que las aspiradoras gastan anualmente, en promedio,
menos de 46 kilowatt-hora con un nivel de significancia de 0.05? Suponga que
la población de kilowatt-hora es normal.
Solución:
2. Nivel de Significancia
0.05
3. Estadística de Prueba
X 42 46 4
t Z 1.164
S/ n 11.9 / 12 11.9 / 3.464
4. Región Critica
5. Decisión
Si t calc ttabl Ho se acepta
1.164 1.796 Ho se acepta
6. Conclusión
Se concluye que las aspiradoras gastan anualmente, en promedio, menos
de 46 kilowatt-hora con un nivel de significancia de 0.05
Un ingeniero civil afirma que se instalan termas eléctricas en 70% de todas las
casas que se construyen hoy actualmente en la ciudad. ¿Estaría de acuerdo
con esta afirmación si una investigación de casas nuevas en esta ciudad
muestra que 8 de 15 tienen instaladas termas eléctricas? Con un nivel de
significancia de 0.10.
Solución.
1. Formular la hipótesis
Ho : P 0.70
H 1 : P 0.70
2. Nivel de Significancia
0.10
3. Estadística de Prueba
4. Región Critica
5. Decisión
Si t calc ttabl Ho se acepta
1.164 1.796 Ho se acepta
6. Conclusión
Se concluye que las aspiradoras gastananualmente, en promedio, menos
de 46 kilowatt-hora con un nivel de significancia de 0.05
región de región de
aceptación rechazo
región región
de de
1
1
Hipótesis Alternativa:
Hipótesis Alternativa: H 1 : 1 2 0
H1 : 1 2 0
Región de aceptación
Región de
Región de Rechazo
rechazo
1
/2 /2
1 2
Hipótesis Nula:
Hipótesis Alternativa:
Procedimiento:
SOLUCION:
1. Formular la hipótesis
Ho : 1 2 0
H 1 : 1 2 0
2. Nivel de Significancia
0.05 ,
2 2
3. Estadística de Prueba
( X 1 X 2 ) ( 1 1 ) (4.5 3.4 ) 0
Z calc Z calc 2.57
12 22 1 1.5
n1 n2 121 15 2
4. Región Critica
5. Decisión
Si Z tabl Z calc Z tabl Ho se acepta
(1.96) 2.57 no es (1.96) Ho no se acepta
6. Conclusión
Se concluye que los datos recogidos, no muestran evidencia suficiente para
explicar diferencia entre las concentraciones medias de ácido úrico en el suero
de individuos normales e individuos con síndrome de Down, con un nivel de
significancia de 0.05
Fumadores 16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3 18.6
SOLUCION:
1. Formular la hipótesis
Ho : NF F 0
H 1 : NF F 0
2. Nivel de Significancia
0.05
3. Estadística de Prueba
15(4.4711) 2 8( 4.8492) 2
S p2 21.2165
15 8
(17.51 12.4 ) 0
t calc t calc 2.6573
21.2165 21.2165
16 9
4. Región Critica
5. Decisión
tcalc ttabl Ho se acepta
2.6573 no es (1.71) Ho no se acepta
6. Conclusión
B. CUANDO LAS VARIANZAS 12 22 NO SON IGUALES
En una empresa que fabrica sustancias químicas, evalúanla calidad del
producto por la cantidad de impurezas presentes en un lote. Para la fabricación
utilizan dos líneas de producción 1,2 como cantidad promedio de impurezas en
la sustancia química. Se tomaron muestras aleatorias de cada línea y se
obtuvo las siguientes mediciones.
¿Los datos aportan evidencia suficiente para concluir que la cantidad promedio
de impurezas del proceso es menor para la línea 2?. Con un nivel de
significancia igual a 0.05
Solución:
7. Formular la hipótesis
Ho : 1 2
H 1 : 1 2
8. Nivel de Significancia
0.05
9. Estadística de Prueba
( X 1 X 2 ) ( 1 1 ) (3.21 3.0 ) 0
t calc t calc 0.6426
2 2
S S 1.04 0.51
1
2
n1 n2 16 16
11. Decisión
Si tcalc ttabl Ho se acepta
1.164 1.7 Ho se acepta
12. Conclusión
Se concluye que las aspiradoras gastananualmente, en promedio, menos
de 46 kilowatt-hora con un nivel de significancia de 0.05
Solución.
1. Formular la hipótesis
Ho : P 0
H1 : P 0
2. Nivel de Significancia
0.0.5
3. Estadística de Prueba
( p 1 p2 ) ( P1 P2 ) X1 X 2
Z P
1 1 n1 n2
Pˆ (1 Pˆ )
n1 n2
(0.43641 0.2416)
Z 2.71
0.2941(0.7059) 0.2941(0.7059)
55 149
4. Región Critica
1
5. Decisión
Si Z calc Z tabl Ho se acepta
2.71 1.64 Ho se acepta
6. Conclusión
4.7. ERRORES
Ho verdadera Ho falsa
MODULO
ANALISIS DE REGRESION
INTRODUCCION
REGRESION
Es el método estadístico que investiga y define la relación funcional entre dos o
más variables. La ecuación o función matemática constituye la función o línea
de regresión. Dadas las variables (X, Y) podemos expresarlas como
Y = f(X) o X = f(Y)
lo cual dignifica que tales relaciones funcionales permitirán estimar, explicar o
predecir el valor de una variable dado el valor de la otra variable.
CORRELACION
Yi 1 2 X i
Como es poco probable que los puntos (X, Y) caigan precisamente sobre una
recta, la relación lineal exacta de la ecuación debe ser modificada para incluir
un término de perturbación aleatoria, llamado también error o término
estocástico . Así tenemos:
Y i 1 2 X i i
E i 0 para i 1, 2, 3, ... , n
E 2i 2 para i 1,2,3,..., n
2
i
1 2 2
f , P exp
2
Suponiendo: yi b1 b2 xi ei
x 2i y i x i x i y i
b1
n x 2i x i
2
n x i y i x i y i
b2
n x 2i x i
2
o también b1 y b 2 x
2 s 2e
e 2i
y 2 b1 y b 2 x y
n2 n2
Entonces
2
Var b2 Sb22
x x
2
i
2 x 2i
Var b 1 S 2b
xi x
2 1
Por definición
b i
t i es decir i bi t Sb
Sb i
i
b 22 x 2i
x i 2
n
R2
y2
2
yi
i
n
VERIFICACION
Variation Total = Variación Explicada + Variación No Explicada
CT = SCR + SCE
y i y y y y i y i
2 2 2
2 x x
2
i
Variancia Explicada b2
FCALCULADA
Variancia No Explicada S 2e
CASO PRACTICO
Muestra ( n ) 1 2 3 4 5 6 7 8 9 10
Concentración 6 10 12 14 16 18 22 24 26 32
GLU (mM) (X)
Absorbancia (y) 40 44 46 48 52 58 60 68 74 80
ABSORVANCIA
90
80
CONCENTRACION DE GLUCOSA
70
60
50
40
30
40 50 60 70 80
Debemos hallar :
Y i b 0 b 1 X i i
n = 10, Media (X) = 18; Media (Y) = 57
x i x y i y 956; x i x y i y
2 2
576; 1 634
Cálculo de Estimadores:
b 1
X i XYi Y
956
X i X 166
2 .
576
b 0 Y b 1 X 57 1. 66 * 18 27. 12
ABSORVANCIA
1.00
.75
PROBABILIDAD ACUMULADA
.50
.25
0.00
0.00 .25 .50 .75 1.00
2 2 2 2
n Yi Xi Yi ei e i X i ( Xi – X) (Yi – Y)
1 40 6 37.08 2.92 8.5264 36 144 289
2 44 10 43.72 0.28 0.0784 100 64 169
3 46 12 47.04 -1.04 1.0816 144 36 121
4 48 14 50.36 -2.36 5.5696 196 16 81
5 52 16 53.68 -1.68 2.8224 256 4 25
6 58 18 57.00 1.00 1.0000 324 0 1
7 60 22 63.64 -3.64 13.2496 484 16 9
8 68 24 66.96 1.04 1.0816 576 36 121
9 74 26 70.28 3.72 13.8384 676 64 289
10 80 32 80.24 -0.24 0.0576 1024 196 529
Total
Suma 570 180 0 47.3056 3816 576 1634
b 0 b 0 b 0 27. 12
tC 13. 7
S b0 S b0 1. 98
b 1 b 1 b 1 1. 66
tC 2. 306
S b1 S b1 0. 1
b 1 X i X Yi Y 9. 56
R 2
1. 66 0.971212
Yi Y 2 1634
Es decir:
Ho : b 0 = b 1 = 0
H1 : b 0 = b 1 = 0
FC b
2
S 2e
47. 3056
268. 421
10 2
CORRELACION LINEAL
Se ha asumido que la variable independiente (X) se conocen sin error. Aun
cuando esto es aplicable a múltiples experimentos, existen también problemas
en los cuales tanto las X como las Y son variables aleatorias. Este es el caso
de la relación entre las precipitaciones pluviales y la producción de ciertos
cultivos; entre el medio ambiente y cultivos de bacterias, etc. A esta clase de
problemas se les llama problema de análisis de correlación. El coeficiente de
correlación de una población queda definido por la relación
2
2
1
22
donde
2
2 Es una medida de la variación de las Y cuando la X no es conocida
2
2 2
es una medida de la variación de las Y que se explica por la
relación lineal entre X
2
nos indica qué proporción de la variación de las Y puede atribuirse a la
relación lineal de X
R
X X Y Y
X X Y Y
2 2
MODULO
ANALISIS DE VARIANZA
x1 1, x1 2 , x1 3 , xk 1
x2 1 , x2 2 , x2 3 , x2 k
...............................
T1 .. T2 .. T3 .. T .1..
LIMA, 2018
INTRODUC CION
Es evidente que la conclusión de que con renta alta el consumo es mayor que
con renta media es más rotundo en la provincia B que en la A. En la provincia A
existen familias de renta media con un consumo superior a otras familias de
renta alta aunque en promedio X 21 X 11 . Esta situación no se produce en la
provincia B donde todas las observaciones de renta alta son superiores a las
de renta media. En consecuencia la dispersión deberá tenerse en cuenta para
realizar una comparación de medias o de grupos y esto es lo que se pretende
con el Análisis de la Varianza. El Análisis de la Varianza puede contemplarse
como un caso especial de la modelización econométrica, donde el conjunto de
variables explicativas son variables ficticias y la variable dependiente es de tipo
continuo. En tales situaciones la estimación del modelo significa la realización
de un análisis de la varianza clásica (ANOVA), de amplia tradición en los
estudios y diseños experimentales. Una ampliación a este planteamiento es
cuando se dispone de una variable de control que nos permite corregir el
resultado del experimento mediante el análisis de la covariación con la variable
a estudiar. Esta problemática es un caso de un análisis de la covarianza
ANALISIS DE VARIANZA
RELACION F
PROCEDIMIENTO
Tratamientos
1 2 3 ……. K
x1 1, x1 2 , x1 3 , xk 1
x2 1 , x2 2 , x2 3 , x2 k
...............................
T1 .. T2 .. T3 .. T .1..
Total : T .1 T ..2 T .3 T. K T ...
Medias: X .1 X .2 X .3 X .K X ..
2. Supuestos
Junto con las suposiciones que fundamenta el análisis, se presenta el
modelo de cada diseño estudiado.
El modelo es una representación simbólica de un valor representativo
del conjunto de datos:
El modelo del ANOVA unilateral es:
xij j ij
i= 1, 2,3,…, nj j= 1,2,…, k
3. Hipótesis
H 0 : 1 2 ... k
H A : no todas las Muestras son iguales
H0 : j 0 , j 1,2,.....k
H A : no todas las j 0
4. Estadística de prueba
Es el cálculo de la razón de las varianzas (R.V.), son las mismas
6. Regla de decisión
Es rechazar la Ho, si el valor calculado para R.V. es mayor o igual que
el valor critico de F con un nivel alfa
Sumas de cuadrados
a. Sumas de cuadrados para el total
b. Suma de cuadrados entre de los grupos
c. Suma de cuadrados dentro grupos
Grados de libertad
a. Grados de libertad para el total : n-1
b. Grados de libertad entre grupos (muestras) : k - 1
c. Grados de libertad dentro de los grupos n- k
Cuadrados medios
a. Cuadrados medios entre grupos : CME = SCE/k-1
b. Cuadrado medio dentro de los grupos : CMD = SCD/n – k
8. Decisión estadística
Comparar la R.V. Calculada con el valor crítico de F (se obtiene en la
tabla) con los grados de libertad ( k – 1)/(n – k)
Si R.V. Es mayor o igual al valor crítico de F la hipótesis nula se
rechaza.
R.V . Ftabla
9. Conclusión
Si se rechaza se concluye que no todas las medias son iguales.
10. Cálculo del valor p
EJEMPLO
Tratamientos
Programa 1 Programa 2 Programa
85 80 82
72 84 80
83 81 85
80 78 90
…. 82 88
Total : 320 405 425 T .. 1150
n: 4 5 5 n.. = 14
Medias: 80 81 85 X .. 82.14
CUALITATIVAS INDEPENDIENTES
INTRODUCCION
Una variable ficticia o imaginaria solo toma un numero finito de valores para
identificar las diferentes categorías de una variable cualitativa, también se les
conoce con el nombre de indicativas y solo cuando se trata de dos valores se
les llama dicotómicas (como 0,1).
Aplicativo
Solución
Haciendo uso del programa SPSS
Yˆ b0 b1 X 1 b2 X 2
Yˆ 12.21X 1 0.791 5.11X 2
El uso de la variable ficticio sexo dará lugar a dos rectas de regresión, una para
hombres y otra para mujeres. Las rectas tienen l misma pendiente, pero
diferentes ordenadas en el origen. Es decir la ecuación da lugar a dos rectas de
regresión paralelas, que inician con valores diferentes.
Como se ha codificado a hombres con cero, la ecuación será:
Yˆ b0 b1 X 1 b2 X 2
Yˆ 12.21X 1 0.791 5.11(0) 2
Yˆ 12.21X 0.791
1
COMPROBACIÓN DE LA NORMALIDAD
Procedimiento
i 0.5
Yi X Sˆ R ,
1
i 1,2, . . . , n
n
3. Representar : i , Yi
Herramientas
Gráficos de residuos:
Frente a valores previstos
Frente a tratamientos (o factor,etc.)
Contrastes formales:
Bartlett, Cochran, Hartley, Levene
HETEROCEDASTICIDAD:
a veces la dispersión aumenta conforme la media crece.
En cada grupo los residuos aparecen esparcidos con dispersión similar y media
cero
MODULO
ESTADISTICA NO PARAMETRICA
INTRODUCCION
Supóngase que en una determinada muestra se observan una serie de posibles sucesos E1,
E2, E3, . . . , EK, que ocurren con frecuencias o1, o2, o3, . . ., oK, llamadas frecuencias
observadas y que, según las reglas de probabilidad, se espera que ocurran con frecuencias
e1, e2, e3, . . . ,eK llamadas frecuencias teóricas o esperadas.
Definición de X2
2
Si X = 0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si
2 2
X >0, no coinciden exactamente. A valores mayores de X , mayores son las discrepancias
entre las frecuencias observadas y esperadas.
Si las frecuencias esperadas son al menos iguales a 5, la aproximación mejora para valores
superiores.
El número de grados de libertad está dado por:
=k–1–m
donde:
Ensayo de Hipótesis
demasiado bien con las esperadas. Para examinar tales situaciones, se puede determinar si el
2 2
valor calculado de X es menor que las X críticas o de tabla (ensayo unilateral izquierdo), en
cuyos casos se decide que la concordancia es bastante buena.
Ejemplos:
1. La siguiente tabla muestra las frecuencias observadas al lanzar un dado 120 veces.
Ensayar la hipótesis de que el dado está bien hecho al nivel de significación del 0.05.
Cara 1 2 3 4 5 6
Frecuencia
25 17 15 23 24 16
Observada
Solución:
Hipótesis:
Ho; Las frecuencias observadas y esperadas son significativamente iguales. (dado bien hecho)
Primero se procede a calcular los valores esperados. Como es bien sabido por todos la
probabilidad de que caiga cualquier número en un dado no cargado es de 1/6. Como la suma
de los valores observados es de 120, se multiplica este valor por 1/6 dando un resultado de 20
para cada clasificación.
Cara 1 2 3 4 5 6 Total
No se tuvo que calcular ningún parámetro para obtener las frecuencias esperadas.
Regla de decisión:
2
Si X R 11.1 no se rechaza Ho.
2
Si X R >11.1 se rechaza Ho.
Cálculos:
Justificación y decisión:
Como 5 es menor a 11.1 no se rechaza H o y se concluye con una significación de 0.05 que el
dado está bien hecho.
2. En los experimentos de Mendel con guisantes, observó 315 lisos y amarillos, 108 lisos y
verdes, 101 rugosos y amarillos y 32 rugosos y verdes. De acuerdo con su teoría, estos
números deberían presentarse en la proporción 9:3:3:1. ¿Hay alguna evidencia que permita
dudar de su teoría al nivel de significación del 0.01?
Solución:
Hipótesis:
lisos y amarillos
lisos y verdes
rugosos y amarillos
rugosos y verdes
No se tuvo que calcular ningún parámetro para obtener las frecuencias esperadas.
Regla de decisión:
2
Si X R 11.3 no se rechaza Ho.
2
Si X R >11.3 se rechaza Ho.
Cálculos:
Justificación y decisión:
4. Como 0.470 es menor que 11.3 no se rechaza Ho y se concluye con un nivel de significación
de 0.01 que la teoría de Mendel es correcta. Como el valor de 0.470 está cercano a cero, se
procede a hacer un ensayo unilateral izquierdo:
Hipótesis:
Regla de decisión:
2
Si X R 0.115 no se rechaza Ho.
2
Si X R < 0.115 se rechaza Ho.
3. Una encuesta sobre 320 familias con 5 niños dio la distribución que aparece en la
siguiente tabla. ¿Es el resultado consistente con la hipótesis de que el nacimiento de
varón y hembra son igualmente posibles? Use = 0.05.
Número de niños 5 4 3 2 1 0
Número de niñas 0 1 2 3 4 5
Solución:
Hipótesis:
Este experimento tiene un comportamiento binomial, puesto que se tienen dos posibles
resultados y la probabilidad de éxito se mantiene constante en todo el experimento.
Se le llamará éxito al nacimiento de un varón o niño. Por lo que la variable aleatoria "x"
tomará valores desde 0 hasta 5.
Si cada una de estas probabilidades se multiplican por 320 se obtienen los valores
esperados:
Número de niños 5 4 3 2 1 0
Total
Número de niñas 0 1 2 3 4 5
Regla de decisión:
2
Si X R 11.1 no se rechaza Ho.
2
Si X R >11.1 se rechaza Ho.
Cálculos:
Justificación y decisión:
4. Una urna contiene 6 bolas rojas y 3 blancas. Se extraen al azar dos bolas de la urna, se
anota su color y se vuelven a la urna. Este proceso se repite un total de 120 veces y los
resultados obtenidos se muestran en la siguiente tabla. Determinar al nivel de significación
del 0.05 si los resultados obtenidos son consistentes con los esperados.
0 1 2
Bolas blancas 2 1 0
Número de extracciones 6 53 61
Solución:
Este experimento tiene las características de una distribución hipergeométrica, por lo cual se
calcularán los valores esperados con el razonamiento de esta distribución.
Se llamara "x" a la variable aleatoria de interés que en este caso serán las bolas rojas. Por lo
tanto "x" puede tomar valores desde 0 hasta 2.
Se tiene:
Con las probabilidades anteriores se obtendrán los valores esperados multiplicando por 120.
0 1 2
Bolas blancas 2 1 0
Número de extracciones 6 53 61
Frecuencias esperadas 10 60 50
Regla de decisión:
2
Si X R 5.991 no se rechaza Ho.
2
Si X R >5.991 se rechaza Ho.
Cálculos:
Justificación y decisión:
PRUEBA DE CHI-CUADRADO