PROBABILIDAD

PROBABILIDD E INFERENCIA
Dra. SARA ADELINA ARANA LOPEZ
MODULO
PROBABILIDAD E INFERENCIA
LIMA, 2018
Se reserva derechos de autor 1

I. PROBABILIDADES
1.1. Introducción a Probabilidades

1.2. Definición de Probabilidad
1.3. Experimento Aleatorio, Espacio Muestral, Evento, Suceso
1.4. Algebra de Eventos
1.5. Axiomas, Teoremas
1.6. Variable Aleatoria: Discreta, Continua
1.7. Distribuciones de probabilidad discretas (Binomial, Poisson,
Hipergeométrica)
1.8. Distribuciones De Probabilidad Continuas (Normal, T, Chi-Cuadrada, F)
II. INFERENCIA
2.1. Introducción
2.2. Definiciones
2.3. Estimaciones
2.4. Estimaciones Puntuales
2.5. Estimaciones por Intervalos
2.5.1. Estimaciones para la Media (para una y dos poblaciones)
2.5.1.1. Para la Media con Varianza Conocida
2.5.1.2. Para la Media con Varianza Desconocida
2.5.2. Estimaciones para la Proporción
2.5.3. Estimaciones para la Varianza
2.6. Pruebas De Hipótesis
2.6.1. Prueba de hipótesis para la media
2.6.2. Prueba de hipótesis para la varianza
2.6.3. Prueba de hipótesis para la proporción
2.7. Errores
2.8. Análisis de Regresión
2.9. Análisis de varianza
2.10. Pruebas no paramétricas

MODULO
PROBABILIDADES

INTRODUCCION A PROBABILIDADES
En estadística descriptiva hemos aprendido a definir, una población, una muestra,

variable, el agrupamiento de las observaciones de los elementos de la muestra en
tablas y gráficos, así como, determinar un valor representativo de todo el conjunto de
muestras, la variabilidad de los datos, así, como el porcentaje de variación, aplicando
los métodos de las medidas de resumen o estadísticos. Es muy importante de estos
temas tener el conocimiento básico, para continuar con el enlace en probabilidades.
En la gran mayoría de los casos nos vemos limitados a realizar una observación
parcial de la variable. Al conocer las características de toda la población, se intenta
inferir su comportamiento. Así una empresa antes de lanzar un nuevo producto estará
interesada en conocer cuál puede ser su cuota de mercado, para lo cual realizará un
sondeo de opinión entre algunos de sus potenciales clientes. Pero el resultado de ese
sondeo, basado en una muestra (observación parcial), no le permite concluir cuál será
su verdadera cuota de mercado. La decisión que tome respecto a ese producto estará
marcada por un cierto grado de incertidumbre
En nuestro día a día, el termino probabilidad esta en nuestro lenguaje, aunque, no
tengamos ningún conocimiento previo de la existencia de una teoría sobre
probabilidades. Probabilidad de llegar temprano al trabajo, probabilidad de no
excederse en los gastos, probabilidad de ganar un torneo, probabilidad de ser ser
ascendido en nuestro centro de trabajo, probabilidad de conseguir un trabajo,
probabilidad de tener incrementar las ventas, probabilidad que tiene una empresa de
expandirse a nuevos mercados, probabilidad de acceder a mercados externos que
tiene una empresa, para un estudiante, probabilidad de aprobar una materia,
probabilidad de cambiar el proceso de enseñanza – aprendizaje, probabilidad de ser
aceptado en un grupo, para una ama de casa probabilidad de que el presupuesto para
su canasta de productos básicos sea la adecuada . Es decir, hablar de probabilidad,
es hablar de cierta incertidumbre el desarrollo del evento.

1.1 Introducción a Probabilidades

1.2. Definición de Probabilidad
1.3. Experimento Aleatorio, Espacio Muestral, Evento, Suceso
1.4. Algebra de Eventos
1.5. Axiomas, Teoremas
1.6. Variable Aleatoria: Discreta, Continua
1.7. Distribuciones de probabilidad discretas (Binomial, Poisson,
Hipergeométrica)
1.8. Distribuciones De Probabilidad Continuas (Normal, T, Chi-Cuadrada, F)
1.2. DEFINICIÓN DE PROBABILIDAD
La probabilidad de un suceso, es una medida cuantificada de las ocurrencias

del suceso frente a los demás sucesos del experimento.
Grado de incertidumbre en la ocurrencia de los resultados de un experimento
Esta medida cuantificable que toma valores entre cero y uno
0  P( A)  1
Condiciones
1. P( A)  1 : suceso seguro
2. 0  P( A)  1 : suceso posible
3. P( A)  0 : sucesoimposible
 Obtener un seis al lanzar un dado honesto.

 Obtener un seis al lanzar un dado cargado.
 Que la tasa de crecimiento del PBI del país sea superior al 4%.
OBJETIVOS
1. Comprender y utilizar la información en base a una muestra elegida al azar

de la población
2. Usar reglas básicas para evaluar la posible ocurrencia de los diferentes
fenómenos
3. Identificar si la muestra en estudio es discreta o continua

1.2. Defecciones de probabilidad: Clásica, por Frecuencia Relativa,

Subjetiva
Para obtener esas probabilidades hay que recurrir a enfoque o

definiciones distintas. Los enfoques sirven para establecer reglas de
asignación de probabilidades a los sucesos más que para definir la
probabilidad. Sin embargo la definición de probabilidad se ha dado a
través del tiempo de tres formas diferentes de definir e interpretar
probabilidad
DEFINICIONES DE
PROBABILIDAD
DEFINICION DEFINICION
CLASICA DEFINICION POR SUBJETIVA
FRECUENCIA
RELATIVA
A. Probabilidad Clásica o A Priori (Regla de Laplace).
El experimento ( ) que se está realizando da lugar a un espacio

muestral () , que es finito y cuyos resultados son conocidos de
antemano y equiprobables o simétricos, entonces, la probabilidad del
suceso A perteneciente a ( ) se define como el cociente de los
resultados favorables a respecto del total de resultados posibles
Número deresultad os posibles

P ( A) 
Número de resultados favorables a ( A)
A esta expresión se le conoce como regla de Laplace. El concepto

está ligado a los juegos de azar. Satisface tres propiedades
1. No negatividad, P(A) diferente de cero.
2. Certeza, P(E) =1.

3. Aditividad. Si A y B son dos sucesos del espacio () y ambos

son mutuamente excluyentes, entonces la probabilidad de C será:
P(C) = (PA)+P(B)
B. Probabilidad Frecuencial o A Posteriori.
En este caso la probabilidad de un suceso A, se define como el límite

de una frecuencia relativa, cuando el experimento se realiza un
número infinito de veces.
n ( Ai )
P ( A)  lim n   , i 1,2,3,..., k
n
C. Probabilidad Subjetiva
Expresa un grado de creencia o confianza individual en relación con la

ocurrencia o no de un determinado suceso. Se trata de un juicio
personal sobre el resultado de un experimento aleatorio. Además se
admite la posibilidad de que distintos sujetos asignen probabilidades
diferentes al mismo suceso. no son aplicables ninguna de las dos
definiciones dadas anteriormente, por lo que no es posible asignar
probabilidades mediante un procedimiento objetivo, debiendo recurrir
a procedimientos de tipo subjetivo, a opiniones de expertos
Cumple con las tres condiciones de probabilidad
1.2 EXPERIMENTO ALEATORIO, ESPACIO MUESTRAL, EVENTO, SUCESO
 Experimentos o fenómenos aleatorios ( )

Pueden dar lugar a varios resultados, sin que pueda ser previsible
enunciar con certeza cuál de éstos va a ser observado en la realización
del experimento.
“es decir los resultados no se pueden predecir”
Ejemplo:
 Lanzar un dado y observar el lado superior

 Obtener un seis en un dado cargado

 Que la tasa de crecimiento del PBI del Pais sea superior al 4%
 Espacio Muestral 
Es el conjunto de todos los resultados posibles del experimento

aleatorio
 Eventos: A,B,…
Es un subconjunto del espacio muestral. Se utiliza las primeras letras

del alfabeto para definir un evento: A, B, C, …
Suceso

Son todos los elementos del espacio muestral
  1 , 2 , 3 , .. . , 8 
EJEMPLO:
(  ): Lanzar una moneda tres veces y observar los resultados
SOLUCION
PROBABILIDADES - EXPERIMENTO ALEATORIO
Lanzar Una Moneda Tres Veces

LANZAR UN DADO TRES V ECES
O
T
N
IE
W 1 / 8
M
C
A
Z
N
A
L
º
O
3
T
N
IE
C
M
A
Z
N
A
L
º
W 1 / 8
2
W
S
C
1 / 4
O
NT
IE
W
1 / 8
AM
W
C
NZ
LA
1 / 2
S
1º
W
W 1 / 8
S
1 / 4
W 1 / 8
C
W 1 / 8
S C
1 / 4
W W 1 / 8
C
1 / 2
W 1 / 8
C
W
1 / 4
  cccc , css, ccs , csc, scc, ssc, scs, sss
X: Caras SUCESOS fi P(x)

0 {sss} 1 1/8
1 {css, scs, ssc} 3 3/8
2 {ccs, csc, scc} 3 3/8
3 {ccc 1 1/8
Total 8 sucesos 8
Evento A: que en la cara superior de la moneda aparezcan dos caras
A = {CCS), (C,S,C), (S,C,C) }
El número de resultados posibles es N(A) = 3.
N(A) 3
P(A)    0,375
N() 8
SUCESOS 
   1,  2,  3,  4,  5,  6,  7,  8 
1.4. ALGEBRA DE EVENTOS
En la definición de evento se pudo apreciar que un evento es un conjunto,

por lo que los eventos heredan las propiedades y teoría general de los
conjuntos:
Unión de Eventos
Sean A y B dos eventos cualesquiera del espacio de eventos. La unión de
los eventos A y B es el evento que consta de los elementos que pertenecen
tanto a A como a B y se representa por (A  B).

  1
A B
 A  B   I   /  I  A o  I  B
Complemento de Eventos
Intersección de Eventos
 1
A B ( A B)
 A  B  I   /  i  A y B A      / 
c
I i no  B 

Igualdad de Eventos
Inclusión de Eventos
A  B, si w  A  w  B. A = B, si A  B y B  A.
Eventos Mutuamente Excluyentes

Diferencia de Eventos
Sean A y B eventos de , entonces:

A – B = { w   / w  A y w  B }. AB=
1.5. AXIOMAS, TEOREMAS
Axioma 1: Axioma 2: Axioma 3:
0  P A  1 P  1
   P A 
K
P K
i 1 Ai  i
i 1

TEOREMAS
TEOREMA 1:
P  P  P 
TEOREMA 2:
 
P AC  1  P A
TEOREMA 3
P A  Bi   P( A)  P(B)  P( A  B)
TEOREMA 4: TEOREMA CONDICIONAL
P( A  B)
P A / Bi  
P( B)
TEOREMA 5: TEOREMA DE BAYES
P A / Bi  
P( A) P( A / B)
P( A1 ) P( A / B1 )  P( A2 ) P( A / B2 )  ...  P( An ) P( A / Bn )
1.6. VARIABLE ALEATORIA: DISCRETA, CONTINUA
A. VARIABLE ALEATORIA
Es una función que asigna a cada elemento del espacio muestral uno y solo un
número real.
X  X ( )

Variable aleatoria discreta:
Una variable aleatoria X, es discreta si, los valores que toma la variable son
enumerarles.
 Función de probabilidad
Es la función que a cada valor de la variable aleatoria X le asigna su

probabilidad de ocurrencia.
P ( xi )  P  X  xi 
 Condiciones de la función de probabilidad
1. 0  P ( x) 1
2.  P ( xi 1)
 Representación de la función de probabilidad
Tabla :
x x1 x2 x3 . . . xk
P ( xi )  P X  xi  P ( x1 ) P ( x2 ) P ( x3 ) . . .
Grafico
p ( xi )
p ( x3 )
p ( x2 ) p ( x4 )
p ( x15 )
p ( x1 ) p ( x6 )
x1 x21 x3. x4 x5 x6 X

Valor esperado de la variable aleatoria

k
E ( xi )   xi pxi 
i 1
Donde
E(x): valor esperado
P(x): probabilidad de X
xi : valores de la variable
Varianza de la variable aleatoria
k
V ( xi )   ( xi  E ( x)) 2 pxi 
i 1
Ejemplo
Veamos el caso del experimento de lanzar una moneda 3 veces, para

calcular el valor esperado y la varianza de la variable aleatoria X
Tabla: de distribución de probabilidad discreta
X 0 1 2 3 Total
P ( xi )  1/8 3/8 3/8 1/8 1
E ( xi ) 0*1/8 1*3/8 2*3/8 3*1/8 1.5

V ( xi ) 0  1.52 *1 / 8 1 1.52 *3 / 8 2 1.52 *3 / 8 3 1.52 *1 / 8 …..
Gráfico: de distribución de probabilidad discreta

B. VARIABLE CONTINUAS
Una variable aleatoria es continua, si su proceso se efectúa bajo el área

de una curva. Es decir si el rango de la variable aleatoria es un intervalos
o un conjunto de intervalos
 x
1.7. Distribuciones de probabilidad discretas (Binomial,
Poisson, Hipergeométrica)
DISTRIBUCIÓN BINOMIAL
Es una distribución que provienen de un experimento que consiste en “n”

pruebas o ensayos de Bernuolli.
CARACTERISTICAS
a. Se realizan “n” pruebas y todas deben ser idénticas e independientes (el

resultado de cualquier ensayo particular no afecta el resultado de cualquier
otro ensayo
b. Cada ensayo debe dar lugar a dos posibles resultados, llamados éxito (E)
o fracaso (F), que deben ser mutuamente excluyentes.
c. “p” es la probabilidad de éxito en cada prueba y debe ser invariante, y la
probabilidad de fracaso es q = 1-p
d. Los valores de la variable aleatoria varían desde cero hasta “n”.
Se define la variable aleatoria Binomial:

X : Nº de éxitos en “n” pruebas o ensayos
Rx = 0, 1, 2,3,……..,n
p = probabilidad de éxito
1 – p = probabilidad de fracas (1 – p = q)
Función de Probabilidad
n
 n, x, p     p x q n x
Se reserva derechos de autor
 x 15
Donde
 n, x, p  : Distribución Binomial

n: tamaño de la muestra
x: observación seleccionada
p= probabilidad de éxito
q: probabilidad de fracaso
EJEMPLO 1:
El tratamiento de la gripe con vitamina C produce un efecto curativo

en 75% de los casos. Se seleccionan 6 pacientes al azar. ¿Cuál es
la probabilidad de que, luego del tratamiento?
a. Ninguno este curado
b. A lo más 1 este curado
c. Al menos cinco estén curado
SOLUCION
X: N° de pacientes curados
n: 6 pacientes
X  B(n  6; p  0.75)
Rx  0,1,2,3,4,5,6
a. P( X  0)  C06 0.7500.256  2.4414 x104
La probabilidad de que ningún paciente se cure es 0.0002441
b. P( X  1)  P( X  0)  P( X  1)  C06 0.7500.256  C16 0.7510.255 

 4.6387 x103
La probabilidad de que a lo mas uno sea curado es 0.00464
c. P( X  5)  P( X  5)  P( X  6)  C56 0.755 0.251  C66 0.75 6 0.25 0 

 0.5339

La probabilidad de que al menos cinco estén curados es : 0.534
EJEMPLO 2
Supongamos que la probabilidad de que una pareja tenga un hijo o una hija es
igual. Calcular la probabilidad de que una familia con 6 descendientes tenga 2
hijos.
SOLUCION
Éxito = E = “tener hijo” y p(E) = 0’5.

Fracaso = F = “tener hija” y p(F) = q = 1-P = 0’5.
Binomial B(6; 2 ;0’5)
6
p( x)    * (0.5) 2 * (0.5) 4  0.2344
 2
La probabilidad de que la familia tenga dos hijos es 0.2344
DISTRIBUCIÓN DE POISSON
Un ensayo de Poisson, es un experimento en el que el número de ocurrencias

de un evento es observado en un intervalo de tiempo.
Una variable aleatoria X tiene una distribución de Poisson con
parámetros , si su función de cuantía esta definido
 x
e 
p ( x) 
x!
Donde:
p(x) : Probabilidad de X
 : Promedio
e : Constante (2.71828)

x : Observaciones seleccionadas
EJEMPLO:
El gerente de un establecimiento desea conocer la probabilidad de que

exactamente cinco clientes lleguen en una hora determinada al trabajo. Tiene
conocimiento de que en las últimas 80 horas entraron al establecimiento 800
clientes, si promedio es 10 clientes por hora
Solución :
p ( x)  4 :
 : 10 clientes por hora
e : (2.71828)
x : 5 clientes
10 5 (2.71828) 10
p( x)   0.378  0.4
5!
La probabilidad que durante la próxima hora lleguen cinco clientes es 0.4, o un
4% hay de posibilidad que en la próxima entren al establecimiento 5 clientes.
DISTRIBUCION HIPERGEOMETRICA
Suponga que tenemos “N” artículos de los cuales “A” son éxitos y “N-A”
son fracasos.
El experimento “Hipergeométrico” consiste en escoger al azar una muestra
de tamaño “n”, uno por uno sin Sustitución o Reemplazamiento

Se define la v.a.con distribución Hipergeométrica
Función de Probabilidad
 M  N M  
 
 
n x 
 
 X    , x  0,1,2,..., min( n, M ) 
 N 
 
n 
 
   
 
P ( X  x)  
0 en otros casos 
 
 
 
 

 

P (x) : probabilidad de x
N: Población ( se divide en dos clases)
X: Nº de éxitos en la muestra (de los éxitos en M)
M: Elementos de éxito de una clase de la población
N – M: elementos de fracaso en la otra clase de la población
n: tamaño de la muestra
EJEMPLO
Una empresa que se dedica a la comercialización de carros de fabricación

extranjera, tienen 10 automóviles para la venta, pero saben que cuatro de ellos
presentan cierta falla. Cuál es la probabilidad de elegir una muestra de 3
automóviles en la cual 2 de ellos presenten la falla?
SOLUCIÓN
N: 10 autos
M : cuatro autos con falla
n: 3 autos
x: 2 autos fallados
 4  10  4 
   
 2   3  2 
P( x  2)   0.30
10 
 
3 
La probabilidad que 2 autos estén fallados es 0.30

1.8. DISTRIBUCIONES DE PROBABILIDAD CONTINUAS

(NORMAL, T, CHI-CUADRADA, F)
NORMAL
Es la distribución más importante de probabilidades y la estadística inferencial,

se aplica a innumerable procesos en diversas especialidades como: medicina,
biología, ingeniería, farmacia, economía, ..etc. sobre esta distribución se
sustentan las otras distribuciones continuas.
Se puede aplicar en casos puntuales como una aproximación en el empleo de
variables discretas
Característica
 Se distribuye desde menos infinito a mas infinito

 Tiene la forma de campana
 Es simétrica. Las colas se prolongan hasta el infinito (nunca tocan el eje de
las x)
 El punto más alto es la media
 La media puede ser cualquier valor numérico
 Hay familias de distribuciones normales. Cada una se identifica por su media
y su desviación estándar
 Las desviaciones estándares determinan el ancho de la curva
 El área total es 1
La función de densidad de la normal

La función de densidad de la distribución norma se expresa como

 x   2
1
f ( x)  e 2 2
 2
 : promedio ó media de la población

 : desviación s tan dar
N  ,  

DISTRIBUCION DE DISTRIBUCION NORMAL ESTANDAR
 Cuando tenemos una distribución normal con media 0 y desviación estándar

1 se habla de una distribución normal estándar
 El valor de z indica la variable aleatoria normal
FUNCIÓN DE DENSIDAD
2
1 -x
f(x) = e 2 ; -  < x < +
2π
PROPIEDADES
a 
1. P( x  a)  P 
  
a
2. P( x  b)  1  P 
  
b  a
3. P(a  x  b)  P   P 
     
Uso de Tablas: Normal Acumulativa
Z F(Z) Z F(Z) Z F(Z)

–4 0.00003 0.0 0.50000 1.64 0.94950
– 3.9 0.00003 .. ..
– 3.5 0.00023 0.5 0.69146 ..
–… 1.96 0.9750
– .. .. ..
– 1.96 0.02500 .. 2.00 0.97725
– .. 1.00 0.84134 ….
– .. 1.5 0.93319 3.99 0.99997
– -1.64 0.05050 1.59 0.94408 4 0.99997
En las tablas como las del modelo la distribución normal estándar, se distribuye
desde Z = - 4 hasta Z = 4, frente a cada valor de Z se observa a su respectiva
probabilidad.
Ejemplo :
La probabilidad para Z = - 4 es 0.00003

Probabilidad para Z = 4 es 0.99997

Como podemos observar, si sumamos las dos probabilidades de los valores

de Z esta suma es 1; tal como observamos en el ejemplo, la suma de las
probabilidades cuando Z toma los valores de – 4 y cuando es + 4, es 1.
Es decir como la distribución normal es simétrica, al encontrar la probabilidad
para un valor de Z (+), automáticamente se halla la probabilidad para el valor
inverso de Z(-), es decir su complemento
P(Z = -1.64) = 0.05050 P(Z = 1.64) = 0.9495
Teorema del limite central
Es importante por que justifica la importancia de la distribución normal.

Sea X 1 , X 2 , X 3 , , X n una sucesión de n – variables aleatorias
independientes, idénticamente distribuidas. Con media y varianza conocidas y
finitas.
E X i    y Var ( X )   2
Si:
Yn  x1 , x2 , x3 , xn
Se tiene:
X 
Z  Tiene aproximación a N (0,1)
 n
3.9. Distribuciones Muestrales (media, proporción)
A. Distribución de la Media
Sea Yn  x1 , x2 , x3 , xn una muestra aleatoria de tamaño n de una

variable aleatoria X con media  y varianza  2 .
La distribución de la media muestral es aproximadamente una normal
con:
2
x    Var ( xi ) , la variable aleatoria X  N (0,1) X
n
X 
Z   N (0,1)
 n

Ejemplo:
Un especialista en Psicologia, luego de realizado un estudio sobre el tiempo

que tardan un grupo de adolescentes en responder un test sobre vocación
profesional, manifiesta que estos tiempos se distribuyen normalmente, con
media 12 minutos y desviación estándar 6 minutos, obtenidos de una muestra
de 10 empleados, se desea conocer:
a. ¿cuál es la probabilidad de que el tiempo promedio que usan los alumnos

para responder un test sea mayor de 15 y menor de 17 minutos?
b. Si los alumnos demoran en promedio 9 minutos en contestar el test,
entonces los primeros alumnos reciben una sorpresa: ¿Cuál es la
probabilidad de que esto suceda? Tarea para el alumno
Solución
X: tiempo que demoran los estudiantes en responder un test vocacional.
X-------- N(12,6)
n = 10 alumnos
Promedio= 12 minutos
Desviación estándar = 6 minutos
 17  12   15a  12 
P(15  x  17)  P   P 

 6   6 10 
B. Distribución de la Proporción
Para un tamaño de muestra grande, la distribución de la proporción de la

muestra es aproximadamente una normal.
Por lo tanto la probabilidad respecto a la proporción es:

p  p(  )
Z 
p(1  p )
n
p: proporción

Ejemplo:
En una instituto superior de enseñanza se conoce que de la población de mujeres, el

90%, tiene cierta incertidumbre sobre su futuro laboral, si se extrae de la población una
muestra de 200 mujeres.
a. ¿Cuál es la probabilidad de que la proporción de la muestra de las mujeres, que ha

tenido algún trabajo temporal sea menor de a0.85?
b. Cuál es la probabilidad de que la proporción de la muestra que no ha tenidos un

trabajo laboral sea 0.70?
Solución
p  0.90
pˆ  0.85
n  200

p  p(  ) 0.85  0.90
Z  Z    2.36
p(1  p) 0.90(0.10)
n 200
p(Z   2.3)  0.009

MODULO
PROBABILIDAD E INFERENCIA

INTRODUCCION
Inferencia estadística es un conjunto de métodos de la ciencia estadística, que

permite inducir, a partir de la información empírica proporcionada por una
muestra, sobre el comportamiento de una determinada población con un error
medible en términos de probabilidad, es decir, Inferencia Estadística es el
procedimiento que permite realizar afirmaciones de naturaleza probabilística
respecto a una población, en base a resultados obtenidos de una muestra
seleccionada de forma aleatoria de una población.
Las poblaciones son descritas por medidas numéricas descriptivas, llamados

parámetros, se puede hacer inferencias acerca de la población haciendo
inferencia respecto a sus parámetros.
La inferencia estadística se pueden dividir, básicamente, en: métodos de
estimación de parámetros y métodos de contraste de hipótesis. Ambos
métodos se basan en el conocimiento teórico de la distribución de probabilidad
del estadístico muestral que se utiliza como estimador de un parámetro.
La estimación de parámetros consiste en asignar un valor concreto al

parámetro o parámetros que caracterizan la distribución de probabilidad de la
población. Cuando se estima un parámetro poblacional, aunque el estimador
que se utiliza posea todas las propiedades deseables, se comete un error de
estimación que es la diferencia entre la estimación y el verdadero valor del
parámetro. El error de estimación es desconocido por lo cual es imposible
saber en cada caso cual ha sido la magnitud o el signo del error; para valorar el
grado de precisión asociado con una estimación puntual se parte de dicha
estimación para construir un intervalo de confianza. En síntesis, un intervalo de
confianza está formado por un conjunto de valores numéricos tal que la
probabilidad de que éste contenga al verdadero valor del parámetro puede
fijarse tan grande como se quiera. Esta probabilidad se denomina grado de
confianza del intervalo, y la amplitud de éste constituye una medida del grado
de precisión con el que se estima el parámetro.

Los métodos de contraste de hipótesis tienen como objetivo comprobar si

determinado supuesto referido a un parámetro poblacional, o a parámetros
análogos de dos o más poblaciones, es compatible con la evidencia empírica
contenida en la muestra. Los supuestos que se establecen respecto a los
parámetros se llaman hipótesis paramétricas. Para cualquier hipótesis
paramétrica, el contraste se basa en establecer un criterio de decisión, que
depende en cada caso de la naturaleza de la población, de la distribución de
probabilidad del estimador de dicho parámetro y del control que se desea fijar a
priori sobre la probabilidad de rechazar la hipótesis contrastada en el caso de
ser ésta cierta.
En todo contraste intervienen dos hipótesis. La hipótesis nula (Ho) es aquella
que recoge el supuesto de que el parámetro toma un valor determinado y es la
que soporta la carga de la prueba. La decisión de rechazar la hipótesis nula,
que en principio se considera cierta, está en función de que sea o no
compatible con la evidencia empírica contenida en la muestra. El contraste
clásico permite controlar a priori la probabilidad de cometer el error de rechazar
la hipótesis nula siendo ésta cierta; dicha probabilidad se llama nivel de
significación del contraste ( ) y suele fijarse en el 1%, 5% o 10%.
La proposición contraria a la hipótesis nula recibe el nombre de hipótesis
alternativa (H1) y suele presentar un cierto grado de indefinición: si la hipótesis
alternativa se formula simplemente como 'la hipótesis nula no es cierta', el
contraste es bilateral o a dos colas; por el contrario cuando se indica el sentido
de la diferencia, el contraste es unilateral o a una sola cola.
Cuando se realiza un contraste con el SPSS no se fija el nivel de significación
deseado, el programa calcula el valor-p o significación asintótica, que es la
probabilidad de que el estadístico de prueba tome un valor igual o superior al
muestral bajo el supuesto de que la hipótesis nula es cierta. Por tanto, si el
valor-p es menor o igual que el nivel de significación deseado se rechazará Ho.
Un valor-p próximo a cero indica que se rechazará la Ho para cualquier nivel de
significación.

Cada acción de un proceso estadístico está asociado a un Nivel de confianza

(probabilidad de haber acertado al decir que el parámetro está contenido en el
intervalo), y a un Nivel de significancia (probabilidad de equivocarnos: es un
error).
La estadística inferencial permite analizar información en base a datos

históricos y actuales, para realizar estimaciones, proyecciones a futuro para
tomar decisiones con mayor precisión, en todo proceso de investigación, y/o
administración.
INFERENCIA
ESTIMACIONES ERRORES
HIPOTESIS
PUNTUALES POR INTERVALOS
DE CONFIANZA
PARA LA PARA LA
MEDIA PROPORCION

INDICE
1. Introducción
2. Definiciones
3. Estimaciones
3.1. Estimaciones Puntuales
3.2. Estimaciones por Intervalos
3.2.1. Estimaciones para la Media (para una y dos poblaciones)
3.2.1.1. Para la Media con Varianza Conocida
3.2.1.2. Para la Media con Varianza Desconocida
3.2.2. Estimaciones para la Proporción
3.2.3. Estimaciones para la Varianza
4. Pruebas De Hipótesis
4.1. Hipótesis
4.2. Clases de Hipótesis
4.3. Pruebas de Hipótesis
4.4. Clases de pruebas de hipótesis
4.5. Tipos de pruebas de hipótesis
5. Errores

3. ESTIMACION
ESTIMACION:
Estimación es usar medidas calculadas en una muestra (estimador) para

predecir uno o más parámetros de la población
ESTIMADOR:
Un estimador es expresado en términos de una fórmula matemática obtenida

de la estimación como una función de las medidas muestrales (estadísticos o
estadígrafos)
Propiedades
a. Insesgado:
Sea ˆ un estimador puntual de un parámetro  . Entonces ˆ es un

estimador Insesgado de  :
si : E ˆ  
de lo contrario se dice que es sesgado, un estimador Insesgado es aquel cuya
media o valor esperado de la distribución de las de las estimaciones es igual al
parámetro estimado.
Es decir:
Al aumentar el tamaño de la muestra, su media tiende a coincidir con el
parámetro θ, y por lo tanto, su sesgo tiende a cero.
lim E ˆ  
Esto es:
n 
Dados dos ó más estimadores insesgados de un parámetro , seleccionamos

el estimador con la menor varianza, permaneciendo constante todo lo demás.

Ahora, en lugar de utilizar el sesgo y la varianza para describir la bondad de un
estimador puntual, se puede emplear el valor esperado de

Es decir:
Si el estimador no es Insesgado, entonces la diferencia:
E ˆ   
Es conocida como sesgo del estimador ˆ .
b. Consistente
Se utiliza cuando no es posible utilizar estimador de mínima varianza, ya que a
medida que crece el tamaño de la muestra las estimaciones que nos
proporciona el estimador se aproximan cada vez más al valor del parámetro θ .
Si el estimador es Insesgado o asintóticamente Insesgado (carece de sesgo),
para que sea consistente es suficiente que, cuando el tamaño de la muestra
tiende a infinito (es decir, se hace muy grande), la varianza del estimador se
aproxime a cero. Esto es,
lim Var    0
n
c. Eficiente
La eficiencia de un estimador está vinculada a su varianza muestral. Así, para
un mismo parámetro Ө, se dice que el estimador ˆ1 es más eficiente que el
estimador ˆ2 si se cumple:
Var ˆ1   Var ˆ2 
Si un estadístico es más eficiente que otro, significa que varía menos de unas
muestras a otras. La media es un estimador del parámetro µ es más eficiente
que la mediana. Del mismo modo, la varianza Sn-12 es un estimador de σ2 más
eficiente que Sn2. (demostración para el alumno)

Conclusión:
Considerando todos los estimadores insegados de un parámetro  , el que

tiene varianza mínima se llama estimador eficiente de  , llamado también
estimador de varianza mínima
d. Suficiencia:
Un estimador es suficiente cuando en su cálculo se emplea toda la información

de la muestra.
Por ejemplo, al calcular el estimador X del correspondiente parámetro
poblacional, utilizamos la fórmula:
x
i 1
i
X 
n
Para el cálculo se tienen en cuenta todas las puntuaciones Xi. también ocurre
con los estimadores Sn-12 y Sn2 de la varianza. Todos ellos pueden ser
considerados estimadores suficientes de los respectivos parámetros.
La estimación de un parámetro se puede realizar de dos maneras:
ESTIMACION
PUNTUAL POR INTERVALOS

DE CONFIANZA

4.2. Estimación Puntual
La estimación puntual se refiere a la elección de un estadístico, es decir un

número calculado a partir de los datos muestrales, respecto al cual tenemos
alguna esperanza o seguridad de que esté “razonablemente cerca” del
parámetro (población) que se ha de estimar.
También se dice que es la obtención de un punto, para ello se usan las

medidas de la muestra para calcular un único valor numérico, que es la
estimación del parámetro poblacional.
La estimación puntual de un parámetro desconocido  de la población consiste
en elegir una función de la muestra Y  G  X 1 , X 2 , X 3 , ... , X N  cuyo valor de
Y  G x1 , x2 , x3 , ... , x N  , puede tomarse como el valor de  con cierta

probabilidad
PARAMETRO ESTIMADOR INSESGADO ESTIMACION
Media
X SI x

Varianza
S 2 s2  SI s 
2
2
Desviación típica
S s   NO s

Proporción p̂ SI p̂
P

4.3. ESTIMACIÓN: POR INTERVALOS DE CONFIANZA
La estimación confidencial nos permite determinar un posible rango de valores

o intervalos. Es decir asociar a cada muestra un intervalo. No siempre los
resultados pueden ser los esperados
Es decir, estimar por intervalos es obtener dos valores estadísticos que definen
el intervalo (un límite inferior y un límite superior) con un grado específico de
confianza incluye al parámetro a estimar. La probabilidad de que una
estimación por intervalo incluya al parámetro se denomina nivel de confianza.
4.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA:
Para una población y dos poblaciones
a. para la media (con varianza conocida y con varianza desconocida)

b. para la proporción
c. para la varianza
Procedimiento para obtener un intervalo de confianza
a. Establecer una muestra aleatoria
b. Establecer un nivel de confianza o un determinado nivel de significancia
Nivel de Nivel de Total
confianza: Y significancia: 
0.99. 0.01 1.00
0.975 0.025 1.00
0.95 0.05 1.00
0.90 0.10 1.00
0.80 0.20 1.00

c.Determinar el estadístico de la distribución muestral
Estadístico de la Definición Intervalo

muestra
 Z0  Z 0
Con varianza IC (  ) : X  Z  X    X
1 n n n
conocida 2
Media s
Con varianza IC (  ) : X  Z  * X 
Z0 S
   X 
Z 0S
1 n
desconocida 2 n n
n > 30
s
Con varianza IC (  ) : X  t 2 * X 
t0 S
   X 
t 0S
n  1 , 1 n
desconocida n n
n < 30
P * (1  P P * (1  P) P * (1  P)
Proporción IC ( ) : p  Z 
PZ
1

n
   PZ
1

n
1 n 2 2
2
c. Calcular los valores del intervalo

Z0  Z 0
1     2
X    X
n n
d. Construir el intervalo
e. Interpretación

4.4.1. Intervalos de confianza para la media con varianza

conocida
Ejemplo:
La Facultad de Educación de cierta universidad desea estimar la calificación

media de los expedientes de los alumnos, se conoce por otros cursos que la
desviación estándar de las puntuaciones en la facultad es 2.01 puntos y la
media de la muestra es 4.9. Si se eligen una muestra 25 alumnos en la
Facultad
Hallar el intervalo de confianza para el 90%.
Solución
f. Muestra: n = 25 alumnos
g. Nivel de confianza : 90%
h. Estadístico de la muestra: es Z, se conoce la varianza.
i. Calculo de los valores del intervalo (puntos críticos)

IC (  ) : X  Z 
1 n
2
 4.9  0.66  4.24 , 5.56

2.01
IC (  ) : 4.9  1.64
25
j. Construcción del intervalo
k. Interpretación: el intervalo de confianza para la estimación media

de las calificaciones es 4.24 , 5.56 puntos

4.4.2.Intervalos de confianza para la media con varianza
desconocida
a. Para n > 30
El `presidente de una institución deportiva está interesado en conocer el

promedio de Km recorridos por los participantes de una maratón
realizada el año anterior, para establecer nuevas marcas y mejores
tiempos en la maratón a realizarse por el aniversario de dicha institución,
y así establecer nuevos record. Para ello, selecciona una muestra de
100 maratonistas y obtiene una desviación estándar S= 3.5 Km. y una
media muestral de 20 Km.. Determinar el intervalo de confianza al 95%.
l. Muestra: n = 100 maratonistas

m. Nivel de confianza : 95%
n. Estadístico de la muestra: es Z, no se conoce la varianza. (pero n
> 30).
o. Calculo de los valores del intervalo (puntos críticos)
s
IC (  ) : X  Z  *
1 n
2
3.5
IC (  ) : 20  1.96 *  20  0.56  (19.44, 20.56)
100
p. Construcción del intervalo
q. Interpretación: el intervalo de confianza para promedio de Km

recorridos por los participantes de una maratón es (19.44. 20.56)
km

Ejemplo(n=120,150) y 90% , 99%
b. Para n < 30
Se ha obtenido una muestra de 15 vendedores de una Empresa Editora para

estimar el valor medio de las ventas por trabajador en la Empresa. La media y
varianza de la muestra (en miles de soles) son 5 y 2, respectivamente.
Determinar el Intervalo de confianza para la venta media por trabajador en la
Editorial al 90 %.
r. Muestra: n = 15 alumnos
s. Nivel de confianza : 90%
t. Estadístico de la muestra: es t, no se conoce la varianza
u. La media y la varianza se han obtenido de la muestra (media = 5
y la varianza = 2, desviación estándar =1.464.)
v. Calculo de los valores del intervalo (puntos críticos
s
IC (  ) : X  t 2 *
n 1,1 n
1.464
IC (  ) : 5  1.761*  5  0.666  (4.334, 5.666)
15
w. Construcción del intervalo de confianza
x. Interpretación: el Intervalo de confianza para la venta media por

trabajador es (4.334, 5.666) ventas, al 90% de confiabilidad
ERRORES DE ESTIMACION DE LA MEDIA
Poblaciones Grandes (N) Poblaciones Pequeñas (n)

 S
EZ  * Et  *
1 n 1 n
2 2
4.4.3.Intervalos de confianza para la proporción
p * (1  p)
IC ( ) : p  Z 
PZ
1

p * (1  p)
n
   PZ
1

p * (1  p)
n
1 n 2 2
2
Ejemplo
Se ha obtenido una muestra al azar de 150 vendedores de una empresa de

cemento para estimar la proporción de vendedores que no alcanza un límite de
ventas mínimo establecido por la gerencia de logística. De entre los
seleccionados, 50 no han conseguido llegar al límite de ventas mínimo
establecido. Hallar el Intervalo de confianza para la proporción de trabajadores
en la empresa que no alcanza el límite al 80 %.
y. Muestra: n = 150 vendedores

z. Nivel de confianza : 80%
aa. Estadístico de la muestra: es Z.
bb. Calculo de los valores del intervalo (puntos críticos)
P * (1  P
IC ( ) : p  Z 
1 n
2
0.333* (1  0.333
IC ( ) : 0.333  1.28  (0.28, 0.38)
150
cc. Construcción del intervalo

dd. Interpretación : el intervalo de confianza para los trabajadores que

no alcanzan el límite de las ventas es (0.28, 0.38)
4.5. PRUEBA DE HIPÓTESIS:
Otra manera de hacer inferencia es haciendo una afirmación acerca del valor
que el parámetro de la población bajo estudio puede tomar. Esta afirmación
puede estar basada en alguna creencia o experiencia pasada que será
contrastada con la evidencia que nosotros obtengamos a través de la
información contenida en la muestra. Esto es a lo que llamamos Prueba de
Hipótesis
HIPOTESIS:
Es una proposición, afirmación, verdad anticipada, una aseveración a cerca de

una población o más poblaciones.
A los investigadores les interesa dos tipos de hipótesis:
Hipótesis de Investigación
Es la conjetura o suposición que motiva la investigación, puede ser el resultado

de años de observación por parte del investigador. Conducen directamente a
las hipótesis estadísticas.
Hipótesis Estadística
Se establecen para ser evaluadas por medio de técnicas estadísticas

adecuadas. Estas son las hipótesis objeto de estudio.
Prueba de Hipótesis
Es una regla que cuando los valores experimentales son observados nos
conduce a una decisión, No rechazar “Aceptar”, Rechaza, bajo consideración
CLASES DE PRUEBAS DE HIPOTESIS

A. Hipótesis Nula: Ho
Es la hipótesis que se quiere probar (se formula con la finalidad de ser

rechazada). Se rechaza cuando los resultados de los datos muestrales
así lo demuestran. ( puede tener los signos =, mayor =, menor =).
H 0 :    0 , H 0 :    0 , H 0 :   0
B. Hipótesis Alternativa: H1
Hipótesis que se acepta si la Ho se rechaza.
H1 :  0 , H 0 :   0 , H 0 :   0
TIPOS DE PRUEBAS DE HIPOTESIS
A. HIPÓTESIS UNILATERAL O DE UNA COLA
a. Prueba de la cola inferior o del lado izquierdo
b. Prueba de la cola superior o del lado derecho
B. HIPOTESIS BILATERAL O DE DOS COLAS
HIPÓTESIS UNILATERAL O DE UNA COLA
a. Prueba de la cola inferior o del b. Prueba de la cola superior o

lado izquierdo del lado derecho
región de región de
región región aceptación rechazo
Se reserva
dederechos de autor de 41
1
1




Hipótesis Nula: H o :   0 Hipótesis Nula: H o :   0

Hipótesis Alternativa: H1 :   0
Hipótesis Alternativa: H1 :  0
HIPOTESIS BILATERAL O DE DOS COLAS
región de aceptación
región de
región de rechazo
rechazo
1
 /2  /2
1 2
Hipótesis Nula: H 0 :   0
Hipótesis Alternativa: H1 :    0
PROCEDIMIENTO PARA LA PRUEBA DE HIPOTESIS
1. Formular las hipótesis
H 0 :   0 , H 0 :   0 , H 0 :   0
H1 :  0 , H 0 :   0 , H 0 :   0
2. Definir un nivel de confianza
Nivel de significancia:  0.01 0. 025 0.05 0.10 0.20

Nota:
Si la hipótesis es bilateral, el nivel de significancia debe ser dividido en dos, ya

que la región de aceptación se ubicara entre dos puntos críticos, es decir en un
intervalo (un límite inferior y un límite superior), en cuyos extremos hacia atrás
de cada punto podemos ubicar a la región de rechazo, solo para este caso se
contara con dos regiones de rechazo.
3. Determinar la estadística de prueba

La estadística de prueba, se elige dependiendo de lo que se solicita, es
decir se debe leer correctamente el texto que describe las características
del problema objeto de investigación, para luego elegir la estadística
correcta. Normal. T, …
4. Establecerla región critica

Para la construcción o delimitación de la región critica o región de rechazo
se debe tener en cuenta:
a. El tipo de hipótesis que se ha formulado, ya sea esta, unilateral o bilateral,
la hipótesis que indica que zona es de rechazo es la hipótesis alternativa.
b. El nivel de significancia
5. Calculo de estadística de prueba

Se reemplaza los valores del problema y se obtiene un valor, denominado
estadística calculada
6. Decisión
Para tomar la decisión correcta se debe:
a. Si la prueba de hipótesis se ha efectuado sin usar un paquete estadístico,

el valora del estadístico de prueba se debe comparar con un valor
obtenido de una tabla estadística, considerando para la obtención de esta
valor el nivel de significancia y el tamaño de la muestra.
Se aceptara la hipótesis si está el valor del estadístico de prueba se
encuentra en la zona de aceptación, con un determinado nivel de
significancia

b. Si la prueba se ha efectuado haciendo uso de un paquete estadístico, el

valor del p – valor (nivel de significancia en el sistema) se compara con el
nivel de significancia establecido en el ítems 2, si el valor de mayor que el
nivel de significancia la hipótesis nula se rechaza.
7. Conclusión
Responder al problema formulado, con un determinado nivel de significancia

o de confiabilidad.
4.6. PRUEBA DE HIPÓTESIS: PARA LA MEDIA, PARA

PROPORCIÓN
A.PARA UNA POBLACIÓN
4.6.1.PRUEBA DE HIPÓTESIS PARA LA MEDIA CUANDO LA

VARIANZA ES CONOCIDA
Una caja de 300cm3de leche evaporada se diseña para que contenga una
cantidad ligeramente mayor que 300cm3, de tal manera que si excede este
volumen hay problemas. Sin embargo, un volumen menor a 300cm3ocasiona
que los consumidores demanden al fabricante. En el proceso normal de
producción, el fabricante supone que la media es igual o mayor
a300cm3Suponiendoquese prueba una muestra de 45 cajas y se encuentra un
volumen promedio de 290cm3.Sepuedeafirmarqueel fabricante está en lo
correcto, si se sabe que la desviación estándar de las cajas de leche de 6 cm3,
con un nivel de significancia de 0.01
Solución
El problema corresponde a la distribución de la media con n > 30.

  300 cm 3 X  290cm 3  6  0.01 n  49
1. Formular la hipótesis
Ho :   300 cm 3
H 1 :   300 cm 3
2. Nivel de Significancia
  0.01
3. Estadística de Prueba

Como n > 30 y la varianza es conocida, la estadística de prueba de la

variable aleatoria es la distribución normal estándar N (0,1)
X  290  300 10

Z  Z     5.833
/ n 12 / 49 12 / 7
4. Región Critica
5. Decisión
Si Z calc  Z tabl  Ho se acepta 
 5.833   2.326  Ho no se acepta
Por lo tanto, Ho se rechaza
6. Conclusión
.Se puede afirmar que el fabricante no está en lo correcto, el contenido de
las cajas no es 300cm3 , con un nivel de significancia de 0.01
4.6.2. PRUEBA DE HIPÓTESIS PARA LA MEDIA CUANDO LA

VARIANZA NO ES CONOCIDA
Una empresa que regula el consumo eléctrico de cierta localidad, publica los
resultados del consumo anual en número de Kilowatt-hora que gastan varios
aparatos electrodomésticos. Se afirma que una aspiradora gasta un promedio
de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se
incluye en un estudio indica que las aspiradoras gastan un promedio de 42
kilowatt-hora al año con una desviación estándar de 11.9 kilowatt-hora.
¿Se puede concluir que las aspiradoras gastan anualmente, en promedio,
menos de 46 kilowatt-hora con un nivel de significancia de 0.05? Suponga que
la población de kilowatt-hora es normal.
Solución:
  46 Kilowatt  hora X  42 Kilowatt  hora  11.9 Kilowatt  hora

 0.05 n  12
Ho :    46 kilowatt  hora
H 1 :   46 kilowatt  hora

  0.05
Como n < 30 y la varianza es conocida, la estadística de prueba de la

X  42  46 4
t Z     1.164
S/ n 11.9 / 12 11.9 / 3.464
4. Región Critica
5. Decisión
Si t calc  ttabl  Ho se acepta 
 1.164   1.796  Ho se acepta
Por lo tanto la Ho no se rechaza
6. Conclusión
Se concluye que las aspiradoras gastan anualmente, en promedio, menos
de 46 kilowatt-hora con un nivel de significancia de 0.05
4.6.3. PRUEBA DE HIPÓTESIS PARA PROPORCION
Un ingeniero civil afirma que se instalan termas eléctricas en 70% de todas las
casas que se construyen hoy actualmente en la ciudad. ¿Estaría de acuerdo
con esta afirmación si una investigación de casas nuevas en esta ciudad
muestra que 8 de 15 tienen instaladas termas eléctricas? Con un nivel de
significancia de 0.10.
Solución.
P  0.70 p  8 / 15  0.5333 (1  P)  0.4667  0.10 n  15

Ho : P  0.70
H 1 : P  0.70
  0.10
Como n < 30 y la varianza es conocida, la estadística de prueba de la

pP 0.533  0.70  0.167

t Z     1.415
P (1  P) 0.70 (0.30) 0.118
n 15
4. Región Critica
5. Decisión
Si t calc  ttabl  Ho se acepta 
 1.164   1.796  Ho se acepta
Por lo tanto lo Ho no se rechaza
6. Conclusión
Se concluye que las aspiradoras gastananualmente, en promedio, menos
4.6. Prueba de hipótesis: para la media, para proporción, para la

varianza (relativas para una población, y dos poblaciones)

B.PARA DOS POBLACIONES (diferencia entre las medias y

proporciones)
HIPÓTESIS UNILATERAL O DE UNA COLA
c. Prueba de la cola inferior o d. Prueba de la cola superior o del

del lado izquierdo lado derecho
región de región de
aceptación rechazo
región región
de de
1
1 



Hipótesis Nula: Hipótesis Nula:

H o : 1   2   0 H o : 1   2   0
Hipótesis Alternativa:
Hipótesis Alternativa: H 1 : 1   2   0
H1 : 1   2   0
HIPOTESIS BILATERAL O DE DOS COLAS
Región de aceptación
Región de
Región de Rechazo
rechazo
1
 /2  /2
1 2
Hipótesis Nula:
Hipótesis Alternativa:
Procedimiento:

Es el mismo procedimiento que en primer caso: solo se tiene en cuenta al

formular las hipótesis, que en este caso es para la diferencia de dos promedios,
como se muestra en la tabla anterior.
4.6.4. PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS

CUANDO LAS VARIANZAS  12 , ,  22 SON CONOCIDAS  
Un grupo de investigadores desea saber si los datos que han recolectado
muestran evidencia suficiente para indicar una diferencia entre las
concentraciones medias de ácido úrico en el suero de individuos normales e
individuos con síndrome de Down. Los daros recogidos corresponden a las
lecturas de ácido úrico en el suero de 12 individuos con síndrome de Down y
15 individuos sanos. Las medias de las muestras son 4.5mg/100ml y 3.4
mg/100ml, si las varianzas ara la población con síndrome de Down es 1 y para
la población sana es 1.5. Con 5% de confiabilidad.
SOLUCION:
Ho : 1   2  0
H 1 : 1   2  0
  
  0.05   , 
2 2
( X 1  X 2 )  ( 1  1 ) (4.5  3.4 )  0
Z calc   Z calc   2.57
 12  22 1 1.5


n1 n2 121 15 2
4. Región Critica

5. Decisión
Si Z tabl  Z calc  Z tabl  Ho se acepta 
(1.96)  2.57 no es  (1.96)  Ho no se acepta
Por lo tanto la Ho se rechaza
6. Conclusión
Se concluye que los datos recogidos, no muestran evidencia suficiente para
explicar diferencia entre las concentraciones medias de ácido úrico en el suero
de individuos normales e individuos con síndrome de Down, con un nivel de
significancia de 0.05
4.6.5. PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS

CUANDO LAS VARIANZAS  12 , ,  22 NO SON CONOCIDAS 

A. CUANDO LAS VARIANZAS  12   22 SON IGUALES 
Un grupo de especialistas de la salud, tiene como objetivo examinar las

características de la destrucción pulmonar, en personas que fuman cigarrillos
antes de desarrollar un marcado Enfisema pulmonar. En personas longevas se
practicaron mediciones de tres índices de destrucción pulmonar, en personas
que no fumaban, y en personas con tabaquismo que mueren repentinamente
fuera de un nosocomio y por causas no respiratorias. Según el estudio una
calificación alta indica un mayor daño pulmonar. Se obtuvieron muestras con
las calificaciones producidas, para uno de los índices de destrucción pulmonar
de una muestra de 9 personas que no fuman y 16 fumadores. Los especialistas
pretenden saber si es posible concluir, en base a los datos, que las personas
que si fuman, en general, tienen los pulmones más dañados que las personas
no fumadoras, como se indica en la siguiente tabla. No se conoce las varianza
de las muestras, pero se supone son iguales)
No fumadores 18.1 6 10.8 11.0 7.7 17.9 8.5 13.0 18.9
Fumadores 16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3 18.6
12.0 24.1 16.5 21.8 16.3 23.4 18.8
SOLUCION:
Ho :  NF   F  0
H 1 :  NF   F  0

  0.05 
X S  17.5 S  4.4711, X S  12.4 S  4.8492
combinar las var ianzas de las muestras para obtener
15(4.4711) 2  8( 4.8492) 2
S p2  21.2165
15  8
(17.51  12.4 )  0
t calc   t calc  2.6573
21.2165 21.2165

16 9
4. Región Critica
5. Decisión
tcalc  ttabl  Ho se acepta 
2.6573 no es  (1.71)  Ho no se acepta
Por lo tanto Ho se rechaza
6. Conclusión
De los resultados se concluye que las dos medias poblacionales son

diferentes, las personas que fuman tienen los pulmones más dañados que las
personas que no fuman. Con un nove de significancia de 0.05

B. CUANDO LAS VARIANZAS  12   22 NO SON IGUALES 
En una empresa que fabrica sustancias químicas, evalúanla calidad del
producto por la cantidad de impurezas presentes en un lote. Para la fabricación
utilizan dos líneas de producción 1,2 como cantidad promedio de impurezas en
la sustancia química. Se tomaron muestras aleatorias de cada línea y se
obtuvo las siguientes mediciones.

Línea n Promedio Varianza

1 16 3.2 1.04
2 16 3.0 0.51
¿Los datos aportan evidencia suficiente para concluir que la cantidad promedio
de impurezas del proceso es menor para la línea 2?. Con un nivel de
significancia igual a 0.05
Solución:
Ho : 1   2
H 1 : 1   2
  0.05
( X 1  X 2 )  ( 1  1 ) (3.21  3.0 )  0
t calc   t calc   0.6426
2 2
S S 1.04 0.51
1
 2 
n1 n2 16 16
10. Región Critica
11. Decisión
Si tcalc  ttabl  Ho se acepta 
 1.164   1.7  Ho se acepta
Por lo tanto la Ho no se rechaza

12. Conclusión
Se concluye que las aspiradoras gastananualmente, en promedio, menos
4.6.6. PRUEBA DE HIPÓTESIS PARA POBLACIONES QUE NO

PRESENTAN UNA DISTRIBUCION NORMAL
En este caso se aplica el teorema del Limite Central, si el tamaño de la muestra

(n>30). “La distribución de la diferencia entre medias de las muestras será
aproximadamente normal”. Las muestras son independientes.
4.6.7. PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE DOS

PORPORCIONES
Un estudio de estudios nutricionales en acilos de ancianos, encontraron que
entre 55 pacientes con hipertensión, 24 tenían una dieta con restricción de
sodio. De 149 pacientes sin hipertensión, 36 tenían una dieta sin sodio. ¿Es
posible concluir que las poblaciones muestreadas, la proporción de pacientes
con dieta restringida en sodio es mayor entre pacientes con hipertensión que
entre pacientes sin hipertensión?
Solución.
Ho : P    0
H1 : P    0
  0.0.5
Como n > 30, la estadística de prueba de la variable aleatoria es la

distribución normal estándar N (0,1)

( p 1  p2 )  ( P1  P2 ) X1  X 2
Z  P 
1 1 n1  n2
Pˆ (1  Pˆ ) 
n1 n2
(0.43641  0.2416)
Z  2.71
0.2941(0.7059) 0.2941(0.7059)

55 149
4. Región Critica
Región rechazo Región de

rechazo aceptación de
aceptación
1

5. Decisión
Si Z calc  Z tabl  Ho se acepta 
2.71   1.64  Ho se acepta
Por lo tanto lo Ho no se rechaza
6. Conclusión
La proporción de pacientes con dieta restringida en sodio es mayor entre

pacientes hipertensos que entre los pacientes sin hipertensión
4.7. ERRORES
Ho verdadera Ho falsa
Rechazar Ho Error tipo I Decisión correcta

P(error tipo I )  

No rechazar Ho Decisión correcta Error tipo II

P(error tipo II )  
La Probabilidad de cometer un error Tipo I:se conoce como Nivel de

Significancia, se denota como α y es el tamaño de la región de rechazo
El complemento de la región de rechazo es 1−α y es conocido como el

Coeficiente de Confianza
En una prueba de Hipótesis de dos colas la región que no se rechaza

corresponde a un intervalo de confianza para el parámetro enestudio

MODULO
ANALISIS DE REGRESION

INTRODUCCION
Estamos interesados en una variable aleatoria simple Y. Se supone que el

valor tomado por esta variable aleatoria depende o está influenciada por los
valores tomados por una o más variables diferentes. La variable aleatoria Y se
denomina variable dependiente o respuesta; las variables que influencian a
Y, simbolizadas por la letra X, se denominan variables independientes,
variables predictoras o regresores. Al realizar estimaciones o predicciones,
los regresores no se tratan como variables aleatorias. Por el contrario, son
entidades que pueden asumir valores diferentes pero cuyos valores en el
momento en que debe hacerse la predicción no se determinan al azar.
Supongamos que deseamos desarrollar una ecuación para describir la

temperatura del agua fuera de la plataforma continental. Como la temperatura
depende en parte de la profundidad del agua, hay dos variables implicadas.
Estas son X, la profundidad del agua, e Y, la temperatura del agua. No estamos
interesados en hacer inferencias sobre la profundidad del agua. En cambio,
queremos describir el comportamiento de la temperatura del agua bajo la
suposición de que la profundidad del agua se conoce de antemano con
precisión. La temperatura del agua es la respuesta; la profundidad del agua es
el único regresor considerado.
Incluso si la profundidad del agua está fijada en algún valor x, la temperatura

del agua variará debido a otras influencias aleatorias. Por ejemplo, si se toman
varias mediciones de temperatura en diferentes lugares, cada una a una
profundidad de x = 1000 pies, los valores de las mediciones variarán. Por esta
razón, debemos admitir que para una x dada, estamos realmente tratando con
una variable aleatoria “condicional”, que indicamos mediante Y/x (Y dado que X
= x). Esta variable aleatoria condicional tiene una media indicada mediante
 Y / x . Resulta obvio que la temperatura media del agua del océano depende en
parte de la profundidad del agua; no esperamos que la temperatura media a x
= 1000 pies sea la misma que a x = 5000 pies. Es decir, es razonable
suponer........ Para descubrirlo. Sin embargo, por razones prácticas, estos
valores deberían representar una gama bastante amplia de los valores posibles
de la variable independiente X. A veces se pueden preseleccionar los valores
utilizados. Por ejemplo, al estudiar la relación entre la temperatura del agua y la
profundidad del agua, podemos saber que nuestro modelo debe utilizarse para
predecir la temperatura del agua a profundidades de 1000 a 5000 pies.
Podemos elegir para medir las temperaturas del agua a cualquier profundidad
deseada dentro de esta gama. Por ejemplo podemos tomar mediciones en
incrementos de 1000 pies. De esta manera prefijamos nuestros valores x a x 1
= 100; x 2 = 2000; x 3 = 3000; x 4 = 4000; x 5 = 5000. Cuando se
preseleccionan los valores X utilizados para desarrollar la ecuación de
regresión, se dice que el estudio está controlado. A menudo los valores X
utilizados para desarrollar la ecuación se eligen mediante algún mecanismo
aleatorio. Por ejemplo, al estudiar el efecto de la calidad del aire sobre el pH del
agua de lluvia, nos veremos forzados a seleccionar una muestra de días,
anotar la lectura de la calidad del aire de ese día y medir el pH del agua de
lluvia. En este caso, los valores de X utilizados para desarrollar la ecuación de
regresión no están preseleccionados por el investigador. Representan un
conjunto de valores de X típicos. Los estudios de este tipo se denominan

estudios observacionales. Veamos.
EJEMPLO. Un Farmacéutico quiere predecir la concentración de un

determinado fármaco en la corriente sanguínea, cinco minutos después de su
administración (Y), en base al conocimiento del tamaño de la dosis inicial (X).
En este caso, la variable aleatoria Y es la variable dependiente; X es la variable
independiente. En un experimento controlado en laboratorio, el experimentador
selecciona los valores tomados por X. Por ejemplo, podríamos elegir
experimentar con dosis de 0.05, 0.10, 0.20 y 0.30 ml. Puesto que la elección de
las dosis experimentales está en manos del investigador, este es un estudio
controlado.
Independientemente de si el estudio es controlado u observacional, el objeto

del análisis de regresión es encontrar una ecuación de predicción o regresión
razonable.
REGRESION
Es el método estadístico que investiga y define la relación funcional entre dos o
más variables. La ecuación o función matemática constituye la función o línea
de regresión. Dadas las variables (X, Y) podemos expresarlas como
Y = f(X) o X = f(Y)
lo cual dignifica que tales relaciones funcionales permitirán estimar, explicar o
predecir el valor de una variable dado el valor de la otra variable.
DIAGRAMA DE ESPARCIMIENTO (Gráfica de Calibración)
Si tenemos n observaciones bidimensionales, cada par de datos (X, Y)

puede representarse en un sistema de eje de coordenadas cartesianas.
Cada pareja de observaciones se representa por un punto sobre el plano
y la totalidad de puntos registrados se denomina diagrama de dispersión
o, para casos de equipos, gráficas de calibración.
NOTA: una buena estimación de un parámetro dependerá del grado de

asociación que exista entre las variables X, Y y de que la función elegida se
ajuste lo mejor posible a la nube de puntos en el plano de ejes cartesianos.
CORRELACION
Es el análisis del grado de asociación o de afinidad entre las variables

expresada a través de la función o modelo de regresión. Para que exista

correlación es necesario dos variables, es decir, dos medidas que vayan

cambiando valores.
MODELO LINEAL BIDIMENSIONAL
Dadas las relaciones existentes entre una variable dependiente Y, y una

variable independiente o explicatoria X, debemos probar la hipótesis sobre el
tipo de relación que hay entre ellas y sobre la capacidad de predicción. Tal
relación o modelo queda definido por:
Yi  1  2 X i
Como es poco probable que los puntos (X, Y) caigan precisamente sobre una
recta, la relación lineal exacta de la ecuación debe ser modificada para incluir
un término de perturbación aleatoria, llamado también error o término
estocástico  . Así tenemos:
Y i  1  2 X i   i
Yi: variable dependiente.

Xi: variable independiente.
 1: int ercepto;  2 : pendiente de la recta; : perturbaciones aleatorias.
El propósito básico del análisis de regresión es estimar los parámetros

estructurales, es decir, el intercepto y la pendiente de la recta respectivamente.
Si existe una relación lineal entre la señal analítica de un instrumento (Y) y la

concentración de un analito (X) nos propondremos calcular la “mejor” línea
recta que pasa a través de los puntos de la gráfica de calibración, cada uno de
los cuales está sujeto a un error experimental.
HIPOTESIS RELATIVAS A LAS PERTURBACIONES
1.Toda perturbación aleatoria tiene Media cero
 
E i  0 para i  1, 2, 3, ... , n

2.Todas las perturbaciones aleatorias tienen la misma Variancia.

Homocedasticidad.
 
E  2i   2 para i  1,2,3,..., n
3.Las perturbaciones son independientes entre si. Covariancia.


E i  j   0 i j
4.Las perturbaciones se distribuyen normalmente con Media 0 y variancia  2 .
Además son independientes del valor x. La función de distribución de
probabilidad de  i es:

2

i
  1 2 2
f , P  exp 
 2
La estimación de estos parámetros estructurales se lleva a cabo mediante el

método de los Mínimos Cuadrados, que busca determinar los estimadores b 1 y
b2 .
CALCULO DE LOS ESTIMADORES
Suponiendo: yi  b1  b2 xi  ei
Los estimadores se determinan mediante las siguientes relaciones
 x 2i   y i    x i   x i y i 
b1 
n  x 2i   x i 
2
n  x i y i   x i   y i 
b2 
n  x 2i   x i 
2
o también b1  y  b 2 x
CALCULO DE LA VARIANCIA DE LOS ESTIMADORES

Asumiendo la siguiente proposición:
 2  s 2e 
 e 2i

 y 2  b1  y  b 2  x y
n2 n2

Entonces
 2
Var b2   Sb22
 x x 
2
i
 2  x 2i
 
Var b 1   S 2b
  xi  x 
2 1
INTERVALOS DE CONFIANZA DE LOSPARAMETROS
Por definición
b  i
t i es decir  i  bi  t Sb
Sb i
i
con (n - 2) grados de libertad (g de l) y un % de significancia.
Índice de Determinación R2 e Índice de Correlación R.

b 22  x 2i 
 x i  2 
  n
 
R2 

 y2 
2
 yi  
 i

n 
 
VERIFICACION
Variation Total = Variación Explicada + Variación No Explicada
CT = SCR + SCE
  y i  y  y  y  y i  y i 
2 2 2
 
PRUEBA DE CONFIABILIDAD DEL MODELO. Prueba F

2 x x 
2
i
Variancia Explicada b2
FCALCULADA  
Variancia No Explicada S 2e
se compara con un FTABULADO en Tablas con 1 y (n - 2) grados de libertad; y 5%

de significancia o 1% de significancia estadística.

PRUEBA DE COHERENCIA DE LOS ESTIMADORES.

Prueba t
bi
t CALCULADO 
Sb i
se compara con un tTABULADO en tablas con (n - 2) grados de libertad y una

significancia estadística dada del 1% o del 5%.
CASO PRACTICO
En un ensayo calorimétrico para glucosa (GLU) el equipo detecta absorbancia

(Y) de soluciones estándares de glucosas, cuyas concentraciones medidas en
miliMoles (mM) y asumidas como variables independientes genera la siguiente
tabla
Muestra ( n ) 1 2 3 4 5 6 7 8 9 10
Concentración 6 10 12 14 16 18 22 24 26 32
GLU (mM) (X)
Absorbancia (y) 40 44 46 48 52 58 60 68 74 80
Se requiere desarrollar un análisis de regresión.
SOLUCION: ELABORACION DEL DIAGRAMA DE DISPERSION (Gráfica de

calibración)
ABSORVANCIA
90
80
CONCENTRACION DE GLUCOSA
70
60
50
40
30
40 50 60 70 80
2. CALCULO DE LOS ESTIMADORES
a) Desarrollamos la siguiente tabla

n Yi Xi ( Xi - X ) ( Yi - Y ) (Xi - X) (Yi - Y) (Xi – X)2

1 40 6 -17 -12 204 144
2 44 10 -13 -8 104 64
3 46 12 -11 -6 66 36
4 48 14 -9 -4 36 16
5 52 16 -5 -2 10 4
6 58 18 1 0 0 0
7 60 22 3 4 12 16
8 68 24 11 6 66 36
9 74 26 17 8 136 64
10 80 32 23 14 322 196
Suma
Total 570 180 0 0 956 576
Debemos hallar :

Y i  b 0  b 1 X i  i
n = 10, Media (X) = 18; Media (Y) = 57
  x i  x  y i  y  956;   x i  x   y i  y
2 2
 576;  1 634
Cálculo de Estimadores:
b 1 
 X i  XYi  Y
956
  X i  X   166
2 .
576
b 0  Y  b 1 X  57  1. 66 *  18   27. 12
La recta de la regresión será:


Y  27. 12  1. 66 X i
i
ABSORVANCIA
1.00
.75
PROBABILIDAD ACUMULADA
.50
.25
0.00
0.00 .25 .50 .75 1.00
PROBABILIDAD OBSERVADA ACUMULADA

3. PRUEBA DE SIGNIFICACION DE ESTIMACION DE PARAMETROS
Hacemos uso de la siguiente tabla
2 2 2 2
n Yi Xi Yi ei e i X i ( Xi – X) (Yi – Y)
1 40 6 37.08 2.92 8.5264 36 144 289
2 44 10 43.72 0.28 0.0784 100 64 169
3 46 12 47.04 -1.04 1.0816 144 36 121
4 48 14 50.36 -2.36 5.5696 196 16 81
5 52 16 53.68 -1.68 2.8224 256 4 25
6 58 18 57.00 1.00 1.0000 324 0 1
7 60 22 63.64 -3.64 13.2496 484 16 9
8 68 24 66.96 1.04 1.0816 576 36 121
9 74 26 70.28 3.72 13.8384 676 64 289
10 80 32 80.24 -0.24 0.0576 1024 196 529
Total
Suma 570 180 0 47.3056 3816 576 1634
a) Cálculo de la Variancia No Explicada

 2
S2e = 47. 3056 / ( 10 - 2 ) = 5. 9132
b) Cálculo de las Variancias y Desviaciones Estándares de los

Estimadores
Sb20 = (47.3056) (3816) / (10 - 2) 10 (576) = 3.92

Sb1 = 1.98
Sb21 = 47.3056 / (10- 2) 576 = 0.01

Sb2 = 0.1
c) Prueba de Coherencia de los estimadores
Estimador Intercepto
Hipótesis Nula Ho : b 0 = 0 (No existe coherencia)

Hipótesis Alternante H 1 : b 0 = 0 (Existe Coherencia)
b 0  b 0 b 0 27. 12
tC     13. 7
S b0 S b0 1. 98
t TABULADO = t (0.05, 8 g de l) = 2.306

Asimismo. Estimador Pendiente

Hipótesis Nula Ho : b 1 = 0 (No existe coherencia)
Hipótesis Alternante H 1 : b 1 = 0 (Existe Coherencia)
b 1  b 1 b 1 1. 66
tC     2. 306
S b1 S b1 0. 1
H1: b1  0 t T   2.306 con 8 g. l. y   0.05
t TABULADO = t (0.05, 8 g de l) = 2.306

Como tCALCULADO cae en la zona de rechazo, rechazaremos Ho. Luego Xi si
influye significativamente sobre Yi.
Entonces b 0 y b 0 son estadísticamente significativos a un nivel de

significación del 5%.
3. Prueba de Bondad de Ajuste ( R2 ) y de Correlación ( R )
b 1   X i  X Yi  Y  9. 56 
R 2
 1. 66    0.971212
Yi  Y 2  1634 
Es decir, la ecuación de regresión explica alrededor del 97.12% de la variación

total
Asimismo R = 0.9854, es decir, 98.54%, lo cual es un alto índice de correlación

lineal.
5. Prueba de Confiabilidad del Modelo (Tabla F)
Hipótesis Nula Ho :El modelo no tiene la confianza estadística del 95%

Hipótesis Alternante H 1 :El modelo si tiene la confianza estadística del
95%
Es decir:
Ho : b 0 = b 1 = 0
H1 : b 0 = b 1 = 0
  X i  X 1. 66 2 576

2
 
FC  b
2
S 2e

 47. 3056 
 268. 421
 
 10  2 
FTABULADO = F [ 0.05; 1 y (n - 2) g de l] = F ( 0.05: 1 y 8 g de l ) = 5.32

Se acepta la hipótesis alternante
6. Predicción Puntual de Yi si Xi = 40.

Como la Ecuación de la Recta de Regresión es: Y   27. 12  1. 66 X
i i
Reemplazando valores tenemos:
Y i  27. 12  1. 66 X i  27. 12  .1. 66 *  40  93. 52

NOTA SOBRE EL ERROR ESTANDAR DE ESTIMACION O VARIANCIA NO

EXPLICADA
Al observar la siguiente gráfica podemos notar que
El error estándar de estimación es una medida de esparcimiento alrededor de

una línea de regresión. Es la desviación estándar de los valores observados Yi
con respecto a los valores de Y estimados ( Y i ) por la línea de regresión.
Entre el valor de Y y su estimado Y i existe una diferencia o sesgo, que puede

ser menor o mayor en la medida que los n puntos del diagrama de
esparcimiento estén más o menos cerca de la línea de regresión.
El error estándar de estimación o de regresión cumple las mismas propiedades

de la desviación estándar. La diferencia está en que el error estándar de
regresión mide las dispersiones de los valores alrededor de la línea de
regresión y la desviación estándar alrededor de la media.
CORRELACION LINEAL
Se ha asumido que la variable independiente (X) se conocen sin error. Aun
cuando esto es aplicable a múltiples experimentos, existen también problemas
en los cuales tanto las X como las Y son variables aleatorias. Este es el caso
de la relación entre las precipitaciones pluviales y la producción de ciertos
cultivos; entre el medio ambiente y cultivos de bacterias, etc. A esta clase de
problemas se les llama problema de análisis de correlación. El coeficiente de
correlación de una población queda definido por la relación
2
 2
 1 
 22
donde
2 es una medida de la variación de las Y cuando X se conoce.

 2
2 Es una medida de la variación de las Y cuando la X no es conocida
 2
2   2
es una medida de la variación de las Y que se explica por la
relación lineal entre X
 2
nos indica qué proporción de la variación de las Y puede atribuirse a la
relación lineal de X
Estos mismos argumentos se aplica también a R 2, el cuadrado del coeficiente

de correlación muestral, que es definido por
R 
  X  X  Y  Y 
  X  X  Y  Y 
2 2

MODULO
ANALISIS DE VARIANZA
x1 1, x1 2 , x1 3 , xk 1
x2 1 , x2 2 , x2 3 , x2 k
...............................
xn1 , xn2 , xn3 , xn k
T1 .. T2 .. T3 .. T .1..
LIMA, 2018

INTRODUC CION
El análisis de la varianza (ANOVA) es un método estadístico, de gran utilidad

tanto en la industria, para el control de procesos, como en el laboratorio de
análisis, para el control de métodos analíticos. Los ejemplos de aplicación son
múltiples, pudiéndose agrupar, según el objetivo que persiguen, en dos
principalmente: la comparación de múltiples columnas de datos y la estimación
de los componentes de variación de un proceso.
En múltiples ocasiones el analista o investigador se enfrenta al problema de

determinar si dos o más grupos son iguales, si dos o más cursos de acción
arrojan resultados similares o si dos o más conjuntos de observaciones son
parecidos. Pensemos por ejemplo en el caso de determinar si dos niveles de
renta producen consumos iguales o diferentes de un determinado producto, si
las notas de dos grupos en una asignatura son similares, si tres muestras de
análisis químico de una sustancia son iguales, o si los municipios de cuatro
provincias colindantes tienen el mismo nivel de paro
Una aproximación simple sería comparar las medias de estos grupos y ver si
las medias aritméticas de la variable estudiada son parecidas o diferentes. Pero
tal aproximación no es válida ya que la dispersión de las observaciones influirá
en la posibilidad de comparar los promedios o medias de cada grupo. Así,
supongamos que tenemos una variable X (consumo) y dos grupos (nivel de
renta alto y medio) y que tenemos dos resultados distintos correspondientes a
dos provincias

Es evidente que la conclusión de que con renta alta el consumo es mayor que
con renta media es más rotundo en la provincia B que en la A. En la provincia A
existen familias de renta media con un consumo superior a otras familias de
renta alta aunque en promedio X 21  X 11 . Esta situación no se produce en la
provincia B donde todas las observaciones de renta alta son superiores a las
de renta media. En consecuencia la dispersión deberá tenerse en cuenta para
realizar una comparación de medias o de grupos y esto es lo que se pretende
con el Análisis de la Varianza. El Análisis de la Varianza puede contemplarse
como un caso especial de la modelización econométrica, donde el conjunto de
variables explicativas son variables ficticias y la variable dependiente es de tipo
continuo. En tales situaciones la estimación del modelo significa la realización
de un análisis de la varianza clásica (ANOVA), de amplia tradición en los
estudios y diseños experimentales. Una ampliación a este planteamiento es
cuando se dispone de una variable de control que nos permite corregir el
resultado del experimento mediante el análisis de la covariación con la variable
a estudiar. Esta problemática es un caso de un análisis de la covarianza
Ejemplo: Pretendemos medir la influencia que tiene en la venta de un producto

de alimentación, la posición en que se exhibe al público dentro del
establecimiento. Las posiciones establecidas son:
 ALTA: por encima de los ojos.
 MEDIA: nivel de los ojos.
 BAJA: por debajo del nivel de los ojos.
Para la realización del experimento se han seleccionado 12 autoservicios de

dimensiones similares. Los autoservicios se agrupan en tres conjuntos de
cuatro elementos cada uno, procediendo de forma aleatoria en su asignación.
Con ello suponemos que los tres conjuntos son de características similares,
colocándose el producto en cada uno de ellos, de una de las formas
anteriormente descritas y registrando sus ventas durante veinte días. Las
ventas resultantes, en unidades, quedan recogidas en el cuadro I. Se pretende
responder a las siguientes preguntas:

1º¿Tiene alguna influencia el posicionamiento del producto en la venta del mismo?.

2º¿Qué posicionamiento es más eficaz?
3º¿Son estadísticamente significativas las diferencias obtenidas?
ANALISIS DE VARIANZA
El análisis de varianza se utiliza para contrastar hipótesis relativas a las

diferencias de las medias de más de dos poblacionales, este procedimiento
exige que se analicen las varianzas de las muestras estudiadas (de allí el
termino análisis de varianza). El procedimiento consiste en analizar si un
tratamiento en particular aplicado a la población tendrá un efecto significativo
sobre la media. Surge y es muy importante en el campo de la agricultura,
donde se usa el término tratamiento para analizar varias parcelas de tierra con
diferentes fertilizantes y anotar el rendimiento medio en las cosechas del
producto.
Actualmente el termino tratamiento se emplea, en sentido amplio, para referirse
al tratamiento de clientes con distintas presentaciones publicitarias y detectar
las diferencias posteriores de sus compras medias, al tratamiento de tres
grupos con tres tipos diferentes de programas de formación para observar ls
diferencias que aparecen en los niveles medios de productividad o a cualquier
otra situación en que se dese comprar medias
DISEÑO COMPLETAMENTE ALEATORIZADO
Las unidades experimentales son asignadas completamente al azar a los

diversos tratamientos. Todas las unidades elegidas al azar para el estudio
tienen la misma probabilidad de ser asignadas a un tratamiento
MODELO A EFECTOS FIJOS
Se fijas o eligen tratamientos específicos antes de emprender el estudio
MODELO A EFECTOS ALEATORIOS

Los niveles (tratamientos) usados en el estudio se eligen al azar de una

población de niveles posibles
CARACTERISTICAS PARA APLICAR UN ANALISIS DE VARIANZA
1. Todas las poblaciones implicadas son normales

2. Todas las poblaciones tienen varianzas iguales
3. Las muestras se eligen de manera independiente
EFECTO DEL TRATAMIENTO

Como las distintas muestras son sometidas a tratamientos diferentes, la
variación intramuestral puede ser causada por los diferentes efectos del
tratamiento.
RELACION F USADO EN EL ANOVA

La relación F utilizada en el análisis de varianza es la que existe en la
variación intermuestral y la variación intramuestral
RELACION F
Cuando las medias poblacionales son diferentes existe un efecto de

tratamiento y las desviaciones intermuestrales pueden ser grandes
comparadas con las desviaciones debido al error dentro de una muestra. Por
lo tanto el valor de F, que es una relación entre la variación debida al
tratamiento y la variación debido al error, aumentara.

PROCEDIMIENTO
1. Descripción de los datos
Tratamientos
1 2 3 ……. K
x1 1, x1 2 , x1 3 , xk 1
x2 1 , x2 2 , x2 3 , x2 k
...............................
xn1 , xn2 , xn3 , xn k
T1 .. T2 .. T3 .. T .1..
Total : T .1 T ..2 T .3 T. K T ...
Medias: X .1 X .2 X .3 X .K X ..
2. Supuestos
Junto con las suposiciones que fundamenta el análisis, se presenta el
modelo de cada diseño estudiado.
El modelo es una representación simbólica de un valor representativo
del conjunto de datos:
El modelo del ANOVA unilateral es:
xij     j   ij
i= 1, 2,3,…, nj j= 1,2,…, k

a. La media de la población representa todas las k –medias

poblacionales y se le conoce como la gran media
b.  j : representa la diferencia entre la media de la j-ésima población y
la gran media. Se le conoce como efecto del tratamiento

c.  ij : representa la cantidad en que difieren una medición individual de
la media poblacional a la que pertenece. Se le conoce como termino

de error
3. Hipótesis
H 0 : 1   2  ...   k
H A : no todas las Muestras son iguales
Si las medias de las poblaciones son iguales, y el efecto de cada

tratamiento es igual a cero, alternativamente, las hipótesis pueden
escribirse como sigue:
H0 :  j  0 , j  1,2,.....k
H A : no todas las  j  0
4. Estadística de prueba
Es el cálculo de la razón de las varianzas (R.V.), son las mismas
5. Distribución de la estadística de prueba

La RV sigue una distribución F, cuando la Ho es verdadera y se cumplen
las suposiciones.
6. Regla de decisión
Es rechazar la Ho, si el valor calculado para R.V. es mayor o igual que
el valor critico de F con un nivel alfa 
7. Calculo de la estadística de prueba

El resultado de los cálculos aritméticos se resume en una tabla llamada

análisis de varianza (ANOVA), facilita la evaluación de los resultados del
análisis
Se definió el análisis de varianza cono un proceso por el que la variación
total representa el conjunto de datos
Sumas de cuadrados
a. Sumas de cuadrados para el total
b. Suma de cuadrados entre de los grupos
c. Suma de cuadrados dentro grupos
Grados de libertad
a. Grados de libertad para el total : n-1
b. Grados de libertad entre grupos (muestras) : k - 1
c. Grados de libertad dentro de los grupos n- k
Cuadrados medios
a. Cuadrados medios entre grupos : CME = SCE/k-1
b. Cuadrado medio dentro de los grupos : CMD = SCD/n – k
Razón de la Varianza: F = R.V.

F = CME/CMD
8. Decisión estadística
Comparar la R.V. Calculada con el valor crítico de F (se obtiene en la
tabla) con los grados de libertad ( k – 1)/(n – k)
Si R.V. Es mayor o igual al valor crítico de F la hipótesis nula se
rechaza.
R.V .  Ftabla
9. Conclusión
Si se rechaza se concluye que no todas las medias son iguales.
10. Cálculo del valor p

EJEMPLO
El gerente de una empresa industrial quiere determinar si tres programas de

formación ejercen efectos distintos sobre la productividad de los empleados.
Estos programas son los tratamientos que el análisis de varianza puede
analizar. Eligen a 14 empleados y se les asigna al azar a uno de los tres
programas. Al terminar la formación, cada empleado realiza un examen para
determinar su competencia, a 4 empleados se les imparte el primer programa,
a los grupos de 5 empleados cada grupo, los otros dos programas.
Los grupos serán tratados como muestras separadas y utilizadas para extraer
la inferencia sobre las poblaciones de empleados que pudieran pasar por los
programas de formación respectiva. Las puntuaciones de los empleados en el
examen posterior a la formación se muestran a continuación
Tratamientos
Programa 1 Programa 2 Programa
85 80 82
72 84 80
83 81 85
80 78 90
…. 82 88
Total : 320 405 425 T ..  1150
n: 4 5 5 n.. = 14
Medias: 80 81 85 X ..  82.14

ANALISIS DE REGRESION: VARIABLES
CUALITATIVAS INDEPENDIENTES
INTRODUCCION
El estudio de análisis de regresión lineal y regresión múltiple es el de obtener

una ecuación o modelo en base a variables cuantitativas las que se pueda
emplear para hacer predicciones y estimaciones en relación a una(s)
variable(s) dependiente (s) a partir del conocimiento de alguna(s) otra(s)
variables individual(s) denominada variables independiente, predictoras o
explicativa. Es interesante conocer que todas las variables que se incluyen en
modelo de regresión no son solamente variables cuantitativas , un modelo
también incluye a aquellas variables que de origen son cualitativas (nivel
socioeconómico, segmentación de mercado, niveles de ingreso, grado de
instrucción, genero, estado civil, grupo racial ) las que pasan por un proceso de
categorización para ser incluidas en este tipo de predicciones.
Para incorporar una variable cualitativa independiente en el modelo de
regresión múltiple, esta se cuantifica, esto se logra mediante el uso de las
variables imaginarias o ficticias, o el uso de la escala de licker.
VARIABLES IMAGINARIAS O FICTICIAS
Se pueden encontrar muchas variables que pueden modificar el valor de la

variable dependiente. Existen variables para explicar los niveles de renta, los
estudio muestran que el género y la geografía tiene poder explicativo, es decir
que un hombre que haya cursado los mismos años de enseñanza y formación
que una mujer no tendrá la misma renta, un docente de educación secundaria
que trabaja en la región de la costa no ganara igual que un profesor que labora
en la sierra, esto muestra que el sexo y la geografía son variables explicativas
de gran utilidad para predecir la renta de una persona, pero estas variables no
son numéricas y no se pueden incluir directamente en el modelo de regresión
múltiple.

Una variable ficticia o imaginaria solo toma un numero finito de valores para
identificar las diferentes categorías de una variable cualitativa, también se les
conoce con el nombre de indicativas y solo cuando se trata de dos valores se
les llama dicotómicas (como 0,1).
Cuando la variable tiene K categorías es necesario definir K – 1 variables

imaginarias, para codificar adecuadamente todas las categorías. Esta condición
es aplicable para toda regresión múltiple que contenga una constante de
intercepción
Aplicativo
El gerente de una cadena de almacenes desea estudiar la relación entre gastos

medios de sus clientes y las variables que podrían explicar el nivel de dic hos
gastos, elige la renta como variable explicativa, pero también considera el sexo
de sus clientes, que podría representar un papel en la explicación en sus
gastos. Renta y gastos en soles y sexo.
Observación Gasto (Y) Renta (X1) Sexo

Miles de Miles de (X2)
soles soles
1 51 40 1
2 30 25 0
3 32 27 0
4 45 32 1
5 51 45 1
6 31 29 0
7 50 42 1
8 47 38 1
9 45 30 0
10 39 29 1
11 50 41 1
12 35 23 1
13 40 36 0
14 45 42 0
15 50 48 0

Solución
Haciendo uso del programa SPSS
Yˆ  b0  b1 X 1  b2 X 2
Yˆ  12.21X 1  0.791  5.11X 2
los valores de p para ambos casos 0.000 y 0.000
El uso de la variable ficticio sexo dará lugar a dos rectas de regresión, una para
hombres y otra para mujeres. Las rectas tienen l misma pendiente, pero
diferentes ordenadas en el origen. Es decir la ecuación da lugar a dos rectas de
regresión paralelas, que inician con valores diferentes.
Como se ha codificado a hombres con cero, la ecuación será:
Yˆ  b0  b1 X 1  b2 X 2
Yˆ  12.21X 1  0.791  5.11(0) 2
Yˆ  12.21X  0.791
1
La recta tiene una ordenada en el origen 12.21 y la pendiente de 0.791 X 1

COMPROBACIÓN DE LA NORMALIDAD
Los residuos deben de tener distribución normal.

Las observaciones originales también, pero cada grupo con media diferente,
por ello es preciso estimar el modelo para descontar a cada observación su
media y obtener valores con la misma distribución.
Herramientas de comprobación:
 Histograma de residuos
 Gráfico de probabilidad normal (Q-Q plot)
 Contrastes formales (Kolmogorov-Smirnov)
GRAFICO PROBABILIDATICA NORMAL
Es un gráfico X-Y de los residuos frente a los percentiles de la distribución

normal La idea básica es que cuando los residuos tienen distribución normal,
los puntos deben formar aproximadamente una línea recta
Procedimiento
1. Ordenar los residuos de menor a mayor  (1) ,   ( 2) ,  . . .   ( n)
2. Calcular los percentiles de la distribución normal
 i  0.5 
Yi    X Sˆ R ,
1
 i  1,2, . . . , n
 n 
3. Representar :  i  , Yi

En el proceso de estimación se ha supuesto que los distintos tratamientos

tienen la misma varianza
Herramientas
 Gráficos de residuos:
 Frente a valores previstos
 Frente a tratamientos (o factor,etc.)
 Contrastes formales:
 Bartlett, Cochran, Hartley, Levene
RESIDUOS - VALORES PREVISTOS
En este modelo los valores previstos corresponden a la media del tratamiento

 Los puntos deben aparecer dispuestos al azar en una banda horizontal
alrededor del eje horizontal.
HETEROCEDASTICIDAD:
a veces la dispersión aumenta conforme la media crece.

RESIDUOS POR TRATAMIENTOS
En cada grupo los residuos aparecen esparcidos con dispersión similar y media
cero

MODULO
ESTADISTICA NO PARAMETRICA

INTRODUCCION
Como ya se ha visto varias veces, los resultados obtenidos de muestras no siempre

concuerdan exactamente con los resultados teóricos esperados, según las reglas de
probabilidad. Por ejemplo, aunque consideraciones teóricas conduzcan a esperar 50 caras y 50
cruces cuando se lanza 100 veces una moneda bien hecha, es raro que se obtengan
exactamente estos resultados.
Supóngase que en una determinada muestra se observan una serie de posibles sucesos E1,
E2, E3, . . . , EK, que ocurren con frecuencias o1, o2, o3, . . ., oK, llamadas frecuencias
observadas y que, según las reglas de probabilidad, se espera que ocurran con frecuencias
e1, e2, e3, . . . ,eK llamadas frecuencias teóricas o esperadas.
A menudo se desea saber si las frecuencias observadas difieren significativamente de las

frecuencias esperadas. Para el caso en que solamente son posibles dos sucesos E 1 y E2 como,
por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente
con los métodos de las unidades anteriores. En esta unidad se considera el problema general.
Definición de X2
Una medida de la discrepancia existente entre las frecuencias observadas y esperadas es

2
suministrada por el estadístico X , dado por:
donde si el total de frecuencias es N,
2
Si X = 0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si
2 2
X >0, no coinciden exactamente. A valores mayores de X , mayores son las discrepancias
entre las frecuencias observadas y esperadas.
Si las frecuencias esperadas son al menos iguales a 5, la aproximación mejora para valores
superiores.
El número de grados de libertad está dado por:
=k–1–m
donde:
K = número de clasificaciones en el problema.

m = número de parámetros estimados a partir de los datos muestrales para obtener los valores
esperados.
Ensayo de Hipótesis
En la práctica, las frecuencias esperadas se calculan de acuerdo con la hipótesis H o. Si bajo

2
esta hipótesis el valor calculado de X dado es mayor que algún valor crítico, se deduce que las
frecuencias observadas difieren significativamente de las esperadas y se rechaza Ho al nivel de
significación correspondiente. En caso contrario, no se rechazará. Este procedimiento se
llama ensayo o prueba de chi-cuadrado de la hipótesis.
2
Debe advertirse que en aquellas circunstancias en que X esté muy próxima a cero debe
mirarse con cierto recelo, puesto que es raro que las frecuencias observadas concuerden

demasiado bien con las esperadas. Para examinar tales situaciones, se puede determinar si el
2 2
valor calculado de X es menor que las X críticas o de tabla (ensayo unilateral izquierdo), en
cuyos casos se decide que la concordancia es bastante buena.
Ejemplos:
1. La siguiente tabla muestra las frecuencias observadas al lanzar un dado 120 veces.
Ensayar la hipótesis de que el dado está bien hecho al nivel de significación del 0.05.
Cara 1 2 3 4 5 6
Frecuencia
25 17 15 23 24 16
Observada
Solución:
Hipótesis:
Ho; Las frecuencias observadas y esperadas son significativamente iguales. (dado bien hecho)
H1; Las frecuencias observadas y esperadas son diferentes (dado cargado).
Primero se procede a calcular los valores esperados. Como es bien sabido por todos la
probabilidad de que caiga cualquier número en un dado no cargado es de 1/6. Como la suma
de los valores observados es de 120, se multiplica este valor por 1/6 dando un resultado de 20
para cada clasificación.
Cara 1 2 3 4 5 6 Total
Frecuencia Observada 25 17 15 23 24 16 120
Frecuencia esperada 20 20 20 20 20 20 120
Grados de libertad = k-1-m = 6-1-0 = 5
No se tuvo que calcular ningún parámetro para obtener las frecuencias esperadas.
Regla de decisión:
2
Si X R 11.1 no se rechaza Ho.
2
Si X R >11.1 se rechaza Ho.

Cálculos:
Justificación y decisión:
Como 5 es menor a 11.1 no se rechaza H o y se concluye con una significación de 0.05 que el
dado está bien hecho.
2. En los experimentos de Mendel con guisantes, observó 315 lisos y amarillos, 108 lisos y
verdes, 101 rugosos y amarillos y 32 rugosos y verdes. De acuerdo con su teoría, estos
números deberían presentarse en la proporción 9:3:3:1. ¿Hay alguna evidencia que permita
dudar de su teoría al nivel de significación del 0.01?
Solución:
Hipótesis:
Ho; La teoría de Mendel es acertada.

H1; La teoría de Mendel no es correcta.
El número total de guisantes es 315+108+101+32=556. Puesto que los números esperados

están en la proporción 9:3:3:1 (9+3+3+1=16), se esperaría:
lisos y amarillos
lisos y verdes
rugosos y amarillos
rugosos y verdes
Grados de libertad = k-1-m = 4-1-0 = 3
No se tuvo que calcular ningún parámetro para obtener las frecuencias esperadas.
Regla de decisión:
2
2

Cálculos:
4. Como 0.470 es menor que 11.3 no se rechaza Ho y se concluye con un nivel de significación
de 0.01 que la teoría de Mendel es correcta. Como el valor de 0.470 está cercano a cero, se
procede a hacer un ensayo unilateral izquierdo:
Hipótesis:
Ho; La teoría de Mendel es acertada.

H1; La teoría de Mendel es muy acertada.
Regla de decisión:
2
2
Si X R < 0.115 se rechaza Ho.
Como el valor de 0.470 no es menor a 0.115 se concluye que el experimento o la teoría de

Mendel solo es buena.
3. Una encuesta sobre 320 familias con 5 niños dio la distribución que aparece en la
siguiente tabla. ¿Es el resultado consistente con la hipótesis de que el nacimiento de
varón y hembra son igualmente posibles? Use = 0.05.
Número de niños 5 4 3 2 1 0
Número de niñas 0 1 2 3 4 5
Número de familias 18 56 110 88 40 8
Solución:
Hipótesis:
H0; El nacimiento de niños y niñas es igualmente probable.

H1; El nacimiento de niños y niñas no es igualmente probable.
Este experimento tiene un comportamiento binomial, puesto que se tienen dos posibles
resultados y la probabilidad de éxito se mantiene constante en todo el experimento.

Se le llamará éxito al nacimiento de un varón o niño. Por lo que la variable aleatoria "x"
tomará valores desde 0 hasta 5.
Como se quiere ver si es igualmente probable el nacimiento de niños y niñas, la

probabilidad de éxito será de 0.5.
Utilizando la fórmula de la distribución binomial se calcularán las probabilidades, que

multiplicadas por el número total de familias nos darán los valores esperados en cada
clasificación.
Recordando la fórmula de la distribución binomial:
en donde n = 5 y "x" es el número de niños .
Probabilidad de 5 niños y 0 niñas =
Probabilidad de 4 niños y 1 niña =
Probabilidad de 1 niño y 4 niñas =
Si cada una de estas probabilidades se multiplican por 320 se obtienen los valores
esperados:
Número de niños 5 4 3 2 1 0
Total
Número de niñas 0 1 2 3 4 5
Número de familias 18 56 110 88 40 8 320
Frecuencias esperadas 10 50 100 100 50 10 320
Grados de libertad: k-1-m = 6-1-0 = 5

Regla de decisión:
2
2
Cálculos:
Como el 12 es mayor a 11.1, se rechaza H0 y se concluye con un = 0.05 que el

nacimiento de hombres y mujeres no es igualmente probable.
4. Una urna contiene 6 bolas rojas y 3 blancas. Se extraen al azar dos bolas de la urna, se
anota su color y se vuelven a la urna. Este proceso se repite un total de 120 veces y los
resultados obtenidos se muestran en la siguiente tabla. Determinar al nivel de significación
del 0.05 si los resultados obtenidos son consistentes con los esperados.
0 1 2
Bolas blancas 2 1 0
Número de extracciones 6 53 61
Solución:
Este experimento tiene las características de una distribución hipergeométrica, por lo cual se
calcularán los valores esperados con el razonamiento de esta distribución.
Se llamara "x" a la variable aleatoria de interés que en este caso serán las bolas rojas. Por lo
tanto "x" puede tomar valores desde 0 hasta 2.
La fórmula de la distribución hipergeométrica es:
Se tiene:
Probabilidad de extraer 0 rojas y 2 blancas:

Probabilidad de extraer 1 roja y 1 blanca:
Probabilidad de extraer 2 rojas y 0 blancas:
Con las probabilidades anteriores se obtendrán los valores esperados multiplicando por 120.
0 1 2
Bolas blancas 2 1 0
Número de extracciones 6 53 61
Frecuencias esperadas 10 60 50
Grados de libertad: k-1-m = 3-1-0 = 2
Regla de decisión:
2
2
Cálculos:
Como el 4.83 no es mayor a 5.991, no se rechaza H0 y se concluye con un

= 0.05 que los resultados son los mismos que los esperados.

PRUEBA DE CHI-CUADRADO
El procedimiento Prueba de chi-cuadrado tabula una variable en categorías y calcula

un estadístico de chi-cuadrado. Esta prueba de bondad de ajuste compara las
frecuencias observadas y esperadas en cada categoría para contrastar que todas las
categorías contengan la misma proporción de valores o que cada categoría contenga
una proporción de valores especificada por el usuario.
Ejemplos. La prueba de chi-cuadrado podría utilizarse para determinar si una bolsa de
caramelos contiene en igualdad de proporción caramelos de color azul, marrón, verde,
naranja, rojo y amarillo. También podría utilizarse para ver si una bolsa de caramelos
contiene un 5% de color azul, un 30% de color marrón, un 10% de color verde, un 20%
de color naranja, un 15% de color rojo y un 15% de color amarillo.
Estadísticos. Media, desviación estándar, mínimo, máximo y cuartiles. Número y
porcentaje de casos perdidos y no perdidos; número de casos observados y
esperados de cada categoría; residuos y estadístico de chi-cuadrado.
Prueba de chi-cuadrado: Consideraciones sobre los datos
Datos. Use variables categóricas numéricas ordenadas o no ordenadas (niveles de
medición ordinal o nominal). Para convertir las variables de cadena en variables
numéricas, utilice el procedimiento Recodificación automática, disponible en el menú
Transformar.
Supuestos. Las pruebas no paramétricas no requieren supuestos sobre la forma de la
distribución subyacente. Se asume que los datos son una muestra aleatoria. Las
frecuencias esperadas para cada categoría deberán ser 1 como mínimo. No más de
un 20% de las categorías deberán tener frecuencias esperadas menores que 5.
Para obtener una prueba de chi-cuadrado
Esta característica requiere la opción Statistics Base.
1. Seleccione en los menús:
Analizar > Pruebas no paramétricas > Cuadros de diálogo antiguos > Chi-
cuadrado...
2. Seleccione una o más variables de contraste. Cada variable genera una prueba
independiente.
3. Si lo desea, puede pulsar en Opciones para obtener estadísticos descriptivos,
cuartiles y controlar el tratamiento de los datos perdidos.
Este procedimiento pega la sintaxis de comandos NPAR TESTS.
 Prueba de chi-cuadrado: Rango y valores esperados
 Prueba de chi-cuadrado: Opciones
 Características adicionales del comando NPAR TESTS (Prueba de chi-cuadrado)


PROBABILIDAD

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

PROBABILIDAD

Cargado por

Copyright:

Formatos disponibles

PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Dra. SARA ADELINA ARANA LOPEZ

Se reserva derechos de autor 1

Dra. SARA ADELINA ARANA LOPEZ

1.1. Introducción a Probabilidades

Se reserva derechos de autor 2

Dra. SARA ADELINA ARANA LOPEZ

Se reserva derechos de autor 3

Dra. SARA ADELINA ARANA LOPEZ

En estadística descriptiva hemos aprendido a definir, una población, una muestra,

Se reserva derechos de autor 4

Dra. SARA ADELINA ARANA LOPEZ

1.1 Introducción a Probabilidades

1.2. DEFINICIÓN DE PROBABILIDAD

La probabilidad de un suceso, es una medida cuantificada de las ocurrencias

 Obtener un seis al lanzar un dado honesto.

1. Comprender y utilizar la información en base a una muestra elegida al azar

Se reserva derechos de autor 5

Dra. SARA ADELINA ARANA LOPEZ

1.2. Defecciones de probabilidad: Clásica, por Frecuencia Relativa,

Para obtener esas probabilidades hay que recurrir a enfoque o

A. Probabilidad Clásica o A Priori (Regla de Laplace).

El experimento ( ) que se está realizando da lugar a un espacio

Número deresultad os posibles

A esta expresión se le conoce como regla de Laplace. El concepto

Se reserva derechos de autor 6

Dra. SARA ADELINA ARANA LOPEZ

3. Aditividad. Si A y B son dos sucesos del espacio () y ambos

B. Probabilidad Frecuencial o A Posteriori.

En este caso la probabilidad de un suceso A, se define como el límite

Expresa un grado de creencia o confianza individual en relación con la

1.2 EXPERIMENTO ALEATORIO, ESPACIO MUESTRAL, EVENTO, SUCESO

 Experimentos o fenómenos aleatorios ( )

 Lanzar un dado y observar el lado superior

Se reserva derechos de autor 7

Dra. SARA ADELINA ARANA LOPEZ

 Que la tasa de crecimiento del PBI del Pais sea superior al 4%

Es el conjunto de todos los resultados posibles del experimento

Es un subconjunto del espacio muestral. Se utiliza las primeras letras

(  ): Lanzar una moneda tres veces y observar los resultados

Lanzar Una Moneda Tres Veces

  cccc , css, ccs , csc, scc, ssc, scs, sss

X: Caras SUCESOS fi P(x)

Dra. SARA ADELINA ARANA LOPEZ

Evento A: que en la cara superior de la moneda aparezcan dos caras

A = {CCS), (C,S,C), (S,C,C) }

El número de resultados posibles es N(A) = 3.

1.4. ALGEBRA DE EVENTOS

En la definición de evento se pudo apreciar que un evento es un conjunto,

Se reserva derechos de autor 9

Dra. SARA ADELINA ARANA LOPEZ

Se reserva derechos de autor 10

Dra. SARA ADELINA ARANA LOPEZ

Eventos Mutuamente Excluyentes

Sean A y B eventos de , entonces:

1.5. AXIOMAS, TEOREMAS

Axioma 1: Axioma 2: Axioma 3:

Se reserva derechos de autor 11

Dra. SARA ADELINA ARANA LOPEZ

TEOREMA 4: TEOREMA CONDICIONAL

TEOREMA 5: TEOREMA DE BAYES

1.6. VARIABLE ALEATORIA: DISCRETA, CONTINUA

Se reserva derechos de autor 12

E ( xi ) 01/8 13/8 23/8 31/8 1.5