Está en la página 1de 92

PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

MODULO

PROBABILIDAD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

LIMA, 2018

Se reserva derechos de autor 1


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

I. PROBABILIDADES

1.1. Introducción a Probabilidades


1.2. Definición de Probabilidad
1.3. Experimento Aleatorio, Espacio Muestral, Evento, Suceso
1.4. Algebra de Eventos
1.5. Axiomas, Teoremas
1.6. Variable Aleatoria: Discreta, Continua
1.7. Distribuciones de probabilidad discretas (Binomial, Poisson,
Hipergeométrica)
1.8. Distribuciones De Probabilidad Continuas (Normal, T, Chi-Cuadrada, F)

II. INFERENCIA

2.1. Introducción
2.2. Definiciones
2.3. Estimaciones
2.4. Estimaciones Puntuales
2.5. Estimaciones por Intervalos
2.5.1. Estimaciones para la Media (para una y dos poblaciones)
2.5.1.1. Para la Media con Varianza Conocida
2.5.1.2. Para la Media con Varianza Desconocida
2.5.2. Estimaciones para la Proporción
2.5.3. Estimaciones para la Varianza
2.6. Pruebas De Hipótesis
2.6.1. Prueba de hipótesis para la media
2.6.2. Prueba de hipótesis para la varianza
2.6.3. Prueba de hipótesis para la proporción
2.7. Errores
2.8. Análisis de Regresión
2.9. Análisis de varianza
2.10. Pruebas no paramétricas

Se reserva derechos de autor 2


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

MODULO

PROBABILIDADES

Se reserva derechos de autor 3


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

INTRODUCCION A PROBABILIDADES

En estadística descriptiva hemos aprendido a definir, una población, una muestra,


variable, el agrupamiento de las observaciones de los elementos de la muestra en
tablas y gráficos, así como, determinar un valor representativo de todo el conjunto de
muestras, la variabilidad de los datos, así, como el porcentaje de variación, aplicando
los métodos de las medidas de resumen o estadísticos. Es muy importante de estos
temas tener el conocimiento básico, para continuar con el enlace en probabilidades.
En la gran mayoría de los casos nos vemos limitados a realizar una observación
parcial de la variable. Al conocer las características de toda la población, se intenta
inferir su comportamiento. Así una empresa antes de lanzar un nuevo producto estará
interesada en conocer cuál puede ser su cuota de mercado, para lo cual realizará un
sondeo de opinión entre algunos de sus potenciales clientes. Pero el resultado de ese
sondeo, basado en una muestra (observación parcial), no le permite concluir cuál será
su verdadera cuota de mercado. La decisión que tome respecto a ese producto estará
marcada por un cierto grado de incertidumbre
En nuestro día a día, el termino probabilidad esta en nuestro lenguaje, aunque, no
tengamos ningún conocimiento previo de la existencia de una teoría sobre
probabilidades. Probabilidad de llegar temprano al trabajo, probabilidad de no
excederse en los gastos, probabilidad de ganar un torneo, probabilidad de ser ser
ascendido en nuestro centro de trabajo, probabilidad de conseguir un trabajo,
probabilidad de tener incrementar las ventas, probabilidad que tiene una empresa de
expandirse a nuevos mercados, probabilidad de acceder a mercados externos que
tiene una empresa, para un estudiante, probabilidad de aprobar una materia,
probabilidad de cambiar el proceso de enseñanza – aprendizaje, probabilidad de ser
aceptado en un grupo, para una ama de casa probabilidad de que el presupuesto para
su canasta de productos básicos sea la adecuada . Es decir, hablar de probabilidad,
es hablar de cierta incertidumbre el desarrollo del evento.

Se reserva derechos de autor 4


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

1.1 Introducción a Probabilidades


1.2. Definición de Probabilidad
1.3. Experimento Aleatorio, Espacio Muestral, Evento, Suceso
1.4. Algebra de Eventos
1.5. Axiomas, Teoremas
1.6. Variable Aleatoria: Discreta, Continua
1.7. Distribuciones de probabilidad discretas (Binomial, Poisson,
Hipergeométrica)
1.8. Distribuciones De Probabilidad Continuas (Normal, T, Chi-Cuadrada, F)

1.2. DEFINICIÓN DE PROBABILIDAD

La probabilidad de un suceso, es una medida cuantificada de las ocurrencias


del suceso frente a los demás sucesos del experimento.
Grado de incertidumbre en la ocurrencia de los resultados de un experimento
Esta medida cuantificable que toma valores entre cero y uno

0  P( A)  1
Condiciones
1. P( A)  1 : suceso seguro
2. 0  P( A)  1 : suceso posible
3. P( A)  0 : sucesoimposible

 Obtener un seis al lanzar un dado honesto.


 Obtener un seis al lanzar un dado cargado.
 Que la tasa de crecimiento del PBI del país sea superior al 4%.

OBJETIVOS

1. Comprender y utilizar la información en base a una muestra elegida al azar


de la población
2. Usar reglas básicas para evaluar la posible ocurrencia de los diferentes
fenómenos
3. Identificar si la muestra en estudio es discreta o continua

Se reserva derechos de autor 5


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

1.2. Defecciones de probabilidad: Clásica, por Frecuencia Relativa,


Subjetiva

Para obtener esas probabilidades hay que recurrir a enfoque o


definiciones distintas. Los enfoques sirven para establecer reglas de
asignación de probabilidades a los sucesos más que para definir la
probabilidad. Sin embargo la definición de probabilidad se ha dado a
través del tiempo de tres formas diferentes de definir e interpretar
probabilidad

DEFINICIONES DE
PROBABILIDAD

DEFINICION DEFINICION
CLASICA DEFINICION POR SUBJETIVA
FRECUENCIA
RELATIVA

A. Probabilidad Clásica o A Priori (Regla de Laplace).

El experimento ( ) que se está realizando da lugar a un espacio


muestral () , que es finito y cuyos resultados son conocidos de
antemano y equiprobables o simétricos, entonces, la probabilidad del
suceso A perteneciente a ( ) se define como el cociente de los
resultados favorables a respecto del total de resultados posibles

Número deresultad os posibles


P ( A) 
Número de resultados favorables a ( A)

A esta expresión se le conoce como regla de Laplace. El concepto


está ligado a los juegos de azar. Satisface tres propiedades
1. No negatividad, P(A) diferente de cero.
2. Certeza, P(E) =1.

Se reserva derechos de autor 6


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

3. Aditividad. Si A y B son dos sucesos del espacio () y ambos


son mutuamente excluyentes, entonces la probabilidad de C será:

P(C) = (PA)+P(B)

B. Probabilidad Frecuencial o A Posteriori.

En este caso la probabilidad de un suceso A, se define como el límite


de una frecuencia relativa, cuando el experimento se realiza un
número infinito de veces.

n ( Ai )
P ( A)  lim n   , i 1,2,3,..., k
n
C. Probabilidad Subjetiva

Expresa un grado de creencia o confianza individual en relación con la


ocurrencia o no de un determinado suceso. Se trata de un juicio
personal sobre el resultado de un experimento aleatorio. Además se
admite la posibilidad de que distintos sujetos asignen probabilidades
diferentes al mismo suceso. no son aplicables ninguna de las dos
definiciones dadas anteriormente, por lo que no es posible asignar
probabilidades mediante un procedimiento objetivo, debiendo recurrir
a procedimientos de tipo subjetivo, a opiniones de expertos
Cumple con las tres condiciones de probabilidad

1.2 EXPERIMENTO ALEATORIO, ESPACIO MUESTRAL, EVENTO, SUCESO

 Experimentos o fenómenos aleatorios ( )


Pueden dar lugar a varios resultados, sin que pueda ser previsible
enunciar con certeza cuál de éstos va a ser observado en la realización
del experimento.
“es decir los resultados no se pueden predecir”

Ejemplo:

 Lanzar un dado y observar el lado superior


 Obtener un seis en un dado cargado

Se reserva derechos de autor 7


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

 Que la tasa de crecimiento del PBI del Pais sea superior al 4%

 Espacio Muestral 

Es el conjunto de todos los resultados posibles del experimento


aleatorio

 Eventos: A,B,…

Es un subconjunto del espacio muestral. Se utiliza las primeras letras


del alfabeto para definir un evento: A, B, C, …

Suceso

Son todos los elementos del espacio muestral

  1 , 2 , 3 , .. . , 8 
EJEMPLO:

(  ): Lanzar una moneda tres veces y observar los resultados

SOLUCION
PROBABILIDADES - EXPERIMENTO ALEATORIO

Lanzar Una Moneda Tres Veces


LANZAR UN DADO TRES V ECES
O
T
N
IE

W 1 / 8
M

C
A
Z
N
A
L
º
O

3
T
N
IE

C
M
A
Z
N
A
L
º

W 1 / 8
2

W
S
C
1 / 4
O
NT
IE

W
1 / 8
AM

W
C
NZ
LA

1 / 2
S

W
W 1 / 8
S
1 / 4

W 1 / 8
C

W 1 / 8
S C
1 / 4

W W 1 / 8
C

1 / 2

W 1 / 8
C
W

1 / 4

  cccc , css, ccs , csc, scc, ssc, scs, sss

X: Caras SUCESOS fi P(x)


Se reserva derechos de autor 8
PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

0 {sss} 1 1/8
1 {css, scs, ssc} 3 3/8
2 {ccs, csc, scc} 3 3/8
3 {ccc 1 1/8
Total 8 sucesos 8

Evento A: que en la cara superior de la moneda aparezcan dos caras

A = {CCS), (C,S,C), (S,C,C) }

El número de resultados posibles es N(A) = 3.

N(A) 3
P(A)    0,375
N() 8

SUCESOS 
   1,  2,  3,  4,  5,  6,  7,  8 

1.4. ALGEBRA DE EVENTOS

En la definición de evento se pudo apreciar que un evento es un conjunto,


por lo que los eventos heredan las propiedades y teoría general de los
conjuntos:

Unión de Eventos
Sean A y B dos eventos cualesquiera del espacio de eventos. La unión de
los eventos A y B es el evento que consta de los elementos que pertenecen
tanto a A como a B y se representa por (A  B).

Se reserva derechos de autor 9


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

  1

A B

 A  B   I   /  I  A o  I  B

Complemento de Eventos
Intersección de Eventos

 1
A B ( A B)

 A  B  I   /  i  A y B A      / 
c
I i no  B 

Se reserva derechos de autor 10


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Igualdad de Eventos
Inclusión de Eventos

A  B, si w  A  w  B. A = B, si A  B y B  A.

Eventos Mutuamente Excluyentes


Diferencia de Eventos

Sean A y B eventos de , entonces:


A – B = { w   / w  A y w  B }. AB=

1.5. AXIOMAS, TEOREMAS

Axioma 1: Axioma 2: Axioma 3:

0  P A  1 P  1
   P A 
K
P K
i 1 Ai  i
i 1

Se reserva derechos de autor 11


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

TEOREMAS

TEOREMA 1:
P  P  P 
TEOREMA 2:

 
P AC  1  P A

TEOREMA 3

P A  Bi   P( A)  P(B)  P( A  B)

TEOREMA 4: TEOREMA CONDICIONAL

P( A  B)
P A / Bi  
P( B)

TEOREMA 5: TEOREMA DE BAYES

P A / Bi  
P( A) P( A / B)
P( A1 ) P( A / B1 )  P( A2 ) P( A / B2 )  ...  P( An ) P( A / Bn )

1.6. VARIABLE ALEATORIA: DISCRETA, CONTINUA

A. VARIABLE ALEATORIA

Es una función que asigna a cada elemento del espacio muestral uno y solo un
número real.
X  X ( )

Se reserva derechos de autor 12


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Variable aleatoria discreta:

Una variable aleatoria X, es discreta si, los valores que toma la variable son
enumerarles.

 Función de probabilidad

Es la función que a cada valor de la variable aleatoria X le asigna su


probabilidad de ocurrencia.

P ( xi )  P  X  xi 
 Condiciones de la función de probabilidad

1. 0  P ( x) 1

2.  P ( xi 1)

 Representación de la función de probabilidad

Tabla :

x x1 x2 x3 . . . xk

P ( xi )  P X  xi  P ( x1 ) P ( x2 ) P ( x3 ) . . .

Grafico

p ( xi )

p ( x3 )

p ( x2 ) p ( x4 )

p ( x15 )
p ( x1 ) p ( x6 )

x1 x21 x3. x4 x5 x6 X

Se reserva derechos de autor 13


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Valor esperado de la variable aleatoria


k
E ( xi )   xi pxi 
i 1
Donde
E(x): valor esperado
P(x): probabilidad de X
xi : valores de la variable

Varianza de la variable aleatoria

k
V ( xi )   ( xi  E ( x)) 2 pxi 
i 1

Ejemplo

Veamos el caso del experimento de lanzar una moneda 3 veces, para


calcular el valor esperado y la varianza de la variable aleatoria X

Tabla: de distribución de probabilidad discreta

X 0 1 2 3 Total

P ( xi )  1/8 3/8 3/8 1/8 1

E ( xi ) 0*1/8 1*3/8 2*3/8 3*1/8 1.5


V ( xi ) 0  1.52 *1 / 8 1 1.52 *3 / 8 2 1.52 *3 / 8 3 1.52 *1 / 8 …..

Gráfico: de distribución de probabilidad discreta

Se reserva derechos de autor 14


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

B. VARIABLE CONTINUAS

Una variable aleatoria es continua, si su proceso se efectúa bajo el área


de una curva. Es decir si el rango de la variable aleatoria es un intervalos
o un conjunto de intervalos

 x
1.7. Distribuciones de probabilidad discretas (Binomial,
Poisson, Hipergeométrica)

DISTRIBUCIÓN BINOMIAL

Es una distribución que provienen de un experimento que consiste en “n”


pruebas o ensayos de Bernuolli.

CARACTERISTICAS

a. Se realizan “n” pruebas y todas deben ser idénticas e independientes (el


resultado de cualquier ensayo particular no afecta el resultado de cualquier
otro ensayo
b. Cada ensayo debe dar lugar a dos posibles resultados, llamados éxito (E)
o fracaso (F), que deben ser mutuamente excluyentes.
c. “p” es la probabilidad de éxito en cada prueba y debe ser invariante, y la
probabilidad de fracaso es q = 1-p
d. Los valores de la variable aleatoria varían desde cero hasta “n”.

Se define la variable aleatoria Binomial:


X : Nº de éxitos en “n” pruebas o ensayos
Rx = 0, 1, 2,3,……..,n
p = probabilidad de éxito
1 – p = probabilidad de fracas (1 – p = q)

Función de Probabilidad

n
 n, x, p     p x q n x
Se reserva derechos de autor
 x 15
PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Donde

 n, x, p  : Distribución Binomial


n: tamaño de la muestra
x: observación seleccionada
p= probabilidad de éxito
q: probabilidad de fracaso

EJEMPLO 1:

El tratamiento de la gripe con vitamina C produce un efecto curativo


en 75% de los casos. Se seleccionan 6 pacientes al azar. ¿Cuál es
la probabilidad de que, luego del tratamiento?
a. Ninguno este curado
b. A lo más 1 este curado
c. Al menos cinco estén curado

SOLUCION

X: N° de pacientes curados
n: 6 pacientes

X  B(n  6; p  0.75)
Rx  0,1,2,3,4,5,6

a. P( X  0)  C06 0.7500.256  2.4414 x104

La probabilidad de que ningún paciente se cure es 0.0002441

b. P( X  1)  P( X  0)  P( X  1)  C06 0.7500.256  C16 0.7510.255 


 4.6387 x103

La probabilidad de que a lo mas uno sea curado es 0.00464

c. P( X  5)  P( X  5)  P( X  6)  C56 0.755 0.251  C66 0.75 6 0.25 0 


 0.5339

Se reserva derechos de autor 16


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

La probabilidad de que al menos cinco estén curados es : 0.534

EJEMPLO 2

Supongamos que la probabilidad de que una pareja tenga un hijo o una hija es
igual. Calcular la probabilidad de que una familia con 6 descendientes tenga 2
hijos.

SOLUCION

Éxito = E = “tener hijo” y p(E) = 0’5.


Fracaso = F = “tener hija” y p(F) = q = 1-P = 0’5.
Binomial B(6; 2 ;0’5)

6
p( x)    * (0.5) 2 * (0.5) 4  0.2344
 2
La probabilidad de que la familia tenga dos hijos es 0.2344

DISTRIBUCIÓN DE POISSON

Un ensayo de Poisson, es un experimento en el que el número de ocurrencias


de un evento es observado en un intervalo de tiempo.
Una variable aleatoria X tiene una distribución de Poisson con
parámetros , si su función de cuantía esta definido

 x
e 
p ( x) 
x!
Donde:

p(x) : Probabilidad de X
 : Promedio
e : Constante (2.71828)

Se reserva derechos de autor 17


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

x : Observaciones seleccionadas

EJEMPLO:

El gerente de un establecimiento desea conocer la probabilidad de que


exactamente cinco clientes lleguen en una hora determinada al trabajo. Tiene
conocimiento de que en las últimas 80 horas entraron al establecimiento 800
clientes, si promedio es 10 clientes por hora

Solución :

p ( x)  4 :
 : 10 clientes por hora
e : (2.71828)
x : 5 clientes

10 5 (2.71828) 10
p( x)   0.378  0.4
5!
La probabilidad que durante la próxima hora lleguen cinco clientes es 0.4, o un
4% hay de posibilidad que en la próxima entren al establecimiento 5 clientes.

DISTRIBUCION HIPERGEOMETRICA

Suponga que tenemos “N” artículos de los cuales “A” son éxitos y “N-A”
son fracasos.
El experimento “Hipergeométrico” consiste en escoger al azar una muestra
de tamaño “n”, uno por uno sin Sustitución o Reemplazamiento

Se reserva derechos de autor 18


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Se define la v.a.con distribución Hipergeométrica

Función de Probabilidad
 M  N M  
 
 
n x 
 
 X    , x  0,1,2,..., min( n, M ) 
 N 
 
n 
 
   
 
P ( X  x)  
0 en otros casos 
 
 
 
 

 

P (x) : probabilidad de x
N: Población ( se divide en dos clases)
X: Nº de éxitos en la muestra (de los éxitos en M)
M: Elementos de éxito de una clase de la población
N – M: elementos de fracaso en la otra clase de la población
n: tamaño de la muestra

EJEMPLO

Una empresa que se dedica a la comercialización de carros de fabricación


extranjera, tienen 10 automóviles para la venta, pero saben que cuatro de ellos
presentan cierta falla. Cuál es la probabilidad de elegir una muestra de 3
automóviles en la cual 2 de ellos presenten la falla?

SOLUCIÓN
N: 10 autos
M : cuatro autos con falla
n: 3 autos
x: 2 autos fallados

 4  10  4 
   
 2   3  2 
P( x  2)   0.30
10 
 
3 
La probabilidad que 2 autos estén fallados es 0.30

Se reserva derechos de autor 19


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

1.8. DISTRIBUCIONES DE PROBABILIDAD CONTINUAS


(NORMAL, T, CHI-CUADRADA, F)

NORMAL

Es la distribución más importante de probabilidades y la estadística inferencial,


se aplica a innumerable procesos en diversas especialidades como: medicina,
biología, ingeniería, farmacia, economía, ..etc. sobre esta distribución se
sustentan las otras distribuciones continuas.
Se puede aplicar en casos puntuales como una aproximación en el empleo de
variables discretas
Característica

 Se distribuye desde menos infinito a mas infinito


 Tiene la forma de campana
 Es simétrica. Las colas se prolongan hasta el infinito (nunca tocan el eje de
las x)
 El punto más alto es la media
 La media puede ser cualquier valor numérico
 Hay familias de distribuciones normales. Cada una se identifica por su media
y su desviación estándar
 Las desviaciones estándares determinan el ancho de la curva
 El área total es 1

La función de densidad de la normal


La función de densidad de la distribución norma se expresa como


 x   2
1
f ( x)  e 2 2

 2

 : promedio ó media de la población


 : desviación s tan dar
N  ,  

Se reserva derechos de autor 20


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

DISTRIBUCION DE DISTRIBUCION NORMAL ESTANDAR

 Cuando tenemos una distribución normal con media 0 y desviación estándar


1 se habla de una distribución normal estándar
 El valor de z indica la variable aleatoria normal

FUNCIÓN DE DENSIDAD
2
1 -x
f(x) = e 2 ; -  < x < +

PROPIEDADES
a 
1. P( x  a)  P 
  
a
2. P( x  b)  1  P 
  
b  a
3. P(a  x  b)  P   P 
     

Uso de Tablas: Normal Acumulativa

Z F(Z) Z F(Z) Z F(Z)


–4 0.00003 0.0 0.50000 1.64 0.94950
– 3.9 0.00003 .. ..
– 3.5 0.00023 0.5 0.69146 ..
–… 1.96 0.9750
– .. .. ..
– 1.96 0.02500 .. 2.00 0.97725
– .. 1.00 0.84134 ….
– .. 1.5 0.93319 3.99 0.99997
– -1.64 0.05050 1.59 0.94408 4 0.99997

En las tablas como las del modelo la distribución normal estándar, se distribuye
desde Z = - 4 hasta Z = 4, frente a cada valor de Z se observa a su respectiva
probabilidad.

Ejemplo :

La probabilidad para Z = - 4 es 0.00003


Probabilidad para Z = 4 es 0.99997

Se reserva derechos de autor 21


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Como podemos observar, si sumamos las dos probabilidades de los valores


de Z esta suma es 1; tal como observamos en el ejemplo, la suma de las
probabilidades cuando Z toma los valores de – 4 y cuando es + 4, es 1.
Es decir como la distribución normal es simétrica, al encontrar la probabilidad
para un valor de Z (+), automáticamente se halla la probabilidad para el valor
inverso de Z(-), es decir su complemento

P(Z = -1.64) = 0.05050 P(Z = 1.64) = 0.9495

Teorema del limite central

Es importante por que justifica la importancia de la distribución normal.


Sea X 1 , X 2 , X 3 , , X n una sucesión de n – variables aleatorias
independientes, idénticamente distribuidas. Con media y varianza conocidas y
finitas.

E X i    y Var ( X )   2
Si:
Yn  x1 , x2 , x3 , xn
Se tiene:
X 
Z  Tiene aproximación a N (0,1)
 n

3.9. Distribuciones Muestrales (media, proporción)

A. Distribución de la Media

Sea Yn  x1 , x2 , x3 , xn una muestra aleatoria de tamaño n de una


variable aleatoria X con media  y varianza  2 .
La distribución de la media muestral es aproximadamente una normal
con:

2
x    Var ( xi ) , la variable aleatoria X  N (0,1) X
n

X 
Z   N (0,1)
 n

Se reserva derechos de autor 22


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Ejemplo:

Un especialista en Psicologia, luego de realizado un estudio sobre el tiempo


que tardan un grupo de adolescentes en responder un test sobre vocación
profesional, manifiesta que estos tiempos se distribuyen normalmente, con
media 12 minutos y desviación estándar 6 minutos, obtenidos de una muestra
de 10 empleados, se desea conocer:

a. ¿cuál es la probabilidad de que el tiempo promedio que usan los alumnos


para responder un test sea mayor de 15 y menor de 17 minutos?
b. Si los alumnos demoran en promedio 9 minutos en contestar el test,
entonces los primeros alumnos reciben una sorpresa: ¿Cuál es la
probabilidad de que esto suceda? Tarea para el alumno

Solución

X: tiempo que demoran los estudiantes en responder un test vocacional.

X-------- N(12,6)

n = 10 alumnos
Promedio= 12 minutos
Desviación estándar = 6 minutos

 17  12   15a  12 
P(15  x  17)  P   P 

 6   6 10 

B. Distribución de la Proporción

Para un tamaño de muestra grande, la distribución de la proporción de la


muestra es aproximadamente una normal.
Por lo tanto la probabilidad respecto a la proporción es:

p  p(  )
Z 
p(1  p )
n

p: proporción

Se reserva derechos de autor 23


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Ejemplo:

En una instituto superior de enseñanza se conoce que de la población de mujeres, el


90%, tiene cierta incertidumbre sobre su futuro laboral, si se extrae de la población una
muestra de 200 mujeres.

a. ¿Cuál es la probabilidad de que la proporción de la muestra de las mujeres, que ha


tenido algún trabajo temporal sea menor de a0.85?

b. Cuál es la probabilidad de que la proporción de la muestra que no ha tenidos un


trabajo laboral sea 0.70?

Solución

p  0.90
pˆ  0.85
n  200

p  p(  ) 0.85  0.90
Z  Z    2.36
p(1  p) 0.90(0.10)
n 200

p(Z   2.3)  0.009

Se reserva derechos de autor 24


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

MODULO

PROBABILIDAD E INFERENCIA

Se reserva derechos de autor 25


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

INTRODUCCION

Inferencia estadística es un conjunto de métodos de la ciencia estadística, que


permite inducir, a partir de la información empírica proporcionada por una
muestra, sobre el comportamiento de una determinada población con un error
medible en términos de probabilidad, es decir, Inferencia Estadística es el
procedimiento que permite realizar afirmaciones de naturaleza probabilística
respecto a una población, en base a resultados obtenidos de una muestra
seleccionada de forma aleatoria de una población.

Las poblaciones son descritas por medidas numéricas descriptivas, llamados


parámetros, se puede hacer inferencias acerca de la población haciendo
inferencia respecto a sus parámetros.
La inferencia estadística se pueden dividir, básicamente, en: métodos de
estimación de parámetros y métodos de contraste de hipótesis. Ambos
métodos se basan en el conocimiento teórico de la distribución de probabilidad
del estadístico muestral que se utiliza como estimador de un parámetro.

La estimación de parámetros consiste en asignar un valor concreto al


parámetro o parámetros que caracterizan la distribución de probabilidad de la
población. Cuando se estima un parámetro poblacional, aunque el estimador
que se utiliza posea todas las propiedades deseables, se comete un error de
estimación que es la diferencia entre la estimación y el verdadero valor del
parámetro. El error de estimación es desconocido por lo cual es imposible
saber en cada caso cual ha sido la magnitud o el signo del error; para valorar el
grado de precisión asociado con una estimación puntual se parte de dicha
estimación para construir un intervalo de confianza. En síntesis, un intervalo de
confianza está formado por un conjunto de valores numéricos tal que la
probabilidad de que éste contenga al verdadero valor del parámetro puede
fijarse tan grande como se quiera. Esta probabilidad se denomina grado de
confianza del intervalo, y la amplitud de éste constituye una medida del grado
de precisión con el que se estima el parámetro.

Se reserva derechos de autor 26


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Los métodos de contraste de hipótesis tienen como objetivo comprobar si


determinado supuesto referido a un parámetro poblacional, o a parámetros
análogos de dos o más poblaciones, es compatible con la evidencia empírica
contenida en la muestra. Los supuestos que se establecen respecto a los
parámetros se llaman hipótesis paramétricas. Para cualquier hipótesis
paramétrica, el contraste se basa en establecer un criterio de decisión, que
depende en cada caso de la naturaleza de la población, de la distribución de
probabilidad del estimador de dicho parámetro y del control que se desea fijar a
priori sobre la probabilidad de rechazar la hipótesis contrastada en el caso de
ser ésta cierta.
En todo contraste intervienen dos hipótesis. La hipótesis nula (Ho) es aquella
que recoge el supuesto de que el parámetro toma un valor determinado y es la
que soporta la carga de la prueba. La decisión de rechazar la hipótesis nula,
que en principio se considera cierta, está en función de que sea o no
compatible con la evidencia empírica contenida en la muestra. El contraste
clásico permite controlar a priori la probabilidad de cometer el error de rechazar
la hipótesis nula siendo ésta cierta; dicha probabilidad se llama nivel de
significación del contraste ( ) y suele fijarse en el 1%, 5% o 10%.
La proposición contraria a la hipótesis nula recibe el nombre de hipótesis
alternativa (H1) y suele presentar un cierto grado de indefinición: si la hipótesis
alternativa se formula simplemente como 'la hipótesis nula no es cierta', el
contraste es bilateral o a dos colas; por el contrario cuando se indica el sentido
de la diferencia, el contraste es unilateral o a una sola cola.
Cuando se realiza un contraste con el SPSS no se fija el nivel de significación
deseado, el programa calcula el valor-p o significación asintótica, que es la
probabilidad de que el estadístico de prueba tome un valor igual o superior al
muestral bajo el supuesto de que la hipótesis nula es cierta. Por tanto, si el
valor-p es menor o igual que el nivel de significación deseado se rechazará Ho.
Un valor-p próximo a cero indica que se rechazará la Ho para cualquier nivel de
significación.

Se reserva derechos de autor 27


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Cada acción de un proceso estadístico está asociado a un Nivel de confianza


(probabilidad de haber acertado al decir que el parámetro está contenido en el
intervalo), y a un Nivel de significancia (probabilidad de equivocarnos: es un
error).

La estadística inferencial permite analizar información en base a datos


históricos y actuales, para realizar estimaciones, proyecciones a futuro para
tomar decisiones con mayor precisión, en todo proceso de investigación, y/o
administración.

INFERENCIA

ESTIMACIONES ERRORES

HIPOTESIS
PUNTUALES POR INTERVALOS
DE CONFIANZA

PARA LA PARA LA
MEDIA PROPORCION

Se reserva derechos de autor 28


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

INDICE

1. Introducción

2. Definiciones

3. Estimaciones

3.1. Estimaciones Puntuales

3.2. Estimaciones por Intervalos

3.2.1. Estimaciones para la Media (para una y dos poblaciones)

3.2.1.1. Para la Media con Varianza Conocida

3.2.1.2. Para la Media con Varianza Desconocida

3.2.2. Estimaciones para la Proporción

3.2.3. Estimaciones para la Varianza

4. Pruebas De Hipótesis

4.1. Hipótesis

4.2. Clases de Hipótesis

4.3. Pruebas de Hipótesis

4.4. Clases de pruebas de hipótesis

4.5. Tipos de pruebas de hipótesis

5. Errores

Se reserva derechos de autor 29


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

3. ESTIMACION

ESTIMACION:

Estimación es usar medidas calculadas en una muestra (estimador) para


predecir uno o más parámetros de la población

ESTIMADOR:

Un estimador es expresado en términos de una fórmula matemática obtenida


de la estimación como una función de las medidas muestrales (estadísticos o
estadígrafos)

Propiedades

a. Insesgado:

Sea ˆ un estimador puntual de un parámetro  . Entonces ˆ es un


estimador Insesgado de  :

si : E ˆ  
de lo contrario se dice que es sesgado, un estimador Insesgado es aquel cuya
media o valor esperado de la distribución de las de las estimaciones es igual al
parámetro estimado.
Es decir:
Al aumentar el tamaño de la muestra, su media tiende a coincidir con el
parámetro θ, y por lo tanto, su sesgo tiende a cero.
lim E ˆ  
Esto es:
n 

Dados dos ó más estimadores insesgados de un parámetro , seleccionamos


el estimador con la menor varianza, permaneciendo constante todo lo demás.

Se reserva derechos de autor 30


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Ahora, en lugar de utilizar el sesgo y la varianza para describir la bondad de un

estimador puntual, se puede emplear el valor esperado de


Es decir:
Si el estimador no es Insesgado, entonces la diferencia:

E ˆ   

Es conocida como sesgo del estimador ˆ .

b. Consistente
Se utiliza cuando no es posible utilizar estimador de mínima varianza, ya que a
medida que crece el tamaño de la muestra las estimaciones que nos
proporciona el estimador se aproximan cada vez más al valor del parámetro θ .
Si el estimador es Insesgado o asintóticamente Insesgado (carece de sesgo),
para que sea consistente es suficiente que, cuando el tamaño de la muestra
tiende a infinito (es decir, se hace muy grande), la varianza del estimador se
aproxime a cero. Esto es,

lim Var    0
n

c. Eficiente
La eficiencia de un estimador está vinculada a su varianza muestral. Así, para

un mismo parámetro Ө, se dice que el estimador ˆ1 es más eficiente que el

estimador ˆ2 si se cumple:

Var ˆ1   Var ˆ2 

Si un estadístico es más eficiente que otro, significa que varía menos de unas
muestras a otras. La media es un estimador del parámetro µ es más eficiente
que la mediana. Del mismo modo, la varianza Sn-12 es un estimador de σ2 más
eficiente que Sn2. (demostración para el alumno)

Se reserva derechos de autor 31


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Conclusión:

Considerando todos los estimadores insegados de un parámetro  , el que


tiene varianza mínima se llama estimador eficiente de  , llamado también
estimador de varianza mínima

d. Suficiencia:

Un estimador es suficiente cuando en su cálculo se emplea toda la información


de la muestra.
Por ejemplo, al calcular el estimador X del correspondiente parámetro
poblacional, utilizamos la fórmula:

x
i 1
i

X 
n

Para el cálculo se tienen en cuenta todas las puntuaciones Xi. también ocurre
con los estimadores Sn-12 y Sn2 de la varianza. Todos ellos pueden ser
considerados estimadores suficientes de los respectivos parámetros.

La estimación de un parámetro se puede realizar de dos maneras:

ESTIMACION

PUNTUAL POR INTERVALOS


DE CONFIANZA

Se reserva derechos de autor 32


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

4.2. Estimación Puntual

La estimación puntual se refiere a la elección de un estadístico, es decir un


número calculado a partir de los datos muestrales, respecto al cual tenemos
alguna esperanza o seguridad de que esté “razonablemente cerca” del
parámetro (población) que se ha de estimar.

También se dice que es la obtención de un punto, para ello se usan las


medidas de la muestra para calcular un único valor numérico, que es la
estimación del parámetro poblacional.
La estimación puntual de un parámetro desconocido  de la población consiste
en elegir una función de la muestra Y  G  X 1 , X 2 , X 3 , ... , X N  cuyo valor de

Y  G x1 , x2 , x3 , ... , x N  , puede tomarse como el valor de  con cierta


probabilidad

PARAMETRO ESTIMADOR INSESGADO ESTIMACION

Media
X SI x

Varianza
S 2 s2  SI s 
2

2

Desviación típica
S s   NO s

Proporción p̂ SI p̂
P

Se reserva derechos de autor 33


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

4.3. ESTIMACIÓN: POR INTERVALOS DE CONFIANZA

La estimación confidencial nos permite determinar un posible rango de valores


o intervalos. Es decir asociar a cada muestra un intervalo. No siempre los
resultados pueden ser los esperados

Es decir, estimar por intervalos es obtener dos valores estadísticos que definen
el intervalo (un límite inferior y un límite superior) con un grado específico de
confianza incluye al parámetro a estimar. La probabilidad de que una
estimación por intervalo incluya al parámetro se denomina nivel de confianza.

4.4. ESTIMACIÓN POR INTERVALOS DE CONFIANZA:

Para una población y dos poblaciones

a. para la media (con varianza conocida y con varianza desconocida)


b. para la proporción
c. para la varianza

Procedimiento para obtener un intervalo de confianza

a. Establecer una muestra aleatoria

b. Establecer un nivel de confianza o un determinado nivel de significancia

Nivel de Nivel de Total

confianza: Y significancia: 
0.99. 0.01 1.00
0.975 0.025 1.00
0.95 0.05 1.00
0.90 0.10 1.00
0.80 0.20 1.00

Se reserva derechos de autor 34


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

c.Determinar el estadístico de la distribución muestral

Estadístico de la Definición Intervalo


muestra
 Z0  Z 0
Con varianza IC (  ) : X  Z  X    X
1 n n n
conocida 2
Media s
Con varianza IC (  ) : X  Z  * X 
Z0 S
   X 
Z 0S
1 n
desconocida 2 n n
n > 30
s
Con varianza IC (  ) : X  t 2 * X 
t0 S
   X 
t 0S
n  1 , 1 n
desconocida n n
n < 30
P * (1  P P * (1  P) P * (1  P)
Proporción IC ( ) : p  Z 
PZ
1

n
   PZ
1

n
1 n 2 2
2

c. Calcular los valores del intervalo


Z0  Z 0
1     2
X    X
n n

d. Construir el intervalo

e. Interpretación

Se reserva derechos de autor 35


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

4.4.1. Intervalos de confianza para la media con varianza


conocida

Ejemplo:

La Facultad de Educación de cierta universidad desea estimar la calificación


media de los expedientes de los alumnos, se conoce por otros cursos que la
desviación estándar de las puntuaciones en la facultad es 2.01 puntos y la
media de la muestra es 4.9. Si se eligen una muestra 25 alumnos en la
Facultad
Hallar el intervalo de confianza para el 90%.

Solución
f. Muestra: n = 25 alumnos
g. Nivel de confianza : 90%
h. Estadístico de la muestra: es Z, se conoce la varianza.
i. Calculo de los valores del intervalo (puntos críticos)

IC (  ) : X  Z 
1 n
2

 4.9  0.66  4.24 , 5.56


2.01
IC (  ) : 4.9  1.64
25

j. Construcción del intervalo

k. Interpretación: el intervalo de confianza para la estimación media


de las calificaciones es 4.24 , 5.56 puntos

Se reserva derechos de autor 36


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

4.4.2.Intervalos de confianza para la media con varianza

desconocida

a. Para n > 30

El `presidente de una institución deportiva está interesado en conocer el


promedio de Km recorridos por los participantes de una maratón
realizada el año anterior, para establecer nuevas marcas y mejores
tiempos en la maratón a realizarse por el aniversario de dicha institución,
y así establecer nuevos record. Para ello, selecciona una muestra de
100 maratonistas y obtiene una desviación estándar S= 3.5 Km. y una
media muestral de 20 Km.. Determinar el intervalo de confianza al 95%.

l. Muestra: n = 100 maratonistas


m. Nivel de confianza : 95%
n. Estadístico de la muestra: es Z, no se conoce la varianza. (pero n
> 30).
o. Calculo de los valores del intervalo (puntos críticos)
s
IC (  ) : X  Z  *
1 n
2
3.5
IC (  ) : 20  1.96 *  20  0.56  (19.44, 20.56)
100

p. Construcción del intervalo

q. Interpretación: el intervalo de confianza para promedio de Km


recorridos por los participantes de una maratón es (19.44. 20.56)
km

Se reserva derechos de autor 37


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Ejemplo(n=120,150) y 90% , 99%

b. Para n < 30

Se ha obtenido una muestra de 15 vendedores de una Empresa Editora para


estimar el valor medio de las ventas por trabajador en la Empresa. La media y
varianza de la muestra (en miles de soles) son 5 y 2, respectivamente.
Determinar el Intervalo de confianza para la venta media por trabajador en la
Editorial al 90 %.

r. Muestra: n = 15 alumnos
s. Nivel de confianza : 90%
t. Estadístico de la muestra: es t, no se conoce la varianza
u. La media y la varianza se han obtenido de la muestra (media = 5
y la varianza = 2, desviación estándar =1.464.)
v. Calculo de los valores del intervalo (puntos críticos

s
IC (  ) : X  t 2 *
n 1,1 n
1.464
IC (  ) : 5  1.761*  5  0.666  (4.334, 5.666)
15

w. Construcción del intervalo de confianza

x. Interpretación: el Intervalo de confianza para la venta media por


trabajador es (4.334, 5.666) ventas, al 90% de confiabilidad

ERRORES DE ESTIMACION DE LA MEDIA

Poblaciones Grandes (N) Poblaciones Pequeñas (n)

Se reserva derechos de autor 38


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

 S
EZ  * Et  *
1 n 1 n
2 2

4.4.3.Intervalos de confianza para la proporción

p * (1  p)
IC ( ) : p  Z 
PZ
1

p * (1  p)
n
   PZ
1

p * (1  p)
n
1 n 2 2
2

Ejemplo

Se ha obtenido una muestra al azar de 150 vendedores de una empresa de


cemento para estimar la proporción de vendedores que no alcanza un límite de
ventas mínimo establecido por la gerencia de logística. De entre los
seleccionados, 50 no han conseguido llegar al límite de ventas mínimo
establecido. Hallar el Intervalo de confianza para la proporción de trabajadores
en la empresa que no alcanza el límite al 80 %.

y. Muestra: n = 150 vendedores


z. Nivel de confianza : 80%
aa. Estadístico de la muestra: es Z.
bb. Calculo de los valores del intervalo (puntos críticos)
P * (1  P
IC ( ) : p  Z 
1 n
2

0.333* (1  0.333
IC ( ) : 0.333  1.28  (0.28, 0.38)
150

cc. Construcción del intervalo

Se reserva derechos de autor 39


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

dd. Interpretación : el intervalo de confianza para los trabajadores que


no alcanzan el límite de las ventas es (0.28, 0.38)

4.5. PRUEBA DE HIPÓTESIS:

Otra manera de hacer inferencia es haciendo una afirmación acerca del valor
que el parámetro de la población bajo estudio puede tomar. Esta afirmación
puede estar basada en alguna creencia o experiencia pasada que será
contrastada con la evidencia que nosotros obtengamos a través de la
información contenida en la muestra. Esto es a lo que llamamos Prueba de
Hipótesis

HIPOTESIS:

Es una proposición, afirmación, verdad anticipada, una aseveración a cerca de


una población o más poblaciones.
A los investigadores les interesa dos tipos de hipótesis:

Hipótesis de Investigación

Es la conjetura o suposición que motiva la investigación, puede ser el resultado


de años de observación por parte del investigador. Conducen directamente a
las hipótesis estadísticas.

Hipótesis Estadística

Se establecen para ser evaluadas por medio de técnicas estadísticas


adecuadas. Estas son las hipótesis objeto de estudio.

Prueba de Hipótesis

Es una regla que cuando los valores experimentales son observados nos
conduce a una decisión, No rechazar “Aceptar”, Rechaza, bajo consideración

CLASES DE PRUEBAS DE HIPOTESIS

Se reserva derechos de autor 40


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

A. Hipótesis Nula: Ho

Es la hipótesis que se quiere probar (se formula con la finalidad de ser


rechazada). Se rechaza cuando los resultados de los datos muestrales
así lo demuestran. ( puede tener los signos =, mayor =, menor =).

H 0 :    0 , H 0 :    0 , H 0 :   0

B. Hipótesis Alternativa: H1

Hipótesis que se acepta si la Ho se rechaza.

H1 :  0 , H 0 :   0 , H 0 :   0

TIPOS DE PRUEBAS DE HIPOTESIS

A. HIPÓTESIS UNILATERAL O DE UNA COLA

a. Prueba de la cola inferior o del lado izquierdo

b. Prueba de la cola superior o del lado derecho

B. HIPOTESIS BILATERAL O DE DOS COLAS

HIPÓTESIS UNILATERAL O DE UNA COLA

a. Prueba de la cola inferior o del b. Prueba de la cola superior o


lado izquierdo del lado derecho

región de región de
región región aceptación rechazo
Se reserva
dederechos de autor de 41
1
1




PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Hipótesis Nula: H o :   0 Hipótesis Nula: H o :   0


Hipótesis Alternativa: H1 :   0
Hipótesis Alternativa: H1 :  0

HIPOTESIS BILATERAL O DE DOS COLAS

región de aceptación

región de
región de rechazo
rechazo
1
 /2  /2

1 2

Hipótesis Nula: H 0 :   0
Hipótesis Alternativa: H1 :    0

PROCEDIMIENTO PARA LA PRUEBA DE HIPOTESIS

1. Formular las hipótesis

H 0 :   0 , H 0 :   0 , H 0 :   0
H1 :  0 , H 0 :   0 , H 0 :   0
2. Definir un nivel de confianza

Nivel de significancia:  0.01 0. 025 0.05 0.10 0.20

Se reserva derechos de autor 42


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Nota:

Si la hipótesis es bilateral, el nivel de significancia debe ser dividido en dos, ya


que la región de aceptación se ubicara entre dos puntos críticos, es decir en un
intervalo (un límite inferior y un límite superior), en cuyos extremos hacia atrás
de cada punto podemos ubicar a la región de rechazo, solo para este caso se
contara con dos regiones de rechazo.

3. Determinar la estadística de prueba


La estadística de prueba, se elige dependiendo de lo que se solicita, es
decir se debe leer correctamente el texto que describe las características
del problema objeto de investigación, para luego elegir la estadística
correcta. Normal. T, …

4. Establecerla región critica


Para la construcción o delimitación de la región critica o región de rechazo
se debe tener en cuenta:
a. El tipo de hipótesis que se ha formulado, ya sea esta, unilateral o bilateral,
la hipótesis que indica que zona es de rechazo es la hipótesis alternativa.
b. El nivel de significancia

5. Calculo de estadística de prueba


Se reemplaza los valores del problema y se obtiene un valor, denominado
estadística calculada

6. Decisión

Para tomar la decisión correcta se debe:

a. Si la prueba de hipótesis se ha efectuado sin usar un paquete estadístico,


el valora del estadístico de prueba se debe comparar con un valor
obtenido de una tabla estadística, considerando para la obtención de esta
valor el nivel de significancia y el tamaño de la muestra.
Se aceptara la hipótesis si está el valor del estadístico de prueba se
encuentra en la zona de aceptación, con un determinado nivel de
significancia

Se reserva derechos de autor 43


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

b. Si la prueba se ha efectuado haciendo uso de un paquete estadístico, el


valor del p – valor (nivel de significancia en el sistema) se compara con el
nivel de significancia establecido en el ítems 2, si el valor de mayor que el
nivel de significancia la hipótesis nula se rechaza.

7. Conclusión

Responder al problema formulado, con un determinado nivel de significancia


o de confiabilidad.

4.6. PRUEBA DE HIPÓTESIS: PARA LA MEDIA, PARA


PROPORCIÓN

A.PARA UNA POBLACIÓN

4.6.1.PRUEBA DE HIPÓTESIS PARA LA MEDIA CUANDO LA


VARIANZA ES CONOCIDA

Una caja de 300cm3de leche evaporada se diseña para que contenga una
cantidad ligeramente mayor que 300cm3, de tal manera que si excede este
volumen hay problemas. Sin embargo, un volumen menor a 300cm3ocasiona
que los consumidores demanden al fabricante. En el proceso normal de
producción, el fabricante supone que la media es igual o mayor
a300cm3Suponiendoquese prueba una muestra de 45 cajas y se encuentra un
volumen promedio de 290cm3.Sepuedeafirmarqueel fabricante está en lo
correcto, si se sabe que la desviación estándar de las cajas de leche de 6 cm3,
con un nivel de significancia de 0.01

Solución

El problema corresponde a la distribución de la media con n > 30.


  300 cm 3 X  290cm 3  6  0.01 n  49

1. Formular la hipótesis
Ho :   300 cm 3
H 1 :   300 cm 3

2. Nivel de Significancia
  0.01
3. Estadística de Prueba

Se reserva derechos de autor 44


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Como n > 30 y la varianza es conocida, la estadística de prueba de la


variable aleatoria es la distribución normal estándar N (0,1)

X  290  300 10


Z  Z     5.833
/ n 12 / 49 12 / 7

4. Región Critica

5. Decisión
Si Z calc  Z tabl  Ho se acepta 
 5.833   2.326  Ho no se acepta

Por lo tanto, Ho se rechaza

6. Conclusión
.Se puede afirmar que el fabricante no está en lo correcto, el contenido de
las cajas no es 300cm3 , con un nivel de significancia de 0.01

4.6.2. PRUEBA DE HIPÓTESIS PARA LA MEDIA CUANDO LA


VARIANZA NO ES CONOCIDA

Una empresa que regula el consumo eléctrico de cierta localidad, publica los
resultados del consumo anual en número de Kilowatt-hora que gastan varios
aparatos electrodomésticos. Se afirma que una aspiradora gasta un promedio
de 46 kilowatt-hora al año. Si una muestra aleatoria de 12 hogares que se
incluye en un estudio indica que las aspiradoras gastan un promedio de 42
kilowatt-hora al año con una desviación estándar de 11.9 kilowatt-hora.
¿Se puede concluir que las aspiradoras gastan anualmente, en promedio,
menos de 46 kilowatt-hora con un nivel de significancia de 0.05? Suponga que
la población de kilowatt-hora es normal.

Solución:

  46 Kilowatt  hora X  42 Kilowatt  hora  11.9 Kilowatt  hora


 0.05 n  12
1. Formular la hipótesis
Ho :    46 kilowatt  hora
H 1 :   46 kilowatt  hora

Se reserva derechos de autor 45


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

2. Nivel de Significancia
  0.05

3. Estadística de Prueba

Como n < 30 y la varianza es conocida, la estadística de prueba de la


variable aleatoria es la distribución normal estándar N (0,1)

X  42  46 4
t Z     1.164
S/ n 11.9 / 12 11.9 / 3.464

4. Región Critica

5. Decisión
Si t calc  ttabl  Ho se acepta 
 1.164   1.796  Ho se acepta

Por lo tanto la Ho no se rechaza

6. Conclusión
Se concluye que las aspiradoras gastan anualmente, en promedio, menos
de 46 kilowatt-hora con un nivel de significancia de 0.05

4.6.3. PRUEBA DE HIPÓTESIS PARA PROPORCION

Un ingeniero civil afirma que se instalan termas eléctricas en 70% de todas las
casas que se construyen hoy actualmente en la ciudad. ¿Estaría de acuerdo
con esta afirmación si una investigación de casas nuevas en esta ciudad
muestra que 8 de 15 tienen instaladas termas eléctricas? Con un nivel de
significancia de 0.10.

Solución.

P  0.70 p  8 / 15  0.5333 (1  P)  0.4667  0.10 n  15

1. Formular la hipótesis

Se reserva derechos de autor 46


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Ho : P  0.70
H 1 : P  0.70

2. Nivel de Significancia
  0.10

3. Estadística de Prueba

Como n < 30 y la varianza es conocida, la estadística de prueba de la


variable aleatoria es la distribución normal estándar N (0,1)

pP 0.533  0.70  0.167


t Z     1.415
P (1  P) 0.70 (0.30) 0.118
n 15

4. Región Critica

5. Decisión
Si t calc  ttabl  Ho se acepta 
 1.164   1.796  Ho se acepta

Por lo tanto lo Ho no se rechaza

6. Conclusión
Se concluye que las aspiradoras gastananualmente, en promedio, menos
de 46 kilowatt-hora con un nivel de significancia de 0.05

4.6. Prueba de hipótesis: para la media, para proporción, para la


varianza (relativas para una población, y dos poblaciones)

Se reserva derechos de autor 47


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

B.PARA DOS POBLACIONES (diferencia entre las medias y


proporciones)

HIPÓTESIS UNILATERAL O DE UNA COLA

c. Prueba de la cola inferior o d. Prueba de la cola superior o del


del lado izquierdo lado derecho

región de región de
aceptación rechazo
región región
de de
1
1 


Hipótesis Nula: Hipótesis Nula:


H o : 1   2   0 H o : 1   2   0

Hipótesis Alternativa:
Hipótesis Alternativa: H 1 : 1   2   0
H1 : 1   2   0

HIPOTESIS BILATERAL O DE DOS COLAS

Región de aceptación

Región de
Región de Rechazo
rechazo
1
 /2  /2

1 2

Hipótesis Nula:

Hipótesis Alternativa:

Procedimiento:

Se reserva derechos de autor 48


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Es el mismo procedimiento que en primer caso: solo se tiene en cuenta al


formular las hipótesis, que en este caso es para la diferencia de dos promedios,
como se muestra en la tabla anterior.

4.6.4. PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS


CUANDO LAS VARIANZAS  12 , ,  22 SON CONOCIDAS  
Un grupo de investigadores desea saber si los datos que han recolectado
muestran evidencia suficiente para indicar una diferencia entre las
concentraciones medias de ácido úrico en el suero de individuos normales e
individuos con síndrome de Down. Los daros recogidos corresponden a las
lecturas de ácido úrico en el suero de 12 individuos con síndrome de Down y
15 individuos sanos. Las medias de las muestras son 4.5mg/100ml y 3.4
mg/100ml, si las varianzas ara la población con síndrome de Down es 1 y para
la población sana es 1.5. Con 5% de confiabilidad.

SOLUCION:

1. Formular la hipótesis
Ho : 1   2  0
H 1 : 1   2  0

2. Nivel de Significancia
  
  0.05   , 
2 2

3. Estadística de Prueba

( X 1  X 2 )  ( 1  1 ) (4.5  3.4 )  0
Z calc   Z calc   2.57
 12  22 1 1.5


n1 n2 121 15 2

4. Región Critica

Se reserva derechos de autor 49


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

5. Decisión
Si Z tabl  Z calc  Z tabl  Ho se acepta 
(1.96)  2.57 no es  (1.96)  Ho no se acepta

Por lo tanto la Ho se rechaza

6. Conclusión
Se concluye que los datos recogidos, no muestran evidencia suficiente para
explicar diferencia entre las concentraciones medias de ácido úrico en el suero
de individuos normales e individuos con síndrome de Down, con un nivel de
significancia de 0.05

4.6.5. PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS


CUANDO LAS VARIANZAS  12 , ,  22 NO SON CONOCIDAS 

A. CUANDO LAS VARIANZAS  12   22 SON IGUALES 

Un grupo de especialistas de la salud, tiene como objetivo examinar las


características de la destrucción pulmonar, en personas que fuman cigarrillos
antes de desarrollar un marcado Enfisema pulmonar. En personas longevas se
practicaron mediciones de tres índices de destrucción pulmonar, en personas
que no fumaban, y en personas con tabaquismo que mueren repentinamente
fuera de un nosocomio y por causas no respiratorias. Según el estudio una
calificación alta indica un mayor daño pulmonar. Se obtuvieron muestras con
las calificaciones producidas, para uno de los índices de destrucción pulmonar
de una muestra de 9 personas que no fuman y 16 fumadores. Los especialistas
pretenden saber si es posible concluir, en base a los datos, que las personas
que si fuman, en general, tienen los pulmones más dañados que las personas
no fumadoras, como se indica en la siguiente tabla. No se conoce las varianza
de las muestras, pero se supone son iguales)

No fumadores 18.1 6 10.8 11.0 7.7 17.9 8.5 13.0 18.9

Fumadores 16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3 18.6

12.0 24.1 16.5 21.8 16.3 23.4 18.8

SOLUCION:

1. Formular la hipótesis
Ho :  NF   F  0
H 1 :  NF   F  0

2. Nivel de Significancia

Se reserva derechos de autor 50


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

  0.05 

3. Estadística de Prueba

X S  17.5 S  4.4711, X S  12.4 S  4.8492

combinar las var ianzas de las muestras para obtener

15(4.4711) 2  8( 4.8492) 2
S p2  21.2165
15  8
(17.51  12.4 )  0
t calc   t calc  2.6573
21.2165 21.2165

16 9

4. Región Critica

5. Decisión
tcalc  ttabl  Ho se acepta 
2.6573 no es  (1.71)  Ho no se acepta

Por lo tanto Ho se rechaza

6. Conclusión

De los resultados se concluye que las dos medias poblacionales son


diferentes, las personas que fuman tienen los pulmones más dañados que las
personas que no fuman. Con un nove de significancia de 0.05


B. CUANDO LAS VARIANZAS  12   22 NO SON IGUALES 
En una empresa que fabrica sustancias químicas, evalúanla calidad del
producto por la cantidad de impurezas presentes en un lote. Para la fabricación
utilizan dos líneas de producción 1,2 como cantidad promedio de impurezas en
la sustancia química. Se tomaron muestras aleatorias de cada línea y se
obtuvo las siguientes mediciones.

Se reserva derechos de autor 51


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Línea n Promedio Varianza


1 16 3.2 1.04
2 16 3.0 0.51

¿Los datos aportan evidencia suficiente para concluir que la cantidad promedio
de impurezas del proceso es menor para la línea 2?. Con un nivel de
significancia igual a 0.05

Solución:

7. Formular la hipótesis
Ho : 1   2
H 1 : 1   2

8. Nivel de Significancia
  0.05

9. Estadística de Prueba

( X 1  X 2 )  ( 1  1 ) (3.21  3.0 )  0
t calc   t calc   0.6426
2 2
S S 1.04 0.51
1
 2 
n1 n2 16 16

10. Región Critica

11. Decisión
Si tcalc  ttabl  Ho se acepta 
 1.164   1.7  Ho se acepta

Por lo tanto la Ho no se rechaza

Se reserva derechos de autor 52


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

12. Conclusión
Se concluye que las aspiradoras gastananualmente, en promedio, menos
de 46 kilowatt-hora con un nivel de significancia de 0.05

4.6.6. PRUEBA DE HIPÓTESIS PARA POBLACIONES QUE NO


PRESENTAN UNA DISTRIBUCION NORMAL

En este caso se aplica el teorema del Limite Central, si el tamaño de la muestra


(n>30). “La distribución de la diferencia entre medias de las muestras será
aproximadamente normal”. Las muestras son independientes.

4.6.7. PRUEBA DE HIPÓTESIS PARA LA DIFERENCIA DE DOS


PORPORCIONES
Un estudio de estudios nutricionales en acilos de ancianos, encontraron que
entre 55 pacientes con hipertensión, 24 tenían una dieta con restricción de
sodio. De 149 pacientes sin hipertensión, 36 tenían una dieta sin sodio. ¿Es
posible concluir que las poblaciones muestreadas, la proporción de pacientes
con dieta restringida en sodio es mayor entre pacientes con hipertensión que
entre pacientes sin hipertensión?

Solución.

1. Formular la hipótesis
Ho : P    0
H1 : P    0

2. Nivel de Significancia
  0.0.5

3. Estadística de Prueba

Como n > 30, la estadística de prueba de la variable aleatoria es la


distribución normal estándar N (0,1)

Se reserva derechos de autor 53


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

( p 1  p2 )  ( P1  P2 ) X1  X 2
Z  P 
1 1 n1  n2
Pˆ (1  Pˆ ) 
n1 n2

(0.43641  0.2416)
Z  2.71
0.2941(0.7059) 0.2941(0.7059)

55 149

4. Región Critica

Región rechazo Región de


rechazo aceptación de
aceptación

1

5. Decisión
Si Z calc  Z tabl  Ho se acepta 
2.71   1.64  Ho se acepta

Por lo tanto lo Ho no se rechaza

6. Conclusión

La proporción de pacientes con dieta restringida en sodio es mayor entre


pacientes hipertensos que entre los pacientes sin hipertensión

4.7. ERRORES

Ho verdadera Ho falsa

Rechazar Ho Error tipo I Decisión correcta


P(error tipo I )  

Se reserva derechos de autor 54


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

No rechazar Ho Decisión correcta Error tipo II


P(error tipo II )  

La Probabilidad de cometer un error Tipo I:se conoce como Nivel de


Significancia, se denota como α y es el tamaño de la región de rechazo

El complemento de la región de rechazo es 1−α y es conocido como el


Coeficiente de Confianza

En una prueba de Hipótesis de dos colas la región que no se rechaza


corresponde a un intervalo de confianza para el parámetro enestudio

Se reserva derechos de autor 55


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

MODULO
ANALISIS DE REGRESION

Se reserva derechos de autor 56


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

INTRODUCCION

Estamos interesados en una variable aleatoria simple Y. Se supone que el


valor tomado por esta variable aleatoria depende o está influenciada por los
valores tomados por una o más variables diferentes. La variable aleatoria Y se
denomina variable dependiente o respuesta; las variables que influencian a
Y, simbolizadas por la letra X, se denominan variables independientes,
variables predictoras o regresores. Al realizar estimaciones o predicciones,
los regresores no se tratan como variables aleatorias. Por el contrario, son
entidades que pueden asumir valores diferentes pero cuyos valores en el
momento en que debe hacerse la predicción no se determinan al azar.

Supongamos que deseamos desarrollar una ecuación para describir la


temperatura del agua fuera de la plataforma continental. Como la temperatura
depende en parte de la profundidad del agua, hay dos variables implicadas.
Estas son X, la profundidad del agua, e Y, la temperatura del agua. No estamos
interesados en hacer inferencias sobre la profundidad del agua. En cambio,
queremos describir el comportamiento de la temperatura del agua bajo la
suposición de que la profundidad del agua se conoce de antemano con
precisión. La temperatura del agua es la respuesta; la profundidad del agua es
el único regresor considerado.

Incluso si la profundidad del agua está fijada en algún valor x, la temperatura


del agua variará debido a otras influencias aleatorias. Por ejemplo, si se toman
varias mediciones de temperatura en diferentes lugares, cada una a una
profundidad de x = 1000 pies, los valores de las mediciones variarán. Por esta
razón, debemos admitir que para una x dada, estamos realmente tratando con
una variable aleatoria “condicional”, que indicamos mediante Y/x (Y dado que X
= x). Esta variable aleatoria condicional tiene una media indicada mediante
 Y / x . Resulta obvio que la temperatura media del agua del océano depende en
parte de la profundidad del agua; no esperamos que la temperatura media a x
= 1000 pies sea la misma que a x = 5000 pies. Es decir, es razonable
suponer........ Para descubrirlo. Sin embargo, por razones prácticas, estos
valores deberían representar una gama bastante amplia de los valores posibles
de la variable independiente X. A veces se pueden preseleccionar los valores
utilizados. Por ejemplo, al estudiar la relación entre la temperatura del agua y la
profundidad del agua, podemos saber que nuestro modelo debe utilizarse para
predecir la temperatura del agua a profundidades de 1000 a 5000 pies.
Podemos elegir para medir las temperaturas del agua a cualquier profundidad
deseada dentro de esta gama. Por ejemplo podemos tomar mediciones en
incrementos de 1000 pies. De esta manera prefijamos nuestros valores x a x 1
= 100; x 2 = 2000; x 3 = 3000; x 4 = 4000; x 5 = 5000. Cuando se
preseleccionan los valores X utilizados para desarrollar la ecuación de
regresión, se dice que el estudio está controlado. A menudo los valores X
utilizados para desarrollar la ecuación se eligen mediante algún mecanismo
aleatorio. Por ejemplo, al estudiar el efecto de la calidad del aire sobre el pH del
agua de lluvia, nos veremos forzados a seleccionar una muestra de días,
anotar la lectura de la calidad del aire de ese día y medir el pH del agua de
lluvia. En este caso, los valores de X utilizados para desarrollar la ecuación de
regresión no están preseleccionados por el investigador. Representan un
Se reserva derechos de autor 57
PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

conjunto de valores de X típicos. Los estudios de este tipo se denominan


estudios observacionales. Veamos.

EJEMPLO. Un Farmacéutico quiere predecir la concentración de un


determinado fármaco en la corriente sanguínea, cinco minutos después de su
administración (Y), en base al conocimiento del tamaño de la dosis inicial (X).
En este caso, la variable aleatoria Y es la variable dependiente; X es la variable
independiente. En un experimento controlado en laboratorio, el experimentador
selecciona los valores tomados por X. Por ejemplo, podríamos elegir
experimentar con dosis de 0.05, 0.10, 0.20 y 0.30 ml. Puesto que la elección de
las dosis experimentales está en manos del investigador, este es un estudio
controlado.

Independientemente de si el estudio es controlado u observacional, el objeto


del análisis de regresión es encontrar una ecuación de predicción o regresión
razonable.

REGRESION
Es el método estadístico que investiga y define la relación funcional entre dos o
más variables. La ecuación o función matemática constituye la función o línea
de regresión. Dadas las variables (X, Y) podemos expresarlas como

Y = f(X) o X = f(Y)
lo cual dignifica que tales relaciones funcionales permitirán estimar, explicar o
predecir el valor de una variable dado el valor de la otra variable.

DIAGRAMA DE ESPARCIMIENTO (Gráfica de Calibración)

Si tenemos n observaciones bidimensionales, cada par de datos (X, Y)


puede representarse en un sistema de eje de coordenadas cartesianas.
Cada pareja de observaciones se representa por un punto sobre el plano
y la totalidad de puntos registrados se denomina diagrama de dispersión
o, para casos de equipos, gráficas de calibración.

NOTA: una buena estimación de un parámetro dependerá del grado de


asociación que exista entre las variables X, Y y de que la función elegida se
ajuste lo mejor posible a la nube de puntos en el plano de ejes cartesianos.

CORRELACION

Es el análisis del grado de asociación o de afinidad entre las variables


expresada a través de la función o modelo de regresión. Para que exista

Se reserva derechos de autor 58


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

correlación es necesario dos variables, es decir, dos medidas que vayan


cambiando valores.

MODELO LINEAL BIDIMENSIONAL

Dadas las relaciones existentes entre una variable dependiente Y, y una


variable independiente o explicatoria X, debemos probar la hipótesis sobre el
tipo de relación que hay entre ellas y sobre la capacidad de predicción. Tal
relación o modelo queda definido por:

Yi  1  2 X i

Como es poco probable que los puntos (X, Y) caigan precisamente sobre una
recta, la relación lineal exacta de la ecuación debe ser modificada para incluir
un término de perturbación aleatoria, llamado también error o término
estocástico  . Así tenemos:

Y i  1  2 X i   i

Yi: variable dependiente.


Xi: variable independiente.

 1: int ercepto;  2 : pendiente de la recta; : perturbaciones aleatorias.

El propósito básico del análisis de regresión es estimar los parámetros


estructurales, es decir, el intercepto y la pendiente de la recta respectivamente.

Si existe una relación lineal entre la señal analítica de un instrumento (Y) y la


concentración de un analito (X) nos propondremos calcular la “mejor” línea
recta que pasa a través de los puntos de la gráfica de calibración, cada uno de
los cuales está sujeto a un error experimental.

HIPOTESIS RELATIVAS A LAS PERTURBACIONES

1.Toda perturbación aleatoria tiene Media cero

 
E i  0 para i  1, 2, 3, ... , n

Se reserva derechos de autor 59


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

2.Todas las perturbaciones aleatorias tienen la misma Variancia.


Homocedasticidad.

 
E  2i   2 para i  1,2,3,..., n

3.Las perturbaciones son independientes entre si. Covariancia.



E i  j   0 i j
4.Las perturbaciones se distribuyen normalmente con Media 0 y variancia  2 .
Además son independientes del valor x. La función de distribución de
probabilidad de  i es:


2


i

  1 2 2

f , P  exp 

 2

La estimación de estos parámetros estructurales se lleva a cabo mediante el


método de los Mínimos Cuadrados, que busca determinar los estimadores b 1 y
b2 .

CALCULO DE LOS ESTIMADORES

Suponiendo: yi  b1  b2 xi  ei

Los estimadores se determinan mediante las siguientes relaciones

 x 2i   y i    x i   x i y i 
b1 
n  x 2i   x i 
2

n  x i y i   x i   y i 
b2 
n  x 2i   x i 
2

o también b1  y  b 2 x

CALCULO DE LA VARIANCIA DE LOS ESTIMADORES


Asumiendo la siguiente proposición:

 2  s 2e 
 e 2i

 y 2  b1  y  b 2  x y
n2 n2

Se reserva derechos de autor 60


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Entonces
 2
Var b2   Sb22
 x x 
2
i

 2  x 2i
 
Var b 1   S 2b
  xi  x 
2 1

INTERVALOS DE CONFIANZA DE LOSPARAMETROS

Por definición
b  i
t i es decir  i  bi  t Sb
Sb i
i

con (n - 2) grados de libertad (g de l) y un % de significancia.

Índice de Determinación R2 e Índice de Correlación R.


b 22  x 2i 
 x i  2 
  n
 
R2 

 y2 
2
 yi  
 i

n 
 

VERIFICACION
Variation Total = Variación Explicada + Variación No Explicada

CT = SCR + SCE

  y i  y  y  y  y i  y i 
2 2 2
 

PRUEBA DE CONFIABILIDAD DEL MODELO. Prueba F


2 x x 
2

i
Variancia Explicada b2
FCALCULADA  
Variancia No Explicada S 2e

se compara con un FTABULADO en Tablas con 1 y (n - 2) grados de libertad; y 5%


de significancia o 1% de significancia estadística.

Se reserva derechos de autor 61


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

PRUEBA DE COHERENCIA DE LOS ESTIMADORES.


Prueba t
bi
t CALCULADO 
Sb i

se compara con un tTABULADO en tablas con (n - 2) grados de libertad y una


significancia estadística dada del 1% o del 5%.

CASO PRACTICO

En un ensayo calorimétrico para glucosa (GLU) el equipo detecta absorbancia


(Y) de soluciones estándares de glucosas, cuyas concentraciones medidas en
miliMoles (mM) y asumidas como variables independientes genera la siguiente
tabla

Muestra ( n ) 1 2 3 4 5 6 7 8 9 10

Concentración 6 10 12 14 16 18 22 24 26 32
GLU (mM) (X)

Absorbancia (y) 40 44 46 48 52 58 60 68 74 80

Se requiere desarrollar un análisis de regresión.

SOLUCION: ELABORACION DEL DIAGRAMA DE DISPERSION (Gráfica de


calibración)

ABSORVANCIA
90

80
CONCENTRACION DE GLUCOSA

70

60

50

40

30
40 50 60 70 80

2. CALCULO DE LOS ESTIMADORES

a) Desarrollamos la siguiente tabla

Se reserva derechos de autor 62


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

n Yi Xi ( Xi - X ) ( Yi - Y ) (Xi - X) (Yi - Y) (Xi – X)2


1 40 6 -17 -12 204 144
2 44 10 -13 -8 104 64
3 46 12 -11 -6 66 36
4 48 14 -9 -4 36 16
5 52 16 -5 -2 10 4
6 58 18 1 0 0 0
7 60 22 3 4 12 16
8 68 24 11 6 66 36
9 74 26 17 8 136 64
10 80 32 23 14 322 196
Suma
Total 570 180 0 0 956 576

Debemos hallar :

Y i  b 0  b 1 X i  i
n = 10, Media (X) = 18; Media (Y) = 57

  x i  x  y i  y  956;   x i  x   y i  y
2 2
 576;  1 634

Cálculo de Estimadores:

b 1 
 X i  XYi  Y
956
  X i  X   166
2 .
576
b 0  Y  b 1 X  57  1. 66 *  18   27. 12

La recta de la regresión será:



Y  27. 12  1. 66 X i
i

ABSORVANCIA
1.00

.75
PROBABILIDAD ACUMULADA

.50

.25

0.00
0.00 .25 .50 .75 1.00

PROBABILIDAD OBSERVADA ACUMULADA

Se reserva derechos de autor 63


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

3. PRUEBA DE SIGNIFICACION DE ESTIMACION DE PARAMETROS

Hacemos uso de la siguiente tabla

2 2 2 2
n Yi Xi Yi ei e i X i ( Xi – X) (Yi – Y)
1 40 6 37.08 2.92 8.5264 36 144 289
2 44 10 43.72 0.28 0.0784 100 64 169
3 46 12 47.04 -1.04 1.0816 144 36 121
4 48 14 50.36 -2.36 5.5696 196 16 81
5 52 16 53.68 -1.68 2.8224 256 4 25
6 58 18 57.00 1.00 1.0000 324 0 1
7 60 22 63.64 -3.64 13.2496 484 16 9
8 68 24 66.96 1.04 1.0816 576 36 121
9 74 26 70.28 3.72 13.8384 676 64 289
10 80 32 80.24 -0.24 0.0576 1024 196 529
Total
Suma 570 180 0 47.3056 3816 576 1634

a) Cálculo de la Variancia No Explicada


 2

S2e = 47. 3056 / ( 10 - 2 ) = 5. 9132

b) Cálculo de las Variancias y Desviaciones Estándares de los


Estimadores

Sb20 = (47.3056) (3816) / (10 - 2) 10 (576) = 3.92


Sb1 = 1.98

Sb21 = 47.3056 / (10- 2) 576 = 0.01


Sb2 = 0.1
c) Prueba de Coherencia de los estimadores
Estimador Intercepto

Hipótesis Nula Ho : b 0 = 0 (No existe coherencia)


Hipótesis Alternante H 1 : b 0 = 0 (Existe Coherencia)

b 0  b 0 b 0 27. 12
tC     13. 7
S b0 S b0 1. 98

t TABULADO = t (0.05, 8 g de l) = 2.306


Asimismo. Estimador Pendiente

Se reserva derechos de autor 64


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Hipótesis Nula Ho : b 1 = 0 (No existe coherencia)

Hipótesis Alternante H 1 : b 1 = 0 (Existe Coherencia)

b 1  b 1 b 1 1. 66
tC     2. 306
S b1 S b1 0. 1

H1: b1  0 t T   2.306 con 8 g. l. y   0.05

t TABULADO = t (0.05, 8 g de l) = 2.306


Como tCALCULADO cae en la zona de rechazo, rechazaremos Ho. Luego Xi si
influye significativamente sobre Yi.

Entonces b 0 y b 0 son estadísticamente significativos a un nivel de


significación del 5%.

3. Prueba de Bondad de Ajuste ( R2 ) y de Correlación ( R )

b 1   X i  X Yi  Y  9. 56 
R 2
 1. 66    0.971212
Yi  Y 2  1634 

Es decir, la ecuación de regresión explica alrededor del 97.12% de la variación


total

Asimismo R = 0.9854, es decir, 98.54%, lo cual es un alto índice de correlación


lineal.

5. Prueba de Confiabilidad del Modelo (Tabla F)

Hipótesis Nula Ho :El modelo no tiene la confianza estadística del 95%


Hipótesis Alternante H 1 :El modelo si tiene la confianza estadística del
95%

Es decir:
Ho : b 0 = b 1 = 0
H1 : b 0 = b 1 = 0

  X i  X 1. 66 2 576


2

 
FC  b
2
S 2e

 47. 3056 
 268. 421
 
 10  2 

FTABULADO = F [ 0.05; 1 y (n - 2) g de l] = F ( 0.05: 1 y 8 g de l ) = 5.32

Se reserva derechos de autor 65


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Se acepta la hipótesis alternante

6. Predicción Puntual de Yi si Xi = 40.


Como la Ecuación de la Recta de Regresión es: Y   27. 12  1. 66 X
i i
Reemplazando valores tenemos:
Y i  27. 12  1. 66 X i  27. 12  .1. 66 *  40  93. 52

NOTA SOBRE EL ERROR ESTANDAR DE ESTIMACION O VARIANCIA NO


EXPLICADA
Al observar la siguiente gráfica podemos notar que

El error estándar de estimación es una medida de esparcimiento alrededor de


una línea de regresión. Es la desviación estándar de los valores observados Yi
con respecto a los valores de Y estimados ( Y i ) por la línea de regresión.

Entre el valor de Y y su estimado Y i existe una diferencia o sesgo, que puede


ser menor o mayor en la medida que los n puntos del diagrama de
esparcimiento estén más o menos cerca de la línea de regresión.

El error estándar de estimación o de regresión cumple las mismas propiedades


de la desviación estándar. La diferencia está en que el error estándar de
regresión mide las dispersiones de los valores alrededor de la línea de
regresión y la desviación estándar alrededor de la media.

CORRELACION LINEAL
Se ha asumido que la variable independiente (X) se conocen sin error. Aun
cuando esto es aplicable a múltiples experimentos, existen también problemas
en los cuales tanto las X como las Y son variables aleatorias. Este es el caso
de la relación entre las precipitaciones pluviales y la producción de ciertos
cultivos; entre el medio ambiente y cultivos de bacterias, etc. A esta clase de
problemas se les llama problema de análisis de correlación. El coeficiente de
correlación de una población queda definido por la relación

2
 2
 1 
 22

donde

2 es una medida de la variación de las Y cuando X se conoce.

Se reserva derechos de autor 66


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

 2
2 Es una medida de la variación de las Y cuando la X no es conocida

 2
2   2
es una medida de la variación de las Y que se explica por la
relación lineal entre X

 2
nos indica qué proporción de la variación de las Y puede atribuirse a la
relación lineal de X

Estos mismos argumentos se aplica también a R 2, el cuadrado del coeficiente


de correlación muestral, que es definido por

R 
  X  X  Y  Y 
  X  X  Y  Y 
2 2

Se reserva derechos de autor 67


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

MODULO

ANALISIS DE VARIANZA

x1 1, x1 2 , x1 3 , xk 1

x2 1 , x2 2 , x2 3 , x2 k

...............................

xn1 , xn2 , xn3 , xn k

T1 .. T2 .. T3 .. T .1..

LIMA, 2018

Se reserva derechos de autor 68


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

INTRODUC CION

El análisis de la varianza (ANOVA) es un método estadístico, de gran utilidad


tanto en la industria, para el control de procesos, como en el laboratorio de
análisis, para el control de métodos analíticos. Los ejemplos de aplicación son
múltiples, pudiéndose agrupar, según el objetivo que persiguen, en dos
principalmente: la comparación de múltiples columnas de datos y la estimación
de los componentes de variación de un proceso.

En múltiples ocasiones el analista o investigador se enfrenta al problema de


determinar si dos o más grupos son iguales, si dos o más cursos de acción
arrojan resultados similares o si dos o más conjuntos de observaciones son
parecidos. Pensemos por ejemplo en el caso de determinar si dos niveles de
renta producen consumos iguales o diferentes de un determinado producto, si
las notas de dos grupos en una asignatura son similares, si tres muestras de
análisis químico de una sustancia son iguales, o si los municipios de cuatro
provincias colindantes tienen el mismo nivel de paro
Una aproximación simple sería comparar las medias de estos grupos y ver si
las medias aritméticas de la variable estudiada son parecidas o diferentes. Pero
tal aproximación no es válida ya que la dispersión de las observaciones influirá
en la posibilidad de comparar los promedios o medias de cada grupo. Así,
supongamos que tenemos una variable X (consumo) y dos grupos (nivel de
renta alto y medio) y que tenemos dos resultados distintos correspondientes a
dos provincias

Se reserva derechos de autor 69


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Es evidente que la conclusión de que con renta alta el consumo es mayor que
con renta media es más rotundo en la provincia B que en la A. En la provincia A
existen familias de renta media con un consumo superior a otras familias de
renta alta aunque en promedio X 21  X 11 . Esta situación no se produce en la

provincia B donde todas las observaciones de renta alta son superiores a las
de renta media. En consecuencia la dispersión deberá tenerse en cuenta para
realizar una comparación de medias o de grupos y esto es lo que se pretende
con el Análisis de la Varianza. El Análisis de la Varianza puede contemplarse
como un caso especial de la modelización econométrica, donde el conjunto de
variables explicativas son variables ficticias y la variable dependiente es de tipo
continuo. En tales situaciones la estimación del modelo significa la realización
de un análisis de la varianza clásica (ANOVA), de amplia tradición en los
estudios y diseños experimentales. Una ampliación a este planteamiento es
cuando se dispone de una variable de control que nos permite corregir el
resultado del experimento mediante el análisis de la covariación con la variable
a estudiar. Esta problemática es un caso de un análisis de la covarianza

Ejemplo: Pretendemos medir la influencia que tiene en la venta de un producto


de alimentación, la posición en que se exhibe al público dentro del
establecimiento. Las posiciones establecidas son:
 ALTA: por encima de los ojos.
 MEDIA: nivel de los ojos.
 BAJA: por debajo del nivel de los ojos.

Para la realización del experimento se han seleccionado 12 autoservicios de


dimensiones similares. Los autoservicios se agrupan en tres conjuntos de
cuatro elementos cada uno, procediendo de forma aleatoria en su asignación.
Con ello suponemos que los tres conjuntos son de características similares,
colocándose el producto en cada uno de ellos, de una de las formas
anteriormente descritas y registrando sus ventas durante veinte días. Las
ventas resultantes, en unidades, quedan recogidas en el cuadro I. Se pretende
responder a las siguientes preguntas:

Se reserva derechos de autor 70


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

1º¿Tiene alguna influencia el posicionamiento del producto en la venta del mismo?.


2º¿Qué posicionamiento es más eficaz?
3º¿Son estadísticamente significativas las diferencias obtenidas?

ANALISIS DE VARIANZA

El análisis de varianza se utiliza para contrastar hipótesis relativas a las


diferencias de las medias de más de dos poblacionales, este procedimiento
exige que se analicen las varianzas de las muestras estudiadas (de allí el
termino análisis de varianza). El procedimiento consiste en analizar si un
tratamiento en particular aplicado a la población tendrá un efecto significativo
sobre la media. Surge y es muy importante en el campo de la agricultura,
donde se usa el término tratamiento para analizar varias parcelas de tierra con
diferentes fertilizantes y anotar el rendimiento medio en las cosechas del
producto.
Actualmente el termino tratamiento se emplea, en sentido amplio, para referirse
al tratamiento de clientes con distintas presentaciones publicitarias y detectar
las diferencias posteriores de sus compras medias, al tratamiento de tres
grupos con tres tipos diferentes de programas de formación para observar ls
diferencias que aparecen en los niveles medios de productividad o a cualquier
otra situación en que se dese comprar medias

DISEÑO COMPLETAMENTE ALEATORIZADO

Las unidades experimentales son asignadas completamente al azar a los


diversos tratamientos. Todas las unidades elegidas al azar para el estudio
tienen la misma probabilidad de ser asignadas a un tratamiento

MODELO A EFECTOS FIJOS

Se fijas o eligen tratamientos específicos antes de emprender el estudio

MODELO A EFECTOS ALEATORIOS

Se reserva derechos de autor 71


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Los niveles (tratamientos) usados en el estudio se eligen al azar de una


población de niveles posibles

CARACTERISTICAS PARA APLICAR UN ANALISIS DE VARIANZA

1. Todas las poblaciones implicadas son normales


2. Todas las poblaciones tienen varianzas iguales
3. Las muestras se eligen de manera independiente

EFECTO DEL TRATAMIENTO


Como las distintas muestras son sometidas a tratamientos diferentes, la
variación intramuestral puede ser causada por los diferentes efectos del
tratamiento.

RELACION F USADO EN EL ANOVA


La relación F utilizada en el análisis de varianza es la que existe en la
variación intermuestral y la variación intramuestral

RELACION F

Cuando las medias poblacionales son diferentes existe un efecto de


tratamiento y las desviaciones intermuestrales pueden ser grandes
comparadas con las desviaciones debido al error dentro de una muestra. Por
lo tanto el valor de F, que es una relación entre la variación debida al
tratamiento y la variación debido al error, aumentara.

Se reserva derechos de autor 72


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

PROCEDIMIENTO

1. Descripción de los datos

Tratamientos
1 2 3 ……. K

x1 1, x1 2 , x1 3 , xk 1

x2 1 , x2 2 , x2 3 , x2 k

...............................

xn1 , xn2 , xn3 , xn k

T1 .. T2 .. T3 .. T .1..
Total : T .1 T ..2 T .3 T. K T ...

Medias: X .1 X .2 X .3 X .K X ..

2. Supuestos
Junto con las suposiciones que fundamenta el análisis, se presenta el
modelo de cada diseño estudiado.
El modelo es una representación simbólica de un valor representativo
del conjunto de datos:
El modelo del ANOVA unilateral es:

xij     j   ij
i= 1, 2,3,…, nj j= 1,2,…, k

Se reserva derechos de autor 73


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

a. La media de la población representa todas las k –medias


poblacionales y se le conoce como la gran media
b.  j : representa la diferencia entre la media de la j-ésima población y

la gran media. Se le conoce como efecto del tratamiento


c.  ij : representa la cantidad en que difieren una medición individual de

la media poblacional a la que pertenece. Se le conoce como termino


de error

3. Hipótesis

H 0 : 1   2  ...   k
H A : no todas las Muestras son iguales

Si las medias de las poblaciones son iguales, y el efecto de cada


tratamiento es igual a cero, alternativamente, las hipótesis pueden
escribirse como sigue:

H0 :  j  0 , j  1,2,.....k
H A : no todas las  j  0

4. Estadística de prueba
Es el cálculo de la razón de las varianzas (R.V.), son las mismas

5. Distribución de la estadística de prueba


La RV sigue una distribución F, cuando la Ho es verdadera y se cumplen
las suposiciones.

6. Regla de decisión
Es rechazar la Ho, si el valor calculado para R.V. es mayor o igual que
el valor critico de F con un nivel alfa 

7. Calculo de la estadística de prueba

Se reserva derechos de autor 74


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

El resultado de los cálculos aritméticos se resume en una tabla llamada


análisis de varianza (ANOVA), facilita la evaluación de los resultados del
análisis
Se definió el análisis de varianza cono un proceso por el que la variación
total representa el conjunto de datos

Sumas de cuadrados
a. Sumas de cuadrados para el total
b. Suma de cuadrados entre de los grupos
c. Suma de cuadrados dentro grupos

Grados de libertad
a. Grados de libertad para el total : n-1
b. Grados de libertad entre grupos (muestras) : k - 1
c. Grados de libertad dentro de los grupos n- k

Cuadrados medios
a. Cuadrados medios entre grupos : CME = SCE/k-1
b. Cuadrado medio dentro de los grupos : CMD = SCD/n – k

Razón de la Varianza: F = R.V.


F = CME/CMD

8. Decisión estadística
Comparar la R.V. Calculada con el valor crítico de F (se obtiene en la
tabla) con los grados de libertad ( k – 1)/(n – k)
Si R.V. Es mayor o igual al valor crítico de F la hipótesis nula se
rechaza.

R.V .  Ftabla

9. Conclusión
Si se rechaza se concluye que no todas las medias son iguales.
10. Cálculo del valor p

Se reserva derechos de autor 75


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

EJEMPLO

El gerente de una empresa industrial quiere determinar si tres programas de


formación ejercen efectos distintos sobre la productividad de los empleados.
Estos programas son los tratamientos que el análisis de varianza puede
analizar. Eligen a 14 empleados y se les asigna al azar a uno de los tres
programas. Al terminar la formación, cada empleado realiza un examen para
determinar su competencia, a 4 empleados se les imparte el primer programa,
a los grupos de 5 empleados cada grupo, los otros dos programas.
Los grupos serán tratados como muestras separadas y utilizadas para extraer
la inferencia sobre las poblaciones de empleados que pudieran pasar por los
programas de formación respectiva. Las puntuaciones de los empleados en el
examen posterior a la formación se muestran a continuación

Tratamientos
Programa 1 Programa 2 Programa
85 80 82
72 84 80
83 81 85
80 78 90
…. 82 88
Total : 320 405 425 T ..  1150
n: 4 5 5 n.. = 14

Medias: 80 81 85 X ..  82.14

Se reserva derechos de autor 76


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

ANALISIS DE REGRESION: VARIABLES

CUALITATIVAS INDEPENDIENTES

INTRODUCCION

El estudio de análisis de regresión lineal y regresión múltiple es el de obtener


una ecuación o modelo en base a variables cuantitativas las que se pueda
emplear para hacer predicciones y estimaciones en relación a una(s)
variable(s) dependiente (s) a partir del conocimiento de alguna(s) otra(s)
variables individual(s) denominada variables independiente, predictoras o
explicativa. Es interesante conocer que todas las variables que se incluyen en
modelo de regresión no son solamente variables cuantitativas , un modelo
también incluye a aquellas variables que de origen son cualitativas (nivel
socioeconómico, segmentación de mercado, niveles de ingreso, grado de
instrucción, genero, estado civil, grupo racial ) las que pasan por un proceso de
categorización para ser incluidas en este tipo de predicciones.
Para incorporar una variable cualitativa independiente en el modelo de
regresión múltiple, esta se cuantifica, esto se logra mediante el uso de las
variables imaginarias o ficticias, o el uso de la escala de licker.

VARIABLES IMAGINARIAS O FICTICIAS

Se pueden encontrar muchas variables que pueden modificar el valor de la


variable dependiente. Existen variables para explicar los niveles de renta, los
estudio muestran que el género y la geografía tiene poder explicativo, es decir
que un hombre que haya cursado los mismos años de enseñanza y formación
que una mujer no tendrá la misma renta, un docente de educación secundaria
que trabaja en la región de la costa no ganara igual que un profesor que labora
en la sierra, esto muestra que el sexo y la geografía son variables explicativas
de gran utilidad para predecir la renta de una persona, pero estas variables no
son numéricas y no se pueden incluir directamente en el modelo de regresión
múltiple.

Se reserva derechos de autor 77


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Una variable ficticia o imaginaria solo toma un numero finito de valores para
identificar las diferentes categorías de una variable cualitativa, también se les
conoce con el nombre de indicativas y solo cuando se trata de dos valores se
les llama dicotómicas (como 0,1).

Cuando la variable tiene K categorías es necesario definir K – 1 variables


imaginarias, para codificar adecuadamente todas las categorías. Esta condición
es aplicable para toda regresión múltiple que contenga una constante de
intercepción

Aplicativo

El gerente de una cadena de almacenes desea estudiar la relación entre gastos


medios de sus clientes y las variables que podrían explicar el nivel de dic hos
gastos, elige la renta como variable explicativa, pero también considera el sexo
de sus clientes, que podría representar un papel en la explicación en sus
gastos. Renta y gastos en soles y sexo.

Observación Gasto (Y) Renta (X1) Sexo


Miles de Miles de (X2)
soles soles
1 51 40 1
2 30 25 0
3 32 27 0
4 45 32 1
5 51 45 1
6 31 29 0
7 50 42 1
8 47 38 1
9 45 30 0
10 39 29 1
11 50 41 1
12 35 23 1
13 40 36 0
14 45 42 0
15 50 48 0

Se reserva derechos de autor 78


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Solución
Haciendo uso del programa SPSS

Yˆ  b0  b1 X 1  b2 X 2
Yˆ  12.21X 1  0.791  5.11X 2

los valores de p para ambos casos 0.000 y 0.000

El uso de la variable ficticio sexo dará lugar a dos rectas de regresión, una para
hombres y otra para mujeres. Las rectas tienen l misma pendiente, pero
diferentes ordenadas en el origen. Es decir la ecuación da lugar a dos rectas de
regresión paralelas, que inician con valores diferentes.
Como se ha codificado a hombres con cero, la ecuación será:

Yˆ  b0  b1 X 1  b2 X 2
Yˆ  12.21X 1  0.791  5.11(0) 2
Yˆ  12.21X  0.791
1

La recta tiene una ordenada en el origen 12.21 y la pendiente de 0.791 X 1

Se reserva derechos de autor 79


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

COMPROBACIÓN DE LA NORMALIDAD

Los residuos deben de tener distribución normal.


Las observaciones originales también, pero cada grupo con media diferente,
por ello es preciso estimar el modelo para descontar a cada observación su
media y obtener valores con la misma distribución.
Herramientas de comprobación:
 Histograma de residuos
 Gráfico de probabilidad normal (Q-Q plot)
 Contrastes formales (Kolmogorov-Smirnov)

GRAFICO PROBABILIDATICA NORMAL

Es un gráfico X-Y de los residuos frente a los percentiles de la distribución


normal La idea básica es que cuando los residuos tienen distribución normal,
los puntos deben formar aproximadamente una línea recta

Procedimiento

1. Ordenar los residuos de menor a mayor  (1) ,   ( 2) ,  . . .   ( n)

2. Calcular los percentiles de la distribución normal

 i  0.5 
Yi    X Sˆ R ,
1
 i  1,2, . . . , n
 n 

3. Representar :  i  , Yi

Se reserva derechos de autor 80


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

En el proceso de estimación se ha supuesto que los distintos tratamientos


tienen la misma varianza

Herramientas

 Gráficos de residuos:
 Frente a valores previstos
 Frente a tratamientos (o factor,etc.)
 Contrastes formales:
 Bartlett, Cochran, Hartley, Levene

RESIDUOS - VALORES PREVISTOS

En este modelo los valores previstos corresponden a la media del tratamiento


 Los puntos deben aparecer dispuestos al azar en una banda horizontal
alrededor del eje horizontal.

HETEROCEDASTICIDAD:
a veces la dispersión aumenta conforme la media crece.

Se reserva derechos de autor 81


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

RESIDUOS POR TRATAMIENTOS

En cada grupo los residuos aparecen esparcidos con dispersión similar y media
cero

Se reserva derechos de autor 82


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

MODULO

ESTADISTICA NO PARAMETRICA

Se reserva derechos de autor 83


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

INTRODUCCION

Como ya se ha visto varias veces, los resultados obtenidos de muestras no siempre


concuerdan exactamente con los resultados teóricos esperados, según las reglas de
probabilidad. Por ejemplo, aunque consideraciones teóricas conduzcan a esperar 50 caras y 50
cruces cuando se lanza 100 veces una moneda bien hecha, es raro que se obtengan
exactamente estos resultados.

Supóngase que en una determinada muestra se observan una serie de posibles sucesos E1,
E2, E3, . . . , EK, que ocurren con frecuencias o1, o2, o3, . . ., oK, llamadas frecuencias
observadas y que, según las reglas de probabilidad, se espera que ocurran con frecuencias
e1, e2, e3, . . . ,eK llamadas frecuencias teóricas o esperadas.

A menudo se desea saber si las frecuencias observadas difieren significativamente de las


frecuencias esperadas. Para el caso en que solamente son posibles dos sucesos E 1 y E2 como,
por ejemplo, caras o cruces, defectuoso, etc., el problema queda resuelto satisfactoriamente
con los métodos de las unidades anteriores. En esta unidad se considera el problema general.

Definición de X2

Una medida de la discrepancia existente entre las frecuencias observadas y esperadas es


2
suministrada por el estadístico X , dado por:

donde si el total de frecuencias es N,

2
Si X = 0, las frecuencias observadas y esperadas concuerdan exactamente, mientras que si
2 2
X >0, no coinciden exactamente. A valores mayores de X , mayores son las discrepancias
entre las frecuencias observadas y esperadas.
Si las frecuencias esperadas son al menos iguales a 5, la aproximación mejora para valores
superiores.
El número de grados de libertad está dado por:

=k–1–m

donde:

K = número de clasificaciones en el problema.


m = número de parámetros estimados a partir de los datos muestrales para obtener los valores
esperados.

Ensayo de Hipótesis

En la práctica, las frecuencias esperadas se calculan de acuerdo con la hipótesis H o. Si bajo


2
esta hipótesis el valor calculado de X dado es mayor que algún valor crítico, se deduce que las
frecuencias observadas difieren significativamente de las esperadas y se rechaza Ho al nivel de
significación correspondiente. En caso contrario, no se rechazará. Este procedimiento se
llama ensayo o prueba de chi-cuadrado de la hipótesis.
2
Debe advertirse que en aquellas circunstancias en que X esté muy próxima a cero debe
mirarse con cierto recelo, puesto que es raro que las frecuencias observadas concuerden

Se reserva derechos de autor 84


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

demasiado bien con las esperadas. Para examinar tales situaciones, se puede determinar si el
2 2
valor calculado de X es menor que las X críticas o de tabla (ensayo unilateral izquierdo), en
cuyos casos se decide que la concordancia es bastante buena.

Ejemplos:

1. La siguiente tabla muestra las frecuencias observadas al lanzar un dado 120 veces.
Ensayar la hipótesis de que el dado está bien hecho al nivel de significación del 0.05.

Cara 1 2 3 4 5 6

Frecuencia
25 17 15 23 24 16
Observada

Solución:

Hipótesis:

Ho; Las frecuencias observadas y esperadas son significativamente iguales. (dado bien hecho)

H1; Las frecuencias observadas y esperadas son diferentes (dado cargado).

Primero se procede a calcular los valores esperados. Como es bien sabido por todos la
probabilidad de que caiga cualquier número en un dado no cargado es de 1/6. Como la suma
de los valores observados es de 120, se multiplica este valor por 1/6 dando un resultado de 20
para cada clasificación.

Cara 1 2 3 4 5 6 Total

Frecuencia Observada 25 17 15 23 24 16 120

Frecuencia esperada 20 20 20 20 20 20 120

Grados de libertad = k-1-m = 6-1-0 = 5

No se tuvo que calcular ningún parámetro para obtener las frecuencias esperadas.

Regla de decisión:

2
Si X R 11.1 no se rechaza Ho.
2
Si X R >11.1 se rechaza Ho.

Se reserva derechos de autor 85


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Cálculos:

Justificación y decisión:

Como 5 es menor a 11.1 no se rechaza H o y se concluye con una significación de 0.05 que el
dado está bien hecho.

2. En los experimentos de Mendel con guisantes, observó 315 lisos y amarillos, 108 lisos y
verdes, 101 rugosos y amarillos y 32 rugosos y verdes. De acuerdo con su teoría, estos
números deberían presentarse en la proporción 9:3:3:1. ¿Hay alguna evidencia que permita
dudar de su teoría al nivel de significación del 0.01?

Solución:

Hipótesis:

Ho; La teoría de Mendel es acertada.


H1; La teoría de Mendel no es correcta.

El número total de guisantes es 315+108+101+32=556. Puesto que los números esperados


están en la proporción 9:3:3:1 (9+3+3+1=16), se esperaría:

lisos y amarillos

lisos y verdes

rugosos y amarillos

rugosos y verdes

Grados de libertad = k-1-m = 4-1-0 = 3

No se tuvo que calcular ningún parámetro para obtener las frecuencias esperadas.

Regla de decisión:

2
Si X R 11.3 no se rechaza Ho.
2
Si X R >11.3 se rechaza Ho.

Se reserva derechos de autor 86


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Cálculos:

Justificación y decisión:

4. Como 0.470 es menor que 11.3 no se rechaza Ho y se concluye con un nivel de significación
de 0.01 que la teoría de Mendel es correcta. Como el valor de 0.470 está cercano a cero, se
procede a hacer un ensayo unilateral izquierdo:

Hipótesis:

Ho; La teoría de Mendel es acertada.


H1; La teoría de Mendel es muy acertada.

Regla de decisión:

2
Si X R 0.115 no se rechaza Ho.
2
Si X R < 0.115 se rechaza Ho.

Como el valor de 0.470 no es menor a 0.115 se concluye que el experimento o la teoría de


Mendel solo es buena.

3. Una encuesta sobre 320 familias con 5 niños dio la distribución que aparece en la
siguiente tabla. ¿Es el resultado consistente con la hipótesis de que el nacimiento de
varón y hembra son igualmente posibles? Use = 0.05.

Número de niños 5 4 3 2 1 0

Número de niñas 0 1 2 3 4 5

Número de familias 18 56 110 88 40 8

Solución:

Hipótesis:

H0; El nacimiento de niños y niñas es igualmente probable.


H1; El nacimiento de niños y niñas no es igualmente probable.

Este experimento tiene un comportamiento binomial, puesto que se tienen dos posibles
resultados y la probabilidad de éxito se mantiene constante en todo el experimento.

Se reserva derechos de autor 87


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Se le llamará éxito al nacimiento de un varón o niño. Por lo que la variable aleatoria "x"
tomará valores desde 0 hasta 5.

Como se quiere ver si es igualmente probable el nacimiento de niños y niñas, la


probabilidad de éxito será de 0.5.

Utilizando la fórmula de la distribución binomial se calcularán las probabilidades, que


multiplicadas por el número total de familias nos darán los valores esperados en cada
clasificación.

Recordando la fórmula de la distribución binomial:

en donde n = 5 y "x" es el número de niños .

Probabilidad de 5 niños y 0 niñas =

Probabilidad de 4 niños y 1 niña =

Probabilidad de 3 niños y 2 niñas =

Probabilidad de 2 niños y 3 niñas =

Probabilidad de 1 niño y 4 niñas =

Probabilidad de 0 niños y 5 niñas =

Si cada una de estas probabilidades se multiplican por 320 se obtienen los valores
esperados:

Número de niños 5 4 3 2 1 0
Total
Número de niñas 0 1 2 3 4 5

Número de familias 18 56 110 88 40 8 320

Frecuencias esperadas 10 50 100 100 50 10 320

Grados de libertad: k-1-m = 6-1-0 = 5

Se reserva derechos de autor 88


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Regla de decisión:

2
Si X R 11.1 no se rechaza Ho.
2
Si X R >11.1 se rechaza Ho.

Cálculos:

Justificación y decisión:

Como el 12 es mayor a 11.1, se rechaza H0 y se concluye con un = 0.05 que el


nacimiento de hombres y mujeres no es igualmente probable.

4. Una urna contiene 6 bolas rojas y 3 blancas. Se extraen al azar dos bolas de la urna, se
anota su color y se vuelven a la urna. Este proceso se repite un total de 120 veces y los
resultados obtenidos se muestran en la siguiente tabla. Determinar al nivel de significación
del 0.05 si los resultados obtenidos son consistentes con los esperados.

0 1 2

Bolas blancas 2 1 0

Número de extracciones 6 53 61
Solución:

Este experimento tiene las características de una distribución hipergeométrica, por lo cual se
calcularán los valores esperados con el razonamiento de esta distribución.
Se llamara "x" a la variable aleatoria de interés que en este caso serán las bolas rojas. Por lo
tanto "x" puede tomar valores desde 0 hasta 2.

La fórmula de la distribución hipergeométrica es:

Se tiene:

Probabilidad de extraer 0 rojas y 2 blancas:

Se reserva derechos de autor 89


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Probabilidad de extraer 1 roja y 1 blanca:

Probabilidad de extraer 2 rojas y 0 blancas:

Con las probabilidades anteriores se obtendrán los valores esperados multiplicando por 120.

0 1 2

Bolas blancas 2 1 0

Número de extracciones 6 53 61

Frecuencias esperadas 10 60 50

Grados de libertad: k-1-m = 3-1-0 = 2

Regla de decisión:

2
Si X R 5.991 no se rechaza Ho.
2
Si X R >5.991 se rechaza Ho.

Cálculos:

Justificación y decisión:

Como el 4.83 no es mayor a 5.991, no se rechaza H0 y se concluye con un


= 0.05 que los resultados son los mismos que los esperados.

Se reserva derechos de autor 90


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

PRUEBA DE CHI-CUADRADO

El procedimiento Prueba de chi-cuadrado tabula una variable en categorías y calcula


un estadístico de chi-cuadrado. Esta prueba de bondad de ajuste compara las
frecuencias observadas y esperadas en cada categoría para contrastar que todas las
categorías contengan la misma proporción de valores o que cada categoría contenga
una proporción de valores especificada por el usuario.
Ejemplos. La prueba de chi-cuadrado podría utilizarse para determinar si una bolsa de
caramelos contiene en igualdad de proporción caramelos de color azul, marrón, verde,
naranja, rojo y amarillo. También podría utilizarse para ver si una bolsa de caramelos
contiene un 5% de color azul, un 30% de color marrón, un 10% de color verde, un 20%
de color naranja, un 15% de color rojo y un 15% de color amarillo.
Estadísticos. Media, desviación estándar, mínimo, máximo y cuartiles. Número y
porcentaje de casos perdidos y no perdidos; número de casos observados y
esperados de cada categoría; residuos y estadístico de chi-cuadrado.
Prueba de chi-cuadrado: Consideraciones sobre los datos
Datos. Use variables categóricas numéricas ordenadas o no ordenadas (niveles de
medición ordinal o nominal). Para convertir las variables de cadena en variables
numéricas, utilice el procedimiento Recodificación automática, disponible en el menú
Transformar.
Supuestos. Las pruebas no paramétricas no requieren supuestos sobre la forma de la
distribución subyacente. Se asume que los datos son una muestra aleatoria. Las
frecuencias esperadas para cada categoría deberán ser 1 como mínimo. No más de
un 20% de las categorías deberán tener frecuencias esperadas menores que 5.
Para obtener una prueba de chi-cuadrado
Esta característica requiere la opción Statistics Base.
1. Seleccione en los menús:
Analizar > Pruebas no paramétricas > Cuadros de diálogo antiguos > Chi-
cuadrado...
2. Seleccione una o más variables de contraste. Cada variable genera una prueba
independiente.
3. Si lo desea, puede pulsar en Opciones para obtener estadísticos descriptivos,
cuartiles y controlar el tratamiento de los datos perdidos.
Este procedimiento pega la sintaxis de comandos NPAR TESTS.
 Prueba de chi-cuadrado: Rango y valores esperados
 Prueba de chi-cuadrado: Opciones
 Características adicionales del comando NPAR TESTS (Prueba de chi-cuadrado)

Se reserva derechos de autor 91


PROBABILIDD E INFERENCIA

Dra. SARA ADELINA ARANA LOPEZ

Se reserva derechos de autor 92

También podría gustarte