Está en la página 1de 198

Probabilidad y Estadística

Dr. Guillermo Zárate de Lara


Contenido del Curso

• Población y Muestra

• Muestras Aleatorias

• Escalas de Medición

• Visualización de Datos

• Parámetros y Estadísticas

• Probabilidad

• Modelos Probabilísticos: Norma y t-Student. Prueba de Normalidad

• El teorema central del límite

• Inferencia Estadística

• Pruebas de hipótesis
• Proporciones
• Media de una normal

• Población, Muestra, Error de Estimación y Tamaño de Muestra

• Estimación Puntual y por Intervalo


• Intervalos de confianza para proporciones
• Intervalos de confianza para medias

• Diferencias Significativas
Población y Muestra
Subconjunto de
una población.

Conjunto cuyos elementos son


todas aquellas unidades que poseen
una o más características en
común, bajo ciertas condiciones
especificas de observación.

En estadística la palabra población


se refiere a:
•Unidades que son objetos o seres
•Datos.
Bolsas vendidas de
Sabritas
Mex, Gdl, Mérida
25-45 años

Todas las bolsas de


Sabritas vendidas en el
2009 en la Republica
Mexicana
Cantidades Calculadas
con los DATOS
•Penetración=77%
Promedios
•Peso Promedio=40g
Cantidades Desconocidas
•Contenido de Sal=2 mg
•Intención de compra=4.7
•Penetración •Gusto en general=7.9
•Peso promedio de las bolsas
•Contenido de Sal Promedio
•Intención de compra
•Gusto en general

ESTADÍSTICAS
Medidas descriptivas de la
muestra que se usan para estimar
a los parámetros
PARÁMETROS
Medidas descriptivas de la población
Es el proceso de hacer una estimación o predicción
sobre los valores de los parámetros de una población
basados en los datos contenidos en una muestra.
Se usan las estadísticas para estimar a los parámetros.
Ejemplo 1: Se continuará ofreciendo un servicio en el Edo
de México solo si su penetración es mayor al 30%
Ejemplo 1: Se continuará ofreciendo un servicio en una
determinada plaza solo si su penetración es mayor al 30%

Población La Población presenta


variabilidad, as decir, NO
(Target) es homogénea
Ejemplo 1
Para tomar una decisión se requiere saber el valor de la
penetración en el Target
Ejemplo 1

No se puede entrevistar a toda la población y por lo tanto se


calcula la penetración en una “Muestra Representativa”

Se selecciona una
“Muestra
Representativa”
Ejemplo 1

Por medio de una encuesta se obtienen datos y se calcula la


penetración en la muestra
¿Hace uso del
servicio?

no
“Muestra
Representativa” sí

no

no
Penetración
33%
si

Encuesta en la Muestra no

no

no
Ejemplo 1
¿Se puede llevar a la Población la conclusión obtenida en la
“Muestra Representativa”?

Incertidumbre
• Causada por la variabilidad
• Tener Información incompleta de no
una muestra

no

Penetración
no
33% Penetración
33%
si

no

no

no
¿Se puede llevar a cabo una Inferencia Estadistica?

• ¿Es la muestra Representativa?

• ¿Es la muestra de suficiente tamaño? ¿Tengo suficiente base?

• ¿Cuanta certidumbre tengo al concluir Poblacionalmente de acuerdo con lo


obtenido en la muestra? ¿Cual es la confiabilidad asociada el estudio?

• ¿Que tan cerca esta el valor obtenido (la estimación) en la muestra del valor
que se tiene en la población?

• ¿Cual es el riesgo de tomar una decisión comercial basado solo en


información muestral?
Muestras Aleatorias
MUESTRA ALEATORIA
Una muestra es aleatoria si TODAS las posibles muestras
del mismo tamaño tienen la misma posibilidad de ser elegidas.

Tamaño de
2, 7
muestra =2 2, 5 Media=4.5 2, 11
Media=3.5 Media=6.5

11, 3 2, 3
Media=7.0 Media=2.5

2, 5, 7, 11, 3
7, 3 Media=5.6 5, 7
Media=5.0 Media=6.0

7, 11 5, 11
Media=9.0 5, 3 Media=8.0
Media=4.0
En la práctica solo se colecta aleatoriamente
una muestra

1
10 2
Selección mediante un
2, 7 1 procedimiento aleatorio
2, 11

9
2, 5
Media=3.5
Media=4.5
Media=6.5 3 2
3
2, 3
11, 3
Media=7.0 Media=2.5 4 5, 7
5 4 Media=6.0
2, 5, 7, 11, 3
5, 7 6
7, 3 Media=5.6 Media=6.0 4
Media=10.0 7
8 8
7, 11
Media=9.0 5, 3
5, 11
Media=8.0
5
9
Media=4.0
10
7
6
2, 7
2, 5 Media=4.5 2, 11
Media=3.5 Media=6.5

11, 3 2, 3
Media=7.0 Media=2.5

2, 5, 7, 11, 3
7, 3 Media=5.6 5, 7
Media=10.0 Media=6.0

7, 11 5, 11
Media=9.0 5, 3 Media=8.0
Media=4.0

La media es
6.0

Es claro que la inferencia


tiene asociada un cierto grado
de incertidumbre
Ejercicio

•Cuantas muestras posibles hay de tamaño 4


•Generar todas las muestras posibles de tamaño 4 y calcular su
media usando Excel

n n!
  
 k  k! n  k !

2, 5, 7, 11, 3
Media=5.6
Escalas de Medición
Variables

•Genero
Masculino, Femenino Nominal
•Plaza
Oaxaca, DF
Cualitativas
•NSE
A, B, C, D, E
Ordinal
•Gusto en General
Nada (1), Poco (2), Mucho (3)

•Edad (años)
3, 40, 54
3.5, 40.3 54.2 Discreta/
Cuantitativas
•Precios ($)
Continua
3.342, 44.520, 10.388
Visualización de Datos
Ejemplo 2
Tablas de Frecuencias e Histogramas

Intervalos
de Clase Frecuencia
Salario Frecuencia Relativa
(M$)
[40, 50) 4 4/30
[50, 60) 4 4/30
[60, 70) 5 5/30
[70, 80) 6 6/30
[80, 90) 3 3/30
[90, 100) 4 4/30
[100, 110) 1 1/30
[110, 120) 1 1/30
[120, 130) 0 0/30
[130,140) 2 2/30
Ejemplo 3

¿Ahorrado o invertido últimos 12 meses?

NSE A/B
58%

Base si han ahorrado/ invertido: 134

¿En los últimos 12 meses ha ahorrado o invertido dinero con alguna institución financiera?/ ?/¿Cuando invierte, usted
generalmente... ?/¿En cuál o cuáles de los siguientes instrumentos ha invertido
Ejemplo 3

Base total de entrevistas/ 303

¿Cuál de las siguientes frases describe mejor su percepción sobre la situación del país…?
De la siguiente tarjeta dígame, comparado con el año pasado, ¿diría que su situación personal…?
Diagrama de puntos

N=17
1, 8, 8, 8, 8, 9, 9, 9, 9, 9, 10, 10, 12, 21, 22, 23, 24

1 2 3 4 5 6 7 8 9 10 12 13 14 15 16 17 18 19 21 22 23 24
Tarea

Resolver los siguientes problemas del libro de Métodos Estadísticos


de Infante y Zárate
Parámetros y Estadísticas
Cantidades Desconocidas

•Penetración
•Peso promedio de las bolsas
•Contenido de Sal Promedio
•Intención de compra
•Gusto en general

ESTADÍSTICAS
Medidas descriptivas de la
muestra que se usan para estimar
a los parámetros
PARÁMETROS
Medidas descriptivas de la población
Medidas de Tendencia Central
Término que hace referencia al conjunto de medidas relacionadas a la posición o
distribución de los datos en una escala.

• Media.- Comúnmente llamado promedio, es la suma de todos los valores divido entre el
número total de observaciones.

• Mediana. El valor que esta en medio de un conjunto de datos. Dos formas para calcularlo,
después de ordenar los datos de mayor a menor:
• Valores impar: la mediana es el valor que se localiza exactamente a la mitad de todos
los datos
• Valore pares: media de los dos valores a la mitad.

• Moda. Valor que se repite con mayor frecuencia en un conjunto de datos.


Medidas de Tendencia Central
Medida Definición ¿Común? Presente Toma en Valores Ventajas
cuenta c/ extremos Desventajas
valor
Más Siempre Si Afectan Base de varios
Media conocido valores métodos
“promedio” extremos estadísticos

Valor en medio De uso Siempre No No afectan Buena opción


Mediana de datos común valores cuando hay
extremos valores
extremos
Valor + Uso Puede no No No Apropiada para
Moda frecuente ocasional existir, o datos
haber + de nominales
1
Notas:
En distribuciones simétricas la moda, mediana y moda son iguales.
En distribuciones asimétricas es útil reportar mediana y media.
Cuando hay valores extremos se recomienda eliminar el valor extremo (mayor y menor)
Ejemplo 11
Tendencia Central… ejemplos
Un hombre promedio Seis grados de Moda
separación
Men´s Health publicó La entrega de un molde para
estadísticas que describen al El Psicólogo Social Stanley la producción de galletas
gringo promedio: Milgram realizó un realzadas se prueba,
experimento donde algunas buscando la moda(s) de cada
personas intentaron ponerse copa.
Mike Smith (Mo) en contacto con otras
personas en específico.
• 34.4 años Cada copa debe ser idéntica,
• 175 lb / 79 kg por lo tanto el mismo valor se
De 160 cadenas se debe de repetir muchas veces.
• 5 ft 10’’ / 1 m 77 cm
terminaron 44
6.9 hr sueño
Se tomaron en cuenta pesos
• 3.3 tasas café/día “crudos” de las masas para
El No. de conocidos validar la fabricación del
• 1.2 bebidas alc/ día intemedios vario entre 2 y molde.
• $ 36 100 USD gana 10, con una mediana de 5 (o
6° de separación)
• $ 2 563 USD debe
• $ 3100 USD ahorro
Parámetros y Estadísticas

Desviación Coeficiente de
Media Varianza Estándar Variación

N N

X 
 iX    2

Población

i
2  i
  100

i
Parámetros
N N

n n

 Xi 
 ix  x  2
s
Muestra
x i
s2  i s  100
Estadísticas n n 1 x
6, 6, 6, 6, 6, 6, 6 Media, Mediana, Moda

Media=6
1 2 3 4 5 6 7 8 9 10 11
Mediana=6
Moda=6

1, 1, 1, 2, 2, 6, 11

Media=3.43
Mediana=2
1 2 3 4 5 6 7 8 9 10 11 Moda=1
3.43

1, 6, 10, 10, 11, 11, 11

Media=8.57
Mediana=10
1 2 3 4 5 6 7 8 9 10 11 Moda=11
8.57
El efecto de puntos aberrantes

1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 4 N=13

1 2 3 4 5 6 7 8 9 10 12 13 14 15 16 17 18 19 20 21 22 23

Media = 2.15
Mediana= 2.00

1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 4, 53 N=13

1 2 3 4 5 6 7 8 9 10 12 13 14 15 16 17 18 19 100

Mediana= 2.00 Media = 9.54


6, 6, 6, 6, 6, 6, 6 Media y Variabilidad

Media=6, Variabilidad = Cero


1 2 3 4 5 6 7 8 9 10 11

5, 6, 6, 6, 6, 6, 7

Media=6, Variabilidad1 > 0

1 2 3 4 5 6 7 8 9 10 11

1, 4, 6, 6, 6, 8, 7, 11

Media=6, Variabilidad1 > 0

1 2 3 4 5 6 7 8 9 10 11 Variabilidad2 > Variabilidad1>0


Variabilidad Incertidumbre
Compra últimos 30 días Frequencias
MIP Fre que nci e s
Tota l Sa m ple
200
F re q u e n c ie s

150

100

50

-
0. 5 3 5.5 8 10.5 13 16 20 24.5 32 60 130
Fr e q ue ncy

Varianza y Desviación Estándar: Medidas de variabilidad muestral

Media  x

  x  x i
2

Varianza 
n 1
Desviación Estándar  Varianza
Desviación Es tan dar
Coeficiente de Variación  x100
Media
Cuantificación
de la
1 2 3 4 5 6 7 8 9 10
Variabilidad
5.4

Datos
Escala 1-10 Xi  X ( X i  X )2
X
1 -4.4 19.36
2 -3.4 11.56
5 -0.4 0.16
9 3.6 12.96
10 4.6 21.16
X 5.4 Total 0.0 Total 65.20

 X i  X
2

65.2
Variabilid ad Pr omedio  i
  13.04
n 5

 X i  X
2

65.2
Varianza  i
  16.3
n 1 5 1
Unidad de medida Unidad de medida
Variable Media Varianza Desviación Estandar

Unidades Promedio de (Promedio de unidades Promedio de unidades


vendidas unidades vendidas vendidas)^2 vendidas
Precios de
un aticulo ($) Precio promedio ($) ($)^2 ($)

Peso (kg) Peso promedio (kg) (kg)^2 (kg)

Desviación Estandar  Varianza


x1
5, 6, 6, 6, 6, 6, 7
x1 x2
5 1
6 4
1 2 3 4 5 6 7 8 9 10 11
6 6
6 6
6 6
x2 6 8
1, 4, 6, 6, 6, 8, 7, 11 7 11
Media 6 6
Varianza 0.33 9.67
Desviación
1 2 3 4 5 6 7 8 9 10 11
Estándar 0.58 3.11
x1 = Precios de Artículos x2 = Peso de artículos
($) (kg)

Media 300 $ 15 Kg
Desviación
Estándar 123 $ 5 Kg
Desviación Estándar
Coeficiente deVariación  100
Media

x1 = Precios de Artículos x2 = Peso de artículos


($) (kg)

Coeficiente
de Variación
41% 33%
Tarea

•Hacer un Diagrama de Puntos


•Calcular las siguientes estadísticas
•¿Cuál muestra tiene mas variabilidad?

X1 X2
5 1
6 2
8 2
3 3
3 1
5 1
4 0
4 1
3 1
4 2
3 1
5 0
7 1
4 1
4 0
Media
Varianza
Desv Estandar
Coef Variación
•Probabilidad
•Variables Aleatorias
Probabilidad

En un experimento aleatorio no podemos predecir qué resultado


ocurrirá, pero éstos presentan una regularidad estadística
consistente en la estabilización de las frecuencias relativas de
los eventos cuando el experimento se realiza un gran número de
veces.

En el lenguaje cotidiano el concepto de probabilidad está


indisolublemente ligado al de frecuencia relativa.
relativa
Said y Guillermo elijen un nombre, y ambos se apuestan en
una esquina del DF preguntando su nombre a cada
transeúnte que acierte a pasar por ahí. El juego termina con
el primer individuo entrevistado cuyo primer nombre
coincida con uno de los nombre elegidos por los jugadores.

Said elije el nombre de Juan


Guillermo el nombre de Belarmino

Said tiene mayores probabilidades de


ganar, puesto que el nombre de Juan
es mas frecuente que el de Belarmino
Estabilización de las Frecuencias Relativas
A la estabilización de las Frecuencias Relativas cuando el número de repeticiones
de un experimento es muy grande se llama Regularidad Estadística y es típica de
los experimentos aleatorios.
Se desea calcular la frecuencia relativa de la letra “e” en el libro “Cuentos del Desierto”
de Emma Dolujanoff. Se tomaron grupos de 50 letras contando el número de veces que
aparece la letra e
Frecuencia
relativa 0.136

0.134

0.130
0.127
0.128

0.126
Probabilidad de la letra e = 0.127
0.124

0.120

0.116

0.112

1 2 3 4 5 6 7 8 9 10 12
Miles de letras
Un modelo probabilístico basado en al frecuencia relativa

Cuando se diga que la probabilidad de un evento A es la cantidad


P(A), deberá entenderse que P(A) es la frecuencia relativa
estabilizada del evento A

NOTA:
Esto no debe tomarse como una definición de probabilidad;
simplemente diremos que la frecuencia relativa del evento A es
una medida de una cantidad desconocida que es la
probabilidad del evento A
Ejemplo. Muestra de pozos contaminados en tres regiones

Regiones

Pozos contaminados Norte( N) Centro ( C) Sur (S)


Aguas Negras (an) 40 50 70 160
Residuos fabricas (rf) 80 90 20 190
Lluvia ácida (an) 20 25 10 55
140 165 100 405

Regiones
Pozos contaminados Norte( N) Centro ( C) Sur (S)
Aguas Negras (an) 0.10 0.12 0.17 0.395
Residuos fabricas (rf) 0.20 0.22 0.05 0.469
Lluvia ácida (an) 0.05 0.06 0.02 0.136
0.346 0.407 0.247 1.000
Regiones
Pozos contaminados Norte( N) Centro ( C) Sur (S)
Aguas Negras (an) 0.10 0.12 0.17 0.395
Residuos fabricas (rf) 0.20 0.22 0.05 0.469
Lluvia ácida (an) 0.05 0.06 0.02 0.136
0.346 0.407 0.247 1.000

P(an)  0.395
P(C )  0.407

P (an y C)  0.12

P ( N y C)  0

P( N o C)  0.346  0.407  0.753

P(an o C)  0.395  0.407 - 0.12  0.682


Regiones
Pozos contaminados Norte( N) Centro ( C) Sur (S)
Aguas Negras (an) 0.10 0.12 0.17 0.395
Residuos fabricas (rf) 0.20 0.22 0.05 0.469
Lluvia ácida (an) 0.05 0.06 0.02 0.136
0.346 0.407 0.247 1.000

Probabilidades Marginales

P (an)  0.395
P (C )  0.407
Probabilidades Condicionales

0.12 0.12
P(an / C )   0.295 P (C / an)   0.303
0.407 0.395
0.05 0.05
P (rf / S )   0.202 P ( S / rf )   0.107
0.247 0.469
Regiones
Pozos contaminados Norte( N) Centro ( C) Sur (S)
Aguas Negras (an) 0.10 0.12 0.17 0.395
Residuos fabricas (rf) 0.20 0.22 0.05 0.469
Lluvia ácida (an) 0.05 0.06 0.02 0.136
0.346 0.407 0.247 1.000

Eventos Dependientes

¿El evento an es dependiente del C?

0.12
P(an / C )   0.295  P(an)  0.395 Dependencia
0.407
¿El evento rf es dependiente del S?

0.05
P(rf / S )   0.202  P(rf )  0.469 Dependencia
0.247
Regiones
Pozos contaminados Norte( N) Centro ( C) Sur (S)
Aguas Negras (an) 0.137 0.161 0.098 0.395
Residuos fabricas (rf) 0.162 0.191 0.116 0.469
Lluvia ácida (an) 0.047 0.055 0.034 0.136
0.346 0.407 0.247 1.000

Eventos Independientes

¿El evento an es independiente del C?

0.161
P(an / C )   0.395  P(an)  0.395 Independencia
0.407
¿El evento rf es dependiente del S?

0.116
P(rf / S )   0.469  P(rf )  0.469 Independencia
0.247
Tarea

Variedades de Papa
Resistencia al
tizón tardío Alpha (Al) Atlantic (At) Frito Lay (FL)
Nula (N) 0.06 0.03 0.01 0.10
Moderada (M) 0.04 0.08 0.18 0.30
Resistente ( R) 0.07 0.19 0.34 0.60
0.17 0.30 0.53

•Verifique que se tiene una tabla de probabilidades


•Calcule las probabilidades siguientes:
•P(At)
•P(At y FL)
•P(FL y R)
•P(FL o R)
•P(FL / R)
•P(Al / N)
•Determine si los siguientes evento son independientes o dependientes
•FL y R
•Al y R
•At y M
Variables Aleatorias Discretas

Una variable aleatoria es una función que le asigna números a


eventos
Ejemplo:
Se aplica insecticida a 3 larvas y al cabo de un tiempo se
observan los insectos vivos (v) y muertos (m)

Eventos mmm mmv mvm vmm mvv vmv vvm vvv

Defínase X = Total de muertos

Eventos mmm mmv mvm vmm mvv vmv vvm vvv


Valores
de X 3 2 2 2 1 1 1 0

X=0, 1, 2, 3
Supongamos que cada evento tiene las siguientes probabilidades

Eventos mmm mmv mvm vmm mvv vmv vvm vvv


Probabilidades 1/32 3/32 3/32 3/32 5/32 5/32 5/32 7/32

Calculemos las probabilidades de que X tome un particular valor


Eventos mmm mmv mvm vmm mvv vmv vvm vvv
Probabilidades 1/32 3/32 3/32 3/32 5/32 5/32 5/32 7/32
Valores de X 3 2 2 2 1 1 1 0
Probabilidades de
que X tome un
valor 1/32 3/32 3/32 3/32 5/32 5/32 5/32 7/32
Eventos mmm mmv mvm vmm mvv vmv vvm vvv
Probabilidades 1/32 3/32 3/32 3/32 5/32 5/32 5/32 7/32
Valores de X 3 2 2 2 1 1 1 0
Probabilidades de
que X tome un
valor 1/32 3/32 3/32 3/32 5/32 5/32 5/32 7/32

P(X=2)=9/32 P(X=1)=15/32
P(X=3)=1/32 P(X=0)=7/32

Distribución de probabilidades de X

Valor de X
(denotado por k) 0 1 2 3
P(X = k) 7/32 15/32 9/32 1/32 32/32
Distribución de probabilidades de X

Valor de X
(denotado por k) 0 1 2 3
P(X = k) 7/32 15/32 9/32 1/32 32/32

P( X  1)  9 / 32  15 / 32  1 / 32  25 / 32

P( X  1)  7 / 32

P(0  X  3)  7 / 32  9 / 32  15 / 32  31 / 32
Distribución de probabilidades de X

Valor de X
(denotado por k) 0 1 2 3
P(X = k) 7/32 15/32 9/32 1/32 32/32

7 15 9 1 36
Media de X   X  0   1  2   3  
32 32 32 32 32

2 2
7 15 9 1  42   60   36 
Varianza de X  0 2   12   2 2   32          
32 32 32 32  32   32   32 

2
 60   36 
Varianza de X          1.875  1.266  0.609
2
X
 32   32 
Ejemplo

Consideremos el caso en que se examina una planta y se


determina si esta enferma (E) o sana (S)
Eventos S E
Probabilidades p 1-p 1

Se define la Variable Aleatoria siguiente


Eventos S E
X 1 0

Eventos S E
X 1 0
P(X=k) p 1-p 1
Distribución de probabilidades de X

X 1 0
P(X=k) p 1-p 1

11
P ( X  1)  p  p (1  p )
1

P( X  0)  (1  p)  p 0 (1  p)10

1 k
P ( X  k )  p (1  p )
k Distribución
Binomial
k  0,1 Puntual
X 1 0
P(X=k) p 1-p 1

X  p

Var ( X )  p  p 2  p(1  p)
Tarea

Considere la siguiente distribución de


probabilidades.
•Verifique que es una Distribución de Probabilidades
•Calcule:
P( X  3) P( X  3) P( X  3)

P ( X  1) P ( X  4)

P(3  X  0) P (3  X  0)

- Calcule la media  X y la varianza  X2

Valores de X -4 -3 -2 -1 0 1
P(X=k) 0.2 0.3 0.2 0.1 0.1 0.1
Variables Aleatorias Continuas

P( X  k )  0
Se puede calcular P(k1  X  k 2 )  P(k1  X  k 2 ) que corresponden
al área bajo la curva
Área total bajo la curva=1

Área bajo la curva

P(k1  X  k 2 )  P(k1  X  k 2 )

k1 k2
Ejemplo f (x)
1
1 f ( x)  1  x 0 x2
2

0 1 2 x
f (x)

2x1
área bajo la recta  1
2

0 1 2 x
f (x)

1 1
1
1
P (1  X  2)  2 
1 2 4
2

0 1 2 x
f (x)

1 1 3
P(0  X  1)  1  
4 4
1
2

0 1 2 x
Tarea

Problema. Calcular las siguientes probabilidades

1
f ( x)  1  x 0 x2
f (x) 2

1 P (0.2  X  1.5)

P (0  X  1.5)
0 1 2 x

P(0.5  X  2)
Modelos Probabilísticos
•Binomial
•Poisson
•Normal
•T-Student
Binomial
Consideremos el caso de 3 personas a las que se les
pregunta si tienen agua potable en su comunidad. Nos
interesa cuantificar en total de respuestas si (S)

1 2 3

Si Si Si

No No No
1 2 3

Si Si Si
No No No

Posibles resultados y número de respuestas si (S)

n= 3
SSS SSN SNN NNN
SNS NSN
NSS NNS
No Letras (S ) = k 3 2 1 0
n= 3
n  Número de personas SSS SSN SNN NNN
SNS NSN
k  Número de letras S NSS NNS
No Letras = k 3 2 1 0
n n! Combinaciones 1 3 3 1
   Probabilidad ppp ppq pqq qqq
 k  k! n  k !

 3 3! 3x 2 x1
    1
 3  3! 3  3!  3 x 2 x11
3 3! 3 x 2 x1
    1
3
  
3!

3 x 2 x1
3  0  0! 3  0 ! 1 3 x 2 x1
 2  2! 3  2 !  2 x11

 3 3! 3 x 2 x1
    3
1  1! 3  1! 1 2 x1
Ejemplo con tres personas
P(S) = p, P(N)= 1-p =q
n= 3
SSS SSN SNN NNN
SNS NSN
NSS NNS
No Letras = x 3 2 1 0
Combinaciones 1 3 3 1
Probabilidad ppp ppq pqq qqq q=1-p

p3q0 p2q p1q2 p0q3

k=3 k=2 k=1 k=0


n=3

pkqn-k p3q3-3 p2q3-2 p1q3-1 p0q3-0

P( X  k ) 1p3q3-3 3p2q3-2 3p1q3-1 1p0q3-0


Ejemplo con tres personas
P(Si) = p, P(No)= 1-p =q
n= 3
SSS SSN SNN NNN
SNS NSN
NSS NNS
No Letras = X 3 2 1 0
Combinaciones 1 3 3 1
Probabilidad ppp ppq pqq qqq

P( X  k ) 1p3q3-3 3p2q3-2 3p1q3-1 1p0q3-0

 3  k 3 k
P( X  k )    p q
k 
k  0, 1, 2, 3
n  Número de elementos en la muestra
Hay dos posibles resultados para cada elemento de la
muestra denominados Exito (E) y Fracaso (F)
X  Total de éxitos en la muestra
p  Probabilidad de éxito
Los eventos son independientes

 n  k nk
P( X  k )    p q
k  Binomial
k  0,1,2,3,..., n

 X  np
Var ( X )  npq
Poisson
Esta distribución surge cuando se cuentan eventos que ocurren en un periodo de
tiempo o en áreas.
•Número de plantas enfermas en una hectárea
•Enfermedades del suelo que ocurren en el tiempo de transplante de ciertos cultivos
•Número de partícula contaminantes en un cm3 el aire o en el agua
•Ataque de virus en el DF

Se define como el límite de una distribución Binomial cuando


1. n tiende a infinito
2. p tiende a cero
3. El producto np tiene un valor constante 
Cualquier distribución donde np   puede aproximarse por la
Distribución de Poisson con parámetro  para velore de n
muy grandes y p pequeña


e  k
P( X  k ) 
k!
k  0,1,2,3,.....
Ejemplo

Se sabe que la probabilidad de que un pozo de agua este contaminado en una


región agrícola es de 0.001. Se examina el estado de 1200 pozos en la región.
Calcule la probabilidad de que 4 pozos de la muestra estén contaminados

e   k
P( X  k ) 
k!
k  0,1,2,3,.....

  np  1200  0.001  1.2

1.2 4
e (1.2)
P ( X  4) 
4!
1.2 4
e (1.2)
P( X  4)   0.02602
4!
Tarea
Un proceso de purificación de agua en contenedores de 8000
litros produce el 5% de defectuosos.
Se toma una muestra aleatoria de 8 contenedores y se define
la variable aleatoria
X= Total de defectuosos en la muestra

•Calcule la probabilidad de que en la muestra es encuentren


cero defectuosos
•Calcule la probabilidad de que en la muestra es encuentren 8
defectuosos

•Calcule la probabilidad de que en la muestra se encuentren 5


o mas defectuosos.
Tarea

Un Ingeniero en RNNR examina una planta de algodonero


contando el número de huevecillos de un insecto por planta.
De estudios anteriores se sabe que el número de huevecillos por
planta sigue una distribuci ón de Poisson con   0.9
Sea X  total de huevecillos por planta

Calcule las siguientes probabilidades:

P ( X  7)
P ( X  0)
P ( X  7)
Alturas de 100 Méxicanos

Frecuencias Relativas

Altura (m)
Ejemplo

Ventas
Histogram enwith
of CORTO, valor
Normal Curve

10
Frequency

0 10 20 30
CORTO
Miles de Pesos

Cheetos.mpj
Distribución Normal
Matemáticamente, la distribución normal se define de la siguiente manera:

y e son constantes (p=3.1416; e=2.7183)

La forma de la distribución depende


Histograma de Problemas de Comportamiento
40 del valor de la media y de su
Media
Desv S
49.08
10.60
desviación estándar:
30 N 286

(media, s)
Frequencia

20

10

Podemos tener una sola distribución


0
20 30 40 50 60 70
Calificación de Problemas de Comportamiento
80
normal?
Distribución Normal Estándar
• Como la forma de la distribución depende de m y
s; en la práctica puede haber millones de formas
posibles de distribuciones “normales”.

• Existe una distribución normal estándar (centrada


y reducida):
•m=0 s2 = 1

Se designa como N(0,1)

• Una distribución estándar permite la construcción


de valores de referencia (tablas), y por lo tanto,
responder a preguntas sobre la probabilidad de
encontrar un valor dado.
Normal Estándar
Normal Estándar

0.95
0.025 0.025
Ejemplo 17

Normal Probability Plot for CORTO


Normal Probability plot
ML Estimates - 95% CI

99 ML Estimates
Mean 14.6574
95
StDev 5.71198
90
Goodness of Fit
80
70 AD* 0.405
Percent

60
50
40
30
20

10
5

0 10 20 30
Data

Cheetos.mpj
Ejemplo 17
Datos no normales

Normal Probability Plot for F(2,34)


ML Estimates - 95% CI

ML Estimates
Mean 1.05094
99
StDev 1.15032
95
90 Goodness of Fit
80 AD* 27.88
70
Percent

60
50
40
30
20
10
5

0 5 10
Data
Tarea

Resolver los siguientes problemas del libro de Métodos


Estadísticos de Infante y Zárate.
•6.30
•6.31
•6.32
•6.34
Teorema de Chebyschev
Una aplicación útil de la desviación estándar en las distribuciones normales es el
teorema de Chebyschev:

El teorema de Chebyschev se aplica con frecuencia al momento de elaborar


especificaciones de MP/PT.
t de Student
En la distribución Normal se requiere conocer tanto la media  como la desviación estandar  .
En la distribución t - Student se requiere conocer la media  y se usa la
desviación estandar de la muestra S.
Cuando el tamaño de muestra n es muy grande entonces t  Normal con media 0 y varianza1

n -1 = grados de libertad
k-1= grados de libertad
n-1=31-1=30 grados de libertad

t-Student
t=2.43
Normal (0,1)
Z=2.421
0.978706

0.984522
0.978706
0.00058
0.984522
n-1=7-1=6 grados de libertad

t-Student
t=2.43
0.948838

t06.051162  2.43
 t06.051162  2.43
Tarea

Resolver los siguientes problemas del libro de Métodos


Estadísticos de Infante y Zárate
6.41
6,42
El Teorema Central del Límite
Se tomaron 300 muestras de tamaño 20

50
20

40

….
30

Percent
Percent
10
20

10

0
0
24 26 28 30 32 34 36 38 40
20 25 30 35 40 45 50
n = 20
n= 20

x1 x2 x300

Medias de 300 muestras de tamaño 20


Central Limit Theorem
Inferencia Estadística
Es el proceso de hacer una estimación o predicción
sobre los valores de los parámetros de una población
basados en los datos contenidos en una muestra.
Se usan las estadísticas para estimar a los parámetros.
Ejemplo 18

Inferencia
Ejemplo 18

Inferencia

Niño: Papá, en México las ovejas son blancas.


Papá: No hijito, al menos 3 ovejas en México tienen un lado blanco.

¡La información incompleta produce incertidumbre!


Ejemplo 18

Inferencia

Niño: Papá, en México las ovejas son blancas.


Papá: No hijito, en México una buena cantidad de las ovejas son blancas.

¡La información incompleta produce incertidumbre!


Ejemplo 18

Inferencia

Niño: En México la mayoría de las ovejas son blancas.

La variabilidad produce incertidumbre

Papá: Excelente hijito. Acabas de generar una hipótesis.

Hipótesis: La mayoría de las ovejas en México son blancas.


Ejemplo 18

Aprendizaje

Población: Todas las ovejas blancas en México (N).


Muestra: Las ovejas blancas que el niño observó en la
campiña (n).

Inferencia: A partir de la información contenida en la


muestra, el niño generalizó a la población.
Ejemplo 18

Aprendizaje

La información incompleta y la variabilidad producen incertidumbre

 Una hipótesis es una oración gramatical que tiene la propiedad de ser


cierta o falsa.
 Las hipótesis se prueban a partir de la información contenida en la
muestra.
 La conclusión siempre tendrá incertidumbre.
INFERENCIA ESTADÍSTICA
•Debido a que los datos en la población tienen Variabilidad y
la muestra es solo parte de la población, las inferencias tienen asociadas
un cierto grado de incertidumbre.

•Los métodos estadísticos que se emplean para llevar a cabo las inferencias permiten
cuantificar la incertidumbre.
•Estos métodos hacen uso de la probabilidad.

•Para que los métodos estadísticos puedan cuantificar la incertidumbre es necesario


que las muestras sean aleatorias.
Ejemplo 18

Hipótesis Estadística

Hipótesis: La mayoría de las ovejas en México son blancas.

Sea P la proporción de ovejas blancas en México.

Sea X el total de ovejas blancas en la muestra y,

p = X/n la proporción de ovejas blancas en la muestra.

Hipótesis: La proporción de ovejas blancas en México es mayor a 50%.

Hipótesis: P>0.5

Contrastaremos el valor de p (muestral) con la hipótesis y


decidiremos si debemos o no rechazarla.

La decisión siempre contendrá incertidumbre.


Ejemplo 19

Hipótesis Estadística
Hipótesis: La mayoría de los agricultores en Mexico prefieren el Fertilizante X

Si no rechazamos la Hipótesis lanzamos Fertilizante X al mercado

Sea P=Proporción de agricultores que prefieren el Fertilizante X Parámetro

Sea X el total de Agricultores en la muestra prefieren Fertilizante X


p = X/n la proporción de agricultores en la muestra que prefieren Fert Estadística
X.

Hipótesis Nula : La proporción de Agricultores en México que prefieren Fertilizante X es


mayor a 50%.

Hipótesis: P>0.50

Contrastaremos el valor de p – muestral - con la hipótesis y


decidiremos si debemos o no rechazarla.

La decisión siempre contendrá incertidumbre.


Ejemplo 19

Hipótesis Nula y Alterna

Hipótesis Nula : La proporción de Agricultores en México que prefieren Fertilizante X


es menor o igual a 50%.

Hipótesis: P  0.5

Hipótesis Alterna : La proporción de Agricultores en México que prefieren Fertilizante


X es mayor a 50%.

Hipótesis Alterna: P>0.5


Ejemplo 19

Error Tipo I y Error tipo II


Ho : La proporción de Agricultores en México que prefieren Fertilizante X es menor o igual a 50%.
Ho : P 0.5

Ha: La proporción de Agricultores en México que prefieren Fertilizante X es maor a 50%.


Ha: P>0.5

Decisión Basada en los resultados del estudio

Rechazo Ho No Rechazo Ho

Error Tipo I No hay Error


Ho es cierta Lanzamiento
No se lanza Fert
erróneo de Fert X
X
Realidad
Error Tipo II
No hay error No se lanza Fert X
Ho es falsa Se lanza Fert X y se pierde una
y es un éxito oportunidad de
Negocio
Sir Ronald Fisher
(Londres, 1890-Adelaida, Australia, 1962) Matemático y biólogo
británico. Se graduó por la Universidad de Cambridge en 1912.
Pionero en la aplicación de métodos estadísticos al diseño de
experimentos científicos, en 1919 comenzó a trabajar en la estación
experimental de Rothamsted, donde realizó trabajos estadísticos
relacionados con la reproducción de las plantas. Desarrolló técnicas
para obtener mayor cantidad de información útil a partir de muestras
de datos más pequeñas, introdujo el principio de aleatoriedad en la
recogida de muestras y el análisis de la varianza o análisis
multivariacional. Publicó su metodología estadística en 1925 en
Methods for Research Workers. Trasladó sus investigaciones al campo
de la genética en The Genetical Theory of Natural Selection (1930),
que resume sus puntos de vista sobre la eugenesia y el papel de
control que ejercen los genes sobre los caracteres dominantes, y en el
que considera la selección como la fuerza directriz de la evolución,
más que la mutación. En 1933 ocupó la cátedra Galton de eugenesia
en la Universidad de Londres, y de 1943 a 1957, la cátedra Balfour de
genética en la Universidad de Cambridge. Los últimos años de su vida
los pasó trabajando para la Commonwealth Scientific and Industrial
Research Organization en Adelaida.
Fisher married Ruth Eileen at a secret wedding ceremony without her
mother's knowledge, on 26 April 1917, only days after Ruth Eileen's
17th birthday. They had two sons and seven daughters, one of whom
died in infancy.
In 1933 Karl Pearson retired as Galton Professor of eugenics at University College and Fisher was appointed to the chair
as his successor. In fact the post was split in two, with Karl Pearson's son Egon Pearson also being appointed to a chair.
Fisher held this post for ten years, being appointed as Arthur Balfour professor of genetics at the University of
Cambridge in 1943. Before this, however, he had moved away from London when war broke out in 1939, finding
temporary accommodation at Harpenden. He retired from his Cambridge chair in 1957 but continued to carry out his
duties there for another two years until his successor could be appointed. He then moved to the University of Adelaide
where he continued his research for the final three years of his life.
There was a certain irony in the fact that Fisher succeeded Pearson in 1933 for the two had a long running dispute. The
dispute began in 1917 when Pearson published a paper claiming that Fisher had failed to distinguish likelihood from
inverse probability in a paper he wrote in 1915. Although at this stage Fisher was only starting out on his career, he felt
angry that Pearson had published an article which was critical of his results without telling him that he was about to do
so. Moreover, he did not accept Pearson's criticism, feeling that he was correct.
In fact the reasons for the feud were not nearly as simple as those usually given. The standard explanation is that Fisher
became bitter because he suffered serious injustice having his papers rejected by mathematicians who did not understand
biology and biologists who did not understand mathematics. Let us take an example to show that in fact this is an over-
simplification. In 1918 Fisher submitted his very important paper On the correlation between relatives on the supposition
of Mendelian inheritance to the Royal Society. Two referees, R C Punnett and Pearson, were appointed and reported on
the paper. Neither referee rejected the paper, however, they both merely expressed reservations and stated clearly that
there were aspects of the paper that they were not competent to judge. In the event Fisher withdrew the paper and
submitted it to the Transactions of the Royal Society of Edinburgh where it was accepted. It is not surprising that Fisher's
novel ideas took time to become accepted.
The feud became bitter, however, when Pearson used his position as editor of Biometrika to attack Fisher's use of the chi-
squared test in a 1922 paper. Pearson went much further, however, and claimed that Fisher had done a disservice to
statistics by widely publishing erroneous results. The Royal Statistical Society then refused to publish Fisher's papers and
he resigned from the Society in protest. Of course Fisher also took every opportunity to attack Pearson, and it would be
fair to say that each showed hatred towards the other. Even after Pearson died in 1936, Fisher continued his attack on
him, which made the atmosphere in University College a very difficult one with Pearson's son Egon Pearson also holding
a chair there.
Fisher was elected a Fellow of the Royal Society in 1929, was awarded the Royal Medal of the Society in 1938, and was
awarded the Darwin Medal of the Society in 1948:-
Pruebas de hipótesis
•Proporciones
•Media de una normal
Pruebas de hipótesis para proporciones
Prueba de hipótesis para proporciones

H 0 : P  P0 H 0 : P  P0 H 0 : P  P0

H a : P  P0 H a : P  P0 H a : P  P0

•Elegir el tipo de prueba a contrastar


•Elegir la probabilidad de cometer Error Tipo I
•Tomar un muestra aleatoria de tamaño n
•Calcular la estadística de prueba
•Concluir de acuerdo a la regla de decisión que corresponde a la
prueba de hipótesis seleccionada
Prueba de hipótesis para proporciones usando la
aproximación a la Normal

H 0 : P  P0 H 0 : P  P0 H 0 : P  P0
H a : P  P0 H a : P  P0 H a : P  P0

Obtener de la Z / 2 Z
tablas de la
normal estándar

pest  P0
Z0 
Estadística de P0 1 P0 
prueba
n
  0.05
1    0.95

1
 
0.95
2 2
0.025 0.025

Z 0.025  1.959
  0.025
1    0.975

0.975

0.025

Z 0.025  1.959
Reglas de decisión

pest  P0
Rechazar H 0 si Z 0   Z / 2
P0 1  P0 
H 0 : P  P0 n
H a : P  P0
pest  P0
Rechazar H 0 si Z 0    Z / 2
P0 1  P0 
n

H 0 : P  P0 pest  P0
Rechazar H 0 si Z   Z
P0 1  P0 
H a : P  P0 n

H 0 : P  P0 pest  P0
Rechazar H 0 si Z    Z
P0 1  P0 
H a : P  P0 n
  0.05
1    0.95

1
 
0.95
2 2
0.025 0.025

Z 0.025  1.959
  0.025
1    0.975

0.975

0.025

Z 0.025  1.959
Ejemplo 20
Prueba de dos colas
De acuerdo al censo de 1970 la proporción de individuos menores de 40 años
en una ciudad es 70%. Se desea saber si esa proporción cambio en el 2010

P es la propoción de personas menores de 40 años


H 0 : P  0.7 La proporción de personas mayores de 40 años es del 70%

H a : P  0.7 La proporción de personas mayores de 40 años es diferente al 70%

•Se elige un error Tipo I del 0.05 es   0.05


decir
•Se selecciona una muestra aleatoria de 800 individuos

•En la muestra se encuentra que 600 de ellos tienen mas de 40 años

600
Pest   0.75
800
Ejemplo 20
P es la propoción de personas menores de 40 años
H 0 : P  0.7 La proporción de personas mayores de 40 años es del 70%

H a : P  0.7 La proporción de personas mayores de 40 años es diferente al 70%

0.75  0.70
  0.05
Z0   3.086
0.701  0.70   / 2  0.025
800

Z 0.025  1.959 Z 0.025  1.959

 / 2  0.025  / 2  0.025
Ejemplo 20
H 0 : P  0.7
H a : P  0.7

0.75  0.70
Z0   3.09 Z 0.025  1.959
0.701  0.70
800

Dado que Z0  3.09  1.959 se rechaza H 0 : P  0.7 con   0.05

Conclusión: La proporción de individuos mayores de 40 años se ha modificado

Como el valor observado de 600 es mucho mayor que el esperado bajo la


Hipótesis nula
nP0  800  0.7  560
La conclusión es que la proporción de individuos mayores de 40 años ha
aumentado significativamente (con un nivel de significancia del 0.05)
Tarea

Usando la aproximación de la Binomial a la normal pruebe las


siguientes hipótesis
H 0 : P  0.7
H a : P  0.7   0.05
600
Pest   0.75
800

Usando la aproximación de la Binomial a la normal pruebe las


siguientes hipótesis
H 0 : P  0. 7

H a : P  0. 7
  0.01
480
Pest   0.6
800
Pruebas de hipótesis para medias
Prueba de hipótesis para medias de una normal

H 0 :   0 H 0 :   0 H 0 :   0

H a :   0 H a :   0 H a :   0

•Elegir el tipo de prueba a contrastar


•Elegir la probabilidad de cometer Error Tipo I
•Tomar un muestra aleatoria de tamaño n
•Calcular la estadística de prueba
•Concluir de acuerdo a la regla de decisión que corresponde a la
prueba de hipótesis seleccionada
t de Student
En la distribución Normal se requiere conocer tanto la media  como la desviación estandar  .
En la distribución t - Student se requiere conocer la media  y se usa la
desviación estandar de la muestra S.
Cuando el tamaño de muestra n es muy grande entonces t  Normal con media 0 y varianza1

n -1 = grados de libertad
k-1= grados de libertad
William Gosset
William Gosset was the eldest son of Agnes Sealy Vidal and Colonel Frederic Gosset who came from
Watlington in Oxfordshire. William was educated at Winchester, where his favourite hobby was shooting,
then entered New College Oxford where he studied chemistry and mathematics. While there he studied
under Airy. He obtained a First Class degree in both subjects, being awarded his mathematics degree in
1897 and his chemistry degree two years later.
Gosset obtained a post as a chemist with Arthur Guinness Son and Company in 1899. Working in the
Guinness brewery in Dublin he did important work on statistics. In 1905 he contacted Karl Pearson and
arranged to go to London to study at Pearson's laboratory, the Galton Eugenics Laboratory, at University
College in session 1906-07. At this time he worked on the Poisson limit to the binomial and the sampling
distribution of the mean, standard deviation, and correlation coefficient. He later published three important
papers on the work he had undertaken during this year working in Pearson's laboratory.
Many people are familiar with the name "Student" but not with the name Gosset. In fact Gosset wrote
under the name "Student" which explains why his name may be less well known than his important results
in statistics. He invented the t-test to handle small samples for quality control in brewing. Gosset
discovered the form of the t distribution by a combination of mathematical and empirical work with
random numbers, an early application of the Monte-Carlo method.
Writing in [8], McMullen says:-
To many in the statistical world "Student" was regarded as a statistical advisor to Guinness's brewery, to
others he appeared to be a brewer devoting his spare time to statistics. ... though there is some truth in both
these ideas they miss the central point, which was the intimate connection between his statistical research
and the practical problems on which he was engaged. ... "Student" did a very large quantity of ordinary
routine as well as his statistical work in the brewery, and all that in addition to consultative statistical work
and to preparing his various published papers.
From 1922 he acquired a statistical assistant at the brewery, and he slowly built up a small statistics
department which he ran until 1934.
Gosset certainly did not work in isolation. He corresponded with a large number of statisticians
and he often visited his father in Watlington in England and on these occasions he would visit
University College, London, and the Rothamsted Agricultural Experiment Station. He would
discuss statistical problems with Fisher, Neyman and Pearson.
In 1934 Gosset had a motor accident, described in [8]:-
...he ran into a lamp-post on a straight road, through looking down to adjust some stuff he was
carrying...
In fact when confined to bed for three months after the accident he was able to concentrate on
statistics. It was a year before he was recovered but he retained a limp for the remaining few
years of his life.
At the end of 1935 Gosset left Ireland to take charge of the new Guinness brewery in London.
Despite the hard work involved in this venture he continued to publish statistics papers.
McMullen, who was a personal friend, describes Gosset in [8] as follows:-
... he was very kindly and tolerant and absolutely devoid of malice. He rarely spoke about
personal matters but when he did his opinion was well worth listening to and not in the least
superficial.
He is described in [2] as follows:-
He was much beloved by all those with whom he worked and by a select circle of professional
and personal friends, who revered him as one of the most modest, gentle, and brave of men,
unconventional, yet abundantly tolerant in all his thoughts and ways. Also he loved sailing and
fishing, and invented the angler's self-controlled craft described in the 'Field' of March 28,
1936.
n-1=31-1=30 grados de libertad

t-Student
t=2.43
Normal (0,1)
Z=2.421
0.978706

0.984522
0.978706
0.00058
0.984522
n-1=7-1=6 grados de libertad

t-Student
t=2.43
0.948838

t06.051162  2.43
 t06.051162  2.43
Prueba de hipótesis para medias de una normal

H 0 :   0 H 0 :   0 H 0 :   0

H a :   0 H a :   0 H a :   0

Obtener de la tablas
de la t-Student
tn 1
 /2 tn 1

x  0
t0 
Estadística de s2
prueba
n
Reglas de decisión

H 0 :   0 Rechazar H 0 si t 0  tn / 12

H a :   0
Rechazar H 0 si t 0  tn / 12

H 0 :   0
Rechazar H 0 si t 0  tn 1
H a :   0

H 0 :   0
Rechazar H 0 si t 0  tn 1
H a :   0
Ejemplo 21
Prueba de una cola

En la etiqueta de una marca de leche evaporada se afirma que contiene


“no menos de 850 UI (Unidades Internacionales) de vitamina D por litro. Se
toma una muestra aleatoria del contenido por litro de tamaño 15.

H 0 :   850
H a :   850

Se elige un   0.05

Se selecciona una muestra aleatoria de 15 latas de leche evaporada


Ejemplo 21

Prueba de normalidad

Vit D
836
849
872
861
839
826
856
862
859
862
848
839
846
870
861
Ejemplo 21

Estadísticas Descriptivas

Variable N Mean Median TrMean StDev


SE Mean
Vit D 15 852.40 856.00 852.92 13.31
3.44

Variable Minimum Maximum Q1 Q3


Vit D 826.00 872.00 839.00 862.00
Ejemplo 21
Prueba de una cola
H 0 :   850
H a :   850
One-Sample T: Vit D

Test of mu = 850 vs mu > 850


StDev
Variable N Mean StDev SE Mean SE Mean 
Vit D 15 852.40 13.31 3.44 n

Variable T P
Vit D 0.70 0.248

Para   0.05, t14


0.05  1.7613

Como t 0  0.70  1.7613 NO se rechaza H 0 :   850


Ejemplo 21
El p-Value
H 0 :   850
H a :   850
One-Sample T: Vit D

Test of mu = 850 vs mu > 850

Variable N Mean StDev SE Mean


Vit D 15 852.40 13.31 3.44

Variable T P
Vit D 0.70 0.248

p-Value

0.248

t0  0.70
Puntos Clave

• Establecer el nivel de Confiabilidad

• Asegurarse que la agencia diseña un esquema de Muestreo


Aleatorio de acuerdo con los requerimientos de estudio

• Verificar que el tamaño de la muestra se calculó acorde a los


puntos anteriores

• Asegurarse que los estimadores y las pruebas de hipótesis


responden a los requerimientos del estudio
Puntos Clave

• Entender que los resultados de los estudios están basados en


procedimientos Estadísticos que controlan y cuantifican, mas
no eliminan, la incertidumbre

• Concluir de acuerdo a las especificaciones de Error de


Estimación y Nivel de Significancia

• Evaluar las consecuencias de cometer Error Tipo I y II


Tarea

Pruebe las siguientes hipótesis

H 0 :   850   0.05
H a :   850

s  14
x  845
n  15
Población, Muestra, Error de
Estimación y Tamaño de Muestra
Ejemplo 22

Población y Muestra

2, 7
2, 5 Media=4.5 2, 11
Media=3.5 Media=6.5

11, 3 2, 3
Media=7.0 Media=2.5

2, 5, 7, 11, 3
Media = 5.6
7, 3 5, 7
Media=5.0 Media=6.0

7, 11 5, 11
Media=9.0 5, 3 Media=8.0
Media=4.0

Nota. Ninguna muestra produce una media igual a la de la población


Ejemplo 22

El error de Estimación y el tamaño de la muestra

2, 7
2, 5 2, 11
Media=4.5 2, 3
Media=3.5 Media=6.5
Media=2.5

11, 3 2, 3
Media=7.0 Media=2.5
Error de Estimación  2.5  5.6  3.1
2, 5, 7, 11, 3
7, 3 Media=5.6 5, 7
Media=5.0 Media=6.0

7, 11 5, 11 5, 7
Media=9.0 5, 3 Media=8.0 Media=6.0
Media=4.0

Error de Estimación  6.0  5.6  0.4


7,11
Media=9.0

Error de Estimación  9.0  5.6  3.4


Ejemplo 22

El error de Estimación y el tamaño de la muestra

2, 7
2, 5 Media=4.5 2, 11
Media=3.5 Media=6.5

11, 3 2, 3
Media=7.0 Media=2.5

7, 3
2, 5, 7, 11, 3
Mean=5.6
Tamaño de Muestra= n = 2
5, 7
Media=5.0 Media=6.0

7, 11
Media=9.0 5, 3
Media=4.0
5, 11
Media=8.0 Media población
5.6
Sample Mean Error Estimation ABS(Error de Est)
2 5 3.5 -2.1 2.1
2 7 4.5 -1.1 1.1
2 11 6.5 0.9 0.9
2 3 2.5 -3.1 3.1
5 7 6 0.4 0.4
5 11 8 2.4 2.4
5 3 4 -1.6 1.6
7 11 9 3.4 3.4
7 3 5 -0.6 0.6
11 3 7 1.4 1.4
Ejemplo 23

El error de Estimación y el tamaño de la muestra

Tamaño de Muestra= n = 3
Mean population
5.6
Sample Mean population Error Estimation ABS(Error de Est)
2 5 7 4.7 -0.9 0.9
2 5 11 6.0 0.4 0.4
2 5 3 3.3 -2.3 2.3
2 7 11 6.7 1.1 1.1
2 7 3 4.0 -1.6 1.6
2 11 3 5.3 -0.3 0.3
5 7 11 7.7 2.1 2.1
5 7 3 5.0 -0.6 0.6
5 11 3 6.3 0.7 0.7
7 11 3 7.0 1.4 1.4
El error de Estimación y el tamaño de la muestra

A Mayor tamaño de Muestra,


Menor Error de Estimación
Error de Estimación, Confiabilidad y Tamaño de Muestra
Ejemplo 23
Para n=3 se desea un error de estimación < 1.5

Media Poblacional
5.6
Muestra Media Error Estimación ABS(Error de Est)
2 5 7 4.7 -0.9 0.9
2 5 11 6.0 0.4 0.4
2 5 3 3.3 -2.3 2.3
2 7 11 6.7 1.1 1.1
2
2
7
11
3
3
4.0
5.3
-1.6
-0.3
1.6
0.3
7
5 7 11 7.7 2.1 2.1
5 7 3 5.0 -0.6 0.6
5 11 3 6.3 0.7 0.7
7 11 3 7.0 1.4 1.4

solo 70% de las muestras cumplen con la restricción

P Media Muestral  Media Población  1.5   0.7

Confiabilidad 70%
Intervalo de Confianza

P  Media Muestral  Media Población  c   1  


x 

x c

Intervalo de Confianza con Confiabilidad 1  

x c    x c
Ejemplo 23 Estimador Insesgado
Media Poblacional
5.6
Muestra Media Error Estimación ABS(Error de Est)
2 5 7 4.7 -0.9 0.9
2 5 11 6.0 0.4 0.4
2 5 3 3.3 -2.3 2.3
2 7 11 6.7 1.1 1.1
2 7 3 4.0 -1.6 1.6
2 11 3 5.3 -0.3 0.3
5 7 11 7.7 2.1 2.1
5 7 3 5.0 -0.6 0.6
5 11 3 6.3 0.7 0.7
7 11 3 7.0 1.4 1.4

Medias
4.7
6.0
3.3
6.7
4.0
5.3
7.7
5.0
6.3
7.0 Se dice que la media es un
media
de las
Estimador Insesgado de la
medias 5.6 media poblacional
Ejercicio
Para n=4

Calcular los Errores de Estimación

2, 5, 7, 11, 3
Media=5.6
Error de Estimación, Confiabilidad y Tamaño de Muestra

Tamaño de la Población

Error de Estimación n = Tamaño de la Muestra

Confiabilidad
Ejemplo 24 Calculando el tamaño de muestra para proporciones

Muestreo Irrestricto Aleatorio


Tamaño de muestra requerido para estimar p con un límite para el error de
estimacion B

Número individuos en la población 2,000,000

PARAMETROS

(Información histórica de P) o (Valor de P) 0.5000


Error de estimación (B) 0.0750 Type I error 0.100
Confiabilidad 0.90 Confidence 0.900

P-B 0.425 Prob of detecting real dif. 0.708


P+B 0.575 Type II error 0.292

Tamaño de la muestra 120 S 0.046


Ejemplo 24
Ejemplo 24

Muestreo Irrestricto Aleatorio


Tamaño de muestra requerido para estimar p con un límite para el error de
estimacion B

Número individuos en la población 2,000,000

PARAMETROS

(Información histórica de P) o (Valor de P) 0.5000


Error de estimación (B) 0.0750 Type I error 0.050
Confiabilidad 0.95 Confidence 0.950

P-B 0.425 Prob of detecting real dif. 0.7432


P+B 0.575 Type II error 0.2568

Tamaño de la muestra 171 S 0.038


Ejemplo 24

Muestreo Irrestricto Aleatorio


Tamaño de muestra requerido para estimar p con un límite para el error de
estimacion B

Número individuos en la población 2,000,000

PARAMETROS

(Información histórica de P) o (Valor de P) 0.5000


Error de estimación (B) 0.0400 Type I error 0.100
Confiabilidad 0.90 Confidence 0.900

P-B 0.460 Prob of detecting real dif. 0.9932


P+B 0.540 Type II error 0.0068

Tamaño de la muestra 423 S 0.024


Ejemplo 24 Ho : P  0.20
Ha: P > 0.20 Prueba de hipótesis
Po 0.2000
Número individuos en la población 2,000,000 Muestra P estimada 0.2700
Q estimada 0.7300
PARAMETROS

(Información histórica de P) o (Valor de P) 0.5000


Error de estimación (B) 0.0750
Confiabilidad 0.95 n 171

P-B 0.425
P+B 0.575 Error tipo I 0.050
Z 2.287
Tamaño de la muestra 171
Pruebas
Dos colas Valor-p 0.0222

Decisión Rechazo la hipótesis nula

Una cola Valor-p 0.0111


Decisión Rechazo la hipótesis nula
Tarea

Resolver los siguientes problemas del libro de Métodos Estadísticos


de Infante y Zárate
Estimación puntual y por intervalo
•Intervalos de confianza para proporciones
•Intervalos de confianza para medias
Intervalos de Confianza para
Proporciones
Intervalo de Confianza

Es un intervalo aleatorio de la forma (LI, LS) el


cual contiene al parámetro estimado con una
confiabilidad previamente especificada

Intervalo de Confianza con Confiabilidad 1  

Proporciones p  c  P  p
 c

Si se repite el muestreo de la misma población


el Intervalo de Confianza contiene al parámetro
un x% de las veces
Ejemplo 25

Ejemplo:
Penetración

PI95% : (4%, 6%)

Interpretacion:
La penetración se encuentra dentro de los límites
(4%,6%) con una confiabilidad del 95%
(*, *)
(*, *)
(*, *)
Que
significa? (*, *)
(*, *)
(*, *)
(*, *)
(*, *)
Ejemplo: 90% (*, *)
confianza (*, *)
(*, *)
(*, *)
(*, *)
(*, *)
Parámetro
IC para proporciones

pˆ (1  pˆ )
pˆ  z 
2 n
Ejemplo 26
pˆ (1  pˆ )
pˆ  z 
IC para proporciones 2 n

pˆ  0.60
  0.05
1    0.95
Ejemplo 26
pˆ (1  pˆ )
IC para proporciones pˆ  z 
2 n
pˆ  0.60
  0.05
1    0.95

1
 
0.95
2 2
0.025 0.025
Ejemplo 26
pˆ (1  pˆ )
IC para proporciones pˆ  z n
2

n  30
alpha 0.05
pˆ  0.60 alpha/2 0.025
  0.05 1-aplha/2
Z
0.975
1.960
1    0.95

0.6(1  0.6) 0.42


0.6  1.96 
2 0.78

Con una confiabilidad del 95% concluimos que el valor del parámetro se
encuentra entre los valores (0.42, 0.78)
Ejemplo 27

Error de Estimación, Confiabilidad y Tamaño de Muestra

Tamaño de la Población = 26,000


Confiabilidad = 0.95
Distribución Binomial (P=0.5)

n Anchura del
Tamaño de la Muestra Intervalo Intervalo

Error de Estimación = 0.01 9,262 (0.49, 0.51) 0.02

Error de Estimación = 0.075 171 (0.425, 0.56) 0.135

Error de Estimación = 0.10 96 (0.40, 0.60) 0.20

Error de Estimación = 0.30 11 (0.20, 0.80) 0.60


Intervalos de Confianza para
Medias
IC para Medias

Intervalo de Confianza con Confiabilidad 1

Medias x c    x c

 n 1 s  n 1 s
x  t    x  t
2 n 2 n
Ejemplo 28 IC para Medias

n 30
n-1 29
Alpha 0.05

Alpha/2 0.025 2
t= 2.045 0.975 0.025

t 0( 29
.05
)
2.045
2

Media 18.00
Desviación Estandar 0.07

 n 1 s  n 1 s Límite Inferior 17.97


x  t    x  t
2 n 2 n Límite Superior 18.03
Ejemplo 29

IC para Medias

Prueba de Normalidad

.999
.99
.95
Probability

.80

.50

.20

.05
.01
.001

60 70 80
DENSIDAD
Average: 70.3298 Anderson-Darling Normality Test
StDev: 4.33499 A-Squared: 0.535
N: 47 P-Value: 0.162

Cheetos.mpj
Ejemplo 29

IC para Medias

One-Sample T: DENSIDAD

Test of mu = 75 vs mu not = 75

Variable N Mean StDev SE Mean


DENSIDAD 47 70.330 4.335 0.632

Variable 95.0% CI T P
DENSIDAD ( 69.057, 71.603) -7.39 0.000

Cheetos.mpj
• Población, Muestra, Muestra Aleatoria

• Escalas de Medición

• Parámetros y Estadísticas

• Inferencia Estadística

• Población, Muestra, Error de Estimación,


Confiabilidad y Tamaño de Muestra

• Estimación Puntual y por Intervalo

• Diferencias Significativas
Tarea

Resolver los siguientes problemas del libro de Métodos Estadísticos


de Infante y Zárate
Diferencias Significativas
Ejemplo 30

X
pˆ  proporción de personas que les gusta Doritos X en
n una muestra de tamaño n

pˆ Niñas  0.87 pˆ Niños  0.81

¿Son diferentes las proporciones?

Numéricamente si

Para declararlas diferentes tenemos que considerar que


estos resultados provienen de una muestra y por lo tanto
tienen asociado un error de estimación
Ejemplo 31

Confiabilidad 0.90 Confiabilidad 0.90


p estimada 0.67 p estimada 0.70
n 120 n 120

Límite
Límite Inferior 0.60 Inferior 0.63
Límite
Límite Superior 0.74 Superior 0.77
Anchura 0.14 Anchura 0.14

0.60 0.63 0.74 0.77

0.6 0.7

Las proporciones en la población no tienen diferencia


significativa con una confiabilidad del 90%
Ejemplo 31

Confiabilidad 0.90 Confiabilidad 0.90


p estimada 0.67 p estimada 0.81
n 120 n 120

Límite Inferior 0.60 Límite Inferior 0.75


Límite
Límite Superior 0.74 Superior 0.87
Anchura 0.14 Anchura 0.12

0.60 0.74 0.75 0.87

0.6 0.7 0.8

Las proporciones en la población tienen diferencia


significativa con una confiabilidad del 90%
Tarea

Resolver los siguientes problemas del libro de Métodos Estadísticos


de Infante y Zárate
Backup
Poisson
The Poisson Distribution is a discrete distribution which takes on the values X = 0, 1, 2, 3, ... . It is often used as
a model for the number of events (such as the number of telephone calls at a business or the number of accidents
at an intersection) in a specific time period. It is also useful in ecological studies, e.g., to model the number of
prairie dogs found in a square mile of prairie.
The Poisson distribution is determined by one parameter, lambda. The distribution function for the Poisson
distribution is 
f(x) = exp(-1*lambda) lambda^x / x!

What is a Poisson distribution?


The Poisson distribution arises when you count a number of events across time or over an area. You should think about the
Poisson distribution for any situation that involves counting events. Some examples are:
the number of Emergency Department visits by an infant during the first year of life,
the number of pollen spores that imact on a slide in a pollen counting machine,
the number of incidents of apna and bradycardia in a pre-term infant.
The number of white blood cells found in a cubic centimeter of blood.
Sometimes, you will see the count represented as a rate, such as the number of deaths per year due to horse kicks, or the number of
defects per square yard.
Four assumptions
Information about how the data was generated can help you decide whether the Poisson distribution fits. The Poisson distribution
is based on four assumptions. We will use the term "interval" to refer to either a time interval or an area, depending on the context of
the problem.
The probability of observing a single event over a small interval is approximately proportional to the size of that interval.
The probability of two events occurring in the same narrow interval is negligible.
The probability of an event within a certain interval does not change over different intervals.
The probability of an event in one interval is independent of the probability of an event in any other non-overlapping interval.
Definition of the Poisson distribution
The Poisson distribution is therefore defined as the limit of the B(n, p) binomial distribution under the following
conditions :
    * n tends to infinity,
    * p tends to 0,
while the product np keeps the same constant value λ.

This definition can be generalized to the case where np only converges to a positive limit λ as n grows without limit.
The Poisson distribution is defined over the set of integers (including 0), and depends only on the single
positive parameter λ (whereas the binomial distribution depended on the two parameters n and p). So all binomial
distributions with a given value λ of the product np can be approximated by the same Poisson(λ) distribution for large
values of n, the approximation being all the better that n is larger (and therefore p smaller).

Se define como el límite de una distribución Binomial cuando


1. n tiende a infinito
2. p tiende a cero
3. El producto np tiene un valor constante 
Cualquier distribución donde np   puede aproximarse por la
Distribución de Poisson con parámetro  para velore de n
muy grandes y p pequeña

También podría gustarte