Está en la página 1de 530

UNIVERSIDAD NACIONAL

DE SAN AGUSTIN DE AREQUIPA


Unidad de Posgrado de Administración

ESTADISTICA APLICADA A
LA ADMINISTRACION

Dr. Armin Becerra Guzmán

UNSA Dr. Armin Becerra Guzmán 1


ESTADISTICA PARA LA
ADMINISTRACION

LA ESTADISTICA ES UNA DISCIPLINA CUANTICA QUE


PERMITE OBSERVAR Y MANIPULAR DATOS PARA
CONVETIR EN INFORMACIÓN EL MISMO QUE HA DE
SERVIR PARA LA TOMA DE DECISIONES

DATOS INFORMACION
TD
UNSA Dr. Armin Becerra Guzmán 2
ALGUNAS APLICACIONES
ESTADISTICAS
EN LOS NEGOCIOS
CALIDAD
PRODUCCION
Diseño de Procesos TOTAL
Control de Calidad
Muestras de Adquisición
MARKETING
Investigación de Mercados
Análisis de Gustos y Preferencias
Busqueda de Mercados Meta
FINANZAS
TD
Análisis de Rendimientos
Análisis de Riesgos
RECURSOS HUMANOS
Selección de Personal
Evaluación de Personal

UNSA Dr. Armin Becerra Guzmán 3


CLASIFICACION DE LA ESTADISTICA
ESTADISTICA DESCRIPTIVA

Es la recopilación, caracterización y presentación


de un conjunto de datos con el fin de describir
varias de sus características

INFERENCIA ESTADISTICA

Son los métodos que hacen posible la estimación


de una característica de una población, o la toma
de decisión con respecto a una población basada
solo en resultados muestrales
UNSA Dr. Armin Becerra Guzmán 4
DATOS

CONSTANTES VARIABLES

CUALITATIVAS CUANTITATIVAS

DISCRETAS CONTINUAS

UNSA Dr. Armin Becerra Guzmán 5


¿Qué se puede hacer con los datos?
Identificar Organizarlos en tablas, gráficos y figuras
características de
interés Calcular promedios (media, mediana, moda
para la gestión. y percentiles) .

Calcular su dispersión (varianza,


desviación estándar ) y forma de la curva.

Recolección de
Determinar una ecuación que represente la
datos
relación entre ellos (regresión)

Determinar el grado de asociación entre ellos


(correlación).
Utilizar datos para
Analizarlos dentro de un horizonte
mejorar la calidad
temporal (series cronológicas)
UNSA Dr. Armin Becerra Guzmán 6
GRAFICOS
ESTADISTICOS
GRAFICOS ESTADISTICOS

1. Gráfico de barras
2. Gráfico de columnas
3. Gráfico circular
4. Gráfico lineal
5. Gráfico de dispersión

UNSA Dr. Armin Becerra Guzmán 8


GRAFICOS ESTADISTICOS

Los gráficos constituyen una forma muy efectiva de


presentar información. Su utilización ayuda a una mejor
comprensión.

Todo gráfico tiene tres partes:


El título: específico, pero completo.
El cuerpo: es el gráfico en si mismo.
La fuente: especificar el origen de la información.

UNSA Dr. Armin Becerra Guzmán 9


El Histograma

Son barras verticales presentadas una a continuación de


otra. Permite presentar datos cuantitativos continuos. Es un
gráfico muy utilizado. Propiedades:

El ancho de cada columna es igual en todo el gráfico y


representa la amplitud de clase).

2. La altura está en función a la frecuencia de la


clase.
UNSA Dr. Armin Becerra Guzmán 10
Ejemplo
CLASE Xi fi
128,6 - 135,4 132,0 2
135,5 - 142,3 138,9 7
142,4 - 149,2 145,8 10 Distribución de frecuencias
149,3 - 156,1 152,7 8
156,2 - 163,0 159,6 3
TOTAL 30

12

10

Frecuencia 8

Histograma 6

0
132.0 138.9 145.8 152.7 159.6

Marca de Clase

UNSA Dr. Armin Becerra Guzmán 11


Ejemplo

Gráfico 4: Peso de 100 Sacos de Arroz (en Kg.)


25
Número de
Sacos
20

15

10

0
29.5 39.5 49.5 59.5 69.5 79.5 89.5 99.5Peso
(Kgs)

UNSA Dr. Armin Becerra Guzmán 12


¿Cómo leer histogramas?

A) Tipo general: El valor medio está al centro, que


tiene la mayor frecuencia. Es el más
frecuente tiene forma simétrica.

B) Tipo multimodal: Hay varios


valores “mayores”.

UNSA Dr. Armin Becerra Guzmán 13


C) Tipo sesgo positivo: Forma asimétrica la
media está localizada a la izquierda.

D) Tipo precipicio a la izquierda: Forma asimétrica


la frecuencia disminuye bruscamente a la
izquierda.

UNSA Dr. Armin Becerra Guzmán 14


E) Tipo planicie: Las clases tienen más o menos
la misma frecuencia.

F) Tipo bimodal: Se observa claramente dos


valores máximos.

G) Tipo pico aislado: Presenta un pico aislado,


además de un histograma general.

UNSA Dr. Armin Becerra Guzmán 15


El Diagrama de Barras

Se utiliza para representar datos cuantitativos discretos o


datos cualitativos.

Las barras son de igual ancho.


La longitud es proporcional a la frecuencia de la
categoría.
El espacio entre barras debe ser homogéneo, para evitar
efecto visual.

UNSA Dr. Armin Becerra Guzmán 16


Ejemplo:
Gráfico 2: Número de hijos en edad escolar por
Trabajador
Nº de 30
Trabajadores
25

20

15

10

0
Número de
0 1 2 3 4 5 hijos
(escolares)

UNSA Dr. Armin Becerra Guzmán 17


Ejemplo
Gráfico 3: Pacientes atendidos en una Clínica

20
15
10
5
0
Nefrología Ginecología Oftalmología Neurología Traumatología

UNSA Dr. Armin Becerra Guzmán 18


Ejemplo
Gráfico 4: Profesionales de la Empresa FENIX por
especialidad
Especialidad

Derecho

Administración

Contabilidad

Economía

Otros Nº de profesionales

0 10 20 30 40 50 60 70 80 90 100

UNSA Dr. Armin Becerra Guzmán 19


El Polígono de Frecuencias
Es otra forma de conocer las distribución de los datos. Se
construye uniendo los punto medios del lado superior de
las barras del histograma.

25

20

15

10

0
29.5 39.5 49.5 59.5 69.5 79.5 89.5 99.5

UNSA Dr. Armin Becerra Guzmán 20


Gráfico N° 5: Distribución de tardanzas por
trabajador en una semana
Número de
Trabajadores

Tardanza
(Minutos)

UNSA Dr. Armin Becerra Guzmán 21


Diagrama de dispersión de puntos
Ejemplo: Gráfico 6: Ventas mensuales de
Automóviles
400

350
Meses Nº AUTOS
Enero 120
300

250
Febrero 210
200
Marzo 180
Abril 320 150
Mayo 280 100
Junio 200
50
Julio 350
0
0 Enero Febrero
2 Marzo Abril
4 Mayo Junio
6 Julio 8

UNSA Dr. Armin Becerra Guzmán 22


Diagrama Lineal
Ejemplo
Gráfico 7: Ventas mensuales de
Automóviles
400
350
300
250
200
150
100
50
0
Enero Febrero Marzo Abril Mayo Junio Julio

UNSA Dr. Armin Becerra Guzmán 23


Las Ojivas
La frecuencia acumulada son las frecuencias que se van
acumulando en cada categoría, desde la más baja hasta la mas
alta.
Las ojivas, relaciona las puntuaciones con sus respectivas
frecuencias acumuladas.
DISTRIBUCION DE FRECUENCIAS ACUMULADAS

120
100
FRECUENCIA

80
60
40
20
0
14,5 24,5 34,5 44,5 54,5 64,5 74,5 84,5 89,5
MINUTOS
UNSA Dr. Armin Becerra Guzmán 24
El Diagrama Circular
El circulo se divide en segmentos circulares, de tamaño proporcional
a la frecuencia de la categoría.

Ejemplo: Gráfico 9. Clientes atendidos en Oficina


Central

1er trim.
2do trim.
3er trim.
4to trim.

UNSA Dr. Armin Becerra Guzmán 25


Diagrama radar
Útil para visualizar, por ejemplo, el cumplimiento de metas (%) de
los vendedores por zonas

Ejemplo:
100
80
60
40
Este
20
Oeste
0
Norte
Sur

UNSA Dr. Armin Becerra Guzmán 26


Superficie en tres dimensiones

Ejemplo: Metas de ventas alcanzadas en la Zona Sur

100

50
4to trim.
0 3er trim.

3er trim.
4to trim.

UNSA Dr. Armin Becerra Guzmán 27


RECOLECCION DE DATOS
POBLACION Y MUESTRA
POBLACION Parámetros
Totalidad de Elementos o Variables

N
medidas
n

MUESTRA Estadígrafos
Parte de los Elementos o Variables
UNSA Dr. Armin Becerra Guzmán 29
TIPOS DE DATOS (Variables)


Categóricas
No

Discretas 1, 2, 3, 4...
Numéricas
Contínuas De 100 a 200

UNSA Dr. Armin Becerra Guzmán 30


RECOLECCIÓN
DE DATOS
Los datos no se recopilan como
un fin en sí mismos, sino como
un medio para describir los hechos
que están tras los datos

UNSA Dr. Armin Becerra Guzmán 31


¿Cómo se recopilan datos?
Las buenas decisiones se basan en un adecuado registro de
datos, para lo cual se debe:

A. ESTABLECER OBJETIVOS CLAROS


En control de la calidad, los objetivos son:
a) Control del proceso de producción
b) Análisis de lo que no se ajusta a las normas o
estándares.
c) Inspección o auditoria.
Permite determinar qué tipo de datos se requiere.

UNSA Dr. Armin Becerra Guzmán 32


B. DETERMINAR EL TIPO DE DATO

a) Datos para el control: se toman periódicamente


para conocer la variación diaria dentro de un
proceso; es decir, para verificar su estado de control
(estabilidad).
Ejemplo:
Número de unidades producidas en un mes

UNSA Dr. Armin Becerra Guzmán 33


b) Datos para el análisis: se registran para conocer la
situación actual de nuestro proceso.
Ejemplo: la proporción de unidades con fallas producidas
mensualmente
c) Dato para la inspección: se recopilan al recibir o entregar
un material. Son datos que sirven para verificar si el
producto cumple con las especificaciones.
Ejemplo: fecha de expiración de un lote de productos, antes
de su ingreso a almacén.

UNSA Dr. Armin Becerra Guzmán 34


C. CONSIDERAR LA CONFIABILIDAD DE
LOS REGISTROS

Tener en cuenta la adecuada calibración de los instrumentos


de medición y la variabilidad en inspecciones visuales.

UNSA Dr. Armin Becerra Guzmán 35


D. SELECCIONAR FORMAS APROPIADAS
DE RECOLECTAR DATOS.

I. Se debe registrar adecuadamente el origen


de datos (el día, la hora, quiénes fueron los
responsables, qué lote se uso, entre otros).

II. Los datos deben registrarse de manera que


facilite su utilización (hojas de registro).

UNSA Dr. Armin Becerra Guzmán 36


Escalas de medición
ESCALA NOMINAL:
Los valores son nominativos, sirven para designar.
Sólo se puede realizar un conteo (frecuencias). No es
factible las operaciones aritméticas. Se analizan a
través de la comparación: igualdad y no igualdad ( =
y ).
Ejemplo
Sexo del paciente 1: Masculino 2: Femenino
Grupo sanguíneo A B AB O
Servicio médico 1: Emergencia 2: Ginecología
3: Traumatología 4: Pediatría
UNSA Dr. Armin Becerra Guzmán 37
ESCALA ORDINAL:

Los valores representan un orden. No son


cuantitativos, sólo simbolizan una posición. Se
analizan a través de la desigualdad :mayor que o
menor que (> y <).

Ejemplo:
Calificación : A,B,C,D A>B
Lugar (orden) : 1º , 2º , 3º 1º > 2º
Color : leve, moderado, intenso

UNSA Dr. Armin Becerra Guzmán 38


ESCALA DE INTERVALOS:

Se utilizan números cardinales. El cero es relativo


o diferencial, es decir no indica ausencia de la
propiedad. Se pueden realizar operaciones
aritméticas.(+ y -). Es una escala creada por el
hombre.
Ejemplo:
Hora 00:00
Temperatura ambiental 15 ºC
El año en que vivimos 2014

UNSA Dr. Armin Becerra Guzmán 39


ESCALA DE RAZÓN:

Se utilizan números cardinales. Tienen unidad de


medida (cms, pulgadas). El cero es absoluto, indica
ausencia de la propiedad. Se pueden realizar
operaciones aritméticas (+,-,x ,),
Ejemplo:
Pacientes no atendidos hoy : 0
Nº de hijos en edad escolar : 3
Procesos deficientes : 12

UNSA Dr. Armin Becerra Guzmán 40


Fuentes de Datos
A) FUENTES SECUNDARIAS
Datos recolectados anteriormente para alcanzar otros
objetivos. Constituye la primera fuente que se debe
analizar. La técnica más utilizada son las fichas.

Ejemplo:
Datos publicados (en papel o en forma electrónica) en
revistas especializadas, tesis, censos y en las hojas de
registro anteriores.

UNSA Dr. Armin Becerra Guzmán 41


La calidad de los datos debe ser comprobada:

 ¿De donde provienen los datos?


 ¿La fuente es imparcial?
 ¿Los datos comprueban o contradicen otras
evidencias que se disponen?
 ¿Hace falta una evidencia cuya ausencia
conduzca a otra conclusión?
 ¿Cuantas observaciones se tienen?
 ¿La conclusión que obtengo es lógica?

UNSA Dr. Armin Becerra Guzmán 42


Los principales organismos
que disponen
de publicaciones son:
1. Instituto Nacional de Estadística e Informática (INEI)
2. Organización Internacional del Trabajo (OIT)
3. Organización Mundial de la Salud (OMS)
4. Banco Central de Reserva (BCR)
5. Superintendencia de Banca y Seguros (SBS)

UNSA Dr. Armin Becerra Guzmán 43


B) FUENTES PRIMARIAS

1. Constituyen datos recolectados para el


trabajo. Son datos que no existían antes.

2. Se registran bajo dos métodos: directo e


indirecto

UNSA Dr. Armin Becerra Guzmán 44


METODOS Y TECNICAS
DE RECOLECCION DE DATOS

FUENTE METODOS TECNICAS


SECUNDARIA FICHAS
DIRECTO OBSERVACION
PRIMARIA EXPERIMENTACION
INDIRECTO ENCUESTA
ENTREVISTA

UNSA Dr. Armin Becerra Guzmán 45


¿Cómo seleccionar la fuente, el
método y la técnica?
No toda la información requerida será recopilada de una
sola fuente, ni usando un mismo método y técnica. Casi
siempre es una combinación de ellos, para lo cual hay que:

1. Definir características que interesan registrar.

2. Identificar la fuente de información apropiada para cada


característica.

3. Seleccionar la técnica más conveniente.

UNSA Dr. Armin Becerra Guzmán 46


Ejemplo :

En un estudio de investigación de mercados para


gaseosas, interesa conocer ciertas características,

CARACTERISTICA FUENTE TECNICA


Frecuencia de Consumo Secundaria Fichas

Nivel socio-económico
de la familia Primaria Encuesta

Sabores Primaria Entrevista

UNSA Dr. Armin Becerra Guzmán 47


El Cuestionario

 Consiste en un conjunto de preguntas diseñadas de


acuerdo a la necesidad de información.

 Junto con las hojas de registro, es la técnica más común


para la recopilación de datos de fuentes primarias.

UNSA Dr. Armin Becerra Guzmán 48


Recomendaciones para su elaboración

1. Las preguntas deben ser coherentes con el


objetivo de la investigación. No hay preguntas de
carácter general.

2. La extensión (número de preguntas) depende de


la necesidad de información a recolectar por esta
técnica.

3. El lenguaje utilizado en la redacción de preguntas


debe ser entendible por los encuestados. Es
diferente al lenguaje a usarse en el informe final

UNSA Dr. Armin Becerra Guzmán 49


Preguntas cerradas y abiertas
Preguntas cerradas
1. Las posibles respuestas se presentan como
alternativas.

2. Facilita la codificación y operatividad de los


datos.
Ejemplo :
¿Posee Ud. un vehículo particular?
Si 1 No 2

UNSA Dr. Armin Becerra Guzmán 50


Preguntas abiertas

1. Los encuestados tienen libertad para emitir su


opinión.
2. Se utilizan cuando no se tiene precisión sobre
las posibles respuestas.
3. Dificulta la recolección de datos (incomoda al
encuestado).
4. Dificulta la interpretación de datos.
Ejemplo:
¿ Qué opinión tiene sobre la política del actual
Gobierno ?

UNSA Dr. Armin Becerra Guzmán 51


La elaboración de datos:
el control de calidad
Una vez que se han recolectado los datos
referidos a las diferentes variables necesarias
para la investigación, se debe proceder a
revisarla y presentarla de manera que facilite
su análisis. A este proceso se denomina
elaboración de datos.
Las etapas que abarca son: edición, tabulación y
codificación.

UNSA Dr. Armin Becerra Guzmán 52


A. La edición: Se revisan los formularios (cuestionario
y fichas de observación) para verificar si todas las
preguntas han sido respondidas en todos los ellos.
Se debe verificar incongruencias en de las
respuestas.
a. Reencuestar: Si no se respondieron todas las
preguntas y es posible identificar al encuestado
(por ejemplo, se tiene su dirección), se podría
regresar y formular aquellas preguntas que se
obviaron.
UNSA Dr. Armin Becerra Guzmán 53
b. Anular la pregunta: Si una pregunta es dejada de
contestar en muchos cuestionarios, sería
recomendable anular esa pregunta y buscar la
forma de conseguir el dato por otra fuente.
Probablemente, la pregunta fue mal formulada.
c. Anular el formulario: Si una encuesta o la ficha de
observación tiene demasiadas preguntas en
blanco, se anulará todo el cuestionario. Es posible
que no se contara con la colaboración apropiada
del encuestado o tal vez no se aplicó
correctamente.
UNSA Dr. Armin Becerra Guzmán 54
B. La tabulación: Consiste en etiquetar o titular con
pocas palabras, las respuestas a preguntas abiertas.
Para homogenizar el criterio, es recomendable que
una persona se encargue de este proceso. Si fueran
muchos formularios y varias preguntas abiertas,
podrían ser varias personas que tabulen, pero
necesariamente solo una persona por pregunta.
C. La codificación: Consiste en colocar un código a las
respuestas, a fin de poder construir una base de
datos.

UNSA Dr. Armin Becerra Guzmán 55


Las hojas de registro (o check list)
Son formatos preimpresos que facilitan el registro y la
organización de cualquier tipo de datos. Puede ser:

1. Para registro: Se anota sistemáticamente la información.


Ejemplo: Tarjeta de Registro de Asistencia del personal
que labora en una Empresa

2. Para verificación: Se anota información en determinado


tiempo, que debe cotejarse con la realidad.
Ejemplo: Registro de reclamos no atendidas por semana.

UNSA Dr. Armin Becerra Guzmán 56


EJEMPLO DE DATOS (Variables)

Datos Originales
MESES Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre
VENTAS (Unid) 52 42 45 54 47 45 51 45 40 46 54 53

Datos Ordenados
MESES X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
VENTAS (Unid) 40 42 45 45 45 46 47 51 52 53 54 54

UNSA Dr. Armin Becerra Guzmán 57


Ejercicio Aplicativo

El Director de Personal de la Empresa “Ramses” desea


estimar la tardanza mensual promedio del personal que
labora en esta empresa. Con este fin elige al azar la Tarjeta
de Control de Asistencia del último mes de 10 trabajadores.
En uno de las tarjetas seleccionadas se registró 140 minutos
de tardanza.

Identificar:

UNSA Dr. Armin Becerra Guzmán 58


Identificar:

La característica : Tiempo de tardanza mensual

La unidad elemental : Un trabajador de la empresa


(o unidad de análisis)
El marco poblacional: Todo el personal que labora en esa
empresa
La población : Registro de tiempo de tardanza
mensual de todo el personal que
labora en esta empresa

El marco muestral : Diez trabajadores

UNSA Dr. Armin Becerra Guzmán 59


La muestra : Registro del tiempo de tardanza de
cada uno de los trabajadores
seleccionado
Tipo de dato : Variable cuantitativa continua

Un dato registrado : 140

La unidad de medida: minutos

El estimador : El tiempo medio de tardanza de los 10


trabajadores: x
El parámetro : El tiempo medio de tardanza de todos los
trabajadores de la empresa (µ)
UNSA Dr. Armin Becerra Guzmán 60
MEDIDAS DE
TENDENCIA CENTRAL
Las medidas de tendencia central
1. En general se denominan promedios.
2. Los más importantes son la media, la mediana y la moda.
Aritmética
Media Geométrica
Medidas de Mediana Armónica
tendencia central Moda

3. También es útil conocer los Cuartiles (o fractiles).

UNSA Dr. Armin Becerra Guzmán 62


¿POR QUÉ SON IMPORTANTES LAS
MEDIDAS DE TENDENCIA CENTRAL?
Porque la mayor parte de los conjuntos de datos
muestran una tendencia a agruparse alrededor de un
dato central.
Las medidas de tendencia central son puntos en una
distribución, los valores medios o centrales de ésta y
nos ayudan a ubicarla dentro de la escala de medición.

UNSA Dr. Armin Becerra Guzmán 63


La Media
(A) La media aritmética ( x )
a) Obtención: Se obtiene sumando los valores
registrados y dividiéndolos entre el número de datos.
Ejemplo:
La siguiente tabla muestra el número de reclamos y
quejas presentadas por los clientes en un autoservicio a
lo largo de una semana. Calcule e interprete la media.

Día/Semana Lun Mar Mier Jue Vier Sab


Reclamos/día 8 10 5 12 10 15

UNSA Dr. Armin Becerra Guzmán 64


8  10  5  12  10  15 60
Media aritmética = 
6 6
x = 10 reclamos
b) Interpretación: Si elige al azar un día de la semana,
se espera que los clientes realicen 10 reclamos en ese
día.
c) Simbología:
Tamaño Media aritmética
Muestra n x (equis barra)
Población N  (mu)
UNSA Dr. Armin Becerra Guzmán 65
La Media Aritmética Ponderada

Ejemplo: Una empresa comercializadora de Seguros dispone de 3


representantes para la zona de Umacollo, cada uno de los cuales
cobra diferente comisión por póliza vendida, y realiza diferente
número de contratos. Calcule e interprete el valor medio de la
comisión

Nº de polizas de Comisión
Vendedor Seguro por venta $
wi Xi
Pedro 30 30
Juan 25 40
Pablo 20 50

UNSA Dr. Armin Becerra Guzmán 66


30(30)  25(40)  20(50) 2900
xp    $38.67
30  25  20 75

Interpretación:

Si se elige al azar un representante se espera que cobre una


comisión de $38.67 por póliza vendida.

UNSA Dr. Armin Becerra Guzmán 67


(B) La media geométrica ( xg )
Se utiliza para calcular tasas medias de variación, como la
tasa media de crecimiento poblacional, la tasa media de
inflación mensual, la tasa media de mortalidad, entre
otros.

a) Obtención Se obtiene extrayendo la raíz enésima


del producto de los n valores de una serie.

xg  n X1  X 2  X3  ......... X n

UNSA Dr. Armin Becerra Guzmán 68


Ejemplo:
La siguiente tabla muestra la tasa de aumento en las
quejas durante los últimos meses. Calcule e
interprete la tasa media mensual.
Meses Enero Febrero Marzo Abril Mayo
Aumento de
2.6% 5.4% 3.8% 0.5% 1.4%
quejas

La tasa 2,6% también se puede expresar como 0,026 , y


puesto que se refiere a un aumento a partir de una base de
100%, el factor de variación será 1,026. Para los otros datos
se opera igual.

UNSA Dr. Armin Becerra Guzmán 69


b) Cálculos
Por lo tanto, la media geométrica se calcula:
x g  n x1, x 2, x 3,...... x
x g  5 (1.026) (1.054) (1.038) (1.005)(1.014)
x g  5 1.143903377
x g  1,0272540 (Factor de crecimiento medio)

Tasa media
= (x g  1) 100
de variación

UNSA Dr. Armin Becerra Guzmán 70


= (1,0272540 - 1) x 100 = 2,72%

c) Interpretación

Si se selecciona al azar un mes entre enero y mayo,


se espera que las ventas se hayan incrementado
2.72% con respecto al mes anterior.

UNSA Dr. Armin Becerra Guzmán 71


(C) La media armónica (xh )
Se utiliza para calcular el tiempo medio, velocidad y
aceleración media, como por ejemplo, el tiempo medio
para producir una unidad de producto.
a) Obtención: se obtiene calculando el inverso de la
media aritmética de los inversos de una serie.

1
xh  n 1

i 1
X
i
n
UNSA Dr. Armin Becerra Guzmán 72
Ejemplo:
Los siguientes datos registran el tiempo que
utilizan cuatro obreros al producir un artículo.
Calcule e interprete el tiempo medio.

Médico A B C D
Tiempo
45 38 52 40
(minutos)

Conocer el tiempo medio permite contar con una


herramienta útil en la planeación de los recursos.
Además de poder comparar nuestro desempeño
con los estándares de calidad internacionales.
UNSA Dr. Armin Becerra Guzmán 73
4 4
xh  1 1 1 1

1976  2340  1710  2223
  
45 38 52 40 88920

4  88920
xh   43.117953 minutos
8249

xh  43 minutos 7 segundos

b) Interpretación:

Si se selecciona al azar a uno de los cuatro obreros, se


espera que realice un artículo en 43 minutos
aproximadamente.

UNSA Dr. Armin Becerra Guzmán 74


La Mediana

Es la medida que divide en dos subconjuntos iguales a


datos, de tal manera que 50% de los datos es menor a
la mediana y el otro 50% es mayor a la mediana.

a) Obtención: Se obtiene ordenando la serie de datos


(en forma ascendente o descendente) y ubicando el
dato central.

UNSA Dr. Armin Becerra Guzmán 75


Ejemplo:
Los siguientes datos se refieren al número de
participantes que llegaron tarde a una selección de
personal, después de la hora programada durante
los últimos 11 días de reclutamiento. Calcule e
interprete la mediana.
12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16

Primero se ordenan lo datos:


5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17
5 datos menores 5 datos mayores
mediana
UNSA Dr. Armin Becerra Guzmán 76
b) Interpretación: Durante 5 días llegaron menos de 11
participantes tarde a su cita y durante 5 días, más de
11 participantes llegaron tarde a su cita.

c) Reglas

1º Si la serie es impar, la mediana ocupa el lugar


central de la serie previamente ordenada.

Ejemplo: 5, 10, 10, 12, 15 , 17, 20, 21, 24

UNSA Dr. Armin Becerra Guzmán 77


2º Si la serie es par, la mediana se obtiene de la
semisuma de los dos valores centrales de la
serie previamente ordenada.

Ejemplo:
8, 10, 14, 18, 23, 24, 32, 34
18  23
mediana   20.5
2
3º Sea la serie par o impar, la mediana ocupa el lugar ,de la
serie previamente ordenada.

 n  1
 2 

UNSA Dr. Armin Becerra Guzmán 78


d) Cálculo a partir de datos agrupados.

 n 1 
 2   F  1 
Md  Li   c
 f Md 
donde:  
Md : mediana
L i : limite real (o frontera) inferior de la clase
mediana.
n : número total de datos.
F : suma de todas las frecuencias hasta, pero
sin incluir, la clase mediana.
f Md : frecuencia de la clase mediana
c : amplitud de clase

UNSA Dr. Armin Becerra Guzmán 79


Ejemplo: La tabla siguiente muestra la experiencia
laboral (años) del personal de seguridad que labora
en una empresa. Calcule e interprete la mediana.
Lugar de la mediana:
Experiencia Número de n  1 69  1
laboral trabajadores   35o
(años) de seguridad 2 2
 69  1  (16) 
0-3 4
4-7 12
Clase Md  7,5   2 4
8 - 11 24  24 
Mediana  
12 - 15 16
16 - 19 10
 7 ,5 
 35  16  4
20 - 23 3
69
 24 
Mediana = 10,5 años
UNSA Dr. Armin Becerra Guzmán 80
Interpretación:

La mitad del personal de seguridad que labora en


esta empresa tienen una experiencia laboral igual
o menor a 10 años 6 meses. La otra mitad de este
personal tiene una experiencia laboral igual o
mayor a 10 años y 6 meses.

UNSA Dr. Armin Becerra Guzmán 81


La Moda
La moda es el valor que más se repite dentro de un
conjunto de datos.
a) Obtención: se obtiene organizando la serie de
datos y seleccionando el o los datos que más se
repiten.

Ejemplo:
4, 5, 7, 8, 8 , 10, 12, 15

4, 7, 12,12 , 15, 16, 20, 20 , 24, 27

7, 12, 15, 18, 25, 30, 31, 38


UNSA Dr. Armin Becerra Guzmán 82
b) Cálculo a partir de datos agrupados

 1 
Mo  L    c
donde:  
Mo: moda
i
 1 2
L : limite real (o frontera) inferior de la clase
i
modal (la de mayor frecuencia)
 : frecuencia de la clase modal menos la
1
frecuencia de la clase anterior
 : frecuencia de la clase modal menos la
2
frecuencia de la clase siguiente
c : amplitud de clase

UNSA Dr. Armin Becerra Guzmán 83


Las clases mediana y modal pueden coincidir pero
conceptualmente son diferentes.
Ejemplo: La tabla siguiente muestra los errores de
facturación durante un mes, en una Tienda. Calcule e
interprete la moda.

Errores de
facturación Días
0-3 6
 6
1
Clase
Clase moda : (4 - 7)
4-7 12
Modal
 6 
8 - 11 8  4 Mo  3.5    4
12 - 15 3
2
64
16 - 19 1
Total 30 Mo = 5,9
Interpretación: Durante un mes, el número más
frecuente de errores de facturación en esta tienda es 6.
UNSA Dr. Armin Becerra Guzmán 84
Cuartiles

n 1
Q1 
4

2( n  1)
Q2 
4

3( n  1)
Q3 
4

UNSA Dr. Armin Becerra Guzmán 85


MEDIDAS DE
VARIACION
MEDIDAS DE VARIACION

Varianza
n

 i
( X   ) 2

POBLACION
2  i 1
N

n ___

MUESTRA  i
( X  X ) 2

S2  i 1
n -1

UNSA Dr. Armin Becerra Guzmán 87


MEDIDAS DE VARIACION
Desviación Estandar
n

 i
( X   ) 2
POBLACION
  i 1
N

n ___

MUESTRA  i
( X  X ) 2

S  i 1
n -1

UNSA Dr. Armin Becerra Guzmán 88


MEDIDAS DE VARIACION
Uso de la Desviación Estandar
para datos normalizados

UNSA Dr. Armin Becerra Guzmán 89


MEDIDAS DE VARIACION
Coeficiente de Variación


CV 
POBLACION

S
MUESTRA
CV  ___
X

UNSA Dr. Armin Becerra Guzmán 90


FORMA DE DISTRIBUCION
SESGO A LA IZQUIERDA
Media < Mediana < Moda

SESGO CERO
Media = Mediana = Moda

SESGO A LA DERECHA
Media > Mediana > Moda

UNSA Dr. Armin Becerra Guzmán 91


DATOS

Número de Minutos que ocupan sus


asientos 100 clientes en una cafetería

29 67 34 39 23 66 24 37 45 58
51 37 45 26 41 55 27 96 22 43
73 48 63 37 19 31 38 68 22 35
31 58 35 82 28 35 44 40 41 34
15 31 34 56 45 27 54 46 62 29
51 31 56 43 39 35 23 28 45 48
47 41 34 47 30 54 49 34 53 61
82 45 26 35 67 73 30 16 52 35
46 40 41 56 37 51 33 92 70 63
72 35 62 28 38 61 33 49 59 36

UNSA Dr. Armin Becerra Guzmán 92


Distribucion de Frecuencias
Rango
Ancho de Intérvalo 
Intérvalo de Número de Clases Deseado

Clase Ancho de Intérvalo 


96 - 15
9
9

TABLA DE DISTRIBUCION DE FRECUENCIAS


Tiempo de Ocupación Tabulación Frecuencia Frecuencia
(minutos) f Acumulada
10 19 III 3 3
20 29 IIIII IIIII IIII 14 17
30 39 IIIII IIIII IIIII IIIII IIII 29 46
40 49 IIIII IIIII IIIII IIIII II 22 68
50 59 IIIII IIIII IIII 14 82
60 69 IIIII IIIII 10 92
70 79 IIII 4 96
80 89 II 2 98
90 99 II 2 100
100

UNSA Dr. Armin Becerra Guzmán 93


MEDIDAS DE VARIACION
PARA DATOS AGRUPADOS

n ___

(X i  X )2 fi
S  i 1
n -1

n n
n ( X i f i )  ( X i f i ) 2
2

S  i 1 i 1
n(n - 1)

Una Aproximación

Donde: Xi es la Marca de Clase


UNSA Dr. Armin Becerra Guzmán 94
Distribucion de Frecuencias
y Marcas de Clase
TABLA DE DISTRIBUCION DE FRECUENCIAS

Tiempo de Ocupación Marca de Frecuencia X.f (X - X)2f


(minutos) Clase (X) (f)
10 19 14.5 3 43.5 2646.27
20 29 24.5 14 343 5433.26
30 39 34.5 29 1000.5 2728.61
40 49 44.5 22 979 1.98
50 59 54.5 14 763 1485.26
60 69 64.5 10 645 4120.9
70 79 74.5 4 298 3672.36
80 89 84.5 2 169 3248.18
90 99 89.5 2 179 4104.18
100 4420 27441.0

UNSA Dr. Armin Becerra Guzmán 95


Histograma de Frecuencias
y Marcas de Clase
DISTRIBUCION DE FRECUENCIAS

35
30
25
FRECUENCIA

20
15
10
5
0
14,5 24,5 34,5 44,5 54,5 64,5 74,5 84,5 89,5
MINUTOS

UNSA Dr. Armin Becerra Guzmán 96


Polígono de Frecuencias

POLIGONO DE FRECUENCIAS

35
30
FRECUENCIA

25
20
15
10
5
0
14,5 24,5 34,5 44,5 54,5 64,5 74,5 84,5 89,5
MINUTOS

UNSA Dr. Armin Becerra Guzmán 97


Polígono de Frecuencias Acumuladas
(Ojiva)
DISTRIBUCION DE FRECUENCIAS ACUMULADAS

120
100
FRECUENCIA

80
60
40
20
0
14,5 24,5 34,5 44,5 54,5 64,5 74,5 84,5 89,5
MINUTOS

UNSA Dr. Armin Becerra Guzmán 98


Histograma y Normalización de Datos

Minutos
20

10
Frequency

Std. Dev = 16,40


Mean = 44,4
0 N = 100,00
15,0 25,0 35,0 45,0 55,0 65,0 75,0 85,0 95,0
20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0

Minutos

UNSA Dr. Armin Becerra Guzmán 99


Analisis de Datos con
El SPSS (Gráfico de Desviaciones)
Detrended Normal Q-Q Plot of Minutos
1,0

,8

,6

,4

,2
Dev from Normal

0,0

-,2

-,4
0 20 40 60 80 100

Observed Value

UNSA Dr. Armin Becerra Guzmán 100


Analisis de Datos con
El SPSS (Desviación de la Normal)
Normal Q-Q Plot of Minutos
3

0
Expected Normal

-1

-2

-3
0 20 40 60 80 100

Observed Value
UNSA Dr. Armin Becerra Guzmán 101
Analisis de Datos con
El SPSS (Cajas y Bigotes)

79 72
Minutos

0 20 40 60 80 100 120

UNSA Dr. Armin Becerra Guzmán 102


Los Percentiles
Son los valores que dividen en 100 partes iguales a un
conjunto de datos

a) Cálculo: para datos agrupados.

 Kn  F  1 
 100 i 
 
P L  c
K i  f 
 P
K


UNSA Dr. Armin Becerra Guzmán 103


donde:
P : percentil
K
K : el percentil buscado
n : número de datos
Fi : frecuencia acumulativa hasta la clase
anterior a la clase donde se ubica el percentil K
f
P : frecuencia absoluta de la clase donde se ubica
K
el percentil K
c : amplitud de clase

UNSA Dr. Armin Becerra Guzmán 104


Ejemplo:
La tabla muestra la experiencia (en años) de los
trabajadores de una empresa

Experiencia Trabajadores
(años)
0-3 18
4-7 42
8 - 11 68
12 - 15 120
16 - 19 40
20 - 23 34
24 - 27 12
Total 334
UNSA Dr. Armin Becerra Guzmán 105
¿Sobre qué edad se ubica el 25% de los
trabajadores de mayor experiencia?

75 % 25 %

P75
Menor Mayor
Experiencia Experiencia
K = 75

Kn 75(334)
Lugar del P75    250,5o (de los números ordenados)
100 100

Para saber en cuál clase se halla este dato, se calculó la


frecuencia acumulativa.

UNSA Dr. Armin Becerra Guzmán 106


Experiencia Nº Trabajadores Frec. Acumulada
(años) fi Fi
0-3 18 18
4-7 42 60 F=248
8 - 11 68 128
12 - 15 120 248 En esta clase
16 - 19 40 288 se localizan del
20 - 23 34 322 249º - 288º
24 - 27 12 334
334

 75(334)  248  1


 100  P  15.65 años
P  15.5 
75  40 4 75
 
Interpretación: Para que un trabajador esté comprendido dentro del 25%
de mayor experiencia laboral debe tener al menos 15 años, 7 meses y 24
días.

UNSA Dr. Armin Becerra Guzmán 107


ESTADISTICA
INFERENCIAL
PROBABILIDADES
Importancia de las Probabilidades

Las probabilidades están presentes en nuestras vidas


más a menudo de que podríamos sospechar. Todos
tenemos una gran intuición probabilística.
Por ejemplo, en días lluviosos, fríos y con mucha
humedad es alta la probabilidad de coger un resfrío. Si
ingerimos alimentos en lugares poco higiénicos, en
ambulantes es muy probable que contraigamos una
infección estomacal.

UNSA Dr. Armin Becerra Guzmán 109


¿Cómo es la probabilidad de ganar el premio mayor en
Tinka?. Muy baja, pues hay muchas alternativas en juego.
Pero aún sabiendo esto, compramos uno que otro número.
La decisión es racional.
Si escuchamos una predicción de 80% que llueve, y Ud.
tiene planeado un paseo al campo con la familia. ¿Qué
hace?. Lo mas racional es que cancele su paseo y se quede
en su casa viendo un video.

UNSA Dr. Armin Becerra Guzmán 110


ESTADISTICA INFERENCIAL

Probabilidades
a
P(A) 
ab
a
P(A) 
n
Eventos Favorables
P(A) 
Total de Eventos

UNSA Dr. Armin Becerra Guzmán 111


Conceptos básicos

(A) Experimento: Ejecución voluntaria de un fenómeno.


Se caracteriza por:
a) Tener varios resultados posibles
b) Existir incertidumbre sobre el resultado
Ejemplos:
Lanzar una moneda
Seleccionar un lote de artefactos
Extraer una muestra de pintura para el control de
calidad

UNSA Dr. Armin Becerra Guzmán 112


(B) Espacio Muestral: conjunto de todos los resultados
posibles de un experimento. Se simboliza por 
(omega).

Ejemplos:
Lanzar una moneda
 = {cara, sello}

Seleccionar un lote de artefactos

 = {defectuoso, no defectuoso}

UNSA Dr. Armin Becerra Guzmán 113


Ejemplo:
Se lanzan tres monedas simultáneamente. Los ochos
resultados posibles de este experimento pueden
detallarse de manera conveniente mediante un diagrama
de árbol:
Primera Segunda Tercera Resultado
Moneda Moneda Moneda Posible
C C CCC
C S CCS
C CSC
S
S CSS
C C SCC
S S SCS
S C SSC
S SSS
 ={CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS}
UNSA Dr. Armin Becerra Guzmán 114
(C) Suceso o Evento: subconjunto del espacio muestral,
seleccionado de acuerdo a una condición. Se
representan por letras latinas mayúsculas.
Ejemplo:
Se lanzan dos dados. El espacio muestral de este
experimento es:
= { (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
UNSA (6,1) (6,2) (6,3)
Dr. Armin(6,4) (6,5) (6,6) }
Becerra Guzmán 115
Podemos considerar los siguientes sucesos:
A: la suma de puntajes es 7, es decir
A={(1,6) (2,5) (3,4) (4,3) (5,2) (6,1)}

B: la suma de puntajes es 11, es decir


B={(5,6) (6,5)}

C: la suma de puntajes es 7 u 11, es decir


C={(1,6) (2,5) (3,4) (4,3) (5,2) (6,1) (5,6) (6,5)}

UNSA Dr. Armin Becerra Guzmán 116


Probabilidad
(A) Concepto: Ponderación asignada a cada punto muestral
que mide la verosimilitud de su ocurrencia.
(B) Principios para asignar probabilidad:
a) La probabilidad de cada punto muestral debe estar
entre 0 y 1
b) La suma de las probabilidades de todos los puntos
muestrales deben ser iguales a 1.
0 0,5 1
Tan probable
Improbable Probable
como improbable

UNSA Dr. Armin Becerra Guzmán 117


Ejemplos:

1. Se lanza una moneda

={cara, sello}
P(cara) = 0,5 P(sello) = 0,5

UNSA Dr. Armin Becerra Guzmán 118


2. Se lanzan 3 monedas
 = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
A: obtener exactamente 2 caras
A = {CCS, CSC, SCC}
1/8 + 1/8 + 1/8
P(A) = 3/8

UNSA Dr. Armin Becerra Guzmán 119


(C) Conclusiones: De acuerdo a la definición de
probabilidad de un suceso, y a los dos
principios, tenemos las siguientes conclusiones:

(1º) P() = 1

(2º) P( ) = 0

(3º) P(A´) = 1 - P(A)

UNSA Dr. Armin Becerra Guzmán 120


PROBABILIDADES - EJEMPLOS

1. Un investigador trabaja con un nuevo fármaco


para insensibilizar a los pacientes frente a
picaduras de abejas. De 200 sujetos sometidos a
prueba, 180 presentaron una disminución en la
gravedad de los síntomas tras sufrir una
picadura, después de ser sometidos al
tratamiento.
2. Un vendedor ha dejado muestras de su producto
en 200 posibles compradores ¿Cuál es la
probabilidad de que la campaña sea un éxito?.

UNSA Dr. Armin Becerra Guzmán 121


PROBABILIDAD DEL PUNTO
ESTADISTICO

... Quien emplea la estadística aplicada prefiere pensar


en la probabilidad como el numero de veces en las que
se presentará determinada situación si una experiencia
fuera repetida indefinidamente en situaciones de
naturaleza repetitiva o que pudiera concebirse de esa
manera ...

UNSA Dr. Armin Becerra Guzmán 122


Reglas de probabilidad
Regla de la Adición

A B

U
(A B)
U
P(AUB) = P(A) + P(B) - P (A B)

UNSA Dr. Armin Becerra Guzmán 123


Ejemplo:
Un cliente ingresa a una tienda. La probabilidad de que
compre (a) una gaseosa “X” es 0,60 (b) una gaseosa “Y” es
0,50, y c) una gaseosa “X” y una gaseosa “Y” es 0,30 ¿Cuál
es la probabilidad de que compre una “X”, o una “Y” o
ambos?.
Datos U
P(PUL) = P(P) + P(L) - (P L)
P(X) = 0,60
P(PUL) = 0,60 + 0,50 - 0,30
P(Y) = 0,50 P(PUL) = 0,80
U
P (P L) = 0,30

UNSA Dr. Armin Becerra Guzmán 124


Regla de adición para
sucesos mutuamente
excluyentes

Dos sucesos son mutuamente excluyentes, si no tienen


elementos comunes

A B P(AUB) = P(A) + P(B)

Si : (A B) = 
U
Por lo tanto : P(A B) = 0U

UNSA Dr. Armin Becerra Guzmán 125


Ejemplo:

Se extrae una carta de una baraja. ¿Cuál es la probabilidad


de que sea un as o un rey?

P(AUR) = P(A) + P(R)


4
P(A) = 4 4
52 = 
4 52 52
P(R) = 8
52 =
52

UNSA Dr. Armin Becerra Guzmán 126


Probabilidad Condicional
Ejemplo 1: Se dispone de 11 Pases a un concierto, los
cuales se entregarán a clientes y no clientes, agrupados
en hombres y mujeres.

Sexo Masculino Femenino


TIPO (M) (F) Total
Cliente (A) 5 3 8
No Cliente (B) 1 2 3
Total 6 5 11

a) ¿Cuál es la probabilidad de extraer un pase , este


pertenece a un cliente?
8
P(A) =
UNSA
11
Dr. Armin Becerra Guzmán 127
b)¿Cuál es la probabilidad de extraer un pase
correspondiente a un cliente y que sea mujer?
3
P(A  F) =
11

c) Dado que el pase corresponde a un cliente, ¿cuál es


la probabilidad que sea mujer?
3
P(F ) =
A 8

UNSA Dr. Armin Becerra Guzmán 128


Derivación de la fórmula:
P(F  A)
P(F )=
A P(A)

3
comprobando: P(F ) = 11
A 8
11

3
P(F )=
A 8
UNSA Dr. Armin Becerra Guzmán 129
Ejemplo 2

Se recolectó información sobre el peso del recién


nacido y si la madre fumó o no durante el embarazo.
Los datos se presentan a continuación:

CONDICIÓN PESO R.N.


TOTAL
DE FUMADORA BAJO NORMAL
SI 30 10 40
NO 20 140 160
TOTAL 50 150 200

UNSA Dr. Armin Becerra Guzmán 130


A. ¿Cuál es la probabilidad que el recién nacido tenga
bajo peso?
50
P(bajo)   0,25
200

B. ¿Cuál es la probabilidad que una gestante fume?


40
P(si)   0,20
200
C. ¿Cuál es la probabilidad que el niño seleccionado
tenga un peso normal?
150
P(normal )   0,75
200
UNSA Dr. Armin Becerra Guzmán 131
D. ¿Cuál es la probabilidad de que un recién nacido tenga
bajo peso o sea normal?
Como son mutuamente excluyentes:
P(bajoónorma l)  P(bajo )  P(normal )
50 150
  1
200 200

E. ¿Cuál es la probabilidad de que el recién nacido tenga


bajo peso o la madre haya fumado durante el
embarazo? P(bajoósi)  P(bajo)  P(si)  P(bajoysi)
50 40 30 60
     0,30
200 200 200 200

UNSA Dr. Armin Becerra Guzmán 132


Aplicación:
La probabilidad de que el personal administrativo que
labora en una empresa, llegue tarde el día lunes es 0,50
y la probabilidad de que llegue retrasado los días lunes
y martes es 0,20. Dado que cierto trabajador llegó tarde
el día lunes, ¿cuál es la probabilidad de que llegue tarde
el día siguiente?.

P(TM  TL )
P(TL ) = 0,50 P(TM )=
TL P(TL )
P(TL  TM ) = 0,20 0,20
= = 0,40
0,50
UNSA Dr. Armin Becerra Guzmán 133
Regla de la Multiplicación

A partir de P(A  B)
P(B ) 
A P(A)

Se despeja
P(A  B)  P(A)  P B ( A)

UNSA Dr. Armin Becerra Guzmán 134


Aplicación:
Se sabe que en un lote de pinturas de 50 galones, hay
4 que no están adecuadamente empacados
(defectuosos). Si se extraen al azar 2 galones, uno a
continuación del otro, ¿cuál es la probabilidad de que
ambos sean defectuosos?.

4
P(D1 ) 
50
(
P(D1  D 2 )  P(D1 )  P D 2
D1
)
4 3 12
3 =  
P(D 2 ) 50 49 2450
D1 49

UNSA Dr. Armin Becerra Guzmán 135


Regla de la multiplicación para
sucesos independientes.

Los sucesos A y B se consideran independientes


cuando la ocurrencia de uno no influye sobre la
probabilidad de ocurrencia del otro; esto significa
que, independientemente de que A haya ocurrido o
no, la probabilidad asignada a B es siempre la misma.

P (B )  P(B)
A
Entonces,
 P(A  B)  P(A)  P(B)

UNSA Dr. Armin Becerra Guzmán 136


Ejemplo:

¿Cuál es la probabilidad de que en una familia con dos


hijos, ambos sean varones?

P(V1  V2 )  P(V1 )  P(V2 )


P(V1 )  0,5
P(V2 )  0,5
= (0,5) (0,5)

P(V1  V2 )  0,25

UNSA Dr. Armin Becerra Guzmán 137


ESTADISTICA INFERENCIAL
Arboles de Decisión
P(A).P(V)
P(V)

P(-V)
P(A) P(A).P(-V)
P(V) P(B).P(V)

P(B) P(-V)
P(B).P(-V)

1,00

UNSA Dr. Armin Becerra Guzmán 138


El teorema de Bayes
Consiste en una partición de la probabilidad total.

Ejemplo 1:
La Compañía de Seguros JL ha desarrollado un
novedoso seguro familiar. De acuerdo con una
investigación hecha en el mercado, la probabilidad
de que el producto tenga éxito es 0,80 si la
compañía competidora no introduce un plan similar
en el mercado. Luego, la probabilidad de éxito es
0,30 si la empresa competidora lanza al mercado
un seguro similar. Además, la compañía JL estima
que hay una probabilidad de 0,40 de que la firma
competidora comercialice el producto.

UNSA Dr. Armin Becerra Guzmán 139


Dado que el producto de la Compañía JL tuvo éxito,
¿cuál es la probabilidad de que la firma competidora
haya comercializado su novedoso plan de seguro?

Solución:

P(C) = probabilidad de que la compañía


competidora comercialice el producto,
P(C´) = probabilidad de que la compañía
competidora no comercialice el producto,
P(E) = probabilidad de que el plan de seguro
familiar de la compañía JL tenga éxito.

UNSA Dr. Armin Becerra Guzmán 140


P. Marginal P. Condicional P. Conjunta

P(E/C) = 0,30 P(C  E) = 0,40 0,30 = 0,12

P (C  E) = 0,60  0,80 = 0,48


'
P(E/C´) = 0,80

P. Total P(E) = 0,60

UNSA Dr. Armin Becerra Guzmán 141


Luego, de acuerdo con el Teorema de Bayes

P(C  E)
P(C )=
E P(C  E) + P(C '  E)

0.12 0.12
   0.20
0.12  0.48 0.60

La probabilidad que la compañía de seguros haya


participado en el mercado, dado que JL tuvo éxito es de
0,20.
UNSA Dr. Armin Becerra Guzmán 142
Ejemplo 2:
El Gerente de una importante fábrica de la ciudad está
considerando comprar un lote de 10000 balones de
gas a un proveedor nacional. El fabricante de estos
equipos estima la proporción de balones defectuosas
en el lote, en la siguiente forma.

Proporción de Probabilidad
balones defectuosos () P()
1 = 0,10 P(1) = 0,20
2 = 0,15 P(2) = 0,30
3 = 0,25 P(3) = 0,50
UNSA Dr. Armin Becerra Guzmán 143
Esto significa que el proveedor no está seguro acerca de
la proporción de balones de gas defectuosos en el lote,
sin embargo, basándose en experiencias anteriores, cree
que hay una probabilidad de 0,20 de que el lote tenga
10% de piezas defectuosas, una probabilidad de 0,30 de
que tenga 15%. Y finalmente, de 0,50 de que tenga 25%
de piezas defectuosas. Supongamos que elige un balón
de gas de al azar en el lote:

UNSA Dr. Armin Becerra Guzmán 144


A) ¿Cuál es la probabilidad de qué esta sea defectuoso?
B) Dado que el equipo resulta defectuoso, ¿cuál es la
probabilidad de que el lote tenga 25% de piezas
defectuosas?

UNSA Dr. Armin Becerra Guzmán 145


P. Marginal P. Condicional
P. Conjunta
P(D/1)= 0,10
1=0,10 P( 1  D) = 0,20  0,10 = 0,0200

P(2) = 0,30 P(D/2)= 0,15


2=0,15 P( 2  D) = 0,30  0,15 = 0,045

P(D/3)= 0,25
3=0,25 P( 3  D) = 0,50  0,25 = 0,1250

UNSA Dr. Armin Becerra Guzmán


P(D) = 0,1900
146
Respuesta A:

Hay tres maneras posibles de obtener un equipo


defectuoso del lote. Por lo tanto, la probabilidad de
obtener una pieza defectuosa, cualquiera que se la tasa
porcentual de defectuosos 10, 15 ó 25 es:

P( D)  P( 1  D)  P( 2  D)  P( 3  D)

 0,0200  0,0450  0,1250

 0,19

UNSA Dr. Armin Becerra Guzmán 147


Respuesta B:

De acuerdo con el Teorema de Bayes, la probabilidad


de que el lote contenga 25% de piezas defectuosas,
dado que la pieza elegida es defectuosa, es:

P( 3  D) 0.1250
P( 3 / D)    0.6579
P( D) 0.1900

UNSA Dr. Armin Becerra Guzmán 148


ESTADISTICA INFERENCIAL
Resumen de Operaciones
con Probabilidades
Para Eventos Proposición Operación de
Probabilidades

Mutuamente P(A o B) = P(AUB) P(A)+P(B)


Excluyentes
Independientes P(A y B) = P(AB) P(A).P(B)

Mutuamente no P(A o B) = P(AUB) P(A)+P(B) – P(A).P(B)


Excluyentes
Dependientes P(A y B) = P(AB) P(A).P(B/A)
P(B).P(A/B)

Condicionales P(A / B) = P(A dado B) P(AB) / P (B)

UNSA Dr. Armin Becerra Guzmán 149


DISTRIBUCION DE
PROBABILIDADES
TECNICAS DE CONTEO

Combinación:
Es una selección de objetos con independencia
en su ordenamiento.
Ejemplo:
Un empresario dispone de 10 plantas de
producción para producir harina de pescado.
Sólo ocho son necesarias para abastecer el
mercado. Las ocho plantas necesariamente son
seleccionadas aleatoriamente.
UNSA Dr. Armin Becerra Guzmán 151
Permutación:
Es una distribución de objetos en un orden
determinado.
Ejemplo:
El numero del DNI.

UNSA Dr. Armin Becerra Guzmán 152


PERMUTACION
Cálculo del número de permutaciones para n objetos
tomados de x
n!
P 
n
donde x  n
(n  x)!
x

Ejemplo:
Los nutricionistas de una empresa que produce
alimentos envasados están interesados en el orden en
que cuatro ribonucleótidos adenina (A), uracilo (U),
guanina (G) y citosina (C) se combinan para formar un
catalizador. ¿Cuántas cadenas formadas por dos
nucleótidos pueden formarse?
4! 4 x3x2 x1
P24    12
(4  2)! 2 x1
UNSA Dr. Armin Becerra Guzmán 153
COMBINACION
Numero de combinaciones de n objetos tomadas de r

n!
C n
donde x  n
x !(n  x)!
x
Ejemplo:
Se realiza un estudio para determinar la opinión de los
profesores de la UNSA respecto a la acreditación; si
se elige una muestra de cuatro profesores de un total
de 45. ¿Cuántas muestras distintas pueden
seleccionarse?

45! 45 x44 x43x42 x41! 45 x44 x43x42


C445     148,995
4!(45  4)! 4! x41! 4!

UNSA Dr. Armin Becerra Guzmán 154


Las Distribuciones de Probabilidad

(A) Concepto: Es una distribución de frecuencias


teórica que describe la forma en que se espera
que varíen los resultados.
Resultan útiles para realizar inferencias y tomar
decisiones bajo incertidumbre.

UNSA Dr. Armin Becerra Guzmán 155


Ejemplo:
Se seleccionan en forma consecutivas dos clientes de
un autoservicio . El número de clientes será:

Nº de Probabilidad
Resultados Probabilidad
mujeres 0.50
0 V,V 0,25
1 VM,MV 0,50 0.25
2 MM 0,25

0 1 2 Nº de
mujeres

UNSA Dr. Armin Becerra Guzmán 156


(B) TIPOS DE DISTRIBUCIONES

a) DISCRETAS: La variable toma un número limitado de


valores. Abarca :
- Distribución binomial
- Distribución de Poisson
- Distribución hipergeométrica

b) CONTINUAS: La variable puede tomar cualquier valor


dentro de un intervalo dado. Abarca:
- Distribución normal
- Distribución normal estándar o Z
- Distribución t
- Distribución Ji-cuadrada 2
- Distribución F

UNSA Dr. Armin Becerra Guzmán 157


Variables Aleatorias

Una variable es aleatoria si toma diferentes


valores como resultado de un experimento .
Puede ser discreta o continua

Ejemplo: Se lanzan 3 monedas


X : variable aleatoria (ej : número de caras)
x : valores que puede tomar la variable
(ej : 0, 1, 2, 3)

UNSA Dr. Armin Becerra Guzmán 158


ESTADISTICA INFERENCIAL
Valor Esperado

  E(X)   X .P( X )
n

i i
i 1

Desviación Estandar


n
 (X
i 1
i  E ( X i )) .P( X i )
2

UNSA Dr. Armin Becerra Guzmán 159


Esperanza matemática : E (X)
Es el promedio de la variable aleatoria, si el experimento se
repite un número infinito de veces.
Ejemplo : Se lanzan 3 monedas
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
W = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}

3 caras. 2 caras 1 cara 0 caras =>x


x
Número P(x) XP(x) ( X) =  XP( x )
de Cara

0 1/8 0 12
3/8 =
1 3/8 8
2 3/8 6/8
3 1/8 3/8 = 1,5 caras
12/8
UNSA Dr. Armin Becerra Guzmán 160
Aplicación empresarial: uso del
valor esperado y las pérdidas
monetarias.
Un distribuidor de bocaditos sabe que su producto
rápidamente se deteriora. Compra cada cajita a 20 u.m. y
las vende a 50 u.m.. No puede especificar el número de
cajitas que le solicitarán diariamente, pero dispone de los
siguientes datos:

Ventas Probabilidad de venta


diarias de cada cantidad

10 0.15
11 0.20
12 0.40
13 0.25

1.00
UNSA Dr. Armin Becerra Guzmán 161
Tipo de pérdidas
(A) Pérdidas por mermas (obsolescencia):
oferta > demanda (costo contable)
(B) Pérdidas de oportunidad: oferta < demanda
(costo económico)

Alternativas de Venta
Alternativas de
Compra
10 11 12 13

10 0 20 40 60
11 30 0 20 40
12 60 30 0 20
13 90 60 30 0
Posibles Pérdidas

UNSA Dr. Armin Becerra Guzmán 162


Cálculo de la pérdida esperada

Para un stocks de 10 cajitas, la pérdida esperada será:

Posibles Ventas Probabilidad


Por día Pérdida que se reciban Pérdida
Condicional estos pedidos esperada

10 0 0.15 0.00
11 30 0.20 6.00
12 60 0.40 24.00
13 90 0.25 22.50

Pérdida esperada: 52.50


Solución óptima: analizar otros tamaños de stocks y decidir
por aquél que genere la menor perdida
UNSA Dr. Armin Becerra Guzmán 163
ESTADISTICA INFERENCIAL
Distribución Binomial

 n  X n -x   E ( X )  np
P(X)    p q
X   np(1  p)

n!
P(X)  X n-x
p q
x!(n - x)!
Datos
n!
P(X)  p (1  p)
X n -x Discretos

x!(n - x)!
UNSA Dr. Armin Becerra Guzmán 164
La distribución binomial
Se utiliza para describir variables discretas.

Es una de las distribuciones mas utilizadas en la


estadística aplicada. La distribución se deriva de un
procedimiento llamado ensayo de Bernoulli, nombrado
así en honor del matemático Suizo James Bernoulli
(1654 - 1785).

a) Características:
 El experimento consiste en una serie de ensayos
repetidos.
 Cada ensayo sólo tiene dos resultados posibles: éxito y
fracaso.
UNSA Dr. Armin Becerra Guzmán 165
La probabilidad de éxito, designado por p es la misma para
cada ensayo, la probabilidad de fracaso q (igual a 1-p) es
también constante.

1. Los ensayos sucesivos son independientes.

2. Puede ser simétrica o sesgada.

3. La información de la muestra se obtiene


con reposición de una población finita.

UNSA Dr. Armin Becerra Guzmán 166


b) Formula:
n!
P(X = x) = p x q n- x
x! (n - x)!
donde:
n : número de ensayos
x : número de éxitos
p : probabilidad de éxitos en un ensayo
q : probabilidad de fracaso en un ensayo
n - x : número de fracaso en el ensayo
Se aplica a la selección de una muestra, sólo cuando el
resultado de cada solución es independiente de los
resultados de las selecciones anteriores.

UNSA Dr. Armin Becerra Guzmán 167


c) Aplicación:

Una muestra de 4 frascos se selecciona sin restitución


de un lote de 5,000 frascos de cierto laboratorio
farmacéutico. Suponiendo que 20% de los frascos de
lote no cumplen con las especificaciones de calidad,
¿cuál es la probabilidad de que la muestra contenga
exactamente 2 frascos malos?

UNSA Dr. Armin Becerra Guzmán 168


Datos: n!
P(X = x) = p xq n-x
n=4 x! (n - x)!
x=2
p = 0,20
q = 0,80 P(X = 2) =
4!
0.22 0.802
2! (4 - 2)!

 0,1536

UNSA Dr. Armin Becerra Guzmán 169


d) La distribución
Cierto proceso de control de calidad se repite cuatro
veces. Suponga que existe la probabilidad de 0.50
que el proceso resulte deficiente. En cuatro
repeticiones se puede obtener 0,1,2,3 ó 4 procesos
deficientes. Se puede calcular la probabilidad de
cada uno de estos posibles resultados mediante la
distribución binomial.

UNSA Dr. Armin Becerra Guzmán 170


X
(Número de P(X = x)
procesos deficientes)

0 4
4!  1  1
0      116
0!4!  2  2
1 3
4!  1   1  4
1      16
1!3!  2   2 
2 2
4!  1   1 
2      616
2!2!  2   2 
3 1
4!  1  1 4
3      16
3!1!  2   2
4 0
4 4!  1   1 
     116
4!0!  2   2 
A estos resultados se denomina distribución de
probabilidad.
UNSA Dr. Armin Becerra Guzmán 171
e) La media y la desviación estándar

Consideramos la distribución del ejemplo anterior


(p = 1/2, n = 4)

X 0 1 2 3 4
P(X = x) 1/16 4/16 6/16 4/16 1/16

La media
 =  XP( x)

UNSA Dr. Armin Becerra Guzmán 172


X P(x) XP(x) 32
0 1/16 0
 XP( x)  16
1 4/16 4/16
2 6/16 12/16  = 2 procesos
3 4/16 12/16
4 1/16 4/16 También:
 = np
32/16
 = 4( 12)  2

Interpretación: Si seleccionamos 4 procesos al azar, se


espera encontrar 2 procesos deficientes, si este
experimento se repite un número infinito de veces.

UNSA Dr. Armin Becerra Guzmán 173


La desviación estándar

   ( x   ) 2
P( x)

x P( x) (x   ) (x   )2 ( x   ) 2 P( x )
0 1/16 -2 4 4/16
1 4/16 -1 1 4/16
2 6/16 0 0 0
3 4/16 +1 1 4/16
4 1/16 +2 4 4/16
16/16

UNSA Dr. Armin Becerra Guzmán 174


16
 (X   ) P( x) 
2

16
16
   ( X   ) P( x ) 
2
 1 proceso deficiente
16

También:
  npq

 4(0,5)(0,5)  1

La distribución binomial (p = 1/2, n = 4) tiene una media de 2


y una desviación estándar de 1.

UNSA Dr. Armin Becerra Guzmán 175


Ejemplo:
Supóngase que en cierta población el 52 por ciento de
todos los nacimientos que se registraron son varones.
Si aleatoriamente se escogen cinco registros de
nacimientos dentro de esa población, ¿cuál es la
probabilidad de que exactamente tres de ellos
pertenezcan a varones?.

P = 0.52
q = 1 - 0.52 = 0.48 5!
P(3,5)  0.523 0.48(53)  0.32  32%
n=5
3!(5  3)!
r=3

UNSA Dr. Armin Becerra Guzmán 176


Uso de Tablas
Solucionando el problema anterior usando la tabla de probabilidades
binomiales

tabla de probabilidades binomiales


p
n r 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 r n

5 0 0.0380 5
1 0.1755 4
2 0.3240 3
3 0.2990 2
4 0.1380 1
5 0.0255 0 5

n r 0.63 0.62 0.61 0.60 0.59 0.58 0.57 0.56 0.55 0.54 0.53 0.52 0.51 0.50 r n
p

La probabilidad de tener 3 inscritos varones de 5


registros realizados es del 0.324 o 32.4%.
UNSA Dr. Armin Becerra Guzmán 177
ESTADISTICA INFERENCIAL

Distribución de Poisson

e 
 x
P(X) 
X!

e  2.71828 Datos
Discretos

UNSA Dr. Armin Becerra Guzmán 178


Distribución de Poisson:
Es una distribución muy usada en administración. Se deriva
del proceso de Poisson en honor al matemático francés
Simeon Denis Poisson (1781-1840).
Debe cumplir las siguientes condiciones:
La ocurrencia de los eventos son independientes.
El número promedio de veces () que ocurre un éxito por
cada unidad de tiempo o de espacio es constante.
La probabilidad de un suceso es una unidad de tiempo o
de espacio muy pequeña.

UNSA Dr. Armin Becerra Guzmán 179


Ejemplos de aplicaciones de Poisson:
Trabajadores que llegan tarde a su centro laboral
durante un cierto día.
Defectos de un producto.
Venta por hora en cierta parte de la ciudad.
Clientes que llegan a la caja registradora de una tienda
en un determinado horario.

UNSA Dr. Armin Becerra Guzmán 180


Si el tamaño de la muestra es bastante grande (n>50) y la
probabilidad de un evento particular es muy pequeño (p <
0,1) y se desea hallar la probabilidad de un número
determinado de éxitos, se puede aplicar la distribución de
Poisson, dada por la siguiente ecuación.

x e
P(X = x) =
x!
donde
 (lambda): media = np = varianza
e : base de logaritmos naturales =2.71828
x! : factorial de x
UNSA Dr. Armin Becerra Guzmán 181
Ejemplo:
Supongamos que estamos investigando la seguridad de
un autoservicio, los registros indican una media de 5
intentos mensuales por tienda. El número de intentos de
robos esta distribuido de acuerdo con una distribución de
Poisson y el departamento de seguridad desea que
calculemos la probabilidad de que en cualquier mes
ocurra exactamente 3 intentos de robo.

X = 3 robos/mes 3 5
5 2.7183
 = 5 robos/mes P( x 3)   0.14042  14.04%
3!
UNSA Dr. Armin Becerra Guzmán 182
Uso de Tablas
Solucionando el problema anterior usando la tabla de
distribución de probabilidades de Poisson:


x 4.1 ......... 4.5 .......... 4.9 5

La probabilidad de tener
0 0.0067
1 0.0337 exactamente 3 intentos
2 0.0842 de robo en un mes
3 0.1404 cualquiera es 0.1404
4 0.1755

5 0.1755

UNSA Dr. Armin Becerra Guzmán 183


Aplicación

La probabilidad de “número equivocado” a pesar de


haber marcado correctamente es 0,03. Si se toma una
muestra de 100 llamadas, ¿cuál es la probabilidad de
tener 2 “número equivocado”?

Solución: 32  (2.71828) 3
P(X = 2) =
p = 0.03 2!
n = 100
 =3 = 02240

UNSA Dr. Armin Becerra Guzmán 184


La aproximación de Poisson a la
distribución Binomial

Consideremos una distribución binomial con p=0.02 y n =


100. Supongamos que nos interesa calcular la
probabilidad de que X = 3 utilizando la formula binomial,
podemos encontrar la probabilidad exacta de la forma
siguiente:
100!
P(X = 3) = (0,02) 3 (0,98) 97
3! 97!

 0,1823

UNSA Dr. Armin Becerra Guzmán 185


Los cálculos son muy tediosos. Cuando p es pequeño y n
es lo suficientemente grande, la formula binomial puede
aproximarse mediante una distribución de Poisson con 
= np

Luego, utilizando una distribución de Poisson encontramos


que la probabilidad de que X=3 es:


 ex
P(X = 3) =
x!
UNSA Dr. Armin Becerra Guzmán 186
  np = 100 (0,02) = 2

(2) 3  (2,71828) 2 8
  2
 0,1805
3! 6 (2,71828)

La respuesta es muy ¨próxima¨ a la encontrada con la


distribución binomial. La aproximación se considera válida
cuando

p  0.05 y n  20

UNSA Dr. Armin Becerra Guzmán 187


ESTADISTICA INFERENCIAL

Distribución Hipergeométrica
 N-X t
 Xt

  
P(x/N, X t , n)   n -x   x 
 
N
 
n
Datos
Discretos

UNSA Dr. Armin Becerra Guzmán 188


La distribución Hipergeométrica
Se utiliza para describir variables discretas

a)Características
La información de la muestra se obtiene sin
reposición de una población finita, por lo tanto la
probabilidad de éxito varía.
b) Formula donde:
M : número de éxitos en la población
 
M N M
 k : número de éxitos en la muestra
   N : tamaño de la población
P(X = k) =  k  n  k 
N-M: número de fracasos en la
N población
  n : tamaño de la muestra
n n-k : número de fracasos en la
UNSA
muestra
Dr. Armin Becerra Guzmán 189
Aplicación

Calcular la probabilidad de obtener 10 CHIPS


defectuosos en una muestra de 20 CHIPS de radio
tomados sin reemplazo de un lote de 30 CHIPS, de los
cuales 15 son defectuosos.
Datos:
k = 10
 15  30 15 
n = 20   
N= 30 P(X = 10) =  10 3020 10 
M= 15  
 
 20 
(3003)(3003) 9018009
=  = 0,3001
30045015 30045015

UNSA Dr. Armin Becerra Guzmán 190


Si erróneamente se usa la distribución binomial con n
= 20 y p =15/30 = 1/2 para calcular la probabilidad de
tener 10 defectuosos, el resultado será:

P(X = x) 
20! 1
10!(20 - 10)! 2
10
1
2
  
10

184756
  0,1762
1048576

Una probabilidad considerablemente menor que la


probabilidad real.

UNSA Dr. Armin Becerra Guzmán 191


d) Forma

Puede ser simétrica o sesgada. Cada vez que p = 0.5, la


distribución hipergeométrica será simétrica sin tener en
cuenta qué tan grande o pequeño sea el valor de n; sin
embargo, cuando p  0,5 la distribución será sesgada. El
grado de sesgo variará, dependiendo de la proximidad del p
a 0,5 y del tamaño de n.

UNSA Dr. Armin Becerra Guzmán 192


e) La media y la desviación estándar

La media:   E(X)  np

La desviación estándar:   N n
np (1  p ) 
N 1

N n
Donde N 1 es un factor de corrección de población
finita que se produce debido al proceso de muestreo sin
reposición de poblaciones finitas.

UNSA Dr. Armin Becerra Guzmán 193


DISTRIBUCION
CONTINUA DE
PROBABILIDADES
ESTADISTICA INFERENCIAL

Distribución Normal

1  (1 / 2 ) ( X   ) /  2
f(x)  e
2

e  2.71828
Datos
  3.14159 Continuos

UNSA Dr. Armin Becerra Guzmán 195


ESTADISTICA INFERENCIAL

Distribución Normal Estandarizada

1  (1 / 2 ) Z 2
f(z)  e
2

e  2.71828
Datos
  3.14159 Continuos

UNSA Dr. Armin Becerra Guzmán 196


ESTADISTICA INFERENCIAL

Distribución Normal Estandarizada


(Fórmula de Transformación)

X 
Z

X    Z Datos
Continuos

UNSA Dr. Armin Becerra Guzmán 197


ESTADISTICA INFERENCIAL
CURVA NORMAL
ESTANDARIZADA
Y LA ESCALA X

UNSA Dr. Armin Becerra Guzmán 198


ESTADISTICA INFERENCIAL
CURVA NORMAL
ESTANDARIZADA
Y LA ESCALA X

UNSA Dr. Armin Becerra Guzmán 199


Distribuciones continuas de probabilidad

La distribución normal
También conocida como campana de Gauss en honor al
matemático Karl Gauss ( siglo XIX).
Es importante por:
Es aplicable para inferencia estadística
Se ajusta (casi) a las distribuciones de frecuencias
reales observadas.
Se utiliza para describir el comportamiento de una
variable continua.
(a) Características
1. Tiene un sólo pico (unimodal). Forma acampanada.
2. La media cae en el centro
3. La media, media y moda coinciden
4. Es asintótica al eje horizontal
UNSA Dr. Armin Becerra Guzmán 200
La distribución normal de
probabilidad es simétrica con
respecto a una línea vertical
que pase por la media

El extremo izquierdo se
extiende de manera indefinida y
El extremo derecho se
nunca toca el eje horizontal
extiende de manera
indefinida y nunca toca el
eje horizontal

Media
Mediana
Moda

UNSA Dr. Armin Becerra Guzmán 201


b) Fórmula

La función de densidad: f(x), para la distribución


normal tiene la siguiente formula:

2
 x  
1 
1 2   
f (x)  e
2

donde:
e : constante matemática: 2.71828
 :constante matemática: 3.14159
 : media de la población
 : desviación estándar de la población
x : cualquier valor de la variable
aleatoria continua
UNSA Dr. Armin Becerra Guzmán 202
Areas debajo de la curva normal

No importa cuales son los valores de  y , para


una distribución de probabilidad normal el área total
bajo la curva es 1.00, de manera que podemos
pensar en áreas bajo la curva como si fuesen
probabilidades. Matemáticamente es verdad que:

UNSA Dr. Armin Becerra Guzmán 203


1: Aproximadamente 68% de todos los valores de una
población normalmente distribuida se encuentra datos
1 desviación estándar de la media .



  
  



68% datos
UNSA Dr. Armin Becerra Guzmán 204
2: Aproximadamente 95.5% de todos los valores de
una población normalmente distribuida se encuentra
datos 2 desviación estándar de la media.

   2
 
   2 


94.6% datos
UNSA Dr. Armin Becerra Guzmán 205
3: Aproximadamente 99.7% de todos los valores
de una población normalmente distribuida se
encuentra datos 3 desviación estándar de la
media

  3     3 

  

99% datos
UNSA Dr. Armin Becerra Guzmán 206
La distribución normal estándar (Z)

La distribución normal tiene diferente  y  para calcular


probabilidades habría que integrar la función de densidad.
Por este motivo se estandariza la variable.
La estandarización es un proceso estadístico que consiste
en restar la media a la variable y el resultado dividirlo por
la desviación estándar.
x
Z

UNSA Dr. Armin Becerra Guzmán 207
Distribución
normal estándar

  50
 1

UNSA Dr. Armin Becerra Guzmán 208


La tabla de distribución normal estándar, es la
siguiente:

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08


0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714
: : : : : : : : : :
: : : : : : : : : :
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810
1.2 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162
:
:
2.4
2.5
:

Cuando Z=1.27 entonces el área vale: ......


UNSA Dr. Armin Becerra Guzmán 209
Ejercicio:
Un jefe de personal piensa
que los puntajes en una
prueba de destreza manual
tiene una distribución   2.5
aproximadamente normal, con
una media de 10 y una
desviación estándar de 2,5. Si
a un individuo, elegido
  10 15
aleatoriamente, se le aplica el
examen, ¿cuál es la probabi-
lidad de que logre un puntaje
de 15 o mas puntos?.

UNSA Dr. Armin Becerra Guzmán 210


Obtenemos la siguiente
información:

     2.5   2.5
x 15  10
Calculando Z: z  2
 2 .5
  
  10 15
Para Z=2, buscamos en la tabla cual es la
probabilidad (o área) que le corresponde:
Área = .4772
Como deseamos conocer esta área:   2.5

P( x  15)  0.5  0.4772  0.0228  2.28%

  10 15

UNSA Dr. Armin Becerra Guzmán 211


¿Cuál es la probabilidad de que se logre un puntaje
entre 11 y 14?
Calculando Z:
11  10
Cuando x  11  z   0.4  A  0.1554
2 .5
14  10
Cuando x  14  z   1.6  A  0.4452
2.5
  11
14


El área sombreada se encuentra restando del área


mayor (0.4452) el área menor (0.1554)
P(11  x  14)  0.4452  0.1554  0.2898  28.98%

UNSA Dr. Armin Becerra Guzmán 212


Aplicaciones
Una empresa aplica un programa de entrenamiento
diseñado para mejorar la habilidades de supervisión en
los diferentes procesos que se desarrollan en ventas.
Debido a que el programa es autoadministrado, los
supervisores requieren un número diferente de horas
para concluirlo. Un estudio de los participantes
anteriores indica que el tiempo medio que se lleva
completar el programa es de 500 horas y que esta
variable aleatoria normalmente distribuida tiene una
desviación estándar de 100 horas.

UNSA Dr. Armin Becerra Guzmán 213


Pregunta 1. ¿Cuál es la probabilidad de que un
participante elegido al azar requiera más de 500 horas
para completar el programa?

Solución:
En la figura, podemos ver que la
mitad del área bajo la curva está
P(X>500)=0.5
localizada a ambos lados de la
media de 500 horas. Por lo tanto
podemos deducir que la
probabilidad de que la variable
aleatoria tiene un valor mayor a
500 es el área sombreada, es
decir, 0.5.

UNSA Dr. Armin Becerra Guzmán 214


Pregunta 2:¿Cuál es la probabilidad de que un
supervisor elegido al azar se tome entre 500 y 650
horas para completar el programa de entrenamiento.

Solución:
La gráfica se muestra la
respuesta como zona
P(500 X 650)=0.4332 sombreada, representada por
el área entre la media (500
horas) y el valor de X, en el
cual estamos interesados
(650 horas). Estandarizando
la variable tenemos un valor
para Z

UNSA Dr. Armin Becerra Guzmán 215


x
Z

650  500
Z  1 .5
100

Si buscamos Z = 1.5 en la tabla, encontraremos una


probabilidad de 0,4332. En consecuencia, la probabilidad
de que un candidato escogido al azar requiera entre 500
y 650 horas para terminar el programa de entrenamiento
es ligeramente mayor a 0,4.

UNSA Dr. Armin Becerra Guzmán 216


Pregunta 3:¿Cuál es la probabilidad de que un
supervisor elegido al azar se tome más de 400 horas
en completar el programa?

Solución:
Estamos interesados en el área a la derecha de 700.

Estandarizamos

x P(X >700)= 0..0228


Z

700  500
Z  2
100
UNSA Dr. Armin Becerra Guzmán 217
Tabla: si Z = 2.0  Area: 0.4772

En consecuencia, la probabilidad mayor a 700 será


0,5 - 0,4772 = 0,0228

Por lo tanto hay un poco más de 2 oportunidades en 100


de que un participante elegido al azar se lleve más de 700
horas en completar el curso.

UNSA Dr. Armin Becerra Guzmán 218


Pregunta 4:Suponga que el director del programa
desea saber la probabilidad de que un participante
escogido al azar requiera entre 550 y 650 horas para
completar el trabajo requerido en el programa.
Solución:
Primero calculamos el valor de Z para 650

x
Z

650  500 P(550 X 650)
Z  1 .5
100
A este valor le
corresponde un área
de 0,4332

UNSA Dr. Armin Becerra Guzmán 219


Después calculamos un valor de Z para 550

x
Z

550  500
Z  0 .5
100

Correspondiéndole un área de 0,1915

UNSA Dr. Armin Becerra Guzmán 220


Para responde la pregunta debemos estar
restar las áreas:

Probabilidad de que la variable aleatoria esté 0,4332


entre la media y 650 horas

(-) Probabilidad de que la variable aleatoria esté 0,1915


entre la media y 550 horas

(=) Probabilidad de que la variable aleatoria esté 0,2417


550 y 650 horas

UNSA Dr. Armin Becerra Guzmán 221


Así pues, la probabilidad de que un supervisor elegido
al azar se tome entre 550 y 650 horas para completar
el programa de entrenamiento es un poco menor de 1
entre 4

UNSA Dr. Armin Becerra Guzmán 222


La Distribución t
a) Características
Al igual que la normal, también es simétrica es
algo más plana que la distribución normal hay una
distribución t para cada tamaño de muestra
cuando el tamaño de la muestra es menor a 30, la
distribución t se asemeja tanto a la normal que se
prefiere utilizar ésta.

UNSA Dr. Armin Becerra Guzmán 223


UNSA Dr. Armin Becerra Guzmán 224
CUANDO UTILIZAR Z o t

SI
¿S E CONOCE  ? US A R Z

NO

SI
¿es n  30? US A R Z

NO

US A R t

UNSA Dr. Armin Becerra Guzmán 225


TABLA DE DISTRIBUCION t DE STUDENT
d.f. t .90 t .95 t .975 t .99 t .995
d.f. Grados de libertad1 3.08 6.31 12.7 31.8 63.7
2 1.89 2.92 4.3 6.97 9.92
d . f .  n 1
3 1.64 2.35 3.18 4.54 5.84
Ejemplo:
:
n= 28 N.C. = 95%
:
a ,5
:
a/2 ,25
:
,25,975
26 1.32 1.71 2.06 2.48 2.78
t=?
27 2.31 1.7 2.05 2.47 2.77
28 1.31 1.7 2.05 2.47 2.76
d.f. = 28 - 1 = 27
:
t = 2,0518
:
UNSA : Dr. Armin Becerra Guzmán 226
b) Fórmula
x
t
s
n
c) Grados de libertad
Se definen como el número de valores que podemos
escoger libremente.

UNSA Dr. Armin Becerra Guzmán 227


La distribución Ji-Cuadrada
a) Características

Es una distribución asimétrica a la izquierda


Sólo considera valores positivos

b) Definición

La distribución Ji-cuadrada esta definida por

n
   Z i2
2

i 1

UNSA Dr. Armin Becerra Guzmán 228


c) Aplicaciones

Las aplicaciones más importantes están en


la prueba de bondad de ajuste la prueba de
independencia estadística

d) Distribución

UNSA Dr. Armin Becerra Guzmán 229


La Distribución F
Características
Es una distribución asimétrica a la derecha
Sólo tiene valores positivos
Se utiliza para comparar variancias de dos
poblaciones, con distribución normal
Fórmula
2
S mayor
F 2
S menor

UNSA Dr. Armin Becerra Guzmán 230


11-3

• Existe una “familia” de distribuciones F.


• Cada miembro de la familia está determinado
por dos parámetros: los grados de libertad (gl)
en el numerador y los grados de libertad en el
denominador.
• El valor de F no puede ser negativo y es una
distribución continua.
• La distribución F tiene sesgo positivo.
• Sus valores varían de 0 a  . Conforme
F   la curva se aproxima al eje X.

UNSA Dr. Armin Becerra Guzmán 231


ESTADISTICA INFERENCIAL
Curvas Normales

Datos
Continuos

UNSA Dr. Armin Becerra Guzmán 232


La Estadística de Resumen

Después de construir tablas y gráficos, a partir de


una colección de datos, se requieren medidas más
exactas.
La estadística de resumen, proporciona medidas
para describir un conjunto de datos.
Existen tres tipos de medidas de resumen:
• De tendencia central.
• De dispersión.
• De la forma de la distribución.

UNSA Dr. Armin Becerra Guzmán 233


(A) Las medidas de tendencia central
Se refieren al punto medio de una distribución
Se conocen como medidas de posición
Ejemplo: A partir del gráfico siguiente, se observa
que la posición central de la curva B está a la derecha
de la posición central de las curvas A y C. Observese
que la posición central de la curva A es la misma que
la curva C.

UNSA Dr. Armin Becerra Guzmán 234


(B) Las medidas de dispersión
1.Se refieren a la extensión o amplitud de los datos
de una distribución
2.Representan el grado de variabilidad de los datos.
Ejemplo: Observe que la curva A en el siguiente
gráfico tiene una mayor dispersión que la curva B,
a pesar que la posición central es la misma.

UNSA Dr. Armin Becerra Guzmán 235


(C) Las medidas de la forma de la curva
Las curvas que representan a un conjunto de datos,
pueden ser analizadas de acuerdo a su:
a) Simetría b) Curtósis

Las curvas simétricas, tienen una forma tal que con una
línea vertical que pase por el punto más alto de la curva,
dividirá el área de esta en dos partes iguales.

UNSA Dr. Armin Becerra Guzmán 236


Las curvas sesgadas son aquellas cuyos valores están
concentrados en el extremo inferior o superior de la
escala de medición del eje horizontal. La “cola” indica el
tipo de sesgo.

UNSA Dr. Armin Becerra Guzmán 237


Cuando medimos la curtósis nos referimos al grado de
agudeza. Pueden ser: leptocúrtica (concentración al centro)
mesocúrtica distribuidos simétricamente) o platicúrtica
(aplanada).

UNSA Dr. Armin Becerra Guzmán 238


MEDIDAS DE ASIMETRIA O
SESGO
Coeficiente de Asimetría
Es un indicador del grado de asimetría que
presenta una distribución.

3( X  Md )
S kp 
S
Valores posibles

 3 asimetría negativa
S kp  
 3 asimetría positiva

UNSA Dr. Armin Becerra Guzmán 239


Si Skp tiende a 3 la distribución es asimétrica hacia la
derecha o asimetría positiva.

Si Skp tiende a -3 la distribución es asimétrica a la


izquierda o asimetría negativa.

En distribuciones simétricas, no existe sesgo, es decir


Skp = 0.

En la práctica, el coeficiente de Asimetría de Pearson


varía entre -1 y +1

UNSA Dr. Armin Becerra Guzmán 240


Coeficiente de Curtósis
Es una medida del grado de apuntalamiento,
generalmente comparada con el apuntalamiento de la
distribución normal.

0,5( P0, 75  P0, 25 )


Ku 
P0,9  P0,1

UNSA Dr. Armin Becerra Guzmán 241


Valores posibles
a) Leptocúrtica (concentración al centro): Si el grado de
apuntalamiento de una distribución es mayor que el
de la distribución normal. Kμ  0,5
b) Mesocúrtica (distribuidos simétricamente): Si el
grado de apuntalamiento de una distribución es igual
que el de la distribución normal. Kμ  0,25
c) Platicúrtica (aplanada).Si el grado de apuntalamiento
de una distribución es menor que el de la
distribución normal. 0 ≤ Kμ ≤ 0,25

Leptocúrtica Mesocurtica Platicurtica

UNSA Dr. Armin Becerra Guzmán 242


Ejemplo:
La tabla muestra la edad (en años) de 70 clientes
atendidos en el servicio de peluqueria local.

4 67 18 15 11 3 24
3 85 15 15 14 5 26
5 6 16 15 13 7 21
6 7 17 16 10 8 22
7 7 15 17 6 12 17
25 10 13 17 4 15 16
13 12 13 13 8 17 9
2 15 14 14 14 18 9
4 16 20 16 18 20 15
5 17 14 17 20 21 12
A) Calcular e interpretar la asimetría de la
distribución
UNSA B) Calcular e interpretar la curtosis
Dr. Armin Becerra Guzmán de la distribución. 243
Los resultados han sido obtenidos
usando Microsoft Excel

Media aritmetica 14.27 3(14,27  13,50)


S kp   0,202
Desviacion estandar 11.42 11,42
Mediana 13.50
Cuartil 1 7.00
0,5(17,00  7,00)
Cuartil 3 17.00 Ku   0,263
23,00  4,00
Percentil 90 23.00
Percentil10 4.00

UNSA Dr. Armin Becerra Guzmán 244


TAMAÑO
MUESTRAL
Importancia del muestreo
En lugar de levantar un censo “completo” se realiza un
muestreo, debido a que un censo:

1. requiere demasiado tiempo


2. es muy costoso
3. muy laborioso y muchas veces ineficiente
ESTADISTICA INFERENCIAL

Tamaño Muestral:
• No Probabilístico
•Intencional o de
N Juicio
•Por Cuotas
n • De Trozos
•Probabilístico
•Aleatorio Simple
• Sistemático
•Estratificado
•Conglomerados
UNSA Dr. Armin Becerra Guzmán 247
Tipos de Muestreo
A) MUESTREO NO PROBABILÍSTICO: No permite
inferencia estadística.

1. M. de Juicio: Abarca el juicio del experto, opiniones


de especialista
2. M. de Cuotas: Se decide la estructura del marco
muestral, sin tener en cuenta la estructura del marco
poblacional.
3. M. de Trozo: La elección de los “racimos” no se hace
al azar.

UNSA Dr. Armin Becerra Guzmán 248


(B) MUESTREO PROBABILÍSTICO: Permite
inferencia estadística. Cada elemento del marco
poblacional tiene una probabilidad conocida
diferente de cero de conformar o ser parte de la
muestra.
1. Muestreo Aleatorio Simple (MAS):
Concepto: Todas las unidades elementales
tienen la misma probabilidad de conformar la
muestra. Dicho de otro modo, significa que cada
una de las posibles muestras de tamaño n, tenga
a la misma probabilidad: 1/N CN de ser
seleccionada (muestreo sin sustitución). Es el
caso de un sorteo.

UNSA Dr. Armin Becerra Guzmán 249


2. M. Sistemático: Las unidades elementales son
seleccionadas dentro de un intervalo (I) de igual
tamaño. Se extrae la muestra de acuerdo a la lista de
clientes atendidos por ejemplo

I1 I2 I3 I4

X1

UNSA Dr. Armin Becerra Guzmán 250


3. M. Estratificado: El marco poblacional se divide en grupos
homogéneos (estratos); de cada uno se extrae una
submuestra, proporcional al tamaño del estrato. Muestreo
por tipo de servicio

4. M. por Conglomerado: El marco poblacional se encuentra


agrupado en conglomerados o racimos Se selecciona en
forma aleatoria, el o los racimos. Todos los clientes que
ingresaron un determinado día.

UNSA Dr. Armin Becerra Guzmán 251


El tamaño de la muestra y el
Intervalo de Confianza
A.¿De qué depende el tamaño de la muestra (n)?
Depende de:
1. La magnitud del máximo error permisible (e) y,
2. El nivel de confianza de que el error en la
estimación no exceda del máximo error permisible
(1- a )

UNSA Dr. Armin Becerra Guzmán 252


El Error Estándar
Es una medida de dispersión de una distribución muestral.
Es equivalente a la desviación estándar.

Desviación estándar de la Error estándar


distribución de medias de muestra de la media

Desviación estándar de la Error estándar


distribución de proporciones de muestra de la
proporción

UNSA Dr. Armin Becerra Guzmán 253


ESTADISTICA INFERENCIAL
Tamaño Muestral: N desconocida

Z
X 
Z  2 2
 n 2
n e
Z
x  
Z  (1   ) 2
 (1   ) n 2
n e

UNSA Dr. Armin Becerra Guzmán 254


ESTADISTICA INFERENCIAL
Tamaño Muestral: N Conocida

Z .N .2 2
n 2
E ( N  1)  Z 2 . 2

Z 2 .N . p (1  p )
n 2
E ( N  1)  Z p (1  p )
2

UNSA Dr. Armin Becerra Guzmán 255


C) Derivación de la formula

 
Pr{x  Z o    xZ }  1a
n n
Error = e
Entonces
Z
e
n
Elevando al cuadrado
Z 2 . 2
e 
2

Z 2 . 2
n
e2
UNSA Dr. Armin Becerra Guzmán 256
Ejemplo 1
A fin de conocer el gasto mensual en golosinas por
familia, el Gerente de Marketing de una empresa desea
determinar el tamaño de la muestra que le proporcione
un nivel de confianza de 0,95 (Z = 1,96). Además
conoce por estudios anteriores que las compras
medias por familia eran de S/. 120 mensuales, con una
desviación estándar de 30. El Gerente busca un
tamaño de muestra que le permita estimar el nivel de
gasto con un error de 10.

UNSA Dr. Armin Becerra Guzmán 257


Solución
2 2
Z s
n =
2
Datos: e
1 - a = 0,95
Z = 1,96
 = 30 2 2
( 1 , 96 ) ( 30)
e = 10 n =
2
(1 0 )

n = 35

UNSA Dr. Armin Becerra Guzmán 258


Para proporciones se calcula a partir de la formula
donde
Z : Valor tabular para un
2 nivel de confianza
Z p(1-p)
n= 2 p(1-p): Varianza
e

UNSA Dr. Armin Becerra Guzmán 259


Ejemplo 2

Un congresista desea determinar su popularidad en


zona norte del país. Especifica que la proporción de
electores que lo apoyarán debe calcularse dentro
del ± 2% de la proporción de la población, ademas,
desea tener un grado de confianza de 0,95. En las
elecciones pasadas recibió 40% de los votos en
esa parte del país. Duda que esto haya sufrido
muchos cambios. ¿De cuántos electores debe ser la
muestra?.

UNSA Dr. Armin Becerra Guzmán 260


Solución

Datos: (1,96) 2 (0,40)( 0,60)


n
1 - a = 0,95 (0,02) 2
Z = 1,96 0,921984
p = 0,40 n
(0,02) 2
e = 0,02
n  2305

UNSA Dr. Armin Becerra Guzmán 261


ENTONCES
A. Para estimar una media poblacional:
Se calcula a partir de la formula siguiente

Za S 2e
n 2
 2

donde
Za 2 : Valor tabular para un nivel de confianza.
Depende del nivel de confianza utilizado
por la estimación del parámetro
desconocido. Toma un valor de 1,96
para un nivel de confianza de 0,95.
2
s : Varianza obtenida de revisión bibliográfica
e
UNSA
o estudio piloto.
Dr. Armin Becerra Guzmán 262
2
A mayor variabilidad de la muestra , s e
mayor varianza. A mayor varianza mayor tamaño

muestral representa el error de muestreo,
llamado error de estimación o precisión de la
estimación. El valor debe ser asumido por el
investigador. En este caso   (   x)
Para poblaciones finitas (se conoce N), el tamaño
final (nf) queda definido por la siguiente relación

n
nf 
n
1
N
UNSA Dr. Armin Becerra Guzmán 263
Ejemplo 2
En cierta población se 1200 maestristas, se desea estimar el
nivel promedio de notas en el curso de estadística con 0,95
de confianza. Al realizar un estudio piloto se encontró que
x  12,3 y S=1,6. Si los investigadores están dispuestos a
asumir un Za 2  1,96   0,5 .Calcular n

N = 1200
n
Za2 2s2e

1,96 1,6
2 2
 39,33
Se = 1,6  2
0,52
  0,5

UNSA Dr. Armin Becerra Guzmán 264


n 39,33
nf    38,08  39
n 39,33
1 1
N 1200

Interpretación
El número mínimo necesario de maestristas para
realizar el estudio es de 39, si se desea estimar el nivel
promedio

notas en la población con una precisión de
0,5.

UNSA Dr. Armin Becerra Guzmán 265


Ejemplo 3
En cierta población de 1200 escolares, de 9 – 11 años
se desea estimar el nivel promedio de hierro sérico.
Con este fin se va a seleccionar una muestra
probabilistica. Si en un estudio similar se obtuvo una
media aritmética de 60,6 mg/dl y S = 22,4 mg/dl.
Calcular el tamaño mínimo de la muestra si la
Za 2  1,96   5
estimación del parámetro se va a realizar con 0,95 de
confianza y se asume un   5
N = 1200 Za2 2s2e 1,962 22,42
n   77,10
Se = 22,4
UNSA
 2
5 2
Dr. Armin Becerra Guzmán 266
n 77,10
nf    72,44  73
n 77,10
1 1
N 1200

Interpretación :
El número mínimo necesario de escolares para realizar el
estudio es 73, si se desea estimar el nivel promedio de
hierro sérico en la población con una precisión  5

UNSA Dr. Armin Becerra Guzmán 267


B. Para estimar una proporción poblacional: 
2
Za 2p e qe
n
 2
donde:
pe = proporción “estimada” de sujetos con la
característica de interés. Se puede obtener
de revisón bibliográfica, estudio piloto o
asumiendo pe = qe= 0,50
qe = proporción “estimada” de sujetos sin la
caracteristica de interés.
 = Error absoluto de muestreo o precisión. Debe
ser asumido por el investigador.
    p
UNSA Dr. Armin Becerra Guzmán 268
Si se conoce N:

n
nf 
n
1
N

Ejemplo 1:
En una población grande, se desea estimar la
prevalencia de gripe con 0,95 de confianza. De la
literatura se sabe que p = 0,10 si se asume un error
muestral de 5%, calcular n

UNSA Dr. Armin Becerra Guzmán 269


Za2 2p e qe
n
Datos  2

Za 2  1,96 n
1,96 2 0,10,9 
p e  10%  0,10 0,05 2
qe  90%  0,90
  0,05 n
0,345744
 138,3  139
0,0025

Interpretación: Si se desea estimar la prevalencia


poblacional con 0,95 de confianza y un  de 5% se deberá
evaluar 139 sujetos.
UNSA Dr. Armin Becerra Guzmán 270
DISTRIBUCIONES
MUESTRALES E
INTERVALOS DE
CONFIANZA
Introducción
La estadística se divide en DESCRIPTIVA e
INFERENCIAL

DESCRIPTIVA
ESTADISTICA Estimación
INFERENCIAL
Prueba de
Hipótesis

UNSA Dr. Armin Becerra Guzmán 272


Tipos de estimaciones
A) Estimación puntual

Un sólo número se utiliza para estimar un


parámetro desconocido. Para ser útil debe de
estar acompañado del error.

Ejemplo:
Para el próximo mes se espera que las ventas
sean 700 unidades con un error de 10%.

UNSA Dr. Armin Becerra Guzmán 273


B) Estimación por intervalo

Un intervalo de valores se utiliza para estimar un


parámetro desconocido. El error se indica de dos
manera: por la extensión del intervalo y por la
probabilidad de obtener el verdadero parámetro de la
población que se encuentra dentro del intervalo.
Ejemplo:
Para el próximo mes se espera que el número de
requerimiento en el servicio de lavado de autos sean
entre 670 y 730 vehículos, con un error 5%.

UNSA Dr. Armin Becerra Guzmán 274


CRITERIOS PARA SELECCIONAR
UN ESTIMADOR: CESI.
• Coherencia: si al aumentar n, el
estimador se aproxima al parámetro.
• Eficiencia: proporciona menor error
estándar que otros estimadores.
• Suficiente: utiliza mayor cantidad de la
información contenida en la muestra
que otro estimador.
• Insesgado (o imparcial): si el estimador
tiende a tomar valores por encima y por
debajo del parámetro que estima, con la
misma frecuencia.
UNSA Dr. Armin Becerra Guzmán 275
Las Estimaciones Puntuales
(A) De la media poblacional
La media muestral x estima a la media poblacional 
(B) De la varianza y la desviación estándar
S2 estima 2
S estima 
(C) De la proporción poblacional
p estima 

UNSA Dr. Armin Becerra Guzmán 276


Los intervalos de confianza
Conceptos
• Nivel de confianza: probabilidad que asociamos
con una estimación del intervalo. Se representa
con (1 - a). Los niveles más utilizados son 0,90 0,95
y 0,99.

• Intervalos de confianza: es el alcance de la


estimación que estamos haciendo.

UNSA Dr. Armin Becerra Guzmán 277


ESTADISTICA INFERENCIAL

Distribuciones Muestrales: La Media


n n

_ X i _ X i
N n X1  i 1
X4  i 1

n n
n
n nn n n
n
_ X i _ X i
X2  i 1
X5  i 1
n n n
n

X n

X
_ i
X3  i 1


n i

X
 i 1
N
UNSA Dr. Armin Becerra Guzmán 278
ESTADISTICA INFERENCIAL
Distribuciones Muestrales:
El Error Estandar de la Media


n
N n
X 
n
n
n
nn i
n

UNSA Dr. Armin Becerra Guzmán 279


ESTADISTICA INFERENCIAL
Distribuciones Muestrales:
Efecto del Tamaño de la Muestra
En la Distribución Muestral
X 
X  Z
Z 

n

X    Z X Z
n
UNSA Dr. Armin Becerra Guzmán 280
ESTADISTICA INFERENCIAL
Distribuciones Muestrales:
Intérvalo que incluye
una proporción fija de medias

Xu    Z
n

XL    Z
n

UNSA Dr. Armin Becerra Guzmán 281


ESTADISTICA INFERENCIAL
Distribuciones Muestrales:
Intérvalo de Confianza para las Medias

Mis imágenes\2005-08 (Ago)\scan.jpg

UNSA Dr. Armin Becerra Guzmán 282


POBLACION Y MUESTRA
2  Conocida

  800
  1,5
X = 799,5

UNSA Dr. Armin Becerra Guzmán 283


ESTADISTICA INFERENCIAL
Distribuciones Muestrales:
Intérvalo de Confianza para las Medias
X   Conocida
Z

n

X Z

  X Z


n n

UNSA Dr. Armin Becerra Guzmán 284


POBLACION Y MUESTRA
3  Desconocida

  800

X = 796
S=1,8

UNSA Dr. Armin Becerra Guzmán 285


ESTADISTICA INFERENCIAL
Distribuciones Muestrales:
Intérvalo de Confianza para las Medias
X   Desconocida
t n -1 
S
n

S S
X  t n 1    X  tn1
n n

UNSA Dr. Armin Becerra Guzmán 286


ESTADISTICA INFERENCIAL
Distribuciones Muestrales:
Intérvalo de Confianza para Proporciones

  (1   )
 
n

 x (1   x )  x (1   x )
x  Z    x  Z
n n
La proporción muestral Px = X / n
= número de exitos/ tamaño de la muestra
UNSA Dr. Armin Becerra Guzmán 287
Intervalo para la media
A partir de muestras grandes
x -
pero Z =

n
-Z0 Z0
Pr Z 0  Z  Z 0   1  a
 x 
Pr  Z 0   Z0   1  a
 x 
   
Pr  x  Z0    x  Z0   1  a
 n n 

UNSA Dr. Armin Becerra Guzmán 288


Ejemplo:

En un estudio de mercado, se realizó una encuesta


a 400 familias calculando un gasto medio anual en
ropa de S/. 740 por familia. La desviación estándar
fue S/. 400. Construya e interprete un intervalo de
confianza al 0,95 de la estimación del gasto medio
anual de ropa por familia en esa ciudad.

UNSA Dr. Armin Becerra Guzmán 289


   
Pr  x  Z0    x  Z0   1  a
 n n 

 400 400 
Pr 740  (1.96)    740  (1.96)  0.95
 400 400 

Pr700.80    779.20  0.95

UNSA Dr. Armin Becerra Guzmán 290


Interpretación:
Hay 0,95 de confianza que el intervalo hallado se
encuentre dentro del grupo de intervalos que
contienen a la verdadera media poblacional (.

Ls


LI

muestra
1 2 3 4 5 6 7 8
UNSA Dr. Armin Becerra Guzmán 291
A partir de muestras pequeñas
x -
Pero, t=
S
n
-t0 t0
Pr t0  t  t0   1  a
 
 x 
Pr  t0   t0   1  a
 S 
 n 
 s s 
Pr  x  t0    x  t0   1a
 n n
UNSA Dr. Armin Becerra Guzmán 292
Ejemplo
Se desea estimar el tiempo medio de estancia en un hotel
para cierto tipo de clientes. Se selecciona una muestra
aleatoria de 25 clientes y se calculó x  5,7 y S = 4,5
días. Estimar  con 0,95 de confianza.

 S S
Pr x  t n1    x  t n1   1 a
 n n

 4,8 4,8 
Pr 5,7  2,064    5,7  2,064   1  0,05
 25 25 

Pr3,72    7,68  0,95


UNSA Dr. Armin Becerra Guzmán 293
Interpretación:
Hay 0,95 de confianza que el intervalo
construido se encuentre dentro del grupo de
intervalos que contienen a la verdadera media
poblacional () de la estancia en el hotel.

UNSA Dr. Armin Becerra Guzmán 294


Ejemplo 2
n=9
x  41,27
S = 16,23
a = 0,05
 S S
Pr x  t n1    x  t n1   1 a
 n n
 16,23 16,23 
Pr 41,27  2,306    41,27  2,306   0,95
 9 9 

Pr 28,80    53,74  0,95

UNSA Dr. Armin Becerra Guzmán 295


Interpretación:
Hay 0,95 de confianza que el intervalo construido se
encuentre dentro del grupo de intervalos que contienen a
la verdadera media poblacional ().

UNSA Dr. Armin Becerra Guzmán 296


Ejemplo:

Nueve (9) automóviles del mismo modelo fueron


conducidos de idéntica manera usando un litro de
gasolina corriente. La distancia media recorrida por
estos automóviles fue de 8 Kms. con una desviación
estándar de 1,14 Kms. Construya e interprete un
intervalo de confianza al 0,95 para estimar el
kilometraje medio por litro de gasolina para este
modelo de automóvil.

UNSA Dr. Armin Becerra Guzmán 297


Solución:

GL= n - 1 = 8 t = 2,306

 1.14 1.14 

Pr8 2.306(  
) 8 2.306( )  0,95
 
 9 9 

Pr {7,12372
.    8,.87628} . 0,95

UNSA Dr. Armin Becerra Guzmán 298


Interpretación:

Hay 0,95 de confianza que el intervalo hallado se


encuentre dentro del grupo de intervalos que contienen
a la verdadera media poblacional.

UNSA Dr. Armin Becerra Guzmán 299


Intervalo para la proporción

Pero
p 
Z
p
-Z0 Z0
donde
Pr{ Z o  Z  Z }  1  a p (1  p )
p 
p  n
Pr{ Z o   Z}  1  a
 `p
Pr{ p  Z p    p  Z o p }  1  a

UNSA Dr. Armin Becerra Guzmán 300


Ejemplo:

Suponga que 1600 de 2000 trabajadores


sindicalizados que se muestrearon de una gran
industria dijeron que planean votar por unirse a una
federación. Si se utiliza un nivel de confianza de 0,95
¿cuál es la estimación de intervalo para la proporción
de la población?. Interprete.

UNSA Dr. Armin Becerra Guzmán 301


1600 (0,80)(1  0,80)
p  0.80 p 
2000 2000
Z  1,96  p  0,00894
Pr{0,80-1,96(0,00894) < < 0,80 +1,96(0,00894) }= 0,95

Pr{0,782 <  < 0,818} = 0,95

UNSA Dr. Armin Becerra Guzmán 302


Interpretación:

Hay 0,95 de confianza que el intervalo calculado pertenece al


grupo de intervalos que contienen a la verdadera proporción
poblacional.

UNSA Dr. Armin Becerra Guzmán 303


Ajuste para poblaciones
finitas
El error estándar de la estimación sufre un ajuste, cuando se
trata de una población finita.
 N n
Error estándar de la media X  .
n N 1

Error estándar de la proporción   p(1  p) . N  n


p
n N 1
Si la proporción n/N es menor a 0,05 se omite el ajuste.

UNSA Dr. Armin Becerra Guzmán 304


Ejemplo 1

Hay 250 familias en un pequeño poblado. Una encuesta


con 40 familias reveló que la contribución media anual a
obras comunitarias es de US $450, con una desviación
estándar de US $ 75. Establezca un intervalo de
confianza de 0,95 para la contribución media anual.
Interprételo.

UNSA Dr. Armin Becerra Guzmán 305


Solución:

Como la muestra es mayor a 5%, procede el ajuste.

  N  n    N  n 
Pr{x  Z 
n  N 1     xZ    1  a
n  N 1 
 75  250  40   75  250  40 
Pr{450 1,96      450  1,96  }  0,95
 40  250 1   40  250 1 
Pr{450  23,24( 0,8433)    450  23,24( 0,8433)}  0,95
Pr{428,66    471,34}  0,95

UNSA Dr. Armin Becerra Guzmán 306


Interpretación:

Hay 0,95 de confianza que el intervalo elaborado


pertenezca al grupo de intervalos que contienen a la
verdadera media poblacional.

UNSA Dr. Armin Becerra Guzmán 307


Ejemplo 2

Hay 300 técnicos en una gran empresa metal mecánica.


Una muestra de 50 reveló que 18 cuentan con una
experiencia previa en otra empresa similar. Establezca un
intervalo de confianza al 0,95 para la proporción de
técnicos con experiencia en otra empresa.

UNSA Dr. Armin Becerra Guzmán 308


Solución:
(036)(1  0,36)
p 
18 50
p  0,36
50  p  0,06788

 N  n)   N  n) 
Pr{ p  Z o p      p  Z o p 
 
}  1  a

 N 1   N 1 
 300  50   300  50 
Pr{0,36  (1,96)(0,06788)      0,36(1,96)(0,06788) }  0,95
 
 300  1   300  1 
Pr{0,36  0,12165    0,36  0,12165}  0,95
Pr{0,23835    0,48165}  0,95

UNSA Dr. Armin Becerra Guzmán 309


Interpretación:

Hay 0,95 de confianza que el intervalo construido


pertenezca al grupo de intervalos que contienen a la
verdadera proporción poblacional.

UNSA Dr. Armin Becerra Guzmán 310


Intervalo para la varianza

(n - 1)S2
Pero ,  (2n1)
2

12-a 2 a2 2

 2 2 
Pr  1-a    a   1  a
2
 2 2

UNSA Dr. Armin Becerra Guzmán 311


Entonces:

 2 (n  1) S 2 2 
Pr  1-a 2   a 2   1  a
  2


 1 2 1  
Pr  2   2   1a
 1-a 2 (n  1) S
 a 2 
2


 (n  1) S 2 ( n  1) S 2 

Pr    2
  1a
 a 2
 1-a 2 
2 2

UNSA Dr. Armin Becerra Guzmán 312


Ejemplo:

El número de ventas realizadas durante 10 días (n =


10) presenta una varianza de 9 (s2 = 9). Establezca un
intervalo de confianza para la varianza poblacional
(2 al 0,90.Interprételo.

UNSA Dr. Armin Becerra Guzmán 313


Solución:

 9(9) 9(9) 
Datos: Pr   2    0.90
16,919 3,325 
S2 = 9
n = 10
 81 81 
a = 0,10 Pr   
2
  0.90
16,919 3,325 

 
Pr 4.7875   2  24,3609  0.90

UNSA Dr. Armin Becerra Guzmán 314


Interpretación:

Hay 0,90 de confianza que el intervalo hallado se


encuentre dentro del grupo de intervalos que contienen a
la verdadera varianza poblacional.

UNSA Dr. Armin Becerra Guzmán 315


PRUEBA DE HIPOTESIS
CONCEPTOS BÁSICOS

(A) Hipótesis: Suposición acerca del parámetro.


 Hipótesis planteada o nula. Hp ó H0
Es la suposición que el parámetro tome un
determinado valor.

Ejemplo: La hipótesis nula es que la media de


la población es igual a 200.
Ho :  = 200

UNSA Dr. Armin Becerra Guzmán 317


 Hipótesis alternativa (Ha o H1)
Es el complemento de la hipótesis nula. Se acepta
cuando se rechaza la hipótesis nula.
Formas
Si Ho :  = 200 Ha :  200
Si Ho :   200 Ha :  > 200
Si Ho :   200 Ha :  < 200
La condición “igual” siempre se considera en la
hipótesis nula

UNSA Dr. Armin Becerra Guzmán 318


Las siguientes afirmaciones son hipótesis estadísticas.
 La media de vida de los peruanos es de 72 años.
 La eficacia de dos medicamentos para curar cierta gripe
es similar.
 Las notas de la el aula sigue un modelo normal de
media de 12 y desviación estándar de 2.5
Una prueba de hipótesis permite aceptar o rechazar si
determinadas afirmaciones son ciertas o falsas en función
de los datos observados en una muestra.

UNSA Dr. Armin Becerra Guzmán 319


(B) Objetivo de la prueba de hipótesis.

El propósito de la prueba de hipótesis no es


cuestionar el valor calculado del estadístico
(muestral), sino hacer un juicio con respecto a
la diferencia entre estadístico de muestra y un
valor planteado del parámetro.

UNSA Dr. Armin Becerra Guzmán 320


(C) Nivel de significación (a)

a /2 a /2
(1 - a )
Zona de
Aceptación
-Z0 Z0

Si suponemos que la hipótesis planteada es verdadera,


entonces, el nivel de significación indicará la probabilidad
de no aceptarla, es decir, estén fuera de área de
aceptación.

UNSA Dr. Armin Becerra Guzmán 321


El nivel de confianza (1-a), indica la
probabilidad de aceptar la hipótesis planteada,
cuando es verdadera en la población.

UNSA Dr. Armin Becerra Guzmán 322


(D) Tipos de errores

Cualquiera sea la decisión tomada a partir de una prueba de


hipótesis, ya sea de aceptación de la Hp o de la Ha, puede
incurrirse en error:

La muestra seleccionada conduce a


EN LA POBLACIÓN ACEPTAR Hp RECHAZAR Hp

Hp es cierta Decisión correcta Error tipo I ó a

Hp es falsa Error tipo II ó  Decisión correcta

UNSA Dr. Armin Becerra Guzmán 323


(1 - a) Zona de rechazo
si Hp es cierta a

0
Hp   0
Poder de la prueba
Ha   0
(1 - )


1
Zona de aceptación Hp
Zona de Rechazo Hp

UNSA Dr. Armin Becerra Guzmán 324


Si la hipótesis planteada, Hp :   0 , es cierta, la zona de
rechazo, a, medirá la probabilidad de que se rechace
dicha hipótesis siendo cierta, incurriendo en Error Tipo I o
a.

Supongamos que la hipótesis planteada es falsa,


Hp:   0 , y que la alternante Ha:  >  0 es verdadera, y
si los resultados de la muestra nos conducen a aceptar la
hipótesis planteada, estamos cometiendo el Error Tipo II ó

UNSA Dr. Armin Becerra Guzmán 325


La magnitud del Error  depende de la magnitud del
Error a y de la discrepancia entre  0 y  1

Se observa la existencia de una relación inversa entre la


magnitud de los errores a y  : conforme a aumenta, 
disminuye.

UNSA Dr. Armin Becerra Guzmán 326


Esto obliga a establecer con cuidado el valor de a para las
pruebas estadísticas. Lo ideal sería establecer a y .
En la práctica se establece el nivel a y para disminuir el
Error  se incrementa el número de observaciones en la
muestra, pues así se acortan los limites de confianza
respecto a la hipótesis planteada.

UNSA Dr. Armin Becerra Guzmán 327


La meta de las pruebas estadísticas es rechazar la hipótesis
planteada. En otras palabras, es deseable aumentar a
cuando ésta es verdadera, o sea, incrementar lo que se
llama poder de la prueba (1- )

La aceptación de la hipótesis planteada debe interpretarse


como que la información aleatoria de la muestra disponible
no permite detectar la falsedad de esta hipótesis.

UNSA Dr. Armin Becerra Guzmán 328


E) Tipos de prueba

a) Prueba bilateral o de dos extremos: la hipótesis


planteada se formula con la igualdad

Ejemplo
a/2 a/2
(1 - a
Hp :  = 200 Zona de
Ha :   200 Aceptación
-Z0 Z0

UNSA Dr. Armin Becerra Guzmán 329


b) Pruebas unilateral o de un extremo: la hipótesis
planteada se formula con  o  .

Hp :   200 Hp :   200
Ha :  < 200 Ha :  > 200

a
a (1 - a)
(1 - a)

UNSA Dr. Armin Becerra Guzmán 330


PRUEBA DE HIPOTESIS
Prueba con una sola muestra
CARGA PARA UN
AUTOSERVICIO
Nos indican que el cargamento
contiene cajas de vino
embotellado. Cada caja contiene
24 botellas con 800gr promedio
con una desviación estandar de
1,5.
La empresa aceptará el
cargamento si la prueba de
hipótesis indican su aceptación
si la media es 800gr. Rechazará
si la media es diferente a 800gr
La empresa realiza una muestra
UNSA de 24 botellas
Dr. Armin Becerra Guzmán 331
PRUEBA DE HIPOTESIS
Prueba con una sola muestra
Muestreo: Peso de líquido de 24
botellas con una media de 796
ALTERNATIVAS DE DECISION
Aceptar si Ho:   800
Rechazar si Ha:   800
Cargamento Cargamento
Bueno Malo
N Aceptar el ERROR
Cargamento TIPO II
Rechazar el ERROR
n
Cargamento TIPO I

UNSA Dr. Armin Becerra Guzmán 332


PRUEBA DE HIPOTESIS
Planteamiento de Hipótesis
Ho :   800 Ha :   800
Cargamento Cargamento
Bueno Malo
Aceptar el
Ho ERROR TIPO II
Cargamento
Ha Rechazar el
ERROR TIPO I
Cargamento

Ho :   800
Ha :   800    800 ó   800

UNSA Dr. Armin Becerra Guzmán 333


PRUEBA DE HIPOTESIS
Probabilidad de ocurrencia
Ho :   800 Ha :   800
Cargamento Cargamento
Bueno Malo
Ho
Aceptar el Confianza  (1  a )
Cargamento

Ha Rechazar el
Cargamento
a Potencia  (1   )

Probabilidad de que ocurra =

UNSA Dr. Armin Becerra Guzmán 334


PRUEBA DE HIPOTESIS
1  Conocida

  800
  1,5
X = 796

Muestreo: Peso de líquido de 24


botellas con una media de 796
ALTERNATIVAS DE DECISION
Aceptar si Ho:   800
Rechazar
UNSA si Ha:   800 Dr. Armin Becerra Guzmán 335
PRUEBA DE HIPOTESIS
Ho :   800
Rechazar Aceptar Rechazar

95%

X  796  800
Z Z
 1.5 Z  13,06
n 24
UNSA Dr. Armin Becerra Guzmán 336
PRUEBA DE HIPOTESIS
2  Conocida

  800
  1,5
X = 799,5
Muestreo: Peso de líquido de 24
botellas con una media de 799,5
ALTERNATIVAS DE DECISION
Aceptar si Ho:   800
Rechazar si Ha:
UNSA
  800 Dr. Armin Becerra Guzmán 337
PRUEBA DE HIPOTESIS
Ho :   800
Rechazar Aceptar Rechazar

95%

X  799.5  800
Z Z
 1.5 Z  1,632
n 24
UNSA Dr. Armin Becerra Guzmán 338
PRUEBA DE HIPOTESIS
3  Desconocida

  800

X = 796
S=1,8
Muestreo: Peso de líquido de 24
botellas con una media de 796 y
desviación de 1,8


 800
ALTERNATIVAS DE DECISION
Aceptar si Ho:
UNSA
  800 Dr. Armin Becerra Guzmán 339
PRUEBA DE HIPOTESIS
Ho :   800
Rechazar Aceptar Rechazar

95%

-2,0687 2,0687 t

X  796  800
t t
S 1 .8 t  10,88
n 24
UNSA Dr. Armin Becerra Guzmán 340
Prueba de hipótesis acerca de
la media poblacional
(A) Con varianzas conocidas (muestras grandes)
Ejemplo:
Se afirma que el salario diario medio de los técnicos
de una cierta zona minera es de S/.65,42, con una
desviación estándar S/. 2,32. Una muestra de 144
técnicos que laboran en esa zona reciben un salario
diario medio de 64,82 soles. ¿Puede considerarse
este resultado como sustento para afirmar que
técnicos de esa zona tienen un salario diario
diferente de S/. 65,42 a un nivel de significación a =
0,05 ?.

UNSA Dr. Armin Becerra Guzmán 341


Procedimiento

1) Plantear las hipótesis:


Hp :  = 65,42
Ha :   65,42
2) Seleccionar el nivel de significación: a = 0.05
3) Elegir la prueba estadística: x -
c 
x
Los supuestos son:
• la población está normalmente distribuida.
• la muestra ha sido seleccionada al azar.

UNSA Dr. Armin Becerra Guzmán 342


4) Determinación de los criterios de decisión
a/2 a/2

(1 - a)

-Z0 Z0
-1.96 1,96

Si { -1.96  Zc  1.96 } se acepta la Ho, en caso


contrario se rechaza.
5) Cálculos:   64,82  65,42  3,10
c
2,32
144

UNSA Dr. Armin Becerra Guzmán 343


6) Conclusiones

(1) Se rechaza la hipótesis planteada y se acepta la


hipótesis alternante a un nivel de significación
de 0,05. La prueba resultó ser significativa.
(2) La evidencia estadística permite rechazar la
hipótesis planteada.
(3) Por lo tanto los datos muestrales confirman
que el promedio de salarios diarios de los
técnicos de la zona de estudio es menor de
S/.65,42.

UNSA Dr. Armin Becerra Guzmán 344


PRUEBA DE HIPOTESIS
Prueba con una sola cola
CARGA PARA UN AUTOSERVICIO
Suponga que el cargamento llega
con las siguientes especificaciones:
Contiene cajas de vino embotellado.
Cada caja contiene 24 botellas:
Cada botellas tiene mas de 800 gr
con una desviación estandar de
1.4grs.
La empresa aceptará el cargamento
si la prueba de hipótesis indican su
aceptación: si las botellas tienen
mas de 800gr, rechazará si tiene
menos o igual de 800gr.
La empresa realiza una muestra de
24 botellas
UNSA Dr. Armin Becerra Guzmán 345
PRUEBA DE HIPOTESIS
4  Conocida

  800
  1,4
X = 799,8

Ho :   800
Ha :   800
UNSA Dr. Armin Becerra Guzmán 346
PRUEBA DE HIPOTESIS
Ho :   800
Rechazar Aceptar Aceptar

95%
5% 1,645

-1,645 1,645

X  799,8  800
Z Z
 1.4 Z  0,699
n 24
UNSA Dr. Armin Becerra Guzmán 347
EJEMPLO

El administrador de un centro de internet desea saber si el


tiempo medio invertido por cliente en la sala de cómputo es
mayor que 20 minutos. Una muestra de 100 clientes
permanecieron, en promedio, 23 minutos en la sala de
cómputo. La desviación estándar de la muestra fue de 10.
Sea a=0.05

1. Plantear las hipótesis Ho :   20


Ha :   20
2.Definir la prueba estadística: Como n = 100, entonces se
aplica PRUEBA Z
UNSA Dr. Armin Becerra Guzmán 348
3. Seleccionar el nivel de significación a = 0,05

4. Determinar el valor crítico: Como a = 0,05 y es de


una sola cola, entonces Z = 1.645

Criterios de decisión
Si prueba Z es mayor que
1,645, se rechaza Ho.
Si prueba Z es menor o igual
que 1,645, se acepta Ho.
  
0 1,645

UNSA Dr. Armin Becerra Guzmán 349


5. Realizar el cálculo del estadístico Z

x   23  20 3
Z   3
sx 10 1
100
6. Conclusiones
(A) Se rechaza la hipótesis planteada, se acepta la
hipótesis alternante a un nivel de significación de
0,05. La prueba resultó significativa
(B) Los datos disponibles como evidencia empírica,
han permitido rechazar la hipótesis planteada.
(C) El tiempo que espera un cliente muy
probablemente sea mayor a los 20 minutos.
UNSA Dr. Armin Becerra Guzmán 350
(B) Con varianzas desconocidas (muestras chicas)

Ejemplo: En un programa de mejoramiento del desempeño


en la oficina de marketing, los participantes miden su
progreso mediante el tiempo que les toma realizar cierto
proceso de venta.
Se tomó una muestra de 25 sujetos de esta empresa para
medirles el tiempo que requieren para culminar el proceso
de venta (en minutos) de otorgar una cita a un cliente,
encontrándose una media muestral de 11,7 minutos y una
desviación de estándar de 2,3 minutos.
¿Se puede afirmar que el tiempo medio para culminar este
proceso es inferior de 12 minutos?. Utilice un nivel de
significación a = 0,05.

UNSA Dr. Armin Becerra Guzmán 351


Solución

1) Hipótesis: Hp :   12
Ha :   12
2) Nivel de significación: a = 0,05
3) Prueba estadística: x-
tc 
S
n
Los supuestos son:
•la población se distribuye normalmente.
•la muestra elegida al azar.
UNSA Dr. Armin Becerra Guzmán 352
4) Criterios de decisión

a
(1 - a

-t0
-1.711

to con GL = 24 y a = 0,05
Si { tc>-1,711} se acepta la Hp en caso
contrario se rechaza

UNSA Dr. Armin Becerra Guzmán 353


5) Cálculos:

 12
tc  112,,70
3
 0,6522
25

UNSA Dr. Armin Becerra Guzmán 354


6) Conclusiones

• Se acepta la hipótesis planteada a un nivel de


significación de a = 0,05. La prueba resultó no
significativa.
• Los datos muestrales no permiten afirmar que el
tiempo requerido para culminar la tarea es inferior a 12
minutos.

UNSA Dr. Armin Becerra Guzmán 355


PRUEBA DE HIPOTESIS
Prueba para proporciones
CARGA PARA UN AUTOSERVICIO
Suponga que el cargamento llega
con las siguientes
especificaciones: Contiene cajas
de vino embotellado. Cada caja
contiene 24 botellas: Las botellas
continen 800gr. De un total de 100
botellas, 92 botellas tienen
exactamente esta cantidad.
La empresa aceptará el
cargamento si la prueba de
hipótesis indican su aceptación
La empresa realiza una muestra de
24 botellas

UNSA Dr. Armin Becerra Guzmán 356


PRUEBA DE HIPOTESIS
4
  92 / 100

 x  22 / 24
Ho :   0,92
Ha :   0,92

UNSA Dr. Armin Becerra Guzmán 357


PRUEBA DE HIPOTESIS
Ho :   0,92
Rechazar Aceptar Rechazar

95%

x   0,9166  0.92
Z Z
 (1   ) 0,92(1  0,92) Z  0,6139
n 24
UNSA Dr. Armin Becerra Guzmán 358
Prueba de hipótesis acerca de la
proporción poblacional ()
Ejemplo:
El Gerente de la Empresa Misti afirma que por lo menos
55% de los clientes se encuentra plenamente satisfecho con
los servicios recibidos. ¿Qué conclusión puede obtenerse si
de una muestra aleatoria de 500 clientes 245 manifestaron
su preferencia?. Utilice un nivel de significación a = 0,01
para comprobar la afirmación.
Proporción 245
muestral : p=  0,49
500

UNSA Dr. Armin Becerra Guzmán 359


1) Planteo de Hipótesis:
Hp :   0,55
Ha :   0,55
2) Nivel de significación: a = 0,01
3) Prueba estadística: p -
c 
p
Los supuestos son:
• la población se distribuye normalmente.
• la muestra ha sido seleccionada al azar.

UNSA Dr. Armin Becerra Guzmán 360


4) Criterios de decisión

(1 - a

Z 
-2,33

Si { Zc>-2,33} se acepta la hipótesis planteada, en


caso contrario se rechaza.

UNSA Dr. Armin Becerra Guzmán 361


5) Cálculos

 (1   )
p 
n

(0,55)(0,45)
p   0,022
500
Reemplazando valores en Z:
0,49  0,55 0,06
Z   2,73
0,022 0,022

UNSA Dr. Armin Becerra Guzmán 362


6) Conclusiones
1) Se rechaza la hipótesis planteada y se acepta la
hipótesis alternante a un nivel de significación a
= 0,01. La prueba resultó ser altamente
significativa.
2) La evidencia empírica nos permite rechazar la
hipótesis planteada.
3) El Gerente de la empresa está equivocado en su
afirmación, puesto que el resultado de la prueba
indica que los clientes que se encuentran
plenamente satisfechos es menor a 55%.

UNSA Dr. Armin Becerra Guzmán 363


EJEMPLO

Una encuesta en 64 laboratorios clínicos reveló que el


precio medio cobrado por realizar cierta prueba es de
S/. 12.00 con una desviación estándar de S/. 6.00. ¿
Proveen estos datos la suficiente información para
indicar que la media de la población es mayor que
10?. Sea a = 0.01

UNSA Dr. Armin Becerra Guzmán 364


EJEMPLO

Los siguientes datos son los consumos de oxígeno


(en ml) durante la incubación de una muestra
aleatoria de 15 suspensiones celulares: 14.0, 14.1,
14.5, 13.2, 11.2, 14.0, 14.1, 12.2, 11.1, 13.7, 13.2,
16.0, 12.8, 14.4, 12.9.
¿Proporcionan estos datos suficiente evidencia, aun
nivel de 0.05 de significación , de que la media de la
población no es igual a 12 ml.?.

UNSA Dr. Armin Becerra Guzmán 365


EJEMPLO

El administrador de una empresa quiere saber si la


población que concurre a una oficina A tiene un ingreso
medio familiar mayor al de la población que concurre a
una oficina B. Los datos consisten en los ingresos
familiares de 75 clientes encuestados en la oficina A y
80 clientes encuestados en la oficina B. Las medias de
las muestra son S/ 6800 y S/ 5450 respectivamente, y
varianzas de S/ 600 y S/ 500 respectivamente.

UNSA Dr. Armin Becerra Guzmán 366


EJEMPLO
Un epidemiólogo desea comparar dos vacunas
antirrábicas para averiguar si es posible concluir que
existe diferencia en su efectividad. Las personas que
previamente habían sido vacunada contra la rabia se
dividieron en dos grupos. El grupo 1 recibió una dosis de
refuerzo de la vacuna del tipo 1, y el grupo 2 recibió una
dosis de refuerzo de la vacuna del tipo 2. Las respuestas
de los anticuerpos se registraron dos semanas después:

Grupo n x s

1 10 4.5 2.5

2 9 2.5 2.0
UNSA Dr. Armin Becerra Guzmán 367
EJEMPLO

Doce individuos participaron en un experimento para


estudiar la efectividad de cierta dieta, combinada con un
programa de ejercicios, para la reducción de los niveles de
colesterol en suero. ¿ proporcionan estos datos la evidencia
suficiente para concluir que el programa de ejercicios y
dieta es efectivo para la reducción de los niveles de
colesterol en el suero?.
Antes: 201, 231, 221, 260, 228, 237, 326, 235, 240,
267, 284, 201
Después: 200, 236, 216, 233, 224, 216, 296, 195, 207,
247, 210, 209
UNSA Dr. Armin Becerra Guzmán 368
Ejemplo

Se hizo un estudio de una muestra de 25 registros de


clientes mas importantes. El número medio de visitas
por cliente fue 4,8 y la desviación estándar muestral
fue de 2. ¿Puede concluirse a partir de estos datos
que la media de la población es mayor que cuatro
visitas por cliente?. Suponga que la probabilidad de
cometer error del tipo I es de 0,05.

UNSA Dr. Armin Becerra Guzmán 369


Prueba de Hipótesis acerca de la Varianza
Poblacional
Ejemplo:
El Gerente de Producción de una fábrica productora
de agujas industriales, entre ellos agujas N° 21, desea
que la variabilidad de éstas sea a lo más 0,0005 cm y
para el efecto, decide tomar una muestra de su
producción escogiéndola al azar obteniendo los
resultados:
1,13; 1,12; 1,15; 1,10; 1,11; 1,18; 1,20;
1,14; 1,12; 1,19; 1,10; 1,14; 1,13.
La probabilidad de cometer error tipo I escogido por
el fabricante es 0,01.
UNSA Dr. Armin Becerra Guzmán 370
1) Planteo de Hipótesis:
Hp : 2  0,0005
Ha : 2  0,0005
2) Nivel de significación: a = 0,01
3) Prueba estadística: (n – 1) S2
2
Los supuestos son:
• la población se distribuye normalmente.
• la muestra ha sido seleccionada al azar.

UNSA Dr. Armin Becerra Guzmán 371


4) Criterios de decisión

a/2=0,01
(1 - a
0,99

 a2
2
26,217

Si {2  26,217 } se rechaza la hipótesis planteada, en caso


contrario se acepta.

UNSA Dr. Armin Becerra Guzmán 372


5) Cálculos

Datos:
n = 13
S2= 0,0011634

(13 – 1) (0,0011634)
0,0005

= 27,92736

UNSA Dr. Armin Becerra Guzmán 373


PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE
MEDIAS
PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE MEDIAS
CARGA PARA UN
AUTOSERVICIO
Nos indican que la doble
carga contiene cajas de vino
embotellado. Cada caja
contiene 24 botellas con
800gr promedio con una
desviación estandar de 1,5.
La empresa aceptará los
cargamentos si la prueba de
N hipótesis indican su
aceptación

n La empresa realiza 1
n
muestra de 24 botellas por
cada carga
UNSA Dr. Armin Becerra Guzmán 375
PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE MEDIAS
1 2
  800   800
  1,5   1,5
X = 799,8 n X = 801,5 n

Ho : 1   2 ó 1   2  0
Ha : 1   2 ó 1   2  0

UNSA Dr. Armin Becerra Guzmán 376


PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE MEDIAS
Ho : 1   2
Rechazar Aceptar Rechazar

95%

( X 1  X 2 )  ( 1   2 ) (799,8  801,5)  (800  800)


Z Z
 12  22 1,52 1,52
 Z  3,92

n1 n2 24 24

UNSA Dr. Armin Becerra Guzmán 377


PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE MEDIAS
Si no se conoce las
desviaciones poblacionales
( X 1  X 2 )  ( 1   2 )
t
2 1 1
Sx (  )
n1 n2

Donde
(n  1) S1  (n2  1) S 2
2 2
 1
2
Sx
(n1  1)  (n2  1)

UNSA Dr. Armin Becerra Guzmán 378


Prueba de Diferencia de Medias
con Varianzas Conocidas
Ejemplo:

Una empresa de confecciones desea tener


información de las estaturas de niños de 10 años.
En un estudio comparativo de las estaturas de
niños de 10 años, en dos ciudades diferentes, se
conoce que la desviación estándar poblacional es
0,8 y 1,1 metros respectivamente. Se desea
conocer si existe diferencia entre la media de talla
de los niños de 10 años de las dos ciudades; una
muestra de 30 y 35 niños determinó una media
muestral de 1,30 y 1,35 metros respectivamente.
Probar la hipótesis respectiva usando un nivel de
significación de 5%.

UNSA Dr. Armin Becerra Guzmán 379


Solución:
1) Planteo de Hipótesis
Hp :  = 2
Ha :   2
2) Nivel de significación a  0,05

x  x 2  -  1  2 
3) Prueba de estadística
c 
1

 12  22

n1 n2
con los supuestos
– las distribuciones son normales
– las muestras se seleccionaron al azar.

UNSA Dr. Armin Becerra Guzmán 380


4) Criterios de decisión

  2   2

a/2  .25 (1 - a
a/2  .25
  2

-Z0 Z0
-1.96 1.96

Si ,9  Zc  ,9 se acepta Ho, en caso


contrario se rechaza.

UNSA Dr. Armin Becerra Guzmán 381


5) Cálculos

c 
1,30  1,35 - 0  0,2115
0,8 1,1
2 2

30 35

UNSA Dr. Armin Becerra Guzmán 382


6. Conclusiones
1° No se rechaza la hipótesis nula, a un nivel de
significación de 0,05. La prueba resultó no
significativa.
2° La evidencia estadística disponible permite concluir
que no hay diferencias entre las estaturas medias
de niños de 10 años en las dos ciudades

UNSA Dr. Armin Becerra Guzmán 383


Prueba para diferencia de medias con
varianzas no homogéneas y n  30

1) Planteo de hipótesis
Ho :  = 2
Ha :   2
2) Nivel de significación a  ,5
3) Prueba estadística
x  x2  -  1  2 
tc  1

S12 S 22

n1 n2
con los supuestos
las poblaciones se distribuyen normalmente
las muestras han sido seleccionada al azar
UNSA Dr. Armin Becerra Guzmán 384
EJEMPLO
Se cuenta con dos muestras de tamaño 13 y 10 con
medias 11,09 y 13,46 y desviaciones estandar de 1,74 y
8,45 respectivamente, determinar si las medias
poblacionales son significativamente diferentes con un
nivel de confianza del 95%

1) Planteo de hipótesis
Ho :  = 2
Ha :   2
2) Nivel de significación a  ,5
3) Prueba estadística

x  x2  -  1  2 
tc  1

S12 S 22

n1 n2
UNSA Dr. Armin Becerra Guzmán 385
4) Criterios de decisión

S12 S 22
t1  t 2 1,74
(2,179) 
8,45
(2,262)
t 
n1 n2 t  13
1,74 8,45
10  2,25
2
S1 S 2 2 
 13 10
n1 n2
  2   2
(1 - a a/2
a/2
  2
- t´ t´
-2,25 2,25

Si 2,25  tc  2,25 se acepta la Ho, en caso contrario


UNSA
se rechaza
Dr. Armin Becerra Guzmán 386
5) Cálculos

tc  11.09  13.46 - 0  0.2989


.37
 2.4
1.74 8.45

13 10

UNSA Dr. Armin Becerra Guzmán 387


6) Conclusiones

1° Se rechaza la Ho se acepta la H1 a un nivel de


significación de 5%. La prueba resultó ser
significativa.
2° La evidencia estadística no permite aceptar la Ho

3° La estatura de los dos grupos de edades no tienen el


mismo promedio.

UNSA Dr. Armin Becerra Guzmán 388


Prueba para diferencia de medias con
variancias homogéneas y 2 desconocidos
Ejemplo:

Una empresa productora de lácteos NESTUI desea


determinar si existen diferencias en los promedios de
incrementos de peso (gramos) de niños recién nacidos (en
un período 20 días) alimentados con leche materna y leche
en polvo NESTUI.
Leche NESTUI Leche Madre

Incremento medio de peso X1 = 366,35 X2 = 369,74


Desviación estándar S1 = 16,71 S2 = 14,20
Tamaño de la muestra n1 = 25 n2 = 20

UNSA Dr. Armin Becerra Guzmán 389


Solución:

1) Planteo de hipótesis
Ho :  = 2
Ha :   2

2) Nivel de significación a  0,01

UNSA Dr. Armin Becerra Guzmán 390


3) Prueba estadística
x  x2  -  1  2 

1
tc
1 1
S   
2

 n1 n2 
p

con los supuestos


las poblaciones se distribuyen normalmente
las muestras han sido seleccionadas al azar

n  1S  n 2
 1S 22

1 1 2
S p2 Variancia
ponderada n1  n2  2

UNSA Dr. Armin Becerra Guzmán 391


4) Criterios de decisión

to con (n 1 + n2 -2)
a/2 a/2
(1 - a

- tO tO
-2,6956 2,6956

Si 2,95  tc  2,95 se acepta la Ho, en caso contrario se


rechaza

UNSA Dr. Armin Becerra Guzmán 392


5) Cálculos
24(16,71) 2  1914,20 
2

S p2 
25  20  2

10,532.538
S 2
p
  244,943
43

Entonces (366,35  369,74)  0


tc 
 1 1 
244,943  
 25 20 
 3,39
tc   0.72
22,045
UNSA Dr. Armin Becerra Guzmán 393
6) Conclusiones

1° No se rechaza la hipótesis planteada a un nivel de


significación de 0,01. La prueba resultó no significativa.
2° La evidencia estadística disponible no permite rechazar
la hipótesis nula.
3° Los incrementos medios de peso de los niños
alimentados de las dos formas no presentan diferencias
estadísticamente significativas.

UNSA Dr. Armin Becerra Guzmán 394


Prueba de hipótesis para
diferencia de proporciones
Ejemplo:

Se supone que un ambiente mas iluminado es adecuado


en personas de ambos sexos, estresadas por el trabajo,
para elevar el nivel de productividad. A un grupo de 200
varones estresados se los ubicó en nuevas oficinas
iluminadas y 72 de ellos experimentaron una disminución
en su nivel de estrés. Lo mismo provocó en 49 de una
muestra aleatoria independiente de 200 mujeres con
estrés. Pruebe la hipótesis que el ambiente iluminado es
igualmente eficiente en personas de ambos sexos, con
un a = 0,05 .

UNSA Dr. Armin Becerra Guzmán 395


Solución:

1) Planteo de hipótesis
Ho : 1 = 2
Ha : 1  2
2) Nivel de significación: a  0,05

UNSA Dr. Armin Becerra Guzmán 396


3) Prueba estadística

(p1 - p 2 ) - (1 -  2 )
Zc 
 p1 -p2
con los supuestos
las poblaciones se distribuyen normalmente
las muestras se han elegido al azar

UNSA Dr. Armin Becerra Guzmán 397


4) Criterios de decisión

a/2 a/2
(1 - a

- ZO ZO
-1,96 1,96

Si ,9  Zc ,9 se acepta la Ho, en caso contrario se


rechaza

UNSA Dr. Armin Becerra Guzmán 398


5) Cálculos
n p  n p ( 200 )( 0 , 36 )  ( 200 )( 0 , 245 )
p̂ = 1 1 2 2   0 , 3025
n  n 200  200
1 2

p̂ q̂ p̂ q̂ (0,3025 )( 0,6975) ( 0,3025 )( 0,6975 )


ˆ    
p p n n 200 200
1 2
1 2

ˆ  0 , 046
p p
1 2
Entonces, (p1 - p 2 ) - ( 1 -  2 ) (0,36  0,245)  0
Zc  
 p1 - p 2 0,046
Z c  2,5
UNSA Dr. Armin Becerra Guzmán 399
6) Conclusiones

1)Se rechaza la hipótesis planteada y se acepta la


hipótesis alternante a un nivel de significación de 0,05.
La prueba fue significativa.
2)La evidencia estadística no permite aceptar la hipótesis
nula.
3)Existe diferencia significativa en la proporción de
hombres y mujeres beneficiadas con el consumo del
medicamento.

UNSA Dr. Armin Becerra Guzmán 400


Prueba de hipótesis para diferencia
de medias mediante el
apareamiento de variables
Ejemplo:
Con la finalidad de reducir la producción defectuosa se
calibra las 10 maquinas que se utilizan para encapsular. A
continuación se presenta la información de los productos
defectuosos (en unidades) antes y después de la
calibración. Utilice un nivel de significación de 0,05 para
probar que la calibración tuvo efectos positivos en la
reducción del número de productos defectuosos.

UNSA Dr. Armin Becerra Guzmán 401


Los datos registrados se presentan a continuación:

MAQUINAS 1 2 3 4 5 6 7 8 9 10

ANTES 73 77 68 62 72 80 76 64 70 72

DESPUÉS 68 72 64 60 71 77 74 60 64 68

UNSA Dr. Armin Becerra Guzmán 402


Cálculos previos n = 10

Diferencia
Antes Después Diferencias: d de medias
Sd = 3,6
73 68 5
77 72 5
68 64 4
Sd=1.578
62 60 2
72 71 1 d = 3.6
80 77 3
76 74 2 Sd 1.578
64 60 4 Sd =   0.499
n 10
70 64 6
72 68 4
UNSA Dr. Armin Becerra Guzmán 403
1) Planteo de hipótesis
Ho : d  0
Ha : d  0
2) Nivel de significación: a  ,5
3) Prueba estadística d  d
tc 
Sd
con los supuestos
la población (d) se distribuye normalmente
la muestra se ha elegido al azar

UNSA Dr. Armin Becerra Guzmán 404


4) Criterios de decisión

to con (n - 1)
(1 - a

a
tO
1,833

Si  c  , se acepta la Ho, en caso contrario se


t
rechaza
UNSA Dr. Armin Becerra Guzmán 405
5) Cálculos

d  d
tc 
Sd

3.6  0
  7.21
0.499

UNSA Dr. Armin Becerra Guzmán 406


6) Conclusiones
1) Se rechaza Hp y se acepta la Ha a un nivel de
significación 0,05.La prueba fue significativa.
2) La evidencia estadística no permite aceptar la
hipótesis planteada.
3) El número de defectuosos después de la calibración
disminuyó.

UNSA Dr. Armin Becerra Guzmán 407


PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE
VARIANZAS
11-4

Prueba de Homogeneidad
de Varianzas
• Para prueba de dos colas, el estadístico de prueba está
dado por:
2
S
F  1
2
S 2

• S12 y S 22 Son las varianzas muestrales para las


dos muestras. La hipótesis nula se rechaza si el cálculo
del estadístico de prueba es más grande que el valor
crítico (de tablas) con nivel de confianza a / 2 y grados
de libertad para el numerador y el denominador.

UNSA Dr. Armin Becerra Guzmán 409


PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE
VARIANZAS
2
S1
F 2
S2

Ho :  1   2
2 2

Ha :  1   2
2 2

UNSA Dr. Armin Becerra Guzmán 410


PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE DESVIACIONES

1 2

  800   800
n = 24
n n = 24
S = 1,30 n
S =1,45
PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE DESVIACIONES
PARA TAMAÑO DE MUESTRAS IGUALES

Rechazar Aceptar Rechazar


Si :
Ho :  1   2
2 2
S1= 1.30
S2= 1.45
95% F = 1,69 / 2,1025
F = 0,8038
FL Fu F
0,43 2,33
2
FU  Tabla con a  0.025 S1
FL 
1
F 2
y gl1  23 Y gl 2  23  2.33 FU S2
UNSA Dr. Armin Becerra Guzmán 412
11-6

EJEMPLO 2

Colin, agente de bolsa del Critical Securities, reportó que


la tasa media de retorno en una muestra de 10 acciones
de software fue 12.6% con una desviación estándar de
3.9%. La tasa media de retorno en una muestra de 8
acciones de compañías de servicios fue 10.9% con
desviación estándar de 3.5%. Para .05 de nivel de
significancia, ¿puede Colin concluir que hay mayor
variación en las acciones de software?

UNSA Dr. Armin Becerra Guzmán 413


11-7

• Paso 1: H0:s  u H1:s  u


• Paso 2: H0 se rechaza si F > 3,68 (en la tabla)
gl = (9, 7), a= ,05
• Paso 3: F  (3.9) / (35 . ) 2  12416
2
.
• Paso 4: H0 no se rechaza. No hay evidencia suficiente
para asegurar que hay mayor variación en las acciones de
software.

UNSA Dr. Armin Becerra Guzmán 414


Ejemplo:

En un programa de salud para pacientes con


problemas cardíacos de dos grupos de edades: (40 -
49) y (50 - 59) años, la Tasa de Recuperación Cardíaca
(TRC) es un indicador del progreso del paciente. Una
muestra de pacientes de cada grupo de edad fue
considerado en un estudio, que consistió en medir la
TRC (minutos) de cada paciente después de correr 3
Km.

UNSA Dr. Armin Becerra Guzmán 415


PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE DESVIACIONES
PARA TAMAÑO DE MUESTRAS DESIGUALES
Datos
Tasa de Recuperación Cardiaca (minutos)
Grupo 1 (40 - 49):
12,24; 12,45 11,04 11,22 11,58 8,34 11,16 11,52 8,28
12,01 11,03 12,01 11,31

Grupo 2 (50 -59):


14,33 10,35 12,51 11,28 11,48 14,05 10,51 18,50
18,11 13,45
Determine si existe diferencia en la variabilidad de las TRC
en los dos grupos de edades. Utilice a = 0,10
UNSA Dr. Armin Becerra Guzmán 416
Las medias y varianzas muestrales de las TRC en los
pacientes de los dos grupos de edades son:

Grupo1 Grupo 2
(40 - 49) (50 - 59)

X = 11,09 X = 13,46
S 1
2 = 1,74 S 22 = 8,45
n1 = 13 n2 = 10

UNSA Dr. Armin Becerra Guzmán 417


Solución

1) Planteo de Hipótesis:

Ho :    2
1
2
2

Ha :    2
1
2
2

2) Nivel de significación: a = 0,10

UNSA Dr. Armin Becerra Guzmán 418


3) Prueba estadística:
2
SM
Fc  2
Sm
S M2 : Varianza muestral mayor
S m2 : Varianza muestral menor

con los supuestos:


- las poblaciones están normalmente distribuidas.
- las muestras han sido seleccionadas al azar

UNSA Dr. Armin Becerra Guzmán 419


4) Criterios de decisión
a/2 a/2
(1 - a

F1- a/2 Fa/2


F0,.95 F0,05
0, 326 2,80
Fa  con a 2 y con GL (9,12) = 2,80
2 Invertimos los grados
1 1 libertad para buscar
Fa    0 , 326 F inferior de la tabla
1- 2 F 3 , 07
0,05 (12,9)
 
Si 0,326  F  2,80
. se acepta la Ho en caso contrario se rechaza.
c

UNSA Dr. Armin Becerra Guzmán 420


5) Cálculos

2
SM 8.45
Fc  2  1.74  4.86
Sm

UNSA Dr. Armin Becerra Guzmán 421


6) Conclusiones

1° Se rechaza la hipótesis planteada y se acepta la


hipótesis alternante a un nivel de significación de a =
0,10. Las varianzas no son homogéneas
2° La evidencia estadística no permite aceptar la Ho
3° Las TRC de pacientes en los dos grupos de edades
tienen variabilidad diferentes.

UNSA Dr. Armin Becerra Guzmán 422


PRUEBA DE
INDEPENDENCIA
ESTADISTICA
Ji - cuadrada
USOS DE LA 2

La prueba de bondad de ajuste: probar si la estructura


de la muestra se “ajustan” (o es representativo) de la
estructura poblacional.

La prueba de Independencia: permite probar si dos


atributos son independientes o no.

Ejemplo: sexo y desempeño laboral


f  fe 
2

 
2 0

fe
UNSA Dr. Armin Becerra Guzmán 424
PRUEBA DE INDEPENDENCIA ESTADISTICA
Ejemplo:

Suponga que en cuatro regiones, la Compañía IBM


registra las actitudes de los empleados de sus oficinas
representantes en nuestro país con respecto al examen
de desempeño en el trabajo. A los trabajadores se les
da a escoger entre el método actual (dos exámenes al
año) y un nuevo método (exámenes cada trimestre).
Utilice un a=0,10 para probar que la región es
independiente a la preferencia por el método de
evaluación.

UNSA Dr. Armin Becerra Guzmán 425


NUMERO DE TRABAJADORES QUE PREFIEREN UN
METODO EN PARTICULAR

NORESTE SURESTE CENTRO COSTA TOTAL


OCCIDENTAL

METODO
68 75 57 79 279
ACTUAL

METODO 32 45 33 31 141
NUEVO

TOTAL 100 120 90 110 420

UNSA Dr. Armin Becerra Guzmán 426


1) Planteo de Hipótesis:
HO: Son independientes
H1 : Son dependientes

2) Nivel de significación: a = 0,10

fe = n. proporción

UNSA Dr. Armin Becerra Guzmán 427


Prueba estadística:

f  fe 
2

 
2 0

fe

supuestos:
* la población se distribuye normalmente.
* la muestra se ha seleccionado al azar

UNSA Dr. Armin Becerra Guzmán 428


Cálculos
Primero se determina las fe (frecuencias esperadas)
P=279/420 =0.6643

NORESTE SURESTE CENTRO COSTA TOTAL


Fe = 0.6643*100 Fe = 0.6643*120
OCCIDENTAL

METODO ¦o 68 75 57 79 279
ACTUAL
¦e 66.43 79.72 59.79 73.07
32 45 33 31
METODO ¦o 141
NUEVO ¦e 33.57 40.28 30.21 36.93
TOTAL 100 120 90 110 420

UNSA Dr. Armin Becerra Guzmán 429


Criterios de decisión

a/2=0,05 a/2=0,05
(1 - a
0,90
0,352 7,815
12a  a2
2 2

GL --> (Filas - 1) (columnas - 1) = (2-1) (4-1) = 3

12a  02.95 con 3GL = 0.352


2
a2   02.05 con 3GL = 7.815
2

 
Si 0.352   2  7.815 Se acepta la Ho en caso contrario se rechaza

UNSA Dr. Armin Becerra Guzmán 430


Después se aplica la prueba

f  fe 
2

 
2 0
c
fe

( 68  66.43) 2
( 75  79.72 ) 2
(57  59.79 ) 2
( 79  73.07 ) 2

c2    
66.43 79.72 59.79 73.07

(32  3357
. ) 2 (45  40.28) 2 (33  30.21) 2 (31  36.93) 2
   
3357
. 40.28 30.21 36.93

c2  2.7638
UNSA Dr. Armin Becerra Guzmán 431
Conclusiones

1) Se acepta Ho, se rechaza la Ha


2) La evidencia empírica disponible no permite
rechazar la hipótesis planteada
3) La actitud sobre le método de evaluación del
desempeño laboral, es independiente de la región
en que labore el trabajador.

UNSA Dr. Armin Becerra Guzmán 432


EJEMPLO

En una empresa se somete a cinco programas de


adiestramiento a un determinado número de
trabajadores que aparece reflejado en la siguiente tabla,
Preguntan si al final del programa mejoran o no la
calificaciones. ¿Existe diferencia entre los diferentes
programas de adiestramiento a un nivel de significación
0.05?

UNSA Dr. Armin Becerra Guzmán 433


Programa A B C D E
Nº participantes 50 52 46 54 48
Particip. aprobados 11 9 8 17 7

¿Qué concluimos?

UNSA Dr. Armin Becerra Guzmán 434


EL METODO ANOVA
¿Qué es el ANOVA?
Es un método de cálculo para probar la hipótesis de
que las medias de dos o mas poblaciones son iguales.
Ejemplos:
Comparación de efectos logrado por cinco clases de
pruebas de control de calidad.
Determinar cuál de los cuatro métodos de capacitación
produce un aprendizaje más rápido.
El número de vistas publicitarias en la televisión.

UNSA Dr. Armin Becerra Guzmán 436


11-8

Suposiciones del ANOVA


La distribución F también se usa para probar la igualdad
de más de dos medias con una técnica llamada análisis de
varianza (ANOVA). El ANOVA requiere las siguientes
condiciones:
A. La población que se muestrea tiene una distribución
normal
B. Las poblaciones tienen desviaciones estándar
iguales
C. Las muestras se seleccionan al azar y son
independientes

UNSA Dr. Armin Becerra Guzmán 437


11-9

Procedimiento para el análisis de varianza

• Hipótesis nula: las medias de las poblaciones son iguales.


• Hipótesis alterna: al menos una de las medias es diferente.
• Estadístico de prueba: F = (variancia entre
muestras)/(variancia dentro de muestras).
• Regla de decisión: para un nivel de significación a, la
hipótesis nula se rechaza si F calculada es mayor que F
tabular con grados de libertad en el numerador y en el
denominador.

UNSA Dr. Armin Becerra Guzmán 438


El modelo aditivo lineal : MAL
Se aplica como una suma y los exponentes
son iguales a 1.
Explica cómo está formada una observación

Xi=  + i
Donde
i = error, es decir la variabilidad (o diferencia) entre la
observación y el promedio

 Xi
i

UNSA Dr. Armin Becerra Guzmán 439


El MAL para el ANOVA con un factor:

Xij     i   ij
Donde
i = efecto del tratamiento
N

 X (     )
j1
ij

 
i     i ij

N N

     1
1

     2
2

UNSA Dr. Armin Becerra Guzmán 440


Si la Hp : 1= 2
Reemplazando tenemos

Hp :  + 1=  + 2

Hp : 1= 2
Sólo se prueba la diferencia entre tratamientos

UNSA Dr. Armin Becerra Guzmán 441


El modelo de ANOVA con igual número
de repeticiones

T1 T2 T3

X11 X12 X13

X21 X22 X23

X31 X32 X33

X41 X42 X43

X51 X52 X53

X.1 X.2 X.3

UNSA Dr. Armin Becerra Guzmán 442


La tabla del ANOVA

Fuentes de Suma de Cuadrado F F


variabilidad Cuadrados
t
GL Medio calculado teórico
X 2
j SC trat Fc 
CMe trat Ft con (t-1) y
Entre grupos SC trat  j1

X2
t-1 CMe  CMe ee
r rt GL (rt-t)
(Tratamientos)

Dentro de los grupos SC  X2   X j r t - t CMe  SC ee


2

(Error Experimental) ee  ij r GL
X2
  Xij 
2
Total SC total r t -1
rt

UNSA Dr. Armin Becerra Guzmán 443


La tabla del ANOVA (Simplificado)

Fuentes de Suma de Cuadrado Suma de F


variabilidad Cuadrados GL Medio Varianza
SSA MSA
MSA 
n
SSA   n j ( X j  X ) 2
c- 1 SSA F
Entre grupos j 1 c 1 MSW
(Tratamientos)

SSW
SSW   X ij  X j  SSW MSW 
2
Dentro de los n-c
grupos (Error
nc
Experimental)

SST   X ij  X 
2
Total n -1 SST

UNSA Dr. Armin Becerra Guzmán 444


11-12

Aplicación 1
Se realiza un estudio para comparar la eficacia
de tres programas terapéuticos para el
tratamiento del acné de tipo medio a moderado.
Se emplean tres métodos:

I. Este método, el más antiguo, supone el lavado, dos


veces al día, con un cepillo de polietileno y un jabón
abrasivo, junto con el uso diario de 250 mg. de
tetraciclina.
II. Este método, el utilizado actualmente, consiste, en la
aplicación de crema de tretinoína, evitar el sol, lavado
dos veces al día con jabón emulsionante y agua, y
utilización, dos veces al día, de 250 mg. De
tetraciclina.

UNSA Dr. Armin Becerra Guzmán 445


11-13

III. Este es un método nuevo que consiste en evitar el


agua, lavado dos veces al día con limpiador sin
lípidos, y uso de crema de tretinoína y de peroxido
de benzoilo.
Se comparan estos tres tratamientos en cuanto a su
eficacia en la reducción del número de lesiones de
acné en los pacientes. En el estudio participaban
treinta pacientes. Se les separó aleatoriamente en tres
subgrupos de tamaño 10. A uno de los subgrupos se le
asignó el tratamiento I, a otro el tratamiento II y al
tercero, el tratamiento III. Después de 16 semanas se
anotó para cada paciente la tasa porcentual de
mejoría, medido en número de lesiones.

UNSA Dr. Armin Becerra Guzmán 446


Se obtuvieron los siguientes datos:
I II III
48.6 68.0 67.5
49.4 67.0 62.5
50.1 70.1 64.2
49.8 64.5 62.5
50.6 68.0 63.9
50.8 68.3 64.8
50.8 71.9 62.3
47.1 71.5 61.4
52.5 69.9 67.4
49.0 68.9 65.4
50.6 67.8 63.2
549.3 755.9 705.1

UNSA Dr. Armin Becerra Guzmán 447


Solución
1. Planteamiento de hipótesis:
Hp : 1= 2= 3
Ha : 1= 2= 3 (no todas las medias son iguales)
2. Nivel de significación
a = 0.05
3. Prueba estadística

CMe trat
Fc 
CMe ee

UNSA Dr. Armin Becerra Guzmán 448


4. Criterios de decisión

3,3158
Si {Fc>3,3158} se rechaza la Hp, en caso contrario se acepta.
4. Cálculos
Resolviendo tenemos los siguientes resultados:

P valor < 0,05 se rechaza la Ho

Fuente de
variabilidad SC GL CMe F cal p-valor F teórico
Tratamientos 2107.20727 2 1053.60364 300.680769 1.42117E-20 3.31583294

Error experimental 105.121818 30 3.50406061

Total 2212.32909 32
UNSA Dr. Armin Becerra Guzmán 449
6. Conclusiones
A. Se rechaza la hipótesis planteada, se acepta la hipótesis
alterna a un nivel de significación de 0,05. La prueba fue
significativa.
B. Al menos un método de capacitación es diferente a los
demás

UNSA Dr. Armin Becerra Guzmán 450


El modelo de ANOVA con diferente número
de repeticiones

T1 T2 T3
X11 X12 X13

X21 X22 X23

X31 X32 X33

X42 X43

X52

X.1 X.2 X.3

UNSA Dr. Armin Becerra Guzmán 451


La tabla del ANOVA

Fuentes de Suma de Cuadrado F F


variabilidad Cuadrados GL Medio calculado teórico
t  X2j  X2
    SC trat CMe trat
Entre grupos SC trat
  r
j1  rj 
t-1 CMe  Fc 
CMe ee
Ft con (t-1) y (rt-
(Tratamientos)
j
GL t)

 Xij2 
Dentro de los SC ee   X     r t - t
2
 r 
ij SC ee
grupos (Error  j  CMe 
Experimental) GL

X2
  Xij 
2
SC total
Total
rj r t -1
UNSA Dr. Armin Becerra Guzmán 452
Aplicación 2

El director de entrenamiento de una compañía está


tratando de evaluar tres diferentes métodos de
entrenamiento para empleados nuevos. El primer método
consiste en asignar un empleado nuevo con un trabajador
experimentado para que éste lo asista en la fábrica. El
segundo método consiste en ubicar a todos los
empleados nuevos en un salón de entrenamiento
separado de la fábrica, y el tercer método consiste en
utilizar películas de entrenamiento y materiales de
aprendizaje.

UNSA Dr. Armin Becerra Guzmán 453


El director de entrenamiento escoge al azar 16 empleados
nuevos asignados a los tres métodos y registra su
producción diaria después que terminaron sus programas de
entrenamiento:

Metodo 1 15 18 19 22 11

Metodo 2 22 27 18 21 17

Metodo 3 18 24 19 16 22 15

El director pregunta si existen diferencias en cuanto a la


efectividad entre los tres métodos.

UNSA Dr. Armin Becerra Guzmán 454


Solución

1. Planteamiento de hipótesis:
Hp : 1= 2= 3
Ha : 1= 2= 3 (no todas las medias son iguales)
2. Nivel de significación
a = 0.05
3. Prueba estadística
CMe trat
Fc 
CMe ee

UNSA Dr. Armin Becerra Guzmán 455


4. Criterios de decisión

3,81
Si {Fc>3,3158} se rechaza la Hp, en caso contrario se acepta.
4. Cálculos
Obtenemos los siguientes resultados:

ANÁLISIS DE VARIANZA
Fuentes de Variabilidad SC GL CMe F cal p-valor F tabular

Entre grupos 40 2 20 1.35 0.29 3.81


Dentro de los grupos 192 13 14.7692308

Total 232 15
UNSA Dr. Armin Becerra Guzmán 456
6. Conclusiones
A. Se acepta la hipótesis planteada, se rechaza la
hipótesis alterna a un nivel de significación de 0,05. La
prueba no resultó significativa.
B. Los datos muestrales no proporcionan evidencia para
afirmar que los tratamientos son diferentes.

UNSA Dr. Armin Becerra Guzmán 457


REGRESIONES SIMPLES
El diagrama de dispersión

Es un gráfico que permite detectar la existencia


de una relación entre dos variables.
Visualmente se puede buscar patrones que
indiquen el tipo de relación que se da entre las
variables.

UNSA Dr. Armin Becerra Guzmán 459


(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa
Y Y Y
• •
Relaciones posibles • • ••
• • • •
entre X y Y vistos • ••
• •
en diagramas de • • •• •
dispersión •• X
•••
X X

Y • Y Y
• •• • • • ••
•• •
•• • •• • • •
• •• • • • • ••
• ••
• ••• •• • • •
••• •
• •
X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión

UNSA Dr. Armin Becerra Guzmán 460


Aplicación
Los datos siguientes muestran las cantidades
consumidas de leche del programa alimentario (en Kg.)
y el aumento de peso de niños con signos de
desnutrición.

PACIENTE 1 2 3 4 5 6 7 8 9 10

COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X

AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y

Presente la información en un diagrama de dispersión


UNSA Dr. Armin Becerra Guzmán 461
Procedimiento
1er Paso: Reúna pares de datos (X,Y), cuya relación
desea estudiar y organice la información en una
tabla.

NIÑOS 1 2 3 4 5 6 7 8 9 10

COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X

AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y

UNSA Dr. Armin Becerra Guzmán 462


2do Paso: Encuentre los valores mínimos y máximos
para X e Y. Elija las escalas que se usarán en los ejes
horizontal y vertical, de manera que ambas longitudes
sean aproximadamente iguales, facilitando la lectura del
diagrama.

20

15

10

0
0.0 2.0 4.0 6.0

UNSA Dr. Armin Becerra Guzmán 463


3er Paso: Registre los datos en el gráfico. Cuando
se obtengan los mismos valores en diferentes
observaciones, muestre estos puntos haciendo
círculos concéntricos (o), o registre el segundo
punto muy cerca del primero.

20

15

10

0
0.0 2.0 4.0 6.0
UNSA Dr. Armin Becerra Guzmán 464
4to Paso: Agregue toda la información que
puede ser de utilidad para entender el diagrama,
tal como: título del diagrama, período de tiempo,
número de pares de datos, nombre de la
variable y unidades de cada eje, entre otros.

Relación complemento nutricional y


aumento de peso

20
Aumento de peso (Kg)

15
10
5
0
0.0 2.0 4.0 6.0
Complemento nutricional (Kg)
UNSA Dr. Armin Becerra Guzmán 465
Las Ecuaciones Lineales Simples

Si dos variables, como X e Y, están relacionadas, se


puede expresar como una relación, por ejemplo:
Y = 3 + 1,5X
Al conocer la ecuación se puede:
a) Calcular el valor de Y para cualquier valor
dado de X
b) Conocer el cambio en Y, cuando X varía en 1

UNSA Dr. Armin Becerra Guzmán 466


Por ejemplo: Y = 3 + 1,5X

Valor Valor Cambio


dado de X calculado de Y de Y
1 4,5 -
2 6,0 1,5
3 7,5 1,5
4 9,0 1,5
5 10,5 1,5

UNSA Dr. Armin Becerra Guzmán 467


El aumento en Y, cuando X varía en una unidad, está
dado por el coeficiente de X.

Ejemplo:

En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2

En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8

UNSA Dr. Armin Becerra Guzmán 468


A) Tipos de Variables
En una ecuación como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le llama
variable dependiente, y a X se le llama variable
independiente.

Y = b0 + b1 X

Variable Variable
Dependiente Independiente

UNSA Dr. Armin Becerra Guzmán 469


B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en igual
sentido (aumentos o disminuciones), las variables
están directamente relacionadas. Se observa el signo
+
Ejemplo: Y o
o
Y = 30 + 5X o
o
o o
o
o o

X
UNSA Dr. Armin Becerra Guzmán 470
Cuando cambios en X, provoca variaciones en Y en
sentido inverso (X aumenta, Y disminuye o viceversa),
las variables están inversamente relacionadas. Se
observa en la ecuación el signo -.
Y
Ejemplo: o
Y = 20 - 3X
o o

o o
o
o

X
UNSA Dr. Armin Becerra Guzmán 471
C) Grado de la ecuación:
La ecuación es de primer grado si la variable
independiente está elevada al exponente 1. Su
gráfica genera una línea recta (por lo que
también se le llama ecuación lineal)

Ejemplo: Y = 30 + 4 X

UNSA Dr. Armin Becerra Guzmán 472


Si la variable independiente está elevada a un
exponente diferente a 1, la ecuación toma el valor del
exponente. Su gráfica no es una línea recta.
Ejemplo:

Y = 10 + 3 X + 4 X2 : ecuación de segundo grado

Y = 3 + 7X + 5 X3 : ecuación de tercer grado

UNSA Dr. Armin Becerra Guzmán 473


D) Ecuaciones simples y múltiples:
 Simples: Muestra la relación entre dos variables
Y = 30 + 2X
Y = 10 - 3X2

 Múltiple: Muestra la relación entre tres o más


variables
Y = 3X + 8 Z
Y = 5 + 2X2 + 4W

UNSA Dr. Armin Becerra Guzmán 474


D) Gráfica de una ecuación de primer grado:
Ejemplo: Y = 3 + 1,5X

X 1 2 3 4 5
Y 4 ,5 6 ,0 7 ,5 9 ,0 1 0 ,5

Los cinco pares de valores se diagraman de la forma


siguiente.
Y

12
11
10
. . (5,10.5)
9
8
7
6
. . (3,7.5)
(4,9)

5
4
3
2
.
(1,4.5)
(2,6)

UNSA 1 2 Becerra
Dr. Armin 3 4
Guzmán5 X 475
E) Forma general:
La ecuación simple de primer grado tiene la siguiente forma
general
Y = b0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autónomo, es decir, Y = b0 cuando X = 0. En
la gráfica es la intersección con el eje Y
Ejemplo:
Y
Y = 3 + 1.5X

b0 = 3
.
X

UNSA Dr. Armin Becerra Guzmán 476


Regresión Lineal Simple

Es una técnica estadística que permite determinar la


mejor ecuación que represente la relación entre dos
variables relacionadas.

Para poder establecer la relación cuantitativa entre X


e Y es necesario disponer de pares de observaciones.
Cada par ha sido registrado a la misma unidad
elemental.

UNSA Dr. Armin Becerra Guzmán 477


A) Suposiciones de regresión y correlación
a) Normalidad: los valores de Y estarán distribuidos
normalmente a cada valor de X.
b) Homoscedasticidad: la variación alrededor de la
línea de regresión sea constante para todos los
valores de X.
c) Independencia de error: el error (diferencia
residual entre un valor observado y uno estimado
de Y) sea independientemente de cada valor de X.
d) Linealidad: la relación entre las variables es lineal.

UNSA Dr. Armin Becerra Guzmán 478


B) El método de Mínimos Cuadrados

Es el procedimiento matemático utilizado para


determinar los valores numéricos de los coeficientes de
regresión: b0 y b1

La ecuación general Y  = b0 + b1X se llama ecuación de


regresión y permite estimar o predecir los valores de Y.

UNSA Dr. Armin Becerra Guzmán 479


El método consiste en determinar una ecuación que
la suma de los errores al cuadrado sea mínima.

 = error
Yi - Y
10

8
. Línea de
estimación

6

Min  Y - Y 
2
4 Error= -6

i

2


. Error= 2

X
2 4 6 8 10 12 14

UNSA Dr. Armin Becerra Guzmán 480


El método utiliza un sistema de ecuación llamado
ecuaciones normales, que tienen la siguiente forma:

X Y X2 XY

 Y  nb + b  X
1.0 8.0 1.0 8.0
0 1 1.5 10.0 2.3 15.0

 XY  b  X  b  X
0 1
2 2.0
2.5
9.0
12.0
4.0
6.3
18.0
30.0
3.0 14.0 9.0 42.0
3.5 13.0 12.3 45.5
Para aplicar las fórmulas,
4.0 15.0 16.0 60.0
tenemos que confeccionar un 4.5 17.0 20.3 76.5
cuadro como el siguiente: 5.0 14.0 25.0 70.0
5.5 14.0 30.3 77.0
32.5 126.0 126.3 442.0
X Y X  XY
2

UNSA Dr. Armin Becerra Guzmán 481


Sustituyendo los valores , n = 5,  Y  126,0  X  32,5
 XY  442
2
X  126,3

en las ecuaciones normales, obtenemos el siguiente sistema de


ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1
Resolviendo el sistema tenemos: b0 = 7,479 b1= 1,576 ,por
lo tanto,

Ŷ  7,479  1,576X
UNSA Dr. Armin Becerra Guzmán 482
c) Interpretación

b0 = 7,478 : Es probable que un niño desnutrido que no sea


considerado dentro del Programa de Alimentación
Complementaria tenga un peso de 7,478 Kg.

b1 = 1,576: Por cada Kg. del alimento complementario, se


espera que probablemente el niño aumento su
peso en 1,576 Kg.

UNSA Dr. Armin Becerra Guzmán 483


D) Valor observado y valor estimado de Y
El valor observado (Yi) se refiere al nivel efectivo u
observado de la variable Y (peso del niño), mientras
que el valor estimado ( Ŷ ), es el nivel estimado de la
i
variable (peso esperado), obtenido utilizando la
ecuación de regresión. X Y Ŷ
1.0 8.0 9.055

Y
.
Yi

Y
1.5
2.0
10.0
9.0
9.843
10.630

.
2.5 12.0 11.418
3.0 14.0 12.206
Valor 3.5 13.0 12.994
observado Valor 4.0 15.0 13.782
estimado 4.5 17.0 14.570
5.0 14.0 15.358

X 5.5 14.0 16.146


UNSA
xo Dr. Armin Becerra Guzmán 484
Error estándar de estimación (Syx)

Mide la disparidad ¨promedio¨ entre los valores


observados y estimados de la variable Y. Se calcula
por la siguiente relación

2
 (Y - Ŷ)
S yx =
n2

14

UNSA Dr. Armin Becerra Guzmán 485


X Y Ŷ Y  Ŷ  Y  Ŷ 2

1.0 8.0 9.055 -1.1 1.112181


1.5 10.0 9.843 0.2 0.024806
2.0 9.0 10.630 -1.6 2.658204
2.5 12.0 11.418 0.6 0.338375
3.0 14.0 12.206 1.8 3.217718
3.5 13.0 12.994 0.0 3.48E-05
4.0 15.0 13.782 1.2 1.483524
4.5 17.0 14.570 2.4 5.905386
5.0 14.0 15.358 -1.4 1.843621
5.5 14.0 46 -2.1 4.604028
32.5 126.0 126.0 0.0 21.2

UNSA Dr. Armin Becerra Guzmán 486


Reemplazando en la formula

21,20 21,20
S yx =   2,65
10  2 8
Syx =1,628

El Syx es un indicador del grado de precisión con que la


ecuación de regresión describe la relación entre las dos
variables: cuanto más pequeño, los valores observado y
estimado de Y son razonablemente cercanos y, la ecuación
de regresión es una buena descripción esa la relación.

UNSA Dr. Armin Becerra Guzmán 487


El Análisis de Correlación
El análisis de correlación es la técnica estadística que
permite describir el grado hasta el cual una variable
está linealmente relacionada con otra.

Hay dos medidas que se usan para describir la


correlación
 El coeficiente de determinación
 El coeficiente de correlación

UNSA Dr. Armin Becerra Guzmán 488


A) El coeficiente de determinación
Al construir un modelo de regresión, se define que
“el valor Y depende de X”.
Y = f (X)
Si la relación es lineal: Y = b0 + b1X
Pero en la práctica Y depende también de “otros
factores” diferentes a X:
Y = b0 + b1X + 
Parte de los cambios en Y pueden explicarse por X, a
otro se llama variación explicada.
Pero hay cambios en Y que no pueden explicarse por
X, a lo que se llama variación no explicada.
UNSA Dr. Armin Becerra Guzmán 489
Yi
Y Variación
Variación no explicada
Total
Yi - Y 
Yi - Y
Variación
Explicada
Y - Y y

VARIACION VARIACION VARIACION


TOTAL = EXPLICADA + NO EXPLICADA

UNSA Dr. Armin Becerra Guzmán 490


El coeficiente de determinación se puede calcular
del modo siguiente:

variacion explicada
r2 
variacion total

 2
r2 =  Ŷ - Y 2
 Y - Y 
i
Se elevan al cuadrado, para evitar que  Y - Y   0
obteniéndose un número positivo.

UNSA Dr. Armin Becerra Guzmán 491


1er Paso: Cálculo de la venta media por vendedor
son ( Y )
n
Y
i1 i
Y=
n
Y1  Y2  Y3  Y4  Y5
Y=
5

9  5  7  14  10 45
Y= 
5 5
Y = 9 unidades

UNSA Dr. Armin Becerra Guzmán 492


2do Paso: Se calcula la variación total, es decir, la
sumatoria de las desviaciones de las ventas observadas (Yi)

con respecto a la media:  Y - Y 2
i

Y Y Y  Y  Y  Y2
8.0 12.6 -4.6 21.16
10.0 12.6 -2.6 6.76
9.0 12.6 -3.6 12.96
12.0 12.6 -0.6 0.36
14.0 12.6 1.4 1.96
13.0 12.6 0.4 0.16
15.0 12.6 2.4 5.76
17.0 12.6 4.4 19.36
14.0 12.6 1.4 1.96
14.0 12.6 1.4 1.96
126.0 126.0 0.0 72.4
Y Y Y  Y  Y  Y
2

UNSA Dr. Armin Becerra Guzmán 493


3er Paso: Se calcula la variación explicada, es decir, la
sumatoria de las desviaciones cuadráticas entre las
ventas esperadas y la venta media de la muestra:  Y - Y 2

Ŷ Y Ŷ  Y  Ŷ  Y2


9.055 12.6 -3.545 12.5699
9.843 12.6 -2.758 7.6038
10.630 12.6 -1.970 3.8793
11.418 12.6 -1.182 1.3964
12.206 12.6 -0.394 0.1551
12.994 12.6 0.394 0.1553
13.782 12.6 1.182 1.3971
14.570 12.6 1.970 3.8805
15.358 12.6 2.758 7.6055
16.146 12.6 3.546 12.5720
126.0 126.0 0.0 51.2
 Ŷ Y Ŷ  Y  Ŷ  Y2
UNSA Dr. Armin Becerra Guzmán 494
4to Paso: Se compara la variación explicada y la
variación total.

variacion explicada  Ŷ - Y 


2
r2 
variacion total
r2 =
 Yi - Y  2

51,2
r2 =  0,707
72,4

5to Paso: Interpretación: 70,7% de las variaciones en


el incremento de peso, pueden explicarse por el
consumo del complemento nutricional.
UNSA Dr. Armin Becerra Guzmán 495
Valores posibles de r2

Si r2 = 1 : Correlación perfecta, es decir, toda


variación de Y puede explicarse por X

Si r2 = 0 : no existe correlación entre X e Y. La


variación explicada es 0. La variable X no
explica nada de los cambios en Y
Resumen
0  r2  1
Cuanto más cerca a uno, las variables tendrán mayor
correlación.

UNSA Dr. Armin Becerra Guzmán 496


B) El coeficiente de correlación
Es la raíz cuadrada del coeficiente de
determinación.

r= r2
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
están directamente relacionados.

UNSA Dr. Armin Becerra Guzmán 497


Cuando r es negativo, indica que X e Y
están inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuación de regresión

UNSA Dr. Armin Becerra Guzmán 498


Interpretación del coeficiente de correlación
de Pearson

Fuerte Moderada Débil Débil Moderada Fuerte


Negativa Negativa Negativa Positiva Positiva Positiva

-1 -0,9 -0,5 0 0,5 0,9 1


Perfecta Perfecta
No existe
Negativa correlación Positiva

UNSA Dr. Armin Becerra Guzmán 499


Ejemplo: r2= 0,707

r = 0,707
r = 0,84

el signo es positivo ya que X e Y están relacionados


directamente como lo indica el signo del coeficiente b1
en la ecuación de regresión
Ŷ  7,479  1,576X

UNSA Dr. Armin Becerra Guzmán 500


Interpretación: El incremento de peso (Y) y el
consumo del complemento nutricional (X) se
encuentran directamente asociados.

UNSA Dr. Armin Becerra Guzmán 501


Diagnóstico de la regresión: análisis
residual
El análisis residual permite evaluar lo adecuado del
modelo de regresión que ha sido ajustado a los
datos. También sirve para detectar si los supuestos
se cumplen.
A. Evaluación de lo adecuado de modelo ajustado
Los valores del error residual o estimado (i) se define
como la diferencia entre los valores observados (Yi) y los
estimados (Ŷi ) de la variable dependiente para los
valores dados de Xi

i = Yi - Ŷi

UNSA Dr. Armin Becerra Guzmán 502


Podemos evaluar lo adecuado del modelo de
regresión ajustado mediante el gráfico de los
residuos (eje vertical) con respecto a los
correspondientes valores de Xi de la variable
independiente (eje horizontal).

Ejemplo: Variable X 1 Gráfico de los residuales

El gráfico muestra un
adecuado ajuste entre el 3

incremento de peso y el 2

consumo del com- Residuos


1

0
plemento nutricional. No se 0 1 2 3 4 5 6
-1
observa una tendencia. -2

-3

Variable X 1

UNSA Dr. Armin Becerra Guzmán 503


El análisis del gráfico nos brinda el criterio para adoptar el
modelo lineal o dejarlo de lado. Si fuese así, podríamos
probar con modelos no lineales como el cuadrático,
logaritmo o exponencial.
El análisis de residuos se complementa con el cálculo de
los residuos estandarizados (SRi), que resultan de la
división del residuo dividido por su error estándar.
i
SR i 
S YX 1  hi
En donde 1
hi  
Xi  X2
n
n
 Xi2  nX
2

UNSA i 1 Guzmán
Dr. Armin Becerra 504
Los valores estandarizados nos permiten tomar en
cuenta la magnitud de los residuos en unidades que
reflejen la variación estandarizada alrededor de la línea
de regresión.

Análisis de los residuales


Observación Pronóstico para Y Residuos Residuos estándares
1 9.138461538 -0.138461538 -0.101107641
2 3.276923077 1.723076923 1.258228423
3 6.207692308 0.792307692 0.578560391
4 15 -1 -0.730221853
5 12.06923077 -2.069230769 -1.510997526
6 44.30769231 0.692307692 0.505538206
UNSA Dr. Armin Becerra Guzmán 505
En el gráfico siguiente, los residuos estandarizados fueron
graficados en función de la variable independiente
(cantidad del complemento nutricional). Se puede
observar de que existe una dispersión amplia en la gráfica
de residuos, no existe un patrón evidente o una relación
entre los residuos estandarizados y Xi . Los residuos
parecen estar equitativamente distribuidos por arriba y por
debajo de 0, para diferentes valores de X. Podemos
concluir que el modelo ajustado parece ser adecuado.

UNSA Dr. Armin Becerra Guzmán 506


Residuos estándares

1.5
1
0.5
0
-0.5 0 5 10 15 20

-1
-1.5
-2

UNSA Dr. Armin Becerra Guzmán 507


B. Evaluación de las suposiciones
a. Homoscedasticidad

b. Normalidad

c. Independencia: Los datos recolectados

UNSA Dr. Armin Becerra Guzmán 508


Medición de la autocorrelación: Durbin-Watson
Una de las suposiciones del modelo de regresión
básico es la independencia de los residuos. Esta
suposición es violada con frecuencia cuando los
datos son recopilados en periodos secuenciales,
debido a que un residuo en cualquier punto del
tiempo puede tender a ser parecido a los residuos
que se encuentran en puntos de tiempo
adyacentes.
El estadístico D de Durbin-Watson mide la
correlación de cada residuo y el residuo del
periodo inmediato anterior al periodo de interés.
UNSA Dr. Armin Becerra Guzmán 509
El estadístico D (Durbin-Watson)

n

 i i1
   2

D i2
n

 i
 2

i1

En la que  i representa el residuo en el periodo


i.
UNSA Dr. Armin Becerra Guzmán 510
Interpretación de D:
Cuando residuos sucesivos están correlacionados
positivamente, el valor de D se aproximará a cero.
Si los resultados no están correlacionados, el valor D
estará cercano a 2.
Si se presentase una autocorrelación negativa, lo cual
rara vez sucede, de valor D tomará un valor mayor a 2
e, incluso podría aproximarse a su valor máximo que es
4.

UNSA Dr. Armin Becerra Guzmán 511


Los resultados de SPSS nos proporciona el
valor de D de Durbin-Watson
Mode l Summaryb

Change Statistics
R Square
Model Change F Change df1 df2 Sig. F Change Durbin-Watson
1 .707a 19.336 1 8 .002 1.517
a. Predictors: (Constant), Complemento
b. Dependent Variable: AUMENTO

Según este resultado permite afirmar que los residuos no


están correlacionados.

UNSA Dr. Armin Becerra Guzmán 512


Resultados con Excel
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.99582747
Coeficiente de determinación R^2 0.99167236
R^2 ajustado 0.98959045
Error típico 1.5310881
Observaciones 6

ANÁLISIS DE VARIANZA
GL SC CMe F cal P-valor
Regresión 1 1116.62308 1116.62308 476.328138 2.60786E-05
Residuos 4 9.37692308 2.34423077
Total 5 1126

Coefic Error Estadíst Inferior Superior Inferior Superior


ientes típico ico t P-valor 95% 95% 95.0% 95.0%

Intercepción 0.346154 0.9173433 0.37734384 0.72508508 -2.200804756 2.893112448 -2.200804756 2.893112448

Variable X 1 2.930769 0.13428531 21.824943 2.6079E-05 2.557932668 3.303605794 2.557932668 3.303605794

UNSA Dr. Armin Becerra Guzmán 513


Ejemplo:
En la Empresa Santa Rita, se desea determinar la
relación lineal simple entre la experiencia del vendedor y
las ventas durante un mes. Se seleccionan 5
vendedores, los datos registrados se presentan a
continuación:

VENDEDOR CARLOS PEDRO JOSE JUAN MANUEL


EXPERIENCIA
(años):X 3 1 2 5 4
VENTAS
(unidades) : Y 9 5 7 14 10

UNSA Dr. Armin Becerra Guzmán 514


18.1 El modelo
La regresión múltiple y el análisis de correlación
múltiple consiste en estimar una variable
dependiente, utilizando dos o más variables
independientes.

El modelo genérico será

Yˆ  f (X1 , X2 , X3 ,....)
Variable Variables
dependiente independientes
UNSA Dr. Armin Becerra Guzmán 515
REGRESIONES
MULTIPLES
La ventaja

Permite utilizar más información disponible para


estimar la variable dependiente de una manera
confiable.

UNSA Dr. Armin Becerra Guzmán 517


Proceso
En el proceso de regresión y correlación
múltiple, se debe:

1. Describir la ecuación de regresión múltiple.


2. Examinar el error estándar de regresión
múltiple de la estimación.
3. Utilizar la ecuación de regresión para
determinar qué tan bien describe los datos
observados.

UNSA Dr. Armin Becerra Guzmán 518


Alcance

1. Permite ajustar los datos tanto a curvas como a


rectas.
2. Se puede incluir variables cualitativas, haciendo uso
de las “variables ficticias”.

UNSA Dr. Armin Becerra Guzmán 519


La ecuación de regresión múltiple

La forma simbólica de la ecuación lineal con dos


variables independientes:
donde: Ŷ  b 0  b1X1  b 2 X 2
Ŷ : Valor estimado correspondiente a la variable
dependiente
b0 : intersección con el eje Y.
X1 y X 2 : valores de las dos variables independientes.
b1 y b2 : pendientes asociadas con X1 y X2
respectivamente

UNSA Dr. Armin Becerra Guzmán 520


Visualización: se puede representar una ecuación
de regresión múltiple con dos variables, como un
plano

UNSA Dr. Armin Becerra Guzmán 521


El método de mínimos cuadrados
El problema consiste en decidir cuál de los planos posibles
que podemos dibujar, será el que mejor se ajuste
El método de mínimos cuadrados garantiza que la suma de
los cuadrados de los errores es mínimo. Las ecuaciones
normales serán

 Y  nb  b  X  b  X
0 1 1 2 2

X Y  b X b X b X X
1 0 1 1
2
1 2 1 2

X Y  b X b X X b X
2 0 2 1 1 2 2
2
2

Donde bo, b1 y b2 son los coeficientes de regresión


UNSA Dr. Armin Becerra Guzmán estimados.
522
El error estándar de la
regresión múltiple (Syx)
Es una medida de dispersión la estimación
se hace más precisa conforme el grado de
dispersión alrededor del plano de regresión
se hace mas pequeño.

UNSA Dr. Armin Becerra Guzmán 523


Para medirla se utiliza la formula:

Syx  
( Y  Ŷ )2

n  k 1
donde:
Y : Valores observados en la muestra
Yˆ : valores estimados a partir a partir de la ecuación
de regresión
n : número de datos
k : número de variables independientes

UNSA Dr. Armin Becerra Guzmán 524


El coeficiente de determinación múltiple
(r2)
Mide la tasa porcentual de los cambios de Y que
pueden ser explicados por X1, X2 y X3
simultáneamente.
SCregresión
r2 
SCtotal

19950,57
r 
2
 0,95
20837,5

UNSA Dr. Armin Becerra Guzmán 525


Coeficiente de determinación múltiple ajustado (r2a)
Hay personas que prefieren “ajustar” el r2 de acuerdo a:
n = número de datos
k = número de variables independientes

2
a 
r  1 1 r
n 1
2

n  k 1

8 1
r  1  1  0,95 
2
 0,9125
8  3 1
a

UNSA Dr. Armin Becerra Guzmán 526


Coeficiente de correlación: r
r  r2

Para el caso de colesterol, tenemos:


r  0,95  0,9746
De acuerdo al valor de r podemos afirmar que las
variables peso, perímetro abdominal y hemoglobina
se encuentran asociadas en forma directa, de una
manera muy fuerte.

UNSA Dr. Armin Becerra Guzmán 527


Los resultados de Excel nos da la siguiente
información:

Estadísticas de la regresión
Coeficiente de correlación múltiple 0.97 r
Coeficiente de determinación R2 0.95 r2
R2 ajustado 0.92 r2a
Error típico 14.89 Syx
Observaciones 8

UNSA Dr. Armin Becerra Guzmán 528


b1  B10
5) Cálculos tc 
Sb1

S yx
Sb1   0,704

X  nx 
2 2

Resultados en Excel
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior Inferior Superior
95% 95.0% 95.0%

Intercepción 121.704 83.00 1.466 0.216 -108.752 352.161 -108.752 352.161

PESO 2.949 0.70 4.189 0.014 0.995 4.904 0.995 4.904

CINTURA 0.276 0.49 0.558 0.607 -1.095 1.646 -1.095 1.646

HEMOGLO -7.843 5.73 -1.37 0.24 -23.74 8.06 -23.74 8.06


BINA

UNSA Dr. Armin Becerra Guzmán 529


Reemplazando en la ecuación:

2,949  0
tc 
0,704

t c  4,189

UNSA Dr. Armin Becerra Guzmán 530

También podría gustarte