Estadistica Aplicada A La Administracion

UNIVERSIDAD NACIONAL
DE SAN AGUSTIN DE AREQUIPA

Unidad de Posgrado de Administración
ESTADISTICA APLICADA A
LA ADMINISTRACION
Dr. Armin Becerra Guzmán
UNSA Dr. Armin Becerra Guzmán 1

ESTADISTICA PARA LA
ADMINISTRACION
LA ESTADISTICA ES UNA DISCIPLINA CUANTICA QUE

PERMITE OBSERVAR Y MANIPULAR DATOS PARA
CONVETIR EN INFORMACIÓN EL MISMO QUE HA DE
SERVIR PARA LA TOMA DE DECISIONES
DATOS INFORMACION
TD
ALGUNAS APLICACIONES
ESTADISTICAS
EN LOS NEGOCIOS
CALIDAD
PRODUCCION
Diseño de Procesos TOTAL
Control de Calidad
Muestras de Adquisición
MARKETING
Investigación de Mercados
Análisis de Gustos y Preferencias
Busqueda de Mercados Meta
FINANZAS
TD
Análisis de Rendimientos
Análisis de Riesgos
RECURSOS HUMANOS
Selección de Personal
Evaluación de Personal

CLASIFICACION DE LA ESTADISTICA
ESTADISTICA DESCRIPTIVA
Es la recopilación, caracterización y presentación

de un conjunto de datos con el fin de describir
varias de sus características
INFERENCIA ESTADISTICA
Son los métodos que hacen posible la estimación

de una característica de una población, o la toma
de decisión con respecto a una población basada
solo en resultados muestrales
DATOS
CONSTANTES VARIABLES
CUALITATIVAS CUANTITATIVAS
DISCRETAS CONTINUAS

¿Qué se puede hacer con los datos?
Identificar Organizarlos en tablas, gráficos y figuras
características de
interés Calcular promedios (media, mediana, moda
para la gestión. y percentiles) .
Calcular su dispersión (varianza,

desviación estándar ) y forma de la curva.
Recolección de
Determinar una ecuación que represente la
datos
relación entre ellos (regresión)
Determinar el grado de asociación entre ellos

(correlación).
Utilizar datos para
Analizarlos dentro de un horizonte
mejorar la calidad
temporal (series cronológicas)
GRAFICOS
ESTADISTICOS
GRAFICOS ESTADISTICOS
1. Gráfico de barras
2. Gráfico de columnas
3. Gráfico circular
4. Gráfico lineal
5. Gráfico de dispersión

GRAFICOS ESTADISTICOS
Los gráficos constituyen una forma muy efectiva de

presentar información. Su utilización ayuda a una mejor
comprensión.
Todo gráfico tiene tres partes:

El título: específico, pero completo.
El cuerpo: es el gráfico en si mismo.
La fuente: especificar el origen de la información.

El Histograma
Son barras verticales presentadas una a continuación de

otra. Permite presentar datos cuantitativos continuos. Es un
gráfico muy utilizado. Propiedades:
El ancho de cada columna es igual en todo el gráfico y

representa la amplitud de clase).
2. La altura está en función a la frecuencia de la

clase.
Ejemplo
CLASE Xi fi
128,6 - 135,4 132,0 2
135,5 - 142,3 138,9 7
142,4 - 149,2 145,8 10 Distribución de frecuencias
149,3 - 156,1 152,7 8
156,2 - 163,0 159,6 3
TOTAL 30
12
10
Frecuencia 8
Histograma 6
0
132.0 138.9 145.8 152.7 159.6
Marca de Clase

Ejemplo
Gráfico 4: Peso de 100 Sacos de Arroz (en Kg.)

25
Número de
Sacos
20
15
10
0
29.5 39.5 49.5 59.5 69.5 79.5 89.5 99.5Peso
(Kgs)

¿Cómo leer histogramas?
A) Tipo general: El valor medio está al centro, que

tiene la mayor frecuencia. Es el más
frecuente tiene forma simétrica.
B) Tipo multimodal: Hay varios

valores “mayores”.

C) Tipo sesgo positivo: Forma asimétrica la
media está localizada a la izquierda.
D) Tipo precipicio a la izquierda: Forma asimétrica

la frecuencia disminuye bruscamente a la
izquierda.

E) Tipo planicie: Las clases tienen más o menos
la misma frecuencia.
F) Tipo bimodal: Se observa claramente dos

valores máximos.
G) Tipo pico aislado: Presenta un pico aislado,

además de un histograma general.

El Diagrama de Barras
Se utiliza para representar datos cuantitativos discretos o

datos cualitativos.
Las barras son de igual ancho.

La longitud es proporcional a la frecuencia de la
categoría.
El espacio entre barras debe ser homogéneo, para evitar
efecto visual.

Ejemplo:
Gráfico 2: Número de hijos en edad escolar por
Trabajador
Nº de 30
Trabajadores
25
20
15
10
0
Número de
0 1 2 3 4 5 hijos
(escolares)

Ejemplo
Gráfico 3: Pacientes atendidos en una Clínica
20
15
10
5
0
Nefrología Ginecología Oftalmología Neurología Traumatología

Ejemplo
Gráfico 4: Profesionales de la Empresa FENIX por
especialidad
Especialidad
Derecho
Administración
Contabilidad
Economía
Otros Nº de profesionales
0 10 20 30 40 50 60 70 80 90 100

El Polígono de Frecuencias
Es otra forma de conocer las distribución de los datos. Se
construye uniendo los punto medios del lado superior de
las barras del histograma.
25
20
15
10
0
29.5 39.5 49.5 59.5 69.5 79.5 89.5 99.5

Gráfico N° 5: Distribución de tardanzas por
trabajador en una semana
Número de
Trabajadores
Tardanza
(Minutos)

Diagrama de dispersión de puntos
Ejemplo: Gráfico 6: Ventas mensuales de
Automóviles
400
350
Meses Nº AUTOS
Enero 120
300
250
Febrero 210
200
Marzo 180
Abril 320 150
Mayo 280 100
Junio 200
50
Julio 350
0
0 Enero Febrero
2 Marzo Abril
4 Mayo Junio
6 Julio 8

Diagrama Lineal
Ejemplo
Gráfico 7: Ventas mensuales de
Automóviles
400
350
300
250
200
150
100
50
0
Enero Febrero Marzo Abril Mayo Junio Julio

Las Ojivas
La frecuencia acumulada son las frecuencias que se van
acumulando en cada categoría, desde la más baja hasta la mas
alta.
Las ojivas, relaciona las puntuaciones con sus respectivas
frecuencias acumuladas.
DISTRIBUCION DE FRECUENCIAS ACUMULADAS
120
100
FRECUENCIA
80
60
40
20
0
14,5 24,5 34,5 44,5 54,5 64,5 74,5 84,5 89,5
MINUTOS
El Diagrama Circular
El circulo se divide en segmentos circulares, de tamaño proporcional
a la frecuencia de la categoría.
Ejemplo: Gráfico 9. Clientes atendidos en Oficina

Central
1er trim.
2do trim.
3er trim.
4to trim.

Diagrama radar
Útil para visualizar, por ejemplo, el cumplimiento de metas (%) de
los vendedores por zonas
Ejemplo:
100
80
60
40
Este
20
Oeste
0
Norte
Sur

Superficie en tres dimensiones
Ejemplo: Metas de ventas alcanzadas en la Zona Sur
100
50
4to trim.
0 3er trim.
3er trim.
4to trim.

RECOLECCION DE DATOS
POBLACION Y MUESTRA
POBLACION Parámetros
Totalidad de Elementos o Variables
N
medidas
n
MUESTRA Estadígrafos
Parte de los Elementos o Variables
TIPOS DE DATOS (Variables)
Sí
Categóricas
No
Discretas 1, 2, 3, 4...
Numéricas
Contínuas De 100 a 200

RECOLECCIÓN
DE DATOS
Los datos no se recopilan como
un fin en sí mismos, sino como
un medio para describir los hechos
que están tras los datos

¿Cómo se recopilan datos?
Las buenas decisiones se basan en un adecuado registro de
datos, para lo cual se debe:
A. ESTABLECER OBJETIVOS CLAROS

En control de la calidad, los objetivos son:
a) Control del proceso de producción
b) Análisis de lo que no se ajusta a las normas o
estándares.
c) Inspección o auditoria.
Permite determinar qué tipo de datos se requiere.

B. DETERMINAR EL TIPO DE DATO
a) Datos para el control: se toman periódicamente

para conocer la variación diaria dentro de un
proceso; es decir, para verificar su estado de control
(estabilidad).
Ejemplo:
Número de unidades producidas en un mes

b) Datos para el análisis: se registran para conocer la
situación actual de nuestro proceso.
Ejemplo: la proporción de unidades con fallas producidas
mensualmente
c) Dato para la inspección: se recopilan al recibir o entregar
un material. Son datos que sirven para verificar si el
producto cumple con las especificaciones.
Ejemplo: fecha de expiración de un lote de productos, antes
de su ingreso a almacén.

C. CONSIDERAR LA CONFIABILIDAD DE
LOS REGISTROS
Tener en cuenta la adecuada calibración de los instrumentos

de medición y la variabilidad en inspecciones visuales.

D. SELECCIONAR FORMAS APROPIADAS
DE RECOLECTAR DATOS.
I. Se debe registrar adecuadamente el origen

de datos (el día, la hora, quiénes fueron los
responsables, qué lote se uso, entre otros).
II. Los datos deben registrarse de manera que

facilite su utilización (hojas de registro).

Escalas de medición
ESCALA NOMINAL:
Los valores son nominativos, sirven para designar.
Sólo se puede realizar un conteo (frecuencias). No es
factible las operaciones aritméticas. Se analizan a
través de la comparación: igualdad y no igualdad ( =
y ).
Ejemplo
Sexo del paciente 1: Masculino 2: Femenino
Grupo sanguíneo A B AB O
Servicio médico 1: Emergencia 2: Ginecología
3: Traumatología 4: Pediatría
ESCALA ORDINAL:
Los valores representan un orden. No son

cuantitativos, sólo simbolizan una posición. Se
analizan a través de la desigualdad :mayor que o
menor que (> y <).
Ejemplo:
Calificación : A,B,C,D A>B
Lugar (orden) : 1º , 2º , 3º 1º > 2º
Color : leve, moderado, intenso

ESCALA DE INTERVALOS:
Se utilizan números cardinales. El cero es relativo

o diferencial, es decir no indica ausencia de la
propiedad. Se pueden realizar operaciones
aritméticas.(+ y -). Es una escala creada por el
hombre.
Ejemplo:
Hora 00:00
Temperatura ambiental 15 ºC
El año en que vivimos 2014

ESCALA DE RAZÓN:
Se utilizan números cardinales. Tienen unidad de

medida (cms, pulgadas). El cero es absoluto, indica
ausencia de la propiedad. Se pueden realizar
operaciones aritméticas (+,-,x ,),
Ejemplo:
Pacientes no atendidos hoy : 0
Nº de hijos en edad escolar : 3
Procesos deficientes : 12

Fuentes de Datos
A) FUENTES SECUNDARIAS
Datos recolectados anteriormente para alcanzar otros
objetivos. Constituye la primera fuente que se debe
analizar. La técnica más utilizada son las fichas.
Ejemplo:
Datos publicados (en papel o en forma electrónica) en
revistas especializadas, tesis, censos y en las hojas de
registro anteriores.

La calidad de los datos debe ser comprobada:
 ¿De donde provienen los datos?

 ¿La fuente es imparcial?
 ¿Los datos comprueban o contradicen otras
evidencias que se disponen?
 ¿Hace falta una evidencia cuya ausencia
conduzca a otra conclusión?
 ¿Cuantas observaciones se tienen?
 ¿La conclusión que obtengo es lógica?

Los principales organismos
que disponen
de publicaciones son:
1. Instituto Nacional de Estadística e Informática (INEI)
2. Organización Internacional del Trabajo (OIT)
3. Organización Mundial de la Salud (OMS)
4. Banco Central de Reserva (BCR)
5. Superintendencia de Banca y Seguros (SBS)

B) FUENTES PRIMARIAS
1. Constituyen datos recolectados para el

trabajo. Son datos que no existían antes.
2. Se registran bajo dos métodos: directo e

indirecto

METODOS Y TECNICAS
DE RECOLECCION DE DATOS
FUENTE METODOS TECNICAS

SECUNDARIA FICHAS
DIRECTO OBSERVACION
PRIMARIA EXPERIMENTACION
INDIRECTO ENCUESTA
ENTREVISTA

¿Cómo seleccionar la fuente, el
método y la técnica?
No toda la información requerida será recopilada de una
sola fuente, ni usando un mismo método y técnica. Casi
siempre es una combinación de ellos, para lo cual hay que:
1. Definir características que interesan registrar.
2. Identificar la fuente de información apropiada para cada

característica.
3. Seleccionar la técnica más conveniente.

Ejemplo :
En un estudio de investigación de mercados para

gaseosas, interesa conocer ciertas características,
CARACTERISTICA FUENTE TECNICA

Frecuencia de Consumo Secundaria Fichas
Nivel socio-económico
de la familia Primaria Encuesta
Sabores Primaria Entrevista

El Cuestionario
 Consiste en un conjunto de preguntas diseñadas de

acuerdo a la necesidad de información.
 Junto con las hojas de registro, es la técnica más común

para la recopilación de datos de fuentes primarias.

Recomendaciones para su elaboración
1. Las preguntas deben ser coherentes con el

objetivo de la investigación. No hay preguntas de
carácter general.
2. La extensión (número de preguntas) depende de

la necesidad de información a recolectar por esta
técnica.
3. El lenguaje utilizado en la redacción de preguntas

debe ser entendible por los encuestados. Es
diferente al lenguaje a usarse en el informe final

Preguntas cerradas y abiertas
Preguntas cerradas
1. Las posibles respuestas se presentan como
alternativas.
2. Facilita la codificación y operatividad de los

datos.
Ejemplo :
¿Posee Ud. un vehículo particular?
Si 1 No 2

Preguntas abiertas
1. Los encuestados tienen libertad para emitir su

opinión.
2. Se utilizan cuando no se tiene precisión sobre
las posibles respuestas.
3. Dificulta la recolección de datos (incomoda al
encuestado).
4. Dificulta la interpretación de datos.
Ejemplo:
¿ Qué opinión tiene sobre la política del actual
Gobierno ?

La elaboración de datos:
el control de calidad
Una vez que se han recolectado los datos
referidos a las diferentes variables necesarias
para la investigación, se debe proceder a
revisarla y presentarla de manera que facilite
su análisis. A este proceso se denomina
elaboración de datos.
Las etapas que abarca son: edición, tabulación y
codificación.

A. La edición: Se revisan los formularios (cuestionario
y fichas de observación) para verificar si todas las
preguntas han sido respondidas en todos los ellos.
Se debe verificar incongruencias en de las
respuestas.
a. Reencuestar: Si no se respondieron todas las
preguntas y es posible identificar al encuestado
(por ejemplo, se tiene su dirección), se podría
regresar y formular aquellas preguntas que se
obviaron.
b. Anular la pregunta: Si una pregunta es dejada de
contestar en muchos cuestionarios, sería
recomendable anular esa pregunta y buscar la
forma de conseguir el dato por otra fuente.
Probablemente, la pregunta fue mal formulada.
c. Anular el formulario: Si una encuesta o la ficha de
observación tiene demasiadas preguntas en
blanco, se anulará todo el cuestionario. Es posible
que no se contara con la colaboración apropiada
del encuestado o tal vez no se aplicó
correctamente.
B. La tabulación: Consiste en etiquetar o titular con
pocas palabras, las respuestas a preguntas abiertas.
Para homogenizar el criterio, es recomendable que
una persona se encargue de este proceso. Si fueran
muchos formularios y varias preguntas abiertas,
podrían ser varias personas que tabulen, pero
necesariamente solo una persona por pregunta.
C. La codificación: Consiste en colocar un código a las
respuestas, a fin de poder construir una base de
datos.

Las hojas de registro (o check list)
Son formatos preimpresos que facilitan el registro y la
organización de cualquier tipo de datos. Puede ser:
1. Para registro: Se anota sistemáticamente la información.

Ejemplo: Tarjeta de Registro de Asistencia del personal
que labora en una Empresa
2. Para verificación: Se anota información en determinado

tiempo, que debe cotejarse con la realidad.
Ejemplo: Registro de reclamos no atendidas por semana.

EJEMPLO DE DATOS (Variables)
Datos Originales
MESES Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre
VENTAS (Unid) 52 42 45 54 47 45 51 45 40 46 54 53
Datos Ordenados
MESES X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12
VENTAS (Unid) 40 42 45 45 45 46 47 51 52 53 54 54

Ejercicio Aplicativo
El Director de Personal de la Empresa “Ramses” desea

estimar la tardanza mensual promedio del personal que
labora en esta empresa. Con este fin elige al azar la Tarjeta
de Control de Asistencia del último mes de 10 trabajadores.
En uno de las tarjetas seleccionadas se registró 140 minutos
de tardanza.
Identificar:

Identificar:
La característica : Tiempo de tardanza mensual
La unidad elemental : Un trabajador de la empresa

(o unidad de análisis)
El marco poblacional: Todo el personal que labora en esa
empresa
La población : Registro de tiempo de tardanza
mensual de todo el personal que
labora en esta empresa
El marco muestral : Diez trabajadores

La muestra : Registro del tiempo de tardanza de
cada uno de los trabajadores
seleccionado
Tipo de dato : Variable cuantitativa continua
Un dato registrado : 140
La unidad de medida: minutos
El estimador : El tiempo medio de tardanza de los 10

trabajadores: x
El parámetro : El tiempo medio de tardanza de todos los
trabajadores de la empresa (µ)
MEDIDAS DE
TENDENCIA CENTRAL
Las medidas de tendencia central
1. En general se denominan promedios.
2. Los más importantes son la media, la mediana y la moda.
Aritmética
Media Geométrica
Medidas de Mediana Armónica
tendencia central Moda
3. También es útil conocer los Cuartiles (o fractiles).

¿POR QUÉ SON IMPORTANTES LAS
MEDIDAS DE TENDENCIA CENTRAL?
Porque la mayor parte de los conjuntos de datos
muestran una tendencia a agruparse alrededor de un
dato central.
Las medidas de tendencia central son puntos en una
distribución, los valores medios o centrales de ésta y
nos ayudan a ubicarla dentro de la escala de medición.

La Media
(A) La media aritmética ( x )
a) Obtención: Se obtiene sumando los valores
registrados y dividiéndolos entre el número de datos.
Ejemplo:
La siguiente tabla muestra el número de reclamos y
quejas presentadas por los clientes en un autoservicio a
lo largo de una semana. Calcule e interprete la media.
Día/Semana Lun Mar Mier Jue Vier Sab

Reclamos/día 8 10 5 12 10 15

8  10  5  12  10  15 60
Media aritmética = 
6 6
x = 10 reclamos
b) Interpretación: Si elige al azar un día de la semana,
se espera que los clientes realicen 10 reclamos en ese
día.
c) Simbología:
Tamaño Media aritmética
Muestra n x (equis barra)
Población N  (mu)
La Media Aritmética Ponderada
Ejemplo: Una empresa comercializadora de Seguros dispone de 3

representantes para la zona de Umacollo, cada uno de los cuales
cobra diferente comisión por póliza vendida, y realiza diferente
número de contratos. Calcule e interprete el valor medio de la
comisión
Nº de polizas de Comisión
Vendedor Seguro por venta $
wi Xi
Pedro 30 30
Juan 25 40
Pablo 20 50

30(30)  25(40)  20(50) 2900
xp    $38.67
30  25  20 75
Interpretación:
Si se elige al azar un representante se espera que cobre una

comisión de $38.67 por póliza vendida.

(B) La media geométrica ( xg )
Se utiliza para calcular tasas medias de variación, como la
tasa media de crecimiento poblacional, la tasa media de
inflación mensual, la tasa media de mortalidad, entre
otros.
a) Obtención Se obtiene extrayendo la raíz enésima

del producto de los n valores de una serie.
xg  n X1  X 2  X3  ......... X n

Ejemplo:
La siguiente tabla muestra la tasa de aumento en las
quejas durante los últimos meses. Calcule e
interprete la tasa media mensual.
Meses Enero Febrero Marzo Abril Mayo
Aumento de
2.6% 5.4% 3.8% 0.5% 1.4%
quejas
La tasa 2,6% también se puede expresar como 0,026 , y

puesto que se refiere a un aumento a partir de una base de
100%, el factor de variación será 1,026. Para los otros datos
se opera igual.

b) Cálculos
Por lo tanto, la media geométrica se calcula:
x g  n x1, x 2, x 3,...... x
x g  5 (1.026) (1.054) (1.038) (1.005)(1.014)
x g  5 1.143903377
x g  1,0272540 (Factor de crecimiento medio)
Tasa media
= (x g  1) 100
de variación

= (1,0272540 - 1) x 100 = 2,72%
c) Interpretación
Si se selecciona al azar un mes entre enero y mayo,

se espera que las ventas se hayan incrementado
2.72% con respecto al mes anterior.

(C) La media armónica (xh )
Se utiliza para calcular el tiempo medio, velocidad y
aceleración media, como por ejemplo, el tiempo medio
para producir una unidad de producto.
a) Obtención: se obtiene calculando el inverso de la
media aritmética de los inversos de una serie.
1
xh  n 1

i 1
X
i
n
Ejemplo:
Los siguientes datos registran el tiempo que
utilizan cuatro obreros al producir un artículo.
Calcule e interprete el tiempo medio.
Médico A B C D
Tiempo
45 38 52 40
(minutos)
Conocer el tiempo medio permite contar con una

herramienta útil en la planeación de los recursos.
Además de poder comparar nuestro desempeño
con los estándares de calidad internacionales.
4 4
xh  1 1 1 1

1976  2340  1710  2223
  
45 38 52 40 88920
4  88920
xh   43.117953 minutos
8249
xh  43 minutos 7 segundos
b) Interpretación:
Si se selecciona al azar a uno de los cuatro obreros, se

espera que realice un artículo en 43 minutos
aproximadamente.

La Mediana
Es la medida que divide en dos subconjuntos iguales a

datos, de tal manera que 50% de los datos es menor a
la mediana y el otro 50% es mayor a la mediana.
a) Obtención: Se obtiene ordenando la serie de datos

(en forma ascendente o descendente) y ubicando el
dato central.

Ejemplo:
Los siguientes datos se refieren al número de
participantes que llegaron tarde a una selección de
personal, después de la hora programada durante
los últimos 11 días de reclutamiento. Calcule e
interprete la mediana.
12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16
Primero se ordenan lo datos:

5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17
5 datos menores 5 datos mayores
mediana
b) Interpretación: Durante 5 días llegaron menos de 11
participantes tarde a su cita y durante 5 días, más de
11 participantes llegaron tarde a su cita.
c) Reglas
1º Si la serie es impar, la mediana ocupa el lugar

central de la serie previamente ordenada.
Ejemplo: 5, 10, 10, 12, 15 , 17, 20, 21, 24

2º Si la serie es par, la mediana se obtiene de la
semisuma de los dos valores centrales de la
serie previamente ordenada.
Ejemplo:
8, 10, 14, 18, 23, 24, 32, 34
18  23
mediana   20.5
2
3º Sea la serie par o impar, la mediana ocupa el lugar ,de la
serie previamente ordenada.
 n  1
 2 

d) Cálculo a partir de datos agrupados.
 n 1 
 2   F  1 
Md  Li   c
 f Md 
donde:  
Md : mediana
L i : limite real (o frontera) inferior de la clase
mediana.
n : número total de datos.
F : suma de todas las frecuencias hasta, pero
sin incluir, la clase mediana.
f Md : frecuencia de la clase mediana
c : amplitud de clase

Ejemplo: La tabla siguiente muestra la experiencia
laboral (años) del personal de seguridad que labora
en una empresa. Calcule e interprete la mediana.
Lugar de la mediana:
Experiencia Número de n  1 69  1
laboral trabajadores   35o
(años) de seguridad 2 2
 69  1  (16) 
0-3 4
4-7 12
Clase Md  7,5   2 4
8 - 11 24  24 
Mediana  
12 - 15 16
16 - 19 10
 7 ,5 
 35  16  4
20 - 23 3
69
 24 
Mediana = 10,5 años
Interpretación:
La mitad del personal de seguridad que labora en

esta empresa tienen una experiencia laboral igual
o menor a 10 años 6 meses. La otra mitad de este
personal tiene una experiencia laboral igual o
mayor a 10 años y 6 meses.

La Moda
La moda es el valor que más se repite dentro de un
conjunto de datos.
a) Obtención: se obtiene organizando la serie de
datos y seleccionando el o los datos que más se
repiten.
Ejemplo:
4, 5, 7, 8, 8 , 10, 12, 15
4, 7, 12,12 , 15, 16, 20, 20 , 24, 27
7, 12, 15, 18, 25, 30, 31, 38

b) Cálculo a partir de datos agrupados
 1 
Mo  L    c
donde:  
Mo: moda
i
 1 2
L : limite real (o frontera) inferior de la clase
i
modal (la de mayor frecuencia)
 : frecuencia de la clase modal menos la
1
frecuencia de la clase anterior
 : frecuencia de la clase modal menos la
2
frecuencia de la clase siguiente

Las clases mediana y modal pueden coincidir pero
conceptualmente son diferentes.
Ejemplo: La tabla siguiente muestra los errores de
facturación durante un mes, en una Tienda. Calcule e
interprete la moda.
Errores de
facturación Días
0-3 6
 6
1
Clase
Clase moda : (4 - 7)
4-7 12
Modal
 6 
8 - 11 8  4 Mo  3.5    4
12 - 15 3
2
64
16 - 19 1
Total 30 Mo = 5,9
Interpretación: Durante un mes, el número más
frecuente de errores de facturación en esta tienda es 6.
Cuartiles
n 1
Q1 
4
2( n  1)
Q2 
4
3( n  1)
Q3 
4

MEDIDAS DE
VARIACION
MEDIDAS DE VARIACION
Varianza
n
 i
( X   ) 2
POBLACION
2  i 1
N
n ___
MUESTRA  i
( X  X ) 2
S2  i 1
n -1

Desviación Estandar
n
 i
( X   ) 2
POBLACION
  i 1
N
n ___
MUESTRA  i
( X  X ) 2
S  i 1
n -1

Uso de la Desviación Estandar
para datos normalizados

Coeficiente de Variación

CV 
POBLACION

S
MUESTRA
CV  ___
X

FORMA DE DISTRIBUCION
SESGO A LA IZQUIERDA
Media < Mediana < Moda
SESGO CERO
Media = Mediana = Moda
SESGO A LA DERECHA
Media > Mediana > Moda

DATOS
Número de Minutos que ocupan sus

asientos 100 clientes en una cafetería
29 67 34 39 23 66 24 37 45 58
51 37 45 26 41 55 27 96 22 43
73 48 63 37 19 31 38 68 22 35
31 58 35 82 28 35 44 40 41 34
15 31 34 56 45 27 54 46 62 29
51 31 56 43 39 35 23 28 45 48
47 41 34 47 30 54 49 34 53 61
82 45 26 35 67 73 30 16 52 35
46 40 41 56 37 51 33 92 70 63
72 35 62 28 38 61 33 49 59 36

Distribucion de Frecuencias
Rango
Ancho de Intérvalo 
Intérvalo de Número de Clases Deseado
Clase Ancho de Intérvalo 

96 - 15
9
9
TABLA DE DISTRIBUCION DE FRECUENCIAS

Tiempo de Ocupación Tabulación Frecuencia Frecuencia
(minutos) f Acumulada
10 19 III 3 3
20 29 IIIII IIIII IIII 14 17
30 39 IIIII IIIII IIIII IIIII IIII 29 46
40 49 IIIII IIIII IIIII IIIII II 22 68
50 59 IIIII IIIII IIII 14 82
60 69 IIIII IIIII 10 92
70 79 IIII 4 96
80 89 II 2 98
90 99 II 2 100
100

PARA DATOS AGRUPADOS
n ___
(X i  X )2 fi
S  i 1
n -1
n n
n ( X i f i )  ( X i f i ) 2
2
S  i 1 i 1
n(n - 1)
Una Aproximación
Donde: Xi es la Marca de Clase

Distribucion de Frecuencias
y Marcas de Clase
TABLA DE DISTRIBUCION DE FRECUENCIAS
Tiempo de Ocupación Marca de Frecuencia X.f (X - X)2f

(minutos) Clase (X) (f)
10 19 14.5 3 43.5 2646.27
20 29 24.5 14 343 5433.26
30 39 34.5 29 1000.5 2728.61
40 49 44.5 22 979 1.98
50 59 54.5 14 763 1485.26
60 69 64.5 10 645 4120.9
70 79 74.5 4 298 3672.36
80 89 84.5 2 169 3248.18
90 99 89.5 2 179 4104.18
100 4420 27441.0

Histograma de Frecuencias
y Marcas de Clase
DISTRIBUCION DE FRECUENCIAS
35
30
25
FRECUENCIA
20
15
10
5
0
14,5 24,5 34,5 44,5 54,5 64,5 74,5 84,5 89,5
MINUTOS

Polígono de Frecuencias
POLIGONO DE FRECUENCIAS
35
30
FRECUENCIA
25
20
15
10
5
0
14,5 24,5 34,5 44,5 54,5 64,5 74,5 84,5 89,5
MINUTOS

Polígono de Frecuencias Acumuladas
(Ojiva)
DISTRIBUCION DE FRECUENCIAS ACUMULADAS
120
100
FRECUENCIA
80
60
40
20
0
14,5 24,5 34,5 44,5 54,5 64,5 74,5 84,5 89,5
MINUTOS

Histograma y Normalización de Datos
Minutos
20
10
Frequency
Std. Dev = 16,40

Mean = 44,4
0 N = 100,00
15,0 25,0 35,0 45,0 55,0 65,0 75,0 85,0 95,0
20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0
Minutos

Analisis de Datos con
El SPSS (Gráfico de Desviaciones)
Detrended Normal Q-Q Plot of Minutos
1,0
,8
,6
,4
,2
Dev from Normal
0,0
-,2
-,4
0 20 40 60 80 100
Observed Value

El SPSS (Desviación de la Normal)
Normal Q-Q Plot of Minutos
3
0
Expected Normal
-1
-2
-3
0 20 40 60 80 100
Observed Value
El SPSS (Cajas y Bigotes)
79 72
Minutos
0 20 40 60 80 100 120

Los Percentiles
Son los valores que dividen en 100 partes iguales a un
conjunto de datos
a) Cálculo: para datos agrupados.
 Kn  F  1 
 100 i 
 
P L  c
K i  f 
 P
K


donde:
P : percentil
K
K : el percentil buscado
n : número de datos
Fi : frecuencia acumulativa hasta la clase
anterior a la clase donde se ubica el percentil K
f
P : frecuencia absoluta de la clase donde se ubica
K
el percentil K

Ejemplo:
La tabla muestra la experiencia (en años) de los
trabajadores de una empresa
Experiencia Trabajadores
(años)
0-3 18
4-7 42
8 - 11 68
12 - 15 120
16 - 19 40
20 - 23 34
24 - 27 12
Total 334
¿Sobre qué edad se ubica el 25% de los
trabajadores de mayor experiencia?
75 % 25 %
P75
Menor Mayor
Experiencia Experiencia
K = 75
Kn 75(334)
Lugar del P75    250,5o (de los números ordenados)
100 100
Para saber en cuál clase se halla este dato, se calculó la

frecuencia acumulativa.

Experiencia Nº Trabajadores Frec. Acumulada
(años) fi Fi
0-3 18 18
4-7 42 60 F=248
8 - 11 68 128
12 - 15 120 248 En esta clase
16 - 19 40 288 se localizan del
20 - 23 34 322 249º - 288º
24 - 27 12 334
334
 75(334)  248  1

 100  P  15.65 años
P  15.5 
75  40 4 75
 
Interpretación: Para que un trabajador esté comprendido dentro del 25%
de mayor experiencia laboral debe tener al menos 15 años, 7 meses y 24
días.

ESTADISTICA
INFERENCIAL
PROBABILIDADES
Importancia de las Probabilidades
Las probabilidades están presentes en nuestras vidas

más a menudo de que podríamos sospechar. Todos
tenemos una gran intuición probabilística.
Por ejemplo, en días lluviosos, fríos y con mucha
humedad es alta la probabilidad de coger un resfrío. Si
ingerimos alimentos en lugares poco higiénicos, en
ambulantes es muy probable que contraigamos una
infección estomacal.

¿Cómo es la probabilidad de ganar el premio mayor en
Tinka?. Muy baja, pues hay muchas alternativas en juego.
Pero aún sabiendo esto, compramos uno que otro número.
La decisión es racional.
Si escuchamos una predicción de 80% que llueve, y Ud.
tiene planeado un paseo al campo con la familia. ¿Qué
hace?. Lo mas racional es que cancele su paseo y se quede
en su casa viendo un video.

ESTADISTICA INFERENCIAL
Probabilidades
a
P(A) 
ab
a
P(A) 
n
Eventos Favorables
P(A) 
Total de Eventos

Conceptos básicos
(A) Experimento: Ejecución voluntaria de un fenómeno.

Se caracteriza por:
a) Tener varios resultados posibles
b) Existir incertidumbre sobre el resultado
Ejemplos:
Lanzar una moneda
Seleccionar un lote de artefactos
Extraer una muestra de pintura para el control de
calidad

(B) Espacio Muestral: conjunto de todos los resultados
posibles de un experimento. Se simboliza por 
(omega).
Ejemplos:
Lanzar una moneda
 = {cara, sello}
Seleccionar un lote de artefactos
 = {defectuoso, no defectuoso}

Ejemplo:
Se lanzan tres monedas simultáneamente. Los ochos
resultados posibles de este experimento pueden
detallarse de manera conveniente mediante un diagrama
de árbol:
Primera Segunda Tercera Resultado
Moneda Moneda Moneda Posible
C C CCC
C S CCS
C CSC
S
S CSS
C C SCC
S S SCS
S C SSC
S SSS
 ={CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS}
(C) Suceso o Evento: subconjunto del espacio muestral,
seleccionado de acuerdo a una condición. Se
representan por letras latinas mayúsculas.
Ejemplo:
Se lanzan dos dados. El espacio muestral de este
experimento es:
= { (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
UNSA (6,1) (6,2) (6,3)
Dr. Armin(6,4) (6,5) (6,6) }
Becerra Guzmán 115
Podemos considerar los siguientes sucesos:
A: la suma de puntajes es 7, es decir
A={(1,6) (2,5) (3,4) (4,3) (5,2) (6,1)}
B: la suma de puntajes es 11, es decir

B={(5,6) (6,5)}
C: la suma de puntajes es 7 u 11, es decir

C={(1,6) (2,5) (3,4) (4,3) (5,2) (6,1) (5,6) (6,5)}

Probabilidad
(A) Concepto: Ponderación asignada a cada punto muestral
que mide la verosimilitud de su ocurrencia.
(B) Principios para asignar probabilidad:
a) La probabilidad de cada punto muestral debe estar
entre 0 y 1
b) La suma de las probabilidades de todos los puntos
muestrales deben ser iguales a 1.
0 0,5 1
Tan probable
Improbable Probable
como improbable

Ejemplos:
1. Se lanza una moneda
={cara, sello}
P(cara) = 0,5 P(sello) = 0,5

2. Se lanzan 3 monedas
 = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
A: obtener exactamente 2 caras
A = {CCS, CSC, SCC}
1/8 + 1/8 + 1/8
P(A) = 3/8

(C) Conclusiones: De acuerdo a la definición de
probabilidad de un suceso, y a los dos
principios, tenemos las siguientes conclusiones:
(1º) P() = 1
(2º) P( ) = 0
(3º) P(A´) = 1 - P(A)

PROBABILIDADES - EJEMPLOS
1. Un investigador trabaja con un nuevo fármaco

para insensibilizar a los pacientes frente a
picaduras de abejas. De 200 sujetos sometidos a
prueba, 180 presentaron una disminución en la
gravedad de los síntomas tras sufrir una
picadura, después de ser sometidos al
tratamiento.
2. Un vendedor ha dejado muestras de su producto
en 200 posibles compradores ¿Cuál es la
probabilidad de que la campaña sea un éxito?.

PROBABILIDAD DEL PUNTO
ESTADISTICO
... Quien emplea la estadística aplicada prefiere pensar

en la probabilidad como el numero de veces en las que
se presentará determinada situación si una experiencia
fuera repetida indefinidamente en situaciones de
naturaleza repetitiva o que pudiera concebirse de esa
manera ...

Reglas de probabilidad
Regla de la Adición
A B
U
(A B)
U
P(AUB) = P(A) + P(B) - P (A B)

Ejemplo:
Un cliente ingresa a una tienda. La probabilidad de que
compre (a) una gaseosa “X” es 0,60 (b) una gaseosa “Y” es
0,50, y c) una gaseosa “X” y una gaseosa “Y” es 0,30 ¿Cuál
es la probabilidad de que compre una “X”, o una “Y” o
ambos?.
Datos U
P(PUL) = P(P) + P(L) - (P L)
P(X) = 0,60
P(PUL) = 0,60 + 0,50 - 0,30
P(Y) = 0,50 P(PUL) = 0,80
U
P (P L) = 0,30

Regla de adición para
sucesos mutuamente
excluyentes
Dos sucesos son mutuamente excluyentes, si no tienen

elementos comunes
A B P(AUB) = P(A) + P(B)
Si : (A B) = 
U
Por lo tanto : P(A B) = 0U

Ejemplo:
Se extrae una carta de una baraja. ¿Cuál es la probabilidad

de que sea un as o un rey?
P(AUR) = P(A) + P(R)

4
P(A) = 4 4
52 = 
4 52 52
P(R) = 8
52 =
52

Probabilidad Condicional
Ejemplo 1: Se dispone de 11 Pases a un concierto, los
cuales se entregarán a clientes y no clientes, agrupados
en hombres y mujeres.
Sexo Masculino Femenino

TIPO (M) (F) Total
Cliente (A) 5 3 8
No Cliente (B) 1 2 3
Total 6 5 11
a) ¿Cuál es la probabilidad de extraer un pase , este

pertenece a un cliente?
8
P(A) =
UNSA
11
Dr. Armin Becerra Guzmán 127
b)¿Cuál es la probabilidad de extraer un pase
correspondiente a un cliente y que sea mujer?
3
P(A  F) =
11
c) Dado que el pase corresponde a un cliente, ¿cuál es

la probabilidad que sea mujer?
3
P(F ) =
A 8

Derivación de la fórmula:
P(F  A)
P(F )=
A P(A)
3
comprobando: P(F ) = 11
A 8
11
3
P(F )=
A 8
Ejemplo 2
Se recolectó información sobre el peso del recién

nacido y si la madre fumó o no durante el embarazo.
Los datos se presentan a continuación:
CONDICIÓN PESO R.N.

TOTAL
DE FUMADORA BAJO NORMAL
SI 30 10 40
NO 20 140 160
TOTAL 50 150 200

A. ¿Cuál es la probabilidad que el recién nacido tenga
bajo peso?
50
P(bajo)   0,25
200
B. ¿Cuál es la probabilidad que una gestante fume?

40
P(si)   0,20
200
C. ¿Cuál es la probabilidad que el niño seleccionado
tenga un peso normal?
150
P(normal )   0,75
200
D. ¿Cuál es la probabilidad de que un recién nacido tenga
bajo peso o sea normal?
Como son mutuamente excluyentes:
P(bajoónorma l)  P(bajo )  P(normal )
50 150
  1
200 200
E. ¿Cuál es la probabilidad de que el recién nacido tenga

bajo peso o la madre haya fumado durante el
embarazo? P(bajoósi)  P(bajo)  P(si)  P(bajoysi)
50 40 30 60
     0,30
200 200 200 200

Aplicación:
La probabilidad de que el personal administrativo que
labora en una empresa, llegue tarde el día lunes es 0,50
y la probabilidad de que llegue retrasado los días lunes
y martes es 0,20. Dado que cierto trabajador llegó tarde
el día lunes, ¿cuál es la probabilidad de que llegue tarde
el día siguiente?.
P(TM  TL )
P(TL ) = 0,50 P(TM )=
TL P(TL )
P(TL  TM ) = 0,20 0,20
= = 0,40
0,50
Regla de la Multiplicación
A partir de P(A  B)
P(B ) 
A P(A)
Se despeja
P(A  B)  P(A)  P B ( A)

Aplicación:
Se sabe que en un lote de pinturas de 50 galones, hay
4 que no están adecuadamente empacados
(defectuosos). Si se extraen al azar 2 galones, uno a
continuación del otro, ¿cuál es la probabilidad de que
ambos sean defectuosos?.
4
P(D1 ) 
50
(
P(D1  D 2 )  P(D1 )  P D 2
D1
)
4 3 12
3 =  
P(D 2 ) 50 49 2450
D1 49

Regla de la multiplicación para
sucesos independientes.
Los sucesos A y B se consideran independientes

cuando la ocurrencia de uno no influye sobre la
probabilidad de ocurrencia del otro; esto significa
que, independientemente de que A haya ocurrido o
no, la probabilidad asignada a B es siempre la misma.
P (B )  P(B)
A
Entonces,
 P(A  B)  P(A)  P(B)

Ejemplo:
¿Cuál es la probabilidad de que en una familia con dos

hijos, ambos sean varones?
P(V1  V2 )  P(V1 )  P(V2 )

P(V1 )  0,5
P(V2 )  0,5
= (0,5) (0,5)
P(V1  V2 )  0,25

Arboles de Decisión
P(A).P(V)
P(V)
P(-V)
P(A) P(A).P(-V)
P(V) P(B).P(V)
P(B) P(-V)
P(B).P(-V)
1,00

El teorema de Bayes
Consiste en una partición de la probabilidad total.
Ejemplo 1:
La Compañía de Seguros JL ha desarrollado un
novedoso seguro familiar. De acuerdo con una
investigación hecha en el mercado, la probabilidad
de que el producto tenga éxito es 0,80 si la
compañía competidora no introduce un plan similar
en el mercado. Luego, la probabilidad de éxito es
0,30 si la empresa competidora lanza al mercado
un seguro similar. Además, la compañía JL estima
que hay una probabilidad de 0,40 de que la firma
competidora comercialice el producto.

Dado que el producto de la Compañía JL tuvo éxito,
¿cuál es la probabilidad de que la firma competidora
haya comercializado su novedoso plan de seguro?
Solución:
P(C) = probabilidad de que la compañía

competidora comercialice el producto,
P(C´) = probabilidad de que la compañía
competidora no comercialice el producto,
P(E) = probabilidad de que el plan de seguro
familiar de la compañía JL tenga éxito.

P. Marginal P. Condicional P. Conjunta
P(E/C) = 0,30 P(C  E) = 0,40 0,30 = 0,12
P (C  E) = 0,60  0,80 = 0,48

'
P(E/C´) = 0,80
P. Total P(E) = 0,60

Luego, de acuerdo con el Teorema de Bayes
P(C  E)
P(C )=
E P(C  E) + P(C '  E)
0.12 0.12
   0.20
0.12  0.48 0.60
La probabilidad que la compañía de seguros haya

participado en el mercado, dado que JL tuvo éxito es de
0,20.
Ejemplo 2:
El Gerente de una importante fábrica de la ciudad está
considerando comprar un lote de 10000 balones de
gas a un proveedor nacional. El fabricante de estos
equipos estima la proporción de balones defectuosas
en el lote, en la siguiente forma.
Proporción de Probabilidad
balones defectuosos () P()
1 = 0,10 P(1) = 0,20
2 = 0,15 P(2) = 0,30
3 = 0,25 P(3) = 0,50
Esto significa que el proveedor no está seguro acerca de
la proporción de balones de gas defectuosos en el lote,
sin embargo, basándose en experiencias anteriores, cree
que hay una probabilidad de 0,20 de que el lote tenga
10% de piezas defectuosas, una probabilidad de 0,30 de
que tenga 15%. Y finalmente, de 0,50 de que tenga 25%
de piezas defectuosas. Supongamos que elige un balón
de gas de al azar en el lote:

A) ¿Cuál es la probabilidad de qué esta sea defectuoso?
B) Dado que el equipo resulta defectuoso, ¿cuál es la
probabilidad de que el lote tenga 25% de piezas
defectuosas?

P. Marginal P. Condicional
P. Conjunta
P(D/1)= 0,10
1=0,10 P( 1  D) = 0,20  0,10 = 0,0200
P(2) = 0,30 P(D/2)= 0,15

2=0,15 P( 2  D) = 0,30  0,15 = 0,045
P(D/3)= 0,25
3=0,25 P( 3  D) = 0,50  0,25 = 0,1250
UNSA Dr. Armin Becerra Guzmán

P(D) = 0,1900
146
Respuesta A:
Hay tres maneras posibles de obtener un equipo

defectuoso del lote. Por lo tanto, la probabilidad de
obtener una pieza defectuosa, cualquiera que se la tasa
porcentual de defectuosos 10, 15 ó 25 es:
P( D)  P( 1  D)  P( 2  D)  P( 3  D)
 0,0200  0,0450  0,1250
 0,19

Respuesta B:
De acuerdo con el Teorema de Bayes, la probabilidad

de que el lote contenga 25% de piezas defectuosas,
dado que la pieza elegida es defectuosa, es:
P( 3  D) 0.1250
P( 3 / D)    0.6579
P( D) 0.1900

Resumen de Operaciones
con Probabilidades
Para Eventos Proposición Operación de
Probabilidades
Mutuamente P(A o B) = P(AUB) P(A)+P(B)

Excluyentes
Independientes P(A y B) = P(AB) P(A).P(B)
Mutuamente no P(A o B) = P(AUB) P(A)+P(B) – P(A).P(B)

Excluyentes
Dependientes P(A y B) = P(AB) P(A).P(B/A)
P(B).P(A/B)
Condicionales P(A / B) = P(A dado B) P(AB) / P (B)

DISTRIBUCION DE
PROBABILIDADES
TECNICAS DE CONTEO
Combinación:
Es una selección de objetos con independencia
en su ordenamiento.
Ejemplo:
Un empresario dispone de 10 plantas de
producción para producir harina de pescado.
Sólo ocho son necesarias para abastecer el
mercado. Las ocho plantas necesariamente son
seleccionadas aleatoriamente.
Permutación:
Es una distribución de objetos en un orden
determinado.
Ejemplo:
El numero del DNI.

PERMUTACION
Cálculo del número de permutaciones para n objetos
tomados de x
n!
P 
n
donde x  n
(n  x)!
x
Ejemplo:
Los nutricionistas de una empresa que produce
alimentos envasados están interesados en el orden en
que cuatro ribonucleótidos adenina (A), uracilo (U),
guanina (G) y citosina (C) se combinan para formar un
catalizador. ¿Cuántas cadenas formadas por dos
nucleótidos pueden formarse?
4! 4 x3x2 x1
P24    12
(4  2)! 2 x1
COMBINACION
Numero de combinaciones de n objetos tomadas de r
n!
C n
donde x  n
x !(n  x)!
x
Ejemplo:
Se realiza un estudio para determinar la opinión de los
profesores de la UNSA respecto a la acreditación; si
se elige una muestra de cuatro profesores de un total
de 45. ¿Cuántas muestras distintas pueden
seleccionarse?
45! 45 x44 x43x42 x41! 45 x44 x43x42

C445     148,995
4!(45  4)! 4! x41! 4!

Las Distribuciones de Probabilidad
(A) Concepto: Es una distribución de frecuencias

teórica que describe la forma en que se espera
que varíen los resultados.
Resultan útiles para realizar inferencias y tomar
decisiones bajo incertidumbre.

Ejemplo:
Se seleccionan en forma consecutivas dos clientes de
un autoservicio . El número de clientes será:
Nº de Probabilidad
Resultados Probabilidad
mujeres 0.50
0 V,V 0,25
1 VM,MV 0,50 0.25
2 MM 0,25
0 1 2 Nº de
mujeres

(B) TIPOS DE DISTRIBUCIONES
a) DISCRETAS: La variable toma un número limitado de

valores. Abarca :
- Distribución binomial
- Distribución de Poisson
- Distribución hipergeométrica
b) CONTINUAS: La variable puede tomar cualquier valor

dentro de un intervalo dado. Abarca:
- Distribución normal
- Distribución normal estándar o Z
- Distribución t
- Distribución Ji-cuadrada 2
- Distribución F

Variables Aleatorias
Una variable es aleatoria si toma diferentes

valores como resultado de un experimento .
Puede ser discreta o continua
Ejemplo: Se lanzan 3 monedas

X : variable aleatoria (ej : número de caras)
x : valores que puede tomar la variable
(ej : 0, 1, 2, 3)

Valor Esperado
  E(X)   X .P( X )
n
i i
i 1
Desviación Estandar

n
 (X
i 1
i  E ( X i )) .P( X i )
2

Esperanza matemática : E (X)
Es el promedio de la variable aleatoria, si el experimento se
repite un número infinito de veces.
Ejemplo : Se lanzan 3 monedas
1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8
W = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
3 caras. 2 caras 1 cara 0 caras =>x

x
Número P(x) XP(x) ( X) =  XP( x )
de Cara
0 1/8 0 12
3/8 =
1 3/8 8
2 3/8 6/8
3 1/8 3/8 = 1,5 caras
12/8
Aplicación empresarial: uso del
valor esperado y las pérdidas
monetarias.
Un distribuidor de bocaditos sabe que su producto
rápidamente se deteriora. Compra cada cajita a 20 u.m. y
las vende a 50 u.m.. No puede especificar el número de
cajitas que le solicitarán diariamente, pero dispone de los
siguientes datos:
Ventas Probabilidad de venta

diarias de cada cantidad
10 0.15
11 0.20
12 0.40
13 0.25
1.00
Tipo de pérdidas
(A) Pérdidas por mermas (obsolescencia):
oferta > demanda (costo contable)
(B) Pérdidas de oportunidad: oferta < demanda
(costo económico)
Alternativas de Venta
Alternativas de
Compra
10 11 12 13
10 0 20 40 60
11 30 0 20 40
12 60 30 0 20
13 90 60 30 0
Posibles Pérdidas

Cálculo de la pérdida esperada
Para un stocks de 10 cajitas, la pérdida esperada será:
Posibles Ventas Probabilidad

Por día Pérdida que se reciban Pérdida
Condicional estos pedidos esperada
10 0 0.15 0.00
11 30 0.20 6.00
12 60 0.40 24.00
13 90 0.25 22.50
Pérdida esperada: 52.50

Solución óptima: analizar otros tamaños de stocks y decidir
por aquél que genere la menor perdida
Distribución Binomial
 n  X n -x   E ( X )  np
P(X)    p q
X   np(1  p)
n!
P(X)  X n-x
p q
x!(n - x)!
Datos
n!
P(X)  p (1  p)
X n -x Discretos
x!(n - x)!
La distribución binomial
Se utiliza para describir variables discretas.
Es una de las distribuciones mas utilizadas en la

estadística aplicada. La distribución se deriva de un
procedimiento llamado ensayo de Bernoulli, nombrado
así en honor del matemático Suizo James Bernoulli
(1654 - 1785).
a) Características:
 El experimento consiste en una serie de ensayos
repetidos.
 Cada ensayo sólo tiene dos resultados posibles: éxito y
fracaso.
La probabilidad de éxito, designado por p es la misma para
cada ensayo, la probabilidad de fracaso q (igual a 1-p) es
también constante.
1. Los ensayos sucesivos son independientes.
2. Puede ser simétrica o sesgada.
3. La información de la muestra se obtiene

con reposición de una población finita.

b) Formula:
n!
P(X = x) = p x q n- x
x! (n - x)!
donde:
n : número de ensayos
x : número de éxitos
p : probabilidad de éxitos en un ensayo
q : probabilidad de fracaso en un ensayo
n - x : número de fracaso en el ensayo
Se aplica a la selección de una muestra, sólo cuando el
resultado de cada solución es independiente de los
resultados de las selecciones anteriores.

c) Aplicación:
Una muestra de 4 frascos se selecciona sin restitución

de un lote de 5,000 frascos de cierto laboratorio
farmacéutico. Suponiendo que 20% de los frascos de
lote no cumplen con las especificaciones de calidad,
¿cuál es la probabilidad de que la muestra contenga
exactamente 2 frascos malos?

Datos: n!
P(X = x) = p xq n-x
n=4 x! (n - x)!
x=2
p = 0,20
q = 0,80 P(X = 2) =
4!
0.22 0.802
2! (4 - 2)!
 0,1536

d) La distribución
Cierto proceso de control de calidad se repite cuatro
veces. Suponga que existe la probabilidad de 0.50
que el proceso resulte deficiente. En cuatro
repeticiones se puede obtener 0,1,2,3 ó 4 procesos
deficientes. Se puede calcular la probabilidad de
cada uno de estos posibles resultados mediante la
distribución binomial.

X
(Número de P(X = x)
procesos deficientes)
0 4
4!  1  1
0      116
0!4!  2  2
1 3
4!  1   1  4
1      16
1!3!  2   2 
2 2
4!  1   1 
2      616
2!2!  2   2 
3 1
4!  1  1 4
3      16
3!1!  2   2
4 0
4 4!  1   1 
     116
4!0!  2   2 
A estos resultados se denomina distribución de
probabilidad.
e) La media y la desviación estándar
Consideramos la distribución del ejemplo anterior

(p = 1/2, n = 4)
X 0 1 2 3 4
P(X = x) 1/16 4/16 6/16 4/16 1/16
La media
 =  XP( x)

X P(x) XP(x) 32
0 1/16 0
 XP( x)  16
1 4/16 4/16
2 6/16 12/16  = 2 procesos
3 4/16 12/16
4 1/16 4/16 También:
 = np
32/16
 = 4( 12)  2
Interpretación: Si seleccionamos 4 procesos al azar, se

espera encontrar 2 procesos deficientes, si este
experimento se repite un número infinito de veces.

La desviación estándar
   ( x   ) 2
P( x)
x P( x) (x   ) (x   )2 ( x   ) 2 P( x )
0 1/16 -2 4 4/16
1 4/16 -1 1 4/16
2 6/16 0 0 0
3 4/16 +1 1 4/16
4 1/16 +2 4 4/16
16/16

16
 (X   ) P( x) 
2
16
16
   ( X   ) P( x ) 
2
 1 proceso deficiente
16
También:
  npq
 4(0,5)(0,5)  1
La distribución binomial (p = 1/2, n = 4) tiene una media de 2

y una desviación estándar de 1.

Ejemplo:
Supóngase que en cierta población el 52 por ciento de
todos los nacimientos que se registraron son varones.
Si aleatoriamente se escogen cinco registros de
nacimientos dentro de esa población, ¿cuál es la
probabilidad de que exactamente tres de ellos
pertenezcan a varones?.
P = 0.52
q = 1 - 0.52 = 0.48 5!
P(3,5)  0.523 0.48(53)  0.32  32%
n=5
3!(5  3)!
r=3

Uso de Tablas
Solucionando el problema anterior usando la tabla de probabilidades
binomiales
tabla de probabilidades binomiales

p
n r 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 r n
5 0 0.0380 5
1 0.1755 4
2 0.3240 3
3 0.2990 2
4 0.1380 1
5 0.0255 0 5
n r 0.63 0.62 0.61 0.60 0.59 0.58 0.57 0.56 0.55 0.54 0.53 0.52 0.51 0.50 r n
p
La probabilidad de tener 3 inscritos varones de 5

registros realizados es del 0.324 o 32.4%.
Distribución de Poisson
e 
 x
P(X) 
X!
e  2.71828 Datos
Discretos

Distribución de Poisson:
Es una distribución muy usada en administración. Se deriva
del proceso de Poisson en honor al matemático francés
Simeon Denis Poisson (1781-1840).
Debe cumplir las siguientes condiciones:
La ocurrencia de los eventos son independientes.
El número promedio de veces () que ocurre un éxito por
cada unidad de tiempo o de espacio es constante.
La probabilidad de un suceso es una unidad de tiempo o
de espacio muy pequeña.

Ejemplos de aplicaciones de Poisson:
Trabajadores que llegan tarde a su centro laboral
durante un cierto día.
Defectos de un producto.
Venta por hora en cierta parte de la ciudad.
Clientes que llegan a la caja registradora de una tienda
en un determinado horario.

Si el tamaño de la muestra es bastante grande (n>50) y la
probabilidad de un evento particular es muy pequeño (p <
0,1) y se desea hallar la probabilidad de un número
determinado de éxitos, se puede aplicar la distribución de
Poisson, dada por la siguiente ecuación.
x e
P(X = x) =
x!
donde
 (lambda): media = np = varianza
e : base de logaritmos naturales =2.71828
x! : factorial de x
Ejemplo:
Supongamos que estamos investigando la seguridad de
un autoservicio, los registros indican una media de 5
intentos mensuales por tienda. El número de intentos de
robos esta distribuido de acuerdo con una distribución de
Poisson y el departamento de seguridad desea que
calculemos la probabilidad de que en cualquier mes
ocurra exactamente 3 intentos de robo.
X = 3 robos/mes 3 5
5 2.7183
 = 5 robos/mes P( x 3)   0.14042  14.04%
3!
Uso de Tablas
Solucionando el problema anterior usando la tabla de
distribución de probabilidades de Poisson:

x 4.1 ......... 4.5 .......... 4.9 5
La probabilidad de tener
0 0.0067
1 0.0337 exactamente 3 intentos
2 0.0842 de robo en un mes
3 0.1404 cualquiera es 0.1404
4 0.1755
5 0.1755

Aplicación
La probabilidad de “número equivocado” a pesar de

haber marcado correctamente es 0,03. Si se toma una
muestra de 100 llamadas, ¿cuál es la probabilidad de
tener 2 “número equivocado”?
Solución: 32  (2.71828) 3
P(X = 2) =
p = 0.03 2!
n = 100
 =3 = 02240

La aproximación de Poisson a la
distribución Binomial
Consideremos una distribución binomial con p=0.02 y n =

100. Supongamos que nos interesa calcular la
probabilidad de que X = 3 utilizando la formula binomial,
podemos encontrar la probabilidad exacta de la forma
siguiente:
100!
P(X = 3) = (0,02) 3 (0,98) 97
3! 97!
 0,1823

Los cálculos son muy tediosos. Cuando p es pequeño y n
es lo suficientemente grande, la formula binomial puede
aproximarse mediante una distribución de Poisson con 
= np
Luego, utilizando una distribución de Poisson encontramos

que la probabilidad de que X=3 es:

 ex
P(X = 3) =
x!
  np = 100 (0,02) = 2
(2) 3  (2,71828) 2 8
  2
 0,1805
3! 6 (2,71828)
La respuesta es muy ¨próxima¨ a la encontrada con la

distribución binomial. La aproximación se considera válida
cuando
p  0.05 y n  20

Distribución Hipergeométrica
 N-X t
 Xt

  
P(x/N, X t , n)   n -x   x 
 
N
 
n
Datos
Discretos

La distribución Hipergeométrica
Se utiliza para describir variables discretas
a)Características
La información de la muestra se obtiene sin
reposición de una población finita, por lo tanto la
probabilidad de éxito varía.
b) Formula donde:
M : número de éxitos en la población
 
M N M
 k : número de éxitos en la muestra
   N : tamaño de la población
P(X = k) =  k  n  k 
N-M: número de fracasos en la
N población
  n : tamaño de la muestra
n n-k : número de fracasos en la
UNSA
muestra
Aplicación
Calcular la probabilidad de obtener 10 CHIPS

defectuosos en una muestra de 20 CHIPS de radio
tomados sin reemplazo de un lote de 30 CHIPS, de los
cuales 15 son defectuosos.
Datos:
k = 10
 15  30 15 
n = 20   
N= 30 P(X = 10) =  10 3020 10 
M= 15  
 
 20 
(3003)(3003) 9018009
=  = 0,3001
30045015 30045015

Si erróneamente se usa la distribución binomial con n
= 20 y p =15/30 = 1/2 para calcular la probabilidad de
tener 10 defectuosos, el resultado será:
P(X = x) 
20! 1
10!(20 - 10)! 2
10
1
2
  
10
184756
  0,1762
1048576
Una probabilidad considerablemente menor que la

probabilidad real.

d) Forma
Puede ser simétrica o sesgada. Cada vez que p = 0.5, la

distribución hipergeométrica será simétrica sin tener en
cuenta qué tan grande o pequeño sea el valor de n; sin
embargo, cuando p  0,5 la distribución será sesgada. El
grado de sesgo variará, dependiendo de la proximidad del p
a 0,5 y del tamaño de n.

e) La media y la desviación estándar
La media:   E(X)  np
La desviación estándar:   N n
np (1  p ) 
N 1
N n
Donde N 1 es un factor de corrección de población
finita que se produce debido al proceso de muestreo sin
reposición de poblaciones finitas.

DISTRIBUCION
CONTINUA DE
PROBABILIDADES
Distribución Normal
1  (1 / 2 ) ( X   ) /  2
f(x)  e
2
e  2.71828
Datos
  3.14159 Continuos

Distribución Normal Estandarizada
1  (1 / 2 ) Z 2
f(z)  e
2
e  2.71828
Datos
  3.14159 Continuos

Distribución Normal Estandarizada

(Fórmula de Transformación)
X 
Z

X    Z Datos
Continuos

CURVA NORMAL
ESTANDARIZADA
Y LA ESCALA X

CURVA NORMAL
ESTANDARIZADA
Y LA ESCALA X

Distribuciones continuas de probabilidad
La distribución normal
También conocida como campana de Gauss en honor al
matemático Karl Gauss ( siglo XIX).
Es importante por:
Es aplicable para inferencia estadística
Se ajusta (casi) a las distribuciones de frecuencias
reales observadas.
Se utiliza para describir el comportamiento de una
variable continua.
(a) Características
1. Tiene un sólo pico (unimodal). Forma acampanada.
2. La media cae en el centro
3. La media, media y moda coinciden
4. Es asintótica al eje horizontal
La distribución normal de
probabilidad es simétrica con
respecto a una línea vertical
que pase por la media
El extremo izquierdo se
extiende de manera indefinida y
El extremo derecho se
nunca toca el eje horizontal
extiende de manera
indefinida y nunca toca el
eje horizontal
Media
Mediana
Moda

b) Fórmula
La función de densidad: f(x), para la distribución

normal tiene la siguiente formula:
2
 x  
1 
1 2   
f (x)  e
2
donde:
e : constante matemática: 2.71828
 :constante matemática: 3.14159
 : media de la población
 : desviación estándar de la población
x : cualquier valor de la variable
aleatoria continua
Areas debajo de la curva normal
No importa cuales son los valores de  y , para

una distribución de probabilidad normal el área total
bajo la curva es 1.00, de manera que podemos
pensar en áreas bajo la curva como si fuesen
probabilidades. Matemáticamente es verdad que:

1: Aproximadamente 68% de todos los valores de una
población normalmente distribuida se encuentra datos
1 desviación estándar de la media .


  
  


68% datos
2: Aproximadamente 95.5% de todos los valores de
una población normalmente distribuida se encuentra
datos 2 desviación estándar de la media.
   2
 
   2 

94.6% datos
3: Aproximadamente 99.7% de todos los valores
de una población normalmente distribuida se
encuentra datos 3 desviación estándar de la
media
  3     3 

  
99% datos
La distribución normal estándar (Z)
La distribución normal tiene diferente  y  para calcular

probabilidades habría que integrar la función de densidad.
Por este motivo se estandariza la variable.
La estandarización es un proceso estadístico que consiste
en restar la media a la variable y el resultado dividirlo por
la desviación estándar.
x
Z

Distribución
normal estándar
  50
 1

La tabla de distribución normal estándar, es la
siguiente:
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08

0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714
: : : : : : : : : :
: : : : : : : : : :
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810
1.2 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162
:
:
2.4
2.5
:
Cuando Z=1.27 entonces el área vale: ......

Ejercicio:
Un jefe de personal piensa
que los puntajes en una
prueba de destreza manual
tiene una distribución   2.5
aproximadamente normal, con
una media de 10 y una
desviación estándar de 2,5. Si
a un individuo, elegido
  10 15
aleatoriamente, se le aplica el
examen, ¿cuál es la probabi-
lidad de que logre un puntaje
de 15 o mas puntos?.

Obtenemos la siguiente
información:
     2.5   2.5
x 15  10
Calculando Z: z  2
 2 .5
  
  10 15
Para Z=2, buscamos en la tabla cual es la
probabilidad (o área) que le corresponde:
Área = .4772
Como deseamos conocer esta área:   2.5
P( x  15)  0.5  0.4772  0.0228  2.28%
  10 15

¿Cuál es la probabilidad de que se logre un puntaje
entre 11 y 14?
Calculando Z:
11  10
Cuando x  11  z   0.4  A  0.1554
2 .5
14  10
Cuando x  14  z   1.6  A  0.4452
2.5
  11
14

El área sombreada se encuentra restando del área

mayor (0.4452) el área menor (0.1554)
P(11  x  14)  0.4452  0.1554  0.2898  28.98%

Aplicaciones
Una empresa aplica un programa de entrenamiento
diseñado para mejorar la habilidades de supervisión en
los diferentes procesos que se desarrollan en ventas.
Debido a que el programa es autoadministrado, los
supervisores requieren un número diferente de horas
para concluirlo. Un estudio de los participantes
anteriores indica que el tiempo medio que se lleva
completar el programa es de 500 horas y que esta
variable aleatoria normalmente distribuida tiene una
desviación estándar de 100 horas.

Pregunta 1. ¿Cuál es la probabilidad de que un
participante elegido al azar requiera más de 500 horas
para completar el programa?
Solución:
En la figura, podemos ver que la
mitad del área bajo la curva está
P(X>500)=0.5
localizada a ambos lados de la
media de 500 horas. Por lo tanto
podemos deducir que la
probabilidad de que la variable
aleatoria tiene un valor mayor a
500 es el área sombreada, es
decir, 0.5.

Pregunta 2:¿Cuál es la probabilidad de que un
supervisor elegido al azar se tome entre 500 y 650
horas para completar el programa de entrenamiento.
Solución:
La gráfica se muestra la
respuesta como zona
P(500 X 650)=0.4332 sombreada, representada por
el área entre la media (500
horas) y el valor de X, en el
cual estamos interesados
(650 horas). Estandarizando
la variable tenemos un valor
para Z

x
Z

650  500
Z  1 .5
100
Si buscamos Z = 1.5 en la tabla, encontraremos una

probabilidad de 0,4332. En consecuencia, la probabilidad
de que un candidato escogido al azar requiera entre 500
y 650 horas para terminar el programa de entrenamiento
es ligeramente mayor a 0,4.

Pregunta 3:¿Cuál es la probabilidad de que un
supervisor elegido al azar se tome más de 400 horas
en completar el programa?
Solución:
Estamos interesados en el área a la derecha de 700.
Estandarizamos
x P(X >700)= 0..0228

Z

700  500
Z  2
100
Tabla: si Z = 2.0  Area: 0.4772
En consecuencia, la probabilidad mayor a 700 será

0,5 - 0,4772 = 0,0228
Por lo tanto hay un poco más de 2 oportunidades en 100

de que un participante elegido al azar se lleve más de 700
horas en completar el curso.

Pregunta 4:Suponga que el director del programa
desea saber la probabilidad de que un participante
escogido al azar requiera entre 550 y 650 horas para
completar el trabajo requerido en el programa.
Solución:
Primero calculamos el valor de Z para 650
x
Z

650  500 P(550 X 650)
Z  1 .5
100
A este valor le
corresponde un área
de 0,4332

Después calculamos un valor de Z para 550
x
Z

550  500
Z  0 .5
100
Correspondiéndole un área de 0,1915

Para responde la pregunta debemos estar
restar las áreas:
Probabilidad de que la variable aleatoria esté 0,4332

entre la media y 650 horas
(-) Probabilidad de que la variable aleatoria esté 0,1915

entre la media y 550 horas
(=) Probabilidad de que la variable aleatoria esté 0,2417

550 y 650 horas

Así pues, la probabilidad de que un supervisor elegido
al azar se tome entre 550 y 650 horas para completar
el programa de entrenamiento es un poco menor de 1
entre 4

La Distribución t
a) Características
Al igual que la normal, también es simétrica es
algo más plana que la distribución normal hay una
distribución t para cada tamaño de muestra
cuando el tamaño de la muestra es menor a 30, la
distribución t se asemeja tanto a la normal que se
prefiere utilizar ésta.

CUANDO UTILIZAR Z o t
SI
¿S E CONOCE  ? US A R Z
NO
SI
¿es n  30? US A R Z
NO
US A R t

TABLA DE DISTRIBUCION t DE STUDENT
d.f. t .90 t .95 t .975 t .99 t .995
d.f. Grados de libertad1 3.08 6.31 12.7 31.8 63.7
2 1.89 2.92 4.3 6.97 9.92
d . f .  n 1
3 1.64 2.35 3.18 4.54 5.84
Ejemplo:
:
n= 28 N.C. = 95%
:
a ,5
:
a/2 ,25
:
,25,975
26 1.32 1.71 2.06 2.48 2.78
t=?
27 2.31 1.7 2.05 2.47 2.77
28 1.31 1.7 2.05 2.47 2.76
d.f. = 28 - 1 = 27
:
t = 2,0518
:
UNSA : Dr. Armin Becerra Guzmán 226
b) Fórmula
x
t
s
n
c) Grados de libertad
Se definen como el número de valores que podemos
escoger libremente.

La distribución Ji-Cuadrada
a) Características
Es una distribución asimétrica a la izquierda

Sólo considera valores positivos
b) Definición
La distribución Ji-cuadrada esta definida por
n
   Z i2
2
i 1

c) Aplicaciones
Las aplicaciones más importantes están en

la prueba de bondad de ajuste la prueba de
independencia estadística
d) Distribución

La Distribución F
Características
Es una distribución asimétrica a la derecha
Sólo tiene valores positivos
Se utiliza para comparar variancias de dos
poblaciones, con distribución normal
Fórmula
2
S mayor
F 2
S menor

11-3
• Existe una “familia” de distribuciones F.

• Cada miembro de la familia está determinado
por dos parámetros: los grados de libertad (gl)
en el numerador y los grados de libertad en el
denominador.
• El valor de F no puede ser negativo y es una
distribución continua.
• La distribución F tiene sesgo positivo.
• Sus valores varían de 0 a  . Conforme
F   la curva se aproxima al eje X.

Curvas Normales
Datos
Continuos

La Estadística de Resumen
Después de construir tablas y gráficos, a partir de

una colección de datos, se requieren medidas más
exactas.
La estadística de resumen, proporciona medidas
para describir un conjunto de datos.
Existen tres tipos de medidas de resumen:
• De tendencia central.
• De dispersión.
• De la forma de la distribución.

(A) Las medidas de tendencia central
Se refieren al punto medio de una distribución
Se conocen como medidas de posición
Ejemplo: A partir del gráfico siguiente, se observa
que la posición central de la curva B está a la derecha
de la posición central de las curvas A y C. Observese
que la posición central de la curva A es la misma que
la curva C.

(B) Las medidas de dispersión
1.Se refieren a la extensión o amplitud de los datos
de una distribución
2.Representan el grado de variabilidad de los datos.
Ejemplo: Observe que la curva A en el siguiente
gráfico tiene una mayor dispersión que la curva B,
a pesar que la posición central es la misma.

(C) Las medidas de la forma de la curva
Las curvas que representan a un conjunto de datos,
pueden ser analizadas de acuerdo a su:
a) Simetría b) Curtósis
Las curvas simétricas, tienen una forma tal que con una
línea vertical que pase por el punto más alto de la curva,
dividirá el área de esta en dos partes iguales.

Las curvas sesgadas son aquellas cuyos valores están
concentrados en el extremo inferior o superior de la
escala de medición del eje horizontal. La “cola” indica el
tipo de sesgo.

Cuando medimos la curtósis nos referimos al grado de
agudeza. Pueden ser: leptocúrtica (concentración al centro)
mesocúrtica distribuidos simétricamente) o platicúrtica
(aplanada).

MEDIDAS DE ASIMETRIA O
SESGO
Coeficiente de Asimetría
Es un indicador del grado de asimetría que
presenta una distribución.
3( X  Md )
S kp 
S
Valores posibles
 3 asimetría negativa
S kp  
 3 asimetría positiva

Si Skp tiende a 3 la distribución es asimétrica hacia la
derecha o asimetría positiva.
Si Skp tiende a -3 la distribución es asimétrica a la

izquierda o asimetría negativa.
En distribuciones simétricas, no existe sesgo, es decir

Skp = 0.
En la práctica, el coeficiente de Asimetría de Pearson

varía entre -1 y +1

Coeficiente de Curtósis
Es una medida del grado de apuntalamiento,
generalmente comparada con el apuntalamiento de la
distribución normal.
0,5( P0, 75  P0, 25 )

Ku 
P0,9  P0,1

Valores posibles
a) Leptocúrtica (concentración al centro): Si el grado de
apuntalamiento de una distribución es mayor que el
de la distribución normal. Kμ  0,5
b) Mesocúrtica (distribuidos simétricamente): Si el
grado de apuntalamiento de una distribución es igual
que el de la distribución normal. Kμ  0,25
c) Platicúrtica (aplanada).Si el grado de apuntalamiento
de una distribución es menor que el de la
distribución normal. 0 ≤ Kμ ≤ 0,25
Leptocúrtica Mesocurtica Platicurtica

Ejemplo:
La tabla muestra la edad (en años) de 70 clientes
atendidos en el servicio de peluqueria local.
4 67 18 15 11 3 24
3 85 15 15 14 5 26
5 6 16 15 13 7 21
6 7 17 16 10 8 22
7 7 15 17 6 12 17
25 10 13 17 4 15 16
13 12 13 13 8 17 9
2 15 14 14 14 18 9
4 16 20 16 18 20 15
5 17 14 17 20 21 12
A) Calcular e interpretar la asimetría de la
distribución
UNSA B) Calcular e interpretar la curtosis
Dr. Armin Becerra Guzmán de la distribución. 243
Los resultados han sido obtenidos
usando Microsoft Excel
Media aritmetica 14.27 3(14,27  13,50)

S kp   0,202
Desviacion estandar 11.42 11,42
Mediana 13.50
Cuartil 1 7.00
0,5(17,00  7,00)
Cuartil 3 17.00 Ku   0,263
23,00  4,00
Percentil 90 23.00
Percentil10 4.00

TAMAÑO
MUESTRAL
Importancia del muestreo
En lugar de levantar un censo “completo” se realiza un
muestreo, debido a que un censo:
1. requiere demasiado tiempo

2. es muy costoso
3. muy laborioso y muchas veces ineficiente
Tamaño Muestral:
• No Probabilístico
•Intencional o de
N Juicio
•Por Cuotas
n • De Trozos
•Probabilístico
•Aleatorio Simple
• Sistemático
•Estratificado
•Conglomerados
Tipos de Muestreo
A) MUESTREO NO PROBABILÍSTICO: No permite
inferencia estadística.
1. M. de Juicio: Abarca el juicio del experto, opiniones

de especialista
2. M. de Cuotas: Se decide la estructura del marco
muestral, sin tener en cuenta la estructura del marco
poblacional.
3. M. de Trozo: La elección de los “racimos” no se hace
al azar.

(B) MUESTREO PROBABILÍSTICO: Permite
inferencia estadística. Cada elemento del marco
poblacional tiene una probabilidad conocida
diferente de cero de conformar o ser parte de la
muestra.
1. Muestreo Aleatorio Simple (MAS):
Concepto: Todas las unidades elementales
tienen la misma probabilidad de conformar la
muestra. Dicho de otro modo, significa que cada
una de las posibles muestras de tamaño n, tenga
a la misma probabilidad: 1/N CN de ser
seleccionada (muestreo sin sustitución). Es el
caso de un sorteo.

2. M. Sistemático: Las unidades elementales son
seleccionadas dentro de un intervalo (I) de igual
tamaño. Se extrae la muestra de acuerdo a la lista de
clientes atendidos por ejemplo
I1 I2 I3 I4
X1

3. M. Estratificado: El marco poblacional se divide en grupos
homogéneos (estratos); de cada uno se extrae una
submuestra, proporcional al tamaño del estrato. Muestreo
por tipo de servicio
4. M. por Conglomerado: El marco poblacional se encuentra

agrupado en conglomerados o racimos Se selecciona en
forma aleatoria, el o los racimos. Todos los clientes que
ingresaron un determinado día.

El tamaño de la muestra y el
Intervalo de Confianza
A.¿De qué depende el tamaño de la muestra (n)?
Depende de:
1. La magnitud del máximo error permisible (e) y,
2. El nivel de confianza de que el error en la
estimación no exceda del máximo error permisible
(1- a )

El Error Estándar
Es una medida de dispersión de una distribución muestral.
Es equivalente a la desviación estándar.
Desviación estándar de la Error estándar

distribución de medias de muestra de la media
Desviación estándar de la Error estándar

distribución de proporciones de muestra de la
proporción

Tamaño Muestral: N desconocida
Z
X 
Z  2 2
 n 2
n e
Z
x  
Z  (1   ) 2
 (1   ) n 2
n e

Tamaño Muestral: N Conocida
Z .N .2 2
n 2
E ( N  1)  Z 2 . 2
Z 2 .N . p (1  p )
n 2
E ( N  1)  Z p (1  p )
2

C) Derivación de la formula
 
Pr{x  Z o    xZ }  1a
n n
Error = e
Entonces
Z
e
n
Elevando al cuadrado
Z 2 . 2
e 
2
Z 2 . 2
n
e2
Ejemplo 1
A fin de conocer el gasto mensual en golosinas por
familia, el Gerente de Marketing de una empresa desea
determinar el tamaño de la muestra que le proporcione
un nivel de confianza de 0,95 (Z = 1,96). Además
conoce por estudios anteriores que las compras
medias por familia eran de S/. 120 mensuales, con una
desviación estándar de 30. El Gerente busca un
tamaño de muestra que le permita estimar el nivel de
gasto con un error de 10.

Solución
2 2
Z s
n =
2
Datos: e
1 - a = 0,95
Z = 1,96
 = 30 2 2
( 1 , 96 ) ( 30)
e = 10 n =
2
(1 0 )
n = 35

Para proporciones se calcula a partir de la formula
donde
Z : Valor tabular para un
2 nivel de confianza
Z p(1-p)
n= 2 p(1-p): Varianza
e

Ejemplo 2
Un congresista desea determinar su popularidad en

zona norte del país. Especifica que la proporción de
electores que lo apoyarán debe calcularse dentro
del ± 2% de la proporción de la población, ademas,
desea tener un grado de confianza de 0,95. En las
elecciones pasadas recibió 40% de los votos en
esa parte del país. Duda que esto haya sufrido
muchos cambios. ¿De cuántos electores debe ser la
muestra?.

Solución
Datos: (1,96) 2 (0,40)( 0,60)

n
1 - a = 0,95 (0,02) 2
Z = 1,96 0,921984
p = 0,40 n
(0,02) 2
e = 0,02
n  2305

ENTONCES
A. Para estimar una media poblacional:
Se calcula a partir de la formula siguiente
Za S 2e
n 2
 2
donde
Za 2 : Valor tabular para un nivel de confianza.
Depende del nivel de confianza utilizado
por la estimación del parámetro
desconocido. Toma un valor de 1,96
para un nivel de confianza de 0,95.
2
s : Varianza obtenida de revisión bibliográfica
e
UNSA
o estudio piloto.
2
A mayor variabilidad de la muestra , s e
mayor varianza. A mayor varianza mayor tamaño

muestral representa el error de muestreo,
llamado error de estimación o precisión de la
estimación. El valor debe ser asumido por el
investigador. En este caso   (   x)
Para poblaciones finitas (se conoce N), el tamaño
final (nf) queda definido por la siguiente relación
n
nf 
n
1
N
Ejemplo 2
En cierta población se 1200 maestristas, se desea estimar el
nivel promedio de notas en el curso de estadística con 0,95
de confianza. Al realizar un estudio piloto se encontró que
x  12,3 y S=1,6. Si los investigadores están dispuestos a
asumir un Za 2  1,96   0,5 .Calcular n
N = 1200
n
Za2 2s2e

1,96 1,6
2 2
 39,33
Se = 1,6  2
0,52
  0,5

n 39,33
nf    38,08  39
n 39,33
1 1
N 1200
Interpretación
El número mínimo necesario de maestristas para
realizar el estudio es de 39, si se desea estimar el nivel
promedio

notas en la población con una precisión de
0,5.

Ejemplo 3
En cierta población de 1200 escolares, de 9 – 11 años
se desea estimar el nivel promedio de hierro sérico.
Con este fin se va a seleccionar una muestra
probabilistica. Si en un estudio similar se obtuvo una
media aritmética de 60,6 mg/dl y S = 22,4 mg/dl.
Calcular el tamaño mínimo de la muestra si la
Za 2  1,96   5
estimación del parámetro se va a realizar con 0,95 de
confianza y se asume un   5
N = 1200 Za2 2s2e 1,962 22,42
n   77,10
Se = 22,4
UNSA
 2
5 2
n 77,10
nf    72,44  73
n 77,10
1 1
N 1200
Interpretación :
El número mínimo necesario de escolares para realizar el
estudio es 73, si se desea estimar el nivel promedio de
hierro sérico en la población con una precisión  5

B. Para estimar una proporción poblacional: 
2
Za 2p e qe
n
 2
donde:
pe = proporción “estimada” de sujetos con la
característica de interés. Se puede obtener
de revisón bibliográfica, estudio piloto o
asumiendo pe = qe= 0,50
qe = proporción “estimada” de sujetos sin la
caracteristica de interés.
 = Error absoluto de muestreo o precisión. Debe
ser asumido por el investigador.
    p
Si se conoce N:
n
nf 
n
1
N
Ejemplo 1:
En una población grande, se desea estimar la
prevalencia de gripe con 0,95 de confianza. De la
literatura se sabe que p = 0,10 si se asume un error
muestral de 5%, calcular n

Za2 2p e qe
n
Datos  2
Za 2  1,96 n
1,96 2 0,10,9 
p e  10%  0,10 0,05 2
qe  90%  0,90
  0,05 n
0,345744
 138,3  139
0,0025
Interpretación: Si se desea estimar la prevalencia

poblacional con 0,95 de confianza y un  de 5% se deberá
evaluar 139 sujetos.
DISTRIBUCIONES
MUESTRALES E
INTERVALOS DE
CONFIANZA
Introducción
La estadística se divide en DESCRIPTIVA e
INFERENCIAL
DESCRIPTIVA
ESTADISTICA Estimación
INFERENCIAL
Prueba de
Hipótesis

Tipos de estimaciones
A) Estimación puntual
Un sólo número se utiliza para estimar un

parámetro desconocido. Para ser útil debe de
estar acompañado del error.
Ejemplo:
Para el próximo mes se espera que las ventas
sean 700 unidades con un error de 10%.

B) Estimación por intervalo
Un intervalo de valores se utiliza para estimar un

parámetro desconocido. El error se indica de dos
manera: por la extensión del intervalo y por la
probabilidad de obtener el verdadero parámetro de la
población que se encuentra dentro del intervalo.
Ejemplo:
Para el próximo mes se espera que el número de
requerimiento en el servicio de lavado de autos sean
entre 670 y 730 vehículos, con un error 5%.

CRITERIOS PARA SELECCIONAR
UN ESTIMADOR: CESI.
• Coherencia: si al aumentar n, el
estimador se aproxima al parámetro.
• Eficiencia: proporciona menor error
estándar que otros estimadores.
• Suficiente: utiliza mayor cantidad de la
información contenida en la muestra
que otro estimador.
• Insesgado (o imparcial): si el estimador
tiende a tomar valores por encima y por
debajo del parámetro que estima, con la
misma frecuencia.
Las Estimaciones Puntuales
(A) De la media poblacional
La media muestral x estima a la media poblacional 
(B) De la varianza y la desviación estándar
S2 estima 2
S estima 
(C) De la proporción poblacional
p estima 

Los intervalos de confianza
Conceptos
• Nivel de confianza: probabilidad que asociamos
con una estimación del intervalo. Se representa
con (1 - a). Los niveles más utilizados son 0,90 0,95
y 0,99.
• Intervalos de confianza: es el alcance de la

estimación que estamos haciendo.

Distribuciones Muestrales: La Media

n n
_ X i _ X i
N n X1  i 1
X4  i 1
n n
n
n nn n n
n
_ X i _ X i
X2  i 1
X5  i 1
n n n
n
X n
X
_ i
X3  i 1

n i
X
 i 1
N
Distribuciones Muestrales:
El Error Estandar de la Media

n
N n
X 
n
n
n
nn i
n

Efecto del Tamaño de la Muestra
En la Distribución Muestral
X 
X  Z
Z 

n

X    Z X Z
n
Intérvalo que incluye
una proporción fija de medias

Xu    Z
n

XL    Z
n

Intérvalo de Confianza para las Medias
Mis imágenes\2005-08 (Ago)\scan.jpg

POBLACION Y MUESTRA
2  Conocida
  800
  1,5
X = 799,5

X   Conocida
Z

n
X Z

  X Z


n n

POBLACION Y MUESTRA
3  Desconocida
  800
X = 796
S=1,8

X   Desconocida
t n -1 
S
n
S S
X  t n 1    X  tn1
n n

Intérvalo de Confianza para Proporciones
  (1   )
 
n
 x (1   x )  x (1   x )
x  Z    x  Z
n n
La proporción muestral Px = X / n
= número de exitos/ tamaño de la muestra
Intervalo para la media
A partir de muestras grandes
x -
pero Z =

n
-Z0 Z0
Pr Z 0  Z  Z 0   1  a
 x 
Pr  Z 0   Z0   1  a
 x 
   
Pr  x  Z0    x  Z0   1  a
 n n 

Ejemplo:
En un estudio de mercado, se realizó una encuesta

a 400 familias calculando un gasto medio anual en
ropa de S/. 740 por familia. La desviación estándar
fue S/. 400. Construya e interprete un intervalo de
confianza al 0,95 de la estimación del gasto medio
anual de ropa por familia en esa ciudad.

   
Pr  x  Z0    x  Z0   1  a
 n n 
 400 400 
Pr 740  (1.96)    740  (1.96)  0.95
 400 400 
Pr700.80    779.20  0.95

Interpretación:
Hay 0,95 de confianza que el intervalo hallado se
encuentre dentro del grupo de intervalos que
contienen a la verdadera media poblacional (.
Ls

LI
muestra
1 2 3 4 5 6 7 8
A partir de muestras pequeñas
x -
Pero, t=
S
n
-t0 t0
Pr t0  t  t0   1  a
 
 x 
Pr  t0   t0   1  a
 S 
 n 
 s s 
Pr  x  t0    x  t0   1a
 n n
Ejemplo
Se desea estimar el tiempo medio de estancia en un hotel
para cierto tipo de clientes. Se selecciona una muestra
aleatoria de 25 clientes y se calculó x  5,7 y S = 4,5
días. Estimar  con 0,95 de confianza.
 S S
Pr x  t n1    x  t n1   1 a
 n n
 4,8 4,8 
Pr 5,7  2,064    5,7  2,064   1  0,05
 25 25 
Pr3,72    7,68  0,95

Interpretación:
Hay 0,95 de confianza que el intervalo
construido se encuentre dentro del grupo de
intervalos que contienen a la verdadera media
poblacional () de la estancia en el hotel.

Ejemplo 2
n=9
x  41,27
S = 16,23
a = 0,05
 S S
Pr x  t n1    x  t n1   1 a
 n n
 16,23 16,23 
Pr 41,27  2,306    41,27  2,306   0,95
 9 9 
Pr 28,80    53,74  0,95

Interpretación:
Hay 0,95 de confianza que el intervalo construido se
encuentre dentro del grupo de intervalos que contienen a
la verdadera media poblacional ().

Ejemplo:
Nueve (9) automóviles del mismo modelo fueron

conducidos de idéntica manera usando un litro de
gasolina corriente. La distancia media recorrida por
estos automóviles fue de 8 Kms. con una desviación
estándar de 1,14 Kms. Construya e interprete un
intervalo de confianza al 0,95 para estimar el
kilometraje medio por litro de gasolina para este
modelo de automóvil.

Solución:
GL= n - 1 = 8 t = 2,306
 1.14 1.14 

Pr8 2.306(  
) 8 2.306( )  0,95
 
 9 9 
Pr {7,12372
.    8,.87628} . 0,95

Interpretación:

encuentre dentro del grupo de intervalos que contienen
a la verdadera media poblacional.

Intervalo para la proporción
Pero
p 
Z
p
-Z0 Z0
donde
Pr{ Z o  Z  Z }  1  a p (1  p )
p 
p  n
Pr{ Z o   Z}  1  a
 `p
Pr{ p  Z p    p  Z o p }  1  a

Ejemplo:
Suponga que 1600 de 2000 trabajadores

sindicalizados que se muestrearon de una gran
industria dijeron que planean votar por unirse a una
federación. Si se utiliza un nivel de confianza de 0,95
¿cuál es la estimación de intervalo para la proporción
de la población?. Interprete.

1600 (0,80)(1  0,80)
p  0.80 p 
2000 2000
Z  1,96  p  0,00894
Pr{0,80-1,96(0,00894) < < 0,80 +1,96(0,00894) }= 0,95
Pr{0,782 <  < 0,818} = 0,95

Interpretación:
Hay 0,95 de confianza que el intervalo calculado pertenece al

grupo de intervalos que contienen a la verdadera proporción
poblacional.

Ajuste para poblaciones
finitas
El error estándar de la estimación sufre un ajuste, cuando se
trata de una población finita.
 N n
Error estándar de la media X  .
n N 1
Error estándar de la proporción   p(1  p) . N  n

p
n N 1
Si la proporción n/N es menor a 0,05 se omite el ajuste.

Ejemplo 1
Hay 250 familias en un pequeño poblado. Una encuesta

con 40 familias reveló que la contribución media anual a
obras comunitarias es de US $450, con una desviación
estándar de US $ 75. Establezca un intervalo de
confianza de 0,95 para la contribución media anual.
Interprételo.

Solución:
Como la muestra es mayor a 5%, procede el ajuste.
  N  n    N  n 
Pr{x  Z 
n  N 1     xZ    1  a
n  N 1 
 75  250  40   75  250  40 
Pr{450 1,96      450  1,96  }  0,95
 40  250 1   40  250 1 
Pr{450  23,24( 0,8433)    450  23,24( 0,8433)}  0,95
Pr{428,66    471,34}  0,95

Interpretación:
Hay 0,95 de confianza que el intervalo elaborado

pertenezca al grupo de intervalos que contienen a la
verdadera media poblacional.

Ejemplo 2
Hay 300 técnicos en una gran empresa metal mecánica.

Una muestra de 50 reveló que 18 cuentan con una
experiencia previa en otra empresa similar. Establezca un
intervalo de confianza al 0,95 para la proporción de
técnicos con experiencia en otra empresa.

Solución:
(036)(1  0,36)
p 
18 50
p  0,36
50  p  0,06788
 N  n)   N  n) 
Pr{ p  Z o p      p  Z o p 
 
}  1  a

 N 1   N 1 
 300  50   300  50 
Pr{0,36  (1,96)(0,06788)      0,36(1,96)(0,06788) }  0,95
 
 300  1   300  1 
Pr{0,36  0,12165    0,36  0,12165}  0,95
Pr{0,23835    0,48165}  0,95

Interpretación:
Hay 0,95 de confianza que el intervalo construido

pertenezca al grupo de intervalos que contienen a la
verdadera proporción poblacional.

Intervalo para la varianza
(n - 1)S2
Pero ,  (2n1)
2
12-a 2 a2 2
 2 2 
Pr  1-a    a   1  a
2
 2 2

Entonces:
 2 (n  1) S 2 2 
Pr  1-a 2   a 2   1  a
  2


 1 2 1  
Pr  2   2   1a
 1-a 2 (n  1) S
 a 2 
2


 (n  1) S 2 ( n  1) S 2 

Pr    2
  1a
 a 2
 1-a 2 
2 2


Ejemplo:
El número de ventas realizadas durante 10 días (n =

10) presenta una varianza de 9 (s2 = 9). Establezca un
intervalo de confianza para la varianza poblacional
(2 al 0,90.Interprételo.

Solución:
 9(9) 9(9) 
Datos: Pr   2    0.90
16,919 3,325 
S2 = 9
n = 10
 81 81 
a = 0,10 Pr   
2
  0.90
16,919 3,325 
 
Pr 4.7875   2  24,3609  0.90

Interpretación:

encuentre dentro del grupo de intervalos que contienen a
la verdadera varianza poblacional.

PRUEBA DE HIPOTESIS
CONCEPTOS BÁSICOS
(A) Hipótesis: Suposición acerca del parámetro.

 Hipótesis planteada o nula. Hp ó H0
Es la suposición que el parámetro tome un
determinado valor.
Ejemplo: La hipótesis nula es que la media de

la población es igual a 200.
Ho :  = 200

 Hipótesis alternativa (Ha o H1)
Es el complemento de la hipótesis nula. Se acepta
cuando se rechaza la hipótesis nula.
Formas
Si Ho :  = 200 Ha :  200
Si Ho :   200 Ha :  > 200
Si Ho :   200 Ha :  < 200
La condición “igual” siempre se considera en la
hipótesis nula

Las siguientes afirmaciones son hipótesis estadísticas.
 La media de vida de los peruanos es de 72 años.
 La eficacia de dos medicamentos para curar cierta gripe
es similar.
 Las notas de la el aula sigue un modelo normal de
media de 12 y desviación estándar de 2.5
Una prueba de hipótesis permite aceptar o rechazar si
determinadas afirmaciones son ciertas o falsas en función
de los datos observados en una muestra.

(B) Objetivo de la prueba de hipótesis.
El propósito de la prueba de hipótesis no es

cuestionar el valor calculado del estadístico
(muestral), sino hacer un juicio con respecto a
la diferencia entre estadístico de muestra y un
valor planteado del parámetro.

(C) Nivel de significación (a)
a /2 a /2
(1 - a )
Zona de
Aceptación
-Z0 Z0
Si suponemos que la hipótesis planteada es verdadera,

entonces, el nivel de significación indicará la probabilidad
de no aceptarla, es decir, estén fuera de área de
aceptación.

El nivel de confianza (1-a), indica la
probabilidad de aceptar la hipótesis planteada,
cuando es verdadera en la población.

(D) Tipos de errores
Cualquiera sea la decisión tomada a partir de una prueba de

hipótesis, ya sea de aceptación de la Hp o de la Ha, puede
incurrirse en error:
La muestra seleccionada conduce a

EN LA POBLACIÓN ACEPTAR Hp RECHAZAR Hp
Hp es cierta Decisión correcta Error tipo I ó a
Hp es falsa Error tipo II ó  Decisión correcta

(1 - a) Zona de rechazo
si Hp es cierta a
0
Hp   0
Poder de la prueba
Ha   0
(1 - )

1
Zona de aceptación Hp
Zona de Rechazo Hp

Si la hipótesis planteada, Hp :   0 , es cierta, la zona de
rechazo, a, medirá la probabilidad de que se rechace
dicha hipótesis siendo cierta, incurriendo en Error Tipo I o
a.
Supongamos que la hipótesis planteada es falsa,

Hp:   0 , y que la alternante Ha:  >  0 es verdadera, y
si los resultados de la muestra nos conducen a aceptar la
hipótesis planteada, estamos cometiendo el Error Tipo II ó


La magnitud del Error  depende de la magnitud del
Error a y de la discrepancia entre  0 y  1
Se observa la existencia de una relación inversa entre la

magnitud de los errores a y  : conforme a aumenta, 
disminuye.

Esto obliga a establecer con cuidado el valor de a para las
pruebas estadísticas. Lo ideal sería establecer a y .
En la práctica se establece el nivel a y para disminuir el
Error  se incrementa el número de observaciones en la
muestra, pues así se acortan los limites de confianza
respecto a la hipótesis planteada.

La meta de las pruebas estadísticas es rechazar la hipótesis
planteada. En otras palabras, es deseable aumentar a
cuando ésta es verdadera, o sea, incrementar lo que se
llama poder de la prueba (1- )
La aceptación de la hipótesis planteada debe interpretarse

como que la información aleatoria de la muestra disponible
no permite detectar la falsedad de esta hipótesis.

E) Tipos de prueba
a) Prueba bilateral o de dos extremos: la hipótesis

planteada se formula con la igualdad
Ejemplo
a/2 a/2
(1 - a
Hp :  = 200 Zona de
Ha :   200 Aceptación
-Z0 Z0

b) Pruebas unilateral o de un extremo: la hipótesis
planteada se formula con  o  .
Hp :   200 Hp :   200
Ha :  < 200 Ha :  > 200
a
a (1 - a)
(1 - a)

PRUEBA DE HIPOTESIS
Prueba con una sola muestra
CARGA PARA UN
AUTOSERVICIO
Nos indican que el cargamento
contiene cajas de vino
embotellado. Cada caja contiene
24 botellas con 800gr promedio
con una desviación estandar de
1,5.
La empresa aceptará el
cargamento si la prueba de
hipótesis indican su aceptación
si la media es 800gr. Rechazará
si la media es diferente a 800gr
La empresa realiza una muestra
UNSA de 24 botellas
PRUEBA DE HIPOTESIS
Prueba con una sola muestra
Muestreo: Peso de líquido de 24
botellas con una media de 796
ALTERNATIVAS DE DECISION
Aceptar si Ho:   800
Rechazar si Ha:   800
Cargamento Cargamento
Bueno Malo
N Aceptar el ERROR
Cargamento TIPO II
Rechazar el ERROR
n
Cargamento TIPO I

PRUEBA DE HIPOTESIS
Planteamiento de Hipótesis
Ho :   800 Ha :   800
Bueno Malo
Aceptar el
Ho ERROR TIPO II
Cargamento
Ha Rechazar el
ERROR TIPO I
Cargamento
Ho :   800
Ha :   800    800 ó   800

PRUEBA DE HIPOTESIS
Probabilidad de ocurrencia
Ho :   800 Ha :   800
Bueno Malo
Ho
Aceptar el Confianza  (1  a )
Cargamento

Ha Rechazar el
Cargamento
a Potencia  (1   )
Probabilidad de que ocurra =

PRUEBA DE HIPOTESIS
1  Conocida
  800
  1,5
X = 796

botellas con una media de 796
Rechazar
UNSA si Ha:   800 Dr. Armin Becerra Guzmán 335
PRUEBA DE HIPOTESIS
Ho :   800
Rechazar Aceptar Rechazar
95%
X  796  800
Z Z
 1.5 Z  13,06
n 24
PRUEBA DE HIPOTESIS
2  Conocida
  800
  1,5
X = 799,5
botellas con una media de 799,5
Rechazar si Ha:
UNSA
  800 Dr. Armin Becerra Guzmán 337
PRUEBA DE HIPOTESIS
Ho :   800
95%
X  799.5  800
Z Z
 1.5 Z  1,632
n 24
PRUEBA DE HIPOTESIS
3  Desconocida
  800
X = 796
S=1,8
botellas con una media de 796 y
desviación de 1,8

 800
Aceptar si Ho:
UNSA
  800 Dr. Armin Becerra Guzmán 339
PRUEBA DE HIPOTESIS
Ho :   800
95%
-2,0687 2,0687 t
X  796  800
t t
S 1 .8 t  10,88
n 24
Prueba de hipótesis acerca de
la media poblacional
(A) Con varianzas conocidas (muestras grandes)
Ejemplo:
Se afirma que el salario diario medio de los técnicos
de una cierta zona minera es de S/.65,42, con una
desviación estándar S/. 2,32. Una muestra de 144
técnicos que laboran en esa zona reciben un salario
diario medio de 64,82 soles. ¿Puede considerarse
este resultado como sustento para afirmar que
técnicos de esa zona tienen un salario diario
diferente de S/. 65,42 a un nivel de significación a =
0,05 ?.

Procedimiento
1) Plantear las hipótesis:

Hp :  = 65,42
Ha :   65,42
2) Seleccionar el nivel de significación: a = 0.05
3) Elegir la prueba estadística: x -
c 
x
Los supuestos son:
• la población está normalmente distribuida.
• la muestra ha sido seleccionada al azar.

4) Determinación de los criterios de decisión
a/2 a/2
(1 - a)
-Z0 Z0
-1.96 1,96
Si { -1.96  Zc  1.96 } se acepta la Ho, en caso

contrario se rechaza.
5) Cálculos:   64,82  65,42  3,10
c
2,32
144

6) Conclusiones
(1) Se rechaza la hipótesis planteada y se acepta la

hipótesis alternante a un nivel de significación
de 0,05. La prueba resultó ser significativa.
(2) La evidencia estadística permite rechazar la
hipótesis planteada.
(3) Por lo tanto los datos muestrales confirman
que el promedio de salarios diarios de los
técnicos de la zona de estudio es menor de
S/.65,42.

PRUEBA DE HIPOTESIS
Prueba con una sola cola
CARGA PARA UN AUTOSERVICIO
Suponga que el cargamento llega
con las siguientes especificaciones:
Contiene cajas de vino embotellado.
Cada caja contiene 24 botellas:
Cada botellas tiene mas de 800 gr
con una desviación estandar de
1.4grs.
La empresa aceptará el cargamento
si la prueba de hipótesis indican su
aceptación: si las botellas tienen
mas de 800gr, rechazará si tiene
menos o igual de 800gr.
La empresa realiza una muestra de
24 botellas
PRUEBA DE HIPOTESIS
4  Conocida
  800
  1,4
X = 799,8
Ho :   800
Ha :   800
PRUEBA DE HIPOTESIS
Ho :   800
Rechazar Aceptar Aceptar
95%
5% 1,645
-1,645 1,645
X  799,8  800
Z Z
 1.4 Z  0,699
n 24
EJEMPLO
El administrador de un centro de internet desea saber si el

tiempo medio invertido por cliente en la sala de cómputo es
mayor que 20 minutos. Una muestra de 100 clientes
permanecieron, en promedio, 23 minutos en la sala de
cómputo. La desviación estándar de la muestra fue de 10.
Sea a=0.05
1. Plantear las hipótesis Ho :   20

Ha :   20
2.Definir la prueba estadística: Como n = 100, entonces se
aplica PRUEBA Z
3. Seleccionar el nivel de significación a = 0,05
4. Determinar el valor crítico: Como a = 0,05 y es de

una sola cola, entonces Z = 1.645
Criterios de decisión
Si prueba Z es mayor que
1,645, se rechaza Ho.
Si prueba Z es menor o igual
que 1,645, se acepta Ho.
  
0 1,645

5. Realizar el cálculo del estadístico Z
x   23  20 3
Z   3
sx 10 1
100
6. Conclusiones
(A) Se rechaza la hipótesis planteada, se acepta la
hipótesis alternante a un nivel de significación de
0,05. La prueba resultó significativa
(B) Los datos disponibles como evidencia empírica,
han permitido rechazar la hipótesis planteada.
(C) El tiempo que espera un cliente muy
probablemente sea mayor a los 20 minutos.
(B) Con varianzas desconocidas (muestras chicas)
Ejemplo: En un programa de mejoramiento del desempeño

en la oficina de marketing, los participantes miden su
progreso mediante el tiempo que les toma realizar cierto
proceso de venta.
Se tomó una muestra de 25 sujetos de esta empresa para
medirles el tiempo que requieren para culminar el proceso
de venta (en minutos) de otorgar una cita a un cliente,
encontrándose una media muestral de 11,7 minutos y una
desviación de estándar de 2,3 minutos.
¿Se puede afirmar que el tiempo medio para culminar este
proceso es inferior de 12 minutos?. Utilice un nivel de
significación a = 0,05.

Solución
1) Hipótesis: Hp :   12
Ha :   12
2) Nivel de significación: a = 0,05
3) Prueba estadística: x-
tc 
S
n
Los supuestos son:
•la población se distribuye normalmente.
•la muestra elegida al azar.
4) Criterios de decisión
a
(1 - a
-t0
-1.711
to con GL = 24 y a = 0,05
Si { tc>-1,711} se acepta la Hp en caso
contrario se rechaza

5) Cálculos:
 12
tc  112,,70
3
 0,6522
25

6) Conclusiones
• Se acepta la hipótesis planteada a un nivel de

significación de a = 0,05. La prueba resultó no
significativa.
• Los datos muestrales no permiten afirmar que el
tiempo requerido para culminar la tarea es inferior a 12
minutos.

PRUEBA DE HIPOTESIS
Prueba para proporciones
CARGA PARA UN AUTOSERVICIO
Suponga que el cargamento llega
con las siguientes
especificaciones: Contiene cajas
de vino embotellado. Cada caja
contiene 24 botellas: Las botellas
continen 800gr. De un total de 100
botellas, 92 botellas tienen
exactamente esta cantidad.
La empresa aceptará el
cargamento si la prueba de
hipótesis indican su aceptación
La empresa realiza una muestra de
24 botellas

PRUEBA DE HIPOTESIS
4
  92 / 100
 x  22 / 24
Ho :   0,92
Ha :   0,92

PRUEBA DE HIPOTESIS
Ho :   0,92
95%
x   0,9166  0.92
Z Z
 (1   ) 0,92(1  0,92) Z  0,6139
n 24
Prueba de hipótesis acerca de la
proporción poblacional ()
Ejemplo:
El Gerente de la Empresa Misti afirma que por lo menos
55% de los clientes se encuentra plenamente satisfecho con
los servicios recibidos. ¿Qué conclusión puede obtenerse si
de una muestra aleatoria de 500 clientes 245 manifestaron
su preferencia?. Utilice un nivel de significación a = 0,01
para comprobar la afirmación.
Proporción 245
muestral : p=  0,49
500

1) Planteo de Hipótesis:
Hp :   0,55
Ha :   0,55
3) Prueba estadística: p -
c 
p
Los supuestos son:
• la población se distribuye normalmente.

(1 - a
Z 
-2,33
Si { Zc>-2,33} se acepta la hipótesis planteada, en

caso contrario se rechaza.

5) Cálculos
 (1   )
p 
n
(0,55)(0,45)
p   0,022
500
Reemplazando valores en Z:
0,49  0,55 0,06
Z   2,73
0,022 0,022

6) Conclusiones
1) Se rechaza la hipótesis planteada y se acepta la
hipótesis alternante a un nivel de significación a
= 0,01. La prueba resultó ser altamente
significativa.
2) La evidencia empírica nos permite rechazar la
3) El Gerente de la empresa está equivocado en su
afirmación, puesto que el resultado de la prueba
indica que los clientes que se encuentran
plenamente satisfechos es menor a 55%.

EJEMPLO
Una encuesta en 64 laboratorios clínicos reveló que el

precio medio cobrado por realizar cierta prueba es de
S/. 12.00 con una desviación estándar de S/. 6.00. ¿
Proveen estos datos la suficiente información para
indicar que la media de la población es mayor que
10?. Sea a = 0.01

EJEMPLO
Los siguientes datos son los consumos de oxígeno

(en ml) durante la incubación de una muestra
aleatoria de 15 suspensiones celulares: 14.0, 14.1,
14.5, 13.2, 11.2, 14.0, 14.1, 12.2, 11.1, 13.7, 13.2,
16.0, 12.8, 14.4, 12.9.
¿Proporcionan estos datos suficiente evidencia, aun
nivel de 0.05 de significación , de que la media de la
población no es igual a 12 ml.?.

EJEMPLO
El administrador de una empresa quiere saber si la

población que concurre a una oficina A tiene un ingreso
medio familiar mayor al de la población que concurre a
una oficina B. Los datos consisten en los ingresos
familiares de 75 clientes encuestados en la oficina A y
80 clientes encuestados en la oficina B. Las medias de
las muestra son S/ 6800 y S/ 5450 respectivamente, y
varianzas de S/ 600 y S/ 500 respectivamente.

EJEMPLO
Un epidemiólogo desea comparar dos vacunas
antirrábicas para averiguar si es posible concluir que
existe diferencia en su efectividad. Las personas que
previamente habían sido vacunada contra la rabia se
dividieron en dos grupos. El grupo 1 recibió una dosis de
refuerzo de la vacuna del tipo 1, y el grupo 2 recibió una
dosis de refuerzo de la vacuna del tipo 2. Las respuestas
de los anticuerpos se registraron dos semanas después:
Grupo n x s
1 10 4.5 2.5
2 9 2.5 2.0
EJEMPLO
Doce individuos participaron en un experimento para

estudiar la efectividad de cierta dieta, combinada con un
programa de ejercicios, para la reducción de los niveles de
colesterol en suero. ¿ proporcionan estos datos la evidencia
suficiente para concluir que el programa de ejercicios y
dieta es efectivo para la reducción de los niveles de
colesterol en el suero?.
Antes: 201, 231, 221, 260, 228, 237, 326, 235, 240,
267, 284, 201
Después: 200, 236, 216, 233, 224, 216, 296, 195, 207,
247, 210, 209
Ejemplo
Se hizo un estudio de una muestra de 25 registros de

clientes mas importantes. El número medio de visitas
por cliente fue 4,8 y la desviación estándar muestral
fue de 2. ¿Puede concluirse a partir de estos datos
que la media de la población es mayor que cuatro
visitas por cliente?. Suponga que la probabilidad de
cometer error del tipo I es de 0,05.

Prueba de Hipótesis acerca de la Varianza
Poblacional
Ejemplo:
El Gerente de Producción de una fábrica productora
de agujas industriales, entre ellos agujas N° 21, desea
que la variabilidad de éstas sea a lo más 0,0005 cm y
para el efecto, decide tomar una muestra de su
producción escogiéndola al azar obteniendo los
resultados:
1,13; 1,12; 1,15; 1,10; 1,11; 1,18; 1,20;
1,14; 1,12; 1,19; 1,10; 1,14; 1,13.
La probabilidad de cometer error tipo I escogido por
el fabricante es 0,01.
Hp : 2  0,0005
Ha : 2  0,0005
3) Prueba estadística: (n – 1) S2
2
Los supuestos son:
• la población se distribuye normalmente.

a/2=0,01
(1 - a
0,99
 a2
2
26,217
Si {2  26,217 } se rechaza la hipótesis planteada, en caso

contrario se acepta.

5) Cálculos
Datos:
n = 13
S2= 0,0011634
(13 – 1) (0,0011634)
0,0005
= 27,92736

PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE
MEDIAS
PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE MEDIAS
CARGA PARA UN
AUTOSERVICIO
Nos indican que la doble
carga contiene cajas de vino
embotellado. Cada caja
contiene 24 botellas con
800gr promedio con una
desviación estandar de 1,5.
La empresa aceptará los
cargamentos si la prueba de
N hipótesis indican su
aceptación
n La empresa realiza 1
n
muestra de 24 botellas por
cada carga
PRUEBA DE HIPOTESIS
1 2
  800   800
  1,5   1,5
X = 799,8 n X = 801,5 n
Ho : 1   2 ó 1   2  0
Ha : 1   2 ó 1   2  0

PRUEBA DE HIPOTESIS
Ho : 1   2
95%
( X 1  X 2 )  ( 1   2 ) (799,8  801,5)  (800  800)

Z Z
 12  22 1,52 1,52
 Z  3,92

n1 n2 24 24

PRUEBA DE HIPOTESIS
Si no se conoce las
desviaciones poblacionales
( X 1  X 2 )  ( 1   2 )
t
2 1 1
Sx (  )
n1 n2
Donde
(n  1) S1  (n2  1) S 2
2 2
 1
2
Sx
(n1  1)  (n2  1)

Prueba de Diferencia de Medias
con Varianzas Conocidas
Ejemplo:
Una empresa de confecciones desea tener

información de las estaturas de niños de 10 años.
En un estudio comparativo de las estaturas de
niños de 10 años, en dos ciudades diferentes, se
conoce que la desviación estándar poblacional es
0,8 y 1,1 metros respectivamente. Se desea
conocer si existe diferencia entre la media de talla
de los niños de 10 años de las dos ciudades; una
muestra de 30 y 35 niños determinó una media
muestral de 1,30 y 1,35 metros respectivamente.
Probar la hipótesis respectiva usando un nivel de
significación de 5%.

Solución:
1) Planteo de Hipótesis
Hp :  = 2
Ha :   2
2) Nivel de significación a  0,05
x  x 2  -  1  2 
3) Prueba de estadística
c 
1
 12  22

n1 n2
con los supuestos
– las distribuciones son normales
– las muestras se seleccionaron al azar.

  2   2
a/2  .25 (1 - a
a/2  .25
  2
-Z0 Z0
-1.96 1.96
Si ,9  Zc  ,9 se acepta Ho, en caso

contrario se rechaza.

5) Cálculos
c 
1,30  1,35 - 0  0,2115
0,8 1,1
2 2

30 35

6. Conclusiones
1° No se rechaza la hipótesis nula, a un nivel de
significación de 0,05. La prueba resultó no
significativa.
2° La evidencia estadística disponible permite concluir
que no hay diferencias entre las estaturas medias
de niños de 10 años en las dos ciudades

Prueba para diferencia de medias con
varianzas no homogéneas y n  30
1) Planteo de hipótesis
Ho :  = 2
Ha :   2
2) Nivel de significación a  ,5
3) Prueba estadística
x  x2  -  1  2 
tc  1
S12 S 22

n1 n2
con los supuestos
las poblaciones se distribuyen normalmente
las muestras han sido seleccionada al azar
EJEMPLO
Se cuenta con dos muestras de tamaño 13 y 10 con
medias 11,09 y 13,46 y desviaciones estandar de 1,74 y
8,45 respectivamente, determinar si las medias
poblacionales son significativamente diferentes con un
nivel de confianza del 95%
Ho :  = 2
Ha :   2
2) Nivel de significación a  ,5
x  x2  -  1  2 
tc  1
S12 S 22

n1 n2
S12 S 22
t1  t 2 1,74
(2,179) 
8,45
(2,262)
t 
n1 n2 t  13
1,74 8,45
10  2,25
2
S1 S 2 2 
 13 10
n1 n2
  2   2
(1 - a a/2
a/2
  2
- t´ t´
-2,25 2,25
Si 2,25  tc  2,25 se acepta la Ho, en caso contrario

UNSA
se rechaza
5) Cálculos
tc  11.09  13.46 - 0  0.2989

.37
 2.4
1.74 8.45

13 10

6) Conclusiones
1° Se rechaza la Ho se acepta la H1 a un nivel de

significación de 5%. La prueba resultó ser
significativa.
2° La evidencia estadística no permite aceptar la Ho
3° La estatura de los dos grupos de edades no tienen el

mismo promedio.

Prueba para diferencia de medias con
variancias homogéneas y 2 desconocidos
Ejemplo:
Una empresa productora de lácteos NESTUI desea

determinar si existen diferencias en los promedios de
incrementos de peso (gramos) de niños recién nacidos (en
un período 20 días) alimentados con leche materna y leche
en polvo NESTUI.
Leche NESTUI Leche Madre
Incremento medio de peso X1 = 366,35 X2 = 369,74

Desviación estándar S1 = 16,71 S2 = 14,20
Tamaño de la muestra n1 = 25 n2 = 20

Solución:
Ho :  = 2
Ha :   2
2) Nivel de significación a  0,01

x  x2  -  1  2 

1
tc
1 1
S   
2
 n1 n2 
p
con los supuestos

las muestras han sido seleccionadas al azar
n  1S  n 2
 1S 22

1 1 2
S p2 Variancia
ponderada n1  n2  2

to con (n 1 + n2 -2)
a/2 a/2
(1 - a
- tO tO
-2,6956 2,6956
Si 2,95  tc  2,95 se acepta la Ho, en caso contrario se

rechaza

5) Cálculos
24(16,71) 2  1914,20 
2
S p2 
25  20  2
10,532.538
S 2
p
  244,943
43
Entonces (366,35  369,74)  0

tc 
 1 1 
244,943  
 25 20 
 3,39
tc   0.72
22,045
6) Conclusiones
1° No se rechaza la hipótesis planteada a un nivel de

significación de 0,01. La prueba resultó no significativa.
2° La evidencia estadística disponible no permite rechazar
la hipótesis nula.
3° Los incrementos medios de peso de los niños
alimentados de las dos formas no presentan diferencias
estadísticamente significativas.

Prueba de hipótesis para
diferencia de proporciones
Ejemplo:
Se supone que un ambiente mas iluminado es adecuado

en personas de ambos sexos, estresadas por el trabajo,
para elevar el nivel de productividad. A un grupo de 200
varones estresados se los ubicó en nuevas oficinas
iluminadas y 72 de ellos experimentaron una disminución
en su nivel de estrés. Lo mismo provocó en 49 de una
muestra aleatoria independiente de 200 mujeres con
estrés. Pruebe la hipótesis que el ambiente iluminado es
igualmente eficiente en personas de ambos sexos, con
un a = 0,05 .

Solución:
Ho : 1 = 2
Ha : 1  2
2) Nivel de significación: a  0,05

(p1 - p 2 ) - (1 -  2 )
Zc 
 p1 -p2
con los supuestos
las muestras se han elegido al azar

a/2 a/2
(1 - a
- ZO ZO
-1,96 1,96
Si ,9  Zc ,9 se acepta la Ho, en caso contrario se

rechaza

5) Cálculos
n p  n p ( 200 )( 0 , 36 )  ( 200 )( 0 , 245 )
p̂ = 1 1 2 2   0 , 3025
n  n 200  200
1 2
p̂ q̂ p̂ q̂ (0,3025 )( 0,6975) ( 0,3025 )( 0,6975 )

ˆ    
p p n n 200 200
1 2
1 2
ˆ  0 , 046
p p
1 2
Entonces, (p1 - p 2 ) - ( 1 -  2 ) (0,36  0,245)  0
Zc  
 p1 - p 2 0,046
Z c  2,5
6) Conclusiones
1)Se rechaza la hipótesis planteada y se acepta la

hipótesis alternante a un nivel de significación de 0,05.
La prueba fue significativa.
2)La evidencia estadística no permite aceptar la hipótesis
nula.
3)Existe diferencia significativa en la proporción de
hombres y mujeres beneficiadas con el consumo del
medicamento.

Prueba de hipótesis para diferencia
de medias mediante el
apareamiento de variables
Ejemplo:
Con la finalidad de reducir la producción defectuosa se
calibra las 10 maquinas que se utilizan para encapsular. A
continuación se presenta la información de los productos
defectuosos (en unidades) antes y después de la
calibración. Utilice un nivel de significación de 0,05 para
probar que la calibración tuvo efectos positivos en la
reducción del número de productos defectuosos.

Los datos registrados se presentan a continuación:
MAQUINAS 1 2 3 4 5 6 7 8 9 10
ANTES 73 77 68 62 72 80 76 64 70 72
DESPUÉS 68 72 64 60 71 77 74 60 64 68

Cálculos previos n = 10
Diferencia
Antes Después Diferencias: d de medias
Sd = 3,6
73 68 5
77 72 5
68 64 4
Sd=1.578
62 60 2
72 71 1 d = 3.6
80 77 3
76 74 2 Sd 1.578
64 60 4 Sd =   0.499
n 10
70 64 6
72 68 4
Ho : d  0
Ha : d  0
2) Nivel de significación: a  ,5
3) Prueba estadística d  d
tc 
Sd
con los supuestos
la población (d) se distribuye normalmente
la muestra se ha elegido al azar

to con (n - 1)
(1 - a
a
tO
1,833
Si  c  , se acepta la Ho, en caso contrario se

t
rechaza
5) Cálculos
d  d
tc 
Sd
3.6  0
  7.21
0.499

6) Conclusiones
1) Se rechaza Hp y se acepta la Ha a un nivel de
significación 0,05.La prueba fue significativa.
2) La evidencia estadística no permite aceptar la
3) El número de defectuosos después de la calibración
disminuyó.

PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE
VARIANZAS
11-4
Prueba de Homogeneidad
de Varianzas
• Para prueba de dos colas, el estadístico de prueba está
dado por:
2
S
F  1
2
S 2
• S12 y S 22 Son las varianzas muestrales para las

dos muestras. La hipótesis nula se rechaza si el cálculo
del estadístico de prueba es más grande que el valor
crítico (de tablas) con nivel de confianza a / 2 y grados
de libertad para el numerador y el denominador.

PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE
VARIANZAS
2
S1
F 2
S2
Ho :  1   2
2 2
Ha :  1   2
2 2

PRUEBA DE HIPOTESIS
PARA DIFERENCIA DE DESVIACIONES
1 2
  800   800
n = 24
n n = 24
S = 1,30 n
S =1,45
PRUEBA DE HIPOTESIS
PARA TAMAÑO DE MUESTRAS IGUALES

Si :
Ho :  1   2
2 2
S1= 1.30
S2= 1.45
95% F = 1,69 / 2,1025
F = 0,8038
FL Fu F
0,43 2,33
2
FU  Tabla con a  0.025 S1
FL 
1
F 2
y gl1  23 Y gl 2  23  2.33 FU S2
11-6
EJEMPLO 2
Colin, agente de bolsa del Critical Securities, reportó que

la tasa media de retorno en una muestra de 10 acciones
de software fue 12.6% con una desviación estándar de
3.9%. La tasa media de retorno en una muestra de 8
acciones de compañías de servicios fue 10.9% con
desviación estándar de 3.5%. Para .05 de nivel de
significancia, ¿puede Colin concluir que hay mayor
variación en las acciones de software?

11-7
• Paso 1: H0:s  u H1:s  u

• Paso 2: H0 se rechaza si F > 3,68 (en la tabla)
gl = (9, 7), a= ,05
• Paso 3: F  (3.9) / (35 . ) 2  12416
2
.
• Paso 4: H0 no se rechaza. No hay evidencia suficiente
para asegurar que hay mayor variación en las acciones de
software.

Ejemplo:
En un programa de salud para pacientes con

problemas cardíacos de dos grupos de edades: (40 -
49) y (50 - 59) años, la Tasa de Recuperación Cardíaca
(TRC) es un indicador del progreso del paciente. Una
muestra de pacientes de cada grupo de edad fue
considerado en un estudio, que consistió en medir la
TRC (minutos) de cada paciente después de correr 3
Km.

PRUEBA DE HIPOTESIS
PARA TAMAÑO DE MUESTRAS DESIGUALES
Datos
Tasa de Recuperación Cardiaca (minutos)
Grupo 1 (40 - 49):
12,24; 12,45 11,04 11,22 11,58 8,34 11,16 11,52 8,28
12,01 11,03 12,01 11,31
Grupo 2 (50 -59):

14,33 10,35 12,51 11,28 11,48 14,05 10,51 18,50
18,11 13,45
Determine si existe diferencia en la variabilidad de las TRC
en los dos grupos de edades. Utilice a = 0,10
Las medias y varianzas muestrales de las TRC en los
pacientes de los dos grupos de edades son:
Grupo1 Grupo 2
(40 - 49) (50 - 59)
X = 11,09 X = 13,46
S 1
2 = 1,74 S 22 = 8,45
n1 = 13 n2 = 10

Solución
Ho :    2
1
2
2
Ha :    2
1
2
2

3) Prueba estadística:
2
SM
Fc  2
Sm
S M2 : Varianza muestral mayor
S m2 : Varianza muestral menor
con los supuestos:

- las poblaciones están normalmente distribuidas.
- las muestras han sido seleccionadas al azar

a/2 a/2
(1 - a
F1- a/2 Fa/2

F0,.95 F0,05
0, 326 2,80
Fa  con a 2 y con GL (9,12) = 2,80
2 Invertimos los grados
1 1 libertad para buscar
Fa    0 , 326 F inferior de la tabla
1- 2 F 3 , 07
0,05 (12,9)
 
Si 0,326  F  2,80
. se acepta la Ho en caso contrario se rechaza.
c

5) Cálculos
2
SM 8.45
Fc  2  1.74  4.86
Sm

6) Conclusiones
1° Se rechaza la hipótesis planteada y se acepta la

hipótesis alternante a un nivel de significación de a =
0,10. Las varianzas no son homogéneas
2° La evidencia estadística no permite aceptar la Ho
3° Las TRC de pacientes en los dos grupos de edades
tienen variabilidad diferentes.

PRUEBA DE
INDEPENDENCIA
ESTADISTICA
Ji - cuadrada
USOS DE LA 2
La prueba de bondad de ajuste: probar si la estructura

de la muestra se “ajustan” (o es representativo) de la
estructura poblacional.
La prueba de Independencia: permite probar si dos

atributos son independientes o no.
Ejemplo: sexo y desempeño laboral

f  fe 
2
 
2 0
fe
PRUEBA DE INDEPENDENCIA ESTADISTICA
Ejemplo:
Suponga que en cuatro regiones, la Compañía IBM

registra las actitudes de los empleados de sus oficinas
representantes en nuestro país con respecto al examen
de desempeño en el trabajo. A los trabajadores se les
da a escoger entre el método actual (dos exámenes al
año) y un nuevo método (exámenes cada trimestre).
Utilice un a=0,10 para probar que la región es
independiente a la preferencia por el método de
evaluación.

NUMERO DE TRABAJADORES QUE PREFIEREN UN
METODO EN PARTICULAR
NORESTE SURESTE CENTRO COSTA TOTAL

OCCIDENTAL
METODO
68 75 57 79 279
ACTUAL
METODO 32 45 33 31 141
NUEVO
TOTAL 100 120 90 110 420

HO: Son independientes
H1 : Son dependientes
fe = n. proporción

Prueba estadística:
f  fe 
2
 
2 0
fe
supuestos:
* la población se distribuye normalmente.
* la muestra se ha seleccionado al azar

Cálculos
Primero se determina las fe (frecuencias esperadas)
P=279/420 =0.6643
NORESTE SURESTE CENTRO COSTA TOTAL

Fe = 0.6643*100 Fe = 0.6643*120
OCCIDENTAL
METODO ¦o 68 75 57 79 279
ACTUAL
¦e 66.43 79.72 59.79 73.07
32 45 33 31
METODO ¦o 141
NUEVO ¦e 33.57 40.28 30.21 36.93
TOTAL 100 120 90 110 420

Criterios de decisión
a/2=0,05 a/2=0,05
(1 - a
0,90
0,352 7,815
12a  a2
2 2
GL --> (Filas - 1) (columnas - 1) = (2-1) (4-1) = 3
12a  02.95 con 3GL = 0.352

2
a2   02.05 con 3GL = 7.815
2
 
Si 0.352   2  7.815 Se acepta la Ho en caso contrario se rechaza

Después se aplica la prueba
f  fe 
2
 
2 0
c
fe
( 68  66.43) 2
( 75  79.72 ) 2
(57  59.79 ) 2
( 79  73.07 ) 2
c2    
66.43 79.72 59.79 73.07
(32  3357
. ) 2 (45  40.28) 2 (33  30.21) 2 (31  36.93) 2
   
3357
. 40.28 30.21 36.93
c2  2.7638
Conclusiones
1) Se acepta Ho, se rechaza la Ha

2) La evidencia empírica disponible no permite
rechazar la hipótesis planteada
3) La actitud sobre le método de evaluación del
desempeño laboral, es independiente de la región
en que labore el trabajador.

EJEMPLO
En una empresa se somete a cinco programas de

adiestramiento a un determinado número de
trabajadores que aparece reflejado en la siguiente tabla,
Preguntan si al final del programa mejoran o no la
calificaciones. ¿Existe diferencia entre los diferentes
programas de adiestramiento a un nivel de significación
0.05?

Programa A B C D E
Nº participantes 50 52 46 54 48
Particip. aprobados 11 9 8 17 7
¿Qué concluimos?

EL METODO ANOVA
¿Qué es el ANOVA?
Es un método de cálculo para probar la hipótesis de
que las medias de dos o mas poblaciones son iguales.
Ejemplos:
Comparación de efectos logrado por cinco clases de
pruebas de control de calidad.
Determinar cuál de los cuatro métodos de capacitación
produce un aprendizaje más rápido.
El número de vistas publicitarias en la televisión.

11-8
Suposiciones del ANOVA

La distribución F también se usa para probar la igualdad
de más de dos medias con una técnica llamada análisis de
varianza (ANOVA). El ANOVA requiere las siguientes
condiciones:
A. La población que se muestrea tiene una distribución
normal
B. Las poblaciones tienen desviaciones estándar
iguales
C. Las muestras se seleccionan al azar y son
independientes

11-9
Procedimiento para el análisis de varianza
• Hipótesis nula: las medias de las poblaciones son iguales.

• Hipótesis alterna: al menos una de las medias es diferente.
• Estadístico de prueba: F = (variancia entre
muestras)/(variancia dentro de muestras).
• Regla de decisión: para un nivel de significación a, la
hipótesis nula se rechaza si F calculada es mayor que F
tabular con grados de libertad en el numerador y en el
denominador.

El modelo aditivo lineal : MAL
Se aplica como una suma y los exponentes
son iguales a 1.
Explica cómo está formada una observación
Xi=  + i
Donde
i = error, es decir la variabilidad (o diferencia) entre la
observación y el promedio
 Xi
i

El MAL para el ANOVA con un factor:
Xij     i   ij
Donde
i = efecto del tratamiento
N
 X (     )
j1
ij
 
i     i ij
N N
     1
1
     2
2

Si la Hp : 1= 2
Reemplazando tenemos
Hp :  + 1=  + 2
Hp : 1= 2
Sólo se prueba la diferencia entre tratamientos

El modelo de ANOVA con igual número
de repeticiones
T1 T2 T3
X11 X12 X13
X21 X22 X23
X31 X32 X33
X41 X42 X43
X51 X52 X53
X.1 X.2 X.3

La tabla del ANOVA
Fuentes de Suma de Cuadrado F F

variabilidad Cuadrados
t
GL Medio calculado teórico
X 2
j SC trat Fc 
CMe trat Ft con (t-1) y
Entre grupos SC trat  j1

X2
t-1 CMe  CMe ee
r rt GL (rt-t)
(Tratamientos)
Dentro de los grupos SC  X2   X j r t - t CMe  SC ee

2
(Error Experimental) ee  ij r GL
X2
  Xij 
2
Total SC total r t -1
rt

La tabla del ANOVA (Simplificado)
Fuentes de Suma de Cuadrado Suma de F

variabilidad Cuadrados GL Medio Varianza
SSA MSA
MSA 
n
SSA   n j ( X j  X ) 2
c- 1 SSA F
Entre grupos j 1 c 1 MSW
(Tratamientos)
SSW
SSW   X ij  X j  SSW MSW 
2
Dentro de los n-c
grupos (Error
nc
Experimental)
SST   X ij  X 
2
Total n -1 SST

11-12
Aplicación 1
Se realiza un estudio para comparar la eficacia
de tres programas terapéuticos para el
tratamiento del acné de tipo medio a moderado.
Se emplean tres métodos:
I. Este método, el más antiguo, supone el lavado, dos

veces al día, con un cepillo de polietileno y un jabón
abrasivo, junto con el uso diario de 250 mg. de
tetraciclina.
II. Este método, el utilizado actualmente, consiste, en la
aplicación de crema de tretinoína, evitar el sol, lavado
dos veces al día con jabón emulsionante y agua, y
utilización, dos veces al día, de 250 mg. De
tetraciclina.

11-13
III. Este es un método nuevo que consiste en evitar el

agua, lavado dos veces al día con limpiador sin
lípidos, y uso de crema de tretinoína y de peroxido
de benzoilo.
Se comparan estos tres tratamientos en cuanto a su
eficacia en la reducción del número de lesiones de
acné en los pacientes. En el estudio participaban
treinta pacientes. Se les separó aleatoriamente en tres
subgrupos de tamaño 10. A uno de los subgrupos se le
asignó el tratamiento I, a otro el tratamiento II y al
tercero, el tratamiento III. Después de 16 semanas se
anotó para cada paciente la tasa porcentual de
mejoría, medido en número de lesiones.

Se obtuvieron los siguientes datos:
I II III
48.6 68.0 67.5
49.4 67.0 62.5
50.1 70.1 64.2
49.8 64.5 62.5
50.6 68.0 63.9
50.8 68.3 64.8
50.8 71.9 62.3
47.1 71.5 61.4
52.5 69.9 67.4
49.0 68.9 65.4
50.6 67.8 63.2
549.3 755.9 705.1

Solución
1. Planteamiento de hipótesis:
Hp : 1= 2= 3
Ha : 1= 2= 3 (no todas las medias son iguales)
2. Nivel de significación
a = 0.05
3. Prueba estadística
CMe trat
Fc 
CMe ee

4. Criterios de decisión
3,3158
Si {Fc>3,3158} se rechaza la Hp, en caso contrario se acepta.
4. Cálculos
Resolviendo tenemos los siguientes resultados:
P valor < 0,05 se rechaza la Ho
Fuente de
variabilidad SC GL CMe F cal p-valor F teórico
Tratamientos 2107.20727 2 1053.60364 300.680769 1.42117E-20 3.31583294
Error experimental 105.121818 30 3.50406061
Total 2212.32909 32
6. Conclusiones
A. Se rechaza la hipótesis planteada, se acepta la hipótesis
alterna a un nivel de significación de 0,05. La prueba fue
significativa.
B. Al menos un método de capacitación es diferente a los
demás

El modelo de ANOVA con diferente número
de repeticiones
T1 T2 T3
X11 X12 X13
X21 X22 X23
X31 X32 X33
X42 X43
X52
X.1 X.2 X.3

La tabla del ANOVA
Fuentes de Suma de Cuadrado F F

variabilidad Cuadrados GL Medio calculado teórico
t  X2j  X2
    SC trat CMe trat
Entre grupos SC trat
  r
j1  rj 
t-1 CMe  Fc 
CMe ee
Ft con (t-1) y (rt-
(Tratamientos)
j
GL t)
 Xij2 
Dentro de los SC ee   X     r t - t
2
 r 
ij SC ee
grupos (Error  j  CMe 
Experimental) GL
X2
  Xij 
2
SC total
Total
rj r t -1
Aplicación 2
El director de entrenamiento de una compañía está

tratando de evaluar tres diferentes métodos de
entrenamiento para empleados nuevos. El primer método
consiste en asignar un empleado nuevo con un trabajador
experimentado para que éste lo asista en la fábrica. El
segundo método consiste en ubicar a todos los
empleados nuevos en un salón de entrenamiento
separado de la fábrica, y el tercer método consiste en
utilizar películas de entrenamiento y materiales de
aprendizaje.

El director de entrenamiento escoge al azar 16 empleados
nuevos asignados a los tres métodos y registra su
producción diaria después que terminaron sus programas de
entrenamiento:
Metodo 1 15 18 19 22 11
Metodo 2 22 27 18 21 17
Metodo 3 18 24 19 16 22 15
El director pregunta si existen diferencias en cuanto a la

efectividad entre los tres métodos.

Solución
1. Planteamiento de hipótesis:
Hp : 1= 2= 3
Ha : 1= 2= 3 (no todas las medias son iguales)
2. Nivel de significación
a = 0.05
3. Prueba estadística
CMe trat
Fc 
CMe ee

4. Criterios de decisión
3,81
Si {Fc>3,3158} se rechaza la Hp, en caso contrario se acepta.
4. Cálculos
Obtenemos los siguientes resultados:
ANÁLISIS DE VARIANZA
Fuentes de Variabilidad SC GL CMe F cal p-valor F tabular
Entre grupos 40 2 20 1.35 0.29 3.81

Dentro de los grupos 192 13 14.7692308
Total 232 15
6. Conclusiones
A. Se acepta la hipótesis planteada, se rechaza la
hipótesis alterna a un nivel de significación de 0,05. La
prueba no resultó significativa.
B. Los datos muestrales no proporcionan evidencia para
afirmar que los tratamientos son diferentes.

REGRESIONES SIMPLES
El diagrama de dispersión
Es un gráfico que permite detectar la existencia

de una relación entre dos variables.
Visualmente se puede buscar patrones que
indiquen el tipo de relación que se da entre las
variables.

(a) Lineal directa (b) Lineal inversa (c) Curvilínea directa
Y Y Y
• •
Relaciones posibles • • ••
• • • •
entre X y Y vistos • ••
• •
en diagramas de • • •• •
dispersión •• X
•••
X X
Y • Y Y
• •• • • • ••
•• •
•• • •• • • •
• •• • • • • ••
• ••
• ••• •• • • •
••• •
• •
X X X
(d) Curvilinea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión

Aplicación
Los datos siguientes muestran las cantidades
consumidas de leche del programa alimentario (en Kg.)
y el aumento de peso de niños con signos de
desnutrición.
PACIENTE 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y
Presente la información en un diagrama de dispersión

Procedimiento
1er Paso: Reúna pares de datos (X,Y), cuya relación
desea estudiar y organice la información en una
tabla.
NIÑOS 1 2 3 4 5 6 7 8 9 10
COMPLEMENTO
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5
EN Kg: X
AUMENTO DE
8 10 9 12 14 13 15 17 14 14
PESO : Y

2do Paso: Encuentre los valores mínimos y máximos
para X e Y. Elija las escalas que se usarán en los ejes
horizontal y vertical, de manera que ambas longitudes
sean aproximadamente iguales, facilitando la lectura del
diagrama.
20
15
10
0
0.0 2.0 4.0 6.0

3er Paso: Registre los datos en el gráfico. Cuando
se obtengan los mismos valores en diferentes
observaciones, muestre estos puntos haciendo
círculos concéntricos (o), o registre el segundo
punto muy cerca del primero.
20
15
10
0
0.0 2.0 4.0 6.0
4to Paso: Agregue toda la información que
puede ser de utilidad para entender el diagrama,
tal como: título del diagrama, período de tiempo,
número de pares de datos, nombre de la
variable y unidades de cada eje, entre otros.
Relación complemento nutricional y

aumento de peso
20
Aumento de peso (Kg)
15
10
5
0
0.0 2.0 4.0 6.0
Complemento nutricional (Kg)
Las Ecuaciones Lineales Simples
Si dos variables, como X e Y, están relacionadas, se

puede expresar como una relación, por ejemplo:
Y = 3 + 1,5X
Al conocer la ecuación se puede:
a) Calcular el valor de Y para cualquier valor
dado de X
b) Conocer el cambio en Y, cuando X varía en 1

Por ejemplo: Y = 3 + 1,5X
Valor Valor Cambio

dado de X calculado de Y de Y
1 4,5 -
2 6,0 1,5
3 7,5 1,5
4 9,0 1,5
5 10,5 1,5

El aumento en Y, cuando X varía en una unidad, está
dado por el coeficiente de X.
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8

A) Tipos de Variables
En una ecuación como Y = 30 + 3X, el valor de Y
depende del valor que toma X, por eso a Y se le llama
variable dependiente, y a X se le llama variable
independiente.
Y = b0 + b1 X
Variable Variable
Dependiente Independiente

B) Tipo de Relaciones
Cuando cambios en X provoca cambios en Y en igual
sentido (aumentos o disminuciones), las variables
están directamente relacionadas. Se observa el signo
+
Ejemplo: Y o
o
Y = 30 + 5X o
o
o o
o
o o
X
Cuando cambios en X, provoca variaciones en Y en
sentido inverso (X aumenta, Y disminuye o viceversa),
las variables están inversamente relacionadas. Se
observa en la ecuación el signo -.
Y
Ejemplo: o
Y = 20 - 3X
o o
o o
o
o
X
C) Grado de la ecuación:
La ecuación es de primer grado si la variable
independiente está elevada al exponente 1. Su
gráfica genera una línea recta (por lo que
también se le llama ecuación lineal)
Ejemplo: Y = 30 + 4 X

Si la variable independiente está elevada a un
exponente diferente a 1, la ecuación toma el valor del
exponente. Su gráfica no es una línea recta.
Ejemplo:
Y = 10 + 3 X + 4 X2 : ecuación de segundo grado
Y = 3 + 7X + 5 X3 : ecuación de tercer grado

D) Ecuaciones simples y múltiples:
 Simples: Muestra la relación entre dos variables
Y = 30 + 2X
Y = 10 - 3X2
 Múltiple: Muestra la relación entre tres o más

variables
Y = 3X + 8 Z
Y = 5 + 2X2 + 4W

D) Gráfica de una ecuación de primer grado:
Ejemplo: Y = 3 + 1,5X
X 1 2 3 4 5
Y 4 ,5 6 ,0 7 ,5 9 ,0 1 0 ,5
Los cinco pares de valores se diagraman de la forma

siguiente.
Y
12
11
10
. . (5,10.5)
9
8
7
6
. . (3,7.5)
(4,9)
5
4
3
2
.
(1,4.5)
(2,6)
UNSA 1 2 Becerra
Dr. Armin 3 4
Guzmán5 X 475
E) Forma general:
La ecuación simple de primer grado tiene la siguiente forma
general
Y = b0 + b1 X
Donde:
b1: pendiente, o sea, el cambio en Y cuando X = 1.
b0: el valor autónomo, es decir, Y = b0 cuando X = 0. En
la gráfica es la intersección con el eje Y
Ejemplo:
Y
Y = 3 + 1.5X
b0 = 3
.
X

Regresión Lineal Simple
Es una técnica estadística que permite determinar la

mejor ecuación que represente la relación entre dos
variables relacionadas.
Para poder establecer la relación cuantitativa entre X

e Y es necesario disponer de pares de observaciones.
Cada par ha sido registrado a la misma unidad
elemental.

A) Suposiciones de regresión y correlación
a) Normalidad: los valores de Y estarán distribuidos
normalmente a cada valor de X.
b) Homoscedasticidad: la variación alrededor de la
línea de regresión sea constante para todos los
valores de X.
c) Independencia de error: el error (diferencia
residual entre un valor observado y uno estimado
de Y) sea independientemente de cada valor de X.
d) Linealidad: la relación entre las variables es lineal.

B) El método de Mínimos Cuadrados
Es el procedimiento matemático utilizado para

determinar los valores numéricos de los coeficientes de
regresión: b0 y b1
La ecuación general Y  = b0 + b1X se llama ecuación de

regresión y permite estimar o predecir los valores de Y.

El método consiste en determinar una ecuación que
la suma de los errores al cuadrado sea mínima.
 = error
Yi - Y
10
8
. Línea de
estimación
6
Ŷ
Min  Y - Y 
2
4 Error= -6
•
i
2
•
•
. Error= 2
X
2 4 6 8 10 12 14

El método utiliza un sistema de ecuación llamado
ecuaciones normales, que tienen la siguiente forma:
X Y X2 XY
 Y  nb + b  X
1.0 8.0 1.0 8.0
0 1 1.5 10.0 2.3 15.0
 XY  b  X  b  X
0 1
2 2.0
2.5
9.0
12.0
4.0
6.3
18.0
30.0
3.0 14.0 9.0 42.0
3.5 13.0 12.3 45.5
Para aplicar las fórmulas,
4.0 15.0 16.0 60.0
tenemos que confeccionar un 4.5 17.0 20.3 76.5
cuadro como el siguiente: 5.0 14.0 25.0 70.0
5.5 14.0 30.3 77.0
32.5 126.0 126.3 442.0
X Y X  XY
2

Sustituyendo los valores , n = 5,  Y  126,0  X  32,5
 XY  442
2
X  126,3
en las ecuaciones normales, obtenemos el siguiente sistema de

ecuaciones.
126 = 10b0 + 32,5b1
442 = 32,5b0 + 126,3b1
Resolviendo el sistema tenemos: b0 = 7,479 b1= 1,576 ,por
lo tanto,
Ŷ  7,479  1,576X
c) Interpretación
b0 = 7,478 : Es probable que un niño desnutrido que no sea

considerado dentro del Programa de Alimentación
Complementaria tenga un peso de 7,478 Kg.
b1 = 1,576: Por cada Kg. del alimento complementario, se

espera que probablemente el niño aumento su
peso en 1,576 Kg.

D) Valor observado y valor estimado de Y
El valor observado (Yi) se refiere al nivel efectivo u
observado de la variable Y (peso del niño), mientras
que el valor estimado ( Ŷ ), es el nivel estimado de la
i
variable (peso esperado), obtenido utilizando la
ecuación de regresión. X Y Ŷ
1.0 8.0 9.055
Y
.
Yi

Y
1.5
2.0
10.0
9.0
9.843
10.630
.
2.5 12.0 11.418
3.0 14.0 12.206
Valor 3.5 13.0 12.994
observado Valor 4.0 15.0 13.782
estimado 4.5 17.0 14.570
5.0 14.0 15.358
X 5.5 14.0 16.146

UNSA
xo Dr. Armin Becerra Guzmán 484
Error estándar de estimación (Syx)
Mide la disparidad ¨promedio¨ entre los valores

observados y estimados de la variable Y. Se calcula
por la siguiente relación
2
 (Y - Ŷ)
S yx =
n2
14

X Y Ŷ Y  Ŷ  Y  Ŷ 2
1.0 8.0 9.055 -1.1 1.112181

1.5 10.0 9.843 0.2 0.024806
2.0 9.0 10.630 -1.6 2.658204
2.5 12.0 11.418 0.6 0.338375
3.0 14.0 12.206 1.8 3.217718
3.5 13.0 12.994 0.0 3.48E-05
4.0 15.0 13.782 1.2 1.483524
4.5 17.0 14.570 2.4 5.905386
5.0 14.0 15.358 -1.4 1.843621
5.5 14.0 46 -2.1 4.604028
32.5 126.0 126.0 0.0 21.2

Reemplazando en la formula
21,20 21,20
S yx =   2,65
10  2 8
Syx =1,628
El Syx es un indicador del grado de precisión con que la

ecuación de regresión describe la relación entre las dos
variables: cuanto más pequeño, los valores observado y
estimado de Y son razonablemente cercanos y, la ecuación
de regresión es una buena descripción esa la relación.

El Análisis de Correlación
El análisis de correlación es la técnica estadística que
permite describir el grado hasta el cual una variable
está linealmente relacionada con otra.
Hay dos medidas que se usan para describir la

correlación
 El coeficiente de determinación
 El coeficiente de correlación

A) El coeficiente de determinación
Al construir un modelo de regresión, se define que
“el valor Y depende de X”.
Y = f (X)
Si la relación es lineal: Y = b0 + b1X
Pero en la práctica Y depende también de “otros
factores” diferentes a X:
Y = b0 + b1X + 
Parte de los cambios en Y pueden explicarse por X, a
otro se llama variación explicada.
Pero hay cambios en Y que no pueden explicarse por
X, a lo que se llama variación no explicada.
Yi
Y Variación
Variación no explicada
Total
Yi - Y 
Yi - Y
Variación
Explicada
Y - Y y
VARIACION VARIACION VARIACION

TOTAL = EXPLICADA + NO EXPLICADA

El coeficiente de determinación se puede calcular
del modo siguiente:
variacion explicada
r2 
variacion total
 2
r2 =  Ŷ - Y 2
 Y - Y 
i
Se elevan al cuadrado, para evitar que  Y - Y   0
obteniéndose un número positivo.

1er Paso: Cálculo de la venta media por vendedor
son ( Y )
n
Y
i1 i
Y=
n
Y1  Y2  Y3  Y4  Y5
Y=
5
9  5  7  14  10 45
Y= 
5 5
Y = 9 unidades

2do Paso: Se calcula la variación total, es decir, la
sumatoria de las desviaciones de las ventas observadas (Yi)

con respecto a la media:  Y - Y 2
i

Y Y Y  Y  Y  Y2
8.0 12.6 -4.6 21.16
10.0 12.6 -2.6 6.76
9.0 12.6 -3.6 12.96
12.0 12.6 -0.6 0.36
14.0 12.6 1.4 1.96
13.0 12.6 0.4 0.16
15.0 12.6 2.4 5.76
17.0 12.6 4.4 19.36
14.0 12.6 1.4 1.96
14.0 12.6 1.4 1.96
126.0 126.0 0.0 72.4
Y Y Y  Y  Y  Y
2

3er Paso: Se calcula la variación explicada, es decir, la
sumatoria de las desviaciones cuadráticas entre las
ventas esperadas y la venta media de la muestra:  Y - Y 2
Ŷ Y Ŷ  Y  Ŷ  Y2

9.055 12.6 -3.545 12.5699
9.843 12.6 -2.758 7.6038
10.630 12.6 -1.970 3.8793
11.418 12.6 -1.182 1.3964
12.206 12.6 -0.394 0.1551
12.994 12.6 0.394 0.1553
13.782 12.6 1.182 1.3971
14.570 12.6 1.970 3.8805
15.358 12.6 2.758 7.6055
16.146 12.6 3.546 12.5720
126.0 126.0 0.0 51.2
 Ŷ Y Ŷ  Y  Ŷ  Y2
4to Paso: Se compara la variación explicada y la
variación total.
variacion explicada  Ŷ - Y 

2
r2 
variacion total
r2 =
 Yi - Y  2
51,2
r2 =  0,707
72,4
5to Paso: Interpretación: 70,7% de las variaciones en

el incremento de peso, pueden explicarse por el
consumo del complemento nutricional.
Valores posibles de r2
Si r2 = 1 : Correlación perfecta, es decir, toda

variación de Y puede explicarse por X
Si r2 = 0 : no existe correlación entre X e Y. La

variación explicada es 0. La variable X no
explica nada de los cambios en Y
Resumen
0  r2  1
Cuanto más cerca a uno, las variables tendrán mayor
correlación.

B) El coeficiente de correlación
Es la raíz cuadrada del coeficiente de
determinación.
r= r2
Sus valores oscilan entre -1 y 1
Cuando r es positivo, indica que X e Y
están directamente relacionados.

Cuando r es negativo, indica que X e Y
están inversamente relacionados.
El coeficiente r tiene el mismo signo que el
coeficiente b1 en la ecuación de regresión

Interpretación del coeficiente de correlación
de Pearson
Fuerte Moderada Débil Débil Moderada Fuerte

Negativa Negativa Negativa Positiva Positiva Positiva
-1 -0,9 -0,5 0 0,5 0,9 1

Perfecta Perfecta
No existe
Negativa correlación Positiva

Ejemplo: r2= 0,707
r = 0,707
r = 0,84
el signo es positivo ya que X e Y están relacionados

directamente como lo indica el signo del coeficiente b1
en la ecuación de regresión
Ŷ  7,479  1,576X

Interpretación: El incremento de peso (Y) y el
consumo del complemento nutricional (X) se
encuentran directamente asociados.

Diagnóstico de la regresión: análisis
residual
El análisis residual permite evaluar lo adecuado del
modelo de regresión que ha sido ajustado a los
datos. También sirve para detectar si los supuestos
se cumplen.
A. Evaluación de lo adecuado de modelo ajustado
Los valores del error residual o estimado (i) se define
como la diferencia entre los valores observados (Yi) y los
estimados (Ŷi ) de la variable dependiente para los
valores dados de Xi
i = Yi - Ŷi

Podemos evaluar lo adecuado del modelo de
regresión ajustado mediante el gráfico de los
residuos (eje vertical) con respecto a los
correspondientes valores de Xi de la variable
independiente (eje horizontal).
Ejemplo: Variable X 1 Gráfico de los residuales
El gráfico muestra un
adecuado ajuste entre el 3
incremento de peso y el 2
consumo del com- Residuos

1
0
plemento nutricional. No se 0 1 2 3 4 5 6
-1
observa una tendencia. -2
-3
Variable X 1

El análisis del gráfico nos brinda el criterio para adoptar el
modelo lineal o dejarlo de lado. Si fuese así, podríamos
probar con modelos no lineales como el cuadrático,
logaritmo o exponencial.
El análisis de residuos se complementa con el cálculo de
los residuos estandarizados (SRi), que resultan de la
división del residuo dividido por su error estándar.
i
SR i 
S YX 1  hi
En donde 1
hi  
Xi  X2
n
n
 Xi2  nX
2
UNSA i 1 Guzmán
Dr. Armin Becerra 504
Los valores estandarizados nos permiten tomar en
cuenta la magnitud de los residuos en unidades que
reflejen la variación estandarizada alrededor de la línea
de regresión.
Análisis de los residuales

Observación Pronóstico para Y Residuos Residuos estándares
1 9.138461538 -0.138461538 -0.101107641
2 3.276923077 1.723076923 1.258228423
3 6.207692308 0.792307692 0.578560391
4 15 -1 -0.730221853
5 12.06923077 -2.069230769 -1.510997526
6 44.30769231 0.692307692 0.505538206
En el gráfico siguiente, los residuos estandarizados fueron
graficados en función de la variable independiente
(cantidad del complemento nutricional). Se puede
observar de que existe una dispersión amplia en la gráfica
de residuos, no existe un patrón evidente o una relación
entre los residuos estandarizados y Xi . Los residuos
parecen estar equitativamente distribuidos por arriba y por
debajo de 0, para diferentes valores de X. Podemos
concluir que el modelo ajustado parece ser adecuado.

Residuos estándares
1.5
1
0.5
0
-0.5 0 5 10 15 20
-1
-1.5
-2

B. Evaluación de las suposiciones
a. Homoscedasticidad
b. Normalidad
c. Independencia: Los datos recolectados

Medición de la autocorrelación: Durbin-Watson
Una de las suposiciones del modelo de regresión
básico es la independencia de los residuos. Esta
suposición es violada con frecuencia cuando los
datos son recopilados en periodos secuenciales,
debido a que un residuo en cualquier punto del
tiempo puede tender a ser parecido a los residuos
que se encuentran en puntos de tiempo
adyacentes.
El estadístico D de Durbin-Watson mide la
correlación de cada residuo y el residuo del
periodo inmediato anterior al periodo de interés.
El estadístico D (Durbin-Watson)
n

 i i1
   2
D i2
n
 i
 2
i1
En la que  i representa el residuo en el periodo

i.
Interpretación de D:
Cuando residuos sucesivos están correlacionados
positivamente, el valor de D se aproximará a cero.
Si los resultados no están correlacionados, el valor D
estará cercano a 2.
Si se presentase una autocorrelación negativa, lo cual
rara vez sucede, de valor D tomará un valor mayor a 2
e, incluso podría aproximarse a su valor máximo que es
4.

Los resultados de SPSS nos proporciona el
valor de D de Durbin-Watson
Mode l Summaryb
Change Statistics
R Square
Model Change F Change df1 df2 Sig. F Change Durbin-Watson
1 .707a 19.336 1 8 .002 1.517
a. Predictors: (Constant), Complemento
b. Dependent Variable: AUMENTO
Según este resultado permite afirmar que los residuos no

están correlacionados.

Resultados con Excel
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.99582747
Coeficiente de determinación R^2 0.99167236
R^2 ajustado 0.98959045
Error típico 1.5310881
Observaciones 6
ANÁLISIS DE VARIANZA
GL SC CMe F cal P-valor
Regresión 1 1116.62308 1116.62308 476.328138 2.60786E-05
Residuos 4 9.37692308 2.34423077
Total 5 1126
Coefic Error Estadíst Inferior Superior Inferior Superior

ientes típico ico t P-valor 95% 95% 95.0% 95.0%
Intercepción 0.346154 0.9173433 0.37734384 0.72508508 -2.200804756 2.893112448 -2.200804756 2.893112448
Variable X 1 2.930769 0.13428531 21.824943 2.6079E-05 2.557932668 3.303605794 2.557932668 3.303605794

Ejemplo:
En la Empresa Santa Rita, se desea determinar la
relación lineal simple entre la experiencia del vendedor y
las ventas durante un mes. Se seleccionan 5
vendedores, los datos registrados se presentan a
continuación:
VENDEDOR CARLOS PEDRO JOSE JUAN MANUEL

EXPERIENCIA
(años):X 3 1 2 5 4
VENTAS
(unidades) : Y 9 5 7 14 10

18.1 El modelo
La regresión múltiple y el análisis de correlación
múltiple consiste en estimar una variable
dependiente, utilizando dos o más variables
independientes.
El modelo genérico será
Yˆ  f (X1 , X2 , X3 ,....)
Variable Variables
dependiente independientes
REGRESIONES
MULTIPLES
La ventaja
Permite utilizar más información disponible para

estimar la variable dependiente de una manera
confiable.

Proceso
En el proceso de regresión y correlación
múltiple, se debe:
1. Describir la ecuación de regresión múltiple.

2. Examinar el error estándar de regresión
múltiple de la estimación.
3. Utilizar la ecuación de regresión para
determinar qué tan bien describe los datos
observados.

Alcance
1. Permite ajustar los datos tanto a curvas como a

rectas.
2. Se puede incluir variables cualitativas, haciendo uso
de las “variables ficticias”.

La ecuación de regresión múltiple
La forma simbólica de la ecuación lineal con dos

variables independientes:
donde: Ŷ  b 0  b1X1  b 2 X 2
Ŷ : Valor estimado correspondiente a la variable
dependiente
b0 : intersección con el eje Y.
X1 y X 2 : valores de las dos variables independientes.
b1 y b2 : pendientes asociadas con X1 y X2
respectivamente

Visualización: se puede representar una ecuación
de regresión múltiple con dos variables, como un
plano

El método de mínimos cuadrados
El problema consiste en decidir cuál de los planos posibles
que podemos dibujar, será el que mejor se ajuste
El método de mínimos cuadrados garantiza que la suma de
los cuadrados de los errores es mínimo. Las ecuaciones
normales serán
 Y  nb  b  X  b  X
0 1 1 2 2
X Y  b X b X b X X
1 0 1 1
2
1 2 1 2
X Y  b X b X X b X
2 0 2 1 1 2 2
2
2
Donde bo, b1 y b2 son los coeficientes de regresión

UNSA Dr. Armin Becerra Guzmán estimados.
522
El error estándar de la
regresión múltiple (Syx)
Es una medida de dispersión la estimación
se hace más precisa conforme el grado de
dispersión alrededor del plano de regresión
se hace mas pequeño.

Para medirla se utiliza la formula:
Syx  
( Y  Ŷ )2
n  k 1
donde:
Y : Valores observados en la muestra
Yˆ : valores estimados a partir a partir de la ecuación
de regresión
n : número de datos
k : número de variables independientes

El coeficiente de determinación múltiple
(r2)
Mide la tasa porcentual de los cambios de Y que
pueden ser explicados por X1, X2 y X3
simultáneamente.
SCregresión
r2 
SCtotal
19950,57
r 
2
 0,95
20837,5

Coeficiente de determinación múltiple ajustado (r2a)
Hay personas que prefieren “ajustar” el r2 de acuerdo a:
n = número de datos
k = número de variables independientes
2
a 
r  1 1 r
n 1
2
n  k 1

8 1
r  1  1  0,95 
2
 0,9125
8  3 1
a

Coeficiente de correlación: r
r  r2
Para el caso de colesterol, tenemos:

r  0,95  0,9746
De acuerdo al valor de r podemos afirmar que las
variables peso, perímetro abdominal y hemoglobina
se encuentran asociadas en forma directa, de una
manera muy fuerte.

Los resultados de Excel nos da la siguiente
información:
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.97 r
Coeficiente de determinación R2 0.95 r2
R2 ajustado 0.92 r2a
Error típico 14.89 Syx
Observaciones 8

b1  B10
5) Cálculos tc 
Sb1
S yx
Sb1   0,704
X  nx 
2 2
Resultados en Excel
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior Inferior Superior
95% 95.0% 95.0%
Intercepción 121.704 83.00 1.466 0.216 -108.752 352.161 -108.752 352.161
PESO 2.949 0.70 4.189 0.014 0.995 4.904 0.995 4.904
CINTURA 0.276 0.49 0.558 0.607 -1.095 1.646 -1.095 1.646
HEMOGLO -7.843 5.73 -1.37 0.24 -23.74 8.06 -23.74 8.06

BINA

Reemplazando en la ecuación:
2,949  0
tc 
0,704
t c  4,189

Estadistica Aplicada A La Administracion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Aplicada A La Administracion

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL

DE SAN AGUSTIN DE AREQUIPA

Dr. Armin Becerra Guzmán

UNSA Dr. Armin Becerra Guzmán 1

LA ESTADISTICA ES UNA DISCIPLINA CUANTICA QUE

UNSA Dr. Armin Becerra Guzmán 3

Es la recopilación, caracterización y presentación

Son los métodos que hacen posible la estimación

UNSA Dr. Armin Becerra Guzmán 5

Calcular su dispersión (varianza,

Determinar el grado de asociación entre ellos

UNSA Dr. Armin Becerra Guzmán 8

Los gráficos constituyen una forma muy efectiva de

Todo gráfico tiene tres partes:

UNSA Dr. Armin Becerra Guzmán 9

Son barras verticales presentadas una a continuación de

El ancho de cada columna es igual en todo el gráfico y

2. La altura está en función a la frecuencia de la

UNSA Dr. Armin Becerra Guzmán 11

Gráfico 4: Peso de 100 Sacos de Arroz (en Kg.)

UNSA Dr. Armin Becerra Guzmán 12

A) Tipo general: El valor medio está al centro, que

B) Tipo multimodal: Hay varios

UNSA Dr. Armin Becerra Guzmán 13

D) Tipo precipicio a la izquierda: Forma asimétrica

UNSA Dr. Armin Becerra Guzmán 14

F) Tipo bimodal: Se observa claramente dos

G) Tipo pico aislado: Presenta un pico aislado,

UNSA Dr. Armin Becerra Guzmán 15

Se utiliza para representar datos cuantitativos discretos o

Las barras son de igual ancho.

UNSA Dr. Armin Becerra Guzmán 16

UNSA Dr. Armin Becerra Guzmán 17

UNSA Dr. Armin Becerra Guzmán 18

UNSA Dr. Armin Becerra Guzmán 19

UNSA Dr. Armin Becerra Guzmán 20

UNSA Dr. Armin Becerra Guzmán 21

UNSA Dr. Armin Becerra Guzmán 22

UNSA Dr. Armin Becerra Guzmán 23

Ejemplo: Gráfico 9. Clientes atendidos en Oficina

UNSA Dr. Armin Becerra Guzmán 25

UNSA Dr. Armin Becerra Guzmán 26

Ejemplo: Metas de ventas alcanzadas en la Zona Sur

UNSA Dr. Armin Becerra Guzmán 27

UNSA Dr. Armin Becerra Guzmán 30

UNSA Dr. Armin Becerra Guzmán 31

A. ESTABLECER OBJETIVOS CLAROS

UNSA Dr. Armin Becerra Guzmán 32

a) Datos para el control: se toman periódicamente

UNSA Dr. Armin Becerra Guzmán 33

UNSA Dr. Armin Becerra Guzmán 34

Tener en cuenta la adecuada calibración de los instrumentos

UNSA Dr. Armin Becerra Guzmán 35

I. Se debe registrar adecuadamente el origen

II. Los datos deben registrarse de manera que

UNSA Dr. Armin Becerra Guzmán 36

Los valores representan un orden. No son

UNSA Dr. Armin Becerra Guzmán 38

Se utilizan números cardinales. El cero es relativo

UNSA Dr. Armin Becerra Guzmán 39

Se utilizan números cardinales. Tienen unidad de

UNSA Dr. Armin Becerra Guzmán 40

UNSA Dr. Armin Becerra Guzmán 41