Manual Estadistica Aplicada A La Psicología PDF

ESTADÍSTICA
APLICADA A LA PSICOLOGÍA
Asignatura: Estadística Aplicada a la Psicología
ÍNDICE
INTRODUCCION
DIAGRAMA DE PRESENTACION DE LA ASIGNATURA

UNIDAD I: MUESTREO Y ESTIMACIÓN DE PARÁMETROS.
Diagrama de Presentación de la Unidad I
Organización de los aprendizajes
Tema N°1: DISEÑO Y TÉCNICAS DE MUESTREO PROBABILÍSTICO

1.1 Definiciones básicas.
1.2 Tipos de muestreo probabilístico
Lectura seleccionada 01:
¿Funciona la terapia de contacto? Mario Triola. Página 319
Actividad N°01
Tema N°2: ESTIMACIÓN Y TAMAÑOS DE MUESTRA

2.1 Estimación de la proporción poblacional
2.2 Estimación de la media poblacional
2.3 Estimación de la varianza poblacional
2.4 Determinación del tamaño de muestra.
Control de Lectura Nº 1
Bibliografía de la Unidad I
Autoevaluación No. 01
UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

Diagrama de Presentación de la Unidad I
Tema N°1: PRUEBA DE HIPÓTESIS

1.1. Definiciones básicas
1.2 Prueba de aseveración para la media.
1.3. Prueba de aseveración para la proporción.
1.4. Prueba de aseveración para la varianza.
Tema N°2: INFERENCIA A PARTIR DE DOS MUESTRAS

2.1 Inferencia acerca de dos medias, proporciones para muestras
independientes
2.2 Inferencia a partir de datos pareados
2.3 Comparación de la variación de dos muestras
Tema N°3: ANÁLISIS DE VARIANZA

3.1 ANOVA de un factor
3.2 ANOVA de dos factores
Lectura seleccionada 01: La paradoja del cumpleaños Blog Estadística para
todos
Actividad N°01
Actividad N°02
Bibliografía de la Unidad II
ucontinental.edu.pe | 2
UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

Diagrama de Presentación de la Unidad III
Tema N°1: PRUEBA DEL SIGNO

1.1 Prueba del signo.
1.2. Prueba de rangos con signo de Wilcoxon para datos apareados.
1.3 Prueba de la suma de rangos con signo de Wilcoxon para muestras
independientes.
Tema N°2: PRUEBAS NO PARAMÉTRICAS

3.1 Prueba de Kruskal-Wallis
3.2 Prueba de correlación de rangos
3.3 Prueba de rachas
Tema N°3: EXPERIMENTOS MULTINOMIALES Y TABLAS DE CONTINGENCIA

2.1 Bondad de ajuste
2.2 Independencia y homogeneidad
¿Los estudiantes clasifican a las universidades de la misma manera que el U.S.
News and World Report? Mario Triola. Página 675.
Actividad N°01
Actividad N°02
Bibliografía de la Unidad III
UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE

PROCESOS.
Diagrama de Presentación de la Unidad IV
Tema N°1: CORRELACIÓN Y REGRESIÓN

1.1 Correlación y regresión lineal
1.2 Correlación y regresión múltiple
1.3 Elaboración de modelos de regresión

¿Podemos predecir el momento de la siguiente erupción del géiser Old Faithful?
Mario Triola. Página 515
Actividad N°1
Actividad N°2
Tarea Académica N° 2
Glosario
Bibliografía de la Unidad IV
ANEXO
Clave de respuestas
INTRODUCCIÓN
Todos los conceptos y aplicaciones vertidos en el curso anterior de tales

como tablas de frecuencia, gráficos, cálculo de medidas descriptivas se pueden
resumir dentro de un término general que vendría a ser ESTADÍSTICA
DESCRIPTIVA, debido que a través de ellos podemos describir, presentar y resumir
esencialmente el comportamiento de una serie de datos que han sido recolectados
con algún procedimiento adecuado.
Si embargo a través de la ESTADÍSTICA DESCRIPTIVA no se puede aclarar
interrogantes acerca de una población cuando no se dispone de ella y solo se tiene
parte de ella, o sea de una muestra. Por ejemplo, si sabemos que el rendimiento
promedio de una muestra de automóviles de cierto modelo y marca es de 55 km.
por galón, ¿qué podremos concluir acerca de todos los automóviles producidos de
dicha marca y modelo?
Para poder dar una conclusión acerca de la población, la Estadística dispone
de una serie de procedimientos y métodos que se resumen en un término general
que es el de ESTADÍSTICA INFERENCIAL, la cual determina específicamente la
probabilidad de que una conclusión obtenida a partir de una muestra sea válida
para toda la población de la cual proviene, basados todos ellos en la Estimación y
Prueba de Hipótesis que serán motivo de estudio en las páginas siguientes.
Es importante manejar adecuadamente los procedimientos y métodos que
utiliza la estadística inferencial pues no debemos olvidar que sus resultados serán
utilizados por diferentes entidades y personas quienes se basarán en ellos para
poder tomar decisiones y nosotros tenemos la obligación moral de entregar la
información lo más clara y entendible posible sin necesidad de tergiversarla ni
modificarla.
El presente Manual Autoformativo de ESTADÍSTICA APLICADA está diseñado
para que el lector pueda adquirir los conocimientos necesarios para poder ejecutar
los procesos relacionados con la estimación y prueba de hipótesis estructurados en
cuatro unidades. En la primera unidad aprenderemos a realizar los distintos
métodos de muestreo que validen nuestro trabajo y el cálculo de intervalos de
confianza a través de las estimaciones, en la segunda unidad aplicaremos las
pruebas de hipótesis a través de los métodos paramétricos, en la tercera unidad
continuaremos con las pruebas de hipótesis pero utilizando métodos no
paramétricos y finalizaremos la cuarta unidad desarrollando el análisis de
correlación y regresión el cual nos permitirá realizar algunos pronósticos sobre el
comportamiento de alguna variable.
Agradecemos a quienes de antemano tuvieron paciencia y comprensión en la
elaboración del presente manual y a aquellos alumnos con quienes pudimos
optimizar el uso de la información presente en esta edición.
El Autor
DIAGRAMA DE PRESENTACIÓN
DE LA ASIGNATURA
COMPETENCIA:
Conoce, aplica, analiza e interpreta eficientemente métodos y técnicas de la

estadística inferencial y de pronóstico y los utiliza como herramienta para la
toma de decisiones, valorando reflexivamente su importancia en los
diversos campos de la ciencia, demostrando ética en el manejo de la
información.
UNIDADES DIDACTICAS:
UNIDAD I UNIDAD II Unidad III Unidad IV

MUESTREO Y PRUEBA DE ESTADÍSTICA NO CORRELACIÓN,
ESTIMACIÓN DE HIPÓTESIS Y PARAMÉTRICA REGRESIÓN Y
PARÁMETROS ANÁLISIS DE CONTROL
VARIANZA
UNIDAD I: “MUESTREO Y ESTIMACIÓN DE PARÁMETROS”
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD I
UNIDAD I: “MUESTREO Y ESTIMACIÓN DE

PARÁMETROS”
TEMA 1: DISEÑO Y TÉCNICAS DE MUESTREO PROBABILÍSTICO.
1.1Definiciones Básicas 11
1.1.1 Unidad elemental
Es el elemento o unidad base de la población o de la muestra que permite
obtener información o datos referidos a ciertas características o variables que
nos interesan para explicar determinado fenómeno.
También es llamada unidad de observación, unidad de análisis, unidad
estadística, caso o elemento. Por ejemplo, en estudios de satisfacción del
cliente en una tienda de retails, la unidad elemental es cada consumidor.
1.1.2 Población muestreada

Es el conjunto de todas las unidades de elementales posibles que podrían
extraerse en una muestra;
es decir, es la población de donde se
extrae la muestra.
1.1.3 Unidad de muestreo

Es la unidad estadística que se selecciona para constituir la muestra. La elección
de la unidad de muestreo más eficiente es una consideración importante en el
diseño de una muestra.
Por ejemplo, podríamos querer estudiar a las personas, pero no tenemos una
lista de todos los individuos que pertenecen a la población objetivo. En vez de
eso, la unidad de muestreo es cada familia y la unidad elemental es cada
individuo que vive en una familia.
1.1.4 Marco muestral

Es una lista de las unidades de muestreo que están disponibles para la elección.
Por ejemplo, para seleccionar a los trabajadores y estudiar su nivel de ingresos
podríamos utilizar el directorio de la Hoja Resumen de Planillas que presentan
las empresas en el mes de junio de cada año al MTPE, complementado con
directorios de otros gremios empresariales importantes de los cuales se toma a
todas las empresas con 10 y más trabajadores del régimen laboral de la
actividad privada.
1.1.5 Censo
Es una investigación estadística que consiste en el recuento de la totalidad de
los elementos que componen la población a investigar. Es necesario que se
especifique el espacio y el tiempo al que se refiere el recuento.
1.1.6 Muestreo
Conjunto de métodos y procedimientos estadísticos destinados a la selección
de una o más muestras. Es la técnica elegida para seleccionar a la muestra. El
objetivo principal de un diseño de muestreo es proporcionar procedimientos
para la selección de muestras que sean representativas de la población en
estudio.
El muestreo comprende por lo menos dos etapas:
La selección de las unidades
El registro de las observaciones.
1
Estadística. Mario Triola 10°Ed.
FICHA TÉCNICA

Título del estudio: Encuesta de Opinión en Lima Metropolitana Noviembre
2009
Objetivos del Estudio: Evaluación y opinión sobre la situación económica
Encuestadora: Pontificia Universidad Católica del Perú
Nº de registro: 0108 REE/JNE
Universo o población objetivo: Hombres y mujeres mayores de 18 años,

habitantes de 31 distritos de Lima
Metropolitana.
Marco muestral: La selección de manzanas se hizo utilizando como marco

muestral la cartografía digital del INEI del 2004 para los 31 distritos de Lima
Metropolitana. Los distritos que no forman parte del marco muestral son:
Chaclacayo, Lurigancho, Cieneguilla y los distritos balnearios del Sur y del
Norte de la Ciudad.
Representatividad: En los distritos que forman parte del universo y que

están incluidos en el marco muestral se encuentra el 95.88% de la población
electoral total de la provincia de Lima.
Tamaño de la muestra: 508 personas entrevistadas en Lima Metropolitana.
Error y nivel de confianza estimados: ±4.32% con un nivel de confianza

del 95%, asumiendo 50%-50% de
heterogeneidad, bajo el supuesto de muestreo aleatorio simple.
Distritos que resultaron seleccionados en la muestra: La selección

aleatoria de manzanas del marco muestral determinó que la encuesta se
aplicara en 28 distritos de Lima Metropolitana (Cercado de Lima, Ate,Barranco,
Breña, Carabayllo, Chorrillos, Comas, El Agustino, Jesús María, La Molina, La
Victoria, Lince, Los Olivos, Magdalena del Mar, Pueblo Libre, Miraflores, Puente
Piedra, Rímac, San Borja, San Juan de Lurigancho, San Juan de Miraflores, San
Martín de Porres, San Miguel, Santa Anita, Santiago de Surco, Surquillo, Villa
El Salvador y Villa María del Triunfo).
Procedimiento de muestreo: Se realizó una muestra probabilística

polietápica. Dentro de Lima se estratificó la muestra de acuerdo con grandes
zonas de la ciudad, cono norte, cono este, cono sur, centro, cono oeste-
suroeste, y en cada estrato se seleccionó una muestra simple al azar de
manzanas. Posteriormente se realizó un muestreo sistemático de viviendas en
cada manzana seleccionada y se aplicaron cuotas de sexo y edad
para la selección de personas al interior de las viviendas. 
Ponderación: En Lima Metropolitana los datos se ponderaron en función del

peso de los estratos en la población total.
Técnica de recolección de datos: Mediante entrevistas directas en las

viviendas seleccionadas.
Supervisión de campo: Se supervisó el 30% de las entrevistas realizadas.
Fechas de aplicación: Entre los días 29 de octubre y 01 de noviembre de

2009.
Financiamiento: Pontificia Universidad Católica del Perú.
Página web: http://www.pucp.edu.pe

Email: iop@pucp.edu.pe
1.1.7 Plan de muestreo

Se denomina “plan de muestreo” a la combinación de factores que
determinan mínimamente el tamaño de la muestra y el procedimiento de
muestreo. Un plan de muestreo está asociado a técnicas específicas, fórmulas y
tablas. El plan de muestreo más conocido y sencillo se denomina “muestreo
simple al azar”.
1.1.8 Muestreo probabilístico y no probabilístico

El muestreo se puede dividir en “probabilístico” y “no probabilístico”,
también denominados “estadístico” y “no estadístico”, o “al azar” y “no al azar”,
respectivamente. El hecho de extraer una muestra no significa azar o
aleatoriedad. En ello es determinante la fase mecánica de selección de las
unidades de muestreo que conformarán la muestra. La diferencia fundamental
entre estos tipos de muestreo radica en que en el muestreo probabilístico se
puede medir el riesgo que se asume al muestrear, mientras que en el
muestreo no probabilístico ello no es posible. En el estadístico, la
fundamentación es teórica y las conclusiones pueden ser cuantitativas y
precisas; mientras que en el no estadístico, la fundamentación es práctica y
las conclusiones pueden ser cualitativas y, en el mejor de los casos, razonables,
además de perder ante determinados casos la posibilidad de ser extrapolables.
Ante estas diferencias, ¿por qué recurrir al muestreo no probabilístico? En
algunas circunstancias sucede que no es posible por falta de tiempo, por escasez
de recursos, por limitaciones para acceder a la población u otras dificultades
operativas llevar a cabo un muestreo probabilístico. Será preferible, entonces,
acudir a determinadas pruebas específicas, para los que habrán de tenerse
en cuenta ciertos cuidados mínimos y necesarios para sostener fundadamente las
opiniones vertidas en un informe.
1.2 Tipos de Muestreo probabilístico
En el muestreo probabilístico, la selección de cada elemento de la muestra se

hace siguiendo reglas matemáticas de decisión. Todos los elementos de la
población tienen una probabilidad real y conocida de ser seleccionados.
1.2.1 Muestreo aleatorio simple
También llamado irrestrictamente aleatorio. Es un método de muestreo donde

una muestra aleatoria simple es seleccionada de tal manera que cada muestra
posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la
población. Por conveniencia, este método puede ser reemplazado por una tabla
de números aleatorios cuando una población es infinita. Se aplica cuando los
datos son casi homogéneos.
Pasos a seguir para seleccionar una muestra
aleatoria simple.
1. Enumere las unidades del marco muestral con
números sucesivos.
2. Seleccione tantos elementos del marco muestral como sea el tamaño
requerido de la muestra, usando una tabla de números aleatorios.
El muestreo aleatorio simple presenta dos propiedades:
Representativa: Cada unidad tiene las mismas posibilidades de ser

escogida.
Independencia: La selección de una unidad no influye en la selección de
otras unidades.
Limitaciones
• Requiere de una lista precisa de las unidades de muestreo, que puedan
identificarse y numerarse. Se puede, tal vez, numerar cada expediente de
un procedimiento de compras, pero no se puede enumerar ni identificar
exhaustivamente a los pacientes ambulatorios que van a atenderse a un
hospital público en determinado momento.
• Cada unidad de muestreo debe tener la misma probabilidad de ser elegido
que cualquier otra unidad.
• Es poco económico frente a determinadas circunstancias, como
cuando llevar a cabo un procedimiento de auditoría implica la destrucción de
la unidad muestreada. En estos casos, el muestreo aleatorio simple ofrece
tamaños de muestra mayores que otros métodos más específicos.
Figura Nº 01: MUESTREO ALEATORIO SIMPLE2
Ejercicio
1
Una empresa de alimentos tiene registrado en el cuadro siguiente,
información acerca del ingreso mensual (en nuevos soles) y años cumplidos en
la empresa de cada uno de sus 150 trabajadores.
2
TOMADO DEL LIBRO DE MARIO TRIOLA 10ª ED. CAPÍTULO 1.
Asignatura: Estadística Aplicada
Cuadro N°01: Trabajadores Registrados
Años Años Años

Ingreso Nivel Ingreso Nivel Ingreso Nivel
en en en
N° N° N°
(en la (en la (en la
educativo educativo educativo
soles) emp. soles) emp. soles) emp.
1 2600 16 Secundaria 51 1700 0 Técnica 101 2800 20 Técnica
11 2000 3 Secundaria 61 1800 5 Técnica 111 1900 7 Superior
41 2500 16 Técnica 91 2400 9 Técnica 141 2400 17 Superior
a. Seleccione una muestra de 15 trabajadores usando muestreo simple

aleatorio. Use las columnas
C4, C8, C12 y C16 de la tabla de números aleatorios.
b. Seleccione una muestra de diez trabajadores usando muestreo simple aleatorio.

Use las columnas
C5, C9, C13 y C15 de la tabla de números aleatorios.
Cuadro N°2: TABLA DE NÚMEROS ALEATORIOS (UPC, 2010)
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C2
4 8 2 4 6 6 3 5 4 5 6 0 5 2 6 9 8 0 0 0
9
9 2 9 8 1 4 4 1 9 8 5 1 1 9 7 9 8 5 9 0
0 2 1 3 3 9 1 6 2 9 7 1 2 6 6 0 7 5 6 4
9 6 0 8 3 5 6 6 6 4 0 8 6 3 4 8 1 8 5 4
1 6 4 1 6 5 2 7 7 2 9 9 9 9 7 4 1 5 4 9
2 9 0 5 5 0 8 4 8 7 4 6 2 1 7 0 1 5 8 7
6 1 2 9 5 0 4 0 9 8 2 0 2 6 8 7 0 1 9 7
1 3 1 8 9 9 0 1 2 6 3 7 1 9 6 1 7 9 9 8
4 5 8 1 1 4 5 6 7 9 9 9 2 1 3 2 3 7 7 9
0 0 3 6 9 6 5 0 6 4 7 9 8 1 2 4 4 8 3 6
7 2 4 5 4 1 2 4 4 6 9 2 6 6 6 5 2 0 0 4
4 9 3 4 4 2 4 5 9 0 8 7 4 8 4 2 1 2 5 4
6 1 2 8 1 3 3 2 0 2 6 0 7 2 7 9 1 4 6 5
9 3 4 0 8 1 3 3 7 3 2 4 8 6 7 9 0 6 2 8
1 8 7 1 3 4 3 9 3 1 7 8 3 7 3 3 0 8 3 5
0 2 1 4 7 5 7 3 1 1 9 3 3 8 7 4 8 0 2 5
3 6 3 4 1 9 8 1 0 9 0 1 1 0 9 3 6 8 6 0
9 4 6 7 6 7 9 1 2 2 7 2 3 9 3 4 6 9 8 1
5 9 9 8 4 4 5 9 1 5 4 7 3 0 6 8 1 6 8 1
8 1 8 8 2 3 9 1 4 2 4 9 1 4 0 6 0 3 2 8
0 5 3 8 0 4 3 9 4 6 0 8 8 3 8 7 1 2 2 3
9 7 1 4 2 7 5 5 2 8 6 6 3 5 5 9 9 0 6 8
6 9 5 9 4 9 1 8 2 0 2 5 3 9 1 2 0 3 0 8
7 4 9 1 4 8 8 6 6 8 5 9 4 8 5 7 7 9 6 7
3 8 1 2 2 4 0 1 4 5 7 7 4 0 4 8 9 4 7 0
9 9 9 7 8 0 0 9 3 2 7 0 5 0 2 7 8 7 3 6
4 8 1 5 8 5 5 1 4 9 6 4 4 4 7 4 5 7 5 0
8 6 7 3 6 1 7 1 1 3 5 5 7 4 4 7 6 7 2 8
4 7 1 4 0 3 6 2 4 4 4 4 0 3 6 3 4 1 2 8
6 5 5 8 8 4 3 4 8 9 0 6 7 6 0 0 8 6 8 4
9 2 0 9 8 2 8 3 4 3 2 8 9 4 8 7 9 4 9 4
1 3 7 9 4 8 3 7 0 8 6 6 6 8 4 1 1 3 1 3
3 3 2 5 6 7 6 1 6 6 1 7 6 5 8 1 6 2 2 7
9 9 9 8 2 8 8 1 9 1 6 2 7 5 1 8 6 1 4 4
1 7 5 4 0 9 5 7 8 7 5 0 8 6 6 2 5 3 2 3
2 7 1 7 8 8 3 8 6 9 9 2 7 4 5 9 5 6 6 6
6 0 9 2 6 1 5 1 2 3 1 8 1 2 0 8 6 4 4 0
3 3 6 3 4 9 6 4 4 9 8 5 7 3 3 4 2 3 2 8
0 1 9 7 9 7 9 4 4 1 6 6 7 7 0 7 9 8 6 8
4 7 1 5 3 7 0 9 2 5 2 1 0 0 4 0 4 6 8 8
7 8 9 9 6 8 5 6 8 1 9 2 7 5 1 7 0 1 5 5
2 2 3 3 1 8 1 9 8 4 2 8 5 2 8 1 7 6 4 6
2 6 6 4 1 4 8 1 0 6 0 1 3 4 0 9 1 2 8 6
5 1 9 0 3 9 1 6 1 7 8 8 2 8 0 7 8 4 8 0
9 0 5 8 4 9 2 2 3 9 8 5 9 5 7 8 4 9 9 4
8 6 1 9 2 5 0 0 7 9 0 0 7 4 5 4 8 6 2 3
1 9 1 0 9 7 5 1 2 7 1 9 4 8 4 8 9 6 6 9
5 6 0 6 1 3 3 5 2 1 0 1 9 2 8 0 2 6 6 3
8 6 9 9 8 0 8 1 8 2 6 6 8 4 0 7 8 2 5 1
3 1 6 1 0 5 7 5 7 0 6 3 0 4 1 4 0 3 0 8
1.2.2 Muestreo sistemático (Triola, 2009)
Es un método sumamente intuitivo para relevar padrones, y cómodo para casos en

los que la información no está digitalizada. La aplicación del método consiste
básicamente en calcular “n” como en el muestreo aleatorio simple, calcular el
intervalo de muestreo “k”=N/n, y elegir al azar la primera unidad de muestreo “A”
llamada arranque dentro del primer intervalo de muestreo “i”. Luego se extrae cada
enésima unidad “k.i+A”.
Limitaciones
• Es equivalente a un muestreo agrupado del que se extrae un solo grupo, por lo que
pierde robustez en cuanto a la representatividad esperada. Para intentar neutralizar
este efecto, su puede elegir más de un grupo (en términos prácticos, habrá de
elegirse una unidad “A” situada entre 1 y k, y al menos una unidad “B” ≠ “A”,
también situada entre 1 y k y seguir el procedimiento de extracción a partir de “A” y
de “B”). No obstante, esto atenta contra la eficiencia del plan ya que implica un
derroche de recursos frente al muestreo aleatorio simple.
• No permite identificar periodicidad oculta. Por ejemplo, frente a mayores
ventas los primeros sábados del mes, o asignaciones de planes sociales antes
de fin de mes.
• No permite identificar sistematicidad oculta. Por ejemplo, considérese un diente
defectuoso en un engranaje, y que ese diente incida sobre cierto lote de productos.
FIGURA N°02: MUESTREO ALEATORIO SISTEMÁTICO (Triola, 2009)
Ejemplo
Se tiene una población de 40 personas y se desea elegir a cinco de ellas
mediante un muestreo sistemático. ¿Cuál es el arranque aleatorio para este
ejemplo? Seleccione la muestra indicando la posición de cada elemento
elegido.
Ejemplo
Se tiene información de 40 alumnos del curso de Estadística II del ciclo
regular. Obtenga una muestra aleatoria de ocho personas usando el muestreo
sistemático y elabore una tabla con los elementos seleccionados.
Cuadro N° 03: Individuos Registrados
Nº Sexo Edad Estatura Nº Sexo Edad Estatura Nº Sexo Edad Estatura
1 Mujer 15 154 15 Mujer 19 178 29 Hombre 33 147
2 Hombre 16 154 16 Mujer 30 163 30 Hombre 17 167
3 Hombre 21 156 17 Hombre 29 180 31 Mujer 34 69
4 Mujer 31 184 18 Mujer 25 174 32 Mujer 20 76
6 Mujer 24 170 20 Hombre 25 153 34 Hombre 25 90
7 Hombre 32 176 21 Mujer 16 168 35 Mujer 23 164
8 Hombre 26 188 22 Hombre 31 161 36 Hombre 20 164
9 Mujer 21 169 23 Hombre 18 270 37 Mujer 34 176
10 Mujer 22 173 24 Hombre 21 173 38 Hombre 35 188
12 Hombre 25 181 26 Mujer 28 161 40 Mujer 29 141
13 Mujer 29 164 27 Mujer 19 172
14 Hombre 25 159 28 Hombre 31 162
Ejercicio 2
Una empresa de alimentos (la misma del ejercicio 1) tiene un total de 150
empleados y ha registrado en la tabla que se muestra a continuación
información acerca de las variables: ingreso mensual (en soles), nivel de
educación y años cumplidos en la empresa.
Aplique el muestreo sistemático para seleccionar una muestra de ocho
empleados. Elabore un listado con la muestra seleccionada.
1.2.3 Muestreo estratificado

Es un muestreo en el que bajo el requisito de tener que arribar a resultados
globales, la población es previamente estratificada en grupos homogéneos,
asegurando simultáneamente que todos los estratos estén representados, como
por ejemplo por niveles educativos, género o edad. Los estratos pueden tener
idéntica proporción de muestra, o se le puede dar mayor peso relativo a estratos
significativos desde el punto de vista del análisis.
El objetivo de estratificar la población es buscar representatividad en cada uno de
los estratos, por lo que se pueden mencionar algunas razones importantes para
aplicar el muestreo estratificado:
- Con una estratificación adecuada se puede ganar precisión en las
estimaciones de los parámetros de la población.
- Se puede lograr reducciones en el costo de captura de la información.
- Cuando se desea obtener estimaciones de precisión conocida para cada
estrato de la población objetivo.
Pasos a seguir para seleccionar una muestra estratificada
1. Divida a la población en estratos que sean mutuamente excluyentes.

Esto es, que incluyan a todos los elementos de la población y que cada
elemento pertenezca solamente a un estrato.
2. Calcule la cantidad de elementos a seleccionar en cada estrato.
3. Seleccione muestras aleatorias simples para cada uno de los estratos.
FIGURA N°03: MUESTREO ESTRATIFICADO (Triola, 2009)
Recomendaciones para el uso de muestras estratificadas
Si se tiene que usar más de una variable para formar los estratos, cuidar
que estas no estén relacionadas entre sí.
No se deben considerar la formación de muchos estratos, generalmente se
usan entre tres y ocho estratos.
Los estratos pequeños no contribuyen mucho a la reducción del error, por lo
tanto pueden no ser considerados.
Limitaciones
Cálculos complejos para estimar la precisión.
Ejemplo
La empresa embotelladora DEL VALLE tiene 120 empleados de los cuales
tiene información de las variables: ingreso en soles, tipo de profesión y años en
la empresa.
Cuadro N° 04: REGISTRO DE TRABAJADORES
AÑOS EN AÑOS EN
INGRESO TIPO INGRESO TIPO
N° LA N° LA
EN SOLES PROFESION EN SOLES PROFESION
EMPRESA EMPRESA
1 2100 C.EMPRESA 5 61 2300 INGENIERÍA 15
21 2000 C.EMPRESA 7 81 2100 C.SOCIALES 3
31 2400 INGENIERÍA 11 91 2100 C.SOCIALES 16
Aplique el muestreo estratificado para seleccionar una muestra de 24

empleados. Use como variable de estratificación el tipo de educación
recibida de cada trabajador. Elabore un listado identificando el número de
dato seleccionado.
Solución
Se divide a la población en estratos que sean mutuamente excluyentes, luego
los estratos 1, 2 y 3 son: C.Empresa, Ingeniería y C.Sociales,
respectivamente. Para cada uno de los estratos, seleccionamos muestras
aleatorias simples.
Cuadro N° 06: Ejemplo de Muestreo Estratificado

Números de Posiciones
Cantidad seleccionada por estrato
Estratos (desde –
elementos en Nh
el estrato Nh hasta) n = xn
N
N1 30
1. C.Empresa N1 = 30 1 – 30 n1 = xn = x24=6
N 120
N2 50
2. Ingeniería N2 = 50 31 – 80 n2= xn= x24=10
N 120
N3 40
3. C.Sociales N3 = 40 81 – 120 n3 = xn= x24=8
N 120
Total N = 120 n=
24
Para cada estrato, realizamos un muestreo aleatorio simple usando las
columnas de la tabla de los números aleatorios.
Ejercicio 3
La siguiente tabla muestra a los 120 alumnos de la facultad de Ingeniería, a

quienes se les preguntó por su emisora radial preferida y por la cantidad de
horas a la semana que la escucha.
Cuadro N°07: Registro de Radios

Posición Radio Horas Posición Radio Horas Posición Radio Horas
1 Panamericana 4 41 Estudio 92 3 81 Estudio 92 2
7 Panamericana 7 47 Estudio 92 7 87 Oxígeno 5
32 Estudio 92 6 72 Estudio 92 5 112 Oxígeno 14

Seleccione una muestra aleatoria de tamaño 12 mediante muestreo

estratificado. Use la variable radio de su preferencia como variable de
estratificación.
Solución:
Posición Nh
Estrato Nh nh = xn
(desde – N
hasta)
Panamericana N1= n1 =
Estudio 92 N2= n2 =
Oxígeno N3= n3 =
Total
Luego, para cada estrato realice un muestreo aleatorio simple utilizando la tabla
de números aleatorios.
LECTURA SELECCIONADA N°1

¿FUNCIONA LA TERAPIA DE CONTACTO?
Estadística. Mario Triola. Pág. 319
Muchos pacientes pagan de $25 a $50 por una sesión de terapia de contacto en la
que el terapeuta coloca sus manos a unos centímetros del cuerpo del paciente, sin
tener realmente contacto físico. El objetivo es curar una amplia variedad de
problemas médicos, incluyendo cáncer, SIDA, asma, enfermedades cardiacas,
dolores de cabeza, quemaduras y fracturas óseas. La teoría básica plantea que un
terapeuta de contacto capacitado profesionalmente puede detectar un mal
alineamiento en el campo de energía del paciente y generar un equilibrio energético
que incrementa el proceso de curación.
Cuando Emily Rosa, una niña de nueve años, estaba en cuarto grado, eligió el tema
de la terapia de contacto para el proyecto de una feria de ciencias y convenció a 21
terapeutas de contacto experimentados para que participaran en una prueba
sencilla de su capacidad para detectar el campo de energía humana. Emily utilizó
un cartón con dos agujeros para introducir las manos. Cada terapeuta de contacto
pasaba sus dos manos a través de los agujeros, y Emily colocaba su mano por
arriba de una de las manos del terapeuta; luego, se le pedía al terapeuta que
identificara la mano que Emily había elegido.
La niña lanzaba una moneda para seleccionar al azar la mano sobre la que colocaba
la suya. Esta prueba se repitió 280 veces. Si los terapeutas de contacto realmente
tenían la habilidad de percibir un campo energético humano, debían identificar la
mano correcta mucho más del 50% de las veces. Si no tenían tal capacidad y sólo
hacían conjeturas, debían acertar alrededor del 50% de las veces. Emily obtuvo los
siguientes resultados: de los 280 ensayos, los terapeutas de contacto identificaron
la mano correcta 123 veces, es decir, tuvieron una tasa de éxito del 44%. Emily,
con la ayuda de su madre, un especialista en estadística y un médico, envió sus
hallazgos para publicarlos en el prestigioso Journal of the American Medical
Association. Después de una cuidadosa y detallada revisión del diseño experimental
y de los resultados, se publicó el artículo "A Close Look at a Therapeutic Touch"
(Journal of the American Medical Association, vol. 279, núm. 13). Emily se convirtió
en la investigadora más joven en publicar un artículo en esa revista. Además, ganó
el primer premio de la feria de ciencias por su proyecto.
Consideremos los principales resultados del proyecto de Emily. En los 280 ensayos,
los terapeutas de contacto acertaron 123 veces. Tenemos una proporción muestral
con n = 280 y x = 123. Los argumentos en contra de la validez del estudio podrían
incluir la aseveración de que el número de ensayos es demasiado pequeño para ser
significativo, o que los terapeutas de contacto tuvieron un mal día y que, debido al
azar, no tuvieron tanto éxito como la población de todos los terapeutas de
contacto. En este capítulo analizaremos estos temas.
También es importante señalar que el proyecto de Emily Rosa fue relativamente
sencillo. Recuerde que ella realizó el estudio cuando cursaba el cuarto grado de
primaria. Su proyecto es el tipo de actividad que cualquier estudiante de un curso
de introducción a la estadística podría llevar a cabo. Después de comprender los
conceptos que se enseñan en el curso de introducción a la estadística típico, los
estudiantes tienen la habilidad para realizar trabajos significativos e importantes.
ACTIVIDAD No 1
Aplica los métodos de muestreo estudiados y compara promedios muestréales
con poblacionales para obtener conclusiones.
1. Una empresa tiene un total de 140 empleados, de los cuales tiene

información sobre: el ingreso mensual (en nuevos soles) y años cumplidos en
la empresa.
Cuadro N°09: Registro de Empleados por Ingresos

Nº Ingreso Años Nº Ingreso Años Nº Ingreso Años
1 2700 8 48 1900 9 95 2500 13
2 2700 9 49 2300 6 96 1900 3
3 1700 4 50 3100 20 97 2500 13
4 1600 4 51 2100 13 98 1900 6
5 2500 3 52 2100 9 99 1700 14
6 1900 2 53 1900 9 100 2000 10
7 1700 5 54 2500 9 101 2500 4
8 1800 1 55 2200 10 102 1700 1
9 2400 7 56 1900 4 103 2300 12
10 2600 4 57 2000 13 104 1700 11
11 2500 5 58 2500 11 105 1700 17
12 2100 2 59 2000 7 106 2400 16
13 2300 11 60 1700 1 107 1900 9
14 1800 9 61 2100 6 108 2400 1
15 2200 1 62 2100 11 109 2100 6
16 2900 5 63 2400 17 110 2700 5
17 1800 10 64 1700 1 111 1700 12
18 2100 4 65 2400 2 112 1900 6
19 2500 10 66 2400 17 113 2100 16
20 2400 13 67 2000 15 114 2500 9
21 2400 7 68 1700 16 115 1500 1
22 1700 1 69 2100 14 116 1800 18
23 1600 6 70 1900 7 117 2700 15
24 2600 3 71 1700 11 118 2700 19
25 2500 17 72 1800 7 119 1800 2
26 1700 0 73 2100 10 120 2000 15
27 2800 4 74 2300 14 121 2400 16
28 2400 17 75 2700 20 122 2600 17
29 2500 13 76 2700 20 123 2300 6
30 2300 16 77 1800 3 124 2100 8
31 2100 11 78 2000 11 125 2400 17
32 1700 1 79 1700 4 126 1700 1
33 2000 2 80 1800 1 127 2600 15
34 2200 11 81 1700 1 128 2700 16
35 2100 3 82 2100 6 129 2700 17
36 2300 5 83 2100 17 130 2700 11
37 2500 3 84 2400 9 131 1600 0

38 2800 11 85 2600 19 132 2100 15
39 2400 16 86 2600 9 133 1900 3
40 1700 18 87 1600 0 134 2100 12
41 2400 14 88 2100 3 135 2200 12
42 2200 14 89 2100 11 136 2100 13
43 2200 0 90 1700 0 137 1800 6
44 2300 13 91 2100 15 138 2600 17
45 2800 15 92 1800 16 139 2100 14
46 2100 5 93 2300 14 140 2500 11
47 1700 16 94 2600 16
a. Seleccione una muestra de 12 empleados utilizando el muestreo aleatorio

simple. Elabore un listado con los trabajadores seleccionados.
b. Seleccione una muestra sistemática de tamaño 18 empleados. Elabore un
listado con los trabajadores seleccionados.
TEMA N°2. ESTIMACIONES Y TAMAÑOS DE MUESTRA 3
Cualquier inferencia o conclusión obtenida de la población, necesariamente,

estará basada en un estadístico muestral, es decir, en la información
proporcionada por la muestra (formalmente definimos un estadístico como una
función de las observaciones muestrales). La elección del estadístico apropiado
dependerá de cuál sea el parámetro poblacional que nos interese. El valor
verdadero del parámetro será desconocido y un objetivo sería estimar su valor,
por lo que tal estadístico se denomina estimador.
Observamos que es necesario tener claro algunos conceptos y características
importantes de la inferencia estadística, detalles que permitirán que realicemos
sobre todo una buena interpretación.
Estimación puntual
Es una medida descriptiva numérica aplicada a las características en las
unidades de la muestra, calculada con ciertos procedimientos establecidos
por indicadores estadísticos conocidos como estimadores o estadísticos.
Estimación por intervalo

Es la estimación de parámetro a través del cálculo de un intervalo de valores
determinando un límite inferior y uno superior dentro del dual estará
comprendido el verdadero valor o parámetro.
Intervalo de confianza
Es un intervalo de valores dentro de los cuales se espera que esté
comprendido el parámetro con un nivel de confianza dado o con un error
conocido.
Nivel de confianza
Expresa la probabilidad de alcanzar la precisión deseada entre el valor
estimado y el parámetro. Se representa como: 1-.
Nivel de riesgo
Expresa la probabilidad de no alcanzar la precisión deseada, también es
conocido como nivel de significancia. Se representa con: .
La estimación estadística se divide en dos grandes grupos: la estimación

puntual y la estimación por intervalos. La estimación puntual consiste en
obtener un único número calculado a partir de las observaciones muestrales, y
que es utilizado como estimación del valor del parámetro θ. Se le llama
estimación puntual porque a ese número, que se utiliza como estimación del
parámetro θ, se le puede asignar un punto sobre la recta real. En la estimación
por intervalos se obtienen dos puntos (un extremo inferior y un extremo
superior) que definen un intervalo sobre la recta real, el cual contendrá con
cierta seguridad el valor del parámetro θ.
El estimador del parámetro poblacional θ es una función de las variables

aleatorias u observaciones muestrales y se representa por:
 =g( X1 , X 2 ,..., X n )
Para una realización particular de la muestra ( 1 2

x , x ,..., x
n ) se obtiene un valor
específico del estimador que recibe el nombre de estimación del parámetro
poblacional θ y lo notaremos por :  =g( x1 , x2 ,..., xn )
3
Mario Triola. Estadística. 2009
Vemos pues que existe diferencia entre estimador y estimación. El estimador es

un estadístico y, por tanto, una variable aleatoria y el valor de esta variable
para una muestra concreta ( 1 2

x , x ,..., x
n ) será la estimación puntual. El
estimador θ tendrá su distribución muestral.

En el cuadro se muestra diferentes parámetros poblacionales, sus
estimadores y sus estimaciones.
Cuadro N°08: PARÁMETROS POBLACIONALES
Parámetro
Estimador Estimación
poblacional
n n
Media  X i x i
̂  X  i 1
x i 1
n n
1 n

1 n

 xi  x 
2
Varianza 2 ̂ 2  S 2  ( X i  X )2 s2 
n  1 i 1 n  1 i 1
X númeroéxitos x
Proporción pó π pˆ   pˆ 
n númeropruebas n
Para la elección de estos estimadores puntuales nos hemos basado,

principalmente en la intuición y en la posible analogía de los parámetros
poblacionales con sus correspondientes valores muestrales, pero éste no será
el método más adecuado para la obtención de estimadores puntuales, aunque
en este caso se obtienen estimadores satisfactorios para los parámetros
poblacionales. En general, el problema de obtener estimadores puntuales no
será tan sencillo, por ello tenemos que dar propiedades que serían deseables
que se cumplieran por los diferentes estimadores puntuales obtenidos, aunque
no existe un mecanismo o método único que nos permita obtener el mejor
estimador puntual en todas las circunstancias.
Nuestro objetivo ahora será dar algunas propiedades deseables de los

estimadores puntuales, con el fin de poder conocer la bondad de los mismos,
pues cuantas más propiedades verifiquen los estimadores puntuales mejores
serán.
Propiedades de los estimadores (Mata, 2013)

Un estimador debe ser:
Insesgado: Si tenemos un gran número de muestras de tamaño n y

obtenemos el valor del estimador en cada una de ellas, sería deseable que la
media de todas estas estimaciones coincidiera con el valor de μ. Se dice que
un estimador es insesgado si su esperanza matemática coincide con el valor
del parámetro a estimar.
Eficiente: Se dice que los estimadores son eficientes cuando generan una
distribución muestral con el mínimo error estándar es decir, entre dos
estimadores insesgados de un parámetro dado es más eficiente el de menor
varianza.
Consistente: Un estimador se dice consistente cuando su valor tiende hacia

el verdadero valor del parámetro a medida que aumenta el tamaño de la
muestra. Es decir, la probabilidad de que la estimación sea el verdadero
valor del parámetro tiende a 1.
Suficiente: Se dice de un estimador que es suficiente cuando es capaz de

extraer de los datos toda la información importante sobre el parámetro.
2.1 ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL

Si p representa la proporción de éxitos en una muestra aleatoria de tamaño
n suficientemente grande y q=1-p, entonces un intervalo de confianza
aproximado para la proporción poblacional p al nivel de confianza del (1-
)% viene dado por:
 pˆ qˆ pˆ qˆ 
 pˆ  z  , pˆ  z  
 2
n 2
n 
Donde la variable aleatoria Z sigue una distribución N(0,1).

Si el muestreo es sin reemplazo y la fracción de muestreo n  0,05 . N , los
límites de confianza se calculan con la siguiente fórmula.
pˆ qˆ N  n pˆ qˆ N  n
pˆ  Z1 / 2  p  pˆ  Z1 / 2
n N 1 n N 1
Ejemplo
El dueño de un diario se interesa en la proporción de reporteros varones que
cometen errores al momento de entregar el reporte final. Al seleccionar una
muestra aleatoria de 100 reporteros varones encontró que 24 cometían
errores. Calcule e interprete un intervalo de confianza del 99% para la
verdadera proporción de reporteros varones que cometen errores al
momento de entregar el reporte final.
Solución
24
i) La estimación puntual de p es pˆ   0,24 y Z 0,995  2,58
100
ii) 0,24  2,58   p  0,24  2,58 

(0,24 )(0,76 ) (0,24 )(0,76 )
100 100
0,13  p  0,35
Interpretación: Existe un 99% de confianza que entre 0,13 y 0,35 se

encontrará la proporción poblacional de reporteros varones que cometen
errores al momento de entregar el reporte final.
1.2 ESTIMACIÓN DE LA MEDIA POBLACIONAL
2.2.1 INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN

NORMAL, CON VARIANZA CONOCIDA.
Supongamos que tenemos una muestra aleatoria de n observaciones de una
distribución N(μ, σ). Si σ es conocida, y la media muestral observada es x,
entonces el intervalo de confianza para la media poblacional μ, al nivel de

confianza del (1-)% viene dado por:
   
 x  z / 2 , x  z / 2 
 n n
Donde la variable aleatoria Z sigue una distribución N(0,1).
n
 0,05
Si el muestreo es sin reemplazo y la fracción de muestreo N el error
estándar será:
 N n
x  y los límites de confianza se calculan con la siguiente fórmula.
n N 1
 N n  N n
x  Z1 / 2    x  Z1 / 2
n N 1 n N 1
Ejemplo
Un artículo publicado en un diario local indica que el tiempo promedio empleado
por los hogares de Lima Metropolitana en ver televisión en el horario de 8 p.m.
a 11 p.m. es de 7,75 horas. Suponga que el tiempo tiene una distribución
aproximadamente normal con desviación estándar de 3,45 horas. Para
corroborar dicha afirmación un grupo de estudiantes selecciona una muestra de
180 hogares de L.M. y obtuvo que el tiempo promedio fue de 7,42 horas por
semana. ¿Será cierta la afirmación publicada por el diario local al 96% de
confianza?
Solución:
i) La estimación puntual de  es x =7,42 siendo n=180
ii) 1- = 0,96   = 0.04 entonces: Z 1 / 2 = Z(0.98) = 2,05
 
como: x  Z1 / 2    x  Z1 / 2
n n
3,45 3,45
iii) IC (  )  7,42  (2,05)    7,42  (2,05)
180 180
6,8928    7,9472
Interpretación: Con un 96% de confianza entre 6,8928 y 7,9472 horas por

semana se encontrará la media del tiempo empleado por todos los hogares de
Lima Metropolitana en ver televisión en el horario de 8 p.m. a 11 p.m. por lo
tanto es cierta la afirmación publicada en el diario local.
Ejemplo
Se tienen 50 000 trabajadores de construcción civil empadronados en el
Ministerio de Trabajo, de los cuales se tomó una muestra aleatoria de 400 y se
analizó el ingreso diario. Si la media de los trabajadores encuestados es de 74
soles diarios con una desviación estandar de 10.68 soles, construya un intervalo
de confianza del 90% para el ingreso diario de todos los trabajadores de
construcción civil.
Solución
i) x =74; n=400; N=50 000 y s=10.68
ii) 1- = 0,90   = 0.1 entonces: Z 1 / 2 = Z(0.90) = 1.645
 N n  N n
iii) x  Z1 / 2    x  Z1 / 2
n N 1 n N 1
iv)
10.68 50000  400 10.68 50000  400
IC ( )  74  (1.645 ) x    74  (1.645 ) x
400 50000  1 400 50000  1
v) IC (  )  73 .13    74 .87
2.2.2 INTERVALO DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN CON

VARIANZA DESCONOCIDA SIENDO n<30.
Supongamos que tenemos una muestra aleatoria de n<30 observaciones de
una distribución N(μ,σ). Si σ es desconocida, y la media y la desviación
típica muestral observadas son x y s, respectivamente, entonces el
intervalo de confianza para la media poblacional μ, al nivel de confianza del
(1-)% viene dado por:
 s s 
 x  t / 2 , x  t / 2 
 n n 

donde t /2 es tal que P  tn 1  t / 2   y la variable t n 1 sigue una
2
distribución t-Student con n-1 grados de libertad.
n
Si el muestreo es sin reemplazo y la fracción de muestreo  0,05 , el error
N
s N n
estándar será: y los límites de confianza se calculan con la
n N 1
siguiente fórmula:
s N n s N n
x  t / 2,n1    x  t / 2,n1
n N 1 n N 1
Distribución t-Student
Cuando se tienen muestras pequeñas y no se conoce la desviación estándar

poblacional pero la población se distribuye normalmente se puede utilizar como
estadístico de prueba el valor crítico t de la distribución t de Student la cual
tiene las siguientes características:
- Es simétrica y tiene forma de campana.

- Se extiende de - a +
- Los extremos la distribución t está por encima de la normal estándar.
- El centro la distribución t está por debajo de la normal estándar.
- Cada valor de grado de libertad determina una distribución t distinta.
- Cuando los grados de libertad son altos, los valores de la distribución t se
asemejan con los valores de la distribución normal estándar (n > 29).
- En apariencia, la distribución t es muy similar a la distribución normal
estandarizada. Ambas distribuciones tienen forma de campana. Sin
embargo, la distribución t tiene mayor área en los extremos y menor en

el centro, a diferencia de la distribución normal.
FIGURA N°04: Ejemplo de gráficos de la distribución t-Student para

diferentes t a m a ñ o s d e m u e s t r a ( T r i o l a , 2 0 0 9 )
Ejemplo
El jefe del área de prensa de un diario desea evaluar la habilidad de su
equipo de trabajo en el digitado de una misma noticia. Para realizar dicho
estudio selecciona al azar una muestra aleatoria de redactores obteniendo
los siguientes resultados (en minutos):
3,2 4,8 5,3 9,1 6,3 8,2 6,5 9,6 10,3 8,6
6,3 7,9 8,2 7,9 6,9 9,3 8,6 6,8 10,1 9,0
Asumiendo que los tiempos se distribuyen normalmente. Halle e interprete

un intervalo del 95% de confianza para el tiempo medio utilizado en el
tipeado de una noticia.
Solución:
i) La estimación puntual para  es x =7,645 siendo s= 1.8597
ii) Como el nivel de confianza es 95%, t / 2;n 1 =2.0930
iii)
(1,8597 ) (1,8597 )
IC (  )  7,645  2,0930    7,645  2,0930
20 20
6.7746    8.1130
Interpretación: Con un 95% de confianza entre 6.7746 y 8.1130 minutos se

encontrará la media del tiempo utilizado por todos los redactores en el
digitado de una noticia.
Ejemplo
Pamela, estudiante de estadística para Ciencias de la Empresa piensa que el
gasto promedio semanal en fotocopias de los estudiantes de su facultad es
de 3.5 soles. Para verificar si es cierto lo que está pensando ha elegido al
azar una muestra de 9 estudiantes de un total de 120 estudiantes que llevan
el curso de estadística para comunicadores, resultando los siguientes gastos:
3,5 2,5 1,9 1,7 2,5 3,4 2,9 1,6 1,5
Si la variable aleatoria objeto de estudio sigue una distribución normal. Con

un intervalo de confianza del 96% para la media del gasto semanal en
fotocopias por estudiante ¿será cierto lo que piensa Pamela?
Solución:
i) n=9; N=120; 1-α=0.96
ii) x =2.3889 siendo s= 0.7639 y n/N=0.0758>0.05
iii) t / 2;n 1 =2.44898
iv)
IC (  )  x  t 
N  n 
s


 n 1; 
2
N  1
n
 2,3889  2,44898 
0,7639  120  9
9 120  1
 1,7866    2,9912
Conclusión: Con un nivel de confianza del 96% se puede decir que el gasto
promedio semanal en fotocopias de los estudiantes de su facultad es menor
a 3.5 soles, por lo que podríamos decir que lo que piensa Pamela no es
cierto.
2.3 ESTIMACIÓN DE LA VARIANZA POBLACIONAL
Supongamos una muestra aleatoria de n observaciones de una distribución

2
N(μ,σ). Si σ es desconocida y la varianza muestral observada es s entonces
el intervalo de confianza para la varianza poblacional  2
al nivel de
confianza del 100(1-α)% viene dado por:
 (n  1) sˆ (n  1) sˆ 
 2 , 2 
  n 1, / 2  n 1,1 / 2 

donde  n21,1 / 2 es tal que P   n21   n21,1 / 2   y
2

 n21, / 2 es tal que P   n21   n21, / 2   1 
2
y la variable aleatoria  n21 sigue una distribución 2 de Pearson con n-1

grados de libertad.
FIGURA Nº05: VALORES CRÍTICOS DE LA DISTRIBUCIÓN CHI-

CUADRADO (Triola, 2009)
- Para obtener el valor crítico 2.7 ubicar el 9 en la columna de grados de

libertad y 1-0.025=0.975 (área hacia la derecha del  2 ) en la parte
superior horizontal.
- Para obtener el valor crítico 19.023 ubicar el 9 en la columna de grados de
libertad y 0.025 (área hacia la derecha del 2 ) en la parte superior
horizontal.
Ejemplo
Un fabricante de baterías para automóviles afirma que sus baterías durarán,
en promedio, tres años con una varianza de un año. Si cinco de estas
baterías tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 años, construya un
intervalo de confianza del 95% para  y decida si la afirmación del
2
fabricante de que  = 1 es válida. Suponga que la población de duraciones

2
de las baterías se distribuye de forma aproximadamente normal.
Solución
i) s2 = 0,815, n=5
ii) El valor 21-/2 , es un valor 2 con  = 5-1 grados de libertad, que deja un
área de 0,025 a la izquierda y por lo tanto un área de 0,975 a la derecha, es
20,975 = 0,484; de la misma forma, el valor 2/2 es igual a 20,025 = 11,143.
(5  1)(0.815 ) (5  1)(0.815 )
iii)  2 
11 .143 0.484
iv) 0.3    6.7
2
Interpretación: Con 95% de confianza entre 0,3 y 6,7 se encontrará la

varianza de la duración de las baterías. Sí es posible considerar como válida
la afirmación del fabricante porque el intervalo hallado contiene a la unidad.
Ejemplo
Se desea estimar la varianza de la longitud de ciertos cables. En una
muestra de 25 cables se encuentra que la longitud tiene una media de 80 m
y una desviación de 3 m. Hallar un intervalo con una confianza del 95%,
para la varianza de las longitudes de los cables.
Solución
i) n  25 : x  80 , s  3 , s 2  9
 
ii) N .C.  0.95  1     0.025 , 1   0.975
2 2
iii)  ( 0.025, 24)  12 .4011 ,  ( 0.975, 24)  39 .3641
2 2
24  9 24  9
iv) 2 
39 .3641 12 .4011
v) 5.49   2  17 .42
vi) 2.34    4.17
Interpretación: Se puede afirmar con un 95% de confianza que la desviación

estandar de la longitud de dichos cables se encuentra entrea 2.34 m y
4.17m.
2.4 DETERMINACIÓN DEL TAMAÑO DE MUESTRA
Existen tres factores que determinan el tamaño de una muestra; ninguno

tiene alguna relación directa con el tamaño de la población. Estos son:
- El grado de confianza elegido.

- El máximo error permitido.
. La variación de la población.
2.4.1 Para estimar la media poblacional
Población infinita Población Finita

z 2 2
z 2 2 N
n 2 n 2
E E ( N  1)  z 2 2
Ajuste de Tamaño de
muestra para
población finita
n0
n
n
1 0
N
Donde:
E: Es el error permitido;
Z: El valor estándar normal asociado con el grado de confianza
elegido,
: La desviación de la población, obtenida de estudios anteriores,
experiencias previas o se puede estimar la desviación estándar
muestral mediante un estudio piloto
no: Tamaño de muestra calculada de una población infinita
N: Tamaño de población
Se dice que una población es finita si la relación n/N > 5%
2.4.2 Para estimar la proporción poblacional
Población infinita población finita
z 2 pq z 2 pqN
n 2 n 2
E E ( N  1)  z 2 pq
Donde:
E: Es el error permitido;
Z: El valor estándar normal asociado con el grado de confianza
elegido,
P: La proporción de éxito de la población, obtenida de estudios
anteriores, experiencias previas o se puede estimar la proporción
de éxito muestral mediante un estudio piloto.
q: La proporción de fracaso de la población se obtiene por
complemento de p: q = 1 – p
N: Tamaño de población
Ejemplo
Se desea estimar el peso promedio de los sacos que son llenados por
un nuevo instrumento en una industria. Se conoce que el peso de un
saco que se llena con este instrumento es una variable aleatoria con
distribución normal. Si se supone que la desviación típica del peso es
de 0,5 kg. Determine el tamaño de muestra aleatoria necesaria para
determinar una probabilidad igual a 0,95 de que el estimado y el
parámetro se diferencien modularmente en menos de 0,1 kg.
Solución
i) e=0.1;   0.5;   0.05
ii) Z 1  1,96
2
 0,51,96  
2
iii) n     96 ,4
 0,1 
Evidentemente un tamaño de muestra no puede ser fraccionario por
lo que se debe aproximar por exceso. El tamaño de muestra sería de
97.
Ejemplo
La Dirección Regional de Trabajo planea realizar un estudio con el
objetivo de conocer el promedio de horas semanales trabajadas por
las mujeres del servicio doméstico. La muestra será extraída de una
población de 10000 mujeres que figuran en los registros del seguro
social y de las cuales se conoce a través de un estudio piloto que su
varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y
estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser
el tamaño muestral requerido?
Solución
i) e=0.1;   9.648 ;   0.05
ii) Z 1  1,96
2
 9.648 1,96  
2
iii) n     3706
 0,1 
iv) Como 10000<3706x(3706-1), se corrige el tamaño de muestra
3706
n  2704
3706
1
10000
Ejemplo
En un lote de frascos para medicina, con una población de 8000
unidades, se desea estimar la media de la capacidad en centímetros
cúbicos de los mismos. A través de un premuestro de tamaño 35 se

ha estimado que la desviación estándar es de 2 centímetros cúbicos.
Si queremos tener una precisión 0.25 cm3, y un nivel de significancia
del 5%. ¿De que tamaño debe de ser la muestra?
Solución
i) e=0.25 cm3;   2cm3 ;   0.05
ii) Z 1  1,96
2
N . 2 Z 2 2
iii) n
Ne   2 Z 2 2
8000 (2) 2 (1.96) 2
iv) n
8000 (0.25) 2  (2) 2 (1.96) 2
122931 .2
v) n   239
515 .37
Solo faltaría muestrear 204 frascos, pues los datos de los 35 frascos
del premuestreo siguen siendo válidos.
Ejemplo
En una investigación, se desea determinar en que proporción los
niños de una región toman leche en el desayuno. Si se sabe que
existen 1500 niños y deseamos tener una precisión del 10 %, con un
nivel de significancia del 5%. ¿De que tamaño debe de ser la
muestra?
Solución
i) N=1500; e=10%=0.1;  0.05
ii) p = 0.5 y q = 0.5
iii) Z 1  1,96

2
N . p.q.Z 2 2
iv) n
N .e 2  p.q.Z 2 2
1500 (0.5)(0.5)(1.96) 2
v) n
1500 (0.1) 2  (0.5)(0.5) / 1.96) 2
vi) n  90
Se deben muestrear 90 niños.
Cuadro N°09: Distintos niveles de confianza utilizados en la práctica
Nivel de Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 80%
Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.645 1.28
ACTIVIDAD N°2
A partir de un muestreo específico calculan parámetros utilizando los

intervalos de confianza adecuados.
1. La siguiente tabla muestra el registro de todos los trabajadores de una

empresa agroexportadora. Las variables consideradas fueron: ingreso
semanal (en dólares), número de hijos y nivel educativo alcanzado.
Cuadro N°10: Registro de Ingresos Semanal por Trabajador
Ingreso Ingreso
N Número Nivel Número Nivel
semana N° semana
° de hijos educativo de hijos educativo
l l
1 75 3 Primaria 51 160 1 Secundaria
23 120 1 Primaria 73 340 3 Superior

41 300 3 Secundaria 91 720 2 Superior
Seleccione una muestra de 12 trabajadores aplicando el muestreo

sistemático. Elabore un listado con el ingreso semanal y calcule un intervalo de
confianza para la media y desviación estándar con un nivel de significancia del
96%. Finalmente calcule un intervalo de confianza para la proporción de
trabajadores que ganan más de 500 soles semanales.
2. Los siguientes datos han sido extraídos de una investigación realizada por
La Defensoría del Pueblo, Comisión de la Verdad y Reconciliación, Comité
Internacional Cruz Roja y Coordinadora Nacional de Derechos Humanos sobre
un total de 150 personas extraviadas en el Perú entre los años 1980 y 1996
en tres departamentos donde hubo el brote terrorista: Ayacucho, Huánuco y
San Martín.
a. Aplique el muestreo sistemático para obtener una muestra de 10 personas

desaparecidas. Elabore un listado con el número seleccionado. Utilice las
columnas C14, C2 y C8 de la tabla de números aleatorios. Luego calcule un
intervalo de confianza para la media de sus edades al 98% de confianza.
b. Aplique el muestreo aleatorio simple para obtener una muestra de 14

personas desaparecidas.
Elabore un listado con el número seleccionado. Utilice las columnas C7,
C12, C5, C16 y C3 de la tabla de números aleatorios. Calcule un intervalo
de confianza para la proporción de personas provenientes de Ayacucho con
un nivel de significancia del 955.
c. Aplique el muestreo estratificado para obtener una muestra de 10

personas desaparecidas. Elabore un listado con el número seleccionado.
Utilice como variable de estratificación: Lugar de procedencia. Luego
calcule un intervalo de confianza al 95% para la desviación estándar de sus
edades
Estrato 1: Ayacucho C3, C5, C7

Estrato 2: Huánuco C5; C9, C10, C12
Estrato 3: San C4, C8, C11,C15
Martín
PRÁCTICA Nº 1
1. Describa claramente cuáles son las clases de muestreo.

2. Calcule analíticamente el valore crítico z para un nivel de confianza del 93%.
3. En la tabla se observa los costos no contemplados de todos los contratos
realizados en el último año por cierta empresa.
Cuadro N°11: Costos no contemplados en los 48 últimos contratos

Costo no Costo no Costo no Costo no Costo no Costo no
Nº contempla Nº contempla Nº contempla Nº contempla Nº contempla Nº contempla
do do do do do do
1 531,64 9 248,45 17 48,67 25 495,52 33 5477,51 41 199,80
2 2484,56 10 276,22 18 2279,34 26 47,17 34 3367,60 42 1334,39
3 670,48 11 118,61 19 141,81 27 808,60 35 1391,07 43 319,47
4 1584,87 12 222,50 20 478,71 28 132,72 36 5743,42 44 1280,44
5 242,06 13 98,48 21 133,67 29 187,59 37 374,76 45 7189,11
6 536,81 14 68,17 22 115,92 30 120,42 38 555,77 46 4388,82
7 1549,37 15 167,33 23 133,02 31 1484,08 39 618,09 47 217,94
8 83,31 16 740,13 24 97,24 32 133,89 40 1175,39 48 2699,28
a) Aplique detalladamente un muestreo sistemático que le permita
seleccionar aleatoriamente ocho observaciones. Escriba el número de la
observación y el valor correspondiente al costo de cada elemento de la
muestra.
b) Estime e interprete con un nivel de confianza del 90% el costo real
promedio del contrato.
c) Estime e interprete con un nivel de confianza del 98% la desviación
estándar poblacional a partir de la muestra obtenida.
d) Si se desea analizar la proporción de montos mayores que 1000 dólares,
¿cuál debería ser el tamaño de muestra adecuado con nivel de confianza del
94% con un error de 4 puntos porcentuales?
4. Una compañía de taxis ha decidido comprar llantas radiales para su flota de
automóviles. La compra se efectuará de una de las marcas A y B. Para decidir entre
una de ellas, se tomó una muestra aleatoria de 31 llantas para cada marca, con lo
que se encontraron los resultados siguientes:
Marca Número de Recorrido Desviación Número de

llantas promedio estándar llantas con al
evaluadas (Kilómetros) menos un
defecto
A 31 46 300 5 000 3
B 31 48 100 6100 7
a) Estime mediante un intervalo de confianza del 96%la proporción de llantas

defectuosas de la marca B
b) Analice la relación de varianzas de ambas marcas al 95% y decida cual marca
comprar.
5. Un fabricante de impresoras desea estimar la vida promedio de sus cabezales de
impresión. La estimación ha de estar dentro de 2 horas en torno a la media y tener
un nivel de confianza del 90%. Si una muestra piloto del último lote de 800
cabezales revela una desviación típica de 25 horas, ¿cuál debe ser el tamaño de la
muestra para validar dicho lote?
BIBLIOGRAFIA ESPECÍFICA DE LA UNIDAD I
1. Triola Mario F. ESTADÍSTICA. Pearson Educación. México 2012
2. Berenson, Mark y Levine, David. Estadística Básica en Administración,

Conceptos y aplicaciones. Prentice Hall, México 2010
AUTOEVALUACION No 1
1. Correlacione:
DEFINICIONES CONCEPTO
1 Es una técnica en el que el sujeto no Muestreo
sabe si está recibiendo el tratamiento estratificado
2 Los miembros de una población se Muestreo
seleccionan de forma que cada sistemático
miembro individual tenga la misma
posibilidad de ser elegido
3 Selecciona directamente los individuos Muestra
de la población para la muestra aleatoria
4 Se selecciona un punto de partida, Muestreo de
después se elige cada k-esimo conveniencia
elemento de la población
5 Subdividimos a la población en al Estudio a ciegas
menos dos subgrupos diferentes, cada
subgrupo posee gran homogeneidad
respecto alguna característica.
A) 3,4,5,2,1
B) 5,4,3,2,1
C) 3,5,4,2,1
D) 5,4,2,3,1
E) 5,3,2,1,4
2. El siguiente intervalo de confianza se obtiene de una proporción poblacional,

p: 0.883 <p<0.911. Utilice los límites para encontrar el margen de error, E.
A) 0.014
B) 0.015
C) 0.897
D) 0.028
E) 0.196
3. 459 bombillas seleccionados al azar fueron probados en un laboratorio, 291
duraron más de 500 horas. Encuentre una estimación puntual de la verdadera
proporción de todas las bombillas que duran más de 500 horas.
A) 0.632
B) 0.366
C) 0.388
D) 0.888
E) 0.634
4. Condiciones para hacer un intervalo de confianza usando la distribución normal

estándar:
I. La distribución de la población no puede ser normal si n>30.

II. Se conoce el valor de la desviación estándar poblacional.
III. Se emplea para n<30 si la población tiene una distribución normal
IV. Se conoce el valor de la media poblacional
V. La muestra es una muestra aleatoria simple.
A) II, III y IV
B) I, II, y V
C) I, IV y V
D) II y IV
E) III, IV y V
5. El ancho de un intervalo de confianza para una proporción sería:
A) Más angosto para un nivel confianza de 99% que para un nivel confianza de
95%.
B) Más amplio para una muestra de tamaño 100 que para una muestra de
tamaño 50.
C) Más amplio para una desviación estándar de 3.56 que para un nivel de
confianza de 90%
D) Más amplio cuando la proporción de la muestra sea 0.50 que cuando la
proporción de la muestra sea 0.20.
E) Más amplio a nivel de confianza 99% que al de 95%
6. Un grupo de consumidores desea estimar el monto de las facturas de energía

eléctrica para el mes de marzo para las viviendas unifamiliares del distrito de
Hualhuas. Con base en estudios realizados en otras ciudades cercanas a ésta,
se determinó una desviación estándar de 25 dólares. El grupo desea estimar el
monto promedio para marzo dentro de ± 5 dólares del promedio verdadero
con 99% de confianza. Calcule el mejor tamaño de muestra
A) 205
B) 167
C) 135
D) 68
E) 152
7. Un amplio intervalo de confianza indica que:
I. Existe mayor probabilidad de estimar parámetro con el estimador

II. Hay una variabilidad considerable en los datos muestrales
III. La estimación puntual obtenida de la muestra no puede estar cerca
del verdadero valor del parámetro poblacional
IV. Hay poca variabilidad el estimador es cercano al parámetro
V. La estimación por intervalo no es válida
Son verdaderos:
A) I, III y IV
B) III y V
C) IV y V
D) II y III
E) I y IV
8. Con la siguiente información:

n = 15, s2 = 2.53, α = 0.01
Defina el intervalo de confianza para la desviación estándar:
A) 1.039 <  < 2.775

B) 1.131 <  < 8.693
C) 1.299 <  < 7.162
D) 1.063 <  < 2.948
E) 2.069 <  < 6.332
9. Un empresario potencial estudia la posibilidad de comprar una lavandería con
máquinas operadas con monedas. El dueño actual asegura que en los últimos
5 años el promedio de ingresos diarios ha sido 675 dólares con una
desviación estándar de 75 dólares. Una muestra de 30 días revela un ingreso
promedio diario de 625 dólares. ¿Existe evidencia de que la aseveración del
dueño actual no es válida? (use un nivel de significancia de 0.01). Determine
el valor del estadístico de prueba y si se aprueba o no la hipótesis nula.
A) -3.651; se rechaza Ho
B) -2.381, se acepta Ho
C) 2.381, se rechaza Ho
D) -4.724, se acepta Ho
E) -1.452, se acepta Ho
10. Las Razones por las que no se debe usar la distribución “t”
I. La desviación estándar de la población es conocida.

II. La distribución de la población es normal
III. El tamaño de la muestra es mayor a 30
IV. La muestra es aleatoria simple
V. El tamaño de muestra es menor a 30
A) II y IV
B) III y V
C) I
D) IV
E) III
UNIDAD II: “PRUEBA DE HIPÓTESIS Y ANÁLISIS DE

VARIANZA”
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD II
UNIDAD II: “PRUEBA DE HIPÓTESIS Y ANÁLISIS DE

VARIANZA”
TEMA 1: PRUEBA DE HIPÓTESIS.
Los métodos estudiados en la Unidad anterior usan la información proporcionada

por los estadísticos muestrales para estimar con cierta probabilidad el valor de un
parámetro poblacional. En éste Unidad se introducirá la prueba de hipótesis que
supone a priori el valor del parámetro y sobre la base de la información obtenida
en una muestra se somete a prueba la suposición, para luego tomar con cierta
probabilidad, la decisión de rechazar o no rechazar la hipótesis. En éste punto es
importante señalar que la expresión “no rechazar” pudiera ser sustituida por
“aceptar”, sin embargo antes de hacerlo es necesario atender cuidadosamente
algunas explicaciones que se darán más adelante. La prueba de hipótesis
también conocida como docimasia o contrastación de hipótesis es uno de los
métodos estadísticos más usados en las ciencias naturales por ser un
procedimiento que le proporciona al investigador un criterio objetivo para tomar
decisiones con base a un número limitado de observaciones.
Esta proposición que finalmente es aceptada o rechazada recibe el nombre de
hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística,
puesto que muchos tipos de problemas de toma de decisiones, pruebas o
experimentos en el mundo de la ingeniería, ciencias de la salud, ciencias sociales,
administración, economía, etc., pueden formularse como problemas de prueba
de hipótesis.
1.1 DEFINICIONES BÁSICAS4
1.1.1 HIPÓTESIS
Una hipótesis estadística es una proposición o supuesto sobre los parámetros de
una o más poblaciones.
1.1.2 HIPÓTESIS ESTADÍSTICA

Cualquier afirmación o conjetura que se hace a cerca de la distribución de una o
más poblaciones
Ejemplo:
El promedio ponderado de los alumnos de UCCI en el semestre 2013-I es superior a
14.
1.1.3 HIPÓTESIS SIMPLE

Cualquier hipótesis estadística que especifica completamente la distribución de la
población, especifica la forma de la distribución y el valor de su parámetro.
Ejemplo:
El ingreso mensual promedio de los empleados de cierta empresa es de 900 nuevos
soles, suponiendo que los ingresos se distribuyen normalmente con desviación
estándar de 30.
1.1.4 HIPÓTESIS COMPUESTA

Cualquier hipótesis estadística que NO especifica completamente la distribución de
la población
Ejemplo:
El ingreso mensual promedio de los empleados de cierta empresa es SUPERIOR a
900 nuevos soles, suponiendo que los ingresos se distribuyen normalmente con
desviación estándar de 30.
4
Mario Triola. Estadística. 2009
1.1.5 HIPÓTESIS NULA (H0)

Es la hipótesis que es aceptada provisionalmente como verdadera y cuya validez
será sometida a comprobación
1.1.6 HIPÓTESIS ALTERNATIVA (H1)

Es una hipótesis contraria a la hipótesis nula, se acepta en caso que la hipótesis
nula sea rechazada.
Es importante recordar que las hipótesis siempre son proposiciones sobre la
población o distribución bajo estudio, no proposiciones sobre la muestra. Por lo
general, el valor del parámetro de la población especificado en la hipótesis nula se
determina en una de tres maneras diferentes:
- Puede ser resultado de la experiencia pasada o del conocimiento del

proceso, entonces el objetivo de la prueba de hipótesis usualmente es
determinar si ha cambiado el valor del parámetro.
- Puede obtenerse a partir de alguna teoría o modelo que se relaciona con el

proceso bajo estudio. En este caso, el objetivo de la prueba de hipótesis es
verificar la teoría o modelo.
- Cuando el valor del parámetro proviene de consideraciones externas tales

como las especificaciones de diseño o ingeniería, o de
obligaciones contractuales. En esta situación, el objetivo usual de la
prueba de hipótesis es probar el cumplimiento de las especificaciones.
1.1.7 PLANTEAMIENTO DE HIPÓTESIS
Es importante tener en cuenta que el signo igual siempre debe ir vinculado a la

hipótesis nula.
1) H0:  = 0 2) H0:  ≤ 0 3) H0:  ≥ 0

H 1:  ≠ 0 H1:  > 0 H1:  < 0
Donde 0 es el valor del parámetro desconocido .
1.1.8 PRUEBA DE HIPÓTESIS ESTADÍSTICA

Proceso para la toma de decisiones de aceptar o rechazar la Hipótesis Nula H 0 en
contraposición de la hipótesis alternativa H 1 basándose en los resultados de una
muestra.
1.1.9 TIPOS DE PRUEBAS DE HIPÓTESIS

Depende de la hipótesis alternativa
Prueba de Hipótesis Prueba de Hipótesis

unilateral o Prueba de Bilateral o Prueba de dos
una cola colas
H0:  =  0 y H 1 :  >  0 H0:  = 0 y H1 :  ≠ 0
H0:  =  0 y H 1 :  <  0
1.1.10 ERROR TIPO I Y II
H0
DECISIÓN H0 FALSA
VERDADERA
CORRECTO ERROR TIPO II
ACEPTAR H0
1- 
RECHAZAR ERROR TIPO I CORRECTO

H0  (1-)
Nivel de Significación () Potencia de una Prueba

Es la probabilidad de cometer un Es la probabilidad de cometer un
error de tipo I error de tipo II
 = P(error tipo I)  = P(error tipo II)
 = P(rechazar H0 cuando es  = P(aceptar H0 cuando es falsa)
verdadera)
1.1.11 REGLA DE DECISIÓN

Es la división de la distribución muestral del estadístico de la prueba en dos partes
mutuamente excluyentes:
Región Crítica (RC): región de rechazo de H 0

Región de Aceptación (RA): región de no rechazo de H 0
Depende de la hipótesis alternativa H 1 del nivel de significación y la distribución

muestral del estadístico
Prueba de Hipótesis Bilateral

o Prueba de dos colas.
H0:  = 0 y H1 :  ≠ 0
Prueba de Hipótesis unilateral

o Prueba de una cola.
H0:  =  0 y H 1 :  <  0
Prueba de Hipótesis unilateral

o Prueba de una cola.
H0:  =  0 y H 1 :  >  0
1.1.12 PROCEDIMIENTO DE LA PRUEBA DE HIPÓTESIS

La prueba de hipótesis estadística consta del siguiente procedimiento:
1. Planteamiento de las hipótesis. Establezca la aseveración que desea ser
probada y exprésela en forma simbólica, H0 y H1. El signo igual siempre debe ir

vinculado con la H0.
2. Establecimiento del nivel de confianza. De acuerdo a la gravedad de cometer
el error tipo I se establece el valor . Es usual considerar los valores 0.05 y
0.01. Este valor nos permitirá calcular el valor crítico de la prueba que puede
ser z, t o chi cuadrado.
3. Cálculo del estadístico de prueba. Se identifica el estadístico pertinente para
la prueba realizada y su respectiva distribución, luego se realiza el cálculo del
mismo al cual usualmente se le denomina valor calculado. Se realiza un
gráfico de la distribución que incluya el valor crítico, el estadístico de prueba y
las regiones de rechazo o crítica y de aceptación.
4. Establecimiento de la regla de decisión. Rechace la H0 si el estadístico de
prueba se encuentra en la región de crítica o de rechazo. Acepte la H 0 si el
estadístico de prueba se encuentra en la región de aceptación.
5. Toma de decisión. Establezca la conclusión indicando si existe evidencia
muestral suficiente para aceptar la H0 (EEEAH0) o los datos muestrales no
sustentan la aseveración de la H0 por lo que no hay evidencia estadística para
aceptar H0 (EEERH0)
1.2 Prueba de aseveración para la media.

Supongamos que de una población normal con media desconocida  y
varianza conocida 2 se extrae una muestra de tamaño n, entonces de la
distribución de la media muestral X se obtiene la prueba estadística o
estadístico:
X  o X 
Z ó t n 1 
/ n s/ n
Ejemplo 5
Fumar cigarros de la marca X produce en promedio 0.6 mg de nicotina. El

departamento de ingeniería del fabricante propone un filtro nuevo que
supuestamente reducirá la producción de nicotina. Se toma una muestra de
50 cigarros con el nuevo filtro y se encuentra que el promedio de nicotina es
de 0.55 mg. Con una desviación estándar de 0.56. ¿Debe aceptarse la
aseveración del departamento de ingeniería con un nivel de significación de
2.5 por ciento?
Solución
i) El parámetro de interés es la media de la población  , se desea probar:
  0.60
H0:
H1:   0.60
Donde  es la verdadera media de la nicotina producida por los cigarros de la marca X.
La prueba es unilateral izquierda.
ii) Como se conoce la desviación estándar muestral y el valor de n es 50 se
utiliza el valor crítico z, el cual es al 0.025 acumulado desde la izquierda igual
a -1.96.
5 Tomado de Estadística aplicada a la Administración y Economía, Alfredo Díaz Mata, Capítulo 9, pág. 279. Primera
Edición.
iii) El estimador es z calculado:

X  o
Z
/ n
0.55  0.60
Z  0.6313
0.56 / 50
iv) El valor calculado o estimador -0.6313 se encuentra a la derecha del valor
crítico 1.96, o sea se encuentra en la región de aceptación.
v) Por lo tanto existe evidencia estadística para aceptar la hipótesis nula y se
concluye que los nuevos filtros no reducen la nicotina que producen los
cigarros de la marca X.
Ejemplo6
Los científicos han citado al benceno, un disolvente químico de uso común en
la síntesis de plásticos como un posible agente causante de cáncer. Ciertos
estudios han demostrado que las personas que trabajan con benceno durante
más de cinco años tienen una incidencia de leucemia 20 veces mayor que la
de la población en general. En consecuencia el gobierno recomienda que el
nivel máximo permisible de benceno en dicho lugar de trabajo se baje de 10
partes por millón (ppm) a 1 ppm. Supongamos que una fábrica de artículos de
acero, que expone diariamente a sus trabajadores al benceno, está siendo
investigada por una certificadora de calidad, para ello se examinan 20
muestras de aire tomadas durante un período de un mes para determinar el
contenido de benceno, obteniendo en el análisis una media de 2.1 ppm y una
desviación estándar de 1.7 ppm.
¿La fábrica de artículos de acero estaría haciendo caso omiso a la
recomendación? Utilice un nivel de confianza del 0.95.
Solución
i) El parámetro de interés es la media de la población  , se desea probar:
H0:  1
H1:  >1
La certificadora quiere corroborar la hipótesis de investigación de que el nivel
medio de benceno en la planta de fabricación excede a 1 ppm. Donde  es la
verdadera media. La prueba es unilateral derecha.
ii) El nivel de significancia es =0.05, lo que nos permite calcular el valor
crítico t (desviación estándar muestral conocida y n<30) y ubicarlo en la
gráfica que corresponde a una prueba de hipótesis unilateral derecha.
6 Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo 9, pág. 441. Cuarta
Edición.
iii) El estimador es t calculado:

X  o
t
s/ n
2.1  1
t  2.89
1.7 / 20
iv) El valor calculado t o estadístico de prueba 2.89 se encuentra a la derecha
de 1.729 en la región crítica o de rechazo. Existe evidencia estadística para
rechazar la Ho.
v) La certificadora de calidad por lo tanto llega a la conclusión que  >1 ppm y
que la panta está violando las normas gubernamentales con una confiabilidad
asociada de =0.05.
1.3 Prueba de aseveración para la proporción.

Supongamos que de una población de tamaño N de la cual se obtiene una
muestra de tamaño n, existen x elementos favorables a la característica que
x
se está analizando. Entonces la proporción muestral es: pˆ  . Siendo  el
n
valor presente en la hipótesis nula.
El estadístico de prueba es:
pˆ   HIPOTESIS
Z
 HIPOTESIS(1   HIPOTESIS)
n
El tamaño de muestra de muestra debe ser lo suficientemente grande para
que la prueba sea válida. Como regla práctica: npˆ  4 , nqˆ  4 y pˆ  qˆ  1 .
Ejemplo7
El empleo de acero intemperizado en la construcción de puentes para
autopistas ha sido tema de considerable controversia. Los críticos han citado
temas de corrosión graves del acero intemperizado y están tratando de
convencer a las autoridades de que prohíban su uso en la construcción de
puentes. Por otro lado las corporaciones acereras aseguran que estas
acusaciones son exageradas y dicen que 95% de todos los puentes de acero
intemperizado en operación tienen un buen desempeño, sin daños graves por
corrosión. A fin de probar esta aseveración, un equipo de ingenieros expertos
de la industria del acero evaluaron 40 puentes de acero intemperizado
seleccionados al azar y encontraron que 36 de ellos mostraban un buen
desempeño. ¿Hay pruebas con =0.05 de que la verdadera proporción de
puentes de acero intemperizado que presentan un buen desempeño sea
menor que 0.95 que es la cifra citada por las corporaciones?
Solución
7 Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo 9, pág. 465. Cuarta
Edición.
i) El parámetro de interés es una proporción de la población  , se desea probar:

H0:  = 0.95
 < 0.95
H1:
Donde  es la verdadera proporción de todos los puentes de autopista de
acero intemperizado que muestran un buen desempeño, siendo la prueba
unilateral izquierda.
crítico z y ubicarlo en la gráfica que corresponde a una prueba de hipótesis
unilateral izquierda.
x 54
iii) pˆ  , por lo que utilizando los datos del problema: pˆ   0 .9
n 60
iv) El estadístico de prueba es:
Z
n
0.9  0.95
Z  1.78
0.95 .(1  0.95)
60
v) Se puede rechazar la hipótesis nula con =0.05, ya que el valor calculado
o estimador -1.78 cae a la izquierda del -1.645 lo que indica que se encuentra
en la región de rechazo.
vi) Por lo tanto, existe evidencia estadística para sustentar la hipótesis de que
la proporción de puentes de autopista de acero intemperizado que tienen
buen desempeño es menor que 0.95.
Ejemplo8
Un estudio realizado a fumadores que intentaban dejar el hábito con
terapia de parches de nicotina reveló que 39 de ellos continuaban fumando
un año después de iniciado el tratamiento y 32 habían dejado de fumar
(según datos de "High-Dose Nicotine Patch Therapy", de Dale et al, Journal
of the American Medical Association, vol. 274, núm. 17). Utilice un nivel de
significancia de 0.10 para probar la aseveración de que, de los fumadores
que intentaban dejar el cigarrillo, la mayoría continúa fumando un año
después de iniciar el tratamiento. ¿Sugieren estos resultados que la terapia
de parches de nicotina es ineficaz?
Solución
i) El parámetro de interés es una proporción de la población  , se desea probar:
H0:  = 0.50
8 Tomado de Estadística, Mario Triola, Capítulo 8, pág. 416. 10° Edición.

H1: > 0.50
Donde  es la verdadera proporción de todos los que continúan fumando un
año después de iniciar el tratamiento, siendo la prueba unilateral derecha.
crítico z y ubicarlo en la gráfica:
x 39
iii) pˆ  , por lo que utilizando los datos del problema: pˆ   0.55
n 39  32
iv) El estadístico de prueba es:
Z
n
0.55  0.5
Z  0.84
0.5.(1  0.5)
71
v) El estadístico de prueba 0.84 cae a la izquierda del valor crítico 1.645 en la
región de aceptación, por lo que existe evidencia estadística para aceptar la
hipótesis nula.
vi) Como el 50% o menos deja de fumar, la terapia de parches no es eficaz.
1.4 Prueba de aseveración para la varianza.

Para aplicar una prueba de hipótesis relativa a la varianza de una población se
debe asumir que la distribución Ji-cuadrada se da siempre y cuando se trate
de poblaciones normales y el estadístico de prueba es la variable Ji -cuadrada
con (n-1) grados de libertad y que se expresa como:
( n  1)s 2
 
2
2
El proceso que sigue una prueba de hipótesis para la varianza es el mismo
que utilizamos en las anteriores secciones, es muy usual aplicar esta prueba
cuando se require comprobar el grado de variabilidad de un proceso.
Ejemplo9
Se sabe que el contenido en gramos de un producto fabricado por una
compañía, no reúne las especificaciones si la varianza de un lote de
producción se aleja demasiado hacia arriba o hacia debajo de 6.5. Comprobar
si un gran lote de producción reúne las especificaciones, si una muestra
aleatoria de 20 unidades extraída aleatoriamente de dicho lote arrojó una
varianza de 7.3. Utilizar un nivel de significación del 5%. Se sabe que el
contenido del producto se distribuye normalmente.
Solución
9
Tomado de Estadística, Hugo Gómez Giraldo, Capítulo 8, pág. 238.
i) H 0 :   6.5
2
H a :   6.5
2
ii) La prueba es bilateral con un nivel de significación:   0.05, el valor crítico

ji-cuadrado es:
iii) El criterio de decisión será el siguiente: “Si el valor de  calculado es

2
menor que 8.90652 o mayor que 32.8523, se rechaza la hipótesis nula de que
la varianza sigue siendo de 6.5, con un nivel de significación del 5%”.
iv) El estadístico de prueba se calcula teniendo en cuenta n=20, s2=7.3 y
utilizando la fórmula:
(n  1) s 2 (20  1).x7.3
2    21 .34
 2
6.5
v) Como el estadístico de prueba 21.34 se encuentra en la región de confianza
o de aceptación. Entonces con podemos afirmar con un nivel de significancia
del 5% que existe evidencia estadística para aceptar que la varianza del
contenido del producto es el mismo.
Ejemplo10
Un supervisor de control de calidad en una enlatadora sabe que la cantidad
exacta contenida en cada lata varía, pues hay ciertos factores imposibles de
controlar que afectan la cantidad de llenado. El llenado medio por lata es
importante pero igualmente importante es la variación  de la cantidad de
2
llenado. Si  es grande, algunas latas contendrán muy poco y otras,

2
demasiado. Las agencias reguladoras especifican que la desviación estándar

de la cantidad de llenado debe ser menor que 0.1 onzas. El supervisor de
control de calidad muestreó n=10 latas y midió la cantidad de llenado en cada
una. Los datos se reproducen a continuación.
7.96 7.9 7.98 8.01 7.97 7.96 8.03 8.02 8.04 8.02
¿Esta información proporciona con un nivel de significancia del 0.05 pruebas
suficientes de que la desviación estándar  de las mediciones de llenado es
menor que 0.1 onzas?
Solución
i) H 0 :   0.1
2
H a :  < 0.1
2
ii) La prueba es unilateral izquierda, con   0.05, por lo que el valor crítico es:
iii) El estadístico de prueba se calcula utilizando la desviación estándar de la
muestra s=0.043 y n=10.
10
Tomado de Probabilidad y Estadística para Ingeniería y Ciencias, William Mendenhall, Capítulo
9, pág. 474. Cuarta Edición.
(n  1) s 2 (10  1).x0.043 2
 
2
  1.66
2 0.12
iv) Como el estadístico de prueba 1.66 es menor que 3.325 y cae en la región
de rechazo, existe evidencia estadística para rechazar la hipótesis nula.
Entonces el supervisor puede llegar a la conclusión con un nivel de
significación del 0.05 de que la varianza de la población de todas las
cantidades de llenado es menor que 0.01, o sea <0.1.
TEMA 2: INFERENCIA A PARTIR DE DOS MUESTRAS
2.1. INFERENCIA ACERCA DE DOS MEDIAS, PROPORCIONES PARA

MUESTRAS INDEPENDIENTES. (Triola, 2009)
En la práctica, se presenta una diversidad de problemas en la industria y en
las ciencias sociales que nos sugieren confrontar cual de dos procesos es
mejor que el otro a la luz de la media que arroja cada uno de ellos. Se nos
podría ocurrir por ejemplo: a) verificar si el consumo de gasolina entre dos
marcas de vehículos se puede considerar idéntico o por el contrario una marca
es más económica que otra, b) Verificar si los salarios de la industria
metalúrgica se pueden considerar o no superiores a los salarios de la industria
textil en una región, c) Verificar si el contenido de determinada sustancia en
una artículo fabricado por una compañía A es inferior o no al contenido de
dicha sustancia en el mismo artículo fabricado por una compañía B de la
competencia. etc.
En cuanto a la distribución en el muestreo de la diferencia de medias,
recordemos los siguientes tres casos:
- Si las dos poblaciones son normales, las diferencias de las medias

muestrales también se distribuirán normalmente cualquiera sea el tamaño
de las muestras. No obstante, si no se conocen las desviaciones estándar
poblacionales ( 1 y 2), éstas pueden ser remplazadas por la desviaciones
estándar de las muestras (s1 y s2), si los tamaños de las muestras son
mayores que 30 (n 1 >30 y n2 >30 o n1 +n2 >60).
- Según el teorema central del límite, si las dos poblaciones no son
normales o no sabemos si se cumple o no éste comportamiento, las
diferencias de las medias muestrales se distribuirán aproximadamente
como una distribución normal, si los tamaños de las muestras son
mayores que 30 (n 1 >30 y n2 >30 o n1 +n2 >60)
- Si las dos poblaciones son normales o están muy cerca de éste
comportamiento y por otra parte no conocemos la desviaciones estándar
poblacionales y además los tamaños de las muestras son menores que 30
(n1 <30 y n2 <30 o n1 +n2 <60), entonces, las diferencias de las medias
muestrales se distribuirán de acuerdo a la ley t-student.
Con el fin de resolver las pruebas de hipótesis para la diferencia de medias,

debemos tener en cuenta el mismo procedimiento y las mismas reglas que
seguimos para las pruebas de hipótesis para la media.
2.1.1. INFERENCIA ACERCA DE DOS MEDIAS.
Cuadro N° 11: ESTADÍSTICOS PARA DOS MEDIAS.
PRUEBA ESTADÍSTICO
(x 1  x 2 )  d 0
1 – 2 = d0 z
1 y 2 conocidas 12  22

n1 n 2
1 – 2 = d0 ( x1  x 2 )  d 0 (n 1  1)s 12  (n 2  1)s 22
1 = 2 desconocidas t ;s  2
n1  n 2  2
p
1 1
sp 
n1 n 2
Ejemplo
Una compañía de transportes requiere comprar un gran lote de buses para el
transporte urbano con el fin de reemplazar su parque automotor y para tal fin
desea comprobar la afirmación hecha por el proveedor de la marca B, en el
sentido de que la marca A es menos ahorradora de combustible. Para tal fin la
empresa toma una muestra aleatoria de 35 vehículos marca A y encuentra
que la misma tiene un promedio en el rendimiento de 18 kilómetros/galón con
una desviación estándar de 8 kilómetros/galón, mientras que una muestra de
32 vehículos marca B presenta un promedio de 22 kilómetros/galón con
desviación estándar de 3 kilómetros /galón. ¿Qué decisión debe tomar el
gerente de la compañía con un nivel de significación del 5%?
Solución
i) Las desviaciones estándar se asumen conocidas puesto que los tamaños de
muestra son mayores que 30; por lo cual, según el teorema central del límite,
las diferencias de las medias muestrales, se distribuirán aproximadamente
como una distribución normal.
ii) H 0 :  A   B  0
Ha:  A   B  0
La prueba es unilateral a la izquierda.
iii) El nivel de significancia es 0.05 por lo que z=1.645.

iv) El criterio de decisión será el siguiente: “Si el valor de z calculado es
menor que –1.64 se rechaza la hipótesis nula de que el rendimiento en ambas
marcas es igual”
v) Para calcular el estadístico de prueba se tiene: n A =35; x 1 =18; S A =8; n B =32;
x 2 =22 y S B =3.
(x 1  x 2 )  d 0
z =-2.75
12  22

n1 n 2
vi) Como el valor de z calculado (-2.75) se encuentra en la zona de rechazo,
entonces, con un nivel de significación del 5%, debemos rechazar la hipótesis
nula de que el ahorro en ambas marcas es igual y en éstas condiciones
debemos aceptar la hipótesis alternativa de que la marca A es menos
ahorradora de combustible que la marca B.
Ejemplo
Una compañía de transportes requiere comprar un gran lote de buses para el
transporte urbano con el fin de reemplazar su parque automotor y para tal fin
desea comprobar la afirmación hecha por el proveedor de la marca B, en el
sentido de que la marca A es menos ahorradora de combustible. Para tal fin la
empresa toma una muestra aleatoria de 13 vehículos marca A y encuentra
que la misma tiene un promedio en el rendimiento de 18 kilómetros/galón con
una desviación estándar de 8 kilómetros/galón, mientras que una muestra de
15 vehículos marca B presenta un promedio de 22 kilómetros/galón con
desviación estándar de 3 kilómetros /galón. ¿Qué decisión debe tomar el
gerente de la compañía con un nivel de significación del 1%?
Solución
i) Se sabe que las poblaciones se distribuyen aproximadamente a la ley
normal, pero ambos tamaños de muestran son menores que 30 y no se

conocen las desviaciones estándar poblacionales; por lo cual, las diferencias
de las medias muestrales, se distribuirán según a la ley t-student.
ii) H 0 :  A   B  0
Ha:  A  B  0
La prueba es unilateral a la izquierda.
iii) Nivel de significación:  = 0.01, por lo que el valor crítico t con 26 grados
de libertad es -2.479.
iii) El criterio de decisión será el siguiente: “Si el valor de t calculado es
menor que –2.479, se rechaza la hipótesis nula de que el rendimiento en
ambas marcas es igual”.
iv) Para calcular el estadístico de prueba se tiene: n A =13; x 1 =18; S A =8; n B =15;
x 2 =22 y S B =3.
(n1  1) s1  (n 2  1) s 2 ( x1  x 2 )  d 0
sp   5.86 y t   1.80
n1  n 2  2 1 1
sp 
n1 n2
v) Como el valor de t calculado (-1.80) se encuentra en la zona de
aceptación, entonces, con un nivel de significación del 1%, debemos aceptar
la hipótesis nula de que el ahorro en ambas marcas es igual y en éstas
condiciones debemos rechazar la hipótesis alternativa de que el rendimiento
es menor en la marca A que en la marca B.
Ejercicio
El jefe de personal de una gran empresa afirma que la diferencia de los
promedios de antigüedad entre los obreras y obreros de la compañía es de
3.5 años. El presidente de la compañía considera que ésta diferencia es
superior. Para comprobar dicha situación, se toma una muestra aleatoria de
40 obreras cuyo promedio de antigüedad es de 12.4 años con desviación
estándar de 1.5 años y de un grupo de 45 obreros cuyo promedio de
antigüedad es de 8.3 años con desviación estándar de 1.7 años. Comprobar
la hipótesis con un nivel de significación del 5%.
Ejercicio
Se está investigando la resistencia de dos alambres, con la siguiente

información de muestra.
Alambre Resistencia (ohms)

1 0.1 0.14 0.139 0.140 0.13 0.14
40 1 8 4
2 0.1 0.13 0.140 0.139 - -
35 8
Suponiendo que las dos varianzas son iguales, ¿qué conclusiones puede
extraerse respecto a la resistencia media de los alambres?
Ejercicio
Se están investigando dos métodos para producir gasolina a partir de
petróleo crudo. Se supone que el rendimiento de ambos procesos se
distribuye normalmente. Los siguientes datos de rendimiento se han obtenido
de la planta piloto.
Proceso Rendimiento %
1 24.2 26.6 25.7 24.8 25.9 26.5
2 21.0 22.1 21.8 20.9 22.4 22.0
¿Hay alguna razón para creer que el proceso 1 tiene un rendimiento medio
mayor?
2.1.2. INFERENCIA ACERCA DE DOS PROPORCIONES.
Cuadro N°12: ESTADÍSTICO DOS PROPORCIONES.

PRUEBA ESTADÍSTICO
(p̂ 1  p̂ 2 ) x1  x 2
p1= p2 z y p̂ 
 1 1  n1  n 2
p̂q̂  
 n1 n 2 
Ejemplo
Una compañía asegura que el mercado para su producto X tiene una
aceptación de iguales proporciones en la ciudad A que en la ciudad B. Un
especialista en mercado pone en duda dicha afirmación y para tal fin tomó
una muestra aleatoria de 500 amas de casa en la ciudad A y encontró que el
59.6% de las mismas prefería el artículo X. Por otra parte tomó una muestra
aleatoria de 300 amas de casa en la ciudad B y encontró que el 50% de las
mismas preferían el artículo X. ¿Existe una diferencia real entre las dos
ciudades? Nivel de significación 5%
Solución
i) H 0 : P A =P B ,
H a : P A  P B;
La prueba es bilateral, puesto que el especialista en mercado no está
afirmando que ciudad tiene más proporción que la otra.
ii) Nivel de significación = 0.05, por lo que z=±1.96
iii) Como las diferencias de las proporciones muestrales se distribuyen
normalmente y la prueba es bilateral entonces el criterio de decisión será “Si
el valor z es mayor que 1.96 o menor que -1.96 se rechaza la hipótesis nula
de que la proporción es idéntica en ambas ciudades”.
iv) Con los datos n 1 =500, p 1 =0.596, n 2 =300, p 2 =0.50 se puede calcular el
estadístico de prueba:
x1=0.956x500 ; x2=0.5x300
x1  x2 ( pˆ 1  pˆ 2 )
pˆ   0.56 ; q̂ =0.44 y z  =2.56
n1  n2 1 1
pˆ qˆ   
 n1 n2 
iv) Como el valor de Z calculado (+2.65) se encuentra en la zona de rechazo,
entonces, con un nivel de significación del 5%, debemos rechazar la hipótesis
nula de que las proporciones en ambas ciudades son iguales.
Ejercicio
La fracción de productos defectuosos producidos por dos líneas de producción
se está analizando. Una muestra aleatoria de 1000 unidades de la línea 1
tiene 10 defectuosas, en tanto que una muestra aleatoria de 1200 unidades
de la línea 2 tiene 25 defectuosas. ¿Es razonable concluir que la línea de
producción 2 produce una fracción más alta de producto defectuoso que la
línea 1? Use   0.01 .
2.2. Inferencia a partir de datos pareados.

Cuando es posible resulta ventajoso utilizar muestras pareadas en las pruebas
de comparación. En una prueba de comparación pareada, la reducción en la
variabilidad experimental puede permitir la detección de pequeños

movimientos en los datos.
A pesar de que los grados de libertad sean reducidos, porque ahora el tamaño
de muestra corresponde al número de comparaciones.
Un ejemplo de este tipo de prueba es la evaluación de dos piezas de equipo
de inspección para determinar si existe alguna diferencia significativa entre
los equipos.
Las hipótesis de prueba en torno a la igualdad 1 y  2 pueden realizarse
efectuando una prueba t de una muestra en D . Específicamente, probar
H 0 : 1   2 contra H1 : 1   2 es equivalente a probar:
H0 : D  0
H1 :  D   0
D
La estadística de prueba apropiada es: t 0 
SD n
D D  D
2
Dónde: D  y SD 
j j
n n 1
Rechazaríamos H 0 :  D  0 si t 0  t 2 , n 1 o si t 0  t 2,n 1 . Las alternativas de
un lado se tratarían de manera similar.
Ejemplo
Un fabricante desea comparar el proceso de armado común para uno de sus

productos con un método propuesto que supuestamente reduce el tiempo de
armado. Se seleccionaron ocho trabajadores de la planta de armado y se les
pidió que armaran las unidades con ambos procesos. Los siguientes son los
tiempos observados en minutos.
Cuadro N° 13: TIEMPOS OBSERVADOS EN MINUTOS.
Trabajador Proceso actual Proceso propuesto

1 38 30
2 32 32
3 41 34
4 35 37
5 42 35
6 32 26
7 45 38
8 37 32
En   0.05 , ¿existe alguna razón para creer que el tiempo de armado para el
proceso actual es mayor que el del método propuesto por más de dos
minutos?
Solución
i) Las hipótesis so: H0 : D  2
H1 :  D  2
ii) Calculando las diferencias:
Trabajador Proceso actual Proceso propuesto Dj (Dj-D)^2

1 38 30 8 10.5625
2 32 32 0 22.5625
3 41 34 7 5.0625
4 35 37 -2 45.5625
5 42 35 7 5.0625
6 32 26 6 1.5625
7 45 38 7 5.0625
8 37 32 5 0.0625
4.75 95.5
D D  D
2
iii) D  = 4.75 y S D 
j j
= 3.69
n n 1
D 4.75  2
iv) El estadístico de prueba sería: t0  = = 2.107
SD n 3.69 8
v) Finalmente, t ,n 1  t .05, 7  1.895 , debido a que 2.107 > 1.895 rechazamos

H0, y aceptamos la H1: el tiempo de armado para el proceso actual es
mayor en dos minutos que el método propuesto.
2.3. Comparación de la variación de dos muestras.

Supóngase que son dos las poblaciones de interés, por ejemplo X1 y X2, donde
1, 12 ,  2 ,  22 , se desconocen. Deseamos probar hipótesis relativas a la igualdad
de las dos varianzas, H 0 :  1   2 . Considérese que se disponen dos muestras
2 2
aleatorias de tamaño n1 de la población 1 y de tamaño n 2 de la población 2, y

sean S12 yS 22 las varianzas de muestra. Para probar la alternativa de dos lados:
H 0 :  12   22
H1 :  12   22
S12
Utilizamos el hecho de que la estadística F0  se distribuye como F, con n 1-1 y
S 22
n2 –1 grados de libertad.
Rechazaríamos H0 si F0  F 2,n1 1,n2 1 o si F0  F1 2,n1 1,n2 1
Donde F 2 , n1 1, n2 1 y F1 2, n1 1, n2 1 son los puntos porcentuales  2 superior e
inferior de la distribución F con n1-1 y n2-2 grados de libertad. La tabla F
proporciona sólo los puntos de la cola superior de F, por lo que para determinar
1
F1 2,n1 1,n2 1 debemos emplear F1 2,n1 1,n2 1 = .
F 2,n1 1,n2 1
La misma estadística de prueba puede utilizarse para probar hipótesis alternativas
de un lado. La hipótesis alternativa de un lado es:
H 0 :  12   22
H1 :  12   22
Si F0  F ,n1 1,n2 1 , rechazaríamos H 0 :  12   22 .
Ejemplo
Los siguientes son tiempos de quemado (en minutos) de señales luminosas de dos
tipos diferentes.
TIPO 1 63 81 57 66 82 82 68 59 75 73
TIPO 2 64 72 83 59 65 56 63 74 82 82
Pruebe la hipótesis de que las dos varianzas sean iguales. Use   .05
Solución
i) H 0 :  1   2
2 2
H1 :  12   22
ii) Nivel de significancia   0.05

y como n1=10 y n2=10, el valor F 2 , n1 1, n2 1 = F.025,9,9= 4.03.
Del mismo modo: F1 2 ,n1 1,n2 1 =0.248
iii) La región de confianza está dada por [0.248; 4.03]. Si el F calculado cae fuera
del intervalo dado entonces se rechaza la hipótesis nula.
iv) Con los datos:
X 1  70 .6
X 2  70
S12  88 .71
S 22  100 .44
S12 88 .71
Calculamos F0  2
=  0.877
S 2 100 .44
v) Como F calculado cae dentro del intervalo dado por la regi ón de confianza o
zona de aceptación, entonces se acepta que las varianzas son iguales.
TEMA 3: ANÁLISIS DE VARIANZA

Cuando se requiere hacer inferencias acerca de las medias de distintas
poblaciones a partir del análisis de las muestras de ellas, se aplica un estudio
denominado Análisis de Varianza (ANOVA).
En un ANOVA (Mata, 2013) se aplican tratamientos a entidades denominadas
unidades experimentales. El atributo de las entidades que se desea medir
recibe el nombre de factor. En dicho estudio puede aplicarse modelos de efectos
fijos o aleatorios. En un modelo de efectos fijos, se seleccionan tratamientos
específicos o se fijan antes del estudio (determinísticamente). En un modelo de
efectos aleatorios, los tratamientos utilizados en el estudio se seleccionan
aleatoriamente.
Estas técnicas se pueden utilizar en muchos campos tales como:
- Un gerente de compras de un supermercado puede interesarse en comparar la
durabilidad de ciertas baterías en el almacén de 3 o más proveedores.
- Un gerente de producción puede analizar el rendimiento de tres o más procesos
para determinar si hay diferencia entre ellos.
- Un analista financiero desea saber si hay diferencias en el margen de operación
de diversas empresas.
Ejemplo 11
Una pequeña empresa que elabora botanas (papas fritas, cacahuates, etc.) tiene
4 rutas para el reparto de sus productos dentro de la ciudad. Para cubrir estas
rutas tiene 4 conductores básicos y uno complementario, el conductor
complementario sirve para cubrir las ausencias o vacaciones o enfermedad de los
otros 4 y se le ocupa para otros menesteres si no se le requiere como conductor.
El puesto de conductor complementario se rota entre todos los choferes sobre una
misma base mensual. Es importante tanto desde el punto de vista de eficiencia,
como de justicia, que todas las rutas tengan la misma duración, también es
importante que todos los conductores sean igualmente eficientes en todas las
rutas para que los conductores puedan sustituirse el uno al otro sin pérdida de
tiempo, por ello la gerencia de distribución implementó un programa de
capacitación para que los conductores se familiaricen con todas las rutas. Al cabo
de esta capacitación se hicieron recorridos de prueba con el objetivo de
investigar, por una parte, si todas las rutas se recorrían en el mismo tiempo y por
otra parte si los conductores eran igualmente eficientes en todas. La gerencia de
distribución desea saber si el tiempo medio de las cuatro rutas es igual y si la
eficiencia de todos los conductores en las rutas es igual. La información de los
recorridos y los conductores se da a continuación:
Cuadro N°14: Conductores vs Recorridos.
Conductor/Ruta Ruta A Ruta B Ruta C Ruta D
Antúnez 224 227 237 248
Becerra 242 235 262 250
Cervantes 225 240 235 261
Dominguez 232 253 259 255
Escamilla 232 245 257 261
En este ejemplo se tienen datos se clasifican de acuerdo con dos variables: el
conductor y la ruta que son, entonces, los 2 factores. Aquí las hipótesis que se
prueban son:
Para las rutas:
11
Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFRED DÍAZ MATA,
CAPÍTULO 12, PÁG. 347.
Ho :  A   B  C   D
H1: Por lo menos una de las medias poblacionales de los tratamientos no es igual
las otras.
En donde las diferentes medias son las medias de las 4 rutas.
Para los conductores:
Ho : 1   2  3   4
H1: Por lo menos una de las medias poblacionales de los bloques (conductores)
no es igual las otras.
En donde las diferentes medias son las medias de los 5 conductores.
En este ejemplo, el tratamiento son las diferentes rutas y a la variable del
conductor, cuyos datos están en los renglones, se le conoce como grupos, a su
vez, tratamientos y grupos son los dos factores a los que se refiere el nombre de
esta técnica de análisis de varianza de dos factores.
Un detalle que vale la pena tener presente respecto a este ANOVA de 2 factores
es que se tiene un solo dato para cada conductor y para cada ruta, ya que el
análisis de varianza de este par de factores, se refiere también a conjuntos de
datos clasificados de acuerdo con 2 variables, pero en este caso, con cuando
menos 2 observaciones para cada par de factores.
SUPUESTOS DE UN ESTUDIO ANOVA

Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras
independientes son:
- Las poblaciones son normales.
- Las varianzas poblacionales son iguales
- Las muestras están seleccionadas independientemente.
3.1. ANOVA de un factor.
Como el ANOVA de un criterio es una generalización de la prueba de t para

dos muestras, los supuestos para el ANOVA de un criterio son:
- Todas las poblaciones k son normales.
-  12   22   32  .....   k2   2 
El método de ANOVA con un criterio o factor requiere del cálculo de dos
estimaciones independientes para  2 , la varianza poblacional común. Estas dos
2 2 2
estimaciones se denotan por sb y s w . s b se denomina estimación de la varianza
2
entre muestras y s w se denomina estimación de la varianza al interior de las
s b2
muestras. El estadístico tiene una distribución muestral resultando: F . El
s w2
valor crítico para la prueba F es: F (k  1, k (n  1)) , donde el número de grados de
libertad para el numerador es k-1 y para el denominador es k(n-1), siendo  el
nivel de significancia siendo k = número de muestras.
PROCEDIMIENTO12
1. Determinar si las muestras provienen de poblaciones normales.

2. Proponer las hipótesis.
3. Encontrar las medias poblacionales y las varianzas.
2
4. Encontrar la estimación de la varianza al interior de las muestras s w y sus
grados de libertad asociados gl w.
5. Calcular la gran media para la muestra de las medias muéstrales.
2
6. Determinar la estimación de la varianza entre muestras s b y sus grados de
libertad asociados.
7. Hallar el valor del estadístico de la prueba F.
8. Calcular el valor crítico para F basado en gl b y glw.
9. Decidir si se rechaza H0.
Para ello se utilizan las siguientes fórmulas:
Suma de cuadrados total (SST o SCT)
r c 2
  ( Xij  X )
i 1 j 1
SCT 
Suma de cuadrados de los tratamientos o niveles (SSTr o SCTr)

r
SCTR   rj ( X j  X ) 2
j 1
Suma de cuadrados del error (SSE o SCE)

r c
SCE   (X ij  X j )2
i 1 j 1
O también SCE = SCT – SCTr
Grados de libertad
Gl. Totales = n – 1
Gl. Tratamientos = c -1
Gl. Error = n – c
Cuadrados medios (MS o CM)

PCT = SCT / Gl. SCT
PCTr = SCTr / Gl. SCTr
PCE = SCE / Gl. SCE
Estadístico calculado Fc
Fcalculado = PCTr / PCE
Regla de decisión
Si Fcalculado es mayor al Fcrítico se rechaza Ho indicando que los efectos de los
diferentes niveles del factor tienen efecto significativo en la respuesta.
La tabla de ANOVA final queda como sigue:
12
Tomado de Estadística. Richard C.Weimer. CECSA. Segunda Edición.2000
Cuadro N°15: Tabla ANOVA
FUENTE DE SUMA DE GRADOS CUADRADO VALOR F

VARIACIÓN DE
CUADRADOS LIBERTAD MEDIO
Entre muestras SCTR c-1 PCTR PCTR/PCE

(tratam.)
Dentro de muestras SCE n-c PCE

(error)
Variación total SCT n-1 PCT
Regla: No rechazar si la F de la muestra es menor que la F crítico para cierto nivel

de significancia.
Ejemplo13
Una empresa ensambla cuadros para un solo modelo de bicicleta. La planta
trabaja 3 turnos: el matutino, el vespertino y el nocturno. Los trabajadores se
rotan cada uno de los turnos, por lo que, al cabo de un trimestre, todos ellos
laboraron los tres turnos. El director de producción quisiera saber si existe
diferencia entre la producción promedio de los 3 turnos, ya que la fábrica trabaja
a plena capacidad desde hace más de un año y no hay variaciones signifi cativas
en el número de empleados, en la maquinaria, ni en los procesos productivos; el
director considera que con un análisis de varianza puede contestar esta pregunta;
para ello obtiene una muestra aleatoria de la producción de 6 días de cada turno.
Los datos se muestran a continuación:
TURNO
MATUTINO VESPERTINO NOCTURNO
129 138 118
141 142 120
128 140 132
145 149 118
135 129 136
144 148 138
Solución
i) Las hipótesis son:
Ho : 1   2   3
H1: Por lo menos una de las medias poblacionales de los bloques (conductores)
no es igual las otras.
ii) X 1  137 ; X 2  141; X 3  127 , siendo la media global

129  141  ...  138
X Global   135
18
iii) Se obtiene la suma de cuadrados totales:
SCT  (129  135 ) 2  ...  (144  135 ) 2  (138  135 ) 2  ...  (148  135 ) 2  (118  135 ) 2  ...  (138  135 ) 2
SCT=1608
13
Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFRED DÍAZ MATA,
CAPÍTULO 12, PÁG. 349
iv) Se obtiene la suma de cuadrados de las variaciones entre los tratamientos:

SCTR  6(137  135 ) 2  6(141  135 ) 2  6(127  135 ) 2  624
v) Se obtiene la suma de cuadrados de la variación aleatoria también llamada suma
de cuadrados del error, y es la variación dentro del tratamiento.
SCE  (129  137 ) 2  ...  (144  137 ) 2  (138  141) 2  ...  (118  127 ) 2  ...  (138  127 ) 2  984
Aquí es importante resaltar el modelo en el que se basa el diseño completamente
aleatorizado de un factor que se ilustra con el ejemplo.
vi) Con las sumas encontradas hasta aquí se puede verificar la igualdad:
SCT  SCTR  SCE
1608  624  984
vii) Se obtiene el promedio de los cuadrados entre tratamientos PCTR, para ello se
divide SCTR entre los grados de libertad de los tratamientos gtratamientos . Éste es el
primer promedio de cuadrados (varianza).
624
PCTR   312
2
viii) Se obtienen la media de los cuadrados del error PCE, para ello se divide SCE
entre los grados de libertad totales gtotales. Éste es el segundo promedio de
cuadrados.
984
PCE   65 .6
18  3
ix) Se obtiene el valor empírico de F, o sea el F calculado, que es el cociente de
estos dos últimos promedios de cuadrados.
PCTR 312
FCalculado    4.76
PCE 65 .6
x) El valor F crítico se busca en la tabla correspondiente a la distribución F, para
el nivel de significancia correspondiente 0.05 con 2 grados de libertad para el
numerador y 15 grados de libertad y 15 grados de libertad para el denominador.
Fcrítico  3.68
xi) La regla de decisión; se rechaza la Ho si el Fcalculado es mayor que el Fcrítico.
Por lo tanto como 4.76 es mayor que 3.68 rechazamos la hipótesis nula y
concluimos que por lo menos una de las medias no es igual a las otras.
Para el director de producción de la fábrica la conclusión indica que no todos los

turnos trabajan igual, sino que existen diferencias entre ellos.
La misma serie de datos trabajada en el Excel arroja lo siguiente:
Haciendo click en Análisis de datos, luego en Análisis de Varianza de un factor y seleccionando

las celdas donde se encuentra la serie de datos se tiene:
Donde encontramos el valor calculado y valor crítico para tomar la misma

decisión.
Ejercicio14
Se diseñaron 4 tipos diferentes de examen para evaluar el aprovechamiento en un

curso de capacitación y, para probar si existen diferencias significativas en el
diseño de los exámenes se eligió un conjunto de 40 trabajadores en capacitación
y se les asignó uno de los 4 exámenes al azar, los tratamientos. Los resultados se
muestran a continuación y se incluyen los promedios de cada tratamiento:
EXÁMENES
A B C D
71 84 79 92
72 94 92 70
80 77 73 74
70 84 86 70
85 96 82 74
77 84 98 85
79 86 98 70
95 99 82 75
63 96 91 62
80 86 64 90
77.2 88.6 84.5 76.2
PROMEDIO
Como los exámenes se asignaron aleatoriamente a los trabajadores, se pensaría

que las diferencias entre los promedios de las calificaciones en los 4 subconjuntos
se deben a diferencias entre los propios exámenes, salvo diferencias aleatorias o
14
Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFREDO DÍAZ MATA, CAPÍTULO 12,
PÁG. 350
errores normales de muestreo que en este caso pueden deberse a diferencias

personales entre los examinados. Verifique Ud si hay diferencias entre las medias
de los 4 exámenes.
3.2. ANOVA de dos factores.
Cuando en un experimento, dos factores pueden influenciar las unidades

experimentales, se usa un análisis de varianza de dos vías denominado diseño de
bloque aleatorizado, en el cual se comparan k tratamientos ubicados en columnas
con bloques que se basan en un factor ubicado en r filas.
Cuadro N°16: ANOVA DOS FACTORES
TRATAMIENTOS
1 2 3 MEDIAS (HORIZONTAL)
1 … … … …
BLOQUES
2 … … … …
3 … … … …
MEDIAS (VERTICAL) … … … MEDIA GLOBAL
En este caso la desviación cuadrática total puede ser desdoblada en tres sumandos
debido a razones intergrupales (por efectos del tratamiento) simbolizada como
DCT, en un sumando debido a razones intergrupales (por efectos de errores
aleatorios) DCE y en otro sumando debido a razones de bloque DC bloque. La
desviación cuadrática intrabloque DCbloque es similar a la desviación cuadrática de
los tratamientos sólo que en vez de trabajar a nivel de los términos de una fila, se
trabaja a nivel de los términos de una columna. De manera análoga, el cuadrado
medio intrabloque es similar al cuadrado medio intragrupo sólo que en vez de
trabajar a nivel de los términos de una fila se hace a nivel de los términos de una
columna.
DCE
El cuadrado medio de los errores se define como: CME 
r  1k  1
Se generan entonces las siguientes razones:
CMtrat CMbloque
Ftrat  y Fbloques  Fcalculado 
CMerr CMerr
El criterio de decisión es: si Fcalculado  F ,k 1,( k 1)( r 1) , no rechazar la hipótesis

nula.
Ejemplo
La tabla que se presenta a continuación corresponde a una muestra aleatoria del

proceso de producción de una empresa metal mecánica que registra la producción
obtenida durante cinco días consecutivos. Los bloques corresponden a los cinco días
de la semana y los tratamientos a la producción en unidades físicas obtenidas de
cada máquina.
MÁQUINAS
DÍAS 1 2 3 4
1 30 31 32 33
2 30 35 34 36
3 28 32 35 37
4 29 36 37 35
5 30 34 34 33
Para un nivel de significancia del 5% se requiere determinar si las diferencias entre

la producción de las máquinas son significativas.
Solución
i) La solución la realizaremos íntegramente utilizando el Excel, para ello copiamos la
tabla dada a una hoja de Excel, vamos a Datos…Análisis de Datos…y Análisis de
Varianza de dos factores con una sola muestra por grupo.
ii)
iii) Luego:
Se observa que Fcalculado=12,89895 el cual es mayor que el

F ,k 1,( k 1)( r 1) = F0.05,3,12  3.49 por lo que se rechaza la hipótesis nula y se concluye que la
producción media de las máquinas tienen diferencias significativas.
Ejercicio
El Jefe de Departamento de la universidad está desarrollando un programa de evaluación
de docentes que debe ser efectuado por los alumnos. Para estos efectos se seleccionó
aleatoriamente a 5 alumnos de un salón de clases y se pidió que evalúen a sus cuatro
profesores del ciclo que está a punto de concluir. La calificación de los docentes sobre un
escala vigesimal se presenta en el siguiente cuadro:
TRATAMIENTO
ALUMNOS
Prof.1 Prof.2 Prof.3 Prof.4
1 13.2 15.0 18.6 15.8
2 12.1 13.2 17.5 15.1
3 9.3 9,6 15.2 10.2
4 12.8 16.1 19.1 16.2
5 11.7 10.9 16.2 10.3
Efectúe un estudio ANOVA e interprete los resultados. Considere un nivel de

significancia del 0.05.

LA PARADOJA DEL CUMPLEAÑOS.
http://www.estadisticaparatodos.es/taller/cumpleanos/cumpleanos.html#1
¿Cómo dirías que es la probabilidad de que en un grupo de 23 personas dos

de ellas celebren su cumpleaños el mismo día? Pues ahora calcúlala.
¿Coincide tu intuición con lo que dicen las matemáticas?
La paradoja del cumpleaños establece que si hay 23 personas reunidas hay una
probabilidad del 50,7% de que al menos dos personas de ellas cumplan años el
mismo día. Para 60 o más personas la probabilidad es mayor del 99%. Obviamente
es casi del 100% para 366 personas (teniendo en cuenta los años bisiestos).
En sentido estricto esto no es una paradoja ya que no es una contradicción lógica;
es una paradoja en el sentido que es una verdad matemática que contradice la
común intuición. Cuando se propone este problema por primera vez y se pide una
estimación sobre el tamaño mínimo que debería tener un grupo para que sea más
probable que improbable que dos personas compartan el día del cumpleaños, la
mayoría de las personas se equivoca por completo.
La respuesta intuitiva que se da a menudo es 183, es decir 365 dividido entre
dos. La cantidad correcta no es algo a lo que la gente pueda llegar fácilmente y,
ciertamente, no por intuición. Es bastante extraño que las primeras estimaciones
sean inferiores a 40. Y sin embargo la respuesta es 23.
La clave para entender estas "sorprendentes" recurrencias es pensar que hay
muchas posibilidades de encontrar parejas que cumplan años el mismo
día.
Un análisis superficial asume que 23 días (cumpleaños de las 23 personas) es una
fracción demasiado pequeña del posible número de días distintos (365) para
esperar repeticiones. Y así sería si esperáramos la repetición de un día dado. Pero
las repeticiones, en el caso supuesto, pueden darse entre dos días cualesquiera,
con lo que éstas pueden combinarse entre sí de un número de formas que aumenta
rápidamente con el número de elementos a considerar. Así:
 Entre dos personas C1 y C2 sólo cabe una posibilidad de repetición de
cumpleaños: Cl=C2.
 Con tres ya hay tres posibilidades (Cl=C2; Cl=C3; C2=C3)
 Con cuatro ya habría seis, (4x3)/2=6
 Con un grupo de 10 personas, (10x9)/2=45 posibilidades
 Con 23 personas, hay (23×22)/2 = 253 parejas distintas, cada uno de
ellas es una candidata potencial para cumplir la paradoja
 Y así sucesivamente, en uno de 40, ya son 780 las parejas, y 1770 si
juntamos 60 personas.
No hay que malinterpretar lo que nos dice esta paradoja: Si entramos en una
habitación con 22 personas, la probabilidad de que cualquiera cumpla años el
mismo día que usted, no es del 50%, es mucho más baja, sólo hay un 6% de
probabilidades. Esto es debido a que ahora sólo hay 22 parejas posible y se
necesitan 253 personas para que haya más de un 50% de probabilidades de que
esto ocurra.
El problema real de la paradoja del cumpleaños consiste en preguntar si el
cumpleaños de cualquiera de las 23 personas coincide con el cumpleaños
de alguna de las otras personas.
Ejemplos de coincidencias
 En los jugadores del Osasuna (liga 2005/06) hay coincidencias de
cumpleaños
 De un total de sólo 19 monarcas españoles desde los reyes Católicos,
coinciden Carlos II con Carlos IV (11 de noviembre) y José I con Juan Carlos
I (5 de enero).
 De los 40 presidentes de USA hasta Reagan: Polk y Harding nacieron un 2
de noviembre.
Puedes creer que esto puede ser casualidad o si eres mal pensado que está
preparado, por eso nada mejor que hacer un estudio probabilístico riguroso de esta
paradoja
Estimación de la probabilidad
¿Cuál es la probabilidad de que en un grupo de n personas, por lo menos
dos de ellas coincidan en su cumpleaños?, desechamos los años bisiestos y los
gemelos, y asumimos que existen 365 cumpleaños que tienen la misma
probabilidad.
Solución
Utilizando la regla de Laplace y la combinatoria:
El truco es calcular primero la probabilidad de n personas tengan cumpleaños
diferentes
Sea el suceso:
A = {"al menos dos personas celebran su cumpleaños a la vez"}
y su complementario:
Ac = {"no hay dos personas que celebren su cumpleaños a la vez"}
Caso particular: n=5
El número de casos posibles de celebración de cumpleaños, suponiendo el año de
365 días, es:
3655 = 6,478 × 10 12
El número de casos favorables : como la primera de las personas puede haber
nacido uno de los 365 días del año, la siguiente unos de los 364 días restantes y así
sucesivamente, resultan365 × 364 × 363 × 362 × 361 = 6,303 × 10 12 casos de
que no existan dos personas que hayan nacido el mismo día .
Aplicando la regla de Laplace
P(Ac) =casos favorables/casos posibles =6,303 / 6,478 = 0,973
p(A) = 1 - p(Ac) = 1 - 0,973 = 0,027
El problema puede generalizarse para una reunión de n personas.
La probabilidad de que al menos dos de ellas cumplan años el mismo día
es:
Para n = 23, 30 y 50 la probabilidad mencionada es: 0.51, 0.71 y 0.97

respectivamente. Como se ve, para n = 23 existe, aproximadamente, una
probabilidad a la par que por lo menos coincidan dos cumpleaños, y cuando n= 50,
tenemos casi la certeza de que ocurrirá la coincidencia
ACTIVIDAD N°1
Aplica la prueba de hipótesis en diferentes muestras de manera
individual para la media, proporción o desviación estándar.
1. Calcule analíticamente el valore crítico z para un nivel de confianza del 93%.
2. Para estimar el tiempo promedio que lleva ensamblar cierto componente de una
computadora, el supervisor de una empresa electrónica tomó a 40 técnicos el
tiempo que tardaban en ejecutar esta tarea, obteniéndose una media de 12.73
minutos y una desviación estándar de 2.06 minutos. Con una confianza del 99%,
calcule el IC para el tiempo promedio que lleva ensamblar el componente de la
computadora.
3. En un estudio de contaminación del aire realizado en una estación experimental,

de 12 muestras diferentes de aire se obtuvieron los siguientes montos de materia
orgánica suspendida soluble en benceno (en microorganismos por metro cúbico):
2 212 1 839 3 152 2 608 2 456 2 747
2 913 1 265 2 346 2 333 1 909 2 333
Suponiendo que la población muestreada es normal, elabore e interprete un
intervalo de confianza de 95% para la correspondiente media real.
4. Un fabricante de reproductores de discos compactos utiliza un conjunto de
pruebas amplias para evaluar la función eléctrica de su producto. Todos los
reproductores de discos compactos deben pasar por todas las pruebas antes de
venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que
fallan en una o más pruebas. Encuentre un intervalo de confianza de 90% para la
proporción de reproductores de discos compactos de la población que pasan todas
las pruebas.
5. Un fabricante de impresoras desea estimar la vida promedio de sus cabezales de
impresión de cada lote. La estimación ha de estar dentro de 2 horas en torno a la
media y tener un nivel de confianza del 90%. Si una muestra piloto del último lote
de 800 cabezales revela una desviación típica de 25 horas, ¿cuál debe ser el
tamaño de la muestra?
6. En un artículo de un periódico norteamericano 480 de los 1600 adultos

encuestados dijeron que el programa espacial estadounidense debe enfatizar la
exploración científica. ¿Qué tan grande se necesita que sea la muestra de adultos
en una nueva encuesta si se desea tener una confianza de 95% de que el
porcentaje estimado esté dentro de 2% del porcentaje real?
7. Una empresa desea estimar la proporción de trabajadores de la línea de

producción que están a favor de que se corrija el programa de aseguramiento de la
calidad. La estimación debe quedar a menos de 5 puntos porcentuales de la
proporción verdadera de los que favorecen el programa, con un coeficiente de
confianza del 98%. ¿Cuántos trabajadores se deben muestrear, si la empresa
cuenta en total con 2 000 trabajadores?
8. Una reciente encuesta incluyó a 1012 adultos elegidos al azar, a quienes se

preguntó "si se debe permitir o no la donación de seres humanos". Los resultados
mostraron que 901 de los encuestados dijeron que no debe permitirse la donación.
Un reportero de noticias desea determinar si estos resultados de encuesta
constituyen una fuerte evidencia de que la mayoría de las personas (más del 50%)
se oponen a este tipo de donación. Construya un estimado del intervalo de
confianza del 99% de la proporción de adultos que considera que no debe
permitirse la donación de seres humanos. Con base en el resultado, ¿existen
fuertes evidencias que apoyen la afirmación de que la mayoría de la gente se opone
a este tipo de donación?
ACTIVIDAD N°2
Aplica la prueba de hipótesis a dos muestras diferentes y realiza el
análisis de varianza respectivo.
1. En una muestra tomada de una base de datos se obtuvo las horas de operación
hasta averiarse de cierto componente de una computadora
334 376 331 54 345 81 344 316 48 10 332 20 311 345 327
a. Verifique si la media del tiempo de avería de los componentes es
significativamente menor que 300 horas. Use α=0.10.
b. Verifique que más del 60% del tiempo de operación es mayor que 300 horas.
Use α=0.05
2. El centro de cómputos del área académica de cierta universidad está solicitando

más apoyo financiero de parte de la administración. La solicitud se basa en el
reclamo de que al presente el tiempo promedio que un estudiante espera para usar
una computadora es mayor de 20 minutos. El Vicepresidente de Finanzas tomó
una muestra aleatoria de 16 estudiantes quienes esperaron en el centro para usar
una computadora. El calculó el tiempo promedio de espera en 16 minutos con una
DE de 7 minutos. Usando un nivel de significancia de 10%, ¿debe el Vicepresidente
recomendar más dinero para el centro?
3. En los últimos años se han registrado un gran número de lavadoras de ropa,

tanto electrónicas como mecánicas, con serias fallas en su funcionamiento. Se
desea analizar y comparar el costo de reparación de cada tipo de artefacto. Para
ello se ha seleccionado una muestra aleatoria de cada tipo de lavadora y se han
registrado en la tabla los costos de reparación en soles. Se sabe que el número de
fallas tiene distribución normal.
N° 1 2 3 4 5 6 7 8 9 10 11
Electrónico 178 161 194 204 185 179 173 172 108 181 185
Mecánico 128 89 150 191 188 209 53 131 184 97 112
a. A un nivel de significación del 5%, ¿los costos de reparación de ambos tipos de

lavadoras son homogéneos?
b. ¿El costo de reparación de las lavadoras electrónicas es significativamente

superior al costo de reparación de las lavadoras mecánicas? Utilice un nivel de
significación del 5%.
4. El ingeniero de control de calidad de la fábrica M, afirma que la resistencia de

cierto material que producen es mayor que la resistencia del mismo material
producido por la fábrica N. Un laboratorio particular realiza un experimento sobre
estos materiales y los resultados (en ohmios) se muestra a continuación:
Fábrica M 0.140 0.138 0.143 0.142 0.144 0.141 0.137
Fábrica N 0.135 0.140 0.136 0.142 0.138 0.135 0.140
Asuma poblaciones normales. Con un nivel de significancia del 5%
5. La empresa de transportes CARGA está por decidir si adquiere la marca A o B de

bujías para usarlas en su flota de camiones. Para esto encargó realizar un estudio
de rendimientos en kilómetros para las dos marcas. El estudio se basó en dos
muestras aleatorias independientes de 10 y 9 bujías resultando medias de 8000 y
7900 y las varianzas de 5600 y 810 respectivamente. Si el estudio concluye
afirmando que las varianzas reales y las medias reales de las marcas de bujías a y
B no difieren entre sí al nivel de significancia de 0.05. ¿Está Ud. de acuerdo con el
informe? De no estar de acuerdo qué marca recomendaría si el criterio es el más
estable?
6. Un gerente de distribución y almacenamiento de una empresa que fabrica

productos perecederos estudia diversos equipos de refrigeración para determinar si
todos ellos tienen un consumo igual de energía eléctrica. Midió el consumo de
varios equipos de igual tamaño sometidos a tareas similares. Los resultados en
kw/hora por semana de trabajo se dan a continuación.
MARCA A MARCA B MARCA C MARCA D
478 580 573 501
567 452 544 504
574 480 428 478
515 410 579 426
542 571 475 403
526 596 439 468
582 502 588 504
a. Formule la hipótesis.
b. Realice el análisis de varianza.
c. Decida si se debe rechazar o aceptar la hipótesis nula.
d. ¿Considera Ud. que todos los equipos funcionan de manera igualmente eficiente?
Si no es el caso, que estudios adicionales le sugeriría al gerente de distribución y
almacenamiento.
7. Una envasadora de aceite de oliva produce latas de 4 L de dicho producto y tiene

4 máquinas que lo envasan. El gerente de producción desea saber si todas las
máquinas llenan las latas con la misma cantidad de producto; para ello obtiene
muestras aleatorias de las latas llenadas por los diferentes equipos. Los datos se
listan a continuación.
MÁQUINA A MÁQUINA B MÁQUINA C MÁQUINA D
4.04 3.98 4.02 3.94
4.02 4.02 3.98 3.98
4.05 4.02 4.03 4.00
4.0 4.01 3.99
4.02 4.01 4.00
a. Formule la hipótesis.
b. Realice el análisis de varianza con un nivel de significancia del 5%.
c. Con base a su análisis indique en que concluye en relación con las hipótesis y
sugiera que hacer al gerente de producción.
8. Una empresa que asegura automóviles tiene 2 agencias en la ciudad para

atender llamados de siniestros. En el cuadro siguiente se muestran todos los datos
de los llamados atendidos por las 2 agencias y para los diferentes días de la
semana. ¿Se puede decir que hay diferencia entre los llamados atendidos por las 2
agencias o por el día de la semana en que ocurren? Use un nivel de significación de
0.05.
AGENCIA 1 AGENCIA 2
LUNES 52 42
MARTES 47 51
MIÉRCOLES 54 53
JUEVES 45 49
VIERNES 50 57
SÁBADO 53 52
DOMINGO 47 45
PRÁCTICA N°2
Análisis de caso y toma de decisiones utilizando los contenidos de la

Unidad I y II.
1. Un alto dirigente del emporio comercial Gamarra afirma que el salario promedio
por semana de los hombres supera en $13 al salario promedio de las mujeres. Para
comprobar la afirmación un grupo de trabajo escogió una muestra aleatoria de 20
hombres y otra de 25 mujeres encontrando los promedios de $110 y $100
respectivamente. Aplicando un intervalo de confianza del 98% para la diferencia de
dos medias, ¿es consistente la afirmación del dirigente? El grupo supone que los
salarios en cada caso siguen el modelo de probabilidad normal con varianzas de
100 y 64 dólares.
2. Una cadena de hipermercados está estudiando la venta diaria de pollos a la

brasa en dos de sus locales: Independencia y Rímac. Para esto, el encargado del
estudio, escogió dos muestras aleatorias de las ventas de 13 días observándose los
siguientes números de pollos vendidos:
Independencia 12 17 14 18 9 19 10 20 15 12 16 9 14
Rímac 12 14 13 11 12 15 14 15 11 13 12 11 14
Las muestras revelaron además que las dos poblaciones de ventas son normales
con varianzas diferentes. Aplicando un intervalo de confianza del 95% para la
diferencia de dos medias poblacionales ¿es válido inferir que los dos locales tienen
igual promedio de ventas del producto?
3. Una empresa publicitaria está evaluando a dos equipos de trabajo. La evaluación

centra su atención en el tiempo que tarda cada equipo en elaborar una propuesta
para una campaña publicitaria. En la tabla se muestra cuántos días tardó cada
equipo en elaborar su propuesta. Con un nivel de significación del 5%, ¿considera
usted que los equipos tienen la misma eficiencia para elaborar su propuesta? Se
sabe que los tiempos están normalmente distribuidos.
Equipo1 2 13 15 9 8 6 9 18
Equipo2 10 10 11 13 11 12 7
4. El departamento de desarrollo de productos de un banco local realizó un estudio

para incrementar sus captaciones sobre la base de otorgamientos de premios a sus
clientes, que consiste en regalos para el hogar o viajes vacacionales. Para este
efecto eligió aleatoriamente los depósitos de 7 clientes en las cinco principales
sucursales del banco, que representan el nivel de ingresos de los depositantes. Los
datos se presentan a continuación. Se pide efectuar un estudio ANOVA e interpretar
los resultados del estudio con un nivel de significancia del 5%.
SUCURSAL DEPÓSITOS DE CLIENTES (EN MILES DE S/.)
1 1 2 3 4 5 6 7
2 10.2 9.8 11.2 9.6 7.6 10.2 9.6
3 3.8 3.8 4.2 4.8 4.2 6.2 5.0
4 3.8 3.8 4.2 4.8 4.2 6.2 5.0
5 7.2 8.4 9.0 9.6 7.8 8.2 10.2
6 5.0 4.0 3.8 3.5 4.2 5.2 7.0
5. Una revista especializada en automóviles hace pruebas de eficiencia en el

consumo de combustible de los modelos compactos de tres fabricantes de
automóviles. Hace las pruebas en tres tipos de terreno: ciudad, terreno montañoso
y terreno llano con poco tráfico. ¿Consideraría que hay evidencia de diferencia en el
consumo de combustible de los carros en los diferentes tipos de terreno? La
información se expresa en km/L, use un nivel de significancia de 0.05.
FABRICANTE 1 FABRICANTE 2 FABIRCANTE 3
CIUDAD 14 12.5 13.1
MONTAÑA 15.3 14.5 14.2
PLANO 16.1 15.6 16
BIBLIOGRAFIA ESPECÍFICA DE LA UNIDAD II

3. Mendenhall-Sincich. Probabilidad y Estadística para Ingeniería y Ciencias.
Prentice Hall. Cuarta Edición.
4. Díaz Mata Alfredo. Estadística Aplicada a la Administración y Economía. Mc Graw
Hill. Primera Edición 2013.
AUTOEVALUACIÓN N°2
1.- En los últimos años se han registrado un gran número de lavadoras de ropa,
registrado en la tabla los costos de reparación en soles. Se sabe que el número
de fallas tiene distribución normal.
N° 1 2 3 4 5 6 7 8 9 10 11
Electrónico 178 161 194 204 185 179 173 172 108 181 185
Mecánico 128 89 150 191 188 209 53 131 184 97 112
A un nivel de significación del 5%, ¿los costos de reparación de ambos tipos de

lavadoras son homogéneos?
Respecto a la resolución del problema marque lo incorrecto.
A) Ho: 21 = 22

H1: 21 ≠ 22
S12
B) Fexp   0,2491
S 22
C) F1 = 0,2688
D) F2 = 3,72
E) S 22 = 615,87273
N° 1 2 3 4 5 6 7 8 9 10 11
Electrónico 178 161 194 204 185 179 173 172 108 181 185
Mecánico 128 89 150 191 188 209 53 131 184 97 112
¿El costo de reparación de las lavadoras electrónicas es significativamente superior

al costo de reparación de las lavadoras mecánicas? Utilice un nivel de significación
del 5%.
Respecto a la resolución del problema marque lo incorrecto.
A) Ho: 1 < 2
H1: 1 > 2
 
B) T  x1  x 2  1  2 o  2,10512
exp
S12 S22

n1 n2
2
 S 12 S 22 
  
C)  n1 n2 
v 2 2
 16
 S 12   S 22 
   
 n1   n2 

n1  1 n2  1
D) Tcrítico= 1,75305
E) A un nivel de significación del 5%, se puede afirmar que el costo de reparación

de las lavadoras electrónicas es significativamente superior al costo de reparación
de las lavadoras mecánicas.
3.- El ingeniero de control de calidad de la fábrica M, afirma que la resistencia de

cierto material que producen es mayor que la resistencia del mismo material
producido por la fábrica N. Un laboratorio particular realiza un experimento sobre
estos materiales y los resultados (en ohmios) se muestra a continuación:
Fábrica M 0,140 0,138 0,143 0,142 0,144 0,141 0,137
Fábrica N 0,135 0,140 0,136 0,142 0,138 0,135 0,140

Asuma poblaciones normales. Con un nivel de significancia del 5%, indique lo
correcto.
A) F calculado = 0.9622
B) F crítico = 6.82
C) t calculado= 1.8695
D) t critico = 1.98229
E) Se rechaza lo que afirma el ingeniero.
4.- Un fabricante de impresoras desea estimar la vida media de sus margaritas de
impresión. La estimación ha de estar dentro de 2 horas en torno a la media y
tener un nivel de confianza del 90%. Si una muestra piloto revela una
desviación típica de 25 horas, ¿cuál debe ser el tamaño de la muestra?
A) 164
B) 423
C) 24
D) 115
E) 625
N° 1 2 3 4 5 6 7 8 9 10 11
Electrónico(1) 178 161 194 204 185 179 173 172 108 181 185
Mecánico(2) 128 89 150 191 188 209 53 131 184 97 112
A un nivel de significación del 5%, respecto a la homogeneidad del costo de

reparación de ambos tipos de lavadoras, no es correcto:
A) Fexp= 0.2491
B) F crítico=0.2688 y 3.72
C) Varianza (1)=615.87
D) Varianza (2)=2572.42
E) El costo de reparación es homogéneo
6.- Varios accidentes de automovilísticos menores ocurrieron en varios cruces de

alto riesgo en un distrito urbano a pesar de los señalamientos de tránsito
(semáforos). El departamento de tránsito afirma que una modificación en el tipo
de semáforo reducirá los accidentes. Los integrantes de la junta municipal han
acordado realizar un experimento que se ha propuesto. Se eligieron
aleatoriamente ocho cruces y se modificaron los semáforos correspondientes.
Utilice un nivel de significación del 1% para analizar si la junta logró su objetivo,
si el número de accidentes de tránsito durante un período de seis meses antes y
después de las modificaciones fue:
Cruces
A B C D E F G H
Antes de la modificación 5 7 6 4 8 9 8 10
Después de la modificación 3 7 7 0 4 6 8 2
Luego marque lo correcto:
A) α=0.005
B) Tcalculado=2.3152
C) T critico = 2.798
D) Sd = 2.8277
E) d = 2.5
7. .- Relacione las columnas:
a) Probabilidad de aceptar la ( ) Probabilidad de rechazar la

hipótesis nula dado que es falsa. hipótesis nula dado que es
verdadera.
b) Prueba de independencia ( ) Enunciado acerca del
parámetro de una o más
poblaciones.
c) Probabilidad del error de tipo I ( ) Analiza la asociación entre
variables.
d) Hipótesis ( ) Probabilidad de error tipo II
A) cdba
B) cbda
C) acbd
D) acdb
E) dcba
8.- El proyecto académico de un ingeniero es el diseño de un experimento a fin de
determinar el rendimiento de 4 variedades de papa sin tener en cuenta la
influencia de la fertilidad de las tierras de cultivo. Las 20 parcelas de igual
fertilidad que le fueron asignadas las dividió en 4 grupos de 5 parcelas cada una.
A cada grupo de parcelas le asignó una variedad distinta de papa escogida al
azar, resultando un diseño completamente aleatorizado. Los rendimientos
medidos en kilogramos de las cinco variedades por parcela se dan en la tabla
que sigue.
VARIEDADES DE PAPA
V1 V2 V3 V4
55 52 53 52
53 58 55 50
60 50 57 51
52 60 51 49
53 52 54 53
Al nivel de significación del 5% ¿se puede inferir que existen diferencias

significativas entre las producciones medias de las 4 variedades de papa?
Luego señale lo incorrecto.
A) α=0.05
B) Ho: 1   2   3   4
C) SCA=42.6
D) SCT=189
E) Fcrítico=3.16
9.- La empresa de transportes “DEL VALLE” va a adquirir una de 4 marcas de

neumáticos que hay en el mercado. El ingeniero de pruebas de la empresa
diseñó un experimento escogiendo al azar seis neumáticos de cada marca de
características similares. En el laboratorio de pruebas, con una carga específica
simulada, observó la duración de cada neumático hasta que se deteriore. Los
datos redondeados en miles de kilómetros se dan en la tabla siguiente.
MARCAS DE NEUMÁTICOS
N1 N2 N3 N4
55 63 48 59
53 67 50 68
50 55 59 57
60 62 50 66
55 70 47 71
65 75 61 73
Al nivel de significancia del 5% ¿indican estos datos que las marcas de neumáticos
producen efectos significativos en el rendimiento?
Luego marque lo incorrecto.
A) Fcalculado=6.77
B) SCT=1550.96
C) SCA=781.46
D) SCE=769.5
E) Fcrítico=3.10
10.- Una empresa de confecciones textiles realiza un estudio para determinar el

mejor de tres métodos de montaje de una prenda específica. Con este fin diseñó
un experimento para comparar los tres métodos seleccionando cinco operarios que
se supone son de velocidad homogénea para reducir la variación debido a los
operarios, asignando a cada operario los tres métodos por tiempos iguales. El
número de prendas terminadas por cada operario y con cada método en el tiempo
fijado se da en la tabla que sigue.
MÉTODO
OPERARIO I II III
1 3 9 5
2 4 8 6
3 3 7 8
4 5 9 7
5 4 6 9
Al nivel de significancia del 5% ¿existirá alguna diferencia entre los métodos de
montaje de las prendas?
Marque lo incorrecto.
A) SCA=44.8
B) SCE=16.533
C) SCT=69.9
D) FB=0.377
E) FA=13.714
UNIDAD III: “ESTADÍSTICA NO PARAMÉTRICAS”
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD III
UNIDAD III: “ESTADÍSTICA NO PARAMÉTRICA”
TEMA 1: PRUEBAS DE SIGNOS
Como has podido observar la mayoría de las pruebas que hemos realizado se
refiere al análisis del parámetro poblacional como la media, varianza y proporción
para lo cual se hicieron supuestos sobre las poblaciones a quienes pertenecían las
muestras, dichos supuestos por ejemplo era que provenían de poblaciones con
comportamiento normal. Pero en la práctica no siempre las poblaciones son
normales por lo que ya no podríamos aplicar los métodos anteriormente estudiados,
se necesita para ello algún método alternativo que requiera dicha suposición. Estos
métodos son conocidos como Pruebas no paramétricas o sin distribución, los cuáles
nos permiten realizar inferencias en situaciones donde no conocemos el
comportamiento probabilístico de la variable en análisis. Su gran ventaja respecto a
los métodos paramétricos es que utiliza cálculos que no son tan laboriosos además
de no tener en cuenta la forma de la distribución (función de probabilidad). Hay que
tener en cuenta que las pruebas no paramétricas se ven limitadas por la pérdida de
información al trabajar sólo con los rangos por lo que a menudo no son tan claras o
eficientes pero esto se ve recompensado por la sencillez, rapidez y necesidad de
utilizar poca información.
En realidad existe una gran cantidad de pruebas de las cuáles desarrollaremos las
más conocidas y utilizadas, de las cuáles podemos observar su eficiencia respecto a
las pruebas paramétricas:
Cuadro Nº 16: TIPOS DE PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS 15

APLICACIÓN PRUEBA PRUEBA NO TASA DE EFICIENCIA
PARAMÉTRICA PARAMÉTRICA DE LA PRUEBA NO
PARAMÉTRICA CON
POBLACIÓN NORMAL
Datos apareados de Prueba t o prueba z Prueba del signo 0.63

los datos muestrales
Prueba de rangos 0.95
con signo de
Wilcoxon
Dos muestras Prueba t o prueba z Prueba de la suma 0.95
independientes de rangos de
Wilcoxon
Varias muestras ANOVA( prueba F) Prueba de Kruskal- 0.95
independientes Wallis
Correlación Correlación lineal Prueba de correlación 0.91
de rangos ordenados
Aleatoriedad Prueba no Prueba de rachas Sin bases para
paramétrica comparación
Para las pruebas de signos y alguna otra prueba no paramétrica, al lugar que ocupa
cada dato ordenado de menor a mayor se le conoce como rango, y si hay algún
15
Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 13, pág. 677.
empate entre los rangos se utiliza la media de dichos rangos en cada uno de los
datos, de la siguiente forma:
Serie de datos inicial: 3;6;6;6;11;14;14 y 16
Análisis de rangos:
Dato 3 6 6 6 11 14 14 16
Posición 1 2 3 4 5 6 7 8
Rango 1 3 3 3 5 6.5 6.5 8
Se observa que 3 es el promedio de

las posiciones 2; 3 y 4.
1.1 PRUEBA DEL SIGNO

La prueba no paramétrica más sencilla es el contraste de signos, la que se
utiliza principalmente para contrastar la hipótesis sobre la posición central
(mediana) de una distribución poblacional o para analizar datos de muestras
pareadas o enlazadas de una población. Al igual que la media, la mediana es una
medida de centralización, en este caso referida a la ubicación, por ello también se
le conoce a la prueba de signo como prueba de ubicación. Por ejemplo, el
contraste de hipótesis de signo se utiliza mucho en los estudios de mercados para
analizar la preferencia de los consumidores entre dos productos, para verificar si un
nuevo sistema de producción aumenta la eficiencia de los trabajadores, para
analizar el nivel de aceptabilidad entre dos directivos de una misma empresa, etc.
El procedimiento de la prueba del signo se resume en el siguiente diagrama.
Por razones de simplicidad utilizaremos como estadístico de prueba (x) al

número de veces en que ocurre el signo menos frecuente.
Es importante indicar que como toda prueba no paramétrica no existe el supuesto
de normalidad respecto a la población, pero si requiere que la muestra sea
aleatoria para darle validez.
Se supone que se tienen datos antes y después para una muestra y se desean
comparar estos conjuntos de datos correspondientes. Se hace restando las
observaciones por pares, y se anota el signo algebraico resultante. No es
importante la magnitud de la diferencia, sino solo si resulta un signo más o un
signo menos.
DIAGRAMA Nº 0116: PRUEBA DEL SIGNO
La hipótesis nula establece que no existe diferencia en los conjuntos de datos. Si

esto es cierto, entonces un signo más y un signo menos son igualmente
probables. La probabilidad (π) de que ocurra cualquiera es de 0.50. Una prueba de
dos extremos es:
H0: m = p o Med1=Med2
H1: m  p o Med1≠Med2
Donde m y p son los números de signos menos y de signos más,

respectivamente.
Del mismo modo utilizando la probabilidad π:
H0: π1 = 0.5
H1: π1 ≠ 0.5
Una prueba de un solo extremo es:
H0: m = p H0: m = p
H1: m > p ó H1: m < p
Lo que quiere decir que si dos conjuntos de datos tienen medianas iguales,
entonces el número de signos positivos debe ser aproximadamente igual al número
de signos negativos.
16
Fuente: Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 13, pág. 679
Ejemplo17
Se le pidió a un grupo de 20 alumnos que calificaran el desempeño de 2 profesores,
de acuerdo con varios criterios y en una escala de 1 a 10. Se obtuvieron los
resultados que se muestran a continuación:
CALIFICACIÓN
ALUMNO PROFESOR A PROFESOR B
1 7 9
2 5 6
3 8 5
4 9 8
5 3 4
6 8 5
7 10 10
8 8 9
9 3 6
10 5 4
11 7 10
12 9 6
13 5 3
14 4 4
15 7 9
16 10 10
17 10 9
18 5 8
19 5 4
20 6 6
Probar a un nivel de significancia de 0.05 la hipótesis de que no existe diferencia
entre las calificaciones asignadas por los alumnos a los dos profesores.
Solución
i) Planteamos las hipótesis:
H0: Med1 = Med2
H1: Med1 ≠ Med2
o de manera equivalente:
H0: π1 = 0.5
H1: π1 ≠ 0.5
ii) Hallamos los signos de las diferencias restando x 1-x2:
CALIFICACIÓN
ALUMNO PROFESOR A (x1) PROFESOR B (x2) Signo de (x1-x2)
1 7 9 -
2 5 6 -
3 8 5 +
4 9 8 +
5 3 4 -
6 8 5 +
7 10 10 0
8 8 9 -
9 3 6 -
10 5 4 +
17
Tomado de ESTADÍSTICA APLICADA A LA ADMINISTRACIÓN Y ECONOMÍA, ALFREDO DÍAZ MATA,
CAPÍTULO 17, PÁG. 521
11 7 10 -
12 9 6 +
13 5 3 +
14 4 4 0
15 7 9 -
16 10 10 0
17 10 9 +
18 5 8 -
19 5 4 +
20 6 6 0
iii) Al encontrar las diferencias igual a cero, eliminamos sus respectivos pares por lo
que el nuevo tamaño de muestra es n=16. Importante recordar que el cero no
tiene signo, por lo que no se le puede asignar el signo positivo.
iv) El estadístico de prueba x es el número de veces que se repite el signo menos

frecuente, por lo que x=8.
v) Contrastando con la tabla de valores críticos para la prueba del signo de Mario
Triola, el valor crítico con un nivel de significancia de 0.05 y n=16, es: 3. La tabla
de valores críticos se presenta a continuación.
vi) Se rechaza la hipótesis nula si el estadístico de prueba es menor o igual que el

valor crítico. Por lo tanto, al ser el estadístico de prueba mayor que el valor crítico,
se acepta la hipótesis nula, por lo que existe evidencia estadística para aseverar
que no hay diferencia en la opinión de los alumnos respecto a las calificaciones de
los dos profesores.
Es importante notar que la tabla de valores críticos para la prueba del

signo evita que usemos un análisis adicional utilizando la distribución de
probabilidad binomial con P=0.5 y n=16 y comparar la probabilidad
acumulada generada por la muestra y el nivel de significancia.
CUADRO Nº 17: VALORES CRÍTICOS PARA LA PRUEBA DEL SIGNO 18
Ejemplo
Un analista de mercado desea medir la efectividad de una campaña promocional del
producto de su empresa. Antes de la campaña, selecciona 12 tiendas minoristas y
registra las ventas del mes. Durante el segundo mes se termina la campaña
promocional y se registran de nuevo las ventas. El cuadro siguiente muestra los
niveles de ventas, del primer y segundo mes.
Se desea probar con un nivel de significancia de 0.05 que la campaña promocional
incrementó las ventas.
18
Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 743
Tienda Antes Después

1 $4200 $4000
2 $5700 $6000
3 $3800 $3800
4 $4900 $4700
5 $6300 $6500
6 $3600 $3900
7 $4800 $4900
8 $5800 $5000
9 $4700 $4700
10 $5100 $5200
11 $8300 $7200
12 $2700 $3300
Solución
H0: m = p
H1: m > p
Se entiende que para que la promoción sea exitosa se requiere que el número de
diferencias negativas sea pertinentemente grande, o sea interesa que el número
de signos menos sea mayor que el número de signos positivos. Planteando de
otra manera utilizando la probabilidad:
H0: π1 = 0.5
H1: π1 > 0.5
ii) Hallamos los signos de las diferencias:
Tienda Antes x1 Despuésx2 Signo (x1-x2)

1 $4200 $4000 +
2 $5700 $6000 -
3 $3800 $3800 0
4 $4900 $4700 +
5 $6300 $6500 -
6 $3600 $3900 -
7 $4800 $4900 -
8 $5800 $5000 -
9 $4700 $4700 0
10 $5100 $5200 -
11 $8300 $7200 +
12 $2700 $3300 -
iii) Eliminando los ceros, el valor de n=10. El estadístico de prueba es x=3
iv) Utilizando la tabla de valores críticos para la prueba del signo al 0.05 en una
cola el valor crítico es 1.
v) Como el estadístico de prueba es mayor que el valor crítico no se rechaza la
hipótesis nula. Por lo tanto existe evidencia estadística para aceptar la hipótesis
nula, y se concluye que la campaña promocional no fue exitosa.
Valor de Z para prueba del signo con muestras grandes (n  25)
x  0.5  0.5n
Z
0.5 n
Ejemplo
Se ha pedido a una muestra aleatoria de 100 niños que comparen dos nuevos
sabores de helado: mantequilla de maní y fresa. Cincuenta y seis miembros de la
muestra prefieren el helado de mantequilla de maní, 40 el de fresa y 4 no
manifiestan ninguna preferencia. Averigüe si existe una preferencia general por
cualquiera de los dos sabores con un nivel de significancia de 0.05
Solución
i) Sea P la proporción de la población que prefiere el helado de fresa, por lo que
x=40, siendo el valor de n=96
H0: P = 0.5 H1: P≠0.5
ii) El valor del estadístico de prueba es:
40  0.5  0.5.x96
Z =-1,53
0.5 x 96
iii) Analizando el valor crítico:
iv) Como el estadístico de prueba cae en la región de aceptación, existe evidencia

estadística para aceptar la hipótesis nula, entonces se concluye que no hay
preferencia de los niños por alguno de los dos sabores de helados.
Ejercicio
Los siguientes datos muestran los índices de trabajo defectuoso de los empleados
antes y después de un plan de capacitación. Compare los dos conjuntos de datos
siguientes para ver si el plan de capacitación disminuyó las unidades defectuosas
producidas. Utilice el nivel de significancia de 0.10.
ANTES 8 7 6 9 7 10 8 6 5 8 10 8
DESPUÉS 6 5 8 6 9 8 10 7 5 6 9 8
Ejercicio
Un taller de reparación para CPUs de computadoras cambió el método de pago de
salario por hora a salario por hora más un bono calculado sobre el tiempo requerido
para desmontar, reparar y volver a ensamblar el CPU. Los siguientes son datos
recabados para 25 CPUs antes del cambio y 25 después para el número de horas
requeridas. A un nivel de significancia de 0.10, ¿el nuevo plan incrementó la
productividad?
ANTES 29 34 32 19 31 22 28 31 32 44 41 23 34
DESPUÉS 32 19 22 21 20 24 25 31 18 22 24 26 41
ANTES 25 42 20 25 33 34 20 21 22 45 43 31
DESPUÉS 34 27 26 25 31 19 22 32 31 30 29 20
Ejercicio
Se ha examinado una muestra de 50 empresas peruanas que compraron
franquicias el año 2012. Los rendimientos de las acciones en torno a la fecha de
compra fueron positivos 31 veces, negativos 12 y cero 3. Contraste la hipótesis de
que hay una mayor probabilidad de rendimientos positivos alrededor de la fecha de
compra de una franquicia.
1.2 PRUEBA DE RANGOS CON SIGNO DE WILCOXON PARA DATOS

APAREADOS.
Uno de los inconvenientes de la prueba del signo es que no maneja mucha
información, sólo el signo de las diferencias, sobre todo cuando la muestra es muy
pequeña. La prueba de rangos con signos de Wilcoxon además del signo de las
diferencias incorpora la magnitud de las mismas por lo que refleja mejor el
comportamiento de las muestras. En el análisis de muestras por pares, cada una
genera una observación. Las diferencias entre los pares de dichas observaciones
nos permiten analizar las diferencias entre las poblaciones. Por ejemplo, en una
gran empresa de alimentos se quiere analizar los tiempos que dos métodos de
producción distintos requieren para obtener un producto, los operadores de las
máquinas serán elegidos aleatoriamente de manera que cada uno obtiene dos
registros. Luego de realizar la diferencia entre dichos registros de cada trabajador
se tiene el siguiente razonamiento: Una diferencia positiva de los tiempos utilizados
por cada método indica que el primero requiere un tiempo mayor, y una diferencia
negativa indica que el segundo requiere de más tiempo. Entonces, ¿los datos
obtenidos indican que los métodos son significativamente diferentes respecto al
tiempo requerido por cada uno?
Cada método genera una población de tiempos utilizados para obtener el mismo
producto, por lo que podemos establecer las siguientes hipótesis:
H0: Las poblaciones son idénticas
H1: Las poblaciones no son idénticas
No existe el requisito de que los datos provengan de una distribución normal.
El procedimiento lo podemos resumir de la siguiente manera:
- Se ordenan las observaciones relacionadas en dos columnas y se resta el
segundo del primero.
- Se descartan los pares donde la diferencia es cero.
- A las n diferencias absolutas restantes se les asigna los rangos analizando
los valores de menor a mayor, es decir, el menor valor absoluto tendrá
rango 1, el siguiente rango 2, hasta llegar al mayor valor.
- En caso de empates el rango asignado es la media de los rangos que ocupan
en la ordenación de menor a mayor.
- Se calculan las sumas de los rangos correspondientes a las diferencias
positivas y negativas, siendo T la más pequeña de las dos sumas.
- Si n≤30, el valor crítico T se encuentra en la tabla de valores críticos para la
Prueba de rangos con signo de Wilcoxon. Cuando plantee la conclusión,
rechace la hipótesis nula si los datos muestrales le llevan a un estadístico de
prueba que se ubica en la región crítica, esto es, cuando el estadístico de
prueba sea menor o igual que el valor (o los valores) crítico(s).
n(n  1)
T
- Si n>30, el estadístico de prueba es: Z 
4 y el valor crítico
n(n  1)(2n  1)
24
en la tabla de valores críticos z.
Cuadro N°18: VALORES CRÍTICOS T PARA LA PRUEBA DE RANGOS CON

SIGNO19
Ejemplo
Una pizzería cercana al campus universitario está considerando la posibilidad de
utilizar una nueva receta para hacer la salsa que echa a las pizzas. Se elige una
muestra aleatoria de ocho estudiantes y se pide a cada uno que valore en una
escala de 1 a 10 su opinión sobre la salsa original y sobre la salsa propuesta. El
cuadro siguiente muestra las puntuaciones obtenidas en la comparación; los
números más altos indican que gusta más el producto.
¿Indican los datos una tendencia general a preferir la nueva salsa a la original?
19
Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 744
PUNTUACIÓN
ESTUDIANTE SALSA ORIGINAL SALSA PROPUESTA
A 5 7
B 3 8
C 4 3
D 7 6
E 2 8
F 5 8
G 6 6
H 4 8
Solución
H0: P = 0.5 (No hay preferencia por alguna de las dos salsas)
H1: P < 0.5 (Existe preferencia por el nuevo producto)
La hipótesis nula puede concebirse como la hipótesis de que la mediana

poblacional de las diferencias es 0. Si la hipótesis nula fuera verdadera, nuestra
secuencia de diferencias + y - podría concebirse como una muestra aleatoria
extraída de una población en la que las probabilidades de + y - son 0,5 cada
una. En ese caso, las observaciones constituirían una muestra aleatoria extraída
de una población binomial en la que la probabilidad de + es 0,5.
Siendo P la verdadera proporción de la población que prefiere la salsa original (o
sea que las puntuaciones de la salsa original son mayores, por eso al contrastar
con la preferencia con la nueva salsa debe haber menos signos positivos P<0.5).
Si se llegara a rechazar la hipótesis nula indicaría que hay una mayor preferencia
por la nueva salsa.
ii) Hallamos las diferencias y asignamos los rangos correspondientes.
PUNTUACIÓN
ESTUDIANTE SALSA ORIGINAL SALSA PROPUESTA DIFERENCIA
(ORIGINAL-NUEVO)
A 5 7 -2
B 3 8 -5
C 4 3 1
D 7 6 1
E 2 8 -6
F 5 8 -3
G 6 6 0
H 4 8 -4
iii) Luego hallamos los rangos de los valores absolutos de las diferencias y
DIFERENCIA VALOR RANGOS RANGO
(ORIGINAL-NUEVO) ABSOLUTO CON SIGNO
-2 2 3 -3
-5 5 6 -6
1 1 1.5 1.5
1 1 1.5 1.5
-6 6 7 -7
-3 3 4 -4
0 0 -- --
-4 4 5 -5
Suma de rangos (+): 3
Suma de rangos (-): 25
El estadístico de prueba T es 3.
iv) El valor crítico se busca en la tabla de valores críticos para la prueba de rangos
con signos de Wilcoxon, con n=7 y 0.05 en una cola. Tcrítico=4.
v) Como el estadístico de prueba T=3 es menor que el valor crítico se rechaza la
hipótesis nula, es decir que es probable que las puntuaciones del nuevo producto
sean mayores.
Ejemplo
En un estudio se compararon empresas que tenían sofisticados métodos de
postauditoría y empresas que no tenían métodos de ese tipo. Se examinó una
muestra de 31 pares de empresas. Se calculó el cociente entre la valoración de
mercado y los costes de reposición de los activos de cada una y se utilizó como
medida de los resultados de las empresas. En cada uno de los 31 pares, una de las
empresas utilizaba un sofisticado método de postauditoría y la otra no. Se
calcularon las 31 diferencias entre los cocientes y se ordenaron las diferencias
absolutas. La menor de las sumas de los rangos, 189, correspondió a los pares en
los que el cociente era mayor en el caso de la empresa que carecía de sofisticados
métodos de postauditoría. Contraste la hipótesis nula de que la distribución de las
diferencias entre los cocientes está centrada en 0 frente a la hipótesis alternativa
de que tiende a ser menor en las empresas que carecen de sofisticados métodos de
postauditoría.
Solución
i) Como la muestra es n=31, y T=189, calculamos el estadístico de prueba con la
fórmula:
n(n  1)
T
Z calculado  4
n(n  1)(2n  1)
24
31(31  1)
189 
ii) Z calculado 
4 =-1.16
31(31  1)(2.31  1)
24
iii) La prueba es de una sola cola, por lo que Zcrítico=1.645
iv) Al ser el Zcalculado menor que el Zcrítico, no existe evidencia estadística para
rechazar la hipótesis nula.
Ejercicio
Se pide a una muestra aleatoria de 10 estudiantes que valoren en una cata a ciegas
la calidad de dos marcas de cerveza, una nacional y una importada. Las
valoraciones se basan en una escala de 1 (mala) a 10 (excelente). La tabla adjunta
muestra los resultados. Utilice el contraste de Wilcoxon para contrastar la hip6tesis
nula de que la distribución de las diferencias pareadas está centrada en 0 frente a
la hipótesis alternativa de que la población de todos los estudiantes bebedores de
cerveza prefiere la marca importada.
ESTUDIANTE A B C D E F G H I J
NACIONAL 2 3 7 8 7 4 3 4 5 6
IMPORTADA 6 5 6 8 5 8 9 6 4 9
Ejercicio
De 721 usuarios de Internet elegidos al azar, se descubrió que 358 de ellos usan
Internet para planear viajes (según datos de una encuesta local). Utilice un nivel de
significancia de 0.02 para probar la aseveración de que, de los usuarios de Internet,
menos del 50% utiliza este medio para planear viajes. ¿Los resultados son
importantes para los agentes de viajes?
1.3 PRUEBA DE LA SUMA DE RANGOS DE WILCOXON PARA MUESTRAS
INDEPENDIENTES. (Mata, 2013)
La prueba de la suma de rangos de Wilcoxon utiliza los rangos de los valores
de dos conjuntos independientes de datos muestrales para probar la hipótesis nula
de que las dos poblaciones tienen medianas iguales. La prueba de rangos con signo
de Wilcoxon estudiada en la sección anterior utiliza datos apareados, pero la prueba
de suma de rangos de Wilcoxon de la presente sección utiliza dos muestras
independientes que no están relacionadas ni asociadas o apareadas.
El fundamento de la suma de rangos de Wilcoxon es el siguiente: si dos
muestras se obtienen de poblaciones idénticas y los valores individuales se
acomodan en rangos como un conjunto combinado de valores, entonces el rango
alto y el bajo deberían caer de manera uniforme entre las dos muestras. Si los
rangos bajos se encuentran predominantemente en una muestra y los rangos altos
se encuentran predominantemente en la otra muestra, sospechamos que las dos
poblaciones tienen medianas diferentes.
Asumamos que se dispone de la muestra de tamaño n1 de la primera
población y la muestra de tamaño n2 de la segunda. Se juntan las dos muestras y
se ordenan las observaciones en sentido ascendente, asignando, en caso de
empate, la media de los puestos correspondientes. Sea T la suma de los puestos de
las observaciones de la primera población (T en el contraste de la suma de puestos
de Wilcoxon es igual que R1 en el contraste U de Mann-Whitney). Suponiendo que la
hipótesis nula es verdadera, el estadístico de la suma de puestos de Wilcoxon, T,
tiene la media:
n1 (n1  n2  1)
T 
2
y la varianza:
n1 n2 (n1  n2  1)
 T2 
12
Por lo que cuando n1≥10 y n2≥10 la distribución normal es una excelente
aproximación a la distribución de la variable aleatoria:
T  T
Zcalculado 
T
Ejemplo
En un estudio que pretendía comparar los resultados de empresas que revelan las
predicciones de la dirección sobre los beneficios con los resultados de las que no las
revelan, se tomaron muestras aleatorias de 80 empresas de cada una de las
poblaciones. Se midió la variabilidad de la tasa de crecimiento de los beneficios en
los 10 periodos anteriores en cada una de las 160 empresas y se ordenaron estas
variabilidades. La suma de los puestos de las empresas que no revelan las
predicciones de la dirección sobre los beneficios era 7287. Contraste la hipótesis
nula de que las posiciones centrales de las distribuciones poblacionales de las
variabilidades de los beneficios son las mismas en los dos tipos de empresas frente
a la hipótesis alternativa bilateral.
Solución
i) Como T=7.287, calculamos los demás indicadores, siendo n1=80 y n2=80
n1 (n1  n2  1) 80(161)
ii) T    6440
2 2
n n (n  n2  1) 80.x80(161)
iii)  T  1 2 1   85867
2
12 12
iv) Calculamos entonces el estadístico de prueba:
7287  6440
Zcalculado   2.89
85867
v) Al ser el estadístico de prueba 2.89 mayor que el valor crítico al 0.05 de
significancia 1.645, podemos concluir que existe evidencia estadística para rechazar
la hipótesis nula. Lo que quiere decir que estos datos constituyen, pues, una prueba
contundente en contra de la hipótesis de que las posiciones centrales de las
distribuciones de las variabilidades poblacionales de las tasas de crecimiento de los
beneficios de las empresas que revelan las predicciones de los beneficios son
iguales que las de las empresas que no las revelan.
Ejemplo
La tabla siguiente muestra el número de horas semanales que los estudiantes
afirman que dedican a estudiar las asignaturas de introducci6n a la economía
financiera y a la contabilidad. Los datos proceden de muestras aleatorias de 10
estudiantes de economía financiera y 12 de contabilidad. ¿Indican los datos la
existencia de una diferencia en el numero mediano de horas semanales que dedican
los estudiantes a estudiar las asignaturas de introducci6n a la economía financiera y
a la contabilidad?
NÚMERO DE HORAS SEMANALES DEDICADAS

A ESTUDIAR POR ASIGNATURA
ECONOMÍA 10 6 8 10 12 13 11 9 5 11
FINANCIERA
CONTABILIDAD 13 17 14 12 10 9 15 16 11 8 9 7
Solución
i) Planteamos las hipótesis.
Ho: Med(1)=Med(2) Los estudiantes dedican la misma cantidad de tiempo
para
ambas asignaturas.
H1: Med(1)≠Med(2) Los estudiantes no dedican la misma cantidad de tiempo
para
ambas asignaturas.
ii) Unimos en un solo conjunto a las dos muestras y ordenamos los datos de forma
ascendente, luego en el cuadro inicial indicamos los rangos al lado de cada dato.
ECONOMÍA F. RANGOS CONTABILIDAD RANGOS

10 10 13 17.5
6 2 17 22
8 4.5 14 19
10 10 12 15.5
12 15.5 10 10
13 7.5 9 7
11 13 15 20
9 7 16 21
5 1 11 13
11 13 8 4.5
9 7
7 3
SUMA DE SUMA DE
RANGOS= 93.5 RANGOS= 159.5
Donde n1=10, n2=12 y T=93.5
n1 (n1  n2  1) 10(10  12  1)
iii) T    115
2 2
n n (n  n2  1) 10 x12(10  12  1)
iv)  T  1 2 1   230
2
12 12
v) Calculamos entonces el estadístico de prueba:
93 .5  115
Zcalculado   1.42
230
vi) Por lo que podemos concluir que existe evidencia estadística para aceptar la
hipótesis nula, o sea que no se puede establecer diferencias en el tiempo dedicado
al estudio de ambas asignaturas.
Ejercicio
Se pregunta a una muestra aleatoria de 50 estudiantes de una facultad que sueldo
debería estar dispuesta la universidad a pagar para atraer a la persona idónea para
hacerse cargo de la Coordinación Académica. Se hace la misma pregunta a una
muestra aleatoria independiente de 50 profesores. A continuación, se juntan las
100 cifras sobre el sueldo y se ordenan (asignándose 1 al sueldo más bajo). La
suma de los rangos de los profesores es 2024.
Contraste la hipótesis nula de que no existe ninguna diferencia entre las posiciones
centrales de las distribuciones de los sueldos propuestos por los estudiantes y por
los profesores frente a la hipótesis alternativa de que en conjunto los estudiantes
propondrían un sueldo más alto para atraer al Coordinador Académico.
Ejercicio
Un estudio utilizó tomografía computarizada (TC) por rayos X para reunir datos de
volúmenes cerebrales de un grupo de pacientes con trastorno obsesivo-compulsivo
y un grupo de control de personas saludables. La lista adjunta presenta los
resultados muestrales (en mililitros) para volúmenes del hemisferio derecho (según
datos de “Neuroanatomical Abnormalities in Obsesive-Compulsive Disorder
Detected with Quantitative X-Ray Computed Tomography”, de Luxenberg et al.,
American Journal of Psychiatry, vol. 145, núm. 9). Utilice un nivel de significancia
de 0.01 y pruebe la aseveración de que los pacientes obsesivo-compulsivos y las
personas saludables tienen la misma mediana de volúmenes cerebrales. Con base
en este resultado, ¿podemos concluir que el trastorno obsesivo-compulsivo tiene
una base biológica?20
20
Tomado de Estadística, Mario Triola, 10°Ed., Cap.13, página 700
PACIENTES OBSESIVO GRUPO DE CONTROL

COMPULSIVOS
0.308 0.210 0.304 0.344 0.519 0.476 0.413 0.429
0.407 0.455 0.287 0.288 0.501 0.402 0.349 0.594
0.463 0.334 0.340 0.305 0.334 0.483 0.460 0.445
TEMA Nº 2. EXPERIMENTOS MULTINOMIALES Y TABLAS DE

CONTINGENCIA
1.1. BONDAD DE AJUSTE (Triola, 2009).
A menudo la toma de decisiones requiere que se pruebe alguna prueba de hipótesis

a cerca del comportamiento que tiene la distribución poblacional desconocida, o si
dicha distribución se comporta de manera similar a alguna otra distribución
conocida como la normal, la de Poisson, u otras.
Podríamos plantear entonces las siguientes hipótesis:
Ho: La distribución poblacional tiene comportamiento normal.
Hi: La distribución no tiene comportamiento normal.
La prueba de bondad de ajuste por lo tanto es aquella que determinará si la
distribución en cuestión tiene o se ajusta a la distribución particular planteada en la
hipótesis (en el ejemplo la distribución normal), utilizando datos muestrales
tomados a partir de la población que representan constituyéndose estos en
evidencia.
El estadístico de prueba para la prueba de bondad es:
 
2
k
Oi  Ei 2
i 1 Ei
donde:
O representa la frecuencia observada de un resultado.
E representa la frecuencia esperada de un resultado.
k representa el número de categorías diferentes o resultados.
n representa el número total de ensayos.
Es importante indicar que los valores críticos se calculan en la tabla de distribución
chi-cuadrada utilizando k-1 grados de libertad. Todas las pruebas son de cola
derecha.
DIAGRAMA N°02: PRUEBAS DE BONDAD DE AJUSTE 21
El estadístico de prueba x2 se basa en las diferencias entre valores observados y

esperados, de manera que una concordancia cercana entre los valores observados
y esperados conducirá a un valor de x2 pequeño y un valor P grande. Una
21
Fuente: Tomado de Estadística, Mario Triola, 10°Ed., Capítulo 11, página 594
discrepancia grande entre los valores observados y esperados conducirá a un valor

de x2 grande y un valor P pequeño. De esta forma, las pruebas de hipótesis de esta
sección siempre son de cola derecha, puesto que el valor crítico y la región crítica
se localizan en el extremo derecho de la distribución. Tomado de Estadística, Mario Triola,
10°Ed., Capítulo 11, página 594
Ejemplo
El gerente de ventas de una empresa concesionaria de varias marcas de
automóviles, tiene la responsabilidad de controlar el nivel de existencias para
cuatro tipos de automóvil vendidos por dicha empresa. En el pasado, ha ordenado
nuevos automóviles bajo la premisa de que los cuatro tipos son igualmente
populares y la demanda de cada tipo es la misma. Sin embargo, recientemente las
existencias se han vuelto más difíciles de controlar, y considera que debería probar
su hipótesis respecto a una demanda uniforme.
¿Qué podemos concluir acerca de los datos observados?
Marca de auto Unidades vendidas

Kía 15
Toyota 11
Hyundai 10
Chevrolet 12
Solución
i) Planteamos las hipótesis.
H0: La demanda es uniforme para los cuatro tipos de autos.
H1: La demanda no es uniforme para los cuatro tipos de autos.
ii) Como el total de ventas es 48, si la demanda es uniforme se espera de que cada
marca debe vender 12 unidades, por lo que nuestro tablero quedaría:
Marca de auto Unidades vendidas (fo) Unidades esperadas (fe)
Kía 15 12
Toyota 11 12
Hyundai 10 12
Chevrolet 12 12
iii) Calculamos el estadístico de prueba utilizando las frecuencias observadas y las
frecuencias esperadas.
k
Oi  Ei 2
 
2
i 1 Ei
2 
15  12 2  11  12 2  10  12 2  12  12 2  1.17
12 12 12 12
iv) Ubicamos el valor crítico en la tabla de valores críticos de chi cuadrado,
utilizando k-1 grados de libertad, siendo k=4, por lo que los grados de libertad son
3 y un nivel de significancia del 0.05.
 02.05,3  7.815
v) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en
cuenta lo siguiente:
" No rechazar si  2  7.815 . Rechazar si  2  7.815"
vi) Como 1.17 < 7.815, la hipótesis de que la demanda no es uniforme no se

rechaza.
Ejemplo
Un ingeniero de control de calidad toma una muestra de 10 neumáticos que salen
de una línea de ensamblaje y desea verificar sobre la base de los datos que siguen,
los números de llantas con defectos observadas en 200 días, si es cierto que el 5%
de todos los neumáticos tienen defecto; es decir, si el muestrea una población
binomial con n = 10 y   0.05 .
Número de unidades Número de muestras

con defecto
0 138
1 53
2 ó más 9
Solución
Ho: La población es binomial
Ha: La población no es binomial
ii) Hallamos las frecuencias esperadas utilizando la distribución binomial:
f ( x)   
n
x
x
(1   ) n  x , con n = 10 y   0.05
iii) Reemplazando los valores:
f (0)   0.05
10
0
0
(1  0.05)10 0 = 0.599
f (1)   0.05
10
1
1
(1 0.05)10 1 = 0.315
y la probabilidad de 2 ó más = 1.0 - 0.599 - 0.315 = 0.086

iv) Con estos valores podemos encontrar las frecuencias esperadas:
200 (0.599) = 119.8
200 (0.315) = 63
200 (0.086) = 17.2
v) El tablero quedaría de la siguiente manera:
Número de unidades Número de muestras

con defecto fo fe
0 138 119.8
1 53 63
2 ó más 9 17.2
vi) Aplicamos la fórmula para el estadístico de prueba:
(138  119 .8) 2 (53  63 .0) 2 (9  17 .2) 2

2   
119 .8 63 17 .2
 2  8.26
vii) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en
" No rechazar si  2  5.99. Rechazar si  2  5.99"
viii) Como 8.26 es mayor que 5.99, rechaza la hipótesis nula con un nivel de
significancia de 0.05. Por lo que se concluye que el verdadero porcentaje de
neumáticos con defecto no es el 5%.
Ejercicio
Una moneda fue lanzada al aire 1000 series, de 5 veces cada serie y se observó el
número de caras de cada serie. El número de series en los que se presentaron 0, 1,
2, 3, 4 y 5 caras se muestra en la siguiente tabla.
Número de Número de series

caras (frecuencia
observada)
0 38
1 144
2 342
3 287
4 164
5 25
Total 1000
Ajuste los datos a una distribución binomial con un nivel de significancia del 0.05.
Use n=5.
Nota: Para hallar  recuerde que   n , entonces primero halle la media y luego
divídala entre n.
2.2. INDEPENDENCIA Y HOMOGENEIDAD.

Los datos categóricos representan atributos o categorías, cuando en un análisis se
consideran dos variables categóricas, entonces los datos se organizan en tablas
llamadas tablas de contingencia o tablas de clasificación cruzada. Primero se
discute la relación entre las variables que definen las filas y las columnas de tablas
de contingencia y luego las medidas que dan una idea del grado de asociación entre
las dos variables categóricas.
Las hipótesis de independencia son:

Ho: No hay asociación entre las variables A y B (hay independencia)
Ha: Sí hay relación entre las variables A y B
Las hipótesis de homogeneidad son:

Ho: Las proporciones de cada valor de la variable A son iguales en cada columna.
Ha: Al menos una de las proporciones para cada valor de la variable A no son
iguales en cada columna.
Importante notar que la prueba de homogeneidad es una generalización de la

prueba de igualdad de proporciones, del mismo modo el análisis se realiza en una
tabla de contingencia con la siguiente estructura:
Cuadro N°19: CONDUCTORES DE MOTOCICLETA 22
2.2.1 Frecuencias esperadas en la tabla de contingencia suponiendo

independencia
(Total del renglón i )(Total de la columna j )
Ei 
Tamaño de la muestra
El procedimiento de prueba para comparar frecuencias observadas con las
frecuencias esperadas, se parece a los cálculos de bondad de ajuste.
Específicamente, el valor de 2 basados en las frecuencias observadas y esperadas
se calcula como sigue:
k
Oi  Ei 2
2  
i 1 Ei
Oi = Valor observado en la i-ésimo celda.
Ei = Valor esperado en la i-ésimo celda.
22
k = Categorías o celdas.
Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba
tiene una distribución ji cuadrada con (n – 1).(m – 1) grados de libertad, siempre y
cuando las frecuencias esperadas sean 5 o más para todas las categorías. En
consecuencia proseguimos con el cálculo de la estadística de prueba ji cuadrada.
En situaciones como las siguientes, se puede estar interesado en determinar si dos
variables están relacionadas:
¿Están relacionados los hábitos de lectura con el sexo del lector?

¿Es independiente la opinión sobre la política exterior de la política partidista?
¿Es independiente el sexo de una persona de su preferencia en colores?
¿Son independientes el tamaño de una familia y el nivel de educación de los
padres?
¿Está relacionado el desempleo con el incremento de la criminalidad?
¿El precio está asociado con la calidad de un producto electrodoméstico?
¿El estado nutricional está asociado con el desempeño académico?
Ejemplo
Se seleccionó una muestra aleatoria de 100 jóvenes para estudiar la dependencia
entre la práctica de algún deporte y la depresión, con los siguientes resultados:
Sin depresión Con depresión
Deportista 38 9
No deportista 31 22
Solución
Ho: Hay independencia entre la depresión y la práctica de algún deporte
Ha: No hay independencia entre la depresión y la práctica de algún
deporte
ii) Completamos el cuadro y luego calculamos las frecuencias observadas utilizando
la fórmula:
(Total del renglón i )(Total de la columna j )
Ei 
Tamaño de la muestra
Deportista 38 9 47
No deportista 31 22 53
69 31 100
iii) Calculamos las frecuencias esperadas:
Deportista =69x47/100 =31x47/100 47
No deportista =69x53/100 =31x53/100 53
69 31 100

Deportista 32.43 14.57 47
No deportista 36.57 16.43 53
69 31 100
iv) Calculamos el estadístico de prueba:
2 
38  32 .43 2  31  36 .57 2  9  14 .57 2  22  16 .43 2
32 .43 36 .57 14 .57 16 .43
 2  5.8227
v) La regla de decisión la podemos observar en el siguiente gráfico, teniendo en
Grados de libertad= (2-1).(2-1)=1
Nivel de significancia=0.05
vi) Como el valor calculado 5.8227 es mayor que el valor crítico 3.8414 se rechaza
la hipótesis nula de independencia de las variables por lo que se concluye que la
práctica de algún deporte disminuye la depresión.
Ejercicio
La oficina de Recursos Humanos de la universidad quiere determinar si la
satisfacción en el trabajo es independiente del puesto de trabajo. Para ello realizó
un estudio entre los docentes administrativos y encontró los resultados mostrados
en la tabla siguiente. Con un nivel de significancia de 0.05, pruebe si son
dependientes la satisfacción en el trabajo y el puesto de trabajo.
Instructor Profesor Profesor Profesor

asistente asociado tiempo parcial
Satisfacción Mucha 40 60 52 63
en el trabajo Regular 78 87 82 88
Poca 57 63 66 64
Ejercicio
En un experimento para estudiar la dependencia de la hipertensión de los hábitos
de fumar, se tomaron los siguientes datos de 180 individuos:
No Fumadores Fumadores
fumadores moderados empedernidos
Con hipertensión 21 36 30
Sin hipertensión 48 26 19
Pruebe la hipótesis de que la presencia o ausencia de hipertensión es independiente

de los hábitos de fumar. Utilice un nivel de significancia de 0.05.
2.2.2 Tablas de Contingencia para probar Homogeneidad
La utilización de la tabla de contingencia probar la independencia entre dos

variables de una muestra tomada de una población de interés, es sólo una de las
aplicaciones de los métodos de tablas de contingencia. Otra aplicación común se
presenta cuando existen r poblaciones de interés y cada una de ellas está dividida
en las mismas c categorías. Luego se toma una muestra de la i-ésima población, y
los conteos se introducen en las columnas apropiadas del i-ésimo renglón. En esta
situación se desea investigar si las proporciones son o no las mismas en las
c categorías de todas las poblaciones. La hipótesis nula de este problema establece

que las poblaciones son homogéneas con respecto a las categorías, entonces la
prueba de homogeneidad es en realidad una prueba sobre la igualdad
de r parámetros binomiales. El cálculo de las frecuencias esperadas, la
determinación de los grados de libertad y el cálculo del estadístico ji-cuadrado para
la prueba de homogeneidad son idénticos a los de la prueba de independencia.
Ejemplo
Un estudio sobre caries dental en niños de seis ciudades con diferentes cantidades
de flúor en el suministro de agua, ha proporcionado los resultados siguientes:
Comunidad Nº niños Nº niños

sin caries con caries
HUANCAYO 38 87
LIMA 8 117
CERCADO
CAJAMARCA 30 95
ICA 44 81
AREQUIPA 64 61
TRUJILLO 32 93
Se desea saber si la incidencia de caries es la misma en las seis ciudades.
Solución
Ho: Hay homogeneidad en la incidencia de caries en las seis ciudades
Ha: No hay un comportamiento homogéneo en la incidencia de caries en
las ciudades analizadas.
ii) Calculamos las frecuencias esperadas.

HUANCAYO 38 87 125
LIMA 8 117 125
CERCADO
CAJAMARCA 30 95 125
ICA 44 81 125
AREQUIPA 64 61 125
TRUJILLO 32 93 125
216 534 750

HUANCAYO 216x125/750=36 534x125/750=89
LIMA 36 89
CERCADO
CAJAMARCA 36 89
ICA 36 89
AREQUIPA 36 89
TRUJILLO 36 89
iii) Calculamos el estadístico de prueba:
 2

38  36 
2

8  36 
2

30  36 
2
 ... 
93  89 
2
36 36 36 89
 2  65.85
iv) El valor crítico lo podemos observar en el siguiente gráfico, teniendo en cuenta

lo siguiente:
Grados de libertad= (6-1).(2-1)=5
Nivel de significancia=0.05
v) Como el estadístico de prueba 65.85 es mayor que el valor crítico 11.07 hay
evidencia estadística para rechazar la hipótesis nula. Se concluye entonces que el
contenido de flúor en el agua puede ser la causa de la diferencia en la incidencia de
caries en las ciudades analizadas.
Ejercicio
Un investigador estudia la efectividad de tres remedios R1, R2 y R3 para aliviar
cierta enfermedad. Para esto escogió tres muestras aleatorias de tamaños 50, 70 y
60 de pacientes con dicha enfermedad, suministrando a la primera el remedio R1, a
la segunda el remedio R2 y a la tercera el remedio R3 midiendo la efectividad de los
remedios en tres niveles: Sin alivio, cierto alivio y alivio total. Los resultados del
experimento se presentan en la tabla siguiente:
REMEDIOS PARA LA ALERGIA

EFECTIVIDAD R1 R2 R3
SIN ALIVIO 10 20 15
CIERTO ALIVIO 30 20 20
ALIVIO TOTAL 10 30 25
¿Puede usted inferir con un nivel de significancia del 0.01, que los tres remedios
para la alergia son igualmente efectivos?23
23
Tomado de Estadística Aplicada, Manuel Córdova Zamora, 1°Ed., Cap.7, página 349
TEMA Nº 3. PRUEBAS NO PARAMÉTRICAS
3.1. PRUEBA DE KRUSKAL – WALLIS (Mata, 2013)

Es una prueba que compara tres o más poblaciones para determinar si existe una
diferencia en la distribución de las poblaciones. Es análoga a la prueba F utilizada
en las pruebas ANOVA. No importa la restricción de que las poblaciones tienen que
estar distribuidas normalmente.
Las hipótesis son:
H0: Todas las k poblaciones tienen la misma distribución.
H1: No todas las k poblaciones tienen la misma distribución.
Estadístico de prueba Kruskal- Wallis:
12  Ri2 
K    3( n  1 )
n( n  1 )  ni 
donde ni es el número de observaciones en la i-ésima muestra

n es el número total de observaciones en todas las muestras.
Ri es la suma de los rangos de la i-ésima muestra.
La distribución de K es aproximada por una distribución chi-cuadrada con k – 1
grados de libertad. Si K excede el valor crítico de chi-cuadrada, se rechaza la
hipótesis nula.
Ejemplo
Un nuevo gerente de un proveedor de supermercados debe comparar el tiempo que
toma a tres clientes pagar por los productos entregados. Se seleccionan
aleatoriamente varias compras de cada cliente, junto con el número de días que
cada uno se tomó en liquidar su cuenta. Los resultados aparecen en la tabla
siguiente:
COMPRA CLIENTE 1 CLIENTE 2 CLIENTE 3

1 28 26 37
2 19 20 28
3 13 11 26
4 28 14 35
5 29 22 31
6 22 21
7 21
Solución
H0: Los tiempos en que las empresas utilizan para pagar sus
cuentas son iguales.
H1: Por lo menos uno de los tiempos es diferente
ii) Asignamos los rangos a los datos:
Cliente 1 Rango Cliente 2 Rango Cliente 3 Rango

28 13 26 10.5 37 18
19 4 20 5 28 13
13 2 11 1 26 10.5
28 13 14 3 35 17
29 15 22 8.5 31 16
22 8.5 21 6.5
21 6.5
R1= 62 R2= 34.5 R3= 74.5
iii) Calculando el estadístico K, con n=18, se tiene:
 62 2 34.5 2 74.5 2 

  318  1  8.18
12
K   
18( 18  1 )  7 6 5 
iv) El valor crítico de chi-cuadrado dados 3-1 = 2 grados de libertad es

 02.05 ,2  5.99 .
v) Regla de decisión: No rechazar si k 5.99. Rechazar si k > 5.99
vi) Como k=18.8 > 5.99, se rechaza la hipótesis nula de que no hay diferencia en
el tiempo que toma a tres clientes pagar sus cuentas
Ejercicio
Se obtuvieron datos de experimentos de choques realizados por la National
Transportation Safety Administration de USA. Se compraron automóviles nuevos,
se impactaron contra una barrera fija a 35 mi/h y se registraron las mediciones en
un maniquí en el asiento del conductor. Utilice los datos muestrales listados abajo
para probar las diferencias en las mediciones de heridas en la cabeza (de acuerdo
con el Head Injury Criterion, HIC) en cuatro categorías de peso. ¿Existe evidencia
suficiente para concluir que las mediciones de heridas en la cabeza para las cuatro
categorías de peso de
automóviles no son las mismas? ¿Sugieren los datos que los automóviles más
pesados son más seguros en un choque?24
3.2. PRUEBA DE CORRELACIÓN DE RANGOS.

Cuando se requiere probar la asociación entre dos variables con datos apareados se
utiliza la prueba de correlación de rangos utilizando los puestos o rangos de las
observaciones en lugar de los valores, el contraste realizado es paramétrico, no
requiere la normalidad de distribución de donde provienen los datos apareados.
Las hipótesis para la prueba de correlación de rangos son:
H0:  s  0 , No existe correlación entre las dos variables.
H1:  s  0 , Existe correlación entre las dos variables.
Si se tiene una muestra aleatoria (x1;y1), (x2;y2), …, (xn;yn) de n pares de
observaciones, para calcular el coeficiente de correlación de rangos también
conocido como coeficiente de correlación de Spearman, si no hay empates se utiliza
la siguiente fórmula para calcular el estadístico de prueba:
6 d i
2
rs  1 
n(n 2  1)
Donde:
n: número de pares de datos muestrales.
di: son las diferencias entre los puestos de los miembros de los distintos
pares.
Si existieran empates, el estadístico de prueba se calcula con la siguiente fórmula:
24
n xy   x  y 
rs 
 
n  x 2   x 
2
 
n  y 2   y 
2
Figura N°03: PRUEBA DE CORRELACIÓN DE RANGOS 25
Los valores críticos son:

- Para n≤30, los valores críticos se encuentran en la tabla de valores críticos
para el coeficiente de correlación de rangos de Spearman.
- Para n>30, los valores críticos se calculan con la fórmula:
-
z
rs 
n 1
donde los valores z corresponden al nivel de significancia.

Ejemplo
25
Se toma una muestra de 11 operarios fabriles y se anotan las calificaciones de

desempeño que les otorgan 2 supervisores con los resultados que se muestran a
continuación:
OPERARIO CALIFICACIÓN CALIFICACIÓN

SUPERVISOR A SUPERVISOR B
1 81 78
2 83 83
3 90 92
4 98 72
5 78 74
6 74 80
7 85 84
8 90 79
9 95 93
10 91 94
11 92 95
Pruebe con un nivel de significancia del 5% si el coeficiente de correlación de
Spearman es significativo. 26
Solución
H0:  s  0 , No existe correlación entre las dos variables.
H1:  s  0 , Existe correlación entre las dos variables.
ii) Asignamos los rangos y luego calculamos las diferencias:
OPERARIO CALIFICACIÓN RANGOS CALIFICACIÓN RANGOS d d2
SUPERVISOR A A SUPERVISOR B B A-B
1 81 3 78 2 1 1
2 83 4 83 5 -1 1
3 90 6.5 92 7.5 -1 1
4 98 11 72 7.5 3.5 12.25
5 78 2 74 1 1 1
6 74 1 80 4 -3 9
7 85 5 84 6 -1 1
8 90 6.5 79 3 3.5 12.25
9 95 10 93 9 1 1
10 91 8 94 10 -2 4
11 92 9 95 11 2 4
iii) La suma de las d2 es 47.5
iv) Calculamos el estadístico de prueba:
6 d i 6 47 .5
2 2
rs  1  =1 
n(n 2  1) 11(11 2  1)
rs  0.7841
v) El valor crítico lo ubicamos en la tabla de valores críticos del coeficiente de
correlación de rangos de Spearman, siendo 0.618.
vi) Como el valor calculado es mayor que el valor crítico rechazamos la hipótesis
nula y aceptamos que existe algún tipo de correlación entre las calificaciones de los
dos supervisores.
26
Tomado de Estadística Aplicada a la Administración y la Economía, Alberto Díaz Mata, 1°Ed., Cap.17,
página 541
Ejercicio
La tabla adjunta muestra el rendimiento porcentual de una muestra aleatoria de 20
fondos de inversión a largo plazo en un periodo de 12 meses y los activos totales
(en millones de dólares).
RENDIMIENTO ACTIVOS RENDIMIENTO ACTIVOS RENDIMIENTO ACTIVOS
29.3 300 16 421 12.9 75
27.6 70 15.5 99 11.3 610
23.7 3004 15.2 756 9.9 264
22.3 161 15 730 7.9 27
22 827 14.4 436 6.7 71
19.6 295 14 143 3.3 719
17.6 29 13.7 117
Realice un contraste no paramétrico de la hipótesis nula de que no existe ninguna

relación en la población entre las características analizadas.
CUADRO N°20: VALORES CRÍTICOS COEFICIENTE DE CORRELACIÓN DE

RANGOS DE SPEARMAN.27
3.3 PRUEBA DE RACHAS

Cuando no existe aleatoriedad, muchas de las herramientas estadísticas en las
cuales se confía son de poco uso o de ningún uso. Para comprobar la aleatoriedad
se utiliza la prueba de rachas, que es una prueba no paramétrica de aleatoriedad
en el proceso de muestreo.
Una racha es una serie continua de uno o más símbolos, así se tiene una sucesión
en que intervienen dos tipos de símbolos:
27
Tomado de Estadística, Mario Triola, 10°Ed., Apeéndice A, página 783
AAAABBAAABBBAAAAAAABB
Entonces definimos una racha como una sucesión de uno o más símbolos idénticos
que están precedidos o seguidos por un símbolo diferente o por ninguno, siendo la
longitud de una racha el número de símbolos iguales que incluye.
La sucesión anterior presenta 6 rachas, las cuales se pueden separar por barras
verticales:
AAAA/BB/AAA/BBB/AAAAAAA/BB
Se observa entonces que hay una racha de longitud 4, 4(A), dos rachas de longitud
2, (2B), una racha de longitud 3, (3A), etc.
Las hipótesis que se plantea en la prueba de rachas son:
H0: Existe aleatoriedad en la muestra.

H1: No existe aleatoriedad en la muestra.
Para muestras pequeñas y   0.05 , siendo n1 ≤ 20 y n2 ≤ 20, el estadístico de

prueba es el número de rachas G. Los valores críticos se encuentran en la tabla
de valores críticos para el número de rachas G.
Se rechaza la aleatoriedad si el número de rachas G es:

 Menor o igual al valor crítico más pequeño encontrado en dicha tabla
 Mayor o igual al valor crítico más grande encontrado en dicha tabla
Para muestras grandes o   0.05 y si n1 > 20 o n2 > 20, utilice el estadístico de
prueba y los valores críticos siguientes:
Estadístico de prueba:
donde:
y:
Para los valores críticos de z, se utiliza la tabla de distribución normal trabajada

anteriormente.
NOTA: Para analizar datos numéricos, o sea la aleatoriedad por arriba o por debajo
de la media o de la mediana, se prueba la aleatoriedad por la forma como los datos
numéricos fluctúan por encima o por debajo de una media o mediana.
FIGURA N°04: PRUEBAS DE RACHAS28
28
CUADRO N°21: VALORES CRÍTICOS PARA LA PRUEBA DE RACHAS 29
Ejemplo
El principal diario de la localidad mantenía un registro del sexo de las personas que
llamaban a la oficina de circulación para quejarse de los problemas con la entrega
de la revista sabatina. Para un sábado reciente, estos datos fueron los siguientes:
M, F, F, F, M, M, F, M, F, F, F, F, M, M, M, F, M, F, M, F, F, F, F, M, M, M, M, M
Usando el nivel de significancia de 0.05, pruebe la aleatoriedad de esta secuencia.
¿Hay algo respecto a la naturaleza de este problema que nos lleve a la conclusión
que una secuencia así no es aleatoria?
Solución
H0: Existe aleatoriedad en la muestra.
H1: No existe aleatoriedad en la muestra.
ii) Identificamos las rachas:
M/FFF/MM/F/M/FFFF/MMM/F/M/F/M/FFFF/MMMMM
Encontramos un total de G=13 rachas.
iii) El estadístico de prueba es 13 y el valor crítico lo ubicamos en la tabla de
valores críticos para la prueba de rachas con n1= 14 para los varones y n2=14 para
las mujeres siendo de 9 a 21 rachas.
iv) Como el estadístico de prueba se encuentra entre los valores críticos se acepta
la hipótesis nula de existencia de aleatoriedad. Por lo que no hay evidencia para
pensar que la secuencia no es aleatoria.
29
Tomado de Estadística, Mario Triola, 10°Ed., Apéndice A, página 784, tabla A10
Ejemplo
Se asumen niveles de producción diarios en una mina de carbón seleccionada para
un estudio estadístico, y éstos son, 31, 57, 52, 22, 24, 59, 25, 29, 27, 44, 43, 32,
40, 37, y 60 toneladas. Se desea analizar dicha producción para verificar algún
problema recurrente en las máquinas. ¿Habrá algún indicio para pensar que existe
algún problema cíclico en las máquinas?
Solución
i) Siendo la mediana de 37, se utiliza como valor de referencia.
ii) Las observaciones caen o por arriba (A) o por abajo (B) de 37, se representan de
la siguiente manera:
31 57 52 22 24 59 25 29 27 44 43 32 40 37 60
B A A B B A B B B A A B A A
iii) Identificamos las rachas:

B/AA/BB/A/BBB/AA/B/AA
Encontramos un total de ocho rachas, por lo tanto G=8.
iv) Con n1=7 para B y n2 = 7 para A, la tabla de valores críticos para la prueba de
rachas revela valores críticos de 3 y 13 rachas.
v) Debido a que hay 8 rachas, se asume que hay aleatoriedad y no se rechaza la
hipótesis nula, por lo que no habría razón para pensar que hay un problema cíclico.
Ejercicio
Pruebe la aleatoriedad de la siguiente muestra usando un nivel de significancia de
0.05:
A, B, A, A, A, B, B, A, B, B, A, A, B, A, B, A, A, B, B, B, B, A, B, B, A, A, A, B, A, B,
A, A
Ejercicio
La municipalidad provincial recibe diariamente solicitudes para matrimonios civiles.
Un estudio registra las solicitudes de los últimos 30 días hábiles.
3, 4, 6, 8, 4, 6, 7, 2, 5, 7, 4, 8, 4, 7, 9, 5, 9, 10, 5, 7, 4, 9, 8, 9, 11, 6, 7, 5, 9, 12
Con un nivel de significancia del 0.01 ¿existen motivos para pensar que la serie
registrada proviene de alguna característica del entorno?
¿LOS ESTUDIANTES CLASIFICAN A LAS UNIVERSIDADES DE LA MISMA

MANERA QUE EL U.S. NEWS AND WORLD REPORT?
Mario Triola. Página 675.
Cada año, la revista U.S. News and World Report publica una clasificación de
universidades con base en estadísticos tales como las tasas de admisión, las tasas
de graduación, el tamaño de los grupos, la razón entre profesores y estudiantes, los
salarios de los profesores y las calificaciones de los administradores otorgadas por
sus compañeros. Los economistas Christopher Avery, Mark Glickman, Caroline
Minter Hoxby y Andrew Metrick usaron un método alternativo para analizar la
selección de universidades de 3240 estudiantes del último año de preparatoria con
alto rendimiento escolar. Examinaron las universidades que ofrecen admisión junto
con las universidades que los estudiantes eligen. La tabla siguiente lista el orden de
una pequeña muestra de universidades, así como también cierto acuerdo entre el
orden de preferencia de los estudiantes y las calificaciones de la revista, aunque
también indica cierto desacuerdo. Por ejemplo, de las ocho universidades
consideradas, Harvard ocupó el primer lugar tanto para los estudiantes como para
la revista U.S. News and World Report. Sin embargo, de las ocho universidades
incluidas, la Universidad de Pennsylvania fue considerada en séptimo lugar por los
estudiantes pero en tercer lugar por la revista.
Consideremos el tema de una correlación entre la clasificación de los estudiantes y

la clasificación de la revista. El coeficiente de correlación lineal r se utiliza para
medir la asociación entre dos variables y requieren datos apareados, y los datos de
la tabla están apareados. Sin embargo, existe una diferencia muy importante: los
métodos de correlación y regresión tienen requisitos como las distribuciones
normales, y los rangos como los que aparecen en la tabla no satisfacen estos
requisitos. En dichos métodos no se pueden utilizar los datos muestrales
presentados. En este capítulo se presentan varios métodos que se utilizan con
datos que no satisfacen el requisito de una distribución normal. En particular, varios
métodos de esta sección pueden emplearse con datos muestrales en el formato de
rangos, como los de la tabla. En una de las secciones se estudiará un método para
poner a prueba una correlación con datos apareados que no tienen el formato de
rangos. Entonces, seremos capaces de analizar el grado de acuerdo y desacuerdo
entre las clasificaciones de los estudiantes y de la revista, como aparecen en la
tabla. Así, probaremos si existe una correlación entre las preferencias de los
estudiantes y la clasificación de la revista, y podremos contestar la siguiente
pregunta importante: ¿Los estudiantes coinciden con la revista?
ACTIVIDAD N°1
Aplica las pruebas del signo y las pruebas de bondad, independencia y
homogeneidad en distintas series de datos.
1. La tabla de abajo lista datos apareados de estaturas que se midieron de 12
hombres estudiantes de estadística. Utilice un nivel de significancia de 0.05 y
pruebe la aseveración de que no hay diferencia entre las estaturas reportadas y las
estaturas medidas.
Estatura 68 74 82.25 66.5 69 68 71 70 70 67 68 70

reportada
Estatura 66.8 73.9 74.3 66.1 67.2 67.9 69.4 69.9 68.6 67.9 67.6 68.8
medida
2. En un estudio de 71 fumadores que intentaban dejar de fumar con la terapia de

parches de nicotina, 41 siguieron fumando un año después del tratamiento. Utilice
un nivel de significancia de 0.05 y pruebe la aseveración de que, de los fumadores
que tratan de dejar el hábito con la terapia de parches de nicotina, la mayoría
siguieron fumando un año después del tratamiento.
3. Abajo se listan los pesos (en gramos) de dulces M&M que se tomaron del
conjunto de datos 19 del Apéndice B del libro Estadística de Mario Triola. Utilice un
nivel de significancia de 0.05, y pruebe la aseveración de que los dulces M&M
clásicos rojos y cafés tienen pesos con la misma distribución. Esto es, pruebe la
aseveración de que las poblaciones de dulces M&M clásicos rojos y cafés son
idénticas.
Caramelos Rojos
0.870 0.933 0.952 0.908 0.911 0.908 0.913 0.983 0.920

0.936 0.891 0.924 0.874 0.908 0.924 0.897 0.912 0.888
0.872 0.898 0.882
Caramelos Cafés
0.932 0.860 0.919 0.914 0.914 0.904 0.930 0.871 1.033

0.955 0.876 0.856 0.866 0.858 0.988 0.936 0.930 0.923
0.867 0.965 0.902 0.928 0.900 0.889 0.875 0.909 0.976
0.921 0.898 0.897 0.902 0.920 0.909
4. El siguiente cuadro muestra los precios de gasolina de 95 octanos de algunos

grifos elegidos al azar en los distritos de Comas, Lince, Surco y Ate.
Comas Lince Surco Ate
13.9 14.8 15.2 14.3
13.4 14.3 15.6 14.3
13.7 14.9 14.1 13.9
14.5 14.1 13.8 14.5
13.8 15.2 14.6 14.7
14.1 14.3
15.1
Pruebe si la variación del precio de la gasolina es semejante en los cuatro distritos.
5. El director de seguridad de una empresa industrial requiere establecer el tipo de

distribución que presenta el número de accidentes de trabajo que se presenta en
una semana. Para lograr este objetivo se selecciona una muestra aleatoria en un
período de 100 semanas y encuentra los datos que aparecen a continuación.

Verifique que la distribución de accidentes es proporcional a 1,2,4,4,3,3,3.
N° de accidentes de N° de
trabajo semanas
0 4
1 7
2 23
3 24
4 15
5 13
6 ó más 14
6. Doscientos hombres de varios niveles gerenciales seleccionados al azar fueron

entrevistados respecto a su interés o preocupación por los temas ambientales. La
respuesta de cada persona se registró en cada una de tres categorías: sin interés,
algo de interés y gran interés. Los resultados fueron:
Nivel directivo Sin interés Algo de interés Gran interés

Gerencia superior 15 13 12
Gerencia media 27 26 27
Supervisor 28 21 31
Utilizando un nivel de significación del 1%, determine si hay alguna relación entre
el nivel directivo y su interés por los temas ambientales.
ACTIVIDAD N°2
Verifica las características de dos o más muestras aplicando las pruebas
no paramétricas.
Aplica la aleatoriedad de una muestra utilizando la prueba de rachas.
Los datos son mediciones de sangre de 50 sujetos (de los EE.UU. Departamento de
Salud y Servicios Humanos, el Centro Nacional de Estadísticas de Salud, Salud
Tercera Encuesta Nacional de Examen de Nutrición). El género, la edad, el recuento
de glóbulos blancos, glóbulos rojos, hemoglobina y recuento de plaquetas se
indican para cada sujeto. El recuento de células de la sangre se mide en células por
micro litro; hemoglobina se mide en g / dl, recuento de plaquetas es número por
mm3.
a. Verifique la aleatoriedad de la muestra respecto al género.
b. Demuestre si existe correlación entre el contenido de plaquetas y de glóbulos
blancos de los varones.30
Sex White bcc Platelets
F 8.9 224
M 5.25 264.5
M 5.95 360
M 10.05 384.5
F 6.5 364.5
F 9.45 468
M 5.45 171
M 5.32 328.5
F 7.65 323.5
F 6.4 306.5
F 5.15 264.5
F 16.6 233
F 5.75 254.5
M 5.55 267
F 11.6 463
M 6.85 238
M 6.65 251
F 5.9 282.5
F 9.3 307.5
M 6.3 321.5
F 8.55 360.5
M 6.4 282.5
F 10.8 315
F 4.85 284
F 4.9 259.5
M 7.85 291.5
F 8.75 259.5
M 7.7 164
M 5.3 199.5
M 6.5 220
F 6.9 369
M 4.55 245
M 7.1 266
M 8 369
M 4.7 210.5
M 4.4 234
F 9.75 471
M 4.9 244.5
M 10.75 365.5
30
Extraído del Apéndice B del libro Estadística Mario Triola
PRÁCTICA Nº 3
1. La siguiente tabla muestra un estudio sobre el número de obreros por empresa,
realizado en 65 empresas de la capital:
Nº de obreros Nº de empresas
[ 30 - 50 > 10
[ 50 - 70 > 8
[ 70 - 90 > 12
[ 90 - 110 > 20
[ 110 -130 > 15
Verifique si la distribución tiene un comportamiento normal.
2. Un investigador reunió datos del mes de nacimiento de actores ganadores del

Oscar. Utilice un nivel de significancia del 0.05 para probar la aseveración de que
los actores ganadores del Oscar nacen en los distintos meses con la misma
frecuencia.
E F M A M J J A S O N D
9 5 7 14 8 1 7 6 4 5 1 9
3. Un supermercado está interesado en analizar algunos tipos de electrodomésticos

que requieren reparación dentro del período de garantía. Para ello se seleccionó
muestras aleatorias de cada tipo de electrodoméstico, los datos se registraron en la
tabla siguiente:
Microondas Licuadora Lavadora Tostadora
Requiere 8 6 7 9
reparación
No requiere 35 30 40 39
reparación
A un nivel de significación del 5%, ¿se puede afirmar que la probabilidad de que
algún electrodoméstico requiera reparación dentro del período de garantía es
similar entre ellos?
4. Se estudió el orden de preguntas de examen para ver su efecto en la ansiedad.
Los resultados muestrales se listan abajo. Utilizando un nivel de significancia de
0.05, pruebe la aseveración de que las dos muestras provienen de poblaciones con
las mismas calificaciones. Finalmente pruebe la aleatoriedad de las muestras
tomando los datos de manera horizontal para cada una.
FÁCIL A DIFÍCIL DIFÍCIL A FÁCIL

24.64 39.29 16.32 32.83 33.62 34.02 26.63 30.26
28.02 33.31 20.60 21.13 35.91 26.68 29.49 35.32
26.69 28.90 26.43 24.23 27.24 32.34 29.34 33.53
7.10 32.86 21.06 28.89 27.62 42.91 30.20 32.54
28.71 31.73 30.02 21.96
25.49 38.81 27.85 30.29
30.72
BIBLIOGRAFIA ESPECÍFICA DE LA UNIDAD III

AUTOEVALUACIÓN Nº 3
1. Dadas las siguientes proposiciones:
I. Laprueba de signo implica averiguar si hay una

cantidad desproporcionadamente mayor de uno u otro signo.
II. La prueba de signo es una prueba paramétrica.
III. La prueba de signo no es tan eficiente como una prueba paramétrica.
Son
correctas:
A) Sólo I y II
B) Sólo I
C) Sólo I y III
D) Ninguna.
E) I; II y III
2. Sean las afirmaciones:

I. En la secuencia de ganancias (G) y pérdidas (P): GGGGPPPP, el
número de rachas es 4.
II. La prueba de rachas para detectar aleatoriedad se basa en el orden en
que se
presenta los datos.
III. Una racha es una secuencia de datos que tienen la misma característica.
Son correctas
A) I; II y III
B) Sólo I y II
C) Sólo I
D) Sólo II
E) Sólo III
3. Se desea probar si la estatura de los empleados tiene distribución
normal. Se toma una muestra aleatoria de 200 empleados a quienes
se les pregunta su estatura en pulgadas. Los resultados obtenidos
son:
ESTATURA 57,5-63,5 63,5-69,5 69,5-72,5 72,5-78,5

No. EMPLEADOS 29 75 68 28
¿Con base en a ésta información se puede concluir que su

distribución es normal?
A) Los datos se distribuyen normalmente
B) Los datos no se distribuyen normalmente con un nivel de confianza del
95%
C) No se puede determinar porque no se tiene el nivel de confianza
D) No se puede determinar porque son datos de intervalo de
frecuencias
E) No se puede utilizan la prueba debido a que son pocas clases
4. En un estudio realizado por Harris Interactive, Inc. se evaluaron las

principales empresas de Internet y se evaluó también su reputación. En la
lista siguiente se muestra el ranking de 10 empresas de internet en relación,
por un lado, con su reputación y por el otro con el porcentaje de
entrevistados que dijeron estar dispuestos a comprar acciones de esa
empresa.
Texas Cisco Hewlett

Empresas Microsoft Intel Dell Lucent IBM Motorola Yahoo
Instrument Systems Packard
Reputación 1 2 3 4 5 6 7 8 9 10
Probable 3 4 1 2 9 5 10 6 7 8
compra
Haga una prueba para determinar si existe una correlación por

rangos significativa, emplee un nivel de significancia de 0.05,¿cuál es su
conclusión?
A) H0: rs=0, H1:rs≠ 0, rs= 0.6727, VC=0.648. Se rechaza H0, existe

correlación entre la reputación y la probable compra de acciones.
B) H0: s =0, H1: s ≠ 0, rs= -0.6727, VC=0.648. Se rechaza H0,
existe correlación entre la reputación y la probable compra de
acciones.
C) H0: s =0.6727, H1: s ≠ 0, rs= 0.6727, VC ± 0.648. Se rechaza
H0, existe correlación entre la reputación y la probable compra de
acciones.
D) H0: s =0, H1: s ≠ 0, rs= 0.6727, VC=0.648. No se rechaza H0,
existe correlación entre la reputación y la probable compra de
acciones.
E) H0: s =0, H1: s ≠ 0, rs= 0.6727, VC=0.648. Se rechaza H0, existe
correlación entre la reputación y la probable compra de acciones.
5. Las calificaciones dadas a tres productos por un panel de 15

consumidores son las siguientes:
PRODUCTOS
A B C
50 80 60
62 95 45
75 98 30
48 87 58
65 90 57
Use la prueba de Kruskal Wallis y un nivel de significancia del
0.05 para determinar si existe diferencia significativa entre las
calificaciones dadas a los tres productos
A) H0: No hay diferencia entre las calificaciones dadas a los tres

productos, H1: Hay diferencia entre las calificaciones dadas a los
tres productos, H=10.22, VC=5.991, Conclusión: No se acepta H 0 y
se concluye que hay diferencia entre las calificaciones dadas a los
productos.
B) H0: No hay diferencia entre las calificaciones dadas a los tres
productos, H1: No hay diferencia entre las calificaciones dadas a los
tres productos, H=10.22, VC=5.991, Conclusión: No se acepta H0 y
productos.
C) H0: Hay diferencia entre las calificaciones dadas a los tres
productos, H1: Hay diferencia entre las calificaciones dadas a
los tres productos, H=9.54, VC=5.991, Conclusión: No se acepta
H0 y se concluye que hay diferencia entre las calificaciones dadas a
los productos.
D) H0: No hay diferencia entre las calificaciones dadas a los tres
tres productos, H=10.22, VC=24.996, Conclusión: Se acepta H0 y
se concluye que no hay diferencia entre las calificaciones dadas a

los productos.
E) H0: No hay diferencia entre las calificaciones dadas a los tres
tres productos, H=10.22, VC=2.575, Conclusión: No se acepta H 0 y
productos.
UNIDAD IV: “CORRELACIÓN, REGRESIÓN Y CONTROL

ESTADÍSTICO DE PROCESOS”
DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD IV
UNIDAD IV: “CORRELACIÓN, REGRESIÓN Y

CONTROL ESTADÍSTICO DE PROCESOS”
TEMA 1: CORRELACIÓN Y REGRESIÓN
La regresión y la correlación son dos técnicas estrechamente relacionadas que

comprenden una forma de estimación de una relación existente en la población.
Este análisis, comprende el análisis de los datos muestrales para saber si se
relacionan y cómo se relacionan entre sí dos o más variables de una población. El
objetivo principal de la correlación es determinar la fuerza en que las variables
están relacionadas y el objetivo principal de la regresión es descubrir el modo en
que se relacionan.
Una herramienta importante para el análisis de correlación y regresión es el
diagrama de dispersión, el cual nos muestra visualmente la manera como las
variables analizadas se relacionan, y a partir de ahí definir el tipo de análisis que se
va a realizar.
A continuación se presenta una serie de gráficos que nos ilustrarán las distintas
maneras en que se relacionan dos variables.
FIGURA N°05: DIAGRAMAS DE DISPERSIÓN PARA EL ANÁLISIS DE CORRELACIÓN31
31
Tomado de Estadística, Mario Triola, 10°Ed., Cap.10, página
Los diagramas de dispersión que acabas de ver te muestran las diferentes

relaciones entre la variable independiente (X) y la variable dependiente (Y), por lo
que podemos señalar que si tanto los valores de X como los valores de Y tienden a
seguir un patrón, entonces existe una correlación.
1.1 CORRELACIÓN Y REGRESIÓN LINEAL.

1.1.1 COEFICIENTE DE CORRELACIÓN
El coeficiente de correlación lineal r mide la fuerza en que dos variables
apareadas y cuantitativas se relacionan. Se conoce también como coeficiente de
correlación de Pearson. Su fórmula para el cálculo es dadas las variables
cuantitativas x y y:
n xy   x y
r
n x 2

  x  n y 2   y 
2 2

El coeficiente de correlación se interpreta de la siguiente manera:
Correlación Correlación
negativa positiva
perfecta Ninguna perfecta
correlación
Moderada
Moderada correlación
correlación positiva
negativa
Fuerte Débil Débil Fuerte
correlación correlación correlación correlación
negativa negativa positiva positiva
-1 - 0.5 0 0.5 1
Podemos observar lo siguiente:

− El valor de r es un número que satisface la desigualdad –1 ≤ r ≤ 1.
− Cuando la relación de dos variables es perfectamente positiva, o sea cuando
al variar la primera, la segunda varía en las mismas proporciones y en la
misma dirección, el coeficiente de correlación es + 1 (unidad positiva).
− Cuando la relación de dos variables es perfectamente negativa, o sea cuando
al variar la primera, la segunda varía en las mismas proporciones pero en
dirección contraria, el coeficiente de correlación es – 1 (unidad positiva).
− Cuando no existe relación entre las dos variables, o sea cuando al variar la
primera, las variaciones de la segunda no reflejan dependencia o conexión
alguna con las variaciones de la primera, el coeficiente de correlación lineal es
cero.
Ejemplo
Se tiene los valores registrados de las visitas realizadas y los pedidos hechos
por 10 vendedores de una empresa. Calcula el coeficiente de correlación de
Pearson.
N°VENDEDOR VISITAS PEDIDOS EN
REALIZADAS (X) MILLONES S/. (Y)
1 245 13.4
2 172 10.3
3 291 15.1
4 124 6.9
5 191 7.3
6 218 14.2
7 101 5.2
8 259 11.8
9 307 14.3
10 142 5.5
Solución
i) Calculamos ∑x,∑y, ∑x.y, ∑x2 y ∑y2.
ii)
N°VENDEDOR VISITAS PEDIDOS EN x.y X2 Y2
REALIZADAS MILLONES
(X) S/. (Y)
1 245 13.4 3283 60025 179.56

2 172 10.3 1771.6 29584 106.09
3 291 15.1 4394.1 84681 228.01
4 124 6.9 855.6 15376 47.61
5 191 7.3 1394.3 36481 53.29
6 218 14.2 3095.6 47524 201.64
7 101 5.2 525.2 10201 27.04
8 259 11.8 3056.2 67081 139.24
9 307 14.3 4390.1 94249 204.49
10 142 5.5 781 20164 30.25
2050 104 23546.7 465366 1217.26
iii) Aplicamos la fórmula:

n xy   x y
r r  0.9
n x 2

  x  n y 2   y 
2 2

iv) Podemos concluir que existe un grado apreciable de correlación entre las visitas
y los pedidos, siendo ésta positiva.
Ejercicio
Se aplicaron dos test de razonamiento a 10 alumnos y se encontraron los
resultados siguientes. Calcula el coeficiente de correlación de Pearson e
interprete.
ALUMNO TEST 1 TEST 2

1 15 12
2 14 14
3 10 9
4 9 10
5 8 8
6 8 7
7 7 8
8 6 4
9 4 6
10 2 4
1.1.2 COEFICIENTE DE DETERMINACIÓN (r 2)

El coeficiente de determinación indica el porcentaje de la variación total que será
explicado por el análisis de regresión. Es el cuadrado del coeficiente de
correlación de Pearson.
1.1.3 PRUEBA t PARA EL COEFICIENTE DE CORRELACIÓN

Hipótesis
H0 :   0 H1 :   0
r n2
Estadístico de Prueba: t 
1 r2
FIGURA N°06: PRUEBA DE HIPÓTESIS PARA EL COEFICINETE DE CORRELACIÓN.32
1.1.4 REGRESIÓN LINEAL
Los supuestos de la regresión y correlación que se debe tener en cuenta son:
- Para cada valor de” x” hay un grupo de valores de “y”, y estos valores “y”
están distribuidos normalmente.
- Toda las medias de estas distribuciones normales de Y están sobre la línea
de regresión.
- Las desviaciones estándar de estas distribuciones normales son iguales.
- Los valores de “y” son estadísticamente independientes.
ECUACIÓN DE REGRESIÓN: y  a  bx
32
FIGURA N°07: DIAGRAMA DE DISPERSIÓN
X Servicios Curva de regresión ajustada
80.00
70.00
60.00 Y Tiempo
Y Tiempo
50.00
Pronóstico Y Tiempo
40.00
30.00 Lineal (Pronóstico Y
20.00 Tiempo)
10.00
0.00
0 5 10 15 20 25
X Servicios
MÉTODO DE MÍNIMOS CUADRADOS PARA CÁLCULO DE α Y b:
b   2  2  y b x
n x y x y
n  x   x 
a
n n
ERROR ESTÁNDAR DE ESTIMACIÓN

En una medida de dispersión de los valores observados alrededor de la
línea de regresión:
s y,x 
(y  y est )2
también: S y . X 
Y 2
 a  Y  b XY
n2 n2
INTERVALO DE CONFIANZA
Estima el valor medio de y para una x dada:
1 ( x  x) 2
yest  t / 2;n2 .s yx . 
n ( x) 2
 x 2

n
INTERVALO DE PREDICCIÓN
Estima el rango de valores de y para una x dada:
1 ( x  x) 2
yest  t / 2;n2 .s yx . 1  
n ( x ) 2
x  n
2
Ejemplo
El gerente municipal de construcción considera que la demanda de camionadas
de hormigón puede estar relacionada con el número de permisos de construcción
emitidos en el municipio durante el trimestre anterior.
El gerente ha recolectado los datos que se muestran en la tabla.
Permisos de Camionadas de
construcción (X) hormigón (Y)
15 6
9 4
40 16
20 6
25 13
25 9
15 10
35 16
Se pide determinar una estimación del número de camionadas cuando el número

de permisos de construcción es 30.
Solución
i) Realizamos el gráfico de dispersión para el análisis visual
ii) Realizamos los cálculos en la tabla:
n X Y XY X2 Y2
1 15 6 90 225 36
2 9 4 36 81 16
3 40 16 640 1600 256
4 20 6 120 400 36
5 25 13 325 625 169
6 25 9 225 625 81
7 15 10 150 225 100
8 35 16 560 1225 256
Totales 184 80 2146 5006 950
iii) Coeficiente de correlación
n XY   X Y
r
n X 2

  X  nY 2 (Y ) 2
2

8(2146 )  (184 )(80 )
r
8(5006 )  (184 ) 8(950 )  (80) 
2 2
2448
r  0.90 Por lo tanto podemos indicar que existe buena relación
7430400
entre las dos variables, siendo el 81% de la variación total explicado por el
análisis de regresión.
iv) Hallamos las medias de X y Y:

X  23
Y  10
v) Hallamos los valores de a y b, utilizando las fórmulas:
b   2  2 ; b  0.395
n x y x y
n  x   x 
a
 y  b  x ; a  0.915
n n
vi) Planteamos la ecuación de la regresión:
y  a  bx
y  0.915  0.395 x
vii) El número de camionadas cuando el número de permisos de construcción es 30 se
puede encontrar sustituyendo el valor en la ecuación.
x  30
y  0.915  0.395 (30 ) x
y  12 .76  13
El número de embarques será de 13 aproximadamente.
viii) Por lo tanto, la desviación estándar de la regresión es
S y. X 
Y 2
 a  Y  b XY
n2
950  (0.91)(80 )  (0.396 )(2146 )

SY . X 
82
SY . X  2.2 embarques
ix) Si queremos calcular el intervalo de predicción utilizamos:

1 ( x  x) 2
yest  t / 2;n2 .s yx . 1  
n ( x ) 2
x  n
2
1 ( x  x) 2
s yx . 1    2.4
n ( x) 2
x  n
2
t / 2;n2  2.447
Finalmente reemplazando en la fórmula del intervalo de predicción:
Y’= 13 ± 2.447 (2.40)
Intervalo de predicción (inferior) = 13 – 5.87 = 7.1
Intervalo de predicción (superior) = 13 + 5.87 = 18.9
7.1< Embarques < 19
Ejercicio
La temperatura del aire disminuye con la altura de la localidad, los datos
siguientes refuerzan la idea y hacen presumir una relación lineal entre la
temperatura Y y la altura X observada en ciertos puntos de la costa y parte de la
sierra al amanecer.
X altura en metros Y temperatura en ºC

1642 18
2242 12
1000 19
937 21
1178 18
1502 16
2043 0
1502 14
1603 10
975 16
1549 15
1066 20
1495 15
1508 18
1000 23
1000 19
1971 19
982 23
1173 18
907 21
1790 12
2109 11
1410 14
1777 6
910 19
Si usted se encontrara al amanecer, a 2000 m en alguno de dichos lugares,

¿qué temperatura esperaría soportar? Realice previamente el diagrama de
dispersión.
Es importante indicar que también existe la regresión no lineal simple, cuando

los datos no se ajustan al comportamiento de una recta es necesario
encontrar el modelo que los explique, en este caso el mejor modelo será el
que tenga un mejor coeficiente de determinación.
Entre los más importantes se tiene:
REGRESIÓN EXPONENCIAL
y  ab x
REGRESIÓN POTENCIAL
y  ax b
REGRESIÓN POLINOMIAL
y  a0  a1 x  a 2 x 2  ...  a k x k
REGRESIÓN CUADRÁTICA
y  a0  a1 x  a2 x 2
1.2 CORELACIÓN REGRESIÓN MÚTIPLE
La regresión múltiple analiza la relación lineal entre una variable de respuesta

(y) y dos o más variables de predicción (x1, x2, …,xi), por lo complicado en su
análisis utilizaremos el Excel como herramienta. El objetivo es ajustar un
modelo de la forma Y  0  1 X1   2 X 2 estimando los parámetros
correspondientes   0 , 1 ,  2  2
y calcular el coeficiente de determinación R .
Ejemplo
Se tiene el siguiente registro de datos:
y X1 X2
8 4 20
10 3 22
12 6 23
13 6 26
15 7 27
18 8 30
Realice el ajuste de regresión múltiple.
Solución
i) Llevamos los datos a una hoja del Excel.
ii) Ir a la pestaña análisis de datos en la opción datos del menú.
iii) Al activar el comando regresión, seleccionar las celdas que se solicita:
iv) Luego de presionar Aceptar, se muestran los siguientes resultados:
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.98913768
Coeficiente de determinación R^2 0.97839335
R^2 ajustado 0.96398892
Error típico 0.67538163
Observaciones 6
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 2 61.9649123 30.9824561 67.9230769 0.003176
Residuos 3 1.36842105 0.45614035
Total 5 63.3333333
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95.0% Superior 95.0%
Intercepción -8.89473684 2.80805902 -3.16757475 0.05057503 -17.8312339 0.0417602 -17.83123389 0.041760203
X1 0.36842105 0.35262721 1.04478905 0.37289365 -0.75379612 1.49063823 -0.753796124 1.490638229
X2 0.78947368 0.17891297 4.41261304 0.02159713 0.22009278 1.35885459 0.220092779 1.35885459
v) De aquí se puede extraer lo siguiente:
Intercepción =  0 =-8.894737
Variable X1 = 1 = 0.3684211
Variable X1 =  2 = 0.7894737
vi) Por lo tanto, la ecuación de regresión múltiple ajustada es :
Y  8.8947  0.3684 X1  0.7895 X 2 y su R2  0.9784 (97.84%)
1.3 ELABORACIÓN DE MODELOS DE REGRESIÓN.

Para elegir el mejor modelo de regresión, debemos analizar el coeficiente de
determinación, aquel modelo que tenga el mayor R 2 será el que ajusta mejor el
comportamiento de los datos.
Ejemplo
Elija el mejor modelo para el comportamiento de los siguientes datos:
x y
5 69
9 68
10 45
15 48
15 53
16 50
23 45
25 40
26 23
28 36
29 21
31 32
33 21
34 15
35 26
36 10
Solución
i) En el Excel, generemos el diagrama de dispersión, utilizando el comando

Insertar… Gráficos… Dispersión.
ii) Haciendo click derecho en cualquier punto activar el comando Agregar línea de
tendencia.
iii) Se muestran las opciones donde debemos realizar la prueba en cada modelo
para poder observar el coeficiente de correlación.
iv) Activamos también Presentar el valor R en el gráfico asi como Presentar ecuación en el
gráfico.
vi) Quedando el gráfico del siguiente modo:
Donde podemos observar el coeficiente de determinación y el modelo

matemático.
vii) El mejor coeficiente y por lo tanto el mejor modelo encontrado pero más
complicado es el polinómico de grado 6.
La ecuación del modelo es presentada por el Excel de la siguiente forma:
En el gráfico se muestra el resultado:
Ejercicio
Elija el mejor modelo para el comportamiento de los siguientes datos:
x y
48 1
56 1.25
58 1
58 3
59 4.5
62 3
67 2.5
68 3
69 6
69 4
75 1.5
78 3.6
79 5
102 1.25
109 3
110 4
ADICIONAL: CONTROL ESTADÍSTICO DE PROCESOS
A medida como la ciencia y tecnología ha ido evolucionando, se ha hecho

necesario e indispensable realizar el control estadístico de los procesos sobre
todo para controlar los indicadores de centralización y sobre ello tomar
decisiones, para prevenir, mejorar, optimizar, minimizar, etc. Los
requerimientos de tal o cual proceso. La Gestión de la Calidad en todo ámbito
ha hecho de la Estadística una herramienta indispensable para el cumplimiento
de sus metas, es por ello la importancia del presente capítulo, donde haremos
énfasis en las gráficas de control para la media y para la varianza.
FIGURA N°10: LAS 7 HERRAMIENTAS ESTADÍSTICAS BÁSICAS PARA LA

GESTIÓN DE LA CALIDAD
GRÁFICOS DE CONTROL O CARTAS DE CONTROL

Sirven para monitorear el proceso, prevenir defectivos y facilitar la mejora. Hay
dos tipos de cartas de control: por atributos (juzga productos como buenos o
malos) y por variables (variables como, temperaturas).
Las ventajas del uso de una gráfica de control son:
 Es una herramienta simple y efectiva para lograr un control estadístico.
 Es de fácil manejo por los operarios, por lo cual puede dar información
confiable a la gente cercana a la operación en el momento en que se deben de
tomar ciertas acciones.
 Cuando un proceso está en control estadístico puede predecirse su
desempeño respecto a las especificaciones. En consecuencia, tanto el productor
como el cliente pueden contar con niveles consistentes de calidad y ambos
pueden contar con costos estables para lograr ese nivel de calidad.
 Una vez que un proceso se encuentra en control estadístico, su
comportamiento puede ser mejorado posteriormente reduciendo la variación.
 Al distinguir ente las causas especiales y las causas comunes de variación,
dan una buena indicación de cuándo un problema debe ser corregido localmente
y cuando se requiere de una acción en la que deben de participar varios
departamentos o niveles de la organización.
En el Control de la Calidad mediante el término variable se designa a cualquier

característica de calidad “medible” tal como una longitud, peso, temperatura,
etc. Mientras que se denomina atributo a las características de calidad que no
son medibles y que presentan diferentes estados tales como conforme y
disconforme o defectuoso y no defectuoso.
2.1 GRÁFICOS DE CONTROL PARA LA MEDIA Y VARIANZA.

Su campo de aplicación se puede resumir en el siguiente cuadro:
CARTA DESCRIPCIÓN CAMPO DE APLICACIÓN.

X R Medias y Rangos. Control de características individuales.
X S Medias y desviación estándar. Control de características individuales.
CUADRO N° 22: COEFICIENTES PARA LAS CARTAS DE CONTROL33
CÁLCULO DE LOS LÍMITES DE CONTROL

Los límites de control son calculados para determinar la variación de cada
subgrupo, están basados en el tamaño de los subgrupos y se calculan de la
siguiente forma:
LSCR  D4 R LSC X  X  A2 R
LIC R  D3 R LIC X  X  A2 R
Donde D4, D3, A2 son constantes que varían según el tamaño de muestra.
2.2 GRÁFICOS DE CONTROL PARA ATRIBUTOS.
33
Su campo de aplicación se puede resumir en el siguiente cuadro:
CARTA DESCRIPCIÓN CAMPO DE APLICACIÓN.

P Proporciones. Control de la fracción global de
defectuosos de un proceso.
NP Número de defectuosos. Control del número de piezas
defectuosas
C Defectos por unidad. Control de número global de defectos por
unidad
U Promedio de defectos por Control del promedio de defectos por
unidad. unidad.
En el presente texto analizaremos la gráfica de control para proporciones

(P). Sus límites de control se calculan de la siguiente forma:
p (1  p ) p (1  p )
LSC p  p  3 LIC p  p  3
n n
np1  np2  ....  npk

Donde: p
n1  n2  .....  nk
Para ambos casos se debe tener en cuenta en el análisis de las gráficas que los
procesos estarán fuera de control si tienen los siguientes comportamientos:
FIGURA N°11: DIAGRAMAS DE DISPERSIÓN Y PROCESOS FUERA DE

CONTROL34
34
Ejemplo
Se toman las medidas de los diámetros de una pieza cilíndrica, el tamaño de muestra de cada
subgrupo es de cinco, y se toman 25 subgrupos a intervalos de 1 hr. Realice la carta de control
X  R.
muestra subgrupo 1 2 3 4 5 6 7 8 9 10 11 12 13
1 0.65 0.75 0.75 0.60 0.70 0.60 0.15 0.60 0.65 0.60 0.80 0.85 0.70
2 0.70 0.85 0.80 0.70 0.75 0.75 0.80 0.70 0.80 0.70 0.75 0.75 0.70
3 0.65 0.75 0.80 0.70 0.65 0.75 0.65 0.80 0.85 0.60 0.90 0.85 0.75
4 0.65 0.85 0.70 0.75 0.85 0.85 0.75 0.75 0.85 0.80 0.50 0.65 0.75
5 0.85 0.65 0.75 0.65 0.80 0.70 0.70 0.75 0.75 0.65 0.80 0.70 0.70
muestra subgrupo 14 15 16 17 18 19 20 21 22 23 24 25
1 0.65 0.90 0.75 0.75 0.75 0.65 0.60 0.50 0.60 0.80 0.65 0.65
2 0.70 0.80 0.80 0.70 0.70 0.65 0.60 0.55 0.80 0.65 0.60 0.70
3 0.85 0.80 0.75 0.85 0.60 0.85 0.65 0.65 0.65 0.75 0.65 0.70
4 0.75 0.75 0.80 0.70 0.70 0.65 0.60 0.80 0.65 0.65 0.60 0.60
5 0.60 0.85 0.65 0.80 0.60 0.70 0.65 0.80 0.75 0.65 0.70 0.65
Solución
i) Calculamos el rango y el promedio para cada grupo:
muestra subgrupo 1 2 3 4 5 6 7 8 9 10 11 12 13
1 0.65 0.75 0.75 0.60 0.70 0.60 0.15 0.60 0.65 0.60 0.80 0.85 0.70
2 0.70 0.85 0.80 0.70 0.75 0.75 0.80 0.70 0.80 0.70 0.75 0.75 0.70
3 0.65 0.75 0.80 0.70 0.65 0.75 0.65 0.80 0.85 0.60 0.90 0.85 0.75
4 0.65 0.85 0.70 0.75 0.85 0.85 0.75 0.75 0.85 0.80 0.50 0.65 0.75
5 0.85 0.65 0.75 0.65 0.80 0.70 0.70 0.75 0.75 0.65 0.80 0.70 0.70
Promedio 0.70 0.77 0.76 0.68 0.75 0.73 0.61 0.72 0.78 0.67 0.75 0.76 0.72
Rango 0.20 0.20 0.10 0.15 0.20 0.25 0.65 0.20 0.20 0.20 0.40 0.20 0.05
muestra subgrupo 14 15 16 17 18 19 20 21 22 23 24 25
1 0.65 0.90 0.75 0.75 0.75 0.65 0.60 0.50 0.60 0.80 0.65 0.65
2 0.70 0.80 0.80 0.70 0.70 0.65 0.60 0.55 0.80 0.65 0.60 0.70
3 0.85 0.80 0.75 0.85 0.60 0.85 0.65 0.65 0.65 0.75 0.65 0.70
4 0.75 0.75 0.80 0.70 0.70 0.65 0.60 0.80 0.65 0.65 0.60 0.60
5 0.60 0.85 0.65 0.80 0.60 0.70 0.65 0.80 0.75 0.65 0.70 0.65
Promedio 0.71 0.82 0.75 0.76 0.67 0.70 0.62 0.66 0.69 0.70 0.64 0.66
Rango 0.25 0.15 0.15 0.15 0.15 0.20 0.05 0.30 0.20 0.15 0.10 0.10
ii) R  0.198 y X  0.71
iii) Luego calculamos los límites para los Rangos:
LSCR  D4 R  2.11x0.198  0.41
LIC R  D3 R  0
iv) Finalmente calculamos los límites para las medias:
LSC X  X  A2 R  0.71  (0.58 x0.198 )  0.82
LIC X  X  A2 R  0.71  (0.58 x0.198 )  0.59
v) Luego graficamos:
FIGURA N°12: DIAGRAMA DE CONTROL
Xbar/R Chart for C1
UCL=0.8254
0.8
Sample Mean
0.7 Mean=0.7112
0.6 LCL=0.5970
Subgroup 0 5 10 15 20 25
0.7 1
0.6
Sample Range
0.5
0.4 UCL=0.4187
0.3
0.2 R=0.198
0.1
0.0 LCL=0
v) La carta de control R muestra un punto fuera de los límites de especificaciones,

por lo cual el proceso se encuentra fuera de control, en este caso es necesario
investigar las causas y tomar las acciones correctivas para eliminar el problema.
Ejemplo
Un fabricante de latas de aluminio registra el número de partes defectuosas,
tomando muestras cada hora de n = 50, con 30 subgrupos. Realizar la gráfica de
control para la siguiente serie de datos obtenida durante el muestreo.
Muestra Latas defectuosas Muestra Latas defectuosas

np np
1 12 16 8
2 15 17 10
3 8 18 5
4 10 19 13
5 4 20 11
6 7 21 20
7 16 22 18
8 9 23 24
9 14 24 15
10 10 25 9
11 5 26 12
12 6 27 7
13 17 28 13
14 12 29 9
15 22 30 6
Solución
i) Calculamos la fracción defectuosa de cada muestra:
Muestra Latas defectuosas Fracción defectuosa Muestra Latas defectuosas Fracción defectuosa
np p np p
1 12 0.24 16 8 0.16
2 15 0.30 17 10 0.20
3 8 0.16 18 5 0.10
4 10 0.20 19 13 0.26
5 4 0.08 20 11 0.22
6 7 0.14 21 20 0.40
7 16 0.32 22 18 0.36
8 9 0.18 23 24 0.48
9 14 0.28 24 15 0.30
10 10 0.20 25 9 0.18
11 5 0.10 26 12 0.24
12 6 0.12 27 7 0.14
13 17 0.34 28 13 0.26
14 12 0.24 29 9 0.18
15 22 0.44 30 6 0.12
ii) Luego hallamos la proporción total:

p  0.2313
iii) Hallamos los límites de control:
p (1  p ) 0.23 * 0.77
LSC p  p  3 = 0.2313  3 =0.4102
n 50
p (1  p ) 0.23 * 0.77
LIC p  p  3 = 0.2313  3 =0.05243
n 50
iv) Finalmente trazamos la gráfica:
FIGURA N°13: DIAGRAMA DE CONTROL

P Chart for C1
0.5 1
1
0.4 UCL=0.4102
Proportion
0.3
P=0.2313
0.2
0.1
LCL=0.05243
0.0
0 10 20 30
Sample Number
v) Observamos que el proceso está fuera de control.
¿PODEMOS PREDECIR EL MOMENTO DE LA SIGUIENTE ERUPCIÓN DEL

GÉISER OLD FAITHFUL?
Mario Triola. Página 515

El géiser Old Faithful es la atracción más visitada del Parque Nacional Yellowstone.
Está ubicado cerca del hotel Old Faithful Inn, que tal vez sea la segunda atracción
más visitada de Yellowstone. Los turistas disfrutan la comida, las bebidas, el
alojamiento y las tiendas del hotel, pero quieren asegurarse de ver al menos una
erupción del famoso géiser Old Faithful. Los guardabosques del parque ayudan a los
turistas publicando el momento predicho de la siguiente erupción. ¿Cómo hacen
esas predicciones?
Cuando el Old Faithful hace erupción, se registran las siguientes mediciones:
duración (en segundos) de la erupción, el intervalo de tiempo (en minutos) entre la
erupción anterior y la erupción actual, el intervalo de tiempo (en minutos) entre la
erupción actual y la siguiente, y la altura (en pies) de la erupción. En la tabla
adjunta se incluyen mediciones de ocho erupciones. (Las mediciones de la tabla son
ocho de las 40 erupciones incluidas en el conjunto de datos 11 del apéndice B del
libro Estadística de Mario Triola). La tabla incluye una muestra pequeña con el fin
de que los cálculos sean más fáciles cuando los datos se utilicen para analizar los
métodos de las siguientes secciones.
Una vez que ocurre una erupción, queremos predecir el momento de la siguiente,
que es el “intervalo de tiempo posterior” a la erupción. Para ver cuáles variables
afectan los “intervalos de tiempo posteriores”, podríamos comenzar construyendo
diagramas de dispersión como los que genera el Excel. Al examinar los patrones de
los puntos en los tres diagramas de dispersión, podemos plantear las siguientes
conclusiones subjetivas:
1. Al parecer hay una relación entre el intervalo de tiempo posterior a una erupción
y la duración de la erupción.
2. Parece que no existe una relación entre el intervalo de tiempo posterior a una
erupción y la altura de la erupción.
3. Parece que no existe una relación entre el intervalo de tiempo posterior a una
erupción y el intervalo de tiempo previo a la erupción.
Este tipo de conclusiones basadas en diagramas de dispersión son subjetivas, y en
este capítulo presentamos herramientas para analizar temas como éstos:
-¿De qué manera se pueden utilizar métodos estadísticos para determinar
objetivamente si hay una relación entre dos variables, como los intervalos de
tiempo posteriores a las erupciones y la duración de éstas?
-Si existe una relación entre dos variables, ¿cómo podemos describirla? ¿Hay
alguna ecuación que se pueda usar para predecir el momento de la siguiente
erupción del géiser, dada la duración de la erupción actual?
-Si podemos predecir el momento de la siguiente erupción del Old Faithful, ¿qué tan
exacta resultará esa predicción?
Erupciones del géiser Old Faithful

Duración 240 120 178 234 235 269 255 220
Intervalo previo 98 90 92 98 93 105 81 108
Intervalo posterior 92 65 72 94 83 94 101 87
Altura 140 110 125 120 140 120 125 150
ACTIVIDAD N°1
Verifica la correlación entre dos variables, aplica la prueba de hipótesis
respectiva y estructura la ecuación de regresión.
1. El gerente de ventas de COPIADORAS SUPER que tienen una gran fuerza de

ventas en el país quiere determinar si hay alguna relación entre el número
de llamadas de ventas hechas en un mes y el número de copiadoras
vendidas en ese mes.
El gerente selecciona una muestra aleatoria de 10 representantes y
determina el número de llamadas de ventas hechas por cada representante
el mes pasado y el número de copiadoras que vendió. La información se
muestra a continuación:
Llamadas de ventas 20 40 20 30 10 10 20 20 20 30
Copiadoras vendidas 30 60 40 60 30 40 40 50 30 70
a. Represente gráficamente la relación entre las dos variables.

b. Determine el grado de relación entre las variables.
c. Calcule la variación del número de copiadoras vendidas que se debe a la
variación al número de llamadas de venta.
d. Realice la Prueba de hipótesis respecto al coeficiente de correlación.
e. Determine la ecuación de regresión (recta de regresión).
f. ¿Cuál es el número esperado de venta de copiadoras para un empleado
que hace 20 llamadas?
g. Determine el error estándar de estimación.
h. Determine el intervalo de confianza del 95% para todos los
representantes que hicieron 20 llamadas.
i. Determine el intervalo de predicción del 95% para una representante del
norte del país que hizo 20 llamadas.
2. Los siguientes datos son las ventas (miles de dólares) de una estación de
gasolina y la cantidad de automóviles atendidos.
AUTOS ATENDIDOS 276 265 264 285 255 232 238 271 224
203 230
VENTAS 2.1 2.3 2.3 2.3 2.5 2.1 1.9 2.4 1.8
1.2 2.2
a. Represente gráficamente la relación entre las dos variables.

b. Determine el grado de relación entre las variables.
c. Calcule la variación ventas que se debe a la variación al número de autos
que se atienden.
d. Realice la Prueba de hipótesis respecto al coeficiente de correlación.
e. Determine la ecuación de regresión (recta regresión).
f. ¿Cuál es la venta si se atienden 300 automóviles?
g. Determine el error estándar de estimación.
h. Determine el intervalo de confianza para las ventas promedio cuando se
atienden 300 automóviles del 95%.
i. Determine el intervalo de predicción del 95% para las ventas promedio
cuando se atienden 300.
ACTIVIDAD N°2
Realiza el control estadístico de procesos utilizando los gráficos de control.
La siguiente tabla lista las cantidades de consumo eléctrico en la casa de una

fábrica registrado en tres días distintos.
Mes 1 3375 2661 2073

Mes 2 2579 2858 2296
Mes 3 2812 2433 2266
Mes 4 3128 3286 2749
Mes 5 3427 578 3792
Mes 6 3456 2678 2877
Mes 7 3457 324 4567
Mes 8 2989 3201 3577
a. Construya la gráfica R y analice la variación del proceso. Identifique si la

variación del proceso está bajo control, si no es así indique por qué
b. Construya la gráfica para la media y analice si el proceso está bajo control, si no
es así indique que criterio no cumple.
PRÁCTICA Nº 4
Análisis de caso y toma de decisiones utilizando los contenidos de la
unidad III y IV.
1. Se obtuvieron los siguientes datos sobre la cantidad de bromuro de potasio

que se puede disolver en 100 gramos de agua, a distintas temperaturas.
C 0 10 20 30 40 50
g 52 60 64 73 76 81
a) Construye el diagrama de dispersión

b) Compruebe el coeficiente de correlación y de determinación.
c) Calcula los coeficientes a y b y establece la ecuación de la recta de regresión.
d) Establece el intervalo de confianza para disolver el bromuro de potasio a 45°C.
e) ¿Cuántos gramos de bromuro se disolverán a 52°C?
2. El Sr. Juan Pérez, supervisor del departamento de tránsito de la Municipalidad de

Lima debe determinar si existe una relación directa entre el costo anual de
mantenimiento (en soles) de autobuses urbanos y los años que llevan en operación.
Si existe relación, el Sr. Juan Pérez cree que puede hacer mejores pronósticos de
presupuesto. Para ello recoge los siguientes datos:
Costo de mantenimiento 759 582 371 608 994 124 220 551 949
Tiempo de operación 9 6 4 10 12 3 2 9 13
a. Elabore el diagrama de dispersión.

b. Calcule, demuestre e interprete el coeficiente de determinación.
c. Determine el modelo de regresión simple e interprete los coeficientes
estimados.
d. Halle un intervalo del 96% de confianza para el mantenimiento a los 15 años
de operación.
e. Realice un pronóstico para el costo de mantenimiento para autobuses que
tienen 5 años de operación.
GLOSARIO35
ANÁLISIS DE CONTINGENCIA.- Es el estudio que se realiza con las tablas de

contingencia y consiste en analizar el grado de asociación o dependencia entre dos
variables cualitativas; para medir el grado de dependencia se utiliza el coeficiente
de contingencia. (Ver coeficiente de contingencia).
ANÁLISIS DE CORRELACIÓN.- Es el estudio que se realiza para medir la

intensidad o grado de la asociación que existe entre variables numéricas.
ANÁLISIS DE REGRESIÓN.- Es el estudio que se realiza con el propósito de

hacer predicciones. El objetivo es el desarrollo de un modelo estadístico que pueda
ser utilizado para predecir valores de una variable dependiente, basado en los
valores de la variable independiente.
ANÁLISIS DE VARIANZA.- Es un método para comparar dos o más medias (Ver

media) de «n» grupos analizando la varianza de los datos, tanto entre «n» grupos
como dentro de ellos.
BONDAD DE AJUSTE.- Es un indicador que permite discernir acerca de qué tan

buena es la ecuación obtenida. Para determinar la bondad de un ajuste se utilizan
diferentes criterios en la regresión lineal. Unos se refieren a los residuales como
son el valor de la sumatoria de residuales al cuadrado, la varianza, la desviación
estándar del ajuste y el coeficiente de correlación al cuadrado. Otro indicador de la
bondad de ajuste es el realizado mediante el test de bondad de ajuste utilizando la
prueba Ji-Cuadrada (X2), Kolgomorov -Smirnov (K-S) entre otras.
COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON.- Es un número que

mide la intensidad de la asociación lineal entre dos variables. El coeficiente de
correlación se representa simbólicamente por "r".
COEFICIENTE DE DETERMINACIÓN.- Es un valor que se obtiene elevando al

cuadrado el coeficiente de correlación. Se representa simbólicamente por r2 y
puede tomar valores entre 0 y 1. El coeficiente de determinación mide la
proximidad del ajuste de la ecuación de regresión de la muestra a los valores
observados de la variable dependiente.
COEFICIENTES DE REGRESIÓN.- Son los valores constantes de una ecuación de

regresión lineal. En el modelo de regresión lineal siguiente los coeficientes son a y
b.
CONTRASTE DE HIPÓTESIS.- Conocido también como dócima o prueba de

hipótesis, es el proceso estadístico que se sigue para la toma de decisiones a partir
de la información de la muestra. Comparando el valor del estadístico experimental
con el valor teórico, se rechaza o acepta la hipótesis nula (H0). Lo contrario a la
hipótesis nula se llama hipótesis alterna (H1).
DIAGRAMA DE DISPERSIÓN.- Es un gráfico utilizado para representar la relación

entre los valores observados de dos variables numéricas. También se conoce como
nube de puntos.
MUESTRA.- Es un subconjunto representantivo de la población a partir del cual se
pretende realizar inferencias respecto a la población de donde procede. Los
elementos seleccionados con cierta técnica reúnen ciertas características que la
hacen ser representativa, significativa y confiable y que en base a ella se pueden
35
Glosario Básico INEI
hacer inferencias respecto a la población. La muestra puede ser probabilística y no

probabilística.
MUESTRA NO PROBABILÍSTICA.- Es aquella que se obtiene mediante juicio de

la persona que selecciona los elementos de la muestra que usualmente es un
experto en la materia. Este método está basado en los puntos de vista subjetivos
de una persona y la teoría de la probabilidad no puede ser empleada para medir el
error de muestreo. Las principales ventajas de una muestra de juicio son la
facilidad de obtenerla y que el costo usualmente es bajo.
MUESTRA PROBABILÍSTICA.- Es aquella muestra obtenida por un mecanismo de

probabilidades, en el cual cada elemento de la población total o universo tiene una
probabilidad conocida de selección. (Ver muestreo aleatorio).
MUESTREO.- Es un conjunto de métodos y procedimientos estadísticos destinados

a la selección de una o más muestras es la técnica seguida para elegir muestras.
El objetivo principal de un diseño de muestreo es proporcionar procedimientos para
la selección de muestras que sean representativas de la población en estudio.
MUESTREO ALETORIO SIMPLE.- También llamado irrestrictamente aleatorio. Es

un método de muestreo donde una muestra aleatoria simple es seleccionada de tal
manera que cada muestra posible del mismo tamaño tiene igual probabilidad de
ser seleccionada de la población. Una muestra aleatoria es también llamada una
muestra probabilística es aquella cuyos elementos se seleccionan
individualmente de la población en forma aleatoria, y es preferida por los
estadísticos porque la selección de las muestras es objetiva y el error muestral
puede ser medido en términos de probabilidad bajo la curva normal. Por
conveniencia, este método puede ser reemplazado por una tabla de números
aleatorios cuando una población es infinita. Se aplica cuando los datos son casi
homogéneos. Una variante del muestreo aleatorio simple es el muestreo aleatorio
sistemático. Otros tipos más comunes de muestreo aleatorio son: muestreo
aleatorio estratificado y muestreo por conglomerados.
MUESTREO SISTEMÁTICO.- Es una variante del método aleatorio simple de

selección de cada elemento de la muestra. Se aplica cuando la población está
listada en algún orden. Consiste en seleccionar un número aleatorio menor que N/n
y luego los (n-1) elementos de la muestra se eligen agregando al primer aleatorio:
el entero K obtenido por K=N/n y así sucesivamente. El primer elemento de la
muestra es seleccionado al azar. Por lo tanto, una muestra sistemática puede dar
la misma precisión de estimación acerca de la población que una muestra aleatoria
simple cuando los elementos en la población están ordenados al azar.
MUESTREO ESTRATIFICADO ALEATORIO.- Es un método de muestreo que se

aplica cuando se divide la población en grupos, llamados estratos, donde los datos
son más homogéneos pero un estrato frente al otro muy distintos. Para extraer la
muestra aleatoria se aplica el muestreo aleatorio simple a cada estrato y el tamaño
es la suma de los tamaños de todos los estratos. Para determinar los tamaños de
los estratos se puede utilizar la asignación proporcional, óptima y óptima
económica. Si no se conoce la variabilidad de los datos se aplica la asignación
proporcional.
MUESTREO POR CONGLOMERADOS.- Es un método de muestreo en el cual la

población está en grupos debido a la organización administrativa u otro
(conglomerados). Ejemplo: Colegios, Universidades, manzanas de casas, entre
otros. Al interior de los conglomerados no se puede garantizar homogeneidad.
Cada conglomerado es una unidad donde la muestra se selecciona como en el
muestreo aleatorio simple y se aplica la encuesta a todos los elementos del
conglomerado. Una muestra de conglomerados, usualmente produce un mayor
error muestral (por lo tanto, se obtiene menor precisión de las estimaciones acerca
de la población) que una muestra aleatoria simple del mismo tamaño. Los
elementos individuales dentro de cada "conglomerado" tienden frecuentemente
a ser iguales.
NIVEL DE SIGNIFICACIÓN.- Se define como la probabilidad de rechazar la

hipótesis nula cuando ésta es verdadera. Se le conoce también con el nombre de
«error de tipo 1», simbólicamente 
se denota por .
PARÁMETRO.- Es cualquier valor característico de la población. Ejemplo: la media

de la población, la desviación típica de la población. Sin embargo estos valores son
desconocidos porque no siempre podemos tener todos los datos de la población
para calcularlos.
PRUEBA DE HIPÓTESIS.- Es una técnica que permite rechazar o aceptar la

hipótesis en base de la información proporcionada por la muestra. (Ver contraste
de hipótesis).
PRUEBA JI-CUADRADO.- Es una prueba que permite contrastar si la hipótesis H0

es coherente con los datos obtenidos en la muestra. Se puede utilizar para:
1. Bondad de un ajuste.
2. Criterio de independencia.
3. Criterio de homogeneidad.
REGIÓN DE ACEPTACIÓN.- Es la región formada por el conjunto de valores con

los cuales decidimos aceptar la hipótesis nula.
REGIÓN DE RECHAZO.- Conocida también como región crítica, está formada por
el conjunto de valores con los cuales se rechaza la hipótesis nula.
REGRESIÓN.- Es una técnia de análisis para poner de manifiesto la estructura de

dependencia que mejor explique el comportamiento de la variable dependiente o
explicada (y) a través de un conjunto de variables independientes o explicativas
(x1,x2....xp), con las que se supone está relacionada. El método más utilizado es el
de los mínimos cuadrados. La ecuación a ajustar puede ser lineal o no lineal. En
ambos casos el objetivo es el mismo: encontrar las mejores estimaciones de los
parámetros y cuantificar la precisión de los mismos.
REGRESIÓN LINEAL.- La regresión será lineal cuando la curva obtenida o

seleccionada sea una recta. Es la recta que mejor se ajusta a los datos. Se obtiene
mediante el método de mínimos cuadrados. Para ello se debe calcular primero el
coeficiente de correlación lineal que permite determinar, si efectivamente, existe
relación entre las dos variables. Una vez encontrada la relación, la regresión
permite definir la recta que mejor se ajusta a la nube de puntos (gráfico de pares
ordenados).
BIBLIOGRAFIA

AUTOEVALUACIÓN Nº4
1. De un conjunto de datos se ha calculado la data que aparece en el cuadro debajo.
i. Elija la ecuación de regresión que exprese la variable de
respuesta (y) de la cantidad de nicotina en términos de la variable
de predicción (x) de la cantidad de alquitrán.
ii. Elija la ecuación de regresión que exprese la variable de
respuesta (y) de la cantidad de nicotina en términos de la variable
de predicción (x) de la cantidad de monóxido de carbono.
iii. Elija la ecuación de regresión que exprese la variable de
respuesta (y) de la cantidad de nicotina en términos de las
variables de predicción (x) de la cantidad de alquitrán y la
cantidad de monóxido de carbono.
iv. De las ecuaciones de regresión elegidas en los incisos i), ii) e
iii), ¿cuál es la mejor ecuación para predecir la cantidad de nicotina?
v. ¿La mejor ecuación de regresión identificada en el inciso es una
buena
ecuación para predecir la cantidad de nicotina? ¿Por qué?
VARIABLE DE R2
PREDICCIÓN (X) R R2 AJUSTADO ECUACIÓN DE REGRESIÓN SIGNIFICANCIA
Monóxido de
carbono, 0.9661 0.9333 0.9282 y´=0.182 - 0.0186 X1 + 0.0818X2 5.16523E-16
Alquitrán
Monóxido de
0.8633 0.7453 0.7358 y´=0.1916+0.0606 X 1.67085E-09
carbono
Alquitrán 0.9614 0.9242 0.9214 y´=0.1540+0.0650 X 1.17863E-16
A) i) Y´=0.1540 + 0.0650X
ii) Y´=0.1916 +0.0606X
iii) Y´=0.182 - 0.0186X1+0.0818X2
iv) La mejor ecuación para hacer predicciones es la tercera
v) Sólo tiene una variable.
B) i) Y´=0.1916 +0.0606X
ii) Y´=0.1540 + 0.0650X
iii) Y´=0.182 - 0.0186X1+0.0818X2
iv) La mejor ecuación para hacer predicciones es la tercera
v) Por el tipo de variable
C) i) Y´=0.1540 + 0.0650X
ii) Y´=0.1916 +0.0606X
iii) Y´=0.182 +0.0818X2
iv) La mejor ecuación para hacer predicciones es la primera
v) Tiene más variables dependientes
D) i) Y´=0.1540+0.0650X
ii) Y´=0.1916+0.0606X
iii) Y´=0.182-0.0186X1+0.0818X2
iv) La mejor ecuación para hacer predicciones es la primera
v) Tiene más variables independientes.
E) i) Y´=0.1540 + 0.0650X
ii) Y´=0.1916+0.0606X
iii) Y´=0.182-0.0186X1+0.0818X2
iv) La mejor ecuación para hacer predicciones es la segunda
v) Contiene las variables más importantes.
2. Señale V o F para cada enunciado:

I. Una gráfica de rachas es una gráfica secuencial de valores de datos individuales
a lo largo del tiempo.
II. Un proceso está bajo control estadístico si varía de forma natural, en patrones,
sin ciclos o puntos fuera de lo común.
III. La variación aleatoria se debe al azar; es el tipo de variación inherente a
cualquier proceso que no es capaz de producir un bien o servicio exactamente de la
misma forma cada vez.
IV. La variación asignable resulta de causas identificables como; maquinaria
defectuosa, empleados etc.
A) VVVV
B) FVVV
C) VFVV
D) VFFV
E) FVFF
3. Los límites de control de medias para el siguiente conjunto de datos son:
1 10 12 13 08
2 13 11 10 06
3 10 09 11 13
4 08 12 13 11
5 14 10 11 05
A) LCS= 15.5 , LCI = 6.7

B) LCS= 16.5 , LCI = 5.7
C) LCS= 14.73 , LCI = 6.3
D) LCS= 14.27 , LCI =7.32
E) LCS= 14 , LCI =7
4. Ud. tiene dos diagramas de dispersión que servirán para que identifique el
modelo matemático que se ajusta mejor a los datos indicados. Suponga que el
modelo se va a emplear únicamente para el alcance que tienen los datos y
considere sólo los modelos lineal, cuadrático, logarítmico, exponencial y potencial.
Experimento de física: Un experimento para una clase de física implica dejar caer
una pelota de golf y registrar la distancia (en metros) que cae en diferentes
tiempos (en segundos) después de ser soltada. Los datos se incluyen en la
siguiente tabla. Proyecte la distancia para un tiempo de 12 segundos, dado que la
pelota de golf se dejo caer de un edificio con una altura de 50 m con el modelo de
regresión más apropiado. Debe responder a: i)¿Cuál es el mejor modelo?, ii) ¿Cuál
es el estimado? y iii) ¿Cómo interpreta los resultados?
Tiempo 0 0.5 1 1.5 2 2.5 3

Distancia 0 1.2 4.9 11 19.5 30.5 44
A) i) Y= 4.8952X2 – 0.0286
ii) 705 metros

iii) La distancia de 705 metros sobrepasa la altura de 50 metros que tiene el
edificio.
B) i) Y= 4.8952X2 – 0.0286X+0.0048
ii) 705 metros
edificio.
C) i) Y= 0.0286X +0.0048
ii) 705 metros
edificio.
D) i) Y= 14.657X – 6.1143
ii) 169.67 metros
iii) La distancia de 169.77 metros sobrepasa la altura de 50 metros que tiene el
edificio, el experimento está errado.
E) i) Y= 14.657X – 6.1143
ii) 169.67 metros
iii) La distancia de 169.77 metros sobrepasa la altura de 50 metros que tiene el
edificio.
5. Construya una gráfica para las medias y determine si la media del proceso está
bajo control estadístico. Si no es así, identifique cuál de los tres criterios para
establecer una falta de control conduce al rechazo de una media estadísticamente
estable. ¿Necesita este proceso una acción correctiva? 36
Marque lo incorrecto.
A) Hay un patrón de variación creciente.

B) Hay puntos que se ubican fuera del límite superior de control.
C) Existen ocho puntos consecutivos que están por debajo de la línea central.
D) La media del proceso se encuentra bajo control estadístico.
E) El proceso necesita acciones correctivas.
36
FIGURA N°14: REGISTRO DE DATOS 37
37
CLAVE DE RESPUESTAS DE LAS AUTOEVALUACIONES
PRIMERA UNIDAD
N° DE PREGUNTA RESPUESTA
1 D
2 A
3 E
4 B
5 E
6 B
7 D
8 D
9 A
10 C
SEGUNDA UNIDAD
1 E
2 C
3 C
4 B
5 D
6 E
7 A
8 E
9 E
10 C
TERCERA UNIDAD
1 C
2 D
3 A
4 E
5 E
CUARTA UNIDAD
1 D
2 E
3 A
4 D
5 D
BIBLIOGRAFÍA
BÁSICA
 Triola, Mario F. Estadística. Pearson Educación, México 2013.
COMPLEMENTARIA
 Jorge Inafuko, Jorge Rubio. Estadística Aplicada. Universidad del
Pacífico. 2014.
 Jay L. Devore. Probabilidad y Estadísitca para Ingeniería y Ciencias.
Cengage Learning. 2012.
 Fernando Miranda, Jesús Salinas. Estadística General. UNALM. 2012.
 William Mendenhall, Robert J. Beaver, Barbara M. Beaver.
Introducción a la Probabilidad y Estadística. Cengage Learning. 2010.
 Ross, Sheldon M. Introducción a la Estadística. Academic Press. 2010
 Milton, Susan, Arnold Jesé. Probabilidad y Estadística con aplicaciones
para ingeniería y ciencias computacionales. Mc Graw-Hill, México.
2004.
RECURSOS DIGITALES
 Instituto Nacional de Estadística e Informática. En:
http://www.inei.gob.pe/
 Lidia PR, Hugo MA, Rodrigo VR. Comprensión De Las Distribuciones
Muestrales En Un Curso De Estadística Para Ingenieros/understanding
 of Sample Distributions for a Course on Statistics for Engineers.
Revista Chilena de Ingenieria 2007;15(1):6-17.
 José Ramón LC, Jorge AG, Randy Howard AS, Wilder CC. Mezclas Con
Potencial Coagulante Para Tratamiento De Lixiviados De Un Relleno
Sanitario. Interciencia 2008;33(1):22-28.
 Araujo I, Montilla M, Carmen Cárdenas, Lenín Herrera, al e. Lodos
Estabilizados Y Cepas Bacterianas En La Biorremediación De Suelos
Contaminados Con Hidrocarburos. Interciencia 2006;31(4):268-275.
 S R, R B, A V. ESTUDIO ESTADÍSTICO DE LA CORRELACIÓN ENTRE
CONTAMINANTES ATMOSFÉRICOS Y VARIABLES METEOROLÓGICAS
EN LA ZONA NORTE DE CHIAPAS, MÉXICO/Statistical study of the
correlation between atmospheric pollutants and meteorological
variables in northern Chiapas, Mexico. Universidad y Ciencia
2010;26(1):65-80.

Manual Estadistica Aplicada A La Psicología PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual Estadistica Aplicada A La Psicología PDF

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

DIAGRAMA DE PRESENTACION DE LA ASIGNATURA

Tema N°1: DISEÑO Y TÉCNICAS DE MUESTREO PROBABILÍSTICO

Tema N°2: ESTIMACIÓN Y TAMAÑOS DE MUESTRA

UNIDAD II: PRUEBA DE HIPÓTESIS Y ANÁLISIS DE VARIANZA

Tema N°1: PRUEBA DE HIPÓTESIS

Tema N°2: INFERENCIA A PARTIR DE DOS MUESTRAS

Tema N°3: ANÁLISIS DE VARIANZA

UNIDAD III: ESTADÍSTICA NO PARAMÉTRICA

Tema N°1: PRUEBA DEL SIGNO

Tema N°2: PRUEBAS NO PARAMÉTRICAS

Tema N°3: EXPERIMENTOS MULTINOMIALES Y TABLAS DE CONTINGENCIA

Bibliografía de la Unidad III

UNIDAD IV: CORRELACIÓN, REGRESIÓN Y CONTROL ESTADÍSTICO DE

Tema N°1: CORRELACIÓN Y REGRESIÓN

Lectura seleccionada 01:

Todos los conceptos y aplicaciones vertidos en el curso anterior de tales

Conoce, aplica, analiza e interpreta eficientemente métodos y técnicas de la

UNIDAD I UNIDAD II Unidad III Unidad IV

UNIDAD I: “MUESTREO Y ESTIMACIÓN DE PARÁMETROS”

DIAGRAMA DE PRESENTACIÓN DE LA UNIDAD I

UNIDAD I: “MUESTREO Y ESTIMACIÓN DE

TEMA 1: DISEÑO Y TÉCNICAS DE MUESTREO PROBABILÍSTICO.

1.1.2 Población muestreada

1.1.3 Unidad de muestreo

1.1.4 Marco muestral

Universo o población objetivo: Hombres y mujeres mayores de 18 años,

Marco muestral: La selección de manzanas se hizo utilizando como marco

Representatividad: En los distritos que forman parte del universo y que

Tamaño de la muestra: 508 personas entrevistadas en Lima Metropolitana.

Error y nivel de confianza estimados: ±4.32% con un nivel de confianza

Distritos que resultaron seleccionados en la muestra: La selección

Procedimiento de muestreo: Se realizó una muestra probabilística

Ponderación: En Lima Metropolitana los datos se ponderaron en función del

Técnica de recolección de datos: Mediante entrevistas directas en las

Supervisión de campo: Se supervisó el 30% de las entrevistas realizadas.

Fechas de aplicación: Entre los días 29 de octubre y 01 de noviembre de

Financiamiento: Pontificia Universidad Católica del Perú.

Página web: http://www.pucp.edu.pe

1.1.7 Plan de muestreo

1.1.8 Muestreo probabilístico y no probabilístico

1.2 Tipos de Muestreo probabilístico

En el muestreo probabilístico, la selección de cada elemento de la muestra se

1.2.1 Muestreo aleatorio simple

También llamado irrestrictamente aleatorio. Es un método de muestreo donde

El muestreo aleatorio simple presenta dos propiedades:

Representativa: Cada unidad tiene las mismas posibilidades de ser

Figura Nº 01: MUESTREO ALEATORIO SIMPLE2

Cuadro N°01: Trabajadores Registrados

Años Años Años

1 2600 16 Secundaria 51 1700 0 Técnica 101 2800 20 Técnica

2 1700 0 Secundaria 52 1600 2 Técnica 102 1800 3 Técnica

3 2500 12 Secundaria 53 2600 17 Técnica 103 1700 5 Técnica

4 1700 3 Secundaria 54 2500 13 Técnica 104 1700 4 Técnica

5 2400 17 Secundaria 55 2500 16 Técnica 105 1700 0 Técnica

6 2400 16 Secundaria 56 2700 17 Técnica 106 1700 1 Técnica

7 1900 7 Secundaria 57 1700 1 Técnica 107 2100 6 Técnica

8 1700 1 Secundaria 58 1600 1 Técnica 108 2600 17 Técnica

9 2100 6 Secundaria 59 2400 11 Técnica 109 2400 9 Técnica

10 2000 5 Secundaria 60 1900 3 Técnica 110 2600 19 Técnica

11 2000 3 Secundaria 61 1800 5 Técnica 111 1900 7 Superior

12 2500 13 Secundaria 62 1800 3 Técnica 112 1600 0 Superior

13 1700 0 Secundaria 63 2400 14 Técnica 113 1900 3 Superior