Está en la página 1de 106

UNIVERSIDAD NACIONAL DE CAJAMARCA

ESCUELA DE POSTGRADO

MAESTRIA EN ADMINISTRACION

ESTADISTICA APLICADA

Dr. ALFONSO TESEN ARROYO


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

INTRODUCCIÓN

El presente curso responde a la necesidad de superar el nivel de análisis y uso adecuado de la


información en la toma de decisiones empresariales.

Cada día se viene implementando mejoras en las técnicas de recolección,


procesamiento y presentación de los datos cuantitativos, pero muy poco se esta capacitando
en el análisis y uso de la información para la toma de decisiones gerenciales.

Este gran problema se hace continuo por la falta capacitación y formación constante en
el área y además por no existir un sistema estadístico de información gerencial que facilite el
análisis y uso de la información.

Los métodos cuantitativos, son herramientas eficaces para mejorar el proceso de


producción, y reducir sus defectos. Sin embargo, se debe tener en cuenta que las
herramientas estadísticas son precisamente herramientas que no servirán si se usan
inadecuadamente.

El análisis de datos comprende la traducción de información reunida durante un


proyecto de investigación, en una forma interpretable y útil, independientemente del método
de reunión adoptado, esto es, cuestionario, mediciones Físico-Químico, medición fisiológica,
escala de observación, o de otro tipo; existe mucha más información de la que puede ser
manejada adecuadamente por el empleo causal de los datos

En gran medida, la abundante información que se dispone sobre los diseños de


productos, procesos y el control de calidad en las empresas, no es usada para tomar
decisiones y efectuar ajustes correctivos; de otro lado, existe escasa disposición de
instrumentos para detectar las necesidades de control de un proceso y las decisiones de la
población acerca de la buena utilización de las herramientas de estadísticas.

En los procesos industriales, el análisis de datos por lo regular entraña el empleo de


técnicas estadísticas para organizar y reducir masas de datos a términos descriptivos cómodos,
y extraer inferencias de ellos. El análisis estadístico genera información precisa y definida
respecto a las características de los datos, en una forma que pueda ser comunicada con
facilidad de un investigador a otro.

A muchos estudiantes amedrenta o desanima la simple idea de usar estadísticas. El


temor es totalmente injustificado. El investigador no necesita tener conocimientos
matemáticos profundos para entender a la estadística, ya que actualmente al encontrase
fácilmente con computadoras y calculadoras, pero si es útil tener idea de algunas operaciones.
En la realidad todos utilizamos terminología estadística, inclusive en nuestra conversación
diaria, cuando hablamos de ventas diarias, producción, rendimiento de materia prima,

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 2


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

calificaciones, promedios, tasas de interés, o el porcentaje ingenieros colegiados que


pertenecen a uno u otro sexo, en realidad hacemos tipos útiles de estadísticas descriptivas.
Así mismo cuando decimos que el número promedio de horas de trabajo de un ingeniero en
planta es 10 horas, en realidad se ha organizado y entendido los datos, por innumerables
operaciones que hacemos a nivel inconsciente, hasta lograr un análisis estadístico de datos
simple.

De todo lo anteriormente comentado, es que se vio en la necesidad ser incluido en la


Maestría de Administración con mención en Gerencia el curso de Métodos Cuantitativos, que
será de mucha utilidad al maestrante de Administración para otros como metodología de la
investigación, investigación de mercados, seminarios taller tesis, y otros, teniendo como
objetivos:

OBJETIVOS

 Reconocer la importancia y necesidad de la información estadística como


herramienta fundamental de un proceso decisorio.
 Utilizar las técnicas básicas del método estadístico para la evaluación de resultados
de investigaciones.
 Calcular e interpretar indicadores útiles en investigaciones y acciones de un
maestrante en administración.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 3


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

CAPITULO I

EL LUGAR DE LA ESTADÍSTICA EN LA INVESTIGACIÓN


El conocimiento de la estadística es parte indispensable en la formación del profesional
moderno que desea efectuar investigaciones formales. Aun mas, incluso en aquellos que
simplemente desean leer artículos científicos no podrán entenderlo enteramente si no cuentan
con algún conocimiento de los métodos estadísticos.
Por ejemplo ¿qué significa el hecho de que un científico informe que, usando un «
diseño en bloque aleatorio », encontró « resultados que son significativos a un nivel de
significación mayor que 0.01 »? ¿Qué se quiere decir con la frase, « la media más o menos
dos errores estándar »? , la Estadística es una muy buena opción para dar respuesta a estas y
otras interrogantes.

EL METODO CIENTÍFICO Y SU RELACION CON EL METODO ESTADÍSTICO.


En la constante búsqueda de la respuesta de ciertos fenómenos que el científico enfrenta cada
día, el Método Científico le ayuda a organizar eficientemente los pasos requeridos para
satisfacer esa inquietud. Podemos definir el Método Científico como un procedimiento que se
aplica al ciclo completo de una investigación, desde el enunciado del problema hasta la
evaluación de los resultados obtenidos.
Al aplicar el método científico nos proponemos a verificar la hipótesis inicial, investigando si las
consecuencias deducidas de ellas se comprueban o no al recoger, en forma sistemática,
nuevas observaciones.
El Método Estadístico, es el que nos proporciona las técnicas necesarias para recolectar y
analizar la información requerida. Podríamos distinguir una fase de planificación y otra de
ejecución.

I.- La planificación.- En esta fase debemos considerar:


1. Definición de los objetivos.
Corresponde formalmente a la descripción del problema que da origen a la
investigación. Se debe señalar detalladamente lo que se pretende investigar, el que,
cómo, dónde, cuándo y porque.

2. Definición de la población.
Se debe definir el grupo del cual se extraerá la información y al cual se generalizarán
las conclusiones que se obtengan en la investigación.

3. Diseño de la muestra.
La teoría de Muestreo o de diseño y Análisis de experimentos pueden garantizarnos que
la información obtenida de la muestra generalizarlo a la población de interés.

4. Definición de las unidades de observación, variables de estudio, escala de


medición y unidades de medida.
En una misma investigación puede haber varios objetivos parciales que requieran
estudiar unidades de observación diferentes (por ejemplo una investigación pude
hacerse a nivel de hospitales, o de unidades de servicios, o de pacientes).La elección de

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 4


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

las unidades de medida es crucial ya que una equivocación puede conducir a un exceso
de información o en una pérdida irreparable de ella.

5. Preparación del plan de tabulación y análisis.


El cuidado puesto en este aspecto nunca podría considerarse excesivo, debería llegarse,
tal vez, hasta considerar alternativas de análisis adecuadas para compensar algunas
alteraciones accidentales del plan de trabajo.

II.- Fase de ejecución. En esta fase podemos reconocer:


1. Recolección de la información.
2. Elaboración de la información.
3. Análisis de los resultados.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 5


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

CAPITULO II

2.1. DEFINICIONES BASICAS.

ESTADÍSTICA.
Es el arte y la ciencia que nos proporciona un conjunto métodos y técnicas para recolectar,
organizar, presentar, analizar e interpretar datos con el fin de propiciar la toma de
decisiones más eficaz; es decir, brinda el soporte para saber qué datos obtener, cómo,
cuándo, dónde obtenerlos, y una vez obtenidos proporciona métodos y procedimientos
para organizarlos con diferentes propósitos.

DIVISION DE LA ESTADISTICA.
Los administradores aplican alguna técnica estadística a prácticamente todas las ramas de
las empresas públicas y privadas. Estas técnicas son tan diversas que los estadísticos, por
lo general, las dividen en dos grandes categorías: estadística descriptiva y estadística
inferencial.

Estadística descriptiva.
Es la estadística que sólo se ocupa de describir y analizar un grupo de datos, sin sacar
conclusiones sobre un grupo mayor.
Ejemplo: Al analizar a sus compañeros de clase, tal vez encuentre que 38% de ellos usan
Celular Marca Nokia. Si así fuera, “38%”es un estadístico descriptivo

Estadística inferencial.
La estadística inferencial, es un conjunto de procedimientos que nos permiten efectuar
generalizaciones de la muestra a la población. Se utiliza para probar hipótesis y estimar
parámetros, se basa en el concepto de distribución muestral.
Ejemplo: La Cámara de comercio encontró que las 50 empresas que encuestó practican el
trueque o intercambio. Con los datos de la muestra se puede inferir con bastante certeza
que casi todas, si no es que todas, las empresas de la Cámara de Comercio siguen estas
prácticas.

UNIDAD DE ANALISIS O UNIDAD DE OBSERVACIÓN.


Es la unidad indivisible a quien se estudia, del cual se obtiene el dato estadístico. También
se define como el objeto de estudio. Puede ser una empresa, un paciente, una planta, un
pescado, una lata de conserva, etc.

POBLACIÓN.
Es el conjunto de unidades de observación o elementos de la misma especie que se
pretende estudiar en una investigación científica y de la cual se obtiene una muestra.

PARÁMETRO.
Es una medida de resumen que nos describe alguna característica de la población. Para
calcular dicho valor es necesario utilizar todo los valores de la población completa.
Algunos parámetros conocidos y que usaremos en este curso son:
La media poblacional denotado por 
La varianza poblacional denotado por 2
La proporción poblacional denotado por P
El coeficiente de correlación poblacional denotado por 

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 6


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

MUESTRA.
Es un subconjunto de la población sobre quienes se va estudiar, la cual debe haberse
elegido al azar (aleatorio) y ser representativa de la población a la cual pertenece, esto
quiere decir sin sesgos. En general la muestra es toda parte representativa y adecuada de
la población. A partir del análisis de la muestra obtenida correctamente y al azar , se
puede hallar conclusiones que sean extrapolables a la población de origen. Para elegir la
muestra debe apelarse a un determinado método de muestreo.

ESTADÍSTICO.
Es una medida de resumen que nos describe algunas características de interés y cuyo
valor es calculado usando sólo los valores de los elementos o unidades de una muestra.
Algunos estadísticos conocidos y mas usados son:
La media muestral denotado por X
La varianza muestral denotado por S2
La proporción muestral denotado por p
El coeficiente de correlación muestral denotado por r

VARIABLE.
Es una característica o propiedad determinada de las unidades de análisis, sea medible o
no. Esta propiedad hace que las unidades de análisis de un grupo pueden diferir de las de
otro grupo en la muestra o población de estudio.

CLASIFICACIÓN DE VARIABLES.
1.- POR SU NATURALEZA. Se dividen.

 Variable cuantitativa: Es la que se puede medir. Habitualmente es llamada variable


numérica o métrica, estas se clasifican en:
• Variables cuantitativas discretas: Tienen un recorrido finito o a lo mas numerable;
pueden adoptar sólo ciertos valores a lo largo de un intervalo, dejando un espacio
entre los valores posibles. Ejemplos: Cantidad de empleados en la nomina de una
empresa de manufactura, Número de latas de conserva que ingresan a un autoclave,
número de alumnos matriculados en la maestría de administración, número de plantas
Agroindustriales del departamento, cantidad de piezas defectuosas en una muestra de
producción, número de dientes con caries, número de hijos por familia. etc.

• Variables Cuantitativas Continuas: Tienen un recorrido infinito no numerable, la


variable puede tomar, teóricamente, cualquier valor en un cierto intervalo.
Ejemplos: el peso de un camión con carbón, la distancia de casa a la escuela,
Densidad, humedad, acidez, temperatura, dureza del agua, ºBrix, Presión
sanguínea, nivel de colesterol en la sangre, estatura, peso, ingreso económico,
edad, longitud, etc.

 Variable Cualitativa: Son variables que representan cualidades o atributos de la


muestra, como por Ejemplo: El sabor, color, tipos de conservantes, tipos de licores,
Genero (masculino, femenino), VIH(presente, ausente), grupo sanguíneo( A, B, AB, O),
grado de instrucción ( primaria, secundaria, superior), desnutrición (leve, grave,
aguda), color de cabello (castaño, negro, rojizo, rubio o canoso), etc. Si bien algunas
variables cualitativas solo tienen dos categorías otras pueden tener tres o más. Para las
variables cualitativas, también conocidas como atributos, se suele contar la cantidad de
personas u objetos que entran en cada categoría.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 7


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Al expresar los resultados relacionados con las variables cualitativas, describimos el


porcentaje o la cantidad de personas u objetos que entran en cada una de las
categorías posibles. Por ejemplo, podemos encontrar que 30% de los niños en edad
escolar entrevistados reconocen una fotografía de Ronald McDonal, mientras que 60%
no lo reconocen. Así mismo, algunos niños pueden haber probado una hamburguesa en
alguna ocasión, mientras que otros, no.

Variable

Cualidad Cantidad
Cualitativa O Cuantitativa o
Atributo número

Nominal Ordinal Discreta Continua

No orden Orden Conteo Medición

Ejemplos:
Unidad de estudio Variable
• Estudiante Peso, talla, edad, ci, número de hermanos, raza,
color de ojos, tipo de sangre, etc.
• Empresa Ganancia, costos, producción, número de
trabajadores, numero de computadoras, etc.
• PYME Número de trabajadores, años de funcionamiento,
ganancias, etc.

2.- POR SU RELACIÓN.- Se clasifican en:


Variables dependientes: Es la variable motivo del estudio, cuyos valores dependen
de otras variables que pueden influir en ella. También se le llama variable respuesta.
Ejemplo: Respuesta a un tratamiento, rendimiento escolar, ventas, etc.

Variable independiente: Es la que modifica de una u otra manera a la variable


dependiente, llamándose también según el caso factor de riesgo, factor predictivo,
Ejemplo: Horas de estudio, minutos de publicidad, etc.

Variable Interviniente: Son aquellas que coparticipan con la variable independiente


condicionando a la variable dependiente.
Ejemplo: Material de trabajo, medios de publicidad, etc.

ESCALAS DE MEDICION
Una vez definida la variable y obtenidos los datos, los análisis que se aplique son afectados
por la manera en que las variables fijadas se clasifiquen. Dicha clasificación obedece a las

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 8


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

escalas de medición propuestas por el Psicólogo Steven en 1946, casi universalmente


aceptadas, los datos están siempre referidos a una de estas escalas.

• Variables categóricas nominales: Son variables cualitativas que no permiten


establecer un orden. Ejemplo: raza (negra, blanca, trigueño, etc.), grupos sanguíneos
(A, B, AB, O). También son excluyentes entre si, o sea que cada individuo pertenece a
una u otra categoría pero no a las dos al mismo tiempo.

• Variables categóricas ordinales: Estas si permiten establecer un orden determinado,


por ejemplo: grado de instrucción de un paciente (inicial, primaria, secundaria,
superior), nivel socioeconómico (bajo, medio, alto). etc. También son excluyentes entre
sí.

▪ Escala Interválica. Es una escala ordinal, que se usa en mediciones de variables


continuas que además de tener un orden tienen mantienen una equidistancia entre sí y
para lo cual pueden iniciar con un cero relativo o arbitrario y mantener un intervalo
de separación.

Ejemplo 1.- Temperatura, Presión de vapor, Brix, Acidez, Grado Alcholico, Las
calificaciones de un test o de un examen de conocimientos. Estas tienen un cero elegido
arbitrariamente, por ejemplo si un alumno obtuvo un calificativo de “cero” en un
examen de matemáticas I, esto significa que no sabe nada de la materia pues con otra
prueba más fácil podría tener otra calificación.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 9


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Ejemplo 2.- Si tres alumnos A, B,C han obtenido los puntajes 2, 4, 16


respectivamente, no solo se verifica las relaciones 2 y 2<4<16, sino que 16-4 = 6 (4-2)
donde se puede inferir que C y B es igual a seis veces la diferencia entre los puntajes
de B y A.

Escala de Razón o Cociente. La escala de razón es una escala de intervalo en donde


además podemos comprobar cuantas veces un valor de la escala es mayor o menor que
otro valor de la escala. La escala de razón tiene cero absoluto.

Ejemplo 1: Peso, talla, número de alumnos; en las que el cero representa la nulidad o
ausencia de lo que se estudia. Se dice que un peso de 50 libras es el doble que uno de
25 libras, o que uno de 100 libras es 4 veces mayor que uno de 25 libras.

Ejemplo 2: si tres objetos A, B y C miden 2, 4 y 16 metros, se pueden establecer las


2 16
relaciones: 2  4  16 , 2 < 4 < 16, 16 - 4 = 6(4-2), y además = 2 ; =8 y
4 2
16
= 4 , es decir que la longitud de 8 es el doble de A, el de C es 8 veces que el de A y
4
el de C es 4 veces que el de B.

PRÁCTICA PRESENCIAL Nº 01

Instrucción: Identificar la unidad de estudio, tipo de variable, la población y la muestra en los


siguientes casos que se presentan.
CASO Nº 01:

La empresa GLORIA S.A. está realizando un estudio de mercado a


nivel del distrito de Chiclayo. En especial esta considerando las
familias residentes en las Urbanizaciones cercanas al perímetro de
la plaza de armas de esta ciudad. Su interés es conocer cuanto
gastan semanalmente en el consumo de leche de tarro color azul.
Si UD. fuera el encargado de realizar esta investigación
identifique:
Unidad de estudio
Variable de estudio Tipo:
Población
Muestra

“Un gran profesional es aquel que no encuentra obstáculos sino retos”

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 10


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

CAPITULO III

ORGANIZACIÓN Y PRESENTACIÓN DE LOS DATOS

Después de la recolección de los datos, es necesario resumirlos y presentarlos en forma


tal, que faciliten la comprensión, análisis, utilización y aplicaciones de los mismos. Hay dos
formas de presentar ordenadamente los datos estadísticos.
1) En forma tabular, como tablas estadísticas y cuadros.
2) Mediante gráficos y diagramas.

2.1. Tablas estadísticas. Las tablas estadísticas presentan ordenadamente los datos
estadísticos en filas y columnas, clasificados y agrupados de acuerdo a un criterio
específico. En las tablas metodológicamente, conviene distinguir las " tablas de frecuencia
o de distribución" y los "cuadros estadísticos o de análisis".

2.1.1.- Tablas de frecuencia o de distribución.


Son tablas de trabajo estadístico, que presentan la distribución de un conjunto de
elementos de acuerdo a las categorías de la variable. En ellas se observa la frecuencia o
repetición de cada uno de los valores de la variable, que se obtiene después de realizar
la operación de tabulación.

2.1.2.- Cuadros estadísticos.- El cuadro estadístico es el arreglo ordenado, de columnas


y filas, de datos estadísticos o características relacionadas, con el objeto de ofrecer
información estadística de fácil lectura, comparación e interpretación (un cuadro
estadístico es el resultado de trabajos previos) (planeamiento, recopilación, tabulación ,
cálculos, etc.). Estos cuadros constituyen los llamados "Cuadros de análisis" que se
incluyen frecuentemente en el cuerpo de los estudios, de las investigaciones o de
informes.
Cada cuadro estadístico puede tomar una forma particular o propia, sin embargo
existen recomendaciones y normas generales para su construcción que pretende
uniformizar criterios para presentar datos estadísticos.
Para diferenciar las variables principal y secundaria, en el título del cuadro, se antepone
la palabra POR a la variable principal y SEGÚN a la variable secundaria.

Partes Principales de un cuadro.


En general una tabla o cuadro estadístico completo puede tener 8 partes:
1) Número de Cuadro. Es la identificación que permite identificar al cuadro.
2) Título.- Es la indicación que, precediendo la tabla, es colocada en la parte
superior de la misma. Debe ser preciso claro y conciso, indicando la naturaleza
del fenómeno estudiado (¿Qué?), las variables escogidas en el análisis del
fenómeno (¿Cómo?), el local (¿Dónde?) y la época (¿Cuándo?) en que el
fenómeno fue observado.
3) Encabezamiento o conceptos.- ( referente a la primera fila ) es la parte de
la tabla en que se indica la naturaleza ( las categorías, las modalidades de la
variable) del contenido de cada columna. Estos al igual que los títulos deben ser
breves, pero suficiente explícitos. Así por ejemplo en vez de poner simplemente
"edad" es preferible escribir " Edad en Años".

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 11


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

4) Cuerpo.- Está formado por un conjunto de filas y columnas que contienen


respectivamente, las series horizontales y verticales de información.
5) Nota de pie de páginas o llamadas. Se usan para aclarar algunos términos o
siglas y también para indicar que elementos que están o nó incluidos en algunos
de los conceptos del cuadro.
6) Fuente.- Es el indicador de la entidad responsable de donde se obtuvieron los
datos.
7) Nota de unidad de medida.- Se escribe debajo del título original , se usa
cuando se abrevia la escritura de las cifras para expresar en que unidades esta
expresada la variable. Ejemplo. Miles de personas, miles de soles. etc.
8) Elaboración. Responsable de la investigación o toma de datos.

TABLAS DE FRECUENCIAS O DISTRIBUCIÓN DE FRECUENCIAS DE VARIABLES


CUALITATIVAS O ESTADISTICAS DE ATRIBUTOS.

I.- VARIABLE CUALITATIVA.- Suponga que una muestra de n unidades estadísticas


se observan k categorías o modalidades C1, C2, …,Ck, de alguna variable cualitativa
X. La tabulación de estos n datos, es la distribución de frecuencias por categorías
dados en el siguiente cuadro:

CUADRO Nº 1: DISTRIBUCIÓN DE FRECUENCIAS DE V. CUALITATIVAS

CATEGORÍAS FRECUENCIAS FRECUENCIAS FRECUENCIAS


VARIABLE ABSOLUTAS RELATIVAS RELATIVAS
X fi hi PORCENTUALES Pi

C1 f1 h1 P1

C2 f2 h2 P2
. . . .
. . . .
. . .
CK fK hk Pk

Frecuencia absoluta (fi).- Es el número de datos observados en cada categoría o


modalidad. La Suma de todas las frecuencias absolutas es igual al total de n datos
k
observados. f i =n
i =1

Frecuencia relativa (hi). Se define para cada i, i =1,2,...,k, por h i = f i . La


n
k
suma de todas las frecuencias relativas es igual a uno, esto es,  hi = 1
i =1

Frecuencia porcentual (Pi)


Se define para cada i, i = 1,2,...,k, por Pi = hi x 100% . El total de las frecuencias
k
porcentuales es igual a cien. Esto es:  P = 100
i =1
i

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 12


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Ejemplo 1: Para evaluar el proceso de fabricación de barnices sintéticos se ha realizado un


estudio en el mes de abril del 2009, con la finalidad de establecer las causas más importantes
que originan fallos en el producto elaborado.
El tiempo de duración del estudio fue de un mes, siendo responsable el jefe de control de
calidad. Durante dicho periodo se identificaron diferentes causas de fallas y la intensidad o
frecuencia de ocurrencia, la misma que se muestra en la siguiente tabla.

A D A E D A E B E B
B A B B B E A E B A
C C B A E B E A D B
B B D E A E B B A A
D E B E B A A B B E
A D A B D B B B B B
C A B D B B B A A E
B B B A A A E B E B

A = Viscosidad; B =Color ; C= Peso por Galón; D = Hermeticidad E = Contaminación

CUADRO Nº2: DISTRIBUCIÓN DE CAUSAS DE FALLO EN EL PROCESO DE


FABRICACIÓN DE BARNICES SINTÉTICOS
CAUSAS DE FALLO INTENSIDAD
Viscosidad (A) 21
Color (B) 37
Peso por galón (C) 3
Hermeticidad (D) 5
Contaminación(E) 14
TOTAL 80

CUADRO Nº3: DISTRIBUCIÓN FRECUENCIAS DE CAUSAS DE FALLO EN EL PROCESO


DE FABRICACIÓN DE BARNICES SINTÉTICOS

Frecuencia Frecuencia
CAUSA DE FALLO Absoluta Relativa Porcentaje
Color (B) 37 0.4625 46,25
Viscosidad (A) 21 0.2625 26,25
Contaminación (E) 14 0.1750 17,50
Hermeticidad (D) 5 0.625 6,25
Peso por galón(C) 3 0.375 3,75
Total 80 100,00

Ejemplo 2: En una entrevista a una muestra de 20 Profesionales de Ciencias Económicas, en


la que respondieron pertenecer a los siguientes capítulos siendo los resultados siguientes: C
(Contabilidad) , A (Administradores) , E ( Economistas), obteniendo los siguiente resultados:
A, C,C, A, E, C,C, A, A,C, A, C, C,E, A, C, E, A, C, A

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 13


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

CUADRO Nº4: DISTRIBUCIÓN DE PROFESIONALES DE CIENCIAS ECONOMICAS


ENTREVISTADOS
PROFESION FRECUENCIAS FRECUENCIAS FRECUENCIA
ABSOLUTAS: fi RELATIVAS: hi PORCENTAJE Pi
Contabilidad (C) 9 0.45 45
Administradores( A) 8 0.40 40
Economistas(E) 3 0.15 15
TOTAL 20 1.00 100
Fuente: Hipotética

2.2. REPRESENTACION GRÁFICA DE DATOS


La representación gráfica de la distribución de frecuencias de variable cualitativa, se
representa comúnmente por medio de barras y de sectores circulares.

A.- GRÁFICA DE BARRAS


Los datos de cada una de las modalidades Ci se representan por una barra rectangular
vertical (u horizontal) cuya altura (o largo) es proporcional a su frecuencia, las barras se
dibujan dejando un espacio entre ellas. Si la escala es nominal las categorías pueden ser
colocadas en cualquier orden, pero si el nivel es ordinal las categorías deben ir
ordenadas.

GRAFICO DE BARRAS
GRAFICO Nº 1: DISTRIBUCIÓN DE PROFESIONALES DE CIENCIAS ECONOMICAS
ENCUESTADOS

B.- GRAFICO CIRCULAR

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 14


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

GRÁFICO N°2 DISTRIBUCION DE PROFESIONALES DE CIENCIAS ECONOMICAS


ENCUESTADOS

Ejemplo 3: La nacionalidad de los ponentes del IV Congreso Internacional de Administración,


realizado en Agosto del 2008, en la Universidad Nacional Pedro Ruiz Gallo fueron los
siguientes:
X1 = C X2 = B X3 = P X4 = E X5 = P
X6 = P X7 = V X8 = C X9 = B X10 = P
X11 = P X12 = C X13 = E X14 = P X15 = B
X16 = P X17 = C X 18 = V X19 = P X20 = V
B= Bolivia C= Colombia E= Ecuatoriano P= Peruano V= Venezolano

CUADRO Nº 3: DISTRIBUCIÓN DE LOS PONENTES PARTICIPANTES EN EL IX COPEIQ


REALIZADO EN LA U.NP.R.G. SEGÚN NACIONALIDAD. AGOSTO 2003

NACIONALIDAD fi hi
BOLIVIANOS 3 0.15
COLOMBIANOS 4 0.20
ECUATORIANOS 2 0.10
PERUANOS 8 0.40
VENEZOLANOS 3 0.15
C=5 n = 20 1.00

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 15


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

TABLAS DE FRECUENCIAS O DISTRIBUCIÓN DE FRECUENCIAS DE VARIABLES


CUANTITATIVAS
1) VARIABLE CUANTITATIVA DISCRETA.
Cuando se estudia una característica X de la población, el mayor interés del investigador es
conocer la distribución de esta característica a través de los posibles valores del mismo.
Una distribución de frecuencias es un arreglo de los valores observados x 1 . . . xk de la
variable con sus respectivas frecuencias, en una tabla de la forma siguiente.
Frecuencias Frecuencias Frecuencias
Valor Frecuencias Absolutas Frecuencias Relativas Relativas
de Absolutas Acumuladas Relativas Acumuladas Porcentuales
X fi Fi hi Hi hi %
X1 f1 F1 h1 H1 h1 %

X2 f2 F2 h2 H2 h2 %
. . . . . .
. . . . . .
. . . . . .
XK fK FK = n hk Hk = 1 hk %
k k k
 fi = n  hi = 1  hi% = 100
Total i =1 i =1 i =1
Para construir una tabla de frecuencias de una variable discreta, también se puede construir
con intervalos siempre y cuando el rango de la variable sea muy amplio y se construyen los
intervalos tan igual que para la variable continua que se detalla en la siguiente parte con la
única diferencia de que se trabaja con los intervalos cerrados.

Ejemplo: En una población formada por 100 lotes de 50 artículos cada uno, se consideró la
variable cuantitativa discreta X= “Número de artículos defectuosos en cada lote”. Los
resultados fueron:
1 5 4 2 3 4 5 3 5 4 2 4 5 6 4 5 2 5 3 2
4 6 3 4 5 1 6 3 2 5 4 3 6 3 5 7 2 5 4 2
7 4 6 5 2 8 3 3 6 4 2 4 3 4 8 1 5 3 7 3
7 2 4 1 3 5 3 8 4 6 5 4 5 4 5 4 5 2 6 3
4 3 5 2 3 4 3 1 4 5 4 4 7 4 6 2 6 2 4 5

CUADRO Nº 4. DISTRIBUCIÓN DE 100 LOTES DE ACUERDO AL NÚMERO DE


ARTICULOS DEFECTUOSOS.
Frecuencia Frecuencia Frecuencia
Nº de Frecuencia Absoluta Frecuencia Relativa Relativa
Artíc.Defec Absoluta Acumulada Relativa porcentual Acumulada
Xi fi Fi hi hi% Hi
1 5 5 0.05 5 0.05
2 14 19 0.14 14 0.19
3 18 37 0.18 18 0.37
4 25 62 0.25 25 0.62
5 20 82 0.20 20 0.82
6 10 92 0.10 10 0.92
7 5 97 0.05 5 0.97
8 3 100 0.03 3 1.00

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 16


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Total 100 1.00 100

Gráfico N°3: GRÁFICO DE BASTONES DE LA DISTRIBUCIÓN DE 100 LOTES DE


ACUERDO AL NÚMERO DE ARTICULOS DEFECTUOSOS

fi N° Familia h
26
24
22
20
18
16 - -
14 - -
12 - -
10 - -
8- -
6- -
4- -

0 1 2 3 4 5 6 7 X : Artículos Defectuoso

3) VARIABLE CUANTITATIVA CONTINUA.

DISTRIBUCIÓN DE FRECUENCIAS POR INTERVALOS


La distribución de frecuencia por intervalos o clases se usan cuando la variable estadística es
continua o cuando el número de valores distintos de una variable discreta es muy grande.
Para la distribución de frecuencias por intervalo se recomienda elegir no más de 20 intervalos
ni menos de 5, ya que muchos intervalos pueden implicar innecesariamente los cálculos de
las medidas descriptivas, y pocos intervalos podrían omitir características importantes de los
datos. En este curso se eligen intervalos de igual amplitud (A); pero en la realidad no
siempre se trabaja con intervalos de igual amplitud ya que muchas veces las instituciones
tienen estándares de trabajo como por ejemplo en salud y otras instituciones.
Para construir la distribución de frecuencias, se debe tener en cuenta los siguientes pasos:
1.- Determinar el Rango ( R ) de variación de los datos que se define por: R= Xmax - Xmin
Donde: Xmax= Es el dato mayor; Xmin= = Es el dato menor
2.- Determinar el número de intervalos ( K ); un valor aproximado del número de
intervalos, K, nos proporciona la Regla de Sturges, donde: K= 1+ 3.3 Log(n) ; n  10 : n es
el número de datos
Redondeando al entero inmediato superior.
Por ejemplo si se tiene n = 45 datos sin decimales, entonces: K=1+3.3Log(45)=6.4556.
Luego, K podrá elegirse como 6,7,8 o cualquier número entero; también puede usarse K=
2.54
4
n
3.- Determinar la Amplitud ( A ) del intervalo se obtiene, dividiendo el Rango entre el
R
número de intervalos esto es: A =
K
R
Sí la división de A= no es exacta en el número de decimales de los datos, entonces el
K
valor de A se aproxima por exceso de manera que se cubra todo el rango, esto es: KA  R.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 17


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Cada intervalo o clase Ii, lo tomamos cerrado por la izquierda y abierto por la derecha esto
es: Ii=[Li,Ui[, siendo Li el límite o extremo inferior y U i el límite o extremo superior del
intervalo. El último intervalo se tomará como extremos cerrados, esto es, Ik= [Ik, Uk
Para construir la distribución de frecuencia de intervalos hay varios procedimientos.
De manera que KA  R; Los intervalos se forman de la siguiente manera:
I1 = [Xmin, Xmin + A[
I2 = [Xmin, Xmin + 2A[
I3 = [Xmin, Xmin + 3A[
.
Ik = [Xmin, Xmin + KA]
Marca de Clase.- Es el punto medio del intervalo de clase. Se obtiene sumando los límites
inferior y superior de cada clase y dividiéndolo entre dos. Así la marca de clase del intervalo
50-54 será (50 + 54)/2 = 52. La marca es, en definitiva, el valor que representa a la
información contenida en el intervalo de clase.
Ejemplo. Los sueldos mensuales (en dólares) de 60 empleados de la Empresa CAMPOSOL
Trujillo en el año 2003 fueron los siguientes
440 560 335 587 613 400 424 466 565 393 574 480
453 650 407 376 470 560 320 500 528 526 500 625
570 475 618 537 409 600 550 432 591 428 462 507
440 340 558 460 560 607 382 669 512 492 380 645
450 530 501 471 660 470 364 634 580 450 518 382
Construir una tabla de distribución de frecuencias.
1.-Rango: R= Xmax - Xmin = 669 - 320 = 349
2.- Número de Intervalos: K = 1+ 3.3 Log(60) = 6.9; K = 7 intervalos
669 − 320 349
3.- Amplitud. A = = = 49.9  50
7 7
CUADRO N°5 DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL SEGÚN
INGRESO (EN DOLARES) EN EL AÑO DE 2003
Frecuencia Frecuencia Frecuencia
  Valores que caen Conteo Frecuencia Absoluta Relativa Relativa
dentro del Intervalo Absoluta Acumulad Simple Acumulada
fi a Fi hi Hi
320- 320, 335, 340, 364 //// 4 4 0.07 0.07
370
376, 380, 382, 382,
370- 393, 400, 407, 409 //// 8 12 0.13 0.20
420 ///
424, 428, 432, 440,
420- 440, 450, 450, 453, //// 11 23 0.18 0.38
470 460, 462, 466 //// /

470, 470, 471, 475,


470- 480, 492, 500, 500, //// 12 35 0.20 0.58
520 501, 507, 512, 518 //// //
526, 528, 530, 537,
520- 550, 558, 560, 560, //// 10 45 0.17 0.75
570 560, 565 ////
570, 574, 580, 587,
570– 591, 600, 607, 613, //// 9 54 0.15 0.90
620 618 ////

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 18


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

620- 625, 634, 645, 650,


670 660, 669 //// / 6 60 0.10 1.00
Total Total 1.00
Interpretación:
f2 :8 ; 8 empleados de la empresa CAMPOSOL de Trujillo tienen sueldo mayor o
igual que 370 pero menor que 420 dólares.

F3 : 35 ; 35 empleados de la empresa CAMPOSOL de Trujillo tienen sueldos


menores que 520 dólares.

h4 % : 20%; El 20% de los empleados de la Empresa CAMPOSOL de Trujillo tienen


sueldo mayor o igual que 470 pero menor que 520 dólares.

H5% : 0.75; El 75% de los empleados de la Empresa CAMPOSOL de Trujillo tienen


sueldos menores que 570 dólares.

GRAFICO PARA VARIABLES CUANTITATIVAS CONTINUAS.


Los gráficos más utilizados son: Histograma de frecuencias, Polígonos de frecuencia, Ojiva.

Histogramas. Es una representación gráfica de una distribución de frecuencias agrupadas en


intervalos de clase, mediante una serie de rectángulos contiguos que tienen:
a) Sus bases sobre un eje horizontal ( eje de las x) con centros en las marcas de clase y
longitud igual al tamaño de los intervalos de clase.
b) Las alturas proporcionales a la frecuencia ( Absoluta o relativa) tomados sobre el eje
de las Y, a veces conviene más graficar en el histograma las frecuencias relativas en
lugar de las frecuencias absolutas. En este caso, la altura correspondiente a cada
rectángulo que habrá que levantar sobre el eje de ordenadas será el cociente entre la
frecuencia relativa del mismo y la amplitud del intervalo. El único cuidado que debe
tenerse es que el área total del histograma sea igual a 1. Correspondiendo a la suma
total de áreas de cada rectángulo.

Ejemplo Nº 3: Del cuadro N°5 se tiene

GRAFICO N° 3: DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL DE


TRUJILLO SEGÚN INGRESO (EN DOLARES ) EN EL AÑO DE 2003

12 fi
11
10
9
8
7
6
5
4
3
2
1

320 370 420 470 520 570 620 670

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 19


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Polígono de Frecuencias.- Son de dos tipos:


a) Si la variable es discreta, El polígono de frecuencias se obtiene uniendo los extremos
superiores de la barras.

b) Si la variable está agrupada en intervalo de clase, el polígono de frecuencia se obtiene


uniendo los puntos medios de las bases superiores de cada rectángulo.

GRAFICO N° 5 POLIGONO DE FRECUENCIAS DE LA DISTRIBUCION DE 60


EMPLEDOS DE LA EMPRESA CAMPOSOL DE TRUJILLO SEGÚN INGRESO
(EN DOLARES) EN EL AÑO 2003

12 fi
11 Polígono
10
9
8
7
6
5
4
3
2
1

320 370 420 470 520 570 620 670

Polígono de frecuencia acumulada u Ojivas


Esta representación es valida para variables estadísticas agrupadas en intervalos de clase.
En el eje de las abscisas representamos los distintos intervalos de clase que han de estar
naturalmente translapados. En el extremo superior de cada intervalo se levanta una vertical
con altura igual a la frecuencia (absoluta o relativa) acumulada, luego se unen los extremos
superiores de las verticales con segmentos rectilíneos. Así el polígono de frecuencias
acumuladas absolutas alcanzará su máxima altura en el último intervalo.

Frecuencia Frecuencia
  Frecuencia. Absoluta. Absoluta
Absoluta Acumulada Acumulada
fi Menor Fi Mayor Fi

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 20


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

320- 370 4 4 60
370- 420 8 12 56
420- 470 11 23 48
470- 520 12 35 37
520- 570 10 45 25
570– 620 9 54 15
620- 670 6 60 6
Total Total

60 f
55 i Ojiva Menor f Ojiva Mayor
60
50 55 i
45 50
40 45
35 40
30 35
25 30
20 25
20
15
15
10 10
5 5
320 370 420 470 520 570 620 670 320 370 420 470 520 570 620 670

Ejemplo: La siguiente muestra corresponde


Dólares a los puntajes obtenidos por 36 postulantes en
Dólares
una prueba de administración.
50 53 90 55 93 60
53 80 85 95 75 45
75 58 90 95 47 46
50 43 44 70 53 70
43 54 49 60 52 54
50 58 80 49 52 70

Elabore una tabla de frecuencias


Resolución:
1. Cálculo del rango
Ls = 95 Li=43 R = Ls – Li R = 95 – 43 R = 52.
2. Cálculo del número de intervalo de clase.
K= 1 + 3,32x Log n K= 1 + 3,32xLog36 K = 1+3,32 x 1,5563 K=6.
3. Cálculo de la amplitud interválica.
C = R =52 = 8,67 = 9 (se aproxima al entero superior)
K 6
4. Cálculo del número rango.
D = KC – R
D = 6 x 9 – 52 = 2
1 (Se le resta al li 43 -1 = 42)
D=2
1 (Se le suma al ls 95 +1 = 96)

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 21


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Observación:
a) Si la diferencia es un número par, se reparte equitativamente entre el primero
y último dato.

2 Se le resta al primer dato.


D=4
2 Se le suma al último dato.

b) Si la diferencia es un número impar, se reparte en dos números consecutivas


al menor para el primer dato y el mayor para el último dato.
1 Se le resta al primer dato.
D=3
2 Se le suma al último dato.

2 Se le resta al primer dato.


D=5
3 Se le suma al último dato.
Frecuencia Frecuencia
  Frecuencia. Absoluta. Absoluta
Absoluta Acumulada Acumulada
fi Menor Fi Mayor Fi
42- 51 11 11 36
51- 60 10 21 25
60- 69 2 23 15
69- 78 5 28 13
78- 87 3 31 8
87– 96 5 36 5
Total 36

Ejercicios
2.1 Durante una semana, se ha medido diariamente el contenido de humedad correspondiente
a 24 paquetes de un determinado producto alimenticio, tomados al azar a la salida de una
línea de envasado. Los resultados obtenidos son:
Lunes 8.20 8.05 8.53 8.48 8.15 8.79 Jueves 8.97 9.21 8.86 8.76 9.55 9.38
8.36 8.76 8.64 8.34 8.15 8.91 9.02 9.53 8.75 9.21 9.50 9.58
8.37 8.51 8.83 8.51 8.68 8.32 9.61 9.28 9.64 8.76 9.48 9.09
8.52 8.18 8.35 8.08 8.79 8.49 9.15 9.28 9.05 9.40 9.58 9.46
Martes 8.61 9.30 8.59 8.32 9.08 8.43 Viernes 8.46 8.17 8.97 8.64 8.40 8.17
9.14 8.58 8.66 8.33 9.13 8.66 8.00 8.60 8.20 8.81 8.60 8.11
8.52 8.81 8.70 8.41 8.69 9.17 8.32 8.48 8.33 8.73 8.47 8.05
9.20 8.68 9.08 9.07 8.46 8.56 8.91 8.65 8.26 8.73 8.10 8.89
Miércol 9.43 9.28 9.59 8.86 9.19 9.22
8.85 9.14 9.15 9.28 9.12 8.85
8.66 9.41 8.75 8.50 9.20 8.56
8.89 9.34 9.18 9.19 8.80 9.46

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 22


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Elaborar una tabla de frecuencias, histograma de frecuencias, polígonos de frecuencias y


ojivas menor y mayor.
Interpretar: f2 , F3, h 4 %, H5 %.

ANÁLISIS EXPLORATORIO DE DATOS

El análisis exploratorio de datos consiste en un conjunto de técnicas estadísticas y sus


gráficos, que permiten visualizar la información bajo estudio. Corresponde a una técnica de
análisis rápido, que utiliza estadígrafos descriptivos que han debido ser agrupados en una
estructura resumen.

Diagrama de Hojas y Tallos


John Tukey, Célebre estadístico, ideo el diseño de “Tallo y Hoja” como alternativa al
histograma. Al igual que otras medidas descriptivas, el diseño de “Tallo y Hoja” proporciona
una impresión visual rápida del número de observaciones de una clase.
Cada observación del conjunto de datos se divide en dos partes: Un Tallo y Una Hoja.
Auque hay basta flexibilidad en cuanto al procedimiento que pueda seguirse, a menudo es
conveniente considerar todos los dígitos de una observación menos el último como el tallo.
Entonces el último dígito se considera como la hoja. Para realizar este tipo de gráficos primero
se ordenan los datos de menor a mayor.

Ejemplo Nº 1: Dado los siguientes datos: 68 , 71 , 77 , 83 , y 79, sobre el número de Jabas


con espárragos recibidas de diferentes proveedores. Construya un gráfico de Tallo y Hoja.

Tallo Hoja
6 8
7 1 7 9
8 3

Ejemplo Nº2 Consideremos el Nº de llamadas telefónicas recibidas en la Facultad de


Ingeniería Química e Industrias Alimentarias durante 30 días consecutivos.
64 62 57 54 47 67 58 51 72 45
51 83 51 74 59 53 78 45 69 64
58 54 42 62 51 45 69 51 78 67

Tallo Hojas

4 7 5 5 25
5 7 4 8 111938411
6 4 2 7 94297
7 2 4 8 8
8 3

VENTAJAS DE LOS DIAGRAMAS DE HOJAS Y TALLOS.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 23


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

1.- Los diagramas de tallos y hojas conservan los datos originales, por lo que es fácil identificar
algún dato particular si lo quisiéramos.
2.- Es flexible en cuanto a poder incluir datos extremos sin perder el grado de detalles en el
resto de los datos.
3.- Permiten percibir características de los datos que a veces los intervalos cubren.
4.- No necesita algún gráfico adicional para percibir la forma de la distribución.

DESVENTAJAS.
No es una representación práctica para volúmenes grandes de datos.

Ejercicio: Elabore un gráfico de Hojas y Tallos con los siguientes datos de las medidas de
tubos de cemento que a continuación se presentan.

68 72 50 70 65 83 77 78 80 93
71 74 60 84 72 84 73 81 84 92
77 57 70 59 85 74 78 79 91 102
83 67 66 75 79 82 93 90 101 80
79 69 76 94 71 97 95 83 86 69

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 24


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

CAPITULO IV

MEDIDAS DE POSICION.

MEDIDAS DE TENDENCIA CENTRAL


Son indicadores o “Valores numéricos ” que representan o describe la posición o tendencia de
todo un conjunto de datos estadísticos, sirve como una base para medir y evaluar valores
anormalmente altos o anormalmente bajos ( o valores extremos).
Las medidas de tendencia central más conocidas o importantes son: La Media Aritmética,
Mediana, Moda, Media Geométrica y la Media Armónica. etc.

I.- MEDIA ARITMÉTICA ( X ). Es una medida de Tendencia Central más utilizada en


estadística, también se le conoce como el promedio de las observaciones u es el cociente
que resulta de dividir la suma de los valores de los datos entre el número de los mismos.
Para calcular la media aritmética se debe tener en cuenta dos casos.
A) Cuando los datos no se encuentran Tabulados
B) Cuando los datos se encuentran tabulados

a) Media Aritmética de datos no Tabulados

Sea x1, x2 , . . . , xn , valores de la variable X. La media aritmética simple de x


representada por X es dado por:
Suma de Valores
x1 + x2 + x3 +...+ x n
( X) = =
Número de valores n
n

 xi
X= i =1

n
Donde n es el tamaño de la muestra o número de elementos del conjunto de
observaciones.

Ejemplo. 1: Encuentre la media aritmética del peso (g) de 5 mangos seleccionados al


azar para su control del peso que a continuación se presentan: 250, 300, 350 ,250 ,
280.

Solución: Sustituyendo las observaciones en la fórmula se tiene:


n

 xi
X= = 250 + 300 + 350 + 250 + 280
i =1

n 5
Interpretación: El peso promedio de los 5 magos es de 286 gramos .

Ejemplo. 2: Encuentre la media aritmética de las edades de 5 estudiantes de la Maestría


en Administración de la UNPRG que a continuación se detalla: 25, 28, 30 ,31 , 29.
Solución: Sustituyendo las observaciones en la fórmula se tiene:
n

 xi 25 + 28 + 30 + 31 + 29
X= i =1 = = 143/5 = 28.6
n 5
Interpretación: La edad promedio de los 5 estudiantes de titulación es de 29 años.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 25


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Ejemplo.-3: A continuación de presenta los resultados de una encuesta realizada a 45


obreros de empresa Pirámide de Chiclayo Abril 2008, sobre sus ingresos en dólares.

63 89 36 49 56 64 59 35 78
43 53 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
53 64 76 44 73 56 62 63 60

Calcular el ingreso promedio de los encuestados.


n

 xi 63 + 89 + ... + 63 + 60 2682
X= i =1 = = = 59.6
n 45 45
Interpretación: El ingreso promedio de los 45 obreros de la Empresa Pirámide
encuestados es de $ 59.6

b).Media Aritmética de datos Tabulados o Agrupados. Para calcular la media


aritmética para datos tabulados se debe tener en cuenta el tipo de dato cuantitativo que
puede ser: discreto o continuo.

b1) Media para datos tabulados de variable discreta.


Sean: x1, x2 , . . . , xk , valores de la variable estadística discreta X, con
frecuencias absolutas respectivas f1, f2 , . . . , fk, entonces la media aritmética es el
valor:
k
f x1 + f 2 x2 + ... + f k xk  f i xi
1) Y= 1 = Y= i =1 ó
n n
k
2) X=  hi xi ; Donde h1 , h2 … hk son las frecuencias relativas respectivas.
i =1

Ejemplo. Calcular el promedio de 100 artículos defectuosos que se presentan en la


siguiente tabla.

CUADRO Nº 4. DISTRIBUCIÓN DE 100 LOTES DE ACUERDO AL NÚMERO DE


ARTICULOS DEFECTUOSOS.

Nº de
Artíc.Defec fi Xi * fi
Xi
1 5 5
2 14 28
3 18 54
4 25 100
5 20 100
6 10 60
7 5 35

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 26


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

8 3 24
Total 100 406

f 1 x 1 + f 2 x 2 + ... + f k x k 1x5 + 2 x14 + 3x18 + 4 x 25 + 5 x 20 + 6 x10 + 7 x5 + 8 x3 =


Y= =
n 100
Y = 406 = 4.06: Interpretación: El promedio de artículos defectuosos por lote es de 4
100

b2) Media para datos tabulados por Intervalos.


Si n valores de alguna variable X (discreta o continua) están tabulados en una
distribución de frecuencias de k intervalos, donde y1 , y2 , . . . yk son las marcas de
cada clase, y f1, f2, …, fk son las frecuencias absolutas respectivamente, entonces,
su media aritmética es igual a:
k
 f i yi
Y = i =1
n

Ejemplo: Calcular la media aritmética de los sueldos de los empleados de la Empresa


CAMPOSOL de Trujillo (datos tabulados)

CUADRO N°7 DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL DE


TRUJILLO SEGÚN INGRESO (EN DOLARES) EN EL AÑO 2003

  yi fi fi*yi
320 - 370 345 4 1380
370 - 420 395 8 3160
420 - 470 445 11 4895
470 - 520 495 12 5940
520 - 570 545 10 5450
570 - 620 595 9 5355
620 - 670 645 6 3870
Total 60 30050

Cálculo de la media Aritmética de los sueldos de los empleados


k 6
 f i yi  fi yi
Y = i =1 = i =1 = 30050 / 60 = 500.83
n 60

Interpretación : El sueldo promedio de los empleados de la Empresa CAMPOSOL de


Trujillo fue de 500.83 dólares.

II.- MODA(MO). Es el valor que con mayor frecuencia se presenta o se repite en un conjunto
de datos. La moda no siempre existe y no siempre es única.
Para calcular la moda se tiene en cuenta dos casos:

a) Para datos no agrupados.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 27


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Ejemplo1: Considere los pesos (en kilos) de 10 estudiantes de la carrera profesional


de administración
63, 78, 82, 85, 65, 72, 71, 81, 67, 83.
Respuesta En los 10 datos de los pesos de los estudiantes no existe moda.

Ejemplo 2: Considere la distribución de los pesos de 15 estudiantes de la Escuela la


carrera profesional de economía:
68, 75, 74, 70, 82, 75, 72, 75, 81, 83, 75, 69, 63, 67, 75
Respuesta: La moda es 75, por que es el valor que más se repite.

Ejemplo 3: Considere la distribución del número de hijos por familia.


0, 1, 2, 3, 4, 5, 1, 2, 3, 3, 4, 2, 3, 2
Respuesta: El valor 2 y 3 ocurren 4 veces.

En este caso las distribución se llamará bimodal.


En general, se tiene lo siguiente:
1) La distribución que tiene una sola moda se llama unimodal
2) La distribución que tiene dos modas se llama bimodal
3) La distribución que tiene más de dos modas se llama multimodal.

b) Para Datos Agrupados. Para calcular la moda en datos agrupados se calcula con la
siguiente fórmula
 f j +1 
M0= Lj+ A  
 f j −1 + f j +1 

 fj : Es la mayor frecuencia absoluta o repetición ( f i )


 fj-1 : Frecuencia absoluta inmediata anterior a f j
 fj+1: Frecuencia absoluta inmediata posterior a f j.
 Li : Extremo inferior del intervalo modal.
 A : amplitud

CUADRO N° 8: DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL


DE TRUJILLO SEGÚN INGRESO (EN DÓLARES)
AÑO 2008

  yi fi
J=1 320 - 370 345 4
J=2 370 - 420 395 8
J=3 420 - 470 445 11fj-1 Mo
J=4 470 - 520 495 12 fj
J=5 520 - 570 545 10 fj+1
J=6 570 - 620 595 9
J=7 620 - 670 645 6
Total 60
Calculo de la Moda:
 f j +1   10  10 
M0= Lj+ A   = 470 + 50   = 470 + 50   = 494
 f j −1 + f j +1  11 + 10   21

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 28


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Mo = 494

Interpretación: El valor más frecuente de los sueldos de los empleados de la Empresa


CAMPOSOL de Trujillo en el año 2008 fue de 494 Dólares.

Ejercicio: Determinar la moda de la siguiente distribución:


Intervalos Fi
0, 1 3
 1, 2  10
 2, 3  17
3 4 8
4, 5  5
Total 43

III.- MEDIANA (Me). Es un valor que divide a un conjunto de observaciones ordenadas en


forma ascendente o descendente en dos grupos de igual número de observaciones.
La mediana es un valor posicional (en comparación con la Media Aritmética), se ve menos
afectada por valores extremos dentro del grupo que la media. Esta propiedad de la
mediana la convierte en algunos casos, en una útil medida de tendencia central.
Se calcula básicamente en 2 formas.

1.- Mediana de datos no tabulados.


Para calcular la mediana de datos no tabulados existen dos casos.
a) Cuando la variable en estudio es discreta y n (número de observaciones)
es impar.
En este caso, la mediana será el valor de la variable ordenada ya sea en forma
ascendente o descendente que ocupa la posición media (rango de orden es
(n+1)/2) o también se puede expresar como X(n+1)/2 central.

Ejemplo: Supongamos que el número de casos de cierta molestia en los meses de


Julio de los últimos 7 años fueron: 52, 41 , 37 , 82, 24, 63, 68: (n=7).

Solución:
Ordenando estos valores de acuerdo a su magnitud se:
1ero 2do. 3ero 4to 5to 6to 7mo
24 , 37 , 41 52 , 63 , 68, 82 .
50 % 50 %

mediana
Como n = 7 entonces.

El valor que ocupa la mediana es : ( n + 1)/2 = ( 7 + 1 )/2 = 4to. lugar; luego la


mediana es el valor que ocupa el 4to dato ordenado que divide a la serie en 2
grupos de 3 datos cada uno. siendo este: Me = 52

Interpretación: El 50% de los casos de molestia durante los últimos 7 años en el


mes de julio son menores que 52 casos y el 50% restante de los casos de molestia
son mayores que 52 casos.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 29


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

b) Cuando la variable en estudio es discreta y n (número de observaciones)


es par.
En este caso, no existe en la ordenación un valor de la variable que ocupe la
posición central, esto es, la mediana es indeterminada, pues cualquier valor
n n
comprendido entre los valores que ocupen la posición y + 1 , considerado
2 2
como el centro de la de la ordenación.
El problema es resuelto tomando la media aritmética de los valores ordenados que
n n
ocupan las posiciones y + 1 , esto es:
2 2
X n / 2 + X (n / 2 + 1)
Me =
2

Ejemplo:
Considere las observaciones muestrales.
24 , 41 , 63 , 24 , 68 , 82, 37
Ordenando estos valores en orden creciente tenemos.
1er 2do 3ero 4to 5to 6to
24 , 37, 41 , 63 , 68, 82
n n
valores ordenados que ocupan las posiciones y + 1 , esto es:
2 2
n n
= 6/2 = 3ero y + 1 = ( 6/2 + 1) = 4to.
2 2
La mediana en este caso es el valor entre 41 y 63 , el cual es
X n / 2 + X (n / 2 + 1) 41 + 63
Me = = = 52
2 2
Interpretación: El 50% de las observaciones muestrales son menores que 52 y el
50% restantes son mayores que 52.

Ejercicios: Dada las siguientes distribuciones: Calcular sus medianas respectivas.


a) b)
xi fi xi fi
1 1 82 5
2 3 85 10
3 5 87 15
4 2 89 8
Total 11 90 4
Total 42
B) Mediana de datos tabulados. Para calcular la mediana para datos agrupados se
calcula con la siguiente formula.
n 
 2 − F j −1 
Me = Lj + A  
 f j 
 
n = número total de datos.
Fj =Es una Fi inmediata superior a n/2
Fj-1 = Es una Fi inmediata inferior a n/2

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 30


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Li = Extremo inferior al intervalo mediano ( IME)


IME= Es el intervalo que corresponde a Fj.
A= amplitud del intervalo mediano.

CUADRO N° 9: DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL DE


TRUJILLO SEGÚN INGRESO (EN DOLARES) EN EL AÑO DE 2003

  yi fi Fi
J=1 320 - 370 345 4 4
J=2 370 - 420 395 8 12
J=3 420 - 470 445 11 23 Fj-1
J=4 470 - 520 495 12 fj 35 Fj Me
J=5 520 - 570 545 10 45 Fj+1
J=6 570 - 620 595 9 54
J=7 620 - 670 645 6 60
Total 60
n   60 
 2 − F j −1   2 − 23  7
Me = Lj + A   = 470 + 50   = 470 + 50 12  = 470 + 29.17
 f j   12 
   
Me = 499.17.
Interpretación: El 50% de los empleados de la Empresa CAMPOSOL de Trujillo
tienen sueldos menores que 499.17 y el 50% restante de los empleados tienen
sueldos mayores que 499.17 soles

RELACION ENTRE LA MEDIA MEDIANA Y MODA


1.- Si la distribución de frecuencias es simétrica, entonces, la media, la mediana y la moda
tienen el mismo valor, esto es X = Me = Mo ( Figura Nº 01).

2.- Si la distribución es asimétrica de cola a la derecha, entonces, la moda es menor que la


mediana y esta a su vez es menor que la media ( Figura Nº02); esto es
Mo  Me  X

3.- Si la distribución es asimétrica de cola a la izquierda, entonces, la relación es ( figura Nº


03) X Me  Mo

X = Me = Mo Mo Me X X MeMo


Cuartil ( Qi ).- Son medidas de posición que divide en cuatro partes iguales a un conjunto de
observaciones o datos ordenados, o una distribución de frecuencias. Se denota con la letra
“Q”.
La primera cuarta parte o el 25% de una distribución, recibe el nombre de primer cuartil (Q1).
La segunda cuarta parte o el 50% de una distribución, recibe el nombre de segundo cuartil
(Q2).
La tercera cuarta parte o el 75% de una distribución, recibe el nombre de tercel cuartil (Q3).

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 31


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Li . ......1/4 ....... 2/4 ............3/4 ................ Ls

25% ………… 50% .......... 75% ...........


Q1 Q2 Q3
Para calcular los cuartiles de datos agrupados se tiene en cuenta la siguiente fórmula:

 n(1 / 4) − F j −1   n(1 / 2) − F j −1   n(3 / 4) − F j −1 


Q1 = Lj + A   ; Q2 = Lj + A  ; Q3 = Lj + A  
 fi   fi   fi 

PERCENTILES.
Los percentiles se encargan de dividir a una distribución de frecuencias en 100 partes iguales y
cada punto determina el1% del total de datos. Su notación es “P”.

Li 1/100 2/100 3/100 4/100 5/100 . . . . 99/100 ... LS

1% 2% 3% 4% 5% … .. . .... 99%
P1 P2 P3 P4 P5 ... ......... P99

Para calcular los percentiles se utiliza la siguiente fórmula

 n(k / 100) − F j −1 
Pk = Lj + A  
 fi 

OTRAS MEDIAS.

MEDIA GEOMÉTRICA.- La media geométrica de n valores positivos X1 , X2....., Xn es el


valor XG que se define como la raíz enésima del producto del producto de estos n valores.
Esto es,

n
XG = X 1xX 2 x... Xn

MEDIA ARMÓNICA.- La media armónica de n valores no nulos X1 , X2....., Xn es el número,


X H que se define como el recíproco de la media aritmética de los recíprocos de esos n valores.
Esta medida se calcula de la siguientes manera.
n
X H= n
1
x
i =1 i

La media armónica se utiliza mayormente en velocidades

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 32


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

CAPITULO V

MEDIDADAS DE VARIABILIDAD O DISPERSION.


Las medidas de variabilidad o dispersión, son aquellas que miden el grado de dispersión o
concentración de los valores de datos, alrededor de alguna de las medidas de tendencia
central.
Entre las medidas de dispersión más utilizadas se tiene:

1) RECORRIDO O RANGO (R). El recorrido de una variable estadística es simplemente la


diferencia entre su valor máximo y su valor mínimo y e denota por: R= máx (x)- mín (x)
La utilización del rango como medida de dispersión es muy limitado, si bien brinda una
primera idea acerca de la heterogeneidad de los datos, tiene el inconveniente que sólo
toma en cuanta los valores extremos descuidando El conjunto de los valores intermedios.

Ejemplo: a continuación se presentan un conjunto de datos de las edades de 10 alumnos


del Diplomado de Supervisión y Control en la Industria Alimentaria.
27, 29, 24, 28, 26, 27, 28, 29, 27, 25
El rango de los datos es:
R = 29 - 24 = 5 años

2) VARIANZA.- Es la media aritmética de los cuadrados de las desviaciones respecto a la


media aritmética.
Desde un punto de vista práctico, es un valor muy engorros de interpretación, por que las
unidades asignadas a ella son cuadrados, tales edades2, soles2, dólares2, libras2 etc. Para
convertir esta medida de variabilidad en unidades originales, podemos tomar la raíz
cuadrada de s2 .
Se calcula de dos formas:

a) Calculo de la Varianza para datos no Agrupados.


n
 (X i − X )2
a1).- V(x)= S2 =
i =1
n
n
 x 2i
a2).- Método Corto V(X)= S2 =
i =n
n
( )
−X 2

Ejercicio. Observado las edades en años de un grupo de 4 niños atendidos en el


Hospital Belén de Lambayeque: 1, 3, 5, 7. Calcular la Varianza.
Solución:
4
 xi 1+ 3 + 5 + 7
X= i =1 = =4
4 4

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 33


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

4
 (X i − X )2
i =1 (1 − 4) 2 +(3 − 4) 2 +(5 − 4) 2 +(7 − 4) 2
S2 = = = S2= 5
4 4
Solución por el método corto.
4
 x 2i
V(X)= S2 =
i =n
4
( )
− X 2=
1 2

4
(1) +(3)2 +(5)2 +(7)2  −(4)2 =

S2 = 1/4(84) - 16 = 21 - 16 = 5
S2 = 5

b) Calculo de la Varianza para datos Agrupados


k
 (yi − y )2 f i
c) V(X) = S2 =
i =1
n

Ejemplo: Calcular la varianza de los sueldos de los empleados de la Empresa


CAMPOSOL de Trujillo que a continuación se dan en la siguiente tabla.

CUADRO N°10: DISTRIBUCION DE 60 EMPLEDOS DE LA EMPRESA CAMPOSOL DE


TRUJIILLO SEGÚN INGRESO (EN DOLARES) EN EL AÑO DE 2008
  yi fi Fiyi yi- y (yi-y)2 fi*(yi-y)2

320 - 370 345 4 1380 -155,83 24284,03 97136,11


370 - 420 395 8 3160 -105,83 11200,69 89605,56
420 - 470 445 11 4895 -55,83 3117,36 34290,97
470 - 520 495 12 5940 -5,83 34,03 408,33
520 - 570 545 10 5450 44,17 1950,69 19506,94
570 - 620 595 9 5355 94,17 8867,36 79806,25
620 - 670 645 6 3870 144,17 20784,03 124704,17
Total 60 30050 445458,33

Solución: Para calcular la varianza se debe seguir los siguientes pasos.

1.-Cálculo la media aritmética :


k 6
 f i yi  fi yi
Y = i =1 = i =1 = 30050 / 60 = 500.83
n 60

2.- Cálculo la Varianza.


k
 (yi − y )2 f i
S2 =
i =1
n

2
(345 − 500.83) 2 (4) + (395 − 500.83) 2 (8) + .... + (645 − 500.83) 2 (6) 445458.33
S = = = 7424.31
60 60

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 34


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Calculo de la Varianza Mediante el Método Corto


k
 yi2 f i
V(X) = S2 =
i =1
n
− y ()
Ejemplo: Del mismo ejemplo anterior calcular la Varianza mediante el uso del
método corto.

  yi fi yi*fi yi2 * fi
320 - 370 345 4 1380 476100
370 - 420 395 8 3160 1248200
420 - 470 445 11 4895 2178275
470 - 520 495 12 5940 2940300
520 - 570 545 10 5450 2970250
570 - 620 595 9 5355 3186225
620 - 670 645 6 3870 2496150
Total 60 30050 15495500
Para calcular la varianza mediante el método corto se sigue los siguiente pasos:
1.- Calculo la media aritmética.
k 6
 f i yi  fi yi
Y = i =1 = i =1 = 30050 / 60 = 500.83
n 60
2.- Calculo de la varianza.
k
 yi2 f i
V(X) = S2 =
i =1
n
− y () =
15495500
60
− (500.83) 2 =

S2 = 258258.33-250830.69 = 7427.64

4) DESVIACIÓN ESTANDAR.- Es un indicador que nos determina el grado de normalidad


de la distribución de los datos muéstrales alrededor de la media aritmética, dentro de
sus valores extremos mínimo y máximo.
La desviación estándar o típica se define como la raíz cuadrada de la varianza.

A.- Datos no Agrupados.


n n
 (X i− X )2  X 2i
S= i =1
n
ó S= I =1
n
−X 2( )
Ejercicio. Observado las edades en años de un grupo de 4 niños atendidos en El
Hospital Belén de Lambayeque: 1, 3, 5, 7. Calcular la desviación estándar.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 35


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

n
 (X i− X )2
i =1 (1 − 4) 2 +(3 − 4) 2 +(5 − 4) 2 +(7 − 4) 2
S= = =
n 4
S= 5 = 2.2360
Interpretación: La variabilidad de las edades de los niños atendidos en el Hospital
de Belén de Lambayeque es de 2.24 años.

B) Datos Agrupados

 (y i − y )2 f i
k k
 y 2i f i
S= S2 =
i =1
n
ó V(X) = S2 = i =1
n
()
−y2

Ejemplo: Del ejemplo de los sueldos de la Empresa CAMPOSOL DE Trujillo calcular


la desviación estándar.

S= 7427.64 = 86.16
Interpretación: La variabilidad de los sueldos con respecto a la media de los
empleados de la Empresa CAMPOSOL de Trujillo es de 86.16 dólares.

5) COEFICIENTE DE VARIACION.- Es una medida de variabilidad que indica el grado de


homogeneidad de la distribución. Se considera que si el C.V. es menor que el 33% la
distribución es homogénea, caso contrario es heterogénea . Se calcula de la siguiente
manera
S
C.V = X100
X
Ejemplo: Calcular el Coeficiente de Variación de los sueldos de los empleados de la Empresa
CAMPOSOL de Trujillo.
S 86.16
C.V = = x100 = 17%
X 500.83
Interpretación: La distribución de los sueldos de los empleados de la Empresa CAMPOSOL
de Trujillo es homogénea por tener un coeficiente de variación menor que el 33 %

Ejercicio de Aplicación. En una serie de mediciones de la temperatura de un cuerpo


realizadas con el termómetro A, tiene media 12.01 y desviación estándar, 0.027; mientras que
con otro termómetro B, la media de las mediciones fue 11.97 y la desviación estándar, 0.014.
Suponiendo que la persona que opera los instrumentos no introduce sesgo alguno en las
mediciones, ¿ Cuál es el termómetro relativamente más consistente?

Solución. El termómetro más consistente es el que tiene menor coeficiente de variación.


S 0.027
Termómetro A: CV = = = 0.0022 = 0.22%
X 12.01
S 0.014
Termómetro B: CV = = = 0.0012= 0.12%
X 11.97
Interpretación:

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 36


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

El coeficiente de variación del termómetro A es 0.0022 ( 0.22%), mientras que para el


termómetro B este coeficiente es 0.0012 ( 0.12%), por lo tanto el termómetro B es más
consistente.

PRUEBA DE NORMALIDAD DE UNA DISTRIBUCION


Las pruebaas para considerar “normal” una distribución son la asimetría y curtosis.
Asimetria:
En una curva normal, la media, mediana, y moda coinciden, AS= 0
Si la distribución es sesgada a la izquierda la asimetría es negativa, si es sesgada a la derecha
la asimetría es positiva. El índice de asimetría dado por PEARSON es.

3(Yˆ − Me)
Asimetria: As =
S
Si AS = 0: La distribución es simétrica (Fig. A)
Si As > 0: La distribución es Asimétrica Positiva (Fig. B)
Si As < 0: La distribución es Asimétrica Negativa (Fig. C)

X = Me = Mo Mo Me X
X MeMo
FIG: A FIG: B FIG. C

CURTOSIS: La curtosis se refiere a la altura de la distribución; si una distribución es más


apuntada de lo normal, es Leptocurtica, en caso contrario es Platicurtica”, el término medio
es la Mesocurtica” o normal

Q3 − Q1
K=
2( P90 − P10 )
Si K tiende a 0.25. la distribución es normal. ( Mesocurtica)
Si K tiende a 0.5, la distribución es (leptocurtica)
Si K tiende a 0 la distribución es (platicurtica)

DIAGRAMA O GRAFICO DE CAJAS (BOXPLOT)

Este tipo de gráfico es una representación simple de la información obtenida que nos permite
conocer:
➢ La localización del centro de los datos( con la mediana).
➢ La dispersión. ( con el rango intercuartil P75- P25).
➢ La Simetría ( Observando la posición de la mediana)

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 37


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

➢ La extensión de los extremos( Con los segmentos que parten de los lados laterales.
➢ La existencia de los valores aberrantes ( datos outliers en el idioma ingles que puede ser
dato incorrecto introducido al computador, puede ser una observación diferente de la
población de la cual viene el resto de las observaciones etc.)

La caja se construye graficando un rectángulo cuyos límites son los cuartiles inferior (percentil
25) y superior ( percentil 75), marcando la mediana con una línea horizontal. Desde la caja se
dibujan los bigotes cuyos extremos son los límites inferior y superior. Por fuera de los límites
se dibujan los puntos que representan a los valores aberrantes, fuera del contexto o “outliers”.

GRAFICO DE CAJAS ( Box Plots)

L Q1 Me= Q2 Q3 U

Donde:

Q1= P25, Q2=P50, Q3= P50, son los cuartiles o percentiles respectivamente. En el rectángulo
se indica la mediana, con un segmento vertical resaltado. De los datos que representan a los
percentiles 25 y 75 parten, respectivamente, un segmento hasta el valor L=P25 – 1.5d, en
donde d es el rango intercuartil y un segmento hasta el valor U=P75+1.5d.

PASOS PARA LA CONSTRUCCIÓN DE UN GRAFICO DE CAJAS

1.- Ordenar los datos ya sea en forma ascendente o descendente.


2.- Calculo de la Mediana (N).- Si existen n observaciones, el cálculo de la mediana
corresponde al valor n/2 que crece según regla anterior
3.- Cuartiles ( Qi ). El rango de un cuartil corresponde a n/4.
4.- Extremos ( L, U ). La observación menor y la mayor. Corresponde a cada extremo de los
números ordenados.
5.- Rango ( R ) o dispersión: Número mayor menos al menor . Es un valor muy afectado por
la presencia de los valores extremos
6.- Diferencia Intercuartil. ( dQ ). Es la distancia entre los cuartiles. Es un valor robusto
extremadamente resistente a los valores extremos.
7.- Limites ( Cercas ) y Valores Aberrantes o “Outliers”
Limite Superior = Cuartil Superior + 1.5 dQ
Limite Inferior = Cuartil inferior – 1.5 dQ
Los valores alejados de los límites deben ser considerados aberrantes y han de ser
examinados con una atención especial. Es importante detectar estos valores ya que dentro
del análisis estadístico pueden tener un impacto importante sobre resultados y sus
conclusiones.
Ejemplo: La siguiente figura un gráfico de cajas correspondiente a 58 notas de los
alumnos de un curso de Química.
2 8 9 12 18
* *
19

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 38


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

0 20

Se observa que el “centro” de los datos es 9 ( la mediana ). El percentil 25 es 8, el


percentil 75 es 12. El rango intercuartil es 4. Las notas 19 y 20 son datos discordantes o
outliers.

Ejemplo: Se obtuvieron los siguientes datos del nivel de glucosa en sangre medidos a 50
pacientes diabéticos. Los datos están en milimoles por litro.

2.6 2.5 1.3 2.4 2.0 3.0 2.4 2.3 2.6 3.0
3.2 4.4 3.6 4.3 3.7 4.3 3.7 5.0 3.8 4.4
3.7 5.0 3.8 4.4 4.4 4.5 5.0 6.2 6.3 6.2
7.0 8.0 9.5 7.9 9.0 10.2 11.1 8.7 12.5 15.0
14.9 10.0 10.2 17.5 6.0 8.8 12.5 12.5 14.0 6.3

a) Elaborar un gráfico de caja.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 39


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

CAPITULO VI

PROBALIDADES

Como es de nuestro conocimiento, la estadística es arte y ciencia que se rige por leyes y
métodos para la toma de decisiones frente a la incertidumbre y como tal, se basa en la teoría
de probabilidad.

PROBABILIDAD.- Es la medida de la incertidumbre y de los riesgos asociados con ella. Por


ello, el estudiante antes que aprender procedimientos estadísticos para tomar decisiones,
debe tener un concepto claro de la teoría de probabilidad.

EXPERIMENTO ALEATORIO.- Es todo proceso que consiste de la ejecución de un acto (a


prueba) una o más veces, cuyo resultado en cada prueba depende del azar y en consecuencia
no se puede predecir con certeza.

Ejemplo:
1) Lanzar un dado y observar su resultado.
2) Contar objetos defectuosos producidos diariamente por ciertos procesos.
3) Aplicar una encuesta para obtener opiniones.
4) Resultado del examen final en el curso de administración por parte de un estudiante.

ESPACIO MUESTRAL.- Es el conjunto de todos los resultados posibles de un experimento


aleatorio, se denota por .
A cada elemento del espacio muestral se denomina punto muestral. El espacio muestral se
describe por:

= w/w es un punto el resultado de la realización de un fenómeno aleatorio

Ejemplo:
1) Lanzar un dado y observar el resultado que aparece en la cara superior.
1 = 1, 2, 3, 4, 5, 6

2) Lanzar una moneda 3 veces.


2= ccc, css, csc, scc, ssc, scs, css, sss; resultado de tres pruebas también se pueden
desarrollar mediante el diagrama del Arbol.

Puntos
muestrales
3era prueba
2da prueba c ccc

ccs
1era Prueba c s
c csc
c
s css
s
c scc
c
s s scs

c ssc
Dr. Alfonso Tesén Arroyo s alfonsotesen@hotmail.com 40
s sss
Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

3) El experimento aleatorio consiste en lanzar una moneda y un dado a la vez, y observar los
resultados.
El espacio muestral es:
3= 1c, 2c, 3c, 4c, 5c, 6c, 1s, 2s, 3s, 4s, 5s, 6s,

4) Si el exponente aleatorio consiste en lanzar una moneda tantas veces como sea necesario
hasta que aparezca la primera cara, su espacio muestral es el conjunto
4= c, sc, ssc, sssc,… , etc

5) Si el experimento aleatorio es medir la vida útil (en heras) de una marca de artefactos
electrónicos, su espacio muestral es el conjunto.
Si el exponente aleatorio consiste en lanzar una moneda tantas veces como sea necesario
hasta que aparezca la primera cara, su espacio muestral es el conjunto
5 = t = R/t  0  R=#s reales

CLASIFICACION DE LOS ESPACIOS MUESTRALES


Por el número de elementos o puntos, muestrales se clasifican en:

1.- DISCRETOS FINITOS. Consisten de un número finito de elementos, por ejemplo: los
espacios. 1, 2 y 3.
2.- DISCRETOS INFINITOS. Consiste de un número infinito numerable de elementos,
ejemplo el espacio 4.
3.- CONTINUOS. Consiste de un número infinito no numerable de elementos, ejemplo: el
espacio 5.
SUCESOS O EVENTOS.- Se llama suceso o evento a todo conjunto del espacio muestral. A los
sucesos se les denota con las primeras letras mayúsculas del alfabeto A, B ,C.

Ejemplo:
Sea el experimento aleatorio:”selección de un alumno de acuerdo a su rendimiento
académico”. El espacio muestral es:
= {Sobresaliente, Bueno, Regular, Malo}.

Los elementos son:


Evento A= {Sobresaliente}
Evento B= {Bueno}
Evento C= {Regular}
Evento D= {Malo}

Ejemplo:
Sea el experimento lanzar un dado y observar el número que aparece en la cara superior.
= {1, 2, 3, 4, 5, 6}.
Los eventos pueden ser:
i) Observar un número impar: A = {1, 3,5}

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 41


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

ii) Observar un número < que 4: B = {1, 2, 3 }

CLASES DE EVENTOS:

1) EVENTO IMPOSIBLE:(), que no tiene puntos muestrales, en consecuencia no ocurre


nunca.
2) EVENTO UNITARIOS O ELEMENTALES, {wi}, que contienen un solo punto muestral.
3) EVENTOS COMPUESTOS, que consisten de dos o más cuentas.
4) EVENTO SEGURO O CIERTO,(), Es el mismo espacio muestral, ya que es le
subconjunto que contienen a todos los eventos elementos

PROBABILIDAD DE UN EVENTO.
Sea  un espacio muestral asociado a un experimento aleatorio. La probabilidad de cualquier
evento A de , es el numero real P(A) que satisface los siguientes axiomas.

1) P(A)  0, para todo evento A.


2) P() = 1
3) Si A y B son dos eventos mutuamente excluyentes, entonces: P(AUB)= P(A) + (PB)
4) P(A1 U A2 U…UAK)=P(A1) + P(A2) + ... + P(AK)
5) Si A y B son dos eventos cualquiera no excluyentes entonces:P(AUB)=P(A)+(PB) – (A  B).

TEOREMA: si  es el evento imposible, entonces P()=0


Si Ac es el evento complementario del evento A  P(A) = 1 – P(Ac).
En el siguiente gráfico se puede apreciar que el espacio muestral y la probabilidad resulta de
relacionar el espacio muestral con el suceso.

EXPERIMENTO Espacio Suceso


ALEATORIO muestral (A)
()

P(A)= n( A)
n()

Ejemplo:
En una sección del curso de estadística asisten 20 alumnos con chompa y 30 sin chompa, se
selecciona por sorteo un alumno de dicha sección, halle la probabilidad de que dicho alumno
está con chompa.

Solución:
El espacio muestral  tiene 50 elementos, por tanto n() =50.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 42


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Sea el suceso:
A = Seleccione un alumno con chompa n(A)=20
Luego, la probabilidad del suceso A es:
n( A) 20 2
P(A) = = =  P(A) =0.40: 40%
n() 50 5

Ejemplo:
Se lanza una moneda tres veces, determinar la probabilidad de que se obtengan:
a) Exactamente dos caras.
b) Por lo menos dos caras
Solución:
El espacio muestral es: = {ccc, ccs, csc, scc, css, scs, ssc, sss}
Por lo tanto el numero de resultados posibles del experimento es: n() =8

a) Sea el suceso:
A={se obtuvo exactamente dos caras}
A={ccs, csc, scc}
Por lo tanto, el número de resultados favorables al suceso A es:
n( A) 3
P(A) = =  P(A) =0.375
n ( ) 8
 la probabilidad de obtener exactamente dos caras en 3 lanzamientos de una moneda
es 0.375.

b) Sea el suceso:
B= se obtuvo por lo menos dos caras .
B={ccs, csc, scc, ccc}
Por lo tanto, el número de resultados favorables al suceso B es: n(B) =4
 La probabilidad del suceso B:
n( B ) 4
P(B) = = =0.5
n () 8
La probabilidad de obtener por lo menos dos caras en tres lanzamientos de una
moneda es 0.5.

Ejemplo:
Se lanza un dado y se observa el número obtenido. Calcular la probabilidad de obtener:
a) 3 puntos
b) al menos 3 puntos.

Solución:
a) Si A es el evento de obtener ”3 puntos”,
A = {3} y la probabilidad de A es el numero
n( A) 1
P(A) = =
n ( ) 6
b) Si B es el evento de “obtener por lo menos 3 puntos
n( B ) 4
B= {3, 4, 5, 6} y la probabilidad B es el numero: P(B)= =
n ( ) 6
Ejemplo:
Un dado se lanza dos veces consecutivas. Calcular la probabilidad de obtener:

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 43


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

a. 7 puntos
b. 6 puntos solo en la segunda tirada
c. la suma sale 7 puntos o 6 puntos solo en la segunda tirada.
d. La suma sale 7 puntos y 6 puntos solo en la segunda tirada.

Solución:
= {(i,j) / i,j=1, 2, 3, 4, 5, 6}: este espacio tiene 36 eventos elementales probables}.

= {(1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2.6) (3,1)....(6,6)}

X 1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,1) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

a) Si A es el evento obtener “suma 7 puntos”, entonces.


A = {(1,6) (6,1) (2,5) (5,2) (3,4) (4,3)} entonces
n( A) 6
P(A) = =
n() 36

b) Si B es el evento” sale 6 solo en la segunda tirada”, entonces.


B={(1,6) (2,6) (3,6) (4,6) (5,6)}
n( B ) 5
P(B)= = = 0.139
n() 36

c) El evento “sale 7 o 6 en la segunda tirada” es


AUB= {(1,6) (6,1) (2,5) (5,2) (3,4) (4,3) (2,6) (3,6) (4,6) (5,6)}
n( AUB) 10
P(AUB)= = = 0.278
n ( ) 36

d) El evento “sale suma 7 y solo 6 en la segunda tirada” es: A  B={(1,6)} y la


n( A  B ) 1
probabilidad de este evento es el numero P(A  B)= = = 0.0275
n () 36

Ejemplo:
De los niños examinados por una nutricionista, se encontró que 80 padecían de desnutrición
leve, 50 padecían de desnutrición crónica, 70 normales. Si de los niños examinados se
selecciona uno al azar ¿Cuál es la probabilidad de que padezca de desnutrición leve o
desnutrición crónica?

Solución:
Sean los eventos
A= {Niños con desnutrición leve=80}
B= {Niños con desnutrición crónica=50}
C= {Niños con desnutrición normal=70}

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 44


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

80 50 130
P(AUB)= P(A) + P(B)= + + = 0.65
200 20 200

Ejemplo:
De 100 pacientes examinados, 20 padecían de artritis, 32 padecían de gastritis y 8 tenían
ambos males. Hallar la probabilidad de seleccionar un pacientes de artritis o gastritis.

Solución:
Sean los eventos
A={Número de pacientes que sufren de artritis =20}
B={Número de pacientes que sufren de Gastrits =32}
A  B={Número de pacientes que sufren de artritis y gastritis =8}

P(AUB)= P(A) + P(B) – P(A  B)


20 32 8 44
P(AUB)= + − = = 44%
100 100 100 100

Ejemplo:
La probabilidad de que llueva en Huancayo el 12 de octubre es 0.10; de que truene es 0.5 y
de que llueva y truene es 0.03 ¿Cuál es la probabilidad de que llueva y truene en ese día ?

Solución:
Sean los eventos
A={Llueve en Huancayo el 12 de octrubre}
B={Truene el 12 de octubre}
C={Llueve o truene}
P(A)= 0.10, P(B)=0.05, P(AB)=0.03
P(C)=P(AB)=P(A) + P(B) – P(AB)=0.10 + 0.05 – 0.03 = P(AB)=0.12
Ejemplo:
La probabilidad de que un estudiante apruebe matemática I es 2 y la probabilidad de que
3
apruebe métodos cuantitativos es 4 . Si la probabilidad de aprobar almenos una de estas
9
materias es
4 , ¿Cuál es la probabilidad de que apruebe ambos cursos?
5
Solución:
Sean los eventos:
A= El estudiante apruebe el curso de matemática I
B= El estudiante apruebe el curso de Métodos Cuantitativos
C= La probabilidad de aprobar ambos cursos 
2 4 4 14
P(A  B) = P(A) + P(B) - P(A B) = + - = = 0.3111
3 9 5 45
La probabilidad de que el estudiante apruebe ambos cursos es de 0.311

PROBABILIDAD CONDICIONAL.- A menudo se requiere determinar la probabilidad de que


ocurra un evento sabiendo que otro evento ha ocurrido.
Sean Ay B dos eventos en un espacio muestral.
La probabilidad condicional de que B ocurra dado que A ha ocurrido, se define por:

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 45


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

P( A  B)
P(B/A)= ; Si P(A)>0
P( A)
Ejemplo:
Un club consiste de ciento cincuenta miembros, clasificados según la siguiente tabla.

PROFESIONAL NO PROFESIONAL TOTAL


(P) (N)
Hombre(H) 60 30 90
Mujer (M) 40 20 60
100 50 150

Se elige al azar un socio del club.


1) calcular la probabilidad de que sea hombre (H), dado que es profesional (P)
2) si resulta mujer (M), calcular la probabilidad de que no sea profesional (N)

SOLUCION:
n( H  P ) 60
1) P(H/P)= = = 0.6
n( P ) 100
Probabilidad condicional:
p( H  P) 60 / 150
P(H/P)= = =0.6
p( P) 100 / 150
n( N  M ) 20 1
2) P(N/M)= = = ó
P( M ) 60 3
n( N  M ) 20 / 150 1
P(N/M)= = =
n( M ) 60 / 150 3

Ejemplo:
Uno de los clubes universitarios femeninos está compuesto por las siguientes asociadas: 15
rubias de ojos azules, 8 rubias de ojos castaños, 9 morenas de ojos azules, 12 morenas de
ojos castaños, 4 pelirrojas de ojos azules y 2 pelirrojas de ojos castaños. Supongamos que
usted ha conseguido una cita con una de las chicas sin conocerla, y esta lloviendo cuando se
encuentra usted con ella. Su cabello esta completamente cubierto, pero sin embargo sus
chispeantes ojos azules le dan la bienvenida. ¿Cuál es la probabilidad de que sea rubia?

COLOR DE OJOS RUBIA MORENA PELIRROJA TOTAL


OJOS AZULES 15 9 4 28
OJOS CASTAÑOS 8 12 2 22
Total 23 21 6 50

Sean los eventos.


A: La chica es rubia
B: La chica es de ojos castaños
Luego tenemos:

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 46


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

p ( H  P) 15 15
P(A/B)= = = =0.536
P( B) 50 28
28
50

EVENTOS INDEPENDIENTES.
Si la probabilidad del evento A no depende de la realización del evento B. Formalmente se
dice que los eventos A y B son independientes si: P(A/B)=P(A) ó P(AB)= P(A).P(B).
En general si los n eventos A1, A2, A3,....An, son independientes entonces:
P(A1A2 ....An) =P(A1) P(A2) .... P(An).

Ejemplo:
1
La probabilidad de que un hombre viva 10 años más es y la probabilidad de que su esposa
4
viva 10 años más es 1 . Hallar la probabilidad de que “Ambos vivan 10 años más”
3

Solución:
A: El hombre vive 10 años más
B: La esposa viva 10 años más

Los eventos A y B son independientes, pues los años que viva el hombre no dependen de lo
que viva su esposa:
1 1 1
P(AB)=P(A)P(B)= . =
4 3 12
Entonces la probabilidad de que ambos vivan 10 años más es 1/12

EVENTOS DEPENDIENTES
Si los eventos Ay B son dependientes, entonces la ocurrencia simultanea de los eventos es:
P(AB) = P(A) P(B/A).

En general:
Si A1, A2,...An, P(A1,A2 ... An)=P(A1) P(A2/A1) P(A3/A1A2) P(An/A1A2A3 …An-1)
Siempre que P(A1A2A3…An-1)

Ejemplo 1. El supervisor de un grupo de 20 obreros de la construcción desea conocer la


opinión de 2 de ellos (a los que seleccionara al azar) sobre cierto reglamento de seguridad
reciente emisión. Si 12 de ellos están a favor del nuevo reglamento y los otros 8 en contra,
¿qué probabilidad hay de que los 2 trabajadores seleccionados por el supervisor se manifiesten
en contra del nuevo reglamento de seguridad?

Solución:

P(A): Probabilidad de que el primer obrero seleccionado este en contra del nuevo
8
reglamento de seguridad P(A)=
20

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 47


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

P(B/A): Probabilidad de que el Segundo obrero seleccionado este en contra del Nuevo
7
reglamento de seguridad, concediendo que el primero esta en contra, es:P(B/A)=
19
8 7 14
 P(BA)= . =
20 19 95

Ejemplo 2. Un alumno debe recoger entre tomar un curso de matemáticas o llevar un curso
1
de letras. Si escoge el de matemáticas la probabilidad de que lo apruebe es , muestra que si
3
3
escoge el de letras, la probabilidad de que lo apruebe es . Para decidir que curso llevar,
4
acuerda lanzar una moneda equilibrada.

1. ¿Cuál es la probabilidad de que el alumno lleve el curso de matemáticas y lo apruebe?


2. ¿Cuál es la probabilidad de que lleve el curso de letras y no lo apruebe?

Solución
Sean los eventos:
A={“Llevara el curso de matemáticas”}
M={“Aprobar matemáticas”}
L={“Llevar el curso de letras”}
B={“Aprobar el curso de letras”}

1.- La probabilidad de llevar el curso de matemáticas y aprobarlo es:


P(M  A) = P( M/A)P(A) =(1/3)(1/2)= 0.1667

2.- La probabilidad de llevar y no aprobar el curso de letras es :


P(L  B ) = P( B /L)P(L) =(1-3/4)(1/2)= 0.0.125

Ejercicio:
En un estudio se encontró que la probabilidad que se incremente el empleo en el asentamiento
humano “x”, es de 35%; de que se incremente el consumo de artículos de primera necesidad,
es de 5%; y de que incremente el consumo de artículos de primera necesidad dado el
incremento de empleo, es de 10% ¿Cuál es la probabilidad de que se incremente el empleo y
el consumo de artículos de primera necesidad?

Solución
EVENTOS PROBABILIDADES
A= Incremento del empleo

B= Incremento del consumo de


artículos de primera necesidad

B/A= Incremento del consumo de


artículos de primera necesidad dado
que se incremente el empleo

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 48


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

PROBABILIDAD TOTAL
Si los eventos A1 , A2 , . . . AK, forman una partición del espacio muestral  , tal que
P(A i )  0 para cada i=1,2,. . . ,K. Entonces para cualquier evento B en  se tiene que :

P(B) = P(A1 ) P(B A1 ) + P(A 2 )P(B A 2 ) + . . . + P(A K ) P(B A K ).

DEMOSTRACIÓN :

A1 A2 A3 ... AK

B B  AK 
B  A1 B  A2 B  A3 . . .

 = A1  A2  A3 . . .  An

Del diagrama B = B

 B = B
B = B  (A1  A2  A3  . . .  An )

B = (B  A1)  (B  A2 )  (B  A3 )  . . . (B  An )

 Por probabilidad conjunta

P(B  A i ) = P B  P ( A ) + P B
 1
  
 A  P ( A 2 ) + . . . P B A  P ( A n )
 A1   2  n

Ejemplo:
Supóngase que en la Escuela Profesional del Ingeniería Química de la U.N.P.R.G hay 40
alumnos; 20 están en 1er ciclo; 15 en 2do Ciclo y 5 en 3er ciclo; se sabe que 10 del 1er Ciclo, 5
del 2do Ciclo y 1 del 3er Ciclo son “hinchas” del Alianza Lima. Se elige un alumno al azar ¿Cuál
es la probabilidad de que sea del Alianza Lima?

Solución:

A1(20) A2(15) A3(5)

B
B  A1 B  A2 B  A3
10 5 1

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 49


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

A1 = Primer Ciclo (20)


A2 = Segundo Ciclo (15)
A3 = Tercer Ciclo (5)

B = “Hinchas del Alianza Lima son” = 16

Con lo analizado tenemos :

P(B) = P B  P ( A ) + P B

 A1 
1
 ( )
 A  P ( A 2 ) + P B A3 P ( A 3 )
 2

10 5 1 16 2
P(B) = + + = =
40 40 40 40 5
Entonces la probabilidad de que un alumno seleccionado sea hincha del Alianza Lima es 0.4.

TEOREMA DE BAYES:
Previamente hagamos un breve comentario sobre este teorema, utilizando el ejemplo anterior
correspondiente al cálculo de la probabilidad de que un alumno sea hincha del Alianza Lima.
Supongamos ahora que conocemos que B ocurre, que su probabilidad de ocurrencia también
es conocida y que estamos interesados en hallar la probabilidad de ocurrencia de uno de los
sucesos de la partición digamos Aj, esto lo denotamos por P(Aj/B) luego por definición de
probabilidad condicional.

 A  P( Aj  B)
P j =
 B P( B)

Luego por definición de probabilidad conjunta y por el teorema de la probabilidad total.

P ( A j ) P B 
P  Aj  =  Ai 

 P( Ai) P(B Ai )
 B n

i =1

Ejemplo :
Utilizando el ejemplo anterior; supongamos que el alumno seleccionado es hincha del alianza
lima, es decir sabiendo que es hincha de alianza lima, calcular la probabilidad de que el alumno
sea del 1er Ciclo, entonces:

P(A1 ) P B 
20 10
x
P(A1 B) =  A1
= 40 20 = 10 = 5
n 16 16 8
 P(Ai ) P B Ai  40
i =1

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 50


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Análogamente; la probabilidad de que el alumno sea del 2do Ciclo, dado que es hincha del
Alianza Lima es:

P
A2  = P ( A 2  B) = 5
 B
  P( B) 16

y la probabilidad que sea de 3er Ciclo, sabiendo que es hincha de Alianza Lima es :

P
A3  = P( A3  B) = 1
 B
  P( B) 6

Ejemplo:
En una fábrica, la máquina A produce el 30% de su rendimiento total, la máquina B, el 25% y
C el 45% restante; el 1% de la producción total de la máquina A es defectuosa asimismo el
1.2% y el 2% de la máquina B y C respectivamente; en un día las tres máquinas producen
10,000 artículos.
Un artículo es seleccionado al azar en un día.
¿Cuál es la probabilidad que sea producido por A ?; ¿Por B? Y ¿Por C?

Solución:
A B C

AD BD DC

P(A) =0.30 P(B) =0.25


P(C) =0.45 P(D/A)=0.01
P(D/B)=0.012 P(D/C)=0.02
P(D) ( A)P( A) + P(D B )P( B) + P(D C )P(C )
=0.015 Calculado de P ( D ) = P D

a) Y P A ( D)= P(A) P(D )+ P(B) P((D A))+ P(C) P(D )


P( A) P D

A B C

PA ( D)= (0.300.)015
(0.01)
= 0.2 , es la probabilidad que sea producido por A

( D )= P( A) P(D )+ PP((BB)) PP((D B))+ P(C ) P(D )


D
b) P B
A B C

( D)= (0.250).015
PB
(0.012)
= 0.2 , es la probabilidad que sea producido por B

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 51


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

( D)= P( A) P(D )+ PP((CB)) PP((D C))+ P(C ) P(D )


D
c) P C
A B C

( D)= (0.450.)015
PA
(0.02)
= 0.6 , es la probabilidad que sea producido por C

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 52


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

CAPITULO VIII

ESTIMACION DE PARAMETROS Y PRUEBAS DE HIPOTESIS

INTRODUCCION.
Todo el mundo hace estimaciones. Cuando está por cruzar una calle, hace una estimación de
la velocidad del automóvil que se acerca, de la distancia que hay entre usted y el auto y de su
propia velocidad. Habiendo hecho rápidamente todas estas estimaciones, usted decide si
espera, camina o corre.
Los administradores también deben hacer estimaciones rápidas. El resultado de estas
estimaciones puede afectar sus organizaciones de manera tan seria como el resultado de su
decisión de cruzar la calle. Los jefes de departamento de una universidad hacen estimaciones
acerca de las inscripciones para el semestre siguiente en las materias. Los directores de
crédito estiman si un cliente pagará o no sus débitos. Los futuros compradores de casa hacen
estimaciones concernientes al comportamiento de las tasas de interés de los préstamos
hipotecarios. Todas estas personas hacen estimaciones sin preocuparse de si son científicas o
no, pero con la esperanza de que las estimaciones tengan una semejanza razonable con el
resultado.
Los administradores utilizan estimaciones porque, hasta en los asuntos más triviales, deben
tomar decisiones racionales sin contar con la información pertinente completa y con una gran
incertidumbre de lo que el futuro pueda deparar. Como ciudadanos instruidos y profesionales,
podremos hacer estimaciones más útiles si aplicamos las técnicas descritas en este capítulo y
los que le siguen. El material sobre teoría de probabilidad que se presentó en los capítulos
anteriores constituye la base de la inferencia estadística, rama de la estadística que se ocupa
del uso de los conceptos de probabilidad para manejar la incertidumbre en la toma de
decisiones. La inferencia estadística está basada en la estimación, concepto que se introduce
en este capítulo, y en las pruebas de hipótesis, que es el tema de los capítulos posteriores.
Tanto en la estimación como en las pruebas de hipótesis, haremos inferencias acerca de las
características de las poblaciones a partir de la información proporcionada por las muestras.
¿De qué manera los administradores utilizan estadísticas para estimar parámetros de una
población? El jefe de departamento de alguna universidad intenta estimar el número de
inscripciones que tendrá el siguiente semestre a partir de las inscripciones actuales en los
mismos cursos. El director de un departamento de crédito intentará estimar el valor crediticio
de los futuros clientes a partir de una muestra de sus hábitos de pago. El comprador de una
casa intenta estimar el curso futuro de las tasas de interés mediante la observación de su
comportamiento actual. En cada caso, alguien trata de inferir algo acerca de una población a
partir de la información adquirida de una muestra.
En este capítulo introducimos métodos que nos permiten estimar con precisión razonable la
proporción de la población (la fracción de la población que posee una característica dada) y la
media de la población. Calcular la proporción exacta o la media exacta sería una meta
imposible. Pero, a pesar de ello, seremos capaces de hacer una estimación, establecer una
afirmación respecto al error que tal vez acompañará a esta estimación, y poner en marcha
algunos controles para evitar dicho error en la medida de lo posible. Como tomadores de
decisiones, nos veremos forzados, en ocasiones, a confiar en nuestros presentimientos. Sin
embargo, en otras situaciones, en las que dispongamos de información y podamos aplicar los
conceptos de estadística, tendremos mejores resultados.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 53


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

TIPOS DE ESTIMACIONES

Podemos hacer dos tipos de estimaciones concernientes a una población: una estimación
puntual y una estimación de intervalo. Una estimación puntual es un solo número que
se utiliza para estimar un parámetro de población desconocido. Si mientras observa el primer
integrante de un equipo de fútbol americano salir al campo de juego, se dice: “¡Caramba!
Apuesto a que el peso promedio de los jugadores defensivos es de 125 kilogramos”, usted ha
hecho una estimación puntual. El jefe de departamento de una universidad estaría haciendo
una estimación puntual si afirmara: “Nuestros datos actuales indican que en esta materia
tendremos 350 estudiantes el siguiente semestre”.
A menudo, una estimación puntual es insuficiente debido a que sólo tienen dos opciones: es
correcta o está equivocada. Si le dicen solamente que la afirmación sobre la inscripción está
equivocada, no sabe qué tanto está mal y no puede tener la certeza de que la estimación es
confiable. Si se entera de que sólo está errada por 10 estudiantes, podría aceptar a 350
estudiantes como una buena estimación de la inscripción futura. Pero si está equivocada en 90
estudiantes, la rechazaría como estimación de la inscripción futura. Entonces, una estimación
puntual es mucho más útil si viene acompañada por una estimación del error que podría estar
implicado.

Una estimación de intervalo es un rango de valores que se utiliza para estimar un


parámetro de la población. Una estimación de este tipo indica el error de dos maneras: por la
extensión del intervalo y por la probabilidad de que el verdadero parámetro poblacional se
encuentre dentro del intervalo. En este caso, el jefe de departamento diría algo como lo
siguiente: “Estimo que la inscripción real de este curso para el próximo semestre estará entre
330 y 380, y es muy probable que la inscripción exacta caiga dentro de este intervalo”. Con
esto tiene una mejor idea de la confiabilidad de su estimación. Si el curso se imparte en
grupos de 100 estudiantes cada uno y si, tentativamente, se han programado cinco cursos,
entonces, de acuerdo con la estimación, puede cancelar uno de los grupos y abrir uno
optativo.

ESTIMACION DE PARAMETROS
Los Métodos de Inferencia Estadística consisten en seleccionar una muestra aleatoria de la
Población, de manera que a partir de la información que se obtenga de la muestra.
1) Determinar el valor del parámetro desconocido , ó
2) Decidir si , ó alguna función de , es igual a algún valor preconcebido  0 de 

El primero de estos procedimientos se denomina estimación del parámetro 


El segundo procedimiento se conoce como prueba de Hipótesis del parámetro . El método de
estimación de un parámetro puede ser puntual o por intervalo.
En el primer caso, la estimación del parámetro  es un número.
Mientras que en el segundo caso la estimación incluye un intervalo en el que están
comprendidos los valores del parámetro.
Un estimador puntual del parámetro  es pues la función de la muestra

ESTIMACION PUNTUAL.

Un estimador puntual del parámetro  es pues la función de la muestra variable aleatoria) ,


mientras que una estimación puntual es el valor Numérico del estimador.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 54


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Ejemplo
Suponga que la variable aleatoria X tiene un distribución normal con media desconocida . La
media muestral es un estimador puntual de la media poblacional desconocida .
Es decir ̂ = X ,después de seleccionar la muestra, el valor numérico es la estimación
puntual de 

Ejemplo de Estimación Puntual:


Por tanto, si X1 = 25, X2= 30, X3=29 y X4=31, entonces la estimación puntual de  es

25 + 30 + 29 + 31
x= = 28.5
4
De igual manera se puede encontrar el estimador puntual de la varianza etc.

ESTIMACION DE PARAMETROS POR INTERVALOS DE CONFIANZA


En muchas situaciones, la estimación puntual de un parámetro no le ofrece información
completa a un investigador, ya que toda estimación puntual debe ir acompañada con alguna
medida de la dispersión de la misma.

Intervalo de Confianza ó Estimado de Intervalo

Parámetro = Estimado ± error muestral

Se espera que el parámetro esté dentro de los límites de este intervalo

Limite Inferior Limite Superior

Estimado

Ejemplo.
El promedio de las longitudes de cierto artículo es de 12 0.2m ([1.2 - 0.2, 1.2+0.2]) o que el
candidato obtendrá el 64  3%(0.64 0.003) de las preferencias del electorado
El intervalo de confianza cuando n30, se calcula de la siguiente manera :

   
 X − ( z1− / 2 ) n , X + ( z1− / 2 ) n 

Tabla de valores de Z
Coeficiente de confianza (1-  Z/2
)
0.90 0.1 1.645
0.95 0.05 1.96
0.99 0.01 2.58

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 55


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Ejemplo.
Una máquina de empaquetar bolsas de café, esta calibrada para embalar bolsas cuyos pesos
se distribuyen normalmente con media 500g y desviación estándar de 10g.
La maquina sufrió un desperfecto y se desea calibrarla, para lo cual se desea saber el nuevo
promedio  .Se toma una muestra aleatoria de 36 paquetes arrojando una media de 485g.
Hallar un intervalo de confianza de 95% de confianza para .

x = 485g  = 10 g  = 1 -  = 0.95


 = 0.05 = 0.025
2

Luego PZ  z /2  = 0.025

El valor de z/2 que deja a su derecha un área que representa una probabilidad igual a 0.025 es
de z/2 =1.96
Por lo tanto el intervalo de confianza para  con coeficiente de confianza es de =95% es

2.5%

  10   10  
I =  485 - 1.96  , 485 + 1.96 
  36   36  

I = 481.73, 488.26

2 El intervalo de confianza cuando n<30, para una media se calcula de la siguiente


manera

   
 X − t1− 2 n , X + t1− 2 n 

S
Ejemplo
A continuación se dan los pesos (g) de un pdto lácteo instantáneo:
42.7 42.78 42.76 43.39 41.60

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 56


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

43.83 43.18 42.78 42.01 43.20

43.68 42.56 42.95 43.06 43.10


Hallar el intervalo al nivel de confianza del 99% para la media , de los pesos de todos los
estudiantes del colegio, se supone que los pesos se distribuyen normalmente

n = 15 x = 42.88  = 0.01
El valor de s es :
1 15
s=  ( xi − x) 2 = 0.5406
14 i =1
El valor de t1-/2, corresponde al cuartil en la distribución estándar con 15-1 grados de libertad
para lo cual
P− t1− / 2  t  t1− / 2  = 1 −  = 0.99
 s 
 = 42.46 , 43.29
s
 x − t1− / 2 , x + t1− / 2
 n n

PRUEBA DE HIPOTESIS.

INTRODUCCION
Esta es otra parte de la estadística inductiva o inferencial, llamada prueba de hipótesis,
significancia o procedimientos de toma de decisiones. La prueba de hipótesis, es otra manera
de abordar el problema de hacer una afirmación acerca de un parámetro desconocido asociado
con una distribución de probabilidades, basándose en una muestra aleatoria en lugar de hallar
un estimador para el parámetro a menudo es conveniente formular una hipótesis sobre el valor
del parámetro y luego usar la información de la muestra para confirmar o rechazar el valor de
la hipótesis con un nivel particular de confianza o seguridad.

El objetivo es brindar algunos métodos que se usan para tomar decisiones sobre
poblaciones, a partir de los resultados de una muestra aleatoria escogida de esa población.
Para llegar a tomar decisiones estadísticas se debe partir de afirmaciones o conjeturas con
respecto a la población en el que estamos interesados. Tales suposiciones, pueden ser
verdaderas o no. Una conjetura hecha sobre una población o sobre sus parámetros deberá ser
sometida a comprobación experimental con el propósito de saber si los resultados de una
muestra aleatoria extraída de esa población, contradicen o no tal conjetura

Hipótesis estadísticas
Es cualquier afirmación o conjetura que se hace acerca de la distribución de una o más
poblaciones.
La afirmación o conjetura puede referirse bien a la forma o tipo de distribución de probabilidad
de la población o bien al valor o valores de uno o más parámetros de la distribución de la
población.
En este caso las hipótesis estadísticas consiste en suponer que los parámetros que definen a la
Población toman determinados valores numéricos.

Ejemplos:
1. El promedio poblacional de la altura de los Peruanos es 1.6m. esto es:
 = 1.60
2. La varianza poblacional de los salarios de los obreros de la Industria Textil es:

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 57


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

S/. (500)2 esto es:


 2 = (500)2 = 250,000
3. La proporción de unidades defectuosas de producción por cierto proceso es menor o igual a
8 por ciento, esto es:
P  0,08

Hipótesis nula (H0)


Se representa por H0, es la hipótesis que es aceptada provisionalmente como una verdad y
cuya validez será sometida a verificación o comprobación experimental.

Hipótesis alternativa ( H1 )
Es la suposición contraria a la hipótesis nula, se representa por H 1 y se acepta en el caso que
la hipótesis nula sea rechazada.

Ejemplo: Si se asume que  0 es un valor del parámetro desconocido  de una población


cuya distribución se supone conocida, entonces son hipótesis nulas y alternativas
respectivamente las siguientes afirmaciones:
1. H 0:  =0 y H1:   0

2. H 0:    0 y H1:  >  0

3. H 0:    0 y H1:  < 0

Prueba de Hipótesis Estadística.


Es un proceso que nos conduce a tomar la decisión de aceptar o rechazar la hipótesis nula H 0,
en contraposición de la hipótesis alternativa H 1 y en base a los resultados de una muestra
aleatoria seleccionada de la población en estudio.
La hipótesis nula H0 es la primera hipótesis que se plantea y debe ser establecida de manera
que se especifique un valor  0 del parámetro  en estudio. Por esta razón, algunos autores
plantean la hipótesis nula
H0 :  =  0 aún para los casos 2) y 3) del ejemplo anterior.
También se puede definir como un ensayo de hipótesis o dócima de hipótesis, son
procedimientos que se usan para determinar, si es razonable o correcto, aceptar que el
estadístico obtenido en la muestra, puede provenir de la población que tiene como parámetro,
el formulado en H0.

Tipo de pruebas de hipótesis


Las Pruebas de Hipótesis Estadísticas son de dos tipos:

(i) Unilaterales y ( ii ) Bilaterales o dos colas.


Esta división se hace según la región de rechazo se localiza en una cola o en las dos colas de la
distribución normal estándar.
El tipo de prueba depende básicamente de la Hipótesis alternativa H 1

1. Prueba Unilateral de Cola a la Derecha


Prueba de Hipótesis Acerca de la Media Poblacional
H0:  =  0 contra H1  >  0

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 58


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

2. Prueba Unilateral de Cola a la Izquierda


H 0:  =  0 contra H1  < 0

3. Prueba Bilateral o Dos Colas


H 0:  = 0 contra H1  0

La experiencia indica que al tomar una decisión se puede cometer dos tipos de errores:

Errores de tipo I y tipo II


Al tomar la decisión de aceptar o rechazar la hipótesis nula H0 :  = 0 en base a los
resultados obtenidos de una muestra aleatoria seleccionada de la población en estudio; existen
cuatro posibles situaciones que determinan si la decisión tomada es correcta o incorrecta,
como se muestra en la siguiente Tabla:

H0 ES H0 ES FALSA
DECISIÓN VERDADERA
Rechazar Ho Error de tipo I Decisión correcta

Aceptar H0 Decisión Correcta Error tipo II

Error de tipo I
Es el error que se comete al rechazar una Hipótesis nula H 0 cuando ésta es verdadera.
La Probabilidad de cometer un error de Tipo I se denota por :
 =P[error tipo I] = P[rechazar H0 cuando H0 es verdadera]

Error de tipo II
Es el error que se comete al aceptar una hipótesis nula H0 cuando en realidad es falsa.
La probabilidad de cometer un error tipo II se denota por  entonces:

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 59


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

= P[error tipo II]=P[aceptar H0 cuando H0 es falsa]

Nivel de significación de una prueba ( )


Es el subconjunto del espacio muestral que nos conduce a rechazar H0 cuando es verdadero. Es
decir, es la probabilidad de cometer un error Tipo I.
 =P[error tipo I] = P[rechazar H0 cuando H0 es verdadera]

Los niveles de significación más usados en la práctica son:  = 0,05, ó  =0,01

Potencia de una prueba


Es la probabilidad de tomar la decisión acertada de, rechazar H0 cuando ésta es falsa o de
aceptar H1 cuando ésta es verdadera. La potencia de una prueba es calcula por 1-  .

Región crítica y regla de decisión


Para aceptar o rechazar la hipótesis nula H0, debemos conocer claramente tres aspectos:
región crítica, el valor crítico y el estadístico de prueba:

a) El valor crítico. es el valor que separa a la región de rechazo de la región de aceptación.


Es el primer valor de la región crítica. El valor crítico depende del valor de  y del
enunciado de la hipótesis alternativa H 1. El valor crítico de una prueba puede considerarse
también como el riesgo que tiene el que decide cuando, al obtener un cierto valor del
estimador, rechaza la hipótesis nula.
b) La Región Crítica.( o región de rechazo), es el conjunto de valores para el estadístico de
prueba que nos llevará a rechazar la hipótesis nula. Está dado por el valor de .
c) Estadístico de Prueba. Es una variable aleatoria, cuyo valor se utiliza para rechazar H 0 o
para aceptarla. Esta decisión depende en que región cae el valor del estadístico de prueba.
 Si el estadístico de prueba cae en la región crítica, entonces rechazar H0.
 Si el estadístico de prueba cae en la región de aceptación, entonces rechazar H0.

Cuando la hipótesis Nula( Ho) se rechaza con =0.05, diremos que el resultado es
Significativo.
Cuando la hipótesis Nula( Ho) se rechaza con =0.01, afirmaremos que el resultado es
Significativo.

Procedimiento de la prueba de hipótesis


Previamente debe formularse el problema estadístico, determinar la variable en estudio y
método estadístico adecuado para la solución del problema.

El procedimiento general de la prueba de una hipótesis de parámetro  se resume en los


siguientes pasos:

1. Formular la hipótesis nula:H0 :  =  0 y la hipótesis alternativa adecuada


H1:    0 ó H1:  >  0 ó H1:  <  0
2. Especificar el tamaño  del nivel de significación
3. Seleccionar la estadística apropiada a usar en la prueba.
4. Establecer la Regla de decisión, determinando la Región Crítica de la Prueba.
5. Calcular el valor del estadístico de la prueba de los datos de la muestra.
6. tomar la decisión de rechazar la hipótesis H 0 si el valor del estadístico de la prueba esta
en la región crítica. En caso contrario no rechazar H 0.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 60


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Casos de Pruebas de Hipótesis

1. Pruebas de Hipótesis acerca de una media: Varianza  2 supuesta conocida.


Sea X la media de una muestra aleatoria de tamaño n seleccionada de una población con
media  y varianza 2 supuestamente conocida.
Si la población es normal N(,2/n) para cualquier valor de n (n2). Si la población no es
normal, pero el tamaño de la muestra es suficientemente grande ( n  30), entonces, la
distribución de X es aproximadamente normal N(, 2/n). Consecuentemente la
estadística.

Z= X − 
 n

Tiene una distribución aproximadamente normal N(0,1).

Si se supone verdadera la hipótesis nula H 0 :  = 0, la estadística apropiada para la prueba


de H0 :  = 0 contra cualquiera de las alternativas H 1 :   0 o H1 :   o o H1 :   o
es:
Z= X − 
 n

Cuya distribución es aproximadamente normal estándar N(0,1), según sea la población


normal o no.
En consecuencia dado el nivel de significancia , o la probabilidad de error de tipo I, o la
probabilidad de rechazar Ho :  = 0 cuando se supone que esta es verdadera, se puede
utilizar la distribución de
Z= ( X −  ) para determinar una región crítica.
 n

Ejemplo Nº1.
Un determinado proceso de empaquetar un producto está controlado, si el peso medio del
producto empaquetado es de 400 gramos. Si en una muestra de 100 paquetes del producto
se ha encontrado que el peso medio es de 395 gramos, ¿Se podría concluir que el proceso
está fuera de control a un nivel de significación del 5%?. Suponga que el peso de los
productos empaquetados se distribuye normalmente con desviación estándar de 20 gramos.

Solución

1.- Formulación de las Hipótesis


H0:  = 400 gr
H1:   400 gr

2.- Nivel de significación:  = 0.05

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 61


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

3.-Estadística: Población normal con varianza conocida, la estadística apropiada es


Z= X − 
 n
4.- Región Crítica: Para  = 0.05; y una prueba bilateral ó con dos colas; en la tabla
normal N( 0,1) se encuentra el valor crítico
Z/2 =Z0.05/2 = Z0.025 = -1.96 ó También es lo mismo:
Z1-/2 =Z1-0.05/2 = Z0.975 = 1.96

5.- Cálculos de los datos se tiene.


n = 100; X = 395;  = 20

X − −5
Z= = 395 − 400 = = −2.5
 n 20 2
100

6.- Decisión: Como el Zc = -2.5  Zt = -1,96, entonces rechazamos H0 y concluimos a un


nivel de significancia de 0.05 y afirmamos que la máquina no funciona adecuadamente,
por lo tanto, necesita un ajuste.

Ejemplo Nº2
Una máquina para enlatar conservas de pescado ha sido regulada para que el contenido de
cada lata sea de 16 onzas. Usando  = 0.05, ¿ diría Ud. que la máquina ha sido
adecuadamente regulada, si una muestra de 36 latas dio un peso medio de 16.05 onzas y
una desviación típica de 1.5 onzas?

Ejemplo Nº3
De la experiencia de muchos exámenes de admisión a la Universidad Nacional Pedro Ruíz
Gallo, se obtiene una calificación media de 64 puntos, con una desviación estándar de 8
puntos. De una muestra de 81 estudiantes que rindieron el último examen. Se obtuvo una
calificación media de 68 puntos. Utilizando = 0.01, ¿ puede asegurarse que los
estudiantes han elevado su rendimiento?
Solución

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 62


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Formulación de las hipótesis :


H0:  = 64 y la hipótesis alternativa adecuada
H1:  > 64

2. Nivel de significación:  = 0.01

3. Estadística: Población normal con varianza conocida, la estadística apropiada es.


Z= X − 
 n

4. Región Crítica: Para  = 0.01 y una prueba unilateral con cola a la derecha , en la
tabla normal N( 0,1) se encuentra el valor crítico

Z =Z0.01 = 2.33

0.99

5. Cálculos: De los datos se tiene.


n=81, X = 68,  = 8
Z= X − = 68 − 64 = 4.4
 n 8
81

6. Decisión: Como el ZC = 4.4  Zt= 2.33, entonces rechazamos H0 y concluimos que


podemos asegurar que a un nivel de confiabilidad del 99% que los postulantes han
elevado su rendimiento.

Ejemplo Nº4.
El gerente de la Empresa empresa de transportes E&S desconfía de la afirmación de que la
vida útil promedio de ciertos neumáticos es de almenos 28 000 millas. Para verificar ese
argumento, la empresa instala 40 de esos neumáticos en sus camiones y obtiene un ciclo
de vida medio de 27463 millas con una desviación estándar de 1348 millas. ¿ Qué puede
concluir el gerente de ese dato, si la probabilidad de un error I se fija en cuando más 0.05?
Solución:
1.- Formulación de las Hipótesis
H0 :   28 000 millas
H1 :   28 000 millas

2. Nivel de significación:  = 0.05

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 63


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

3. Estadística: Población normal con varianza conocida, la estadística apropiada es.


Z= X − 
 n

4. Región Crítica: Para  = 0.05 y una prueba unilateral con cola a la izquierda , en la
tabla normal N( 0,1) se encuentra el valor crítico

Z =Z0.05 = -1.645

5. Cálculos: De los datos se tiene.


n=40 , X = 27 46368 ,  = 1 348

Z= X −  = 27463 − 28000 = -2,52


 n 1348
40

6. Decisión: Como -2,52  -1,645 entonces rechazamos H0 a un nivel de significancia de


0.05; en otras palabras se confirma la sospecha del gerente de la empresa de
transportes de que 28000 millas.

Ejemplo Nº5.

Una máquina llenadora de botellas de gaseosa; se supone que el volumen medio de


gaseosa en cada botella es de 32 onzas, con una desviación estándar de 0.06 de onza. En
una comprobación sistemática para verificar que si la máquina funciona adecuadamente, se
toman aleatoriamente 36 botellas llenas y se advierte que contiene una media de 32.1
onzas. A un nivel de significación de 0.05, ¿La máquina funciona adecuadamente ( o está
bajo control)?

Solución

1.- Formulación de las Hipótesis


H0:  = 32 onzas
H1:   32 onzas

2.- Nivel de significación:  = 0.05

3.-Estadística: Población normal con varianza conocida, la estadística apropiada es.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 64


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Z= X − 
 n
4.- Región Crítica: Para  = 0.05; y una prueba bilateral ó con dos colas; en la tabla
normal N( 0,1) se encuentra el valor crítico
Z/2 =Z0.05/2 = Z0.025 = -1.96 ó También es lo mismo:
Z1-/2 =Z1-0.05/2 = Z0.975 = 1.96

0.95

-1.96 1.96

5.- Cálculos de los datos se tiene.


n = 36; X = 32.1;  = 0.06

Z= X −  = 32.1 − 32 = 10
 n 0.06
36

6.- Decisión: Como Zc =10 > Zt =1,96, entonces rechazamos la H0 a un nivel de


significancia de 0.05 y afirmamos que la máquina no funciona adecuadamente, por lo
tanto, necesita un ajuste.

2.- Pruebas de Hipótesis acerca de una media : Varianza  2


supuesta desconocida.

A) Población no normal.
Si la población no tiene distribución normal, pero si el tamaño de la muestra es grande
( n  30 ), se suele utilizar la estadística Z= X − 
 n
Donde la desviación estándar  se estima puntualmente por S.

Ejemplo.
En la investigación de varias denuncias respecto al aviso "Peso Neto 300gr"que aparece
en los frascos de café molido" El Morenito", el comité de Defensa del Consumidor
seleccionó una muestra de 36 frascos, la muestra arrojó un peso neto medio de 298 g y
una desviación estándar de 7.5 gr. Utilizando un nivel de significancia de 0.01, ¿ Qué
conclusión debe sacar el comité de Defensa acerca de la operación de la compañía
envasadora de café?

Solución.
1.- Formulación de las Hipótesis
H0:  =300 gr
H1:   300 gr

2. Nivel de significación:  = 0.01

3. Estadística: Población normal con varianza conocida, la estadística apropiada es.


Z= X − 
s n

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 65


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

4. Región Crítica: Para  = 0.01 y una prueba unilateral con cola a la izquierda , en la
tabla normal N( 0,1) se encuentra el valor crítico

Z =Z0.05 = -2.33

∞=1% 0.99

-2.33

5. Cálculos: De los datos se tiene.

n=36, X = 298,  = 7.5  S datos obtenidos de la muestra


t= X −
= 298 − 300 = -1.60
S 7 .5
n 36

6.- Decisión: Como -1,60  -2.33; no se rechaza H0 ( se acepta H0), luego se puede
concluir que la compañía envasadora está cumpliendo con el peso neto enunciado.

B) Población normal.
Sean X y S2 la media y la varianza de una muestra aleatoria de tamaño n,
seleccionada de una población con distribución normal N ( ,2), donde  y 2 son
desconocidas. Entonces, la estadística. t = X −  , tiene distribución t-Student con n-1
S
n
grados de libertad: Donde: t0 = t(1-) (n-1)
Ejemplo 1.
Las cajas de un cereal producidas en una fábrica, deben tener un contenido de 16
onzas. Un inspector tomó una muestra que arrojó los siguientes pesos en onzas:
15.7, 15.7, 16.3, 15.8, 16.1, 15.9, 16.2, 15.9, 15.8, 15.6.
Indicar si es razonable que el inspector, usando un nivel de significación del 5%, ordene
se multe al fabricante.
Solución.

1.- Formulación de las Hipótesis


H0:  = 16
H1:  < 16
2.- Nivel de significación:  = 0.05

3.- Estadística: Población normal con varianza conocida, la estadística apropiada es.
X −
t= , tiene distribución t-Student con 9 grados de libertad.
s n

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 66


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

4.- Región Crítica: Para  = 0.05 y una prueba de una cola a la izquierda, en la
tabla de probabilidades t-Student se encuentra t0= t() (n-1) = t(0.05)(9) = -1.833.

Observación.
Si la cola estuviera hacia la derecha, entonces el valor de t se toma de la siguiente
manera: t(1-) (n-1) = t(0.95)(n-1)

-1.83

5.- Cálculos: reemplazando en el estadístico de prueba los datos se tiene.

n =10, X = 15.9 S= 0.231; Estos valores se calculan de la muestra.

tc = X −  = 15.9 − 16 = -1.368
S 0.231
n 10

6. Decisión: Como tc = –1.368 > tT = -1.833; no se rechaza H0, por lo tanto se


concluye que no se multaría al fabricante a un nivel de significancia del 5%, por
estar bien los pesos, la diferencia se debe al azar.

Ejemplo 2.
Se sabe que los ingresos quincenales de un gran número de individuos se distribuyen
normalmente con una media de S/ 152. En un estudio estadístico reciente una muestra
aleatoria de 9 individuos de esa población ha dado los siguientes ingresos quincenales ( en
soles):
158; 154; 152; 156; 151; 150; 153; 155; 157.
A nivel de significancia del 5% ¿Ha cambiado el ingreso medio quincenal de tal población?.

Solución.

1.- Formulación de las Hipótesis


H0:  =152
H1:   152
2.- Nivel de significación:  = 0.05

3.- Estadística: Población normal con varianza conocida, la estadística apropiada es.
t = X −  , tiene distribución t-Student con 8 grados de libertad.
s n
4.- Región Crítica: Para  = 0.05 y una prueba bilateral con dos colas, en la tabla
de probabilidades t-Student se encuentra t0 = t(1-/2) (n-1) = t(0.975,8) = 2.306.

Zona de aceptación
Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 67
Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

5.- Cálculos: De los datos se tiene.


n= 9, X = 154 S= 2.7386 de la muestra

t = X −  = 154 − 152 = 2.19


S 2.74
n 9

6. Decisión: Como 2.192.306; no se rechaza H0 y se concluye que la media de los


ingresos quincenales no ha variado.

2.- Pruebas de Hipótesis acerca de dos medias:


Pruebas de hipótesis acerca de dos medias:Varianzas  2 y  2 supuestamente
1 2
conocidas.
Si las dos poblaciones son normales o no, pero n 1 y n2 son suficientemente grandes( n1 
30 y n2 30), entonces X − Y tienen respectivamente distribución normal o
aproximadamente normal.

2 2
N(1, 2 -  1 +  2 ) . Luego, la estadística.
n1 n2

X − Y - (  1 -  2)
Z=
12 / n1 +  22 / n 2

Ejemplo1: Dos grupos de trabajadores de una empresa Agroindustrial, han sido sometidos
a un entrenamiento por dos métodos diferentes, que llamaremos A y B. Una vez terminada
la instrucción, para verificar la eficacia de los métodos, se aplicó un examen arrojando los
siguientes resultados:

Método A Método B
x = 73.4 y = 70.3
S1 = 8 S2 = 10
n1 = 50 n2 = 50

Utilizando un nivel de significancia de 0.05 ¿puede asegurarse que las medias de ambos
métodos no son iguales?

Solución.
Como n1  30 y n2 30 entonces los datos se aproximan a una distribución normal y por
lo tanto se puede aproximar a S1  1 y S2 2

1. - Formula de hipótesis.
H0: 1 = 2 , (1 -2= 0)
H1:   2

2.- Cálculo del punto crítico"z0". Por ser una prueba de dos colas, con =0.05,
entonces:

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 68


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

P(Z  z0 ) = 0.975

F(z0 ) = 0.975
z0 = 1.96

3.- Región Crítica.

0.95

4. Cálculo del estadístico "Z"


Por la fórmula:
Z= = = 1.71
73.4 − 70.3
x− y
64 100
 122 +
+ 2 50 50
n1 n2

5.- Toma de decisión.Como 1.71 no es mayor que 1.96, no se rechaza H 0 ( se acepta


H0) luego se puede concluir que las medias de ambos métodos son iguales.

Ejemplo2. En un sistema académico universitario, se aplicaron dos métodos A y B para la


enseñanza de la Tecnología de Alimentos; en un grupo de n1 = 100 se aplicó A y en otro de n 2
= 300 se aplicó B. Las medias de las calificaciones obtenidas fueron: x = 12 para A e y =
12.2 para B. ¿ Puede admitirse que los métodos de enseñanza no difieren en los resultados y
que las diferencias encontradas en las muestras se deben al azar?. Por experiencias anteriores
se conoce que cada variable X e Y, que representan los resultados respectivos, tiene
distribución normal con varianzas 3 y 3.12, respectivamente. Usar =0.01

Solución.
1.- Formula de hipótesis.

H0: 1 = 2 , (1 -2= 0)


H1: 1  2 , ( 1 - 2  0 )

2.- Cálculo del punto crítico"z0". Por ser una prueba de dos colas, con =0.01, pero
como es una prueba de dos colas se tiene /2=0.005 entonces:
P(Z  z0 ) = 0.995
F(z0 ) = 0.995
z0 = -2.58

3.- Estadística.

Z= x− y
=

 122
+ 2
n1 n2

4.- Región Crítica

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 69


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

0.99

5.- El valor del estadístico, correspondiente a la diferencia de medias, es.

12 − 12.2
Z= = −0.9950
(3 / 100) + (3.12 / 300)

6.- Toma de Decisión: Como el valor de -0.9950 no cae en la región de rechazo;


podemos considerar que la diferencia hallada entre las medias muestrales no es
significativa al nivel de 0.01.

2.- Pruebas de Hipótesis acerca de una proporción : Varianza  2


supuesta
desconocida.

Las pruebas de hipótesis con respecto a una proporción poblacional "p" son básicamente
iguales que las medidas.
Consideremos el problema de probar la hipótesis de que la proporción de éxito en un
experimento binomial es igual a un valor dado. El estadístico de prueba es la siguiente:

Z=
pˆ − p
pq
n
Ejemplo.
Un gobernante afirma que en su país existe el 40% de desocupados. Con el fin de evaluar
esta afirmación se tomó una muestra de 500 personas resultando que 300 son
desocupadas. Sobre la base de esta información obtenida. ¿ qué se puede decir acerca de
la afirmación del gobernante? Usar  =0.05

Solución:

1.- Formulación de la hipótesis.


H0: p = 0.40
H1: p > 0.40
300
En la muestra de tamaño 500, la proporción de desocupados es pˆ = = 0.6
500
2.- Cálculo del punto críticos "Z" por ser la prueba de dos colas, son  = 0.05.
P( zi >zo )= 0.95; F(z0) = 0.95; z0 = 1.645

3.- Estadística
pˆ − p
Z= =
pq
n

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 70


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

4.- Región Crítica.-

0.95

5.- Cálculo del estadístico "Z" por la fórmula: Población normal con varianza conocida,
la estadística apropiada es.
pˆ − p 0.6 − 0.40
Z= = = 9.128
pq 0.40 * 0.60
n 500

6.- Toma de decisión: Como 9.128 es mayor que 1.64, se rechaza H0, luego se puede
concluir con un riesgo del 5% que el desempleo es mayor que el que anuncia el
gobernante.

Ejercicio Nº1
El consumidor de cierto producto acuso al fabricante, diciendo que más de 20% de las
unidades que fabrican son defectuosas. Para confirmar su acusación, el consumidor usó una
muestra aleatoria de tamaño 50, donde el 27% de las unidades eran defectuosas ¿Qué
conclusión puede extraer Ud.? use = 0.05

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 71


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

PRUEBAS BASADAS EN LA DISTRIBUCION CHI-CUADRADA

Las pruebas de independencia y de homogeneidad están entre las más comúnmente usadas en
los procedimientos estadísticos.
Estos test están basados en una técnica introducida por Karl Pearson en 1900, quién ha sido
llamado el "fundador de la ciencia estadística".

1.- Propiedades matemáticas de la distribución chi-cuadrado.


x− μ
Consideremos la normal z= σ
Donde z  N(0,1) y x  N (μ,σ 2 ).
x− μ 2
Luego, si se eleva al cuadrado esta normal se tiene que: z 2 = 
σ  y se tiene que Z
2

tiene distribución chi-cuadrado con un grado de libertad, esto es: z  x (1)
2 2

x− μ y− μy x − μx 2  y− μy 2
Entonces: z + z = 
Si ahora consideramos: z = σ y z =
2 2
2  σx  +  σy 
y
1 2 σy 1
2 2
se dice que: z + z tiene distribución chi-cuadrado con 2 grados de libertad.
1 2
En general: Z1 + Z 2 + ... + Z n   ( n)
2 2 2 2

Para cualquier distribución chi-cuadrada se tiene que:


Por ejemplo, si X   (210) , entonces el valor medio será 10 y la varianza será 20.
Además:

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 72


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

2.- La Prueba Chi-cuadrado de independencia.


Esta prueba se usa cuando el interés es determinar si dos variables están asociadas.

Ejemplo: Contrastar al nivel de 5% si hay alguna relación entre las notas que obtuvieron en
pre grado y el salario que perciben los 150 empleados de la Universidad de Lima.
S Notas del Pre Grado
A Alta Media Baja Total
L Alto 18 17 5 40
A Medio 26 38 16 80
R Bajo 6 15 9 30
I Total 50 70 30 150
o

Solución:
i) Hipótesis: Ho: Notas del Pre Grado y el salario son independientes.
H1: Existe alguna relación entre notas del Pre Grado y el salario.

ii) Nivel de significancia: α=0.05

iii) Estadígrafo de contraste:

En nuestro caso, bajo la hipótesis Ho anterior, las frecuencias esperadas son calculadas
mediante la expresión

Así tenemos:

Podemos formar entonces la siguiente tabla de contingencia 3x3


Salario Notas Alta Media Baja Total
Alto 18 (13.33) 17 (18.67) 5 (8 ) 40
Medio 26 (26.67) 38 (37.33 ) 16 ( 16 ) 80
Bajo 6 ( 10 ) 15 ( 14 ) 9 ( 6 ) 30
Total 50 70 30 150

El valor calculado de la X2, es:

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 73


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

iv) Región crítica: En este problema, el número de grados de libertad es


Φ=(3-1)(3-1)=4
Para =0.05 y Φ=4, en la Tabla II se encuentra

Luego la región crítica será:

II) Conclusión: No se rechaza Ho, pues X2=6.1107 < 9.488 y concluimos de que no hay
relación entre las notas del Pre Grado y el salario, es decir, las dos características son
independientes.

Ejercicio: En la siguiente tabla se dan los resultados obtenidos por 435 estudiantes en
Estadística I y Matemática I. Contraste la hipótesis de que los resultados obtenidos en
Estadística I son independientes de los resultados obtenidos en Matemática I; al nivel de
2.5%.
Estadística I
0≤nota<10 10≤nota<14 14≤nota≤20 Total
MA 0≤nota<10 70 40 15 125
TE 10≤nota<14 30 130 25 185
MA 14≤nota≤20 15 60 50 125
TICA I Total 115 230 90 435

Ejemplo:
2.764 residentes del gran Santiago fueron clasificados de acuerdo a sus ingresos y el
tiempo transcurrido desde que ellos consultaron por última vez a un médico.

Ingresos Tiempo
TOTAL
(en miles) <6 meses 7 – 12 meses >12 meses
<200 186 38 35 259
200 – 300 227 54 45 326
301 – 500 219 78 78 375
501 – 800 355 112 140 607
>801 653 285 259 1.197
TOTAL 1.604 567 557 2.764

¿Proporcionan estos datos evidencia suficiente para indicar que existe una asociación entre
el ingreso y el tiempo transcurrido desde la última consulta al médico?
Si no existe asociación entre las dos variables se dice que son independientes.
Dos variables son independientes cuando la distribución de una de ellas no depende de
la distribución de la otra.
Por ejemplo, dos variables son independientes si al conocer el valor de una de ellas
para un sujeto no ayuda para determinar el valor de la otra variable para el mismo
sujeto.

Es de interés docimar:
H0 : los dos criterios de clasificación son independientes.
H1 : los dos criterios de clasificación no son independientes.
Para docimar H0 se comparan las celdas de frecuencias observadas con las celdas de
frecuencias esperadas y se usa la estadística:

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 74


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

 2
 − 
f c   ij O E
ij  
x2 =    Donde: x  x (f − 1)(c − 1) y la decisión es rechazar H0 a un
2 2
i=l j=1  E
ij 
 
 
nivel de significación si el valor calculado de la estadística X2 excede el valor de tabla:
x12− (f − 1)(c − 1)

En el ejemplo:
H0: el ingreso y el tiempo transcurrido desde la última visita al médico son independientes.
H1: las dos variables no son independientes.

E11 = 2591640 = 153,68; E12 = 259567 = 153,13  E 53 = 1197557 = 241,22


2764 2764 2764
  
2
  Oij −Eij  
2
de donde: x =   E  
todas las  ij 
 

celdas

=
(186 − 153.68)
2
++
(259 − 241.22)
2
= 47.9 y x2  x 2 (5 − 1)(3 − 1) = x 2 (8)
153.68 241.22
De la tabla
2 (8) = 15.507 luego se rechaza H0 .
X0.95

Ejercicio: Un estudio de mercado de la Empresa E&S, proporciona los datos que siguen,
donde la muestra de 800 consumidores de un producto específico opinan acerca de las tres
formas de presentación de las tres marcas que aparecen en el mercado.

MARCA DEL PRODUCTO


PRESENTACION M1 M2 M2
P1 200 130 70
P2 60 60 80
P3 40 60 100

a)Si el estudio culmina afirmativo, al nivel de significación 0.05, que el consumidor solo tiene
en cuenta marca del producto pero no la presentación. ¿ Esta Ud de acuerdo con la afirmación?
Si no está de acuerdo ¿Cómo mide el nivel de independencia entre estas dos variables
cualitativas? ¿Es significativa la independencia?

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 75


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

3.- Prueba de homogeneidad.


Esta prueba se usa para comparar proporciones en dos o más muestras.
H0 : las k poblaciones son "homogéneas" con respecto a la proporción de sujetos
que poseen la característica de interés.

En general se selecciona una muestra de cada población en estudio y los sujetos se


clasifican de acuerdo a una característica de interés.
La estadística que se usa en esta prueba es la misma que se usa para la prueba de
independencia :
 2
  O − E  
f c
x2 =   
ij ij  
Y se rechaza HO si x2  x12− (r − 1)(c − 1)
i=l j=1  E
ij 
 
 

Ejemplo:
Para determinar la conciencia pública y preocupación por la polución atmosférica, se
entrevistó a una muestra de 40 residentes en cada una de 3 áreas del gran Santiago. La
pregunta fue :
¿Es la polución atmosférica un problema en su vecindario?

AREA NO SI DUDA NO SABE TOTAL


NORTE 5 31 2 2 40
SUR 10 21 4 5 40
ORIENTE 11 20 7 2 40
TOTAL 26 72 13 9 120

Solución
H0: las tres poblaciones de residentes son homogéneas con respecto al conocimiento de los
problemas de la polución.
H1: las tres poblaciones no son homogéneas.

 2
  O − E  
2 3 4  ij
 ij   (5 - 8,67)2 (2 − 3)
2
X =   = ++ = 10,391 Ya que: X 2 (16) = 12,592
i=1 j=1  E
ij  8,67 3 0.95
 
 
no hay evidencia para rechazar H0 a un nivel  = 0.05 .

4. - Pruebas de bondad de ajuste.

Las pruebas de bondad de ajuste son herramientas útiles para evaluar lo bien que se
aproxima un modelo de una situación real a un diseño descrito previamente (modelo
teórico).

Por ejemplo, asumamos que tenemos un conjunto de datos que se distribuyen


normalmente, así es que un test estadístico particular puede ser usado.
¿Cómo podemos decidir si la suposición o hipótesis es válida?

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 76


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

El test X2 para bondad de ajuste, compara valores observados y esperados.

H0: la muestra ha sido seleccionado de una población que tiene una distribución
específica.
H1: la muestra no ha sido seleccionada de una población que tiene la distribución
específica.
Nota:
La hipótesis alternativa no indica como la verdadera distribución difiere de la hipotética.
Cuando H0 es verdadera, los ejemplos se obtienen por: Ej= n · pi
2
 O − E 
Luego:
 ij ij 
y rechazar H 0 si X 2  X12-α (r - 1)
E
ij
Donde: r = nº de categorías.

Ejemplo: Distribución uniforme.


En un estudio para determinar si los consejeros con antecedentes raciales y étnicos
diferentes son preferidos por personas de antecedentes similares, se consideraron 36
personas para que elijan un consejero entre 6 grupos de ubicación por sexo y raza.
Los resultados fueron los siguientes:

Consejero Elegido Ei Oi
Hombre negro 6 13
Hombre nórdico 6 6
Hombre blanco 6 0
Mujer nórdica 6 3
Mujer negra 6 11
Mujer blanca 6 3
Total 6 36

H0: los consejeros disponibles son igualmente preferidos.


ó
H0 : P1 = P2 = ... = P6
 H0 : Pi = Pj , i = 1, 2, ···, 5
j = 2, ···, 6
H1 : algún Pi  Pj ,  i  j
13−6 
2  2 2
 6−6 
  3−6 
   
2
Luego : X =  
+  
++  
= 21,33
6 6 6
2
Como X
.95(5) = 11,07 se rechaza H0

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 77


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

CAPITULO IX

ANALISIS DE REGRESION LINEAL Y CORRELACION


ANALISIS DE REGRESION LINEAL
En la investigación estadística es muy frecuente encontrar variables que están relacionadas o
asociadas entre sí, es decir existen variables que se pueden explicar en función de otras
variables.
Por ejemplo; el consumo de las familias depende de sus ingresos, el tiempo de servicios en el
trabajo depende de la edad, el peso de los alumnos depende de la estatura, el rendimiento
académico del alumno depende de las horas de estudio, las ventas dependen de la publicidad,
etc., es decir existe una dependencia mutua entre los diferentes fenómenos o acciones
vinculados con el hombre.
A esta relación de dependencia entre variables se le conoce con el nombre de regresión; que
en resumen consiste en observar en un determinado tiempo como ha influido el
comportamiento de una variable en la otra. Ajustando este comportamiento a una recta (recta
de regresión) estaremos en condiciones de efectuar predicciones para el futuro.
Cuando se tienen “n” observaciones bidimensionales, cada par de datos se puede expresar
como pares ordenados {(X1,Y1), (X2,Y2)......(Xn,Yn)}, que al graficarse en el plano cartesiano
estos puntos forman una NUBE DE PUNTOS que se le llama
DIAGRAMA DE DISPERSION que puede tomar diferentes formas:

Y
Y

Relación lineal positiva Relación lineal negativa


X X
Y Y

Relación no lineal Ninguna relación


X
X

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 78


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

En esta unidad trataremos de la parte básica del tema de la regresión lineal simple
determinado por la función lineal : Y = b0 + b1 X

REGRESION LINEAL SIMPLE

Es una técnica estadística que analiza si los valores de una variable dependiente e
independiente puede predecirse mediante un modelo lineal.
Las variables implicadas en el modelo deben ser cuantitativas y continuas.
Para ajustar una línea recta de Regresión, se considera la ecuación de la recta:

Yˆ = b0 + b1Xi; que tiene dos parámetros “b0” y “b1”

Y Yˆ = b0 + b1x i
b1

Unidad de X
b0
X

Donde : b0 = distancia que existe entre el origen de coordenadas y el punto de


intersección de la recta con el eje Y
b1 = Coeficiente de Regresión (pendiente, proporción de cambio)
X = Variable independiente. ( estimulo, de influencia, causa,)
Y = variable dependiente (respuesta, criterio, efecto)
Interpretación del coeficiente b.

Si b1  0 : La tendencia lineal es creciente , es decir a mayores valores de X


corresponden mayores valores de y.
Si b1  0 : La tendencia lineal es decreciente, es decir, a menor valores de X
corresponden mayores valores de y.
Si b1 = 0 , entonces Yˆ = b0 . luego; Yˆ permanece estacionario para cualquier
valor de X, es decir, no hay regresión.

Si los pares ( Xi , Yi ) se encuentran aproximadamente alineados, lo que indica que se puede


“ajustar” una línea recta a los puntos; esto es, se puede hacer pasar una recta que esté lo “
mas cerca” de ellos. La elección de tal recta puede hacerse por diversos métodos, el más
simple es el que se realiza a mano “alzada”. Este método no es tan riguroso pues depende de
la persona que lo ejecuta. Otro método es el que considera la recta que une los puntos más
extremos del grupo. Uno de los más usados y que describiremos a continuación, es el método
de mínimos cuadrados.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 79


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

ESTIMACION POR EL METODO DE LOS MINIMOS CUADRADOS:

Una tarea principal en el análisis de regresión lineal, es estimar los parámetros “b 0” y “b1”,
cuyos valores se determinan a partir de los datos bidimensionales. El método de los mínimos
cuadrados consiste en hacer mínima la suma de los cuadrados de la diferencia entre los
valores observados (yi), y los valores estimados ( Yˆ ) es decir:
SCD =  ( Yi – Yˆ )2 = sea mínima.
El cálculo de los estimadores de los coeficientes de regresión a partir de los datos muestrales,
viene dado por la siguiente expresión.
n  XY − ( Xi)( Yi) ; b0 = Y − b1 ( X )
b1 =
n( X i2 ) − ( Xi) 2

Ejemplo de Aplicación.
En un estudio de la relación entre la publicidad por radio y las ventas de un producto durante
10 semanas se han recopilado los tiempos de duración en minutos de la publicidad por semana
(X) y el número de artículos vendidos (Y), resultando
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad (X) 20 30 30 40 50 60 60 60 70 80
Ventas (Y) 50 73 69 87 108 128 135 132 148 170

a) Trazar el diagrama de dispersión, e indicar la tendencia


b) Calcular la recta de regresión de mínimos cuadrados con el fin de predecir las ventas.
c) Si en la novena semana se incrementara la publicidad en 5 minutos determine en cuanto
se estima se incrementen las ventas.
Solución.
a) Al trazar el diagrama de dispersión, se observa que existe una relación lineal positiva entre
el número de artículos vendidos y el tiempo de publicidad semanal por radio
b) Para determinar la recta de regresión por el método de mínimos cuadrados a partir de los
datos, es decir para calcular b0 y b1 se requiere realizar los siguientes cálculos que se
tienen a continuación.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 80


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

2 2
X Y xy x Y
20 50 1000 400 2500
30 73 2190 900 5329
30 69 2070 900 4761
40 87 3480 1600 7569
50 108 5400 2500 11664
60 128 7680 3600 16384
60 135 8100 3600 18225
60 132 7920 3600 17424
70 148 10360 4900 21904
80 170 13600 6400 28900
500 1100 61800 28400 134660
Donde :
n n n
n = 10 ;
 Xi = 500 ,  yi = 1100 ,  xi.yi = 61800
i =1 i =1 i =1
n n 500 1100
 xi2 = 28400  yi2 = 134660 , x=
10
= 50 , y=
10
= 110
i =1 i =1
Estimando el parámetro b1:

10(61800) − (500)(1100)
b1 = n XY − ( Xi)( Yi ) = =2
10(28400) − (500) 2
n( X i2 ) − ( Xi) 2

Estimando el parámetro b0 :
b0 = y − b ( x ) = 110 - ( 2 )(50 ) = b0 = 10

Ecuación de regresión estimada. Yˆ = 10 + 2 xi

C.- Incremento de las Ventas

c.1.- El valor estimado de las ventas en la novena semana es :

Si en la novena semana se invirtió X = 70 minutos  se espera vender.

 ŷ 9 = 10 + 2 ( 70 ) = 150 artículos

En la novena semana se espera vender 150 artículos.

c.2.- Si en la novena semana se incrementa el tiempo de la propaganda en 5 minutos,


entonces, el tiempo invertido con el incremento será de X = 75 minutos  la
venta estimada será de.
 ŷ  = 10 + 2( 75 ) = 160 artículos, entonces el incremento de las ventas
después de aumentar los 5 minutos es de 160–150= 10 artículos.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 81


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Ejercicio propuesto.

1.- Los siguientes datos corresponden al ingreso mensual ( X) y egreso mensual ( Y ) de 10


profesores estatales.
x 450 630 500 750 750 600 650 800 1000 850
y 420 600 500 730 720 580 600 750 850 800

a) Construir el diagrama de dispersión


b) Estimar la ecuación de regresión y graficarla en el diagrama de dispersión.
b) En cuanto se estima el egreso mensual de un profesor que tiene un ingreso de 920
soles mensuales.

CORRELACIÓN LÍNEAL

Es una parte de la Estadística Descriptiva que tiene por objetivo investigar la relación que hay
entre dos o más variables estadísticas, determinar el sentido de relación y cuantificar el grado
de nivel de correlación entre las variables con respecto a sus coeficientes.

Coeficiente de correlación
Es el valor numérico que da a conocer el grado de relación que existe entre dos o más
variables. Se representa por la letra r. r = n  xy − ( x)( y )
n  2 − (  n  2 − 

2 2

 x x)   y ( y ) 
Propiedades
−1 r  1
a) Si r > 0 Correlación Directa
b) Si r < 0 Se trata de una Correlación Inverso Negativo.
c) Si r2 = 1 los datos forman una línea recta.
d) Si r = +1 hay una correlación perfecta (+)
e) Si r = -1 hay una correlación perfecta (-)
f) Si r = 0 Los datos son incorrelacionados

Interpretación Clásica ( Para valores positivos y negativos)


a) 0.00 < r < 0.20 es una correlación no significativa.
b) 0.20  r < 0.40 es una correlación baja.
c) 0.40  r < 0.70 es una significativa correlación
d) 0.70  r < 1.00 alto grado de asociación.

Ejemplo: Calcular el coeficiente de correlación con los datos del ejemplo anterior para lo cual
se requiere realizar los siguientes cálculos que se tienen a continuación.
X Y xy X2 Y 2
20 50 1000 400 2500
30 73 2190 900 5329
30 69 2070 900 4761

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 82


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

40 87 3480 1600 7569


50 108 5400 2500 11664
60 128 7680 3600 16384
60 135 8100 3600 18225
60 132 7920 3600 17424
70 148 10360 4900 21904
80 170 13600 6400 28900
500 1100 61800 28400 134660
n n n
Donde : n = 10 ;  Xi = 500 ,  yi = 1100 ,  xi.yi = 61800
i =1 i =1 i =1
n n 500 1100
 xi2 = 28400  yi2 = 134660 , x=
10
= 50 , y=
10
= 110
i =1 i =1
Cálculo del coeficiente de Correlación.

n  xy − ( x)( y ) 10(61800) − (500)(1100)


r= =
n  x 2

− (  x ) 2  n  y − ( y )
2 2
 10(28400) − (500) 2 10(134660) − (110) 2 

Interpretación: Existe un alto grado de asociación entre los minutos de publicidad empleados
en la radio y el número de artículos vendidos, por lo tanto estas dos variables se pueden
relacionar mediante una función lineal y poder realizar pronósticos confiables, ya que los datos
se ajustan muy bien a la recta estimada.

Coeficiente de Determinación.( R2 ).- Mide la proporción o porcentaje de variación


existente en Y que es explicada por la variación de X, se expresa en términos de porcentaje
por 100*R2 y se define por:
 (Y − Yˆ ) 2
R = 1−
2

 (Y − Y ) 2

Error de Estimación (Se).- Es una medida de la cantidad media en que las observaciones
reales Y varían en torno a la recta de regresión. Ŷ (regresión de Y/X ) viene dada por :
 (Y − Yˆ ) 2
Se = S Y/X =
n−2

ESTIMACION DE INTERVALOS EN EL ANALISIS DE REGRESION


Uno de los fines básicos del análisis de regresión es proyectar y predecir valores de la variable
dependiente. Como hemos visto, una vez determinada la ecuación de regresión, es sencillo
hacer una estimación puntual de la variable dependiente con sólo sustituir el valor de X en la
ecuación y resolver ésta para hallar Ŷ . Pero además, también se puede estar interesado en
estimaciones de intervalo que en muchas oportunidades son muy importantes.
Hay como mínimo dos estimaciones de intervalo que se suele asociar con los procedimientos
de regresión.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 83


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

1.- Estimación de Intervalo para el Valor Medio Y dado un valor de X. Se calcula de la


siguiente manera:

I:C: para y/x = Ŷ ± t Sy = Ŷ ± t(1-/2)Se 1 ( X i − X )2 ; t con ( n-2)g.l.


+
n  ( X i − X )2
Donde Ŷ es el estimador puntual hallado a partir de la ecuación de regresión original y el valor
de t se basa en un nivel de confianza elegido con n-2 grados de libertad. Hay n-2 grados de
libertad porque tenemos que calcular dos valores b0 y b1 a partir de los datos maestrales.
Perderemos dos grados de libertad. Se es el error de estimación.

2.- Intervalo predictivo para un valor único de Y

I:C: para y/x = Ŷ ± tSy = Ŷ ± t(1-/2)Se 1 ( X i − X )2 ; t con ( n-2)g.l.


1+ +
n  ( X i − X )2

EJERCICIO
Jaimito observa el gasto en publicidad, precio y volumen de venta de galones de leche de 10
semanas elegidas en forma aleatoria. Los datos obtenidos se presentan en la siguiente tabla.
Semana Ventas( En Miles), Precio por Galón Publicidad( Cientos
Y X2 de Dólares) X3
1 10 1.30 9
2 6 2.00 7
3 5 1.70 5
4 12 1.50 14
5 10 1.60 15
6 15 1.20 12
7 5 1.60 6
8 12 1.40 10
9 17 1.00 15
10 20 1.10 21
a) Calcular la ecuación de Regresión de las ventas con la publicidad, y las ventas con el
precio.
b) Calcular e interpretar el Coeficiente de Regresión, determinación, y error estándar
Calcule el intervalo predictivo para la media y un valor individual a un nivel de confianza del
95%

REGRESIÓN MULTIPLE

En la regresión simple, se investiga la relación entre las variables independiente y


dependiente. A menudo, la relación entre dos variables permite a una persona predecir con
precisión la variable dependiente a partir del conocimiento de la variable independiente. Por
desgracia, muchas de las situaciones de la vida real no son tan simples. Por lo regular, se
necesita más de una variable independiente para pronosticar con precisión la variable
dependiente . Cuando se emplea más de una variable independiente o de predicción, el

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 84


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

problema se convierte en uno para el análisis de regresión múltiple. Los conceptos básicos
siguen siendo los mismos, sólo se utiliza mas de una variable independiente para pronosticar
la variable dependiente.

La Regresión múltiple comprende el uso de más de una variable independiente para


pronosticar una variable dependiente.
En el análisis de regresión múltiple se utilizan X con subíndices para representar a las
variables independientes ( X2,, X3, X4, . . . Xn. La variable dependiente se continua
representando con Y. Teniendo la siguiente ecuación:

Yˆ = bo + b2 X2 + b3 x3 + . . . + bn Xn Ecuación de regresión múltiple


Ecuaciones normales cuando de tienen dos variables independientes y una variable
dependiente.

 Y = nb + b  X +b  X
0 2 2 3 3

 X 2Y = b  X 2 +b  X 22 + b  X 2 X 3
0 2 3

 X 3Y = b  X 3 + b  X 2 X 3 + b  X 32
0 2 3

Ejemplo:
Jaimito observa el gasto en publicidad, precio y volumen de venta de galones de leche de 10
semanas elegidas en forma aleatoria. Los datos obtenidos se presentan en la siguiente tabla.

Semana Ventas( En Miles), Precio por Galón Publicidad( Cientos


Y X2 de Dólares) X3
1 10 1.30 9
2 6 2.00 7
3 5 1.70 5
4 12 1.50 14
5 10 1.60 15
6 15 1.20 12
7 5 1.60 6
8 12 1.40 10
9 17 1.00 15
10 20 1.10 21
c) Calcular la ecuación de Regresión
d) Calcular e interpretar el Coeficiente de Regresión, determinación, y error estándar
Solución
Semana Y X2 X3 X2Y X3Y X2X3 Y2 X2
2
X3
2

1 10 1.30 9 13 90 11.7 100 1.69 81


2 6 2.00 7 12 42 14.0 36 4.00 49
3 5 1.70 5 8.5 25 8.5 25 2.89 25
4 12 1.50 14 18 168 21.0 144 2.25 196
5 10 1.60 15 16 150 24.0 100 2.56 225
6 15 1.20 12 18 180 14.4 225 1.44 144
7 5 1.60 6 8 30 9.6 25 2.56 36

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 85


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

8 12 1.40 10 16.8 120 14.0 144 1.96 100


9 17 1.00 15 17 255 15.0 289 1.00 225
10 20 1.10 21 22 420 23.1 400 1.21 441
Totales 112 14.40 114 149.3 1480 155.3 1488 21.56 1522
Medias 11.2 1.44 11.4
Reemplazando en las ecuaciones normales se obtiene los siguiente.
1) 112 = 10b0 + 14.4b2+ 114b3
2) 149.3 =14.4b0 +21.56b2+155.3b3
3) 1480 = 114b0 +115.3b2 + 1522b3
Resolviendo las ecuaciones por cualquier método, se obtiene los siguiente resultados: b2 = -
8.2476 ; b3 = 0.5851 ; b0 = 16.4064

Sustituyendo en la ecuación de regresión múltiple se tiene: Yˆ = 16.41 – 8.25 X2 + 0.59 x3


Esta ecuación resulta útil para pronosticar las ventas de la próxima semana. Si se planea un
precio unitario de $ 1.50 y gastos de publicidad de $ 1000, el pronóstico es de 9,930 galones;
esto es.

Yˆ = 16.41 – 8.25 X2 + 0.59 x3 = 16.41- 8.25(1.5)+ 0.59(10) = 9.93 ( miles de galones)


Correlación Múltiple. Es otra herramienta que se utiliza para evaluar un modelo. Para mayor
comodidad, a menudo se da por su puesto el término múltiple en este contexto de la
explicación y se utiliza la denominación abreviada de coeficiente de determinación. Se calcula
de la siguiente manera.

R2 = 1-  (Y − Yˆ ) 2
= 1- 15.9/233.6= 1.0.068 =0.93 :
 (Y − Y )
2

Interpretación: El 93.2% de la varianza del volumen de ventas, están influenciados por el


precio por galón de leche y los gastos de publicidad.

Error Estándar de Estimación. Mide la cantidad estándar en que los valores reales (Y)
difiere de los valores estimados ( Yˆ ). Es una medida de la cantidad media en que varían las
observaciones reales alrededor del plano de regresión y se calcula de la siguiente manera.

Sy..x2 x3 =
 (Y − Yˆ ) 2

= Sy..x2 x3 =
15.901493
= 2.27 = 1.51
n−k 10 − 3
Interpretación. La cantidad típica en que el valor real de volumen de leche vendido difiere de
lo pronosticado mediante la ecuación de regresión múltiple es de 1.510 galones.

MATRIZ DE RECOLECCION.

En la siguiente tabla se ilustra una matriz de correlación: el coeficiente de correlación que


indica la relación entre dos variables 1 y 2 se representa como r 12. Nótese que el primer
subíndice (r12) se refiere al reglón y el segundo subíndice (r12 ) se refiere a la columna. Este
enfoque estandarizado le permite a uno determinar, a simple vista la relación entre cualquier
par de variables. Por su puesto, la relación entre variable y 2(r12) es exactamente la misma

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 86


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

que para las variables 2 y 1 (r 21).De ahí que solo sea necesaria la mitad de la matriz. Además,
la diagonal principal siempre contendrá unos, ya que siempre relaciona una variable consigo
misma ( r 11, r 22 r33).

MATRIZ DE CORRELACIÓN

Variables
VARIABLES 1 2 3
1 r11 r12 r13
2 r21 r22 r23
3 r31 r32 r33

Ejemplo: Matriz de Correlación.


Variables
VARIABLES 1 2 3
Ventas Precio Publicidad
Ventas:1 1 - 0.86 0.89
Precio2 1 - 0,65
Publicidad 3 1

Ejemplo: El gerente de ventas de la distribuidora “Delivery” se realiza un estudio del sistema


de reparto de sus pedidos, considerando las variables:
Y: Tiempo en minutos que demora la entrega del pedido.
X1: Peso en kilogramos de los pedidos
X2: Distancia recorrida en kilómetros
Y X1 X2
30 12 7
28 10 7
25 9 6
23 7 6
20 6 5
18 6 5
15 5 4
15 3 4
12 3 3
10 2 2

b) Describa el modelo de regresión lineal de los tiempos de reparto con respecto al


peso de los pedidos.
c) Obtenga las ecuaciones.

Ejemplo El dpto. de personal de la empresa P&C esta interesado en estudiar la relación que
tiene el salario, el tamaño de la familia y la antigüedad en el trabajo con los gastos. Para este
estudio, el especialista en la materia, escogió una muestra al azar de 10 miembros de todo el
personal de la empresa y registró los datos en la tabla que sigue, para las siguientes variables.

X1: Salario semanal en $


X2: Tamaño de la Familia
X3: Antigüedad en el trabajo
Y: Gasto semanal

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 87


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Y X1 X2 X3
20 25 3 5
25 28 5 8
30 35 4 6
32 35 5 2
37 40 5 7
40 45 5 4
40 50 5 5
45 45 6 4
55 70 6 5
60 80 5 3

1.- Elabore el modelo de regresión multiple.


2.- Elabore la matriz de correlación.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 88


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

CAPITULO XI

MUESTREO
El muestreo es una herramienta de la investigación científica, que consiste en seguir un
método, un procedimiento en el que se escoge un grupo pequeño de una población con el cual
podemos tener un grado de probabilidad de que efectivamente ese pequeño grupo posee las
características de la población o universo que estamos estudiando.
En la investigación científica es habitual que se empleen muestras como medio de acercarse al
conocimiento de la realidad. Sin embargo, para que esto sea posible, y que a través de las
muestras reproducir el universo con la precisión que se requiera en cada caso, si es necesario
que el diseño muestral se atenga a los principios recogidos en las técnicas de muestreo.
El Objeto del muestreo es obtener una muestra que permita, a través del estudio de su
constitución estimar cómo es la constitución de la población a la que pertenece la muestra;
población que no puede ser conocida directamente por ser muy grande o compleja.

Si una muestra pudiera ir creciendo", es decir aumentando de tamaño, su promedio, X , iría


acercándose al promedio de la población que denominaremos con la letra griega ,. Pero si
esto no sucediese, sería signo inequívoco de que la muestra está siendo mal tomada; en este
caso, a la muestra y a las medidas que se tomen de ella se denomina viciada o sesgada.
Por ejemplo, resultaría una muestra sesgada cuando en el muestreo sólo se considerase un
sector de la población, tal sucedería si en el muestreo de la temperatura de los enfermos de
virosis sólo se considerase a las mujeres o a los niños y no a los hombres; o si en una fábrica
de tejidos sólo se muestrease los defectos de la tela tejida por una parte de las máquinas
tejedoras de la fábrica. Las muestras sesgadas, son muestras defectuosas que no representan
a la población, y que de ninguna manera deben considerarse para estimar las medidas de la
población.

A las medidas que se obtienen de las muestras, por ejemplo X y otras que después
veremos, se denomina estadísticas, mientras que a las correspondientes medidas de la
población, por ejemplo ., se denominan parámetros.
Un muestreo bien realizado dá una muestra que puede proporcionar medidas que estiman
a las medidas correspondientes de la población de donde proviene la muestra, esto a un costo
y tiempo mínimo con relación al censo.

Fines del muestreo y análisis de la muestra:


(a) Establecer los límites de confianza dentro de los cuales se encuentre el parámetro de una
población, con cierto grado de seguridad.
(b) Establecer los límites de confianza dentro de los cuales se encuentre la diferencia entre dos
parámetros de igual naturaleza de dos poblaciones, con cierto grado de seguridad.
(c)Tomar decisiones en la comparación de un parámetro de una población, con respecto a un
valor dado, con cierto grado de seguridad.
(d)Tomar decisiones en la comparación de dos parámetros de igual naturaleza de dos
poblaciones, con cierto grado de seguridad.

En estadística estos fines se cumplen, pero no en forma absoluta, es decir con 100% de
seguridad, pues siempre queda una pequeña probabilidad en contra; por ejemplo, de que

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 89


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

los límites no encierran el valor desconocido de la población; así podemos llegar a


establecer que el promedio de rendimiento () de una variedad de maíz de un valle está
entre 4,250 y 4,720kgs.x Ha., con 5% de probabilidades de que esté fuera de estos límites.
También podemos llegar a establecer que el rendimiento promedio (A) de una variedad de
un valle es superior al rendimiento promedio (B) de otra variedad B, con 5% de
probabilidades de que ambos promedios sean iguales. Ambos ejemplos son de variedades
de maíz en un valle; puede pensarse en ejemplos similares en el campo de la medicina,
pedagogía, industria, comercio, etc.

TECNICA DE MUESTREO.
La técnica del muestreo, establece la relación entre las poblaciones y las muestras, con el
objeto de estimar los parámetros de las poblaciones a través de las medidas estadísticas de
las muestras, tales como el promedio, la varianza, etc. La técnica del muestreo permite
determinar si hay diferencia entre parámetros equivalentes de dos a más poblaciones; tal por
ejemplo, si el efecto de un suero es mejor que otro para el tratamiento de una enfermedad, si
un producto procesado con un procedimiento es mejor o, peor que el producta procesado con
otra procedimiento etc. Esta conduce a tomar una decisión sobre bases estadísticas de
acuerdo a las inferencias que se estimen de las poblaciones con una probabilidad dada. A fin
de que las inferencias sean válidas, las muestras deben ser extraídas en forma que sean
representativas de las respectivas poblaciones de donde se extraen, para lo cual es importante
que la población haya sido perfectamente definida.

NATURALEZA DEL MUESTREO


La teoría del muestreo podemos considerar como coexistente con los modernos métodos
estadísticos. Casi todos los desarrollos modernos en estadística se refieren a inferencias sobre
la población teniendo como única información disponible, una muestra de los elementos que
componen dicha población.

LA POBLACION ó Universo Estadístico, está constituido por cualquier conjunto de


individuos u objetos que tengan algunas características comunes observables, las cuales son
objeto de la investigación, como talla, peso, número de hijos, etc., es decir que las
características sean homogéneas.
Ejemplos:
 Todos los alumnos de un Centro educativo que se matricularon en el año 2008 constituyen
una población o Universo estadístico.
 El total de bebés en una ciudad( “clientes” potenciales para una fábrica de cunas).
 El total de familias de una ciudad, con ingreso mensual superior a 800 soles, que son
clientes potenciales ( potenciales de lavavajillas).
 Número de tiendas que venden artículos fotográficos dentro de una región.
 Número de Empresas Agroindustriales de conservas.

La Población puede ser finita o infinita


Población Finita.- Cuando los datos son medibles, es decir tienen principios y fin.
Ejemplos:
 Número de alumnos matriculados en el ciclo 2000 I en la escuela de de Economía de la
UNPRG.
 Número de profesores que laboran en la UNPRG.

Población Infinita.- Cuando los datos tienen principio pero no fin.


Ejemplos:
 Los puntos de una línea, las estrellas del firmamento, etc.
 La población infinita está dada por un conjunto de datos infinitos que tienen alguna

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 90


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

característica común observable.

MUESTRA.- Es el número de elementos que se toman de una población o Universo estadístico,


ésta debe ser representativa y adecuada.

Ejemplo: Si en un Centro Educativo se matricularon 1,500 alumnos, la población escolar del


Centro Educativo será de 1,500 alumnos.
Si de esa población de 1,500 alumnos, eligiéramos al azar 800 alumnos para hacer una
investigación sobre hábitos de consumo alimentario, entonces tendríamos una muestra de la
población escolar de un Centro Educativo.

RAZONES PARA EL USO DE LAS MUESTRAS

Existen las siguientes razones fundamentales para usar muestras.


a) Una muestra ahorra dinero (si se compara con el costo de un censo completo) cuando
no se necesita una precisión absoluta.
b) Una muestra ahorra tiempo cuando se desean tener los datos con mayor rapidez que lo
que sería posible con un censo completo.
c) Una muestra puede permitir concentrar la atención en los casos individuales.
d) Algunas poblaciones pueden considerarse infinitas y por lo tanto su estudio sólo es
factible mediante una muestra.
Un ejemplo simple puede ser la experimentación agrícola para la prueba de determinados
fertilizantes.
e) Cuando los errores ajenos al muestreo son necesariamente grandes, una muestra puede
dar mejores resultados que un censo completo ya que esos errores se controlan con más
facilidad si la operación es de pequeña escala.

CONDICIONES DE LAS MUESTRAS


Las condiciones fundamentales de las muestras son cuatro:
1.-Que comprendan parte de la población y no la totalidad de éste.
2.-Que su amplitud sea estadísticamente proporcionada a la magnitud de la población. Esta
condición se halla en estrecha relación con el punto práctico de determinación de tamaño de
la muestra, y sirve para decidir si, según las unidades que comprende respecto a la
población, una muestra es o no admisible.
3.- La ausencia de distorsión o desviación en la elección de los elementos de la muestra. Si
esta elección presenta alguna anomalía la muestra resultará con este mismo hecho viciada
4.-Que sea representativa o reflejo fiel de la Población, de tal modo que reproduzca sus
diversas características. Por ejemplo si la población comprende hombres y mujeres, la
muestra también, deberá comprenderlos y precisamente en la misma proporción.

LIMITACIONES DEL MUESTREO.


En ciertas condiciones la utilidad del muestreo es cuestionable. Podemos precisar tres
condiciones principales:
1º.-Si se necesitan datos para áreas muy pequeñas tiene que usarse una muestra
desproporcionadamente grande ya que la precisión de una muestra depende, en gran parte
del tamaño de la muestra y no de las tasas de muestreo. En casos como esos una muestra
puede resultar tan costosa como un censo.

2º.-Si se necesitan datos a intervalos regulares de tiempo y es importante medir cambios muy
pequeños entre un período y el siguiente, pueden requerirse muestras muy grandes.

3º.-Si los Costos generales de una encuesta por muestra son elevados debido al trabajo de
selección de la muestra, control, etc, el muestreo puede resultar poco práctico. Por
ejemplo, en una provincia con muy pocas escuelas es posible que resulte más económico
enumerar todas las escuelas en la provincia que enumerar de una muestra de escuelas en

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 91


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

la provincia sin embargo, para el trabajo de oficina, es decir el procesamiento de los datos,
puede usarse una muestra de las escuelas enumeradas y reducir en esa forma el trabajo y
los costos de producción de las tabulaciones.

ELEMENTOS BÁSICOS DEL MUESTREO.

MARCO DE MUESTREO
Es la concreción individualizada de las unidades del Universo, es el punto de partida y el
fundamento necesario para realizar la selección de la muestra.
La base de muestreo o marco de muestreo puede consistir en un Censo, un registro, una
lista de personas, un fichero, un catálogo, un mapa, un plano, una guía de nombres.
La base de la muestra no siempre existe en la realidad. Hay muchos universos que no
están censados o catalogados y que es prácticamente imposible catalogarlos. Por ejemplo, no
lo están el público que circula por las calles, ni los asistentes a un cine o a un estadio. La
solución que se adopta entonces es practicar la elección de la muestra por algún procedimiento
aleatorio imperfecto. Así por ejemplo encuestar uno de cada cinco personas que se encuentran
por la calle. También se puede dar el caso que se conozca la composición en categorías de la
población, pero que no exista registro de ellos. Entonces se puede recurrir al procedimiento,
igualmente imperfecto estadísticamente, de asignar a cada agente una serie de encuestas de
cada categoría a realizar, proporcional en su conjunto a la magnitud de los estratos en la
población, dejando a su arbitrio la elección de los individuos concretos a encuestar.
Recapitulando diremos que el Marco de Muestreo es la totalidad de las Unidades de
muestreo de donde se extraerá la muestra.

UNIDAD DE MUESTREO
La unidad de muestreo es una unidad seleccionada del Marco de muestreo.
La Unidad de muestreo es cada uno de los elementos en que se subdivide la base de la
muestra o marco muestral y figuran individualizados en ello. No sólo puede ser simple, sino
también colectiva, como cuando está constituido por familias, grupos, ciudades, pueblos, etc.
Puede ser la Unidad de Análisis, aún cuando no es necesario. Por ejemplo para poder
obtener información acerca de las personas podríamos usar una lista completa de un censo, o
un registro de personas y seleccionar directamente una muestra de personas. Sin embargo,
también podríamos seleccionar una muestra de familias e incluir en la encuesta todas las
personas de las familias seleccionadas. En forma similar podríamos seleccionar edificios
completos, e incluir todas las personas que viven en las edificaciones seleccionadas.

UNIDAD DE ANALISIS
La Unidad de análisis, es la Unidad para la que deseamos obtener información estadística. En
las encuestas de tipo usual, pueden ser personas, hogares, escuelas, casas o firmas
comerciales. Podrían ser también tarjetas perforadas o productos surgidos de algún proceso
mecánico para algunos otros tipos de análisis.
La Unidad de análisis es denominada frecuentemente como elemento de población.
En una misma encuesta puede existir más de un elemento, por ejemplo familias y
personas, o número de casas y hectáreas cultivadas o escuelas y alumnos.

PROBABILIDAD DE SELECCIÓN
La probabilidad de selección es la que tiene cada unidad en la población de ser incluida
en la muestra. La probabilidad es un valor que oscila entre cero y uno.

FRACCION DE MUESTREO
Es el porcentaje que representa la muestra respecto al universo comprendido en la base
de la muestra. Así tenemos:
f = fracción de muestreo
n = muestra
N = Población

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 92


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.
n
La fórmula es: f= (100)
N
Ejemplo: Supongamos que se tiene una población de 1320 personas y el tamaño de la
165
muestra es de 165 personas.: f = ( )*100= 12.5% o sea f = 12.5%.
1320
Quiere decir que de cada cien elementos de la población (1320), 12 están representados en
la muestra

METODOS O TECNICAS DE MUESTREO Y TAMAÑOS DE MUESTRAS

METODOS DE MUESTREO
Para reproducir la población a través de una muestra con la precisión que se requiera, es
necesario que el diseño muestral se atenga a los principios recogidos en las técnicas de
muestreo.
La preocupación central es asegurar de que los miembros de la muestra sean lo
suficientemente representativos de la población entera como para permitir hacer
generalizaciones precisas acerca de ello.
Para realizar tales inferencias el investigador escoge un método de muestreo apropiado
para ver si todos y cada uno de los miembros de la muestra tienen igual oportunidad de ser
integrados en ella. Si a cada miembro de la población se le da igual oportunidad de ser
escogido para la muestra, se está utilizando un método aleatorio de no ser así el otro método
será el no aleatorio. Entonces señalamos que existen dos métodos de muestras o tipos de
muestreos: un método aleatorio (probabilístico) y otro no aleatorio (no probabilístico).

CLASIFICACION DE LOS METODOS DEL MUESTREO.


En el muestreo hay que elegir el método de muestreo más apropiado para las condiciones
de que se disponen, pues influye esto sobre todo en la precisión de los resultados, costo del
muestreo y tamaño necesario de la muestra. A continuación vamos a tratar de los diferentes
métodos de muestreo que pueden adoptarse, pero antes damos su clasificación:

• Aleatorio Simple

• Aleatorio Sistemático

• Estratificado

Probabilísticos: • Por Conglomerados

• Polietápico

• Por Ruta Aleatoria

Muestreo

• Por Cuotas ó Accidental.

No Probabilísticos: • Intencional o de Juicio

• Accidental o Casual

• de Bola de Nieve

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 93


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

MUESTRAS NO ALEATORIAS
A veces, para estudios exploratorios, el muestreo probabilístico resulta excesivamente costoso
y se acude a métodos no probabilísticos, aun siendo conscientes de que no sirven para realizar
generalizaciones, pues no se tiene certeza de que la muestra extraída sea representativa, ya
que no todos los sujetos de la población tienen la misma probabilidad de ser elegidos. En
general se seleccionan a los sujetos siguiendo determinados criterios procurando que la
muestra sea representativa, ya que estos métodos están basados en algún elemento de juicio
o criterio humano para decidir cuáles unidades de la población son las que deben forma las
muestras. Algunos de estos métodos se describen a continuación.

A. Muestreo por cuotas


También denominado en ocasiones "accidental". Consiste en que el investigador
selecciona la muestra considerando algunos fenómenos o variables a estudiar, como edad,
sexo, religión, clase social o raza, etc. Se asienta generalmente sobre la base de un buen
conocimiento de los estratos de la población y/o de los individuos más "representativos" o
"adecuados" para los fines de la investigación.
En este tipo de muestreo se fijan unas “cuotas” o muestras de acuerdo con el porcentaje
que ocupan dentro de la población o de acuerdo con el un número de individuos que
reúnen unas determinadas condiciones. Este método es utilizado por las encuestadoras de
opinión pública, en la que los encuestadores proceden a buscar las personas hasta cubrir
la cuota previamente fijada, sin preocuparse por áreas geográficas, zonas u otro criterio.
Supongamos por ejemplo que nos proponemos sacar una muestra de los estudiantes
matriculados en el Centro Educativo de Aplicación de la UNPRG de Educación Secundaria
donde el 40 % son mujeres y el 60% son varones. Utilizando el método de muestreo por
cuota, se da a los entrevistadores una cuota de estudiantes para localizar, de manera que el
40% de la muestra tenga a mujeres y el 60% a los varones, estamos incluyendo en la
muestra los mismos porcentajes que están representados en la población. Si la muestra es
300 entonces se seleccionan 180 estudiantes de sexo femenino y 120 del sexo masculino.
Ejemplo: Encuestar a 20 individuos de 25 a 40 años, de sexo femenino y residentes en
Chiclayo. Una vez determinada la cuota se eligen los primeros que se encuentren que
cumplan esas características.

B.- Muestreo intencional o por conveniencia.


Otra unidad de muestra no aleatoria se conoce con el nombre de muestreo por
conveniencia, intencional, o de juicio; en el que el investigador decide, según sus
objetivos, los elementos que integrarán la muestra, considerando aquellas unidades
supuestamente “típicas” de la población que desea conocer. La idea fundamental que
involucra este tipo de muestra es que lo lógico, el sentido común o el sano juicio, se usen
para seleccionar una muestra que sea representativa de una población. Por ejemplo:
queremos seleccionar una muestra de los niños que no toman leche en el desayuno, por el
sentido común o lógica, podrán ser encuestados los niños que viven en las Zonas Urbano
Marginales o Pueblos Jóvenes.
Es muy frecuente su utilización en sondeos preelectorales de zonas que en anteriores
votaciones han marcado tendencias de voto.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 94


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

C.- Muestreo por accidente o casual.


Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los
individuos de la población. El caso más frecuente de este procedimiento el utilizar como
muestra los individuos a los que se tiene fácil acceso (los profesores de universidad
emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los
voluntarios.
Este método de muestreo requiere poco esfuerzo y dinero. Tiene el inconveniente de que
quien lo realiza, desarrolla poco interés para que la muestra represente a la población. De
este método se hacen uso los periodistas de los diarios cuando entrevistan a un grupo de
personas, que generalmente son las que están más a su alcance en las calles y plazas de la
ciudad. Generalmente sirve para muestrear opiniones sobre tópicos especiales de
importancia en el día, con el fin de describir un artículo. Es frecuente sin embargo que estos
escritores digan que recogieron la opinión al azar y que representa a la opinión pública.
Obviamente esto no es cierto a la luz de la técnica estadística.
Este método en manos del estadístico sin embargo puede ser útil para obtener ideas y
opiniones que puedan servir para diseñar cuestionarios. Pero nunca debe ser usado por
nadie para estimar poblaciones.

D.- Bola de nieve


Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y así hasta
conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se
hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de
enfermos, etc.

MUESTRAS ALEATORIAS O PROBABILISTICO


Son aquellas que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que
todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una
muestra; ello indica que cada miembro de la población debe ser identificado antes de obtener
dicha muestra aleatoria, requisito que generalmente se llena obteniendo una lista que incluya
a todos y cada uno de los miembros de la población. Elaborar una lista o padrón de la
población no es una tarea fácil, especialmente si la población estudiada es grande y
diversificada. Así por ejemplo si queremos investigar a los residentes de la provincia de
Chiclayo, tendremos que empadronar a todos los residentes de esta ciudad, que en verdad es
una tarea muy laboriosa.
Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la
muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de
muestreo probabilísticos encontramos los siguientes tipos:

A.- Muestreo aleatorio simple (MAS)


El muestreo aleatorio simple puede obtenerse mediante diversos métodos, entre ellos, a
través de un.
 Muestreo con repetición,
 Muestreo sin reposición,
 Con el uso de una tabla de Números Aleatorios.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 95


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Utilizaremos un ejemplo hipotético, simple y artificial, para comprender fácilmente las


relaciones necesarias que se dan. Supongamos que tenemos una población hipotética de 12
personas y que deseamos estimar el ingreso promedio de estas personas, a través de una
muestra.
Supongamos que deseamos calcular las estimaciones mediante una muestra de dos
individuos. La muestra se puede seleccionar de varias formas. Por ejemplo, se puede usar
12 fichas de igual tamaño, cada una de las cuales tendrá escrita las letras: A, B, C, D,
hasta L, no existiendo dos de ellas marcadas con la misma letra. Luego colocaremos las
fichas en un recipiente, las mezclaríamos muy bien y extraeríamos dos fichas al azar
considerando que las fichas representan las personas seleccionadas.
La Población completa aparece en el Cuadro siguiente:

INGRESOS EN UNA POBLACION HIPOTETICA DE 12


PERSONAS

Individuos Ingresos
A S/ 1300
B 4300
C 3100
D 2000
E 3600
F 2200
G 1800
H 2500
I 1500
J 900
K 2800
L 1900
Ingreso Total 27 900
Ingreso Promedio 2 325

Este tipo de selección puede hacerse de dos formas: Puede sacarse una ficha reemplazada
en el recipiente y extraer la segunda. En este caso la segunda ficha podría ser igual a la pri-
mera. Este procedimiento se denomina Muestreo con reposición.
Por otra parte se podría extraer la segunda ficha al mismo tiempo que la primera o se lo
podría seleccionar sin reponer la primera; en uno u otro caso las fichas serían diferentes,
este es el Muestreo sin reposición.
Cuando se extraen muestras de una población finita, la práctica usual es aplicar el muestreo
sin reposición.
Existen otras formas de seleccionar dos personas al azar.
En el muestreo sin reposición, se consideran todos los pares posibles de individuos AB, AC,
AD, ... BC, BD, ... CD, CE, etc. podríamos escribir un par de letras, por cada uno de los 66
pares, en cada ficha y seleccionar una ficha única
Las muestras de selección posibles son iguales que las del caso anterior.
En la práctica no se usan fichas para seleccionar unidades individualmente o en pares. El
método común es usar una tabla de números al azar y elegir en la misma, dos números
comprendidos entre 1 y 12.
Los dos números representan a dos individuos. El uso de las tablas de números al azar tiene
el mismo efecto que el uso de fichas.
Debemos precisar que cualquiera de estas formas satisfacen los criterios para una muestra
aceptable.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 96


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Uso de una tabla de números aleatorios


Cuando el investigador quiere hacer uso de una tabla de números aleatorios tal como la que
se presenta en el anexo.
Una tabla de números aleatorios se construye en forma tal que genere series de números
sin ningún patrón u orden determinado. Como resultado, el proceso de usar una tabla de
números aleatorias produce una muestra imparcial semejante a aquella que se logra
poniendo pedazos de papel en un sombrero y sacando nombres con los ojos vendados.
Las tablas de números aleatorios se usan en el muestreo para evitar el tener que realizar
ciertas operaciones, tales como la selección de fichas numeradas de urna, para determinar
las unidades que se deben incluir en la muestra.
Existen muchas tablas de números al azar, en general esas tablas muestran conjuntos de
dígitos aleatorios ordenados en grupos tanto en sentido horizontal como vertical. Para selec-
cionar un conjunto de números aleatorios podemos comenzar en cualquier lugar de la tabla.
Además, una vez seleccionado el primer número, se puede continuar una columna hacia
abajo o hacia arriba. Una ficha hacia un lado o el otro, o de acuerdo con cualquier pauta
deseada.
Para ser más explícitos vamos a desarrollar un ejemplo:
Para obtener un número al azar entre 1 y un cierto número dado, por ejemplo entre 1 y 163
Seguiremos los siguientes pasos:
1.- 0bserve el número de dígitos que componen el número límite superior (en 163 hay tres
dígitos).
2.- Usa ese mismo número de columnas contando a partir de la primera (o cualquier otra
predeterminada) columna y comienza desde arriba. Cada línea en un grupo de tres
columnas contiene un número de tres dígitos.
3.- Elige primero esos números comprendidos entre 001 y el límite superior dado, entre 001
y 163 en nuestro ejemplo.
4.- Rechaza los números que sean mayores de 163 al igual que 000. Si se desea más de un
número aleatorio, continúa hacia abajo a lo largo de las tres columnas, eligiendo cada
número de tres dígitos comprendido entre 001 y 163 hasta tener la cantidad deseada de
números al azar en tres dígitos. Si un mismo número al azar en tres dígitos. Si un
número aparece dos o más veces, elígelo una sola vez.
Supongamos que partimos de una tabla de números al azar como la siguiente:

5ta. columna
1089 8719
9385 7902
6934 8660
0052 1007
5736 9249
1901 5988
5372 6212

Dentro de los límites de los números que figuran en los ejemplos siguientes,
seleccionaremos en la tabla anterior números al azar usando cada número seleccionado
una sola vez

Ejemplo 1 .
- Seleccionar tres números al azar entre 1 y 10.
- Elegimos primero una columna arbitrariamente decidiendo que 0 representa a 10.
- Supongamos que hemos elegido la quinta columna.
- El primer número de esa columna es 8, el segundo 7, el tercero 8 nuevamente.
- Como este número ya ha sido seleccionado, lo pasamos por alto y tomamos el número
siguiente que es1.
Los tres números seleccionados son por lo tanto 8, 7 Y 1.
Ejemplo 2
Seleccionar cinco números al azar entre 1 y 80. Supongamos que tomamos las dos

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 97


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

primeras columnas como punto de partida.


- Primero elegimos 10
- Rechazamos 93 ya que no está comprendido entre 01 y 80.
- Elegimos 69, rechazamos 00 (que representa a 100) Y
- Tomamos luego 57, 19 Y 53.
Ventajas del ( MAS):
- Sencillo y de fácil comprensión.
- Cálculo rápido de medias y varianzas.
- Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar
los datos.

Desventajas del (MAS):


- Requiere que de antemano se posea un listado completo de toda la población o de un
marco muestral.
- Cuando se trabaja con muestras pequeñas es posible que no represente a la población
adecuadamente.

B. Muestreo aleatorio sistemático


Este procedimiento exige, como el anterior, numerar todos los elementos de la población,
pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número
aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son
los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos
de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la
muestra: k = N/n. El número i que empleamos como punto de partida será un número al
azar entre 1 y k.
El riesgo de este tipo de muestreo está en los casos en que se dan periodicidades en la
población ya que al elegir a los miembros de la muestra con una periodicidad constante (k)
podemos introducir una homogeneidad que no se da en la población. Imaginemos que
estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros
son varones y los 5 últimos mujeres, si empleamos un muestreo aleatorio sistemático con k
=10 siempre seleccionaríamos o sólo hombres o sólo mujeres, no podría haber una
representación de los dos sexos.
Este tipo de muestreo se utiliza en los bancos para elegir por orden de llegada, en los grifos
para seleccionar carros, en el control de calidad de un producto en pleno proceso, etc.

Ventajas:
- Fácil de aplicar.
- No siempre es necesario tener un listado de toda la población.
- Cuando la población esta ordenada siguiendo una tendencia conocida, asegura una
cobertura de unidades de todos los tipos.
Desventajas:
- Si la constante de muestreo esta asociada con el fenómeno de interés, se pueden hallar
estimaciones sesgadas.

C. Muestreo estratificado.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 98


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Muestreo en el que la población se divide previamente en un número de subpoblaciones o


estratos, prefijado de antemano. Dentro de cada estrato se realiza un muestreo aleatorio
simple.
Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos
y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en
considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad
respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el
municipio de residencia, el sexo, el estado civil, etc ). Lo que se pretende con este tipo de
muestreo es asegurarse de que todos los estratos de interés estarán representados
adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los
elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que
plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (
tamaño geográfico, sexos, edades, grupos étnicos, los docentes estratificados por tiempos
de servicios, etc).
Cuanto más homogéneos sean los estratos, más precisas resultarán las estimaciones.

La distribución de la muestra en función de los diferentes estratos se denomina afijación, y


puede ser de diferentes tipos:

Afijaciòn Simple.- A cada estrato le corresponde igual número de elementos maestrales.


Afijación Proporcional.- La distribución se hace de acuerdo con el peso (tamaño) de la
población en cada estrato.
Afijación Optima.- Se tiene en cuenta la previsible dispersión de los resultados, de modo
que se considera la proporción y la desviación típica. Tiene poca aplicación ya que no se
suele conocer la desviación.

Ventajas:
- Tiende a asegurar que la muestra represente adecuadamente a la población en función de
unas variables seleccionadas.
- Se obtienen estimaciones más precisas.

Desventajas:
- Se ha de conocer la distribución en la población de las variables utilizadas para la
estratificación.
- Los análisis son complicados, en muchos casos las mezclas tiene que ponderarse (asignar
pesos a cada elemento).

Ejemplo: Supongamos que estamos interesados en estudiar el grado de aceptación de la


implantación del nuevo tipo de examen de admisión que tomará la UNPRG que ha tenido
entre los padres del departamento de Lambayeque, A tal efecto seleccionamos una muestra
de 600 padres. Se conoce por los datos del ministerio de Educación que de los 10000
Alumnos que que ya terminan en este año y que nos interesan, 6000 acuden a colegios
públicos, 3000 a colegios privados y 1000 a colegios religiosos. Como estamos interesados
en que en nuestra muestra estén representados todos los tipos de colegio, realizamos un
muestreo estratificado empleando como variable de estratificación el tipo de centro
educativo.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 99


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Si empleamos una afijación simple elegiríamos 200 niños de cada tipo de centro, pero en
este caso parece más razonable utilizar una afijación proporcional pues hay bastante
diferencia en el tamaño de los estratos. Por consiguiente, calculamos que proporción supone
cada de los estratos respecto de la población para poder reflejarlo en la muestra.

Colegios públicos : 6000/10000 = 0.60


Colegios Privados : 3000/10000 = 0.30
Colegios Privados religiosos:1000/10000 = 0.10

Para conocer el tamaño de cada estrato en la muestra no tenemos más que multiplicar esa
proporción para el tamaño muestral.

Colegios públicos : 0.06x600 = 360 Padres


Colegios Privados : 0.30x600 =180 Padres
Colegios Privados religiosos: 0.10x600 = 60 Padres

D.- Muestreo aleatorio por conglomerados


Los métodos presentados hasta ahora están pensados para seleccionar directamente los
elementos de la población, es decir, que las unidades maestrales son los elementos de la
población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos
de la población que forman una unidad, a la que llamamos conglomerado. Las unidades
hospitalarias, las Urbanizaciones, los departamentos universitarios, una caja de
determinado producto, etc, son ejemplos de conglomerados naturales. En otras ocasiones
se pueden utilizar conglomerados no naturales como por ejemplo, las urnas electorales.
Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por
áreas".
El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de
conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar
después todos los elementos pertenecientes a los conglomerados elegidos.

Ventajas:
 Es muy eficiente cuando la población es muy grande y dispersa. Reduce costos.
 No es preciso tener un listado de toda la población, solo de las unidades primarias de
muestreo.

Desventajas:
 El error estándar es mayor que en el muestreo aleatorio simple o estratificado.
 El cálculo del error estándar es complejo.

Ejemplo: En una investigación en la que se trata de conocer el grado de satisfacción laboral


de los profesores de un instituto necesitan una muestra de 700 sujetos. Ente la dificultad de
acceder individualmente a estos sujetos se decide hacer una muestra por conglomerados.
Sabiendo que el número de profesores por instituto es aproximadamente de 35, los pasos a
seguir serán los siguientes:
1.- Recoger un listado de todos los institutos.
2.- Asignar un número a cada uno de ellos.
3.- Elegir por muestreo aleatorio simple o sistemático los 20 institutos (700/35= 20) que
nos proporcionarán los 700 profesores que necesitamos.

Para finalizar con los métodos de muestreo probabilísticos es necesario comentar que ante
lo complejo que puede llegar a ser la situación real de muestreo con la que nos enfrentemos
es muy común emplear lo que se denomina muestreo polietápico. Este tipo de muestreo
se caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el método
de muestreo probabilístico más adecuado.

E. Muestreo polietápico
Muestreo en el que se procede por etapas se obtiene una muestra de unidades primarias,
más amplias que las siguientes; de cada unidad primaria se toman, para una submuestra,

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 100


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

unidades secundarias, y así sucesivamente hasta llegar a las unidades últimas o más
elementales. Se le puede considerar como una modificación del muestreo por
conglomerados cuando no forman parte de la muestra elementos o unidades de todos los
conglomerados, sino que, una vez seleccionados estos, se efectúan submuestras dentro de
cada uno de ellos.

F. Muestreo por Rutas Aleatorias


La selección de los miembros de la muestra se realiza como parte del trabajo de campo.
Establecida un área de muestreo, se define un punto de partida, sobre el que se aplica una
ruta predefinida en la que se van seleccionando los miembros de la muestra con arreglo a
un procedimiento heurístico.
Busca asegurar una cobertura geográfica de la muestra y/o suplir la falta de censo.
No es aconsejable en planos no lineales o poco homogéneos en manzanas y edificación.

DETERMINACION DEL TAMAÑO DE MUESTRAS


Consiste en averiguar cuántos sujetos deben ser seleccionados en la muestra.
El tamaño de una muestra ha de alcanzar determinadas proporciones mínimas, fijadas
estadísticamente según las leyes experimentales de la probabilidad. Pero por otra parte, las
necesidades prácticas de ahorro de tiempo, costo y esfuerzos aconsejan que el tamaño de la
muestra no exceda este límite mínimo marcado por la estadística. En estas razones se
sustenta la importancia o más bien la necesidad que tiene el investigador de conocer la forma
de calcular los límites mínimos del tamaño de una muestra no sólo para que los resultados que
se obtengan en la encuesta ofrezcan las debidas garantías de poder ser aplicados y extendidos
al Universo o Población objeto de estudio, sino también para tener la seguridad de que la
muestra es lo más reducida posible dentro de los niveles de seguridad y exactitud propuestos.
Determinar el tamaño de una muestra y también su cálculo depende de los siguientes factores
o elementos:
- La amplitud del universo o población infinito
- Nivel de confianza adoptado
- Error de estimación permitido y
- Proporción en que se encuentra en el universo o población la característica estudiada.

 Según su amplitud.- El Universo de la muestra se divide en infinito y finito.


Se consideran finitos, los que no pasan de la cifra de 100,000 unidades e infinitos los que
exceden de esa cantidad. Esta distinción es importante para determinar el tamaño de la
muestra dado que las fórmulas son distintas en cada caso.
 El nivel de confianza.- El nivel de confianza no es otra cosa que la porción del área de
una curva de distribución estadística normal del universo que se piensa abarcar.
Las pruebas empíricas realizadas muestran que la distribución en la población de cualquier
información recogida en una muestra se ajusta por lo general a la ley normal de
probabilidad con unos valores centrales y medios avanzados y unos valores reducidos y
adopta por tanto la forma de una curva de campana de Gauss.
El nivel de confianza que normalmente se estima suficiente en una investigación y el más
generalmente usado es el de dos sigmas, que abarca el 95.5 % a 955 por 1000 del área de
la curva normal e indica que existe una probabilidad de 95.5% de que cualquier resultado
obtenido en la muestra es válido para el Universo en principio. También se emplea, cuando
se quiere lograr una mayor seguridad el nivel de confianza de tres sigmas, que abarca una
probabilidad de 99.7% del área de dicha curva.
 Error de estimación.- Los resultados de las muestras no pueden ser rigurosamente
exactos en relación a la población que pretenden representar y siempre suponen un error
de medida mayor a menor. Este error disminuye como es obvio, con la amplitud de la
muestra. El máximo error de este tipo que se suele considerar admisible en las
investigaciones sociológicas o educativas es del 6%. Como de este error depende el tamaño
de la muestra, para determinar éste se debe decidir previamente el error que se estima ad-
misible.
A mayor exactitud que se pretenda, por tanto se planteará un error menor,
consecuentemente el tamaño de la muestra tendrá que ser mayor.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 101


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

 Proporción en que se encuentra en la población la característica.- El cuarto elemento


del que depende el tamaño de la muestra es el tanto por ciento de la proporción que
expresa la extensión estimada en la población de la característica sobre la que se desea
obtener información. Por ejemplo en una encuesta sobre el consumo de leche enlatada a
niños de un distrito se deberá estimar inicialmente, aunque sea de manera aproximada,
mediante un sondeo previo, la proporción de niños que toman leche y niños que no la
toman respecto al total de la población. Cuando representa una dificultad grande realizar
esta estimación previa, se suele adoptar la suposición de que dicha proporción es del 50%,
que es el caso más desfavorable, es decir, aquel en que la muestra deberá ser mayor.
Las fórmulas para hallar el tamaño de las muestras en los diferentes casos que se ofrecen
en los ejercicios toman en cuenta estos elementos tratados.
Existen también tablas elaboradas que dan directamente el tamaño de la muestra para
determinados valores. Son distintas las tablas según se trate de valores universos infinitos y
finitos y de un nivel de seguridad de dos sigmas o de tres en cada caso.
En el caso de las muestras estratificadas al determinar el tamaño de las muestras se
plantea un problema especial que es el de su afijación o sea no sólo la determinación del
tamaño general de la muestra que se puede establecer según las fórmulas comunes, sino
también la especificación del volumen de cada estrato de la muestra. Puesto que es
condición básica que la muestra sea lo más representativa de la población, en ella deben
reflejarse los estratos según su proporción en la población.
La forma más directa y práctica de realizar esta operación consiste en aplicar el porcentaje
que representa cada estrato dentro del universo, al tamaño general de la muestra con lo
que se obtendrá el número de elementos de la muestra que se debe asignar a cada estrato

Cuando la población es superior a 100 000 hay que utilizar la fórmula para poblaciones
infinitas que es la siguiente:

PARA POBLACIONES INFINITAS.

Para Variables: Cualitativas Cuantitativas

Z2 x p x q Z 2 2
n= 2 n=
E E2
Donde
n = es el número de elementos de la muestra a determinar
Z2 = es el nivel de confianza elegido
p = es el tanto por ciento estimado de la característica investigada
q = 1- p
E = es el error de estimación admitido

A. Para estimar la media de la población ( )

Z2 / 2 * s 2
no =
E2

Ejemplo: Se desea estimar, con el 95% de confianza, el tiempo promedio para efectuar cierta
intervención quirúrgica. En un estudio piloto se encontró una media de 3.5 horas y una
desviación estándar de 2.2 horas. El investigador asume una precisión de 0.35 horas. Calcular
el tamaño de la muestra.
Solución
Datos
Z = 1.96

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 102


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

S = 2.2
E= 0.35 horas

1.962 * (2.2) 2
n= = 152
(0.35) 2
El tamaño de la muestra para estimar el tiempo promedio para efectuar una intervención
quirúrgica es de 152 pacientes.

B. Para estimar la proporción poblacional ( P)

Z 2P *Q
no =
Donde: E2
P : es la proporción poblacional que puede estimarse de las tres maneras siguientes:

➢ Revisión bibliográfica
➢ Estudio piloto
➢ Asumiendo P = 0.5 y Q = 0.5

E : Error absoluto o precisión que se expresa el % (5%)

Si se conoce el tamaño de la población N

Z 2P *Q
no =
E2

Ejemplo: Se desea estimar la proporción de escolares anémicos con 95% de confianza. De


estudios anteriores se sabe que P=80%, con un E = 5% y si N=2000. Calcular n.

I ) FORMA

Z 2 P * Q (1.96) 2 (0.8) (0.2)


no = = = 245.9
E2 (0.05) 2

Tamaño de Muestra Ajustada:

245.9
n= = 219
245.9
1+
2000

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 103


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

II ) FORMA

Z 2 pqN (1.96) 2 (0.8)(0.2)(2000)


n= = = 219
E (N − 1) + Z 2 pq (0.05) (2000 − 1) + (1.96) (0.8)(0.2)
2 2 2

Ejemplo. Se ha proyectado realizar una investigación educativa en una ciudad de Chiclayo


que según el último censo tiene 650000 habitantes mayores de dieciséis años.
Hallar el tamaño de la muestra teniendo en cuenta que, se pretende trabajar a un nivel de
confianza del 99% y con un margen de error permitido del 4%, mediante la aplicación de la
fórmula y la utilización de las tablas y con indicación de la significación del resultado obtenido.

Z2 x p x q
Apliquemos la fórmula: n=
Z2

Identifiquemos los valores:

N= 650,000 Población
n = ? muestra no se conoce
Z= 99% = 2.57
E= 4% error admitido
p = En cuanto a p como no se indican las proporciones que guardan dentro de la población
las características a estudiar, es preciso suponer el caso más desfavorable, de p igual a
50, luego q también será igual a 50.
2.57 2 x 50 x 50
Reemplazando los valores en la fórmula n = = 1032
42
tenemos:

El resultado obtenido significa que el tamaño de la muestra debe ser por lo menos 1032 para
estar seguros con una probabilidad de 99 por 100 de que los resultados de la muestra son váli-
dos dentro de los márgenes del error admitido para el universo.
Cuando el universo es inferior a 100000 hay que utilizar la fórmula para universos finitos
que es la siguiente:

Z2 x p x q x N Z 2 2 x N
n= n=
2 2
E (N - 1) + Z x p x q o E (N - 1) + Z2 x S2
2

Ejemplo: Queremos estudiar las condiciones socio económicas de los estudiantes de una
provincia cuya población alcanzan a 6800 alumnos, hallar el tamaño de la muestra con un
nivel de confianza del 95% y con margen de error permitido del 6%
Aplicamos la fórmula

Z2 x p x q x N
n=
E 2 (N - 1) + Z 2 x p x q

Identificamos los valores:


n=?
N= 6800 población
Z= 95% = 1.96 nivel de confianza
E = 6% error permitido
p = 50 (se asume la máxima heterogeneidad de 50% x 50%)
q= 50
Reemplazamos los valores :

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 104


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.
(1.96) 2 x 50 x 50 x 6,800 (1.96)2 x 50 x 50 x 6800
n= =
62 x ( 6800-1 ) +(1.96) 2 x 50 x 50 (6)2 x( 6799) + (1.96 )2 x 50 x 50

65307200 65307200
n= n=
244764 + 9604 =254368

n = 257 alumnos
Respuesta: El tamaño de la muestra de una población de 6800 alumnos será de 257
alumnos, con un nivel de confianza del 95% y un margen de error del 6%

Ejemplo de Muestreo Aleatorio estratificado proporcional.


Se ha proyectado realizar una encuesta a una muestra del personal docente, administrativo
que labora en una provincia. De las 12000 personas que laboran, 600 son Directores y Sub
directores, 900 son profesores y 2400 son personal administrativo y de servicio.
a. Determinar el tamaño global de la muestra a un 95% de confianza y con un margen de
error permitido del 4%
b. Se requiere que estén representados proporcionalmente las diferentes categorías de
trabajadores, por ello se pide la afijación de la muestra por el método proporcional.

Procedimiento

1.- Determinar el tamaño global de la muestra


n=?
N = 12,000
Nivel de confianza = 95% =1.96, pero para mayor facilidad de cálculo algunos
autores redondean a 4 como se observa en el siguiente ejemplo.
Margen de error E = 4%

2.- Fórmula conocida para población finita

Z2 X p X q x N
n =
E2 (N-1) +Z2 x p x q
3.- Reemplazamos valores:

4 x 50 x 50 x 12,000
n=
16 x 11999 + 4 x 50 x 50
n = 594

Pasemos ahora a la:

4. - Afijación de la muestra por el sistema proporcional: Obtención de los porcentajes de


cada estrato dentro del universo.

Directores y Subdirectores = . 600 x 100 = 5%


12000

Profesores (docentes de aula) = 9000 x 100 = 75%


1200

Personal administrativo = 2400 x 100 = 20 %


12000

5. - Luego pasemos a la obtención del número de elementos de cada estrato dentro de la muestra.

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 105


Y Escuela de Postgrado: UNC
Maestría en Administración y Gerencia Pública: Estadística Aplicada.

Directores y Subdirectores: 5% de 594 = 30


Profesores 75% de 594 = 445
Personal Administrativo 20% de 594 = 119

Total de la Muestra = 594

Dr. Alfonso Tesén Arroyo alfonsotesen@hotmail.com 106

También podría gustarte