Capitulo I-VI (Completo)

Mg.
RUBÉN GALEAS ARANA
UNIVERSIDAD NACIONAL DEL CENTRO DEL PERÚ
FACULTAD DE INGENIERÍA ELÉCTRICA Y

ELECTRÓNICA
GUÍA DIDÁCTICA
ESTADÍSTICA, PROBABILIDADES Y
PROCESOS ESTOCÁSTICOS
DOCENTE:
Mg. RUBÉN GALEAS ARANA
Huancayo – Perú
2015
1
ESTADÍSTICA Y PROBABILIDADES APLICADA

OBJETIVOS.
1. Utilizar los elementos conceptuales y procedimentales de

la estadística, así como utilizar adecuadamente los
conceptos de probabilidades.
2. Reconocer la importancia de la estadística, como eje
transversal para la organización, sistematización,
inferencia y validación de datos e información en las
diferentes disciplinas del conocimiento científico.
3. Propiciar el desarrollo de habilidades para el análisis e
interpretación de datos, que permitan realizar una
adecuada toma de decisiones basados en criterios
técnicos-científicos en base a la información existente.
4. Desarrollar habilidades para el manejo del software
estadístico SPSS.
2
UNIDAD I
ESTADÍSTICA
1.1. CONCEPTO.
Según la enciclopedia virtual Wikipedia1. La Estadística es una ciencia

formal que estudia la recolección, análisis e interpretación de datos de
una muestra representativa, ya sea para ayudar en la toma de decisiones o
para explicar condiciones regulares o irregulares de algún fenómeno o
estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin
embargo, la estadística es más que eso, es decir, es el vehículo que permite
llevar a cabo el proceso relacionado con la investigación científica.
La estadística se aplica a una amplia variedad de disciplinas, desde la física

hasta las ciencias sociales, desde las ciencias de la salud hasta el control de
calidad. Se usa para la toma de decisiones en áreas de negocios en
instituciones públicas y privadas.
Finalmente podemos decir que la ESTADÍSTICA se ocupa de los métodos y

procedimientos para recoger, clasificar, resumir, analizar e interpretar los
datos; que ayudan a tomar mejores decisiones.
1.2. CLASIFICACIÓN.
La estadística se clasifica en dos grandes áreas:
a) La Estadística Descriptiva.
La estadística descriptiva o deductiva, se refiere a la recolección,

presentación, descripción, análisis e interpretación de una serie de datos;
originados a partir de los fenómenos de estudio. Esta descripción se
realiza a través de la elaboración de cuadros, gráficos (histogramas,
diagrama de sectores, etc.), cálculo de promedios, varianzas, etc.
b) La Estadística Inferencial.
La estadística inferencial o inductiva, es una técnica mediante el cual se

obtienen generalizaciones o se toman decisiones en base a una
información completa o parcial obtenida mediante técnicas descriptivas.
Se dedica a la generación de los modelos, inferencias y predicciones

asociadas a los fenómenos en estudio, teniendo en cuenta la aleatoriedad
de las observaciones, apoyándose en el cálculo de probabilidades y a
partir de datos muestrales. Estas inferencias pueden tomar la forma de
1
http://es.wikipedia.org/wiki/Estadística
3
respuestas a preguntas si/no (prueba de hipótesis), estimaciones de unas

características numéricas (estimación), pronósticos de futuras
observaciones, descripciones de asociación (correlación) o modelamiento
de relaciones entre variables (análisis de regresión). Otras técnicas de
modelamiento incluyen ANOVA (ANalysis Of VAriance), series de tiempo
y minería de datos.
Para finalizar este punto debemos manifestar que ambas áreas de la

estadística (descriptiva e inferencial) comprenden la ESTADÍSTICA
APLICADA.
1.3. CONCEPTOS BÁSICOS RELACIONADOS CON LA ESTADÍSTICA.
A continuación daremos algunos conceptos básicos y fundamentales para

una mejor comprensión de la estadística, dichos elementos se muestran en
la Figura 1.1
Figura 1.1. Ejemplo de población, muestra e individuo
a) Población, Colectivo o Universo (N).
La población (“N”) es el conjunto de todos los individuos (objetos,

personas, documentos, data, eventos, situaciones, etc.) a investigar. La
población es el conjunto de individuos o cosas que tienen una o más
propiedades en común. Por ejemplo, la población de usuarios de
electricidad del Valle del Mantaro; la cantidad de contadores de energía
instalados en zonas rurales de la región de Junín.
b) Individuo o Elemento.
Son las personas u objetos, que son parte de la muestra, que contienen
cierta información que se desea estudiar o investigar. Por ejemplo: se
4
desea estudiar la cantidad de suministros con instalaciones trifásicas en

el distrito de Pilcomayo, y se define el individuo “suministro”, de tal manera
que de cada usuario se solicita la siguiente información:
- Código del suministro.
- Número de personas que se benefician del suministro.
- Consumo de energía en el mes de noviembre de 2012.
- Cantidad de artefactos eléctricos que utiliza.
- El suministro es monofásico o trifásico (monofásico=1; trifásico=2).
- Tiene instalación de puesta a tierra (Si=1; No=2)
Recopilando la información especificada a toda la muestra se tendría la

base de datos que se muestra en la Tabla 1.2:
Tabla 1.2. Resumen de datos obtenidos de encuesta a los individuos.

Consumo
Cantidad Tipo
de Energía
Código Personas de de Puesta
Usuario en
Suministro Beneficiarias artefactos sumini a tierra
noviembre
que utiliza stro
(kW.h)
1 68857337 5 73 8 1 2
2 35677221 8 90 8 1 1
3 54231245 7 120 15 2 1
c) Muestra.
Muchas veces es imposible tener contacto y observar a toda la población,

por eso suele trabajarse solo con una parte de la población, al cual se le
conoce como “muestra”. La muestra es un subconjunto de unidades de
análisis extraída de la población objetivo, buscando que dichas unidades
seleccionadas sean representativas con la finalidad de permitir que a
través de la información recabada con la muestra se realicen inferencias
válidas para toda la población.
Trabajar con una muestra proporciona muchas ventajas: ahorra tiempo,

reduce costos y posibilita mayor profundidad y exactitud en los resultados.
Sin embargo, también tiene algunos inconvenientes: es dificultoso, una
muestra mal seleccionada o sesgada distorsiona los resultados y por tanto
puede conducir a una mala toma de decisiones.
d) Tamaño de la muestra (n).
En estadística el tamaño de la muestra (n) es el número de individuos que

componen la muestra extraída de una población, necesarios para que los
datos obtenidos sean representativos de la población.
Para calcular el tamaño de una muestra hay que tomar en cuenta tres
factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos
desde la muestra hacia la población total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la
generalización
5
3. El nivel de variabilidad que se calcula para comprobar la hipótesis.
- Nivel de confianza.
Es el porcentaje de seguridad que existe para generalizar los resultados

obtenidos. Comúnmente en las investigaciones sociales se busca un
95%.
- Porcentaje de error.
Equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa
como si fuera verdadera. Comúnmente se aceptan entre el 4% y el 6%
como error, tomando en cuenta de que no son complementarios la
confianza y el error.
- La variabilidad.
Es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la

hipótesis que se quiere investigar en alguna investigación anterior o en
un ensayo previo a la investigación actual.
El porcentaje con que se aceptó tal hipótesis se denomina variabilidad

positiva y se denota por “p”. Y el porcentaje con el que se rechazó la
hipótesis es la variabilidad negativa, denotada por “q”.
Hay que considerar que “p” y “q” son complementarios, es decir, que su
suma es igual a la unidad (p+q=1). Además, cuando se habla de la
máxima variabilidad, en el caso de no existir antecedentes sobre la
investigación (no hay otras o no se pudo aplicar una prueba previa),
entonces los valores de variabilidad es p=q=0,5
Calcularemos el tamaño de la muestra a través de las siguientes fórmulas:
- La fórmula en caso no se conozca con precisión el tamaño de la

población es:
𝑍 2 . 𝑝. 𝑞
𝑛0 =
𝐸2
Donde:
no es el tamaño de la muestra.
Z es el nivel de confianza.
p es la variabilidad positiva.
q es la variabilidad negativa.
E es el porcentaje de error.
- La fórmula en caso se conozca el tamaño de la población (N) es:
6
𝑛𝑜
𝑛=
𝑛 −1
1+ 𝑜
𝑁
Donde:
n es el tamaño de la muestra.
Para hallar el valor del nivel de confianza Z, se usa la Tabla 1.1.
Tabla 1.1. Tabla de apoyo al cálculo del tamaño de la muestra por niveles de confianza.
Confianza 95% 94% 93% 92% 91% 90% 80% 62,27% 50%
Z 1,96 1,88 1,81 1,75 1,69 1,65 1,28 1 0,6745
Z2 3,84 3,53 3,28 3,06 2,86 2,72 1,64 1,00 0,4550
E 0,05 0,06 0,07 0,08 0,09 0,10 0,20 0,37 0,50
E2 0,0025 0,0036 0,0049 0,0064 0,0081 0,0100 0,0400 0,1369 0,2500
Por ejemplo, se desea determinar el tamaño de la muestra de una

población de 5000 individuos, con un nivel de confianza de 95% y error
máximo de 5%.
𝑍 2 . 𝑝. 𝑞 (1,96)2 . (0,5). (0,5)

𝑛0 = = = 384,16
𝐸2 (0,05)2
Como el valor de N=5000 entonces el tamaño de la muestra sería:
𝑛𝑜 384,16
𝑛= = = 356,82
𝑛𝑜 − 1 384,16 − 1
1+ 1+
𝑁 5000
Lo que significa que el tamaño de la muestra para una población de 5000
individuos debe ser 357 individuos.
El tamaño de la muestra es un tema complejo, pero hoy se puede recurrir

a programas de computadora muy útiles para estimarla, una calculadora
para determinar el tamaño de la muestra lo puede obtener en
http://www.med.unne.edu.ar/biblioteca/calculos/calculadora.htm, un
ejemplo de aplicación se muestra en la Figura 1.2.
7
Figura 1.2. Pantalla con calculadora para determinar el tamaño de una muestra
e) Muestreo.
El proceso de seleccionar la “muestra” se le conoce como “muestreo”. El

muestreo es una herramienta de la investigación científica, cuya función
básica es determinar que parte de una población debe examinarse, con
la finalidad de hacer inferencias válidas sobre dicha población.
El muestreo se divide muestreo probabilístico y muestreo no

probabilístico.
- Muestreo probabilístico
El muestreo probabilístico es aquel que se basa en el principio de

equiprobabilidad, es decir, todos los individuos de la población tienen la
misma probabilidad de ser elegidos para formar parte de una muestra,
por tanto nos aseguran la representatividad de la muestra extraída y son
los más recomendables.
Dentro de los muestreos probabilísticos se encuentran los siguientes

tipos:
1. Muestreo aleatorio simple:
Para seleccionar los individuos de la muestra se sigue el siguiente

procedimiento:
1°) Se asigna un número a cada individuo de la población
2°) A través de algún medio mecánico (bolas dentro de una bolsa,
tablas de números aleatorios, números aleatorios generados con
una calculadora u ordenador, etc.) se eligen tantos sujetos como
sea necesario para completar el tamaño de muestra requerido.
8
Este procedimiento es muy utilizado cuando la población se puede

manejar, sin embargo, tiene poca utilidad práctica cuando la población
que estamos manejando es muy grande.
2. Muestreo aleatorio sistemático:
Este procedimiento exige, como el anterior, numerar todos los

elementos de la población, pero en lugar de extraer “n” números
aleatorios solo se extrae uno. Se parte de ese número aleatorio “i”,
que es un número elegido al azar, y los elementos que integran la
muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es
decir se toman los individuos de k en k, siendo k el resultado de dividir
el tamaño de la población entre el tamaño de la muestra: k= N/n.
El número “i” que empleamos como punto de partida será un número
al azar entre 1 y k.
En este procedimiento se presenta el mismo problema del muestreo

aleatorio simple.
3. Muestreo aleatorio estratificado:
El muestreo aleatorio estratificado consiste en dividir la población en

subgrupos o estratos según las características que se consideren y
en elegir la muestra de modo que estén representados los diferentes
estratos. Consiste en considerar categorías típicas diferentes entre sí
(estratos) que poseen gran homogeneidad respecto a alguna
característica (se puede estratificar, por ejemplo, según la profesión,
el distrito de residencia, el sexo, el estado civil, edad, etc.).
Lo que se pretende con este tipo de muestreo es asegurarse de que

todos los estratos de interés estarán representados adecuadamente
en la muestra. Cada estrato funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado
para elegir los elementos concretos que formarán parte de la muestra.
Supongamos que, en Huancayo, 70% de empresas son formales y el

30% informales. Si queremos encuestar a 100 empresas, lo que
haremos es dividir las empresas en 2 estratos (formales e informales)
y se eligen aleatoriamente 70 empresas formales y aleatoriamente 30
informales.
Este método es el que más se utiliza en investigación científica.
4.- Muestreo aleatorio por conglomerados:
Los métodos presentados hasta ahora están pensados para

seleccionar directamente los elementos de la población, es decir, que
las unidades muéstrales son los elementos de la población. En
cambio el muestreo aleatorio por conglomerados se utiliza cuando los
individuos de la población constituyen grupos naturales muy grandes
9
o conglomerados que contienen otros grupos más pequeños de forma

sucesiva (Ejemplo: país, provincia, distrito, empresas, oficinas, etc.).
- Métodos de muestreo no probabilísticos
A veces, para estudios exploratorios, el muestreo probabilístico resulta

excesivamente costoso y se acude a métodos no probabilísticos, aun
siendo conscientes de que no sirven para realizar generalizaciones
(estimaciones inferenciales sobre la población), pues no se tiene certeza
de que la muestra extraída sea representativa, ya que no todos los
sujetos de la población tienen la misma probabilidad de ser elegidos. En
general se seleccionan a los sujetos siguiendo determinados criterios
procurando, en la medida de lo posible, que la muestra sea
representativa.
Para facilitar aún más la comprensión de los conceptos, realizaremos el

siguiente proceso estadístico:
1°) Se elige una muestra de elementos de una población.
2°) Se observan las características que se han decidido estudiar, tomando el
valor correspondiente a cada uno de los elementos de la muestra.
3°) Se ordenan estos valores y se obtienen diversas medidas que permiten
identificar y comparar numéricamente y gráficamente.
4°) Con los datos obtenidos en la muestra, se deduce el comportamiento de
la población mediante modelos creados por la teoría de probabilidades.
En los tres primeros procesos, se está trabajando con la muestra y se analiza

los datos, eso significa que está dentro de la Estadística Descriptiva. En el
proceso 4° se quiere inferir, mediante el cálculo de probabilidades, el
comportamiento de la población en función de los resultados obtenidos de la
muestra; este proceso corresponde a la Estadística Inferencial.
1.4. VARIABLES ESTADÍSITICAS.
Una variable estadística, es cada una de las características o cualidades

que poseen los individuos de una población.
A continuación desarrollaremos los tipos de variables estadísticas.
a) Variables Cualitativas.
Las variables cualitativas se refieren a características o cualidades que

no pueden ser medidas con números. Podemos distinguir dos tipos de
variables cualitativas:
- Variable cualitativa nominal.
Una variable cualitativa nominal presenta características no numéricas

que no admiten un criterio de orden. Por ejemplo: El estado civil, con
las siguientes características: soltero, casado, divorciado, viudo y
10
separado. Tipo de deporte que practica con las siguientes

características: fútbol, básquet, vóley, tenis, otro .deporte.
- Variable cualitativa ordinal o variable cuasicuantitativa
Una variable cualitativa ordinal presenta características no numéricas,

en las que existe un orden. Por ejemplo:
Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...
Medallas de una prueba deportiva: oro, plata, bronce.
b) Variables Cuantitativas.
Una variable cuantitativa es la que se expresa mediante un número, por

tanto, con élla, se pueden realizar operaciones aritméticas. Existen dos
tipos:
- Variable Discreta.
Una variable discreta es aquella que toma valores numéricos enteros,

es decir no admite valores intermedios entre dos valores específicos.
Por ejemplo: La cantidad de personas beneficiarias, número de
artefactos eléctricos que utiliza.
- Variable Continua.
Una variable continua es aquella que puede tomar valores numéricos

reales comprendidos entre dos números. Por ejemplo: la talla de los
estudiantes, el peso de los trabajadores, la temperatura corporal de los
pacientes.
1.5. DISEÑO DE CUESTIONARIOS.
En la actualidad, la parte más conocida de la Estadística es aquella que se

dedica a los sondeos de opinión. A nadie le sorprende que en los medios de
comunicación: prensa, radio, televisión, medios digitales, etc.; nos informen
o nos pregunten sobre cualquier tema de actualidad.
En muchas ocasiones, nos informan solo del resultado de la encuesta y muy

pocas veces nos informan exactamente de cuál fue la pregunta que se les
hizo a los encuestados.
A nadie le extraña que habitualmente podamos hablar de encuestas

"manipuladas" solamente con la redacción de la pregunta o el diseño de
cuestionarios.
En esta sección trataremos sobre el diseño de cuestionarios y daremos

algunas consideraciones a tener en cuenta si se pretende que la información
que obtengamos sea significativa.
11
Para ilustrar cómo la redacción de la pregunta puede influir en el resultado

del estudio (aún sin que haya interés por manipular los resultados)
reproduzco aquí un artículo del profesor Josu Mezo2, en la que con un
ejemplo muy acertado plantea una reflexión sobre el tema.
Con dicho artículo queremos reflejar que la realización de encuestas, que es

un buen recurso para muchos estudios e investigaciones, no se debe
abordar sin una buena fundamentación teórica que los respalde.
El primer paso que debemos dar es la confección del cuestionario y para

ello debemos tener en cuenta que cada una de las preguntas que
compondrán nuestro cuestionario deben ser confiables y válidas.
Una pregunta es confiable si significa lo mismo para todos los que la van a
responder. Por ejemplo, una pregunta no confiable sería ¿Ve usted mucho
la televisión?. Para un encuestado, dos horas diarias puede ser poco y para
otro mucho. Una buena pregunta sería: ¿Cuántas horas al día ve usted la
televisión? y se plantearían las siguientes posibilidades: menos de dos
horas, de dos a cinco horas, de seis a nueve horas, más de nueve horas.
Una pregunta es válida si estimula información exacta y relevante. La

redacción en las preguntas influye mucho en la validez del cuestionario.
Debemos tener en cuenta que una pregunta puede ser válida para un grupo
de personas pero no para otro.
En conclusión, la construcción de un cuestionario es un proceso laborioso

en el que hay que tener muy claro qué se quiere medir con él, a quién va
dirigido y para qué se va a utilizar.
2
Cada vez doy alguna sesión en un curso sobre encuestas, pongo mucho énfasis en que la redacción de las preguntas
es muy importante, e influye mucho en las respuestas, por lo que siempre, cualquier lector que observa los resultados
de una encuesta, debería pedir que le dejen ver las preguntas (y las respuestas) ofrecidas a los encuestados. Por
supuesto, deberían también hacerlo los periodistas antes de informar sobre la tal encuesta.
Pero cuando digo este tipo de cosas mucha gente tiende a pensar que estoy hablando de las encuestas "manipuladas",
es decir, de encuestas en las que la empresa o el investigador responsable han intentado, deliberadamente, formular las
preguntas y las respuestas para empujar en la dirección de una respuesta favorable a sus puntos de vista, o sus
propuestas políticas. Y obviamente, este tipo de encuestas existen y con un poco de diligencia, no son difíciles de
detectar.
Pero la cosa es mucho más complicada. Es que incluso queriendo hacer una encuesta correcta y neutral, la elección
de unas palabras u otras al preguntar puede dar lugar a resultados muy diferentes. Hoy he encontrado en un artículo de
George Lakoff en el Huffington Post un ejemplo fantástico, de libro, que apareció en febrero en el NYTimes. El periódico
hizo una encuesta para saber la opinión de los americanos sobre el tema de los gays en el ejército, pero decidió hacer
un pequeño experimento con las palabras. A la mitad de la muestra les preguntaron si estaban a favor de que "los
homosexuales" pudieran servir en el ejército; y a la otra mitad les preguntaron si estaban a favor de que "los gays y
lesbianas" pudieran hacerlo (redacción exacta de las preguntas y los resultados).
Resultado: el 70% está a favor de permitir que sirvan en el ejército los gays y lesbianas, pero sólo el 59% está a favor de
que lo hagan los homosexuales. Es más, preguntados por su reacción en caso de que hagan pública su orientación
sexual, seguía estando a favor de su reclutamiento un 58% de los preguntados por gays y lesbianas, pero sólo un 44%
de los preguntados por los homosexuales (según cuenta Lakoff, la diferencia en este último punto es particularmente alta
entre los demócratas, que responden a favor, en el primer caso, el 79% de las veces, pero sólo el 43% en el segundo
caso).
Ya ven: diferencias de 11, 14 puntos, o de 36 puntos (para los demócratas) según se pregunte, en distintas preguntas,
por "gays y lesbianas" o por "homosexuales". Cualquiera de las dos formulaciones podría haber sido escogida por un
investigador perfectamente neutral y deseoso de hacer un estudio serio y objetivo, sin agendas oscuras ni planes turbios.
Pero los resultados difieren, a veces espectacularmente.
Entonces, ¿Cuál de las dos preguntas representa la "verdadera" opinión de los norteamericanos? Ninguna en particular.
Cada una, si la encuesta está bien hecha, representa la respuesta de los americanos a una pregunta distinta. Lo que nos
recuerda una vez más lo exquisitos que hay que ser al tomar siempre con la debida moderación los datos de las
encuestas.
12
En la confección de un cuestionario podemos distinguir las siguientes etapas:

a) Determinar la finalidad del cuestionario: qué se va a medir, a quién se va
a medir y para qué se va a medir.
b) Especificar las características del cuestionario: cuál va a ser su contenido,
qué tipo de preguntas se van a incluir, cuántas preguntas.
c) Redacción de las preguntas: selección y tipo de preguntas.
d) Revisión del cuestionario por un grupo de expertos.
e) Confección de la prueba piloto: instrucciones de administración, forma de
presentación y formato de registro de las respuestas.
f) Aplicación de la prueba.
g) Corrección de la prueba.
En los siguientes apartados analizaremos alguna de estas etapas.
a) Finalidad.
- Variable objeto de estudio.
Como paso previo a la construcción de un cuestionario es necesario

tener muy claro cuál va a ser su objetivo; es decir, qué es lo que se quiere
medir, a quién se quiere medir y para qué se quiere medir.
Aunque pueda ser trivial el señalar la importancia de lo que se quiere

medir, si la variable de estudio es física, como la altura o la edad, al ser
variables que están muy claras para todo el mundo y todos saben cómo
medirlas esto podría ser cierto. Pero al medir otras variables de tipo
psicológico o de opinión, que no son observables directamente,
debemos definir claramente la variable de estudio.
Por ejemplo, si queremos realizar una prueba para medir la agresividad

en los adolescentes, en primer lugar debemos definir qué entendemos
por “agresividad”.
Si la variable está bien definida será más fácil determinar cuáles son las
conductas representativas del mismo y, a partir de ellas, especificar el
contenido del cuestionario.
- Población a la que va dirigido
Otro aspecto importante en la redacción y confección de cuestionario es

delimitar la población a la que va dirigido. Esto influirá en el contenido de
las preguntas, la redacción de éstas, la longitud del cuestionario y las
instrucciones de aplicación.
Por ejemplo, si queremos diseñar una encuesta para conocer la opinión

sobre el uso de la energía nuclear, el cuestionario será distinto si se va
a aplicar a la población en general o si se le va a aplicar a expertos en
energías. También los cuestionarios será distintos si se aplica a
población adulta o infantil, etc..
13
- Utilización prevista
Además de tener en cuenta a qué población irá dirigido nuestro

cuestionario debemos tener en cuenta qué utilización se le va a dar; es
decir, para qué se va a utilizar; qué decisiones se van a tomar a partir de
los resultados que obtengamos.
Por ejemplo, no es lo mismo construir un cuestionario para detectar niños

superdotados que para detectar niños deficientes. En el primer caso las
preguntas deberían ser difíciles en su mayoría, para que solo puedan ser
contestadas por los niños más inteligentes; mientras que en el segundo
caso, las preguntas deben ser fáciles, de tal manera que solo respondan
de manera incorrectas aquellos niños que presenten dificultades.
b) Características.
Es importante especificar las características del cuestionario: cuál va a ser

su contenido, qué tipo de preguntas se van a incluir, cuántas preguntas,
qué características psicométricas o sociales incluiremos de acuerdo a la
población o muestra que se va a encuestar.
c) Redacción.
La realidad es que si queremos realizar un buen estudio estadístico a

partir de un cuestionario, la redacción es importante, si la redacción de las
preguntas no es la correcta, los resultados que obtendremos en nuestro
estudio tampoco lo serán.
A continuación, y aunque en muchos casos puedan resultar obvias,

daremos unas recomendaciones generales sobre la redacción de las
preguntas:
- Evitar la ambigüedad de los enunciados.
El significado de las palabras empleadas debe estar claro para todos los
sujetos. Los enunciados cortos y directos contribuirán a evitar la
ambigüedad ya que la inclusión de palabras innecesarias complican la
lectura y pueden provocar confusión en los sujetos. Debemos evitar el
uso de palabras como muchas veces, a menudo, frecuentemente, ...
Ejemplos de preguntas mal formuladas serían:

¿Ves mucho tiempo la televisión?
Para algunas personas dos horas diarias puede resultar mucho y para
otras poco.
¿Te consideras una persona religiosa?
Términos como la religiosidad pueden ser interpretados por los sujetos
de forma distinta.
- Evitar enunciados que provoquen respuestas sesgadas.
14
Se deben evitar los enunciados que puedan provocar una respuesta

sesgada, entendiendo por ésta aquella que es más probable que elijan
los sujetos independientemente de su opinión. Por ejemplo un enunciado
que implique que los sujetos deban admitir conductas o actitudes que no
son consideradas socialmente como aceptables pueden provocar que
los sujetos no manifiesten su verdadera opinión y elijan la respuesta
socialmente aceptable.
Una pregunta de este tipo puede ser:
¿Considera que las mujeres deben tener los mismos derechos que los
hombres?
A esta pregunta la mayoría de las personas se inclinarían por la

respuesta SI, que es la socialmente aceptada aunque pudieran tener
opiniones distintas.
- Expresar una única idea en el enunciado.
Es necesario evitar las dobles preguntas en un mismo enunciado ya que

provocaría confusión en los sujetos y no sabrían qué respuesta emitir.
Por ejemplo, un enunciado con doble pregunta sería del tipo:
Está usted a favor de reducir el consumo de alcohol entre los jóvenes y

aumentar los impuestos de las bebidas alcohólicas.
En este enunciado se incluyen dos conceptos diferentes que puede

provocar que haya personas que estén a favor de un enunciado y en
contra del otro que le impediría saber qué opción elegir.
Ante situaciones de este tipo se deben incluir dos preguntas por

separado.
- Evitar las dobles negaciones en los enunciados.
En general, es recomendable no usar enunciados negativos y sobre todo

evitar el uso de las dobles negaciones ya que provocan que los sujetos
no sepan cuál es la respuesta que representa su opinión.
Por ejemplo:
Le parece a usted imposible que la llegada del hombre a la luna nunca
haya ocurrido.
- Recomendaciones para preguntas de elección.
Además de las recomendaciones anteriores hay una serie de normas

específicas para cada tipo de pregunta.
15
* Dos alternativas: Verdadero-Falso
1. Estar absolutamente convencido de que la pregunta es sin duda

verdadera o falsa.
2. No utilizar frases que sean universalmente verdaderas o falsas.
3. Evitar en el enunciado palabras que puedan, de alguna manera,
inducir la respuesta correcta a los sujetos aunque no la conozcan.
4. Situar a lo largo del test, de forma aleatoria, las preguntas de
enunciado correcto, evitando crear patrones de respuestas.
* Elección múltiple
1. Asegurarse de que el enunciado formula el problema con claridad.

2. Incluir la mayor parte del texto en el enunciado para evitar
repeticiones innecesarias en las opciones de respuesta.
3. Incluir las distintas opciones de respuesta al final del enunciado.
4. Evitar opciones de respuesta como Ninguna de las anteriores,
Todas las anteriores.
5. Sólo debe haber una respuesta correcta en las alternativas, salvo
que se indique lo contrario.
6. Tratar de que todas las alternativas de respuesta tengan una
longitud aproximadamente igual y una construcción gramatical
parecida.
7. La ubicación de las respuestas debe ser aleatoria.
8. Hacer que todas las alternativas le parezcan igual de atractivas a
una persona no informada del problema al que alude el enunciado.
9. Asegurarse de que cada alternativa concuerda gramaticalmente
con el enunciado de la pregunta. Si el enunciado está en singular,
cada alternativa debe estar en singular.
d) Revisión.
Una vez redactadas las preguntas, y antes de dar forma a la prueba piloto,
es conveniente que éstas sean revisadas por un grupo de personas que
no hayan intervenido en su elaboración, con el fin de que puedan revisar,
no sólo si se adaptan al contenido, sino la claridad de la redacción, si se
han cumplido las normas generales y específicas en función del tipo de
formato, etc..
Lo ideal es que la redacción pudiera ser hecha por personas expertas,

tanto en los contenidos como en el estilo de redacción; si esto no es
posible, siempre se podrá contar con alguna persona más o menos
calificada. Si tampoco esto fuera posible, lo mejor es hacer una segunda
lectura de la prueba al cabo de un tiempo, esta lectura ofrecerá una nueva
visión del trabajo y permitirá corregir los posibles errores.
Finalmente y lo más importante es que usted mismo responda el

cuestionario y compruebe que las preguntas están bien redactadas y de
fácil aplicación.
16
UNIDAD II
ORGANIZACIÓN Y PRESENTACIÓN
DE DATOS ESTADÍSTICOS
2.1. TABLAS DE INFORMACIÓN ESTADÍSTICA.
Las tablas de información estadística comprenden a resúmenes y

consolidaciones de informaciones dispersas que se efectúan con fines de
realizar una presentación ordenada y clasificada de los resultados, de modo
que se facilite sus análisis e interpretación para la toma de decisiones. Las
tablas de información resultan de identificar las necesidades de información,
por tanto es necesario que para su elaboración se consideren las
características que puedan cumplir su objetivo de informar. La estructura
general de una tabla de información estadística es la siguiente:
a) Número de Tabla.
Es un código de identificación que permite citarlo cuantas veces sea

necesario a lo largo de un informe.
b) Título.
Corresponde a una descripción resumida de la información estadística de

la tabla. En general una tabla debería responder a las siguientes
preguntas:
- Qué: ¿Qué información contiene la tabla?
- Dónde: ¿A dónde corresponde la información tabulada?
- Cómo: ¿Cómo está arreglada o clasificada la información?
- Cuándo: ¿A qué periodo de tiempo corresponde la información?
c) Encabezamiento
Es la descripción resumida sobre el contenido de las filas y columnas que

contiene la tabla de información estadística.
d) Cuerpo de la Tabla.
Comprende le contenido numérico de la información de la tabla.
e) Notas de pie o llamadas.
Siempre es recomendable anotar las aclaraciones sobre términos, siglas,

abreviaturas usadas. También es recomendable precisar las unidades de
medida y equivalencias que se están utilizando para expresar cantidades.
17
f) Fuente.
Se debe anotar el nombre de la institución o de la investigación de dónde

se han tomado los datos individuales.
g) Elaboración.
Se debe anotar el nombre de la unidad o entidad responsable de la

formulación y presentación del tabulado de la información estadística.
h) Fecha.
Se debe registrar la fecha en que se realizó el cuadro para dejar

constancia del evento y poder actualizar de ser necesario.
Todas las características de la estructura de una tabla de información

estadística se puede observar en la Tabla 2.2.
A continuación desarrollaremos un ejemplo de aplicación. Según

información preliminar de la Oficina de Atención al Cliente de la Empresa
ELECTROCENTRO S.A., en el mes de noviembre de 2012, la empresa
atendió a los clientes que se muestran en la Tabla 2.1.
Tabla 2.1. Información preliminar de atención al cliente en las oficinas de

ELECTROCENTRO S.A.
Cliente Distrito Sexo
1 El Tambo (*) Masculino
2 Huancayo Femenino
3 Huancayo Masculino
4 Chilca Masculino
5 Huancayo (*) Masculino
6 El Tambo Femenino
7 El Tambo Masculino
8 Chilca Femenino
9 Huancayo (*) Femenino
12 Chilca Masculino
(*) El cliente no acreditó su residencia.
A continuación elaboraremos una tabla de resultados que consolide la

información dispersa en esta base de datos construida por la Oficina de
Atención al Cliente de la Empresa ELECTROCENTRO S.A.
Tabla 2.2. Número de clientes que fueron atendidos en la empresa ELECTROCENTRO

S.A. según residencia y sexo del cliente en el mes de noviembre de 2012.
Distrito de Sexo
Clientes atendidos
Residencia Masculino Femenino
18
Cantidad % Cantidad % Cantidad %

(fi) (ni) (fi) (ni) (fi) (ni)
Huancayo 7 46,67 5 45,46 2 50,00
El Tambo 5 33,33 4 36,36 1 25,00
Chilca 3 20,00 2 18,18 1 25,00
15 100,00 11 100,00 4 100,00
Fuente: Oficina de atención al cliente de ELECTROCENTRO S.A.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-05
2.1.1. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS.
La tabla de distribución de frecuencias o tabla de frecuencias es una

ordenación en forma de tabla de los datos estadísticos, asignando a
cada dato su frecuencia correspondiente; este tipo de tabla de
frecuencias se utiliza con variables cualitativas y variables discretas,
pero en poblaciones pequeñas. Para ello existen algunos conceptos
que desarrollaremos a continuación.
- Frecuencia absoluta (fi).
La frecuencia absoluta es el número de veces que aparece un

determinado valor en un estudio estadístico. La suma de las
frecuencias absolutas es igual al número total de datos, que se
representa por N, matemáticamente se expresa así:
𝑛
∑ 𝑓𝑖 = 𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑛 = N
𝑖=0
La columna de las frecuencias absolutas (fi), nos indica el número

de veces que ocurre un mismo dato
- Frecuencia relativa (ni).
La frecuencia relativa es el cociente entre la frecuencia absoluta (fi)

de un determinado valor y el número total de datos (N).
Matemáticamente se expresa así:
𝑓𝑖
𝑛𝑖 =
𝑁
La frecuencia relativa se puede expresar en fracciones, en números
decimales o en porcentajes. En una tabla de distribución de
frecuencias la suma de todas las frecuencias relativas debe dar
como resultado 1,00 o 100%.
𝑛
∑ 𝑛𝑖 = 1
𝑖=0
19
Otro dato importante, es que la frecuencia relativa nos ayuda a

identificar tendencias, es decir, el número cuya frecuencia relativa se
acerque más a la unidad, es el que tiene mayores probabilidades de
salir elegido.
- Frecuencia acumulada (Fi).
La frecuencia acumulada es la suma de las frecuencias absolutas

(fi) de todos los valores inferiores o iguales al valor considerado.
- Frecuencia relativa acumulada (Ni).
La frecuencia relativa acumulada es el cociente entre la frecuencia

acumulada (Fi) de un determinado valor y el número total de datos
(N); también se puede expresar en tanto por ciento.
Matemáticamente se expresa así:
𝐹𝑖
𝑁𝑖 =
𝑁
A continuación desarrollaremos un ejemplo de aplicación: Según
información preliminar de la empresa de vigilancia de la Empresa
ELECTROCENTRO S.A., la edad de las personas que ingresaron a
las instalaciones de Parque Industrial, el día 06 de diciembre de 2012
son las siguientes:
32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30;
30; 29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.
Tabla 2.3. Edad de las personas que ingresaron a las instalaciones del Parque
Industrial de la empresa ELECTROCENTRO S.A. según empresa de vigilancia el
día 06 de diciembre de 2012.
xi Recuento fi Fi ni Ni
27 I 1 1 0,032 0,032
28 II 2 3 0,065 0,097
29 IIII I 6 9 0,194 0,290
30 IIII II 7 16 0,226 0,516
31 IIII III 8 24 0,258 0,774
32 III 3 27 0,097 0,871
33 III 3 30 0,097 0,968
34 I 1 31 0,032 1
31 1
Fuente: Empresa de vigilancia.
Fecha: 2012-12-07
A partir de la Tabla 2.3 se puede responder a algunas preguntas.
- ¿Qué porcentaje de los visitantes tienen 30 años?

Rpta. 22,6%
- ¿Qué porcentaje de los visitantes son menores a 30 años?
20
Rpta. 29,0%
2.1.2. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS

AGRUPADOS.
La tabla de distribución de frecuencias para datos agrupados

básicamente se utiliza con variables cualitativas y variables
discretas, pero con muestras de poblaciones altas, también se
utiliza con variables continuas. Para ello existen algunos conceptos
que desarrollaremos a continuación.
- Amplitud de datos, rango o recorrido (R).
La amplitud de datos es la diferencia entre el máximo valor de los

datos (xmax) y el mínimo valor de los datos (xmin), matemáticamente
se expresa así:
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
- Clase.
Los datos se agrupan en intervalos que tengan la misma amplitud

denominados clases. A cada clase se le asigna su frecuencia
correspondiente.
Los datos de la variable estadística se deben agrupar en intervalos

de clase contiguos y elegidos convenientemente para no perder
mucha información. Si existen pocos intervalos se pierde gran
información que nos impediría apreciar la distribución de la variable;
si existen demasiados intervalos, se pierde la utilidad de usar
agrupaciones por intervalos.
Existen distintos criterios para establecer el número adecuado de

intervalos; según Norcliffe el número de intervalos debe ser
aproximadamente la raíz cuadrada del número de datos (por ejemplo
para 100 datos, deberíamos tener aproximadamente 10 intervalos).
Aunque la mayoría de investigadores, normalmente indican que
debe ser entre 5 y 15, de tal manera que en cada clase se tengan,
al menos, 5 observaciones. Otros indican que la cantidad de
intervalos (k) se puede obtener con la siguiente relación.
2𝑘 ≥ 𝑁 Siendo N, el número total de datos.
De cualquier forma, el investigador los acomodará a las condiciones

específicas del problema estadístico objeto de estudio (se tomarán
tantos intervalos como sean necesarios para recubrir todo el
recorrido de la variable).
21
- Límites de clase.
La clase está representada por un intervalo, el extremo inferior de un

intervalo debe coincidir con el superior del intervalo anterior.
Normalmente se utiliza el criterio de que los intervalos sean cerrados
por la izquierda y abiertos por la derecha [a;b), de tal manera que el
dato cuyo valor es “a” está incluido en el intervalo mas no el dato “b”.
Entonces cada clase está delimitada por el límite inferior de la

clase (a) y el límite superior de la clase (b).
- Amplitud de clase o rango de clase (r).
La amplitud de los intervalos debe ser la misma y su valor se calcula

con la siguiente relación.
𝑅
𝑟=
𝑘
Si el valor de “r” no es entero, se debe redondear al entero más
próximo, luego con dicho valor se puede construir los intervalos de
clase respectivo, para ello generalmente se empieza con el valor de
xmin y se suma el valor de “r” y se va avanzando hasta llegar al valor
xmax.
Finalmente, la amplitud de la clase es la diferencia entre el límite

superior (b) e inferior (a) de cada clase, matemáticamente se
expresa así:
𝑟 =𝑏−𝑎
- Marca de clase (c)
La marca de clase es el punto medio de cada intervalo y es el valor

que representa a todo el intervalo para el cálculo de algunos
parámetros, matemáticamente se expresa así:
𝑎+𝑏
𝑐=
2
A continuación desarrollaremos un ejemplo de aplicación: Según
información preliminar de la oficina de Recursos Humanos de la
Empresa ELECTROCENTRO S.A., la edad de los 48 trabajadores
se muestra en la Tabla 2.4:
22
Tabla 2.4. Edad de los trabajadores de ELECTROCENTRO S.A.

29 61 33 50 54 26
62 45 55 33 22 50
33 39 29 38 55 62
30 37 56 60 21 49
56 40 22 34 50 58
43 58 30 29 46 61
27 32 41 28 39 51
41 24 31 49 58 59
A continuación calcularemos los datos necesarios para la

construcción de la tabla de frecuencias.
- Número de trabajadores: N=48

- Determinamos la edad mínima: xmin=21
- Determinamos la edad máxima: xmax=62
- Determinamos la amplitud de datos: R=62-21=41
- Determinamos la cantidad de intervalos
2𝑘 ≥ 48 Entonces k=6.
- Determinamos la amplitud de clase:
𝑅 41
𝑟= = = 6,83 redondeando sería r = 7
𝑘 6
- Determinamos los seis (k=6) intervalos empezando del menor

sumando siete a cada intervalo.
1 [21;28)
2 [28;35)
3 [35;42)
4 [42;49)
5 [49;56)
6 [56;63)
- Finalmente construimos la tabla de frecuencias

correspondiente que se muestra en la Tabla 2.5.
Tabla 2.5. Edad de los trabajadores de la empresa ELECTROCENTRO S.A.

según Oficina de Recursos Humanos hasta el día 30 de noviembre de 2012.
Clase Recuento ci fi Fi ni Ni
[21;28) IIII II 24,5 7 7 14,583 14,583
[28;35) IIII IIII I 31,5 11 18 22,917 37,500
[35;42) IIII II 38,5 7 25 14,583 52,083
[42;49) IIII 45,5 5 30 10,417 62,500
[49;56) IIII IIII 52,5 9 39 18,750 81,250
[56;63) IIII IIII 59,5 9 48 18,750 100,000
48 100,000
Fuente: Oficina de Recursos Humanos.
Fecha: 2012-12-07
23
2.2. GRÁFICOS ESTADÍSTICOS.
Después de construir la tabla de frecuencias, es muy útil la representación

gráfica del mismo, esto nos permite, a simple vista, obtener información
relevante de la población o muestra que estamos estudiando.
Según el tipo de dato que estamos estudiando o analizando, se debe usar

una de las siguientes representaciones gráficas que se muestran en la Tabla
2.6.
Tabla 2.6. Tipos de gráficos según el tipo de dato que estamos estudiando
GRÁFICA TIPO DE DATOS
Diagrama de barras Cualitativos y cuantitativos discretos
Histograma Cuantitativos continuos
Polígono de frecuencias Cuantitativos discretos y continuos
Diagrama de sectores Cualitativos y cuantitativos
2.2.1. DIAGRAMA DE BARRAS.
Un diagrama de barras se utiliza para presentar datos cualitativos

o datos cuantitativos de tipo discreto.
Se representan sobre unos ejes de coordenadas, en el eje de

abscisas (eje x) se colocan los valores de la variable, y sobre el eje de
ordenadas (eje y) las frecuencias absolutas o relativas o acumuladas.
Los datos se representan mediante barras de una altura proporcional

a la frecuencia, y pueden con barras verticales u horizontales. En la
Figura 2.1 se observa el diagrama de barras verticales del ejemplo
que se muestra en la Tabla 2.5.
Figura 2.1. Diagrama de barras vertical sobre la edad de los trabajadores de

ELECTROCENTRO S.A.
24
En la Figura 2.2 se observa el diagrama de barras horizontales del

ejemplo que se muestra en la Tabla 2.5.
Figura 2.2. Diagrama de barras horizontal sobre la edad de los trabajadores de

ELECTROCENTRO S.A.
Un ejemplo para variables cualitativas, sería considerando el mismo

ejemplo de los trabajadores de ELECTROCENTRO S.A. donde a
cada uno de ellos se les hizo un análisis de sangre y se obtuvo el
diagrama de frecuencias que se muestra en la Tabla 2.7.
Tabla 2.7. Grupo sanguíneo de los trabajadores de la empresa

ELECTROCENTRO S.A. según Oficina de Recursos Humanos
hasta el día 30 de noviembre de 2012.
fi Fi ni Ni
A 16 16 33,3 33,3
B 12 28 25,0 58,3
AB 5 33 10,4 68,7
O 15 48 31,3 100,0
Total 48 100
Fuente: Oficina de Recursos Humanos.
Fecha: 2012-12-07
Su diagrama de barras correspondiente se muestra en la Figura 2.3.
25
Figura 2.3. Diagrama de barras sobre el grupo sanguíneo que poseen los
trabajadores de ELECTROCENTRO S.A.
2.2.2. HISTOGRAMAS.
Es un resumen gráfico del conjunto de valores producidos por

las variaciones de una determinada característica,
representando la frecuencia con que se presentan distintas
categorías dentro de dicho conjunto.
Los histogramas, fundamentalmente se utilizan para variables

cuantitativas continuas, con un gran número de datos, y que se han
agrupado en clases.
En el eje de las abscisas (eje x), se construyen unos rectángulos que

tienen por base la amplitud del intervalo, y por altura, la frecuencia
absoluta de cada intervalo, tal como se muestra en la Figura 2.4.
En la Tabla 2.8 se muestra la tabla de distribución de frecuencias de

la variable peso (variable cuantitativa continua) de una muestra de
941 alumnos de una institución educativa.
26
Tabla 2.8 Distribución de frecuencias del peso de 941 estudiantes.

Frecuencia
Frecuencia
Frecuencia relativa
Relativa
Intervalo de clase Absoluta acumulada
(%)
(fi) (%)
(ni)
(Ni)
40,21 a 45,149 33 3,51 3,51
45,149 a 50,088 83 8,82 12,33
50,088 a 55,027 127 13,50 25,83
55,027 a 59,966 176 18,70 44,53
59,966 a 64,905 159 16,90 61,43
64,905 a 69,844 113 12,01 73,44
69,844 a 74,783 117 12,43 85,87
74,783 a 79,722 84 8,93 94,70
79,722 a 84,661 31 3,29 98,09
84,661 a 89,600 18 1,91 100
Total 941 100
En la Figura 2.4 se observa un histograma graficado según los datos

de la Tabla 2.8.
Encima de los histogramas también se puede graficar la curva normal

que sirve para dar algunas interpretaciones al gráfico, tal como se
muestra en la Figura 2.5.
Figura 2.4. Histograma
27
Figura 2.5. Histograma con curva normal de distribución
2.2.3. POLÍGONO DE FRECUENCIAS.
Un polígono de frecuencias se forma uniendo, mediante segmentos,

los extremos superiores de las barras de los diagramas de barras o
de los histogramas.
En la Figura 2.6 se muestra el polígono de frecuencias de los datos

de la Tabla 2.8.
2.2.4. DIAGRAMA DE SECTORES.
El diagrama de sectores, también conocidos como diagrama de torta

o diagrama circular, puede aplicarse a cualquier tipo de variables
(cualitativas y cuantitativas), aunque es el más adecuado en variables
cualitativas. Este diagrama es un círculo dividido en sectores cuya
amplitud es proporcional a las frecuencias de cada valor.
Los datos se representan en un círculo, de modo que el ángulo de

cada sector (αi) se obtiene multiplicando la frecuencia absoluta (fi) por
360º y dividiendo entre el número total de datos (N), tal como se
muestra en la siguiente fórmula:
𝑓𝑖 . 3600
𝛼𝑖 = = 𝑛𝑖 . 3600
𝑁
28
El diagrama circular se construye con la ayuda de un transportador de

ángulos.
En la Tabla 2.9 se muestra la tabla de distribución de frecuencias de

la variable deporte (variable cualitativa) de una muestra de 941
alumnos del ejemplo anterior.
Figura 2.6. Polígono de frecuencias
Tabla 2.9 Distribución de frecuencias del deporte que practican los 941
estudiantes.
Frecuencia
Frecuencia
Deporte Frecuencia relativa Frecuencia
Relativa
que Absoluta acumulada Absoluta
(%)
practican (fi) (%) (fi)
(ni)
(Ni)
Fútbol 407 43,3 43,3 43,3
Vóley 222 23,6 23,5 66,8
Básquet 183 19,4 19,5 86,3
Otro
129 13,7 13,7 100
deporte
Total 941 100 100
En la Figura 2.7 se observa el diagrama circular graficado según los

datos de la Tabla 2.9.
29
Figura 2.7. Diagrama circular
30
UNIDAD III
PARÁMETROS Y ESTADÍGRAFOS
ESTADÍSTICOS
Los PARÁMETROS ESTADÍSTICOS sirven para identificar a la población
mientras que los ESTADÍGRAFOS ESTADÍSTICOS sirven para identificar a la
muestra tal como se muestra en la Figura 3.1.
Figura 3.1. Concepto de Parámetros y Estadígrafos
Normalmente, los PARÁMETROS no se conocen, pero se pueden estimar a

partir de los ESTADÍGRAFOS, con un mínimo de error.
Un parámetro o estadígrafo, es un número que se obtiene a partir de los datos

de una distribución estadística. Estos parámetros se calculan para variables
cuantitativas.
Los parámetros o estadígrafos estadísticos sirven para sintetizar la información

dada por una tabla estadística o por un gráfico estadístico.
Existen tres tipos parámetros y estadígrafos estadísticos:
3.1. MEDIDAS DE TENDENCIA CENTRAL.
Para explicar y entender mejor las medidas de tendencia central,

explicaremos la nota que obtuvo un determinado alumno, el cual fue 35
puntos en una prueba de matemática. Este puntaje, por sí mismo tiene muy
poco significado a menos que podamos conocer el total de puntos que
obtiene una persona promedio al participar en esa prueba, saber cuál es la
31
calificación menor y mayor que se obtiene, y cuán variadas son esas

calificaciones. Es decir, para que una calificación tenga significado hay que
contar con elementos de referencia generalmente relacionados con ciertos
criterios estadísticos.
Las medidas de tendencia central (media, mediana y moda) sirven

como puntos de referencia para interpretar los resultados que se
obtienen en un determinado caso de estudio.
Volviendo a nuestro ejemplo, digamos que la calificación promedio en la

prueba que hizo el alumno fue de 20 puntos. Con este dato podemos decir
que la calificación del alumno se ubica notablemente sobre el promedio. Pero
si la calificación promedio fue de 65 puntos, entonces la conclusión sería
muy diferente, debido a que se ubicaría muy por debajo del promedio de la
clase.
En resumen, el propósito de las medidas de tendencia central es:

- Mostrar en qué lugar se ubica el individuo promedio o típica del grupo.
- Sirve como un método para comparar o interpretar cualquier valor de una
variable en relación con el valor central o típico.
- Sirve como un método para comparar el valor o puntaje obtenido por un
mismo individuo en dos diferentes ocasiones.
- Sirve como un método para comparar los resultados medios obtenidos por
dos o más grupos de individuos.
De las tres medidas de tendencia central, la media es reconocida como la

mejor y más útil. Sin embargo, cuando en una distribución se presentan
casos cuyos valores son muy bajos o muy altos respecto al resto del grupo,
es recomendable utilizar la mediana o la moda. (Porque dadas las
características de la media, esta es afectada por los valores extremos,
entonces muchas veces se puede optar por no tomar en cuenta tales valores
extremos y excluirlos de la observación).
Las medidas de tendencia central más comunes son:
̅).
a) Media, Media Aritmética o Promedio (µ o 𝒙
Seguramente has escuchado en los medios de información, noticias como

las siguientes:
- El promedio de las edades de la selección de fútbol es 18 años.
- La temperatura promedio del día es 20 °C.
- El sueldo promedio de los trabajadores de una empresa está por arriba
del salario mínimo.
Esta información nos hace reflexionar y deducir algún conocimiento:

- En el primer ejemplo se deduce que la selección es un equipo de
jóvenes.
- En el segundo ejemplo, que el clima fue agradable.
- En el tercero, que la empresa paga muy bien a sus trabajadores.
32
Sin embargo nuestra deducción no es siempre correcta, analicemos el

último ejemplo:
La información que nos proporcionó la empresa es que tiene 16

trabajadores y su planilla diaria es de S/. 800,00, entonces el promedio
del salario diario es de S/. 50,00. Este resultado nos hace pensar que los
sueldos mensuales de los trabajadores es de S/.1500,00; el cual es el
doble del sueldo mínimo; entonces podemos deducir que la remuneración
de los trabajadores es buena, sin embargo no es así, porque en el
promedio está incluido el sueldo del gerente que gana S/. 350,00 y esta
cantidad disfraza el sueldo real de cada uno; porque si el gerente percibe
S/. 350,00 diarios, entonces ¿Cuál es el sueldo real de los otros
trabajadores?, sería en promedio S/. 30,00.
Como habrás notado en este ejemplo, conocer los promedios no es

suficiente, es necesario saber cómo están dispersos los datos.
- Cálculo de la media para datos no agrupados.
Este caso se utiliza cuando la cantidad de datos (N) es pequeño y se

calcula con la siguiente fórmula:
𝑁
1 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑁
𝜇 = ∑ 𝑥𝑖 =
𝑁 𝑁
𝑖=1
Como ejemplo tomaremos las edades de 16 amigos que se muestran a

continuación:
62; 50; 64; 52; 60; 55; 58; 52; 55; 53; 53; 65; 57; 52; 62 y 60 años
Entonces la media es:
62+50+64+52+60+55+58+52+55+53+53+65+57+52+62+60
𝜇=
16
910
𝜇= = 56,875 (𝑣𝑎𝑙𝑜𝑟 𝑒𝑥𝑎𝑐𝑡𝑜)
16
- Cálculo de la media para datos agrupados.
Este caso se utiliza cuando la cantidad de datos (N) es grande y se

puede construir una tabla de frecuencia, su valor se calcula con la
siguiente fórmula:
𝑁
1
𝜇 = ∑(𝑥𝑖 . 𝑓𝑖 )
𝑁
𝑖=1
33
Para este caso desarrollaremos el mismo ejemplo de la Tabla 2.3, sobre

la edad de las personas que ingresaron a las instalaciones de Parque
Industrial de ELECTROCENTRO S.A., el día 06 de diciembre de 2012,
que son las siguientes:
32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30; 30;
29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.
El resumen de los datos se muestra en la Tabla 3.1
Tabla 3.1. Datos resumen de los datos mostrados

xi fi xi.fi
27 1 27
28 2 56
29 6 174
30 7 210
31 8 248
32 3 96
33 3 99
34 1 34
Total 31 944
Luego la media sería:
944
𝜇= = 30,451 (𝑣𝑎𝑙𝑜𝑟 𝑒𝑥𝑎𝑐𝑡𝑜)
31
Otro caso de datos agrupados es el de una distribución de frecuencias

donde tiene intervalos de clase y por tanto marca de clase (c i), en este
caso la media se calcula con la siguiente fórmula:
𝑁
1
𝜇 = ∑(𝑐𝑖 . 𝑓𝑖 )
𝑁
𝑖=1
Para una aplicación de este caso tomaremos el ejemplo de la Tabla 2.5

y que se muestran en la Tabla 3.2.
34
Tabla 3.2. Datos resumen de los datos de la Tabla 2.5

Clase Recuento ci fi ci.fi
[21;28) IIII II 24,5 7 171,5
[28;35) IIII IIII I 31,5 11 346,5
[35;42) IIII II 38,5 7 269,5
[42;49) IIII 45,5 5 227,5
[49;56) IIII IIII 52,5 9 472,5
[56;63) IIII IIII 59,5 9 535,5
48 2023
Luego la media sería:
2023
𝜇= = 42,1458 (𝑣𝑎𝑙𝑜𝑟 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑜)
48
b) Mediana (Me).
La mediana, es el valor del término medio que divide una distribución de

datos ordenados en dos partes iguales, es decir, el 50% de los datos se
ubican sobre la mediana o hacia los puntajes altos y el 50% restante hacia
los puntajes bajos; es decir, la mediana nos indica que la mitad de los
datos se encuentran por debajo de este valor y la otra mitad por encima
del mismo.
Tiene la ventaja de no estar afectada por las observaciones extremas, ya

que no depende de los valores que toma la variable, sino del orden de las
mismas, por ello, para el cálculo de la mediana interesa que los valores
estén ordenados de menor a mayor.
- Cálculo de la mediana para datos no agrupados.
En este caso se presenta dos casos:

* Cuando el número de datos (N) es impar se aplica la siguiente
relación:
𝑀𝑒 = 𝑋𝑁+1
2
Desarrollaremos un ejemplo, para calcular la mediana de las siguientes

calificaciones del curso de Estadística evaluadas sobre veinte: 20; 16;
12; 08; 18; 14; 20; 18 y 12.
Primero ordenaremos los datos de menor a mayor, tal como se muestra

en la Tabla 3.3.
Tabla 3.3. Datos ordenados de menor a mayor

x1 x2 x3 x4 x5 x6 x7 x8 x9
08 12 12 14 16 18 18 20 20
35
𝑀𝑒 = 𝑋𝑁+1 = 𝑋9+1 = 𝑋5
2 2
Entonces la mediana sería el elemento x5, es decir:
Me=x5=16
Lo que significa que la mitad de los datos están por debajo de 16 y la

otra mitad está por encima de 16.
* Cuando el número de datos (N) es par se aplica la siguiente

relación:
𝑋𝑁 + 𝑋𝑁+1
2 2
𝑀𝑒 =
2
Ahora desarrollaremos un ejemplo, para calcular la mediana de las

siguientes calificaciones del curso de Matemática evaluadas sobre
veinte: 20; 16; 18; 12; 08; 16; 18; 14; 20 y 18.
Primero ordenaremos los datos de menor a mayor, tal como se muestra

en la Tabla 3.4.

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
08 12 14 16 16 18 18 18 20 20
𝑋𝑁 + 𝑋𝑁+1 𝑋10 + 𝑋10+1 𝑋5 + 𝑋6 16 + 18

2 2 2 2
𝑀𝑒 = = = =
2 2 2 2
𝑀𝑒 = 17

- Cálculo de la mediana para datos agrupados.
Este caso se utiliza cuando la cantidad de datos (N) es grande y se

puede construir una tabla de frecuencia, su valor se calcula con la
siguiente fórmula:
𝑁+1
𝑀𝑒 = (solo la posición de la mediana)
2
Para este caso desarrollaremos el mismo ejemplo de la Tabla 2.3, sobre

la edad de las personas que ingresaron a las instalaciones de Parque
Industrial de ELECTROCENTRO S.A., el día 06 de diciembre de 2012,
que son las siguientes:
36
32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30;
30; 29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.
El resumen de los datos se muestra en la Tabla 3.5
Tabla 3.5. Datos resumen de los datos mostrados

xi Recuento fi Fi
27 I 1 1
28 II 2 3
29 IIII I 6 9
30 IIII II 7 16 décimo sexto
31 IIII III 8 24 décimo séptimo
32 III 3 27
33 III 3 30
34 I 1 31
31
Entonces, calculamos la posición de la mediana:
𝑁 + 1 31 + 1
𝑀𝑒 = = = 16 (𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛)
2 2
Como la posición de la mediana es 16, su valor es el promedio de los
datos décimo sexto y décimo séptimo. Para observar con claridad cuáles
son los datos décimo y undécimo se aconseja calcular la frecuencia
acumulada (Fi), entonces observando la Tabla 3.5 los valores son 30 y
31, finalmente la mediana sería:
30 + 31
𝑀𝑒 = = 30,5
2
Lo que significa que la mitad de los datos están por debajo de 30,5 y la
otra mitad está por encima de 30,5.
Otro caso de datos agrupados es el de una distribución de frecuencias

donde tiene intervalos de clase y por tanto marca de clase (ci), en este
caso la mediana se calcula con la siguiente fórmula:
𝑁
− 𝐹𝑀𝑒−1
𝑀𝑒 = 𝐿𝑖𝑀𝑒 + 𝑟 ( 2 )
𝑓𝑀𝑒
Donde:
Limd Límite inferior del intervalo de clase de la posición de la
mediana.
r Rango de clase.
N Número total de datos.
FMe-1 Frecuencia acumulada del intervalo de clase que antecede al
intervalo de la mediana.
fMe Frecuencia absoluta del intervalo de clase de la mediana.
37


Clase Recuento ci fi Fi
[21;28) IIII II 24,5 7 7
[28;35) IIII IIII I 31,5 11 18
[35;42) IIII II 38,5 7 25
[42;49) IIII 45,5 5 30
[49;56) IIII IIII 52,5 9 39
[56;63) IIII IIII 59,5 9 48
48
Primero calculamos el valor de N/2=48/2=24 (valor de la posición).
Como la posición de la mediana es 24, su valor se encuentra en el

intervalo de clase [35;42), entonces observando la Tabla 3.6 se puede
calcular la mediana:
𝑁
− 𝐹𝑀𝑒 24 − 18
𝑀𝑒 = 𝐿𝑖𝑀𝑒 + 𝑟 ( 2 ) = 35 + 7 ( )
𝑓𝑀𝑒 7
𝑀𝑒 = 41

c) Moda (Mo).
La moda, nos indica el valor que más veces se repite dentro de los datos;
es decir, si tenemos la serie ordenada (2; 2; 3; 3; 3; 3; 5 y 7), el valor que
más veces se repite es el número 3, dicho valor sería la moda de los datos.
Es posible que en algunas ocasiones se presente dos valores con la
mayor frecuencia, lo cual se denomina Bimodal (2; 2; 2; 3; 3; 3; 5 y 7) o
en otros casos más de dos valores, lo que se conoce como multimodal
(1; 2; 2; 3; 3; 5; 5 y 7) y cuando ningún dato tiene una frecuencia mayor,
se dice que la muestra no tiene moda o es amodal (2; 2; 3; 3; 5 y 5).
Cuando los datos son agrupados, la moda se calcula con la siguiente

fórmula:
𝑓𝑖𝑀𝑜 − 𝑓𝑖𝑀𝑜−1
𝑀𝑜 = 𝐿𝑖𝑀𝑜 + 𝑟 [ ]
(𝑓𝑖𝑀𝑜 − 𝑓𝑖𝑀𝑜−1 ) + (𝑓𝑖𝑀𝑜 − 𝑓𝑖𝑀𝑜+1 )
Donde:
38
LiMo Límite inferior de la clase modal.

r Rango de clase.
FiMo Frecuencia absoluta de la clase modal.
FiMo-1 Frecuencia absoluta anterior a la clase modal.
FiMo+1 Frecuencia absoluta posterior de la clase modal.


Clase Recuento ci fi
[21;28) IIII II 24,5 7
[28;35) IIII IIII I 31,5 11
[35;42) IIII II 38,5 7
[42;49) IIII 45,5 5
[49;56) IIII IIII 52,5 9
[56;63) IIII IIII 59,5 9
48
Primero se ubica el mayor valor de la columna de la frecuencia absoluta,

que en este caso sería el valor de 11 (valor de la posición), entonces
observando la Tabla 3.7 se puede calcular la moda:
11 − 7
𝑀𝑜 = 28 + 7 [ ]
(11 − 7) + (11 − 7)
𝑀𝑜 = 31,5
En conclusión las Medidas de tendencia central, nos permiten identificar los

valores más representativos de los datos, de acuerdo a la manera como se
tienden a concentrar. La Media nos indica el promedio de los datos; es decir,
nos informa el valor que obtendría cada uno de los individuos si se
distribuyeran los valores en partes iguales. La Mediana por el contrario nos
informa el valor que separa los datos en dos partes iguales, cada una de las
cuales cuenta con el 50% de los datos. Por último la Moda nos indica el valor
que más se repite dentro de los datos. Otro dato importante es que la
media y la mediana solo se pueden hallar para variables cuantitativas,
mientras que la moda se puede hallar para variables cuantitativas y
cualitativas.
3.2. MEDIDAS DE POSICIÓN.
Las medidas de posición dividen un conjunto de datos en grupos con el

mismo número de individuos. Las medidas de posición son: Cuartiles,
Deciles y Percentiles.
39
Los cuartiles son medidas estadísticas de posición que tienen la propiedad

de dividir la serie estadística en cuatro grupos de números iguales de
términos. De manera similar los deciles dividen a la serie en diez partes
iguales y los percentiles dividen a los términos de la serie en cien grupos
iguales.
Así como la mediana divide la serie o distribución en dos partes iguales,

existen 3 cuartiles, 9 deciles y 99 percentiles que dividen en cuatro, diez y
cien partes iguales a la distribución.
De estas tres últimas medidas de posición los cuartiles son las de mayor
aplicación. Se emplean generalmente en la determinación de estratos o
grupos correspondientes a fenómenos socio-económicos, monetarios o
teóricos.
Los tres cuartiles suelen designarse con los símbolos:

Q1 = primer cuartil (representa al 25% de los datos).
Q2 = segundo cuartil (representa al 50% de los datos).
Q3 = tercer cuartil (representa al 75% de los datos)
De igual manera los deciles se designan por D1, D2, D3,…, D9 y los
percentiles con P1, P2, P3,…, P99. Los deciles y percentiles se usan con
gran cantidad de datos.
En cualquiera de los tres casos, la medida de posición seleccionada toma el

valor de uno de los términos o del punto medio entre dos términos.
Para el cálculo de estas tres medidas de posición es necesario arreglar los

términos en forma creciente o decreciente. Así, en el caso de un
ordenamiento simple, el siguiente paso es determinar el "número de orden"
de los cuartiles, deciles o porcentiles, el cual indicará el lugar que ocupen en
la distribución.
En lo que se refiere a los cuartiles, la posición de cualquier cuartil se puede

calcular con la siguiente relación:
𝑘 . (𝑁 + 1)
𝑋𝑄𝑘 = 𝑑𝑜𝑛𝑑𝑒 𝑘 = 1; 2; 3
4
Por ejemplo si los datos son: 4; 5; 3; 8; 10; 1; 9 (número impar de datos)
- El lugar o posición que ocupa cada cuartil sería:
1 . (7 + 1)
𝑋𝑄1 = =2
4
2 . (7 + 1)
𝑋𝑄2 = =4
4
3 . (7 + 1)
𝑋𝑄3 = =6
4
40
- Los datos ordenados y los cuartiles se muestran en la Tabla 3.8.

x1 x2 x3 x4 x5 x6 x7
1 3 4 5 8 9 10
Q1 Q2 Q3
En este caso podemos decir que aproximadamente el 25% de los datos

son menores o iguales a 3, de igual manera diremos que el 50% de los
datos son menores o iguales a 5 y por último diremos que el 75% de los
datos son menores o iguales a 9.
Ahora desarrollaremos un ejemplo, para calcular los cuartiles de las

siguientes calificaciones del curso de Matemática evaluadas sobre veinte:
20; 16; 18; 12; 08; 16; 18; 14; 20 y 18 (número par de datos).
- El lugar que ocupa cada cuartil sería:
1 . (10 + 1)
𝑋𝑄1 = = 2,75 (𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 2° 𝑦 3°)
4
2 . (10 + 1)
𝑋𝑄2 = = 5,50 (𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 5° 𝑦 6°)
4
3 . (10 + 1)
𝑋𝑄3 = = 8,25 (𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 8° 𝑦 9°)
4
- Los datos ordenados y los cuartiles se muestran en la Tabla 3.9.

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
08 12 14 16 16 18 18 18 20 20
Q1=13 Q2=17 Q3=19
En este caso podemos decir que aproximadamente el 25% de los datos

son menores o iguales a 13, de igual manera diremos que el 50% de los
datos son menores o iguales a 17 y por último diremos que el 75% de los
datos son menores o iguales a 19.
Observando los dos ejemplos anteriores, se puede concluir que hallando

la posición del primer cuartil (Q1) los otros dos se pueden hallar
multiplicando por dos y por tres respectivamente, matemáticamente sería:
𝑋𝑄2 = 2 . 𝑋𝑄1
𝑋𝑄3 = 3 . 𝑋𝑄1
Cuando los datos son agrupados, los cuartiles se calcula con la siguiente
fórmula:
41
𝑋𝑄𝑘 − 𝐹𝑖𝑄−1
𝑄𝑘 = 𝐿𝑖𝑄 + 𝑟 [ ]
𝑓𝑖𝑄
Donde:
LiQ Límite inferior de la clase del cuartil correspondiente.

r Rango de clase.
fiQ Frecuencia absoluta de la clase del cuartil correspondiente.
FiQ-1 Frecuencia absoluta anterior a la clase del cuartil
correspondiente.
XQk Valor de la posición calculada para el cuartil correspondiente.


Clase Recuento ci fi Fi
[21;28) IIII II 24,5 7 7
[28;35) IIII IIII I 31,5 11 18 Para Q1
[35;42) IIII II 38,5 7 25 Para Q2
[42;49) IIII 45,5 5 30
[49;56) IIII IIII 52,5 9 39
[56;63) IIII IIII 59,5 9 48
48
Calcularemos la posición del cuartil (Q1)
𝑘 . (𝑁 + 1) 1 . (48 + 1)
𝑋𝑄1 = = = 12,25
4 4
12,5 − 7
𝑄1 = 28 + 7 [ ] = 31,5
11
Calcularemos la posición del cuartil (Q2)
𝑘 . (𝑁 + 1) 2 . (48 + 1)
𝑋𝑄2 = = = 24,5
4 4
24,5 − 18
𝑄2 = 35 + 7 [ ] = 41,5
7
3.3. MEDIDAS DE DISPERSIÓN.
Así como las medidas de tendencia central nos permiten identificar el punto
central de los datos, las Medidas de dispersión nos permiten reconocer qué
tanto se dispersan los datos alrededor del punto central; es decir, nos indican
cuanto se desvían las observaciones alrededor de su promedio aritmético
42
(Media). Este tipo de medidas son parámetros informativos que nos permiten
conocer como los valores de los datos se reparten a través de eje X,
mediante un valor numérico que representa el promedio de dispersión de los
datos. Las medidas de dispersión más importantes y las más utilizadas son
la Varianza y la Desviación estándar (o Desviación Típica).
Las medidas de dispersión nos informan sobre cuanto se alejan del centro
los valores de la distribución. Las medidas de dispersión son:
a) Rango o recorrido (R).
El rango es la diferencia entre el mayor y el menor de los datos de una

distribución estadística.
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
b) Desviación Media (𝐷𝜇 ).
La desviación media es la media aritmética de los valores absolutos de

las desviaciones respecto a la media.
La desviación media (𝐷𝑋̅ ) matemáticamente se calcula con la siguiente

relación:
𝑁
|𝑋1 − 𝜇| + |𝑋2 − 𝜇| + ⋯ + |𝑋𝑁 − 𝜇| 1
𝐷𝜇 = = . ∑|𝑋𝑖 − 𝜇|
𝑁 𝑁
𝑖=1
Un ejemplo de aplicación haremos para datos no agrupados. Se desea

calcular la desviación media de los siguientes datos:
9; 3; 8; 8; 9; 8; 9; 18.
Entonces calculamos la media:
9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
𝜇= =9
8
|9 − 9| + |3 − 9| + |8 − 9| + |8 − 9| + |9 − 9| + |8 − 9| + |9 − 9| + |18 − 9|
𝐷𝜇 =
8
𝐷𝜇 = 2,25
La desviación media indica la forma de cómo se separan los datos de la

media.
Si los datos vienen agrupados en una tabla de frecuencias, la expresión

de la desviación media es:
43
𝑁
|𝑥1 − 𝜇|. 𝑓1 + |𝑥2 − 𝜇|. 𝑓2 + ⋯ + |𝑥𝑁 − 𝜇|. 𝑓𝑁 1
𝐷𝜇 = = . ∑|𝑥𝑖 − 𝜇|. 𝑓𝑖
𝑁 𝑁
𝑖=1
Como ejemplo de aplicación, calcularemos la desviación media de la

distribución que se muestra en la Tabla 3.11.
Tabla 3.11. Tabla de distribución de ejemplo

xi fi xi·. fi |xi - µ| |xi - µ| . fi
[10; 15) 12,5 3 37,5 9,286 27,858
[15; 20) 17,5 5 87,5 4,286 21,430
[20; 25) 22,5 7 157,5 0,714 4,998
[25; 30) 27,5 4 110,0 5,714 22,856
[30, 35) 32,5 2 65,0 10,714 21,428
21 457,5 98,570
Primero calculamos la media.
457,5
𝜇= = 21,786
21
Ahora calculamos la desviación media.
98,570
𝐷𝜇 = = 4,69
21
c) Varianza (2 o S2).
La varianza es la media aritmética del cuadrado de las desviaciones

respecto a la media de una distribución estadística.
Esta medida nos permite identificar la diferencia promedio que hay entre
cada uno de los valores respecto a su punto central (Media ). Este
promedio es calculado, elevando cada una de las diferencias al cuadrado
(Con el fin de eliminar los signos negativos), y calculando su promedio o
media; es decir, sumado todos los cuadrados de las diferencias de cada
valor respecto a la media y dividiendo este resultado por el número de
observaciones que se tengan. Si la varianza es calculada a una población
(Total de componentes de un conjunto), la ecuación sería:
𝑁
2
(𝑥1 − 𝜇)2 + (𝑥2 − 𝜇)2 + ⋯ + (𝑥𝑁 − 𝜇)2 1
𝜎 = 𝜎 = . ∑(𝑥𝑖 − 𝜇)2
2
𝑁 𝑁
𝑖=1
Cuando se trata de una muestra se calcula con:
44
𝑛
2
(𝑥1 − 𝑥)2 + (𝑥2 − 𝑥)2 + ⋯ + (𝑥𝑛 − 𝑥)2 2
1
𝑆 = 𝑆 = . ∑(𝑥𝑖 − 𝑥)2
𝑛−1 𝑛−1
𝑖=1
Un ejemplo de aplicación haremos para datos no agrupados. Se desea

calcular la desviación media de los siguientes datos:
9; 3; 8; 8; 9; 8; 9; 18
Primero calculamos la media:
9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
𝜇= =9
8
Ahora calculamos la varianza:
(9 − 9)2 + (3 − 9)2 + (8 − 9)2 + (8 − 9)2 + (9 − 9)2 + (8 − 9)2 + (9 − 9)2 + (18 − 9)2

𝜎2 = = 15
8
La varianza para datos agrupados se calcula con la siguiente relación:
(𝑥1 − 𝜇)2 . 𝑓1 + (𝑥2 − 𝜇)2 . 𝑓2 + ⋯ + (𝑥𝑁 − 𝜇)2 . 𝑓𝑁

𝜎2 =
𝑁
𝑁
1
𝜎 = . ∑(𝑥𝑖 − 𝜇)2 . 𝑓𝑖
2
𝑁
𝑖=1
Como ejemplo de aplicación, calcularemos la varianza de la distribución

que se muestra en la Tabla 3.12.
Tabla 3.12. Tabla de distribución de ejemplo

xi fi xi . fi (xi-µ)2.fi
[10, 20) 15 1 15 802,778
[20, 30) 25 8 200 2688,889
[30,40) 35 10 350 694,444
[40, 50) 45 9 405 25,000
[50, 60 55 8 440 1088,889
[60,70) 65 4 260 1877,778
[70, 80) 75 2 150 2005,556
N 42 1 820 9183,333
45
Primero calculamos la media:
1820
𝜇= = 43,33
42
Ahora calculamos la varianza:
9183,333
𝜎2 = = 218,65
42
d) Desviación Típica o Desviación Estándar ( o S).
Esta medida nos permite determinar el promedio aritmético de fluctuación

de los datos respecto a su punto central o media. La desviación estándar
nos da como resultado un valor numérico que representa el promedio de
diferencia que hay entre los datos y la media. Para calcular la desviación
estándar basta con hallar la raíz cuadrada de la varianza, por lo tanto su
ecuación sería:
𝜎 = √𝜎 2
Entonces la desviación típica del ejemplo de la Tabla 3.12, sería:
𝜎 = √218,65 = 14,79
Para comprender mejor, el concepto de las medidas de distribución vamos

a suponer que el gerente de una empresa de alimentos desea saber que
tanto varían los pesos de los empaques (en gramos), de uno de sus
productos; por lo que opta por seleccionar al azar cinco unidades de ellos
para pesarlos. Los productos tienen los siguientes pesos (490, 500, 510,
515 y 520) gramos respectivamente.
Entonces su media es:
490 + 500 + 510 + 515 + 520 2535

𝑥= = = 507
5 5
La varianza sería:
𝑆 2 = 145
Por lo tanto la desviación estándar sería:
𝑆 = 12,04
Con lo que concluiríamos que el peso promedio de los empaques es de

507 gramos, con una tendencia a variar por debajo o por encima de dicho
peso en 12 gramos. Esta información le permite al gerente determinar
46
cuánto es el promedio de pérdidas causado por el exceso de peso en los

empaques y le da las bases para tomar los correctivos necesarios en el
proceso de empacado.
3.4. MEDIDAS DE DISTRIBUCIÓN.
Las principales medidas de distribución son: la asimetría y la curtosis.
a) Asimetría
Esta medida nos permite identificar si los datos se distribuyen de forma

uniforme alrededor del punto central (Media aritmética). La asimetría
presenta tres estados diferentes (ver Figura 3.1), cada uno de los cuales
define de forma concisa como están distribuidos los datos respecto al eje
de asimetría. Se dice que la asimetría es positiva cuando la mayoría de
los datos se encuentran por encima del valor de la media aritmética, la
curva es Simétrica cuando se distribuyen aproximadamente la misma
cantidad de valores en ambos lados de la media y se conoce como
asimetría negativa cuando la mayor cantidad de datos se aglomeran en
los valores menores que la media.
Figura 3.1. Representación de los tres estados de la simetría
El Coeficiente de asimetría, se representa mediante la ecuación

matemática,
1 𝑛
∑ (𝑥 − 𝑥 )3 . 𝑛𝑖
𝑔1 = 𝑛 𝑖=1 𝑖
3⁄
1 2
[ ∑𝑁 (𝑥 − 𝑥 )2 . 𝑛𝑖 ]
𝑛 𝑖=1 𝑖
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno

de los valores, ( ) la media de la muestra y (ni) la frecuencia de cada
valor. Los resultados de esta ecuación se interpretan:
 (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe

aproximadamente la misma cantidad de valores a los dos lados de la
47
media. Este valor es difícil de conseguir por lo que se tiende a tomar

los valores que son cercanos ya sean positivos o negativos (± 0,5).
 (g1 > 0): La curva es asimétricamente positiva por lo que los valores
se tienden a reunir más en la parte izquierda que en la derecha de la
media.
 (g1 < 0): La curva es asimétricamente negativa por lo que los valores
se tienden a reunir más en la parte derecha de la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será
la distancia que separa la aglomeración de los valores con respecto a la
media.
b) Curtosis.
Esta medida determina el grado de concentración que presentan los

valores en la región central de la distribución. Por medio del Coeficiente
de Curtosis, podemos identificar si existe una gran concentración de
valores (Leptocúrtica), una concentración normal (Mesocúrtica) o una baja
concentración (Platicúrtica), tal como se muestra en la Figura 3.2.
Figura 3.2. Representación del coeficiente de la curtosis
Para calcular el coeficiente de Curtosis se utiliza la ecuación:
1 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥 )4 . 𝑛𝑖
𝑔2 = 𝑛 2−3
1 𝑁
[ ∑𝑖=1(𝑥𝑖 − 𝑥 )2 . 𝑛𝑖 ]
𝑛
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los

valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los
resultados de esta fórmula se interpretan:
 (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es

bastante difícil encontrar un coeficiente de Curtosis de cero (0), por lo
que se suelen aceptar los valores cercanos (± 0.5 aprox.).
 (g2 > 0) la distribución es Leptocúrtica
 (g2 < 0) la distribución es Platicúrtica
Cuando la distribución de los datos cuenta con un coeficiente de asimetría

(g1 = ±0,5) y un coeficiente de Curtosis de (g2 = ±0,5), se le denomina
48
Curva Normal. Este criterio es de suma importancia ya que para la

mayoría de los procedimientos de la estadística de inferencia se requiere
que los datos se distribuyan normalmente.
La principal ventaja de la distribución normal radica en el supuesto que el

95% de los valores se encuentra dentro de una distancia de dos
desviaciones estándar de la media aritmética (Ver Figura 3.3); es decir, si
tomamos la media y le sumamos dos veces la desviación y después le
restamos a la media dos desviaciones, el 95% de los casos se encontraría
dentro del rango que compongan estos valores.
Figura 3.3. Representación de la curva normal
Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña
introducción a las principales medidas de Estadística Descriptiva; es de
gran importancia que los estudiantes profundicen en estos temas ya que
la principal dificultad del software SPSS radica en el desconocimiento de
los conceptos estadísticos.
49
UNIDAD IV
PROBABILIDADES
La estadística inferencial o deductiva, es necesaria cuando queremos sacar
algunas conclusiones generales sobre una población (N) a partir de datos
obtenidos de una muestra (n). La estadística inferencial hace que esa
afirmación de la parte al todo se haga de una manera “controlada”, es decir se
haga con cierto grado de confiabilidad. Aunque nunca nos ofrecerá seguridad
absoluta, sí nos ofrecerá una respuesta probabilística. Es importante resaltar
que la estadística no decide; sólo ofrece elementos para que el investigador
decida. En muchos casos, distintas personas perciben diferentes conclusiones
de los mismos datos.
Como se dijo al inicio del curso, la estadística inferencial, para poder inferir sobre
algún fenómeno de estudio, toma en cuenta la aleatoriedad de las
observaciones, apoyándose en el cálculo de probabilidades, por ello a
continuación desarrollaremos algunos conceptos sobre probabilidades.
En muchas ocasiones nos hemos encontrado con algunas afirmaciones tales

como:
- Debido a muchos programas sociales que está implementando el gobierno, es

probable que el próximo año levante su popularidad.
- Debido a la agresiva campaña publicitaria que está emprendiendo la empresa
“Pacífico S.A.”, es probable que aumente su nivel de ventas.
- En vista que el gobierno no aumenta el sueldo a los docentes, es probable que
el próximo año hagan huelgas.
En estos ejemplos se puede apreciar que el resultado final no se conoce con

exactitud, por lo tanto existe una incertidumbre; entonces “vivimos en un mundo
donde no tenemos la capacidad de predecir el futuro con completa seguridad o
certeza, por ello es necesario tener suficiente poder para manejar la
incertidumbre, el cual nos obliga a estudiar y usar la teoría de la probabilidad”,
para el cual a continuación desarrollaremos algunos conceptos básicos de la
teoría de probabilidades.
4.1. CONCEPOS BÁSICOS.
a) Experimento.
Es toda acción sobre la cual vamos a realizar una medición u observación.
b) Experimento aleatorio.
Es toda actividad cuyos resultados no se pueden predecir con certeza.

Por ejemplo lanzar una monera al aire, lanzar un dado.
50
c) Espacio Muestral (S).
Es el conjunto de todos los resultados posibles que se pueden obtener al

realizar un experimento aleatorio. Por ejemplo:
- Si el experimento aleatorio es lanzar una moneda al aire, entonces el
espacio muestral será: S={cara, sello}.
- Si el experimento aleatorio es lanzar un dado, entonces el espacio
muestral será: S={1, 2; 3; 4; 5; 6}
d) Suceso o Evento (E).
Es cada resultado de un experimento aleatorio definido por el

investigador. También se dice que es un subconjunto del espacio
muestral. Por ejemplo, si el experimento aleatorio es lanzar un dado y
definimos el evento de que salga un número par, entonces E={2; 4; 6}.
Existen varios tipos de eventos:
- Evento seguro. Es cuando el evento de todas maneras tiene que ocurrir.

Por ejemplo, si el experimento aleatorio es lanzar un dado y definimos el
evento de que salga un número nenor o igual a seis. En este caso la
probabilidad de que ocurra el evento es uno.
- Evento imposible. Es cuando el evento no puede ocurrir. Por ejemplo,

si el experimento aleatorio es lanzar un dado y definimos el evento de
que salga un número siete. En este caso la probabilidad de que ocurra
el evento es cero.
- Eventos complementarios. El complemento de un evento E se denota

̅ (se lee no E) y significa que el evento E no ocurre.
por E
- Evento mutuamente excluyentes. Dos o más eventos son mutuamente

excluyentes, si la ocurrencia de uno de ellos, anula la ocurrencia de los
demás.
- Eventos independientes. Dos eventos son independientes si ambos no

tienen ninguna relación entre sí, es decir, si la ocurrencia de uno de ellos,
no influye en la ocurrencia del otro.
4.2. CONCEPO DE PROBABILIDAD.
Las probabilidades constituyen una rama de las matemáticas que se ocupa

de medir o determinar cuantitativamente la posibilidad de que un suceso o
experimento produzca un determinado resultado. La probabilidad de un
resultado se representa con un número entre 0 y 1, ambos inclusive. La
probabilidad 0 indica que el resultado no ocurrirá nunca, y la probabilidad 1
que el resultado ocurrirá siempre. Matemáticamente se calcula con la
siguiente relación:
51
𝑛(𝐸)
𝑃(𝐸) =
𝑛(𝑆)
Donde:
P(E) probabilidad de que ocurra el evento E.
n(E) número de elementos del evento E.
n(S) número de elementos del espacio muestral de E.
Por ejemplo, si el experimento aleatorio es lanzar un dado y definimos el

evento de que salga el número 5, entonces la probabilidad sería:
Espacio muestral S={1, 2; 3; 4; 5; 6} n(S)=6

Evento E={5}. n(E)=1
Luego:
𝑛(𝐸) 1
𝑃(𝐸) = = = 0,166667
𝑛(𝑆) 6
Otro ejemplo, si el experimento aleatorio es lanzar un dado y definimos el

evento de que salga un número par, entonces la probabilidad sería:
Espacio muestral S={1, 2; 3; 4; 5; 6} n(S)=6

Evento E={2; 4; 6}. n(E)=3
Luego:
𝑛(𝐸) 3
𝑃(𝐸) = = = 0,5
𝑛(𝑆) 6
Desde el punto de vista de la estadística se puede calcular la probabilidad

de que ocurra un evento, esta probabilidad está representada por la
frecuencia relativa de un diagrama de frecuencias, tomando el ejemplo de la
Tabla 2.5, sobre la edad de los trabajadores de la empresa
ELECTROCENTRO S.A., cuyos datos se muestran en la Tabla 4.1, entonces
observando la Tabla 4.1 se puede afirmar que si preguntamos por su edad
a un trabajador seleccionado al azar, la probabilidad de que tenga de 35 a
42 años es 0,14583 y la probabilidad de que sea menor de 49 años es 0,625.
Tabla 4.1. Edad de los trabajadores de la empresa ELECTROCENTRO S.A.

Clase ci ni Ni
Recuento fi Fi
(probabilidad) (probabilidad)
[21;28) IIII II 24,5 7 7 0,14583 0,14583
[28;35) IIII IIII I 31,5 11 18 0,22917 0,37500
[35;42) IIII II 38,5 7 25 0,14583 0,52083
[42;49) IIII 45,5 5 30 0,10417 0,62500
[49;56) IIII IIII 52,5 9 39 0,18750 0,81250
[56;63) IIII IIII 59,5 9 48 0,18750 1,0
48 1,0
52
4.3. AXIOMAS DE LA PROBABILIDAD DE EVENTOS.
Aquí se introduce la formalidad matemática necesaria para fundamentar la

teoría de la probabilidad de eventos.
Sea S: Espacio muestral

E: Suceso o evento de S.
P(E): Probabilidad del evento E.
Entonces se cumple los siguientes axiomas:
a) P(E) ≥ 0.
b) P(S) = 1.
c) Si E1, E2 ∈ S ʌ E1 ∩ E2 = ∅, entonces P(E1 ∪ E2) = P(E1) + P(E2)
El primer axioma indica que la probabilidad de un evento no puede tener

valores negativos. El segundo axioma establece que la probabilidad de que
un resultado pertenezca al espacio muestral es uno, el cual es evidente pues
S contiene todos los resultados posibles. El tercer axioma establece que si
dos eventos son mutuamente excluyentes, entonces la probabilidad del
eventos que resulta de la unión de estos eventos, es la suma de las
probabilidades de ambos eventos.
4.4. PROPIEDADES DE LA PROBABILIDAD DE EVENTOS.
Si consideramos los eventos A y B de S (ver Figura 4.1), entonces se

cumplen las siguientes propiedades.
a) La probabilidad de un evento nulo es cero: P(∅)=0.
Ejemplo. Consideramos el experimento de lanzar un dado. La

probabilidad de obtener 7 es cero.
b) La probabilidad del evento complemento: P(Ec)=1 – P(E).
Ejemplo. Se sabe que la probabilidad de obtener un 2 al lanzar un dado

es 1/6. Por lo tanto, la probabilidad de que no se obtenga 2 será de
1 − 1/6 = 5/6
c) Si A ⊂ B , entonces P(A) ≤ P(B).
Ejemplo. En el experimento de lanzar un dado, sea A el suceso de

obtener un número mayor que 4 y B obtener un número mayor que 2,
entonces P(A)=2/6=1/3 y P(B)=4/6=2/3, por lo que P(A) ≤ P(B).
d) Para cualquier evento A se cumple que 0 ≤ P(A) ≤ 1.
e) Probabilidad de la diferencia de eventos: P(A – B) = P(A) – P(A ∩ B)
f) Regla aditiva de la probabilidad: P(A ∪ B) = P(A) + P(B) – P(A ∩ B).
53
Figura 4.1. Eventos A y B del espacio muestral S.
Ejemplo: Si la probabilidad que un estudiante apruebe el curso de análisis

matemático es 0,7; la probabilidad que apruebe el curso de estadística es
de 0,8 y la probabilidad que apruebe ambas materias es 0,6. Cuál es la
probabilidad que el estudiante apruebe al menos una de estas
asignaturas.
Solución:
Sean los eventos:

A Evento que el estudiante aprueba el curso de análisis matemático.
B Evento que el estudiante aprueba el curso de estadística.
A ∩ B Evento que el estudiante aprueba ambas asignaturas.
A y B no son eventos excluyentes, entonces:
P(A ∪ B) = P(A) + P(B) – P(A ∩ B) = 0,7 + 0,8 – 0,6 = 0,9.
Entonces la probabilidad que el estudiante apruebe al menos una de las

asignaturas es 0,9.
g) La regla aditiva de la probabilidad se puede extender a más eventos:
- Si A, B y C son eventos mutuamente excluyentes, se cumple que:
P(A ∪ B ∪ C) = P(A) + P(B) + P(C).
- Si A, B y C son eventos cualesquiera, se cumple que:
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) + P(A ∩ B ∩ C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C)
4.5. PROBABILIDAD CONDICIONAL DE EVENTOS.
La probabilidad de un evento (A) puede depender o estar condicionada al

valor de probabilidad de otro evento (B), entonces la probabilidad condicional
del evento A dado el evento B se escribe P(A|B) y se calcula con:
54
P(A ∩ B)
P(A|B) = , P(B) ≠ 0
P(B)
En la Figura 4.2 se muestra una interpretación gráfica de la probabilidad

condicional de eventos.
Figura 4.2. Interpretación gráfica de la probabilidad condicional.
4.6. PROBABILIDAD DE EVENTOS INDEPENDIENTES.
Sean A y B eventos cualesquiera de un espacio muestral S. Se dice que A y

B son independientes si P(A|B)=P(A) y P(B|A)=P(B), es decir que el evento
A pertenece a un espacio muestral S’ y el evento B pertenece a un espacio
muestral S (ver Figura 4.2).
Cuando los eventos A y B son independientes se cumple que:
P(A ∩ B) = P(A) . P(B)
4.7. TEOREMA DE BAYES (TEOREMA DE LA PROBABILIDAD

ANTICONDICIONAL).
Sean B1, B2, … , BK eventos no nulos mutuamente excluyentes de S y que

constituyen una partición de S y sea A un evento no nulo cualquiera de S.
La siguiente fórmula se denomina Fórmula de Bayes y permite calcular la

probabilidad correspondiente a cada uno de los eventos que contribuyen a
la realización de otro evento, dado que se conoce la probabilidad de este
evento. Gráficamente el teorema de Bayes se muestra en la Figura 4.3.
55
Figura 4.3. Representación gráfica del Teorema de Bayes.
56
UNIDAD V
DISTRIBUCIÓN DE PROBABILIDAD
Para entender mejor las distribuciones de probabilidades que existen es
necesario conocer el concepto de variables aleatorias, estas variables son
aquellas que pueden asumir diferentes valores, como resultado de un
experimento aleatorio. Las variables aleatorias pueden ser discretas (por
ejemplo: número de hijos de una familia, número de panetones vendidos en la
semana, etc.) o continuas por ejemplo (peso de una persona, talla de una
persona expresada en cm, etc.).
Entonces la distribución de probabilidad, es un listado que nos especifica las

probabilidades de todos los resultados posibles de una variable aleatoria, al
llevar a cabo un experimento aleatorio. Las distribuciones de probabilidad más
importantes son: distribución Binomial, Poison y Normal
5.1. DISTRIBUCIONES DE VARIABLES DISCRETAS
a) DISTRIBUCIÓN BINOMIAL O DE BERNOULLI
Para la comprensión de la distribución binomial es necesario comprender

los siguientes conceptos:
- Notación factorial (n!).
Se utiliza para representar las operaciones de multiplicación secuencial.

Su desarrollo significa el producto ordenado de los números enteros
positivos, desde el que indica el signo factorial, hasta llegar a uno.
Matemáticamente sería
n!=(n).(n-1).(n-2)…(3).(2).(1)
Por ejemplo: 5!=5.4.3.2.1=120
Pero como propiedad de los factoriales podemos decir: 0!=1 y 1!=1.
- Expansión binomial.
Un binomio algebraico es la expresión formada por dos términos unidos

por los signos más o menos y elevados a un exponente, por ejemplo:
(x+y)2 = x2 + 2xy + y2
binomio expansión binomial
57
(a+b)3 = a3 + 3a2b + 3ab2 + b3

- Combinaciones.
Es un método que nos permite agrupar un conjunto de elementos en

diferentes formas sin considerar el orden de colocación, se calcula con
la siguiente relación:
n!
Ckn =
(n − k)!. k!
La distribución binomial se utiliza para calcular probabilidades de
variables discretas. Se aplica en aquellos experimentos aleatorios que
tienen solo dos resultados mutuamente excluyentes; en la Tabla 5.1 se
muestra unos ejemplos donde se puede aplicar la distribución binomial.
Tabla 5.1. Ejemplos de experimentos aleatorios con resultados dicotómicos.

EXPERIMENTO ALEATORIO RESULTADOS POSIBLES
1) Lanzamiento de una moneda al aire Cara o Sello
2) Nacimiento de un ser humano con respecto al sexo Varón o Mujer
3) Estado de salud de una persona Sano o Enfermo
4) Situación ocupacional de una persona Ocupado o Desocupado
Estos experimentos con resultados dicotómicos, se le conoce con el

nombre de ensayo de BERNOULLI, en honor al científico que lo
descubrió.
En este caso, al llevar a cabo un experimento aleatorio, siempre estamos

interesados en que suceda uno de los dos resultados; entonces, si el
resultado que esperamos sucede, decimos que hubo ÉXITO, si el
resultado que esperamos no sucede, decimos que hubo FRACASO. Estos
dos resultados, se designan en términos de probabilidad como
probabilidad de éxito (p) y probabilidad de fracaso (q) y se debe cumplir
que:
p+q=1
A través del siguiente ejemplo, explicaremos el cálculo de probabilidades

utilizando la distribución binomial. Supongamos que en la comunidad
de Azapampa hemos encontrado, a través de una muestra, que el 30%
de la población en edad activa, se encuentran desempleados y el 70%
tiene empleo.
En este experimento esperamos como éxito que la población tenga

empleo y como fracaso que la población esté desempleada. Los
resultados se muestran en la Tabla 5.2.
58
Tabla 5.2. Resultados de experimento en la Comunidad de Azapampa.

EVENTO RESULTADO PROBABILIDAD
Empleado Éxito p=0,70
Desempleado Fracaso q=0,30
p+q=1
Observando la Tabla 5.2 podemos decir que si seleccionamos una

persona de la comunidad de Azapampa al azar, la probabilidad de que se
encuentra con empleo es 0,7 o 70%.
Pero si seleccionamos dos personas de esa comunidad al azar, una

después de la otra, según el orden de selección podemos obtener los
resultados que se muestran en la Tabla 5.3.
Tabla 5.3. Resultados de seleccionar dos personas de la Comunidad de Azapampa.

PROBABILIDAD
PERSONA 1 PERSONA 2
Caso Símbolo Valor numérico
Probabilidad de que los
Empleado Empleado dos personas estén p.p=p2 (0,70)(0,70)=0,49
empleadas
Probabilidad que la
primera persona esté
Empleado Desempleado p.q (0,70)(0,30)=0,21
empleada y la segunda
esté desempleada.
Probabilidad de que la
primera persona esté
Desempleado Empleado desempleada y la q.p (0,30)(0,70)=0,21
segunda esté
empleada.
Probabilidad de que las
Desempleado Desempleado dos personas estén q.q=q2 (0,30)(0,30)=0,09
desempleadas
Observando la Tabla 5.2 podemos decir que si seleccionamos dos

personas de la comunidad de Azapampa al azar, la probabilidad de que
las dos personas estén empleadas sería 0,49 o 49%, pero también
podemos concluir que al sumar la columna de símbolo sería:
p2 + 2p.q + q2 = (p+q)2
Y de la columna numérica sería:
(0,70)2 + 2(0,70)(0,30) + (0,30)2 = (0,70+0,30)2

En este caso el binomio está elevado al cuadrado porque se trata de dos
ensayos o dos selecciones. Pero qué sucedería si seleccionamos cinco
personas al azar, entonces tendríamos
(p+q)5 = (0,70+0,30)5
Entonces si quisiéramos saber la probabilidad de que tres personas estén
ocupadas, sería muy laborioso desarrollar la expansión binomial; por lo
59
que debemos aplicar la siguiente fórmula para determinar cualquier valor

específico
p(X = x) = Cxn px qn−x

Donde:
p(X=x) Probabilidad de obtener “x” éxitos

n Número de experimentos o ensayos
x Resultado que se desea obtener o éxitos.
p Probabilidad de éxito.
q Probabilidad de fracaso.
Cxn Combinaciones de n elementos tomados de x en x.
Para aplicar la fórmula en el ejemplo anterior, calcularemos la probabilidad

de seleccionar exactamente tres personas empleadas, tomando cinco
personas al azar de esa población:
p(x = 3) = C35 (0,70)3 (0,30)5−3
p(x = 3) = 10. (0,70)3 (0,30)2 = 0,3087

Si quisiéramos calcular la probabilidad de seleccionar tres o menos
personas empleadas tomando cinco personas al azar de esa población
sería:
p(x ≤ 3) = p(x = 0) + p(x = 1) + p(x = 2) + p(x = 3)

Entonces calculando sería:
p(x ≤ 3) = 0,00243 + 0,02835 + 0,13230 + 0,30870
p(x ≤ 3) = 0,47178 = 47,178%

Lo que significa que de cinco personas elegidas al azar de la comunidad
de Azapampa la probabilidad de que tres o menos personas estén
empleadas es el 47,178%.
Si deseamos calcular las probabilidades utilizando el Excel se deben usar

las funciones:
p(X = x) = DISTR. BINOM. N(x, n, p, 0)
p(X ≤ x) = DISTR. BINOM. N(x, n, p, 1)
Si deseamos calcular las probabilidades utilizando el SPSS se debe usar

las funciones:
60
p(X = x) = PDF. BINOM(x, n, p)
p(X ≤ x) = CDF. BINOM(x, n, p)
La media aritmética, la desviación estándar y la varianza en una

distribución binomial se calcula con las siguientes relaciones:
- media: μ = n. p
- desviación estándar: σ = √n. p. q
- Varianza: σ2 = n. p. q
Por último haremos un ejemplo más complejo: si tomamos a 20 personas

de la comunidad de Azapampa. Cuál es la probabilidad que estén
empleados:
1) cinco o más personas.
2) Más de 10 personas.
3) Exactamente 10 personas.
4) Entre seis y 10 personas.
Entonces para los casos planteados resolveremos con el software SPSS:
1) cinco o más personas.
p(X≥5)=1-p(X<5)=1-p(X≤4)=1-CDF.BINOM(4,20,0.7)=1-0,0000055502531
p(X≥5)= 0,9999944497469=99,99%
2) Más de 10 personas.
p(X>10)=1-p(X≤10)=1-CDF.BINOM(10,20,0.7)=1-0,0479618973313
p(X>10)= 0,9520381026687=95,20%
3) Exactamente 10 personas.
p(X=10)=PDF.BINOM(10,20,0.7)=0,0308170809001=3,08%
4) Entre seis y 10 personas.
p(6≤X≤10)= p(X≤10)-p(X<6) =p(X≤10)-p(X≤5)
p(6≤X≤10)= 0,0479618973313-0,0000429400220=0,0479189573094=4,79%
b) DISTRIBUCIÓN POISSON.
La distribución de Poisson se usa para modelar situaciones en las que el

número de pruebas es muy grande y el número de éxitos es muy pequeño,
situaciones en las que hay ocurrencias aleatorias de sucesos por unidad
61
de espacio o tiempo, y en donde se desea conocer la probabilidad de un

número específico de éxitos.
El intervalo de tiempo donde suele ser de cualquier duración, por ejemplo,

un minuto, un día, una semana, etc.. Así, por ejemplo, la variable aleatoria
x puede representar el número de llamadas telefónicas por hora, el
número de pacientes fallecidos en un día determinado. Por otro lado el
espacio podría ser un segmento de línea, un área o volumen, un pedazo
de material, etc.. Así, por ejemplo, la variable aleatoria x podría
representar el número de bacterias en un determinado campo de cultivo,
el número de defectos por metro cuadrado de tela, etc..
Las siguientes proposiciones describen lo que se conoce como proceso

de Poisson:
1. Las ocurrencias de los eventos son independientes.
2. Teóricamente, debe ser posible un número infinito de ocurrencias del
evento en el intervalo.
3. La probabilidad de una ocurrencia del evento en un intervalo dado es
proporcional a la longitud del intervalo.
La distribución de probabilidad de Poisson está dada por la siguiente

relación:
e−λ . λx
p(X = x) = , para x = 0; 1; 2; …
x!
Donde:
x número de ocurrencias cuya probabilidad se desea conocer.

e constante matemática (e=2,71828…)
λ número promedio de ocurrencias por unidad de tiempo o espacio.
A través del siguiente ejemplo, explicaremos el cálculo de probabilidades

utilizando la distribución de Poisson. La central telefónica de una
empresa recibe en promedio 3,5 llamadas por hora. Cuál es la
probabilidad que se produzcan exactamente 4 llamadas en una
determinada hora.
Entonces nos piden p(X=4) y λ=3,5; entonces aplicando la fórmula

correspondiente sería:
e−3,5 . (3,5)4
p(X = 4) = = 0,1888122854 = 18,88%
4!
Luego la probabilidad de que en una hora determinada se produzcan
exactamente 4 llamadas es 18,88%.
Si quisiéramos calcula la probabilidad que se produzcan menos de 5

llamadas, sería:
62
p(x < 5) = p(x ≤ 4) = p(x = 0) + p(x = 1) + p(x = 2) + p(x = 3) + p(x = 4)
Entonces calculando sería:
p(x < 5) = 0,030197 + 0,105690 + 0,184959 + 0,215785 + 0,188812
p(x < 5) = 0,72544 = 72,54%

Si deseamos calcular las probabilidades utilizando el Excel se deben usar
las funciones:
p(X = x) = POISSON. DIST(x, λ, 0)
p(X ≤ x) = POISSON. DIST(x, λ, 1)

las funciones:
p(X = x) = PDF. POISSON(x, λ)
p(X ≤ x) = CDF. POISSON(x, λ)
Por último haremos un ejemplo más complejo: Supongamos que en el

nuevo mercado mayorista de Santa Anita llegan en promedio 10 camiones
por día y que las instalaciones del mercado pueden atender como máximo
15 camiones en un día. Cuál es la probabilidad de que en un determinado
día:
1) sean atendidos exactamente 8 camiones.

2) ningún camión sea atendido.
3) cinco o seis camiones sean atendidos.
4) sean atendidos 10 o menos camiones.
5) los camiones no sean atendidos.
Entonces para los casos planteados resolveremos con el software SPSS:
1) sean atendidos exactamente 8 camiones.
p(X = 8) = PDF. POISSON(10,8) = 0,1126 = 11,26%
2) ningún camión sea atendido.
p(X = 0) = PDF. POISSON(10,0) = 0,0000454 = 0,0045%
3) cinco o seis camiones sean atendidos.
p(X = 5) + p(X = 6) = 0,037833 + 0,063055 = 0,10088 = 10,09%
63
4) sean atendidos 10 o menos camiones.
p(X ≤ 10) = CDF. POISSON(10,10) = 0,58304 = 58,304%
5) los camiones no sean atendidos.
p(X > 15) = 1 − p(X ≤ 15) = 1 − 0,95126 = 0,04874 = 4,87%
5.2. DISTRIBUCIONES DE VARIABLES CONTINUAS
a) DISTRIBUCIÓN NORMAL O DISTRIBUCIÓN DE GAUSS.
Si se tiene una muestra grande de valores que corresponden a variables

continuas, por ejemplo el peso en kg de 941 estudiantes de una institución
educativa, para el análisis de la información se procedería a tabularlos a
través de una distribución de frecuencias (ver Tabla 5.4) y su gráfico de
histograma correspondiente (ver Figura 5.1) con su curva normal.
Tabla 5.4 Distribución de frecuencias del peso de 941 estudiantes.

Frecuencia
Frecuencia
Frecuencia relativa
Relativa
Intervalo de clase Absoluta acumulada
(%)
(fi) (%)
(ni)
(Ni)
[40,21; 45,149) 33 3,51 3,51
[45,149;50,088) 83 8,82 12,33
[50,088;55,027) 127 13,50 25,83
[55,027;59,966) 176 18,70 44,53
[59,966;64,905) 159 16,90 61,43
[64,905;69,844) 113 12,01 73,44
[69,844;74,783) 117 12,43 85,87
[74,783;79,722) 84 8,93 94,70
[79,722;84,661) 31 3,29 98,09
[84,661;89,600] 18 1,91 100
Total 941 100
64
Figura 5.1. Histograma con curva normal de distribución
Analizando los datos en el histograma (Figura 5.1), observamos que con

respecto al peso de los estudiantes, existen:
- Pocos estudiantes con bajo peso (33 estudiantes entre 40 y 45 kg

aproximadamente).
- La mayoría de los estudiantes tienen peso medio (176 estudiantes pesan
entre 55 y 60 kg aproximadamente).
- Pocos estudiantes tienen sobre peso (18 estudiantes pesan entre 84 y
89,6 kg aproximadamente).
Esta distribución de datos se llama NORMAL y se presenta en múltiples

mediciones de la vida real.
Sobre un histograma se puede graficar una CURVA NORMAL, también

llamada CAMPANA DE GAUSS. Su importancia radica en que posibilita
el cálculo de probabilidades para variables continuas, a través de áreas
comprendidas bajo la curva normal y es por eso que es una de las
distribuciones más utilizadas dentro de la estadística inferencial.
Una distribución asume la forma de la curva normal conforme el tamaño

de la muestra aumenta, es decir cuando se usa gran cantidad de datos.
La representación gráfica de la distribución normal, corresponde a la

siguiente función:
65
1 −1/2
(x − μ)2
f(x) = ∙e ∙
σ. √2. π σ
Donde:
x Variable independiente, cuyos valores asumidos van desde -∞

hasta +∞.
µ media poblacional.
(x-µ) desvío.
 desviación estándar de la población.
f(x) densidad de probabilidad.
e constante matemática cuyo valor es 2,71828…
π constante matemática cuyo valor es 3,14159…
Sin embargo, el cálculo de probabilidades, no es posible en cualquier

curva normal, ya que la curva normal queda definida conociendo dos
parámetros:
- La media o promedio de la población (µ), que fija la posición de la curva

respecto al eje x (ver Figura 5.2).
Figura 5.2. Variación de la distribución normal en función de µ.
Figura 5.3. Variación de la distribución normal en función de .
- La desviación estándar de la población () determina la forma

(dispersión) de la curva. A menor dispersión (), la curva será más
66
estrecha y puntiaguda y a mayor dispersión (), la curva será más

aplanada (ver Figura 5.3).
En la Figura 5.2 se puede observar, que las tres curvas normales, tienen
idéntica dispersión () pero distintas medias (µ), mientras que en la Figura
5.3 las tres curvas normales tienen la misma media (µ) pero diferente
dispersión ().
Esto significa que cada curva normal tiene su propia distribución, lo que
hace imposible el cálculo de probabilidades, por lo tanto se hace necesario
que la curva normal así obtenida, se transforme en una CURVA NORMAL
TIPIFICADA (ver Figura 5.4) con el fin de suprimir la individualidad de
cada una de las distribuciones señaladas anteriormente. La curva normal
se convierte en un modelo matemático con características fijas y
definidas, el cual hace posible el cálculo de probabilidades, para el cual
se supone lo siguiente:
- La media o promedio de la población es cero (µ=0).

- La desviación estándar de la población es uno (=1).
- La variable independiente x se transforma en un valor “z” que se calcula
mediante la siguiente fórmula:
x−μ
z=

Figura 5.4. Tipificación de la curva normal.
En la Figura 5.4 se puede observar que la variable “x” se ha transformado

en “z”, la media poblacional se ha igualado a cero (µ=0), por lo tanto los
valore de “z” hacia la derecha de “µ” son positivos y hacia la izquierda son
negativos; la desviación estándar de la población se ha igualado a uno
(=1), lo que significa que la dispersión o todo el área bajo la curva normal
67
tiene un valor de uno (100%) que es el valor máximo que asume la

probabilidad.
Las principales características de la curva norma tipificada son:

- Es simétrica respecto a su media (50% a la derecha y 50% a la izquierda
de la media).
- Es asintótica respecto a z (no cruza el eje z).
- El área total encerrada es uno (100%)
- La media, mediana y moda son iguales.
b) CÁLCULO DE ÁREAS BAJO LA CURVA NORMAL TIPIFICADA.
Para calcular probabilidades, es necesario calcular las áreas bajo la curva

normal tipificada. Esto se obtiene utilizando adecuadamente la Tabla 5.5.
Por ejemplo si deseamos determinar el área bajo la curva normal para

valores de z entre 0 y 1,82 (0 ≤ z ≤ 1,82) tal como se observa en la
Figura 5.5.
Figura 5.5. Área bajo la curva para 0 ≤ z ≤ 1,82.
Entonces en la Tabla 5.5, ubicamos el valor de z=1,82, primero el entero

y un decimal (1,8) buscamos en la primera columna y luego en la misma
fila buscamos en la columna del 2 en dicha intersección se halla el valor
del área bajo la curva, en este caso sería 0,4656; eso significa que:
p(0 ≤ z ≤ 1,82) = 0,4656=46,56%
Por otro lado, si quisiéramos calcular el área bajo la curva normal para
valores de z entre -1,82 y 0 (-1,82 ≤ z ≤ 0), sería el mismo valor 0,4656,
ya que la curva normal tipificada es simétrica.
Ahora si quisiéramos calcular el área bajo la curva normal para valores de

z mayor a 1,82 (ver Figura 5.6), sería.
Figura 5.6. Área bajo la curva para 0 ≤ z ≤ 1,82.
p(z≥1,82)=0,5 - p(0 ≤ z ≤ 1,82)=0,5-0,4656=0,0344=3,44%
68
Tabla 5.5. Tabla de valores para calcular el área bajo la curva normal tipificada
Existen algunas veces que nos dan la probabilidad y nos piden hallar el
valor de “z” el procedimiento sería el inverso; por ejemplo si la probabilidad
es 47,36%, entonces esto equivale a 0,4736, este valor se busca en la
Tabla 5.5, si no hay un valor exacto, se busca el que más se aproxima, en
este caso sería 0,4738 por lo tanto el valor de z es 1,94.
69
Ahora realizaremos un ejemplo más práctico, supongamos que después

de una investigación se llegó a la conclusión de que los niños del distrito
de Chupuro adquieren un cierto tipo de enfermedad; los datos de la
investigación arrojaron que la media poblacional fue de 12 años y la
desviación estándar es 3 años. Cuál es la probabilidad de que un niño que
acaba de contraer la enfermedad tenga 13 o menos años.
Entonces los datos son:

x=edad del niño en años.
µ=12 años.
=3 años
p(x≤13)=?
Tipificando la curva sería:
x − μ 13 − 12
z= = = 0,33
 3
Luego el problema se reduce a calcular:
p(z ≤ 0,33)=0,5+p(0≤ z ≤0,33)=0,5+0,1293=0,6293=62,93%
Entonces podemos concluir que la probabilidad de que el niño que contrae

la enfermedad tenga 13 o menos años de edad es de 62,93%.

las funciones:
p(X = x) = PDF. NORMAL(x, μ, )
p(X < 𝑥) = CDF. NORMAL(x, μ, )
Si se conoce el valor de “z” también se puede usar la función:
p(0 ≤ Z ≤ z)=CDFNORM(z)
Para hallar la probabilidad entre dos valores se puede desarrollar de la

siguiente manera:
p(a < 𝑋 < 𝑏) = CDF. NORMAL(b, μ, ) − CDF. NORMAL(a, μ, )
70
UNIDAD VI
CONTRASTACIÓN DE HIPÓTESIS
La contrastación o prueba de hipótesis comienza con una suposición, hipótesis,
que hacemos acerca de un parámetro de población. Una hipótesis estadística
es una proposición o supuesto sobre los parámetros de una o más poblaciones.
En todo trabajo estadístico existen dos tipos de hipótesis estadísticas:
H0 Hipótesis nula (negación de la hipótesis alternativa). Supone que no hay
diferencia entre el estadígrafo y el parámetro.
H1 Hipótesis alternativa (propone el investigador). Supone que existe
diferencia entre el estadígrafo y el parámetro.
En este sentido se dice que la aplicación del método científico no nos permite
demostrar la veracidad de una hipótesis sino su falsedad, es decir, que las
hipótesis alternativas (H1) que propone el investigador se dan por válidas
siempre y cuando se rechaza la hipótesis nula (H0).
Como la (H0) es la negación de la hipótesis alternativa (H1); en las pruebas de

contrastación de hipótesis, las diferentes pruebas estadísticas utilizan la
llamada hipótesis nula (H0) para verificar la validez de las hipótesis alternativas
(H1). Por tanto, cuando realizamos cualquier test estadístico de
contrastación de hipótesis, nuestro objetivo será rechazar la (H0), lo que
nos permite dar por válida la hipótesis alternativa (H1) planteada.
6.1. HIPÓTESIS NULA (H0).
Es una aseveración en el sentido de que un parámetro poblacional tiene un

valor específico. Es el punto de partida de la investigación.
Por ejemplo, se realiza una investigación sobre el costo de los

transformadores de distribución monofásicos de 5 kVA que venden las
diversas empresas en el Perú. Alguien puede afirmar que dichos
transformadores cuestan en promedio S/. 1400,00. Entonces las hipótesis
que se plantea sería:
H0 Hipótesis nula: “El costo promedio de los transformadores de

distribución monofásicos de 5 kVA es de S/. 1400,00”.
En leguaje matemático se plantearía de la siguiente manera:
H0: µ=1400 Nuevos Soles.
6.2. HIPÓTESIS ALTERNATIVA (H1).
Es cualquier hipótesis que difiera de la hipótesis nula. Tomando el ejemplo

anterior se podría presentar tres hipótesis alternativas.
71
a) “El costo promedio de los transformadores de distribución monofásicos

de 5 kVA es diferente de S/. 1400,00”.
b) “El costo promedio de los transformadores de distribución monofásicos
de 5 kVA es menor a S/. 1400,00”.
c) “El costo promedio de los transformadores de distribución monofásicos
de 5 kVA es mayor a S/. 1400,00”.
En lenguaje matemático sería:
μ ≠ 1400 Nuevos Soles

H1 : μ < 1400 Nuevos Soles
μ > 1400 Nuevos Soles
{
Sin embargo, se debe tener en cuenta que para hacer la prueba de

contrastación de hipótesis se toma una sola hipótesis alternativa.
6.3. VALOR CRÍTICO DEL ESTADÍSTICO DE PRUEBA.
El valor crítico es un valor del estadístico de prueba en su correspondiente

distribución de probabilidad; este valor divide a la curva de distribución en
dos regiones: una región de aceptación (región de no rechazo) de la
hipótesis nula y otra de rechazo de la hipótesis nula, tal como se muestra en
la Figura 6.1.
Figura 6.1. Ubicación del valor crítico del estadístico de prueba.
6.4. PRUEBAS ESTADÍSTICAS.
Dependiendo de la distribución de probabilidades de la muestra, se han

desarrollado numerosos tests estadísticos que permiten realizar pruebas
de contrastación de hipótesis, conocidos como pruebas paramétricas (para
distribución normal y “t” de Student) y pruebas no paramétricas para otras
distribuciones.
En la Tabla 6.1, se muestran de forma resumida las diferentes pruebas

estadísticas para realizar las pruebas de contrastación de hipótesis
necesarias en los trabajos científicos.
72
Tabla 6.1. Tabla de test estadísticos y su aplicación.

Objetivo Número de Pruebas Pruebas no Nominales o
del análisis grupos paramétricas paramétricas dicotómicas
Media, mediana, moda,
Mediana, Moda, gráfico de
Describir Uno o más DE, V, histogramas,
Gráficos varios barras o sectores.
tablas de frecuencias
Chi-cuadrado
Uno contra valores T Student para una Chi-cuadrado
Binomial,
hipotéticos muestra (curva normal) Binomial
Kolmogorov-Smirnov
Fisher (Chi-cuadrado
T Student para dos Fisher (Chi-
Dos grupos para muestras
Comparar grupos independientes cuadrado para
independientes grandes),
(curva normal) muestras grandes)
Kolmogorov-Smirnov
T Student para dos
Dos grupos
grupos dependientes Kolmogorov-Smirnov
dependientes
(Curva normal)
Dos variables de un r de Pearson, gráficos
r de Spearman
grupo de dispersión
Relacionar Predecir el valor de
Regresión no
una variable desde Regresión lineal simple
paramétrica
otra
Cuando las muestras son grandes se toma la curva de distribución Z, estas

son pruebas que se distribuyen de acuerdo a una curva normal, estas
pruebas consisten en determinar valores críticos (±ZCRITICO) de tal manera
que la zona comprendida entre dichos valores críticos se considera como
región de aceptación de la hipótesis nula (Ho), mientras que las colas se
consideran como región de rechazo de la hipótesis nula (Ho), tal como se
Figura 6.2. Curva normal.
En la Figura 6.2 se observa la probabilidad de error tipo I (α) que es la

probabilidad de rechazar la Ho cuando la Ho realmente es verdadera, dicha
probabilidad de error se reparte en dos partes por lo que se muestra α/2
hacia la izquierda y derecha. Finalmente diremos que cuando se hace la
prueba y el valor del estadístico se ubica en la región comprendida entre los
73
valores críticos, se dice que la hipótesis nula (Ho) es aceptada, en caso

contrario es rechazada.
Por otro lado, observando la Figura 6.2 se puede determinar tres casos:
- Prueba de dos colas. Este caso se utiliza cuando la hipótesis alternativa

(H1) se plantea como diferente (≠); en el ejemplo anterior sería para el caso:
“El costo promedio de los transformadores de distribución monofásicos de
5 kVA es diferente de S/. 1400,00”. En este caso para hallar el valor crítico
(Zc) se procede de la siguiente manera:
1°) Se determina el nivel de significancia (α). Ejemplo α=5%=0,05.

2°) Se determina el valor de (α/2). α/2=0,05/2=0,025.
3°) Se determina el área bajo la curva normal tipificada de 0 a Zc. Para el
ejemplo sería: A=0,5-0,025=0,475.
4°) En la Tabla 5.5 se busca el valor del área calculada y se determina el
valor de Zc. Para el ejemplo sería Zc=±1,96 tal como se muestra en la
Figura 6.3.
Figura 6.3. Valor de Zc para un nivel de significación del 5%.
- Prueba de una cola hacia la izquierda. Este caso se utiliza cuando la

hipótesis alternativa (H1) se plantea como menor (<); en el ejemplo anterior
sería para el caso: “El costo promedio de los transformadores de
distribución monofásicos de 5 kVA es menor de S/. 1400,00”. En este caso
para hallar el valor crítico (Zc) se procede de la siguiente manera:
1°) Se determina el nivel de significancia (α). Ejemplo α=5%=0,05.

2°) Se determina el área bajo la curva normal tipificada de 0 a Zc. Para el
ejemplo sería: A=0,5-0,05=0,45.
3°) En la Tabla 5.5 se busca el valor del área calculada y se determina el
valor de Zc. Para el ejemplo sería Zc=-1,645 tal como se muestra en
la Figura 6.4.
74
Figura 6.4. Valor de -Zc para un nivel de significación del 5%.
- Prueba de una cola hacia la derecha. Este caso se utiliza cuando la

hipótesis alternativa (H1) se plantea como mayor (>); en el ejemplo
anterior sería para el caso: “El costo promedio de los transformadores de
distribución monofásicos de 5 kVA es mayor de S/. 1400,00”. En este caso
para hallar el valor crítico (Zc) se procede similar al caso anterior (ver
Figura 6.5).
Figura 6.5. Valor de +Zc para un nivel de significación del 5%.
6.5. PROCEDIMIENTO PARA PROBAR HIPÓTESIS
El procedimiento tradicional para probar hipótesis es seguir los siguientes

pasos:
1°) Plantear las hipótesis tanto la nula como la alternativa.
2°) Determinar el nivel de significación (α), el cual debe ser determinado por
el investigador; normalmente es del 5%; con este valor se determina los
valores críticos (Zc).
3°) Calcular el estadístico de prueba; para el caso de una curva normal se
debe calcular el valor de Z y ubicar la región donde está ubicada (en la
región de aceptación o de rechazo). Para el cálculo de Z existe modelos
matemáticos dependiendo del tipo de prueba que se va aplicar, que se
verá más adelante.
75
4°) Tomar una decisión, el cual puede ser: Aceptar o rechazar la hipótesis
nula (Ho).
Ejemplo 6.1. Como un ejemplo de aplicación podemos plantear una prueba

para una media poblacional: El gerente de la empresa Deporte Total S.A.C.
que tiene un gimnasio, invita a inscribirse a sus clientes indicando que en un
mes de asistencia puede bajar al menos 3,5 kg de peso. En una investigación
realizada a una población de 5000 clientes se seleccionó una muestra
aleatoria de 357 clientes y se determinó que el promedio de reducción de
peso es de 2,8647 kg con una desviación típica de 1,13946 kg. Si el
investigador considera un 5% de nivel de significación, se puede creer lo
indicado por el gerente.
Datos:
n=357 clientes.
µ=3,5 kg (para toda la población).
x = 2,8647 kg (promedio de la muestra).
S=1,13946 kg (desviación estándar de la muestra)
Ho: “No existe diferencia significativa entre el promedio anunciado por el

gimnasio y el promedio de la muestra”. (Ho: µ=3,5 kg)
H1: “El promedio anunciado por el gimnasio es menor”. (H1: µ<3,5 kg)
α=5%=0,05 (nivel de significancia).
Se aplicará una prueba Z de cola izquierda.
Cálculo del estadístico de prueba Z.
𝑥−𝜇 2,8647 − 3,5

𝑍= = = −10,5345
𝑆 1,13946
√𝑛 √357
Finalmente, como el valor -10,5345<-1,645 (cae en la región de rechazo) se

concluye que la Ho es rechazada por lo tanto se acepta la hipótesis
76
alternativa (H1), es decir: el valor anunciado por el gerente del gimnasio no

es verdad.
Ejemplo 6.2. Otro ejemplo de aplicación plantea una prueba para una
proporción poblacional: El gerente de la empresa Luminarias S.A.C.
plantea que en un lote de producción de 5000 lámparas ahorradoras como
máximo el 2% están falladas. Una muestra aleatoria de 357 lámparas indica
que 10 lámparas están falladas. Con un nivel de significancia del 5%,
determinar si el gerente tiene razón.
Datos:
n=357 lámparas.
P=2%=0,02 (proporción poblacional).
p=10/357=0,028 (proporción muestral)
Ho: “No existe diferencia significativa entre la proporción poblacional y la

proporción de la muestra”. (Ho: P=0,02)
H1: “La proporción de la muestra es mayor que la proporción poblacional”.
(H1: P>0,02)
Se aplicará una prueba Z de cola derecha.
𝑝−𝑃 0,028 − 0,02

𝑍= = = 0,9162
𝑝. 𝑞
√ √(0,028)(0,972)
𝑛 357
Finalmente, como el valor 0,9162<1,645 (cae en la región de aceptación) se

concluye que la Ho es aceptada, es decir: el valor anunciado por el gerente
es verdad.
Ejemplo 6.3. Otro ejemplo de aplicación plantea una prueba para una
diferencia de medias muestrales: El gerente de la empresa Luminarias
S.A.C. organizó un curso de capacitación para sus empleados (50 varones
77
y 40 damas) luego los sometió a una misma evaluación cuyo calificativo fue
de 0 a 20, luego del cual los varones obtuvieron un promedio de 12,46 con
una desviación típica de 5,068, mientras que las damas obtuvieron un
promedio de 11,95 con una desviación típica de 4,546. El gerente desea
saber si existe diferencia significativa entre los promedios de damas y
varones con un nivel de significancia del 5%.
Datos:
n1=50 varones.
µ1=12,46
σ1=5,068
n2=40 damas.
µ2=11,95
σ2=4,546
Ho: “No existe diferencia significativa entre el promedio de damas y varones”.

(Ho: µ1 = µ2)
H1: “Los promedios de damas y varones son diferentes”. (H1: µ1 ≠ µ2)
Se aplicará una prueba Z de dos colas.
𝜇1 − 𝜇2 12,46 − 11,95
𝑍= = = 0,5024
2 2
𝜎2 𝜎22 √5,068 + 4,546
√ 1 50 40
𝑁1 + 𝑁2
Finalmente, como el valor -1,96<0,5024<1,96 (cae en la región de

aceptación) se concluye que la Ho es aceptada, es decir: no existe diferencia
significativa entre el promedio de damas y varones.
78
6.6. ENFOQUE DEL VALOR “p” PARA LA PRUEBA DE HIPÓTESIS.
Un indicador importante para la prueba de hipótesis es el grado de

significación estadística (p)3 es un parámetro que cuantifica el error que
estamos cometiendo al aceptar nuestros resultados. Concretamente, lo que
indica es la probabilidad de que rechacemos o aceptemos la hipótesis nula
(H0). Cuanto más pequeño sea el valor de ‘p’ menor será la probabilidad de
que H0 sea cierta, y por tanto mayor es la probabilidad de que la hipótesis
alternativa (H1) sea la correcta.
Para tomar una decisión respecto a cuál sea la hipótesis ‘verdadera’, el

investigador fija el nivel de significancia (α), de tal manera que:
- Si p< α entonces se rechaza la Ho y aceptamos la H1.
- Si p> α entonces aceptamos la Ho y rechazamos la H1.
Para calcular el valor de “p” primero se debe calcular el valor de Z (tal como
los ejemplos anteriores) luego se debe hallar el área bajo la curva normal
tipificada (ver Tabla 5.5) y aplicar las siguientes fórmulas:
p=2(1-área) para pruebas de dos colas.

p=1-área para una prueba de cola derecha.
p=área para una prueba de cola izquierda
Como un ejemplo de aplicación resolveremos el ejemplo 6.2 utilizando el

concepto de “p”, para ello calcularemos el valor de p. En dicho ejemplo se
determinó que Z=0,9162, entonces observando la Tabla 5.5 el área sería:
área=0,5+0,3186=0,8186
p=1-0,8186=0,1814 (por ser prueba de cola derecha)
p>0,05 (por lo tanto se acepta la hipótesis nula).
6.7. CONTRASTACIÓN DE HIPÓTESIS CON SPSS.
a) Estimación de parámetros a partir de los estadígrafos.
Para poder hacer una estimación estadística es necesario conocer bien

los conceptos de PARÁMETROS y ESTADÍGRAFOS, tratados en el
capítulo anterior.
Como se dijo anteriormente, los parámetros no se conocen, pero se

pueden estimar a partir de los estadígrafos, con un mínimo de error.
Otro concepto importante es el ERROR ESTÁNDAR (ES) que se define

como la desviación estándar de las medias de varias muestras del mismo
tamaño, entonces cada una de esas medias tendrán una DESVIACIÓN
ESTÁNDAR (S), entonces matemáticamente sería:
3
En el software SPSS el grado de significación se simboliza por (Sig.)
79
S
ES =
√n
Luego para estimar la media poblacional (µ) con un intervalo de confianza
del 95% se utiliza la siguiente fórmula.
μ = x̅ ± 1,96 ES
La constante 1,96 es el valor del nivel de confianza “Z”, para un intervalo
de confianza del 95% (ver Tabla 1.1)
Como ejemplo estimaremos el promedio de reducción de peso del

ejemplo 6.1 de una población de 5000 clientes del gimnasio partiendo de
una muestra de 357 datos (n=357), para ello utilizaremos el archivo
“PesoGimnasio.sav” del SPSS, para ello ingresamos al menú
Analizar/Estadísticos Descriptivos/Explorar y debe salir la ventana que se
Figura 6.6. Ventana Explorar del SPSS.
Después de hacer clic en el botón Aceptar, se obtiene los resultados que

se muestra en la Tabla 6.2.
80
Tabla 6.2. Resultados de la media poblacional

Estadístico Error típ.
Media 2,8647 ,06031
Intervalo de confianza para Límite inferior 2,7461
la media al 95% Límite superior 2,9833
Media recortada al 5% 2,8501
Mediana 2,8200
Varianza 1,298
Reducción
de Peso Desv. típ. 1,13946
Mínimo 1,00
Máximo 5,00
Rango 4,00
Amplitud intercuartil 1,93
Asimetría ,135 ,129
Curtosis -1,134 ,257
Entonces el límite inferior sería: μ = 2,8687 − 1,96 . (0,06031) = 2,7505 y

el límite superior sería μ = 2,8687 + 1,96 . (0,06031) = 2,9869; lo que
significa que con un nivel de confianza del 95% se estima que el promedio
de reducción de peso de la población está entre 2,7505 kg y 2,9869 kg.
b) T Student para una muestra.
Como ejemplo de aplicación desarrollaremos el Ejemplo 6.1 con un nivel de

significancia del 5%, en dicho ejemplo se plantearon las siguientes hipótesis:

H1: “El promedio anunciado por el gimnasio es diferente al promedio
anunciado por el gimnasio”. (H1: µ≠3,5 kg)
En el SPSS se debe ingresar al menú Analizar/comparar medias/prueba T

para una muestra.
81
Cuando se hace clic en Aceptar se muestra los siguientes resultados.
Estadísticos para una muestra
N Media Desviación típ. Error típ. de la

media
Reducción
357 2,8647 1,13946 ,06031
de Peso
Prueba para una muestra
Valor de prueba = 3.5
t gl Sig. (bilateral) Diferencia de 95% Intervalo de confianza para la

medias diferencia
Inferior Superior
Reducción
-10,534 356 ,000 -,63529 -,7539 -,5167
de Peso
Como Sig. es 0,000 (menor a 0,05), entonces rechazamos la hipótesis nula y

aceptamos la hipótesis alternativa, es decir concluimos que el valor anunciado
por el gerente del gimnasio es diferente
Si las hipótesis fueran:

H1: “El promedio anunciado por el gimnasio es menor”. (H1: µ<3,5 kg)
El valor del sig que calcula el SPSS es cuando la hipótesis es diferente, entonces
cuando se presenta ese caso se debe tener en cuenta los valores que se
muestran en el siguiente cuadro:
H1 Signo de t P valor en SPSS

≠ Sig.
> + Sig./2
> - 1-Sig./2
< + 1-Sig./2
< - Sig./2
En este caso, H1 es menor que 3,5 y el signo de t es negativo, entonces el valor

de “p” sería Sig./2=0,000/2=0,000; este valor es menor que 0,5 por tanto
rechazamos Ho y decimos que el valor anunciado por el gerente del gimnasio es
menor a 3,5 kg.
c) T Student para dos muestras independientes.
Se usa para comparar la media de una variable cuantitativa dependiente entre

dos grupos independientes de individuos. El estadístico de contraste se calcula
de diferente manera, si suponemos que las varianzas poblacionales son iguales
82
o diferentes. Esta prueba, lo que verifica es, si el valor de la diferencia entre las
medias de los dos grupos (𝑥̅1 − 𝑥̅2 ) o (µ1- µ2) tiene diferencia estadísticamente
significativa o no.
Como ejemplo de aplicación desarrollaremos el Ejemplo 6.3 con un nivel de

significancia del 5%, en dicho ejemplo se plantearon las siguientes hipótesis:
Ho: “No existe diferencia significativa entre el promedio de damas y varones”.

(Ho: µ1 = µ2)
H1: “Los promedios de damas y varones son diferentes”. (H1: µ1 ≠ µ2)
En el SPSS se debe ingresar al Analizar/comparar medias/prueba T para

muestras independientes.
Estadísticos de grupo
Genero N Media Desviación típ. Error típ. de la

media
Varón 50 12,46 5,068 ,717

Nota
Dama 40 11,95 4,546 ,719
Prueba de muestras independientes

Prueba de Prueba T para la igualdad de medias
Levene para
la igualdad de
varianzas
F Sig. t gl Sig. Diferencia Error típ. 95% Intervalo de
(bilateral) de de la confianza para la
medias diferencia diferencia
Inferior Superior
Se han
asumido
,917 ,341 ,496 88 ,621 ,510 1,027 -1,532 2,552
varianzas
iguales
Nota
No se han
asumido
,502 86,806 ,617 ,510 1,015 -1,508 2,528
varianzas
iguales
83
La primera interpretación es la Prueba de Levene para igualdad de varianzas, en

este caso el valor de F es 0,917 y Sig es 0,341 y es mayor a 0,05; entonces
aceptamos la Ho, es decir decimos que se cumple la igualdad de varianza; por
lo tanto analizamos la prueba T student bajo el supuesto de igualdad de varianza;
para este ejemplo t=0,496 con 88 grados de libertad y su Sig.=0,621 (mayor que
0,05 se acepta Ho) y se concluye que no existen diferencias significativas en el
promedio de notas en función del género.
d). T student para dos muestras relacionadas.
Se usa para comparar la media de dos variables cuantitativas relacionadas.
Ejemplo: Los datos representan el sueldo promedio de personas y el costo de

gasto disponible para comprar Jeans.
(Menú Analizar/comparar medias/prueba T para muestras relacionadas)
Estadísticos de muestras relacionadas

Media N Desviación típ. Error típ. de la
media
Sueldo promedio 3709,8455 139 1861,34679 157,87737
Par 1
Costo de gasto 274,6403 139 91,12096 7,72878
Correlaciones de muestras relacionadas

N Correlación Sig.
Sueldo promedio y Costo de
Par 1 139 ,152 ,074
gasto
Prueba de muestras relacionadas

Diferencias relacionadas t gl Sig.
Media Desviación Error típ. 95% Intervalo de (bilateral)
típ. de la confianza para la
media diferencia
Inferior Superior
Par Sueldo promedio
3435,20518 1849,70778 156,89017 3124,98570 3745,42466 21,896 138 ,000
1 - Costo de gasto
El resultado indica que la media del sueldo promedio no guarda ninguna relación
ya que Sig. es 0,00 (menor a 0,05 por lo tanto la Ho se rechaza)
84
e. Chi-Cuadrado
Para esta prueba se tiene que construir una tabla de contingencia ingresando
al menú:
Analizar/Estadísticos descriptivos/Tablas de contingencia
Lo que queremos es saber si existe alguna asociación entre el género y la

edad de las personas encuestadas y se obtuvieron los siguientes resultados.
Tabla de contingencia Genero (sexo) * Edad (agrupado)
85
Recuento
Edad (agrupado) Total
24 a 28 28 a 32 32 a 36 36 a 40 40 a 44 44 a 48 48 a 52
Genero Varón 15 6 5 8 12 9 11 66
(sexo) Dama 13 10 11 8 11 11 9 73
Total 28 16 16 16 23 20 20 139
Pruebas de chi-cuadrado
Valor gl Sig. asintótica
(bilateral)
Chi-cuadrado de Pearson 3,493a 6 ,745
Razón de verosimilitudes 3,551 6 ,737
Asociación lineal por lineal ,180 1 ,671
N de casos válidos 139
a. 0 casillas (0,0%) tienen una frecuencia esperada inferior a 5. La
frecuencia mínima esperada es 7,60.
Medidas simétricas
Valor Error típ. asint.a T aproximadab Sig.
aproximada
Intervalo por intervalo R de Pearson -,036 ,085 -,423 ,673c
Ordinal por ordinal Correlación de Spearman -,034 ,085 -,396 ,693c
N de casos válidos 139
a. Asumiendo la hipótesis alternativa.
b. Empleando el error típico asintótico basado en la hipótesis nula.
c. Basada en la aproximación normal.
Como el valor de Sig. del Chi cuadrado es 0,745 (mayor a 0,5 se acepta la Ho),
lo que significa que la asociación entre género y la edad no es significativa.
86

Capitulo I-VI (Completo)

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo I-VI (Completo)

Cargado por

Copyright:

Formatos disponibles

Mg.

RUBÉN GALEAS ARANA

UNIVERSIDAD NACIONAL DEL CENTRO DEL PERÚ

FACULTAD DE INGENIERÍA ELÉCTRICA Y

ESTADÍSTICA Y PROBABILIDADES APLICADA

1. Utilizar los elementos conceptuales y procedimentales de

Según la enciclopedia virtual Wikipedia1. La Estadística es una ciencia

La estadística se aplica a una amplia variedad de disciplinas, desde la física

Finalmente podemos decir que la ESTADÍSTICA se ocupa de los métodos y

La estadística se clasifica en dos grandes áreas:

La estadística descriptiva o deductiva, se refiere a la recolección,

La estadística inferencial o inductiva, es una técnica mediante el cual se

Se dedica a la generación de los modelos, inferencias y predicciones

respuestas a preguntas si/no (prueba de hipótesis), estimaciones de unas

Para finalizar este punto debemos manifestar que ambas áreas de la

1.3. CONCEPTOS BÁSICOS RELACIONADOS CON LA ESTADÍSTICA.

A continuación daremos algunos conceptos básicos y fundamentales para

Figura 1.1. Ejemplo de población, muestra e individuo

a) Población, Colectivo o Universo (N).

La población (“N”) es el conjunto de todos los individuos (objetos,

desea estudiar la cantidad de suministros con instalaciones trifásicas en

Recopilando la información especificada a toda la muestra se tendría la

Tabla 1.2. Resumen de datos obtenidos de encuesta a los individuos.

Muchas veces es imposible tener contacto y observar a toda la población,

Trabajar con una muestra proporciona muchas ventajas: ahorra tiempo,

d) Tamaño de la muestra (n).

En estadística el tamaño de la muestra (n) es el número de individuos que

3. El nivel de variabilidad que se calcula para comprobar la hipótesis.

Es el porcentaje de seguridad que existe para generalizar los resultados

Es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la

El porcentaje con que se aceptó tal hipótesis se denomina variabilidad

Calcularemos el tamaño de la muestra a través de las siguientes fórmulas:

- La fórmula en caso no se conozca con precisión el tamaño de la

- La fórmula en caso se conozca el tamaño de la población (N) es:

Para hallar el valor del nivel de confianza Z, se usa la Tabla 1.1.

Por ejemplo, se desea determinar el tamaño de la muestra de una

𝑍 2 . 𝑝. 𝑞 (1,96)2 . (0,5). (0,5)

El tamaño de la muestra es un tema complejo, pero hoy se puede recurrir

El proceso de seleccionar la “muestra” se le conoce como “muestreo”. El

El muestreo se divide muestreo probabilístico y muestreo no

El muestreo probabilístico es aquel que se basa en el principio de

Dentro de los muestreos probabilísticos se encuentran los siguientes

1. Muestreo aleatorio simple:

Para seleccionar los individuos de la muestra se sigue el siguiente

Este procedimiento es muy utilizado cuando la población se puede

2. Muestreo aleatorio sistemático:

Este procedimiento exige, como el anterior, numerar todos los

En este procedimiento se presenta el mismo problema del muestreo

3. Muestreo aleatorio estratificado:

El muestreo aleatorio estratificado consiste en dividir la población en

Lo que se pretende con este tipo de muestreo es asegurarse de que

Supongamos que, en Huancayo, 70% de empresas son formales y el

Este método es el que más se utiliza en investigación científica.

4.- Muestreo aleatorio por conglomerados:

Los métodos presentados hasta ahora están pensados para

o conglomerados que contienen otros grupos más pequeños de forma

- Métodos de muestreo no probabilísticos

A veces, para estudios exploratorios, el muestreo probabilístico resulta

Para facilitar aún más la comprensión de los conceptos, realizaremos el

En los tres primeros procesos, se está trabajando con la muestra y se analiza

1.4. VARIABLES ESTADÍSITICAS.

Una variable estadística, es cada una de las características o cualidades

A continuación desarrollaremos los tipos de variables estadísticas.

Las variables cualitativas se refieren a características o cualidades que