Está en la página 1de 86

Mg.

RUBÉN GALEAS ARANA

UNIVERSIDAD NACIONAL DEL CENTRO DEL PERÚ

FACULTAD DE INGENIERÍA ELÉCTRICA Y


ELECTRÓNICA

GUÍA DIDÁCTICA
ESTADÍSTICA, PROBABILIDADES Y
PROCESOS ESTOCÁSTICOS

DOCENTE:
Mg. RUBÉN GALEAS ARANA

Huancayo – Perú
2015

1
Mg. RUBÉN GALEAS ARANA

ESTADÍSTICA Y PROBABILIDADES APLICADA


OBJETIVOS.

1. Utilizar los elementos conceptuales y procedimentales de


la estadística, así como utilizar adecuadamente los
conceptos de probabilidades.
2. Reconocer la importancia de la estadística, como eje
transversal para la organización, sistematización,
inferencia y validación de datos e información en las
diferentes disciplinas del conocimiento científico.
3. Propiciar el desarrollo de habilidades para el análisis e
interpretación de datos, que permitan realizar una
adecuada toma de decisiones basados en criterios
técnicos-científicos en base a la información existente.
4. Desarrollar habilidades para el manejo del software
estadístico SPSS.

2
Mg. RUBÉN GALEAS ARANA

UNIDAD I

ESTADÍSTICA
1.1. CONCEPTO.

Según la enciclopedia virtual Wikipedia1. La Estadística es una ciencia


formal que estudia la recolección, análisis e interpretación de datos de
una muestra representativa, ya sea para ayudar en la toma de decisiones o
para explicar condiciones regulares o irregulares de algún fenómeno o
estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin
embargo, la estadística es más que eso, es decir, es el vehículo que permite
llevar a cabo el proceso relacionado con la investigación científica.

La estadística se aplica a una amplia variedad de disciplinas, desde la física


hasta las ciencias sociales, desde las ciencias de la salud hasta el control de
calidad. Se usa para la toma de decisiones en áreas de negocios en
instituciones públicas y privadas.

Finalmente podemos decir que la ESTADÍSTICA se ocupa de los métodos y


procedimientos para recoger, clasificar, resumir, analizar e interpretar los
datos; que ayudan a tomar mejores decisiones.

1.2. CLASIFICACIÓN.

La estadística se clasifica en dos grandes áreas:

a) La Estadística Descriptiva.

La estadística descriptiva o deductiva, se refiere a la recolección,


presentación, descripción, análisis e interpretación de una serie de datos;
originados a partir de los fenómenos de estudio. Esta descripción se
realiza a través de la elaboración de cuadros, gráficos (histogramas,
diagrama de sectores, etc.), cálculo de promedios, varianzas, etc.

b) La Estadística Inferencial.

La estadística inferencial o inductiva, es una técnica mediante el cual se


obtienen generalizaciones o se toman decisiones en base a una
información completa o parcial obtenida mediante técnicas descriptivas.

Se dedica a la generación de los modelos, inferencias y predicciones


asociadas a los fenómenos en estudio, teniendo en cuenta la aleatoriedad
de las observaciones, apoyándose en el cálculo de probabilidades y a
partir de datos muestrales. Estas inferencias pueden tomar la forma de

1
http://es.wikipedia.org/wiki/Estadística

3
Mg. RUBÉN GALEAS ARANA

respuestas a preguntas si/no (prueba de hipótesis), estimaciones de unas


características numéricas (estimación), pronósticos de futuras
observaciones, descripciones de asociación (correlación) o modelamiento
de relaciones entre variables (análisis de regresión). Otras técnicas de
modelamiento incluyen ANOVA (ANalysis Of VAriance), series de tiempo
y minería de datos.

Para finalizar este punto debemos manifestar que ambas áreas de la


estadística (descriptiva e inferencial) comprenden la ESTADÍSTICA
APLICADA.

1.3. CONCEPTOS BÁSICOS RELACIONADOS CON LA ESTADÍSTICA.

A continuación daremos algunos conceptos básicos y fundamentales para


una mejor comprensión de la estadística, dichos elementos se muestran en
la Figura 1.1

Figura 1.1. Ejemplo de población, muestra e individuo

a) Población, Colectivo o Universo (N).

La población (“N”) es el conjunto de todos los individuos (objetos,


personas, documentos, data, eventos, situaciones, etc.) a investigar. La
población es el conjunto de individuos o cosas que tienen una o más
propiedades en común. Por ejemplo, la población de usuarios de
electricidad del Valle del Mantaro; la cantidad de contadores de energía
instalados en zonas rurales de la región de Junín.

b) Individuo o Elemento.

Son las personas u objetos, que son parte de la muestra, que contienen
cierta información que se desea estudiar o investigar. Por ejemplo: se

4
Mg. RUBÉN GALEAS ARANA

desea estudiar la cantidad de suministros con instalaciones trifásicas en


el distrito de Pilcomayo, y se define el individuo “suministro”, de tal manera
que de cada usuario se solicita la siguiente información:
- Código del suministro.
- Número de personas que se benefician del suministro.
- Consumo de energía en el mes de noviembre de 2012.
- Cantidad de artefactos eléctricos que utiliza.
- El suministro es monofásico o trifásico (monofásico=1; trifásico=2).
- Tiene instalación de puesta a tierra (Si=1; No=2)

Recopilando la información especificada a toda la muestra se tendría la


base de datos que se muestra en la Tabla 1.2:

Tabla 1.2. Resumen de datos obtenidos de encuesta a los individuos.


Consumo
Cantidad Tipo
de Energía
Código Personas de de Puesta
Usuario en
Suministro Beneficiarias artefactos sumini a tierra
noviembre
que utiliza stro
(kW.h)
1 68857337 5 73 8 1 2
2 35677221 8 90 8 1 1
3 54231245 7 120 15 2 1

c) Muestra.

Muchas veces es imposible tener contacto y observar a toda la población,


por eso suele trabajarse solo con una parte de la población, al cual se le
conoce como “muestra”. La muestra es un subconjunto de unidades de
análisis extraída de la población objetivo, buscando que dichas unidades
seleccionadas sean representativas con la finalidad de permitir que a
través de la información recabada con la muestra se realicen inferencias
válidas para toda la población.

Trabajar con una muestra proporciona muchas ventajas: ahorra tiempo,


reduce costos y posibilita mayor profundidad y exactitud en los resultados.
Sin embargo, también tiene algunos inconvenientes: es dificultoso, una
muestra mal seleccionada o sesgada distorsiona los resultados y por tanto
puede conducir a una mala toma de decisiones.

d) Tamaño de la muestra (n).

En estadística el tamaño de la muestra (n) es el número de individuos que


componen la muestra extraída de una población, necesarios para que los
datos obtenidos sean representativos de la población.

Para calcular el tamaño de una muestra hay que tomar en cuenta tres
factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos
desde la muestra hacia la población total.
2. El porcentaje de error que se pretende aceptar al momento de hacer la
generalización
5
Mg. RUBÉN GALEAS ARANA

3. El nivel de variabilidad que se calcula para comprobar la hipótesis.

- Nivel de confianza.

Es el porcentaje de seguridad que existe para generalizar los resultados


obtenidos. Comúnmente en las investigaciones sociales se busca un
95%.

- Porcentaje de error.

Equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa
como si fuera verdadera. Comúnmente se aceptan entre el 4% y el 6%
como error, tomando en cuenta de que no son complementarios la
confianza y el error.

- La variabilidad.

Es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la


hipótesis que se quiere investigar en alguna investigación anterior o en
un ensayo previo a la investigación actual.

El porcentaje con que se aceptó tal hipótesis se denomina variabilidad


positiva y se denota por “p”. Y el porcentaje con el que se rechazó la
hipótesis es la variabilidad negativa, denotada por “q”.

Hay que considerar que “p” y “q” son complementarios, es decir, que su
suma es igual a la unidad (p+q=1). Además, cuando se habla de la
máxima variabilidad, en el caso de no existir antecedentes sobre la
investigación (no hay otras o no se pudo aplicar una prueba previa),
entonces los valores de variabilidad es p=q=0,5

Calcularemos el tamaño de la muestra a través de las siguientes fórmulas:

- La fórmula en caso no se conozca con precisión el tamaño de la


población es:

𝑍 2 . 𝑝. 𝑞
𝑛0 =
𝐸2
Donde:
no es el tamaño de la muestra.
Z es el nivel de confianza.
p es la variabilidad positiva.
q es la variabilidad negativa.
E es el porcentaje de error.

- La fórmula en caso se conozca el tamaño de la población (N) es:

6
Mg. RUBÉN GALEAS ARANA

𝑛𝑜
𝑛=
𝑛 −1
1+ 𝑜
𝑁
Donde:
n es el tamaño de la muestra.

Para hallar el valor del nivel de confianza Z, se usa la Tabla 1.1.

Tabla 1.1. Tabla de apoyo al cálculo del tamaño de la muestra por niveles de confianza.
Confianza 95% 94% 93% 92% 91% 90% 80% 62,27% 50%
Z 1,96 1,88 1,81 1,75 1,69 1,65 1,28 1 0,6745
Z2 3,84 3,53 3,28 3,06 2,86 2,72 1,64 1,00 0,4550
E 0,05 0,06 0,07 0,08 0,09 0,10 0,20 0,37 0,50
E2 0,0025 0,0036 0,0049 0,0064 0,0081 0,0100 0,0400 0,1369 0,2500

Por ejemplo, se desea determinar el tamaño de la muestra de una


población de 5000 individuos, con un nivel de confianza de 95% y error
máximo de 5%.

𝑍 2 . 𝑝. 𝑞 (1,96)2 . (0,5). (0,5)


𝑛0 = = = 384,16
𝐸2 (0,05)2
Como el valor de N=5000 entonces el tamaño de la muestra sería:

𝑛𝑜 384,16
𝑛= = = 356,82
𝑛𝑜 − 1 384,16 − 1
1+ 1+
𝑁 5000
Lo que significa que el tamaño de la muestra para una población de 5000
individuos debe ser 357 individuos.

El tamaño de la muestra es un tema complejo, pero hoy se puede recurrir


a programas de computadora muy útiles para estimarla, una calculadora
para determinar el tamaño de la muestra lo puede obtener en
http://www.med.unne.edu.ar/biblioteca/calculos/calculadora.htm, un
ejemplo de aplicación se muestra en la Figura 1.2.

7
Mg. RUBÉN GALEAS ARANA

Figura 1.2. Pantalla con calculadora para determinar el tamaño de una muestra

e) Muestreo.

El proceso de seleccionar la “muestra” se le conoce como “muestreo”. El


muestreo es una herramienta de la investigación científica, cuya función
básica es determinar que parte de una población debe examinarse, con
la finalidad de hacer inferencias válidas sobre dicha población.

El muestreo se divide muestreo probabilístico y muestreo no


probabilístico.

- Muestreo probabilístico

El muestreo probabilístico es aquel que se basa en el principio de


equiprobabilidad, es decir, todos los individuos de la población tienen la
misma probabilidad de ser elegidos para formar parte de una muestra,
por tanto nos aseguran la representatividad de la muestra extraída y son
los más recomendables.

Dentro de los muestreos probabilísticos se encuentran los siguientes


tipos:

1. Muestreo aleatorio simple:

Para seleccionar los individuos de la muestra se sigue el siguiente


procedimiento:
1°) Se asigna un número a cada individuo de la población
2°) A través de algún medio mecánico (bolas dentro de una bolsa,
tablas de números aleatorios, números aleatorios generados con
una calculadora u ordenador, etc.) se eligen tantos sujetos como
sea necesario para completar el tamaño de muestra requerido.

8
Mg. RUBÉN GALEAS ARANA

Este procedimiento es muy utilizado cuando la población se puede


manejar, sin embargo, tiene poca utilidad práctica cuando la población
que estamos manejando es muy grande.

2. Muestreo aleatorio sistemático:

Este procedimiento exige, como el anterior, numerar todos los


elementos de la población, pero en lugar de extraer “n” números
aleatorios solo se extrae uno. Se parte de ese número aleatorio “i”,
que es un número elegido al azar, y los elementos que integran la
muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es
decir se toman los individuos de k en k, siendo k el resultado de dividir
el tamaño de la población entre el tamaño de la muestra: k= N/n.
El número “i” que empleamos como punto de partida será un número
al azar entre 1 y k.

En este procedimiento se presenta el mismo problema del muestreo


aleatorio simple.

3. Muestreo aleatorio estratificado:

El muestreo aleatorio estratificado consiste en dividir la población en


subgrupos o estratos según las características que se consideren y
en elegir la muestra de modo que estén representados los diferentes
estratos. Consiste en considerar categorías típicas diferentes entre sí
(estratos) que poseen gran homogeneidad respecto a alguna
característica (se puede estratificar, por ejemplo, según la profesión,
el distrito de residencia, el sexo, el estado civil, edad, etc.).

Lo que se pretende con este tipo de muestreo es asegurarse de que


todos los estratos de interés estarán representados adecuadamente
en la muestra. Cada estrato funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado
para elegir los elementos concretos que formarán parte de la muestra.

Supongamos que, en Huancayo, 70% de empresas son formales y el


30% informales. Si queremos encuestar a 100 empresas, lo que
haremos es dividir las empresas en 2 estratos (formales e informales)
y se eligen aleatoriamente 70 empresas formales y aleatoriamente 30
informales.

Este método es el que más se utiliza en investigación científica.

4.- Muestreo aleatorio por conglomerados:

Los métodos presentados hasta ahora están pensados para


seleccionar directamente los elementos de la población, es decir, que
las unidades muéstrales son los elementos de la población. En
cambio el muestreo aleatorio por conglomerados se utiliza cuando los
individuos de la población constituyen grupos naturales muy grandes

9
Mg. RUBÉN GALEAS ARANA

o conglomerados que contienen otros grupos más pequeños de forma


sucesiva (Ejemplo: país, provincia, distrito, empresas, oficinas, etc.).

- Métodos de muestreo no probabilísticos

A veces, para estudios exploratorios, el muestreo probabilístico resulta


excesivamente costoso y se acude a métodos no probabilísticos, aun
siendo conscientes de que no sirven para realizar generalizaciones
(estimaciones inferenciales sobre la población), pues no se tiene certeza
de que la muestra extraída sea representativa, ya que no todos los
sujetos de la población tienen la misma probabilidad de ser elegidos. En
general se seleccionan a los sujetos siguiendo determinados criterios
procurando, en la medida de lo posible, que la muestra sea
representativa.

Para facilitar aún más la comprensión de los conceptos, realizaremos el


siguiente proceso estadístico:
1°) Se elige una muestra de elementos de una población.
2°) Se observan las características que se han decidido estudiar, tomando el
valor correspondiente a cada uno de los elementos de la muestra.
3°) Se ordenan estos valores y se obtienen diversas medidas que permiten
identificar y comparar numéricamente y gráficamente.
4°) Con los datos obtenidos en la muestra, se deduce el comportamiento de
la población mediante modelos creados por la teoría de probabilidades.

En los tres primeros procesos, se está trabajando con la muestra y se analiza


los datos, eso significa que está dentro de la Estadística Descriptiva. En el
proceso 4° se quiere inferir, mediante el cálculo de probabilidades, el
comportamiento de la población en función de los resultados obtenidos de la
muestra; este proceso corresponde a la Estadística Inferencial.

1.4. VARIABLES ESTADÍSITICAS.

Una variable estadística, es cada una de las características o cualidades


que poseen los individuos de una población.

A continuación desarrollaremos los tipos de variables estadísticas.

a) Variables Cualitativas.

Las variables cualitativas se refieren a características o cualidades que


no pueden ser medidas con números. Podemos distinguir dos tipos de
variables cualitativas:

- Variable cualitativa nominal.

Una variable cualitativa nominal presenta características no numéricas


que no admiten un criterio de orden. Por ejemplo: El estado civil, con
las siguientes características: soltero, casado, divorciado, viudo y

10
Mg. RUBÉN GALEAS ARANA

separado. Tipo de deporte que practica con las siguientes


características: fútbol, básquet, vóley, tenis, otro .deporte.

- Variable cualitativa ordinal o variable cuasicuantitativa

Una variable cualitativa ordinal presenta características no numéricas,


en las que existe un orden. Por ejemplo:
Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...
Medallas de una prueba deportiva: oro, plata, bronce.

b) Variables Cuantitativas.

Una variable cuantitativa es la que se expresa mediante un número, por


tanto, con élla, se pueden realizar operaciones aritméticas. Existen dos
tipos:

- Variable Discreta.

Una variable discreta es aquella que toma valores numéricos enteros,


es decir no admite valores intermedios entre dos valores específicos.
Por ejemplo: La cantidad de personas beneficiarias, número de
artefactos eléctricos que utiliza.

- Variable Continua.

Una variable continua es aquella que puede tomar valores numéricos


reales comprendidos entre dos números. Por ejemplo: la talla de los
estudiantes, el peso de los trabajadores, la temperatura corporal de los
pacientes.

1.5. DISEÑO DE CUESTIONARIOS.

En la actualidad, la parte más conocida de la Estadística es aquella que se


dedica a los sondeos de opinión. A nadie le sorprende que en los medios de
comunicación: prensa, radio, televisión, medios digitales, etc.; nos informen
o nos pregunten sobre cualquier tema de actualidad.

En muchas ocasiones, nos informan solo del resultado de la encuesta y muy


pocas veces nos informan exactamente de cuál fue la pregunta que se les
hizo a los encuestados.

A nadie le extraña que habitualmente podamos hablar de encuestas


"manipuladas" solamente con la redacción de la pregunta o el diseño de
cuestionarios.

En esta sección trataremos sobre el diseño de cuestionarios y daremos


algunas consideraciones a tener en cuenta si se pretende que la información
que obtengamos sea significativa.

11
Mg. RUBÉN GALEAS ARANA

Para ilustrar cómo la redacción de la pregunta puede influir en el resultado


del estudio (aún sin que haya interés por manipular los resultados)
reproduzco aquí un artículo del profesor Josu Mezo2, en la que con un
ejemplo muy acertado plantea una reflexión sobre el tema.

Con dicho artículo queremos reflejar que la realización de encuestas, que es


un buen recurso para muchos estudios e investigaciones, no se debe
abordar sin una buena fundamentación teórica que los respalde.

El primer paso que debemos dar es la confección del cuestionario y para


ello debemos tener en cuenta que cada una de las preguntas que
compondrán nuestro cuestionario deben ser confiables y válidas.

Una pregunta es confiable si significa lo mismo para todos los que la van a
responder. Por ejemplo, una pregunta no confiable sería ¿Ve usted mucho
la televisión?. Para un encuestado, dos horas diarias puede ser poco y para
otro mucho. Una buena pregunta sería: ¿Cuántas horas al día ve usted la
televisión? y se plantearían las siguientes posibilidades: menos de dos
horas, de dos a cinco horas, de seis a nueve horas, más de nueve horas.

Una pregunta es válida si estimula información exacta y relevante. La


redacción en las preguntas influye mucho en la validez del cuestionario.
Debemos tener en cuenta que una pregunta puede ser válida para un grupo
de personas pero no para otro.

En conclusión, la construcción de un cuestionario es un proceso laborioso


en el que hay que tener muy claro qué se quiere medir con él, a quién va
dirigido y para qué se va a utilizar.

2
Cada vez doy alguna sesión en un curso sobre encuestas, pongo mucho énfasis en que la redacción de las preguntas
es muy importante, e influye mucho en las respuestas, por lo que siempre, cualquier lector que observa los resultados
de una encuesta, debería pedir que le dejen ver las preguntas (y las respuestas) ofrecidas a los encuestados. Por
supuesto, deberían también hacerlo los periodistas antes de informar sobre la tal encuesta.
Pero cuando digo este tipo de cosas mucha gente tiende a pensar que estoy hablando de las encuestas "manipuladas",
es decir, de encuestas en las que la empresa o el investigador responsable han intentado, deliberadamente, formular las
preguntas y las respuestas para empujar en la dirección de una respuesta favorable a sus puntos de vista, o sus
propuestas políticas. Y obviamente, este tipo de encuestas existen y con un poco de diligencia, no son difíciles de
detectar.
Pero la cosa es mucho más complicada. Es que incluso queriendo hacer una encuesta correcta y neutral, la elección
de unas palabras u otras al preguntar puede dar lugar a resultados muy diferentes. Hoy he encontrado en un artículo de
George Lakoff en el Huffington Post un ejemplo fantástico, de libro, que apareció en febrero en el NYTimes. El periódico
hizo una encuesta para saber la opinión de los americanos sobre el tema de los gays en el ejército, pero decidió hacer
un pequeño experimento con las palabras. A la mitad de la muestra les preguntaron si estaban a favor de que "los
homosexuales" pudieran servir en el ejército; y a la otra mitad les preguntaron si estaban a favor de que "los gays y
lesbianas" pudieran hacerlo (redacción exacta de las preguntas y los resultados).
Resultado: el 70% está a favor de permitir que sirvan en el ejército los gays y lesbianas, pero sólo el 59% está a favor de
que lo hagan los homosexuales. Es más, preguntados por su reacción en caso de que hagan pública su orientación
sexual, seguía estando a favor de su reclutamiento un 58% de los preguntados por gays y lesbianas, pero sólo un 44%
de los preguntados por los homosexuales (según cuenta Lakoff, la diferencia en este último punto es particularmente alta
entre los demócratas, que responden a favor, en el primer caso, el 79% de las veces, pero sólo el 43% en el segundo
caso).
Ya ven: diferencias de 11, 14 puntos, o de 36 puntos (para los demócratas) según se pregunte, en distintas preguntas,
por "gays y lesbianas" o por "homosexuales". Cualquiera de las dos formulaciones podría haber sido escogida por un
investigador perfectamente neutral y deseoso de hacer un estudio serio y objetivo, sin agendas oscuras ni planes turbios.
Pero los resultados difieren, a veces espectacularmente.
Entonces, ¿Cuál de las dos preguntas representa la "verdadera" opinión de los norteamericanos? Ninguna en particular.
Cada una, si la encuesta está bien hecha, representa la respuesta de los americanos a una pregunta distinta. Lo que nos
recuerda una vez más lo exquisitos que hay que ser al tomar siempre con la debida moderación los datos de las
encuestas.

12
Mg. RUBÉN GALEAS ARANA

En la confección de un cuestionario podemos distinguir las siguientes etapas:


a) Determinar la finalidad del cuestionario: qué se va a medir, a quién se va
a medir y para qué se va a medir.
b) Especificar las características del cuestionario: cuál va a ser su contenido,
qué tipo de preguntas se van a incluir, cuántas preguntas.
c) Redacción de las preguntas: selección y tipo de preguntas.
d) Revisión del cuestionario por un grupo de expertos.
e) Confección de la prueba piloto: instrucciones de administración, forma de
presentación y formato de registro de las respuestas.
f) Aplicación de la prueba.
g) Corrección de la prueba.

En los siguientes apartados analizaremos alguna de estas etapas.

a) Finalidad.

- Variable objeto de estudio.

Como paso previo a la construcción de un cuestionario es necesario


tener muy claro cuál va a ser su objetivo; es decir, qué es lo que se quiere
medir, a quién se quiere medir y para qué se quiere medir.

Aunque pueda ser trivial el señalar la importancia de lo que se quiere


medir, si la variable de estudio es física, como la altura o la edad, al ser
variables que están muy claras para todo el mundo y todos saben cómo
medirlas esto podría ser cierto. Pero al medir otras variables de tipo
psicológico o de opinión, que no son observables directamente,
debemos definir claramente la variable de estudio.

Por ejemplo, si queremos realizar una prueba para medir la agresividad


en los adolescentes, en primer lugar debemos definir qué entendemos
por “agresividad”.

Si la variable está bien definida será más fácil determinar cuáles son las
conductas representativas del mismo y, a partir de ellas, especificar el
contenido del cuestionario.

- Población a la que va dirigido

Otro aspecto importante en la redacción y confección de cuestionario es


delimitar la población a la que va dirigido. Esto influirá en el contenido de
las preguntas, la redacción de éstas, la longitud del cuestionario y las
instrucciones de aplicación.

Por ejemplo, si queremos diseñar una encuesta para conocer la opinión


sobre el uso de la energía nuclear, el cuestionario será distinto si se va
a aplicar a la población en general o si se le va a aplicar a expertos en
energías. También los cuestionarios será distintos si se aplica a
población adulta o infantil, etc..

13
Mg. RUBÉN GALEAS ARANA

- Utilización prevista

Además de tener en cuenta a qué población irá dirigido nuestro


cuestionario debemos tener en cuenta qué utilización se le va a dar; es
decir, para qué se va a utilizar; qué decisiones se van a tomar a partir de
los resultados que obtengamos.

Por ejemplo, no es lo mismo construir un cuestionario para detectar niños


superdotados que para detectar niños deficientes. En el primer caso las
preguntas deberían ser difíciles en su mayoría, para que solo puedan ser
contestadas por los niños más inteligentes; mientras que en el segundo
caso, las preguntas deben ser fáciles, de tal manera que solo respondan
de manera incorrectas aquellos niños que presenten dificultades.

b) Características.

Es importante especificar las características del cuestionario: cuál va a ser


su contenido, qué tipo de preguntas se van a incluir, cuántas preguntas,
qué características psicométricas o sociales incluiremos de acuerdo a la
población o muestra que se va a encuestar.

c) Redacción.

La realidad es que si queremos realizar un buen estudio estadístico a


partir de un cuestionario, la redacción es importante, si la redacción de las
preguntas no es la correcta, los resultados que obtendremos en nuestro
estudio tampoco lo serán.

A continuación, y aunque en muchos casos puedan resultar obvias,


daremos unas recomendaciones generales sobre la redacción de las
preguntas:

- Evitar la ambigüedad de los enunciados.

El significado de las palabras empleadas debe estar claro para todos los
sujetos. Los enunciados cortos y directos contribuirán a evitar la
ambigüedad ya que la inclusión de palabras innecesarias complican la
lectura y pueden provocar confusión en los sujetos. Debemos evitar el
uso de palabras como muchas veces, a menudo, frecuentemente, ...

Ejemplos de preguntas mal formuladas serían:


¿Ves mucho tiempo la televisión?
Para algunas personas dos horas diarias puede resultar mucho y para
otras poco.
¿Te consideras una persona religiosa?
Términos como la religiosidad pueden ser interpretados por los sujetos
de forma distinta.

- Evitar enunciados que provoquen respuestas sesgadas.

14
Mg. RUBÉN GALEAS ARANA

Se deben evitar los enunciados que puedan provocar una respuesta


sesgada, entendiendo por ésta aquella que es más probable que elijan
los sujetos independientemente de su opinión. Por ejemplo un enunciado
que implique que los sujetos deban admitir conductas o actitudes que no
son consideradas socialmente como aceptables pueden provocar que
los sujetos no manifiesten su verdadera opinión y elijan la respuesta
socialmente aceptable.

Una pregunta de este tipo puede ser:

¿Considera que las mujeres deben tener los mismos derechos que los
hombres?

A esta pregunta la mayoría de las personas se inclinarían por la


respuesta SI, que es la socialmente aceptada aunque pudieran tener
opiniones distintas.

- Expresar una única idea en el enunciado.

Es necesario evitar las dobles preguntas en un mismo enunciado ya que


provocaría confusión en los sujetos y no sabrían qué respuesta emitir.

Por ejemplo, un enunciado con doble pregunta sería del tipo:

Está usted a favor de reducir el consumo de alcohol entre los jóvenes y


aumentar los impuestos de las bebidas alcohólicas.

En este enunciado se incluyen dos conceptos diferentes que puede


provocar que haya personas que estén a favor de un enunciado y en
contra del otro que le impediría saber qué opción elegir.

Ante situaciones de este tipo se deben incluir dos preguntas por


separado.

- Evitar las dobles negaciones en los enunciados.

En general, es recomendable no usar enunciados negativos y sobre todo


evitar el uso de las dobles negaciones ya que provocan que los sujetos
no sepan cuál es la respuesta que representa su opinión.

Por ejemplo:
Le parece a usted imposible que la llegada del hombre a la luna nunca
haya ocurrido.

- Recomendaciones para preguntas de elección.

Además de las recomendaciones anteriores hay una serie de normas


específicas para cada tipo de pregunta.

15
Mg. RUBÉN GALEAS ARANA

* Dos alternativas: Verdadero-Falso

1. Estar absolutamente convencido de que la pregunta es sin duda


verdadera o falsa.
2. No utilizar frases que sean universalmente verdaderas o falsas.
3. Evitar en el enunciado palabras que puedan, de alguna manera,
inducir la respuesta correcta a los sujetos aunque no la conozcan.
4. Situar a lo largo del test, de forma aleatoria, las preguntas de
enunciado correcto, evitando crear patrones de respuestas.

* Elección múltiple

1. Asegurarse de que el enunciado formula el problema con claridad.


2. Incluir la mayor parte del texto en el enunciado para evitar
repeticiones innecesarias en las opciones de respuesta.
3. Incluir las distintas opciones de respuesta al final del enunciado.
4. Evitar opciones de respuesta como Ninguna de las anteriores,
Todas las anteriores.
5. Sólo debe haber una respuesta correcta en las alternativas, salvo
que se indique lo contrario.
6. Tratar de que todas las alternativas de respuesta tengan una
longitud aproximadamente igual y una construcción gramatical
parecida.
7. La ubicación de las respuestas debe ser aleatoria.
8. Hacer que todas las alternativas le parezcan igual de atractivas a
una persona no informada del problema al que alude el enunciado.
9. Asegurarse de que cada alternativa concuerda gramaticalmente
con el enunciado de la pregunta. Si el enunciado está en singular,
cada alternativa debe estar en singular.

d) Revisión.

Una vez redactadas las preguntas, y antes de dar forma a la prueba piloto,
es conveniente que éstas sean revisadas por un grupo de personas que
no hayan intervenido en su elaboración, con el fin de que puedan revisar,
no sólo si se adaptan al contenido, sino la claridad de la redacción, si se
han cumplido las normas generales y específicas en función del tipo de
formato, etc..

Lo ideal es que la redacción pudiera ser hecha por personas expertas,


tanto en los contenidos como en el estilo de redacción; si esto no es
posible, siempre se podrá contar con alguna persona más o menos
calificada. Si tampoco esto fuera posible, lo mejor es hacer una segunda
lectura de la prueba al cabo de un tiempo, esta lectura ofrecerá una nueva
visión del trabajo y permitirá corregir los posibles errores.

Finalmente y lo más importante es que usted mismo responda el


cuestionario y compruebe que las preguntas están bien redactadas y de
fácil aplicación.

16
Mg. RUBÉN GALEAS ARANA

UNIDAD II

ORGANIZACIÓN Y PRESENTACIÓN
DE DATOS ESTADÍSTICOS
2.1. TABLAS DE INFORMACIÓN ESTADÍSTICA.

Las tablas de información estadística comprenden a resúmenes y


consolidaciones de informaciones dispersas que se efectúan con fines de
realizar una presentación ordenada y clasificada de los resultados, de modo
que se facilite sus análisis e interpretación para la toma de decisiones. Las
tablas de información resultan de identificar las necesidades de información,
por tanto es necesario que para su elaboración se consideren las
características que puedan cumplir su objetivo de informar. La estructura
general de una tabla de información estadística es la siguiente:

a) Número de Tabla.

Es un código de identificación que permite citarlo cuantas veces sea


necesario a lo largo de un informe.

b) Título.

Corresponde a una descripción resumida de la información estadística de


la tabla. En general una tabla debería responder a las siguientes
preguntas:
- Qué: ¿Qué información contiene la tabla?
- Dónde: ¿A dónde corresponde la información tabulada?
- Cómo: ¿Cómo está arreglada o clasificada la información?
- Cuándo: ¿A qué periodo de tiempo corresponde la información?

c) Encabezamiento

Es la descripción resumida sobre el contenido de las filas y columnas que


contiene la tabla de información estadística.

d) Cuerpo de la Tabla.

Comprende le contenido numérico de la información de la tabla.

e) Notas de pie o llamadas.

Siempre es recomendable anotar las aclaraciones sobre términos, siglas,


abreviaturas usadas. También es recomendable precisar las unidades de
medida y equivalencias que se están utilizando para expresar cantidades.

17
Mg. RUBÉN GALEAS ARANA

f) Fuente.

Se debe anotar el nombre de la institución o de la investigación de dónde


se han tomado los datos individuales.

g) Elaboración.

Se debe anotar el nombre de la unidad o entidad responsable de la


formulación y presentación del tabulado de la información estadística.

h) Fecha.

Se debe registrar la fecha en que se realizó el cuadro para dejar


constancia del evento y poder actualizar de ser necesario.

Todas las características de la estructura de una tabla de información


estadística se puede observar en la Tabla 2.2.

A continuación desarrollaremos un ejemplo de aplicación. Según


información preliminar de la Oficina de Atención al Cliente de la Empresa
ELECTROCENTRO S.A., en el mes de noviembre de 2012, la empresa
atendió a los clientes que se muestran en la Tabla 2.1.

Tabla 2.1. Información preliminar de atención al cliente en las oficinas de


ELECTROCENTRO S.A.
Cliente Distrito Sexo
1 El Tambo (*) Masculino
2 Huancayo Femenino
3 Huancayo Masculino
4 Chilca Masculino
5 Huancayo (*) Masculino
6 El Tambo Femenino
7 El Tambo Masculino
8 Chilca Femenino
9 Huancayo (*) Femenino
10 Huancayo Masculino
11 Huancayo Masculino
12 Chilca Masculino
13 El Tambo Masculino
14 El Tambo Masculino
15 Huancayo Masculino
(*) El cliente no acreditó su residencia.

A continuación elaboraremos una tabla de resultados que consolide la


información dispersa en esta base de datos construida por la Oficina de
Atención al Cliente de la Empresa ELECTROCENTRO S.A.

Tabla 2.2. Número de clientes que fueron atendidos en la empresa ELECTROCENTRO


S.A. según residencia y sexo del cliente en el mes de noviembre de 2012.
Distrito de Sexo
Clientes atendidos
Residencia Masculino Femenino

18
Mg. RUBÉN GALEAS ARANA

Cantidad % Cantidad % Cantidad %


(fi) (ni) (fi) (ni) (fi) (ni)
Huancayo 7 46,67 5 45,46 2 50,00
El Tambo 5 33,33 4 36,36 1 25,00
Chilca 3 20,00 2 18,18 1 25,00
15 100,00 11 100,00 4 100,00
Fuente: Oficina de atención al cliente de ELECTROCENTRO S.A.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-05

2.1.1. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS.

La tabla de distribución de frecuencias o tabla de frecuencias es una


ordenación en forma de tabla de los datos estadísticos, asignando a
cada dato su frecuencia correspondiente; este tipo de tabla de
frecuencias se utiliza con variables cualitativas y variables discretas,
pero en poblaciones pequeñas. Para ello existen algunos conceptos
que desarrollaremos a continuación.

- Frecuencia absoluta (fi).

La frecuencia absoluta es el número de veces que aparece un


determinado valor en un estudio estadístico. La suma de las
frecuencias absolutas es igual al número total de datos, que se
representa por N, matemáticamente se expresa así:
𝑛

∑ 𝑓𝑖 = 𝑓1 + 𝑓2 + 𝑓3 + ⋯ + 𝑓𝑛 = N
𝑖=0

La columna de las frecuencias absolutas (fi), nos indica el número


de veces que ocurre un mismo dato

- Frecuencia relativa (ni).

La frecuencia relativa es el cociente entre la frecuencia absoluta (fi)


de un determinado valor y el número total de datos (N).
Matemáticamente se expresa así:

𝑓𝑖
𝑛𝑖 =
𝑁
La frecuencia relativa se puede expresar en fracciones, en números
decimales o en porcentajes. En una tabla de distribución de
frecuencias la suma de todas las frecuencias relativas debe dar
como resultado 1,00 o 100%.
𝑛

∑ 𝑛𝑖 = 1
𝑖=0

19
Mg. RUBÉN GALEAS ARANA

Otro dato importante, es que la frecuencia relativa nos ayuda a


identificar tendencias, es decir, el número cuya frecuencia relativa se
acerque más a la unidad, es el que tiene mayores probabilidades de
salir elegido.

- Frecuencia acumulada (Fi).

La frecuencia acumulada es la suma de las frecuencias absolutas


(fi) de todos los valores inferiores o iguales al valor considerado.

- Frecuencia relativa acumulada (Ni).

La frecuencia relativa acumulada es el cociente entre la frecuencia


acumulada (Fi) de un determinado valor y el número total de datos
(N); también se puede expresar en tanto por ciento.
Matemáticamente se expresa así:

𝐹𝑖
𝑁𝑖 =
𝑁
A continuación desarrollaremos un ejemplo de aplicación: Según
información preliminar de la empresa de vigilancia de la Empresa
ELECTROCENTRO S.A., la edad de las personas que ingresaron a
las instalaciones de Parque Industrial, el día 06 de diciembre de 2012
son las siguientes:

32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30;
30; 29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.

Tabla 2.3. Edad de las personas que ingresaron a las instalaciones del Parque
Industrial de la empresa ELECTROCENTRO S.A. según empresa de vigilancia el
día 06 de diciembre de 2012.
xi Recuento fi Fi ni Ni
27 I 1 1 0,032 0,032
28 II 2 3 0,065 0,097
29 IIII I 6 9 0,194 0,290
30 IIII II 7 16 0,226 0,516
31 IIII III 8 24 0,258 0,774
32 III 3 27 0,097 0,871
33 III 3 30 0,097 0,968
34 I 1 31 0,032 1
31 1
Fuente: Empresa de vigilancia.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-07

A partir de la Tabla 2.3 se puede responder a algunas preguntas.

- ¿Qué porcentaje de los visitantes tienen 30 años?


Rpta. 22,6%

- ¿Qué porcentaje de los visitantes son menores a 30 años?

20
Mg. RUBÉN GALEAS ARANA

Rpta. 29,0%

2.1.2. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS


AGRUPADOS.

La tabla de distribución de frecuencias para datos agrupados


básicamente se utiliza con variables cualitativas y variables
discretas, pero con muestras de poblaciones altas, también se
utiliza con variables continuas. Para ello existen algunos conceptos
que desarrollaremos a continuación.

- Amplitud de datos, rango o recorrido (R).

La amplitud de datos es la diferencia entre el máximo valor de los


datos (xmax) y el mínimo valor de los datos (xmin), matemáticamente
se expresa así:

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

- Clase.

Los datos se agrupan en intervalos que tengan la misma amplitud


denominados clases. A cada clase se le asigna su frecuencia
correspondiente.

Los datos de la variable estadística se deben agrupar en intervalos


de clase contiguos y elegidos convenientemente para no perder
mucha información. Si existen pocos intervalos se pierde gran
información que nos impediría apreciar la distribución de la variable;
si existen demasiados intervalos, se pierde la utilidad de usar
agrupaciones por intervalos.

Existen distintos criterios para establecer el número adecuado de


intervalos; según Norcliffe el número de intervalos debe ser
aproximadamente la raíz cuadrada del número de datos (por ejemplo
para 100 datos, deberíamos tener aproximadamente 10 intervalos).
Aunque la mayoría de investigadores, normalmente indican que
debe ser entre 5 y 15, de tal manera que en cada clase se tengan,
al menos, 5 observaciones. Otros indican que la cantidad de
intervalos (k) se puede obtener con la siguiente relación.

2𝑘 ≥ 𝑁 Siendo N, el número total de datos.

De cualquier forma, el investigador los acomodará a las condiciones


específicas del problema estadístico objeto de estudio (se tomarán
tantos intervalos como sean necesarios para recubrir todo el
recorrido de la variable).

21
Mg. RUBÉN GALEAS ARANA

- Límites de clase.

La clase está representada por un intervalo, el extremo inferior de un


intervalo debe coincidir con el superior del intervalo anterior.
Normalmente se utiliza el criterio de que los intervalos sean cerrados
por la izquierda y abiertos por la derecha [a;b), de tal manera que el
dato cuyo valor es “a” está incluido en el intervalo mas no el dato “b”.

Entonces cada clase está delimitada por el límite inferior de la


clase (a) y el límite superior de la clase (b).

- Amplitud de clase o rango de clase (r).

La amplitud de los intervalos debe ser la misma y su valor se calcula


con la siguiente relación.

𝑅
𝑟=
𝑘
Si el valor de “r” no es entero, se debe redondear al entero más
próximo, luego con dicho valor se puede construir los intervalos de
clase respectivo, para ello generalmente se empieza con el valor de
xmin y se suma el valor de “r” y se va avanzando hasta llegar al valor
xmax.

Finalmente, la amplitud de la clase es la diferencia entre el límite


superior (b) e inferior (a) de cada clase, matemáticamente se
expresa así:

𝑟 =𝑏−𝑎

- Marca de clase (c)

La marca de clase es el punto medio de cada intervalo y es el valor


que representa a todo el intervalo para el cálculo de algunos
parámetros, matemáticamente se expresa así:

𝑎+𝑏
𝑐=
2
A continuación desarrollaremos un ejemplo de aplicación: Según
información preliminar de la oficina de Recursos Humanos de la
Empresa ELECTROCENTRO S.A., la edad de los 48 trabajadores
se muestra en la Tabla 2.4:

22
Mg. RUBÉN GALEAS ARANA

Tabla 2.4. Edad de los trabajadores de ELECTROCENTRO S.A.


29 61 33 50 54 26
62 45 55 33 22 50
33 39 29 38 55 62
30 37 56 60 21 49
56 40 22 34 50 58
43 58 30 29 46 61
27 32 41 28 39 51
41 24 31 49 58 59

A continuación calcularemos los datos necesarios para la


construcción de la tabla de frecuencias.

- Número de trabajadores: N=48


- Determinamos la edad mínima: xmin=21
- Determinamos la edad máxima: xmax=62
- Determinamos la amplitud de datos: R=62-21=41
- Determinamos la cantidad de intervalos
2𝑘 ≥ 48 Entonces k=6.

- Determinamos la amplitud de clase:

𝑅 41
𝑟= = = 6,83 redondeando sería r = 7
𝑘 6

- Determinamos los seis (k=6) intervalos empezando del menor


sumando siete a cada intervalo.

1 [21;28)
2 [28;35)
3 [35;42)
4 [42;49)
5 [49;56)
6 [56;63)

- Finalmente construimos la tabla de frecuencias


correspondiente que se muestra en la Tabla 2.5.

Tabla 2.5. Edad de los trabajadores de la empresa ELECTROCENTRO S.A.


según Oficina de Recursos Humanos hasta el día 30 de noviembre de 2012.
Clase Recuento ci fi Fi ni Ni
[21;28) IIII II 24,5 7 7 14,583 14,583
[28;35) IIII IIII I 31,5 11 18 22,917 37,500
[35;42) IIII II 38,5 7 25 14,583 52,083
[42;49) IIII 45,5 5 30 10,417 62,500
[49;56) IIII IIII 52,5 9 39 18,750 81,250
[56;63) IIII IIII 59,5 9 48 18,750 100,000
48 100,000
Fuente: Oficina de Recursos Humanos.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-07

23
Mg. RUBÉN GALEAS ARANA

2.2. GRÁFICOS ESTADÍSTICOS.

Después de construir la tabla de frecuencias, es muy útil la representación


gráfica del mismo, esto nos permite, a simple vista, obtener información
relevante de la población o muestra que estamos estudiando.

Según el tipo de dato que estamos estudiando o analizando, se debe usar


una de las siguientes representaciones gráficas que se muestran en la Tabla
2.6.

Tabla 2.6. Tipos de gráficos según el tipo de dato que estamos estudiando
GRÁFICA TIPO DE DATOS
Diagrama de barras Cualitativos y cuantitativos discretos
Histograma Cuantitativos continuos
Polígono de frecuencias Cuantitativos discretos y continuos
Diagrama de sectores Cualitativos y cuantitativos

2.2.1. DIAGRAMA DE BARRAS.

Un diagrama de barras se utiliza para presentar datos cualitativos


o datos cuantitativos de tipo discreto.

Se representan sobre unos ejes de coordenadas, en el eje de


abscisas (eje x) se colocan los valores de la variable, y sobre el eje de
ordenadas (eje y) las frecuencias absolutas o relativas o acumuladas.

Los datos se representan mediante barras de una altura proporcional


a la frecuencia, y pueden con barras verticales u horizontales. En la
Figura 2.1 se observa el diagrama de barras verticales del ejemplo
que se muestra en la Tabla 2.5.

Figura 2.1. Diagrama de barras vertical sobre la edad de los trabajadores de


ELECTROCENTRO S.A.

24
Mg. RUBÉN GALEAS ARANA

En la Figura 2.2 se observa el diagrama de barras horizontales del


ejemplo que se muestra en la Tabla 2.5.

Figura 2.2. Diagrama de barras horizontal sobre la edad de los trabajadores de


ELECTROCENTRO S.A.

Un ejemplo para variables cualitativas, sería considerando el mismo


ejemplo de los trabajadores de ELECTROCENTRO S.A. donde a
cada uno de ellos se les hizo un análisis de sangre y se obtuvo el
diagrama de frecuencias que se muestra en la Tabla 2.7.

Tabla 2.7. Grupo sanguíneo de los trabajadores de la empresa


ELECTROCENTRO S.A. según Oficina de Recursos Humanos
hasta el día 30 de noviembre de 2012.
fi Fi ni Ni
A 16 16 33,3 33,3
B 12 28 25,0 58,3
AB 5 33 10,4 68,7
O 15 48 31,3 100,0
Total 48 100
Fuente: Oficina de Recursos Humanos.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-07

Su diagrama de barras correspondiente se muestra en la Figura 2.3.

25
Mg. RUBÉN GALEAS ARANA

Figura 2.3. Diagrama de barras sobre el grupo sanguíneo que poseen los
trabajadores de ELECTROCENTRO S.A.

2.2.2. HISTOGRAMAS.

Es un resumen gráfico del conjunto de valores producidos por


las variaciones de una determinada característica,
representando la frecuencia con que se presentan distintas
categorías dentro de dicho conjunto.

Los histogramas, fundamentalmente se utilizan para variables


cuantitativas continuas, con un gran número de datos, y que se han
agrupado en clases.

En el eje de las abscisas (eje x), se construyen unos rectángulos que


tienen por base la amplitud del intervalo, y por altura, la frecuencia
absoluta de cada intervalo, tal como se muestra en la Figura 2.4.

En la Tabla 2.8 se muestra la tabla de distribución de frecuencias de


la variable peso (variable cuantitativa continua) de una muestra de
941 alumnos de una institución educativa.

26
Mg. RUBÉN GALEAS ARANA

Tabla 2.8 Distribución de frecuencias del peso de 941 estudiantes.


Frecuencia
Frecuencia
Frecuencia relativa
Relativa
Intervalo de clase Absoluta acumulada
(%)
(fi) (%)
(ni)
(Ni)
40,21 a 45,149 33 3,51 3,51
45,149 a 50,088 83 8,82 12,33
50,088 a 55,027 127 13,50 25,83
55,027 a 59,966 176 18,70 44,53
59,966 a 64,905 159 16,90 61,43
64,905 a 69,844 113 12,01 73,44
69,844 a 74,783 117 12,43 85,87
74,783 a 79,722 84 8,93 94,70
79,722 a 84,661 31 3,29 98,09
84,661 a 89,600 18 1,91 100
Total 941 100

En la Figura 2.4 se observa un histograma graficado según los datos


de la Tabla 2.8.

Encima de los histogramas también se puede graficar la curva normal


que sirve para dar algunas interpretaciones al gráfico, tal como se
muestra en la Figura 2.5.

Figura 2.4. Histograma

27
Mg. RUBÉN GALEAS ARANA

Figura 2.5. Histograma con curva normal de distribución

2.2.3. POLÍGONO DE FRECUENCIAS.

Un polígono de frecuencias se forma uniendo, mediante segmentos,


los extremos superiores de las barras de los diagramas de barras o
de los histogramas.

En la Figura 2.6 se muestra el polígono de frecuencias de los datos


de la Tabla 2.8.

2.2.4. DIAGRAMA DE SECTORES.

El diagrama de sectores, también conocidos como diagrama de torta


o diagrama circular, puede aplicarse a cualquier tipo de variables
(cualitativas y cuantitativas), aunque es el más adecuado en variables
cualitativas. Este diagrama es un círculo dividido en sectores cuya
amplitud es proporcional a las frecuencias de cada valor.

Los datos se representan en un círculo, de modo que el ángulo de


cada sector (αi) se obtiene multiplicando la frecuencia absoluta (fi) por
360º y dividiendo entre el número total de datos (N), tal como se
muestra en la siguiente fórmula:

𝑓𝑖 . 3600
𝛼𝑖 = = 𝑛𝑖 . 3600
𝑁

28
Mg. RUBÉN GALEAS ARANA

El diagrama circular se construye con la ayuda de un transportador de


ángulos.

En la Tabla 2.9 se muestra la tabla de distribución de frecuencias de


la variable deporte (variable cualitativa) de una muestra de 941
alumnos del ejemplo anterior.

Figura 2.6. Polígono de frecuencias

Tabla 2.9 Distribución de frecuencias del deporte que practican los 941
estudiantes.
Frecuencia
Frecuencia
Deporte Frecuencia relativa Frecuencia
Relativa
que Absoluta acumulada Absoluta
(%)
practican (fi) (%) (fi)
(ni)
(Ni)
Fútbol 407 43,3 43,3 43,3
Vóley 222 23,6 23,5 66,8
Básquet 183 19,4 19,5 86,3
Otro
129 13,7 13,7 100
deporte
Total 941 100 100

En la Figura 2.7 se observa el diagrama circular graficado según los


datos de la Tabla 2.9.

29
Mg. RUBÉN GALEAS ARANA

Figura 2.7. Diagrama circular

30
Mg. RUBÉN GALEAS ARANA

UNIDAD III

PARÁMETROS Y ESTADÍGRAFOS
ESTADÍSTICOS
Los PARÁMETROS ESTADÍSTICOS sirven para identificar a la población
mientras que los ESTADÍGRAFOS ESTADÍSTICOS sirven para identificar a la
muestra tal como se muestra en la Figura 3.1.

Figura 3.1. Concepto de Parámetros y Estadígrafos

Normalmente, los PARÁMETROS no se conocen, pero se pueden estimar a


partir de los ESTADÍGRAFOS, con un mínimo de error.

Un parámetro o estadígrafo, es un número que se obtiene a partir de los datos


de una distribución estadística. Estos parámetros se calculan para variables
cuantitativas.

Los parámetros o estadígrafos estadísticos sirven para sintetizar la información


dada por una tabla estadística o por un gráfico estadístico.

Existen tres tipos parámetros y estadígrafos estadísticos:

3.1. MEDIDAS DE TENDENCIA CENTRAL.

Para explicar y entender mejor las medidas de tendencia central,


explicaremos la nota que obtuvo un determinado alumno, el cual fue 35
puntos en una prueba de matemática. Este puntaje, por sí mismo tiene muy
poco significado a menos que podamos conocer el total de puntos que
obtiene una persona promedio al participar en esa prueba, saber cuál es la

31
Mg. RUBÉN GALEAS ARANA

calificación menor y mayor que se obtiene, y cuán variadas son esas


calificaciones. Es decir, para que una calificación tenga significado hay que
contar con elementos de referencia generalmente relacionados con ciertos
criterios estadísticos.

Las medidas de tendencia central (media, mediana y moda) sirven


como puntos de referencia para interpretar los resultados que se
obtienen en un determinado caso de estudio.

Volviendo a nuestro ejemplo, digamos que la calificación promedio en la


prueba que hizo el alumno fue de 20 puntos. Con este dato podemos decir
que la calificación del alumno se ubica notablemente sobre el promedio. Pero
si la calificación promedio fue de 65 puntos, entonces la conclusión sería
muy diferente, debido a que se ubicaría muy por debajo del promedio de la
clase.

En resumen, el propósito de las medidas de tendencia central es:


- Mostrar en qué lugar se ubica el individuo promedio o típica del grupo.
- Sirve como un método para comparar o interpretar cualquier valor de una
variable en relación con el valor central o típico.
- Sirve como un método para comparar el valor o puntaje obtenido por un
mismo individuo en dos diferentes ocasiones.
- Sirve como un método para comparar los resultados medios obtenidos por
dos o más grupos de individuos.

De las tres medidas de tendencia central, la media es reconocida como la


mejor y más útil. Sin embargo, cuando en una distribución se presentan
casos cuyos valores son muy bajos o muy altos respecto al resto del grupo,
es recomendable utilizar la mediana o la moda. (Porque dadas las
características de la media, esta es afectada por los valores extremos,
entonces muchas veces se puede optar por no tomar en cuenta tales valores
extremos y excluirlos de la observación).

Las medidas de tendencia central más comunes son:

̅).
a) Media, Media Aritmética o Promedio (µ o 𝒙

Seguramente has escuchado en los medios de información, noticias como


las siguientes:
- El promedio de las edades de la selección de fútbol es 18 años.
- La temperatura promedio del día es 20 °C.
- El sueldo promedio de los trabajadores de una empresa está por arriba
del salario mínimo.

Esta información nos hace reflexionar y deducir algún conocimiento:


- En el primer ejemplo se deduce que la selección es un equipo de
jóvenes.
- En el segundo ejemplo, que el clima fue agradable.
- En el tercero, que la empresa paga muy bien a sus trabajadores.

32
Mg. RUBÉN GALEAS ARANA

Sin embargo nuestra deducción no es siempre correcta, analicemos el


último ejemplo:

La información que nos proporcionó la empresa es que tiene 16


trabajadores y su planilla diaria es de S/. 800,00, entonces el promedio
del salario diario es de S/. 50,00. Este resultado nos hace pensar que los
sueldos mensuales de los trabajadores es de S/.1500,00; el cual es el
doble del sueldo mínimo; entonces podemos deducir que la remuneración
de los trabajadores es buena, sin embargo no es así, porque en el
promedio está incluido el sueldo del gerente que gana S/. 350,00 y esta
cantidad disfraza el sueldo real de cada uno; porque si el gerente percibe
S/. 350,00 diarios, entonces ¿Cuál es el sueldo real de los otros
trabajadores?, sería en promedio S/. 30,00.

Como habrás notado en este ejemplo, conocer los promedios no es


suficiente, es necesario saber cómo están dispersos los datos.

- Cálculo de la media para datos no agrupados.

Este caso se utiliza cuando la cantidad de datos (N) es pequeño y se


calcula con la siguiente fórmula:

𝑁
1 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑁
𝜇 = ∑ 𝑥𝑖 =
𝑁 𝑁
𝑖=1

Como ejemplo tomaremos las edades de 16 amigos que se muestran a


continuación:

62; 50; 64; 52; 60; 55; 58; 52; 55; 53; 53; 65; 57; 52; 62 y 60 años

Entonces la media es:

62+50+64+52+60+55+58+52+55+53+53+65+57+52+62+60
𝜇=
16

910
𝜇= = 56,875 (𝑣𝑎𝑙𝑜𝑟 𝑒𝑥𝑎𝑐𝑡𝑜)
16

- Cálculo de la media para datos agrupados.

Este caso se utiliza cuando la cantidad de datos (N) es grande y se


puede construir una tabla de frecuencia, su valor se calcula con la
siguiente fórmula:

𝑁
1
𝜇 = ∑(𝑥𝑖 . 𝑓𝑖 )
𝑁
𝑖=1

33
Mg. RUBÉN GALEAS ARANA

Para este caso desarrollaremos el mismo ejemplo de la Tabla 2.3, sobre


la edad de las personas que ingresaron a las instalaciones de Parque
Industrial de ELECTROCENTRO S.A., el día 06 de diciembre de 2012,
que son las siguientes:

32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30; 30;
29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.

El resumen de los datos se muestra en la Tabla 3.1

Tabla 3.1. Datos resumen de los datos mostrados


xi fi xi.fi
27 1 27
28 2 56
29 6 174
30 7 210
31 8 248
32 3 96
33 3 99
34 1 34
Total 31 944

Luego la media sería:

944
𝜇= = 30,451 (𝑣𝑎𝑙𝑜𝑟 𝑒𝑥𝑎𝑐𝑡𝑜)
31

Otro caso de datos agrupados es el de una distribución de frecuencias


donde tiene intervalos de clase y por tanto marca de clase (c i), en este
caso la media se calcula con la siguiente fórmula:

𝑁
1
𝜇 = ∑(𝑐𝑖 . 𝑓𝑖 )
𝑁
𝑖=1

Para una aplicación de este caso tomaremos el ejemplo de la Tabla 2.5


y que se muestran en la Tabla 3.2.

34
Mg. RUBÉN GALEAS ARANA

Tabla 3.2. Datos resumen de los datos de la Tabla 2.5


Clase Recuento ci fi ci.fi
[21;28) IIII II 24,5 7 171,5
[28;35) IIII IIII I 31,5 11 346,5
[35;42) IIII II 38,5 7 269,5
[42;49) IIII 45,5 5 227,5
[49;56) IIII IIII 52,5 9 472,5
[56;63) IIII IIII 59,5 9 535,5
48 2023

Luego la media sería:

2023
𝜇= = 42,1458 (𝑣𝑎𝑙𝑜𝑟 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑜)
48

b) Mediana (Me).

La mediana, es el valor del término medio que divide una distribución de


datos ordenados en dos partes iguales, es decir, el 50% de los datos se
ubican sobre la mediana o hacia los puntajes altos y el 50% restante hacia
los puntajes bajos; es decir, la mediana nos indica que la mitad de los
datos se encuentran por debajo de este valor y la otra mitad por encima
del mismo.

Tiene la ventaja de no estar afectada por las observaciones extremas, ya


que no depende de los valores que toma la variable, sino del orden de las
mismas, por ello, para el cálculo de la mediana interesa que los valores
estén ordenados de menor a mayor.

- Cálculo de la mediana para datos no agrupados.

En este caso se presenta dos casos:


* Cuando el número de datos (N) es impar se aplica la siguiente
relación:

𝑀𝑒 = 𝑋𝑁+1
2

Desarrollaremos un ejemplo, para calcular la mediana de las siguientes


calificaciones del curso de Estadística evaluadas sobre veinte: 20; 16;
12; 08; 18; 14; 20; 18 y 12.

Primero ordenaremos los datos de menor a mayor, tal como se muestra


en la Tabla 3.3.

Tabla 3.3. Datos ordenados de menor a mayor


x1 x2 x3 x4 x5 x6 x7 x8 x9
08 12 12 14 16 18 18 20 20

35
Mg. RUBÉN GALEAS ARANA

𝑀𝑒 = 𝑋𝑁+1 = 𝑋9+1 = 𝑋5
2 2

Entonces la mediana sería el elemento x5, es decir:

Me=x5=16

Lo que significa que la mitad de los datos están por debajo de 16 y la


otra mitad está por encima de 16.

* Cuando el número de datos (N) es par se aplica la siguiente


relación:

𝑋𝑁 + 𝑋𝑁+1
2 2
𝑀𝑒 =
2

Ahora desarrollaremos un ejemplo, para calcular la mediana de las


siguientes calificaciones del curso de Matemática evaluadas sobre
veinte: 20; 16; 18; 12; 08; 16; 18; 14; 20 y 18.

Primero ordenaremos los datos de menor a mayor, tal como se muestra


en la Tabla 3.4.

Tabla 3.4. Datos ordenados de menor a mayor


x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
08 12 14 16 16 18 18 18 20 20

𝑋𝑁 + 𝑋𝑁+1 𝑋10 + 𝑋10+1 𝑋5 + 𝑋6 16 + 18


2 2 2 2
𝑀𝑒 = = = =
2 2 2 2

𝑀𝑒 = 17

Lo que significa que la mitad de los datos están por debajo de 17 y la


otra mitad está por encima de 17.

- Cálculo de la mediana para datos agrupados.

Este caso se utiliza cuando la cantidad de datos (N) es grande y se


puede construir una tabla de frecuencia, su valor se calcula con la
siguiente fórmula:

𝑁+1
𝑀𝑒 = (solo la posición de la mediana)
2

Para este caso desarrollaremos el mismo ejemplo de la Tabla 2.3, sobre


la edad de las personas que ingresaron a las instalaciones de Parque
Industrial de ELECTROCENTRO S.A., el día 06 de diciembre de 2012,
que son las siguientes:

36
Mg. RUBÉN GALEAS ARANA

32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30;
30; 29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.

El resumen de los datos se muestra en la Tabla 3.5

Tabla 3.5. Datos resumen de los datos mostrados


xi Recuento fi Fi
27 I 1 1
28 II 2 3
29 IIII I 6 9
30 IIII II 7 16 décimo sexto
31 IIII III 8 24 décimo séptimo
32 III 3 27
33 III 3 30
34 I 1 31
31

Entonces, calculamos la posición de la mediana:

𝑁 + 1 31 + 1
𝑀𝑒 = = = 16 (𝑣𝑎𝑙𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑠𝑖𝑐𝑖ó𝑛)
2 2
Como la posición de la mediana es 16, su valor es el promedio de los
datos décimo sexto y décimo séptimo. Para observar con claridad cuáles
son los datos décimo y undécimo se aconseja calcular la frecuencia
acumulada (Fi), entonces observando la Tabla 3.5 los valores son 30 y
31, finalmente la mediana sería:

30 + 31
𝑀𝑒 = = 30,5
2
Lo que significa que la mitad de los datos están por debajo de 30,5 y la
otra mitad está por encima de 30,5.

Otro caso de datos agrupados es el de una distribución de frecuencias


donde tiene intervalos de clase y por tanto marca de clase (ci), en este
caso la mediana se calcula con la siguiente fórmula:

𝑁
− 𝐹𝑀𝑒−1
𝑀𝑒 = 𝐿𝑖𝑀𝑒 + 𝑟 ( 2 )
𝑓𝑀𝑒

Donde:
Limd Límite inferior del intervalo de clase de la posición de la
mediana.
r Rango de clase.
N Número total de datos.
FMe-1 Frecuencia acumulada del intervalo de clase que antecede al
intervalo de la mediana.
fMe Frecuencia absoluta del intervalo de clase de la mediana.

37
Mg. RUBÉN GALEAS ARANA

Para una aplicación de este caso tomaremos el ejemplo de la Tabla 2.5


y que se muestran en la Tabla 3.6.

Tabla 3.6. Datos resumen de los datos de la Tabla 2.5


Clase Recuento ci fi Fi
[21;28) IIII II 24,5 7 7
[28;35) IIII IIII I 31,5 11 18
[35;42) IIII II 38,5 7 25
[42;49) IIII 45,5 5 30
[49;56) IIII IIII 52,5 9 39
[56;63) IIII IIII 59,5 9 48
48

Primero calculamos el valor de N/2=48/2=24 (valor de la posición).

Como la posición de la mediana es 24, su valor se encuentra en el


intervalo de clase [35;42), entonces observando la Tabla 3.6 se puede
calcular la mediana:

𝑁
− 𝐹𝑀𝑒 24 − 18
𝑀𝑒 = 𝐿𝑖𝑀𝑒 + 𝑟 ( 2 ) = 35 + 7 ( )
𝑓𝑀𝑒 7

𝑀𝑒 = 41

Lo que significa que la mitad de los datos están por debajo de 41 y la


otra mitad está por encima de 41.

c) Moda (Mo).

La moda, nos indica el valor que más veces se repite dentro de los datos;
es decir, si tenemos la serie ordenada (2; 2; 3; 3; 3; 3; 5 y 7), el valor que
más veces se repite es el número 3, dicho valor sería la moda de los datos.
Es posible que en algunas ocasiones se presente dos valores con la
mayor frecuencia, lo cual se denomina Bimodal (2; 2; 2; 3; 3; 3; 5 y 7) o
en otros casos más de dos valores, lo que se conoce como multimodal
(1; 2; 2; 3; 3; 5; 5 y 7) y cuando ningún dato tiene una frecuencia mayor,
se dice que la muestra no tiene moda o es amodal (2; 2; 3; 3; 5 y 5).

Cuando los datos son agrupados, la moda se calcula con la siguiente


fórmula:

𝑓𝑖𝑀𝑜 − 𝑓𝑖𝑀𝑜−1
𝑀𝑜 = 𝐿𝑖𝑀𝑜 + 𝑟 [ ]
(𝑓𝑖𝑀𝑜 − 𝑓𝑖𝑀𝑜−1 ) + (𝑓𝑖𝑀𝑜 − 𝑓𝑖𝑀𝑜+1 )

Donde:

38
Mg. RUBÉN GALEAS ARANA

LiMo Límite inferior de la clase modal.


r Rango de clase.
FiMo Frecuencia absoluta de la clase modal.
FiMo-1 Frecuencia absoluta anterior a la clase modal.
FiMo+1 Frecuencia absoluta posterior de la clase modal.

Para una aplicación de este caso tomaremos el ejemplo de la Tabla 2.5


y que se muestran en la Tabla 3.7.

Tabla 3.7. Datos resumen de los datos de la Tabla 2.5


Clase Recuento ci fi
[21;28) IIII II 24,5 7
[28;35) IIII IIII I 31,5 11
[35;42) IIII II 38,5 7
[42;49) IIII 45,5 5
[49;56) IIII IIII 52,5 9
[56;63) IIII IIII 59,5 9
48

Primero se ubica el mayor valor de la columna de la frecuencia absoluta,


que en este caso sería el valor de 11 (valor de la posición), entonces
observando la Tabla 3.7 se puede calcular la moda:

11 − 7
𝑀𝑜 = 28 + 7 [ ]
(11 − 7) + (11 − 7)

𝑀𝑜 = 31,5

En conclusión las Medidas de tendencia central, nos permiten identificar los


valores más representativos de los datos, de acuerdo a la manera como se
tienden a concentrar. La Media nos indica el promedio de los datos; es decir,
nos informa el valor que obtendría cada uno de los individuos si se
distribuyeran los valores en partes iguales. La Mediana por el contrario nos
informa el valor que separa los datos en dos partes iguales, cada una de las
cuales cuenta con el 50% de los datos. Por último la Moda nos indica el valor
que más se repite dentro de los datos. Otro dato importante es que la
media y la mediana solo se pueden hallar para variables cuantitativas,
mientras que la moda se puede hallar para variables cuantitativas y
cualitativas.

3.2. MEDIDAS DE POSICIÓN.

Las medidas de posición dividen un conjunto de datos en grupos con el


mismo número de individuos. Las medidas de posición son: Cuartiles,
Deciles y Percentiles.

39
Mg. RUBÉN GALEAS ARANA

Los cuartiles son medidas estadísticas de posición que tienen la propiedad


de dividir la serie estadística en cuatro grupos de números iguales de
términos. De manera similar los deciles dividen a la serie en diez partes
iguales y los percentiles dividen a los términos de la serie en cien grupos
iguales.

Así como la mediana divide la serie o distribución en dos partes iguales,


existen 3 cuartiles, 9 deciles y 99 percentiles que dividen en cuatro, diez y
cien partes iguales a la distribución.

De estas tres últimas medidas de posición los cuartiles son las de mayor
aplicación. Se emplean generalmente en la determinación de estratos o
grupos correspondientes a fenómenos socio-económicos, monetarios o
teóricos.

Los tres cuartiles suelen designarse con los símbolos:


Q1 = primer cuartil (representa al 25% de los datos).
Q2 = segundo cuartil (representa al 50% de los datos).
Q3 = tercer cuartil (representa al 75% de los datos)

De igual manera los deciles se designan por D1, D2, D3,…, D9 y los
percentiles con P1, P2, P3,…, P99. Los deciles y percentiles se usan con
gran cantidad de datos.

En cualquiera de los tres casos, la medida de posición seleccionada toma el


valor de uno de los términos o del punto medio entre dos términos.

Para el cálculo de estas tres medidas de posición es necesario arreglar los


términos en forma creciente o decreciente. Así, en el caso de un
ordenamiento simple, el siguiente paso es determinar el "número de orden"
de los cuartiles, deciles o porcentiles, el cual indicará el lugar que ocupen en
la distribución.

En lo que se refiere a los cuartiles, la posición de cualquier cuartil se puede


calcular con la siguiente relación:

𝑘 . (𝑁 + 1)
𝑋𝑄𝑘 = 𝑑𝑜𝑛𝑑𝑒 𝑘 = 1; 2; 3
4

Por ejemplo si los datos son: 4; 5; 3; 8; 10; 1; 9 (número impar de datos)

- El lugar o posición que ocupa cada cuartil sería:

1 . (7 + 1)
𝑋𝑄1 = =2
4
2 . (7 + 1)
𝑋𝑄2 = =4
4
3 . (7 + 1)
𝑋𝑄3 = =6
4

40
Mg. RUBÉN GALEAS ARANA

- Los datos ordenados y los cuartiles se muestran en la Tabla 3.8.

Tabla 3.8. Datos ordenados de menor a mayor


x1 x2 x3 x4 x5 x6 x7
1 3 4 5 8 9 10

Q1 Q2 Q3

En este caso podemos decir que aproximadamente el 25% de los datos


son menores o iguales a 3, de igual manera diremos que el 50% de los
datos son menores o iguales a 5 y por último diremos que el 75% de los
datos son menores o iguales a 9.

Ahora desarrollaremos un ejemplo, para calcular los cuartiles de las


siguientes calificaciones del curso de Matemática evaluadas sobre veinte:
20; 16; 18; 12; 08; 16; 18; 14; 20 y 18 (número par de datos).

- El lugar que ocupa cada cuartil sería:

1 . (10 + 1)
𝑋𝑄1 = = 2,75 (𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 2° 𝑦 3°)
4
2 . (10 + 1)
𝑋𝑄2 = = 5,50 (𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 5° 𝑦 6°)
4

3 . (10 + 1)
𝑋𝑄3 = = 8,25 (𝑒𝑛𝑡𝑟𝑒 𝑒𝑙 8° 𝑦 9°)
4

- Los datos ordenados y los cuartiles se muestran en la Tabla 3.9.

Tabla 3.9. Datos ordenados de menor a mayor


x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
08 12 14 16 16 18 18 18 20 20

Q1=13 Q2=17 Q3=19

En este caso podemos decir que aproximadamente el 25% de los datos


son menores o iguales a 13, de igual manera diremos que el 50% de los
datos son menores o iguales a 17 y por último diremos que el 75% de los
datos son menores o iguales a 19.

Observando los dos ejemplos anteriores, se puede concluir que hallando


la posición del primer cuartil (Q1) los otros dos se pueden hallar
multiplicando por dos y por tres respectivamente, matemáticamente sería:

𝑋𝑄2 = 2 . 𝑋𝑄1

𝑋𝑄3 = 3 . 𝑋𝑄1

Cuando los datos son agrupados, los cuartiles se calcula con la siguiente
fórmula:

41
Mg. RUBÉN GALEAS ARANA

𝑋𝑄𝑘 − 𝐹𝑖𝑄−1
𝑄𝑘 = 𝐿𝑖𝑄 + 𝑟 [ ]
𝑓𝑖𝑄

Donde:

LiQ Límite inferior de la clase del cuartil correspondiente.


r Rango de clase.
fiQ Frecuencia absoluta de la clase del cuartil correspondiente.
FiQ-1 Frecuencia absoluta anterior a la clase del cuartil
correspondiente.
XQk Valor de la posición calculada para el cuartil correspondiente.

Para una aplicación de este caso tomaremos el ejemplo de la Tabla 2.5


y que se muestran en la Tabla 3.10.

Tabla 3.10. Datos resumen de los datos de la Tabla 2.5


Clase Recuento ci fi Fi
[21;28) IIII II 24,5 7 7
[28;35) IIII IIII I 31,5 11 18 Para Q1
[35;42) IIII II 38,5 7 25 Para Q2
[42;49) IIII 45,5 5 30
[49;56) IIII IIII 52,5 9 39
[56;63) IIII IIII 59,5 9 48
48

Calcularemos la posición del cuartil (Q1)

𝑘 . (𝑁 + 1) 1 . (48 + 1)
𝑋𝑄1 = = = 12,25
4 4
12,5 − 7
𝑄1 = 28 + 7 [ ] = 31,5
11

Calcularemos la posición del cuartil (Q2)

𝑘 . (𝑁 + 1) 2 . (48 + 1)
𝑋𝑄2 = = = 24,5
4 4
24,5 − 18
𝑄2 = 35 + 7 [ ] = 41,5
7

3.3. MEDIDAS DE DISPERSIÓN.

Así como las medidas de tendencia central nos permiten identificar el punto
central de los datos, las Medidas de dispersión nos permiten reconocer qué
tanto se dispersan los datos alrededor del punto central; es decir, nos indican
cuanto se desvían las observaciones alrededor de su promedio aritmético

42
Mg. RUBÉN GALEAS ARANA

(Media). Este tipo de medidas son parámetros informativos que nos permiten
conocer como los valores de los datos se reparten a través de eje X,
mediante un valor numérico que representa el promedio de dispersión de los
datos. Las medidas de dispersión más importantes y las más utilizadas son
la Varianza y la Desviación estándar (o Desviación Típica).

Las medidas de dispersión nos informan sobre cuanto se alejan del centro
los valores de la distribución. Las medidas de dispersión son:

a) Rango o recorrido (R).

El rango es la diferencia entre el mayor y el menor de los datos de una


distribución estadística.

𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

b) Desviación Media (𝐷𝜇 ).

La desviación media es la media aritmética de los valores absolutos de


las desviaciones respecto a la media.

La desviación media (𝐷𝑋̅ ) matemáticamente se calcula con la siguiente


relación:
𝑁
|𝑋1 − 𝜇| + |𝑋2 − 𝜇| + ⋯ + |𝑋𝑁 − 𝜇| 1
𝐷𝜇 = = . ∑|𝑋𝑖 − 𝜇|
𝑁 𝑁
𝑖=1

Un ejemplo de aplicación haremos para datos no agrupados. Se desea


calcular la desviación media de los siguientes datos:

9; 3; 8; 8; 9; 8; 9; 18.

Entonces calculamos la media:

9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
𝜇= =9
8
|9 − 9| + |3 − 9| + |8 − 9| + |8 − 9| + |9 − 9| + |8 − 9| + |9 − 9| + |18 − 9|
𝐷𝜇 =
8

𝐷𝜇 = 2,25

La desviación media indica la forma de cómo se separan los datos de la


media.

Si los datos vienen agrupados en una tabla de frecuencias, la expresión


de la desviación media es:

43
Mg. RUBÉN GALEAS ARANA

𝑁
|𝑥1 − 𝜇|. 𝑓1 + |𝑥2 − 𝜇|. 𝑓2 + ⋯ + |𝑥𝑁 − 𝜇|. 𝑓𝑁 1
𝐷𝜇 = = . ∑|𝑥𝑖 − 𝜇|. 𝑓𝑖
𝑁 𝑁
𝑖=1

Como ejemplo de aplicación, calcularemos la desviación media de la


distribución que se muestra en la Tabla 3.11.

Tabla 3.11. Tabla de distribución de ejemplo


xi fi xi·. fi |xi - µ| |xi - µ| . fi

[10; 15) 12,5 3 37,5 9,286 27,858

[15; 20) 17,5 5 87,5 4,286 21,430

[20; 25) 22,5 7 157,5 0,714 4,998

[25; 30) 27,5 4 110,0 5,714 22,856

[30, 35) 32,5 2 65,0 10,714 21,428

21 457,5 98,570

Primero calculamos la media.

457,5
𝜇= = 21,786
21

Ahora calculamos la desviación media.

98,570
𝐷𝜇 = = 4,69
21

c) Varianza (2 o S2).

La varianza es la media aritmética del cuadrado de las desviaciones


respecto a la media de una distribución estadística.

Esta medida nos permite identificar la diferencia promedio que hay entre
cada uno de los valores respecto a su punto central (Media ). Este
promedio es calculado, elevando cada una de las diferencias al cuadrado
(Con el fin de eliminar los signos negativos), y calculando su promedio o
media; es decir, sumado todos los cuadrados de las diferencias de cada
valor respecto a la media y dividiendo este resultado por el número de
observaciones que se tengan. Si la varianza es calculada a una población
(Total de componentes de un conjunto), la ecuación sería:
𝑁
2
(𝑥1 − 𝜇)2 + (𝑥2 − 𝜇)2 + ⋯ + (𝑥𝑁 − 𝜇)2 1
𝜎 = 𝜎 = . ∑(𝑥𝑖 − 𝜇)2
2
𝑁 𝑁
𝑖=1

Cuando se trata de una muestra se calcula con:

44
Mg. RUBÉN GALEAS ARANA

𝑛
2
(𝑥1 − 𝑥)2 + (𝑥2 − 𝑥)2 + ⋯ + (𝑥𝑛 − 𝑥)2 2
1
𝑆 = 𝑆 = . ∑(𝑥𝑖 − 𝑥)2
𝑛−1 𝑛−1
𝑖=1

Un ejemplo de aplicación haremos para datos no agrupados. Se desea


calcular la desviación media de los siguientes datos:

9; 3; 8; 8; 9; 8; 9; 18

Primero calculamos la media:

9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
𝜇= =9
8

Ahora calculamos la varianza:

(9 − 9)2 + (3 − 9)2 + (8 − 9)2 + (8 − 9)2 + (9 − 9)2 + (8 − 9)2 + (9 − 9)2 + (18 − 9)2


𝜎2 = = 15
8

La varianza para datos agrupados se calcula con la siguiente relación:

(𝑥1 − 𝜇)2 . 𝑓1 + (𝑥2 − 𝜇)2 . 𝑓2 + ⋯ + (𝑥𝑁 − 𝜇)2 . 𝑓𝑁


𝜎2 =
𝑁

𝑁
1
𝜎 = . ∑(𝑥𝑖 − 𝜇)2 . 𝑓𝑖
2
𝑁
𝑖=1

Como ejemplo de aplicación, calcularemos la varianza de la distribución


que se muestra en la Tabla 3.12.

Tabla 3.12. Tabla de distribución de ejemplo


xi fi xi . fi (xi-µ)2.fi

[10, 20) 15 1 15 802,778

[20, 30) 25 8 200 2688,889

[30,40) 35 10 350 694,444

[40, 50) 45 9 405 25,000

[50, 60 55 8 440 1088,889

[60,70) 65 4 260 1877,778

[70, 80) 75 2 150 2005,556

N 42 1 820 9183,333

45
Mg. RUBÉN GALEAS ARANA

Primero calculamos la media:

1820
𝜇= = 43,33
42

Ahora calculamos la varianza:

9183,333
𝜎2 = = 218,65
42
d) Desviación Típica o Desviación Estándar ( o S).

Esta medida nos permite determinar el promedio aritmético de fluctuación


de los datos respecto a su punto central o media. La desviación estándar
nos da como resultado un valor numérico que representa el promedio de
diferencia que hay entre los datos y la media. Para calcular la desviación
estándar basta con hallar la raíz cuadrada de la varianza, por lo tanto su
ecuación sería:

𝜎 = √𝜎 2
Entonces la desviación típica del ejemplo de la Tabla 3.12, sería:

𝜎 = √218,65 = 14,79

Para comprender mejor, el concepto de las medidas de distribución vamos


a suponer que el gerente de una empresa de alimentos desea saber que
tanto varían los pesos de los empaques (en gramos), de uno de sus
productos; por lo que opta por seleccionar al azar cinco unidades de ellos
para pesarlos. Los productos tienen los siguientes pesos (490, 500, 510,
515 y 520) gramos respectivamente.

Entonces su media es:

490 + 500 + 510 + 515 + 520 2535


𝑥= = = 507
5 5

La varianza sería:

𝑆 2 = 145

Por lo tanto la desviación estándar sería:

𝑆 = 12,04

Con lo que concluiríamos que el peso promedio de los empaques es de


507 gramos, con una tendencia a variar por debajo o por encima de dicho
peso en 12 gramos. Esta información le permite al gerente determinar

46
Mg. RUBÉN GALEAS ARANA

cuánto es el promedio de pérdidas causado por el exceso de peso en los


empaques y le da las bases para tomar los correctivos necesarios en el
proceso de empacado.

3.4. MEDIDAS DE DISTRIBUCIÓN.

Las principales medidas de distribución son: la asimetría y la curtosis.

a) Asimetría

Esta medida nos permite identificar si los datos se distribuyen de forma


uniforme alrededor del punto central (Media aritmética). La asimetría
presenta tres estados diferentes (ver Figura 3.1), cada uno de los cuales
define de forma concisa como están distribuidos los datos respecto al eje
de asimetría. Se dice que la asimetría es positiva cuando la mayoría de
los datos se encuentran por encima del valor de la media aritmética, la
curva es Simétrica cuando se distribuyen aproximadamente la misma
cantidad de valores en ambos lados de la media y se conoce como
asimetría negativa cuando la mayor cantidad de datos se aglomeran en
los valores menores que la media.

Figura 3.1. Representación de los tres estados de la simetría

El Coeficiente de asimetría, se representa mediante la ecuación


matemática,

1 𝑛
∑ (𝑥 − 𝑥 )3 . 𝑛𝑖
𝑔1 = 𝑛 𝑖=1 𝑖
3⁄
1 2
[ ∑𝑁 (𝑥 − 𝑥 )2 . 𝑛𝑖 ]
𝑛 𝑖=1 𝑖

Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno


de los valores, ( ) la media de la muestra y (ni) la frecuencia de cada
valor. Los resultados de esta ecuación se interpretan:

 (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe


aproximadamente la misma cantidad de valores a los dos lados de la

47
Mg. RUBÉN GALEAS ARANA

media. Este valor es difícil de conseguir por lo que se tiende a tomar


los valores que son cercanos ya sean positivos o negativos (± 0,5).
 (g1 > 0): La curva es asimétricamente positiva por lo que los valores
se tienden a reunir más en la parte izquierda que en la derecha de la
media.
 (g1 < 0): La curva es asimétricamente negativa por lo que los valores
se tienden a reunir más en la parte derecha de la media.

Desde luego entre mayor sea el número (Positivo o Negativo), mayor será
la distancia que separa la aglomeración de los valores con respecto a la
media.

b) Curtosis.

Esta medida determina el grado de concentración que presentan los


valores en la región central de la distribución. Por medio del Coeficiente
de Curtosis, podemos identificar si existe una gran concentración de
valores (Leptocúrtica), una concentración normal (Mesocúrtica) o una baja
concentración (Platicúrtica), tal como se muestra en la Figura 3.2.

Figura 3.2. Representación del coeficiente de la curtosis

Para calcular el coeficiente de Curtosis se utiliza la ecuación:

1 𝑛
∑𝑖=1(𝑥𝑖 − 𝑥 )4 . 𝑛𝑖
𝑔2 = 𝑛 2−3
1 𝑁
[ ∑𝑖=1(𝑥𝑖 − 𝑥 )2 . 𝑛𝑖 ]
𝑛

Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los


valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los
resultados de esta fórmula se interpretan:

 (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es


bastante difícil encontrar un coeficiente de Curtosis de cero (0), por lo
que se suelen aceptar los valores cercanos (± 0.5 aprox.).
 (g2 > 0) la distribución es Leptocúrtica
 (g2 < 0) la distribución es Platicúrtica

Cuando la distribución de los datos cuenta con un coeficiente de asimetría


(g1 = ±0,5) y un coeficiente de Curtosis de (g2 = ±0,5), se le denomina

48
Mg. RUBÉN GALEAS ARANA

Curva Normal. Este criterio es de suma importancia ya que para la


mayoría de los procedimientos de la estadística de inferencia se requiere
que los datos se distribuyan normalmente.

La principal ventaja de la distribución normal radica en el supuesto que el


95% de los valores se encuentra dentro de una distancia de dos
desviaciones estándar de la media aritmética (Ver Figura 3.3); es decir, si
tomamos la media y le sumamos dos veces la desviación y después le
restamos a la media dos desviaciones, el 95% de los casos se encontraría
dentro del rango que compongan estos valores.

Figura 3.3. Representación de la curva normal

Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña
introducción a las principales medidas de Estadística Descriptiva; es de
gran importancia que los estudiantes profundicen en estos temas ya que
la principal dificultad del software SPSS radica en el desconocimiento de
los conceptos estadísticos.

49
Mg. RUBÉN GALEAS ARANA

UNIDAD IV

PROBABILIDADES
La estadística inferencial o deductiva, es necesaria cuando queremos sacar
algunas conclusiones generales sobre una población (N) a partir de datos
obtenidos de una muestra (n). La estadística inferencial hace que esa
afirmación de la parte al todo se haga de una manera “controlada”, es decir se
haga con cierto grado de confiabilidad. Aunque nunca nos ofrecerá seguridad
absoluta, sí nos ofrecerá una respuesta probabilística. Es importante resaltar
que la estadística no decide; sólo ofrece elementos para que el investigador
decida. En muchos casos, distintas personas perciben diferentes conclusiones
de los mismos datos.

Como se dijo al inicio del curso, la estadística inferencial, para poder inferir sobre
algún fenómeno de estudio, toma en cuenta la aleatoriedad de las
observaciones, apoyándose en el cálculo de probabilidades, por ello a
continuación desarrollaremos algunos conceptos sobre probabilidades.

En muchas ocasiones nos hemos encontrado con algunas afirmaciones tales


como:

- Debido a muchos programas sociales que está implementando el gobierno, es


probable que el próximo año levante su popularidad.
- Debido a la agresiva campaña publicitaria que está emprendiendo la empresa
“Pacífico S.A.”, es probable que aumente su nivel de ventas.
- En vista que el gobierno no aumenta el sueldo a los docentes, es probable que
el próximo año hagan huelgas.

En estos ejemplos se puede apreciar que el resultado final no se conoce con


exactitud, por lo tanto existe una incertidumbre; entonces “vivimos en un mundo
donde no tenemos la capacidad de predecir el futuro con completa seguridad o
certeza, por ello es necesario tener suficiente poder para manejar la
incertidumbre, el cual nos obliga a estudiar y usar la teoría de la probabilidad”,
para el cual a continuación desarrollaremos algunos conceptos básicos de la
teoría de probabilidades.

4.1. CONCEPOS BÁSICOS.

a) Experimento.

Es toda acción sobre la cual vamos a realizar una medición u observación.

b) Experimento aleatorio.

Es toda actividad cuyos resultados no se pueden predecir con certeza.


Por ejemplo lanzar una monera al aire, lanzar un dado.

50
Mg. RUBÉN GALEAS ARANA

c) Espacio Muestral (S).

Es el conjunto de todos los resultados posibles que se pueden obtener al


realizar un experimento aleatorio. Por ejemplo:
- Si el experimento aleatorio es lanzar una moneda al aire, entonces el
espacio muestral será: S={cara, sello}.
- Si el experimento aleatorio es lanzar un dado, entonces el espacio
muestral será: S={1, 2; 3; 4; 5; 6}

d) Suceso o Evento (E).

Es cada resultado de un experimento aleatorio definido por el


investigador. También se dice que es un subconjunto del espacio
muestral. Por ejemplo, si el experimento aleatorio es lanzar un dado y
definimos el evento de que salga un número par, entonces E={2; 4; 6}.
Existen varios tipos de eventos:

- Evento seguro. Es cuando el evento de todas maneras tiene que ocurrir.


Por ejemplo, si el experimento aleatorio es lanzar un dado y definimos el
evento de que salga un número nenor o igual a seis. En este caso la
probabilidad de que ocurra el evento es uno.

- Evento imposible. Es cuando el evento no puede ocurrir. Por ejemplo,


si el experimento aleatorio es lanzar un dado y definimos el evento de
que salga un número siete. En este caso la probabilidad de que ocurra
el evento es cero.

- Eventos complementarios. El complemento de un evento E se denota


̅ (se lee no E) y significa que el evento E no ocurre.
por E

- Evento mutuamente excluyentes. Dos o más eventos son mutuamente


excluyentes, si la ocurrencia de uno de ellos, anula la ocurrencia de los
demás.

- Eventos independientes. Dos eventos son independientes si ambos no


tienen ninguna relación entre sí, es decir, si la ocurrencia de uno de ellos,
no influye en la ocurrencia del otro.

4.2. CONCEPO DE PROBABILIDAD.

Las probabilidades constituyen una rama de las matemáticas que se ocupa


de medir o determinar cuantitativamente la posibilidad de que un suceso o
experimento produzca un determinado resultado. La probabilidad de un
resultado se representa con un número entre 0 y 1, ambos inclusive. La
probabilidad 0 indica que el resultado no ocurrirá nunca, y la probabilidad 1
que el resultado ocurrirá siempre. Matemáticamente se calcula con la
siguiente relación:

51
Mg. RUBÉN GALEAS ARANA

𝑛(𝐸)
𝑃(𝐸) =
𝑛(𝑆)

Donde:
P(E) probabilidad de que ocurra el evento E.
n(E) número de elementos del evento E.
n(S) número de elementos del espacio muestral de E.

Por ejemplo, si el experimento aleatorio es lanzar un dado y definimos el


evento de que salga el número 5, entonces la probabilidad sería:

Espacio muestral S={1, 2; 3; 4; 5; 6} n(S)=6


Evento E={5}. n(E)=1

Luego:
𝑛(𝐸) 1
𝑃(𝐸) = = = 0,166667
𝑛(𝑆) 6

Otro ejemplo, si el experimento aleatorio es lanzar un dado y definimos el


evento de que salga un número par, entonces la probabilidad sería:

Espacio muestral S={1, 2; 3; 4; 5; 6} n(S)=6


Evento E={2; 4; 6}. n(E)=3

Luego:
𝑛(𝐸) 3
𝑃(𝐸) = = = 0,5
𝑛(𝑆) 6

Desde el punto de vista de la estadística se puede calcular la probabilidad


de que ocurra un evento, esta probabilidad está representada por la
frecuencia relativa de un diagrama de frecuencias, tomando el ejemplo de la
Tabla 2.5, sobre la edad de los trabajadores de la empresa
ELECTROCENTRO S.A., cuyos datos se muestran en la Tabla 4.1, entonces
observando la Tabla 4.1 se puede afirmar que si preguntamos por su edad
a un trabajador seleccionado al azar, la probabilidad de que tenga de 35 a
42 años es 0,14583 y la probabilidad de que sea menor de 49 años es 0,625.

Tabla 4.1. Edad de los trabajadores de la empresa ELECTROCENTRO S.A.


Clase ci ni Ni
Recuento fi Fi
(probabilidad) (probabilidad)
[21;28) IIII II 24,5 7 7 0,14583 0,14583
[28;35) IIII IIII I 31,5 11 18 0,22917 0,37500
[35;42) IIII II 38,5 7 25 0,14583 0,52083
[42;49) IIII 45,5 5 30 0,10417 0,62500
[49;56) IIII IIII 52,5 9 39 0,18750 0,81250
[56;63) IIII IIII 59,5 9 48 0,18750 1,0
48 1,0

52
Mg. RUBÉN GALEAS ARANA

4.3. AXIOMAS DE LA PROBABILIDAD DE EVENTOS.

Aquí se introduce la formalidad matemática necesaria para fundamentar la


teoría de la probabilidad de eventos.

Sea S: Espacio muestral


E: Suceso o evento de S.
P(E): Probabilidad del evento E.

Entonces se cumple los siguientes axiomas:

a) P(E) ≥ 0.
b) P(S) = 1.
c) Si E1, E2 ∈ S ʌ E1 ∩ E2 = ∅, entonces P(E1 ∪ E2) = P(E1) + P(E2)

El primer axioma indica que la probabilidad de un evento no puede tener


valores negativos. El segundo axioma establece que la probabilidad de que
un resultado pertenezca al espacio muestral es uno, el cual es evidente pues
S contiene todos los resultados posibles. El tercer axioma establece que si
dos eventos son mutuamente excluyentes, entonces la probabilidad del
eventos que resulta de la unión de estos eventos, es la suma de las
probabilidades de ambos eventos.

4.4. PROPIEDADES DE LA PROBABILIDAD DE EVENTOS.

Si consideramos los eventos A y B de S (ver Figura 4.1), entonces se


cumplen las siguientes propiedades.

a) La probabilidad de un evento nulo es cero: P(∅)=0.

Ejemplo. Consideramos el experimento de lanzar un dado. La


probabilidad de obtener 7 es cero.

b) La probabilidad del evento complemento: P(Ec)=1 – P(E).

Ejemplo. Se sabe que la probabilidad de obtener un 2 al lanzar un dado


es 1/6. Por lo tanto, la probabilidad de que no se obtenga 2 será de
1 − 1/6 = 5/6

c) Si A ⊂ B , entonces P(A) ≤ P(B).

Ejemplo. En el experimento de lanzar un dado, sea A el suceso de


obtener un número mayor que 4 y B obtener un número mayor que 2,
entonces P(A)=2/6=1/3 y P(B)=4/6=2/3, por lo que P(A) ≤ P(B).

d) Para cualquier evento A se cumple que 0 ≤ P(A) ≤ 1.

e) Probabilidad de la diferencia de eventos: P(A – B) = P(A) – P(A ∩ B)

f) Regla aditiva de la probabilidad: P(A ∪ B) = P(A) + P(B) – P(A ∩ B).

53
Mg. RUBÉN GALEAS ARANA

Figura 4.1. Eventos A y B del espacio muestral S.

Ejemplo: Si la probabilidad que un estudiante apruebe el curso de análisis


matemático es 0,7; la probabilidad que apruebe el curso de estadística es
de 0,8 y la probabilidad que apruebe ambas materias es 0,6. Cuál es la
probabilidad que el estudiante apruebe al menos una de estas
asignaturas.

Solución:

Sean los eventos:


A Evento que el estudiante aprueba el curso de análisis matemático.
B Evento que el estudiante aprueba el curso de estadística.
A ∩ B Evento que el estudiante aprueba ambas asignaturas.

A y B no son eventos excluyentes, entonces:

P(A ∪ B) = P(A) + P(B) – P(A ∩ B) = 0,7 + 0,8 – 0,6 = 0,9.

Entonces la probabilidad que el estudiante apruebe al menos una de las


asignaturas es 0,9.

g) La regla aditiva de la probabilidad se puede extender a más eventos:

- Si A, B y C son eventos mutuamente excluyentes, se cumple que:

P(A ∪ B ∪ C) = P(A) + P(B) + P(C).

- Si A, B y C son eventos cualesquiera, se cumple que:

P(A ∪ B ∪ C) = P(A) + P(B) + P(C) + P(A ∩ B ∩ C) – P(A ∩ B) – P(A ∩ C) – P(B ∩ C)

4.5. PROBABILIDAD CONDICIONAL DE EVENTOS.

La probabilidad de un evento (A) puede depender o estar condicionada al


valor de probabilidad de otro evento (B), entonces la probabilidad condicional
del evento A dado el evento B se escribe P(A|B) y se calcula con:

54
Mg. RUBÉN GALEAS ARANA

P(A ∩ B)
P(A|B) = , P(B) ≠ 0
P(B)

En la Figura 4.2 se muestra una interpretación gráfica de la probabilidad


condicional de eventos.

Figura 4.2. Interpretación gráfica de la probabilidad condicional.

4.6. PROBABILIDAD DE EVENTOS INDEPENDIENTES.

Sean A y B eventos cualesquiera de un espacio muestral S. Se dice que A y


B son independientes si P(A|B)=P(A) y P(B|A)=P(B), es decir que el evento
A pertenece a un espacio muestral S’ y el evento B pertenece a un espacio
muestral S (ver Figura 4.2).

Cuando los eventos A y B son independientes se cumple que:

P(A ∩ B) = P(A) . P(B)

4.7. TEOREMA DE BAYES (TEOREMA DE LA PROBABILIDAD


ANTICONDICIONAL).

Sean B1, B2, … , BK eventos no nulos mutuamente excluyentes de S y que


constituyen una partición de S y sea A un evento no nulo cualquiera de S.

La siguiente fórmula se denomina Fórmula de Bayes y permite calcular la


probabilidad correspondiente a cada uno de los eventos que contribuyen a
la realización de otro evento, dado que se conoce la probabilidad de este
evento. Gráficamente el teorema de Bayes se muestra en la Figura 4.3.

55
Mg. RUBÉN GALEAS ARANA

Figura 4.3. Representación gráfica del Teorema de Bayes.

56
Mg. RUBÉN GALEAS ARANA

UNIDAD V

DISTRIBUCIÓN DE PROBABILIDAD
Para entender mejor las distribuciones de probabilidades que existen es
necesario conocer el concepto de variables aleatorias, estas variables son
aquellas que pueden asumir diferentes valores, como resultado de un
experimento aleatorio. Las variables aleatorias pueden ser discretas (por
ejemplo: número de hijos de una familia, número de panetones vendidos en la
semana, etc.) o continuas por ejemplo (peso de una persona, talla de una
persona expresada en cm, etc.).

Entonces la distribución de probabilidad, es un listado que nos especifica las


probabilidades de todos los resultados posibles de una variable aleatoria, al
llevar a cabo un experimento aleatorio. Las distribuciones de probabilidad más
importantes son: distribución Binomial, Poison y Normal

5.1. DISTRIBUCIONES DE VARIABLES DISCRETAS

a) DISTRIBUCIÓN BINOMIAL O DE BERNOULLI

Para la comprensión de la distribución binomial es necesario comprender


los siguientes conceptos:

- Notación factorial (n!).

Se utiliza para representar las operaciones de multiplicación secuencial.


Su desarrollo significa el producto ordenado de los números enteros
positivos, desde el que indica el signo factorial, hasta llegar a uno.
Matemáticamente sería

n!=(n).(n-1).(n-2)…(3).(2).(1)

Por ejemplo: 5!=5.4.3.2.1=120

Pero como propiedad de los factoriales podemos decir: 0!=1 y 1!=1.

- Expansión binomial.

Un binomio algebraico es la expresión formada por dos términos unidos


por los signos más o menos y elevados a un exponente, por ejemplo:

(x+y)2 = x2 + 2xy + y2
binomio expansión binomial

57
Mg. RUBÉN GALEAS ARANA

(a+b)3 = a3 + 3a2b + 3ab2 + b3


- Combinaciones.

Es un método que nos permite agrupar un conjunto de elementos en


diferentes formas sin considerar el orden de colocación, se calcula con
la siguiente relación:

n!
Ckn =
(n − k)!. k!
La distribución binomial se utiliza para calcular probabilidades de
variables discretas. Se aplica en aquellos experimentos aleatorios que
tienen solo dos resultados mutuamente excluyentes; en la Tabla 5.1 se
muestra unos ejemplos donde se puede aplicar la distribución binomial.

Tabla 5.1. Ejemplos de experimentos aleatorios con resultados dicotómicos.


EXPERIMENTO ALEATORIO RESULTADOS POSIBLES
1) Lanzamiento de una moneda al aire Cara o Sello
2) Nacimiento de un ser humano con respecto al sexo Varón o Mujer
3) Estado de salud de una persona Sano o Enfermo
4) Situación ocupacional de una persona Ocupado o Desocupado

Estos experimentos con resultados dicotómicos, se le conoce con el


nombre de ensayo de BERNOULLI, en honor al científico que lo
descubrió.

En este caso, al llevar a cabo un experimento aleatorio, siempre estamos


interesados en que suceda uno de los dos resultados; entonces, si el
resultado que esperamos sucede, decimos que hubo ÉXITO, si el
resultado que esperamos no sucede, decimos que hubo FRACASO. Estos
dos resultados, se designan en términos de probabilidad como
probabilidad de éxito (p) y probabilidad de fracaso (q) y se debe cumplir
que:

p+q=1

A través del siguiente ejemplo, explicaremos el cálculo de probabilidades


utilizando la distribución binomial. Supongamos que en la comunidad
de Azapampa hemos encontrado, a través de una muestra, que el 30%
de la población en edad activa, se encuentran desempleados y el 70%
tiene empleo.

En este experimento esperamos como éxito que la población tenga


empleo y como fracaso que la población esté desempleada. Los
resultados se muestran en la Tabla 5.2.

58
Mg. RUBÉN GALEAS ARANA

Tabla 5.2. Resultados de experimento en la Comunidad de Azapampa.


EVENTO RESULTADO PROBABILIDAD
Empleado Éxito p=0,70
Desempleado Fracaso q=0,30
p+q=1

Observando la Tabla 5.2 podemos decir que si seleccionamos una


persona de la comunidad de Azapampa al azar, la probabilidad de que se
encuentra con empleo es 0,7 o 70%.

Pero si seleccionamos dos personas de esa comunidad al azar, una


después de la otra, según el orden de selección podemos obtener los
resultados que se muestran en la Tabla 5.3.

Tabla 5.3. Resultados de seleccionar dos personas de la Comunidad de Azapampa.


PROBABILIDAD
PERSONA 1 PERSONA 2
Caso Símbolo Valor numérico
Probabilidad de que los
Empleado Empleado dos personas estén p.p=p2 (0,70)(0,70)=0,49
empleadas
Probabilidad que la
primera persona esté
Empleado Desempleado p.q (0,70)(0,30)=0,21
empleada y la segunda
esté desempleada.
Probabilidad de que la
primera persona esté
Desempleado Empleado desempleada y la q.p (0,30)(0,70)=0,21
segunda esté
empleada.
Probabilidad de que las
Desempleado Desempleado dos personas estén q.q=q2 (0,30)(0,30)=0,09
desempleadas

Observando la Tabla 5.2 podemos decir que si seleccionamos dos


personas de la comunidad de Azapampa al azar, la probabilidad de que
las dos personas estén empleadas sería 0,49 o 49%, pero también
podemos concluir que al sumar la columna de símbolo sería:

p2 + 2p.q + q2 = (p+q)2
Y de la columna numérica sería:

(0,70)2 + 2(0,70)(0,30) + (0,30)2 = (0,70+0,30)2


En este caso el binomio está elevado al cuadrado porque se trata de dos
ensayos o dos selecciones. Pero qué sucedería si seleccionamos cinco
personas al azar, entonces tendríamos

(p+q)5 = (0,70+0,30)5
Entonces si quisiéramos saber la probabilidad de que tres personas estén
ocupadas, sería muy laborioso desarrollar la expansión binomial; por lo

59
Mg. RUBÉN GALEAS ARANA

que debemos aplicar la siguiente fórmula para determinar cualquier valor


específico

p(X = x) = Cxn px qn−x


Donde:

p(X=x) Probabilidad de obtener “x” éxitos


n Número de experimentos o ensayos
x Resultado que se desea obtener o éxitos.
p Probabilidad de éxito.
q Probabilidad de fracaso.
Cxn Combinaciones de n elementos tomados de x en x.

Para aplicar la fórmula en el ejemplo anterior, calcularemos la probabilidad


de seleccionar exactamente tres personas empleadas, tomando cinco
personas al azar de esa población:

p(x = 3) = C35 (0,70)3 (0,30)5−3

p(x = 3) = 10. (0,70)3 (0,30)2 = 0,3087


Si quisiéramos calcular la probabilidad de seleccionar tres o menos
personas empleadas tomando cinco personas al azar de esa población
sería:

p(x ≤ 3) = p(x = 0) + p(x = 1) + p(x = 2) + p(x = 3)


Entonces calculando sería:

p(x ≤ 3) = 0,00243 + 0,02835 + 0,13230 + 0,30870

p(x ≤ 3) = 0,47178 = 47,178%


Lo que significa que de cinco personas elegidas al azar de la comunidad
de Azapampa la probabilidad de que tres o menos personas estén
empleadas es el 47,178%.

Si deseamos calcular las probabilidades utilizando el Excel se deben usar


las funciones:

p(X = x) = DISTR. BINOM. N(x, n, p, 0)

p(X ≤ x) = DISTR. BINOM. N(x, n, p, 1)

Si deseamos calcular las probabilidades utilizando el SPSS se debe usar


las funciones:

60
Mg. RUBÉN GALEAS ARANA

p(X = x) = PDF. BINOM(x, n, p)

p(X ≤ x) = CDF. BINOM(x, n, p)

La media aritmética, la desviación estándar y la varianza en una


distribución binomial se calcula con las siguientes relaciones:

- media: μ = n. p

- desviación estándar: σ = √n. p. q

- Varianza: σ2 = n. p. q

Por último haremos un ejemplo más complejo: si tomamos a 20 personas


de la comunidad de Azapampa. Cuál es la probabilidad que estén
empleados:
1) cinco o más personas.
2) Más de 10 personas.
3) Exactamente 10 personas.
4) Entre seis y 10 personas.

Entonces para los casos planteados resolveremos con el software SPSS:

1) cinco o más personas.

p(X≥5)=1-p(X<5)=1-p(X≤4)=1-CDF.BINOM(4,20,0.7)=1-0,0000055502531

p(X≥5)= 0,9999944497469=99,99%

2) Más de 10 personas.

p(X>10)=1-p(X≤10)=1-CDF.BINOM(10,20,0.7)=1-0,0479618973313

p(X>10)= 0,9520381026687=95,20%

3) Exactamente 10 personas.

p(X=10)=PDF.BINOM(10,20,0.7)=0,0308170809001=3,08%

4) Entre seis y 10 personas.

p(6≤X≤10)= p(X≤10)-p(X<6) =p(X≤10)-p(X≤5)

p(6≤X≤10)= 0,0479618973313-0,0000429400220=0,0479189573094=4,79%

b) DISTRIBUCIÓN POISSON.

La distribución de Poisson se usa para modelar situaciones en las que el


número de pruebas es muy grande y el número de éxitos es muy pequeño,
situaciones en las que hay ocurrencias aleatorias de sucesos por unidad

61
Mg. RUBÉN GALEAS ARANA

de espacio o tiempo, y en donde se desea conocer la probabilidad de un


número específico de éxitos.

El intervalo de tiempo donde suele ser de cualquier duración, por ejemplo,


un minuto, un día, una semana, etc.. Así, por ejemplo, la variable aleatoria
x puede representar el número de llamadas telefónicas por hora, el
número de pacientes fallecidos en un día determinado. Por otro lado el
espacio podría ser un segmento de línea, un área o volumen, un pedazo
de material, etc.. Así, por ejemplo, la variable aleatoria x podría
representar el número de bacterias en un determinado campo de cultivo,
el número de defectos por metro cuadrado de tela, etc..

Las siguientes proposiciones describen lo que se conoce como proceso


de Poisson:
1. Las ocurrencias de los eventos son independientes.
2. Teóricamente, debe ser posible un número infinito de ocurrencias del
evento en el intervalo.
3. La probabilidad de una ocurrencia del evento en un intervalo dado es
proporcional a la longitud del intervalo.

La distribución de probabilidad de Poisson está dada por la siguiente


relación:

e−λ . λx
p(X = x) = , para x = 0; 1; 2; …
x!
Donde:

x número de ocurrencias cuya probabilidad se desea conocer.


e constante matemática (e=2,71828…)
λ número promedio de ocurrencias por unidad de tiempo o espacio.

A través del siguiente ejemplo, explicaremos el cálculo de probabilidades


utilizando la distribución de Poisson. La central telefónica de una
empresa recibe en promedio 3,5 llamadas por hora. Cuál es la
probabilidad que se produzcan exactamente 4 llamadas en una
determinada hora.

Entonces nos piden p(X=4) y λ=3,5; entonces aplicando la fórmula


correspondiente sería:

e−3,5 . (3,5)4
p(X = 4) = = 0,1888122854 = 18,88%
4!
Luego la probabilidad de que en una hora determinada se produzcan
exactamente 4 llamadas es 18,88%.

Si quisiéramos calcula la probabilidad que se produzcan menos de 5


llamadas, sería:

62
Mg. RUBÉN GALEAS ARANA

p(x < 5) = p(x ≤ 4) = p(x = 0) + p(x = 1) + p(x = 2) + p(x = 3) + p(x = 4)

Entonces calculando sería:

p(x < 5) = 0,030197 + 0,105690 + 0,184959 + 0,215785 + 0,188812

p(x < 5) = 0,72544 = 72,54%


Si deseamos calcular las probabilidades utilizando el Excel se deben usar
las funciones:

p(X = x) = POISSON. DIST(x, λ, 0)

p(X ≤ x) = POISSON. DIST(x, λ, 1)

Si deseamos calcular las probabilidades utilizando el SPSS se debe usar


las funciones:

p(X = x) = PDF. POISSON(x, λ)

p(X ≤ x) = CDF. POISSON(x, λ)

Por último haremos un ejemplo más complejo: Supongamos que en el


nuevo mercado mayorista de Santa Anita llegan en promedio 10 camiones
por día y que las instalaciones del mercado pueden atender como máximo
15 camiones en un día. Cuál es la probabilidad de que en un determinado
día:

1) sean atendidos exactamente 8 camiones.


2) ningún camión sea atendido.
3) cinco o seis camiones sean atendidos.
4) sean atendidos 10 o menos camiones.
5) los camiones no sean atendidos.

Entonces para los casos planteados resolveremos con el software SPSS:

1) sean atendidos exactamente 8 camiones.

p(X = 8) = PDF. POISSON(10,8) = 0,1126 = 11,26%

2) ningún camión sea atendido.

p(X = 0) = PDF. POISSON(10,0) = 0,0000454 = 0,0045%

3) cinco o seis camiones sean atendidos.

p(X = 5) + p(X = 6) = 0,037833 + 0,063055 = 0,10088 = 10,09%

63
Mg. RUBÉN GALEAS ARANA

4) sean atendidos 10 o menos camiones.

p(X ≤ 10) = CDF. POISSON(10,10) = 0,58304 = 58,304%

5) los camiones no sean atendidos.

p(X > 15) = 1 − p(X ≤ 15) = 1 − 0,95126 = 0,04874 = 4,87%

5.2. DISTRIBUCIONES DE VARIABLES CONTINUAS

a) DISTRIBUCIÓN NORMAL O DISTRIBUCIÓN DE GAUSS.

Si se tiene una muestra grande de valores que corresponden a variables


continuas, por ejemplo el peso en kg de 941 estudiantes de una institución
educativa, para el análisis de la información se procedería a tabularlos a
través de una distribución de frecuencias (ver Tabla 5.4) y su gráfico de
histograma correspondiente (ver Figura 5.1) con su curva normal.

Tabla 5.4 Distribución de frecuencias del peso de 941 estudiantes.


Frecuencia
Frecuencia
Frecuencia relativa
Relativa
Intervalo de clase Absoluta acumulada
(%)
(fi) (%)
(ni)
(Ni)
[40,21; 45,149) 33 3,51 3,51
[45,149;50,088) 83 8,82 12,33
[50,088;55,027) 127 13,50 25,83
[55,027;59,966) 176 18,70 44,53
[59,966;64,905) 159 16,90 61,43
[64,905;69,844) 113 12,01 73,44
[69,844;74,783) 117 12,43 85,87
[74,783;79,722) 84 8,93 94,70
[79,722;84,661) 31 3,29 98,09
[84,661;89,600] 18 1,91 100
Total 941 100

64
Mg. RUBÉN GALEAS ARANA

Figura 5.1. Histograma con curva normal de distribución

Analizando los datos en el histograma (Figura 5.1), observamos que con


respecto al peso de los estudiantes, existen:

- Pocos estudiantes con bajo peso (33 estudiantes entre 40 y 45 kg


aproximadamente).
- La mayoría de los estudiantes tienen peso medio (176 estudiantes pesan
entre 55 y 60 kg aproximadamente).
- Pocos estudiantes tienen sobre peso (18 estudiantes pesan entre 84 y
89,6 kg aproximadamente).

Esta distribución de datos se llama NORMAL y se presenta en múltiples


mediciones de la vida real.

Sobre un histograma se puede graficar una CURVA NORMAL, también


llamada CAMPANA DE GAUSS. Su importancia radica en que posibilita
el cálculo de probabilidades para variables continuas, a través de áreas
comprendidas bajo la curva normal y es por eso que es una de las
distribuciones más utilizadas dentro de la estadística inferencial.

Una distribución asume la forma de la curva normal conforme el tamaño


de la muestra aumenta, es decir cuando se usa gran cantidad de datos.

La representación gráfica de la distribución normal, corresponde a la


siguiente función:

65
Mg. RUBÉN GALEAS ARANA

1 −1/2
(x − μ)2
f(x) = ∙e ∙
σ. √2. π σ

Donde:

x Variable independiente, cuyos valores asumidos van desde -∞


hasta +∞.
µ media poblacional.
(x-µ) desvío.
 desviación estándar de la población.
f(x) densidad de probabilidad.
e constante matemática cuyo valor es 2,71828…
π constante matemática cuyo valor es 3,14159…

Sin embargo, el cálculo de probabilidades, no es posible en cualquier


curva normal, ya que la curva normal queda definida conociendo dos
parámetros:

- La media o promedio de la población (µ), que fija la posición de la curva


respecto al eje x (ver Figura 5.2).

Figura 5.2. Variación de la distribución normal en función de µ.

Figura 5.3. Variación de la distribución normal en función de .

- La desviación estándar de la población () determina la forma


(dispersión) de la curva. A menor dispersión (), la curva será más
66
Mg. RUBÉN GALEAS ARANA

estrecha y puntiaguda y a mayor dispersión (), la curva será más


aplanada (ver Figura 5.3).

En la Figura 5.2 se puede observar, que las tres curvas normales, tienen
idéntica dispersión () pero distintas medias (µ), mientras que en la Figura
5.3 las tres curvas normales tienen la misma media (µ) pero diferente
dispersión ().

Esto significa que cada curva normal tiene su propia distribución, lo que
hace imposible el cálculo de probabilidades, por lo tanto se hace necesario
que la curva normal así obtenida, se transforme en una CURVA NORMAL
TIPIFICADA (ver Figura 5.4) con el fin de suprimir la individualidad de
cada una de las distribuciones señaladas anteriormente. La curva normal
se convierte en un modelo matemático con características fijas y
definidas, el cual hace posible el cálculo de probabilidades, para el cual
se supone lo siguiente:

- La media o promedio de la población es cero (µ=0).


- La desviación estándar de la población es uno (=1).
- La variable independiente x se transforma en un valor “z” que se calcula
mediante la siguiente fórmula:

x−μ
z=

Figura 5.4. Tipificación de la curva normal.

En la Figura 5.4 se puede observar que la variable “x” se ha transformado


en “z”, la media poblacional se ha igualado a cero (µ=0), por lo tanto los
valore de “z” hacia la derecha de “µ” son positivos y hacia la izquierda son
negativos; la desviación estándar de la población se ha igualado a uno
(=1), lo que significa que la dispersión o todo el área bajo la curva normal

67
Mg. RUBÉN GALEAS ARANA

tiene un valor de uno (100%) que es el valor máximo que asume la


probabilidad.

Las principales características de la curva norma tipificada son:


- Es simétrica respecto a su media (50% a la derecha y 50% a la izquierda
de la media).
- Es asintótica respecto a z (no cruza el eje z).
- El área total encerrada es uno (100%)
- La media, mediana y moda son iguales.

b) CÁLCULO DE ÁREAS BAJO LA CURVA NORMAL TIPIFICADA.

Para calcular probabilidades, es necesario calcular las áreas bajo la curva


normal tipificada. Esto se obtiene utilizando adecuadamente la Tabla 5.5.

Por ejemplo si deseamos determinar el área bajo la curva normal para


valores de z entre 0 y 1,82 (0 ≤ z ≤ 1,82) tal como se observa en la
Figura 5.5.

Figura 5.5. Área bajo la curva para 0 ≤ z ≤ 1,82.

Entonces en la Tabla 5.5, ubicamos el valor de z=1,82, primero el entero


y un decimal (1,8) buscamos en la primera columna y luego en la misma
fila buscamos en la columna del 2 en dicha intersección se halla el valor
del área bajo la curva, en este caso sería 0,4656; eso significa que:

p(0 ≤ z ≤ 1,82) = 0,4656=46,56%

Por otro lado, si quisiéramos calcular el área bajo la curva normal para
valores de z entre -1,82 y 0 (-1,82 ≤ z ≤ 0), sería el mismo valor 0,4656,
ya que la curva normal tipificada es simétrica.

Ahora si quisiéramos calcular el área bajo la curva normal para valores de


z mayor a 1,82 (ver Figura 5.6), sería.

Figura 5.6. Área bajo la curva para 0 ≤ z ≤ 1,82.

p(z≥1,82)=0,5 - p(0 ≤ z ≤ 1,82)=0,5-0,4656=0,0344=3,44%

68
Mg. RUBÉN GALEAS ARANA

Tabla 5.5. Tabla de valores para calcular el área bajo la curva normal tipificada

Existen algunas veces que nos dan la probabilidad y nos piden hallar el
valor de “z” el procedimiento sería el inverso; por ejemplo si la probabilidad
es 47,36%, entonces esto equivale a 0,4736, este valor se busca en la
Tabla 5.5, si no hay un valor exacto, se busca el que más se aproxima, en
este caso sería 0,4738 por lo tanto el valor de z es 1,94.

69
Mg. RUBÉN GALEAS ARANA

Ahora realizaremos un ejemplo más práctico, supongamos que después


de una investigación se llegó a la conclusión de que los niños del distrito
de Chupuro adquieren un cierto tipo de enfermedad; los datos de la
investigación arrojaron que la media poblacional fue de 12 años y la
desviación estándar es 3 años. Cuál es la probabilidad de que un niño que
acaba de contraer la enfermedad tenga 13 o menos años.

Entonces los datos son:


x=edad del niño en años.
µ=12 años.
=3 años
p(x≤13)=?

Tipificando la curva sería:

x − μ 13 − 12
z= = = 0,33
 3

Luego el problema se reduce a calcular:

p(z ≤ 0,33)=0,5+p(0≤ z ≤0,33)=0,5+0,1293=0,6293=62,93%

Entonces podemos concluir que la probabilidad de que el niño que contrae


la enfermedad tenga 13 o menos años de edad es de 62,93%.

Si deseamos calcular las probabilidades utilizando el SPSS se debe usar


las funciones:

p(X = x) = PDF. NORMAL(x, μ, )

p(X < 𝑥) = CDF. NORMAL(x, μ, )

Si se conoce el valor de “z” también se puede usar la función:

p(0 ≤ Z ≤ z)=CDFNORM(z)

Para hallar la probabilidad entre dos valores se puede desarrollar de la


siguiente manera:

p(a < 𝑋 < 𝑏) = CDF. NORMAL(b, μ, ) − CDF. NORMAL(a, μ, )

70
Mg. RUBÉN GALEAS ARANA

UNIDAD VI

CONTRASTACIÓN DE HIPÓTESIS
La contrastación o prueba de hipótesis comienza con una suposición, hipótesis,
que hacemos acerca de un parámetro de población. Una hipótesis estadística
es una proposición o supuesto sobre los parámetros de una o más poblaciones.
En todo trabajo estadístico existen dos tipos de hipótesis estadísticas:
H0 Hipótesis nula (negación de la hipótesis alternativa). Supone que no hay
diferencia entre el estadígrafo y el parámetro.
H1 Hipótesis alternativa (propone el investigador). Supone que existe
diferencia entre el estadígrafo y el parámetro.

En este sentido se dice que la aplicación del método científico no nos permite
demostrar la veracidad de una hipótesis sino su falsedad, es decir, que las
hipótesis alternativas (H1) que propone el investigador se dan por válidas
siempre y cuando se rechaza la hipótesis nula (H0).

Como la (H0) es la negación de la hipótesis alternativa (H1); en las pruebas de


contrastación de hipótesis, las diferentes pruebas estadísticas utilizan la
llamada hipótesis nula (H0) para verificar la validez de las hipótesis alternativas
(H1). Por tanto, cuando realizamos cualquier test estadístico de
contrastación de hipótesis, nuestro objetivo será rechazar la (H0), lo que
nos permite dar por válida la hipótesis alternativa (H1) planteada.

6.1. HIPÓTESIS NULA (H0).

Es una aseveración en el sentido de que un parámetro poblacional tiene un


valor específico. Es el punto de partida de la investigación.

Por ejemplo, se realiza una investigación sobre el costo de los


transformadores de distribución monofásicos de 5 kVA que venden las
diversas empresas en el Perú. Alguien puede afirmar que dichos
transformadores cuestan en promedio S/. 1400,00. Entonces las hipótesis
que se plantea sería:

H0 Hipótesis nula: “El costo promedio de los transformadores de


distribución monofásicos de 5 kVA es de S/. 1400,00”.

En leguaje matemático se plantearía de la siguiente manera:

H0: µ=1400 Nuevos Soles.

6.2. HIPÓTESIS ALTERNATIVA (H1).

Es cualquier hipótesis que difiera de la hipótesis nula. Tomando el ejemplo


anterior se podría presentar tres hipótesis alternativas.

71
Mg. RUBÉN GALEAS ARANA

a) “El costo promedio de los transformadores de distribución monofásicos


de 5 kVA es diferente de S/. 1400,00”.
b) “El costo promedio de los transformadores de distribución monofásicos
de 5 kVA es menor a S/. 1400,00”.
c) “El costo promedio de los transformadores de distribución monofásicos
de 5 kVA es mayor a S/. 1400,00”.

En lenguaje matemático sería:

μ ≠ 1400 Nuevos Soles


H1 : μ < 1400 Nuevos Soles
μ > 1400 Nuevos Soles
{

Sin embargo, se debe tener en cuenta que para hacer la prueba de


contrastación de hipótesis se toma una sola hipótesis alternativa.

6.3. VALOR CRÍTICO DEL ESTADÍSTICO DE PRUEBA.

El valor crítico es un valor del estadístico de prueba en su correspondiente


distribución de probabilidad; este valor divide a la curva de distribución en
dos regiones: una región de aceptación (región de no rechazo) de la
hipótesis nula y otra de rechazo de la hipótesis nula, tal como se muestra en
la Figura 6.1.

Figura 6.1. Ubicación del valor crítico del estadístico de prueba.

6.4. PRUEBAS ESTADÍSTICAS.

Dependiendo de la distribución de probabilidades de la muestra, se han


desarrollado numerosos tests estadísticos que permiten realizar pruebas
de contrastación de hipótesis, conocidos como pruebas paramétricas (para
distribución normal y “t” de Student) y pruebas no paramétricas para otras
distribuciones.

En la Tabla 6.1, se muestran de forma resumida las diferentes pruebas


estadísticas para realizar las pruebas de contrastación de hipótesis
necesarias en los trabajos científicos.

72
Mg. RUBÉN GALEAS ARANA

Tabla 6.1. Tabla de test estadísticos y su aplicación.


Objetivo Número de Pruebas Pruebas no Nominales o
del análisis grupos paramétricas paramétricas dicotómicas
Media, mediana, moda,
Mediana, Moda, gráfico de
Describir Uno o más DE, V, histogramas,
Gráficos varios barras o sectores.
tablas de frecuencias
Chi-cuadrado
Uno contra valores T Student para una Chi-cuadrado
Binomial,
hipotéticos muestra (curva normal) Binomial
Kolmogorov-Smirnov
Fisher (Chi-cuadrado
T Student para dos Fisher (Chi-
Dos grupos para muestras
Comparar grupos independientes cuadrado para
independientes grandes),
(curva normal) muestras grandes)
Kolmogorov-Smirnov
T Student para dos
Dos grupos
grupos dependientes Kolmogorov-Smirnov
dependientes
(Curva normal)
Dos variables de un r de Pearson, gráficos
r de Spearman
grupo de dispersión
Relacionar Predecir el valor de
Regresión no
una variable desde Regresión lineal simple
paramétrica
otra

Cuando las muestras son grandes se toma la curva de distribución Z, estas


son pruebas que se distribuyen de acuerdo a una curva normal, estas
pruebas consisten en determinar valores críticos (±ZCRITICO) de tal manera
que la zona comprendida entre dichos valores críticos se considera como
región de aceptación de la hipótesis nula (Ho), mientras que las colas se
consideran como región de rechazo de la hipótesis nula (Ho), tal como se
muestra en la Figura 6.2.

Figura 6.2. Curva normal.

En la Figura 6.2 se observa la probabilidad de error tipo I (α) que es la


probabilidad de rechazar la Ho cuando la Ho realmente es verdadera, dicha
probabilidad de error se reparte en dos partes por lo que se muestra α/2
hacia la izquierda y derecha. Finalmente diremos que cuando se hace la
prueba y el valor del estadístico se ubica en la región comprendida entre los

73
Mg. RUBÉN GALEAS ARANA

valores críticos, se dice que la hipótesis nula (Ho) es aceptada, en caso


contrario es rechazada.

Por otro lado, observando la Figura 6.2 se puede determinar tres casos:

- Prueba de dos colas. Este caso se utiliza cuando la hipótesis alternativa


(H1) se plantea como diferente (≠); en el ejemplo anterior sería para el caso:
“El costo promedio de los transformadores de distribución monofásicos de
5 kVA es diferente de S/. 1400,00”. En este caso para hallar el valor crítico
(Zc) se procede de la siguiente manera:

1°) Se determina el nivel de significancia (α). Ejemplo α=5%=0,05.


2°) Se determina el valor de (α/2). α/2=0,05/2=0,025.
3°) Se determina el área bajo la curva normal tipificada de 0 a Zc. Para el
ejemplo sería: A=0,5-0,025=0,475.
4°) En la Tabla 5.5 se busca el valor del área calculada y se determina el
valor de Zc. Para el ejemplo sería Zc=±1,96 tal como se muestra en la
Figura 6.3.

Figura 6.3. Valor de Zc para un nivel de significación del 5%.

- Prueba de una cola hacia la izquierda. Este caso se utiliza cuando la


hipótesis alternativa (H1) se plantea como menor (<); en el ejemplo anterior
sería para el caso: “El costo promedio de los transformadores de
distribución monofásicos de 5 kVA es menor de S/. 1400,00”. En este caso
para hallar el valor crítico (Zc) se procede de la siguiente manera:

1°) Se determina el nivel de significancia (α). Ejemplo α=5%=0,05.


2°) Se determina el área bajo la curva normal tipificada de 0 a Zc. Para el
ejemplo sería: A=0,5-0,05=0,45.
3°) En la Tabla 5.5 se busca el valor del área calculada y se determina el
valor de Zc. Para el ejemplo sería Zc=-1,645 tal como se muestra en
la Figura 6.4.

74
Mg. RUBÉN GALEAS ARANA

Figura 6.4. Valor de -Zc para un nivel de significación del 5%.

- Prueba de una cola hacia la derecha. Este caso se utiliza cuando la


hipótesis alternativa (H1) se plantea como mayor (>); en el ejemplo
anterior sería para el caso: “El costo promedio de los transformadores de
distribución monofásicos de 5 kVA es mayor de S/. 1400,00”. En este caso
para hallar el valor crítico (Zc) se procede similar al caso anterior (ver
Figura 6.5).

Figura 6.5. Valor de +Zc para un nivel de significación del 5%.

6.5. PROCEDIMIENTO PARA PROBAR HIPÓTESIS

El procedimiento tradicional para probar hipótesis es seguir los siguientes


pasos:
1°) Plantear las hipótesis tanto la nula como la alternativa.
2°) Determinar el nivel de significación (α), el cual debe ser determinado por
el investigador; normalmente es del 5%; con este valor se determina los
valores críticos (Zc).
3°) Calcular el estadístico de prueba; para el caso de una curva normal se
debe calcular el valor de Z y ubicar la región donde está ubicada (en la
región de aceptación o de rechazo). Para el cálculo de Z existe modelos
matemáticos dependiendo del tipo de prueba que se va aplicar, que se
verá más adelante.

75
Mg. RUBÉN GALEAS ARANA

4°) Tomar una decisión, el cual puede ser: Aceptar o rechazar la hipótesis
nula (Ho).

Ejemplo 6.1. Como un ejemplo de aplicación podemos plantear una prueba


para una media poblacional: El gerente de la empresa Deporte Total S.A.C.
que tiene un gimnasio, invita a inscribirse a sus clientes indicando que en un
mes de asistencia puede bajar al menos 3,5 kg de peso. En una investigación
realizada a una población de 5000 clientes se seleccionó una muestra
aleatoria de 357 clientes y se determinó que el promedio de reducción de
peso es de 2,8647 kg con una desviación típica de 1,13946 kg. Si el
investigador considera un 5% de nivel de significación, se puede creer lo
indicado por el gerente.

Datos:
n=357 clientes.
µ=3,5 kg (para toda la población).
x = 2,8647 kg (promedio de la muestra).
S=1,13946 kg (desviación estándar de la muestra)

Ho: “No existe diferencia significativa entre el promedio anunciado por el


gimnasio y el promedio de la muestra”. (Ho: µ=3,5 kg)
H1: “El promedio anunciado por el gimnasio es menor”. (H1: µ<3,5 kg)

α=5%=0,05 (nivel de significancia).

Se aplicará una prueba Z de cola izquierda.

Cálculo del estadístico de prueba Z.

𝑥−𝜇 2,8647 − 3,5


𝑍= = = −10,5345
𝑆 1,13946
√𝑛 √357

Finalmente, como el valor -10,5345<-1,645 (cae en la región de rechazo) se


concluye que la Ho es rechazada por lo tanto se acepta la hipótesis

76
Mg. RUBÉN GALEAS ARANA

alternativa (H1), es decir: el valor anunciado por el gerente del gimnasio no


es verdad.

Ejemplo 6.2. Otro ejemplo de aplicación plantea una prueba para una
proporción poblacional: El gerente de la empresa Luminarias S.A.C.
plantea que en un lote de producción de 5000 lámparas ahorradoras como
máximo el 2% están falladas. Una muestra aleatoria de 357 lámparas indica
que 10 lámparas están falladas. Con un nivel de significancia del 5%,
determinar si el gerente tiene razón.

Datos:
n=357 lámparas.
P=2%=0,02 (proporción poblacional).
p=10/357=0,028 (proporción muestral)

Ho: “No existe diferencia significativa entre la proporción poblacional y la


proporción de la muestra”. (Ho: P=0,02)
H1: “La proporción de la muestra es mayor que la proporción poblacional”.
(H1: P>0,02)

α=5%=0,05 (nivel de significancia).

Se aplicará una prueba Z de cola derecha.

Cálculo del estadístico de prueba Z.

𝑝−𝑃 0,028 − 0,02


𝑍= = = 0,9162
𝑝. 𝑞
√ √(0,028)(0,972)
𝑛 357

Finalmente, como el valor 0,9162<1,645 (cae en la región de aceptación) se


concluye que la Ho es aceptada, es decir: el valor anunciado por el gerente
es verdad.

Ejemplo 6.3. Otro ejemplo de aplicación plantea una prueba para una
diferencia de medias muestrales: El gerente de la empresa Luminarias
S.A.C. organizó un curso de capacitación para sus empleados (50 varones
77
Mg. RUBÉN GALEAS ARANA

y 40 damas) luego los sometió a una misma evaluación cuyo calificativo fue
de 0 a 20, luego del cual los varones obtuvieron un promedio de 12,46 con
una desviación típica de 5,068, mientras que las damas obtuvieron un
promedio de 11,95 con una desviación típica de 4,546. El gerente desea
saber si existe diferencia significativa entre los promedios de damas y
varones con un nivel de significancia del 5%.

Datos:
n1=50 varones.
µ1=12,46
σ1=5,068
n2=40 damas.
µ2=11,95
σ2=4,546

Ho: “No existe diferencia significativa entre el promedio de damas y varones”.


(Ho: µ1 = µ2)
H1: “Los promedios de damas y varones son diferentes”. (H1: µ1 ≠ µ2)

α=5%=0,05 (nivel de significancia).

Se aplicará una prueba Z de dos colas.

Cálculo del estadístico de prueba Z.

𝜇1 − 𝜇2 12,46 − 11,95
𝑍= = = 0,5024
2 2
𝜎2 𝜎22 √5,068 + 4,546
√ 1 50 40
𝑁1 + 𝑁2

Finalmente, como el valor -1,96<0,5024<1,96 (cae en la región de


aceptación) se concluye que la Ho es aceptada, es decir: no existe diferencia
significativa entre el promedio de damas y varones.

78
Mg. RUBÉN GALEAS ARANA

6.6. ENFOQUE DEL VALOR “p” PARA LA PRUEBA DE HIPÓTESIS.

Un indicador importante para la prueba de hipótesis es el grado de


significación estadística (p)3 es un parámetro que cuantifica el error que
estamos cometiendo al aceptar nuestros resultados. Concretamente, lo que
indica es la probabilidad de que rechacemos o aceptemos la hipótesis nula
(H0). Cuanto más pequeño sea el valor de ‘p’ menor será la probabilidad de
que H0 sea cierta, y por tanto mayor es la probabilidad de que la hipótesis
alternativa (H1) sea la correcta.

Para tomar una decisión respecto a cuál sea la hipótesis ‘verdadera’, el


investigador fija el nivel de significancia (α), de tal manera que:
- Si p< α entonces se rechaza la Ho y aceptamos la H1.
- Si p> α entonces aceptamos la Ho y rechazamos la H1.

Para calcular el valor de “p” primero se debe calcular el valor de Z (tal como
los ejemplos anteriores) luego se debe hallar el área bajo la curva normal
tipificada (ver Tabla 5.5) y aplicar las siguientes fórmulas:

p=2(1-área) para pruebas de dos colas.


p=1-área para una prueba de cola derecha.
p=área para una prueba de cola izquierda

Como un ejemplo de aplicación resolveremos el ejemplo 6.2 utilizando el


concepto de “p”, para ello calcularemos el valor de p. En dicho ejemplo se
determinó que Z=0,9162, entonces observando la Tabla 5.5 el área sería:

área=0,5+0,3186=0,8186
p=1-0,8186=0,1814 (por ser prueba de cola derecha)
p>0,05 (por lo tanto se acepta la hipótesis nula).

6.7. CONTRASTACIÓN DE HIPÓTESIS CON SPSS.

a) Estimación de parámetros a partir de los estadígrafos.

Para poder hacer una estimación estadística es necesario conocer bien


los conceptos de PARÁMETROS y ESTADÍGRAFOS, tratados en el
capítulo anterior.

Como se dijo anteriormente, los parámetros no se conocen, pero se


pueden estimar a partir de los estadígrafos, con un mínimo de error.

Otro concepto importante es el ERROR ESTÁNDAR (ES) que se define


como la desviación estándar de las medias de varias muestras del mismo
tamaño, entonces cada una de esas medias tendrán una DESVIACIÓN
ESTÁNDAR (S), entonces matemáticamente sería:

3
En el software SPSS el grado de significación se simboliza por (Sig.)

79
Mg. RUBÉN GALEAS ARANA

S
ES =
√n
Luego para estimar la media poblacional (µ) con un intervalo de confianza
del 95% se utiliza la siguiente fórmula.

μ = x̅ ± 1,96 ES
La constante 1,96 es el valor del nivel de confianza “Z”, para un intervalo
de confianza del 95% (ver Tabla 1.1)

Como ejemplo estimaremos el promedio de reducción de peso del


ejemplo 6.1 de una población de 5000 clientes del gimnasio partiendo de
una muestra de 357 datos (n=357), para ello utilizaremos el archivo
“PesoGimnasio.sav” del SPSS, para ello ingresamos al menú
Analizar/Estadísticos Descriptivos/Explorar y debe salir la ventana que se
muestra en la Figura 6.6.

Figura 6.6. Ventana Explorar del SPSS.

Después de hacer clic en el botón Aceptar, se obtiene los resultados que


se muestra en la Tabla 6.2.

80
Mg. RUBÉN GALEAS ARANA

Tabla 6.2. Resultados de la media poblacional


Estadístico Error típ.
Media 2,8647 ,06031
Intervalo de confianza para Límite inferior 2,7461
la media al 95% Límite superior 2,9833
Media recortada al 5% 2,8501
Mediana 2,8200
Varianza 1,298
Reducción
de Peso Desv. típ. 1,13946
Mínimo 1,00
Máximo 5,00
Rango 4,00
Amplitud intercuartil 1,93
Asimetría ,135 ,129
Curtosis -1,134 ,257

Entonces el límite inferior sería: μ = 2,8687 − 1,96 . (0,06031) = 2,7505 y


el límite superior sería μ = 2,8687 + 1,96 . (0,06031) = 2,9869; lo que
significa que con un nivel de confianza del 95% se estima que el promedio
de reducción de peso de la población está entre 2,7505 kg y 2,9869 kg.

b) T Student para una muestra.

Como ejemplo de aplicación desarrollaremos el Ejemplo 6.1 con un nivel de


significancia del 5%, en dicho ejemplo se plantearon las siguientes hipótesis:

Ho: “No existe diferencia significativa entre el promedio anunciado por el


gimnasio y el promedio de la muestra”. (Ho: µ=3,5 kg)
H1: “El promedio anunciado por el gimnasio es diferente al promedio
anunciado por el gimnasio”. (H1: µ≠3,5 kg)

En el SPSS se debe ingresar al menú Analizar/comparar medias/prueba T


para una muestra.

81
Mg. RUBÉN GALEAS ARANA

Cuando se hace clic en Aceptar se muestra los siguientes resultados.

Estadísticos para una muestra

N Media Desviación típ. Error típ. de la


media

Reducción
357 2,8647 1,13946 ,06031
de Peso

Prueba para una muestra

Valor de prueba = 3.5

t gl Sig. (bilateral) Diferencia de 95% Intervalo de confianza para la


medias diferencia

Inferior Superior

Reducción
-10,534 356 ,000 -,63529 -,7539 -,5167
de Peso

Como Sig. es 0,000 (menor a 0,05), entonces rechazamos la hipótesis nula y


aceptamos la hipótesis alternativa, es decir concluimos que el valor anunciado
por el gerente del gimnasio es diferente

Si las hipótesis fueran:


Ho: “No existe diferencia significativa entre el promedio anunciado por el
gimnasio y el promedio de la muestra”. (Ho: µ=3,5 kg)
H1: “El promedio anunciado por el gimnasio es menor”. (H1: µ<3,5 kg)

El valor del sig que calcula el SPSS es cuando la hipótesis es diferente, entonces
cuando se presenta ese caso se debe tener en cuenta los valores que se
muestran en el siguiente cuadro:

H1 Signo de t P valor en SPSS


≠ Sig.
> + Sig./2
> - 1-Sig./2
< + 1-Sig./2
< - Sig./2

En este caso, H1 es menor que 3,5 y el signo de t es negativo, entonces el valor


de “p” sería Sig./2=0,000/2=0,000; este valor es menor que 0,5 por tanto
rechazamos Ho y decimos que el valor anunciado por el gerente del gimnasio es
menor a 3,5 kg.

c) T Student para dos muestras independientes.

Se usa para comparar la media de una variable cuantitativa dependiente entre


dos grupos independientes de individuos. El estadístico de contraste se calcula
de diferente manera, si suponemos que las varianzas poblacionales son iguales

82
Mg. RUBÉN GALEAS ARANA

o diferentes. Esta prueba, lo que verifica es, si el valor de la diferencia entre las
medias de los dos grupos (𝑥̅1 − 𝑥̅2 ) o (µ1- µ2) tiene diferencia estadísticamente
significativa o no.

Como ejemplo de aplicación desarrollaremos el Ejemplo 6.3 con un nivel de


significancia del 5%, en dicho ejemplo se plantearon las siguientes hipótesis:

Ho: “No existe diferencia significativa entre el promedio de damas y varones”.


(Ho: µ1 = µ2)
H1: “Los promedios de damas y varones son diferentes”. (H1: µ1 ≠ µ2)

En el SPSS se debe ingresar al Analizar/comparar medias/prueba T para


muestras independientes.

Estadísticos de grupo

Genero N Media Desviación típ. Error típ. de la


media

Varón 50 12,46 5,068 ,717


Nota
Dama 40 11,95 4,546 ,719

Prueba de muestras independientes


Prueba de Prueba T para la igualdad de medias
Levene para
la igualdad de
varianzas
F Sig. t gl Sig. Diferencia Error típ. 95% Intervalo de
(bilateral) de de la confianza para la
medias diferencia diferencia
Inferior Superior
Se han
asumido
,917 ,341 ,496 88 ,621 ,510 1,027 -1,532 2,552
varianzas
iguales
Nota
No se han
asumido
,502 86,806 ,617 ,510 1,015 -1,508 2,528
varianzas
iguales

83
Mg. RUBÉN GALEAS ARANA

La primera interpretación es la Prueba de Levene para igualdad de varianzas, en


este caso el valor de F es 0,917 y Sig es 0,341 y es mayor a 0,05; entonces
aceptamos la Ho, es decir decimos que se cumple la igualdad de varianza; por
lo tanto analizamos la prueba T student bajo el supuesto de igualdad de varianza;
para este ejemplo t=0,496 con 88 grados de libertad y su Sig.=0,621 (mayor que
0,05 se acepta Ho) y se concluye que no existen diferencias significativas en el
promedio de notas en función del género.

d). T student para dos muestras relacionadas.

Se usa para comparar la media de dos variables cuantitativas relacionadas.

Ejemplo: Los datos representan el sueldo promedio de personas y el costo de


gasto disponible para comprar Jeans.

(Menú Analizar/comparar medias/prueba T para muestras relacionadas)

Estadísticos de muestras relacionadas


Media N Desviación típ. Error típ. de la
media
Sueldo promedio 3709,8455 139 1861,34679 157,87737
Par 1
Costo de gasto 274,6403 139 91,12096 7,72878

Correlaciones de muestras relacionadas


N Correlación Sig.
Sueldo promedio y Costo de
Par 1 139 ,152 ,074
gasto

Prueba de muestras relacionadas


Diferencias relacionadas t gl Sig.
Media Desviación Error típ. 95% Intervalo de (bilateral)
típ. de la confianza para la
media diferencia
Inferior Superior
Par Sueldo promedio
3435,20518 1849,70778 156,89017 3124,98570 3745,42466 21,896 138 ,000
1 - Costo de gasto

El resultado indica que la media del sueldo promedio no guarda ninguna relación
ya que Sig. es 0,00 (menor a 0,05 por lo tanto la Ho se rechaza)

84
Mg. RUBÉN GALEAS ARANA

e. Chi-Cuadrado

Para esta prueba se tiene que construir una tabla de contingencia ingresando
al menú:

Analizar/Estadísticos descriptivos/Tablas de contingencia

Lo que queremos es saber si existe alguna asociación entre el género y la


edad de las personas encuestadas y se obtuvieron los siguientes resultados.

Tabla de contingencia Genero (sexo) * Edad (agrupado)

85
Mg. RUBÉN GALEAS ARANA

Recuento
Edad (agrupado) Total
24 a 28 28 a 32 32 a 36 36 a 40 40 a 44 44 a 48 48 a 52
Genero Varón 15 6 5 8 12 9 11 66
(sexo) Dama 13 10 11 8 11 11 9 73
Total 28 16 16 16 23 20 20 139

Pruebas de chi-cuadrado
Valor gl Sig. asintótica
(bilateral)
Chi-cuadrado de Pearson 3,493a 6 ,745
Razón de verosimilitudes 3,551 6 ,737
Asociación lineal por lineal ,180 1 ,671
N de casos válidos 139
a. 0 casillas (0,0%) tienen una frecuencia esperada inferior a 5. La
frecuencia mínima esperada es 7,60.

Medidas simétricas
Valor Error típ. asint.a T aproximadab Sig.
aproximada
Intervalo por intervalo R de Pearson -,036 ,085 -,423 ,673c
Ordinal por ordinal Correlación de Spearman -,034 ,085 -,396 ,693c
N de casos válidos 139
a. Asumiendo la hipótesis alternativa.
b. Empleando el error típico asintótico basado en la hipótesis nula.
c. Basada en la aproximación normal.

Como el valor de Sig. del Chi cuadrado es 0,745 (mayor a 0,5 se acepta la Ho),
lo que significa que la asociación entre género y la edad no es significativa.

86

También podría gustarte