Está en la página 1de 82

Dosier módulo VIII

Módulo VIII
INTRODUCCIÓN .............................................................................................................................................3

Unidad I. Conceptos básicos de la estadística ..........................................................................................4


1. La estadística y sus aplicaciones ........................................................................................................4
2. Escalas de medición...........................................................................................................................8
3. Variables y tipos de variables ......................................................................................................... 11
4. Población y muestra, selección aleatoria de una muestra ............................................................ 12
5. Estadística descriptiva y estadística inferencial ............................................................................. 14
6. Fuentes y recolección de la información estadística...................................................................... 14

Unidad I . Análisis Estadístico .................................................................................................................... 17


1. Tablas de frecuencias ..................................................................................................................... 17
2. Gráficos para datos estadísticos..................................................................................................... 23
3. Medidas de tendencia central y dispersión ................................................................................... 33
4. Medidas de dispersión para datos discretos y continuos .............................................................. 42
5. Medidas de posición....................................................................................................................... 48

Unidad I I. Introducción a la probabilidad .................................................................................................... 60


1. Experimento aleatorio, espacio muestral, suceso o evento .......................................................... 60
2. Reglas básicas para el cálculo de probabilidades ........................................................................... 64
3. Probabilidad condicional ................................................................................................................ 69
4. Probabilidad de eventos independientes....................................................................................... 71
5. Teorema de la probabilidad total ................................................................................................... 74
6. Teorema de Bayes .......................................................................................................................... 77
REFERENCIAS DOCUMENTALES .................................................................................................................. 79

2
Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un
aporte que oriente la actitud crítica de los especialistas para analizar, interpretar, evaluar y realizar
inferencias (habilidades cognitivas propias del pensamiento crítico) de la vasta información
disponible actualmente y que, en numerosas oportunidades, es presentada mediante gráficos
estadísticos, ya que estos son los más utilizados por los medios informativos.

Además, en el desarrollo del dosier se plantea el reto de hacer que la estadística y la probabilidad y
su enseñanza dejen de ser “sólo una técnica para tratar los datos cuantitativos (…), y pasen a ser
herramientas para la vida en sociedad, (…) en términos de capacidad de comprender la abstracción
lógica que hace posible el estudio cuantitativo de los fenómenos colectivos” (Ottaviani, citado en
Batanero, 2002). En pocas palabras, la estadística debe fomentar disposiciones y habilidades
cognitivas en los ciudadanos para que analicen y reflexionen en torno a problemas sociopolíticos del
contexto, y que la probabilidad oriente a determinar la posibilidad de que un suceso ocurra y a valorar
distintas alternativas necesarias para la toma de decisiones en una situación dada, de acuerdo a las
ventajas e inconvenientes que estas presenten.

En la unidad uno se presenta los conceptos básicos de la estadística, iniciando con definición de
estadística y sus aplicaciones en diferentes áreas del conocimiento humano. El segundo tema se
refiere a las escalas de medición utilizadas en la recolección y análisis de datos y continúa con los
tipos de variables que se definen en la población o muestra objeto de estudio. Finaliza esta unidad
diferenciando la estadística descriptiva de la inferencial y que la unión de ambos conceptos engloba
lo que se entiende por estadística. El objetivo principal de esta unidad es lograr determinar una
muestra representativa de la población objeto de estudio.

La unidad dos se refiere al análisis estadístico de datos, presentando las diferentes formas de
resumir la información original (datos brutos), de tal manera que sea comprensible y describa las
características principales del fenómeno en estudio. Los temas que se estudian en esta unidad son:
Las tablas de frecuencias, representación gráfica, medidas de tendencia central y dispersión, y se
finaliza con las medidas de posición. El objetivo principal de esta unidad es conocer y aplicar las
herramientas estadísticas para elaborar un informe descriptivo del comportamiento del fenómeno
objeto de estudio.

El estudio de las unidades uno y dos, permiten describir el comportamiento del fenómeno de estudio.
Sin embargo, las conclusiones que se obtienen son totalmente descriptivas y no presentan métodos
rigurosos que midan la incertidumbre de la ocurrencia o no de lo observado en los datos, por lo que
es necesario dar el siguiente paso e iniciar el estudio de la estadística inferencial. Es así que en la
unidad tres se presenta una introducción a la probabilidad, iniciando con el estudio de experimento
aleatorio, espacio muestral y sucesos, para continuar con las reglas básicas de probabilidad y llegar
hasta el teorema de Bayes.

3
Conceptos básicos de la estadística

1. La estadística y sus aplicaciones


Es difícil conocer los orígenes de la estadística. Sin embargo, desde los comienzos de la civilización han
existido formas sencillas de estadística, pues los estados establecían registros de población, nacimientos,
defunciones, impuestos, cosechas, etc. Con esta información los antiguos gobernantes controlaban a sus
súbditos y mantenían dominios económicos. Estas técnicas evolucionaron con el desarrollo de las
matemáticas, utilizando sus herramientas en el proceso del análisis e interpretación de la información.

Lo que se tiene registrado es que, en el siglo XIX, la estadística entra en una nueva fase de su desarrollo
con la generalización del método para estudiar fenómenos de las ciencias naturales y sociales. Galton
(1822-1911) y Pearson (1857-1936) se pueden considerar como los padres de la estadística moderna. Por
otra parte, los fundamentos de la estadística actual y muchos de los métodos de inferencia son debidos a
R. A. Fisher. Sus trabajos culminan con la publicación de la obra Métodos estadísticos para investigaciones.

Con la aparición y popularización de las computadoras, la estadística tiene un avance significativo, ya que
utiliza técnicas de computación intensiva para el análisis de grandes masas de datos, y se empieza a
considerar el método estadístico como un proceso iterativo de búsqueda del modelo ideal para describir
o predecir un determinado fenómeno con cierto grado de certidumbre medible.

La Estadística es una ciencia que estudia las características de un conjunto de datos para hallar en ellos
regularidades en su comportamiento, que sirven para describir el conjunto y para efectuar predicciones.

La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un
conjunto de objetos, personas, procesos, etc. a través de la cuantificación y el ordenamiento de los datos
intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la
toma de decisiones.

En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el punto de incursionar
en la totalidad de las ciencias; inclusive, en la lingüística se aplican técnicas estadísticas para esclarecer la
paternidad de un escrito o los caracteres más relevantes de un idioma.

4
Aplicaciones de la estadística

Mucha gente piensa que la estadística no tiene nada que ver con otras disciplinas que no sean las
ingenierías y economía. Otros, nunca le encuentran aplicaciones útiles, y por eso tampoco les gusta. Pero,
en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la humanidad, partiendo,
ante todo, en lo relacionado con las ingenierías, economía, las ciencias biológicas, ciencias sociales e
incluso en algunas ramas del área jurídica. El trabajo del experto estadístico no consiste sólo en reunir y
tabular los datos, sino el proceso de interpretación de esa información a través de modelos estadísticos-
matemáticos, aumentando el alcance de las aplicaciones de la estadística, esto se ha logrado, gracias al
desarrollo de la teoría de probabilidad y al desarrollo computacional.

Dentro de las aplicaciones de la estadística se destacan las siguientes:

a) La estadística en el periodismo

En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y estudios de
investigación, que nos entregan preguntas y respuestas frente a determinados sucesos o situaciones de
interés público.

La encuesta periodística de opinión pública: Un periodista pregunta a las personas que se encuentran en
los alrededores de la Asamblea Legislativa:

¿La opinión de los entrevistados


Característica de los
Preguntas representa el sentir de la
entrevistados
población salvadoreña?
¿Se debe aprobar la ley contra la Personas que han llegado Probablemente los datos no sean
minería metálica? a la Asamblea Legislativa, “representativos” de todo El
¿Los diputados deben aprobar la ley porque les interesa el Salvador, debido a que las
del agua? tema y representan a un entrevistas se realizaron a un
¿Se debe aprobar más dinero para grupo muy reducidos de grupo de personas sumamente
cubrir los compromisos del gobierno? ciudadanos. reducido.

La encuesta de opinión calificada: Un presentador de un medio de comunicación entrevista a un panel de


expertos:

¿La opinión de los entrevistados


Característica de los
Preguntas representa el sentir de la
entrevistados
población salvadoreña?
¿Se debe aprobar la ley contra El panel de entrevistados está El panel de expertos no
la minería metálica? constituido por un grupo de representa a la población de El
¿Los diputados deben aprobar personas seleccionadas por su Salvador, pero sus respuestas
la ley del agua? preparación, su prominencia o por generan opinión en la población.
¿Se debe fortalecer los las funciones que desempeñan, Las autoridades pertinentes e
programas sociales que características que otorgan interesadas en estos estudios
impulsa el gobierno? credibilidad y validez a las pueden adoptar las medidas
opiniones sobre el tema tratado. correctivas, si este el caso.

5
El profesional de la comunicación en la actualidad debe entender la importancia y el impacto que las cifras
numéricas causan en la audiencia, por ello se requiere un entendimiento básico de terminología estadística.

b) La estadística en la política

Son conocidas las famosas encuestas de tipo político, que entregan una orientación de la intención de
voto, de la aceptación de un candidato, del impacto de un programa o proyecto de Estado, etc. También
de todos es conocido que al aproximarse la fecha de las elecciones de cargos públicos (presidente,
diputados, alcaldes, etc.) aparecen diferentes casas encuestadoras presentando la opinión de la población
salvadoreña sobre el apoyo o no a cierto partido político o candidato.

c) La estadística en la publicidad

Cuando las grandes marcas trasnacionales y/o nacionales diseñan slogans, música y colores en sus
comerciales, lo único que buscan es que la gente adquiera los productos y/o servicios que ofrecen.

Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una de ellas,
hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de lograr el éxito de
ventas deseado.

d) La estadística en la economía y las finanzas

En la economía se utiliza como una herramienta de predicción para pronosticar el comportamiento futuro,
por ejemplo, de los precios de los metales (oro, plata, cobre) tomando como base el comportamiento
pasado de los precios de los mismos.

También, sirve para estudiar el comportamiento de la bolsa de valores, la demanda de energía eléctrica
de una región o país, el análisis del costo de la canasta básica, etc. En general, los estadísticos y los
economistas por lo regular se sienten magos que creen predecir o conocer el comportamiento futuro de
cierto fenómeno.

Ejemplo 1.1. En El Salvador, la Unidad de Transacciones, S. A. de C. V. (UT) es la empresa Administradora


del Mercado Mayorista y la encargada de realizar el despacho de energía eléctrica a medida que la
demanda se presente, por lo que tiene que realizar pronósticos de demanda eléctrica precisos que
permitan desarrollar programas de operación que prevén el uso de los recursos de las unidades
generadoras de energía de manera eficaz y eficiente en horizontes tanto de corto plazo (semanal) como
mediano plazo (periodos de 52 semanas). Actualmente la UT cuenta con una herramienta para realizar el
pronóstico de mediano plazo (52 semanas), la cual se basa en un modelo econométrico, y consiste en
estimar el Producto Interno Bruto (PIB). En el 2012 un estudiante de Maestría en Estadística de la
Universidad de El Salvador, encontró un modelo ARIMA que mejore las predicciones de demanda de
energía eléctrica en El Salvador y evitar altos errores de pronóstico que ocasionan pérdidas tanto
económicas como una deficiencia en la administración de los recursos energéticos. Es evidente que el
buen uso de las herramientas estadísticas permite obtener resultados con menor error.

e) La estadística en la banca y seguros

El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las cantidades
que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia, la predicción

6
adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la reducción del riesgo
que se asume. A continuación se presentan algunas situaciones de estudio y se espera que los especialistas
completen las características.

Situaciones Características a considerar


Sistemas de concesión de tarjetas de crédito y fijación de su
límite
Tipologías de clientes en una compañía telefónica
Análisis de colas para brindar un servicio de calidad en una
agencia bancaria

f) La estadística en Ciencias Sociales

Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos de la informática
y aplicaciones estadísticas. Por ejemplo, en El Salvador, se ha elaborado el mapa de pobreza, donde se ha
interrelacionado una gran cantidad de variables de diferentes áreas: educativas, económicas, salud, entre
otras. También, se ha hecho investigación sobre los factores que están asociados al rendimiento
académico de los estudiantes.

g) La estadística en Ciencias Biológicas

En el área de las ciencias biológicas, interesa entre otros, estudiar el comportamiento de ciertas plantas y
sus cruces a fin de determinar cómo se relacionan genéticamente, hablando de Genotipo y Fenotipo.

Otros ejemplos:

a) Efectividad de la utilización de barreras naturales (filas de árboles plantados en los límites del
terreno) como medio de prevenir las plagas de insectos o aves sobre las plantaciones y así
disminuir la utilización de pesticidas: y, determinación de los niveles óptimos de utilización de los
fertilizantes.
b) Cruce de un gato negro (NN) con uno gris (nn), en la primera generación se obtienen gatos negros
(Primera ley de Mendel).

En la primera generación se obtiene el 100% de gatos negros, aunque estos gatos tienen el gen de
N: dominante y gen del n: recesivo.

7
c) En la segunda generación, ¿qué porcentaje de gatos grises se obtienen?

Al observar los cruces y los genes dominantes se concluye que en la segunda generación se obtiene
el 75% de gatos negros y el 25% de gatos grises. Esto es la segunda ley de Mendel.

h) La estadística en las Ciencias Médicas

Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, el grado de eficacia de
un medicamento, la propagación de cierta enfermedad, entre otras.

Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística, haciendo un


recorrido por diversas áreas del conocimiento humano, con el fin de conocer cómo se relacionan con las
diversas ciencias. Evidentemente, existen, muchas disciplinas donde se aplica la estadística, que no han
sido consideradas en este apartado, por ejemplo, las ingenierías, la pintura, la música, etc. Finalmente, es
de resaltar que en todos los temas donde se analice información está presente la estadística.

2. Escalas de medición
La medición puede definirse como la asignación de números a objetos y eventos de acuerdo con ciertas
reglas; la manera como se asignan esos números determina el tipo de escala de medición. Las escalas de
medición comúnmente conocidas son: nominales, ordinales, de intervalos y de razón.

Escalas nominales

Ejemplos 1.2.

1. Si vas a comprar pintura azul en la ferretería te presentan una escala con diferentes tonalidades
del color azul y cada tonalidad posee un número, pero este número sólo es para facilitar al
vendedor identificar el color solicitado entre cientos de colores.
2. En muchas solicitudes se le asigna el número 1 al sexo masculino y al número 2 al femenino y esta
clasificación sólo es para facilitar los cómputos y manejos de información estadística, pero no
quiere decir que las personas de sexo masculino tengan más o menor valor que las del sexo
femenino.

8
3. El número de DUI de los salvadoreños es un código para identificar a las personas.

En la escala nominal, las unidades observadas se agrupan en clases o categorías excluyentes según
determinada propiedad, con lo que se define una partición sobre el conjunto de tales unidades. Los
números que se utilizan para efectos de identificación en una escala nominal nunca se utilizan para llevar
a cabo los procedimientos matemáticos de suma, resta, multiplicación y división; la única operación
matemática permitida es el conteo.

Escalas ordinales

Ejemplos 1.3.

1. Se realiza una carrera de atletismo sin medir el tiempo que tarda cada participante, en este caso
se puede saber quién llegó primero, segundo y tercero, pero no se puede saber con precisión la
velocidad entre un corredor y otro. La diferencia que hay entre el primero y el segundo no
necesariamente es igual a la que hubo entre el segundo y el tercero.
2. En un determinado grupo escolar se seleccionan los cinco estudiantes con el promedio más alto y
resulta que Esteban quedó tercero con un promedio de 8.9, seguido de Jorge con 8.8 y, luego
Leticia con 8.5. A Esteban, como primero, se le asigna el número 1, pero esta designación numérica
sólo indica su posición con relación a los otros cuatro alumnos. Se sabe que Esteban tiene un mejor
promedio que Jorge y que su promedio es superior que el de Leticia. Sin embargo, no se puede
saber hasta qué punto es mejor su promedio comparado con los otros.
3. Etapas de desarrollo de los seres humanos: prenatal, infancia, niñez, adolescencia, juventud,
adultez y ancianidad.

Las escalas ordinales surgen a partir de la operación de ordenamiento y se utilizan para clasificar a las
personas, eventos u objetos en una posición con relación a cierto atributo, pero sin indicar la distancia que
hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo
que se está clasificando. Con las escalas ordinales no se pueden llevar a cabo las operaciones aritméticas
de suma, resta, multiplicación y división.

Escalas de intervalos

Ejemplos 1.4.

1. La temperatura en grados centígrados (°C) de una persona sana. La variación de la temperatura


normal dependerá de cada persona o del momento del día. Por ejemplo: A las 5 de la mañana la
temperatura está más baja; y, a las 3 de la tarde, probablemente alcanza su valor más alto.
Considerando como normal la variación entre 35 °C y 37.5 °C. Observe que, si se selecciona una
persona al azar y se le mide su temperatura, esta puede tomar cualquier valor entre 35 °C y 37.5 °C.
En este ejemplo qué interpretación se da al valor (cero), la elección del origen (cero) es arbitraria,
no implica que realmente haya cero (ninguna) temperatura.
2. Ubicación en una carretera respecto de un punto de referencia (kilómetro 17 de la carretera
Panamericana). Nuevamente qué interpretación se da al valor (cero), la elección del origen (cero)
es arbitraria, no implica que realmente haya cero (ninguna) distancia en el kilómetro cero.

9
3. La puntuación obtenida en pruebas de IQ (Coeficiente Intelectual). La escala de inteligencia posee
un punto cero, pero administrando cualquier tipo de prueba que intente medir la inteligencia,
nunca va a encontrar un ser humano con cero inteligencia. Nuevamente, concluimos que la
elección del origen (cero) es arbitraria.

Las escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del atributo
que representan y proveen intervalos iguales entre las unidades de medida. Además, no poseen un punto
cero absoluto o verdadero ya que el mismo es establecido por convención de forma arbitraria por los
expertos en el área o materia de estudio y no implica la ausencia del atributo o la propiedad en cuestión.

Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los puntos de la
escala. Así, por ejemplo, en la escala de temperatura centígrados puede decirse que la distancia entre 25° y
30 °C es la misma que la existente entre 20° y 25° C, pero no puede afirmarse que una temperatura de 40° C
equivale al doble de 20° C en cuanto a intensidad de calor se refiere, debido a la ausencia de cero absoluto.

Escalas de razón1

Ejemplos 1.5.

1. Estatura de las personas o largo de una columna. Se observa que, si una columna mide seis metros,
este es el doble del largo de otra columna que mide tres metros. Si una columna mide 0 metros,
esta columna no existe (tiene cero de largo)
2. Litros de agua consumidos por persona al día.
3. Número de hijos en una familia. Si una familia tiene 4 hijos, es el doble de hijos de otra familia que
tiene 2.

La escala de razón o cociente se diferencian de la de intervalos en que el punto cero no es arbitrario y


corresponde a una total ausencia de la característica estudiada. Además, pueden llevarse a cabo las
diferentes operaciones aritméticas.

A manera de conclusión es importante tener siempre presente la escala de medición que se está usando,
pues no todos los procedimientos estadísticos son apropiados para cualquier análisis.

Ejemplo 1.6. Indicar el tipo de escala de las siguientes expresiones:


Características Escala
Niños, jóvenes, adultos
Ingeniería Eléctrica, Mecánica, Civil, Industrial
Calificaciones de un grupo de estudiantes
Directiva de sexto grado: Presidente, vicepresidente, tesorero y secretario
Guatemalteco, salvadoreño, hondureño, nicaragüense
Número de carné de los estudiantes
Velocidad de un auto en la carretera

1 En la mayoría de textos estadísticos se usa la escala de razón, para obtener una escala que considere el cero absoluto y se
diferencie de la escala de intervalo. Además, la escala de razón compara dos magnitudes que pueden tener diferentes unidades
(cero salario mensual, compara dinero y tiempo), sin embargo, en el Módulo 6, Razones y Proporciones, se estudió el concepto de
razón en un sentido más amplio.

10
3. Variables y tipos de variables
Las variables estadísticas son características que poseen todas las unidades del universo o población en
estudio.

Sea U el universo o población a investigar, formado por las unidades 𝑢1 , 𝑢2 , 𝑢3 , . . . , 𝑢𝑁 , donde N representa
el tamaño de la población, el conjunto universal es:

U = {𝑢1 , 𝑢2 , 𝑢3 , . . . , 𝑢𝑁 }

Si el universo fuera los centros educativos públicos de El Salvador, entonces las 𝑢𝑖 representan los centros
educativos y las variables que se pueden investigar son: el nombre, la dirección, el teléfono, la región
donde está ubicado, número de alumnos, tipo de administración, número de profesores, entre otras.

Las variables según el periodo de tiempo en que se miden se clasifican en transversales o longitudinales.
Una variable es de corte transversal cuando los resultados de la medición están referidos a un mismo
momento o período de tiempo.

Ejemplos 1.7. Variables de corte transversal

1. Ingresos de los hogares de El Salvador en un mes determinado.


2. Ventas de las empresas de la industria manufacturera en un año determinado.

Una variable es de corte longitudinal o también llamada serie temporal, cuando los datos corresponden a
diferentes momentos o períodos de tiempo, a intervalos regulares (misma amplitud de tiempo que
transcurre en tomar las diferentes mediciones: diarias, semanales, mensuales, trimestrales, anuales, etc.).

Ejemplos 1.8. Variables longitudinales

1. La tasa de desempleo trimestral en un determinado país, durante los últimos 10 años.


2. El Producto Interno Bruto anual de un determinado país, durante los últimos 20 años.

Las variables dependiendo del tipo de datos que toma se clasifican en:

Cualitativas o atributos
Variables 
Cuantitativas : Discretas o Continuas

Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen diferentes
cualidades que poseen las unidades objeto de estudio. Por ejemplo: sexo, estado civil, color de los ojos,
entre otras. Las variables cuantitativas están formadas por datos que toman valores numéricos y pueden
ser discretas, si sólo toman un número entero de valores o la distancia entre dos datos consecutivos es
constante, y continuas, si pueden tomar cualquier valor real dentro de un intervalo.

Se utiliza, como notación habitual para las variables estadísticas, las letras mayúsculas del alfabeto: X, Y, Z
y los valores que toman las variables se representan con las letras minúsculas x, y, z.

11
4. Población y muestra, selección aleatoria de una muestra
Analiza la siguiente situación:

Los titulares del Ministerio de Salud quieren saber cuántos niños nacidos en los últimos 6 meses han sido
vacunados y cuántos no, y las variables asociadas (nivel socioeconómico, lugar donde se vive, educación),
con el fin de tomar decisiones para formular estrategias de vacunación y mensajes dirigidos a persuadir la
pronta y oportuna vacunación de los niños. Para esta situación, responder los siguientes literales:

a) Definir la población objeto de estudio


b) ¿Es posible investigar toda la población o es recomendable analizar una muestra?
c) Definir un procedimiento aleatorio de selección de la muestra.

Análisis de la situación:

a) Población (N): Mujeres de El Salvador que en los últimos 6 meses han tenido hijo(a)

b) El total de mujeres que han dado a luz en los últimos 6 meses son muchas (según datos del MINSAL
son más de 50,000). Para lograr entrevistar a todas las mujeres de la población en estudio se
requiere de mucho recurso humano, económico y tiempo; por tanto, es recomendable tomar una
muestra aleatoria representativa de la población.
c) Procedimiento aleatorio de selección de la muestra.

1. Crear una base de datos con la información de todas las mujeres de El Salvador que han dado
a luz en los últimos 6 meses (suponer que hay 50,000).
2. Definir el número de mujeres a entrevistar (tamaño de la muestra n). Para resolver esta
situación puede utilizar fórmulas matemáticas, con base al tipo de muestreo a utilizar (el
estudio de los diferentes tipos de muestreo está fuera de los objetivos de este módulo).
Algunos textos estadísticos sugieren que con muestras de tamaño entre un 5% y 10% de los
elementos de la población, se obtienen margen de error aceptable. En esta situación, se
considerará el 5%, así:

𝑛 = 50,000 ∗ 0.05 = 2,500

12
3. Listar del 1 al 50,000 las unidades de la población (madres que han dado a luz en los últimos
6 meses). Generar 2,500 números aleatorios entre 1 y 50,000, para ello puede utilizar una
tabla de número aleatorios, seleccionar aleatoriamente de una urna los 2,500 números o
utilizar la hoja de cálculo de Excel para generar una muestra aleatoria de 2,500 números.

Comentario de la situación problema. Este tipo de estudio, donde se hace una asociación entre variables,
cuyos resultados servirán de información para tomar decisiones políticas que afectarán a una población,
se logra por medio de una investigación por encuestas y definitivamente a través de una muestra
probabilística, diseñada de tal manera que los datos pueden ser generalizados a la población con una
estimación precisa del error que pudiera cometerse al hacer tales generalizaciones.

Población. Un conjunto de unidades (personas, establecimientos, empresas, etc.) respecto de las cuales
se desea conocer alguna o algunas de sus características para sacar conclusiones.
Parámetro. Es una cantidad numérica calculada sobre las unidades de una población y resume los valores
que esta toma en algún atributo.
Muestra. Un subconjunto de una población determinada, y las conclusiones que se obtengan de dicha
muestra solo podrán referirse a la población en referencia. Una muestra representativa contiene las
características relevantes de la población en las mismas proporciones que están incluidas en tal población.
En consecuencia, muestra y población son conceptos relativos. La población es un todo y la muestra es
una fracción o segmento de ese todo.
Estadístico. Es una cantidad numérica calculada sobre las unidades que pertenecen a la muestra y que
resume su información sobre algún aspecto. Se usa para estimar un parámetro.

Procedimiento de selección de una muestra aleatoria: Al elegir una muestra aleatoria se espera conseguir
que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez
obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población.

Con frecuencia leemos y oímos hablar de “muestra representativa”, “muestra al azar”, “muestra aleatoria”
como si con los simples términos se pudiera dar más seriedad a los resultados. En realidad, pocas veces se
puede medir a toda la población, por lo que obtenemos o seleccionamos una muestra y se pretende que
este subconjunto sea un reflejo fiel del conjunto de la población. Todas las muestras deben ser
representativas, por tanto, el uso de este término es por demás inútil. Los términos al azar y aleatorio
denotan un tipo de procedimiento mecánico relacionado con la probabilidad y con la selección de
elementos, pero no logra esclarecer tampoco el tipo de muestra y el procedimiento de muestreo.

Básicamente categorizamos a las muestras en dos grandes ramas: las muestras no probabilísticas y las
muestras probabilísticas2. En estas últimas todos los elementos de la población tienen la misma posibilidad
de ser escogidos. Esto se obtiene definiendo las características de la población, el tamaño de la muestra y
a través de una selección aleatoria y/o mecánica de las unidades de análisis.

En las muestras no probabilísticas, la elección de los elementos no depende de la probabilidad, sino de


causas relacionadas con las características del investigador o del que selecciona la muestra. Aquí el

2
En este dosier se presentan ejemplos de muestras probabilistas.

13
procedimiento no es mecánico, ni con base en fórmulas de probabilidad, sino que depende del proceso
de toma de decisiones de una persona o grupo de personas y, desde luego, las muestras seleccionadas por
decisiones subjetivas tienden a estar sesgadas.

5. Estadística descriptiva y estadística inferencial


Al inicio de esta unidad se mencionó que la estadística trata del recuento, ordenación y clasificación de
los datos obtenidos en las observaciones, para poder hacer comparaciones y sacar conclusiones o hacer
predicciones. Bajo este contexto, la estadística se divide en dos áreas: Estadística descriptiva y estadística
inferencial.

Estadística descriptiva: permite organizar y presentar un conjunto de datos de manera que describan en
forma precisa las variables analizadas haciendo rápida su lectura e interpretación.

Ejemplos 1.9.

1. Durante los últimos tres días de la pausa pedagógica se desarrollaron dos talleres diarios de
matemática.
2. La encuesta Cid Gallup informa una ventaja de 5% para el oficialismo en las próximas elecciones.

Estadística inferencial: Es una parte de la estadística que generaliza los resultados de una muestra a los
de una población total. Generalmente el análisis estadístico inferencial se lleva a cabo para mostrar
relaciones de causa y efecto, así como para probar hipótesis y teorías científicas.

Ejemplos 1.10.

1. El BCR informa que en el 2017 el PIB tendrá un incremento del 2%.


2. La DIGESTYC informa que la población de El Salvador en 2025 será de 7,057,892.

6. Fuentes y recolección de la información estadística


De manera general encontramos que existen dos posibilidades de tener acceso a la información, una de
ellas es de manera inmediata a través del contacto directo con las unidades de la población; la otra es a
través de la experiencia ajena, la cual se constituye a su vez en fuente de información. Bajo estas premisas,
se llamará información primaria a aquella que el investigador recoge a través de un contacto directo con
su objeto de estudio. De igual manera se llamará información secundaria a aquella que el investigador
obtiene a partir de investigaciones realizadas por otros investigadores con otros propósitos, y que es
registrada de alguna manera ya sea en libros, bases de datos, material fílmico, etc. El investigador que
recurre a información secundaria se ve obligado a trabajar con instrumentos diseñados con propósitos
diferentes a los de su investigación.

La información primaria, por lo general, permite un mayor control sobre la investigación. La pregunta es: ¿En
qué situaciones de investigación es preferible recurrir a la información primaria y en cuáles a la información
secundaria? La respuesta no es inmediata. Por ejemplo, el trabajo de los auditores contables se basa en la
información que se encuentra registrada en los libros contables que han elaborado otras personas.

14
Fuentes de datos primarias: Son las publicaciones y trabajos hechos por personas o instituciones que han
recolectado directamente los datos.
Fuentes de datos secundarias: Son las publicaciones y trabajos hechos por personas o entidades que no
han recolectado directamente la información.

Ejemplo 1.11. El profesor de matemática quiere conocer el peso de los alumnos de su grado, a fin de
constatar si hay alumnos con desnutrición. Para llevar a cabo la investigación tiene dos opciones:

a) Pesar a cada alumno, en este caso se utiliza una fuente primaria.


b) Tomar el peso de los alumnos del historial clínico que lleva la enfermera, en ese caso utilizaría los
resultados de fuentes secundarias.

¿Qué información debe utilizar el profesor, primaria o secundaria? ¿Por qué?

Recolección de información:

Los procedimientos de recolección para la elaboración de estadísticas son:

1) Censo.
2) Muestreo.
3) Registros administrativo.

En una investigación estadística habitualmente se utiliza un solo procedimiento, pero en ocasiones se


suelen combinar dos o más procedimientos para hacer una mejor utilización de la información existente.

El censo es una investigación estadística en la que se obtiene información de la totalidad de las unidades
que componen la población.

Ventajas

1. La información obtenida puede desagregarse y publicarse por diversos criterios de clasificación y


tabular los resultados con cualquier grado de detalle, incluso contemplando categorías de
clasificación con escasa frecuencia.
2. A partir de la fecha de realización de un censo, los datos se pueden actualizar periódicamente
mediante agregados o disminuciones de las variaciones establecidas, utilizando los registros
administrativos.
3. Permite la preparación de los marcos de referencia de diferentes diseños muestrales que facilitan
la selección de la muestra.
4. La credibilidad de las estadísticas que se obtienen mediante censo es mayor que la de cualquier
otro tipo de procedimiento de recolección.

Desventajas

1. Es necesaria una compleja organización que abarque todo el universo por investigar, evitando
omisiones y duplicaciones.
2. Exige el empleo de gran cantidad de recursos humanos, materiales y financieros.

15
El muestreo es un procedimiento de investigación estadística que pretende estudiar el universo de interés
con base en la información que se obtiene de una parte de las unidades que componen dicho universo. Es
el procedimiento mediante el cual se selecciona una muestra.

Ventajas

1. Se recolecta únicamente la información que se requiere para desarrollar la investigación


planteada.
2. No se requiere una compleja organización para la recolección y procesamiento de la información.
3. No se requiere el empleo de gran cantidad de recursos humanos, materiales y financieros.

Desventajas

1. Las medidas que se obtienen están sujetas a márgenes de error.


2. La información no se utiliza para análisis futuros, ya que la información es válida para el espacio y
tiempo en que se recolectó.

El registro administrativo es un directorio de unidades (personas, viviendas, empresas, etc.) creado


exclusivamente para fines administrativos de registro, de recaudación, de fiscalización o de control. Son
las fuentes secundarias más utilizadas por los investigadores debido al alto grado de validez de la
información.

Ventajas

1. No requiere de ninguna organización especial de campo para capturar los datos. Los gastos se
limitan a los aspectos de procesamiento de la información.
2. Si el registro es completo, entonces se trabaja con todos los datos de la población.

Desventajas

1. La información se obtiene como un subproceso de la gestión administrativa, y en muchos casos,


las definiciones y conceptos utilizados para obtenerla no coinciden con los requeridos para fines
estadísticos.
2. Los cambios en los resultados de la gestión administrativa pueden influir en la calidad de las
informaciones que se utilicen con fines estadísticos.

La elección de la información a utilizar dependerá del balance entre las ventajas y desventajas de los
diferentes métodos en relación a las condiciones particulares de la investigación. Se deberán maximizar
las ventajas y en lo posible eliminar las desventajas.

16
Análisis Estadístico

1. Tablas de frecuencias
1.1. Análisis de datos cualitativos o categóricos

Muchas veces, la información que se comparte en el diario vivir pasa desapercibida. Sin embargo, con
estrategias adecuadas y con el conocimiento pertinente esta información puede ser muy útil. El análisis
de datos categóricos se ocupa del estudio de variables que no son medibles (color, nacionalidad,
enfermedades, sexo, afiliación política, etc.), denominadas también atributos o caracteres cualitativos. A
continuación se presenta una situación en concreto de un caso del acontecer cotidiano: Los accidentes de
tránsito.

Situación

El Viceministerio de Transporte a través de la División de Tránsito Terrestre de la Policía Nacional Civil, ha


reportado las causas principales que ocasionaron los accidentes de tránsito el primer día de vacación de
Semana Santa de 2017. A continuación, se muestran los casos:

Distracción del conductor Distracción del conductor Velocidad excesiva


No guardar distancia reglamentaria No guardar distancia reglamentaria Distracción del conductor
Velocidad excesiva Velocidad excesiva Invadir carril
No guardar distancia reglamentaria Distracción del conductor Velocidad excesiva
No respetar señal de prioridad No guardar distancia reglamentaria Invadir carril
No guardar distancia reglamentaria Velocidad excesiva Velocidad excesiva
No respetar señal de prioridad Invadir carril Ebriedad
No guardar distancia reglamentaria No respetar señal de prioridad No guardar distancia reglamentaria
No guardar distancia reglamentaria No respetar señal de prioridad Distracción del conductor
Invadir carril No guardar distancia reglamentaria No respetar señal de prioridad
Distracción del conductor Velocidad excesiva No guardar distancia reglamentaria
No respetar señal de prioridad Invadir carril No guardar distancia reglamentaria
Distracción del conductor Velocidad excesiva No respetar señal de prioridad
Distracción del conductor Distracción del conductor Distracción del conductor
No guardar distancia reglamentaria Invadir carril Distracción del conductor

17
No guardar distancia reglamentaria Velocidad excesiva Invadir carril
Distracción del conductor Invadir carril Invadir carril
No respetar señal de prioridad Invadir carril Distracción del conductor
Distracción del conductor Invadir carril Invadir carril

¿Qué hacer con los datos brutos? Seguramente hasta este momento parece que todo va bien, pues se ha
entendido qué tipo de datos se han proporcionado y qué significa cada uno de ellos. Pero ahora es
necesario dar el siguiente paso y seguramente surgirán preguntas como: ¿Ahora qué hago con estos datos?
¿Cómo se ordenan? ¿Se podrá hacer algún tipo de análisis? ¿Qué conclusiones voy a dar? ¿Qué esperarán
que se muestre con estos datos? ¿Será realmente útil mostrar un gráfico, mostrar una tabla o cifras
puntuales? ¿Qué tipos de análisis estadísticos existen?

Lo primero que se debe tener en cuenta es que todo lleva un orden y todo se hace por partes. No se debe
comenzar por el final, sino más bien dejar que las ideas fluyan y que eso permita ir descubriendo la riqueza
de los datos y todas las maravillas que se pueden hacer con ellos.

¿Cómo se organizan y se presentan los datos? Una vez que se han recolectado los datos necesarios, es
sumamente importante saber organizarlos o agruparlos de alguna manera o mecanismo para poder
“manejarlos” de manera más eficiente y eficaz. Sin la estadística, los datos que se han recolectado para
una investigación podrían resultar como una masa caótica de números. La presentación de estos datos en
tablas permite apreciarlos con mejor claridad, permitiendo explorar la información antes de analizarla.
Mientras que las tablas aportan una descripción más detallada de los datos, los gráficos permiten observar
los patrones generales.

Se debe resaltar que existen casos en donde es un poco estresante estar visualizando los datos con
nombres de categorías tan largas como es el caso planteado de los accidentes de tránsito. Muchas veces
se recurre a hacer una “codificación” tratando de reducir el tamaño de las respectivas categorías como a
continuación se muestra:

Código Categorías
Causa 1 Distracción del conductor
Causa 2 No guardar distancia reglamentaria
Causa 3 Invadir carril
Causa 4 Ebriedad
Causa 5 No respetar señal de prioridad
Causa 6 Velocidad excesiva

Tabla de distribución de frecuencias

Para la construcción de la tabla de distribución de frecuencias de datos categóricos se comienza por


identificar todos los posibles nombres, códigos, identificadores o categorías que aparecen en los datos.

Muchas veces se tendrá una misma categoría, o la otra opción de categoría se presenta en varias ocasiones
dentro de los datos y así sucesivamente para cada una de las categorías. A este número de veces que aparece
cada categoría se le llama Frecuencia de la categoría o frecuencia absoluta o simplemente frecuencia.

18
Una vez que se han obtenido las frecuencias, es importante conocer el peso que tiene cada una de las
categorías respecto al total de los datos. Esto consiste en obtener el cociente entre la frecuencia absoluta
y el número de observaciones realizadas, a esto se le llama frecuencia relativa.

Categoría Frecuencia Frecuencia Relativa


Distracción del conductor 14 14/57 = 0.24
No guardar distancia reglamentaria 13 13/57 = 0.23
Invadir carril 12 12/57 = 0.21
Ebriedad 1 1/57 = 0.02
No respetar señal de prioridad 8 8/57 = 0.14
Velocidad excesiva 9 9/57 = 0.16
n = 57 Suma: 1

Interpretación: A partir de la tabla de distribución de frecuencias anterior se pueden observar ciertos


aspectos como:

• Las primeras tres causas de accidentes de tránsito son: 1) Distracción del conductor, 2) no guardar
distancia reglamentaria y 3) invadir carril.
• Las primeras tres causas de accidente de tráfico presentan registros bastante similares.
• La causa menos registrada por accidentes en el período vacacional fue por ebriedad.

El análisis de datos categóricos se ocupa del estudio de variables que no son medibles (color, nacionalidad,
enfermedades, sexo, afiliación política, etc.), denominadas también atributos o caracteres cualitativos. Se
distingue entre datos en escala nominal (sexo, estado civil, distintas ramas de actividad económica,
profesión, ideología política...) y datos en escala ordinal (nivel de estudios, estratificación de familias por
su capacidad de consumo, nivel de autoestima...), cuando se puede establecer un determinado orden o
rango entre las observaciones.

1.2. Análisis de datos discretos

Hasta este punto se ha estudiado como construir una tabla de distribución de frecuencias de datos que
tienen naturaleza cualitativa o categórica. Sin embargo, se puede aplicar la tabla de distribución de
frecuencias cuando los datos son números. Este tipo de variables se denominan cuantitativas y se clasifican
en: Variables cuantitativas discretas y Variables cuantitativas continuas.

Un caso interesante de estudiar, que en El Salvador ha sido siempre un fenómeno geológico común y sigue
generando temor en la población por su difícil predicción de ocurrencia y por las consecuencias que
conlleva, es el tema de Sismos.

Situación

En el Ministerio de Medio Ambiente y Recursos Naturales de El Salvador (MARN) se analiza la información


relacionada a sismos locales y regionales registrados de manera periódica y con los diferentes parámetros
que los acompañan. Por ejemplo: localización, coordenadas, magnitud, intensidad, profundidad, entre
otros. A continuación se presentan los datos de la cantidad de sismos registrados (locales y regionales) en
el mes de marzo del año 2015 (cada dato corresponde a cada uno de los días del mes):

19
1 4 4 8 7 8
4 4 5 8 8 3
3 0 5 2 12 6
3 5 11 6 3 2
6 9 4 12 6 2
0

¿Qué hacer con los datos brutos? Lo más lógico es aplicar la misma técnica utilizada para datos
categóricos: La tabla de distribución de frecuencias. Sin embargo, se debe tener ciertas precauciones para
notar las diferencias que poseen los datos discretos con los datos categóricos.

Tabla de distribución de frecuencias

Para la construcción de la tabla de distribución de frecuencias de datos discretos se comienza por identificar
todos los posibles valores que aparecen en los datos. Ahora ya no son categorías sino valores o números, ya
que se está trabajando con una variable cuantitativa. A esta columna se le llama variable y generalmente se
tiende a representar con 𝑥𝑖 u otra letra. En el análisis de tablas de frecuencias de datos discretos cada valor
se repite determinado número de veces y a ello se le llama frecuencia absoluta o simplemente frecuencia.

Muchas veces, además de las frecuencias relativas, se está interesado en conocer la cantidad de todos
aquellos casos o eventos que han ocurrido un número de veces menor o igual a un determinado valor de
referencia. Es aquí que se define la frecuencia absoluta acumulada que no es más que la suma acumulada
de las frecuencias absolutas de los valores menores o iguales al valor de referencia. Para conocer la
proporción de todos aquellos casos o eventos que han ocurrido un número de veces menor o igual a un
determinado valor de referencia se calcula la frecuencia relativa acumulada, que consiste en la suma
acumulada de las frecuencias relativas de los valores menores o iguales al valor de referencia.

De esta forma para la cantidad de sismos ocurridos en El Salvador en marzo de 2015 se tiene:

Variable Frecuencia Frecuencia relativa F. Acum. Abs. F. rel. Abs.


0 2 2/31 = 0.065 2 0.065
1 1 1/31 = 0.032 3 0.097
2 3 3/31 = 0.097 6 0.194
3 4 4/31 = 0.129 10 0.323
4 5 5/31 = 0.161 15 0.484
5 3 3/31 = 0.097 18 0.581
6 4 4/31 = 0.129 22 0.71
7 1 1/31 = 0.032 23 0.742
8 4 4/31 = 0.129 27 0.871
9 1 1/31 = 0.032 28 0.903
11 1 1/31 = 0.032 29 0.935
12 2 2/31 = 0.065 31 1
n = 31 Suma: 1

20
Supóngase que se tiene una muestra de tamaño n, donde la variable estadística X toma los valores
distintos x1, x2 ,…, xn. Se debe empezar por ordenar los diferentes valores que toma la variable estadística
(en orden normalmente creciente).

En el caso de las variables discretas, generalmente, un mismo valor de la variable aparecerá repetido más
de una vez (es decir k < n). De forma que el siguiente paso es la construcción de una tabla en la que se
indiquen los valores posibles de la variable y su frecuencia de aparición (las veces que aparece el mismo
valor).

Interpretación: de la tabla de distribución de datos discretos:

• El valor que toma la variable (N° de sismos) ahora si tiene un significado o valor cuantitativo y ya
no es solamente una codificación.
• El día que más sismos ocurrieron en marzo de 2015, registró un total de 12 sismos y ocurrió en
dos días.
• El día que menos sismos ocurrieron en marzo de 2015, registró un total de 0 sismos y ocurrió en 2
días.
• La cantidad de sismos diarios que más se repitió en el mes de marzo de 2015 es de 4.

1.3. Análisis de datos continuos

Cuando se tiene una situación donde la variable cuantitativa discreta toma demasiados valores distintos o
los valores de las variables son resultados de mediciones para los cuales no es viable construir una tabla
de distribución de frecuencias simple, se debe comprender la naturaleza de los datos continuos. Para ello,
se plantea una situación referida al sistema educativo de El Salvador.

Situación

El Ministerio de Educación desarrolló en el año 2012 la Prueba de Logros para nivel de Educación Básica
en los centros educativos. Se muestra la lista de las notas que obtuvieron los estudiantes de 6° grado de
los centros educativos del municipio de San Salvador (en adelante se le llamará PAESITA 2012).

4.6 5.3 4.5 4.3 4 4.2 4.8 4 6.1 4.8 6.9 4.2 4.7
5.5 5.9 4.4 5.6 3.6 4.4 4.3 3.7 7 4.8 7.3 3.7 4.3
4.3 7.2 4.1 4.3 3.5 4.2 6.4 4.1 5.3 4.4 4.8 5.1 5.3
4.4 6.2 4.2 5 4 5.7 4.4 5.5 4.3 4.1 7.6 3.8 4.7
4 4.8 4.3 4.6 4 6.1 4.6 5 4.1 4.7 4.8

Al ordenar las notas de menor a mayor se obtienen 28 datos diferentes y al hacer la tabla de distribución
de frecuencias con los datos anteriores quedarían 28 categorías, lo cual no es práctico para su análisis.
Para disminuir el número de categorías se agrupan los datos en intervalos y se ubica cada dato en su
intervalo correspondiente.

Para construir la tabla de frecuencia agrupada se sugiere los siguientes pasos:

21
1. Encontrar la amplitud que tienen los datos, esto es, la diferencia entre el valor más grande con el valor
más pequeño:

𝐴 𝑇 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛 = 7.6 − 3.5 = 4.1

2. Determinar el número de intervalos o clase: usualmente el número de clases lo decide el investigador,


teniendo en cuenta que no debe ser mayor que 15. Lo recomendable es que el número de clases debe
estar entre 8 y 12. Por otra parte, existen reglas empíricas, que permiten tener una idea del número
de clase, por ejemplo, la regla de Sturges, que se define como:

𝑐 = 1 + 3.332 log(𝑛)

Donde: c: Número de clases a construir; log(n): logaritmo base 10 del número de datos de la muestra.

Al aplicar esta regla a la situación planteada se tiene:

𝑐 = 1 + 3.332 log(63) = 6.98 ≈ 7

El número se redondea al entero más próximo (siempre se aproxima hacia delante) ya que son
número de clases las que se quieren definir.

3. Lo último que se debe definir es el ancho o intervalo, es decir cuánto tendrá cada clase de ancho.

𝐴 𝑇 4.1
𝑖𝑐 = = = 0.59 ≈ 0.6
𝑐 7

El método para ir construyendo las clases es a partir del valor más pequeño de los datos,
Intervalo
en este caso 3.5 y sumarle el 𝑖𝑐 , con lo cual tendríamos la primera clase que será: 3.5 –
< 4.1. Notar que el símbolo “<” indica que no se tomará en cuenta el extremo derecho 3.5 - < 4.1
del intervalo. 4.1 - < 4.7
4.7 - < 5.3
De esta manera se construyen las clases o intervalos siguientes: 5.3 - < 5.9
5.9 - < 6.5
6.5 - < 7.1
Ahora que ya se tienen las clases o intervalos, se puede generar la “marca de clases”, 7.1 - < 7.7
esto es el punto medio de cada intervalo. Así:

3.5 + 4.1
𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 = = 3.8
2

Así sucesivamente para cada clase. Estas marcas de clase servirán para realizar algunas medidas de
tendencia central que se estudiarán posteriormente.

Al igual que en el caso de datos discretos, se puede calcular la frecuencia relativa, la frecuencia absoluta
acumulada y la frecuencia relativa acumulada, así:

22
Intervalo Frecuencia Frecuencia relativa Marca de clase F. Abs. Acum. F. rel. Acum.
3.5 - < 4.1 10 0.16 3.8 10 0.16
4.1 - < 4.7 24 0.38 4.4 34 0.54
4.7 - < 5.3 12 0.19 5.0 46 0.73
5.3 - < 5.9 7 0.11 5.6 53 0.84
5.9 - < 6.5 5 0.08 6.2 58 0.92
6.5 - < 7.1 2 0.03 6.8 60 0.95
7.1 - < 7.7 3 0.05 7.4 63 1
n = 63 Suma = 1

Interpretación. De la distribución de clases y frecuencias anterior se destaca:

• Los valores que toma la variable ahora son intervalos, lo cual significa que no necesariamente debe
tomar valores puntuales.
• La mayoría de puntajes de la prueba de logros realizada osciló entre 4.1 y 4.7.
• Más de la mitad de centros educativos evaluados, específicamente 34, obtuvo un puntaje menor a 4.7.
• La máxima nota obtenida por un centro educativo en la prueba de logros está entre 7.1 y 7.7.
• Ningún centro educativo obtuvo una nota menor a 3.5.
• Solamente 5 centros educativos reportan una nota mayor a 6.5.

Si la variable es continua, se definen intervalos dentro de los cuales caerán cada uno de los datos.

¡Nunca olvidar que un dato no puede pertenecer a más de una clase o intervalo!

2. Gráficos para datos estadísticos


Un gráfico estadístico es una representación visual de una serie de datos estadísticos. Es una herramienta
muy eficaz, y tiene las siguientes características:

• Capta la atención del lector.


• Presenta la información de forma sencilla, clara y precisa.
• No induce a error.
• Facilita la comparación de datos y destaca las tendencias y las diferencias.
• Ilustra el mensaje, tema o trama del texto al que acompaña.

2.1. Gráfico de barras

Un gráfico de barras es una representación gráfica en un eje cartesiano, tal que en uno de los ejes se
representa las categorías y en el otro eje se representan las frecuencias de una variable categórica
(cualitativa) o discreta.

La altura de las barras representa la magnitud de los valores asociados a cada categoría de datos. Por
ejemplo, las barras podrían representar:

• Las ventas totales de cuatro tiendas durante un año.

23
• La media de los diámetros de piezas producidas por cuatro máquinas diferentes en una fábrica
durante una semana.
• Los conteos de accidentes de tránsito durante un período del año.

En el apartado 2.1.1 se presentó el ejemplo de las causas principales de accidentes de tránsito del primer
día de vacación de Semana Santa 2017. La tabla de frecuencias correspondiente a esa situación y el gráfico
de barras elaborado para esos datos se muestra a continuación.

Categoría Frecuencia
Distracción del
14
conductor
No guardar distancia
13
reglamentaria
Invadir carril 12
Ebriedad 1
No respetar señal de
8
prioridad
Velocidad excesiva 9

En el eje horizontal se posicionan las distintas categorías de la variable cualitativa o categórica (en el
ejemplo, la causa del accidente) y en el eje vertical se presenta el valor o frecuencia de cada categoría en
una determinada escala (en el ejemplo, la cantidad de accidentes en unidades).

Las categorías que tienen frecuencia similar están representadas por barras con altura similar. La categoría
con mayor frecuencia tiene una barra con la mayor altura.

Del gráfico elaborado puede visualizarse claramente que la distracción del conductor es la principal causa
de accidentes de tránsito mientras que la ebriedad es la causa menos reportada.

La orientación del gráfico de barras puede ser:

• Vertical: las distintas categorías están situadas en el eje horizontal y las barras de frecuencias
crecen verticalmente.
• Horizontal: las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen
usarse cuando hay muchas categorías o sus nombres son demasiado largos.

En un gráfico de barras orientado horizontalmente las categorías pueden ordenarse alfabéticamente


facilitando su búsqueda o por sus frecuencias facilitando la comparación de los datos. Se muestra el
siguiente ejemplo de la cantidad de casos de conjuntivitis bacteriana aguda reportadas por la Unidad de
Vigilancia Epidemiológica del Ministerio de Salud de El Salvador, para la semana 15 del año 2017.

24
Unidad de Vigilancia Epidemiológica - Ministerio de Salud de El Salvador
Casos reportados de conjuntivitis bacteriana aguda
Semana 15 del año 2017
Departamento Frecuencia Departamento Frecuencia
Ahuachapán 24961 La Paz 21921
Santa Ana 39404 Cabañas 12159
Sonsonate 35653 San Vicente 15576
Chalatenango 23716 Usulután 32984
La Libertad 54723 San Miguel 42715
San Salvador 187280 Morazán 17612
Cuscatlán 15931 La Unión 19248

Se presenta el gráfico de barras en orientación horizontal, ordenado por magnitud de frecuencias (menor
a mayor).

Conjuntivitis aguda, Ministerio de Salud


Cabañas
San Vicente
Cuscatlán
Morazán
La Paz
La Unión
Chalatenango
Ahuachapán
Usulután
Sonsonate
Santa Ana
San Miguel
La Libertad
San Salvador

0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000

Fuente: Unidad de Vigilancia Epidemiológica del Ministerio de Salud de El Salvador.

En el gráfico se observa que el departamento de San Salvador es el que reporta la mayor cantidad de casos
(presenta la barra más larga) y en el otro extremo se observa que los departamentos Cabañas, San Vicente
y Cuscatlán son los que reportan la menor cantidad de casos (presentan las barras más cortas).

En los ejemplos anteriores de gráficos de barras se han comparado las magnitudes (cantidad de accidentes,
casos de conjuntivitis bacteriana) asociadas a variables categóricas (causas de accidentes, departamentos).

También se pueden utilizar los gráficos de barras para visualizar la evolución en el tiempo de la magnitud
de una categoría concreta.

25
Producción de café oro uva en El Salvador
Años 2008 a 2016 (miles de quintales)
3000
2500
Miles de quintales

2000
1500
1000
500
0
2008 2009 2010 2011 2012 2013 2014 2015 2016
Fuente: Consejo Salvadoreño del Café. Departamento de Estudios Económicos y Estadísticas Cafetaleras.

En este gráfico puede darse cuenta del comportamiento que ha tenido la producción de café en El Salvador
en los últimos 9 años. El año de mayor producción de café en ese período fue el año 2010. A partir de ese
año se observa una disminución de la producción, habiéndose estabilizado en los últimos 3 años del
período.

Tipos de gráficos de barras:

• Sencillo: Contiene una única serie de datos. Un ejemplo de este tipo de gráfico de barras se presentó
con el ejemplo anterior de la producción de café oro uva en El Salvador.
• Agrupado: Contiene varias series de datos y cada una se representa por un tipo de barra de un mismo
color o textura. Las barras correspondientes a un mismo valor de la variable categórica o cuantitativa
se colocan una al lado de la otra (agrupadas).

Exportaciones e Importaciones
El Salvador 2009 - 2013
15,000
US$ Millones

9,964 10,258 10,772


10,000 7,325 8,416
5,308 5,339 5,491
5,000 3,866 4,499

0
2009 2010 2011 2012 2013

Exportaciones Importaciones
Fuente: El Salvador en cifras. Ministerio de Relaciones Exteriores El Salvador

En el gráfico de barras mostrado, se presentan las series de datos de importaciones y exportaciones


durante los años 2009 a 2013. Las barras de cada año se presentan agrupadas y se diferencian por el color.

26
Se observa del gráfico anterior que las importaciones han ido teniendo un crecimiento más pronunciado
que las exportaciones dentro del periodo 2009-2013.

2.2. Pictograma

Un pictograma es un gráfico que representa mediante figuras o símbolos las frecuencias de una variable
cualitativa (categórica) o discreta.

Al igual que los gráficos de barras suelen usarse para comparar magnitudes o ver la evolución en el tiempo
de una categoría concreta. Las barras están constituidas por símbolos o figuras del mismo tamaño que
representan una cantidad específica (a mayor frecuencia, más acumulación de figuras).

En el gráfico de la derecha se muestran los porcentajes de hogares del país que recibieron remesas del
exterior en el año 2013.

Departamento Porcentaje
Porcentaje de hogares receptores de remesas
Ahuachapán 16.5
Santa Ana 24.9 La Unión
Sonsonate 14.4 Morazán
Chalatenango 34.3 San Miguel
La Libertad 17.9 Usulután
San Salvador 13.5 San Vicente
Departamento

Cuscatlán 16.9 Cabañas


La Paz
La Paz 20.3
Cuscatlán
Cabañas 32.7
San Salvador
San Vicente 27.6
La Libertad
Usulután 31.6
Chalatenango
San Miguel 29.1 Sonsonate
Morazán 35.0 Santa Ana
La Unión 47.8 Ahuachapán
Fuente: Dirección General De
Estadística y Censos. EHPM 2013 0.0 10.0 20.0 30.0 40.0 50.0 60.0
Porcentaje de hogares

En el pictograma se puede observar que las barras correspondientes al porcentaje medido para cada
departamento están construidas con un símbolo que representa un paquete de billetes. Para construir la
barra, se utiliza la cantidad requerida de imágenes según sea su longitud.

La barra correspondiente al departamento de la Unión es la más larga y está compuesta de mayor cantidad
de símbolos; es decir La Unión presenta el mayor porcentaje de hogares que recibieron remesas durante
el 2013. La barra más corta es la correspondiente a San Salvador y por ello está compuesta de menor

27
cantidad de símbolos; es decir San Salvador presenta el menor porcentaje de hogares que recibieron
remesas durante el 2013.

2.3. Gráfico de sectores

Un gráfico de sectores es una representación circular de las frecuencias relativas de una variable cualitativa
(categórica) o discreta que permite su comparación de una manera sencilla y rápida.

Suponga que el Ministerio de Turismo ha publicado una tabla con los conteos de visitantes a 4 centros
turísticos durante las vacaciones de Semana Santa 2017. El gráfico de sectores correspondiente quedaría
como se muestra a continuación.

Cantidad de
Centro turístico
visitantes
Visitantes a centros turísticos
Atecozol 980 Lago de Atecozol
Ilopango 980
Costa del Sol 2160 1430
Ichanmichen 530
Lago de Ilopango 1430
Fuente: Ministerio de Turismo de El
Salvador. Ichanmichen Costa del Sol
530 2160

Se observa que la categoría que tiene la mayor cantidad de visitantes (Costa del Sol), tiene el sector más
grande en el gráfico. Observación similar podemos hacer con la categoría que tiene la menor cantidad de
visitantes (Ichanmichen).

El círculo representa la totalidad que se quiere observar (en el ejemplo, total de visitantes) y cada porción,
llamadas sectores, representan la proporción de cada categoría de la variable (en el ejemplo, centro
turístico) respecto al total. Puede expresarse en valores absolutos o en porcentajes.

Obtención de los ángulos de cada sector:

Para elaborar un diagrama de sectores manualmente, se requiere calcular el ángulo que abarcará cada
uno de los sectores que representa las categorías de la variable. El cálculo del ángulo de cada sector se
Frecuencia del sector
hace a través de la fórmula siguiente: Angulo de sector = Suma total de frecuencias ×360

Centro turístico Cantidad de visitantes Ángulo del sector


Atecozol 980 69°
Costa del sol 2160 152°
Ichanmichen 530 37°
Lago de Ilopango 1430 101°
Total 5100 360°

28
2.4. Histograma

Se usa para representar las frecuencias de una variable cuantitativa continua. En uno de los ejes se
posicionan las clases de la variable continua (los intervalos o las marcas de clase que son los puntos medios
de cada intervalo) y en el otro eje las frecuencias. No existe separación entre las barras.

Considérese la situación planteada en el apartado 2.1.3, en el que se recopilaron datos de la prueba de


logros para los centros educativos de Educación Básica.

Frecuencia Marca de
Intervalo Frecuencia F Abs. Acum. F Rel. Acum.
Relativa clase
3.5 - < 4.1 10 0.16 3.8 10 0.16
4.1 - < 4.7 24 0.38 4.4 34 0.54
4.7 - < 5.3 12 0.19 5.0 46 0.73
5.3 - < 5.9 7 0.11 5.6 53 0.84
5.9 - < 6.5 5 0.08 6.2 58 0.92
6.5 - < 7.1 2 0.03 6.8 60 0.95
7.1 - < 7.7 3 0.05 7.4 63 1
n = 63 Suma = 1

El Histograma correspondiente a los datos de esta tabla se presenta a continuación.

Resultados de Prueba de logros 2012


30
24
Frecuencias

20
12
10
10 7
5
2 3
0
3.5 - 4.1 4.1 - 4.7 4.7 - 5.3 5.3 - 5.9 5.9 - 6.5 6.5 - 7.1 7.1 - 7.7
Intervalos de notas

Algunas características que se observan en el histograma son:

• Las barras no tienen separación entre ellas.


• En el eje horizontal se presentan los intervalos de clase de las notas de la prueba de logros.
• En el eje vertical se colocan los valores de las frecuencias correspondientes a cada intervalo de clase.
• Las notas más frecuentes son las que corresponden al intervalo 4.1 – 4.7

29
Polígono de frecuencias

Si se unen los puntos medios de las bases superiores de las barras del histograma se obtiene el polígono
de frecuencias.

Resultados de Prueba de logros 2012


30
24
25
Frecuencias

20
15 12
10
10 7
5
5 2 3

0
.. 3.5 - 4.1 4.1 - 4.7 4.7 - 5.3 5.3 - 5.9 5.9 - 6.5 6.5 - 7.1 7.1 - 7.7 ..

2.5. Gráficos Bi-direccionales y pirámides poblacionales

Un gráfico de barras bi-direccional tiene orientación horizontal y contiene dos series de datos cuyas barras
de frecuencias crecen en sentidos opuestos. Las más comunes son las pirámides de población.

Matrícula en Educación Básica por nivel 2016

Ciclo III

Ciclo II

Ciclo I

350 300 250 200 150 100 50 0 50 100


Miles de matriculados

Público Privado
Fuente: Censo escolar 2016 MINED El Salvador

En este gráfico bi-direccional se presentan los datos de la variable Matrícula en Educación Básica, que tiene
tres categorías: Ciclo I, Ciclo II, Ciclo III. Obsérvese que al estar las barras en disposición horizontal, los
rótulos de las categorías de la variable aparecen en el eje vertical, mientras que los datos de las frecuencias
de cada categoría aparecen en el eje horizontal. Para esa variable categórica se grafican dos series de

30
datos. Una de ellas se refiere a la matrícula en el sector público y la otra serie se refiere a la matrícula en
el sector privado. Cada serie de datos se diferencia por el color de la barra y crecen en sentidos opuestos.

Pirámide de población

Una pirámide de población es un histograma bi-direccional que muestra la estructura demográfica de una
población, por sexo y edad, en un momento determinado. Por la naturaleza de los datos, es un gráfico que
corresponde a una variable de naturaleza continua. En el eje vertical se posicionan los rangos de edades y
en el horizontal los porcentajes de población de cada rango de edad.

En una de las direcciones se colocan las barras que representan la distribución (% sobre el total de
población) por edad de los varones y en la otra la distribución por edad de las mujeres.

Fuente: VI Censo de Población 2007. DIGESTYC El Salvador

Del gráfico mostrado se puede extraer las siguientes observaciones:

1. La base de la pirámide poblacional es relativamente ancha y comienza a estrecharse a partir del


rango de 15 a 19 años de edad, tanto en los hombres como en las mujeres. Esta tendencia a
estrecharse se mantiene en los rangos de edad siguientes.
2. En los hombres el mayor porcentaje de la población se encuentra en el rango de edad de 10 a 14
años, respecto de los demás rangos de edad. El mismo resultado se observa para la población de
mujeres. Esta característica de la pirámide poblacional coloca a El Salvador entre los países con
población joven.
3. En todos los rangos de edad, el porcentaje de población de mujeres es muy similar al de hombres.

31
2.6. Gráfico de líneas

Un gráfico de líneas es una representación gráfica en un eje cartesiano, tal que en el eje horizontal se
representan los valores o categorías de la variable cuyo comportamiento se quiere observar y en el eje
vertical se colocan los valores que corresponden a cada medición de la variable en estudio.

Gráfico de líneas para una variable

A continuación, se muestra una tabla de datos del índice de precios al consumidor durante el período de
enero 2016 a marzo 2017 en El Salvador. En el eje horizontal se presentan los meses y en el eje vertical la
media mensual del índice de precios al consumidor (IPC) correspondiente a cada uno de los meses.

IPC 2016 - 2017


(Base diciembre 2009) Indice de precios al consumidor
ene-16 110.67 Base Diciembre 2009
feb-16 110.37
mar-16 110.32 111.5
abr-16 110.05 111.0
may-16 110.13
110.5
jun-16 110.24
jul-16 110.12 110.0
ago-16 109.85
109.5
sep-16 109.51
oct-16 109.79 109.0
nov-16 109.78 108.5
dic-16 109.58
ene-17 110.39
feb-17 110.69
mar-17 110.92 Fuente: Estadísticas del Banco Central de Reserva de El Salvador.

Los gráficos de líneas se suelen usar para presentar tendencias temporales y pueden incluirse en un mismo
gráfico los datos de varias variables para compararlas.

Gráfico de líneas para varias variables

Cuando se elabora un gráfico de líneas para más de una variable y los datos recolectados de las variables
corresponden a una serie de tiempo, en el eje horizontal se colocan las unidades de tiempo y en el vertical
se introduce la serie de valores de las variables cuya variación en el tiempo se quiere observar. Esta
situación se muestra en el siguiente gráfico que corresponde a los índices de precios al consumidor
reportados por el Banco Central de Reserva para 4 bienes o servicios en los meses desde enero 2016 a
marzo 2017.

32
Indice de precios al consumidor
de bienes seleccionados - Base Dic 2009
150 1.2 Bebidas Alcohólicas, Tabaco
140
130
1.4 Alojamiento, Agua, Electricidad,
IPC

120 Gas y otros Combustibles

110
1.1 Alimentos y Bebidas no
100 Alcohólicas

90
1.3 Prendas de Vestir y Calzado
Mar

May

Mar
Abr

Nov
Dic
Ene

Jun
Jul

Ene
Feb

Ago

Feb
Oct
Sept

I---------------------------2016------------------------I----2017---I

Fuente: Estadísticas del Banco Central de Reserva de El Salvador

En el gráfico se observa la tendencia de los valores de cada uno de los 4 bienes o servicios reportados.
Cada línea corresponde a un bien o servicio. En el eje horizontal se colocan los meses correspondientes a
las mediciones y en el eje vertical se colocan los valores reportados para cada bien o servicio.

Algunas conclusiones que se obtienen del gráfico son:

• Los precios de las prendas de vestir y calzado (la línea de menores valores en el gráfico) inician con
un valor cercano a 100 al inicio del período, lo cual significa que ese precio es prácticamente igual
al precio base de diciembre 2009. En el transcurso de los meses ese precio se acerca al valor 90,
lo cual significa que el precio de ese bien ha experimentado una disminución en su precio relativo
al precio del mes de referencia (diciembre 2009), tendiendo a ser un 90% de ese precio.
• Los precios de las bebidas alcohólicas y tabaco (línea de mayores valores en el gráfico) inician con
un valor 140, que representa un incremento del 40% en el precio de ese bien para el mes de enero
2016 respecto de su precio en el mes de base (diciembre 2009). A lo largo del período, su precio
tiende a incrementarse y llegando a un valor cercano a 145 en el mes de marzo 2017, lo cual
representa un incremento del 45% en el precio de ese bien respecto al precio en el mes de base.

3. Medidas de tendencia central y dispersión


Se ha venido analizando en los temas anteriores, las diferentes estrategias para poder representar y
organizar la información a través de tablas de frecuencias y gráficas elementales, que son obtenidas de
una investigación de una población o de una muestra. Sin embargo, el análisis de información estadística
no solo finaliza con la representación de tablas y gráficas, sino que más bien se requiere que la información
sea representada a través de un número o estadístico que describa el comportamiento de lo observado.

Las medidas de tendencia central, permiten que los datos se condensen en un solo valor para representar
la totalidad de los datos.

33
El propósito principal de obtener las medidas de tendencia central es:

I. Mostrar en qué lugar se ubica el elemento promedio o típico del grupo.


II. Sirve como un método para comparar o interpretar cualquier valor en relación con el puntaje
central o típico.
III. Sirve como un método para comparar el valor adquirido por una misma variable en dos diferentes
ocasiones.
IV. Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.

Entre los tipos de medidas de tendencia central más comunes se tienen:

• Media aritmética o media


• Mediana
• Moda

3.1. Media aritmética

Datos numéricos no agrupados

Es la medida más conocida, la más fácil de calcular. Es una medida que siempre se ha utilizado para calcular
el promedio de calificaciones obtenidas en cada periodo escolar (ciclo, año, etc.), entre otras aplicaciones.
Normalmente se le denomina simplemente media o promedio, y es utilizada en la mayoría de los casos,
aunque a veces conduce a resultados que no revelan lo que se pretende representar.

La media es altamente sensible a cualquier cambio en los valores de la distribución. No es recomendable


su uso cuando la variable está dada en forma de tasas o porcentajes. La media es representativa del
conjunto de datos si se quiere promediar cantidades semejantes, que presentan variaciones dentro de un
margen razonable.

Ejemplo 2.1. Volvamos a los datos del número de sismos (marzo 2015), estudiado en la distribución de
frecuencias. Ahora, se presentan en la siguiente serie simple: 1, 4, 4, 8, 7, 8, 4, 4, 5, 8, 8, 3, 3, 0, 5, 2, 12, 6,
3, 5, 11, 6, 3, 2, 6, 9, 4, 12, 6, 2, 0. ¿Cuál es el promedio diario de sismos?

Solución:

1+ 4+ 4+ 8+ 7+ .... + 12+6+2+0 161


x   5.19
31 31

El número de sismos del mes de marzo 2015, en promedio fue de 5.19. Este número representa un valor
central del conjunto de datos.

Media Aritmética es la suma de los valores de todas las observaciones divididas entre el número de
observaciones realizadas. Su fórmula es:

𝑠𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑥1 +𝑥2 +⋯+𝑥𝑛 ∑𝑛


𝑖=1 𝑥𝑖
𝑥̅ = = =
𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑛 𝑛

34
Media aritmética: Datos agrupados en frecuencia simples

Ejemplo 2.2. Retomando el ejemplo de la cantidad de sismos diarios del mes de marzo de 2015 en El
Salvador, se requiere calcular la media aritmética o promedio de sismos en el periodo reportado.

Solución: X 𝒏𝒊 𝒏𝒊 ∙ 𝒙𝒊
1. Debe añadirse a la tabla original una columna 0 2 0
encabezada por 𝒏𝒊 ∙ 𝒙𝒊 en donde se anotarán los 1 1 1
resultados correspondientes a las multiplicaciones de 2 3 6
cada valor nominal 𝑥𝑖 por su frecuencia 𝑛𝑖 respectiva.
3 4 12
2. La suma de los valores de la columna 𝒏𝒊 ∙ 𝒙𝒊 es 161 y el 4 5 20
total de datos es 31. De esta forma, la media aritmética 5 3 15
se obtiene: 6 4 24
161
𝑥̅ = = 5.19 7 1 7
31
8 4 32
Se observa que se obtiene el mismo resultado que en datos
simples, esto es, que el promedio de sismos diarios del mes de 9 1 9
marzo del 2015 fue 5.19. 11 1 11
12 2 24
Total n = 31 161

Media Aritmética para una distribución de frecuencia simple es la suma del producto de los valores de
todas las observaciones por la frecuencia absoluta, divididas entre el número de observaciones realizadas
o tamaño de la muestra. Su fórmula es:

𝑥1 𝑛1 +𝑥2 𝑛2 +⋯+𝑥𝑛 𝑛𝑛 ∑𝑛
𝑖=1 𝑥𝑖 𝑛𝑖
𝑥̅ = = donde n = número de observaciones o tamaño de la muestra.
𝑛 𝑛

Media aritmética: Datos agrupados en clases de una distribución frecuencia

Cuando los datos recolectados han sido organizados en una tabla de frecuencias por intervalos, el cálculo
del promedio, o la media, es parecido al utilizado para tabla de frecuencias simples.

Ejemplo 2.3. Retomando los datos de la prueba de aptitudes y aprendizaje 2012 de los centros educativos,
de sexto grado del municipio de San Salvador. ¿Cuál es la nota promedio de un centro educativo?

35
Solución: Intervalo Frecuencia
Marca de clase Producto
𝒎𝒊 𝒏 𝒊 ∙ 𝒎𝒊
1. Debe añadirse otra columna conteniendo 3.5 - < 4.1 10 3.8 38
el producto de la marca de clase y la 4.1 - < 4.7 24 4.4 105.6
frecuencia absoluta, es decir: 𝑥𝑖 𝑛𝑖 .
4.7 - < 5.3 12 5 60
2. La suma de los valores de la columna 𝑛𝑖 𝑚𝑖 5.3 - < 5.9 7 5.6 39.2
la cual es 309.6 y el total de datos es n = 63, 5.9 - < 6.5 5 6.2 31
luego la media aritmética, se obtiene: 6.5 - < 7.1 2 6.8 13.6

309.6 7.1 - < 7.7 3 7.4 22.2


𝑥̅ = = 4.91 Total n = 63 309.6
63
En promedio cada sección de sexto grado de los centros educativos del municipio de San Salvador ha
tenido una nota de 4.91 en la prueba de aptitudes y aprendizaje para el año 2012.

La media aritmética para datos agrupados corresponde al cociente del total de la suma del producto de
la marca de clase de cada intervalo y la frecuencia absoluta con el número total de datos estudiados:
𝑚1 𝑛1 +𝑚2 𝑛2 +⋯+𝑚𝑛 𝑛𝑛 ∑𝑛
𝑖=1 𝑚𝑖 𝑛𝑖
𝑥̅ = =
𝑛 𝑛

𝑛: 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 (𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑟𝑒𝑐𝑜𝑙𝑒𝑐𝑡𝑎𝑑𝑜𝑠).


𝑚𝑖 : 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑖 y 𝑛𝑖 : 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑖

Características de la media:

• La media aritmética viene expresada en las mismas unidades que la variable.


• En su cálculo intervienen todos los valores de la distribución.
• Es el centro de gravedad de toda la distribución, representando a todos los valores observados.

3.2. Mediana

Datos simples

La mediana en ocasiones es llamada media posicional, porque queda exactamente en la mitad de un grupo
de datos, luego de que los datos se han ordenado de forma ascendente. En este caso la mitad (50%) de
los datos estará por encima de la mediana y la otra mitad (50%) estará por debajo de ella.

a) Cuando el número de datos es impar: En este caso la mediana coincide con el dato central ordenados
de manera ascendente o descendente.

Ejemplo 2.4. Se consideran los salarios en dólares para 11 vendedores: $243, $320, $311, $254, $234,
$261, $239, $310, $218, $267, $287. Calcular la mediana de los salarios.

Solución:

1. Primero se ordenan los datos de menor a mayor: $218, $234, $239, $243, $254, $261, $267, $287,
$310, $311, $320.

36
2. Obtener la posición central donde se encuentra la mediana, se utiliza la siguiente expresión:
𝑛+1 11+1 12
2
→ 2 = 2 = 6. La posición donde se encuentra la mediana es 6.
3. El valor de la mediana (está sombreado con escala gris en los datos ordenados) es:

Mediana = Md= $261

La mitad de los salarios de los vendedores están por debajo de $261 y la otra mitad son mayores que
$261.

b) Cuando el número de datos es par: La mediana será el valor medio de los dos valores centrales
ordenados de manera ascendente o descendente.

Ejemplo 2.5. Ahora se consideran los salarios en dólares para 12 vendedores; los cuales se han
presentado ordenados anteriormente $218, $234, $239, $243, $254, $261, $267, $287, $310, $311,
$320 y $322: Calcular la mediana de los salarios.

Solución:

Los datos ya están ordenados de forma ascendente. Ahora, para obtener la posición central
n 1 12  1
nuevamente se utiliza la expresión:   6.5 . Entonces la mediana corresponde al
2 2
promedio de los dos valores centrales, los que están en la posición 6 y 7, esto es:

$261 + $267
= $264
2
Este valor indica que la mitad de los salarios de los vendedores son menores que $264 mientras que la
otra mitad de salarios es mayor que $264.

Mediana: Datos agrupados en frecuencia simples

Variable Frecuencia Frecuencia Ejemplo 2.6. Nuevamente, haciendo referencia a los datos del
(x) 𝒏𝒊 Acumulada, 𝑵𝒊 registro de sismos reportados en marzo 2015, calcular la
0 2 2 mediana en el periodo reportado.
1 1 3
6 Solución:
2 3
3 4 10
1. Para obtener la posición central, se utiliza la
4 5 15
expresión:
5 3 18
6 4 22 n 1 31  1
7 1 23   16 ,
2 2
8 4 27
9 1 28 2. Identificar la primera frecuencia acumulada mayor o
11 1 29 igual a 16 (posición de la mediana), esta es 18.
12 2 31
n = 31

37
3. Localizada la frecuencia acumulada mayor o igual a la posición de la mediana, se determina el
valor dela variable, ya que dicho valor corresponde a la mediana, esto es: Md = 5.

Interpretación: El 50% de los sismos diarios ocurridos en marzo de 2015 están por debajo de 5, mientras
que el otro 50% está por arriba de 5 sismos diarios.

Mediana: Datos continuos

Si los datos están agrupados en clases, la mediana no se obtiene de forma directa, sino que se utiliza
interpolación, tal como se muestra a continuación.

Deducción de la fórmula de la mediana para datos agrupados en clases

Suponer que la mediana (𝑀𝑑) se encuentra en la fila i-ésima de la tabla de frecuencias agrupadas, cuyos
datos se representan en la siguiente gráfica.

En el gráfico se observa dos triángulos semejantes, utilizando la relación entre ambos triángulos se tiene:

n n
2 − Ni−1 = ni
⟹ Md = Li−1 + (2
− Ni−1
) Ci
Md − Li−1 Li − Li−1 ni

Donde:

Li−1 : Límite inferior del intervalo donde se encuentra la mediana, el cual se determina observando la
primera frecuencia acumulada mayor o igual a 𝑛⁄2
Ni−1: Frecuencia acumulada anterior del intervalo donde se encuentra la mediana.
ni : Frecuencia absoluta del intervalo donde se encuentra la mediana.
Ci : Ancho del intervalo i-ésimo.

38
Ejemplo 2.7. Se consideran nuevamente los datos de la prueba
Intervalo Frecuencia, 𝐧𝐢 𝐍𝐢
de aptitudes y aprendizaje 2012 de los centros educativos del
municipio de San Salvador, para estudiantes de sexto. Obtener 3.5 - < 4.1 10 10
la mediana para los datos en estudio. 4.1 - < 4.7 24 34
4.7 - < 5.3 12 46
Solución: 5.3 - < 5.9 7 53
5.9 - < 6.5 5 58
1. Total de datos (n=63).
2. Calcular la posición de la mediana, utilizando la siguiente 6.5 - < 7.1 2 60
𝑛 63
expresión 2 ⟹ 2 = 31.5, independientemente si n es 7.1 - < 7.7 3 63
par o impar. Total n = 63
3. Se ubica la posición de la mediana en la tabla de frecuencias. Para ello se observa la primera
frecuencia acumulada que tenga un número mayor o igual a la posición de la mediana (clase de la
mediana).
4. La primera frecuencia acumulada (Ni ) mayor o igual que 31.5, se encuentra en la segunda clase,
que corresponde al intervalo 4.1 – < 4.7, que tienen Ni = 34.
5. Identificada la clase de la mediana se utiliza la siguiente ecuación:

n
− Ni−1
Md = Li−1 + (2 ) Ci
ni

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6

Sustituyendo los datos anteriores en la fórmula de la mediana se tiene:

31.5−10 21.5
Md = 4.1 + ( ) 0.6 = 4.1 + ( 24 ) 0.6 = 4.1 + 0.54 = 4.64
24

Interpretación: La mitad de los resultados obtenidos en la PAESITA 2012 que representa a los estudiantes
de sexto grado de los centros educativos del municipio de San Salvador están por debajo de 4.64 y la otra
mitad tiene notas arriba de 4.64.

Características de la mediana:

• No se ve afectada por los valores extremos. Esta es la propiedad más importante que tiene.
• Se puede utilizar cuando la distribución de frecuencias tiene clases abiertas, excepto, cuando la
posición de la mediana caiga en una de las clases abiertas.

La mediana: Es el valor intermedio cuando los valores de los datos se ordenan en forma ascendente.
Representa al valor que deja por debajo al 50% de los datos y por encima de él al otro 50% de los datos.
La mediana se simboliza con las letras: Md

39
3.3. Moda (Mo)

Datos categóricos

Ejemplo 2.8. Retomando la información obtenida en la tabla de distribución de frecuencias de las causas
de accidentes de tránsito.

Categoría Frecuencia
¿Cuál será ese número que
Distracción del conductor 14
mejor los representa?
No guardar distancia reglamentaria 13
Invadir carril 12
Ebriedad 1
No respetar señal de prioridad 8
Velocidad excesiva 9
n = 57

Solución:

Se observa que la distracción del conductor aparece con mayor número de repeticiones respecto a los
demás. Esto quiere decir que los accidentes de tránsito fueron ocasionados con mayor frecuencia por la
distracción del conductor (causa 1). A esta causa se le llama Moda (Mo)

Moda: Es el valor de la variable que más veces se repite en una distribución de frecuencias, es decir, el
que tiene mayor frecuencia absoluta. Y se representa por:

Mo = mayor frecuencia o repeticiones de elementos

Ejemplo 2.9. En el Programa de Formación Docente se desea investigar el estado civil de los especialistas
del módulo 8 de Matemática. Para esto se hace la consulta a 10 de ellos, obteniendo los siguientes
resultados: Soltero, Soltero, Casado, Soltero, Divorciado, Casado, Soltero, Acompañado, Viudo y Soltero.
Determine la moda del estado civil de los 10 especialistas.

Solución:

Existen cinco categorías de estado civil y el que aparece con mayor frecuencia es Soltero. Por lo tanto:

Mo = Soltero

El valor de Mo se interpreta como: El estado civil de la muestra de especialistas del Programa de


Formación Docente, resulta que en su mayoría son Solteros o, dicho de otra forma, es el estado civil que
más predomina o se repite entre los especialistas.

Moda: Datos simples

Ejemplo 2.10. La cantidad de errores de facturación por día en un almacén, durante un período de 20 días,
fueron los siguientes (se han ordenado los datos de forma ascendentemente): 0, 0, 1, 1, 1, 2, 4, 4, 4, 5, 6,
6, 7, 8, 8, 9, 9, 10, 12, 12. Determinar la moda de los errores.

40
Solución:

Se observa que el 1 y el 4 se repiten igual número de veces (3 ocasiones). Por lo tanto, esta serie de datos
tiene 2 modas. Se la llama distribución bimodal. Moda 1 = 1 y Moda 2 = 4.

Variable Frecuencia Ejemplo 2.11. Volvamos al ejemplo de sismos reportados por el MARN en
(x) 𝒇 el periodo de marzo 2015 agrupados en tablas de frecuencia simples.
0 2 Ahora se requiere calcular la moda.
1 1
2 3 Solución:
3 4
4 5 Al recorrer la columna de las frecuencias, se localiza que la mayor
5 3 frecuencia es 5 y corresponde al valor de 4 en la variable en estudio
6 4 (número de sismos). Por lo tanto, es: Mo = 4.
7 1
8 4 Interpretación: La mayor frecuencia de sismos ocasionados en el periodo
9 1 reportado en 2015 corresponde a 4. Dicho de otra forma, en el mes de
11 1 marzo de 2015 la cantidad de sismos que más ocurrieron diariamente
12 2 fueron 4.
n = 31

Moda: Datos agrupados en clases

Ejemplo 2.12. Considerando la tabla de frecuencia agrupada en clase de la


Intervalo Frecuencia
PAESITA 2012. Determinar la moda de los datos.
3.5 - < 4.1 10
4.1 - < 4.7 24 Solución:
4.7 - < 5.3 12
5.3 - < 5.9 7 4. Determinar el intervalo que tiene la mayor cantidad de repeticiones.
5.9 - < 6.5 5 2. Al recorrer la columna de las frecuencias, se localiza que la clase con
6.5 - < 7.1 2 mayor frecuencia es: 4.1 – < 4.7, se le denomina clase modal.
7.1 - < 7.7 3 3. Partiendo de la clase modal se determina los siguientes valores:
Total n = 63

Li−1 = L1 = 4.1, n1 = 10, n2 = 24, n3 = 12 y Ci = C2 = 0.6


además: 𝑑1 = 24 − 10 = 14 y 𝑑2 = 24 − 12 = 12

Sustituyendo los datos anteriores en la fórmula de la moda se tiene:

𝑑1 14
𝑀0 = 𝐿𝑖−1 + ( ) 𝐶𝑖 ⟹ 𝑀0 = 4.1 + ( ) 0.6 = 4.42
𝑑1 + 𝑑2 14 + 12

Interpretación: Las notas que más se repitieron en la PAESITA 2012 para estudiantes de sexto grado de
los centros educativos del municipio de San Salvador, fue alrededor de 4.42.

41
La Moda: El valor más repetido o frecuente en los datos.
𝑑1
𝑀0 = 𝐿𝑖−1 + ( )𝐶
𝑑1 + 𝑑2 𝑖
𝐿𝑖−1 = 𝐿𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙
𝑑1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑒𝑙𝑙𝑎 (𝑑1 = 𝑛𝑖 −
𝑛𝑖−1 )
𝑑2 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑒𝑙𝑙𝑎 (𝑑2 = 𝑛𝑖 −
𝑛𝑖+1 )
𝐶𝑖 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒

Característica de la moda

• Se puede utilizar para datos cualitativos nominales u ordinales y para datos cuantitativos.
• No se ve afectada por los valores extremos.
• Se puede utilizar cuando la distribución de frecuencias tenga clases abiertas, excepto que la clase
modal sea abierta.
• Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, se dice que no tiene moda.

4. Medidas de dispersión para datos discretos y continuos


A pesar de la gran importancia de las medidas de tendencia central y de la cantidad de información que
aportan individualmente, en muchas ocasiones esa información no es completa, o puede inducir a errores
en su interpretación. Por ejemplo, hay 3 personas que trabajan en la construcción cuyos salarios son de
$235, $240 y $238, y dos ejecutivos de empresas con salarios de $5,200 y $5,250, se obtiene que el salario
promedio de las 5 personas es: $2,232.60. Esta cifra sin más información llevaría a pensar que cada
individuo gana alrededor de $2,200, lo cual es totalmente falso, por lo que se hace necesario conocer otras
medidas, que indiquen la variabilidad de los datos y, por ende, la confiabilidad del resultado.

Existen diversas medidas de dispersión, algunas de ellas son:

• Rango.
• Varianza y desviación estándar.
• Coeficiente de variación.

4.1. Rango, amplitud total o recorrido

Ejemplo 2.13. Se presenta a continuación dos series de datos discretos donde se compara la cantidad de
niños reportados con lesiones. Determinar la variabilidad total de cada serie.

Serie 1: 1 5 7 7 8 9 9 10 17
Serie 2: 2 4 6 8 10 12 14 16 18

Solución:

Serie 1: El dato mayor de la serie 1 es 𝑥(𝑛) = 17 y el dato menor e 𝑥(1) = 1, el rango o variabilidad total
de los datos es: 17 -1 = 16.

42
Serie 2: El dato mayor de la serie 2 es 𝑥(𝑛) = 18 y el dato menor e 𝑥(1) = 2, el rango o variabilidad total
de los datos es: 18 -2 = 16.

Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una
mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido.
El uso de esta medida de dispersión, es bastante limitada.

Características del rango:

• Es relativamente sencilla su obtención.


• El significado de esta medida es fácil de comprender, ya que representa la variabilidad total de los
datos.
• Se utiliza en variables numéricas.

Rango: Es la diferencia entre el mayor y el menor de los valores observados: 𝑅 = 𝑥(𝑛) − 𝑥(1), siendo 𝑥(𝑛)
la observación mayor y 𝑥(1) la observación menor.

4.2. Varianza y desviación estándar muestral

Las medidas de dispersión más utilizadas son las que consideran las desviaciones promedio con respecto
a alguna medida de tendencia central. Su información mide el grado de representatividad de las medidas
de tendencia central del conjunto de datos que provienen. En este dossier se presentan: la varianza y la
desviación estándar.

Varianza: Datos simples

Ejemplo 2.14. Con el fin de ilustrar el cálculo de la varianza se presenta la siguiente serie de datos no
agrupados 9, 3, 8, 8, 9, 8, 9, 18. Determinar la varianza y la desviación típica o estándar.

Solución: Para calcular la varianza se sugieren los siguientes pasos:

1. Primero se obtiene la media de la serie de datos:

9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
𝑥̅ = =9
8
2. Se obtienen las desviaciones de los datos respecto a la media (𝑥𝑖 − 𝑥̅ ) y se elevan al cuadrado
(𝑥𝑖 − 𝑥̅ )2 , así:

(9 − 9)2 , (3 − 9)2 , (8 − 9)2 , (8 − 9)2 , (9 − 9)2 , (8 − 9)2 , (9 − 9)2 , (18 − 9)2

3. Se obtiene la suma de las desviaciones al cuadrado, tal como se muestra a continuación:

(0)2 + (−6)2 +(−1)2 + (−1)2 + (0)2 + (−1)2 + (0)2 + (9)2

0 + 36 + 1 + 1 + 0 + 1 + 0 + 81 = 120

43
4. Se divide el total de la suma de las desviaciones al cuadrado entre el total de datos menos 1 (n-1).
En algunos textos de estadística se divide por n, sin embargo, en este documento se utilizará como
denominador (n-1), ya que esta variante hace que la varianza sea insesgada (el estudio de la
propiedad de estimadores insesgados supera los objetivos de este módulo).

120 120
= = 17.14
8−1 7
Interpretación. Esto significa que el promedio de alejamiento al cuadrado de todos los valores respecto
de la media (de 9) es de 17.14.

No es recomendable utilizar la varianza para determinar la representatividad de la media sobre un


conjunto de datos, ya que las unidades de la varianza están elevadas al cuadrado (no en las unidades de
los datos), por lo que, se recomienda utilizar la desviación estándar que se obtiene como raíz cuadrada de
la varianza y representa la variabilidad de los datos respecto a la media.

Determinar la desviación típica o estándar

Desviación típica = s = √17.14 = 4.14

Interpretación: En promedio los valores se alejan de la media en 4.14 unidades.

Para finalizar con este ejemplo observe lo siguiente:

• En el intervalo (𝑥̅ − 𝑠, 𝑥̅ + 𝑠 ) = (9 − 4.14, 9 + 4.14) = (4.86, 13.14) están el 75% de los


datos, esto es, únicamente no están dentro del intervalo los valores de 3 y 18.
• En el intervalo (𝑥̅ − 2𝑠, 𝑥̅ + 2𝑠 ) = (9 − 2(4.14), 9 + 2(4.14)) = (0.72, 17.28) están el
87.5% de los datos, esto es, únicamente no está dentro del intervalo el valor de 18.
• En el intervalo (𝑥̅ − 3𝑠, 𝑥̅ + 3𝑠 ) = (9 − 3(4.14), 9 + 3(4.14)) = (−3.42, 21.42) están el
100% de los datos.

En general, si los datos se distribuyen aproximadamente normal (hay una concentración alrededor de la
media) se tiene que:

• En el intervalo (𝑥̅ − 𝑠, 𝑥̅ + 𝑠 ) están aproximadamente el 68% de los datos.


• En el intervalo (𝑥̅ − 2𝑠, 𝑥̅ + 2𝑠 ) están aproximadamente el 95% de los datos.
• En el intervalo (𝑥̅ − 3𝑠, 𝑥̅ + 3𝑠) están aproximadamente el 99% de los datos.

Si se cumplen las condiciones anteriores, se considera que la media es un buen representante de los datos.

En la serie de datos del ejemplo 2.14 que se acaba de analizar, los datos se distribuyen así:

• En el intervalo están aproximadamente el 75% de los datos.


• En el intervalo están aproximadamente el 87.5% de los datos.
• En el intervalo están aproximadamente el 100% de los datos.

Por lo que se concluye que la media es un buen representante de los datos de esta muestra.

44
( 𝑥1 −𝑥̅ )2 +(𝑥2 −𝑥̅ )2 +⋯+(𝑥𝑛 −𝑥̅ )2
La varianza muestral se representa por: 𝑠 2 =
𝑛−1
La desviación típica o estándar es: 𝑠 = √𝑠 2

Datos agrupados en frecuencias simples

Variable Frecuencia 𝑛𝑖 ∗ 𝑥𝑖 (𝑥 − 𝑥̅ )2 (𝑥 − 𝑥̅ )2 𝑛𝑖 Ejemplo 2.15. Retomando ejemplo del


0 2 0 26.97 53.95
número sismos del mes de marzo de 2015
en El Salvador, determinar la varianza
1 1 1 17.59 17.59
muestral y la desviación típica.
2 3 6 10.20 30.60
3 4 12 4.81 19.25 Solución:
4 5 20 1.42 7.12
Paso 1. Se obtiene la media o el promedio
5 3 15 0.04 0.11 de los datos.
6 4 24 0.65 2.60
7 1 7 3.26 3.26
161
𝑥̅ = = 5.19
8 4 32 7.88 31.50
31
9 1 9 14.49 14.49 Paso 2. Se agrega otra columna que
11 1 11 33.71 33.71 contendrá la diferencia de (𝑥 − 𝑥̅ )2
12 2 24 46.33 92.66
Paso 3. Se realizará el producto de la
Total n = 31 161 167.35 306.84 diferencia al cuadrado por la frecuencia.

Paso 4. Sumar los valores de la última columna de la tabla de la izquierda (306.84).

Paso 5. Dividir el resultado del paso 4 entre n-1 (31-1=30).

Los pasos 4 y 5 se resumen en la siguiente expresión (varianza):

∑11 2
𝑖=0(𝑥𝑖 − 𝑥̅ ) 𝑛𝑖
2
306.84
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = 𝑠 = = = 10.23
31 − 1 30

Desviación típica: 𝑠 = √10.23 = 3.2

Interpretación: En promedio el número de sismos diarios se alejan de la media (de 5.19) en 3.2.

¿Es para este caso la media un buen representante de la cantidad de sismos que ocurren por día durante
el mes de marzo de 2015?

Datos agrupados continuos

Cuando los datos han sido organizados en clases o intervalos, la varianza y desviación estándar se obtiene
de manera similar al proceso utilizado para tablas de frecuencias simples, sustituyendo el valor de la
variable (x) por el punto medio de la clase (m). A continuación se ilustra este proceso.

45
Intervalo 𝒏𝒊 𝒎𝒊 𝒏𝒊 ∗ 𝒎𝒊 (𝒎𝒊 − 𝑥̅ )2 (𝒎𝒊 − 𝑥̅ )2 ∗ 𝒏𝒊
Ejemplo 2.16. Se retoman nuevamente
los datos de la prueba de aptitudes y
3.5 - < 4.1 10 3.8 38.0 1.2 12.4 aprendizaje, PAESITA 2012. Determinar la
4.1 - < 4.7 24 4.4 105.6 0.3 6.3
varianza y la desviación típica.

4.7 - < 5.3 12 5 60.0 0.0 0.1 Solución:


5.3 - < 5.9 7 5.6 39.2 0.5 3.3
Paso 1. Se obtiene la media o el promedio
5.9 - < 6.5 5 6.2 31.0 1.7 8.3 de los datos.
6.5 - < 7.1 2 6.8 13.6 3.6 7.1 309.6
𝑥̅ = = 4.9
63
7.1 - < 7.7 3 7.4 22.2 6.2 18.5
Paso 2. Se obtiene la diferencia de la
Total n = 63 309.6 56.1 marca de clase y la media, y se eleva al
cuadrado.

Paso 2. Se obtiene la diferencia de la marca de clase y la media, y se eleva al cuadrado.

Paso 3. Se realiza el producto de la diferencia de la marca de clase y la media, al cuadrado y se multiplica


la frecuencia absoluta.

Paso 4. Se suman los valores de la última columna y se divide por n-1 (63-1=62), esto es equivalente a
realizar la siguiente operación:

∑11 2
𝑖=0(𝑚𝑖 −𝑥̅ ) 𝑛𝑖 56.1
𝑠2 = = = 0.9.
63−1 62

El resultado anterior es la varianza muestral. A continuación se obtiene la desviación típica:

𝑠 = √0.9 = 0.95

Interpretación: Los centros educativos tienen notas muy similares, ya que en promedio se alejan de la
media (de 4.9) en 0.9 unidades. En este ejemplo, la media es un buen estadístico para representar la nota
de todos los centros educativos que participaron en la PAESITA 2012.

La varianza muestral se representa por 𝑠 2 y se obtiene a través de la siguiente expresión:

( 𝑚1 − 𝑥̅ )2 𝑛1 + (𝑚2 − 𝑥̅ )2 𝑛2 + ⋯ + (𝑚𝑘 − 𝑥̅ )2 𝑛𝑘
𝑠2 =
𝑛−1

NOTA: La varianza es el puente para llegar a la desviación típica y esta última es la que mide la variabilidad
de los datos.

4.3. Coeficiente de Variación (CV)

Se utiliza para comparar la dispersión de dos conjuntos de datos que tienen unidades diferentes, ya que
representa una medida relativa de dispersión.

46
𝑠
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 = 𝐶𝑉 = (100)
𝑥̅

Ejemplo 2.17. Una empresa que produce botellas, quiere investigar la variabilidad de la resistencia al
rompimiento de dos tipos de marca, para ello toma las siguientes muestras:

Muestra 1: 230 250 245 258 265 240


Muestra 2: 190 228 305 240 265 260

Utiliza los datos anteriores para determinar el tipo de botella que tiene menor variabilidad de la resistencia
al rompimiento.

Solución:

Primero se determina la media y la desviación típica para ambos tipos de botellas:

Muestra 1: Muestra 2
 
x  248 x  248

∑6𝑖=1(𝑥𝑖 − 𝑥̅ )2 = 790 ∑6𝑖=1(𝑥𝑖 − 𝑥̅ )2 = 7510

n=6 n=6

790 7510
𝑠=√ 5
= 12.57 𝑠=√ 5
= 38.76

CV = (12.57/248)*100= 5.07% CV = (38.76/248)*100 = 15.63

Interpretación: La media es la misma en ambos tipos de botella, sin embargo, el coeficiente de variación
es menor en la muestra 1 (tipo de botella 1), por tanto, el tipo de botella 1 presenta menor variabilidad de
la resistencia al rompimiento.

Finalmente, el CV se utiliza para determinar el grado de representatividad de la media de los datos, para
ello, se considera los siguientes criterios:

Valor de CV Grado de representatividad de la media.


0 - < 10% Media altamente representativa
10% - < 20% Media bastante representativa
20% - < 30% Media tiene representatividad
30% - < 40% Media con representatividad dudosa
40% o más Media carente de representatividad

47
5. Medidas de posición
Una vez desarrollado el estudio de las distribuciones de frecuencias y representaciones gráficas de una
variable, se avanzó a resumir la información de las variables mediante las medidas de tendencia central y
de dispersión. Por otra parte, un elemento importante en el análisis de un conjunto de datos, es conocer
la ubicación de los datos dentro de un contexto de valores posible.

5.1. Cuartiles

Datos simples

Ejemplo 2.18. Inasistencia a clases

Al finalizar el año escolar el profesor de Matemática cuenta los días de inasistencia a clase de cada uno de
sus alumnos, obteniendo los siguientes datos: 4, 8, 5, 6, 4, 7, 2, 4, 7, 8, 9, 10, 11, 12, 13, 12, 11, 10, 12, 6,
7, 12, 9, 8, 9, 12, 11, 13, 14, 15, con dicha información quiere calcular los siguientes estadísticos:

a) ¿Cuál fue el número máximo de días que faltó a clases el 25% de los alumnos con menos inasistencias?
b) ¿Cuál fue el número máximo de días que faltó a clases el 50% de los alumnos con menos inasistencias?
c) ¿Cuál fue el número mínimo de días que faltó a clase el 25% de los alumnos con más inasistencias?

Solución:

Al analizar cada uno de los literales anteriores, se observa que se quiere dividir los datos en 4 grupos de
estudiantes, tal como se representan en el siguiente esquema:

Ahora, para responder cada uno de los literales se realizarán los siguientes pasos:

1) El total de alumnos es: n = 30.


2) Ordenar los datos de menor a mayor, esto es: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11,
11, 12, 12, 12, 12, 12, 13, 13, 14, 15.
3) Calcular la posición de cada uno de los cuartiles, para ello, se utiliza la siguiente expresión:

𝑘(𝑛 + 1)
, 𝑘 = 1, 2, 3
4

Si la posición del cuartil se encuentra en medio de dos valores concretos, el cuartil se obtiene
promediando dichos valores.
𝑘(𝑛+1)
a) Para responder el literal a) se requiere la posición del cuartil 1, esto es: . Sustituyendo los
4
valores: k = 1 y n = 30 se tiene:

48
𝑘(𝑛 + 1) 1(30 + 1) 31
= = = 7.75
4 4 4

La posición del cuartil 1 es 7.75 y se ubica en la serie de datos ordenados, tal como se muestra a
continuación: 2, 4, 4, 4, 5, 6, 6, posición del cuartil uno, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11,
12, 12, 12, 12, 12, 13, 13, 14, 15.

6+7 13
El cuartil 1, entonces, será: 𝑄1 = = = 6.5
2 2

El valor de 𝑸𝟏 = 𝟔. 𝟓 se interpreta como: El 25% de los alumnos faltó a clase 6.5 días o menos
durante todo el año.

b) Para responder el literal b) se requiere calcular el cuartil 2. Para ello, lo primero es calcular la
𝑘(𝑛+1)
posición, utilizando la siguiente expresión: , sustituyendo los valores de k=2 y n=30 se tiene:
4

𝑘(𝑛 + 1) 2(30 + 1) 62
= = = 15.5
4 4 4
La posición del cuartil 2 es 15.5 y se ubica en la serie de datos ordenados, tal como se muestra a
continuación: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, posición del cuartil dos, 9, 10, 10, 11, 11, 11,
12, 12, 12, 12, 12, 13, 13, 14, 15.

9+9 18
El cuartil 2, entonces, será: 𝑄2 = 2
= 2
=9

El valor de 𝑸𝟐 = 𝟗 se interpreta como: El 50% de los alumnos faltó a clase 9 días o menos durante
todo el año o de forma equivalente, el número máximo de días que faltó a clases el 50% de los
alumnos fue 9. Es de notar que el cuartil 2 deja un 50% de datos a la izquierda e igual porcentaje
deja a la derecha.

c) Para responder el literal c) se requiere calcular el cuartil 3. Para ello, lo primero es calcular la posición,
𝑘(𝑛+1)
utilizando la siguiente expresión: , sustituyendo los valores de k=3 y n=30 se tiene:
4

𝑘(𝑛 + 1) 3(30 + 1) 93
= = = 23.25
4 4 4

La posición del cuartil 3 es 22.5 y se ubica en la serie de datos ordenados así: 2, 4, 4, 4, 5, 6, 6, 7,


7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12 12, posición del cuartil tres, 12, 12, 12, 13, 13, 14, 15.

12+12 24
El cuartil 3, entonces será: 𝑄3 = = = 12
2 2

El valor de 𝑸𝟑 = 𝟏𝟐 se interpreta como: El 75% de los alumnos faltó a clase 12 días o menos
durante todo el año o de forma equivalente, 12 fue el número mínimo de días que faltó a clases
el 25% de los alumnos con más inasistencia.

49
Cuartiles: En tablas de frecuencias simples

Ejemplo 2.19. Suponga que las autoridades del Ministerio de Salud están interesadas en conocer el tiempo
que se tarda en programar la cirugía a los pacientes de cierto hospital público. Solicitan, entonces, a la
Unidad de Consulta Externa y al servicio de hospitalización la programación de los pacientes que han
llegado en los primeros 7 días de enero, y obtienen los siguientes datos:

Fecha de consulta N° de pacientes Programación de cirugía


2 de enero 6 2 el 8 y 4 el 10 de agosto
3 de enero 8 5 el 22 y 3 el 24 de agosto
4 de enero 6 3 el 26 y 3 el 28 de septiembre
5 de enero 4 3 el 2 y 1 el 4 de octubre
6 de enero 7 3 el 8 y 4 el 12 de octubre
7 de enero 5 2 el 13 y 3 el 18 de octubre
8 de enero 6 3 el 4 y 3 el 8 de noviembre

a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 25% de los pacientes?
b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?
c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 75% de los pacientes?

Solución:

Cuando se tienen los datos agrupados en tabla de frecuencia simples, se utiliza un procedimiento análogo
al de datos simples, esto es realizar los siguientes pasos:

1. El total de datos (pacientes) es: n = 42.


2. Ordenar los datos de menor a mayor, es equivalente a construir una tabla de frecuencias que
contenga el número de pacientes y número de días que se tardaron para realizar la cirugía, esto es:

Fecha de N° de N° de días de Frecuencia Programación de


consulta pacientes espera Acumulada cirugía
2 217 2 8 de agosto
2 de enero
4 219 6 10 de agosto
5 229 11 22 de agosto
3 de enero
3 231 14 24 de agosto
3 264 17 26 de septiembre
4 de enero
3 266 20 28 de septiembre
3 269 23 2 de octubre
5 de enero
1 271 24 4 de octubre
3 274 27 8 de octubre
6 de enero
4 278 31 12 de octubre
2 280 33 15 de octubre
7 de enero
3 283 36 18 de octubre
3 299 39 4 de noviembre
8 de enero
3 303 42 8 de noviembre

50
Se observa que se han creado dos columnas que son sumamente importante para responder las preguntas
planteadas.

3. Al igual que en datos simples, se calcular la posición de cada uno de los cuartiles, pero para datos
𝑘(𝑛)
agrupados se utilizará la siguiente expresión: 4 , 𝑘 = 1, 2, 3.
4. Se ubica la posición de los cuartiles en la tabla de frecuencias. Para ello se observa la primera
frecuencia acumulada que tenga un número mayor o igual a la posición del cuartil. En dicha
frecuencia se encuentra el cuartil buscado y. si la posición del cuartil se encuentra entre los valores
de dos frecuencias acumuladas. se promedia los dos datos, tal como se hizo para datos simples.
Esta situación se presenta en el literal c) de este ejemplo.
a) Para responder el literal a) se requiere la posición del cuartil 1, la cual se obtiene utilizando la
𝑘(𝑛)
expresión: y sustituyendo los valores: k=1 y n=42 se tiene:
4

𝑘(𝑛) 1(42) 42
= = = 10.5
4 4 4
La posición del cuartil 1 es 10.5 y la primera frecuencia acumulada que supera este valor es 11,
entonces el cuartil 1 será:
𝑄1 = 229 días

El valor de 𝑸𝟏 = 𝟐𝟐𝟗 se interpreta como: El hospital se tarda 229 días para realizar la cirugía al
25% de los pacientes o equivalentemente que el 25% de los pacientes tuvo que espera a lo sumo
229 días para que le realizaran la cirugía desde la fecha de la consulta.

b) Para responder el literal b) se requiere la posición del cuartil 2. Para ello, se sustituyen los valores:
k=2 y n=42 en:

𝑘(𝑛) 2(42) 84
= = = 21
4 4 4
La posición del cuartil 2 es 21 y la primera frecuencia acumulada que supera este valor es 23,
entonces el cuartil 2 será: 𝑄2 = 269 días

El valor de 𝑸𝟐 = 𝟐𝟔𝟗 se interpreta como: El hospital se tarda 269 días para realizar la cirugía al
50% de los pacientes o equivalentemente que el 50% de los pacientes tuvo que espera a lo sumo
269 días para que le realizaran la cirugía desde la fecha de la consulta.

c) Para calcular la posición del cuartil 3, se sustituyen los valores: k=3 y n=42 en:

𝑘(𝑛) 3(42) 126


= = = 31.5
4 4 4
La posición del cuartil 3 es 31.5 y se ubica exactamente entre dos frecuencias acumuladas, tal
como se muestra en el siguiente parte de la tabla de frecuencias (fondo gris):

51
3 274 27 8 de octubre
6 de enero
4 278 31 12 de octubre
2 280 33 15 de octubre
7 de enero
3 283 36 18 de octubre

Por lo que, para obtener el cuartil 3 debe promediarse los dos valores, estos son:

278+280 558
𝑄3 = = = 279 días
2 2

El valor de 𝑸𝟑 = 𝟐𝟕𝟗 se interpreta como: El hospital se tarda 279 días para realizar la cirugía al
75% de los pacientes o equivalentemente que 279 días es lo mínimo que debe esperar el 25% de
los pacientes que más se tardaron para que le realizaran la cirugía desde la fecha de la consulta.

Cuartiles: Tablas de frecuencias agrupadas en clases

Si los datos están agrupados en clases, entonces el cálculo de los cuartiles no se hace de forma directa. Se
utiliza interpolación, tal como se hizo con la mediana, la cual coincide con el cuartil 2, esto es:

2n 2n
4 − Ni−1 = ni
⟹ Md = Q 2 = Li−1 + ( 4
− Ni−1
) Ci
Md − Li−1 Li − Li−1 ni
Donde:

Li−1 : Límite inferior del intervalo donde se encuentra el cuartil 2, el cual se determina observando la
2n
primera frecuencia acumulada mayor o igual a .
4
Ni−1: Frecuencia acumulada anterior del intervalo donde se encuentra el cuartil.
ni : Frecuencia absoluta del intervalo donde se encuentra el cuartil.
Ci : Ancho del intervalo i-ésimo.

Esta notación se utilizará en las siguientes medidas, evidentemente adaptando a cada situación, por
ejemplo, si el cálculo se refiera a deciles.

Ejemplo 2.20. Notas de los estudiantes (PAESITA 2012)

Para el estudio de los cuartiles para datos agrupados se retoma el ejemplo de las notas que obtuvieron los
estudiantes de 6° grado en el municipio de San Salvador en la PAESITA 2012, donde su tabla de frecuencias
agrupadas es la siguiente:

Intervalo Frecuencia (𝐧𝐢) Frecuencia acumulada (𝐍𝐢)


3.5 - < 4.1 10 10
4.1 - < 4.7 24 34
4.7 - < 5.3 12 46

52
Intervalo Frecuencia (𝐧𝐢) Frecuencia acumulada (𝐍𝐢)
5.3 - < 5.9 7 53
5.9 - < 6.5 5 58
6.5 - < 7.1 2 60
7.1 - < 7.7 3 63
n = 63

A partir de los datos de la tabla de frecuencia obtener los siguientes estadísticos:

a) ¿Cuál fue la calificación máxima para el 25% de los centros educativos con menores calificaciones?
b) ¿Cuál fue la calificación máxima para el 50% de los centros educativos con menores calificaciones?
c) ¿Cuál fue la calificación mínima para el 25% de los centros educativos con mayores calificaciones?

Solución:

Para el cálculo de los cuartiles cuando se tiene datos en tabla de frecuencia agrupadas en clase, se utiliza
un procedimiento análogo al de datos en tablas de frecuencias simples, esto es:

a) Para responder el literal a) se requiere la posición del cuartil 1. Para ello, se sustituyen los valores:
k = 1 y n = 63 en:

𝑘(𝑛) 1(63) 63
= = = 15.75
4 4 4

La posición del cuartil 1 es 15.75 y la primera frecuencia acumulada que supera este valor es 34.
Entonces el cuartil 1 se encuentra en el segundo intervalo y se obtiene utilizando la siguiente fórmula:

n
− Ni−1
Q1 = Li−1 + (4 ) Ci
ni

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6

Sustituyendo los datos anteriores en la fórmula del cuartil 1 se tiene:

15.75 − 10 5.75
Q1 = 4.1 + ( ) 0.6 = 4.1 + ( ) 0.6 = 4.1 + 0.14 = 4.24
24 24

El valor de 𝑸𝟏 = 𝟒. 𝟐𝟒 se interpreta como: El 25% de los centros educativos que participaron en la


prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012
obtuvieron notas menores o igual que 4.24.

53
b) ¿Cuál fue la calificación máxima para el 50% de los centros educativos con menores calificaciones?

𝑘(𝑛) 2(63) 126


La posición del cuartil 2, es: = = = 31.5
4 4 4

La primera frecuencia acumulada que supera la posición del cuartil 2 es 34. Entonces el cuartil 2 se
encuentra en el segundo intervalo y se obtiene utilizando la siguiente fórmula:

2n
− Ni−1
Q 2 = Li−1 + (4 ) Ci
ni

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6

Sustituyendo los datos anteriores en la fórmula del cuartil 2 se tiene:

31.5 − 10 21.5
Q2 = 4.1 + ( ) 0.6 = 4.1 + ( ) 0.6 = 4.1 + 0.54 = 4.64
24 24

El valor de 𝑸𝟐 = 𝟒. 𝟔𝟒 se interpreta como: el 50% de los centros educativos que participaron en la


prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012,
obtuvieron notas menores o iguales que 4.64.

c) ¿Cuál fue la calificación mínima para el 25% de los centros educativos con mayores calificaciones?

𝑘(𝑛) 3(63) 189


La posición del cuartil 3 es: = = = 47.25
4 4 4

La posición del cuartil 3 es 47.25 y la primera frecuencia acumulada que supera este valor es 53.
Entonces el cuartil 3 se encuentra en el cuarto intervalo y se obtiene utilizando la siguiente fórmula:

3n
− Ni−1
Q3 = Li−1 + (4 ) Ci
ni

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L3 = 5.3, Ni−1 = N3 = 46 , n4 = 7 y Ci = C4 = 0.6

Sustituyendo los datos anteriores en la fórmula del cuartil 3 se tiene:

47.25 − 47 0.25
Q3 = 5.3 + ( ) 0.6 = 5.3 + ( ) 0.6 = 5.3 + 0.02 = 5.32
7 7

54
El valor de 𝑸𝟑 = 𝟓. 𝟑𝟐 se interpreta como: el 75% de los centros educativos que participaron en la
prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012,
obtuvieron notas menores o iguales que 5.32, o que 5.32 fue la calificación mínima para el 25% de
los Centros educativos con mayores calificaciones.

Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro
partes iguales.

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con
la mediana.

5.2. Deciles

Datos simples

Ejemplo 2.21. Inasistencia a clases

Retomando el ejemplo del apartado de los cuartiles sobre inasistencia a clase, cuyos datos ordenados son:
2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 14, 15. Calcular los
siguientes estadísticos:

a) ¿Cuál fue el número máximo de días que faltó a clases el 20% de los alumnos con menos
inasistencias?
b) ¿Cuál fue el número mínimo de días que faltó a clase el 30% de los alumnos con más inasistencias?
c) ¿Cuál fue el número máximo de días que faltó a clases el 50% de los alumnos con menos
inasistencias?

Solución:

En este caso lo que se quiere es dividir los datos en 10 grupos de estudiantes, como se muestra en el
siguiente esquema:

a) Para obtener la posición del decil 2, se sustituyen los valores de k=2 y n=30 en la siguiente expresión:

𝑘(𝑛 + 1) 2(30 + 1) 62
= = = 6.2
10 10 10
La posición del decil 2 es 6.2 y se ubica en la serie de datos ordenados, tal como se indica: 2, 4, 4, 4, 5,
6, posición del decil dos 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 14, 15.
6+6
El decil 2, entonces será: 𝐷2 = 2
=6

55
El valor de 𝑫𝟐 = 𝟔 se interpreta como: El 20% de los alumnos faltó a clase 6 días o menos durante
todo el año.

b) Para responder el literal b) primero calcular la posición del decil 7, sustituyendo los valores de k=7
y n = 30, en:

𝑘(𝑛 + 1) 7(30 + 1) 217


= = = 21.7
10 10 10
La posición del decil 7 es 21.7 y se ubica en la serie de datos ordenados así: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7,
8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, posición del decil siete, 12, 12 12, 12, 12, 13, 13, 14, 15.
11+12 23
El decil 7, entonces será: 𝐷7 = = = 11.5
2 2

El valor de 𝑫𝟕 = 𝟏𝟏. 𝟓 se interpreta como: El 70% de los alumnos faltó a clase 11.5 días o menos
durante todo el año o de forma equivalente, el número mínimo de días que faltó a clases el 25%
de los alumnos que más faltaron a clase fue 11.5.

c) Para calcular la posición del decil 5, se sustituyen los valores de k=5 y n=30, en:

𝑘(𝑛 + 1) 5(30 + 1) 155


= = = 15.5
10 10 10
La posición del decil 5 es 15.5 que es exactamente la misma posición del cuartil 2.

El decil 5, entonces será: 𝐷5 = 9 = 𝑄2

El valor de 𝑫𝟓 = 𝟗 se interpreta como: El 50% de los alumnos faltó a clase 9 días o menos durante
todo el año o de forma equivalente, el número máximo de días que faltó a clases el 50% de los
alumnos fue 9.

OJO: ¡El cuartil 2 es igual al decil 5!

Deciles: En tablas de frecuencias simples

Ejemplo 2.22. Retomando los datos del Ministerio de Salud del caso de cálculo de cuartiles que se refiere al
tiempo que se tarda en programar la cirugía a los pacientes de cierto hospital público, responder las preguntas:

a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 20% de los pacientes?
b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?
c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 80% de los pacientes?

Solución:

Se procede de manera análoga en el caso de los deciles para datos simples:

1) El total de datos (pacientes) es: n = 42.


2) Retomar la tabla de distribución de frecuencias construida para los cuartiles.

56
3) Calcular la posición de cada uno de los deciles tal como se hizo para datos simples.
4) Se ubica la posición de los deciles en la tabla de frecuencias, para ello se observa la primera
frecuencia acumulada que tenga un número mayor o igual a la posición del decil. En dicha
frecuencia se encuentra el decil buscado y si la posición del decil se encuentra entre los valores de
dos frecuencias acumuladas se promedia los dos datos, tal como se hizo para datos simples, esta
situación se presenta en el literal c) de este ejemplo.

a) Para responder el literal a) se requiere la posición del decil 2, para ello, se sustituyen los
valores: k = 2 y n = 42 en la siguiente expresión:

𝑘(𝑛) 2(42) 84
= = = 8.4
10 10 10

La posición del decil 2 es 8.4 y la primera frecuencia acumulada que supera este valor es 11,
entonces el decil 2 será:

𝐷2 = 229 días

El valor de 𝑫𝟐 = 𝟐𝟐𝟗 se interpreta como: El hospital se tarda 229 días para realizar la cirugía
al 20% de los pacientes o equivalentemente que el 20% de los pacientes tuvo que espera a
lo sumo 229 días para que le realizaran la cirugía desde la fecha de la consulta.

b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?

Sustituyendo los valores: k = 5 y n = 42 se tiene:

𝑘(𝑛) 5(42) 210


= = = 21
10 10 10
La posición del decil 5 es 21 exactamente la misma del 𝑄2 , entonces el decil 5 será:

𝐷5 = 269 días = 𝑄2

El valor de 𝑫𝟓 = 𝟐𝟔𝟗 se interpreta como: El hospital se tarda 269 días para realizar la cirugía
al 50% de los pacientes o equivalentemente que el 50% de los pacientes tuvo que espera a
lo sumo 269 días para que le realizaran la cirugía desde la fecha de la consulta.

c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 80% de los pacientes?

Sustituyendo los valores: k=8 y n=42 se tiene:

𝑘(𝑛) 8(42) 336


= = = 33.6
10 10 10
La posición del decil 8 es 33.6 y se ubica exactamente entre dos frecuencias acumuladas, tal
como se muestra en el siguiente parte de la tabla de frecuencias (fondo gris):

57
3 274 27 8 de octubre
6 de enero
4 278 31 12 de octubre
2 280 33 15 de octubre
7 de enero
3 283 36 18 de octubre

Por lo que, para obtener el decil 8 debe promediarse los dos valores, estos son:
280+283 563
𝐷8 = 2
= 2
= 281.5 días

El valor de 𝑫𝟖 = 𝟐𝟖𝟏. 𝟓 se interpreta como: El hospital se tarda 281.5 días para realizar la
cirugía al 80% de los pacientes o equivalentemente que 281.5 días es lo mínimo que debe
esperar el 20% de los pacientes que más se tardaron para que le realizaran la cirugía desde
la fecha de la consulta.

Deciles: Tablas de frecuencias agrupadas en clases

Al igual que en el caso de los cuartiles se usa interpolación para deducir la expresión matemática que le
define. La fórmula para calcular los cuartiles para datos agrupados en clase es la siguiente:

𝑘𝑛
− 𝑁𝑖−1
𝐷𝑘 = 𝐿𝑖−1 + (10 ) 𝐶𝑖
𝑛𝑖

Donde k=1, 2, 3, …, 9

𝐿𝑖−1 : Límite inferior del intervalo donde se encuentra el decil buscado, el cual se determina observando
𝑘𝑛
en que clase se encuentra la posición .
10
𝑁𝑖−1 : Frecuencia acumulada anterior al intervalo donde se encuentra la posición del decil buscado.
𝑛𝑖 : Frecuencia absoluta del intervalo donde se encuentra la posición del decil buscado.
𝐶𝑖 : Es el ancho del intervalo donde se encuentra la posición del decil buscado.

Ejemplo 2.23: Notas de los estudiantes (PAESITA 2012)

Retomando el ejemplo de los resultados de la PAESITA 2012 visto en el cálculo de los cuartiles, responder
las preguntas:

a) ¿Cuál fue la calificación máxima para el 20% de los centros educativos con menores calificaciones?
b) ¿Cuál fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones?

Solución:

Para el cálculo de los deciles cuando se tiene datos en tabla de frecuencia agrupadas en clase, se utiliza un
procedimiento análogo al de datos en tablas de frecuencias simples, esto es:

a) Para calcular la posición del decil 2, se sustituyen los valores: k=2 y n=63 en la siguiente expresión:

58
𝑘(𝑛) 2(63) 126
= = = 12.6
10 10 10
La posición del decil 2 es 12.6 y la primera frecuencia acumulada que supera este valor es 34, entonces
el decil 2 se encuentra en el segundo intervalo. A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6, k = 2

Sustituyendo los datos anteriores en la fórmula del decil 2 se tiene:

12.6 − 10 2.6
D2 = 4.1 + ( ) 0.6 = 4.1 + ( ) 0.6 = 4.1 + 0.065 = 4.17
24 24
El valor de 𝑫𝟐 = 𝟒. 𝟏𝟕 se interpreta como: El 20% de los centros educativos que participaron en
la prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012
obtuvieron notas menores o igual que 4.17.

b) ¿Cuál fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones?
Sustituyendo los valores: k=8 y n=63 se tiene:

𝑘(𝑛) 8(63) 504


= = = 50.4
10 10 10
La posición del decil 8 es 50.4 y la primera frecuencia acumulada que supera este valor es 53,
entonces el decil 8 se encuentra en el cuarto intervalo. A partir de los datos de la tabla de
frecuencia se obtiene:

Li−1 = L3 = 5.3, Ni−1 = N3 = 46 , n4 = 7 y Ci = C4 = 0.6, 𝑘 = 8

Sustituyendo los datos anteriores en la fórmula del cuartil 3 se tiene:

50.4 − 47 3.4
D8 = 5.3 + ( ) 0.6 = 5.3 + ( ) 0.6 = 5.3 + 0.29 = 5.59
7 7
El valor de 𝑫𝟖 = 𝟓. 𝟓𝟗 se interpreta como: El 80% de los centros educativos que participaron en
la prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012
obtuvieron notas menores o iguales que 5.59, o que 5.59 fue la calificación mínima para el 20%
de los centros educativos con mayores calificaciones.

Los deciles son los nueve valores de la variable que dividen a un conjunto de datos ordenados en diez
partes iguales.
D1, D2 , …, D9 determinan los valores correspondientes al dividir en porciones de 10% respectivamente. D5
coincide con la mediana.

Existen otras medidas de posición que son útiles en el análisis estadístico, pero no se presentan en este
documento, ya que se obtiene de forma análoga a los cuartiles o deciles, por ejemplo, los quintiles o
percentiles.

59
Introducción a la probabilidad

1. Experimento aleatorio, espacio muestral, suceso o evento


Experimentos

En la vida cotidiana hay muchas situaciones en las que se pueden obtener resultados diferentes, aunque
las condiciones iniciales en las que se producen dichas situaciones sean las mismas. Por ejemplo, si un día
Pablo sale de su casa hacia la escuela a una hora determinada y espera el transporte escolar 5 minutos y
el siguiente día sale de su casa a la misma hora, pero le toca esperar el transporte 7 minutos, el tiempo
que Pablo debe esperar el transporte no será el mismo todos los días, entonces se puede decir que es
probable que un día deba esperar más o menos tiempo que otro día. En el caso de Pablo, la hora a la que
sale de su casa es siempre la misma, por lo que se puede decir que se trata de un evento determinista, sin
embargo, la hora a la que pasa el transporte no es la misma todos los días, por lo que se puede decir que
este es un evento aleatorio. Así, el primer paso para comenzar a estudiar probabilidad es diferenciar las
situaciones aleatorias y deterministas.

A continuación, se presenta una serie de eventos que ayudan diferenciar lo que es un evento determinista
y un evento aleatorio.

Ejemplos 3.1. Para cada una de las siguientes situaciones se determinará si es aleatoria o determinista.

No. Evento Resultado


1 Ir a la escuela de lunes a viernes Determinista
2 Al tirar de un segundo piso un vaso de vidrio, este se romperá al caer. Determinista
3 Después del día sigue la noche. Determinista
4 Alimentarse al mediodía. Determinista
5 Ganar el libro que se está rifando en la Escuela. Aleatoria
6 Elegir al azar una vocal de la palabra mariposa. Aleatoria
Elegir con los ojos vendados una manzana de una caja que contiene manzanas,
7 Aleatoria
peras y mangos.

Se puede observar que cada una de las situaciones planteadas del 1 al 4 tiene únicamente una respuesta,
la cual es posible determinar con anterioridad. En los fenómenos presentados en los numerales del 5 al 7,

60
no es posible asegurar cada resultado. Por ejemplo, en el numeral 6 se puede elegir cualquiera de las
vocales {a, i, o}, pero no se sabe cuál de ella se va a elegir.

Los experimentos deterministas o también llamados exactos, se caracterizan porque cada vez que se
realizan bajo condiciones similares, producen el mismo resultado. Estos fenómenos no son de interés en
probabilidad ya que es posible conocer con anterioridad el resultado.

La probabilidad fundamenta su desarrollo y su aplicación en los denominados experimentos aleatorios. Lo


aleatorio es algo que no se puede predecir ya que interviene el azar. Por lo tanto, no es posible prever su
resultado antes de que se concrete. Esta clase de fenómenos son estudiados desde la probabilidad para
saber con qué frecuencia se puede obtener un determinado resultado, siempre que sea posible.

Un experimento aleatorio: Es cualquier acción o proceso para la que no se tiene certeza del resultado
final, hasta que se ejecuta. Este tipo de experimento debe satisfacer los siguientes requerimientos:

1. Las mismas condiciones iniciales pueden dar lugar a diferentes resultados finales.
2. Todos los resultados posibles se conocen por anticipado, pero no se puede predecir el resultado en
cada experimento particular.
3. En general, puede repetirse en las mismas condiciones indefinidamente.

Espacio muestral

Ejemplos 3.2.

1. Se lanzan 2 dardos sobre una diana que tiene 3 sectores (A:


amarillo, R: rojo y Az: azul), como se muestra en la figura.

Escribir todas las posibles parejas de sectores en las que pueden


caer los 2 dardos (d1 y d2).

Solución:

Usando métodos de conteo puede determinarse que se tienen 9


posibles resultados, ya que el primer dardo puede caer en
cualquiera de los 3 sectores y el segundo dardo tiene los mismos
resultados posibles, lo que da lugar a una variación con
repetición 𝑉𝑅3,3 = 32 = 9. Además, una herramienta útil, para
listar todos los resultados de un experimento aleatorio es el
diagrama de árbol, el cual se presenta en la figura de la derecha.

En el diagrama de árbol se observa que el dardo 1 puede caer en


cualquiera de los tres sectores (A, R o Az) y el dardo 2, también
puede caer en cualquiera de los tres sectores (A, R o Az). Esto
lleva a los 9 resultados posibles que constituyen los elementos de un conjunto “S”:

S = {(A, A), (A, R), (A, Az), (R, A), (R, R), (R, Az), (AZ, A), (Az, R), (Az, Az)}.

61
2. Se lanzan dos dados y se anota la suma de los puntos obtenidos. Obtener todos los posibles resultados.

Solución:

Como en cada uno de los dados, los resultados posibles son 1, 2, 3, 4, 5 y 6, el


conjunto S que contiene todos los posibles resultados del problema, es:

S= {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}

Espacio muestral (S): Es el conjunto de todos los posibles resultados que se obtienen al realizar un
experimento aleatorio. A cada resultado del experimento se conoce como suceso elemental.

Ejemplo 3.3. Hallar el espacio muestral del siguiente experimento: El papá de un bebé próximo a nacer
quiere que su hijo se llame Juan, Pedro o Felipe. La mamá por su parte, pretende que se llame Andrés o
Pablo. Para que ambos queden felices, deciden combinar los nombres propuestos, considerando que
primero irá el del papá y, luego, el de la mamá ¿De cuántas formas diferentes se puede proponer un
nombre para el bebé?

Solución:

El espacio muestral lo conforman todas las ordenaciones que se puedan formar con los 3 nombres que
propone el papá y los 2 que propone la mamá; se debe tener en cuenta que primero irá el del papá y luego
el de la madre. El espacio muestral se puede determinar así:

El total de nombres posibles se puede encontrar usando un método de conteo. Las posibles selecciones
del nombre de entre los propuestos por el papá, se calcula por el combinatorio:

3 3!
( )= =3
1 (3 − 1)! 1!

Luego se calculan las posibles selecciones del nombre de entre los propuestos por la mamá:

2 2!
( )= =2
1 (2 − 1)! 1!

Por el principio de la multiplicación el total de nombres posibles es 3*2=6.

Los 6 nombres posibles constituye el espacio muestral, el cual se presenta a continuación:

S= {Juan Andrés, Juan Pablo, Pedro Andrés, Pedro Pablo, Felipe Andrés, Felipe Pablo}

Suceso o Evento (E)

Ejemplo 3.4. Ahora, volviendo al ejemplo del lanzamiento de dos dardos, encontrar:

62
a) Los resultados donde al menos uno de los dardos cayó en el sector R.
b) Los resultados donde los dos dardos cayeron en el mismo sector.

Solución:

a) Sea 𝐸1 : Lanzar dos dardos y al menos uno cae en el sector R, el conjunto 𝐸1 estaría formado por
los elementos del espacio muestral que tienen R como una de sus componentes:

𝐸1 = {(A, R), (R, A), (R, R), (R, Az), (Az, R)}

b) Sea 𝐸2 : Lanzar dos dardos y ambos caen en el mismo sector, el conjunto 𝐸2 estaría formado por
los elementos del espacio muestral que tienen sus dos componentes iguales:

𝐸2 = {(A, A), (R, R), (Az, Az)}

Se observa que, tanto 𝐸1 como 𝐸2 son subconjuntos del espacio muestral S correspondiente al
ejemplo de la diana y los dardos.

Suceso o evento: Es un subconjunto del espacio muestral. Se llaman sucesos elementales a cada uno de
los resultados posibles del experimento aleatorio, que no se puede descomponer en otros más simples. El
espacio muestral es un suceso seguro. Por otra parte, cada suceso tiene cierta incertidumbre de
ocurrencia, la cual se medirá a través de la probabilidad de que ocurra dicho suceso.

Tipos de sucesos o eventos:

Ejemplo 3.5. Considerando de nuevo el ejemplo de lanzar dos dados, se desea anotar la suma de los puntos
obtenidos.

a) Obtener el suceso definido como: el resultado del experimento sea 1.


b) Dado el suceso E = {3, 5, 7, 9, 11} obtener el suceso que contiene todos los elementos que le faltan
a E para completar el espacio muestral.

Solución:

Recordar que el conjunto S contiene todos los posibles resultados del experimento de lanzar dos dados y
anotar la suma de los puntos obtenidos, así:

S = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.

a) Es evidente que el menor valor que se obtiene al lanzar dos dados y anotar la suma de los puntos
obtenidos, es 2, por lo tanto, nunca aparecerá el valor de 1, éste es un suceso imposible de ocurrir
en este ejemplo. Se denotará dicho suceso como: E = 
b) Dado el suceso: E = {3, 5, 7, 9, 11}, se desea obtener el suceso que contiene los valores que hacen
falta para obtener S. El suceso solicitado es el complemento de E, esto es:

𝑬𝒄 = {2, 4, 6, 8, 10, 12}

63
Se observa que 𝐸 contiene los números impares y 𝐸 𝑐 los números pares del espacio muestral de este
experimento.

Suceso imposible: Es un resultado que no se puede dar, corresponde al conjunto vacío y se representa por
 y se define como el conjunto E que no contiene ningún suceso elemental.
Sucesos complementarios: Si 𝐸 es un suceso entonces su complemento se denota como 𝐸 𝑐 , tal que
𝐸 ∪ 𝐸 𝑐 = 𝑆, se tiene que 𝐸 es incompatible con 𝐸 𝑐 .

Obviamente, los sucesos son conjuntos, por lo tanto, al hablar de uniones, intersecciones, diferencia,
complementario, etc. de sucesos no es más que hablar de uniones, intersecciones, diferencias,
complementarios, etc. de conjuntos. Por otra parte, cada suceso tiene una probabilidad de ocurrencia.

2. Reglas básicas para el cálculo de probabilidades


El concepto de probabilidad nace con el deseo del hombre de conocer con certeza los eventos futuros. Es
por ello, que el estudio de probabilidades surge como una herramienta utilizada por los nobles para ganar
en los juegos y pasatiempos de la época. En la vida diaria se aplican inconscientemente probabilidades,
por ejemplo, cuando se compra un billete de lotería o cuando se lleva un paraguas al observar el cielo
nublado.

La palabra probabilidad viene del latin probabilitas, posibilitatis, formada del verbo probare (comprobar,
probar), el sufijo – bilis (indica posibilidad), y el sufijo – tat, que indica cualidad. Entonces indica la cualidad
(-dad) de poder (-able) probar.

El diccionario de la Real Academia Española (R. A. E.) define «azar» como una casualidad, un caso fortuito,
y afirma que la expresión «al azar» significa «sin orden». La idea de probabilidad está íntimamente ligada
a la idea de azar y nos ayuda a comprender las posibilidades de ganar un juego de azar o analizar las
encuestas.

Ejemplo 3.6. Se desea elegir un departamento de El Salvador al azar para poder llevar a cabo un estudio.
Se pide:

a) Definir el espacio muestral.


b) Calcular la probabilidad de seleccionar el departamento de Ahuachapán.

Solución:

a) El espacio muestral es 𝑆 = {Ahuachapán, Cabañas, Chalatenango, Cuscatlán, La Libertad, La Paz, La


Unión, Morazán, San Miguel, San Salvador, San Vicente, Santa Ana, Sonsonate, Usulután}.
b) Se define el suceso 𝐴: "𝐸𝑙𝑒𝑔𝑖𝑟 𝑒𝑙 𝑑𝑒𝑝𝑎𝑟𝑡𝑎𝑚𝑒𝑛𝑡𝑜 𝑑𝑒 𝐴ℎ𝑢𝑎𝑐ℎ𝑎𝑝á𝑛", a la probabilidad del suceso 𝐴
se denotará 𝑃(𝐴). La cual se calcula a continuación:

64
Paso 1. Se determina el numerador como la cardinalidad del subconjunto referido al suceso 𝐴, el
cual es 1, ya que sólo se tiene el departamento de Ahuachapán.
Paso 2. Se determina el denominador como la cardinalidad del espacio muestral 𝑆, que es igual a 14.
Paso 3. Se calcula el cociente de la cardinalidad del subconjunto 𝐴 y la cardinalidad del espacio
muestral 𝑆. La probabilidad se calcula así:

1
𝑃(𝐴) =
14
1
Se puede deducir la probabilidad de seleccionar al azar cualquier departamento que será de . Es
14
de notar que cada departamento tiene la mima probabilidad de ser seleccionado, en tal condición
se dice que el espacio muestral es equiprobable.

Un evento equiprobable es aquel donde todos los posibles resultados tienen la misma probabilidad de
ocurrir.

Ejemplo 3.7. Las autoridades del Ministerio de Educación están


Frecuencia de Centro
interesadas en implementar un plan de estudio con el objetivo Departamento educativo
de aumentar la nota promedio de la PAESITA, para ello necesitan
NP<6 NP≥6 Total
seleccionar un centro educativo al azar e implementar el plan
piloto de dicho proyecto. Se dispone de las notas globales Ahuachapán 21 5 26
promedio por centro educativo que participó en la PAESITA 2012. Cabañas 14 1 15
Un resumen de los datos se presenta en la siguiente tabla: Chalatenango 12 5 17
Cuscatlán 15 0 15
Se pide: La Libertad 32 4 36
La Paz 19 3 22
a) Calcular la probabilidad de elegir, del total de centros La Unión 21 7 28
educativos, a uno con nota promedio global mayor o igual Morazán 14 6 20
que 6.
San Miguel 21 10 31
b) Calcular la probabilidad de elegir, del total de centros
educativos, a uno con nota promedio global menor que 6. San Salvador 54 9 63
c) Para el departamento de Cuscatlán, calcular la San Vicente 15 2 17
probabilidad de seleccionar un centro educativo cuya nota Santa Ana 25 9 34
promedio global sea mayor o igual que 6. Sonsonate 22 3 25
d) Para el departamento de Cuscatlán, calcular la Usulután 24 4 28
probabilidad de seleccionar un centro educativo cuya nota Total 309 68 377
promedio global sea menor que 6.

Solución:

a) Con base en los resultados obtenidos, se tiene un total de 377 centros educativos evaluados, de los
cuales 68 han obtenido una nota promedio global mayor o igual que 6, entonces la probabilidad de
elegir un centro educativo al azar cuya nota promedio global sea mayor o igual a 6, está dada por:

68
∙ 100% ⋍ 0.1804 ∙ 100% ⋍ 18%
377

65
Se concluye que la probabilidad de seleccionar un centro educativo con nota promedio global mayor
o igual que 6 es de 18%.
b) Realizando un análisis análogo al del literal anterior, la probabilidad de elegir del total de centros
educativos uno con nota promedio menor que 6 es:

309
∙ 100% ⋍ 0.8196 ∙ 100% ⋍ 82%
377
Otra forma de resolver este problema es observando que la
probabilidad de elegir un centro educativo con nota promedio mayor
o igual que 6 es ⋍ 18%, y la probabilidad de elegir un centro
educativo con un promedio menor que 6 puede calcularse aplicando
la siguiente expresión:

1 − 0.1804 = 0.8196 ∗ 100% ⋍ 82%

Con ayuda del diagrama de Venn se visualizan las probabilidades


anteriores así:

La probabilidad del complemento del suceso 𝐴 se define como 𝐴𝑐 y se calcula así:

𝑃(𝐴𝑐 ) = 1 − 𝑃(𝐴)

c) Con ayuda del cuadro anterior se puede identificar que la probabilidad es cero, ya que el cociente
0
es 15 = 0. A este evento se le llama suceso imposible.

El suceso 𝐴 es un suceso imposible si: 𝑃(𝐴) = 0

d) En el departamento de Cuscatlán todos los centros educativos obtuvieron notas menores que 6,
15
por tanto, la probabilidad solicitada es: 15 = 1 en otras palabras, al elegir un centro educativo al
azar del departamento de Cuscatlán, es seguro que el resultado promedio de la PAESITA sea
menor a 6, a este tipo de eventos se le llama suceso seguro.

El suceso 𝐴 es un suceso seguro si: 𝑃(𝐴) = 1

Como se ha visto, todas las probabilidades calculadas oscilan entre cero y uno (o entre 0 y 100), con lo que
se concluye que sin importar el suceso o evento que se presente, la probabilidad del mismo tendrá un
valor entre cero y uno.

Laplace, en su obra Teorie analytique des probabilités (1812), define la probabilidad de un suceso que
puede ocurrir en un número finito de modalidades como: “La proporción del número de casos favorables
al número de casos posibles, siempre que todos los resultados sean igualmente probables”.

A la regla de Laplace también se le denomina “probabilidad a priori”, ya que para aplicarla hay que conocer
antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen las mismas
probabilidades, como se ha visto en el ejemplo anterior.

66
Regla de Laplace: Es la proporción del número de casos favorables al número de casos posibles, siempre
que todos los resultados sean igualmente probables. La probabilidad de cualquier suceso 𝐴 de 𝑆 se obtiene
mediante:
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑑𝑒 𝐴
𝑃(𝐴) =
𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠
𝑐𝑎𝑟𝑑𝑖𝑛𝑎𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝐴 𝑐𝑎𝑟𝑑(𝐴)
𝑃(𝐴) = =
𝑐𝑎𝑟𝑑𝑖𝑛𝑎𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑆 𝑐𝑎𝑟𝑑(𝑆)

Existe infinidad de formas de resolver un problema de probabilidad, todo depende de la naturaleza del
mismo. A continuación se muestra como el diagrama de Venn ayuda a la resolución de problemas.

Ejemplo 3.8. Las autoridades de un centro educativo están interesadas en determinar la preferencia entre
las materias de Matemáticas, Ciencias Naturales y Lenguaje y Literatura para implementar una estrategia
educativa que permita explotar el potencial de todos los alumnos. El centro educativo cuenta con 70
alumnos y los resultados fueron los siguientes:

• A 50 alumnos les gusta Lenguaje y Literatura.


• A 35 alumnos les gusta Ciencias Naturales.
• A 40 les gusta Matemática.
• A 20 les gusta Lenguaje y Literatura y Ciencias Naturales.
• A 15 les gusta Ciencias Naturales y Matemática.
• A 25 les gusta Matemática y Lenguaje y Literatura.
• A 5 les gustan las tres materias.

Se pide calculas las siguientes probabilidades:

a) Seleccionar a un estudiante que le guste la Matemática.


b) Seleccionar a un estudiante que le guste la Matemática y las Ciencias Naturales.
c) Seleccionar a un estudiante que le guste las Ciencias Naturales o Lenguaje y Literatura.
d) Seleccionar a un estudiante que le guste las 3 materias.
e) Seleccionar un estudiante que le guste la Matemática o las Ciencias Naturales o Lenguaje y
Literatura.

Solución:

Para facilitar los cálculos se realizará un diagrama de Venn con la


información proporcionada. Para ello se define lo siguiente:

𝐿𝐺: "𝐴𝑙𝑢𝑚𝑛𝑜𝑠 𝑞𝑢𝑒 𝑙𝑒𝑠 𝑔𝑢𝑠𝑡𝑎 𝐿𝑒𝑛𝑔𝑢𝑎𝑗𝑒 𝑦 𝐿𝑖𝑡𝑒𝑟𝑎𝑡𝑢𝑟𝑎"


𝐶𝑁: "𝐴𝑙𝑢𝑚𝑛𝑜𝑠 𝑞𝑢𝑒 𝑙𝑒𝑠 𝑔𝑢𝑠𝑡𝑎 𝑙𝑎𝑠 𝐶𝑖𝑒𝑛𝑐𝑖𝑎𝑠 𝑁𝑎𝑡𝑢𝑟𝑎𝑙𝑒𝑠"
𝑀𝑇: "𝐴𝑙𝑢𝑚𝑛𝑜𝑠 𝑞𝑢𝑒 𝑙𝑒𝑠 𝑔𝑢𝑠𝑡𝑎 𝑙𝑎 𝑀𝑎𝑡𝑒𝑚á𝑡𝑖𝑐𝑎"

Del diagrama se comprueba que el conjunto universal es el total de


alumnos que participaron en la encuesta son 70.

67
a) Para calcular la probabilidad de seleccionar un estudiante que le guste la Matemática se aplica la
regla de Laplace en la cual se debe tomar en cuenta los siguientes alumnos: a los que les guste
sólo la Matemática, la Matemática y las Ciencias Naturales, la Matemática y Lenguaje y Literatura
y a los alumnos que les gusta la Matemática, las Ciencias Naturales y Lenguaje y Literatura,
observando el diagrama de Venn se tiene:

Les gusta solamente:

• Matemática: 5.
• Matemática y Ciencias Naturales: 10.
• Matemática y Lenguaje y Literatura: 20.
• Matemática, Ciencias Naturales y Lenguaje y Literatura: 5.

Por tanto, la probabilidad de seleccionar un estudiante que le guste la Matemática será:

5 + 10 + 20 + 5 40
𝑃(𝑀𝑇) = =
70 70
b) Para determinar la probabilidad de seleccionar un estudiante que le guste la Matemática y las
Ciencias Naturales se debe de aplicar la regla de Laplace tomando en cuenta que, según la teoría
de conjuntos, aplicaremos la intersección de ellos.

Sea:

𝑀𝑇⋂𝐶𝑁: Alumnos que les gusta la Matemática y las Ciencias Naturales, del diagrama se observa
que son 15 alumnos, por tanto, la probabilidad pedida es:

10 + 5 15
𝑃(𝑀𝑇⋂𝐶𝑁) = =
70 70
c) Para determinar la probabilidad de seleccionar un estudiante que le gusten las Ciencias Naturales
o Lenguaje y Literatura aplicaremos la fórmula de la unión de conjuntos y tomando en cuenta la
regla de Laplace.

Sea:

𝐶𝑁 ⋃ 𝐿𝐺: Alumnos que les gusta Ciencias Naturales o Lenguaje y Literatura, entonces:

𝐶𝑎𝑟𝑑(𝐶𝑁⋃𝐿𝐺) = 𝑐𝑎𝑟𝑑(𝐶𝑁) + 𝑐𝑎𝑟𝑑(𝐿𝐺) − 𝑐𝑎𝑟𝑑(𝐶𝑁⋂𝐿𝐺)

Donde 𝐶𝑁⋂𝐿𝐺, son los alumnos que les gustan las Ciencias Naturales y Lenguaje y Literatura.
Aplicando la regla de Laplace se tiene que:

𝑃(𝐶𝑁⋃𝐿𝐺) = 𝑃(𝐶𝑁) + 𝑃(𝐿𝐺) − 𝑃(𝐶𝑁⋂𝐿𝐺)

Sustituyendo las probabilidades:

35 50 20 65
𝑃(𝐶𝑁⋃𝐿𝐺) = + − =
70 70 70 70

68
d) La probabilidad de seleccionar un estudiante que le guste la Matemática, las Ciencias Naturales y
Lenguaje y Literatura viene dada por el número de estudiantes a los que les gustan las 3 materias
dividido por el total de estudiantes.

Sea: 𝑀𝑇⋂𝐶𝑁⋂𝐿𝐺: Los estudiantes a los que les gustan las 3 materias, entonces
𝑐𝑎𝑟𝑑(𝑀𝑇⋂𝐶𝑁⋂𝐿𝐺) = 5, por tanto:

5
𝑃(𝑀𝑇⋂𝐶𝑁⋂𝐿𝐺) =
70

e) Al determinar la probabilidad de seleccionar un estudiante que le guste la Matemática o las


Ciencias Naturales o Lenguaje y Literatura se aplica una fórmula semejante a la utilizada en el
literal c) en la cual se usó la cardinalidad de la unión de conjuntos, de la siguiente forma:

𝑃(𝑀𝑇⋃𝐶𝑁⋃𝐿𝐺) = 𝑃(𝑀𝑇) + 𝑃(𝐶𝑁) + 𝑃(𝐿𝐺) − 𝑃(𝑀𝑇⋂𝐶𝑁) − 𝑃(𝑀𝑇⋂𝐿𝐺) − 𝑃(𝐶𝑁⋂𝐿𝐺) +


𝑃(𝑀𝑇⋂𝐶𝑁⋂𝐿𝐺) , sustituyendo las probabilidades se tiene:

40 35 50 15 25 20 5 70
𝑃(𝑀𝑇⋃𝐶𝑁⋃𝐿𝐺) = + + − − − + =
70 70 70 70 70 70 70 70

Ya que la probabilidad solicitada es la probabilidad de seleccionar todos los elementos del espacio
muestral, la probabilidad debe de ser igual a 1.

Sean 𝐴, 𝐵, 𝐶 subconjuntos de 𝑆. La probabilidad de la unión de tres conjuntos viene dada por:


𝑃(𝐴⋃𝐵⋃𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) − 𝑃(𝐴⋂𝐵) − 𝑃(𝐴⋂𝐶) − 𝑃(𝐵⋂𝐶) + 𝑃(𝐴⋂𝐵⋂𝐶)

3. Probabilidad condicional
En el cálculo de las probabilidades, muchas veces, se dispone de información adicional que condiciona la
ocurrencia o no del suceso en estudio, tal como se muestra en los siguientes ejemplos.

Ejemplo 3.9. Se tiene un tablero con 7 llaves, 3 abren la puerta y 4 no. La probabilidad de seleccionar una
llave al azar, que abra la puerta es 3/7 y de que no la abra es de 4/7. Se selecciona una llave al azar y no
se devuelve al tablero, luego se elige una segunda llave al azar, ¿Cuál es la probabilidad de que la segunda
llave abra la puerta?

Solución:

El espacio muestral inicial es: 𝑆 = {3 𝑙𝑙𝑎𝑣𝑒𝑠 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎, 4 𝑙𝑙𝑎𝑣𝑒𝑠 𝑛𝑜 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎}.

• Si la primera llave seleccionada abre la puerta, el espacio se restringe a


𝑆1 = {2 𝑙𝑙𝑎𝑣𝑒𝑠 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎, 4 𝑙𝑙𝑎𝑣𝑒𝑠 𝑛𝑜 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎}

2 1
Por tanto, la probabilidad de elegir una segunda llave que abra la puerta es de 6 = 3

69
• Si la primera llave seleccionada no abre la puerta, el espacio se restringe a
𝑆1 = {3 𝑙𝑙𝑎𝑣𝑒𝑠 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎, 3 𝑙𝑙𝑎𝑣𝑒𝑠 𝑛𝑜 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎} y la probabilidad de que la
3 1
segunda llave abra la puerta es de 6 = 2.

En este ejemplo, la probabilidad de que la segunda llave abra la puerta, depende de la llave que
se haya seleccionado en la primera extracción. Para continuar con el análisis de este ejemplo, se
definen los siguientes sucesos:

𝐸1 : "𝑙𝑎 𝑝𝑟𝑖𝑚𝑒𝑟𝑎 𝑙𝑙𝑎𝑣𝑒 𝑒𝑙𝑒𝑔𝑖𝑑𝑎 𝑎𝑏𝑟𝑒 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎


y 𝐸2 : "𝑙𝑎 𝑠𝑒𝑔𝑢𝑛𝑑𝑎 𝑙𝑙𝑎𝑣𝑒 𝑒𝑙𝑒𝑔𝑖𝑑𝑎 𝑎𝑏𝑟𝑒 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎"

Ahora, se define 𝑃(𝐸2 /𝐸1 ) como la probabilidad condicional de 𝐸2 dado 𝐸1 , e indicará la


probabilidad de que la segunda llave elegida abra la puerta dado que la primera también abre la
puerta, entonces se tiene:
2 1 3 1
𝑃(𝐸2 /𝐸1 ) = = y 𝑃(𝐸2 /𝐸1𝐶 ) = =
6 3 6 2

Ejemplo 3.10. El Viceministerio de Transporte a través de la División de Tránsito Terrestre de la Policía


Nacional Civil, ha reportado la cantidad de accidentes de tránsito ocurridos del lunes 10 al domingo 16 de
abril de 2017 (Semana Santa 2017). Quiere utilizar esta información para tomar acciones que permitan
reducir la cantidad de accidentes. Se plantea las siguientes situaciones:

a) ¿Cuál es la probabilidad de que ocurra un accidente el sábado 15 de abril de 2017?


b) Si un accidente ocurrió el sábado 15 de abril de 2017, ¿cuál es la probabilidad de que la causa haya
sido por distracción del conductor?

PRINCIPALES CAUSAS DE ACCIDENTES DE TRÁNSITO DEL 10 AL 16 DE ABRIL DE 2017


DÍAS
N° CAUSAS
LUN 10 MAR 11 MIR 12 JUE 13 VIE 14 SÁB 15 DOM 16 TOTAL
1 Distracción del conductor 11 13 11 15 5 6 7 68
2 Invadir carril 8 15 14 9 4 8 5 63
No guardar distancia de
3 9 11 9 5 2 8 5 49
seguridad
No respetar señal de
4 5 9 11 3 2 4 4 38
prioridad
5 Circular en reversa 6 6 7 7 2 4 2 34
Velocidad excesiva o
6 6 5 4 3 5 4 0 27
inadecuada
7 Falla mecánica 3 0 1 0 1 2 2 9
TOTAL 48 59 57 42 21 36 25 288

Solución:

Sea:

𝑆𝑎: “Ocurra un accidente el sábado 15”


DC: “Distracción del conductor”

70
a) Debe ubicarse en la columna del día sábado y dado que se pide calcular la probabilidad de que
ocurra un accidente, sin importar la causa, se tiene que ubicar en la fila del total, cuyo valor es 36,
además se conoce el total de accidentes ocurridos que es 288. Por tanto, la probabilidad buscada
36
es: 𝑃(𝑆𝑎) = 288
b) Se sabe que ocurrió un accidente el día sábado, por tanto, se debe calcular una probabilidad
condicional. La cual se obtiene, ubicándose en la intersección de la fila distracción del conductor
y la columna del día sábado 15. El valor seleccionado es 6 (casos favorables) y el total de accidentes
son los que ocurrieron el día sábado 36, (casos posibles):

6
𝑃(𝐷𝐶/𝑆𝑎) =
36

Otra forma, comúnmente utilizada para obtener la probabilidad


condicional es calcular la probabilidad de la intersección del
suceso conocido y el suceso que se quiere calcular su
probabilidad, luego este resultado se divide entre la probabilidad
del suceso conocido, esto es (se ilustra en el diagrama de Venn):

6
𝑃(𝐷𝐶⋂𝑆𝑎) 288 6
𝑃(𝐷𝐶/𝑆𝑎) = = =
𝑃(𝑆𝑎) 36 36
288

La notación para dos sucesos 𝐴 y 𝐵 condicionados es:


𝑃(𝐴/𝐵): 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑒 𝐴 𝑑𝑎𝑑𝑜 𝐵
𝑃(𝐵/𝐴): 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑒 𝐵 𝑑𝑎𝑑𝑜 𝐴
Se define la probabilidad condicional de dos sucesos 𝐴 y 𝐵, de un espacio muestral 𝑆, como:
𝑃(𝐴⋂𝐵) 𝑃(𝐴⋂𝐵)
𝑃(𝐴/𝐵) = 𝑃(𝐵)
; 𝑃(𝐵) ≠ 0 o 𝑃(𝐵/𝐴) = 𝑃(𝐴)
; 𝑃(𝐴) ≠ 0

4. Probabilidad de eventos independientes


Es muy común en el cálculo de probabilidades el querer saber si la ocurrencia de un suceso A tiene alguna
relación o no con la ocurrencia de otro suceso B. Tal es el caso de lanzar los dardos en la diana que se
presentó al inicio de la unidad. Por ejemplo, sea A el suceso de dar en el centro de la diana con el primer
dardo y B el suceso de dar en el centro de la diana al lanzar el segundo dardo, entonces surge la siguiente
pregunta: ¿La probabilidad de dar en el centro de la diana con el segundo dardo, depende si dio en el centro
el primero? Por supuesto que no, la probabilidad de acertar al centro con el segundo dardo, no depende
de si el primero acertó al centro o no.

Ejemplo 3.11. Se tiene una bolsa con 10 cubitos de colores, 8 verdes y 2 azules y se extraen
consecutivamente dos cubitos. Se pide determinar la probabilidad de que el segundo cubito sea verde si:

a) El primer cubito extraído se regresa a la bolsa.


b) El primer cubito extraído no se regresa a la bolsa.

71
Solución:

a) En este caso, antes de extraer el primer cubito se tiene un espacio muestral formado por 10 cubitos
(8 verdes y 2 azules). Se extrae el primer cubito y se regresa a la bolsa, esto significa que el espacio
muestral no se modifica y se tiene de nuevo 10 cubitos (8 verdes y 2 azules) como antes de la primera
extracción. Así en ambas extracciones la probabilidad de extraer un cubito verde es 8/10.
b) Si el cubito seleccionado en la primera extracción no se regresa, significa que la extracción se hace sin
reemplazamiento; por lo tanto, se modifica el espacio muestral, ya que ahora se tienen solamente 9
cubitos en la bolsa. Si el cubito extraído es verde, el espacio muestral estaría formado por 7 cubitos
verdes y 2 azules y la probabilidad de que el segundo cubito sea verde es 7/9. Si ese primer cubito
extraído es azul, el espacio muestral estaría formado por 8 cubitos verdes y 1 azul; y la probabilidad
de que el segundo cubito sea verde es 8/9.

Se observa que la probabilidad de extraer un cubito verde en la segunda selección es diferente si el


experimento se realiza con o sin reemplazo. De aquí se puede decir que cuando los cubitos son extraídos
con reemplazamiento, los sucesos son independientes, ya que se tiene el mismo espacio muestral; y
cuando se extraen sin reemplazamiento, los sucesos no son independientes, (son eventos condicionados);
es decir, la primera extracción modifica el espacio muestral y, por tanto, la probabilidad del segundo
evento.

Ejemplo 3.12. Se lanzan dos dados no cargados (los resultados de cada cara son equiprobables), ¿cuál es
la probabilidad de obtener 6 en ambos dados?

Solución:

Se sabe que se pueden tener 6 resultados en el lanzamiento del primer dado y que luego debe verse los
resultados obtenidos en el segundo dado, así:

Dado 1 Dado 2
1, 2, 3, 4, 5, 6 1, 2, 3, 4, 5, 6

Al anotar todos los resultados posibles al lanzar dos dados se obtiene la siguiente tabla:

Resultados obtenidos al lanzar dos dados


(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

En la tabla se presentan los 36 resultados posibles, los cuales forman el espacio muestral. De estos
resultados solamente uno tiene un 6 en el primero y en el segundo dado (6 en ambos dados), por tanto,
la probabilidad pedida es 1/36.

72
Otra forma de resolver este problema es la siguiente:

Sea A: obtener 6 en el primer dado y B: obtener 6 en el segundo dado:

P(A)=1/6 y P(B)=1/6

Se tiene que en cada dado la probabilidad de obtener un 6 es 1/6, ya que no se modifica el espacio muestral
en ninguno de los casos, lo cual indica que son eventos independientes, por tanto, la probabilidad pedida es:

1 1 1
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵)𝑃(𝐴) = ∙ =
6 6 36

En ambas soluciones se ha obtenido la misma respuesta y se comprueba con ello que ambos eventos son
independientes.

Ejemplo 3.13. Se lanza una moneda y un dado. Calcular la probabilidad de obtener cara y 3.

Solución:

Se procede de forma similar al ejemplo anterior, en la siguiente tabla se muestra el espacio muestral que
se obtiene al realizar el lanzamiento de la moneda y el dado.

Resultados obtenidos al lanzar una moneda y un dado


Dado
Moneda
1 2 3 4 5 6
Cara (C,1) (C,2) (C,3) (C,4) (C,5) (C,6)
Cruz (+,1) (+,2) (+,3) (+,4) (+,5) (+,6)

Se tienen 12 resultados posibles, de los cuales uno corresponde a una cara y un tres, por tanto, la
probabilidad pedida es 1/12.

Nuevamente, la probabilidad buscada puede obtenerse de la siguiente forma. Sea A: obtener cara en el
lanzamiento de la moneda, B: Obtener 3 en el lanzamiento del dado, entonces:

P(A)=1/2 y P(B)=1/6

Se tiene que la probabilidad de obtener cara al lanzar la moneda es 1/2 y la probabilidad de obtener 3 al
lanzar el dado es 1/6. Al observar por separado el lanzamiento de la moneda y el del dado, puede notarse
que no importa cuál sea el resultado obtenido en la moneda, el resultado del dado no es afectado por este
y los eventos son independientes, en consecuencia:

1 1 1
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵)𝑃(𝐴) = × =
2 6 12

En ambas soluciones se ha obtenido la misma respuesta ya que los sucesos A y B son independientes.

73
Eventos independientes: Sean A y B dos sucesos independientes del mismo espacio muestral S, esto es
que la ocurrencia de A no influye en la ocurrencia de B (o viceversa), entonces:

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵)𝑃(𝐴)

Si A y B son sucesos independientes, entonces a partir de la definición anterior se tienen:

𝑃(𝐴∩𝐵) 𝑃(𝐴)𝑃(𝐵) 𝑃(𝐴∩𝐵) 𝑃(𝐴)𝑃(𝐵)


𝑃(𝐴/𝐵) = 𝑃(𝐵)
= 𝑃(𝐵)
= 𝑃(𝐴) o 𝑃(𝐵/𝐴) = 𝑃(𝐴)
= 𝑃(𝐴)
= 𝑃(𝐵)

5. Teorema de la probabilidad total


En ocasiones se tiene conocimiento de la ocurrencia de algunos sucesos 𝐴𝑖 que son distintas causas de la
ocurrencia de otro suceso 𝐵 y se desea conocer la probabilidad de ocurrencia del suceso 𝐵. En este caso
es necesario calcular la probabilidad de que el suceso 𝐵 ocurra debido a cada uno de los sucesos 𝐴𝑖 .

Ejemplo 3.14. Nuevamente considerar los datos del Viceministerio de Transporte (sobre accidentes de
tránsito, Semana Santa 2017, ejemplo 3.10), los cuales se presentan en la siguiente tabla.

PRINCIPALES CAUSAS DE ACCIDENTES DE TRÁNSITO DEL 10 AL 16 DE ABRIL DE 2017


DÍAS
N° CAUSAS
LUN 10 MAR 11 MIE 12 JUE 13 VIE 14 SÁB 15 DOM 16 TOTAL
1 Distracción del conductor 11 13 11 15 5 6 7 68
2 Invadir carril 8 15 14 9 4 8 5 63
3 No guardar distancia de seguridad 9 11 9 5 2 8 5 49
4 No respetar señal de prioridad 5 9 11 3 2 4 4 38
5 Circular en reversa 6 6 7 7 2 4 2 34
6 Velocidad excesiva o inadecuada 6 5 4 3 5 4 0 27
7 Falla mecánica 3 0 1 0 1 2 2 9
TOTAL 48 59 57 42 21 36 25 288

Con base en la información presentada por el VMT, se desea implementar un plan de prevención que permita
reducir el número de accidentes y se ha decidido analizar los casos por invadir el carril, siendo esta la segunda
causa de accidentes. Calcular la probabilidad de tener un accidente por invadir el carril contrario.

Solución:

Se observa que durante el periodo de vacaciones ocurrieron 63 accidentes debido a la invasión de carril, y el
total de accidentes fue 288, usando la regla de Laplace, la probabilidad pedida es 63/288 ≅ 0.22 ≅ 22%.

Otra forma de resolver este problema es encontrando las probabilidades de tener un accidente por invadir
el carril contrario para cada uno de los días y la probabilidad de obtener un accidente cualquiera en ese
día. Para ello, se requiere definir los siguientes sucesos.

Sea:

L: Tener un accidente el lunes.


M: Tener un accidente el martes.

74
Mi: Tener un accidente el miércoles.
J: Tener un accidente el jueves.
V: Tener un accidente el viernes.
S: Tener un accidente el sábado.
D: Tener un accidente el domingo.

Ahora, se representa con I el hecho de tener un accidente por invadir el carril contrario:

I: Tener un accidente por invadir el carril contrario.


IL: Tener un accidente el lunes por invadir el carril contrario.
IM: Tener un accidente el martes por invadir el carril contrario.
IMi: Tener un accidente el miércoles por invadir el carril contrario.
IJ: Tener un accidente el jueves por invadir el carril contrario.
IV: Tener un accidente el viernes por invadir el carril contrario.
IS: Tener un accidente el sábado por invadir el carril contrario.
ID: Tener un accidente el domingo por invadir el carril contrario.

Observando la tabla, se tiene el número de accidentes debido a invadir el carril contrario y el total de
accidentes para cada uno de los días, esto se representa en la siguiente figura:

Accidentes diarios y por invasión de carril

Cada una de las partes de la figura representa un día de la semana identificado por una letra con su
respectivo número de accidentes. Además, la parte delimitada por la elipse representa el hecho de
tener un accidente por invadir el carril con su respectivo número de accidentes para cada día, por
ejemplo, el día lunes se registró un total de 48 accidentes y, de estos, 8 fueron por invadir el carril.

Luego el cálculo de las probabilidades se facilita. Para el día lunes la probabilidad de tener un accidente
es 𝑃(𝐿) = 48/288 y la probabilidad de que este sea por invadir el carril es 𝑃(𝐼𝐿) = 8/48.

Para el resto de días se hace el cálculo de la misma manera, así las respectivas probabilidades son:

𝑃(𝐿) = 48/288, 𝑃(𝑀) = 59/288, 𝑃(𝑀𝑖) = 57/288, 𝑃(𝐽) = 42/288, 𝑃(𝑉) = 21/288,
𝑃(𝑆) = 36/288, 𝑃(𝐷) = 25/288.

𝑃(𝐼𝐿) = 8/48, 𝑃(𝐼𝑀) = 15/59, 𝑃(𝐼𝑀𝑖) = 14/57, 𝑃(𝐼𝐽) = 9/42, 𝑃(𝐼𝑉) = 4/21, 𝑃(𝐼𝑆) = 8/36,
𝑃(𝐼𝐷) = 5/25.

75
Una vez identificadas las probabilidades, se ubican en un diagrama de árbol, el cual ayudará a facilitar el
cálculo de la probabilidad pedida.

Ahora, se aplica el principio del producto para calcular la probabilidad de tener un accidente por invadir el
carril en cada uno de los días y luego se usa el principio de la suma para encontrar la probabilidad pedida.

La probabilidad de tener un accidente por invadir el carril el lunes es: (48/288) x (8/48) = 8/288. Esto es, la
probabilidad de tener un accidente el lunes multiplicado por la probabilidad de tener un accidente por
invadir el carril el lunes.

La probabilidad de tener un accidente por invadir el carril el martes es: (59/288) x (15/59) = 15/288. Esto
es, la probabilidad de tener un accidente el martes por la probabilidad de tener un accidente por invadir
el carril el martes.

De esta misma forma se calculan las probabilidades de los días restantes de la semana y luego se suman.

Así, la probabilidad buscada es:

48 8 59 15 57 14 42 9 21 4 36 8 25 5 63
𝑃(𝐼) = ∗ + ∗ + ∗ + ∗ + ∗ + ∗ + ∗ = ≅ 0.22
288 48 288 59 288 57 288 42 288 21 288 36 288 25 288

Se ha obtenido la misma respuesta que al aplicar la regla de Laplace.

En general se tiene la siguiente representación que se conoce como teorema de la probabilidad total.

76
Teorema de la probabilidad total: Si A1, A2, ..., An son sucesos incompatibles dos a dos y cuya unión es
todo el espacio muestral, entonces la probabilidad de cualquier otro suceso B es:
𝑛

𝑃(𝐵) = ∑ 𝑃(𝐴𝑖 ). 𝑃(𝐵/𝐴𝑖 )


𝑖=1

Los sucesos 𝐴𝑖 pueden interpretarse como las distintas causas (o circunstancias) por las que puede ocurrir
el suceso 𝐵. Entonces el teorema de la probabilidad total viene a decir que si el suceso 𝐵 puede ocurrir
por alguna de las causas 𝐴𝑖 ; la probabilidad de que ocurra es la suma de las probabilidades de las causas,
𝑃(𝐴𝑖 ), por la probabilidad del suceso 𝐵 condicionado a la causa, 𝑃(𝐴𝑖 ).

6. Teorema de Bayes
En algunos casos se tiene el conocimiento de la ocurrencia de un suceso 𝐵, el cual tiene distintas causas
de ocurrencia 𝐴𝑖 , y se desea conocer la probabilidad de la ocurrencia de una de las causas 𝐴𝑖 específica,
sabiendo que ha ocurrido el suceso 𝐵. En este caso, también es necesario conocer la probabilidad de
ocurrencia de 𝐵 debido a cada uno de los sucesos 𝐴𝑖 .

Ejemplo 3.15. Continuando con el plan de reducción de accidentes del Viceministerio de Transporte. Se
sabe que ocurrió un accidente por invadir el carril contrario. ¿Cuál es la probabilidad de que haya sido el
martes?

Solución:

Sea:

I: Tener un accidente por invadir el carril contrario.


M: Tener un accidente el martes.
𝑀 ∩ 𝐼: Tener un accidente el martes y que sea por invadir el carril contrario.
𝑀/𝐼: Tener un accidente el martes dado que este ha sido por invadir el carril contrario.

Se debe encontrar la probabilidad de que una persona haya tenido un accidente el martes dado que ha
sido por invadir el carril contrario, 𝑃(𝑀/𝐼).

77
𝑃(𝑀∩𝐼)
De la probabilidad condicional se tiene que 𝑃(𝑀/𝐼) = 𝑃(𝐼)
. Entonces, debe calcularse cada una de estas
probabilidades y reemplazarse para encontrar la probabilidad pedida.

Se puede observar el diagrama de árbol en el cual cada rama tiene asignada la probabilidad de cada evento
que representan y al final de las ramas tiene el producto de las probabilidades. Este producto es la
probabilidad de tener un accidente un día y que el accidente sea por invadir el carril, así, por ejemplo, la
probabilidad de tener un accidente el martes ya que sea por invadir el carril es

𝑃(𝑀 ∩ 𝐼) = 59/288 ∙ 15/59 = 15/288

En el ejemplo de la probabilidad total se vio que la probabilidad de tener un accidente por invadir el carril es:

𝑃(𝐼) = 63/288

15/288
Así la probabilidad buscada es: 𝑃(𝑀/𝐼) = 63/288 = 15/63

Se observa que primero se obtiene la probabilidad condicional y luego la probabilidad total,


posteriormente se hace el cociente de dichas probabilidades, dando como resultado el Teorema de Bayes.

Teorema de Bayes: Si A1, A2, ..., An son sucesos incompatibles dos a dos y cuya unión es todo el espacio
muestral, y B es otro evento cualquiera, entonces:

𝑃(𝐴𝑖 ). 𝑃(𝐵/𝐴𝑖 )
𝑃(𝐴𝑖 /𝐵) = 𝑛
∑𝑗=1 𝑃(𝐴𝑗 ). 𝑃(𝐵/𝐴𝑗 )

78
Sitio web: Aprender a investigar.
Enlace: https://goo.gl/acU9Um

Resumen: Se encuentra, la serie. APRENDER A INVESTIGAR. Elaborados por: Gallardo de Parada,


Yolanda y Moreno Garzón, Adonay. Módulo 3. RECOLECCIÓN DE LA INFORMACIÓN. Instituto
Colombiano para el fomento de la Educación Superior.

Sitio Web: Banco Central de Reserva de El Salvador. Índice de Precios al Consumidor.


Enlace: http://www.bcr.gob.sv/bcrsite/?cdr=123

Resumen: Se encuentra el Índice de Precios al Consumidor (IPC) Base dic. 2009 e Inflación. Índice
diciembre 2009=100

Sitio Web: Consejo Salvadoreño del Café.


Enlace: http://www.csc.gob.sv/estadisticas/

Resumen: El Departamento de Estudios Económicos y Estadísticas Cafetaleras presenta diferentes


estadísticas sobre la actividad cafetalera tanto nacional como internacional.

Sitio web: Estadística aplicada.


Enlace: https://goo.gl/261Xng

Resumen: Contiene las notas de clase de un curso de Estadística Aplicada. Escrito por el profesor
Norberto Guarín Salazar, estadístico Universidad de Medellín. Universidad Nacional de Colombia.

Sitio Web: MINSAL. Boletín Epidemiológico.


Enlace: https://goo.gl/P4GFPc

Resumen: Información de la semana 16 correspondiente al periodo del 16 al 22 de abril de 2017,


que lleva la dirección de vigilancia sanitaria del MINSAL.

Sitio Web: Ministerio de Educación. Estadísticas Educativas.


Enlace: https://www.mined.gob.sv/index.php/estadisticas-educativas

Resumen: El Ministerio de Educación presenta información sobre el estado actual de la educación


en El Salvador.

79
Sitio Web: Representaciones gráficas del INE de España.
Enlace: www.ine.es/explica/docs/pasos_tipos_graficos.pdf

Resumen: El Instituto Nacional de Estadística España hace análisis de los diferentes tipos de gráficos.

Sitio Web: Taller de Estadística y Probabilidad: Juegos y trabajos para afianzar conceptos.
Enlace: https://goo.gl/zMr6Kr

Resumen: Se encuentra en manuscrito elaborado por Nuñez Cabello, Raul (2007) sobre Taller de
Estadística y Probabilidad: Juegos y trabajos para afianzar conceptos.

Bibliografía básica

ARMANDO, SOTO NEGRÍN (1999). Principios de Estadística. Editorial Panapo de Venezuela.


BATANERO, CARMEN (2001). Didáctica de la Estadística. Departamento de Didáctica de la Matemática
Universidad de Granada, España.
BATANERO, CARMEN Y DÍAZ GODINO, J. (2004). Didáctica de la Estadística y Probabilidad para Maestros.
Universidad de Granada, España.
CHISTENSEN, H. (1990). Estadística paso a paso. México: Trillas.
CORONADO PADILLA, JORGE (2007). Escalas de Medición. Vol. 2. Bogotá: Corporación Universitaria, Unitec.
DÍAZ GODINO, J.; BATANERO, M. C. Y CAÑIZARES, M. J. (1987). Azar y Probabilidad. Madrid: Síntesis.
ERNESTO, RIVAS GONZÁLEZ (2000). Estadística General. Caracas: Ediciones de la Biblioteca.
MARTÍN PLIEGO, F. J. (2010). Fundamentos de probabilidad. Madrid: Ediciones Paraninfo.
ORLANDONI MERLI, GIAMPAOLO (2010). Escalas de medición en estadística. Telos, vol. 12, núm. 2. Universidad
Privada Dr. Rafael Belloso Chacín, Maracaibo, Venezuela.
RODRÍGUEZ OJEDA, LUIS (2007). Probabilidad y Estadística Básica para Ingenieros. Ecuador: Instituto de
Ciencias Matemáticas, Escuela Superior Politécnica del Litoral.
SOTO, A. (2005). Principios de Estadística. Caracas: Panapo de Venezuela.

80

También podría gustarte