Está en la página 1de 125

INTRODUCCIÓN

PROPÓSITO: El alumno se apropiará de una visión inicial de la Estadística y


de la Probabilidad, a partir del planteamiento y discusión de ejemplos y
problemas de su entorno que le permitan apreciar los alcances de la materia.

Tiempo: 4 horas
Temática

1. Noción y utilidad de la Estadística.


2. Nociones básicas.
• Variable, población y muestra.
• Variabilidad.
• Azar y probabilidad
3. Usos indebidos de la Estadística

Aprendizajes

El alumno:
• Adquiere una primera noción de la Estadística y su utilidad.
• Explica el significado que tienen los términos variable, población y muestra.
• Conoce la importancia de trabajar con muestras seleccionadas de alguna
población.
• Explica la noción de variabilidad en Estadística.
• Conoce la noción de “azar” y la necesidad de medirlo.
• Conoce que es posible hacer mal uso de la información estadística.

1. Noción y utilidad de la Estadística.

Noción de la Estadística

¿Cómo definimos la palabra Estadística?. Empezaremos diciendo que la


palabra Estadística tiene dos significados algo diferentes. En el uso cotidiano la
palabra Estadística significa simplemente información numérica ordenada en
tablas o gráficas. En este sentido, podemos encontrar en cualquier periódico
una gran cantidad de estadísticas útiles, por ejemplo:

1. 9.3 años es la escolaridad promedio de la fuerza laboral femenina en


México. La de los varones de 8.7 años (INEGI)
2. 60% de la carne de cerdo que se consume en México proviene de Estados
Unidos. (Agencias)
3. 200 escuelas en la ciudad de México tienen problemas de adicción entre
sus alumnos. (Gobierno del Distrito Federal)

Fuente: El Universal, Domingo 26 de agosto de 2007.


La palabra Estadística más ampliamente, y más técnicamente es el nombre
de la ciencia de recolectar, organizar, presentar, analizar e interpretar
datos para ayudar en una toma de decisiones más efectiva.

El terreno de la Estadística puede dividirse en dos categorías: Estadística


Descriptiva y Estadística Inferencial. La Estadística Descriptiva es en lo que
piensa la mayoría de las personas cuando escuchan la palabra Estadística.

La Estadística Descriptiva es la parte de la estadística que se encarga


de recopilar, organizar e interpretar la información numérica o cualitativa.

Las situaciones siguientes utilizan estadística descriptiva.

1. Un equipo de fútbol desea conocer su promedio de goles en los pasados 10


juegos.
2. Al señor Juan le interesa determinar el promedio mensual total de sus
gastos en su auto durante los últimos tres meses.
3. Una persona dedicada a la política desea saber el porcentaje de votos que
obtuvo en la última elección.

El término “estadística inferencial” se refiere a la técnica de interpretación de


los valores resultantes de las técnicas descriptivas, a la toma de decisiones y a
la obtención de conclusiones sobre la población.

La Estadística Inferencial es la parte de la estadística que interpreta la


información de manera que pueda llevar a conclusiones válidas.

Nuestro principal enfoque referente a la estadística inferencial es encontrar


algo sobre una población basado en una muestra tomada de esa misma
población. Por ejemplo:

1. Las cadenas de televisión constantemente vigilan la popularidad de sus


programas contratando a organizaciones de encuestas para muestrear las
preferencias del auditorio. Estas apreciaciones de la audiencia de un
programa se utilizan para fijar precios a la publicidad y para cancelar
programas.
2. Un equipo de fútbol quiere estimar la oportunidad que tiene de ganar el
campeonato siguiente con base en su promedio de la temporada actual y en
los promedios de sus futuros contrincantes.

Utilidad de la Estadística.

Si revisamos las diferentes carreras que se imparten en la UNAM,


encontraremos que estudian Estadística. Ejemplo de ello lo tenemos en las
carreras de: Ingeniería, Actuaría, Psicología, Administración, Economía,
Ciencias Políticas, etc. ¿Cuáles son las diferencias que existen entre los cursos
de Estadística impartidos en las diferentes Facultades?
La mayor diferencia son, los ejemplos utilizados. Básicamente, el contenido del
curso es el mismo. En una Escuela de Administración interesan cosas tales
como: las ganancias, las horas de trabajo y los salarios. En un departamento
de Psicología interesan los resultados de las pruebas, y en una Facultad de
Ingeniería puede interesar saber cuántas unidades son producidas por una
máquina en especial. Sin embargo, existe una diferencia en el nivel de
matemáticas requerido. Un curso de Estadística en Ingeniería generalmente
requiere del Cálculo Diferencial e Integral. Los cursos de Estadística en
escuelas de Administración y en Pedagogía, generalmente enseñan un curso
concreto de aplicaciones.

En resumen, existen por lo menos tres razones para estudiar estadística, las
cuales mencionamos a continuación:

El alumno será capaz de:

1) Aprender las reglas y métodos para tratar información estadística que se


encuentran en cualquier lugar, por ejemplo en: los periódicos o revistas de
deportes, de negocios, femeninas, entre otros.
2) Utilizar las técnicas estadísticas para la toma de decisiones que afectan
nuestra vida.
3) Entender mejor el mundo real de nuestro entorno.

Los usos de la estadística son ilimitados. Es mucho más difícil mencionar un


campo en que no se utilice la estadística que uno en el que ésta sea parte
integral.

EJERCICIOS
Determina cuál de las siguientes proposiciones es de naturaleza descriptiva y
cuál es inferencial.

1. Una familia de cinco miembros tiene un gasto semanal promedio en


compras de comestibles de $1,000.00.
2. El 66% de todas las compras de comestibles no son planeadas.
3. Cada año sale del mercado un 80% de artículos comestibles recientes.

2. Nociones básicas.
• Variable, población y muestra.
• Variabilidad.
• Azar y probabilidad

Variable, población y muestra.

Continuemos nuestro estudio de la Estadística definiendo algunos otros


términos básicos, y que ya empezamos a utilizar, por ejemplo, las palabras
“población” y “muestra” en el enfoque referente a la estadística inferencial.
Frecuentemente consideramos, en nuestro lenguaje cotidiano, a una
“población” como un conjunto de personas. Sin embargo, en Estadística la
palabra “población” tiene un significado más amplio. Una población estadística
incluye individuos, objetos y medidas. Luego,

La población de un estudio estadístico es el conjunto de personas, objetos


o medidas que caracterizan al fenómeno que nos interesa.

Generalmente tomamos una muestra de una población para deducir algo


acerca de la misma.

La muestra es cualquier subconjunto de la población.

La relación entre una muestra y una población se presenta a continuación.

Ejemplo 1. Un estudiante de estadística está interesado en determinar el


salario promedio mensual de los profesores del CCH Oriente. Determina la
población y una muestra.

Solución. La población es la colección de todos los salarios de los profesores


del CCH Oriente y una muestra es cualquier subconjunto de esa población. Por
ejemplo, una muestra serían los salarios de los profesores de la Academia de
Matemáticas.

Uno de los primeros pasos en el estudio de un fenómeno consiste en


caracterizar las partes de dicho fenómeno que nos interesan. Por ejemplo, un
profesor al iniciar su curso desea conocer a sus alumnos y para ello considera,
entre otras, la característica “edad de los alumnos” obtenemos así una
información posiblemente diferente para cada alumno, a esta característica se
le conoce con el nombre de variable.

Variable. Característica de interés sobre cada elemento individual de una


población o muestra.
La edad de un estudiante que ingresa al Colegio, el color de sus ojos, su
estatura, su peso, el número de hermanos que tiene, entre otros, son ejemplos
de variables.

Así las variables asociadas a cada elemento de la población nos proveen de un


resultado.

Dato. Valor de la variable asociada a un elemento de una población o


muestra. Este valor puede ser un número, una palabra o un símbolo.

Por ejemplo, Raúl Serrano ingresó al CCH a la edad de “15” años, su cabello
es “negro”, mide “1.65”, pesa “63” Kg. y desea estudiar “Medicina”. 15, negro,
1.65, 63 y Medicina son los valores de las cinco variables aplicadas a Raúl
Serrano.

Datos. Conjunto de valores recolectados para la variable de cada uno de los


elementos que pertenecen a la muestra.

El conjunto de 50 tiempos, que tardan 50 alumnos respectivamente, de su casa


a la escuela es un ejemplo de un conjunto de datos.

Un valor usado en estadística puede constituir un estadístico o un parámetro,


depende de la extensión de la información.

Un parámetro es cualquier característica numérica de una población.

El “promedio” de aciertos en el examen de admisión que tuvieron los alumnos


aceptados en el CCH Oriente es un ejemplo de un parámetro.

Un estadístico es cualquier característica numérica de una muestra.

El tiempo “promedio” que tardan 50 alumnos de su casa a la escuela es un


ejemplo de un estadístico.

Ejemplo. Para estimar la población de estudiantes que fuman cigarros en la


escuela, un profesor de estadística tomó una muestra de 300 estudiantes y
determinó la proporción de estudiantes en la muestra que fuman cigarros.
Identifica el parámetro y el estadístico.

El parámetro es la proporción de todos los estudiantes en la escuela que el


profesor determinó que fuman cigarros, mientras que el estadístico es la
proporción de estudiantes en la muestra de 300 que sí fuman cigarros.

Básicamente hay dos clases de variables: 1) variables que obtienen


información cuantitativa y 2) variables que obtienen información cualitativa.

Ejemplos de estas variables son: el número de hijos de una familia, la edad de


los padres de una familia, número de celulares vendidos el día de hoy, etc.
Una variable cuantitativa o numérica es la que cuantifica un elemento de
una población.

Una variable cualitativa, de atributos o categórica es la que clasifica o


describe un elemento de una población.

El “color de sus ojos”, “la colonia donde habita”, la “religión que profesa” son
ejemplos de variables cualitativas.

Ejemplo 2. El tiempo medio necesario para pagar y salir para todos los clientes
de la tienda X , debe estimarse utilizando el tiempo medio para pagar y salir
necesario de 75 clientes elegidos aleatoriamente. Haz corresponder las
expresiones de la columna dos con los términos estadísticos de la columna
uno.

1 2

____Dato a) Los 75 clientes.


____Datos b) El tiempo medio para todos los clientes.
____Parámetro c) Dos minutos, el tiempo para pagar y salir de un cliente.
____Población d) El tiempo medio para los 75 clientes.
____Muestra e) Todos los clientes de la tienda X .
____Estadístico f) El tiempo para pagar y salir de un cliente.
____Variable g) Los 75 tiempos

Solución. Para resolver el ejemplo es conveniente primero determinar la


población (e), para después determinar la muestra (a), a continuación la
variable a estudiar (f), luego el dato (c) y los datos (g). Y por último, el
parámetro (b) y el estadístico (d).

EJERCICIOS

En los ejercicios 1 al 3, describa la población y la muestra.

1. Varias veces durante un día, un ingeniero en control de calidad que se


encuentra laborando en una fábrica textil, selecciona diferentes muestras de
metros cuadrados de telas, las examina y registra el número de
imperfecciones que encuentra.

2. Durante una auditoria, 16 cuentas de una firma fueron seleccionadas


aleatoriamente y examinadas en busca de errores.

3. Un nuevo tratamiento biológico para controlar el gusano de la manzana es


probado en diez huertos comerciales localizados en Texcoco. Cinco de
estos huertos serán tratados y comparados contra cinco bajo control, pero
cuyo tratamiento fue suspendido. Podría usarse una medición normal para
determinar el grado de infestación del gusano de la manzana en cada
grupo.

4. Indica tres variables que le pueden interesar a un profesor de estadística


acerca de sus alumnos y describe los posibles valores de la variable.

5. Un técnico de control de calidad selecciona piezas ensambladas de una


línea de montaje y registra la siguiente información sobre cada pieza:
A: Defectuosa o no defectuosa.
B: El número de identificación del trabajador que ensambló la pieza.
C: El peso de la pieza.
Clasifica las respuestas para cada una de las tres variables como datos de
atributo o cuantitativos.

Variabilidad

En un conjunto de datos siempre se espera una variación. Si por ejemplo,


calculamos la media de una muestra de pesos de 10 estudiantes rara vez, si es
que ocurre, alguna concuerda con la media de todo el grupo de donde fue
tomada la muestra. Por otra parte, la media calculada desde una muestra de la
población no concuerda precisamente con la media calculada desde otra
muestra de la misma población.

Esta diferencia se presenta, porque un mecanismo azaroso empleado para


seleccionar una muestra, puede hacerlo cada vez algo diferente en el conjunto
de unidades.

Uno de los objetivos primordiales del análisis estadístico es la medición de la


variabilidad. Por ejemplo, en el estudio del control de calidad, la medición de la
variabilidad es absolutamente indispensable. Controlar (o reducir) la
variabilidad en un proceso de manufactura es todo un campo por sí mismo, El
Control de Procesos Estadísticos.

EJERCICIO

1. A continuación se presentan los pesos de veinte alumnos de un grupo de


estadística, calcula su media.

56, 54, 62, 76, 46, 56, 58, 52, 48, 66, 64, 62, 56, 58, 72, 80, 74, 68, 79, 69.

Ahora selecciona tres muestras de cinco pesos y calcula su media


aritmética de cada una de ellas.
a) ¿Alguna resultó igual a la media de la población? ___________
b) ¿Las medias de las muestras son iguales? ________________
Azar y probabilidad

Otra rama de la estadística estudia la probabilidad, que es de gran utilidad para


analizar situaciones en las que interviene el azar. Juegos tales como: los de
dados o las cartas, o el tiro de monedas, están en la categoría de juegos de
azar. Pero, ¿qué debemos entender por azar?

En la ciencia, llamamos fenómeno a cualquier cosa que observamos que


suceda. Percibimos en la naturaleza muchos fenómenos cuando: llueve,
exhalan ceniza los volcanes, sale la luna y trinan los pájaros; además hay
fenómenos en los que el hombre toma parte, por ejemplo cuando: recibe una
llamada en su celular, juega quinielas, compra una torta.

De algunas cosas estamos seguros, pero hay cosas sobre las que no tenemos
seguridad. Podemos asegurar que: mañana sale la luna, si metemos la mano
en agua hirviendo se nos quemará, no podemos atravesar paredes, y si
soltamos un balín en el agua se hundirá. Hemos adquirido la seguridad por
medio de nuestra experiencia, y tan seguro estamos de estas cosas, que ni
siquiera pensamos en hacer algún experimento para comprobar si son ciertas.
Pero no podemos asegurar que mañana lloverá, o que habrá un terremoto, o
que hoy gane en el Melate.

Con esto te puedes dar cuenta de que, según el tipo de resultados que nos
interese observar, podemos distinguir dos clases de fenómenos: los fenómenos
de los que tenemos seguridad del resultado que tendrán y los fenómenos sobre
cuyos resultados tenemos duda o incertidumbre. Cuando tenemos duda sobre
cual será el resultado de un fenómeno, decimos que es un fenómeno de azar
(la palabra azar significa que no hay certeza o seguridad) si estamos seguros
de lo que va a ocurrir, entonces decimos que el fenómeno es determinista,
porque su resultado está completamente determinado.

Supongamos que al lanzar una moneda nos interesa observar si la moneda


cae o se queda en el aire; entonces el fenómeno es determinista porque
estamos seguros de que la moneda caerá; pero si deseamos observar de qué
lado cae: águila o sol, entonces el fenómeno es de azar porque no podemos
saber cuál de los dos será el resultado.

Un experimento de azar tiene varios resultados posibles (si sólo tuviera un


resultado que pudiera ocurrir, entonces sería determinista). Un dado tiene seis
resultados posibles, y como ninguno es seguro que salga, entonces hay azar.

¿Por qué nos interesa estudiar el azar? y ¿por qué lo estudiamos en


Matemáticas? Conocer el azar nos interesa, porque muchas cosas que
enfrentamos en la vida son fenómenos de azar. A veces tenemos que tomar
una decisión cuyo éxito o fracaso depende del resultado de un fenómeno de
azar, pero tenemos que tomarla antes de conocer ese resultado. Por ejemplo,
al seleccionar la materia de Estadística, quisiéramos saber si el profesor que
me asignen será “responsable” o no.
En un fenómeno de azar algunos resultados pueden parecernos menos
frecuentes que otros, y algunos resultados, igual de inseguros que otros. Esto
nos lleva a pensar que la inseguridad, duda o incertidumbre que tenemos
acerca de los distintos resultados de un fenómeno de azar, se puede expresar
por medio de un número que nos indique qué tanta inseguridad tenemos sobre
ellos; a este número lo llamaremos probabilidad. Más adelante veremos que
las probabilidades son números que siempre están entre 0 y 1 inclusive, Y que
las cosas menos frecuentes tienen probabilidades pequeñas (cerca de 0) y los
fenómenos que son más frecuentes tienen probabilidades grandes (cerca
de 1).

Así pues, la probabilidad es un número que indica la posibilidad que tiene el


fenómeno de ocurrir en cada resultado, y nos puede servir para tomar mejor las
decisiones.

EJERCICIOS

1 Diga, cuáles de los siguientes fenómenos, son aleatorios y cuáles son


deterministas.
a. Nacimiento de un niño. ¿Es niño o niña?
b. Un objeto más pesado que el aire es lanzado hacia arriba ¿caerá o no
caerá?
c. Mañana ¿saldrá el sol?
d. En las próximas elecciones ¿qué partido político ganará?
e. ¿Cuántos metros recorre un jugador de básquetbol, durante un partido?
f. El número ganador de la lotería nacional el próximo viernes.

2. ¿Cuáles de los números siguientes no pueden ser la probabilidad de algún


evento?
a) 0.74 b) 2/3 c) -0.5 d) 0.99 e) 1.2 f) 2.001

3. Clasifica cada una de las siguientes afirmaciones ya sea como problema de


probabilidad o problema de estadística.

a. Determinar si un nuevo medicamento reduce el tiempo de recuperación


de cierta enfermedad.
b. Determinar la posibilidad de obtener “sol” cuando se lanza una moneda.
c. Determinar el tiempo de espera necesario para pagar y salir de una
tienda.
d. Determinar la posibilidad de obtener una mano de “veintiuno”, en un
juego de baraja.
3. Usos indebidos de la Estadística

La estadística puede ser una herramienta muy útil que nos ayuda a conocer la
realidad. Sin embargo, puede también servir para mentir. . . si no se tiene
cuidado de usar correctamente los métodos estadísticos y de interpretar
correctamente sus resultados.

Es famoso el dicho que expresa: “hay tres clases de mentiras: las mentiras, las
grandes mentiras, y la estadística”. (Este dicho se atribuye a Benjamín Disraeli
y tiene más de un siglo. Curiosamente, la cita aparece con frecuencia en los
libros de estadística, aunque parece hacerle poca propaganda a la disciplina)..
. Lo que ocurre es que la estadística, como toda herramienta, no puede
cometer errores por sí misma: los errores y las mentiras son responsabilidad de
quien las usa incorrectamente.

Muchas de las personas que abusan de la estadística sencillamente son


ignorantes o no les interesa, mientras que otras, utilizan la estadística para dar
la impresión que todo ha sido realizado en forma “científica”. Uno de los
aprendizajes que deseamos obtener en esta introducción es que el alumno
conozca que es posible hacer mal uso de la información estadística.

Cuando observe gráficas o datos en algún periódico, revista o programa de


televisión siempre pregúntese:

1. ¿Qué se está midiendo, y cómo?


2. ¿Cómo se seleccionó la muestra?
3. ¿Qué se está probando, y cómo?
4. ¿Qué información falta?
5. ¿Se está hablando siempre de lo mismo?
6. ¿Tiene sentido?
7. ¿Quién lo dice?

A continuación mostramos varios ejemplos de abusos en los análisis


estadísticos.

1. El término promedio se refiere a diferentes medidas de tendencia central


que estudiaremos en la Unidad I. Para la mayoría de las personas, un
promedio se calcula sumando los valores involucrados y dividiéndolos entre
el número de ellos. Por lo tanto si un agente de bienes raíces dice a su
cliente que el valor promedio de un departamento en la colonia Narvarte es
de $1,500,000.00, se supone que “1,500,000.00 pesos” es el precio de
venta representativo de cualquier casa. Pero supongamos que sólo se
consideraron los precios de cinco departamentos y se vendieron en
$500,000.00, $500,000.00, $600,000.00, $900,000.00 y $5,000,000.00.
Podemos ver que el precio de venta promedio es de $1,500,000.00, pero
acaso $1,500,000.00 realmente representa el precio de venta “típico”. Le
gustaría también saber si es el mismo número de departamentos son los
que se vendieron por más de $600,000.00 que por menos de $600,000.00.
O quizá le interese saber que el precio de venta que más se presentó fue
de $500,000.00. Por lo tanto, ¿cuál es el precio de venta que resulta
realmente el precio “típico”?. El ejemplo ilustra que un promedio presentado
puede ser engañoso, ya que puede ser uno de los tres números utilizados
para obtener el promedio (media, mediana o moda). En la Unidad I
discutiremos los promedios, o medidas de tendencia central.

2. Considere las gráficas siguientes, las cuales se entiende representan los


mismos datos.

30 30

20

10

0 1 20 1
I II

Este abuso de la estadística se llama distorsión de escala. Usando la


gráfica II, se hace que un aumento insignificante aparezca un tanto
sorprendente.

3. Hace poco se presentó una serie de anuncios por televisión que


mencionaba que “8 de 10 dentistas recomiendan cierta marca de pasta
dental”. La deducción es que el 80% de todos los dentistas recomendarían
el producto a sus pacientes. El lector crítico por lo menos debe preguntarse
¿cómo se seleccionaron a los dentistas?, y ¿cuál fue el tamaño de la
muestra?. El truco que normalmente utilizan, es seleccionar de varios
grupos de 10 dentistas, aquellos donde 8 de ellos recomiendan su pasta
dental.
EJERCICIOS

En los ejercicios 1 al 5, examínense las proposiciones y dígase qué abuso de


la estadística pudo haberse cometido.

1. Un producto llamado “Rocío fulminante”, en las pruebas de laboratorio,


mató al 85% de los gérmenes que se expusieron a él. ¡Use “Rocío
fulminante” en su hogar!
2. Los estudiantes que ingieren bebidas embriagantes tienen un mayor
número de accidentes que los que no toman. El tomar bebidas
embriagantes provoca accidentes.
3. El CI (coeficiente intelectual) de María es 110, mientras que el de Fernanda
es 95. María es más inteligente que Fernanda.
4. En las negociaciones entre trabajadores y empresa, ¿qué medida de
tendencia central debe usar la empresa como un argumento para no
conceder aumentos? ¿Qué medida deben usar los trabajadores para
apoyar sus demandas de aumento?
5. De acuerdo con la gráfica que sigue, la lluvia incrementa la cosecha de
trigo.
Cosecha de trigo

Cantidad de lluvia

a) Hágase una crítica de la gráfica.


b) Supóngase que efectivamente la cantidad de lluvia incrementa la
cosecha de trigo, ¿Por qué no se irrigan los campos para obtener una
cosecha aún mejor?
UNIDAD 1. ESTADÍSTICA DESCRIPTIVA
PROPÓSITO: El alumno comprenderá y aplicará algunas técnicas de
recopilación, organización y representación de un conjunto de datos, a partir
del planteamiento, discusión y resolución de problemas, para interpretar y
analizar el comportamiento de una variable en dicho conjunto.

Tiempo: 24 horas

Temática

1. Recopilación de datos.
2. Tablas de distribución de frecuencias.
3. Representaciones gráficas.
4. Medidas de tendencia central
5. Medidas de dispersión y de posición.
6. Regla Empírica.

Aprendizajes

El alumno:
• Valora la importancia de la recopilación de datos en el proceso de una
investigación
• Construye tablas de frecuencias para representar el comportamiento de
variables cualitativas y variables cuantitativas.
• Interpreta tablas para describir el comportamiento de un conjunto de
datos.
• Construye histogramas, polígonos de frecuencias, ojivas, gráficas de
barras, circulares y de caja.
• Interpreta gráficas para describir el comportamiento de un conjunto de
datos.
• Conoce las propiedades de las medidas de tendencia central.
• Calcula la media aritmética, la mediana y la moda para datos agrupados
y no agrupados.
• Argumenta la elección de una medida de tendencia central para
describir el comportamiento de un conjunto de datos.
• Conoce el concepto de dispersión en la descripción de un conjunto de
datos.
• Calcula la desviación estándar y la varianza, y comprende su
significado.
• Calcula las medidas de posición y comprende su significado.
• Conoce la Regla Empírica.
• Genera los intervalos establecidos por la Regla Empírica.
1. RECOPILACIÓN DE DATOS.
Introducción.

En la unidad de introducción se ha enfatizado la utilidad de la estadística y la


amplia variedad de problemas que puede resolver. Para ilustrar esta amplia
aplicabilidad de manera más completa, es necesario analizar las diversas
funciones de la estadística. Como sabemos la estadística es la ciencia de
recolectar, organizar, presentar, analizar, interpretar y hacer inferencias, los
datos para ayudar en una toma de decisiones más efectiva.

En todo estudio estadístico, después de formular el problema de estudio y el


diseño del experimento, es la obtención de datos que se refiere a los métodos
usados para obtener información pertinente de las unidades elementales
introducidas en una muestra, es la parte que más tiempo consume en toda
investigación que sea realizada. Los datos no aparecen simplemente: es
necesario recolectarlos. Al recopilar datos, frecuentemente, es impracticable o
imposible observar al grupo completo; así que en lugar de examinar el grupo
íntegro (población), se escoge una parte (muestra). Como recordarás, el
método usado para seleccionar la muestra es muy importante si se desea
obtener “buenos” resultados. Por ejemplo una característica es que: todos los
miembros de la población que se investiga deberán tener la misma posibilidad
de ser seleccionados.

La recolección de datos para el análisis estadístico es un proceso que incluye


los pasos siguientes:

1. Definir los objetivos de la investigación o del experimento.


Ejemplos: estimar el ingreso familiar promedio de los alumnos del quinto
semestre; comparar la eficacia de un nuevo medicamento con la eficacia de
un medicamento estándar.
2. Definir la variable y la población de interés.
Ejemplo: un profesor de administración desea estimar el costo promedio de
los libros que compran los alumnos en el primer semestre. La población de
interés es la “matrícula estudiantil actual”, y la variable es la “cantidad total
gastada en libros” por cada estudiante.
3. Definir los esquemas para recolectar y medir los datos.
Esto incluye el procedimiento de muestreo (sistemático, estratificado o por
conglomerados), el tamaño de la muestra y el instrumento de medición
(cuestionario, por teléfono, etc.) de los datos.
4. Determinar las técnicas idóneas para realizar el análisis de datos:
descriptivas o inferenciales.

Los dos métodos que se utilizan para recolectar datos a fin de realizar un
análisis estadístico son los experimentos y los estudios observacionales. En un
experimento, el investigador controla o modifica el entorno y observa el efecto
sobre la variable bajo estudio. Considera como ejemplo un experimento en el
que se examinan cantidades diferentes de fertilizante para determinar si ellos
incrementan o no la producción. Primero, varias parcelas de tierra son
especificadas, y varios tratamientos de fertilización son asignados
aleatoriamente, para hacerlos corresponder con las parcelas de tierra. En un
estudio observacional, el investigador no modifica el entorno y no controla el
proceso en observación. Los datos se obtienen al muestrear a alguien de la
población de interés. A menudo, las encuestas son estudios observacionales
de gente, otros ejemplos son: el manejo de mediciones sobre los
desempleados, una prueba de una muestra de focos, entre otros.

En la estadística uno de los peores errores es reunir datos en una forma que
no sea la adecuada. Por ejemplo, una muestra de respuesta voluntaria es
aquella donde los sujetos deciden por sí mismos si responden o no. Este tipo
de muestras son muy comunes, aunque sus resultados por lo general resultan
inútiles para hacer inferencias válidas acerca de poblaciones muy grandes.
Ahora definiremos algunos de los métodos de muestreo más comunes.

Definiciones.
Una muestra aleatoria es aquella donde los miembros de una población se
seleccionan de manera que cada miembro individual tiene la misma posibilidad
de ser elegido.

Una muestra aleatoria simple del tamaño de n sujetos, se selecciona de


manera que cada posible muestra del mismo tamaño n tenga la misma
posibilidad de ser elegida.

Ejemplo. Supongamos un salón de clases con 48 alumnos acomodados en


seis filas con 8 alumnos cada una. Suponga que el profesor selecciona una
muestra de 8 alumnos tirando un dado y seleccionando la fila correspondiente
al resultado. ¿El resultado es una muestra aleatoria? ¿Es una muestra
aleatoria simple?

Solución. La muestra es aleatoria porque cada alumno tiene la misma


posibilidad (una posibilidad en seis) de ser elegido. Sin embargo, la muestra no
es aleatoria simple porque no todas las muestras de tamaño 8 tienen la misma
posibilidad de ser escogidas.

Además del muestreo aleatorio, hay otras técnicas de muestreo en uso, y las
más comunes se describen a continuación.

Muestra aleatoria sistemática. Los integrantes de la población se ordenan,


después se selecciona al azar un punto de inicio y por último se elige cada k -
ésimo elemento de la población para la muestra.

Nota: k se obtiene, dividiendo el tamaño de la población entre el tamaño de la


muestra.

Ejemplo: Un gran teatro dirige un estudio de los establecimientos de comida


más populares, entre los cinéfilos en una noche dada. Toda quinta persona que
entra al cine es interrogada para llenar un pequeño cuestionario.
Muestreo aleatorio estratificado. Una población se divide primero en
subgrupos, denominados estratos, y se selecciona una muestra de cada
estrato mediante un muestreo aleatorio.
Ejemplo: Un comerciante mayorista en alimentos en una gran área
metropolitana desea conocer la demanda que existe para un nuevo producto,
por lo cual desea enviar muestras de ese alimento a cinco grandes cadenas de
supermercados. El mayorista selecciona una muestra de tiendas de cada
cadena, en las que pone a prueba el producto nuevo.

Muestreo por conglomerados. Primero se divide la población en estratos y


después se seleccionan todos los elementos de algunos estratos usando
números aleatorios.

Ejemplo: Se desea conocer cuántos perros hay en promedio en cada familia de


la colonia “Mi ilusión”. Para usar el método por conglomerados, se seleccionan
por ejemplo 30 manzanas, luego se encuesta a todas las personas de cada
una de las manzanas escogidas aleatoriamente.

EJERCICIO.

1. Supongamos que has sido contratado por Visa para realizar un estudio del
uso de tarjeta de débito entre los estudiantes becados que asisten a la
Universidad. Describe un procedimiento para obtener una muestra de cada
tipo: aleatoria, sistemática, estratificada y por conglomerados.

2. TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS.


Una vez recopilada la información, el siguiente paso es organizarla de una
manera que puedan separarse y distinguirse las características de los datos
más importantes y pertinentes al estudio que se está realizando; esto es, que
los datos recopilados puedan ser analizados.

Las tablas son el medio más utilizado para organizar información. Una tabla es
un arreglo rectangular que consiste de un título, una o más filas, dos o más
columnas y una leyenda que indica la fuente de información de donde se
obtuvieron los datos.

Elaboración de una distribución de frecuencias

El primer método que se utilizará para describir un conjunto de datos es la


distribución de frecuencias. Existen dos tipos de tablas (distribuciones) para
reportar datos usando frecuencias, éstas son: tablas de frecuencias no
agrupadas y tablas de frecuencias agrupadas. Ambas tablas se mencionan
como tablas de frecuencia y estudiaremos primero las tablas de frecuencias
no agrupadas.

Tabla o distribución de frecuencias. Agrupamiento de datos en categorías


que muestren el número de observaciones de cada categoría.
Una distribución de frecuencias indica el número de veces que ocurre cada
valor o dato. Los pasos para elaborar una distribución de frecuencias se
explican mejor utilizando un ejemplo.
Ejemplo 1. Los siguientes datos representan el número de aciertos que
obtuvieron los alumnos de un grupo de Estadística en el examen de
diagnóstico. Construye una tabla de frecuencias.

0, 2, 5, 3, 3, 3, 5, 1, 5, 5, 2, 5, 6, 3, 6, 4, 6, 4, 6, 2, 2, 1, 4, 1, 3, 2, 5, 5, 3, 1,
5, 3, 4, 2, 3, 3, 5, 4, 4, 1, 5, 3, 4, 3, 3, 3, 2, 4, 3, 2, 5, 5.

Un modo de organizar los datos para visualizarlos más fácil y rápidamente es


agrupando los que tengan el mismo valor e indicando cuántas veces se repite
cada uno de ellos, es decir, indicando la frecuencia de su repetición, donde la
información se arregla en filas y columnas.

Ahora organicemos los datos del ejemplo 1 en una tabla de frecuencias.

Dato Conteo Frecuencia

0 ⏐ 1
1 ⏐⏐⏐⏐ 5
2 ⏐⏐⏐⏐ ⏐⏐⏐ 8
3 ⏐⏐⏐⏐ ⏐⏐⏐⏐ ⏐⏐⏐ 13
4 ⏐⏐⏐⏐ ⏐⏐⏐ 8
5 ⏐⏐⏐⏐ ⏐⏐⏐⏐ ⏐⏐ 12
6 ⏐⏐⏐⏐ 4

Nota. En muchas ocasiones no se coloca la columna de conteo.

Si x representa una variable, puede usarse una distribución de frecuencias


para representar este conjunto de datos enumerando los valores x con sus
frecuencias f .

Ejemplo 2. Supongamos que hemos obtenido los siguientes datos:

3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1

El conjunto de datos completo está representado por la distribución de


frecuencias que se muestra a continuación.

x f
0 1
1 3
2 8
3 5
4 3
Distribución de frecuencias de atributos

Para datos cualitativos, las clases están inherentemente definidas. Por esa
razón, para construir una tabla de frecuencias simplemente hacemos un conteo
del número de datos que caen dentro de cada clase y determinamos su
frecuencia.

Ejemplo 3. Los siguientes datos representan el mes de nacimiento que tienen


los alumnos de un grupo de Estadística. Construye una distribución de
frecuencias.
Julio, abril, enero, abril, julio, abril, junio, febrero, julio, septiembre, junio,
marzo, mayo, mayo, octubre, enero, noviembre, junio, diciembre, octubre,
diciembre, marzo, febrero, enero, marzo, agosto, agosto, septiembre, abril,
marzo, diciembre, mayo, octubre, enero, abril, enero, abril, marzo, marzo,
noviembre, agosto, diciembre, febrero, diciembre.

Este conjunto de atributos puede resumirse en la distribución de frecuencias


siguiente:

Mes de nacimiento No. de alumnos


Enero 5
Febrero 3
Marzo 6
Abril 6
Mayo 3
Junio 3
Julio 3
Agosto 3
Septiembre 2
Octubre 3
Noviembre 2
Diciembre 5

Distribución de frecuencias agrupadas

La tabla del ejemplo 2 como sabemos es una distribución de frecuencias no


agrupadas: “no agrupadas” porque cada valor de x en la distribución
permanece solo. Cuando un gran conjunto de datos tiene muchos valores de x
distintos, en lugar de unos cuantos valores repetidos, como en el ejemplo 2, es
posible agrupar los valores en un conjunto de clases y elaborar una distribución
de frecuencias agrupadas. Para construir una tabla de frecuencias agrupadas
analicemos el ejemplo siguiente.

Ejemplo 4. Los siguientes datos representan el número de respuestas


correctas que obtuvieron 80 estudiantes en un examen de matemáticas de 100
reactivos.
73 79 88 73 60 93 71 59 85 75
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
66 78 82 75 94 77 69 74 68 60
68 84 75 82 68 90 62 88 76 93
61 65 75 87 74 62 95 78 63 72

Con relación a los datos, encuentra:

a. La puntuación más alta.


b. La puntuación más baja.
c. El rango. (La variación, recorrido o rango es el número que resulta
de la diferencia entre el dato mayor y el dato menor).
d. Las puntuaciones de los cinco estudiantes de mayor puntuación.
e. Las puntuaciones de los cinco estudiantes de menor puntuación.
f. El número de estudiantes que obtuvieron puntuación de 75 o más.
g. El número de estudiantes que obtuvieron puntuación menor de 85.
h. El número de intervalos de clase utilizando la regla de Sturges (que
se mostrará adelante.
i. La amplitud de clase.
j. Construye una distribución de frecuencias de las respuestas
correctas de los 80 estudiantes.
k. Construye una distribución de frecuencias que contenga los límites
reales de clase, las frecuencias de cada intervalo de clase, las
marcas de clase, las frecuencias relativas, las frecuencias
acumuladas y las frecuencias acumuladas relativas.

Antes de contestar las preguntas, es conveniente que conozcas lo siguiente:


La información estadística puede constar de un gran número de observaciones
(como los datos dados) y, mientras mayor sea su número, mayor puede ser la
conveniencia y necesidad de presentarla en forma resumida, la cual puede
omitir algunos detalles, pero en cambio puede revelar la naturaleza general de
la información. Para construir una distribución de frecuencias es necesario
primeramente decidir cuál va a ser el número de clases o intervalos de clase
(IC). En general, este número depende fundamentalmente de la naturaleza de
los datos a resumir y del objetivo que se persiga con ese resumen. Se
recomienda que el número de clases esté entre 5 y 20. Para los ejercicios
proporcionados en este libro, lo más aconsejable es usar de 5 a 12 clases, ya
que todas las muestras contienen menos de 125 datos.

La regla de Sturges puede darnos una aproximación razonable para el


número de clases; ella es

Número de clases = 1 + 3.3 log N = 3.3 log N + 1,

donde N es el número de datos.


Otra regla utilizada para aproximar el número de clases, es el llamado criterio
de la raíz cuadrada de N para muestras con menos de 150 datos.
Una vez que se ha determinado el número de clases, debe decidirse la
amplitud de éstas. Debiendo tener la misma amplitud para todas las clases,
este valor común queda dado aproximadamente por

Amplitud de clase = valor máximo − valor mínimo .


número de clases

Una vez determinado el número de clases y la amplitud, debe elegirse el


extremo inferior de la primera clase. Dado que en los datos el valor mínimo es
53, el extremo debe ser 53 o menos (considera que la primera clase es 52 –
58, la segunda 59 – 65, etc.)

Los valores extremos de cada IC se les llaman límites de clase, siendo el


valor de la izquierda el límite inferior de clase y el de la derecha el límite
superior de clase. En el primer IC el 52 es el límite inferior y el 58 el límite
superior.

Nota: El ancho o amplitud de clase es la diferencia entre un límite inferior de


clase y el límite inferior de la clase siguiente.

Los LRC (Límites reales de clase) se obtienen disminuyendo y aumentando


respectivamente en media unidad a los límites inferiores y límites superiores de
clase de los IC cuando dichos límites de clase son enteros. En nuestro caso los
LRC son: 51.5 – 58.5, 58.5 – 65.5, etc.

Las frecuencias ( fi ) son el número de datos que quedan incluidos en cada IC,
así en el primer IC (52 – 58) hay 2 datos siendo 2 la frecuencia para ese primer
IC De la misma forma se obtienen las fi para los demás IC. La suma de todas
las frecuencias debe ser igual al tamaño de la muestra.

La marca de clase ( xi ) es el punto medio del ancho de clase, por ejemplo la


52 + 58 110
primer marca de clase es x1 = = = 55.
2 2

Las frecuencias relativas ( f i * ) que generalmente se expresan en %, son


precisamente porcentajes de los datos que hay en cada IC con respecto al
tamaño de la muestra, por lo que para obtenerlas se divide la frecuencia de
cada IC entre el tamaño de la muestra. En nuestro caso, la frecuencia relativa
correspondiente al primer IC es:
2
fi* = = 0.025 = 2.5%
80

Las frecuencias acumuladas ( Fi ) se obtienen al considerar el número de


datos que tienen un valor menor o igual a cierto límite real superior de clase.
Por ejemplo, la frecuencia acumulada hasta el segundo IC (valores menores o
iguales a 65.5) es 17 puesto que hasta 65.5 hay 17 datos con valores menores
o iguales a 65.5, 2 que corresponden al primer IC y 15 al segundo IC Las Fi se
pueden obtener sencillamente si se suman las frecuencias de los IC
precedentes.

Las frecuencias acumulas relativas ( Fi * ) se obtienen dividiendo cada una de


las frecuencias acumuladas entre el tamaño de la muestra (2/80 = 0.025 =
2.5%, 17/80 = 0.2125 = 21.25 %, etc.) o simplemente se van acumulando las
frecuencias relativas.

Solución.
Con las definiciones anteriores, podemos contestar las preguntas, pero antes
es conveniente ordenar los datos (en este caso lo haremos de menor a mayor,
aunque puede ser de mayor a menor)

53, 57, 59, 60, 60, 60, 61, 61, 62, 62, 62, 62, 63, 63, 65, 65, 65, 66, 67, 67,
68, 68, 68, 69, 71, 71, 71, 72, 72, 73, 73, 73, 73, 74, 74, 74, 75, 75, 75, 75,
75, 75, 75, 76, 76, 76, 76, 77, 77, 78, 78, 78, 78, 78, 79, 79, 79, 80, 81, 82,
82, 83, 84, 85, 85, 85, 86, 87, 88, 88, 88, 89, 90, 93, 93, 94, 95, 95, 96, 97.

a. La puntuación más alta es 97.


b. La puntuación más baja es 53.
c. El rango es 97 – 53 = 44.
d. Las puntuaciones de los cinco estudiantes de mayor puntuación son:
94, 95, 95, 96, 97.
e. Las puntuaciones de los cinco estudiantes de menor puntuación son:
53, 57, 59, 60, 60.
f. El número de estudiantes que obtuvieron puntuación de 75 o más es 44.
g. El número de estudiantes que obtuvieron puntuación menor de 85 es
63.
h. El número de intervalos de clase utilizando la regla de Sturges.
No. de Intervalos = 1 + 3.3 log 80 = 1 + 3.3 (1.9) = 7.27 ≈ 7.
i. La amplitud de clase.
44
Amplitud de clase = valor máximo − valor mínimo = ≈ 6.28
número de clases 7

j. Construye una distribución de frecuencias de las respuestas correctas


de los 80 estudiantes.
Aunque la regla de Sturges nos indica que hay que usar 7 intervalos lo
haremos por conveniencia de 8 intervalos.

Reactivos (correctos) Número de estudiantes


52 – 57 2
58 – 63 12
64 – 69 10
70 – 75 19
76 – 81 16
82 – 87 9
88 – 93 7
94 - 99 5
k. Construye una distribución de frecuencias que contenga los límites
reales de clase, las frecuencias de cada intervalo de clase, las marcas
de clase, las frecuencias relativas, las frecuencias acumuladas y las
frecuencias acumuladas relativas.

51.5 – 57.5 2 54.5 2.5 2 2.5


57.5 – 63.5 12 60.5 15 14 17.5
63.5 – 69.5 10 66.5 12.5 24 30
69.5 – 74.5 19 72.5 23.75 43 53.75
74.5 – 81.5 16 78.5 20 59 73.75
81.5 – 87.5 9 84.5 11.25 68 85
87.5 – 93.5 7 90.5 8.75 75 93.75
93.5 – 99.5 5 96.5 6.25 80 100

EJERCICIOS
1. Una profesora del colegio, obtuvo los siguientes datos que representan el
tiempo que tardan sus alumnos de su casa a su salón de clases.

27 23 22 38 43 24 25 23 22 52 31 30 29 28 27 25
29 28 26 33 25 27 25 21 23 24 18 23
Construye una tabla de frecuencias.

2. Los siguientes datos corresponden al número de faltas a clases que


tuvieron en el año lectivo 2003-2004 el grupo 508 de Estadística.

9 8 7 8 4 3 2 1 0 5
3 2 1 1 7 3 2 8 7 6
6 4 3 2 2 0 9 4 6 9
6 9 4 3 5 7 3 2 1 4
4 2
Con los datos anteriores, construye una tabla de frecuencias.

3. Usa la tabla de frecuencias que se ilustra abajo para construir:


a) una tabla de frecuencias relativas
b) una tabla de frecuencias acumuladas
c) una tabla de frecuencias relativas acumulada.
x f

12 8
15 10
20 7
22 13
35 10
40 2
4. En un curso donde se utilizaron computadoras se distribuyó un cuestionario
a 200 estudiantes. Una de las preguntas era “Me gusta utilizar las
computadoras”. Las apreciaciones a esta interrogante fueron:

Respuesta Número

Totalmente de acuerdo 50
De acuerdo 75
Apenas de acuerdo 25
Apenas en desacuerdo 15
En desacuerdo 15
Totalmente en desacuerdo 20

Construye una distribución de frecuencias.

5. En una encuesta aplicada a 600 adultos sobre el interés de éstos en el fútbol


soccer, se obtuvieron los siguientes resultados:

¿Qué tan interesado está en el fútbol? Porcentaje


Muy interesado 9%
Algo interesado 23%
No muy interesado 20%
Nada interesado 46%
No está seguro 2%

Construye una distribución de frecuencias.

6. La prueba de aptitud para ciencias de la computación se aplicó a 50


estudiantes. Con base en los puntajes obtenidos se elaboró la siguiente
distribución de frecuencias:

Puntaje en la prueba de aptitud Frecuencia


1–4 4
5–8 8
9 – 12 8
13 – 16 20
17 – 20 6
21 – 24 3
25 – 28 1

a) ¿Cuáles son los límites de clase para la clase de mayor frecuencia?


b) Proporciona todas las marcas de clase asociadas con esta distribución
de frecuencias.
c) ¿Cuál es el ancho de clase?

7. Los siguientes datos son los saldos de 100 cuentas pendientes tomadas del
libro de la tienda X .

31 38 41 52 59 46 74 69 39 60
69 83 78 74 77 35 79 80 71 65
56 69 34 33 92 37 60 43 51 61
74 68 83 49 34 71 58 83 94 66
78 48 34 50 68 65 64 95 92 81
77 84 41 40 38 60 67 38 50 86
76 99 38 94 48 70 80 95 98 42
55 49 54 60 62 70 88 94 85 51
59 68 51 87 53 57 54 46 46 76
69 64 61 78 55 66 73 75 63 64

Con relación a estos datos:


Construye una tabla de frecuencias agrupadas en siete intervalos de clase:
30 – 39, 40 – 49, 60 – 69, 70 – 79, etc. e indica los límites reales de clase
(LRC), las frecuencias de cada IC ( fi ), las marcas de clase ( xi ), las
frecuencias relativas ( f i * ), las frecuencias acumuladas ( Fi ) y las frecuencias
acumuladas relativas ( Fi * ).

8. La tabla 1 muestra una distribución de frecuencias de la duración de 400


focos de ahorro de energía. Con referencia a esa tabla determina:
a) Límite superior de la quinta clase.
b) Límite inferior de la octava clase.
c) Marca de clase de la séptima clase.
d) Límites reales de la novena clase.
e) Tamaño del segundo intervalo de clase.
f) Frecuencia de la cuarta clase.
g) Frecuencia relativa de la sexta clase.
h) Porcentaje de focos cuya duración no sobrepasa las 600 horas.
i) Porcentaje de focos cuya duración es mayor o igual a 900 horas.
j) Porcentaje de focos cuya duración es al menos de 500 horas pero menor
de 1000 horas.

Duración (horas) Número de focos


300 - 399 14
400 - 499 46
500 - 599 58
600 - 699 76
700 - 799 68
800 - 899 62
900 - 999 48
1000 - 1099 22
1100 - 1199 6
Tabla 1. Distribución de frecuencias.

3. REPRESENTACIONES GRÁFICAS
Los datos tal como se obtienen de una investigación están en forma
desordenada, como ya lo hemos visto, por lo que es difícil su interpretación y
análisis. Debido a esto se deben organizar en tablas y gráficas para permitir
una visualización clara y rápida de todo el conjunto. Por ejemplo, los gerentes
de venta, analistas de valores, directores de hospital y otros ejecutivos con
frecuencia necesitan tener una noción rápida de la tendencia de ventas,
precios de acciones o costos de administración. Estas tendencias pueden
mostrarse mejor utilizando diagramas o gráficas. Tres diagramas que
representan de manera adecuada, una distribución de frecuencias son el
histograma, el polígono de frecuencias y la ojiva (polígono de frecuencias
acumuladas).

Histograma y polígono de frecuencias

El histograma es una gráfica de barras que representa una distribución de


frecuencias de una variable cuantitativa.

Su elaboración se ilustra a continuación utilizando el ejercicio 8 de la página


anterior.

Ejemplo 5. Elabore un histograma de frecuencias para la distribución siguiente:

Duración (horas) Número de focos


300 - 399 14
400 - 499 46
500 - 599 58
600 - 699 76
700 - 799 68
800 - 899 62
900 - 999 48
1000 - 1099 22
1100 - 1199 6

Solución. Para ello se traza un sistema de ejes coordenados; en el eje


horizontal localizamos los distintos valores que toma la variable y en el eje
vertical localizamos las frecuencias. El histograma se construye uniendo los
datos con barras cuya altura corresponde a la frecuencia de cada dato. Los
valores de los límites reales de clase como sabemos se obtienen disminuyendo
y aumentando respectivamente en media unidad a los límites inferiores y
límites superiores de clase de los IC cuando dichos límites de clase son
enteros, como en este caso. Obtenemos:
IC LRC frecuencia
300 - 399 299.5 – 399.5 14
400 - 499 399.5 – 499.5 46
500 - 599 499.5 – 599.5 58
600 - 699 599.5 – 699.5 76
700 - 799 699.5 – 799.5 68
800 - 899 799.5 – 899.5 62
900 - 999 899.5 – 999.5 48
1000 - 1099 999.5 – 1099.5 22
1100 - 1199 1099.5 – 1199.5 6

80

70

60

50

40

30

20

10

299.5 399.5 499.5 599.5 699.5 799.5 899.5 999.5 1099.5 1199.5
Histograma de frecuencias

El polígono de frecuencias es una gráfica constituida por la unión de


segmentos en puntos que son las marcas de clase proyectadas en la parte
superior de las barras de un histograma. El inicio y terminación de esta gráfica
son puntos ubicados sobre el eje horizontal y corresponden a marcas de clase
supuestas y cuya localización se obtiene considerando que la distancia que
hay entre las marcas de clase es la misma, lo cual sucede cuando la anchura
de los IC es constante. Este polígono se puede trazar usando la gráfica
correspondiente al histograma.

Ejemplo 6. Construye el polígono de frecuencias de la distribución de


frecuencias del ejemplo 5.

Solución. Para construir el polígono de frecuencias se necesitan las marcas de


clase que están en la escala del eje x , y las frecuencias de clase, que están en
el eje y , como a continuación se presentan:
IC Marcas de clase frecuencia
300 - 399 349.5 14
400 - 499 449.5 46
500 - 599 549.5 58
600 - 699 649.5 76
700 - 799 749.5 68
800 - 899 849.5 62
900 - 999 949.5 48
1000 - 1099 1049.5 22
1100 - 1199 1149.5 6

La clase 300 – 399 está representada por su marca de clase 349.5. Para
localizar el primer punto, es necesario trasladarse horizontalmente a 349.5,
punto medio, y después verticalmente hasta 14, la frecuencia de clase, y
colocar un punto. Los valores x e y que determinan la ubicación del punto se
conocen como sabemos coordenadas. Las coordenadas del siguiente punto
son x = 449.5, y = 46. Este proceso continúa hasta considerar todas las
clases. Después los puntos, uno tras otro, se unen con segmentos. El punto
que representa la primera clase se une con el que representa la segunda, y así
sucesivamente. Observa que para completar el polígono de frecuencias, se
agregaron las marcas de clase 249.5 y 1249.5 a los dos extremos, y el
polígono se “ancló” al eje horizontal en la frecuencia cero. Estos dos valores,
249.5 y 1249.5, se obtuvieron restando 100 a la marca de clase menor (349.5)
y sumando 100 a la marca de clase mayor (1149.5). A continuación se
presenta el polígono de frecuencias sobre el histograma ya construido del
ejemplo 5.

80
Polígono de frecuencias
70

60

50

40

30

20

10

299.5 399.5 499.5 599.5 699.5 799.5 899.5 999.5 1099.5 1199.5
Histograma y polígono de frecuencias

Tanto el histograma como el polígono de frecuencias permiten obtener una


imagen rápida de las principales características de los datos (máximos,
mínimos, concentración de puntos, etc.).
Aunque el objetivo de las dos representaciones es similar, el histograma tiene
la ventaja de indicar cada clase como un rectángulo, expresando el área de
cada barra rectangular, el número total de frecuencias en la clase. El polígono
de frecuencias tiene una ventaja notable con respecto al histograma para
comparar dos o más distribuciones de frecuencias.

Ojivas

En el caso del ejemplo 5, si nos plantearan las preguntas.


1. ¿Cuántos focos duran más de 450 horas?
2. ¿Cuántos focos duran menos de 650 horas?

Las respuestas a estas preguntas pueden aproximarse desarrollando una


distribución de frecuencias acumuladas y trazando un polígono de frecuencias
acumuladas, a veces denominado ojiva. Un polígono de frecuencias
acumuladas se utiliza cuando se desea determinar cuántas observaciones se
encuentran por encima o por debajo de ciertos valores.

Una distribución de frecuencias acumuladas “menos de“ o “menor que” indica


cuántos elementos de la distribución tienen un valor menor que el límite
superior de la primera clase, menor que el límite superior de la segunda, menor
que el límite superior de la tercera clase, etc.
De manera semejante, una distribución de frecuencias acumuladas “más de” o
“mayor que” indica cuántos elementos de la distribución tienen un valor mayor
que o igual al valor del límite inferior de la primera clase, mayor que o igual al
valor del límite inferior de la segunda clase, mayor que o igual al valor del límite
inferior de la tercera clase, etc.

Polígono de frecuencias acumuladas menor que

¿Cómo se elabora una distribución de frecuencias acumuladas “menor que” y


un polígono acumulado menos de”? Para contestar las preguntas anteriores
debes de resolver la actividad siguiente.

Actividad 1. La tabla de frecuencia agrupada siguiente reporta los ingresos


mensuales promedio, hasta los 100 más cercanos, de los trabajadores fabriles
en 27 ciudades del este de Estados Unidos. Trace una ojiva menor que, para
ello: Primero. Completa la columna del límite real superior y de las frecuencias
acumuladas.

Ingreso promedio Límite real superior fi Fi


12,500-14,300 14,350 1 1
14,400-16,200 16,250 5 6
16,300-18,100 3
18,200-20,000 7
20,100-21,900 6
22,000-23800 1
23,900-25700 3
25,800-27600 1

Segundo. Usa los límites reales superiores para marcar los puntos en el eje
horizontal y las frecuencias para los puntos en el eje vertical.
Tercero. Completa la construcción de la ojiva. Ve que la frecuencia acumulada
para la frontera inferior de la primera clase es 0.
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
12450 14350 16250 18150
Ingresos promedio

La distribución anterior, para construir una ojiva (menor que), normalmente se


expresa como:
Ingreso promedio Frec acum
Menos de 12,450 0
Menos de 14,350 1
Menos de 16,250 6
Menos de 18,150
Menos de 20,050
Menos de 21,950
Menos de 23,850
Menos de 25,750
Menos de 27,650

Completa la tabla.

Polígono de frecuencias acumuladas mayor que

Una distribución de frecuencias acumuladas mayor que o más de, se traza


iniciando con la clase mayor, posteriormente, sumando las frecuencias hasta
llegar a la clase que se encuentra en la parte más baja. Para trazar un polígono
de frecuencias acumuladas mayor que, se utilizan los límites reales de clase y
sus frecuencias acumuladas correspondientes. Nuevamente para construir una
ojiva mayor que resolverás la actividad siguiente.

Actividad 2. Traza una ojiva “más de“ para los datos de las rentas de
condominios.
Rentas mensuales Número de unidades
$600 - $799 3
800 – 999 7
1000 – 1199 11
1200 – 1399 22
1400 – 1599 40
1600 – 1799 24
1800 – 1999 9
2000 – 2199 4

Solución. Como ya mencionamos una distribución de frecuencias acumuladas


“mayor que”, “más de“, se construye iniciando con la clase mayor,
posteriormente, sumando las frecuencias anteriores hasta llegar a la clase más
baja. Para trazar una ojiva “mayor que”, se utilizan los límites reales inferiores y
sus frecuencias acumuladas correspondientes. Completa la columna de las
frecuencias de clase ( fi ) y de las frecuencias acumuladas ( Fi ).

Rentas mensuales fi Fi
Más de $599.5 3 120
Más de 799.5 7 117
Más de 999.5
Más de 1199.5
Más de 1399.5
Más de 1599.5
Más de 1799.5
Más de 1999.5
Más de 2199.5

Completa la construcción de la ojiva. Ve que la frecuencia acumulada para la


frontera inferior de la primera clase es 120.

Fi

120 (799.5, 117)


90

60

30
599.5 799. 1399.5 2199.5 Rentas mensuales
Ojiva “más de“ para las rentas.

Si se desea determinar cuántas rentas son mayores que $1399.5, se trazaría


una línea vertical desde $1399.5, según se muestra en el diagrama, hacia el
polígono y después hacia la izquierda al eje y . El número correspondiente en
el eje y es aproximadamente 77, lo cual significa que 77 rentas son mayores
de $1399.5 mensuales.

EJERCICIOS
1. Las puntuaciones obtenidas en una prueba de aptitud mecánica se
organizaron en la distribución siguiente.

Puntuaciones de prueba Número de puntuaciones


100 – 119 6
120 – 139 17
140 – 159 38
150 – 179 15
180 – 199 4

a. Representa la distribución en un histograma.


b. Representa la distribución en un polígono de frecuencias.

2. A continuación se ofrece una distribución de frecuencia del peso de 150


personas que utilizaron un elevador cierto día.

Clase Frecuencia
75 – 89 10
90 – 104 11
105 – 119 23
120 – 134 26
135 – 149 31
150 – 164 23
165 – 179 9
180 – 194 9
195 – 209 6
210 – 224 2

a. Construye un histograma con esos datos.


b. Construye un polígono de frecuencias con esos datos.

3. La distribución siguiente representa los costos financieros totales que


pagaron 200 clientes en sus cuentas de presupuesto a una tienda
departamental:
Cantidad Frecuencia
0 – 190 18
200 – 390 62
400 – 590 63
600 – 790 43
800 – 990 14

a. Convierta la distribución de frecuencias en una distribución de


frecuencias acumulada “menos de” y trace una ojiva.
b. Convierta la distribución de frecuencias en una distribución de
frecuencias acumulada “más de” y trace una ojiva.

4. Una empresa comercial organizó en una tabla los salarios (por hora) de 80
empleados de medio tiempo y de tiempo completo. Por ejemplo, incluyó un
salario de $44.90 en la clase $20 - $40 pero uno de $45 en la siguiente
clase superior ($50 - $70). He aquí la tabla.

Sueldos por hora Número de sueldos


20 – 40 18
50 – 70 36
80 – 100 20
110 – 130 6

a. Desarrolla una distribución de frecuencias acumuladas “menos de” y


represéntala en un polígono de frecuencias acumuladas “menos de”.

b. Desarrolla una distribución de frecuencias acumuladas “más de” y


represéntala en un polígono de frecuencias acumuladas “más de”.
c. ¿Cuántos empleados ganan $60 o menos la hora?
d. ¿Cuántos empleados ganan $100 o más?

Gráfica de barras

Una gráfica de barras es una representación gráfica de una tabla de


frecuencias para datos cualitativos. Al construir una gráfica de barras para
datos cualitativos, separamos las barras para enfatizar las distinciones entre las
diferentes categorías.

Actividad 3. Considerando la distribución de frecuencias que representan los


meses de nacimiento que tienen los alumnos de este grupo de estadística
(página *). Construye una gráfica de barras
Solución. Completa la distribución de frecuencias con los datos que obtuviste
de los meses de nacimiento.

Mes de nacimiento No. de alumnos


Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

A continuación construye la gráfica de barras.

mes

Enero Febrero Marzo Abril · · · Noviembre Diciembre

Gráficas circulares (pastel)

Otro método de representar datos gráficamente es organizándolos


proporcionalmente en segmentos de un círculo. Éstos se conocen como
gráficas circulares. Este método de representación es particularmente útil
cuando deseamos resaltar la contribución de cada parte y la totalidad, a la vez.
La figura inferior representa la distribución del presupuesto de una familia
típica.
Otros 5%
Casa 40%

Comida 20%

Auto 25% Luz/agua 10%

Actividad 4. El ingreso mensual de la familia Hernández es de $4,200.00


mensuales, después de descontar las contribuciones. Contesta las preguntas
siguientes, utilizando la gráfica circular anterior como referencia:
a) ¿Cuánto gastan en comida?
b) ¿Cuánto gastan en casa, luz y agua?
c) ¿Qué partida consume la mayor parte de sus ingresos?

Para construir una gráfica circular, el primer paso consiste en trazar un círculo,
y como sabemos hay 360 grados en él. Para graficar, por ejemplo, el 40% para
gastos de la casa, este porcentaje se convierte en grados. La respuesta es 144
grados, que se obtiene por 0.4(360). Después utilizando un transportador, se
localiza el punto de 144 grados en la circunferencia. Las líneas trazadas desde
las marcas de 0 y 144 grados hacia el centro del círculo abarcan el porcentaje
de gastos de la casa, según se muestra a continuación.
0

144°
40%

Actividad 5. La siguiente tabla muestra cómo llegan al trabajo los obreros a su


centro de trabajo:
Medios de transporte Porcentaje
En metro 81
En auto propio 3
En autobús 14
A pie 2

Construye una gráfica circular.

EJERCICIOS
1. En la siguiente tabla se muestra el número de casos de cada tipo de
operación realizada en el Hospital General, el año pasado.
Tipo de operación Número de casos
Torácica 20
Huesos y articulaciones 45
Ojos, oídos, nariz y garganta 58
General 98
Abdominal 115
Urológicas 74
Proctológicas 65
Neurocirugía 23
a. Construye una gráfica de barras
b. Construye una gráfica circular.
2. Utiliza la gráfica de barras que se muestra para responder a las siguientes
preguntas:

No. de hab. en miles 438

300
220
200 178
93 61
100 35 44

a) ¿Cuál municipio tiene la población mayor en la zona metropolitana después


0 deBayamón
San Juan? Carolina Cataño Guaynabo San Juan Toa Alta Trujillo Alto
b) Aproximadamente ¿cuántas
Población de personas viven
Puerto Rico. Zona en el municipio
Metropolitana . de Toa Alta?
c) Aproximadamente ¿cuántas personas viven en el municipio de Toa Alta y
Trujillo Alto?
d) ¿Qué razón de la población de la Zona Metropolitana vive en Guaynabo?

3. Convierta la gráfica de pastel adjunta en una gráfica de barras.

Otros (1%) Dpto. de Defensa


(4%)
Dpto. de
Agricultura
(25%)

Departamento
del interior
(70%)

Territorio ocupado por agencias federales, de un


total de 100 millones de hectáreas

4. Convierta la gráfica de barras adjunta en una gráfica circular.


cientos de dólares

40

35

30
Monto
25

20

15

10

A B C D E
Empleado
Ventas del último año (en cientos de dólares)

4. MEDIDAS DE TENDENCIA CENTRAL (media, mediana y moda)


En los primeros tres temas de la Unidad I se inicio el estudio de la Estadística
Descriptiva. A fin de pasar un conjunto de datos originales a una forma
significativa, se les organizó en una distribución de frecuencias y se les
representó gráficamente en un histograma o en un polígono de frecuencias.
También se examinaron otros de los medios empleados para describir datos,
como las gráficas de barras y de sectores circulares.

En este tema se continuará desarrollando métodos para describir datos


encontrando un único valor para describir un conjunto de ellos. Este único valor
se conoce como medida de tendencia central. Las medidas de tendencia
central son valores numéricos que tienden a localizar, en algún sentido, la parte
central de un conjunto de datos. A menudo el término promedio se asocia a
estas mediciones.

Hay varias medidas de tendencia central que se usan para encontrar un centro
de un conjunto de datos; tres son las que vamos a estudiar y son: la media
aritmética (media), la mediana y la moda. Examinemos ahora con detalle cada
medida de tendencia central y empecemos dando sus definiciones.

Definición. La media para un conjunto de datos, es la medida que se calcula


sumándolos y dividiendo el resultado entre el número total de datos.

Notación: x
La media aritmética de un conjunto de n observaciones x1 , x2 , x3,L , xn en forma
simbólica es:
n

∑x i
x= i =1
.
n

Ejemplo 7. Se pidió a cinco estudiantes del CCH Oriente seleccionados


aleatoriamente, que dijeran el número de horas que practican deporte a la
semana. Los datos resultantes fueron 6, 3, 8, 5 y 3.Obtenga la media.

Solución. Usando la fórmula de la media resulta:

x =

Por lo tanto, la media de esta muestra es 5.

Se puede construir una representación física de la media si se piensa en una


recta numérica equilibrada sobre un punto de apoyo, sobre la cual se coloca
una pesa sobre un número de la recta correspondiente a cada número de la
muestra. En la figura siguiente se observa una pesa sobre los números 5, 6 y
8, y dos pesas sobre el 3. La media es el valor, en este caso 5, que equilibra
las pesas sobre la recta numérica.

2 3 4 5 6 7 8 9

El punto de equilibrio es 5.

Nota: No debe pensarse por la figura que el valor medio tiene que ser un valor
en el conjunto de datos.
En ocasiones muchas observaciones comparten valores comunes, como en las
distribuciones de frecuencia no agrupada. Suponga que tenemos la muestra de
las edades de 10 alumnos del quinto semestre del CCH Oriente:

16, 16, 16, 16, 17, 17, 17, 18, 18, 19

Si aplicamos la definición de media muestral a los datos, obtenemos:

x=

Para encontrar ∑ x , es más simple sumar los cuatro productos 4(16), 3(17),
2(18), 1(21). Cada producto puede escribirse como fx , donde f es la
frecuencia con que aparece una edad x (vea la tabla de abajo); la suma de los
valores de f es igual a n y la suma de los valores de fx es igual a ∑ x .

x f fx
16 4 64
17 3 51
18 2 36
19 1 19
Total 10 170
Tabla de frecuencias

La media muestral también es igual a


x =

Para encontrar la media de datos muestrales dados en una tabla de


frecuencias, usamos la fórmula siguiente:

x=
∑f x
∑f
Definición. La mediana de un conjunto de datos es el valor que se encuentra
en medio de los datos ordenados de menor a mayor (o de mayor a menor) en
caso de haber un número impar de datos. En el caso de un conjunto con un
número par
Notación: ~
x de datos, la mediana es la semisuma de los dos datos centrales.

La mediana de un conjunto de n observaciones x1, x2,…, xn ordenados en


orden creciente, en forma simbólica es:

⎧ x( n +1) / 2 si n es impar
⎪
x%= ⎨ xn / 2 + x( n / 2) +1
⎪ si n es par
⎩ 2
Ejemplo 8. El número de barcos extranjeros que arriban al puerto de Veracruz
en 7 días seleccionados al azar, fueron 8, 3, 9, 5, 6, 8 y 5. Obtenga la mediana.

Solución. Primero ordenamos los datos dados en orden ascendente (puede


ser en orden descendente):
3, 5, 5, 6, 8, 8, 9

La mediana es = 6, ya que ese valor está a la mitad de los datos. Si usamos


la fórmula para n impar se tiene que la mediana se encuentra en el lugar x%=
x8/ 2 = x4 y cuyo valor es 6.

Ejemplo 9. Los contenidos de nicotina en una muestra aleatoria de 6 cigarrillos


de la marca X , fueron de 2.3, 2.7, 2.5, 2.9, 3.1 y 1.9 miligramos. Determina la
mediana de los valores.

Solución. Ordenando los valores dados en orden creciente de magnitud,


resulta
1.9, 2.3, 2.5, 2.7, 2.9, 3.1

y la mediana es la semisuma de los datos x3 = 2.5 y x4 = 2.7. Por lo tanto,

x%= miligramos.

La moda es una medida de tendencia central que difiere de la media, pero que
se parece un poco a ella porque realmente no se calcula por medio de los
procesos ordinarios de la aritmética.
Definición. La moda de un conjunto de datos es el dato que más se repite. La
moda puede no ocurrir, y cuando existe no es necesariamente única.

Notación: x̂

Ejemplo 10. Las siguientes son las cantidades de tiempo (en minutos) que 16
personas pasaron formadas en una fila para comprar boletos para un concierto:
8, 2, 9, 1, 16, 5, 7, 11, 9, 1, 14, 12, 9, 10, 8 y 4. Determina la moda.

Solución. Una revisión de las cantidades revela que el 9 aparece con más
frecuencia (tres veces) que cualquier otra cantidad. Por lo tanto, el valor modal
es 9 minutos.

Ejemplo 11. El número de películas vistas el mes pasado por una muestra
aleatoria de 12 estudiantes de bachillerato fueron como sigue: 2, 0, 3, 1, 2, 4, 2,
5, 4, 0, 1 y 4. Encuentra la moda.
Solución. En este caso, existen dos modas, 2 y 4, ya que 2 y 4 ocurren con la
mayor frecuencia (3 veces). Se dice entonces que la distribución es bimodal.

Ejemplo 12. Los contenidos de alquitrán en 8 marcas de cigarros,


seleccionadas al azar mediante la información proveniente de la organización
reguladora del gobierno, son: 7.3, 8.6, 10.4, 16.1, 12.2, 15.1, 14.5 y 9.3
miligramos. Calcula la moda.

Solución. No existe moda para los contenidos de alquitrán, puesto que cada
valor ocurre sólo una vez.

Actividad 6

1. Los siguientes 10 datos representan los promedios generales, de los


primeros cuatro semestres, de los alumnos de tu grupo de Estadística.
Determina la media.

Calcula: a) La media b) La mediana c) La moda.

2. Determina la mediana y la moda de los datos siguientes que representan el


número de materias que tienen reprobadas los alumnos de tu grupo de
Estadística.

3. Determina la moda de los datos siguientes que representan la carrera que


desean estudiar los alumnos de tu grupo de Estadística.

4. Supongamos que los números siguientes representan el ingreso mensual de


siete personas que trabajan en el CCH Oriente. Compara la mediana y el

ingreso medio. ¿Cuál es el número más representativo?

7500, 12500, 4500, 15000, 9000, 30,000, 8500.

5. Calcula la media de una colección de 12 datos si la suma de ellos es de 37.

6. Un instructor borra accidentalmente la calificación de uno de sus seis


estudiantes; las cinco calificaciones restantes son 76, 85, 43, 89 y 65, y la
media de las seis es 70. Encuentra la calificación que se borró.

COMPARACIÓN ENTRE LA MEDIA, MEDIANA Y LA MODA


Por lo general, un conjunto de datos es representado por una medida de
tendencia central. La cuestión es: ¿usaremos la media, la mediana, o la moda?
Para contestar a esta pregunta, comparemos las propiedades de cada una de
estas medidas.
Nombre Símbolo Definición Ventajas Desventajas
n
1) Refleja cada valor. 1) Puede ser
2) Propiedades excesivamente
Media x ∑x
i =1
i
algebraicas influenciada por
x= 3) Es la más usada en valores extremos.
n análisis estadísticos.
50% de los 1) Difícil de calcular si
valores son 1) menos sensible a hay muchos datos.
Mediana x% mayores y 50% valores extremos que la 2) No tiene propiedades
son menores media algebraicas
que ella.
1) Fácil de calcular. 1) No se presta para el
Valor con la 2) Más valores reunidos análisis estadístico.
Moda x̂ frecuencia más en este punto que en 2) Puede haber más de
alta. cualquier otro. una moda o
ninguna.

EJERCICIOS
1. Se pidió a 15 estudiantes del CCH Oriente seleccionados aleatoriamente,
que dijeran el número de horas que habían dormido la noche anterior. Los
datos resultantes fueron: 5, 6, 6, 8, 7, 7, 9, 5, 4, 8, 11, 6, 7, 8, 7. Obtenga:
a) la media b) la mediana c) la moda

2. Se aplicó a 20 alumnos que asisten al gimnasio de la escuela una prueba


que mide la capacidad para el ejercicio. Se midió esta capacidad de cada
alumno (en minutos) las mediciones son:
25 27 30 33 30 32 30 34 30 27
26 25 29 31 31 32 34 32 33 30

Encuentra la media, la mediana y la moda.

3. Mientras trabajaba en el laboratorio de la clase de electrónica, María copió


en su libreta las siguientes lecturas de voltaje: 4, 5, 6, 3, 4, 3, 3, 31, 4.
a) Encuentra la media.
b) Encuentra la mediana.

Posteriormente María decidió que el valor de 31 era altamente irregular,


pues estaba segura de que había cometido un error al leer el voltímetro.
Ella omitió el 31 de la lista, produciendo las siguientes observaciones: 4, 5,
6, 3, 4, 3, 3, 4.
c) Encuentra la media.
d) Encuentra la mediana.
e) Compara los resultados de a, b; con c, d. ¿Cuál de las dos medidas
de tendencia central, la media o la mediana es mejor si deseas evitar
la distorsión producida por un valor extremo?

4. Supongamos que hemos “suavizado” tres histogramas y que obtuvimos las


siguientes curvas. Coloca en los puntos señalados la media, mediana y
moda.
Simétrica Asimétrica a la izquierda

Simétrica bimodal Asimétrica a la derecha

CÁLCULO DE LA MEDIA, MEDIANA Y MODA A PARTIR DE


DATOS AGRUPADOS.
Cálculo de la media a partir de datos agrupados.

Se calculará ahora la media para una distribución de frecuencias agrupadas.

Ejemplo 13. La siguiente tabla muestra una distribución de frecuencias de 50


calificaciones obtenidas en un examen de Estadística y Probabilidad 1. Calcula
la media.

IC f
22 - 32 1
33 - 43 2
44 - 54 5
55 - 65 2
66 - 76 9
77 - 87 9
88 - 98 10
99 - 109 5
110 - 120 3
121 - 131 4
Distribución de frecuencias de 50 calificaciones.

f x
Solución. Para poder utilizar la fórmula x = ∑ de la media, debemos
∑f
considerar a x como las marcas de clase. Consideremos ahora la siguiente
tabla, para calcular la media.

IC f x (Marcas de clase) fx
22 - 32 1 27 27
33 - 43 2 38 76
44 - 54 5 49 245
55 - 65 2 60 120
66 - 76 9 71 639
77 - 87 9 82 738
88 - 98 10 93 930
99 - 109 5 104 520
110 - 120 3 115 345
121 - 131 4 126 504
Distribución de frecuencias agrupadas.

Utilizando la fórmula anterior se calcula la media:

x=
∑ f ⋅x =
∑f
Nota: La media tiene una seria desventaja, se ve afectada por los datos que
contienen uno o dos valores sumamente grandes o muy pequeños, por lo que
la media en estos casos puede no ser representativa.

Cálculo de la mediana a partir de datos agrupados.

A menudo tenemos acceso a los datos sólo después de haberlos agrupado en


una distribución de frecuencias. Es decir, no conocemos todas las
observaciones, ejemplo de ello es que desconocemos todos los datos que han
llevado a construir la siguiente tabla, es decir, los datos acerca de la
contaminación del aire en 57 ciudades.

IC f
10 - 19 5
20 - 29 19
30 - 39 10
40 - 49 13
50 - 59 4
60 - 69 4
70 - 79 2
Total 57

Distribución de las partículas de materia en suspensión


en muestras de aire tomadas en 57 ciudades

Pese a ello, podemos determinar la mediana. Para hacerlo hagamos lo


siguiente:

Primero encontremos el intervalo de clase en el que está localizada la


mediana, para ello recordemos que hay 57 observaciones, luego el valor de la
observación de en medio, la 29ª, es decir, la mediana. De la tabla, se ve que
los dos primeros intervalos de clase comprenden 24 de las observaciones y
que 34 observaciones están comprendidas en los tres primeros intervalos de
clase. Por lo tanto, la 29ª observación está en el tercer intervalo de clase. La
mediana está localizada en algún punto entre 29.5 y 39.5, si se consideran los
límites reales de clase.

La pregunta ahora es: ¿Qué tanto debe avanzarse en este intervalo para
alcanzar a la mediana? Bajo la hipótesis de que los valores están distribuidos
uniformemente a lo largo de todo el intervalo, parece razonable que se debe
avanzar una distancia igual a 5/10 = ½ de la distancia total del intervalo de
clase, puesto que, después de alcanzar el límite inferior del intervalo de clase
que contiene a la mediana, se necesitan cinco observaciones más, y hay un
total de 10 observaciones en el intervalo. Entonces, el valor de la mediana es
igual al valor del límite real inferior del intervalo que contiene a la mediana, más
5/10 de la amplitud del intervalo, es decir,

mediana = 29.5 + 5/10 (10) = 29.5 + 5 = 34.5

La mediana a partir de datos agrupados se puede estimar por medio de la


fórmula:
⎛ j ⎞
Mediana = x%= L1 + ⎜ ⎟ c .
⎝ f i ⎠
donde
L1 = El límite real inferior del intervalo que contiene a la mediana.
j = El número de observaciones que aún faltan para alcanzar la
mediana.
fi = La frecuencia del intervalo que contiene a la mediana.
c = Amplitud del intervalo que contiene a la mediana.

O también la fórmula:
⎡ n ⎤
⎢ 2 − ( ∑ f )1 ⎥
Mediana = x%= L1 + ⎢ ⎥ c
⎢ f mediana ⎥
⎣ ⎦
donde
L1 = El límite real inferior del intervalo que contiene a la mediana.
(∑ f ) 1
= Suma de las frecuencias de todas las clases por debajo de la
clase mediana.
f mediana = Frecuencia de la clase mediana.
c = Amplitud del intervalo que contiene a la mediana.
n = Número de datos totales.

Ejemplo 14. Una muestra de la producción diaria de aparatos de comunicación


en una compañía “Y” se organizó en la siguiente distribución.

Producción diaria f
No. piezas
80 - 89 5
90 - 99 9
100 - 109 20
110 - 119 8
120 - 129 6
130 - 139 2

Considerando que los límites reales de clase son 79.5 - 89.5, 89.5 - 99.5 y así
sucesivamente, determina la mediana de la producción diaria.

Solución. La producción de aparatos que se muestra en la distribución de


frecuencias; se supone que se distribuyen uniformemente. Puesto que hay 50
datos, la mediana se encuentra entre la 25ª y 26ª observación. Sin embargo, es
una práctica común localizar la observación central dividiendo el número total
de observaciones entre 2. En este caso, 50/2 = 25.

La suma de las frecuencias de las dos primeras clases es 5 + 9 = 14, y de las


tres primeras clases es 5 + 9+ 20 = 34, luego la mediana se encuentra en la
tercera clase. Entonces
L1 = 99.5, j = 11, fi = 20 y c = 10;
así se tiene

x%= L1 + = 99.5 + (11/20) 10 = 99.5 + 5.5 = 105 aparatos de comunicación.

Cálculo de la moda a partir de datos agrupados.

Cuando los datos ya están agrupados en una distribución de frecuencia,


debemos suponer que la moda se halla en la clase que tenga más elementos
(clase modal); es decir, que posea la frecuencia más grande.

Para encontrar la moda, se dispone de dos métodos. El primer método nos


permite estimar la moda en una gráfica. El segundo método se sirve de una
fórmula.

Ejemplo 15. La tabla siguiente muestra una distribución de frecuencias de los


salarios diarios por hora de 65 empleados de la compañía “Z”.
Salarios f
50 - 59 8
60 - 69 10
70 - 79 16
80 - 89 14
90 - 99 10
100 - 109 5
110 - 119 2

Encuentra la moda de los salarios de los 65 empleados de la compañía “Z”.

Solución. Primero, debemos construir un histograma con tres rectángulos,


donde el rectángulo central corresponde a la clase modal, vea la figura
siguiente.

R S
15
P
T
Q
10
Moda = x = 77

59.5 69.5 79.5 89.5 Salarios

Segundo, trazando el segmento de recta SQ del ángulo superior derecho del


rectángulo más alto al ángulo superior derecho del rectángulo situado
inmediatamente a su izquierda.

Tercero, trazando un segundo segmento de recta RT del ángulo superior


izquierdo del rectángulo más alto al ángulo superior izquierdo del rectángulo
situado inmediatamente a su derecha.

Cuarto, trazando una línea perpendicular al eje horizontal por el punto P donde
se cruzan las líneas dibujadas en los pasos segundo y tercero.

Quinto, el valor en el eje horizontal marcado por la línea trazada en el cuarto


paso es el valor modal y se puede determinar de la siguiente manera.

De los triángulos semejantes PQR y PST se tiene ;


resolviendo para , se tiene: 2( - 69.5) = 6 (79.5 - ); - 69.5 = 3 (79.5 - )
- 69.5 = 238.5 - 3 ; 4 = 308 y = 77.

Un segundo método para calcular la moda es cuando contamos con datos


agrupados, y consiste en aplicar la fórmula siguiente:
⎛ Δ1 ⎞
= Li + ⎜ ⎟ c
⎝ Δ1 + Δ 2 ⎠
donde:

Li = Límite real inferior de clase de la clase modal (la clase que contiene la
moda)
∆1 = frecuencia de la clase modal menos la frecuencia de la clase contigua
inferior.
∆2 = frecuencia de la clase modal menos la frecuencia de la clase contigua
superior.
c = amplitud del intervalo que contiene a la moda.

Usando la fórmula anterior para el problema de los salarios, se tiene:

Li = 69.5, ∆1 = 6, ∆2 = 2 y c = 10.

= 69.5 + = 69.5 + 0.75 (10) = 69.5 + 7.5 = 77.

Ejemplo 16. Las edades de los residentes del fraccionamiento “Los girasoles“
están descritas por la distribución siguiente:

Edades f
27 - 32 4
33 - 38 9
39 - 44 13
45 - 50 42
51 - 56 39
57 - 62 20
63 - 68 9

Encuentra el valor modal de la distribución.

Solución. Usando la fórmula de la moda, se tiene:

Li = 44.5, ∆1 = 29, ∆2 = 3 y c = 6.

= 44.5 + = 44.5 + 0.90625 (6) = 44.5 + 5.4375 = 49.9375.

Actividad 10.
1. La tabla siguiente contiene una muestra de la producción diaria de aparatos
de comunicación de la compañía “ X ”.

Producción diaria
Frecuencias
No. piezas

80 – 89 5
90 – 99 9
100 – 109 20
110 – 119 8
120 - 129 6
130 - 139 2

Determina:
a) La media
b) La mediana.
c) La moda
d) ¿Cuál medida de tendencia central usarías para determinar el valor
central? Explica.
EJERCICIOS

1. La tabla siguiente resume las edades de los estudiantes del equipo de


baloncesto del CCH Oriente.

Edades f
18 2
19 3
20 5
21 4
22 1

a) Encuentra la media, la mediana y la moda.


b) ¿Cuál medida de tendencia central usaría para determinar el valor central?
Explica.

2. Parece ser que una máquina automática que llena recipientes está
trabajando de manera errónea. Una verificación de los pesos del contenido
de un cierto número de latas reveló lo siguiente:

Peso f
(en grs.)
130 – 139 2
140 – 149 8
150 – 159 20
160 – 169 15
170 – 179 9
180 – 189 7
190 – 199 3
200 – 209 2

Encuentra la media, la mediana y la moda.

3. Las edades de obreros no calificados de nueva contratación se agruparon


en la distribución que sigue:

Edades f
18 – 20 4
21 - 23 8
24 – 26 11
27 – 29 20
30 - 32 7

Determina la media, la mediana y la moda.


4. De acuerdo a la distribución que sigue. ¿A qué medida de tendencia central
corresponde el valor 84.5 gramos?

Peso (en gramos) f


60 – 69 2
70 - 79 5
80 – 89 12
90 – 99 3
100 - 109 1

5. MEDIDAS DE DISPERSIÓN (desviación media, varianza,


desviación estándar y coeficiente de variación)
Una vez que ha sido determinada la parte central de un conjunto de datos, la
búsqueda de información se dirige a las medidas de dispersión. Las medidas
de dispersión abarcan la amplitud (rango), la varianza, la desviación estándar y
el coeficiente de variación. Estos valores numéricos describen el grado de
dispersión, o variabilidad de los datos. Ocurre que datos bastante agrupados
poseen valores relativamente pequeños, y datos más dispersos tienen valores
más grandes. No hay límite respecto a cuán dispersos pueden ser los datos; en
consecuencia, las medidas de dispersión pueden ser muy grandes.

Recuerda que el rango de una muestra está dada por

Rango = valor máximo – valor mínimo.

Ejemplo 17. El rango de la muestra 3, 4, 6, 8, 10 es


Rango = 10 – 3 = 7

El rango 7 indica que todos estos valores caen en un intervalo de 7 unidades.

3 4 5 6 7 8 9 10
máximo
mínimo

Rango

Las otras medidas de dispersión que se estudiarán en esta sección son


medidas con respecto a la media. Para obtener una medida de dispersión con
respecto a la media, primero se debe contestar la pregunta “¿Cuán lejos está
cada valor x de la media?”.

Definición. Desviación con respecto a la media. Una desviación de la media,


es la diferencia entre el valor de y la media .
Cada valor individual x se desvía de la media por una cantidad igual a ( x − x ).
Esta desviación ( x − x ) es cero cuando x es igual a la media x . La desviación
( x − x ) es positiva cuando x > x y negativa si x < x .

Ejemplo 18. Calcula la desviación de los puntajes para los datos siguientes,
que representan el número de defectos encontrados por un inspector de autos
en una línea de ensamblaje en los últimos cinco autos producidos: 6, 3, 8, 3, 5.

Solución. Es fácil determinar que la media es x = 5. Luego, cada desviación,


( x − x ), se encuentra restando 5 de cada valor x .

Datos x 6 3 8 3 5

Desviación x−x 1 -2 3 -2 0

En la figura siguiente se observan las cuatro desviaciones con respecto a la


media diferente de cero.
x
No. de Defectos

10 Desviaciones

1 0 Media = x = 5
5
-2 -2

1 2 3 4 5 No. de Inspección

Observa que si se suman las desviaciones se obtiene cero, es decir,

∑(x − x ) = 0 .
Para describir el valor “promedio” de estas desviaciones podría usarse la
desviación media, es decir, la suma de las desviaciones divididas entre n . Sin
embargo, como la suma de las desviaciones es cero, la desviación media
también es cero.

Una forma de eliminar que las sumas de las desviaciones sean cero es
considerar el valor absoluto de ellas.

Definición. Desviación absoluta media. Media aritmética de los valores


absolutos de las desviaciones con respecto a la media aritmética.
La desviación absoluta media, denotada por DAM, se calcula para una muestra
como:
x−x
DAM = ∑
n
Otra forma de eliminar que las sumas de las desviaciones sean cero es
considerar todas las desviaciones al cuadrado.

Definición. La variancia (o varianza), , de una muestra de tamaño es el


valor numérico que se obtiene como

varianza muestral =

La variancia de una muestra es una medida de la dispersión de los datos con


respecto a la media.

Definición. La desviación estándar muestral, denotada por , es la raíz


cuadrada positiva de la variancia muestral.

2
Nota. El numerador de la varianza de la muestra, ∑ (x − x ) a menudo se
denomina “la suma de cuadrados de x ” y se simboliza SC ( x) . Así la fórmula de
la varianza se puede expresar como
SC ( x)
s2 = , donde SC ( x) = ∑ ( x − x )2
n −1
Las fórmulas de la varianza pueden modificarse a otras formas para aplicarlas
más fácilmente en diversas situaciones.
Es fácil comprobar que
2

SC ( x) = 2
-
(∑ x) .
∑x n
Luego,
2
2 (∑ x) 2
SC ( x) ∑x −
n n∑ x 2 − ( ∑ x )
s2 = = = .
n −1 n −1 n(n − 1)

Ejemplo 19. Los pesos (en gramos) del contenido de varios pequeños frascos
de aspirina son: 2, 5, 4, 5, 2 y 6. ¿Cuál es la varianza muestral?

Solución. Para calcular la varianza utilizaremos las dos fórmulas vistas


2
2 (∑ x)
SC ( x) ∑x n

anteriormente. Primero, usaremos la s 2 = , y después s 2 = .
n −1 n −1
Empleando las desviaciones al cuadrado con respecto a la media:

x=
∑ x = 24 = 4.
n 6
Pesos en gramos x−x ( x − x )2
2 -2 4
5 1 1
4 0 0
5 1 1
2 -2 4
6 2 4

s2 =
∑ (x − x ) =
14
= 2.8
n −1 5
Usando la fórmula más directa:

Pesos en gramos x2
2 4
5 25
4 16
5 25
2 4
6 36

2
(∑ x) (24)2
∑ x2 −
n
110 −
6 = 110 − 96 = 2.8
s2 = =
n −1 6 −1 5

Observa que se obtuvieron los mismos resultados. Se te sugiere que utilices la


fórmula más directa en caso de que el valor de la media tenga varios
decimales.

EJERCICIOS

1. A 15 estudiantes universitarios, elegidos aleatoriamente, se les solicitó


mencionar el número de horas que durmieron la noche anterior. Los datos
resultantes fueron: 5, 6, 6, 8, 7, 7, 9, 5, 7, 8, 7, 6, 11, 8 y 4. Determina
a) Rango b) Varianza s 2 c) Desviación estándar s

2. El dueño de tres microbuses recibe numerosas quejas acerca de la


puntualidad de la ruta Sor Juana – Xola. Se supone que el viaje debe
completarse en 110 minutos. Hay tres conductores en la corrida: Hugo,
Paco y Luís, y se dispone de la siguiente información sobre los tres
conductores en cinco viajes durante la semana pasada.
Tiempo (minutos)
Hugo Paco Luís

112 96 111
108 115 109
114 125 113
100 120 112
116 94 105

Determina para cada uno de los conductores:


a) La media.
b) La desviación media.
c) La varianza.
d) La desviación estándar.

3. El gerente de un equipo de béisbol “X” está evaluando a un par de


ponchadores de ligas menores. El número de ponches que cada lanzador
ha registrado en sus seis últimos juegos en la Liga Y están registradas
abajo.

No. de ponches
Juego Luís Manuel

1 4 8
2 3 9
3 9 12
4 16 6
5 12 10
6 10 9

a) Calcula la media y la desviación estándar para ambos lanzadores.


b) Si la consistencia es de interés primordial, ¿qué lanzador deberá ser
más interesante para el gerente?

4. Una compañía especializada en la fabricación de ejes para máquinas está


planeando la compra de una máquina de corte controlada por computadora.
El ingeniero de la compañía prueba dos máquinas de diferentes fabricantes.
Los diámetros (en cms) de las barras cortadas por las máquinas fueron los
siguientes:
Fabricante 1: 2.001, 2.000 , 2.004, 1.998, 1.997
Fabricante 2: 2.002, 2.008, 1.995, 1.990, 2.005
Calcula la media y la desviación estándar para cada caso y comenta acerca de los

resultados obtenidos de las dos máquinas.


MEDIDAS DE DISPERSIÓN PARA DATOS AGRUPADOS EN UNA
DISTRIBUCIÓN DE FRECUENCIAS

Si los datos que nos interesan están en forma agrupada (en una distribución de
frecuencias), la variancia puede obtenerse al sustituir ∑ ( x − x ) 2 por
2
o al sustituir ∑ f x 2 por ∑ x 2 y ∑ f x por ∑ x .
∑ f (x − x)
Recuerda que para datos no agrupados, una fórmula para la varianza muestral
es:
2

2
(∑ x )
2
∑x −
n
s =
n −1
y con el cambio mencionado anteriormente, la fórmula para la varianza de los
datos que están en forma agrupada se convierte entonces en:
2
(∑ f ⋅ x ) 2
∑ f ⋅x − n
s2 = .
n −1

Actividad 11. Encuentra la varianza y la desviación estándar para los datos


siguientes referentes al número de cigarros fumados durante un fin de semana
por un grupo de 15 fumadores.

x 10 15 17 20 22

f 1 3 5 2 4

La tabla siguiente se usa para organizar los cálculos, complétala:

xi fi f i ⋅ xi xi2 f i ⋅ xi2
10 1 10 100 100
15 3 45 225 675
17 5
20 2
22 4

La fórmula para la variancia muestral de un conjunto de datos agrupados es:

s 2
=
∑ f (x − x )
n −1
en donde :

x es la marca de clase
f es la frecuencia de clase
n es el número total de observaciones en la muestra.
Otra fórmula para la variancia muestral, sin que intervenga la media, es:
2
(∑ f ⋅ x ) 2
∑ f ⋅ x −
s2 = n
n −1
Se te sugiere que utilices la primera fórmula para calcular la varianza.

Actividad 12. La siguiente distribución de frecuencias es el resultado de


registros sobre la duración de 220 focos en horas de 60 watts.

Límites de clase
Duración (hrs.) Frecuencia

500 – 599 3
600 – 699 7
700 – 799 14
800 – 899 28
900 – 999 64
1000 – 1099 57
1100 – 1199 23
1200 – 1299 13
1300 – 1399 7
1400 – 1499 4

a) Calcula la varianza
b) Calcula la desviación estándar

En esta actividad se te sugiere que utilices la segunda fórmula para calcular la


varianza.

EJERCICIOS

1. El número de cheques cobrados diariamente en 5 sucursales de un banco


durante el mes anterior tuvo la distribución de frecuencias siguiente:

Clase
No. de cheques Frecuencia

0 – 199 10
200 – 399 13
400 – 599 17
600 – 799 42
800 – 999 18

El director de operaciones del banco, sabe que una desviación estándar en el


cobro de los cheques de más de 200 cheques diarios crea problemas de
organización y dotación de personal en las sucursales, debido a una carga de
trabajo no uniforme. ¿Debe preocuparse en este momento?
2. Los tiempos de servicio en una muestra de taladros disponibles para su
renta en una empresa de herramientas se organizaron en la tabla como sigue:

Antigüedad f
2–4 2
5–7 5
8 – 10 10
11 – 13 4
14 – 16 2

a) Determina la variancia muestral. b) Calcula la desviación estándar

DISPERSIÓN RELATIVA: El coeficiente de variación.

Una comparación directa de dos o más medidas de dispersión (por ejemplo, la


desviación estándar para una distribución de ingresos mensuales y la
desviación estándar de una distribución de inasistencias para este mismo
grupo de empleados) es imposible. A fin de realizar una comparación
significativa de la distribución de ingresos y faltas, necesitamos convertir cada
una de estas a una expresión relativa, es decir, a un porcentaje. Karl Pearson,
quien contribuyó de manera importante a la ciencia estadística, desarrolló una
medida relativa denominada coeficiente de variación (CV), y se define como

s
CV= (100) .
x

El coeficiente de variación es una medida muy útil cuando:


1. Los datos están en unidades diferentes.
2. Los datos están en las mismas unidades, pero las medias muy distantes
(como sucede con los ingresos de profesores de carrera con PRIDE y
profesores de asignatura).

Ejemplo 20. En cinco exámenes, un estudiante promedió 63.2 con una


desviación estándar de 3.3, mientras que otro estudiante obtuvo un promedio
de 78.8 con una desviación estándar de 5.3. ¿Qué estudiante es relativamente
más consistente?
Solución. Los dos coeficientes de variación son, respectivamente,

3.3 5.3
(100) = 5.22% y (100) = 6.72%
63.2 78.8

Por lo tanto, el primer estudiante es relativamente más consistente en sus


exámenes.

Ejemplo 21. Un estudio de las calificaciones obtenidas en un curso sobre


principios de administración y los años de servicio de los empleados inscritos
en el curso, dio como resultado estas estadísticas: la calificación media fue de
85; la desviación estándar de 15. La media del número de años de servicio fue
20 años, la desviación estándar, de 2 años. Compárese la dispersión relativa
de las dos distribuciones empleando el coeficiente de variación.

Solución: Las distribuciones están en distintas unidades (calificaciones y años


de servicio). A continuación se convierten a coeficiente de variación.

Para las calificaciones:


s 15
CV = (100) = (100) = 17.65 %
x 85

La desviación estándar es 17.65 % de la media.

Para los años de servicio:


s 2
CV= (100) = (100) = 10 %
x 20

La desviación estándar es 10 % de la media.

Al interpretar se puede ver que existe mayor dispersión relativa con respecto a
la media en la distribución de las calificaciones que en la distribución de años
de servicio.

Actividad 13. Se va a comparar la variación en los ingresos anuales de


profesores de carrera con PRIDE con la variación en los ingresos de los
profesores de asignatura. Para una muestra de profesores de carrera con
PRIDE, x = $500,000 y s = $50,000. Para una muestra de profesores de
asignatura, x = $12,000 y s = $1,200. Uno se ve tentado a suponer que hay
mayor dispersión en los ingresos anuales de los profesores de carrera ya que
$50,000 > $1,200. Sin embargo, las medias están tan distantes que se
necesitan convertir los estadísticos a coeficientes para efectuar una
comparación significativa de la variación en los ingresos anuales. Compara la
dispersión relativa de las dos distribuciones empleando el coeficiente de
variación.

Solución. Para los profesores de carrera con PRIDE:


CV =
Para los profesores de asignatura:
CV =
Luego,

Escribe tu conclusión:

EJERCICIOS

1. Los pesos del equipo “X” tienen una media de 112 kgs, con una desviación
estándar de 9 kgs, mientras que el peso medio y la desviación estándar de
su oponente, el equipo “Y”, son 97.5 y 6 respectivamente. ¿Cuál de los dos
equipos muestra la mayor dispersión relativa en el peso de los miembros
del equipo?
1. El intervalo x ± s contendrá aproximadamente 68% de las observaciones.
2. El intervalo x ± 2s contendrá aproximadamente 95% de las observaciones.
3. El intervalo x ± 3s contendrá casi la totalidad de las observaciones (99.7%).

Estas relaciones se presentan en forma gráfica en las siguientes figuras.

68% 95%

99.7%

En forma condensada

68%
95%
99.7%

2. Electrónica moderna es una compañía que está considerando la


conveniencia de implantar 2 programas de capacitación. A dos grupos se
les impartió capacitación para realizar la misma tarea. El grupo 1 fue
adiestrado con el programa A; el grupo 2, con el programa B. En el primer
grupo, se requirieron en promedio 32.11 horas para capacitar a cada
empleado, con una variancia de 68.09. En el segundo grupo, se necesitó un
promedio de 19.75 horas para capacitar a cada empleado, con una
variancia de 71.14. ¿Cuál programa mostró la menor variabilidad relativa en
sus resultados?

3. El analista de investigación para la empresa de corretaje “Z” desea comparar


la dispersión de las razones precio−rendimiento para un grupo de acciones
comunes con la distribución de su pago sobre la inversión. Para las razones
precio−rendimiento la media es 10.9 y la desviación estándar 1.8. El
rendimiento medio sobre inversión es 25 % y la desviación estándar, 5.2 %.
Compare la dispersión relativa para las razones precio−rendimiento y el
rendimiento sobre inversión.

4. Supongamos que un veterinario ha obtenido los siguientes datos referentes


a los pesos de elefantes y monos:

Elefantes: x = 12, 000 kgs. y s = 650 kgs.


Monos: x = 2.5 kgs. y s = 0. 6 kgs.

Determina cual de los pesos tiene mayor variabilidad.

6. LA REGLA EMPÍRICA.

Hemos visto que una desviación estándar pequeña para un conjunto de datos
indica que éstos se encuentran localizados cerca de la media. Por el contrario,
una desviación estándar grande revela que las observaciones están más
dispersas con respecto a la media. También sabemos que nos ayuda a
comparar la variabilidad de un conjunto de datos con otro. Esta “medida”
particular puede comprenderse mejor al examinar el teorema de Chebyshev y
la regla empírica. En este tema solamente estudiaremos la regla empírica, que
como veremos, para una curva de distribución simétrica en forma de campana,
podemos ser más precisos al explicar la dispersión con respecto a la media.

Para una distribución de frecuencias que tiene aproximadamente la forma de


campana:

68%
95%
99.7%

Ejemplo 22. Una muestra de las cantidades de dinero semanales destinadas a


alimentos por familias de cuatro personas que reciben vales alimentarios, sigue
aproximadamente una distribución de frecuencias simétrica de campana. La
media muestral es $1500; la desviación estándar es $200: Utilizando la regla
empírica determine:

1. Aproximadamente, ¿entre cuáles dos cantidades está el 68 % de los gastos


mensuales en alimentos?
2. Aproximadamente, ¿entre cuáles dos cantidades está el 95 % de los gastos
mensuales en alimentos?
3. Aproximadamente, ¿entre cuáles dos cantidades están todos los gastos
mensuales?

Solución.
1. Aproximadamente el 68 % de las cantidades están entre $1 300 y $ 1 700,
cuyos valores se obtuvieron de x ± s = 1 500 ± 200.
2. Aproximadamente el 95% están entre $1 100 y $ 1 900, cuyos valores se
obtuvieron de x ± 2s = 1 500 ± 2(200).
3. Aproximadamente todos los casos (99.7%) están entre $900 y $2 100, que
se obtuvieron mediante x ± 3s = 1 500 ± 3 (200).

Actividad 14. A 60 estudiantes universitarios de nuevo ingreso se les solicitó


que indicaran cuántos hermanos hay en su familia (incluyéndose ellos
mismos). Los datos recolectados son los siguientes

1 6 3 5 5 3 4 1 2 7
3 2 3 4 5 3 1 3 2 1
4 4 2 2 3 9 4 3 3 5
3 5 7 3 1 1 3 5 2 6
4 3 3 3 3 3 2 3 4 3
5 7 3 2 1 2 3 2 4 3

a) Elabora una distribución no agrupada de estos datos.


b) Calcula la media y la desviación estándar de los datos dados.
c) Encuentra los valores de x − s y x + s .
d) ¿Cuántos de los 60 datos tienen valores entre x − s y x + s ? ¿Qué
porcentaje de la muestra es esto?
e) Encuentra los valores de x − 2s y x + 2s .
f) ¿Cuántos de los 60 datos tienen valores entre x − 2s y x + 2s ? ¿Qué
porcentaje de la muestra representa?
g) Encuentra los valores de x − 3s y x + 3s .
h) ¿Qué porcentaje de la muestra tiene valores entre x − 3s y x + 3s ?
i) Compara las respuestas encontradas en los incisos d, f y h con los
resultados predichos por la regla empírica. ¿Los resultados sugieren una
distribución aproximadamente normal?

Solución.
a) Completa la siguiente distribución:

No.
hermanos
1 2 3 4 5 6 7
Frecuencia

b) x = , s =
c) x - s = , x +s=
d) %
e) x - 2s = , x + 2s =
f) %
g) x - 3s = , x + 3s =

EJERCICIOS

1. En un conjunto de 60 observaciones con una media de 66.8, una variancia


de 12.6, una distribución simétrica y forma de campana determine:

a) ¿Aproximadamente cuántas observaciones se encontrarán necesariamente


en el intervalo 59.7 a 73.9?

2. La distribución de los pesos de una muestra de 1 400 contenedores para


carga marítima sigue aproximadamente una distribución normal. Con base
en la regla empírica, ¿ qué porcentaje de los pesos se encontrarán :
a) entre x - 2s y x + 2s? b) entre x y x + 2s?

3. Un grupo de sicólogos creen que sería de utilidad para los maestros contar
con cierta prueba que permita medir la coordinación vasomotora, puesto que
está podría dar información interesante sobre los niños que ingresan a la
primaria. La interpretación de los resultados de esta prueba no se ha realizado
en el caso de niños mexicanos, por lo que los sicólogos decidieron que en una
primera etapa de su investigación buscarán ver cómo responden a la prueba
los niños de 6 años de las zonas rurales del centro del país. Con este fin,
escogen una muestra representativa de 200 niños de la edad y la región
mencionadas, a los que les aplican la prueba. Una de las variables de interés
es el tiempo de resolución empleado para cada niño.

A continuación te presentamos la lista de los tiempos (medidos en minutos),


que emplearon 200 niños.

35 36 44 49 49 35 49 54 47 49
45 40 41 52 41 47 32 32 34 37
43 38 41 39 42 33 57 52 46 30
36 39 51 33 41 31 40 40 38 51
53 35 38 45 43 36 43 32 43 34
40 38 41 45 53 40 39 50 38 43
47 41 47 52 34 47 51 40 32 44
40 38 43 33 32 41 62 46 44 47
27 34 42 37 31 52 37 44 44 45
38 31 41 40 38 49 44 44 37 44
33 30 37 46 36 46 32 51 39 41
41 36 43 48 53 42 30 38 46 38
49 35 37 45 57 43 45 53 48 52
39 44 35 34 37 30 37 37 51 42
46 41 51 53 35 41 41 28 53 40
51 40 45 44 47 44 48 47 37 53
52 38 35 43 44 32 51 48 52 36
37 50 43 42 42 29 31 39 50 34
44 50 43 41 42 45 49 44 35 22
39 33 46 55 41 34 46 47 43 40
Con los datos anteriores contesta las siguientes preguntas.
1. Construye una tabla de frecuencias con 9 intervalos de clase.
2. Construye un histograma.
3. Construye un polígono de frecuencias.
4. Calcula la media.
5. Calcula la desviación estándar.
Determina el porcentaje de datos que caen en los intervalos x ± s, x ± 2s y
x + 3s , usando la regla empírica.
UNIDAD II. DATOS BIVARIADOS Tiempo: 10
horas

PROPÓSITO: El alumno conocerá la manera en que se establece una


relación entre dos variables, a partir de tablas y diagramas para determinar la
naturaleza de esa relación.

APRENDIZAJES
El alumno:

• Establece intuitivamente el sentido de la relación entre dos variables.


• Construye tablas de contingencia para representar la relación entre dos
variables cualitativas.
• Interpreta la información que contienen las tablas de contingencia.
• Construye diagramas de dispersión para representar la relación entre dos
variables cuantitativas.
• Conoce e interpreta los conceptos de regresión y correlación lineal simple.
• Calcula e interpreta los valores estimados de la pendiente y la ordenada al
origen de la recta de mínimos cuadrados.
• Grafica la recta de regresión.
• Calcula e interpreta el coeficiente de correlación lineal simple.
• Utiliza la recta de ajuste para predecir valores de alguna de las variables.

TEMÁTICA
1. Relación entre dos variables.
2. Relación entre dos variables cualitativas.
3. Regresión lineal y correlación.
1. Relación entre dos variables.

Objetivo de la sección:

• Establece intuitivamente el sentido de la relación entre dos variables.


• Construye tablas de contingencia para representar la relación entre dos
variables cualitativas.
• Interpreta la información que contienen las tablas de contingencia.
• Construye diagramas de dispersión para representar la relación entre dos
variables cuantitativas.

INTRODUCCIÓN.

Hasta aquí hemos tratado sólo con datos de una variable obtenidos de una
sola medición. Ahora consideraremos datos de dos variables que resultan de
hacer dos clases diferentes de mediciones. Por ejemplo, para medir la estatura
de cada persona en una población, la obtenemos de datos de una variable; un
conjunto de números, cada uno de los cuales representa la estatura de una
persona. Pero para medir la estatura y el peso de cada persona, obtenemos
datos de dos variables; un conjunto de parejas de números que al mismo
tiempo representan la estatura y el peso de cada persona.

Datos de dos variables

Definición. Un conjunto de datos de dos variables consiste en parejas de


números obtenidos por la medición de dos características diferentes del mismo
elemento de la población.

Cada una de las dos variables puede ser de naturaleza cualitativa o


cuantitativa. Como resultado, los datos bivariados pueden formarse mediante
tres combinaciones de variables:

1. Ambas variables son cualitativas.


2. Una variable es cualitativa y la otra es cuantitativa.
3. Ambas variables son cuantitativas.

En esta sección se estudiarán métodos tabulares y gráficos para representar


cuando ambas variables son cualitativas o cuantitativas.

2. Relación entre dos variables cualitativas.

Cuando los datos bivariados resultan de dos variables cualitativas, a menudo


los datos se disponen en una tabla cruzada o de contingencia.
Actividad 1. Los siguientes datos representan el género ( M / F ) y el gusto por
ir al campo ( S / N ) que tienen los alumnos de este grupo de Estadística.
Cada dato represéntalo por medio de una pareja ordenada, por ejemplo: Elena
le gusta ir al campo se representa por ( F , S ).

Completa la siguiente tabla de contingencia:


Gusto

Ir al campo Totales por renglón


Si No
Masculino
Género
Femenino

Totales por
columna

En la tabla de contingencia (o cruzada) resultante de 2 x 2, se presenta la


frecuencia para cada categoría cruzada de las dos variables junto con los
totales por renglón y por columna, denominados totales marginales (o
marginales). El total de los totales marginales es el gran total y es igual a n , el
tamaño de la muestra.

Porcentajes basados en el gran total (toda la muestra)

Las tablas de contingencia a menudo presentan porcentajes (frecuencias


relativas). Estos porcentajes pueden estar basados en toda la muestra o en las
clasificaciones de la submuestra (renglones o columnas). La tabla de
contingencia anterior puede convertirse en porcentajes del gran total, al dividir
cada frecuencia entre el gran total y multiplicar por 100 el resultado. Por
ejemplo, supongamos que hay 20 alumnos que les gusta ir al campo de un
⎡⎛ 20 ⎞ ⎤
total de 50 estudiantes, se convierte en 40% ⎢⎜ ⎟ x100 = 40 ⎥ .
⎣⎝ 50 ⎠ ⎦

Ahora completa la tabla de contingencia siguiente.


Gusto

Ir al campo Totales por renglón


Si No
Masculino % % %
Género
Femenino % % %

Totales por
Columna % % 100 %

Con la tabla de contingencia expresada en porcentajes construye una gráfica


de barras.
Porcentajes basados en el gran total

40%

30%

20%

10%

M F M F
Si No

Relación entre dos variables cuantitativas.

Cuando los datos bivariados son resultado de dos variables cuantitativas, los
datos suelen expresarse como parejas ordenadas ( x, y ) donde x es la
variable de entrada (variable independiente) y y es la variable de salida
(variable dependiente).

En los problemas en que intervienen dos variables cuantitativas, los datos de la


muestra se presentan gráficamente en un diagrama de dispersión.

Definición. Un diagrama de dispersión es la gráfica de todas las parejas


ordenadas de datos de dos variables que están en un sistema de ejes
coordenados. La variable de entrada, x, se grafica en el eje horizontal y la
variable de salida, y, se grafica en el eje vertical.

Actividad 2. Los datos siguientes representan la estatura y el peso que tienen


los alumnos de este grupo de Estadística.

Elabora un diagrama de dispersión con los atributos estatura y peso.


Peso
70

65

60

55

50

45

145 150 155 160 165 170 175 Estatura

EJERCICIOS

1. Vita Health Food Store realizó una investigación de mercado, cuyos


resultados se presentan en la tabla siguiente.
a. Elabora una tabla cruzada de las variables “género del cliente” y
“compró” (sí/no). Expresa los resultados en frecuencias, mostrando los
totales marginales.
b. Expresa la tabla de contingencia del inciso a como porcentajes basados
en el gran total.
c. Elabora una gráfica de barras que muestre los resultados del b.

Persona Compró Género Edad Persona Compró Género Edad


1 No M 43 26 Si M 47
2 Si M 58 27 No M 64
3 No F 34 28 No M 21
4 No M 66 29 No F 42
5 Si M 46 30 No M 19
6 Si F 52 31 No F 69
7 No F 18 32 Si M 59
8 No F 50 33 No M 54
9 Si F 39 34 Si F 48
10 No M 46 35 Si F 49
11 Si M 62 36 Si F 42
12 No M 40 37 No F 49
13 Si F 61 38 Si M 68
14 Si M 56 39 No F 35
15 No F 44 40 Si F 32
16 Si F 60 41 No F 37
17 Si F 48 42 No M 59
18 No M 50 43 No F 47
19 No F 19 44 Si M 70
20 Si F 59 45 No M 30
21 No F 32 46 Si F 43
22 Si M 46 47 No F 29
23 No F 53 48 Si M 57
24 No M 40 49 No F 45
25 Si F 50 50 Si F 64
Con los resultados de la encuesta realizada por Vita.

d. Elabora una tabla cruzada de las variables “edad del cliente” (usa las
categorías, menos de 35, 35 – 50, más de 50) y “compró (sí/no).
e. Expresa la tabla de contingencia del inciso d como porcentajes basados
en el gran total.
f. Elabora una gráfica de barras que muestre los resultados del inciso e.

2. ¿Es posible predecir la estatura de una mujer usando la estatura de su


madre? A continuación se enumeran las estaturas de algunas parejas
madre-hija; x es la estatura de la madre y y es la estatura de la hija.

x 163 163 167 165 161 163 161 164 162 163 164

y 163 165 165 165 164 164 163 162 163 164 164

x 163 164 164 164 163 167 161 165 164 165 166

y 164 165 165 165 162 166 162 163 166 166 165

a. Usa la misma escala para trazar dos gráficas de puntos que muestren
los dos conjuntos de datos, uno al lado del otro.
b. ¿Qué puede concluir al observar los dos conjuntos de estaturas
mostrados como conjuntos ajenos de esta manera? Explica tu
respuesta.
c. Elabora un diagrama de dispersión para los dos conjuntos de estaturas
y escríbelos como parejas ordenadas.
d. ¿Qué puede concluir al observar los datos como parejas ordenadas?
Explica tu respuesta.

3. Regresión lineal y correlación.

Objetivo de la sección:
• Conoce e interpreta los conceptos de regresión y correlación lineal simple.
• Calcula e interpreta los valores estimados de la pendiente y la ordenada al
origen de la recta de mínimos cuadrados.
• Grafica la recta de regresión.
• Calcula e interpreta el coeficiente de correlación lineal simple.
• Utiliza la recta de ajuste para predecir valores de alguna de las variables.

INTRODUCCIÓN.
La regresión y la correlación son las dos herramientas estadísticas más
poderosas y versátiles que se pueden utilizar en la mayoría de las ciencias
aplicadas, gran parte de la investigación trata de descubrir relaciones entre
variables o conjuntos de variables. Por ejemplo, los fisiólogos pueden
investigar la relación entre el tiempo que le toma a una persona reaccionar y el
nivel de alcohol en la sangre. El economista o el hombre de negocios puede
buscar aquellos factores más estrechamente relacionados con las altas y bajas
del mercado o de la economía. Tal información permite al investigador que
haga conjeturas sobre relaciones de causa a efecto que pueden existir entre
las variables.

Con objeto de alcanzar conclusiones objetivas en tales investigaciones, el que


las hace recolecta datos relevantes y trata de analizarlos en alguna forma. El
método más común es el llamado análisis de regresión y correlación.

El análisis de regresión trata acerca del problema de establecer modelos


matemáticos razonables para las relaciones entre las variables bajo estudio. El
análisis de correlación trata de medir la fuerza de dicha relación. Sin
embargo, en muchos casos las dos técnicas se usan juntas para extractar toda
la información útil que sea posible de los datos recolectados.

En esta unidad, restringiremos nuestro estudio de regresión y correlación al


caso especial de la investigación de la presencia de una relación lineal, entre
dos variables.

EL MODELO DE REGRESIÓN LINEAL SIMPLE

El primer paso en un análisis de regresión es elaborar el diagrama de


dispersión de los datos, ya que éste puede ayudar en la búsqueda de un
modelo que describa la relación entre la variable independiente ( x ) y la
dependiente ( y ). Concretamente la pregunta es: ¿cuál es la ecuación
matemática apropiada para describir la relación entre x y y ? ¿Deberemos
usar una función lineal? ¿Una función cuadrática? ¿Una función exponencial?
¿Una logarítmica? Una vez decidida esta cuestión permanece el problema de
encontrar las constantes que identifican a la ecuación en un caso específico, y
posteriormente el de interpretar la ecuación resultante.

Actividad 3. Una compañía desea entender la relación entre la cantidad


gastada en publicidad, x , y las ventas totales, y . Los datos que recaban se
muestran en la tabla 1.

x (publicidad en miles) 3 4 5 6

y (ventas en miles) 100 120 140 160

Tabla 1. Publicidad y ventas: relación lineal

Coloca los puntos (3, 100), (4, 120), (5, 140) y (6, 160) en un mismo plano
cartesiano como el que se te muestra a continuación.

200
150

100

50

0 1 2 3 4 5 6 7 x

Observa que los datos muestran una tendencia fuertemente lineal: entre más
grande es la cantidad gastada en publicidad, mayor son las ventas. Se puede
representar en forma matemática tal tendencia lineal por:

y = A + Bx

donde A es el valor de y cuando x toma el valor cero y recibe el nombre de


ordenada al origen, mientras que B es la pendiente de la recta, o sea el
número de unidades que aumenta (o disminuye) y por cada unidad que
aumenta x .

Determina los valores de A y B para encontrar la ecuación de la recta que


pasa por los puntos de la tabla 1.

Ahora supongamos que los datos recabados por la compañía se muestran en


la tabla 2. Si graficas los puntos te darás cuenta que esta vez los datos no
están en una recta.

x (publicidad en miles) 3 4 5 6

y (ventas en miles) 105 117 141 152

Tabla 2. Publicidad y ventas: relación no lineal

En general, es difícil hallar una fórmula para ajustar los datos exactamente.
Debemos estar satisfechos con una fórmula que sea una buena aproximación
a los datos. Si graficas la recta y = 40 + 20 x en donde graficaste los puntos de
datos de la tabla 2, te darás cuenta que no todos caen sobre la recta pero es
una buena aproximación.

Determina ahora otra ecuación que también se aproxime a los puntos de datos.

La recta de regresión

¿Hay una recta que se ajuste mejor a los datos de la tabla 2 que la recta
y = 40 + 20 x ? Si es así, ¿cómo la encontramos? El proceso de ajustar una recta
a un conjunto de datos recibe el nombre de regresión lineal y la recta de
mejor ajuste se denomina recta de regresión. Numerosas calculadoras (con el
programa LR) y programas de computadora (por ejemplo SPSS) calculan la
recta de regresión a partir de puntos de datos. Alternativamente, la recta de
regresión se puede estimar al trazar los puntos sobre papel cuadriculado y
ajustar una recta “a simple vista”. Por ejemplo, grafica la recta de regresión
y = 54.5 + 16.5 x para los puntos de datos de la tabla 2.

Uso de la recta de regresión para hacer pronósticos

Ahora que tenemos una fórmula para las ventas, podemos usarla para hacer
pronósticos. Por ejemplo para pronosticar ventas totales si se gastan $3,500 en
publicidad, sustituimos x = 3.5 en la recta de regresión:

y = 54.5 + 16.5(3.5) = 112.25

La recta de regresión pronostica ventas de $112, 250, por supuesto si


gastamos $3,500 en publicidad, es probable que las ventas no sean
exactamente $112, 250. La ecuación de regresión nos permite hacer
pronósticos, pero no da resultados exactos.

Ejercicio 1. Haz un pronóstico de las ventas totales si los gastos de publicidad


son de $4,500 y $9,800.

Considera los dos pronósticos hechos en el ejercicio con x = 4.5 y x = 9.8.


Tenemos más confianza en la precisión de la predicción cuando x = 4.5
porque estamos interpolando dentro de un intervalo del que ya conocemos
algo. El pronóstico para x = 9.8 es menos confiable porque estamos
extrapolando fuera del intervalo definido por los valores de la tabla 2. En
general la interpolación es más segura que la extrapolación.

Interpretación de la pendiente de la recta de regresión

Recuerda que la pendiente de una función lineal es el cambio en la variable


dependiente dividido entre el cambio de la variable independiente. Para la recta
de regresión de ventas y publicidad, la pendiente es 16.5. Esto nos dice que y
aumenta alrededor de 16.5 siempre que x aumenta 1. Si los gastos de
publicidad se elevan $1,000, las ventas crecen unos $16,500. En general, la
pendiente nos dice el cambio esperado en la variable dependiente para un
cambio unitario en la variable independiente.

Ejercicio 2. Una compañía ha recabado los datos que se muestran en la tabla


3 sobre el costo de producir su producto. Usando tu calculadora determina la
recta de regresión, haz su gráfica e interpreta la pendiente de la recta.

x (cantidad en unidades) 25 50 75 100 125


y (costo en dólares) 500 625 689 742 893

Tabla 3. Costo de producir diversas cantidades de un producto

Cómo trabaja la regresión: qué significa “ajusta mejor”

Con frecuencia, la forma más fácil de ajustar una recta a un conjunto de datos
es trazar una gráfica de los puntos de datos y luego ajustar la recta “a simple
vista”, pero es más preciso hacer que una calculadora o un software de
estadística den la recta de mejor ajuste. ¿Cómo determina una calculadora o el
software cuál recta es mejor?

En la figura 1 se ilustra la forma en que una calculadora o el software hacen


esto. Nota que estamos suponiendo que el valor de y está en alguna forma
relacionado al valor de x , aun cuando otros factores podrían influir también en
y . Entonces suponemos que podemos escoger el valor de x en forma exacta
pero que ese valor de y puede ser sólo parcialmente determinado por este
valor de x .

La recta de mínimos cuadrados


reduce al mínimo la suma de los
cuadrados de todas estas distancias.

Figura 1. Conjunto dado de datos y la correspondiente


recta de regresión de mínimos cuadrados

Con la calculadora o el software se encuentran los valores de A y B para


determinar la ecuación de la recta que reduce al mínimo la suma de los
cuadrados de las distancias verticales entre los puntos de datos y la recta; esta
recta se muestra en la figura 1 y recibe el nombre de recta de mínimos
cuadrados. La recta de mínimos cuadrados se conoce a veces como recta de
mejor ajuste.

EJERCICIOS

1. Jaime usó la regresión lineal para poder comprender su recibo telefónico


mensual. La recta de mejor ajuste es y = 23.65 + 1.28 x ; x es el número de
llamadas de larga distancia efectuadas durante un mes y y es el costo total
telefónico de un mes. En términos del número de llamadas de larga
distancia y del costo:
a) Explica el significado de la ordenada al origen, 23.65.
b) Explica el significado de la pendiente, 1.28.

2. La gente no es sólo más longeva en la actualidad, sino que también lo es


de manera independiente. En el número de mayo/junio de 1989, de Public
Health Reports, apareció el artículo “A Multistate Análisis of Active Life
Expectancy”. Dos de las variables estudiadas, fueron la edad actual de una
persona y el número esperado de años restantes por vivir.

Edad x 65 67 69 71 73 75 77 79 81 83

Años
Restantes y 16.5 15.1 13.7 12.4 11.2 10.1 9.0 8.4 7.1 6.4

A. Elabora un diagrama de dispersión.


B. Determina la ecuación de la recta de regresión.
C. Traza la recta del mejor ajuste en el diagrama de dispersión.
D. ¿Cuántos son los años restantes por vivir esperados para una persona
de 70 años?

3. La acidez de una solución se mide por su pH , donde los valores más bajos
del pH indican más acidez. Se emprendió un estudio de lluvia ácida en
Colorado entre 1975 y 1978, en el que la acidez de la lluvia se midió
durante 150 semanas consecutivas. Los datos siguieron un patrón
generalmente lineal y se determinó que la recta de regresión era

P = 5.43 − 0.0053t

donde P es el pH de la lluvia y t es el número de semanas del estudio.

a. ¿Es creciente o decreciente el nivel del pH durante el período de


estudio? ¿Qué nos indica esto acerca del nivel de acidez de la lluvia?
b. De acuerdo con la recta, ¿cuál fue el pH al principio del estudio? ¿y al
final del estudio?

EL MÉTODO DE MÍNIMOS CUADRADOS

INTRODUCCIÓN.
El propósito del análisis de regresión es determinar una recta que se ajuste a
los datos muestrales mejor que cualquier otra recta que pueda dibujarse, la
recta del mejor ajuste se encuentra aplicando el método de mínimos
cuadrados. Suponga que
ŷ = A + Bx

es la ecuación de una recta, donde ŷ (que se lee “y gorro”) representa el valor


estimado de y que corresponde a un valor particular de x . El criterio de
mínimos cuadrados requiere encontrar las constantes A y B tales que la suma
∑ ( y − yˆ )2 sea lo más pequeña posible.
En la figura 2 se muestra la distancia de un valor observado de y a un valor
estimado de ŷ . La longitud de esta distancia representa el valor ( y − $ y) ,
mostrado como el segmento de recta (línea gruesa) de la figura 2. Observa que
(y − $
y) es positivo cuando el punto ( x, y ) está por arriba de la recta y es
negativo cuando ( x, y ) está por debajo de la recta.

( x, $
y) ŷ = A + Bx

y−$
y

$
y ( x, y )
y

Figura 2. Valores observados y estimados de y.

Ejemplo 1. Considera los datos siguientes.

x 3 2 4 1

y 2 3 2 5

2
Calculemos la suma de cuadrados de los errores ∑( y − yˆ ) para alguna recta,
digamos $ y = −2 + 2 x dibujada en el diagrama de dispersión e ilustrada en la
figura 3.
Figura 3. Diagrama de dispersión que muestra la recta $
y = −2 + 2 x .

La tabla siguiente se usará para organizar los cálculos:

x y $
y y−$
y (y − $
y)2

3 2 4 -2 4
2 3 2 1 1
4 2 6 -4 16
1 5 0 5 25

Nota que la suma de los errores es:

∑ ( y − yˆ ) = -2 + 1 – 4 + 5 = 0
Y la suma de los cuadrados de los errores:

2
SCE = ∑( y − yˆ ) = 4 + 1 + 16 + 25 = 46
Por lo tanto, para la recta representada por $
y = −2 + 2 x , SCE = 46.

Si ninguna otra recta que se dibuje en el diagrama de dispersión del ejemplo


produce un valor de SCE menor que 46, entonces la recta representada por la
ecuación $ y = −2 + 2 x es la recta de regresión o la recta de mejor ajuste. Desde
luego, el método de ensayo y error no es productivo para seleccionar la mejor
recta según el criterio de los mínimos cuadrados; por suerte, la determinación
de A y B en la ecuación ŷ = A + Bx que minimice SCE puede realizarse
usando álgebra o derivadas parciales (que se estudian en cálculo de varias
variables), y los detalles pueden suprimirse.
La ecuación de la recta del mejor ajuste es determinada por su pendiente ( B ) y
su ordenada al origen ( A ). Los valores de las constantes, pendiente y
ordenada al origen, que satisfacen el criterio de mínimos cuadrados se
encuentran aplicando las fórmulas siguientes:

∑ ( x − x )( y − y )
Pendiente: B = 2
∑ (x − x )
Ordenada al origen = A =
∑ y − ( B∑ x )
n
Para determinar la pendiente B se usará la siguiente notación y sus
equivalencias:
x y
SC( xy ) = ∑ ( x − x ) ( y − y ) = ∑ xy − ∑ ∑
n
2

y SC( x ) = 2 2 (∑ x)
∑(x − x ) = ∑ x −
n
Luego,
SC ( xy )
Pendiente: B =
SC ( x)

Actividad 4. Determina la pendiente y la ordenada al origen de la recta del


mejor ajuste de los siguientes datos:
Estudiante

1 2 3 4 5 6 7 8 9 10

Lagartijas ( x ) 27 22 15 35 30 52 35 55 40 40

Sentadillas ( y ) 30 26 25 42 38 40 32 54 50 43

En la figura 4, se muestra (que debes completar) un diagrama de dispersión de


estos datos.
y

50

40

30

20

10

0 10 20 30 40 50 60 x

Figura 4. Diagrama de dispersión de “lagartijas” y “sentadillas”.


Los cálculos para determinar la pendiente y la ordenada al origen se muestran
en la siguiente tabla (que debes completar).

Estudiante Lagartijas ( x ) x2 Sentadillas ( y ) y2 xy

1 27 729 30 900 810


2 22 484 26 676 572
3 15 25
4 35 42
5 30 38
6 52 40
7 35 32
8 55 54
9 40 50
10 40 43
2 2
∑x = ∑x = ∑y = ∑y = ∑ xy =
Ahora calcula:

SC ( x ) = 2 (∑ x) =
∑x −
n

x y
SC ( xy ) = ∑ xy − ∑ n∑ =
SC ( xy )
B= =
SC ( x)

A=
∑ y − ( B∑ x ) =
n

Si hiciste correctamente los cálculos, habrás obtenido la ecuación de la recta


de mejor ajuste siguiente:
ŷ = 14.9 + 0.66x

Ahora utiliza tu calculadora y verifica que aproximadamente A = 14.9 y


B = 0.66, y traza esta recta para poder visualizar la relación entre la recta y los
datos.

OBSERVACIONES

1. La pendiente representa el cambio estimado en y por incremento unitario


en x . En este ejemplo B = 0.66, entonces, por cada 10 “lagartijas”
adicionales ( x ) , que realice un estudiante la predicción será que el
estudiante haría aproximadamente siete sentadillas más ( y ) .
2. La ordenada al origen es el valor de y donde la recta del mejor ajuste corta
al eje vertical y . Al interpretar A primero debemos considerar si x = 0 es
un valor realista para x antes de concluir con la predicción de que $
y = A si
x = 0 . Predecir que si un estudiante no hizo lagartijas y que aún así
realizará 15 sentadillas ( A = 14.9 ) probablemente es incorrecto. Segundo el
valor x = 0 está fuera del dominio de los datos sobre los que se basa la
recta de regresión. Al predecir y con base en un valor x , es necesario
asegurarse de que el valor x está en el dominio de los valores x
observados.

3. La recta del mejor ajuste siempre pasa por el punto ( x, y ) . Al trazar esta
recta en el diagrama de dispersión, usa este punto como comprobación.
Para la actividad 4, x = 35.1, y =38; en consecuencia, ( x, y ) = (35.1, 38).

EJERCICIOS

1. Elabora un diagrama de dispersión para los datos siguientes:

x 2 12 4 6 9 4 11 3 10 11 3 1

y 4 8 10 9 10 8 8 5 10 9 8 3

x 13 12 14 7 2 8

y 9 8 8 11 6 9

¿Estaría justificado aplicar las técnicas de regresión lineal a estos datos para
encontrar la recta de mejor ajuste? Explica tu respuesta.

2. Se lleva a cabo un control de costos de mantenimiento para cada una de las


cajas registradoras de una cadena de tiendas departamentales. Con una
muestra de 14 cajas registradoras se obtuvieron los datos siguientes:

Antigüedad ( x ) 6 7 1 3 6 4 5 2 1 9 3 8 9 8
Años

Costo de mant. y 142 231 73 90 176 132 167 99 114 191 160 155 231 202

a. Elabora un diagrama de dispersión que muestre los datos.


b. Calcula la ecuación de la recta del mejor ajuste.
c. Una caja registradora tiene 8 años de antigüedad. ¿Qué costo de
mantenimiento predices que requerirá para este año?
CORRELACIÓN LINEAL
INTRODUCCIÓN
El objetivo primordial del análisis de correlación lineal es medir la intensidad de
una relación entre dos variables. Cuando estudiamos regresión lineal nuestro
objetivo era expresar, en una ecuación, una relación lineal implícita entre dos
variables x y y . Ahora nuestro propósito es determinar si existe o no una
relación lineal entre x y y . Y si existe tal relación, deseamos determinar qué
tan “fuerte” es ésta.

El coeficiente de correlación lineal r , es la medida numérica de la intensidad


de la relación lineal entre dos variables. El coeficiente refleja la consistencia del
efecto que el cambio en una variable tiene sobre la otra. El valor del coeficiente
de correlación lineal ayuda a responder a la pregunta ¿Existe una correlación
lineal entre las dos variables en consideración? El coeficiente de correlación
lineal, desarrollado por Karl Pearson a finales del siglo XIX, y algunas veces se
le llama el coeficiente de correlación producto – momento de Pearson.
Representado con una letra r , el coeficiente de correlación puede asumir
cualquier valor entre -1 y 1; es decir,
−1 ≤ r ≤ 1

Un valor de r = 1 significa una correlación positiva perfecta (observa la


gráfica de los datos de la tabla 1 de la página 58), y un valor de r = −1 indica
una correlación negativa perfecta. Si a medida que x crece hay un
incremento general en el valor de y , entonces el valor de r es positivo. Por
ejemplo, podría esperarse un valor positivo de r para la edad y la estatura de
los niños, ya que a medida que aumenta la edad de un niño, se vuelve más
alto. Por otro lado, considere la antigüedad x y el valor de reventa y de un auto.
A medida que “envejece” el auto, su valor de reventa disminuye. Debido a que
cuando x crece, y decrece, la relación resulta en un valor negativo de r. Las
siguientes gráficas muestran los diferentes valores que puede tomar r.

y y

0 r =1 x 0 r = −1 x

y y

0 r está cerca de 1 x 0 r está cerca de -1 x


y

0 r ≈0 x

FÓRMULA PRODUCTO MOMENTO DE PEARSON

El valor r está definido por la fórmula

r = ∑ ( x − x )( y − y )
(n − 1) sx s y

donde sx y s y son las desviaciones estándar de las variables x y y .


Para calcular r , se aplicará una fórmula alternativa donde se consideran las
tres sumas de cuadrados estudiadas en la clase anterior.

SC ( xy)
r =
SC ( x) SC ( y)

Recuerda que
2
(∑ x) x y
SC ( x ) = ∑x 2

n
, SC ( xy ) = ∑ xy − ∑ n∑ y SC ( y ) =
2
2 (∑ y )
∑y −
n

Ejemplo 2. Encuentra el coeficiente de correlación lineal para los datos de


“lagartijas” y “sentadillas” de la página 71.

Solución. Los cálculos preliminares ya han sido completados anteriormente,


habiendo obtenido

2 2

SC ( x ) = 2 (∑ x) = 13,717 -
(351) = 1,396.9
∑x −
n 10
2 2

SC ( y ) = 2 (∑ y )
= 15, 298 - = 858
( 380 )
∑y n

10
x y
SC ( xy ) = ∑ xy − ∑ ∑ = 14,257 -
(351)(380 ) = 919
n 10
Luego,
SC ( xy) 919
r = = = 0.8394 ≈ 0.84.
SC ( x) SC ( y) (1396.9)(858)

Ahora utiliza tu calculadora para comprobar que obtuviste el mismo valor.

El valor del coeficiente de correlación lineal calculado ayuda a responder la


pregunta ¿existe una correlación lineal entre las dos variables en
consideración? Cuando el valor calculado de r está próximo a cero, se
concluye que hay poca correlación lineal o que no hay correlación lineal. A
medida que el valor calculado de r cambia de 0 a 1 o -1, indica una correlación
lineal cada vez más fuerte entre las dos variables.

Actividad 5. En el artículo “Fast-Food Fat Counts Full of Surprise” publicado en


USA Today del 20 de octubre de 1994, se compara el contenido de calorías y
grasas de algunos de los alimentos conocidos como comida rápida.

Calorías ( x ) 270 420 210 450 130 310 290 450 446 640

Grasas ( y ) 9 20 10 22 6 25 7 20 20 38

x 233 552 360 838 199 360 345 552

y 11 55 6 20 12 36 28 22

Determina los valores de:


2

SC ( x ) = 2 (∑ x) =
∑x −
n
2

SC ( y ) = 2 (∑ y )
=
∑y −
n
x y
SC ( xy ) = ∑ xy − ∑ ∑ =
n
SC ( xy)
r = =
SC ( x) SC ( y)

Comprueba con tu calculadora el resultado que obtuviste.

EJERCICIOS

Calcula e interpreta el coeficiente de correlación para los datos dados en los


problemas siguientes.

1. Diez trabajadores de una compañía manufacturera obtuvieron las siguientes


calificaciones en sus exámenes de admisión y eficiencia.
Trabajador
Examen 1 2 3 4 5 6 7 8 9 10

Admisión ( x ) 36 51 55 48 62 40 63 35 45 56
Eficiencia ( y ) 72 99 95 81 83 57 82 78 75 92

2. Un matemático selecciona aleatoriamente diez números de cuatro dígitos


cada uno, los dos primeros sirvieron como valor de x , y los dos segundos
como valor de y, resultando la siguiente tabla

x 13 97 16 45 20 44 21 96 77 53

y 89 12 64 59 15 22 91 57 84 75

3. ¿Qué tan fuerte es la correlación entre los ingresos y los gastos en


alimentos por semana de cinco familias escogidas aleatoriamente?

Familia
Medición 1 2 3 4 5

Gasto ( x ) 47 53 57 34 72
Ingreso ( y ) 49 45 48 37 62

4. Se realizó un estudio biológico de un pez denominado nariz – negra. Se


registraron la longitud, y , en milímetros y la edad, x (aproximada al año
más cercano).

x 0 3 2 2 1 3 2 4 1 1

y 25 80 45 40 36 75 50 95 30 15

5. La siguiente ecuación proporciona una relación que hay entre A y r .

SC ( x)
r= A
SC ( y )

a) Comprueba esta ecuación para los datos siguientes:

x 4 3 2 3 0
y 11 8 6 7 4

b) Comprueba esta ecuación usando las fórmulas de la página 71.


UNIDAD III. PROBABILIDAD

PROPÓSITO. El alumno estudiará los fenómenos aleatorios, resolviendo


problemas utilizando los tres enfoques: subjetivo, frecuencial y clásico, para
comprender conceptos fundamentales que le permitan asociar a la
Probabilidad y a sus reglas directamente con la Inferencia Estadística.

1. Fenómenos deterministas y fenómenos aleatorios.


En la ciencia se llama fenómeno a cualquier cosa que observamos suceder.
De algunas cosas estamos seguros y hay cosas sobre las que no tenemos
seguridad. Podemos asegurar que mañana será martes si hoy es lunes, que si
metemos la mano al fuego se nos quemará, que si echamos un pedazo de
madera en el agua esta flotara. Pero no podemos asegurar que mañana habrá
un terremoto, o que llegaré puntual a mis clases, o qué caerá cuando lanzamos
una moneda, águila o sol.

Podemos distinguir dos clases de fenómenos: los fenómenos de los que


tenemos seguridad del resultado que tendrán y los fenómenos sobre cuyos
resultados tenemos duda o incertidumbre. Con los primero fenómenos, ni
siquiera nos hace falta hacer algún experimento para comprobar el resultado;
en el caso de los segundos, sólo provocando el fenómeno, o esperando que
éste ocurra, podemos saber el resultado. Cuando tenemos duda sobre cuál
será el resultado de un fenómeno, decimos que es un fenómeno de azar o
aleatorio. La palabra azar significa que no hay seguridad o certeza. Cuando
hay certeza sobre el resultado de un fenómeno, o sea que no hay azar,
decimos que el fenómeno es determinista, porque su resultado está
completamente determinado.

Nota. Cuando alguien realiza un fenómeno de azar, decimos que hace un


experimento de azar.

Ejemplo1. Supongamos que al lanzar un dado nos interesa observar si el dado


cae o se queda en el aire; entonces el fenómeno es determinista porque
estamos seguros de que el dado caerá; pero si lo que deseamos observar que
número cae: 1, 2, 3, 4, 5 o 6, entonces el fenómeno es aleatorio porque no
podemos saber cuál de los números será el resultado.

EJERCICIO
De la siguiente serie de experimentos clasifica si es aleatorio (escribiendo una
A) o determinístico (escribiendo una D).

1. El volumen de una esfera de radio 5 cm.


2. El tiempo de vida de un cerillo.
3. La fecha del descubrimiento de América.
4. La elección de un alumno del CCH Oriente.
5. El fruto que dará un manzano.
6. El volumen de agua que se desperdicia en la colonia “Agua Azul”.
7. El tiempo que se tarda un alumno en resolver un problema de probabilidad.
2. ENFOQUES DE LA PROBABILIDAD

Podemos acceder al concepto de probabilidad de estas tres formas básicas:


1. Por la observación de la frecuencia relativa de cada evento simple.
(Enfoque frecuencial)

2. Haciendo juicios subjetivos sobre la probabilidad de ocurrencia de cada


evento simple. (Enfoque subjetivo)

3. Suponiendo que cada evento simple de un espacio muestra, es igualmente


probable. (Enfoque clásico)

MODELO FRECUENCIAL DE PROBABILIDAD

De entre los enfoques que se pueden dar a esta teoría, empezaremos con el
enfoque “frecuencial”, el cual nos permite utilizar los conceptos estudiados en
la unidad 1. El enfoque frecuencial de la probabilidad es el más adecuado para
las aplicaciones; entre otras cosas, nos permite dar una interpretación directa
de lo que llamaremos: “la probabilidad de un evento”.

La determinación de la probabilidad de un evento utilizando el modelo


frecuencial, consiste en repetir varias veces el fenómeno aleatorio y calcular la
frecuencia de ocurrencia de tal evento.

Problema. ¿Cuál es la probabilidad de que al lanzar una moneda el resultado


sea águila?

Solución. Para contestar la pregunta es conveniente efectuar el experimento


que consiste en lanzar la moneda, digamos 10 veces, y observar si el resultado
es águila (A) o sol (S)

a) Completa la siguiente tabla:

No. de exp. 1 2 3 4 5 6 7 8 9 10

Resultado

b) Determina la frecuencia relativa de las águilas que resultan. (Recuerda que


la frecuencia relativa, se obtiene dividiendo el número de veces que ocurre
el resultado entre el número total de resultados)

c) Ahora lanza la moneda 200 veces, donde a cada 10 de ellos los


consideraremos como una serie. Habrá por lo tanto 20 series, donde a cada
una de ellas calcula su frecuencia relativa, tal como se hizo en el inciso b, y
completa las siguientes tablas:

No. de serie 1 2 3 4 5 6 7 8 9 10

Frec. relativa
No. de serie 11 12 13 14 15 16 17 18 19 20

Frec. relativa

d) Representa en una gráfica los datos anteriores, indicando en el eje


horizontal el número de serie, y en eje vertical las frecuencias relativas.

e) ¿Podemos ahora saber cual es la probabilidad solicitada?

De este problema podemos concluir que, cuando un experimento (lanzar la


moneda) se repite bajo las mismas condiciones un número de veces muy
grande, presenta una propiedad llamada regularidad estadística, esto
significa que cuando el número, n, de experimentos aumenta, de los cuales el
n( xi )
resultado xi ocurre η( xi ) veces, la frecuencia relativa, f + ( x1 ) = , converge,
n
es decir, se aproxima cada vez más a un número fijo, p , llamado la
probabilidad de que ocurra el resultado xi . La existencia de este número, que
por el momento no es posible justificar, es una piedra angular de la teoría de la
probabilidad y se conoce como la “ley de los grandes números”

Definición. Sea el número de veces que se efectúa el experimento, y el


número de veces que ocurre el evento , entonces la probabilidad, , de que
suceda el evento es

Ley de los grandes números.


Si se aumenta el número de veces que se repite un experimento, la razón del
número de ocurrencias exitosas con respecto al número de ensayos tenderá a
aproximarse a la probabilidad teórica de un ensayo individual.

EL MODELO SUBJETIVO

En muchos casos los datos pasados no se encuentran disponibles. Por tanto,


no es posible calcular la probabilidad a partir del desempeño anterior. La única
alternativa es estimar la probabilidad con base en nuestro criterio. El modelo
subjetivo requiere establecer la probabilidad de algún evento con base en la
mejor evidencia disponible. En muchos casos esto puede ser apenas una
conjetura hecha sobre cierta base. El modelo subjetivo se utiliza cuando se
desea asignar probabilidad a un evento que nunca ha ocurrido. Por ejemplo, la
probabilidad de que una mujer sea presidente en México. Debido a que no hay
datos sobre los cuales confiar, se deben analizar las opiniones y creencias
para obtener una estimación subjetiva. Cuando se utiliza el método subjetivo,
dos personas o más pueden no concordar en sus asignaciones.

EL MODELO CLÁSICO
Cuando lanzamos un dado no cargado, cualquiera de sus seis caras puede
mostrarse hacia arriba. Es costumbre, cuando usamos el enfoque clásico para
asignar probabilidades de un sexto a cada una de las caras, bajo la hipótesis
de que cada una tiene una oportunidad igual de quedar hacia arriba.
En esta unidad, con frecuencia asignaremos probabilidades de acuerdo con el
enfoque clásico, porque el muestreo aleatorio tiene validez para suponer que
los sucesos posibles del muestreo son igualmente probables.

EJERCICIO

1. Considera el experimento que consiste en lanzar un dado, calcula la


probabilidad de que caiga un número menor a 4. Para calcular la
probabilidad se te sugiere que lances el dado 200 veces, en 20 series de 10
experimentos en cada serie, y tus resultados escríbelos en las siguientes
tablas:

No. de serie 1 2 3 4 5 6 7 8 9 10

Frec. relativa

No. de serie 11 12 13 14 15 16 17 18 19 20

Frec. relativa

Representa en una gráfica los datos anteriores, indicando en el eje horizontal el


número de serie, y en el eje vertical las frecuencias relativas.

3. PROBABILIDAD DE EVENTOS SIMPLES

El cálculo de probabilidades se efectúa tomando como base un espacio


muestral previamente determinado a partir de las condiciones del fenómeno
aleatorio de interés, los puntos o elementos que componen tal espacio
muestral, describen solamente, uno y sólo uno de los resultados posibles del
experimento.

En esta unidad serán tratados únicamente experimentos que tienen un número


finito de resultados posibles. Aunque no podemos predecir cuál resultado del
experimento se producirá, si podemos hacer una lista de todos los resultados
posibles.

Definición. El conjunto que consiste de todos los resultados posibles de un


experimento se denomina espacio muestral.
Por lo general se denota al espacio muestral con la letra S y puede ser de
varias formas: una lista, un diagrama de árbol, una cuadrícula, etc. Los
elementos de un espacio muestral se llaman puntos muestrales o resultados;
η( S ) es el número de puntos muestrales en el espacio muestral S .

A continuación se consideran algunos casos de experimentos estadísticos y de


sus espacios muestrales.

Ejemplo 2. Si se lanzan dos monedas simultáneamente. Los cuatro resultados


posibles de este experimento son:

Moneda
Moneda 2 s a
1
s ss sa
a as aa

El espacio muestral es entonces S = {ss, sa, as, aa}

Ejemplo 3. Se lanzan dos dados simultáneamente, determina su espacio


muestral.

Solución. Los dados que tenemos en mente son los que tienen seis caras,
supongamos que los llamamos dado 1 y dado 2, de esta manera los posibles
resultados que tenemos son:

Dado1 1 2 3 4 5 6

Dado 2 1 11 12 13 14 15 16

2 21 22 23 24 25 26

3 31 32 33 34 35 36

4 41 42 43 44 45 46

5 51 52 53 54 55 56

6 61 62 63 64 65 66

Hay 36 posibles resultados, el espacio muestral de este experimento es:

S = {(1,1), (1,2), (1,3),. . ., (6, 5), (6, 6)}

Ejemplo 4. Un experimento consiste en lanzar una moneda y, si en este primer


lanzamiento se presenta un sol, ha de lanzarse por segunda ocasión. Si en
este lanzamiento se presenta un águila, entonces se lanza un dado una vez.
Determina el espacio muestral.
Solución. Para listar los elementos del espacio muestral que arroja la mayor
cantidad de información se construye el diagrama de árbol, que se muestra a
continuación:

Primer Segundo Punto


resultado resultado muestral

s ss
s
a sa

1 a1
2 a2
a 3 a3
4 a4
5 a5
6 a6
En forma de lista

S = {(s, s), (s, a), (a, 1), (a, 2), (a, 3), (a, 4), (a, 5), (a, 6)}

EJERCICIOS

1. Determina el espacio muestral de los siguientes experimentos:


a) Lanza tres monedas al aire (o su equivalente, lanza una moneda tres
veces).
b) Lanza al aire tres monedas y observa el número total de soles.
c) Lanza tres monedas al aire y al número de soles obtenidos se le resta el
número de águilas obtenidas.

2. Determina el espacio muestral del experimento: Se prueban diodos de un


lote, de uno en uno, y se marcan como defectuoso (d) o no defectuoso (b).
Esto prosigue hasta encontrar dos artículos defectuosos o haber probado
cuatro artículos.

3. Una computadora genera pares de números enteros. El primer entero se


encuentra entre 1 y 5, inclusive, el segundo entre 1 y 4, inclusive. Ilustra el
espacio muestral en un sistema de ejes coordenados. En el eje x muestra el
primer número, y en el eje y al segundo número.

4. Determina el espacio muestral del experimento: Una caja contiene tres


bolas, una roja ( R ), una blanca ( B ) y una azul ( A ), se seleccionan dos
bolas, una por una, se extrae la primera se anota su color y se regresa a la
caja (con reemplazo), se elige a la siguiente bola y se anota su color.
Eventos simples y compuestos.

Para un cierto experimento, podemos estar interesados en determinar la


probabilidad de que ocurra una colección de resultados, en lugar de la
probabilidad de que se dé uno solo. Por ejemplo, cuando se lanzan tres
monedas a la vez, podemos estar interesados en los resultados que indique
que al menos han salido “dos soles”; esta colección de resultados, {ssa, sas,
ass, sss} se llama un evento.

Definición. Un evento es cualquier subconjunto de un espacio muestral .

Ejemplo 5. Suponga que el experimento es lanzar dos monedas. El espacio


muestral para este experimento es S = {ss, sa, as, aa}.

Algunos eventos posibles son:

E1 = {ss}, E2 = {as}, E3 = {sa}, E4 = {ss, aa}, E5 = {as, sa}, E6 = {ss, as, sa}

Hay 16 eventos posibles. El conjunto vacío y el conjunto muestral S también


son eventos.
En particular, cada uno de los resultados del experimento, o sea, cada uno de
los “elementos” de S , determinan un conjunto o evento, el evento que consiste
únicamente de ese elemento particular; a ese evento se le llama evento simple
o elemental.

Definición. Un evento simple o elemental es un evento que contiene sólo un


elemento.

Ejemplo 6. Los eventos E1 , E2 , y E3 del ejemplo 5 son eventos simples,


mientras que los eventos E4 , E5 y E6 no lo son.

Definición. Un evento compuesto llamado también simplemente evento, es


un conjunto de uno o más eventos simples.

El “conjunto vacío”φ, es aquél que no contiene elementos, es un subconjunto o


evento de S y se le llama evento imposible. Esta denominación para φ es la
natural, porque al realizar un experimento siempre ocurre algún resultado; o
dicho en otras palabras, es imposible que φ ocurra. Por otra parte, S mismo es
un evento y se le llama evento seguro porque ocurre, es decir, al realizar el
experimento siempre ocurre algún resultado o elemento de S .
EJERCICIOS

1. En un experimento en el que se arrojan al aire dos monedas para


determinar cuántas águilas o soles ocurren, contesta las preguntas
siguientes:
a) ¿Cuántos eventos simples existen?
b) ¿Obtener dos águilas, es un evento simple o compuesto?

2. Supón que un experimento consiste en examinar tres fusibles; cada fusible


puede ser defectuoso ( D ) o no defectuoso ( B ), los ocho resultados
posibles del espacio muestral son: { BBB , BDB , BBD , BDD , DBD , DBB ,
DDB , DDD }. Escribe los resultados que conforman cada uno de los
eventos siguientes, e identifica cual es simple.

a) E1 = El primer fusible está defectuoso.


b) E2 = El primer fusible y el último están defectuosos.
c) E3 = Todos los fusibles son buenos.
d) E4 = Al menos un fusible está defectuoso.
e) E5 = A lo más un fusible está defectuoso.

3. Considera el experimento de lanzar un dado rojo y uno negro, y observa


cómo caen; los 36 resultados posibles del espacio muestral son: {(1,1), (1,
2),..., (6,6)}.
Da una descripción para los eventos:
a) {(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)}
b) {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}
c) {(3, 4), (4, 3), (5, 2), (2, 5), (6, 1), (1, 6)}
d) {(5, 6), (6, 5)}
e) {(1, 1)}
f) {(4, 4)}

4. Para el experimento de lanzar los dos dados del ejercicio 3, lista los
resultados de los eventos siguientes:
a) La suma es par.
b) La suma es divisible entre 5.
c) La suma es un número primo.
d) El número del dado negro es dos unidades mayor que el número del
dado rojo.
e) La suma es impar.
f) La suma no es divisible exactamente entre 5.
Operaciones entre eventos

Un espacio muestral es un conjunto de resultados, y los eventos son


subconjuntos del espacio muestral por ello es natural que usemos el lenguaje
matemático de la teoría de conjuntos para estudiar eventos.

Los conceptos de unión, intersección y complemento pertenecen a la teoría


matemática de conjuntos, así como los términos universo, subconjuntos,
elementos del conjunto, etc. La teoría de conjuntos es aplicada a la
probabilidad con algunas modificaciones en su terminología: al universo se le
llama espacio muestral, a los subconjuntos eventos; y a los elementos en el
conjunto, eventos simples o sucesos.

Definición. La intersección de dos eventos y , denotada por , es el


evento que contiene todos los elementos comunes a y .

Podemos ilustrar mejor la intersección de eventos, utilizando un diagrama


denominado de Venn, como se observa en la figura. El rectángulo representa
el espacio muestral, los círculos los eventos compuestos y la región sombreada
la intersección.

A B
El evento A I B

Espacio muestral

Ejemplo 7. Considera el experimento de lanzar dos dados del ejercicio 3


anterior. Sea A el evento de que el número del dado rojo sea 4 y B que la
suma de los números mostrados sea 7. Determina A I B .

Solución. A = {(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}, B = {(3, 4), (4, 3), (5, 2),
(2, 5), (6, 1), (1, 6)}. Luego, A I B = {(4, 3)}.

Ejemplo 8. Sean M = {a, e, i, o, u} y N = {b, c, d}; entonces M I N = φ. Es


decir, M y N no tienen elementos en común y, por tanto, no es posible que
ocurran ambos en forma simultánea.

En ciertos experimentos estadísticos no es raro definir dos eventos A y B que


no puedan ocurrir en forma simultánea (ejemplo 41). En este caso, se dice que
los eventos A y B son mutuamente excluyentes.

Definición. Dos eventos , son mutuamente excluyentes si = φ, es


decir, si y no tienen elementos en común.
Ejemplo 9. Supongamos que lanzamos tres monedas, entonces el espacio
muestral es S = {ssa, ssa, sas, saa, ass, asa, aas, aaa}.

Si A es el evento que aparezca exactamente dos soles, entonces A = {ssa,


sas, ass}

Si B es el evento que aparezcan tres soles, entonces B = {sss}.

Por consiguiente tenemos que A I B = φ, es decir los eventos A y B son


mutuamente excluyentes.

Con frecuencia, existe interés en la ocurrencia de cuando menos uno de dos


eventos asociados con un experimento. Así, en el experimento de lanzar un
dado, si A = {2, 4, 6} y B = {4, 5, 6}, podría interesar la ocurrencia de A o B, o
de ambos.

Este evento denominado unión de A y B , ocurrirá si el resultado es un


elemento del subconjunto {2, 4, 5, 6}.

Definición. La unión de dos eventos y , denotada por , es el evento


que contiene todos los elementos que pertenecen a , o al conjunto , o a
ambos.

Podemos ilustrar mejor la unión de eventos, utilizando un diagrama de Venn,


como se observa en la figura. El rectángulo representa el espacio muestral, los
círculos los eventos compuestos y la región sombreada la unión.

A B

El evento A U B

Espacio muestral

Ejemplo 10. Considera el siguiente espacio muestral S = {cobre, sodio,


nitrógeno, potasio, uranio, oxígeno, zinc} y los eventos A = {cobre, sodio, zinc}
y B = {sodio, nitrógeno, zinc]. Lista los elementos del evento A U B .

Solución. A U B = {cobre, sodio, nitrógeno, zinc}.

Considera un experimento en el que se registran los hábitos de fumar de los


profesores del CCH Oriente. Un espacio muestral posible podría clasificar a un
profesor como no fumador, fumador ligero, fumador moderado o fumador
fuerte. Si se considera el evento de los fumadores, entonces todos los no
fumadores corresponden a un evento diferente, también subconjunto del
espacio muestral, que se denomina complemento del conjunto de fumadores.
Definición. El complemento de un evento con respecto a , es el conjunto
de todos los elementos de que no están en . Se denota al complemento de
como , C   o .

En el diagrama de Venn de la figura, ilustra el complemento de un evento. AC


es el complemento del evento A .

El evento AC

Espacio muestral

Ejemplo 11. Sea A el evento de seleccionar una carta roja de una baraja
común de 52 cartas y sea S el total de la baraja. Entonces, AC es el evento de
que la carta seleccionada de la baraja no sea roja sino negra.

Ejemplo 12. Suponga que se lanzan dos dados y que se observa el número de
la cara superior de cada lado. Sea S el conjunto de todos los pares posibles
que pueden observarse, defina los siguientes eventos de S :
A : El número en el segundo dado es par.
B : La suma de los dos números es par.
C : Al menos un número en el par ordenado es impar.
Determina
a) A
b) B
c) C
d) A I B
e) A U B
f) C C
g) A I BC
h) AC I C .

Solución.

a) A = {(1, 2), (1, 4), (1, 6), (2, 2), (2, 4), (2, 6), (3, 2), (3, 4), (3, 6), (4, 2),
(4, 4), (4, 6), (5, 2), (5, 4), (5, 6), (6, 2), (6, 4), (6, 6)}.
b) B = {(1, 1), (1, 3), (1, 5), (2, 2), (2, 4), (2, 6), (3, 1), (3, 3), (3, 5), (4, 2),
(4, 4), (4, 6), (5, 1), (5, 3), (5, 5), (6, 2), (6, 4), (6, 6)}.
c) C = {(1,1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 3), (2, 5), (3, 1),
(3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 3), (4, 5), (5, 1), (5, 2), (5, 3),
(5, 4), (5, 5), (5, 6), (6, 1), (6, 3), (6, 5)}.
d) A I B = {(2, 2), (2, 4), (2, 6), (4, 2), (4, 4), (4, 6), (6, 2), (6, 4), (6, 6)}.
e) A U B = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 2), (2, 4), (2, 6),
(3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 2), (4, 4), (4, 6), (5, 1), (5, 2),
(5, 3), (5, 4), (5, 5), (5, 6), (6, 2), (6, 4), (6, 6)}.
f) C C = {(2, 2), (2, 4), (2, 6), (4, 2), (4, 4), (4, 6), (6, 2), (6, 4), (6, 6)}.
i) A I BC = {(1, 2), (1, 4), (1, 6), (3, 2), (3, 4), (3, 6), (5, 2), (5, 4), (5, 6)}.
j) AC I C = C .

EJERCICIOS

1. Suponga que en una familia hay dos niños de diferente edad y que nos
interesa conocer cuál es su sexo. Sea A el evento de todas las
posibilidades que no incluyen varones; B el evento que contiene dos
varones, y C , el evento que contiene al menos un varón. Lista los
elementos de los siguientes eventos:
a) A b) C C c) A I B d) A U B e) A I BC f) AC I B g) AC I C

2. Se tiran dos dados. Sea A el evento la suma es 7; B el evento ambos


dados muestran números impares, y sea C el evento únicamente un dado
muestra un número impar.
a) Haga una lista de los eventos en A, B, C , A I B, B I C y A U B .
b) ¿Son A y B mutuamente excluyentes? ¿Lo son B y C ?

3. En la tabla 1 se clasifica a 200 personas. Indica cuántas caen dentro de las


clasificaciones de los siguientes eventos.

Sexo Republicanos Demócratas Totales


Masculino 50 60 110
Femenino 20 70 90
Totales 70 130 200
Tabla 1. Miembros de los partidos políticos.

a) ¿Cuántas son republicanos y femeninas?


b) ¿Cuántas son republicanos o femeninas?
c) ¿Cuántas no son ni femeninas ni demócratas?
d) ¿Cuántas no son republicanas?

Cálculo de probabilidades

Para asignar probabilidades a los diversos puntos muestrales, los estadísticos


han convenido en dos reglas:
1. La probabilidad de cada punto muestral debe estar entre 0 y 1.
2. La suma de las probabilidades de todos los puntos muestrales debe ser
igual a 1.

Si hay únicamente un evento simple que pueda ocurrir, éste tiene una
probabilidad de 1. Si un evento simple particular no puede ocurrir nunca, tiene
una probabilidad igual a 0.
Cuando un espacio muestral contiene eventos simples igualmente probables,
asignamos a cada evento simple una participación igual de la probabilidad total
igual a 1. En otras palabras, si hay N eventos simples en el espacio muestral,
1
asignamos la probabilidad para cada uno de estos eventos simples.
N
Ejemplo 13. Al lanzar una moneda balanceada, asignamos una probabilidad
1
de a cada uno de los puntos en el espacio muestral S = {sol, águila}.
2

Ejemplo 14. Si se lanza un dado no cargado, asignamos una probabilidad de


1
a cada uno de los puntos en el espacio muestral S = {1, 2, 3, 4, 5, 6}.
6

Para encontrar la probabilidad de un evento A , se suman todas las


probabilidades asignadas a los puntos muestrales que se encuentran en A .
esta suma se denomina probabilidad de A y es denotada por P ( A) .

Definición. La probabilidad de un evento A es la suma de las probabilidades


de todos los eventos simples de . Por lo tanto,
, y .

Esta definición se ilustra con los dos ejemplos siguientes.

Ejemplo 15. Si se lanza una moneda dos veces, ¿cuál es la probabilidad de


que ocurra cuando menos un sol?

Solución. El espacio muestral para este experimento es

S = {ss, sa, as, aa}.

Como la moneda está equilibrada, cada uno de estos resultados tendrán la


1
misma probabilidad de ocurrir. Por ello, se le asigna una probabilidad de a
4
cada uno de los puntos muestrales. Si A representa el evento de que ocurra
cuando menos un sol, entonces
1 1 1 3
A = {ss, sa, as} y P ( A) = + + = .
4 4 4 4

Ejemplo 16. ¿Cuál es la probabilidad de obtener exactamente dos águilas al


lanzar tres monedas?

Solución. El espacio muestral es

S = {sss, ssa, sas, ass, saa, asa, aas, aaa}.


1
y la probabilidad de cada punto muestral es . Como el suceso “obtener
8
exactamente dos águilas” es el subconjunto A = {ssa, sas, ass}, la probabilidad
de A es
1 1 1 3
P ( A) = + + = .
8 8 8 8

Definición. Si un experimento puede dar como resultado cualquiera de


resultados diferentes igualmente probables, y si exactamente de estos
resultados corresponden al evento , entonces la probabilidad del evento
es =

Ya que casi siempre trataremos en este libro con experimentos que producen
eventos simples igualmente probables, adoptaremos la siguiente notación para
simplificar la discusión y para ilustrar los cálculos de probabilidad. Sea η( A)
asignado para el número de eventos simples en el evento compuesto. Sea
η( S ) quien designa el número de eventos simples en el espacio muestral S .
Entonces, suponiendo que los eventos simples son igualmente probables,
nombramos la probabilidad de un evento A como
n( A)
P ( A) = .
n( S )

Esto es, contamos el número de eventos simples en A y dividimos entre el


número total de eventos simples en el espacio muestral S . Esto nos da la
probabilidad de A .

Ejemplo 17. Un número se escoge aleatoriamente entre 1 y 21 inclusive.


Determina la probabilidad de que:
a) sea mayor que 5 pero no mayor a 10.
b) Sea divisible por 7 pero no por 3.

Solución. Observemos que el espacio muestral es S = {1, 2, 3, .., 21} y n(S) =


21.
a) Si representamos por A el evento de los números que son mayores que
5 pero no mayores a 10, se tendrá A = {6, 7, 8, 9} entonces
n( A) 5
P ( A) = = .
n( S ) 21
b) Si consideramos el evento B como aquellos números que son divisibles
n( B ) 2
por 7 pero no por 3, se tendrá B = {7, 14} por lo que P ( B ) = = .
n( S ) 21

Ejemplo 18. Para el experimento de lanzar dos dados, calcula la probabilidad


de que ambos muestren un número par.

Solución. Por lo visto anteriormente sabemos que η( S ) = 36. Si representamos


por E el evento de que ambos dados muestren un número par, entonces
E = {(2, 2), (2, 4), (2, 6), (4, 2), (4, 4), (4, 6), (6, 2), (6, 4), (6, 6)}; hay 9
n( E ) 9 1
resultados favorables y P( E ) = = = .
n( S ) 36 4
Ejemplo 19. Selecciona una carta al azar de una baraja de 52 cartas. Denota
como A = {espadas} y B = {figuras} = {J, Q, K}.

Calcula: a) P ( A) b) P ( B )

Solución. Como se trata de un espacio equiprobable, se tiene que


n( A) 13 1 n( B) 12 3
a) P ( A) = = = . b) P ( B ) = = = .
n( S ) 52 4 n( S ) 52 13

EJERCICIOS

1. Se lanza un dado no cargado. ¿Cuál es la probabilidad de obtener


a) un número impar? b) un número mayor que 4?

2. Se lanzan dos monedas. ¿Cuál es la probabilidad de obtener


a) exactamente un sol? b) a lo más un sol?

3. Se lanzan dos dados no cargados. Determina la probabilidad de que


a) Los números tengan una suma igual a 11.
b) Ambos muestren un número primo.
c) Los números tengan una suma divisible por 3.

4. Se elige una carta de una baraja de 52 cartas. ¿Cuál es la probabilidad de


que sea
a) una reina? b) una carta roja?

5. Una caja contiene tres canicas azules, cuatro amarillas y dos verdes; se
elige una canica al azar. ¿Cuál es la probabilidad de que la canica resulte:
a) azul? b) amarilla? c) verde?

6. Un estudio sobre los empleados de una gran organización proporcionó la


estadística siguiente según el sexo y el estado civil:

Estado civil
Sexo Casado Soltero Divorciado Viudo
Hombre 25% 11% 10% 3%
Mujer 30% 8% 7% 6%

Suponga que se elige a un empleado al azar. ¿Cuál es la probabilidad de que


resulte:
a) casado? b) viudo? c) hombre?

7. Se consultan 10 familias con respecto a la contaminación. De ellas 7 se


oponen a la contaminación y 3 están a favor o son indiferentes.
a) ¿Cuál es la probabilidad de que dos familias escogidas aleatoriamente
éstas se opongan a la contaminación?
b) ¿Cuál es la probabilidad de que una se oponga y la otra sea indiferente?
TÉCNICAS DE CONTEO
PRINCIPIO FUNDAMENTAL DEL CONTEO.
Objetivo de la clase:
Al finalizar esta clase, podrás:
• Dado un experimento, determinar el número de eventos simples en el
espacio muestral, y el número de eventos simples en un evento
compuesto, mediante el uso correcto de la regla de conteo.

INTRODUCCIÓN
Las técnicas de conteo juegan un papel importante en diversas áreas, tales
como probabilidad, estadística y ciencias de la computación. En esta sección
estudiaremos algunos problemas especiales de conteo, posteriormente
obtendremos algunas fórmulas generales que nos permitirán resolverlos con
cierta facilidad. Un ejemplo sería, si planeas tus vacaciones y deseas encontrar
la manera más económica de viajar de un lado a otro, debes empezar por
determinar cuántas rutas distintas de viaje existen. Otro ejemplo, Servicios
Escolares del Colegio querría conocer el número de diferentes maneras en que
un estudiante puede inscribirse en el quinto semestre.

Un diagrama de árbol puede proporcionar una manera sistemática de enlistar


todos los posibles resultados de un proceso dado, como veremos en los
ejemplos siguientes.

Ejemplo 1. ¿Cuántos elementos hay en el espacio muestral cuando se lanza


un par de dados?

Solución. El primer dado puede caer de cualquiera de 6 formas. Para cada


una de estas 6 maneras, el segundo dado puede también caer en cualquiera
de 6 maneras. Por lo tanto los dos dados pueden caer de

(6)(6) = 36 maneras posibles.

Es posible verificar la respuesta del ejemplo 1 construyendo un diagrama de


árbol y contando los diversos caminos a lo largo de las ramas.

Primer dado Segundo dado


1
2
3
1 4
2 5
3 6
4
5
6
Diagrama de árbol para el ejemplo 1.
Los diagramas de árbol se pueden usar para resolver problemas de conteo
cuando la cantidad de formas es relativamente pequeña. Sin embargo, cuando
intervienen muchos casos el diagrama de árbol es poco práctico. Se necesita
un método más eficiente. Y contamos con uno que se fundamenta en el
concepto del diagrama de árbol.

En el ejemplo 1, el diagrama de árbol tiene seis ramas que representan los


puntos del primer dado, y luego de cada una de estas ramas, hay seis ramas
que representan los posibles resultados del segundo dado. Entonces hay 6(6)
o 36 rutas a través de las ramas del diagrama de árbol. Esto sugiere el
siguiente principio.

PRINCIPIO FUNDAMENTAL DEL CONTEO


Si un proceso consiste de dos etapas, de modo que la primera se puede
realizar de maneras posibles, y la segunda de maneras posibles,
entonces todo el proceso conjunto puede realizarse de maneras.

Ejemplo 2. Un estudiante tiene que elegir un idioma y una materia de historia


entre 5 idiomas y 4 materias de historia. Determina el número de formas
distintas en que las puede elegir.

Solución. Puede elegir el idioma de 5 maneras y, por cada una de ellas, hay 4
formas de elegir la materia de historia. Por lo tanto, el número posible de
resultados es
5 (4) = 20

Así, hay 20 formas diferentes de seleccionar un idioma y una materia de


historia.

Es posible generalizar la regla mn para tratar cualquier número de etapas, que


a continuación se enuncia:

Si una etapa se puede realizar de formas, la de formas y la


-ésima de formas, entonces las operaciones pueden realizarse según el
principio fundamental del conteo, en formas.

Ejemplo 3. Supón que planeas un viaje para visitar tres ciudades A, B y C, y


que puedes escoger el orden en el que las visitarás. ¿Cuántos viajes son
posibles?

Solución. Un viaje inicia deteniéndose en cualquiera de las tres ciudades, la


segunda parada podrá ser en cualquiera de las otras dos ciudades y termina el
viaje parando en la ciudad restante.

Todas las rutas posibles se muestran en el diagrama de árbol siguiente.


Primera Segunda Tercera
ciudad ciudad ciudad Resultados
B C ABC
A
C B ACB

A C BAC
Inicio B
C A BCA

A B CAB
C
B A CBA

Entonces, hay 6 maneras diferentes de visitar las tres ciudades.


Usando la regla del conteo extendida, el viaje inicia en cualquiera de las tres
ciudades n1 = 3, la segunda parada puede ser en cualquiera de las otras dos
ciudades n2 = 2 y termina el viaje parando en la ciudad restante n3 = 1. Por lo
tanto, el número de maneras diferentes para visitar las tres ciudades es

n1 (n2 )(n3 ) = 3 (2) (1) = 6.

Ejemplo 4. Un dado se lanza cuatro veces. Determina el número de puntos del


espacio muestral de este experimento.

Solución. El primer dado puede caer de n1 = 6 maneras. Para cada una de


estas 6 maneras, el segundo dado puede también caer en n2 = 6 maneras, etc.
Por lo tanto, el número de puntos del espacio muestral son

n1 (n2 )(n3 ) (n4 ) = 6 (6) (6) (6) = 1296.

Ejemplo 5. En cierto estado, las licencias para pescar están identificadas con
un código que consiste en dos letras seguidas por tres dígitos, en donde se
permite que se repitan las letras y los dígitos. ¿Cuántas licencias pueden
emitirse si cada licencia tiene un código diferente?

Solución. Hay cinco etapas, a saber:

Etapa 1 Etapa 2 Etapa 3 Etapa 4 Etapa 5


Letra Letra Dígito Dígito Dígito

En la etapa 1 podemos escoger cualquiera de las 26 letras. En la etapa 2


también podemos elegir una de las 26 letras, ya que estamos contando con
reemplazamiento. En las etapas 3, 4 y 5 podemos elegir cualquiera de los diez
dígitos 0 a 9. Luego,
26 (26)(10)(10)(10) = 676,000

pueden emitirse 676,000 licencias, cada una con un código diferente.


Cuando los objetos no pueden usarse más de una vez en las etapas de un
proceso, decimos que estamos contando sin reemplazo.

La respuesta del ejemplo anterior es bastante diferente si no permitimos que la


misma letra aparezca más de una vez, ni los dígitos se repitan.

En este caso se tendría que, el número de licencias es:

26(25)(10)(9)(8) = 468,000.

Ejemplo 6. ¿Cuántos números pares de tres dígitos se pueden formar con los
números 1, 2, 5, 6 y 9, si sólo es posible utilizar cada uno de éstos una sola
vez?

Solución. Puesto que el número debe ser par, sólo se tienen n1 = 2 alternativas
para la posición de las unidades. Para cada una de éstas se tienen n2 = 4
alternativas para la posición de las centenas y n3 = 3 alternativas para la
posición de las decenas.
Por lo tanto, se puede formar un total de n1 (n2 )(n3 ) = 2(4)(3) = 24 números
pares diferentes de tres dígitos.

Ejemplo 7. ¿Cuántos números diferentes de tres dígitos se pueden formar con


los dígitos 3, 4, 7, 8 y 9, si se desea que sean mayores que 500 y que no se
repitan los dígitos?

Solución. Para formar números mayores que 500, se deben hacer tres
elecciones: el dígito de las centenas, el de las decenas y el de las unidades. En
la primera elección se escoge un dígito mayor o igual a 5 y en las decenas y
unidades cualesquiera de los otros dígitos. Podemos imaginar que las distintas
elecciones son cuadros:

Etapa 1 Etapa 2 Etapa 3


Selección de las centenas Selección de las decenas Selección de las unidades

El primer cuadro se llena de tres maneras (7, 8 o 9), el segundo de cuatro


maneras (no se pueden repetir los dígitos) y el tercero de tres maneras. Así,
según el principio fundamental del conteo, hay 3 (4) (3) = 36 números mayores
que 500.
EJERCICIOS 1
1. En un estudio médico se clasifica a los pacientes de 8 formas, de acuerdo a
si tienen sangres tipo AB+, AB-, A+, A-, B+, B- ,O+ u O- y también de acuerdo a
si su presión arterial es baja, normal o alta. Encuentra el número de formas
en las que un paciente puede ser clasificado.

2. Un estudiante tiene que elegir un idioma y una materia entre 3 idiomas y 7


materias. Encuentra el número de formas distintas en que puede hacerlo.

3. Hay 4 candidatos para presidente de un club, 5 para vicepresidente y 3 para


secretario. ¿De cuántas maneras se pueden ocupar estos 3 puestos?

4. ¿De cuántas maneras distintas se pueden ordenar 6 personas en una fila?

5. ¿De cuántas maneras se pueden introducir 5 cartas en 3 buzones?

6. ¿Cuántas placas de auto se pueden hacer usando tres dígitos y tres letras
del abecedario? (Considera los dígitos del 0 al 9 y 26 letras).

7. El candado de la bicicleta de Ana tiene una combinación de tres discos,


cada uno de los cuales incluye los números enteros del 0 al 9. El candado se
abre cuando cada disco señala la cifra correcta. Ana olvidó el número del
primero, pero recuerda que el segundo está entre 0 y 7 y el tercero entre 4 y
9. Si Ana tiene razón, ¿cuántas posibles combinaciones diferentes hay,
donde sólo una de ellas abrirá el candado?

8. ¿Cuántos números diferentes de tres dígitos se pueden formarse con 3, 4, 7,


8 y 9 si se desea que sean mayores que 500 y que no se repitan los dígitos?

9. Indica el número de placas diferentes que pueden formarse si cada placa


tiene cuatro letras seguidas de dos dígitos y los números y letras no pueden
repetirse.

10. ¿De cuántas maneras diferentes es posible contestar una prueba de


verdadero y falso que consta de 10 preguntas?
FACTORIAL DE UN NÚMERO.
Ejemplo 8. Un fotógrafo acomoda a cuatro personas en un sillón para una
fotografía publicitaria. ¿De cuántas maneras distintas los puede acomodar?

Solución. Supongamos que el sillón tiene cuatro espacios como se muestra en


la figura.

Lugar 1 Lugar 2 Lugar 3 Lugar 4

Primero, el fotógrafo puede colocar a cualquiera de las cuatro personas en el


primer lugar. Una vez sentada la primera persona, el fotógrafo debe
seleccionar a una de las tres personas restantes para sentarla en el segundo
lugar. Luego, una de las dos personas restantes será seleccionada para
sentarse en tercer lugar. Y, finalmente, la última persona será seleccionada
para sentarse en el cuarto lugar.

Entonces por el principio fundamental del conteo, se tiene

4 3 2 1 = 24

Por lo cual hay 24 arreglos diferentes para las cuatro personas.

El producto 4(3)(2)(1) puede representarse con el símbolo especial 4!, que se


lee como el “factorial de 4.” A continuación damos la definición del factorial de
un número entero positivo.

El producto de los n primeros números enteros positivos se representa por n !


y se llama n factorial

También se define a 0! como sigue:


0! = 1
Observa que el factorial de n , satisface:

n ! = n(n − 1)!
n ! = n(n − 1)(n − 2)!
.
.
.
n ! = n(n − 1)(n − 2)L 2(1) , .

Ejemplo 9. Calcula 7!.

Solución. Usando la definición del factorial, 7! = 7(6)(5)(4)(3)(2)(1) = 5040.


100!
Ejemplo 10. Calcula
98!

100! (100)(99)(98)!
Solución. = = 100(99) = 9900.
98! 98!
n!
Ejemplo 11. Simplifica .
(n − 2)!

n! n(n − 1)(n − 2)!


Solución. = = n(n − 1) .
(n − 2)! (n − 2)!

EJERCICIOS 2
Determina el valor de las siguientes expresiones:
10! 12!
1. 7! 2. 3! + 4! 3. 8! – 5! 4. 5.
8! (12 − 3)!

10! 12! 7!+ 8! 4! 5!


6. 7. 8. 9. +
5!(5!) 5!(4!)(3!) 7! 5! 6!

10. Determina cual de las siguientes expresiones es verdadera o falsa:

(a) 9! = 9(8)(7)(6)(5!) (b) 5! (4!) = 20 (c) 5! + 5! =10! (d) 7! = 8!/8


PERMUTACIONES Y COMBINACIONES.
Objetivo de la clase:
Al finalizar esta clase, el alumno podrá:
Utilizar la regla de las permutaciones para resolver problemas de conteo.

PERMUTACIONES
Una aplicación importante del principio fundamental del conteo consiste en
determinar en cuántas formas pueden arreglarse (en orden) n elementos. A un
orden de n elementos lo llamamos permutación de los elementos.

Definición. Una permutación es un arreglo ordenado de todos o parte de un


conjunto de objetos.

Ejemplo 12. Algunas de las permutaciones de las letras ABCD son: ABDC,
BACD, ACBD, DCBA,... ¿Cuántas permutaciones son posibles?
Solución. Como hay cuatro alternativas para la primera posición, tres para la
segunda (ya se ha elegido la primera), dos para la tercera (ya se eligieron las
dos primeras) y una para la cuarta, de acuerdo con el principio fundamental del
conteo, la cantidad de permutaciones posibles es
4 (3)(2)(1) = 24 = 4!
Este mismo razonamiento se emplea en el caso general para el número n en
lugar que el caso particular de 4, así se tiene la proposición siguiente:

El número de permutaciones de objetos tomados de objetos distintos que


se denota por Pn es !.

Ejemplo 13. ¿De cuántas maneras se puede acomodar a 5 personas en 5


sillas colocadas en fila?

Solución. Las cinco personas pueden distribuirse en una fila de


P5 = 5! = 5(4)(3)(2)(1)= 120 maneras.

Ejemplo 14. ¿De cuántas maneras se pueden colocar en una fila 5 hombres y
4 mujeres de forma que ellas ocupen los lugares pares?

Solución. Los hombres se pueden situar de P5 maneras y las mujeres de P4


formas. Cada una de las colocaciones de los hombres se puede asociar con
una de las mujeres. Luego, se podrán efectuar de P5P4 = 5! (4!) = (120)(24) =
2,880 maneras.
Ejemplo 15. ¿Cuántas parejas se pueden tener con 4 letras diferentes, si estas
no se pueden repetir? Algunas de esas permutaciones son:
AB, AC, AD, BC, BD, etc.
Solución. De nuevo, hay cuatro alternativas para la primera posición y tres
para la segunda. Según el principio fundamental del conteo, la cantidad de
parejas son:
4 (3) = 12.
Ejemplo 16. ¿Cuántas “palabras” de tres letras se pueden formar con las 26
letras del alfabeto inglés? Si no se permiten duplicar letras.
Solución. Ya que no se permite duplicar letras, una vez escogida una letra se
debe seleccionar otra diferente. Por consiguiente, la primera letra puede ser
cualquiera de las 26 letras de ese alfabeto, la segunda cualquiera de las 25
restantes, y la tercera se escoge de entre las 24 restantes. Así, la cantidad total
de “palabras” distintas es
26 • 25 • 24 = 15, 600.
En general, si un conjunto tiene n elementos, el número de formas de ordenar
a r elementos del conjunto se representa con nPr y se llama número de
permutaciones de n objetos tomados de r en r .

El número de permutaciones de objetos tomados de en es:


nPr =

Para determinar cuántos grupos ordenados de r ( r ≤ n ) objetos se pueden


formar de entre n objetos dados, de tal manera que dos de tales grupos se
consideren distintos si difieren en alguno de sus objetos o en el orden de ellos,
se aplicará el principio fundamental del conteo como se observa.

1º) escoger el primer objeto → n maneras diferentes


2º) escoger el segundo objeto → n – 1 maneras diferentes
3º) escoger el tercer objeto → n – 2 maneras diferentes
.....
.....
r°) escoger el r – ésimo objeto → n – ( r – 1) maneras diferentes
Luego, se tendrá
nPr = n ( n – 1) ( n – 2) . . . [ n – ( r – 1)]

Multiplicando y dividiendo entre ( n – r )!, se tiene

n(n − 1)(n − 2) ⋅ ⋅ ⋅ (n − r + 1)(n − r )! n!


=
(n − r )! (n − r )!
Que es lo que se quería justificar.
Ejemplo 17. Se debe seleccionar en orden cuatro boletos de una rifa, de entre
10 que hay en un sombrero. El que tenga el boleto con el número 1 gana un
auto, el que tenga el número 2 gana una computadora, el que tenga el número
3 gana una bicicleta y el del número 4 gana un patín del diablo. ¿De cuántas
formas distintas se pueden ganar esos premios?
Solución. El orden de los números de los boletos determina quien gana cada
premio. Es decir, se necesita calcular el número de formas de seleccionar
cuatro objetos en orden entre los 10 objetos (los boletos). Ese número es:

10! 10!
10P4 = = = 10 (9)(8)(7) = 5040.
(10 − 4)! 6!

Ejemplo 18. Determina cuántos números hay de 2000 al 2999 que se pueden
formar con los dígitos 1, 2, 3, 4, 5 si los dígitos no se pueden repetir.

Solución. Como el primer dígito de cada número es el 2, quedan cuatro dígitos


para colocar en tres lugares. Luego,
Números formados = 4(3)(2) = 4P3 = 24

Ejemplo 19. Entre 11 novelas y 3 diccionarios se seleccionan 4 novelas y 1


diccionario y se colocan en un estante de forma que el diccionario esté en
medio. Encuentra el número de formas en que esto se puede llevar a cabo.

Solución. Las posibilidades de seleccionar un diccionario son 3 y el número de


permutaciones de 11 novelas tomadas de 4 en 4 es 11P4. Por tanto, se puede
hacer de 3 11P4 = 3 (7920) = 23,760 formas.

Ejemplo 20. Determina n en la ecuación 10 nP2 = n+1P4

n! (n + 1)!
Solución. 10 = ⇒ 10n(n − 1) = (n + 1)n(n − 1)(n − 2)
(n - 2)! (n − 3)!
10 = (n + 1)(n − 2) = n2 − n − 2 = (n + 3)(n − 4) = 0
Por lo tanto, n = 4.
EJERCICIOS 3

1. Calcula:
a) 20P2 b) 8P5 c) 7P5 d) P5

2. Un jefe de tráfico necesita asignar oficiales de entre 10 disponibles para


controlar el tráfico en los cruceros A, B y C. ¿De cuántas maneras lo puede
hacer?

3. Si 12 caballos entraron a una carrera, ¿de cuántas maneras pueden quedar


los tres primeros lugares ganadores?

4. ¿Cuántas palabras diferentes de tres letras se pueden crear con los


caracteres de la palabra iguales si las letras no deben repetirse?

5. Un club consta de 20 miembros. ¿De cuántas formas pueden seleccionarse


tres directivos: presidente, vicepresidente y secretario?

6. En un grupo de 30 alumnos hay 18 hombres y 12 mujeres. Se va a elegir un


comité formado por un presidente, un vicepresidente y un secretario.
¿Cuántos comités se pueden formar si el puesto de secretario debe ocuparlo
una mujer?

7. Un equipo de béisbol se debe formar con un conjunto de 12 personas. Dos


equipos formados por las mismas nueve personas son diferentes si al
menos alguna de ellas está asignada a una posición distinta. ¿De cuántas
maneras puede formarse un equipo si:
a) no hay restricciones?
b) sólo dos personas pueden ocupar la posición de pitcher y no jugar
ninguna otra posición?
c) sólo dos personas pueden ocupar la posición de pitcher y jugar también
en otra posición?

8. ¿De cuántas maneras:


a) 3 niños y 2 niñas pueden sentarse en una fila?
b) pueden sentarse si los niños se sientan juntos y las niñas también?
c) pueden sentarse en fila si justamente las niñas se sientan juntas?

9. ¿De cuántas maneras se pueden colocar 7 cuadros diferentes en una fila


sabiendo que uno de ellos debe estar
a) en el centro?
b) en uno de los extremos?

10. Encuentra el valor de n si:

a) 7 nP3 = 6 (n+1)P3 b) 3 nP4 = (n-1)P5


COMBINACIONES
Objetivo de la clase:
Al finalizar esta clase, el alumno podrá:
• Utilizar la regla de las combinaciones para resolver problemas de
conteo.

Al contar el número de permutaciones posibles de un conjunto de elementos, el


orden es importante. Ahora estudiaremos un método para seleccionar
subconjuntos de un conjunto mayor en el cual el orden no es importante.
Dichos subconjuntos son combinaciones de n elementos tomados n a la vez.
Por ejemplo, las combinaciones {A, B, C} y {B, C, A} son equivalentes porque
ambos conjuntos contienen los mismos tres elementos, y el orden en el cual
estos elementos están enumerados no es importante. En consecuencia,
contaríamos sólo uno de los dos conjuntos.

Definición. Una combinación es un arreglo de objetos sin tomar en cuenta el


orden.

Las combinaciones de n elementos tomados de r en r se denota por nCr o por


⎛ n ⎞
⎜ ⎟ .
⎝ r ⎠
Ejemplo 21. Determina todas las combinaciones posibles de los 4 objetos A, B,
C, D tomados 2 a la vez.

Solución. Una combinación de A, B, C, D tomando 2 a la vez es


AB
Se excluye BA, ya que el orden no es importante en una combinación. La lista
de todas las combinaciones posibles es:
AB, AC, AD, BC, BD, CD.

Así, el número de combinaciones de los 4 objetos tomados 2 a la vez es 6.

Ejemplo 22. Determina las combinaciones de los cuatro elementos A, B, C y D


tomados de tres en tres.

Solución. La lista de todas las combinaciones posibles son: ABC, ABD, ACD y
BCD.
Luego, el número de combinaciones de los 4 objetos tomados 3 a la vez es 4.

Calcular las combinaciones enlistando sus elementos cuando se trabajan con


números mayores de 10, es impráctico, por lo que es conveniente analizar los
ejemplos anteriores para llegar a una regla.
En el ejemplo 21, si nos importara el orden entonces tendríamos que el número
de permutaciones es 4P2 = 12. Pero, como por ejemplo AB y BA son los
mismos ya que el orden en que son tomados no importa, por cada dos
permutaciones tenemos una combinación. Por lo tanto,

P2 12
4 C2 = = 6.
4
=
2 2

Del ejemplo 22 otra vez si nos importara el orden tendríamos que el número de
permutaciones es 4P3 = 24. Pero, como por ejemplo ABC, ACB, BCA, BAC,
CAB y CBA son los mismos, observamos que por cada seis permutaciones
tenemos una combinación. Luego,
4 P3 24
4 C3 = = = 4.
6 6

Observa que 2 = 2! y 6 = 3!.

De esta forma generalizando los ejemplos anteriores, tenemos que el número


de combinaciones de n elementos tomados de r en r ( r ≤ n ) es igual al número
de permutaciones de n elementos tomados de r en r , dividido entre r !.

Pr n!
n Cr = =
n

r ! r !(n − r )!

La manera de calcular las combinaciones se enuncia en la regla siguiente:

El número de combinaciones de objetos tomados de en es


nCr =

La diferencia principal entre permutaciones y combinaciones es el orden. Si


nos interesan arreglos ordenados, quiere decir que estamos contando
permutaciones, pero si lo que nos ocupa son subconjuntos sin considerar el
orden, quiere decir que estamos contando combinaciones.

Ejemplo 23. ¿De cuántas maneras se puede elegir un comité de tres miembros
en un club con 25 miembros?

Solución. Se necesita calcular el número de formas de elegir tres miembros de


los 25. En este caso no importa el orden, porque el comité será igual sin
importar cómo se ordenan sus miembros. Así, se desea conocer el número de
combinaciones de 25 objetos (los miembros del club) tomados de tres en tres.
Ese número es
25! 25! 25(24)(23)
25C3 = = = = 2300.
3!(25 − 3)! 3! 22! 3(2)(1)
Ejemplo 24. Un joven tiene monedas de 1, 5, 10, 25 y 50 centavos de dólar,
una de cada una, y desea dejar una propina exactamente con tres monedas.
¿Cuántas propinas distintas es posible dejar?

Solución. En este caso el orden no tiene importancia: una propina de 5 + 10 +


25 centavos es igual que una de 25 + 5 + 10 centavos. Por consiguiente,
deseamos calcular la cantidad de combinaciones de cinco elementos tomados
de tres en tres.
5! 5(4)
5 C3 = = = 10.
3!2! 2

El ejemplo siguiente muestra cómo se aplica el principio fundamental del


conteo en un problema donde intervienen combinaciones.

Ejemplo 25. En una clase de 10 muchachos y 15 muchachas. ¿Cuántos


comités de cinco se pueden elegir si cada comité debe estar formado por dos
muchachos y tres muchachas?

Solución. En este caso no importa el orden, porque los miembros no ocupan


puestos específicos. Por consiguiente, se trata de un problema de
combinaciones.
10!
Para elegir dos muchachos: 10C2 = = 45
2!8!
15!
Para elegir tres muchachas: 15C3 = = 455
3!12!
Como hay 45 pares posibles de muchachos y cada uno de ellos se puede unir
con cualquiera de las 455 ternas posibles de muchachas, el principio
fundamental del conteo da como resultado

10C2 15C3 = (45)(455) = 20,475

que es la cantidad total de comités que se pueden formar.

Ejemplo 26. Una paletería anuncia que se puede elegir cinco diferentes
confetis para aderezar su helado. Puede escoger ninguno, uno, dos, tres,
cuatro o cinco confetis. ¿Cuántas elecciones son posibles en total?

Solución. Hay varias formas de solucionar este problema. Desde un punto de


vista, puedes imaginarte en la paletería ante cinco estaciones. En cada una
tienes dos alternativas: aceptar el confeti o no. Así aplicando el principio
fundamental del conteo, la cantidad de alternativas es 2(2)(2)(2)(2) = 32. Desde
otro punto de vista, la solución es la cantidad de modos distintos en los que
podemos elegir ninguno, uno, dos, tres, cuatro o cinco elementos de un total de
cinco posibilidades, esto, es,

5 C0 + 5 C1 + 5 C2 + 5 C3 + 5 C4 + 5 C5 = 32.

Ejemplo 27. ¿De cuántas formas se pueden repartir 14 películas entre dos
personas, A y B, de manera que a uno le toquen 8 y al otro 6?
Solución. En cada una de las divisiones de las 14 películas en 8 y 6, A recibe
8 y B recibe 6, o bien A recibe 6 y B recibe 8.
Por tanto, el número de formas es:
2 ⋅ 14C8 = 2 ⋅ 14C6 = 2 (3003) = 6006 formas.

Ejemplo 28. ¿Cuántas diagonales tiene un decágono?

Solución.
El número de rectas que forman el decágono es el número de combinaciones
de 10 puntos tomados de 2 en 2 esto es 10C2 = 45 (ya que no hay tres puntos
colineales)

Como 10 de estas 45 rectas son los lados del decágono, el número de


diagonales son 35.

Ejemplo 29. Suponga que una bolsa contiene cuatro pelotas negras y siete
blancas. ¿De cuántas maneras puede sacarse un grupo de tres pelotas de la
bolsa en las combinaciones siguientes?
a) Una pelota negra y dos blancas b) Tres pelotas de un solo color
c) Por lo menos una pelota negra

Solución. a) En este problema no importa el orden ya que las pelotas pueden


sacarse de cualquier forma. Por consiguiente, se trata de un problema de
combinaciones.
Para elegir una pelota negra: 4C1 = 4
Para elegir dos pelotas blancas: 7C2 = 21

Utilizando el principio fundamental del conteo, se tiene

4 C1 7 C2 = 4(21) = 84 maneras

b) Como las tres pelotas deben de ser del mismo color, tenemos que obtener
las combinaciones de que las tres sean blancas o que las tres sean negras.
Número de pelotas de un solo color 4C3 + 7C3 = 4 + 35 = 39

c) Por lo menos una pelota negra significa que debemos obtener una, dos y
tres negras. De la misma manera que en el inciso a se tiene

Una pelota negra y dos blancas 4C1 7C2 = 4(21) = 84


Dos pelotas negras y una blanca 4C2 7C1 = 6(7) = 42
Tres pelotas negras y ninguna blanca 4C3 = 4
Luego,
Por lo menos una pelota negra = 84 + 42 + 4 = 130 maneras.

Ejemplo 30. Determina n en nC15 = nC11

Solución. Observa que nCr = nCn - r, por lo que de nC15 = nC11 se obtiene

nC15 = nCn -11 y 15 = n – 11.


Al resolver la ecuación se obtiene n = 26.

EJERCICIOS 4
1. Determina el valor de cada expresión
a) 8C3 b) 9C2 c) 11C4 d) 99C3

2. Un alumno tiene que escoger 5 preguntas de 9. ¿De cuántas maneras


puede hacerlo?

3. ¿Cuántas manos de cinco cartas se pueden tener con un mazo de 52


cartas?

4. En un juego, un participante escoge seis números, del 1 al 53. El boleto


cuesta $1. ¿Cuánto costaría comprar todas las combinaciones posibles de
seis números para asegurarse de obtener los seis números ganadores?

5. ¿Cuántas rectas determinan seis puntos?

6. ¿Cuántos grupos diferentes de 2 hombres y una mujer se pueden formar


con a) 7 hombres y 4 mujeres? b) 5 hombres y 3 mujeres?

7. ¿Cuántos grupos de investigación de 6 miembros se pueden formar con 5


físicos, 4 químicos y 3 matemáticos, de manera de que en cada grupo haya
3 físicos, 2 químicos y 1 matemático?

8. Una caja contiene 7 tarjetas rojas, 6 blancas y 4 azules. ¿De cuántas


maneras se pueden elegir tres tarjetas de forma que
a) todas sean rojas,
b) ninguna sea roja.

9. ¿De cuántas maneras puede un profesor escoger uno o más estudiantes de


6 elegibles?

10. Encuentra el valor de n si a) 4 nC2 = (n+2)C3 b) (n+2)Cn = 45 c) nC12 = nC8


PERMUTACIONES CON GRUPOS DE OBJETOS IGUALES
Objetivo de la clase:
Al finalizar esta clase, el alumno podrá:
• Utilizar la regla de las permutaciones con grupos de objetos iguales para
resolver problemas de conteo y utilizar las técnicas de conteo para
resolver problemas de probabilidad.

Hasta este punto, se han considerado permutaciones de objetos distintos. Es


decir, todos los objetos han sido por completo diferentes o distinguibles.

Por ejemplo, el número de permutaciones de las letras A, B y C es 6 y son


ABC, ACB, BAC, BCA, CAB y CBA. Si las letras B y C son iguales a X,
entonces las 6 permutaciones se convierten en AXX, AXX, XAX, XXA, XAX y
XXA, de las cuales sólo 3 son distintas. Por lo tanto, teniendo 3 letras, dos de
3!
las cuales son iguales, se tienen = 3 permutaciones distintas.
2!

Con 4 letras diferentes A, B, C y D, se tienen 24 permutaciones distintas. Si se


hace A = B = X y C = D = Y, se pueden listar sólo las siguientes: XXYY, XYXY,

4!
YXXY, YYXX, XYYX y YXYX. Las cuales se pueden determinar como
= 6.
2! 2!

Ejemplo 31. ¿Cuántas señales diferentes se pueden hacer con 5 banderas de


las cuales 2 son azules y 3 son rojas?

Solución. Utilizando un diagrama de árbol, tenemos:

1a. bandera 2a. 3a. 4a. 5a.


A R R R
A A R R
R A R
R
R A
A R R
A A R
R
R A
R A R
A
R R A
R
A A

Si las 5 banderas fueran todas diferentes tendríamos 5! = 120 señales distintas;


pero como son 2 de un color y 3 son de otro, entonces tendremos un número X
de arreglos que será menor que 5!. Ahora bien, si las 2 azules fueran
diferentes, tendríamos 2! formas de colocarlas y por la regla mn los X arreglos
deberían multiplicarse por 2!. Asimismo si las 3 rojas fuesen diferentes
tendríamos 3! formas de acomodarlas, y en total habría X ⋅ 2! ⋅ 3! Señales con
todas las banderas diferentes y este número debería ser igual a 5!, es decir, X ⋅
2! ⋅ 3! = 5!; despejando X tenemos
5!
X = .
2!3!
Generalizando, se tiene
Si un conjunto de objetos consiste de tipos distintos de objetos con
objetos del primer tipo, del segundo, del tercero, etc. siendo
, el número de permutaciones distinguibles de esos

objetos es: nPn1⋅n2⋅⋅⋅ nk = .

Observa que esto es una generalización de las combinaciones, más que de las
permutaciones. En efecto, las combinaciones de n en r no son otra cosa que
las permutaciones distinguibles de n objetos, de los cuales sólo hay dos tipos;
a saber: r objetos que son de un tipo (los que se toman) y el resto ( n − r ) de
otro (los que se dejan). En virtud de este hecho, se prefiere emplear una
notación que sugiera que las permutaciones distinguibles son la generalización
natural de las combinaciones:

⎛ n ⎞ n!
⎜ ⎟ =
⎝ n1 ,n2 ,...,nk ⎠ n1!n2!L nk !

Ejemplo 32. ¿De cuántas formas distintas se puede formar una fila de cinco
canicas rojas, dos blancas y siete azules?

Solución. Se trata de determinar el número de permutaciones distinguibles de


esas canicas. De acuerdo con la fórmula anterior, ese número es:

14!
= 72072.
5! 2! 7!
Ejemplo 33. Calcula la cantidad de permutaciones distinguibles cuando se
usan todas las letras de la palabra BEGINNING.

Solución. En la palabra dada hay 1B, 1E, 2G, 2I y 3N de un total de 9 letras.


Por lo tanto,
9! 9(8)(7)(6)(5)(4)(3!)
9P1,1,2,2,3 = = = 15,120.
1!1!2!2!3! 2(2)3!

Ejemplo 34. ¿Cuántos números diferentes pueden formarse con los dígitos 5,
6, 6, 7, 7, 7, 8, 8?

Solución. Hay 8 dígitos donde uno es 5, dos son 6, tres son 7 y dos son 8.
Luego,
8! 8(7)(6)(5)(4)(3)(2)
8P1,2,3,2 = = = 8(7)(6)(5) = 1680 números diferentes.
1!2!3!2! 1(2)(3)(2)(2)

EJERCICIOS 5
1. ¿De cuántas maneras se pueden formar una fila de dos canicas azules y
cuatro rojas?

2. Calcula cuántas permutaciones se pueden formar con las letras de la


palabra SOCIOLÓGICOS.

3. ¿De cuántas maneras se puede formar una fila con cuatro monedas de $1,
tres de $2, tres de $5 y dos de $10? (Las monedas son indistinguibles)

4. ¿De cuántas maneras se pueden repartir 7 juguetes entre 3 niños si el


menor recibe 3 y cada uno de los otros recibe 2?

5. ¿Cuánto números diferentes pueden formarse con 3, 4, 4, 6, 6, 6, 9, 9 si


usamos todos ellos?

6. ¿De cuántas maneras puede dividirse un grupo de 12 personas en tres


comités que no se sobrepongan, de tamaño 5, 4 y 3, respectivamente?

7. En una clase hay 12 estudiantes. ¿De cuántas formas se pueden presentar


3 pruebas diferentes si a cada prueba le corresponden 4 estudiantes?

8. Hay doce bolas en una urna. ¿De cuántas maneras se pueden sacar 3
bolas de la urna, 4 veces sucesivamente, todas sin sustitución?

9. Si se lanzan cuatro dados, ¿de cuántas maneras pueden caer de tal manera
que la suma de sus puntos superiores sea 16?
RESPUESTAS

EJERCICIOS 1. REGLA mn
1. 24 2. 21 3. 60 4. 720 5. 243 6.
17,576,000
7. 240 8. 36 9. 32,292,000 10. 1024

EJERCICIOS 2. FACTORIAL
1. 5040 2. 30 3. 40200 4. 90 5. 1320 6. 252
11
7. 27,720 8. 9 9. 10. a) V b) F c) F d) V
30
EJERCICIOS 3. PERMUTACIONES
1. a) 380 b) 6720 c) 2520 d) 120 2. 720 3. 1320
4. 210 5. 6840 6. 9744 7. a) 79833600 b) 3628800
c) 13305600 8. a) 120 b) 24 c) 48 9. a) 720 b)
1440
10. a) 20 b) 10

EJERCICIOS 4. COMBINACIONES
1. a) 56 b) 36 c) 330 d) 156849 2. 126 3. 2598960
4. $22,957,480 5. 15 6. a) 84 b) 30 7. 180 8. a)
35
b) 120 9. 63 10. a) 2 y 7 b) 8 c) 20

EJERCICIOS 5. PERMUTACIONES CON GRUPOS DE OBJETOS IGUALES


1. 15 2. 2,494,800 3. 277,200 4. 210 5. 1680
6. 27720 7. 34,650 8. 369,600 9. 125
PROBLEMAS DE PROBABILIDAD USANDO TÉCNICAS DE
CONTEO
En esta sección se presentan algunos problemas que te ayudarán a aplicar las
técnicas de conteo a problemas de probabilidad.

Recuerda que según la definición clásica de la probabilidad de un evento A, se


tiene que
número de casos favorables de A
P ( A) =
número de casos de S

Ejemplo 1. A causa de un error, 5 teléfonos defectuosos fueron empacados


con 15 buenos. Todos los teléfonos son iguales y tienen la misma probabilidad
de ser seleccionados. Se seleccionan tres.
a) ¿Cuál es la probabilidad de que los 3 sean defectuosos?
b) ¿Cuál es la probabilidad de que exactamente 2 sean defectuosos?
c) ¿Cuál es la probabilidad de que al menos 2 sean defectuosos?

Solución. El espacio muestral S consta del número de maneras en que 3


objetos pueden ser seleccionados de entre 20, esto es, el número posible de
combinaciones de 20 cosas tomadas 3 a la vez.

20! 20(19)(18)
η ( S ) = 20C3 = = = 1140
3!17! 6

Cada uno de estos resultados es igualmente probable que ocurra.

a) Si E es el evento “3 son defectuosos”, entonces el número de elementos


en E es el número de maneras en que 3 teléfonos defectuosos pueden ser
seleccionados de entre 5 teléfonos defectuosos; 5C3 = 10. Así la
probabilidad de E es
η ( E ) 10 1
P( E ) = = =
η ( S ) 1140 114
.
b) Si F es el evento “exactamente 2 son defectuosos” y se seleccionan 3
teléfonos, entonces el número de elementos en F es el número de maneras
en que 2 teléfonos defectuosos se pueden seleccionar de los 5 empacados
más un teléfono bueno de entre los 15 buenos. Lo primero puede hacerse
en 5C2 maneras y lo segundo en 15C1. Por el principio fundamental del
conteo, el evento F puede ocurrir en

5C2 15C1 = 10 (15) = 150 maneras

Por lo tanto, la probabilidad de F es

n( F ) 150 15 5
P( F ) = = = = .
n( S ) 1140 114 38
c) El evento G , “al menos dos son defectuosos”, cuando son seleccionados 3,
es equivalente a requerir que se seleccionen exactamente 2 o exactamente
3. esto es, G = E U F . Como E y F son mutuamente excluyentes (no es
posible seleccionar 2 teléfonos defectuosos y, al mismo tiempo, seleccionar
3 teléfonos defectuosos), encontramos
1 15 16 8
P(G ) = P( E ) + P( F ) = + = = .
1 1 4 1 1 4 1 1 4 57

Ejemplo 2. Una moneda es lanzada 6 veces.


a) ¿Cuál es la probabilidad de obtener 5 águilas y un sol?
b) ¿Cuál es la probabilidad de obtener entre 4 y 6 águilas, inclusive?

Solución. El número de elementos en el espacio muestral S se encuentra


usando el principio fundamental del conteo. Cada lanzamiento tiene como
resultado águila (a) o sol (s). Como la moneda es lanzada 6 veces, tenemos

η ( S ) = 2 ⋅ 2 ⋅ 2 ⋅ 2 ⋅ 2 ⋅ 2 = 26 = 64

Los resultados son igualmente probables ya que la moneda es legal.


a) Cualquier secuencia que tenga 5 águilas y un sol estará determinada una
vez que la posición de las 5 águilas (o de 1 sol) sea conocida. El número de
maneras en que podemos colocar 5 águilas en una secuencia de 6 es
6C5 = 6. La probabilidad del evento A: exactamente 5 águilas y un sol es:

n( A) 6 3
P( A ) = = =
n( S ) 64 32

b) Sea B el evento: entre 4 y 6 águilas, inclusive. Obtener entre 4 y 6 águilas


es equivalente al evento: 4 o 5 o 6 águilas. Como cada uno de estos eventos
es mutuamente excluyente (es imposible obtener 4 y 5 águilas cuando
lanzamos una moneda seis veces), tenemos

P( B ) = P(4 o 5 o 6 águilas) = P(4 águilas) + P(5 águilas) + P(6 águilas)


C C C 15 6 1 22 1 1
= 6 4+6 5+6 6 = + + = = .
64 64 64 64 64 64 64 32

Ejemplo 3. Una caja contiene 8 bolas rojas, 3 blancas y 9 azules. Si se extraen


3 bolas aleatoriamente sin reemplazo, determina la probabilidad de que
a) las 3 bolas sean rojas
b) las 3 bolas sean blancas
c) 2 sean rojas y 1 blanca
d) al menos 1 sea blanca
e) se extraiga una de cada color
f) las bolas sean extraídas en el orden rojo, blanco y azul.

Solución. a) Método 1.
Sean R1, R2 y R3 los eventos, “bola roja en la primera extracción”, “bola roja en
la segunda extracción”, “bola roja en la tercera extracción”, respectivamente.
Así R1 ∩ R2 ∩ R3 representa el evento “las 3 bolas extraídas son rojas”. De
esta manera tenemos
P(R1 ∩ R2 ∩ R3) = P(R1) P(R2|R1) P(R3| R1 ∩ R2 )
8 ⎞ ⎛ 7 ⎞ ⎛ 6 ⎞ 1 4
= ⎛⎜ ⎟ ⎜ ⎟ ⎜ ⎟ = .
⎝ 20 ⎠ ⎝ 1 9 ⎠ ⎝ 1 8 ⎠ 285
Método 2.
&
numero de grupos de 3 bolas entre 8 rojas
Probabilidad pedida =
&
numero de grupos de 3 bolas entre 20
C 1 4
= 8 3 = .
20C3 285

b) Empleando el segundo método indicado en el inciso a,

C3 1
P(3 bolas blancas) = 3
=
20C3 1 1 40

c) P(2 bolas rojas y 1 blanca) =


( )(
grupos de 2 entre 8 bolas rojas grupos de 1 entre 3 bolas blancas )
&
numero de g rupos de 3 bolas entre 20
8 C2 ( 3 C1 ) 7
= = .
20C3 95

Se te sugiere que termines el ejemplo y obtengas los siguientes resultados


23 18 3
d) , e) y f) .
57 95 95

Ejemplo 4. En una mano de póquer que consta de 5 cartas, encuentra la


probabilidad de que aparezcan 2 ases y 3 reyes.

1ª. Solución. Designando la probabilidad de obtener un as por P ( A) y la de


obtener un rey por P ( R ) , encontramos que la probabilidad de que las dos
primeras cartas sean ases y los tres últimos reyes es:

4 3 4 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞ 288 24
P = ⎛⎜ ⎞⎟ ⎛⎜ ⎞⎟ ⎛⎜ ⎟⎜ ⎟ ⎜ ⎟ = =
⎝ 52 ⎠ ⎝ 51 ⎠ ⎝ 50 ⎠⎝ 49 ⎠ ⎝ 48 ⎠ 31 1,875,200 25,989,600

Como los ases y los reyes se pueden aparecen en cualquier orden entonces el
5!
número de formas que pueden aparecer es 5P2,3 = = 10.
2 !3!
Por lo tanto la probabilidad solicitada es

24 24 1
10 = =
25,989,600 2,598,960 108290
2ª. Solución. El número de formas en que se pueden obtener 2 de 4 ases es
4!
4 C2 = =6
2!2!

y el número de formas en que se pueden obtener 3 de 4 reyes es

4!
4 C3 = = 4.
3! 1 !

Del principio fundamental del conteo, existen n = 6(4) = 24 manos con 2 ases y
3 reyes. El número total de manos de póquer de 5 cartas, todas igualmente
probables, es
52 !
N = 52C5 = = 2,598,960
5! 47 !
Por lo tanto, la probabilidad de obtener 2 ases y 3 reyes en una mano de
póquer de 5 cartas es
24
P= = 0.9 x 10-5.
2,598,960

Ejemplo 5. En una caja hay 9 bolas numeradas del 1 al 9. Si se extrae dos al


azar. ¿Cuál es la probabilidad de obtener
a) dos números impares? b) dos números pares?
c) un número par y otro impar? d) los números 2 y 5?

Solución. Observa que en las bolas numeradas hay 5 números impares y 4


pares.
C 10 5
a) P(dos números impares) = 5 2 = = .
9 C2 36 18
C 6 1
b) P(dos números pares) = 4 2 = = .
9 C2 36 6
C C 4(5) 20 5
c) P(un número par y otro impar) = 4 1 5 1 = = = .
9 C2 36 36 9
C 1
d) P(los números 2 y 5) = 2 2 = .
C
9 2 36

Ejemplo 6. De una baraja de 52 cartas se sacan tres naipes. Determina la


probabilidad de que:
a) sean todos ases
b) sean el as de tréboles, el de corazones y el de espadas, en este orden
c) sean todos tréboles
d) sean todos del mismo palo
e) no haya dos del mismo palo.

Solución. a) Hay 52C3 formas de sacar 3 cartas de la baraja de 52, y 4C3 de


sacar 3 ases de entre los 4. Luego,
C3 4 1
P(todos ases) = 4
= = .
52 C3 22100 5525
b) Hay 52P3 formas de sacar 3 naipes de la baraja de 52, teniendo en cuenta el
orden establecido, y solo existe un caso favorable. Luego,
1 1
P(as de tréboles, corazones y espadas) = = .
P
52 3 132600
c) Hay 13C3 formas de sacar 3 tréboles de entre 13. Luego,

C3 286 11
P(todos treʹ′boles) = 13
= = .
52 C3 22100 850

d) Hay 4 palos cada uno formado por 13 naipes. Por tanto, hay 4 formas de
que el naipe sea de uno de ellos, y 13C3 maneras de obtener 3 naipes de un
palo dado. Luego,
4 ⋅ 13 C3 4(286) 22
P(todos del mismo palo) = = =
52 C3 22100 425

e) Hay 4C3 = 4 formas de sacar 3 de los cuatro palos y 13(13)(13) maneras de


seleccionar un naipe de cada uno de los 3 palos dados. Luego,

4(13)(13)(13) 8788 169


P(no haya dos del mismo palo) = = = .
C
52 3 22100 425

Ejemplo 7. Hay 40 alumnos en un salón de clases. Si se hace una lista de sus


cumpleaños (mes y día del mes). ¿Cuál es la probabilidad de que dos o más
alumnos tengan el mismo cumpleaños?

Solución. Se supondrá que el año tiene solamente 365 días (ignorándose el


29 de febrero) y que cada uno de los días tiene la misma verosimilitud de
ocurrencia para el cumpleaños de cualquier individuo. El espacio muestral es el
conjunto de todas las 40 – adas posibles que podrían ocurrir para los
cumpleaños, numerando los días del año secuencialmente del 1 al 365. Por
tanto,
S = { ( x1 , x2 ,K , x40 ) : xi = 1,2,K ,365; i = 1,2,K ,40 },

La primera posición de cada 40 – ada da el cumpleaños del primer alumno; la


segunda posición da el cumpleaños del segundo alumno, etc. Suponiendo que
todos los días del año tienen la misma verosimilitud para indicar el cumpleaños
de cada alumno, esto implica que cada una de las 40 – adas tiene la misma
verosimilitud de ocurrir. Usando las técnicas de conteo, se obtiene que

h( S ) = 36540.

Se define A como el evento de que haya una o más repeticiones del mismo
número en cada 40 – ada. Entonces Ac es la colección de 40 – adas que no
tienen repeticiones; se puede ver con facilidad que:
h( Ac ) = 365 (364) (363) . . . (326) = 365P40
lo que da
n( Ac ) 365(364)(363)...(326)
P( Ac ) = = ≈ 0.109
n( S ) 36540
Como P( A) = 1 − P( Ac ) , se tiene que P ( A) = 1- 0.109 = 0.891.

Ejemplo 8. El número total de papeletas de una rifa es 20. Sabiendo que hay 2
premios, hallar la probabilidad que tiene un individuo que adquiere 2 papeletas
de que le toque a) los dos premios, b) ninguno de ellos, c) uno de los dos.

Solución.
a) El número de casos posibles es 20C2.
1 1
Luego la probabilidad de que le toquen los dos premios es = .
20 C 2 1 90
2 1
Otra solución. La probabilidad de que le toque el primer premio es = .
20 1 0
Después de haber salido el primer premio (él tiene una papeleta y hay 19
papeletas entre las que debe salir el segundo) la probabilidad de que le toque
1
el segundo premio es .
19
1 ⎛ 1 ⎞ 1
Luego la probabilidad de que le toquen los dos premios es ⎜ ⎟ = .
1 0 ⎝ 1 9 ⎠ 1 90
b) Hay 20 papeletas de las cuales 18 no tienen premio.

C2 1 53
Luego la probabilidad de que no le toque premio es 18
=
20 C2
1 90

Otra solución. La probabilidad de que no le toque el primer premio es:


2 9
1- = . Si no le toca el primero (él tiene dos papeletas) la probabilidad de
20 10
2 17
que no le toque el segundo premio es 1 - = .
19 19
9 ⎛ 17 ⎞ 153
Luego la probabilidad de que no le toque premio es ⎜ ⎟ = .
10 ⎝ 19 ⎠ 190

c) Probabilidad de que le toque uno de los dos premios = 1 – probabilidad de


que no le toque premio – probabilidad de que le toquen los dos premios.
1 53 1 36 1 8
=1- - = = .
1 90 1 90 1 90 95

Otra solución. Probabilidad de que le toque el primer premio, pero no el


2 ⎛ 18 ⎞ 9
segundo, ⎜ ⎟ = .
20 ⎝ 19 ⎠ 95
Probabilidad de que no le toque el primer premio pero si el segundo,
18 ⎛ 2 ⎞ 9
⎜ ⎟ = .
20 ⎝ 19 ⎠ 95
9 9 18
Luego la probabilidad de que le toque uno de los dos es + = .
95 95 95
EJERCICIOS

1. De una baraja de 52 naipes, se sacan cinco al azar sin reemplazo. ¿Cuál es


la probabilidad de que todos sean
a) rojos?
b) diamantes?

2. Calcula la probabilidad de que al repartir una mano de 13 cartas, de una


baraja de 52, se obtengan cinco espadas, dos corazones, tres diamantes y
tres tréboles.

3. En una sala se encuentran 6 personas. Determina la probabilidad de


cuando menos 2 tengan el mismo mes de nacimiento.

4. Se somete a un estudiante a un examen del tipo verdadero – falso que


contiene 10 preguntas; para que apruebe, debe responder correctamente a
8 preguntas o más. Si el estudiante está adivinando, ¿cuál es la
probabilidad de que apruebe el examen?

5. De una baraja de 52 naipes se extraen 4. Encuentra la probabilidad de que:


a) todos sean reyes
b) dos sean reyes y dos sean ases
c) todos sean del mismo palo
d) todos sean tréboles

6. Entre 5 hombres y 4 mujeres se tiene que formar un grupo de tres


miembros. Si la selección se realiza al azar, encuentra la probabilidad de
que
a) las tres sean mujeres
b) dos sean hombres

RESPUESTAS

253 33 28710396
1. a) b) 2. ≈ 0.1293 3. 0.777
9996 66640 2220327131
56 1 36 44 11
4. 5. a) b) c) d)
1024 270725 270725 4165 4165
1 10
6. a) b)
21 21
BIBLIOGRAFÍA

1. Howard B. Christensen, “Estadística paso a paso”.


Trillas. México, 1983.

2. Robert Jonson y Patricia Kuby, “Estadística elemental, lo


esencial”, 2a. Edición. Internacional Thomson Editores.
México, 1999.

3. Zuwaylif, “Estadística general aplicada”. Fondo


Educativo Interamericano. México, 1997.

4. Piotr M. Wisniewski y Guillermo Bali, “Ejercicios y


problemas de teoría de las probabilidades”. Trillas.
México, 1998.

5. Piotr M. Wisniewski y Gabriel Velasco, “Problemario de


probabilidad”. Thomson. México. 2001.

También podría gustarte