1

PROBABILIDAD Y ESTADÍSTICA I

Los estudiantes desarrollarán capacidades y habilidades a través del análisis de
problemáticas relacionadas con su entorno, para aplicar la probabilidad y la estadística en los
campos de la investigación, el desarrollo tecnológico y el medio ambiente, para resolver los
problemas que se les presenten.


























ESTADÍSTICA
DESCRIPTIVA
VARIABLES Y
REPRESENTACIONES
DISTRIBUCIONES DE
FRECUENCIAS
MEDIDAS DE
TENDENCIA CENTRAL
MEDIDAS DE
DISPERSIÓN
- Introducción
- Población y
muestra
- Variables
discretas y
continuas.
- Redondeo de
datos.
- Notación
sistematizada.
- Cifras
significativas.
- Cálculos.
- Toma de datos.
- Ordenación.
- Distribuciones de
frecuencias
- Intervalos de clase.
- Limites de clase.
- Limites reales de clase.
- Tamaño del intervalo
de clase.
- Marca de clase.
- Histograma y polígonos
de frecuencia.
- Distribuciones de
frecuencia.
- Distribuciones de
frecuencia acumulada.
- Distribuciones de
frecuencia relativas
acumuladas.
- Promedios.
- Media.
- Mediana
- Moda
- Cuartiles.
- Deciles.
- Percentiles.
- Regresión lineal

- Dispersión.
- Rango.
- Desviación media.
- Rango
semiintercuartílico.
- Rango entre
percentiles.
- Desviación típica.
- Varianza.
2


















CATEGORÍAS: DIVERSIDAD, ESPACIO Y TIEMPO

VALORES:
LIBERTAD, JUSTICIA, SOLIDARIDAD


PROCEDIMENTALES:
Investigar, Clasificar, Debatir, Ordenar,
Comunicar, Representar, Estimar, Predecir,
Experimentar, Trazar, Graficar, Observar,
comprobar.

PROBABILIDAD
INTRODUCCIÓN PERMUTACIONES Y
COMBINACIONES.
PROBABILIDAD
AXIOMÁTICA
PROBABILIDAD PARA
EVENTOS SUCESIVOS
- Antecedentes.
- Conceptos básicos
- Modelos
matemáticos.

- Selecciones
sucesivas.
- Diagramas de árbol.
- Proceso de contar.
- Subconjunto.
- Combinaciones.
- Teorema del
binomio.
- Eventos
complementarios.
- La probabilidad de la
unión de eventos.

- Probabilidad
condicional.
- Eventos
independientes.
- Teorema de Bayes.
- Selecciones al Azar.
3
INDICE

PRIMERA PARTE ESTADÍSTICA DESCRIPTIVA

. Encuadre sugerido para el curso .................................................................................5
. Introducción. “El método científico” ..................................................................... 8
. Secuencias Didácticas (de la 1 a la 10) ....................................................................... 11
. Capítulo 1. Conceptos básicos. ................................................................................ 24
. Ejercicios Capitulo 1 .................................................................................................. 37
. Capitulo 2.
. Descripción gráfica de un conjunto de datos. (tablas estadísticas) ............................ 40
. Ejercicios construcción de tablas estadísticas ............................................................ 49
. Distribuciones de frecuencias datos no agrupados...................................................... 52
. Distribuciones de frecuencias datos agrupados .......................................................... 54
. Ejercicios relativos a distribuciones de frecuencias .................................................... 60
. Descripción gráfica (reglas para la representación grafica) ........................................ 62
. Ejercicos relativos a la descripción gráfica ................................................................ 84
. Descripción numérica de un conjunto de datos ........................................................... 89


SEGUNDA PARTE TEORÍA DE LA PROBABILIDAD

. Introducción. Conceptos básicos. ................................................................................. 100
. Definición y propiedades de la probabilidad ................................................................. 102
. Probabilidad bajo el enfoque clásico. ............................................................................ 103
. Probabilidad bajo el enfoque de frecuencia relativa y la ley de los grandes números….. 105
. Probabilidad subjetiva y probabilidades a favor. .......................................................... 107
. Reglas básicas para combinar probabilidades. ............................................................. 111
Regla general para la adición de probabilidades.
Diagramas de Venn
Regla de la multiplicación para eventos independientes.
. Ejercicio relativos a los conceptos básicos de la probabilidad ...................................... 116
4
. Distribuciones de probabilidad. Introducción. ............................................................ 120
Variables aleatorias, continuas y discretas
Función de probabilidad y función de distribución
. La distribución binomial. ............................................................................................ 125
. Ejercicios relativos a distribución binomial ............................................................... 130
. La distribución normal. ............................................................................................... 131
. La distribución normal estándar ................................................................................. 133
. Ejercicios relativos a distribución normal ................................................................... 136
. Regresión lineal simple. ............................................................................................... 138
. Bibliografía .................................................................................................................. 142































5
PRIMERA SEMANA Actividad 1 Encuadre (sugerencia 5 horas Total)

Primera clase Presentación del curso por parte del profesor: Se sugiere que el profesor inicie la
primera sesión presentándose (también puede presentarlo algún alumno que lo conozca) y pidiendo a
los alumnos que se presenten, la dinámica puede ser sentados en semicírculo y que cada alumno
presente a un compañero, (nombre y pasatiempo favorito). Otro modo puede ser que escriban 5 de las
mejores cosas que han hecho en la vida y las utilicen como carta de presentación o bien que entre
compañeros se presenten señalando 3 aspectos positivos.

Segunda sesión El profesor con aportaciones de los alumnos reseñará brevemente las respuestas a las
siguientes preguntas: ¿Qué es la estadística? ¿Para que sirve la estadística? ¿De qué trata este curso? Se
presentarán los contenidos del curso, aunque ya están impresos en su libro de texto, se sugiere
presentarlos a groso modo a través de un mapa conceptual en el pizarrón.

Tercera sesión (2 Horas) Se presentará el horario de la materia y se tomarán acuerdos para la
calificación, sugerencia;

1. Evaluación teórico conceptual, mediante dos exámenes parciales y un final ......... 40 puntos.
2. Actitudes, participación, disposición al trabajo, asistencia ...................................... 10 puntos.
3. Acciones practicas (resolución de ejercicios en clase) .................................... 10 puntos.
4. Acciones practicas, resolución de ejercicios tareas extraclase ......................... 10 puntos.
5. Presentación de resultados estadísticos en una investigación real “caso” ........ 20 puntos.
6. Servicio social. Adopta un abuelo (3 servicios 10 Hrs. al menos documentados)…. 10 puntos

Los criterios anteriores se podrán modificar por acuerdo con los alumnos, y se sugiere que firmen una
lista en la cual estén definidos los criterios aceptados por el grupo.

Se sugiere también hacer las siguientes preguntas a los estudiantes: (Cada alumno deberá entregar sus
respuestas por escrito al profesor -debidamente firmadas-, para su análisis extraclase)
- ¿Qué esperas de este curso?
- ¿Que esperas de este profesor y que le sugieres para que se logren las metas?
- ¿Qué te gustaría que sucediera durante este próximo semestre en esta materia?
6
- ¿Qué no te gustará que ocurriera en esta materia?
- ¿A que estas dispuesto(a) a comprometerte para que todo funcione bien en este curso?

Quinta sesión. Finalmente se puede pedir que realicen la siguiente tarea, la cual podrá ser compartida
en plenaria:

Tarea de primera semana
Desde Google busque estadística, (si es necesario puede consultar otras fuentes –vea la bibliografía
sugerida-) luego haga un recuento de cuantos países tienen un instituto nacional de estadística u oficina
nacional de estadística, ¿Qué función tienen estos institutos?

Ahí mismo visite otros sitios y responda a las siguiente preguntas: (Puede ir a la página
http://www.usuarios.lycos.es/esantoyo vaya al link UDG y luego a maestría, luego estadística y luego
a guía estadística, ahí encontrará algunas cosas de las que busca)

1. ¿A quién se atribuye la frase "Todas las oscuridades que presenta nuestra sociedad podrían ser
iluminadas por la Estadística" ?

2. ¿Qué es la estadística? haga un resumen del origen e historia de la estadística.

3. ¿Cuales son los registros más antiguos que se mencionan acerca de la estadística y a que cultura se
refieren? ¿Egipcios, sumerios, Judíos, Chinos, Aztecas ?

4. ¿Para que sirve la estadística? señale y explique al menos 10 usos reales o potenciales de la
estadística.

5. Estadística y computación. Explique como se relacionan ambas, y que paquetes (software) son los
más utilizados en estadística.

6. Diga porque frecuentemente se dice que la estadística es una mentira.

7. En la página de esantoyo en la misma guía de estadística al final lea como apoya la estadística al
método científico y explíquelo.

8. Dado que tu país es México consulta las páginas http://www.siea.sagarpa.gob.mx
http://www.inegi.gob.mx y la página de la PROFECO ¡¡¡ están muy interesantes!!!

9. ¿Señala que aprendiste de la actividad número ocho?


7
Vaya al sitio del INEGI, o busque INEGI México en cifras, desde cualquier motor de búsqueda, o bien
teclee SIMBAD sistema municipal de base de datos del INEGI, en la parte superior izquierda de la
página principal “Estadísticas” despliegue la pestaña y elija la información que le interese, o si lo
prefiere consulte ahí mismo “indicadores estratégicos de ocupación y empleo”
http://www.inegi.org.mx/sistemas/tabuladosbasicos2/indesttrim.aspx?c=26232&s=est también puede
teclear directamente;
http://www.inegi.org.mx/sistemas/mexicocifras/MexicoCifras.aspx?e=0&m=0&sec=M&ind=1005000
001&ent=0&enn=Estados%20Unidos%20Mexicanos&ani=2010&src=0


Otros sitios de interés:

1. http://español.dir.yahoo.com/ciencia_y_tecnología/matemáticas/estadística/
2. http://www.mor.itesm.mx
3. http://www.qro.itesm.mx
4. http://www.estadistica.unam.mx
5. http://www.dgeec.gov.py
6. http://xue.unalmed.edu.co
7. http://www.cft.gob.mx
8. http://www.consulta.mx/

10. Agregue usted dos sitios diferentes –INTERESANTES- donde se pueda hallar información
estadística importante y señale que tipo de información es.









8
INTRODUCCIÓN


EL MÉTODO CIENTÍFICO

En su primera etapa, el método científico requiere observar la realidad, registrando los hechos
observados, con frases del lenguaje ordinario del tipo de:

a) Se lanzó una moneda tres veces, primero salió águila, luego sol y después también sol.
b) En un tubo de ensayo se mezcló agua con ácido sulfúrico, la mezcla se calentó y hubo una
disminución de volumen del 10%
c) Se quito el tope a los precios y estos se dispararon; luego vinieron demandas de aumento salarial en
el sector obrero.
Acerca de estas situaciones se pueden plantear las siguientes interrogantes: Muy bien, al lograrse tales
y cuales condiciones, se observaron tales y cuales resultados, pero, ¿será que siempre que se den las
mismas condiciones se producirán idénticos efectos? ¿Qué pasa si se cambian dichas condiciones por
otras?
Para contestar a estas preguntas el ser humano recurre a una segunda etapa del método científico que
es la Experimentar con la realidad, de tal manera que podamos decir si son falsos o verdaderos los
enunciados del tipo de “si se dan las condiciones P entonces se tendrá el resultado Q” o más
brevemente, “si P entonces Q”. En su forma más general, dicha experimentación consistirá en
reproducir las condiciones P y ver si se registra o no Q.
Una vez que se ha establecido la validez del enunciado “si P entonces Q”, éste puede entonces usarse
con fines de predicción, para orientar la toma de decisiones, al indicar que debe que “debe generarse la
condición P para que se de Q” o “no deben generarse las condiciones P, pues de hacerlo se dará Q”.
Debe hacerse notar que la validez de un enunciado general del tipo “si P entonces Q” nunca es
definitivo; siempre se esta a la espera de que la evidencia experimental acumulada en el futuro lo
desmienta.
Las leyes obtenidas en las dos etapas anteriores pueden combinarse entre sí para dar lugar a una teoría.
En ella se verá que algunos de esos enunciados se pueden deducir a partir de otros más generales,
mediante un proceso de deducción lógica. (Método inductivo primero y luego deductivo). No sólo esto,
9
sino también por la deducción se puede enriquecer la teoría con nuevos enunciados que, aún no
observados, constituyen predicciones susceptibles de ser verificadas mediante experimentos. De esta
confrontación con el experimento resultará una teoría enriquecida, si las predicciones se confirman, o
disminuida en caso contrario.
Esto es en breve, una reseña del quehacer del hombre en busca de conocimiento cuando sigue el
método científico, y la podemos ilustrar mediante el siguiente diagrama de flujo:














Si No



El método científico: Diagrama de flujo

Nótese el papel tan importante que juegan la observación y la experimentación en la aplicación del
método científico. En cuanto a la deducción de las consecuencias que se obtienen de las premisas de la
teoría es una actividad primordialmente lógica. Requiere que la teoría se exprese en una buena sintaxis,
y en ese sentido la matemática ha prestado grandes servicios a la ciencia, al servicio de la cual pone su
buena construcción lógica para las deducciones.
Observación y
experimentación
Formulación de
teorías
Deducción de
predicciones
Nuevos
experimentos
¿Concuerdan las
predicciones con el
experimento?
10
Los resultados de la experimentación se denominan datos y la primera parte de este curso de estadística
(estadística descriptiva) se encarga del manejo de datos empíricos; recopilación, ordenamiento,
procesamiento, interpretación y descripción de resultados.
En una segunda parte se estudian las leyes de la probabilidad y los modelos matemáticos adecuados a
los fenómenos en los que interviene el azar lo cual es el soporte para la estadística inferencial –tercera
parte-, la cual trata de los modos de obtener información acerca de una población para modelar mejor
sus características, básicamente los modos de extraer información sobre una población solamente a
partir del análisis de algunos individuos, suponiendo que estos constituyen una muestra representativa.
Es importante hacer esto, pues a menudo experimentar con toda la población resulta costoso, y a veces,
de hecho, es imposible.
































11
A partir de segunda semana. Secuencia 1 Conceptos básicos.
Día 1º Apertura
En torno a los conocimientos previos, se propiciará una lluvia de ideas sobre conceptos y
procedimientos comunes en torno a la actividad de desarrollo, Iniciado con los conceptos básicos
acerca de la estadística; Primer momento en equipos de 3 integrantes construyan (elaboren) una
definición, puedes consultar tu libro texto o no consultar libros, de los siguientes conceptos;
a. Estadística.
b. Estadística Descriptiva.
c. Estadística Inferencial.
d. Muestra.
e. Muestreo.
f. Variables, Cualitativas (nominales)
g. Variables cuantitativas (ordinales y cardinales).
h. Medidas de tendencia central.
i. Medidas de dispersión.
j. Rango y amplitud.
k. Frecuencia.
l. Clases, grupos e intervalos.
m. Probabilidad.
n. Nivel o grado de confianza.
o. Planteamiento y prueba de hipótesis.
p. Correlación y regresión.
q. Cuartiles, deciles y Percentiles.
r. Población o universo
s. Muestra.
t. Elemento o unidad esencial
Desarrollo
En un segundo momento, buscar (rigurosamente) las mismas definiciones ahora en su libro de
texto, (también podrá consultar otras fuentes, por ejemplo, la bibliografía sugerida en físico o en
internet, si lo consideran necesario y/o conveniente se podrán redefinir los conceptos construidos en el
primer momento.
12
Cierre
Finalmente en una sesión plenaria se pondrá en común todos los conceptos tratados y se llegará a una
definición común a todo el grupo, para cada concepto.

Secuencia 2 Variables cuantitativas y cualitativas
Apertura. Reúnete en equipos de tres integrantes y responde a lo siguiente;

a) Considerando algunos aspectos físicos, emocionales, intelectuales u otros, de los seres
humanos, enumera al menos 20 variables o características que puedan ser observados o
medidos.
Enumera ahora 15 características que se pueden observar en un animal cualquiera.

Enumera otras 15 características que se pueden medir en una organización, fábrica o empresa,
equipo deportivo, etc.

b) De las características que mencionaste en los incisos anteriores señala 20 de aquellas que si
puedas medir o pesar o cuantificar. (Variables cardinales)

De las características que mencionaste en los incisos anteriores señala 20 de aquellas que sólo
puedas observar pero que no se pueden medir. (Variables nominales)

Finalmente señala 5 características que no se puedan medir o pesar y que además de ser
observables puedan tener un sentido de orden. (Variables ordinales)

Desarrollo
A partir de tu lista de variables de los seres humanos, elige una o varias características que te parezcan
interesantes o necesarias de conocer de los alumnos de tu grupo. Realiza una medición real de la o las
características elegidas en las personas de tu grupo, (la característica debe ser medible en términos de
cantidad) registra en tu libreta los datos obtenidos y consérvalos pues los necesitarás en futuras tareas.
Define con precisión cual es tu universo o población, tu muestra y tu unidad de observación, puede ser
sólo tu grupo o el turno o toda la escuela, etc.

13
Cierre.
- Reescribe la definición de variables cardinales (continuas y discretas), ordinales y nominales,
escribe un ejemplo de cada una de ellas.
- Responde a los ejercicios que se presentan en las páginas 37 a 39 (subtitulo 1.2) de tu libro
de texto.


Secuencia 3 Tablas estadísticas
Apertura. Por equipos de tres integrantes responda a las preguntas planteadas. Si lo desean pueden
buscar la información en su libro texto o en otras fuentes citadas en la bibliografía.

¿Qué es una tabla estadística?
¿Cuál es la utilidad de construir tablas estadísticas?
¿Cuáles son los elementos necesarios –indispensables– que debe contener la tabla estadística?

Desarrollo. A continuación, con la información dada, construye la tabla estadística correspondiente y
anéxale la columna de frecuencias porcentuales. Si se considera necesario se pueden observar los
ejemplos correspondientes en el libro texto, p. 40-49

El Anuario estadístico 2011, del Centro de Bachillerato Tecnológico industrial y de servicios 226 ,
informa que, de los 388 alumnos egresados en este año, 130 egresaron de la especialidad de
administración, 155 de Informática, 86 de contabilidad, 78 de electrónica y 35 de Mantenimiento
industrial.

Con la siguiente información construye otra tabla estadística;
Según información del anuario estadístico del estado de Jalisco a partir del apartado de medio
ambiente, http://www.inegi.org.mx/est/contenidos/espanol/sistemas/sisnav/default.aspx?proy=aee&edi=2009&ent=14 se
registraron –durante el año 2008– en el estado, 643 incendios con un total de 23,932 Hectáreas
afectadas, 12,481 de pastizal, 9,576 hierbas y arbustos, 773 de renuevo y 1,102 de arbolado adulto. El
estado de Jalisco se divide en 12 regiones Norte, Altos Norte, Altos Sur, Ciénaga, Sureste, Sur, Sierra
de Amula, Costa Sur, Costa Norte, Sierra Occidental, Valles y Centro, investigue más información y
presente la tabla por regiones.
14
a) De modo similar al ejercicio anterior y desde el mismo apartado de medio ambiente, presente
tablas estadísticas que informen acerca de los rubros Volumen de basura recolectada por región
(en el estado de Jalisco), y señale cuál es el municipio con mayor volumen de basura generada
per cápita.

b) A partir de información del anuario estadístico de Jalisco, señale el mínimo, el promedio y el
máximo de los volúmenes de concentración de los principales contaminantes atmosféricos en la
zona metropolitana de Guadalajara en 2008, según nivel de concentración en particular el
Ozono y el Plomo.

c) A parir del apartado indicadores financieros, observe la tabla estadística “Tasas de interés
netas mensuales de los depósitos a plazo fijo y de los pagarés con rendimiento liquidable al
vencimiento 2008”, responda a lo siguiente: si usted tuviera que invertir $50,000ºº durante un
año, ¿en que cuenta los habría invertido y cuánto ganaría a final de año por concepto de
intereses? Considere que el objetivo es ganar la mayor cantidad posible.

d) Visite http://www.banxico.org.mx/ busca el apartado “informe sobre la inflación Junio 2011” y
a partir de una tabla estadística, señala cual fue el producto con mayor y menor porcentaje de
variación mensual y cual fue su incidencia en la inflación en Junio de 2011.

e) En un texto de cinco renglones explica como se calcula la inflación mensual.

Cierre
A partir de los datos obtenidos de tus compañeros de grupo, presenta una tabla estadística que muestre
alguna de las características observadas.







15
Secuencia 4 Tablas estadísticas
Apertura. Realiza las lecturas Terminología relativa a datos agrupados y Agrupamiento en intervalos
de clase –página 55 a 59–. Responde a las siguientes preguntas:
a) ¿Qué es y para que sirve una tabla estadística?
b) Define “intervalo de clase”
c) ¿Cuál es un número adecuado de intervalos de clase?
d) ¿A que se refiere el término categoría numérica de una variable?
e) ¿Cómo se calcula una marca de clase?
f) Define “Límites o fronteras de clase” (reales y aparentes)
g) ¿A qué se refiere el término distribución en clases y frecuencias?
h) Defina “amplitud o anchura aparente de una clase”
i) Exprese en dos renglones como –supuestamente– se distribuyen los datos dentro de una clase
j) ¿A qué se refiere la frase “evitar que los datos originales se traslapen en los intervalos”?

Desarrollo.
A partir de los siguientes Datos construye una tabla estadística que muestre la información de modo
conciso, averigua la información necesaria para completar “exhaustivamente” los datos que debe tener
las tablas.

Calificaciones del grupo de estadística (2011-A ) primer examen parcial
9.5 5.8 7 7.5 10 8.5
6.5 6.5 9 7 2.5 7.5
5.5 7.7 8 8 3.5 9
9.5 8.5 8.5 8 8 9.5
7.5 8 6.5 9 9 7
8.5 9.5 5 8 6 7

Porcentajes cambiarios en 30 valores de la bolsa de valores en un día.
6.6 0.4 5.7 1.5 -2.1
2.2 8.3 -1.8 2 -3.9
2.3 -1.9 -2 1.6 4.8
-0.9 -1.4 7.4 5.2 4
7.9 0 -1.3 2.5 2.3
-0.4 -0.8 6.1 5.8 -3




16
Tiempos de coagulación en minutos al pinchar 32 dedos.
1.42 1.38 1.42 1.46 1.21 1.49 1.41 1.66
1.42 1.4 1.37 1.39 1.45 1.23 1.48 1.43
1.42 1.57 1.46 1.41 1.36 1.4 1.37 1.4
1.37 1.38 1.34 1.32 1.33 1.42 1.27 1.36


Cierre
Resuelve los ejercicios del apartado correspondiente que se muestran en la página 60.



Secuencia 5 (Medidas de tendencia central datos no agrupados)
Apertura
Lluvia de ideas sobre conceptos y procedimientos comunes en torno a las medidas de tendencia central
media (promedio), mediana (valor que queda a la mitad de la distribución) y moda (como el valor que
más se repite), intervalo (como una forma de clasificar o categorizar la información), de modo que se
cuente con una idea inicial suficiente para realizar la actividad.
Desarrollo
a) La siguiente información muestra el número de hermanos en 20 familias diferentes. Observe la
información y señale el valor promedio que mejor represente a este conjunto de datos, Expresa ese
valor promedio en términos de palabras.

1, 3, 5, 6, 5, 5, 2, 3, 7, 5, 4, 5, 3, 2, 6, 5, 3, 0, 4, 5

b) Señala a continuación el valor (número) que divide o separa en dos partes, al 50% de los que más
tienen y al 50% de los que menos tienen (hermanos). Exprésalo en palabras.

c) Ahora escribe el número que más veces se repite y expresa esto en palabras, es decir, describe a este
grupo de familias en términos que cuál es el número de hijos que más frecuentemente aparece en estas
familias.



17
Cierre
Investiga en tu libro texto los conceptos de Media, mediana y moda y escríbelos. Replica lo que
realizaste en las actividades a, b y c, con la información que obtuviste de la variable medida en tu grupo
en la secuencia anterior.



Secuencia 6 (Medidas de tendencia central datos agrupados)
Apertura
Lluvia de ideas sobre conceptos y procedimientos comunes en torno a las medidas de tendencia central
media (promedio), mediana (valor que queda a la mitad de la distribución) y moda (como el valor que
más se repite), intervalo (como una forma de clasificar o categorizar la información), de modo que se
cuente con una idea inicial suficiente para realizar la actividad.
Desarrollo

La siguiente gráfica muestra las calificaciones de un grupo de estudiantes.


Señalar:
a) De qué tipo de gráfica se trata.
b) Cuál es el ancho de intervalo.
6.00 8.00 10.00
Calificaciones
0
1
2
3
4
5
6
A

l

u

m

n

o

s

C a l i f i c a c i ó n
18
c) Cuántas veces aparece la calificación 7.
d) Cuál es la moda.
e) Cuál es la mediana.
f) Cuál es el promedio o media.
g) Cuántos datos son en total.

Al final de esta actividad, busque la definición de histograma y gráfica de barras, señale en que
radica la diferencia entre ambos, así como las propiedades del primero.

Cierre
A continuación los alumnos tendrán que replicar lo que hicieron en el ejercicio anterior, pero aplicando
lo aprendido en otra situación de su interés, definida en la actividad siguiente.
Se pide a los estudiantes construir una gráfica similar para la siguiente lista de datos, que se refieren al
número de novias/os que han tenido los alumnos de un grupo, y encontrar las mismas medidas
señaladas en los incisos d, e y f de la actividad anterior.

Alumna 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Novios 3 5 6 7 1 2 2 3 1 2 3 4 5 3 1 1 2 2 3 2


Secuencia 7 Descripción grafica de un conjunto de datos
En el siguiente link encontrará el número de pacientes atendidos por adicciones en Jalisco durante
2005; http://www.inegi.gob.mx/est/contenidos/espanol/sistemas/aee06/estatal/jal/index.htm vaya al
apartado 5 “salud” y luego al 5.17 “pacientes farmacodependientes atendidos por organismos no
gubernamentales, por sexo, grupo de edad y grado de dependencia, 2005”. Construya un histograma
con esta información (por rangos de edad) y calcule e interprete medidas de tendencia central.

Elaborar grafico circular con información de personas atendidas por grados de dependencia, es decir,
calcule los porcentajes correspondientes a cada grado de dependencia y luego expréselos en una grafica
circular, (de pastel), una guía detallada de cómo se elabora una grafica de este tipo, la puede encontrar
en este texto, página, 63.

19
Porcentajes. Nuevamente desde, el mismo sitio del inegi http://www.inegi.gob.mx/est/contenidos etc.
Vaya al apartado 6 “educación, cultura y deporte”, sub-apartado 6.2 población de 6 años y más por
región y municipio según condición para leer y escribir y sexo. Calcule porcentajes por región y dentro
de región SUR haga un comparativo entre los diferentes municipios y señale cual de ellos es el más
aventajado y cual el menos aventajado.
Observe el cuadro y la grafica en el apartado G6.1 y señale que errores contiene al presentar la
información, diga como la presentaría usted. Realice lo mismo con la grafica G6.2 ¿a que población se
refiere? ¿De que cantidad habla?

Secuencia 8

Apertura
1.- El facilitador destaca la importancia del conocimiento de una población a partir de la
descripción adecuada de una variable en la vida cotidiana. ¿Cómo analizarías a una población o
grupo si necesitas conocer algunas características de la misma?
3.-El facilitador obtiene los conocimientos previos del alumno: Por medio de una lluvia de ideas
en donde se destaque la necesidad de investigar diferentes características poblacionales.
4.- El facilitador plantea una situación problemática en la cual deduzca y analice la importancia de
manejar el tema a abordar, relacionándolo a las acciones y experiencias de la vida real. ¿Qué
pasaría si no sabes como se realiza un estudio de una población a partir de la descripción adecuada
de una variable, y que conclusiones se podrían extraer al respecto de esa población?

Desarrollo
Este ejercicio tiene como finalidad ponerlo en contacto con la realidad socioeconómica de su localidad,
en sus diferentes aspectos. Para ello se sugieren las siguientes actividades:

a) Diseñe una forma para vaciar los datos de una encuesta que contenga preguntas sobre:
- Padre: Edad, ocupación, grado de escolaridad, ingresos mensuales, medio de transporte a su
trabajo, y tiempo que emplea viajando entre su hogar y el lugar de trabajo.
- Madre: Edad, ocupación, grado de escolaridad, ingresos mensuales, medio de transporte a su
trabajo, y tiempo que emplea viajando entre su hogar y el lugar de trabajo.
- Hijos: Número, sexo, edad, ocupación y grado de escolaridad de cada uno.
20
- Casa: es propia o alquilada; valor de la propiedad o renta mensual, según corresponda.
- Necesidades: Gasto mensual del hogar en alimentación, transporte, vestido, salud y diversiones;
por separado.
- Salud: Número de visitas al medico el año anterior por motivo de enfermedad y dinero invertido
en este rubro.
- Orígenes: Edad, ocupación y grado de escolaridad alcanzado por cada uno de los abuelos.

b) Seleccione una colonia Más rica y otra Más pobre que la suya.
c) Visite diez casas de su colonia y otras diez de cada una de las dos colonias seleccionadas en el punto
d) Aplique el cuestionario que usted diseño en a) a cada uno de las treinta familias.
e) Escriba una composición acerca de las impresiones que recibió durante las visitas.
f) De los datos obtenidos, dé el porcentaje de los ingresos de cada familia que se destina a
alimentación, transporte, vestido y diversiones.
g) ¿Cómo se relaciona cada uno de los porcentajes anteriores con el estrato socioeconómico de la
población?

Cierre

Los equipos expondrán en plenaria el desarrollo de sus trabajos y sus conclusiones, las conclusiones
pueden abordar aspectos como calidad de vida (salud, alimentación, vivienda, vestido, empleo, etc.) y
nivel educativo.











21
Secuencia 9 Medidas de dispersión


A
P
E
R
T
U
R
A


Solicitar a las estudiantes que lleven el dato real o un estimado del monto del último recibo
telefónico, para quienes cuenten con ese servicio. Una vez listados en el pizarrón, se les pide que
los agrupen por intervalos revisar la parte correspondiente en su libro de texto Página 55-60 y que
obtengan las siguientes medidas:
a) Rango.
b) Media, mediana y moda. Páginas
c) Percentiles 25% y 75%, para el resumen de cinco puntos.


D
E
S
ARRO
L
L
O

Luego se pide a los estudiantes consultar la parte correspondiente en su libro de texto para sacar la
varianza y la desviación estándar página 89-93, por intervalos o
2
, o, junto con las sumatorias
correspondientes. Se orienta su atención hacia esos componentes y su significado.
Para comparar, se induce a la obtención de la desviación estándar a partir de los datos simples,
utilizando la calculadora científica o el programa Excel. Luego se proceda a calcular empleando la
fórmula. Se completa con la varianza y el coeficiente de variación. En esta parte, se introducen
preguntas generadoras que ayuden a la construcción de significado a las estudiantes sobre las
medidas. Por ejemplo:
- ¿Dónde hay más desviación?
- ¿Es mucha o poca? ¿Por qué?
- ¿Qué significa eso sobre el fenómeno?


C
I
E
RR
E

Parte I:

Se solicita a las estudiantes que recuperen en sus palabras los conceptos implicados y los
procedimientos que hicieron.

Parte II:

Réplica con otro tipo de datos (por ejemplo, del ingreso familiar).













22
Secuencia 10 Descripción gráfica y analítica de un conjunto de datos. RESUMEN


A
P
E
R
T
U
R
A


Analizar el siguiente problema y resolverlo en forma individual:
Partiendo de los estándares establecidos por el sector salud como ideales, relativos al peso,
estatura y edad de las personas (indicar tabla, citando fuente de información,); obtener los datos de
tu grupo, referentes al peso y estatura de cada uno de sus integrantes, agrupar los datos obtenidos,
calcular las medidas de centralización, contrastar las medidas obtenidas con las medidas ideales
enunciadas en la tabla, indicar en que porcentaje está cada alumno arriba o debajo de las variables
óptimas.
- Reunirse en equipos de 3 integrantes y comparen los resultados obtenidos.
- Si hay diferencias discute con tus compañeros, con los argumentos requeridos para demostrar
que hay razón en las respuestas obtenidas.
- Como equipo obtener una solución completa del problema.
- Exponer estas propuestas de solución ante el grupo.
- Obtener conclusiones sobre el trabajo realizado y conceptos que no hayan sido comprendidos o
que se desconocen completamente.
- Comentar que tipo de variables conocen, cuales son las diferencia de unas y otras y donde
clasificaría las que se mencionan en el problema
- Hacer una relación de variables con características afines
- Analiza si los datos presentados son agrupados o como los clasificarías.







D
E
S
A
RR
O
L
L
O
- Integrado en tu equipo de trabajo analicen el material escrito que se te entregue.
- Considerando la lectura realizada y con la guía del profesor si consideran necesario registra,
ordena y clasifica los datos obtenidos en el grupo.
- Elabora un glosario para que tengas presentes los conceptos de: frecuencia, frecuencia
acumulada, marca de clase, intervalo de clase, límite superior e inferior, límites reales,
frecuencia relativa y frecuencia relativa acumulada.
- Determinar el tamaño del intervalo de clase para cada grupo de trabajo
- Investiga las fórmulas utilizadas para la obtención de las medidas de tendencia central, para
datos agrupados y no agrupadas y elabora un formulario
- Se sugiere para mayor precisión instalar una báscula para pesar a los estudiantes y una forma
de medir su estatura.
- El maestro aplicará técnicas grupales para estudiar grupos de alumnos mas pequeños o
grandes (primeros y últimos semestres)
- El mismo procedimiento con otras variables y otros campos de la ciencia
23
- Se formará una tabla indicando un método de solución para las medidas de tendencia central.




C
I
E
RR
E
- En plenaria: los alumnos presentarán sus resultados al comparar las medidas de centralización
con otros grupos
- De igual manera con otras variables (temperatura, velocidad, elasticidad) usada en campos de
economía, sociales, biología, etc.
- Los alumnos indicarán ¿Qué medida de centralización es la más confiable?
- Al graficar los datos, explicar su comportamiento. ¿Por qué está sesgada a la derecha o a la
izquierda o centrada, etc.?
- Al usar diferentes intervalos de clase en un mismo problema ¿Cuales fueron sus
observaciones?
- Contrastar la información del maestro para la evaluación del grupo.
Consultar con un especialista los aspectos de nutrición del grupo para las recomendaciones
correspondientes.

Recursos didácticos Materiales
Computadora
Cañón
Proyector de acetatos
Televisión
Equipo de laboratorio multimedia
Pintarron


Material visual o audiovisual
Películas
Revistas
Mapas conceptuales
Libros
Cuaderno de trabajo (Obligatorio)
Diccionarios
Copias de textos y marcadores

Bibliografía

1. LEVIN Y. Richard & Rubin Davis S. “Estadística para administradores”.Prentice Hall. 6
a
edición. 1996
2. CHRISTENSEN H. “Estadística paso a paso”. Trillas. 3ª edición. 1997.
3. CUELLAR L. “Estadística y Probabilidad”. Compañía editorial nueva imagen. 2ª edición. 1994.
4. MANSON/ LIND/ MARCHAL. “Estadística para Administración y Economía”. Alfaomega. 10ª edición. 2001.
5. MONTAÑO A., “Estadística I”. Pac, S.a de C.V. México 1992,
6. FREUND JOHN E. y SIMON GARY A. “Estadística elemental”. Pearson (Phh). 8
va
edición. 1994
7. LARIOS R. IRMA y GUTIERREZ F. GERARDO. “Material para la materia de estadística de la Maestría en
Ciencias MCEC” Ciidet. Querétaro. 2001
8 CHAO, LINCOLN. ”Estadística para las Ciencias Administrativas”. McGraw-Hill. 3
ra
edición. 1993.
9 KAZMIER, LEONARD e.t. “Estadística aplicada a la Administración y a la Economía”. McGraw-Hill. 1993.
10 CANAVOS, GEORGE C. “Probabilidad y Estadística (aplicaciones y métodos). McGraw-Hill. 1988.
11 WALPOLE RONALD. “Probabilidad y estadística”. McGraw-Hill. 1992.
12 MENDEHALL, WILLIAM. “Estadística para administradores”. Gripo editorial Iberoamérica. 1988
13 FREEMAN, HAROLD. “Introducción a la inferencia estadística”. Trillas.
14 MILLER, IRWIN y FREUND E. JOHN. “Probabilidad y Estadística para Ingenieros”. Editoral Reverte.
15 SNEDECOR W GEORGE e.t. “Métodos estadísticos”. C.E.C.S.A.
24
CAPÍTULO I

Introducción y conceptos básicos.

Si bien el origen de la estadística es tan lejano como la civilización misma, no alcanzó un desarrollo
notable hasta el surgimiento de los Estados, acontecimiento bajo el cual se convirtió en un instrumento
preciso para describirlos utilizando elementos numéricos. De ahí viene el nombre de esta disciplina,
cuyo estudio en su forma elemental será objeto de muchas de las páginas que componen este libro.

La estadística es un método científico que encuentra aplicación en una gran diversidad de campos del
saber humano y cuya utilidad, como quedó demostrado desde el siglo pasado, va más allá de la mera
descripción, pues permite el descubrimiento de leyes y tendencias. Dentro de los muchos ejemplos que
permiten ilustrar esto, basta con citar el caso del estadístico alemán Ernesto Engel** (1821 – 1896) que
adquirió renombre en el terreno de las investigaciones económicas y sociales al descubrir la ley que
lleva su nombre y que se enuncia así: “Cuánto menor es el ingreso familiar, mayor es la proporción
destinada a la compra de alimentos”.

Con datos recabados en 1857, observó que esa proporción era de 62%, 55% y 50% en familias de clase
baja, media y alta, respectivamente. Al difundirse esta ley, resultó evidente que cuanto mayor es la
parte del ingreso familiar que se invierte en alimentos, menor es la que se puede destinar a otros fines
(vestido, salud, recreación comodidades, etc.) y viceversa. Por esta razón, esta proporción ha sido
utilizada como unidad de medida del bienestar social.

El estudiante encontrará con suma facilidad una gran variedad de aplicaciones del método estadístico,
lo cual será suficiente para deponer la idea de que la estadística es la simple acumulación de hechos y
cifras con fines meramente académicos o de archivo; más bien se convencerá de que se trata de una
disciplina que incide significativamente en la vida cotidiana de los seres humanos.

No obstante, como todo instrumento, la estadística tiene sus limitaciones; no puede, por ejemplo,
diseñar investigaciones ni seleccionar problemas para someterlos a estudio, ni puede, por si sola,
aportar resultados valiosos o dar interpretaciones de resultados en ausencia de una sólida teoría. Por
otro lado, todos los resultados estadísticos, exactos o no, expresan de modo preciso mediante números.
Pero preciso no es sinónimo de exacto; son exactas las operaciones aritméticas, pero las mediciones
25
que conducen a los datos que las hacen posibles no siempre son confiables. Por esta razón los
resultados estadísticos deben ser siempre sometidos a crítica.

Pero, ¿qué es la estadística? Desde mediados del siglo XVIII hasta una centuria después, la estadística
ha sido objeto de muchísimas definiciones”, las cuales han obedecido, evidentemente, a las diferentes
concepciones que se han tenido de ella a lo largo del tiempo. Sin embargo, será suficiente por ahora
con que nos familiaricemos con una definición que responde a los objetivos de este curso:








También podemos entender la estadística como la ciencia que permite responder a ciertas preguntas
basándose en datos empíricos, es decir, en datos que se originan de la observación o la experiencia
Entendida así, diremos que es la ciencia que tiene que ver con los métodos que dan respuesta a
determinadas cuestiones, mediante la recolección y la interpretación apropiadas de datos empíricos. Las
observaciones o las experiencias que constituyen los datos pueden resultar de la investigación
científica, de la actividad comercial o de la vida cotidiana. En cualquier caso, las estadística busca dar
sentido a los datos; esto implica tanto la recolección como la interpretación de éstos.

La recolección abarca el diseño de las investigaciones empíricas la planeación de lo que se quiere
observar, la calidad y suficiencia de la observación y el registro de los datos; la interpretación, el
análisis y el resumen de los datos, la extracción de conclusiones a partir de ellos y el reporte y la
presentación de los resultados.

Para su estudio, la estadística se divide en dos grandes ramas; descriptiva e inferencial.





Estadística
Es un conjunto de procedimientos que sirven para organizar y resumir datos, hacer inferencias
a partir de ellos y transmitir los resultados de manera clara, concisa y significativa.
Estadística descriptiva

Es un conjunto de procedimientos que sirven para organizar, describir y sintetizar datos, sin que las
conclusiones que se extraigan de éstos rebasen su ámbito específico.
26
Por ejemplo, si al recolectar las calificaciones de un grupo de estudiantes es una asignatura determinada
las resumimos diciendo que la calificación promedios es 7.5, estamos describiendo y sintetizando una
característica de los datos; es decir, del total de calificaciones. La validez de esta descripción numérica
atañe únicamente al grupo de estudiantes del cual provienen los datos y no encierra incertidumbre.





Las inferencias y generalizaciones en esta rama, que complementa a la descriptiva, se basan en la teoría
de la probabilidad, algunos de cuyos fundamentos serán estudiados en la segunda parte de este curso.

El carácter propio del método estadístico descansa en el estudio de grupos o masas, a través de los
elementos que los componen. En estadística no interesan aisladamente las características de un
elemento de la masa. No interesa, por ejemplo, que la vida útil de una lámpara de cierto diseño sea de
10 mil horas y la de otra de 3 mil. Lo que importa es ver la tendencia de cierto número de lámparas que
puedan ser representativas de toda la producción; lo que se busca es descubrir, por ejemplo, que la vida
útil promedio de ese tipo de lámparas de de 7 mil horas. Si lo que se estudia es un grupo de personas,
no interesa que una de ellas en particular profese el catolicismo y otra el protestantismo, por mencionar
algo; lo que quisiéramos conocer podrían ser los cultos existentes y el que más se profesa en el grupo.

El medio empleado para el estudio estadístico es la enumeración o recuento. Enumerar es captar las
características de los elementos sometidos a estudio y anotarlos o medirlos bajo las condiciones que se
presentan. La estadística es, básicamente, un método de inducción basado en los grandes números y sus
propiedades, con lo cual se eliminan los errores propios de la observación y se aumenta la validez de
los resultados obtenidos.

1.1 CONCEPTOS FUNDAMENTALES







Estadística inferencial
Es un conjunto de procedimientos que se emplean para hacer inferencias y generalizaciones respecto
a una totalidad, partiendo del estudio de un número limitado de casos tomados de esta última.
Población
También llamada universo, es todo conjunto de personas, cosas u objetos con ciertas características
comunes.
27
Por ejemplo: los estudiantes de preparatoria con promedio mínimo de 8 en el Estado de Jalisco en
2004; las fábricas de automóviles existentes en la República Mexicana hasta el 31 de diciembre de
1989; el conjunto de los números primos; el conjunto de las formas imaginables en que se puede
repartir las riqueza nacional, etc.

De estos ejemplos debe quedar claro que en estadística el concepto de población no se refiere
necesariamente a personas ni objetos materiales. Tampoco tiene que estar integrada por un gran
número de elementos. Si decimos “los números naturales < 10”, estaremos definiendo con precisión un
universo que consta de muy pocos elementos.

Cuando se trata de elementos concretos, por ejemplo, estudiantes, fábricas de automóviles, ejidos,
viviendas, etc., su definición rigurosa se alcanza, por regla general, añadiendo a la característica la
ubicación o lugar y el período, es decir, el espacio de tiempo en el cual se considera válida esa
característica. “Ejidos en el municipio de Córdoba hasta el 31 de junio de 1980”. “viviendas con más
de 3 habitaciones en Yucatán hasta el 30 de marzo de 1993”, etc. Un elemento puede ser individual o
colectivo. En una población formada por estudiantes, el elemento o unidad esencial es “el estudiante”,
cuyo carácter es, evidentemente, individual; en una población formada por fábricas de automóviles, el
elemento es “la fábrica de automóviles”, de naturaleza colectiva, ya que se trata de un establecimiento
en el que hay muchos obreros, empleados, departamentos, etc. Es claro que, para su estudio, revisten
mayor complejidad los universos formados por elementos de índole colectiva.



Si de una población formada por N elementos, se toma una parte de ellos, esta parte o subconjunto de
la totalidad será una muestra. Gráficamente, universo, elemento y muestra se representan como en la
figura siguiente:




Cada uno de los componentes de una población recibe el nombre de elemento o unidad esencial
28






Relatividad de los términos población, elemento y muestra.

Consideremos un universo formado por todas las facultades de una universidad: cada facultad será un
elemento de ese universo. Si tomásemos unas cuantas facultades, tendríamos una muestra (Fig. 1.2.2).
No obstante, el universo objeto de estudio podría ser redefinido en un momento dado. Podríamos estar
interesados en estudiar una facultad determinada, que sería un universo cuyos elementos podrían estar
dados por sus profesores, alumnos, empleados, etc.



Figura 1.2.

También podemos considerar como universo al conjunto de todas las universidades de un país. En este
caso la universidad que inicialmente habíamos considerado pasa a ser un elemento del nuevo universo.
Si tomásemos unas cuentas universidades del conjunto, esa porción o subconjunto pasaría a formar una
muestra.




Definida una población cualquiera, se llama muestra a toda porción de elementos sacada de ella.
29


Figura 1.2.4

Lo anterior pone de manifiesto la relatividad de los términos población, elemento y muestra.



Muestreo, inferencia estadística, parámetro y estadígrafo.

Con frecuencia es imposible o innecesario observar las características de todos y cada uno de los
elementos de la población, es decir, realizar un censo.

Cuando un médico quiere conocer la calidad de la sangre de un paciente, le basta con ordenar el
análisis de una muestra, ya que en el caso de líquidos o de otros cuerpos de constitución homogénea,
una porción o muestra es exactamente igual a la totalidad. Este ejemplo ilustra que el análisis del todo
no sólo es imposible sino innecesario. Lo mismo sucedería con otros universos, por ejemplo, el
conjunto de lámparas de cierto diseño producidas por una fábrica; si se les somete a una prueba de
resistencia que implique su destrucción para conocer esa característica, es imposible plantearse el
someter a todas a prueba. En este caso la necesidad de estudiar el todo, pero a través de una muestra,
resulta indispensable.

En otros casos, donde es urgente conocer la situación que guarda cierto orden de cosas para la toma de
decisiones, resulta inconveniente levantar un censo porque los resultados de la indagación podrían
resultar extemporáneos. Por esto es necesario estudiar el todo a través de una muestra. Además, es
claro que si un universo es muy numeroso, el censo resulta muy costoso debido a la gran cantidad de
recursos materiales y humanos que hay que poner en juego. Esta es la razón por la cual los censos
nacionales de población, de agricultura y ganadería o industriales, entre otros, sólo puede ejecutarlos el
Estado mediante instituciones dedicadas a ello. En México el INEGI.

30
El procedimiento mediante el cual se recopila información de los elementos de una muestra, se conoce
con el nombre de muestreo; diferente al censo, que consiste en hacer lo mismo, pero con todos los
elementos que componen un universo.

Analizado lo anterior, diremos que cuando es imposible, innecesario o inconveniente observar
características de todos los elementos de un universo, se recurre a estimarla a partir de una o más
muestras tomadas de él.

No obstante, la calidad de las estimaciones depende, básicamente, de la representatividad de la muestra.
Una muestra es representativa si reúne, en términos generales, las características del universo del cual
procede.

Esta propiedad no siempre se cumple. Si la población está integrada, digamos, por personas, una
porción de ellas, tomada de manera arbitraria, difícilmente tendrá las características generales del
conjunto. Así, pues, no es fácil cumplir el requisito de la representatividad, sin embargo, la teoría del
muestreo aporta elementos para poder cumplirlo en grado aceptable. En otras palabras, existen
procedimientos de selección de muestra que garantizan altos niveles de representatividad,
independientemente del universo de que se trate.

Ahora bien, el estimar las características de un universo de la manera señalada anteriormente es un
procedimiento estadístico que va de lo particular a lo general. Dicho de otro modo, es una inferencia o
inducción, la cual se define así:





Toda descripción numérica que sintetice información respecto a un universo, recibe el nombre de
parámetro: si se refiere a una muestra, estadígrafo o, como le llaman algunos autores, estadístico. Por
ejemplo, “el porcentaje de viviendas en mal estado” en un universo es un parámetro; en una muestra
tomada de dicho universo, un estadígrafo.

Inferencia estadística
Es el proceso mediante el cual se estiman características de una población a partir de las
observaciones hechas en una muestra sacada de esa población.

31
Fundamental en el quehacer estadístico es la noción de variable.




Se dice que algo varía si puede tomar por lo menos dos valores, grados o formas o, incluso, cuando
una característica puede estar presente o ausente en una situación específica.

Dicho esto, podríamos estar de acuerdo en que nociones como sexo, número de hijos por familia, color
de automóvil, número de huelgas anuales, nivel de estudios, etc., son variables, ya que son
características que admiten por lo menos dos valores, grados o formas dentro de un universo
determinado.

No obstante, la práctica docente enseña que, al empezar a familiarizarse con este tema, los alumnos
suelen confundir la característica que admite variaciones con el universo o con los elementos del
mismo. Compárese la lista del párrafo anterior con esta otra; persona, vivienda, lámpara, automóvil.
Estos términos se refieren a objetos y no a características de objetos; por lo tanto, no son variables.
Variables serían las características que quisiéramos indagar de esos objetos. Por ejemplo, de un
universo formado por personas podríamos conoce su edad, lugar de nacimiento, nivel de escolaridad,
clase social a que pertenecen, etc. Estas peculiaridades son variables. También son variables, de un
universo formado por automóviles, su marca, modelo, color, potencia, etc., ya que son características
que van cambiando de auto en auto.

Otra confusión frecuente se da con los datos estadísticos. Consideremos estos ejemplos: “número de
huelgas” y “producción de azúcar”- Si decimos que el número de huelgas en una región y en un
período determinados es A, estamos aportando información global del fenómeno, que es un dato
estadístico, no una variable. El número de huelgas se convierte en variable si se estudia, digamos, en un
período determinado y en diferentes regiones, o en un asola región y en diferentes períodos
(anualmente, sexenalmente, etc.) lo mismo pasa si afirmamos que la producción de azúcar en el ingenio
X es B toneladas: se trata de un dato estadístico, no de una variable. La producción de azúcar se
convertirá en variable cuando se indague en diferentes fábricas y en un mismo momento o en una
misma fábrica y en distintos momentos.
Variable.- Es toda propiedad o característica que admite variaciones dentro de un conjunto de
objetos.

32
Ejemplo 1.1 La tabla siguiente muestra la producción de azúcar en la zafra 1988/1989, en cuatro
ingenios de los más importantes del país (Fuente: Manual Azucarero Mexicano, 1990).

Ingenio Producción
(miles de ton.)






En este caso la producción es una variable, porque se ha indagado en un mismo momento (zafra 88/89)
y en diferentes fábricas.


Ejemplo 1.2 A continuación se muestra la producción de azúcar en el ingenio El Potrero, durante
cuatro zafras consecutivas (Fuente: Idem. P. 373).

Ejemplo 1.2

Zafra Producción
(miles de ton.)

84/85 138.2
85/86 160.4
86/87 158.0
87/88 146.60

También aquí la producción es una variable, porque se registra en una misma fábrica (Ingenio el
Potrero ) y en diferentes momentos.

Ahora bien, toda variable tiene dos niveles un conceptual o teórico y otro operacional o de medición, Si
nos preguntaran qué se entiende por alcoholismo, por ejemplo, podríamos decir que se trata de una
enfermedad progresiva y mortal, exclusiva de los seres humanos, que consiste en la ingestión de
bebidas alcohólicas. De ser más o menos correcta esta definición, estaríamos en el nivel estrictamente
conceptual o teórico, que no permite efectuar ninguna medición. Si, en cambio, partir de este concepto
definimos al alcoholismo como el grado de dependencia de los seres humanos respecto a la ingestión
de bebidas alcohólicas, habremos pasado del nivel conceptual a otro donde es posible medir, pues en
una población dada encontraríamos desde el que no ha bebido jamás una gota de alcohol, el abstemio,
hasta el que no puede dejar de beber.


El potrero 154.8
Emiliano Zapata 116.9
San Cristóbal 153.3
Tala 115.3
33
La correspondencia entre el nivel teórico y el operacional de una variable se consigue mediante un
procedimiento llamado medición, que no debe entenderse como un procedimiento arbitrario de
asignación de números u otros símbolos a las observaciones: et asignación se efectúa en concordancia
con un conjunto de procedimientos admisibles para la variable conceptual que se esté manejando.

A nivel operacional o de medición, variable es un conjunto de números u otros símbolos asignados a
las observaciones, que sirven para clasificarlas con respecto a una variable conceptual. Sin embargo, no
ahondaremos en esta cuestión; será suficiente, por ahora, que sepamos identificar variables, ya que del
tipo a que pertenezcan dependerá el procedimiento estadístico con que se les trate, tema que
estudiaremos más adelante.

1.3 TIPOS DE VARIABLES

Desde el punto de vista conceptual, existen tres tipos de variables nominales, ordinales y cardinales.

Variables Nominales. Son las más simples y abundantes y su única función es clasificar. Su variable
operacional correspondiente es una escala nominal que sirve para clasificar las observaciones en un
conjunto de categorías mutuamente excluyentes cuyo orden de colocación es indistinto. A estas se les
puede asignar cifras u otros símbolos arbitrarios con el fin de distinguirlas; si son cifras no tienen
ningún valor intrínseco ni propiedades numéricas como la aritmética.

En la tabla 1.3.1 Observamos que los símbolos 1, 2, 3, y 4 si bien son los mismos que se emplean
para representar números, no representan sino distritos de riego; es decir, carecen de propiedades
numéricas. Además el orden que se les de en la tabla es indistinto, ya que sólo sirven para distinguir un
distrito de otro. Nótese de manera importante que la variable señalada es el distrito de riego y no el
número de hectáreas sembradas.

Tabla 1.3.1

Distrito de Hectáreas
Riesgo sembradas

1 680
2 1200
3 300
4 500

34
Veamos ahora el siguiente ejemplo:

Variable Estado Civil


Escala de soltero casado viudo divorciado unión libre
Medición
Nominal 1 2 3 4 5


Categoría de la variable

Véase que, a nivel de medición, estado civil en este ejemplo es un conjunto de 5 categorías
mutuamente excluyentes, cuyo orden de colocación es indistinto, ya que pudimos haber puesto primero
viudo o casado y terminar en solero. Además, si a “soltero le llamamos 1, a “casado 2, etc.”, estas
cifras carecen de propiedades numéricas, ya sólo sirven para distinguir un estado civil de otro.

Aprovecharemos esta explicación para señalar que común también confundir la variable con sus
categorías. Suele oírse que en un ejemplo como en el anterior hay 5 variables; esto es un error. La
variable es sólo una: Estado civil, que en este caso tiene 5 categorías o posibilidades de respuesta en un
universo determinado. Se debe hablar en las categorías “soltero o divorciado” por citar algunas,
pertenecientes a la variable “estado civil”. Otras variables nominales serían: sexo, nacionalidad, color
de automóvil, tipo de lámpara, lugar de nacimiento, etc.

Variables Ordinales

Clasifican las observaciones en categorías mutuamente excluyentes que exigen ordenación ya que
guardan entre sí relaciones de “mayor que”. Su Variable operacional es una escala ordinal que va desde
la categoría más baja a la más alta o viceversa. De modo que las observaciones queden en el orden
apropiado. Estas categorías tampoco tienen propiedades numéricas, aunque se las represente por cifras.


Nótese que en la tabla 1.3.2 es preciso ordenar las cifras 1, 2 y 3, puesto que representan la gravedad de
las quemaduras de mayor a menor.



35
Tabla 1.3.2

Grado de las No. De casos
Quemaduras

1 70
2 40
3 10


La variable alcoholismo, definida como el grado de dependencia respecto a las bebidas embriagantes,
es un buen ejemplo de variable ordinal. Veamos:

Variable Estado Alcoholismo


Escala de Abstemio Bebedor Bebedor Bebedor
Medición Ocasional Regular Consuetudinario
Nominal 1 2 3 4


Categoría de la variable


Nos damos cuenta que el nivel de la medición “alcoholismo” es un conjunto de categorías mutuamente
excluyentes, que van desde la posibilidad de no beber nunca hasta la de beber continuamente, dos
extremos entre los cuales cabrían un sin número de gradaciones. Si definimos al bebedor regular como
en el que ingiere bebidas alcohólicas con más frecuencia que el ocasional, pero con menos frecuencia
que el consuetudinario, podemos afirmar que aquel tiene un grado de dependencia respecto al alcohol,
mayor que el bebedor ocasional y menor que el consuetudinario. Estas categorías tienen que estar
ordenadas, puede ser por su nombre o por medio de cifras que carecen de propiedades numéricas: las
cifra 3 indicaría un grado de dependencia menor que la 4 y mayor que la 2, pero nada más. Otras
variables del tipo ordinal serían “grado de escolaridad, “rango militar” o “jerarquía eclesiástica”.

Variables Cardinales

Son las más complejas. Su variable operacional es una escala cardinal que se caracteriza porque las
diferencias iguales entre 2 de sus puntos con iguales entre sí. Las cifras asociadas a las categorías son
efectivamente cuantitativas y, en consecuencia, se puede efectuar con ellas operaciones aritméticas.
36
Las variables cardinales se dividen en continuas y discretas.

Continuas: son las que pueden tomar cualquier valor dentro de un intervalo (edad, salarios, estatura,
producción anual de azúcar, etc.

Discretas: son las que toman algunos valores dentro de un intervalo “ hijos por familia, números de
huelgas anuales, producción mensual de automóviles, etc.”.

Por ejemplo, la edad de los niños de una escuela primaria podría admitir como categorías posibles, las
siguientes:
Variable Edad


Escala de
Medición
cardinal 6 7 8 9 10 11 12 años


Categoría de la variable


Sin embargo, aunque por razones prácticas se acostumbre reportar las edades de las personas, en años
cumplidos, bien se podría decir que un niño tiene 7.25 años; es decir, 7 años 3 meses. Con esto
queremos destacar que la variable puede tomar cualquier valor entre los límites 6 – 12. Por lo tanto,
“edad” es una variable continua.
Supongamos ahora que investigamos en una comunidad el número de niños por familia. Esta variable
podría admitir las siguientes respuestas:

Variable No. De hijos


Escala de
Medición
Cardinal 1 2 3 4 ….. 12 hijos


Categoría de la variable


37
Es evidente que entre los límites 0 – 12 no puede caber cualquier valor; no podríamos registrar 4.25
hijos por lo tanto, “número de hijos” es una variable discontinua o discreta.

Expliquemos finalmente el significado de la expresión “las diferencias iguales entre dos de sus puntos
son iguales entre sí”.
Si retomamos el ejemplo de las edades de los niños de la escuela primaria, veremos que la diferencia
entre 6 y 8 es la misma que entre 10 y 12 o sea, 2 años. Un análisis parecido podríamos realizar con el
número de hijos: la diferencia entre 1 y 2 es la misma que entre 3 y 4 o entre 11 y 12, es decir, un hijo.
Este breve análisis, que parece ocioso, resulta de gran importancia, pues si los repetimos con las
categorías de la variable “grado de las quemaduras” de la tabla 1.3.2, descubrimos que la diferencia de
entre 1 y 2 no es la misma que entre 2 y 3, más claro: la diferencia entre quemaduras de primer y
segundo grado no es igual a la diferencia entre quemadura de segundo y tercer grado; sólo sabemos que
un grado de quemadura es más o menos grave que el otro.

EJERCICIOS

Subtítulo 1.2

De los universos siguientes, ¿Cuáles están definidos rigurosamente y cuáles no? ¿Por qué ?

1/1. Habitantes de la ciudad de Puebla mayores de 18 años. Marzo de 1993

1/ 2. Estudiantes de Ingeniería. 1990

1/ 3 Obreros de planta permanente de la fábrica de autos Volkswagen.

1/ 4. Establecimientos industriales con más de cinco trabajadores en el estado de Tlaxcala. Junio –
agosto de 1992.

1/5. Números naturales < 20.

1/6. Los números primos < 20.

1/7. Ejidos del municipio de Emiliano Zapata. Estado de Veracruz. 1980-1990.

1/8 Viviendas con más de dos recamaras en la Ciudad de México.

1/9. Artículos periodísticos sobre cafeticultura. Diario El Universo. Enero-Diciembre de 1992.

38
Identifica la unidad esencial de cada uno de los universos siguientes y diga si posee carácter individual
o colectivo:

1/10. Facultades de la Universidad Nacional Autónoma de México. 1993.

1/11. Obreros de la fábrica Nestlé. Coatepec, Ver. Jun.-dic. De 1992.

1/12. Viviendas de la cabecera municipal de Tlaxcala. Julio e 1993.

1/13. Aparatos de televisión producidos por la fábrica SONY del 1 al 31 de octubre de 1992.

1/14. Escuelas primarias federales del municipio de Toluca. 1990.

1/15. Colonias de la ciudad de Puebla hasta el 31 de julio de 1992.

En cada uno de los casos siguientes define con precisión cinco universos:

1/16 Formados por personas.

1/17 Formados por cosas materiales.

1/18 Formados por cosas inmateriales.

En cada uno de los casos siguientes defina con precisión tres universos en que la unidad esencial tenga:

1/19 Carácter individual.

1/20 Carácter colectivo.

Di si las descripciones numéricas siguientes, que aparecen en negritas, son parámetros o estadígrafos.

1/21 Diez alumnos, elegidos por sorteo, de un grupo de 30, tienen una calificación promedio de 8.2 en
la asignatura de Historia.

1/22 Del total de profesores de una escuela primaria, el 65% son de sexo femenino.

1/23 Un subconjunto de empleados de cierto establecimiento comercial tiene un ingreso promedio
mensual de $520.00

1/24 El tratamiento de los datos de edad de todos los niños de una escuela secundaria rural sometida a
investigación demostró que su edad promedio es 15 años.

1/25 En una muestra de empleados de un supermercado se encontró que su ingreso promedio mensual
es de $ 580.00

1/26 Sometido a estudio un ejido mediante un censo, se descubrió que el caso más notorio es el de los
ejidatarios que tienen 5 hijos.

39
Con tus propias palabras explica cuál es la diferencia:

1/27 Entre universo y muestra:

1/28 Entre censo y muestreo;

1/29 Entre muestra y muestreo.

De los conceptos siguientes di cuáles son variables, cuáles simples objetos y cuáles datos estadísticos.

1/30 Tractores,

1/31 Marcas de tractores.

1/32 Número de hijos por familia en una comunidad.

1/33 Número de habitantes de una comunidad determinada.

1/34 Producción de automóviles de la fábrica Nissan. Cuernavaca. Del 1º. De enero al 31 diciembre de
1992.

1/35 Producción anual de automóviles de la fábrica Nissan. Cuernavaca. 1980-1990.

1/36 Tipo de deporte practicado por los estudiantes de una escuela profesional.

Subtítulo 1.3.

Del universo “habitantes mayores de 18 años del puerto de Campeche en 1993”, se indagan las
variables siguientes en cada uno de ellos; ¿a qué tipo pertenece cada una?

1/37 Estado civil.

1/38 Escolaridad.

1/39 Grado de politización.

1/40 Lugar de nacimiento.

1/41 Número de hermanos.

1/42 Número de orden de nacimiento entre sus hermanos (el primero en nacer, el segundo, etc.)

1/43 Edad.

1/44 Partido político de su preferencia.

1/45 Define un universo cualquiera, identifica su unidad esencial y menciona tres variables de cada uno
de los tipos existentes (nominales, ordinales y cardinales).
40
DESCRIPCIÓN GRÁFICA DE UN CONJUNTO DE DATOS

PARTE 1
TABLAS ESTADÍSTICAS (Una tabla estadística es una distribución de la frecuencia de la
variable tratada).

Efectuados la clasificación y el conteo de los datos, es necesario presentarlos de manera clara, sintética
y significativa par su mejor y fácil entendimiento. Para ello se recurre a la tabla estadística y el gráfico
estadístico. De estos dos recursos, la tabla juega el papel fundamental, pues es la base de la
construcción de gráficos y del análisis estadístico.

La tabla o cuadro estadístico consta de tres partes, que reciben nombres que anuncian la peculiaridad
fundamental de su estructura: cabeza, cuerpo y pie.

La cabeza o encabezamiento de la tabla ocupa la parte superior de la misma y contiene: el título, que ha
de expresar clara y concisamente el contenido o significado estricto de la información; el período, o
sea, el espacio de tiempo para el cual es válida la información; y la unidad de medida, siempre y
cuando sea común a toda la información.

El cuerpo está localizado en la parte central de la tabla y en el se encuentra la esencia misma de la
información, o sea, las categorías de las variables y sus correspondientes frecuencias o intensidades.
Por regla general, las categorías se colocan del lado izquierdo y sus frecuencias o intensidades del lado
derecho, pero a veces puede ser al revés, dependiendo del tipo y de las peculiaridades de la información
que se presenta. Es decir, al respecto no hay reglas rígidas.

Algunos autores llaman talón y campo a las partes izquierda y derecha del cuerpo de una tabla y hacen
luego una subdivisión de esas partes, a las que asignan nuevos nombres. Nosotros no entraremos en
esos detalles, puesto que pretendemos que se asimile sin dificultad el procedimiento es común a todos
los datos o cuando se requiere añadir claves u otras indicaciones, que sirven para identificar las
categorías de las variables, se anexan al cuerpo de la tabla columnas bajo el nombre de “unidad de
medida”, “clave número”, etc. Que pasan a formar parte del talón Véase la tabla siguiente:

41
Tabla 2.1.1

Algunos artículos producidos por la industria
De la transformación. México. 1978.

Artículo Unidad de Medida Clave No. Producción Valor (millones
De pesos)

Leche evaporada Miles de ton. 01510 146.6 1 714

Cerveza Millones de l. 03128 1 793.0 13 991

Cigarros Millones de caj. 01200 2 529.0 11 312

Estufas de gas pieza 12500 8 828.0 911 012


Fuente : datos supuestos.

El pie lo forman la parte inferior de la tabla, que esta destinada a las notas o aclamaciones indicadas en
el encabezamiento o el cuerpo (cuando necesarias); además menciona la fuente u origen de la
información. Podrá no haber aclaraciones en un cuado, pero la fuente debe aparecer al pie.

Para que quede claro lo dicho, analicemos a continuación la estructura de algunos cuadros.

Tabla 2.1.2

Población rural y urbana, México, 1990-1930
(millones)
Año Total Urbana Rural
1900 13.6 2.6 11.0
1910 15.2 3.7 11.5
1921 14.4 4.5 9.9
1930 16.5 5.5 11.0
1921 el censo que debió levantar en 1920 se retrasó un año debido al movimiento armado de la Revolución
Mexicana. Población rural: menos de 2500 habitantes. Fuente: censos generales de población, 1900-1960.


La cabeza de la tabla anterior nos dice, de manera clara y breve, que los datos se refieren a la población
en nuestro país, tanto en el campo como en la ciudad, de 1900 a 1930 y que están expresados en
millones. En el cuerpo aparece ordenadamente el año, la columna de totales y luego los sumandos
componentes. Esta disposición de la información facilita una lectura coherente.

42
Leemos, por ejemplo, que en 1900 la población mexicana era de 13 millones 600 mil habitantes, de los
cuales 2 millones 600 mil se encontraban en el medio urbano y 11 millones en el medio rural, etc.

Al pie de la tabla aparecen algunas notas aclaratorias y la fuente de donde provienen los datos.
Obsérvese que si no se diera ninguna explicación referida al año 1921, se podría pensar que se escribió
mal el inicio de la tercera década del siglo, ya que los censos generales de población se realizan cada
decenio y al inicio del mismo en nuestro país. También está parte de la tabla nos dice lo que debemos
entender por población rural. Sin las notas aclaratorias al pie de tabla, el lector no quedaría exento de
dudas.

Tabla 2.1.3


Entidad Producción
Campeche 30,013,100
Jalisco 365,217,400
Michoacán 131,218,800
Veracruz 1 018,439,850
Fuente: Manual Azucarero Mexicano, 1980, p. 14


Consideremos ahora la tabla 2.1.3. Su encabezamiento nos dice que los datos se refieren a la
producción de azúcar en algunos estados de la República y que están dados en kilogramos. Luego, en el
cuerpo en su parte izquierda, aparecen las entidades que fueron objeto de estudio, y a la derecha, la
producción. Leemos, por ejemplo, que en 1979, Campeche produjo 30 millones 13 mil 100 kilogramos
de azúcar, etc. Nótese que la información no requiere ninguna aclaración para ser comprendida
fácilmente; por eso al pie del cuadro no aparece más que la fuente.

En estructuras como esta, bien podríamos transferir la unidad de medida “ kilogramos” del
encabezamiento al cuerpo de la tabla, colocándola debajo de la palabra “producción”, sin que dificulte
la lectura o se originen confusiones. O, incluso, anexando un asterisco a la palabra producción y
mandando al pie de la unidad de medida.

Por otro lado, conviene saber desde ahora que abundan las tablas en las cuales la unidad de medida es
evidente y por ello no se hacen explícita. Veamos:

43
Tabla 2.1.4.

Alumnos de primer ingreso,
Por especialidad. E N S V. 1990

Especialidad Total
243
C. Sociales 73
Español 53
C. Naturales 49
Matemáticas 38
Inglés 30
Escuela normal superior veracruzana “Dr. Manuel Suarez Trujillo”
Fuente: Listas de alumnos


En el cuadro 2.1.4 no aparece explícita ninguna unidad de medida; sin embargo, el encabezamiento, al
precisar que se trata de alumnos de primer ingreso por especialidad, nos hace comprender que la unidad
de medida, implícita, es “un alumnos”, y que esta unidad corresponde a la columna de totales. Así
leemos que, de los 243 alumnos que se inscribieron en la escuela Normal Superior Veracruzana “Dr.
Manuel Suárez Trujillo” en 1990, 73 escogieron la especialidad de Ciencias Sociales, etc.

Antes de dar fina a este subtítulo, con la mención de algunas reglas básicas para la construcción de
cuadros, detengámonos en el significado de unidad de medida, de la que hemos hablado en todos los
ejemplos anteriores.

La unidad de medida es el número que indica la veces que la unidad (uno) esta contenida en ella. La
unidad de medida “millón de habitantes” indica que la unidad “un habitante” esta contenida un millón
de veces en la unidad de medida tomada como base. Veamos un par de ejemplos:

Ejemplo 2.1.

Unidad de medida: millón de habitantes.

Para expresar en esta unidad un número concreto, digamos 13 607 259 habitantes, simplemente se le
divide entre un millón.

13 607 259/ 1 000 000 = 13.607259
44

Este cociente, con 0.01 de aproximación, se escribirá 13.61; y con 0.1 de aproximación 13.6. En la
práctica, la división se ejecuta mentalmente de una sola vez con aproximación previamente definida.

Ejemplo 2.2. Unidad de medida: toneladas.

Para convertir el número concreto 18325 kilogramos a toneladas, basta con dividirlo por mil y
redondear, digamos, a 0.1; así, 18 325 kilogramos podemos expresarlos como 18.3 toneladas.

La unidad de medida para datos de variable discreta puede escribirse escuetamente utilizando
únicamente la palabra que indica el número de veces que la unidad está contenida en ella. Volviendo el
ejemplo 1, es vez de escribir “millones de habitantes”, basta ¡con escribir “millones” en el
encabezamiento de la tabla.

La finalidad e introducir unidades de medida en un cuadro estadístico es simplificar datos que
originalmente son del orden de miles, cientos de miles, millones, etc. Esta simplificación, si se le
acompaña del redondeo correcto, no produce errores significativos en los datos originales y facilita
enormemente la lectura y análisis de los mismos Por esta razón, se recomienda utilizar unidades de
medida adecuadas cuando los datos que se manejan son, por lo menos del orden de miles.

Importante: en todo cuadro que presenta datos concretos, es decir, datos que se refieren a variables
especificas, siempre existe la unidad de medida, explícita a implícita. Ahora bien, lo que hemos tratado
de explicar últimamente es la necesidad de introducir, cuando sea necesario, unidades de medida
adecuadas que den como resultado la simplificación y por lo tanto, la facilidad de la lectura de los
datos.
Este asunto de la simplificación de datos introduciendo unidades de medida, se debe aclarar
desarrollando un ejemplo, simplifiquemos el cuadro siguiente:






45
Tabla 2.1.5.
Programa de alimentación escolar,
Comidas servidas, Chile. 1970-1973
Año Total
1970 619,196
1971 653,796
1972 715,877
1973 674,272
Fuente: L Impact de la recesión mondiale sur les Enfants, 1984
p. 131, Estudio publicado por UNICEF

Solución: esta tabla contiene información sobre el número de comidas servidas entre 1970 y 1973 en la
República de Chile.. La unidad de medida, implícita, es –evidente- “una comida”. Así, pues, sabemos
que, dentro del programa de alimentación escolar en Chile, en 1970 se sirvieron 619 196 comidas y
que 3 años después, por ejemplo, se sirvieron 674 272. Si analizamos un poco estos números, no damos
cuenta que el reportarlos con precisión de unidades no tiene ninguna ventaja; por lo contrario, esa
precisión vuelve tediosa la lectura y dificulta el análisis. Bien podemos decir 619 mil comida en 1970y
674 mil tres años después.

Esto nos indica que resulta conveniente introducir en el cuadro una unidad de medida que simplifique
la información, sin deformarla de modo inadmisible, y que facilite la lectura y el análisis. Podríamos
metes cualquier unidad de medida; docenas, cientos, miles, decenas de miles, millones, docenas de
millones, etc. No obstante, la más adecuada, dado el orden numérico de los datos, es “miles”. Así, basta
con dividir por 1 000 cada dato y redondear el cociente hasta el limite permisible, que en este caso
puede ser enteros. Estas sencillas operaciones aritméticas producen la tabla 2.1.6, en la cual se nota que
el valor de los datos simplificados ha cambiado ligeramente con respecto a los originales, sin que ello
implique deformación inaceptable.

Tabla 2.1.6
Programa de alimentación escolar,
Comidas servidas, Chile, 1970-1973
(miles)
Año Total
1970 619.0
1971 654.0
1972 716.0
1973 674.0
Fuente: L Impact de la recesión mondiale sur les Enfants, 1984
p. 131, Estudio publicado por UNICEF

46

Rematemos la explicación del procedimiento de construcción de tablas desarrollando un par de
ejemplos.

Tabla 2.4 El anuario estadístico 1984 de la Faculta de Sociología de la Universidad Veracruzana, nos
dice que hasta 1983 había 137 egresados de los cuales 8 eran hombres y 57 mujeres, repartidos como
sigue: la primera generación, salida en febrero de 1981, estuvo formada por 17 hombres y 11 mujeres;
la segunda, en agosto de 1981, por 23 y 15; la tercera, en febrero de 82, por 11 y 10; la cuarte en agosto
de 82, por 5 y 1 y la quinta, en agosto de 83, por 24 y 20. Presentemos está información en una tabla.

Solución: En primer paso consiste en localizar los elementos que formarían el encabezamiento, el
cuerpo y el pie. Si leemos con detenimiento la información, nos daremos cuenta que se refiera a la
Facultad de Sociología de la U.V.; por lo tanto, ésta es la universo. Las variables objeto de estudio son:
“No. De egresados por generación” y “sexo2. La unidad de medida es “un egresado”, que en el
encabezamiento quedaría implícita. El período va de febrero de 1981 a agosto de 1983. Además,
encontramos la fecha de egreso de cada generación. Por lo tanto, el encabezamiento podría ser el
siguiente:

Egresados por generación, de egreso y sexo. Fac. de Sociología, U.V. (Feb 81- Ago 83).

El cuerpo tendría cinco columnas: “generación”, “fecha” (de egreso) y, respetando el principio de lo
general a lo particular, el número de egresados “hombres” y el de “mujeres”, precedido del “total”.

Tabla 2.1.7.
Egresados por generación, fecha de egreso y sexo.
Fac. de sociología, U.V. (feb. 81 – Ago 83)

Generación Fecha Total
137
Hombres
80
Mujeres
87
1ª. Feb 81 28 17 11
2ª. Ago 80 38 23 15
3ª. Feb 82 21 11 10
4ª. Ago 82 6 5 1
5ª. Ago 83 44 24 20
Fuente Anuario estadístico 1984, Fac. de Sociología U. V.

47
Ejemplo 2.5 En el vol. 8 de la Enciclopedia de México (3ª. Ed., 1978, p. 1981) leemos el siguiente
párrafo referente al número de viviendas del país: “… Del total (8,286,369), 2,494,950 (30.1%) tienen
muros de adobe, 3,658,146 (44.1%) de ladrillo y 2,133,273 (25.8%) de madera y otros materiales,,, -
“Esta información es válida para 1970, pues el libro dice que proviene del IX Censo General de
Población. Construyamos dos cuadros: uno que exhiba esta información y otro con la información
simplificada, introduciendo una unidad de medida adecuada.

Solución: La información se refiere a las viviendas en el país; por lo tanto, éstas son el universo. La
variable es “tipo de material de sus muros”. La unidad de medida es “una vivienda” y el período, 1970.
Así el encabezamiento podría ser éste:

Viviendas por tipo de material de sus muros. México. 1970.

Las columnas que aparecen en el cuerpo serían: “tipo”, “total” y “ %”. Y la fuente: “enciclopedia de
México, 3ª. Ed., 1978, Vol. 8, P. 991”.

En fin, el cuadro sería el siguiente:

Tabla 2.1.8

Vivienda por tipo de material de sus muros, México. 1970

Tipo Total
8,286,369
%
100.0
Adobe 2,494,950 30.1
Ladrillo 3,658,146 44.1
Madera u otro 2,133,273 25.8

Fuente: Enciclopedia de México, 3ª. Ed., 1978, Vol. 8 p. 991.


Es evidente que la información del cuadro anterior puede ser simplificada introduciendo la unidad de
medida “millones “. Véase.



48

Tabla 2.1.9

Viviendas por tipo de material de sus muros. México. 1970

Tipo Total
(millones)
8.29
%
100.0
Adobe 2.49 30.1
Ladrillo 3.66 44.1
Madera u otros 2.13 25.8


Fuente: Enciclopedia de México. 3ª. Ed., 1978, Vol. 8 p. 991



Concluiremos este punto haciendo algunas observaciones de tipo práctico, que pueden ser de utilidad:

1. Para efectos de simplificación, una unidad de medida resulta adecuada si al introducirla en un
conjunto de datos, los resultantes pueden ser leídos sin dificultad.
2. Existen al menos dos unidades muy socorridas en la práctica, que cumplen cabalmente con el
punto anterior: las que tienen por base 1 000 y 1 000 000.
3. Cuanto mayor es el orden numérico de los datos originales, mayor es la necesidad de
simplificarlos expresándolos en una nueva unidad de medida.
4. La simplificación de los datos puede ser recomendable por diversas razones, pero en particular
recomendamos hacerla cuando los datos en su mayoría sean por lo menos del orden de decenas
de miles (18 525, 305 778, 5 715 200, etc).








49
2.2 ALGUNAS REGLAS PARA LA CONFECCIÓN Y PRESENTACIÓN DE TABLAS
ESTADÍSTICAS.

De la práctica han surgido diversas reglas, que no deben tomarse como normas rígidas, para la
confección y presentación de cuadros. A continuación daremos a conocer algunas.

1. La tabla debe ser lo más breve y concisa posible, para facilitar su lectura y análisis, pero esta
doble condición de brevedad y concisión tiene un límite: no puede haber omisión de indicadores
indispensables en el análisis.

2. Tanto el encabezamiento de la tabla, como las categorías de las variables y los títulos de las
columnas de concentraciones numéricas han de ser claros y brevemente redactados, dejando
para el pie las aclaraciones u observaciones.

3. Cuando los datos se dan en totales, acompañados de sus sumandos componentes, se deben
colocar siguiendo el principio de lo general a lo particular; es decir, primero se anotan los
totales y luego los sumandos componentes (tablas 2.1.2 y 1.2.7)




EJERCICIOS

Subtítulos 2.1 y 2.2

Con la información dada a continuación, construye la tabla correspondiente a cada caso y anéxale la
columna de frecuencias porcentuales.

2/1 El Anuario estadístico 1984, de la Facultad de sociología de la U.V., informa que, de los 188
alumnos inscritos en 1984, 130 habían realizado el propedéutico en Xalapa, 22 en Veracruz, 3 en Cd.
Mendoza, 2 en Minatitlán, 18 en Córdova, 3 en Coatzacoalcos, 7 en Poza Rica y 3 no hicieron
propedéutico, sino que entraron a la facultad revalidando estudios.

50
2/2 La Agenda estadística 1992, p.78 publicada por el INEGI, nos dice que en 1991 se produjeron en
el país 976,682 miles de barriles de petróleo crudo, de los cuales correspondió a la región norte 38,885;
a la región sur, 242,741 y a la región marina 695,056.

2/3 Según el Anuario de los estados Unidos Mexicanos, 1990, p. 198, publicado por el INEGI, de los
70`562.202 habitantes de 5 años y más registrados en 1990, 63¨285,027 eran católicos; 3¨447,507,
protestantes o evangélicos; 57,918, Judíos; 1¨021,326, otra: 2¨288,234, ninguna y 462,90 sin
especificar.

2/4 El Anuario estadístico 1964, de la UNAM., nos reporta que alumnos de esa institución, aparte de la
carrera en que están inscritos, estudiaban otra como se ilustra a continuación: universitaria, 410,
técnica, 40, comercial, 70; artística. 280; idiomas, 1,900; normal, 40 y otras, 400.

2/5 Según el archivo del Registro Civil del municipio de Tenosique, Tab., de enero a junio de 1990 se
expidieron 1,036 actas, repartidas como sigue: nacimientos, 699, defunciones, 85; matrimonios, 251 y
reconocimientos, 1

2/6 En una encuesta aplicada a clientes de una fábrica de automóviles de 1976, a la pregunta: ¿de qué
color prefiere su automóvil?, se respondió así: blanco, 18; azul, 22; verde, 40; amarillo, 25; rojo, 75.

Con la información dad a continuación, construye la tabla correspondiente a cada caso, que exhiba
únicamente frecuencias simples.

2/7 El Anuario estadístico 1984, de la facultad de física de la UAEM, nos dice que, de los 137
egresados de febrero de 1981 a agosto de 1983, 93 salieron como “regulares” y 44 como “irregulares”,
de la primera generación, 22 regulares y 6 irregulares; de la segunda, 24 y 14; de la tercera, 12 y 9 de la
cuarta, 6 y 0; de la quinta, 29 y 15.

2/8 En la p. 49 de la Agenda estadística 1992, publicada por el INEGI, se registra que en 1990 se
realizaron en el país 642,201 matrimonios, de los cuales, menores de 20 años fueron 109,255 hombres
y 239,019 mujeres; de 20 a 24 años, 263,704 y 235,465; de 25 29, 153,547 y 96,780, de 30 a 34,
51
56,516 y 34,081; de 35 a 39, 22,938 y 14,587; de 40 a 49, 19,176 y 12,382, de 50 y más. 16,550 y
8,837 y en edad no especificada 515 y 1,052.

Con la información que sigue, haz, para cada caso, dos cuadros: uno que presente la información tal
como se dice, y el otro que la presente simplificada, introduciendo una unidad de medida adecuada.

2/9 En el vol. 8 de la Enciclopedia de México (3ª. Ed., 1978 p 495), leemos refiriéndose a los datos de
la población 1970) “… de los mayores de 6 años (38´370,438), 21¨393,508 (55.8%) han tenido
instrucción primaria, pero sólo 4¨959,158 (12.9%) han cursado hasta 6to. Año; 3¨600,498 (9.4% han
recibido instrucción posterior y 13¨367,217 (34.8%) no han tenido ninguna”

2/10 Según el Anuario estadístico de los Estados Unidos Mexicanos, 1990, p. 180, publicado por el
INEGI, de la población total registrada en 1990 (81¨249,645), 31¨146,504 tenían edades por debajo de
los 15 años, 46¨234,035, entre 15 y 64 años; 3¨376,841, por arriba de los 64 años y 492,265 sin
especificar. )

















52
DISTRIBUCIONES DE FRECUENCIAS

Las tablas estadísticas descritas en la parte anterior, son “distribuciones de frecuencias de la variable
tratada”.

Una distribución de frecuencias de una variable es una descripción del número de veces, es decir, de
las frecuencias con que se presentan las diversas categorías mutuamente excluyentes y exhaustivas que
corresponden a esa variable.


DISTRIBUCIONES CUANTITATIVAS DE FRECUENCIAS (DATOS NO AGRUPADOS)

Cuando se recolecta una masa de datos pertenecientes a una variable cardinal, conviene colocarlos en
columna –buscando dar forma al cuerpo de una tabla- sin repetirlos, siguiendo un orden creciente o
decreciente, y asociarles la frecuencia que corresponde a cada uno. De esta manera surgen tablas como
la siguiente:

calificaciones
No de
estudiantes
x F
20 1
30 4
50 8
60 10
70 20
80 15
95 10
90 5
100 2


Una tabla como ésta, donde aparecen de manera ordenada las categorías numéricas de la variable con
su correspondiente frecuencia, recibe el nombre de: Distribución cuantitativa de frecuencias o
distribución numérica de frecuencias.



53
TERMINOLOGÍA RELATIVA A LAS DISTRIBUCIONES DE FRECUENCIAS

De la distribución anterior, si se divide cada una de sus frecuencias entre su total, se obtiene una
frecuencia relativa expresada en decimales que, si se multiplica por 100, se expresa en porcentaje, lo
cual puede ser anexado a la tabla:
calificaciones
No de
estudiantes

x F
f. r. %
20 1
1.3 %
30 4
5.3 %
50 8
10.6 %
60 10
13.3 %
70 20
26.6 %
80 15
20 %
90 10
13.3 %
95 5
6.6 %
100 2
2.6 %

Note que con la anexión de la columna de frecuencias relativas se logra una mejor captación de las
particularidades de la variable estudiada dentro del universo determinado.

De igual modo se puede construir la distribución de frecuencias acumuladas, absolutas o relativas.
Tales distribuciones pueden ser ascendentes (+) cuando la acumulación inicia por la frecuencia simple
del dato menor, en cuyo caso recibe el nombre de distribución de frecuencias acumuladas
ascendente, o si se inicia por el dato mayor, descendentes (-) distribución de frecuencias
acumuladas descendente.
Para una mejor comprensión vea el ejemplo:

calificaciones
No de
estudiantes


X f
f. a. (+) f. a. (-)
20 1
1
75
30 4
5
74
50 8
13
70
60 10
23
62
70 20
43
52
80 15
58
32
90 10
68
17
95 5
73
7
100 2
75
2

54
Toda esta explicación tiene como fin que se aprenda a construir de una sola vez un cuadro que incluya
frecuencias simples, acumuladas y porcentuales y que se este en condiciones de leer correctamente el
significado de cada una. Un cuadro como el siguiente:

Calificaciones
No de
estudiantes


x F f. r. %
f. a. (+)
f. r. (+)%
f. a. (-)
f. r. (-)%
20 1
1.33% 1
1.33 75 100
30 4
5.33% 5
6.66 74 98.66
50 8
10.66% 13
17.33 70 93.33
60 10
13.33% 23
30.66 62 82.66
70 20
26.66% 43
57.33 52 69.33
80 15
20% 58
77.33 32 42.66
90 10
13.33% 68
90.66 17 22.66
95 5
6.66% 73
97.33 7 9.33
100 2
2.66% 75
100 2 2.66

¿Cómo se leen estas tablas?

a) 4 personas, que representan un 5.33 % del total, obtuvieron 30 de calificación.
b) 20 personas, que representan un 26.66 % del total, obtuvieron 70 de calificación.
c) 68 personas, representan un 90.66 del total obtuvieron entre 20 y 90 de calificación.
d) 74 personas, representan un 98.66 del total obtuvieron entre 30 y 100 de calificación.

Cuadros como el anterior son de gran utilidad para el análisis de datos, pero de ningún modo para la
presentación.




DISTRIBUCIONES EN CLASES Y FRECUENCIAS DATOS AGRUPADOS

Cuando las categorías numéricas de una variable son distintas y numerosas, no conviene presentarlas
como una distribución simple de frecuencias, ya que resultaría una larga lista que dificultaría el
análisis. En este caso lo mejor es agruparlas. Al hacerlo, los diferentes valores o categorías se dividen
en intervalos de clase y se determina el número de casos pertenecientes a cada clase. Una ordenación
de las categorías de la variable en clases, reunidas todas, e indicada la frecuencia de cada una recibe el
nombre de distribución en clases y frecuencias. Vea el siguiente ejemplo:

55
Alumnado según tiempo dedicado
al estudio fuera de clases –Ciclo 2000A-

Horas semanarias Frecuencia F

1 hr - 3 hr 50

4 hr - 6 hr 38

7 hr - 9 hr 26

10 hr-12 hr 36

13 hr-15 hr 19

16 hr-18 hr 7

19 hr-21 hr 7

22 hr-28 hr 5


En este cuadro la primera clase va de 1 a 3 horas por semana y 50 estudiantes (frecuencia) caen en este
intervalo o clase, es decir 50 estudiantes estudian entre una y tres horas extra-clase a la semana.




TERMINOLOGÍA RELATIVA A DATOS AGRUPADOS

Clase o intervalo de clase, es el símbolo 1-3, en el cual 1 es el límite inferior y 3 el límite superior,
la distancia entre el límite inferior y superior recibe el nombre de amplitud o anchura aparente de ese
intervalo.

Si un alumno estudia, digamos 3.6 horas o 4.3 horas ¿en cuál clase se ubica? Los límites reales
inferior y superior del segundo intervalo son: 3.5 y 6.499, respectivamente, de este modo los datos 3.6
horas y 4.3 horas, se ubicaran en la segunda clase.
A los puntos como 3.5, 6.5, 9.5, localizados a la mitad de los espacios aparentes de un conjunto de
intervalos de clase se llaman límites o fronteras reales de clase.

La marca de clase, es el punto medio del intervalo de clase y se determina a partir de dividir la
amplitud aparente entre dos y sumar el resultado al límite inferior del intervalo. Desde el punto de vista
conceptual, La marca de clase de un intervalo puede ser interpretada como el valor donde se
concentran todos los datos pertenecientes a ese intervalo.
56
AGRUPAMIENTO EN INTERVALOS DE CLASE (Ejercicios página 35-37 de este texto de
apoyo)
La práctica constante en el manejo de conjuntos de datos diversos y numerosos, hará que el lector
desarrolle sus propias técnicas útiles para agruparlos.

Al agrupar la información existen varios factores importantes a considerar entre los cuales
mencionaremos los siguientes:

1) Número de intervalos adecuados para agrupar la información original. Es importante tener
presente que al formar grupos de datos existe cierta pérdida información de los datos originales, así
pues si la información se agrupa en pocos intervalos se perderá más información, sin embargo si se
agrupa en demasiados intervalos, se pueden presentar los mismos problemas que en el caso de los
datos individuales, de tal forma que al agrupar los datos se debe de resolver la situación de perdida de
información y tener una representación significativa, esto se logra eligiendo un intervalo no muy
amplio ni muy angosto.

Sobre tal particular la bibliografía hace sugerencias como las siguiente: “Rara vez usamos menos de 6
o más de 15 clases; el número exacto que usaremos en una situación determinada dependerá en gran
medida del número de lecturas u observaciones implícitas” (John E, Freud &Gary A. Simon,
Estadística Elemental. Octava Edición, Editorial Prentice Hall); Coincidiendo con este criterio, Wayne
W. Daniel. Estadística con aplicaciones a las Ciencias Sociales y a la educación. de la editorial Mc.
Graw. Hill.; Douglas C Mongotmery y Geroge C. Runger , el libro Probabilidad y Estadística Aplicada
a la Ingeniería de la Editorial Mc Graw Hill señala “El número de clases depende del numero de
observaciones y de la dispersión de los datos.

En general, una distribución de frecuencias que emplea pocas o demasiadas clases no contiene mucha
información. Hemos visto que, en muchos casos, resulta satisfactorio usar entre cinco y 20 clases, y que
el número de clases debe de aumentar en función de n
1
”.
En el libro Estadística para administración y economía de Mason/ Lind/ Marchal 10ª edición edit.
Alfaomega, recomiendan determinar el número de clases del siguiente modo:


1
Donde n significa el número total de datos.
57
Número de clases = 1 + 3.322(Log. Del total de frecuencias)

Ejemplo: para 60 datos


Número de clases = 1 + 3.322 (Log. 60) = 1 + 3.322 (1.778) = 6.9 (se redondea a 7 Clases)

i = intervalo de clase
Clases de Número
Bajo más Valor alto más Valor
i
÷
=

Cabe señalar que estos mismos autores mencionan que además de su juicio profesional, también se
puede utilizar la “regla de 2 a la k”. Para calcular el número en cuestión, seleccionamos el número
entero más pequeño tal que
n 2
k
>
, donde “n” es el número total de observaciones. De este modo
para el ejemplo anterior, el número de clases conveniente sería
60 2
k
>
fácilmente se puede
encontrar K de tal modo que 2 a la K sea igual o mayor a 60 en este caso K = 6. Note que con esta
fórmula el número de clases recomendado es 6, mientras que con la otra, el número de clases
recomendado es 7. Aquí es donde se tiene que emplear el juicio profesional o experiencia de quien hace
la descripción, considerando las recomendaciones ya señaladas.


2) La anchura o amplitud de los intervalos. La regla para amplitud de los intervalos es la de
considerarlos de misma anchura, aún existen contextos en las cuales el intervalo menor y/o el máximo
quedan abiertos, esto presenta dificultades al momento del tratamiento de algunas de las medidas de
centralización y variación que más adelante analizaremos. Evidentemente que la amplitud de los
intervalos esta ligada con el número de intervalos que se selecciona, ya que el recorrido de los datos
para una situación particular esta definido si se toman pocos intervalos, la anchura del mismos será
mayor que si se seleccionan muchos intervalos.

3) La variabilidad de los datos en cada intervalo de clase. Cuando la información esta presentada en
forma agrupada, difícilmente podemos tener la certeza de cuales ni cuantos de los valores originales
que se encuentran agrupados en determinado intervalo, es decir no sabemos realmente como se
58
distribuyen los datos en cada intervalo, si estos por ejemplo se sesgan hacia el limite inferior, o hacia
al superior, si se distribuyen normalmente alrededor de la mitad del recorrido. Sin embargo si hay la
consideración de que estos se distribuyen uniformemente en cada intervalo.

4) Importancia del punto medio de intervalo. Como ya se argumento no se puede precisar que datos
ni cuantos datos se agrupan en determinado intervalo, sin embargo es importante y necesario
determinar un representante de los datos originales en cada intervalo, ya que esto es necesario para
realizar ciertos tratamiento estadísticos como son el cálculo de la media aritmética y la desviación
estándar por mencionar alguno. Siendo entonces conveniente considerar como tal representante al
punto medio del recorrido del intervalo.

4) Al momento de realizar el procedimiento de agrupamiento de información en los intervalos, es
importante evitar que los datos originales se traslapen en los intervalos, es decir hay que asegurarse
que cada dato pertenece a sólo y sólo uno de los intervalos. Para la construcción de los intervalos de
clase, considerando la anchura de intervalo, en dependencia del autor consultado los valores de los
intervalos pueden ser continuos o no. En el caso de que sean continuos hay que definir si el intervalo
superior o inferior es cerrado, particularmente Douglas C. Mongomery y George C Runger,
Probabilidad y Estadística, de la editorial Mc. Graw. Hill recomiendan cerrar los limites inferiores
2
.
Como se muestra en la siguiente tabla:

Calificaciones obtenidas por un grupo de
estudiantes en un examen de estadística
Calificaciones (x) No de estudiantes
0 s x <20 5
20s x<40 15
40sx<60 30
60sx<80 12
80sx<100 2


2
Aunque este autor recomienda el considerar cerrado los limites inferior, es importante tener presente que cuando existan
datos que coincidan con el límite superior del último intervalo estos deben de ser agrupados en él.
59
Si los intervalos no son continuos sino que “pegan” un pequeño brinco, como se muestra en la siguiente
tabla, habrá que utilizar al momento de aplicar ciertos tratamientos un factor de corrección, para
encontrar “los límites reales” esta es la técnica utilizada por varios autores como por ejemplo John E.
Freud y Gary A Simon. Estadística Elemental de la Editorial Prentice Hall.


No de reactivos correctos obtenidos por un
grupo de estudiante en un examen de
estadística
No de reactivos
Correctos
No de estudiantes
0-4 5
5-9 15
10-14 30
15-19 12
20-24 2

Es importante aclarar que cualquier criterio que se utilice de los recomendados en la bibliografía
estadística sobre el agrupamiento de datos es adecuada, independientemente de los que didácticamente
se decidieron utilizar en el diseño de este curso.

5) Mason/ Lind/ Marchal 10ª edición edit. Alfaomega, recomiendan que; el límite inferior de la
primera clase debe ser un múltiplo par del intervalo de clase.
Consideraciones sobre la representación gráfica de información agrupada.

Un gráfico estadístico es la representación de datos estadísticos por medio de figuras geométricas
(puntos, líneas, rectángulos, etc.), cuyas dimensiones son proporcionales al valor numérico de los
datos.




60
EJERCICIOS

Para secciones de 2.3 a 2.5

Para cada uno de los casos siguientes, presenta la información en una distribución simple de
frecuencias, añadiendo en cada caso la columna de frecuencias porcentuales:

2/11 Calificaciones estadística alumnos 5º semestre:
5, 5, 9, 8, 7, 7, 7, 6, 6, 6, 6, 8, 9, 10, 9, 5, 5, 6, 6, 6, 7, 7, 8, 10, 7, 7, 8, 7, 7, 7.

2/12 Número de hermanos de un grupo de personas:
1, 3, 5, 6, 5, 5, 2, 3, 7, 5, 4, 5, 3, 2, 6, 5, 3, 0, 4, 5, 1, 4, 7, 5, 3, 6, 5, 5, 3, 1, 5, 3, 5, 4

2/13 Días que trabajan a la semana vendedores ambulantes:

7 4 6 3 3 6 6 7 7 5
5 6 4 6 3 6 7 5 7 7
6 2 7 7 6 3 3 4 6 6
6 5 2 6 2 6 7 7 6 7
6 3 5 5 6 6 5 7 7 7
7 5 6 6 6 7 6 7 7 6
7 7 7 7 6 7 7 6 7 6
7 6 7 7 5

2/14 Jornada diaria de trabajo, en horas, de un conjunto de trabajadores menores de 16 años.
4 3 4 4 5 6 7 7 6 5 4 4 3 3 4
5 6 8 8 6 5 4 4 3 10 9 9 9 8 6
5 4 4 3 3 3 3 4 4 5 6 8 6 6 5
4 4 4 4 5 6 8 7 5 4 4 3 3 4 4
5 7 7 5 4 3 4 5 5 3 7 5 4 3 10


2/15 Antigüedad en el trabajo en años de un grupo de trabajadores






2/16 Horas semanales frente a grupo de profesores universitarios:

4 18 12 20 5 12 16 6 20 24 8 18
10 18 4 16 24 16 8 20 18 16 4




6 10 7 12 11 14 10 14 12 9 6 8
13 13 10 10 12 5 14 10 7 7
61
2/17 Con los datos dados a continuación construye el gráfico correspondiente. (histograma)
Tiempos en minutos al pinchar 32 dedos para comprobar la coagulación.







2/18 Con los datos dados a continuación construye el gráfico correspondiente.
Porcentajes cambiarios en 30 valores de la bolsa de valores en un día.

6.6 0.4 5.7 1.5 -2.1
2.2 8.3 -1.8 2 -3.9
2.3 -1.9 -2 1.6 4.8
-0.9 -1.4 7.4 5.2 4
7.9 0 -1.3 2.5 2.3
-0.4 -0.8 6.1 5.8 -3


2/19 Con los datos siguientes que representan litros de leche vendidos diariamente por un pequeño
comerciante durante el bimestre (Junio-Julio de 2002), construye una distribución agrupada de 9
intervalos:

29 30 26 32 44 37 27 40 40 51 57 28
46 35 26 37 42 59 61 60 34 27 52 44
46 54 35 36 41 31 45 54 33 35 37 39
42 59 60 37 36 55 39 31 36 43 49 29
38 40 28 52 35 49 32 38 43 54 59 37

2/20 Con los datos dados a continuación construye el gráfico correspondiente.

Calificaciones del grupo de estadística primer examen parcial

9.5 5.8 7 7.5 10 8.5
6.5 6.5 9 7 2.5 7.5
5.5 7.7 8 8 3.5 9
9.5 8.5 8.5 8 8 9.5
7.5 8 6.5 9 9 7
8.5 9.5 5 8 6 7







1.42 1.38 1.42 1.46 1.21 1.49 1.41 1.66
1.42 1.4 1.37 1.39 1.45 1.23 1.48 1.43
1.42 1.57 1.46 1.41 1.36 1.4 1.37 1.4
1.37 1.38 1.34 1.32 1.33 1.42 1.27 1.36
62
2/21 Con los datos siguientes, que representan el tiempo dedicado al estudio fuera de clases, en horas
por semana, por estudiantes universitarios, construye una distribución de datos agrupados de 7
intervalos (haz que los intervalos tengan amplitud constante consecutivamente)

3 2 5 8 2 5 11 21 7 1 11 4 3 15 5 4 16 6
13 10 8 9 20 4 3 12 1 12 23 11 22 6 17 5 2 13
8 1 10 3 7 4 2 15 6 4 14 5 12 10 5 2 10 17
9 2 1 6 16 1 3 18 18 3 6 1 6 11 4 2


2/22 Con los datos dados a continuación construye el gráfico correspondiente.

Estaturas de alumnos y alumnas del grupo 1º de Maestría en administración.
1.53 1.59 1.55 1.64 1.79 1.69 1.57 1.68 1.63 1.64
1.69 1.73 1.67 1.56 1.68 1.52 1.55 1.51 1.6 1.52
1.52 1.78 1.67 1.57 1.54 1.64 1.74 1.59 1.69 1.67
1.68 1.69 1.59 1.55 1.53 1.66 1.67 1.63 1.67 1.77







DESCRIPCIÓN GRÁFICA DE UN CONJUNTO DE DATOS

ALGUNAS REGLAS PARA LA REPRESENTACIÓN GRÁFICA

1. Cuando se hace la representación gráfica de una sola variable, es costumbre indicar los datos de
ésta en el eje horizontal.

2. Como abundan las variables que dependen del tiempo, las unidades en que se exprese éste se
colocan en el eje horizontal (hora, días, meses, años, etc.).

3. Al representar los datos de dos variables (X, Y), cada una queda asociada a uno de los ejes. Se
acostumbra poner los valores de la variable que se considera independiente en el eje horizontal (eje
de las abscisas) y los valores de las dependientes en el eje vertical ( eje de las ordenadas).

4. En algunos casos, dadas dos variables, una puede depender de la otra o ambas de una tercera; en tal
caso, la asignación de los ejes a las variables es arbitraria.

5. La disposición general de un diagrama debe avanzar de izquierda a derecha.

6. Se debe procurar que aparezca en el diagrama la línea correspondiente al cero.

7. Cuando la línea del cero no pueda aparecer de modo normal en el diagrama, se le representa
mutilándola como sigue:
63




















8. Las dos escalas deben guardar proporcionalidad, de suerte que el gráfico no dé la impresión
de variaciones muy pequeñas o muy exageradas. La mayor objetividad visual se logra con la “regla de
los tres cuartos de altura”, que puede ser enunciada como sigue:


En la representación gráfica se debe construir el eje vertical de tal modo que la altura del punto máximo
(que representa el dato asociado a la frecuencia más alta) sea aproximadamente igual a 3 / 4 de la
longitud que media entre el origen y el último dato indicado en el eje horizontal.


Frecuencia








a




0


Figura 2.11.3
No. de accidentes No. de accidentes
a = 3 b
4
b
0
70
80



90
1982 1984 1986
Año
1980
0
20
30



40
22 23 24
Edad



ed
21 20
10
Figura 2.11.1 Figura 2.11.2
64


Sugerimos manejar esta regla cada vez que se pueda, ya que existe un uso engañoso, no poco
frecuente, de las técnicas de representación gráfica. Basta con manejar mañosamente los ejes de
coordenadas para dar impresiones radicalmente diferentes: Si se extienden las abscisas en relación a las
ordenadas, las diferencias entre los datos parecen reducidas; si, en cambio, se extienden las ordenadas
con respecto a las abscisas, las diferencias parecen exageradas*.

Un gráfico se considera terminado cuando cumple con estos requisitos:

1. El titulo de la tabla que dio origen al gráfico debe parecer arriba y fuera de éste; el periódico se
escribe debajo del título; la unidad de medida puede formar parte del encabezamiento,
quedando debajo del periódico, o fuera del gráfico, quedando a un lado o arriba de la escala
numérica. Esto último es lo más usual (vid. Gráfico 2.12.1).
2. Cuando un gráfico aparecen las categorías de más de una variable, se representan por la misma
figura geométrica, pero distinguiéndolas por diferente color, sombreado u otra características.
El significado de esta diferenciación se colocará, de preferencia, dentro del gráfico mismo; pero
si esto no es posible, en su parte exterior.


GRÁFICO DE BARRAS

En uno de los mejores para realizar comparaciones de datos estadísticos, porque además de
representar los valores absolutos o relativos de los datos en sí, da una imagen de cómo se reparten los
elementos de conjunto respecto al total. La construcción de este gráfico se basa en la representación de
un valor numérico por un rectángulo, cuya longitud es proporcional a ese valor. Lo más importante es
la determinación de la longitud o altura de los rectángulos que representan valores. El cálculo se
realiza mediante regla de tres simple, una vez establecida la correspondiente igualdad entre una
unidad de valor y una unidad de medida. La igualdad se establece entre el dato mayor y una medida
determinada.


Ejemplo 2.9 Calculemos la altura de los rectángulos correspondientes a los datos cuyas
frecuencias o intensidades numéricas son:


25, 75, 40, 60

Solución: Se elige una longitud conveniente y se establece una razón por cociente con el dato
mayor de la distribución. Supongamos que la longitud es 10 cm. Entonces se establece la relación
10/75, y con base en ella se plantean proporciones con los datos restantes.


10 = X , de donde X = 10 (25) =3.3 cm
75 25 75



65
Léase 10 es 75 como X es a 25.

10 = X X = 10 (40) =5.3 cm
75 40 75

10 = X X = 10 (75) =10.0 cm
75 75 75


10 = X X = 10 (60) =8.0 cm
75 60 75

Observando la solución para X en las proporciones anteriores, nos damos cuenta que cada datos se ha
multiplicado por un factor constante (10/75), que indica el número de unidades de longitud por cada
unidad de valor. En este ejemplo corresponde 0.133 cm a cada unidad de valor.

La existencia de un factor constante en toda proporción, como las anteriores, conduce a una vía
rápida para el cálculo de las longitudes a alturas de los rectángulos: para determinar las longitudes o
alturas de las barras que correspondan a cada uno de los datos de un conjunto determinado, basta con
elegir una longitud conveniente y establecer una razón entre elle y la frecuencia mayor del conjunto. El
cociente de esta razón es un factor que, multiplicado por cada una de las frecuencias restantes, de la
longitud de cada rectángulo.

En nuestro ejemplo










En la construcción de un gráfico de barras se han de tener en cuenta estos factores:

1. La línea base.

2. El ancho de las barras.

3. La se porción entre barras.


La línea base

Todas las barras deben partir de una horizontal llamada línea base, para poder hacer
comparaciones entre las dimensiones de las mismas por una simple y rápida inspección.

25 (.133) = 3.3 cm

40 (.133) = 5.3 cm

60 (.133) = 8.0 cm

75 (.133) = 10.0 cm
66

Ancho de las barras


Es arbitrario, pero tiene que ser igual para todas las barras de un mismo gráfico. Depende del
número de datos que se vayan a representar y del espacio disponible para la construcción del
gráfico.


Separación entre barras

Las barras de un gráfico pueden o no estar separadas, dependiendo del tipo de variable que
representen. Debe haber espacio entre una y otra cuando los datos pertenezcan a variable nominal u
ordinal. Dicho espacio no debe ser menor que la mitad de ancho de una barra ni mayor que el
ancho de la misma y ha de ser igual entre todas las barras. Cuando los datos son de variable
cardinal no debe haber separación entre las barras que los representan.
Independientemente de la variable, se bebe dejar espacio entre el origen de coordenadas y la
primera barra.

Con los elementos dados desde el inicio de este capítulo, podemos ahora construir cualquier
gráfico para distribuciones de una sola variable. Explicaremos el procedimiento general con un
ejemplo.

Ejemplo 2.10 De la tabla siguiente, construyamos un gráfico de barras

Tabla 2.12.1
Presupuesto* para 6 municipios de los más importantes del
Estado de Veracruz. 1991 (millones de pesos)





















Municipio Total
137 437

Coatzacoalcos 35 363
Córdoba 13 309
Orizaba 12 885
Poza Rica 10 644
Veracruz 42 592
Xalapa 22 644


* Aprobado por la Legislatura del Estado.
Fuente: Legislatura del Estado de Veracruz,
Dirección de Contaduría y Glosa, 1991.
67
Procedimiento:
1. Los seis municipios representan categoría nominales; por lo tanto, se usarán seis rectángulos
separados entre sí.

2. Se trazan los ejes de coordenadas y se procede a marcar el inicio y término de cada una de las
barras, haciendo fijado previamente el ancho y la separación entre éstas. Luego se mide la
distancia entre el origen de coordenadas y el extremo de la última barra (supongamos que da 12
cm).

3. Se determinan los 3/4 de la distancia anterior y se establece una razón entre la medida resultante
y la mayor intensidad numérica de la distribución (regla de los 3/4 de altura).

(3/4) (12)= 9 cm


Es decir, la barra correspondiente al presupuesto más alto deberá tener 9 centímetros de altura y la
razón de 9 cm a 42 592 millones de pesos da el factor constante 2.1 (10)
-4
, que representan el
número de centímetros por cada millón de pesos. Para facilitar su manejo, sea k este factor.

4. Se calculan las alturas de las barras correspondientes a los datos de la distribución por vía
rápida.




5. Se aproxima la frecuencia más alta de la distribución al número inmediatamente mayor que
permita una división apropiada del eje vertical, preferentemente en decenas, o un submúltiplo o
múltiplo de 10, respecto a la unidad de medida de la distribución. Ese número, en este ejemplo,
es 50 000, que se multiplica por k para conocer el número de unidades de longitud que le
corresponden.


50 000 k = 10.6 cm

Luego se parte 10.6 entre 5, para hallar la longitud equivalente a 10 000 millones de pesos.
En otras palabras, estas operaciones permiten fraccionar al eje de las ordenadas en 5 partes
iguales, cada una de las cuales es una unidad conveniente para la lectura y el dibujo del
gráfico.

6. Finalmente se dibuja el gráfico anexándole las indicaciones mínimas necesarias para su fácil
comprensión, según las reglas convencionales (subtítulo 2.11).







35 363 k = 7.5 cm
12 885 k = 2.7 cm
22 644 k = 4.8 cm
13 309 k = 2.8 cm
10 644 k = 2.2 cm
42 592 k = 9.0 cm
68
Gráfico 2.12.1



* Aprobado por la Legislatura del Estado.
Fuente: Legislatura del Estado de Veracruz, Dirección de Contaduría y Glosa, 1991.



GRÁFICO CIRCULAR

Se le llama también gráfico de pastel y es bastante útil para representar proporciones o porcentajes.
Es, de hecho, una forma alternativa al gráfico de barras para representar una distribución de
variable nominal. En su construcción se utiliza una circunferencia, cuyo círculo se divide en
sectores tales que sus medidas angulares sean proporcionales a los valores que representan. Estas
medidas se obtienen, al igual que para el tipo de gráfico ya estudiado, mediante una regla de tres
simple, una vez que se establece la relación entre una unidad de medida y una unidad de valor. Sin
embargo, en este caso particular resulta todavía más simple, ya que el factor constante que surge de
la relación es siempre el mismo en todos los casos, debido a que toda circunferencia se divide
convencionalmente en 360° y la suma de todos los datos de una distribución determinada equivale
al 100%. Así la relación que se establece es

6 . 3
% 100
360
=
°



0
5
10
15
20
25
30
35
40
45
P
r
e
s
u
p
u
e
s
t
o

e
n

m
i
l
l
o
n
e
s
Municipios
Presupuesto* para 6 municipios de los más
importantes del Estado de Veracruz. 1991
(millones de pesos)
69
Dicha relación da el número de grados por cada unidad porcentual. Consecuentemente, para
encontrar la medida angular que correspondería a un conjunto de frecuencias porcentuales cuya
suma es 100%, se multiplica cada una de éstas por 3.6.*

Los estudiosos de estas cuestiones han demostrado que, para lograr la óptima legibilidad, los
sectores deben ser dibujados de mayor a menor a partir de la posición que equivaldría en un reloj a
las 12 horas en punto y en sentido de las manecillas.


Ilustraremos el procedimiento a continuación.


Ejemplo 2.11 Construyamos un gráfico circular que represente la información de la tabla
2.12.1.


Instrumentos necesarios: regla, compás y transportador.

Procedimiento:

1. Se suman las frecuencias de las categorías de la variable (si la suma o total no aparece en la
tabla). En nuestro ejemplo aparece: 137 437.

2. Se expresan todas las frecuencias en porcentaje. Para ello, según aprendimos en el subtitulo
2.5, se divide cada uno entre el total y el cociente se multiplica por 100.
La suma de los porcentajes debe dar 100%.

3. Se multiplican las frecuencias porcentuales por el factor constante 3.6; esto da la medida
angular del sector representativo de cada porcentaje. La suma de las medidas angulares debe
dar 360°; a veces, por efecto de redondeo, se presenta alguna diferencia insignificante. Esto
carece de importancia; si la diferencia es más o menos un grado, se le resta o aumenta al
sector más grande al momento de trazarlo.









4. Se traza una circunferencia de radio arbitrario, en función del espacio disponible.

5. Se traza un radio vertical ya a partir de él se miden con un transportador los grados
correspondientes a cada sector, yendo del mayor al menor. A medida que se marcan los
grados en la circunferencia, se van dibujando los radios que formarán a su vez los sectores
buscados.

25.73 (3.6) = 93°
9.68 (3.6) = 35°
9.38 (3.6) = 34°
7.74 (3.6) = 28°
30.99 (3.6) = 112°
16.48 (3.6) = 59°
70

* Se puede establecer también la relación de 360° al total de frecuencias, es decir, a la suma no
expresada en porcentaje. El factor constante ya no será 3.6 sino otro valor, pero el resultado gráfico
será siempre el mismo.

6. Terminando el punto anterior, se escriben en cada sector los datos porcentuales
correspondientes; luego se anexa el encabezamiento y el pie, con todas las indicaciones
necesarias para hacer comprensible el conjunto gráfico. Siempre es conveniente que aparezca
la suma de frecuencias en el encabezamiento; eso da la oportunidad de reconstruir, si se
quiere, el cuadro que dio origen al gráfico.


Gráfico 2.13.1

* Aprobado por la Legislatura del Estado.
Fuente: Legislatura del Estado de Veracruz, Dirección de Contaduría y Glosa, 1991.
PICTOGRAMA


Es uno de los gráficos que más atrae la atención del lector, razón por la cual se recurre a él con
frecuencia. Consiste en representar, por medio de figuras, determinadas magnitudes. Su desventaja
principal es que no permite comparaciones satisfactorias.

Para construir se procede así:

1. Se escoge una figura alusiva al asunto que se describe y se le asigna un valor o unidad de
medida.
2. Las cantidades menores que la unidad de medida se representan mediante un símbolo mutilado.
3. Terminado el gráfico, se añade las indicaciones necesarias para su fácil lectura. Veamos:






42592
35363
22644
13309
12885
10644
Presupuesto* para 6 municipios de los más
importantes del Estado de Veracruz. 1991
(millones de pesos)
Veracruz
Coatzacoalcos
Xalapa
Cordoba
Orizaba
Poza Rica
71
Ejemplo 2.12 Representemos por medio de un pictograma la información siguiente:

Tabla 2.14.1

Entidades federativas* con más de 200 bibliotecas, México. 1980


Entidad N° de bibliotecas


Jalisco 282
México 225
Nuevo León 200
Oaxaca 275
Puebla 320
Veracruz 315


* Excluido el D.F.
Fuente: Agenda estadística, 1979, p. 78,
Secretaría de Programación y Presupuesto.


Solución: Alusiva a una biblioteca podemos escoger, por ejemplo, la figura de un libro abierto, al cual
le asignamos ** el valor de * 50 bibliotecas. De esta decisión sale el siguiente pictograma:



** Esta asignación dependerá siempre del tamaño de los datos que queramos representar, está en
función del espacio disponible y sólo se pide facilite la lectura aproximada rápidamente.

















72
Gráfico 2.14.1

Entidades Federativas *
Con más de 200 bibliotecas – México. 1980



* Excluido el D.F.
Fuente: Agenda estadística, 1979, p. 78, S.P.P.






HISTOGRAMA Y POLÍGONO DE FRECUENCIAS


Se da el nombre de histogramas a los gráficos de barras cuando representan variables cardinales,
principalmente continuas. Si se unen con segmentos de recta los puntos medios de los techos de los
rectángulos, resulta un polígono de frecuencias.

Aunque el procedimiento de construcción de un histograma es básicamente el mismo que para
cualquier gráfico de barra, tiene algunas características que hacen necesario explicarlo de nuevo. Para
ello se utilizará una distribución de datos agrupados.





Ejemplo 2.13 Construyamos tanto el histograma como el polígono de frecuencias de la tabla
siguiente:



73
Tabla 2.15.1

















Este cuadro es el mismo que el 2.9.2 del ejemplo 2.7; se le ha añadido únicamente la columna de
frecuencias porcentuales, con el fin de justificar las identificaciones diferentes de ambos cuadros.

Procedimiento:

1. Las siete categorías de la variable cardinal continua están agrupadas en intervalos de amplitud
constante; por lo tanto, se usarán siete rectángulos del mismo ancho, unidos entre sí.

2. Trazados los ejes coordenados, se procede a marcar el inicio y el término de cada barra,
habiendo fijado previamente su anchura. Puesto que no existen datos entre el origen de las
coordenadas y el primer intervalo, se mutila el eje horizontal para empezar el trazo de las barras
a una separación razonable del origen. Luego se mide la distancia entre este último y el extremo
del último rectángulo (suponga que da 10 cm.).

3. Se determina tres cuartas partes de 10 cm. y con este valor (7.5 cm.) y la máxima frecuencia
(19) se establece una razón.


7.5 = 0.3947 = k
19
la cual indica el número de centímetros por cada unidad de frecuencia, o sea, por cada empleado.

4. Se calculan la altura de las barras para todos los intervalos por vía rápida.







Edad de los empleados del supermercado X

Años Total %
70 100

18 – 21 10 14
22 – 25 9 13
26 – 29 19 27
30 – 33 12 17
34 – 37 9 13
38 – 41 4 6
42 – 45 7 10


Fuente: datos supuestos
10 k = 3.9 cm.
9 k = 3.6 cm.
------ = -------
------ = -------
7 k = 2.8 cm.
74
0
4
8
12
16
20
5. Se aproxima la frecuencia más alta de la distribución al número inmediatamente mayor que
haga posible una división apropiada del eje vertical. Ese número es 20, que se multiplica por k
para conocer el número de centímetro que le corresponden.

20 k = 7.9 cm.

Luego se fracciona 7.9 cm, digamos en 10 partes iguales, para encontrar la longitud equivalente a 32
unidades de frecuencia, es decir, a 2 empleados. La decisión de dividir en décimos y no en cuartos,
quintos o veinteavos, en este ejemplo, es por conveniencia; no existe otro motivo.



6. Finalmente se dibuja el gráfico, y se le añaden las indicaciones necesarias



Gráfico 2.15.1
Edad de los empleados del supermercado X
No. de empleados
















19.5 23.5 27.5 31.5 35.5 39.5 43.5 Años

Fuente: datos supuestos


Este gráfico muestra tanto el histograma como el polígono de frecuencias*. Se observa que el punto
medio de la base de cada barra es, precisamente, la marca de clase de cada intervalo: el inicio y el fin
de una barra representan los límites reales de un intervalo y, en consecuencia, el ancho de la barrar
equivale a la amplitud real de la distribución.




75
Reproduzcamos de nuevo el histograma y dividámoslo en pequeños bloques, cada uno de los cuales
represente un empleado (gráfico 2.15.2).


Gráfico 2.15.2
Edad de los empleados del supermercado X
No. de empleados


















19.5 23.5 27.5 31.5 35.5 39.5 43.5 Años
Fuente: datos supuestos



Pensemos ahora que cada bloque tiene igual a la unidad; entonces, el número de unidades de área en
cada rectángulo, o sea, el área total de éste, representa la frecuencia de un intervalo de clase, o de un
dato, si se trata de una distribución simple de frecuencias. Mirando detenidamente el gráfico, resulta
claro que el área de todos los rectángulos representa la suma de frecuencias o total de datos, y es igual a
la superficie limitada por el polígono y el eje de las abscisas del gráfico 2.15.1.


* De ninguna manera es un requisito que ambos tipo de gráfico se construyan juntos; con fines de
presentación se puede elegir uno u otro, según se prefiera.



Ahora bien, cuando las amplitudes de los intervalos son desiguales, el procedimiento sufre algunas
modificaciones para calcular el tamaño correcto de los rectángulos. Estudiemos el ejemplo que sigue.




0
4
8
12
16
20
76
Ejemplo 2.14 construyamos tanto el histograma como el polígono de frecuencias de la tabla
siguiente:

Tabla 2.15.2


















Procedimiento:


1. Las categorías de la variable cardinal continua están agrupadas en intervalos de amplitud
desigual; por lo tanto se usarán 6 rectángulos de ancho diferente, unidos entre sí.

2. Como la amplitud más frecuente es 10, correspondiente a los intervalos segundo, tercero y
cuarto, podemos tomarla como amplitud unitaria; entonces, la amplitud del primer intervalo
tendrá 1.1 veces la amplitud unitaria; la del quinto, 1.5 veces, y la del sexto, 0.6 veces.
Visualicemos esto en el cuadro siguiente:












Estos valores permiten fijar las alturas de los rectángulos en función de la que se ha tomado como
unidad.


Personas que se suicidaron
por grupos de edad

Edad Número
de personas

14 – 24 28
25 – 34 14
35 – 44 12
45 – 54 9
55 – 69 9
70 - 75 6

Fuentes: Datos supuestos
Datos frecuencias # de veces que un intervalo
Contiene a la amplitud unitaria

14 – 24 28 11/10 = 1.1
25 – 34 14 10/10 = 1.0
35 – 44 12 10/10 = 1.0
45 – 54 9 10/10 = 1.0
55 – 69 9 15/10 = 1.5
70 – 75 6 6/10 = 0.6


77
3. La elección de un intervalo de referencia cuya amplitud se considera igual a la unidad, da como
resultado una frecuencia ajustada cuya determinación representa las alturas de los
rectángulos. Así,

Frecuencia ajustada = frecuencia de clase
Número de veces que un
Intervalo contiene a la amplitud
Unitaria.


Aplicando la expresión anterior, tendremos:

Para el primer intervalo,

frec. ajustada = 28 = 25.5
1.1

para el quinto,

frec. ajustada = 9 = 6
1.5

y para el sexto,

frec. ajustada = 6 = 10
0.6

Construimos luego un cuadro que muestre los datos y sus frecuencias simples y ajustadas*.












4. Finalmente, se procede exactamente igual que en los casos anteriores aplicando la regla de los
tres cuartos de altura. Se ha de tener en cuenta, no obstante, que lo que se gráfica son las
frecuencias ajustadas y no las originales. Estas pueden ser anotadas arriba del rectángulo
correspondiente para permitir lecturas exactas. El gráfico resultante (histograma y polígonos de
frecuencias) es el siguiente:

* Si lo que se maneja son frecuencias porcentuales, se usa la misma expresión (1) para calcular
frecuencias porcentuales ajustadas.
Datos frecuencia frec. ajustada

14 – 24 28 25.5
25 – 34 14 14.0
35 – 44 12 12.0
45 – 54 9 9.0
55 – 69 9 6.0
70 – 75 6 10.0


78



Gráfico 2.15.3
No. de personas




Personas que se suicidaron por grupos de edad

















19 29.5 39.5 49.5 62 72.5






2.16 GRÁFICO DE LÍNEAS

Es bastante útil para comparar los datos de dos o más distribuciones. Consiste en unir, por medio de
segmentos de recta, los puntos de coordenadas determinados por los datos de dos variables que se
corresponden o de variables que dependen del tiempo. En su construcción también se aplica la regla de
los 3 /4 de altura. El trazo del gráfico puede o no comenzar en el eje de coordenadas; esto no tiene
importancia y depende del diseño del gráfico.







0
5
10
15
20
25
30
28
14
12
9
9
6
79

Ejemplo 2.15 Mediante un gráfico de líneas, presentemos la información de la tabla siguiente:

Tabla 2.16.1
















1970: Población corregida y proyectada al 30 de junio de 1970.
1979: Estimaciones del Consejo Nacional de Población.
Población rural: Menos de 2 500 habitantes.
Fuentes: “México demográfico, breviario, 1979 “, p. 44.

Procedimiento:

1. La Población es función del tiempo. Es decir, la magnitud tiempo es la variable independiente;
por lo tanto, según las normas convencionales, se debe ubicar las unidades de tiempo en el eje
horizontal y los datos de la población en el vertical.
2. Trazados los ejes de coordenadas, se marcan puntos igualmente espaciados para los años
dados. Luego se mide la distancia entre el origen de coordenadas y el punto correspondiente al
último dato en el eje de las abscisas (supongamos, 16 cm.).
3. Se determina los 3 / 4 de la distancia anterior y se establece una relación entre la longitud
resultante y el dato mayor de la serie, que se localiza en la columna de totales.

La razón de 12 a 67.9 indicará el número de centímetros por cada millón de habitantes.

12.0 = 0.1767
67.9

4. Se calculan las alturas de los datos de población usando el factor constante, que en esta ocasión
simbolizaremos por k.





Población rural y urbana. México, 1900 – 1979 (millones)

Año Total urbana rural

1900 13.6 2.6 11.0
1910 15.2 3.7 11.5
1921 14.4 4.5 9.9
1930 16.5 5.5 11.0
1940 19.7 6.9 12.8
1950 25.8 11.0 14.8
1960 34.9 17.7 17.2
1970 50.7 29.8 20.9
1979 67.9 44.6 23.3


80










5. Se aproxima 67.9 a 70 y se multiplica este último número por k, para saber el número de
unidades de longitud que le corresponden.

70 k = 12.4 cm.

6. Se parten los 12.4 cm. en 7 partes iguales, para hallar la longitud equivalente a 10 millones de
habitantes.

7. Fijados los puntos correspondientes a las tres distribuciones de datos (total, urbana y rural), se
traza el gráfico – tres curvas- y se le anexan las indicaciones mínimas necesarias para hacer
accesible la lectura.

Gráfico 2.16.1

Población rural y urbana México 1900 – 1979
Millones
De habitantes




















Fuente: “México Demográfico, Breviario, 1979”, p. 44, Consejo Nacional de Población.

Totales Urbanas Rural
13.6 k = 2.4 cm. 2.6 k = 0.5 cm. 11.0 k = 1.9cm.
15.2 k = 2.7 cm. 3.7 k = 0.7 cm. 11.5 k = 2.0cm.
------- = -------- ------ = ------- ------- = -------
------- = -------- ------ = ------- ------- = -------
67.9 k = 12 cm 44.6k= 7.9 cm. 23.3 k = 4.1 cm.




50
10
20
30
40
60
0
70
0
Población total
Población rural
Población urbana
81
DISTRIBUCIONES ACUMULADAS Y POLÍGONOS DE FRECUENCIAS
ACUMULADAS


Estudiamos en el subtítulo 2.5 el concepto de frecuencia acumulada. Vimos que la
acumulación de las frecuencias y, por consiguiente, de las categorías de la variable, puede ser
frecuencias simples o relativas, ascendentes o descendentes. También aprendimos a construir
e interpretar correctamente distribuciones de frecuencias acumuladas para distribuciones
simples de frecuencias, es decir, para datos no agrupados. A continuación ensancharemos
nuestro conocimiento de este tipo de distribuciones.

Hablamos con propiedad de distribución de frecuencias acumuladas siempre y cuando las
categorías de la variable que se maneja sean ordenables. En otras palabras: para variables
ordinales o cardinales. Si aculamos las categorías de menor a mayor (acumulación
ascendente), resulta una distribución menos de, en la cual una frecuencia acumulada incluye
todas las categorías menores de cierto valor. Si las acumulamos de mayor a menor
(acumulación descendente), resulta una distribución o más, en la cual una frecuencia
acumulada incluye todas las categorías mayores o iguales que cierto valor. Toda
representación tabular de una distribución acumulada se conoce como distribución de
frecuencias acumuladas. Ilustremos de dicho.

La tabla 2.17.1 presenta al mismo tiempo una distribución de frecuencias acumuladas
simple y otra porcentual, “menos de”, de las edades de los empleados del supermercado “X”,
que se dan en la tabla del subtítulo 2.15.

Tabla 2.17.1

















Este cuadro posibilita la siguiente lectura: por ejemplo, 38 empleados, que representan el 54% del total,
son menores de 29 años y medio; 59 empleados, que representan el 84% del total, son menores de 37
años y medio, etc.

Distribución de frecuencias acumuladas
“menos de” de las edades de los empleados
del supermercado X.

Años Empleados
No. %

Menos de 17.5 0 0
“ “ 21.5 10 14
“ ” 25.5 19 27
“ ” 29.5 38 54
“ ” 33.5 50 71
“ ” 37.5 59 84
“ ” 41.5 63 90
“ ” 45.5 70 100

82
Ahora bien, la representación gráfica de una distribución de frecuencias acumuladas se llama
ojiva o polígono de frecuencias acumuladas.


No se debe confundir el polígono de frecuencias acumuladas (ojiva) con el polígono de
frecuencias. Este, para su trazo, tiene como base los puntos medios de los intervalos de clase y limita
una superficie con el eje horizontal que es representativa del total de frecuencias (vid. Gráfico 2.15.1);
aquél se basa en los límites reales inferiores de clase y, por más características, recuerda la forma de
una ese.
Podemos construir ojivas con distribuciones acumuladas simples o porcentuales. Por sencillez
hemos preferido las acumulaciones porcentuales, aplicamos la regla de los tres cuartos de altura y
dividimos en 10 partes iguales al eje de las ordenadas, ya que las distribución siempre abarcará de 0 a
100%. Veamos.



Gráfico 2.17.1

% de empleados “menos de”























17.5 21.5 25.5 29.5 33.5 37.5 41.5 45.5 Años


Nótese que el carácter ascendente de este gráfico queda de manifiesto al leer los límites reales
de menor a mayor, ya que aumenta el porcentaje de casos que caen por debajo de ellos.

0
10
20
30
40
50
60
70
80
90
100
83

Los polígonos de frecuencias acumuladas son muy útiles porque permiten responder distintas
preguntas sin necesidad de cálculo. Por ejemplo, si en nuestra ojiva trazamos una paralela al eje
horizontal, podemos estimar la edad (29 años) bajo la cual se encuentra el 50% de los empleados.
También podemos estimar la edad (29 años) bajo la cual se encuentra el 50% de los empleados.
También podemos proceder en sentido inverso: fijada una edad que sea de nuestro interés, en el eje de
las abscisas, proyectarla hasta que corte a la ojiva y leer el porcentaje de empleados cuyas edades son
menores a ese valor.


Ahora consideremos el cuadro siguiente:

Tabla 2.17.2


















En este cuadro leemos, por ejemplo, que 60 empleados que representan el 86% del total, tiene 21 años
y medio de edad o más; que 11 empleados, que representan el 16% del total, tienen por lo menos 37.5
años de edad; etc. A continuación mostramos la ojiva correspondiente a esta nueva distribución
acumulada.













Distribución de frecuencias acumuladas
“o más” de las edades de los empleados
del supermercado X

Año Empleados
No. %

17.5 ó más 70 100
21.5 “ ” 60 86
25.5 “ ” 51 73
29.5 “ ” 32 46
33.5 “ ” 20 29
37.5 “ ” 11 16
41.5 “ ” 7 10
45.5 “ ” 0 0


84

Gráfico 2.17.2 % de empleados “ o más”



















El carácter descendente de esta ojiva sobresale porque al leer los limites reales de menor a mayor
disminuye el porcentaje de casos que están por arriba de ellos.

Concluiremos diciendo que los polígonos de frecuencia acumuladas pueden ser construidos
para cualquier tipo de distribución de datos agrupados, sin importar cuál sea la anchura de sus
intervalos.





















17. .5 21. 5 25..5 29..5 33. 5 37. 5 41. 5 45. 5 Años


85

EJERCICIOS

Subtítulos 2.10-2.13


Representa, mediante un gráfico de barras y otros de pastel, la información de cada uno de los cuadros
siguientes:


2/24

















2/25


















Fuente: Anuario estadístico de los Estados Unidos
Películas exhibidas según su nacionalidad
Distrito Federal. 1988.

Nacionalidad Total
4, 257

Mexicana 705
Alemana 75
Americana 2, 689
Francesa 176
Inglesa 71
Italiana 142
Otras 399



Accidentes de tránsito con resultados fatales, en
zona urbana, por tipo de accidente. México.
1989.

Total de accidentes Total
2, 910

Choque con otros 835
vehículos de motor

Atropellamiento 1, 249

Accidente de un solo 625
vehículo

Otros 201


86
Mexicanos, 1990, p.551.
2/26














* Por agencias del Ministerio Público
** No se dispone de la información de los casos
ocurridos en el Distrito Federal.
Fuente: Anuario estadístico de los Estados
Unidos Mexicanos, 1990, p, 562.


Subtítulo 2.15

2/27. Elabora histograma de las distribuciones dadas en los ejercicios 2/11, 2/12, 2/13 y 2/14.

2/28. Haz el polígono de frecuencias de las distribuciones dadas en los ejercicios 2/15, 2/16,
2/17 y 2/18.

Subtítulo 2.16

2/29. Del cuadro siguiente haz un gráfico de líneas que señale el número de divorcios por
duración del matrimonio en cada año. Sugerencia: simplifica antes el cuadro introduciendo una unidad
de medida adecuada.













Suicidios registrados * por estado civil
del individuo actuante **. México. 1989.

Estado civil Total
1, 160

Soltero 455
Casado 456
Viudo 41
Divorciado 19
Unión libre 120
Separado 6
Se ignora 63


Divorcios registrados por duración del matrimonio. México.
1985-1989

Años

Año Total Menos de 1 1-5 6-9 10 y más Sin especificar

1985 34, 114 1, 120 13, 588 7, 322 11, 515 5, 609
1986 38, 287 1, 382 15, 083 8, 191 13, 405 766
1987 45, 323 1, 432 17, 122 9, 568 16, 185 1, 016
1988 47, 464 1, 554 17, 228 9, 779 17, 378 1, 525
1989 46, 039 1, 913 16, 338 9, 235 17, 126 1, 427
Fuente: Anuario estadístico de los Estados Unidos Mexicanos, 1990, pp.402-403


87

Tomando los dos cuadros siguientes haz un gráfico de líneas para cada uno, que señale el total de
alumnos, el de hombres y el de mujeres, por ciclo escolar, Sugerencia: simplificalos antes
introduciendo una unidad de medida adecuada.

2/30











* Al inicio de cursos.
Fuente: Anuario Estadístico de los Estados Unidos Mexicanos, 1990, p. 423.

2/31













* Al inicio de cursos.
Fuente: Anuario estadístico de los Estados Unidos
Mexicanos, 1990, p. 442.











Alumnos en escuelas primarias*, por sexo y ciclo
escolar. México 1985 – 1990

Ciclo Total Hombres Mujeres

85/86 15’124,160 7’762,887 7’361,273
86/87 14’994,642 7’702,263 7’292,379
87/88 14’768,008 7’595,628 7’172,380
88/89 14’656,357 7’539,440 7’116,917
89/90 14’493,763 7’484,342 7’009,421

Alumnos en escuelas secundarias *,
por sexo y ciclo escolar. México.
1985 – 1990.

Ciclo Total Hombre Mujeres

85/86 4’179,466 2’162,769 2’016,697
86/87 4’294,596 2’219,445 2’075,151
87/88 4’347,257 2’244,452 2’102,805
88/89 4’355,334 2’244,848 2’110,486
89/90 4’267,156 2’192,832 2’074,324


88

2/32 El cuadro siguiente representa las edades de los trabajadores de la fábrica de ladrillos “Barro
fino”, en junio de 1993.











a) Construye su histograma.

b) Construye una distribución acumulada “o menos” y la ojiva correspondiente.


c) Usando la ojiva “o menos” estima la edad por debajo de la cual se halla el 25%, el 50% y
el 75% de los trabajadores.

d) Construye una distribución acumulada “o más” y la ojiva correspondiente.


e) Usando la ojiva “o más” estima la edad por arriba de la cual se halla el 25%, el 50% u el
75% de los trabajadores



2/33. Con los datos de los ejercicios 2/19, 2/20, 2/21, 2/22 y 2/23, para cada caso:


a) Construye su histograma

b) Construye unas distribución acumulada “o menos” y la ojiva correspondiente


c) Usando la ojiva “o menos”, estima el valor por debajo del cual se encuentra 25%, el 50% y el
75% de los casos

d) Construye una distribución acumulada “o más” y la ojiva correspondiente


e) Usando la ojiva “o más”, estima el valor por arriba del cual se encuentra el 25%, el 50% y el
75% de los casos.



Años Total

27-30 3
31-34 5
35-38 7
39-42 3
43-46 2
47-50 1


89

DESCRIPCIÓN NUMÉRICA DE UN CONJUNTO DE DATOS


MEDIDAS DE TENDENCIA CENTRAL

CALCULO DE MEDIA, MEDIANA Y MODA.

Datos no agrupados


Media aritmética
n
x
n
1 i
i ¿
=
= µ


Mediana: (llamada también valor mediano), es el punto dentro del recorrido de una variable que
supera a no más de la mitad de los datos y es superado por no más de la otra mitad.

Dicho de otro modo; si formáramos en una línea a todos los datos, (a partir del más pequeño, hasta el
más grande) sería el dato que cae en exactamente a la mitad.

Una forma rápida de obtener la mediana en una serie ordenada de datos es determinar el número de
orden que le corresponde٭.
Número de orden
2
1 N
. No
+
=



Moda. También llamado modo o valor modal, es el dato de variable que aparece más veces en una
distribución.
En otras palabras es el dato de variable que tiene mayor frecuencia, ejemplo:

Tengamos los siguientes datos: 5, 5, 4, 7, 9, 10, 3, 7, 5, 8
Media:
3 . 6
10
8 5 7 3 10 9 7 4 5 5
n
x
n
1 i
i
=
+ + + + + + + + +
= =
¿
=
µ



Mediana: Primero formamos los datos, 3, 4, 5, 5, 5, 7, 7, 8, 9, 10, luego calculamos el número de
orden del dato mediano,
5 . 5
2
1 10
2
1 N
. No =
+
=
+
=
lo cual significa en este caso que se
90
tienen que sumar los datos ubicados en los lugares 5 y 6 y dividirlo entre dos, esto es
6
2
7 5
Me =
+
=

Moda, es el dato que se repite más veces, Mo = 5

Así tendremos: Media = 6.3; Mediana = 6 y Moda = 5

Dados los datos anteriores podemos decir que el promedio de los datos es 6.3, que el 50% de los datos
es por lo menos 6 o mayor, otro 50% es cuando mucho 6 o menor que 6 y que el valor que se repite
mas veces es 5.

RELACIONES ENTRE LOS VALORES NUMÉRICOS DE LA MEDIA, LA MEDIANA Y LA
MODA, SEGÚN LA FORMA DE LA DISTRIBUCIÓN.

Se dice que una distribución es simétrica si, partiéndola imaginariamente por su punto mediano, una
vez hecha la representación grafica, se obtienen dos mitades exactamente iguales. Si no son iguales es
asimétrica. Esta asimetría puede darse en diversos grados, pudiéndose decir que una distribución es
ligera o marcadamente asimétrica.








Mo Me= = µ

Fig. a Fig. b fig. c Fig. d

Las asimetrías tienen sesgo positivo o negativo. Es positivo cuando sus datos se extienden hacia el
extremo de valores altos, tomando como punto de referencia el valor mediano; negativo, cuando se
extienden hacia el extremo de valores bajos.

Dependiendo de la forma de la distribución, las relaciones entre los valores numéricos de la media,
mediana y moda son como se afirma a continuación:

1- Si es simétrica unimodal, las tres son iguales. (Figura a)
2- Si es simétrica, pero tiene más de una moda, sólo la media y la mediana son iguales. (Fig b)
3- Si es asimétrica, por lo regular las tres son diferentes, habiendo siempre diferencia entre la
mediana y la moda. Fig. c y d





91
Si el sesgo es positivo Si el sesgo es negativo
Mo Me > > µ

Mo Me s < µ










La media es un indicador muy sensible a los valores extremos –muy altos o muy bajos- de una
distribución; en cambio la mediana es muy poco sensible a este tipo de datos. Esta propiedad en los dos
indicadores mencionados, conocida como estabilidad relativa, hace que la mediana se use como el
promedio adecuado para resumir distribuciones marcadamente asimétricas*.

CALCULO DE MEDIA MEDIANA Y MODA EN DATOS NO AGRUPADOS (En una distribución
simple de frecuencias)
En una distribución de datos no agrupados la media se obtiene mediante la fórmula
¿
¿
=
=
=
n
i
i
n
i
i i
f
x f
1
1
µ

La mediana y la moda se obtienen como ya se indico en el ejemplo anterior.

EJEMPLO
Un estudio sobre el aprovechamiento de los alumnos de un grupo “A” en cierto semestre, condujo a los
siguientes datos:

Calificación Frecuencia
(f)
No. de
estudiantes
(f)(x)
20 1
20
30 4
120
50 8
400
60 10
600
70 20
1400
80 15
1200
95 10
950
90 5
450
100 3
300
76 5440
Media 71.57
Mediana 70
Moda 70
Interpretación:

Media: Este indicador supone que cada uno de los 76 estudiantes
obtuvieron 71.57 de calificación en promedio, durante el
semestre considerado.

Mediana: Por lo menos la mitad (50%) de los estudiantes
obtuvieron 70 de calificación o más.

Moda: El caso más notorio fue el de os estudiantes que
obtuvieron 70 de calificación.



92
CALCULO DE MEDIA MEDIANA Y MODA EN DATOS AGRUPADOS

Media
¿
¿
=
=
=
n
i
i
n
i
i i
f
x f
1
1
µ
Mediana
j
f
f
N
L Me
j
a
*
2
(
(
¸
(

¸

÷
+ =
¿



Moda; Es el dato de variable que aparece más veces en una distribución.
En otras palabras es el dato de variable que tiene mayor frecuencia. (Es el dato que se repite más veces)



EJEMPLO DE CALCULO DE MEDIA MEDIANA Y MODA EN DATOS AGRUPADOS

Alumnado según tiempo dedicado
al estudio fuera de clases
2000
Horas semanarias Frecuencia
1-3 50
4-6 38
7-9 26
10-12 36
13-15 19
16-18 7
19-21 7
22-28 5


Para encontrar la Media, mediana y moda llenaremos la siguiente estructura.

Datos f dfa Puntos medios
(X)
F(X)
1-3 50 50 2 100
4 -6 38 88 5 190
7 – 9 26 114 8 208
10 – 12 36 150 11 396
13 – 15 19 169 14 266
16 – 18 7 176 17 119
19 – 21 7 183 20 140
22 – 28 5 188 25 125
Suma = 188 Suma = 1544


93

Media
. Hrs 2 . 8
188
1544
f
x f
n
1 i
i
n
1 i
i i
= = =
¿
¿
=
=
µ


Interpretación: En el año 2000 el alumnado sometido a investigación dedicaba al estudio fuera de
clases 8.2 Horas semanarias en promedio.

Mediana
19 . 7 3 *
26
6
5 . 6 3 *
26
88
2
188
5 . 6 j *
f
f
2
N
L Me
j
a
=
|
.
|

\
|
+ =
(
(
¸
(

¸

÷
+ =
(
(
¸
(

¸

÷
+ =
¿


Interpretación: En el año 2000 la mitad del alumnado dedicaba al estudio fuera de clases entre 1 y
7.19 horas a la semana (ó 7.19 horas como máximo).

Moda: Es la marca de clase del primer intervalo, puesto que es el de más alta frecuencia. Mo. = 2 Hrs.
Semanarias.

Interpretación: Entre el alumnado, en el 2000, el caso más notorio fue el de los estudiantes que
dedicaban 2 horas semanarias al estudio fuera de clases: el 26.6 % de los alumnos.


LA MEDIA, MEDIANA Y MODA EN VARIABLE NOMINAL Y ORDINAL

Investigue y conteste ¿Qué medidas de tendencia central se pueden calcular en variables de tipo
nominal y ordinal?















94
MEDIDAS DE DISPERSIÓN. RANGO (R), VARIANZA (
o
2
o S
2
), DESVIACIÓN ESTÁNDAR (
o
o S), DESVIACIÓN ABSOLUTA PROMEDIO (D.M.), COEFICIENTE DE VARIABILIDAD
(C.V.), Y DESVIACIÓN CUARTIL.

Una medida de dispersión dice cuanto se desvían los datos respecto a las tendencias centrales, y
es necesario su uso dado que las medidas de tendencia central no son suficientes para describir una
población, observe las siguientes figuras:











RANGO (R). Es la más simple de las medidas de dispersión. Representa la distancia entre el menor y el
mayor de los datos de una distribución, por lo cual puede ser interpretado como la dispersión total de
todos ellos, se obtiene restando el dato menor del dato mayor.

Ejemplo: Se tienen los siguientes valores, 2, 3, 4, 4, 5, 5, 5, 5, 6, 7 obtenga el rango R = 7 – 2 R = 5

El rango brinda una primera idea de la dispersión o heterogeneidad de una población, pero es
insuficiente dado que sólo considera los datos extremos y descuida los intermedios, por ejemplo,
observe las siguientes figuras:










Note que se trata de distribuciones con igual media, mediana, moda y RANGO, sin embargo, la
dispersión, entre los datos es diferente. Los datos de la segunda grafica están más dispersos que en la
primera y menos que en la tercera. Es necesario aclarar, tales dispersiones al hacer la descripción, para
esto utilizamos generalmente a la desviación estándar, dado que se presume que es la medida de
dispersión más adecuada.

Hasta finales del siglo pasado, la desviación media (Desviación absoluta promedio) fue la medida de
dispersión de más uso, esta fue desplazada por la construcción del concepto de “desviación estándar” la
cual tiene mejores propiedades algebraicas y genera valores numéricos muy parecidos a los que se
obtienen con la desviación media.
Note que se trata de distribuciones con igual
media, mediana y moda, sin embargo, la
distancia entre el menor y el mayor de los datos
es diferente. Los datos de la segunda grafica
están más dispersos. Es necesario aclarar, tal
diferencia al hacer la descripción, para esto
utilizamos el rango.

95

Aunque la D.M. haya caído en desuso, conviene estudiarla dado que es muy fácil de comprender y
facilita a su vez la comprensión del concepto de desviación estándar.

La “desviación media” se define como la desviación promedio de los valores absolutos de las
desviaciones de los datos de una variable respecto a su media.

Para calcular la desviación media se utiliza la siguiente fórmula:


N
X X
M D
¿
÷
= . .

Tengamos los siguientes datos: 5, 5, 4, 7, 9, 10, 3, 7, 5, 8
Media:
3 . 6
10
8 5 7 3 10 9 7 4 5 5
n
x
n
1 i
i
=
+ + + + + + + + +
= =
¿
=
µ


CÁLCULO DE LA DESVIACIÓN MEDIA
Xi Media Xi-Media
Valor
Absoluto
1 5 6.3 -1.3 1.3
2 5 6.3 -1.3 1.3
3 4 6.3 -2.3 2.3
4 7 6.3 0.7 0.7
5 9 6.3 2.7 2.7
6 10 6.3 3.7 3.7
7 3 6.3 -3.3 3.3
8 7 6.3 0.7 0.7
9 5 6.3 -1.3 1.3
10 8 6.3 1.7 1.7
19
DM = 19/10 DM = 1.9

Lo anterior quiere decir que los datos de la variable X se desvían 1.9 unidades en promedio respecto a
su media.

Observe los datos de la cuarta columna, podrá notar que el primer dato se separa –1.3 unidades
respecto a la media, en cambio el quinto dato se desvía 2.7 unidades por arriba del valor medio, etc.
Así resulta fácil comprender que la D. M. obtenida indica que los 10 datos de la variable se separan 1.9
unidades en promedio de la media aritmética.






96

DESVIACIÓN ESTÁNDAR Y VARIANZA (DATOS SIMPLES, SIN FRECUENCIA ASOCIADA)

Es la desviación promedio de los datos de una distribución respecto a su media.

Se utiliza el símbolo “
o
” cuando se trata de desviaciones estándar de poblaciones, y “S” si se trata de
muestras. La varianza es el cuadrado de la desviación estándar. Varianza =
o
2


( )
N
X X
S
2
¿
÷
=


Ejemplo: Calcular la desviación estándar y la varianza de los siguientes datos; 5, 5, 4, 7, 9, 10, 3, 7, 5,
8

CALCULO DE VARIANZA Y DESVIACIÓN ESTÁNDAR

Xi Media (Xi-Media)
2

1 5 6.3 1.69
2 5 6.3 1.69
3 4 6.3 5.29
4 7 6.3 0.49
5 9 6.3 7.29
6 10 6.3 13.69
7 3 6.3 10.89
8 7 6.3 0.49
9 5 6.3 1.69
10 8 6.3 2.89
Σ = 46.1

Varianza = 46.1/10 = 4.61 Desv. Stdr. = RAIZ 4.61= 2.14
















97
DESVIACIÓN ESTÁNDAR Y VARIANZA (DATOS AGRUPADOS)

Tengamos la siguiente tabla de un ejemplo anterior para calcular los datos señalados:

Alumnado según tiempo dedicado
al estudio fuera de clases
2000
Horas semanarias Frecuencia
1-3 50
4-6 38
7-9 26
10-12 36
13-15 19
16-18 7
19-21 7
22-28 5

Horas
semanarias
Frecuencia
F
Puntos
Medios (X)
X*X = X
2
F(X) F(X)
2

1 hr - 3 hr 50
2 4 100 200
4 hr - 6 hr 38
5 25 190 950
7 hr - 9 hr 26
8 64 208 1664
10 hr-12 hr 36
11 121 396 4356
13 hr-15 hr 19
14 196 266 3724
16 hr-18 hr 7
17 289 119 2023
19 hr-21 hr 7
20 400 140 2800
22 hr-28 hr 5
25 625 125 3125
188 1544 18842

Para el calculo de la varianza y desviación estándar utilizaremos la siguiente fórmula reducida:

( )
2
2
2
x
N
x f
S ÷ =
¿

2
S S =


( ) 66 . 32 56 . 67 22 . 100 2 . 8
188
842 , 18
S
2
2
= ÷ = ÷ =


71 . 5 66 . 32 S = =


Varianza = 32.66 Desviación estándar = 5.71

98
COEFICIENTE DE VARIABILIDAD

Considere las siguientes distribuciones –datos- 5, 15, 25, cuya desviación estándar es 8.16, Ahora
consideremos los datos 190, 200, 210, cuya desviación estándar es 8.16. ¿Qué conclusiones podemos
extraer?
En el primer caso el rango es 20 que comparado con la media es 133.3 % más grande, en el segundo
caso el rango es 20 pero comparado con la media 200 apenas es el 10%.

La desviación estándar o desviación típica es insuficiente para dar cuenta objetivamente de la
dispersión de dos o más conjuntos de datos, dos poblaciones pueden tener una desviación estándar
igual, sin embargo, una de las distribuciones puede ser mucho más homogénea que la otra en términos
relativos.


Coeficiente de Variabilidad: Es la razón de la desviación estándar a la media de una distribución
dada.

X
S
CV =
El coeficiente de variabilidad permite llegar a conclusiones más objetivas y se
acostumbra expresarlo en %.

Aplicando a los datos dados al inicio de este tema tendremos:

% 4 . 54 544 . 0
15
16 . 8
X
S
CV = = = =

% 4 040 . 0
200
16 . 8
X
S
CV = = = =


Note que la variabilidad es considerablemente más grande en el primer caso, dicho de otro modo los
datos de la segunda distribución son mucho más homogéneos que los de la primera en términos
relativos.














99
DESVIACIÓN CUARTIL
Es la medida de dispersión más usada en relación con la mediana: algunos autores la llaman rango
semiintercuartil. Se le simboliza por Q y se le define por la fórmula
2
Q Q
Q
1 3
÷
=
en la cual Q
1
y
Q
3
son los puntos bajo los cuales se halla el 25% y el 75% de los datos, respectivamente. A estos
puntos se da un nombre específico Q
1
es el primer cuartil, Q
3
es el tercer cuartil, de este modo el
valor mediano será Q
2
o el segundo cuartil.

La desviación cuartil representa la desviación promedio del primer y tercer cuartil con respecto a la
mediana de la distribución y nos dará idea de cuánto se desvían estos dos puntos respecto a la mediana.






10% 20% 10%
5% 10% 15% 15% 10% 5%




Al igual que los cuartiles Q
1
Q
2
y Q
3
hay casos especiales conocidos como percentiles. Estos son
puntos bajo los cuales se halla determinado porcentaje de datos, se les da el símbolo P, con un
subíndice que denota un porciento; así P
20
representa el punto bajo el cual se halla el 20% e los datos.
Hay otros casos de percentiles especiales que se usan frecuentemente, uno de ellos es el decil. Los
deciles como su nombre lo indica dividen a una distribución en 10 partes iguales.




















100
TEORÍA DE LA PROBABILIDAD

Definición y enfoques de la probabilidad


5.1 INTRODUCCIÓN

Cuando definimos la estadística en el subtitulo 1.1, dijimos, al hablar de las dos ramas en que se divide esta
disciplina, que la inferencial descansa en la teoría de la probabilidad. Esta teoría tiene, además, muchas
aplicaciones en diversos campos del quehacer humano: mediante ella se establecen los puntos de ventaja en
las carreras de caballos y otros eventos deportivos; se conoce la eficacia de nuevos medicamentos; se
mantiene el control de calidad en la industria o se colocan nuevos artículos en el mercado; se fija el monto
de los seguros de vida, etc. Estos ejemplos enseñan que el terreno de la probabilidad es vasto y atrayente.
Nos propondremos, en consecuencia, estudiar a continuación algunos de sus fundamentos.

5.2 FENÓMENOS DETERMINISTAS Y ALEATORIOS

Si ponemos al fuego un recipiente con agua, sabemos que ésta va a hervir indefectiblemente y que, además,
el tiempo en que alcance el punto de ebullición guardará relación inversa con la temperatura a que se le
someta: a mayor intensidad del fuego, menor el tiempo en que rompa el hervor y viceversa. Si lanzamos una
piedra al vacío, sabemos de antemano que caerá; podemos incluso predecir adónde, conociendo el ángulo de
inclinación y la velocidad inicial de lanzamiento, si la del viento en ese momento es despreciable.





Si, en cambio, tiramos un dado en cuyas caras aparezcan los símbolos de 1 al 6, desconocemos cual de ellos
quedará hacia arriba; o si echamos un volado, ignoramos si la moneda caerá águila o sol.







5.3 ESPACIO MUESTRAL Y EVENTO

Si retomamos los ejemplos del dado y del volado, notaremos que en el primero los resultados posibles son:
1, 2, 3, 4, 5, 6; en el segundo: águila o sol. Pues bien el conjunto de todos los resultados posibles de un
experimento aleatorio se conoce como espacio muestral; cada uno de ellos es un punto muestral y el
resultado que obtenemos o esperamos obtener al realizar una o varias veces el mismo experimento es un
evento o suceso. Si el experimento se repite dos o más veces, el número de resultados posibles cambia
notoriamente al igual que la naturaleza de los puntos muestrales. Veamos.


Ejemplo 5.1 Determinamos el espacio muestral resultante de echar dos volados.

Estos experimentos, cuyos resultados pueden ser anticipados con toda certeza, reciben
el nombre de fenómenos deterministas.
Estos experimentos, en que no es posible adelantar el resultado con toda certidumbre, se llaman
fenómenos aleatorios y son el objeto de estudio de la teoría de la probabilidad
101
Solución: se trata de un experimento formado por dos repeticiones del mismo tipo: echar un volado.
Pensando un poco, encontramos que los resultados posibles pueden ser 2 águilas, 1 águila y 1 sol, 1 sol y un
águila, 2 soles. Usando las iníciales correspondientes, podemos anotar este espacio muestral como sigue:

(AA, AS, SA, SS)

Si el evento esperado es cualquiera de estos dos puntos, se dice que es un evento conjunto ya que consta de
más de un evento simple.

Como acabamos de ver, la determinación del espacio muestral de experimentos que implican una o dos
repeticiones de su tipo, como echar uno o dos volados, tirar dos veces un dado, planear tener dos hijos, es
muy fácil ya que basta una simple inspección. No obstante, cuando se quiere conocer a todos los resultados
posibles de una serie de experimentos o repeticiones del mismo tipo, en el cual los puntos muestrales son
necesariamente eventos conjuntos, esa facilidad desaparece rápidamente y se torna más y más difícil a
medida que se alarga la serie. Por fortuna, para resolver estos casos existe una técnica conocida como
diagrama de árbol cuya aplicación conduce metódicamente al espacio muestral que se quiere conocer.
Explicaremos en que consiste recurriendo a un ejemplo.

Ejemplo 5.2 Se nos informa que una pareja planea procrear tres hijos. ¿De cuántas maneras diferentes
puede suceder este hecho? En otras palabras: ¿Cuál es el espacio muestral del experimento “procrear 3
hijos”?

Solución: Sea H el evento “ser Hombre” y M el evento “ser Mujer”. Es evidente que el primer hijo puede
ser tanto de un sexo como del otro; las dos ramas primarias de la figura 5.3.1 ilustran la situación. Para el
segundo y el tercer hijo, la posibilidad de cualquiera de los dos sexos sigue siendo la misma; en
consecuencia, de cada rama primaria se desprenden dos secundarias y, de cada secundaria, dos terciarias con
lo cual se termina el diagrama necesario para resolver el problema.

Segundo Hijo Tercer Hijo

Primer Hijo H (HHH)

H
M (HHM)
H
H (HMH)
M
M (HMM)

H (MHH)

H M (MHM)
M
H (MMH)
M
M (MMM)


102
5.4 DEFINICIÓN Y PROPIEDADES DE LA PROBABILIDAD








Ejemplo 5.3 Si el reporte meteorológico informa que la probabilidad de que llueva es 85%,
entendemos que si bien no puede llover, es casi seguro que llueva; si ese número es 50%, nos quedará
una gran duda, ya que ambas alternativas son igualmente probables.


Ejemplo 5.4 En el sorteo zodiaco de la Lotería Nacional, la probabilidad de sacarse el premio mayor
es uno en ciento veinte mil. En otras palabras, esta probabilidad es un número, .0000083, que se asigna
al evento “pegarle al gordo” y que indica que tan probable es su ocurrencia. Es claro que aunque puede
suceder, es muy difícil; hablando con propiedad: muy poco probable.

Una probabilidad no puede ser cualquier número, digamos -2 o 110%, sino un número real, P, que se
asigna a un evento A, que tiene las propiedades siguientes:

1. La probabilidad de que ocurra A no puede ser menor que cero ni mayor que uno. El cero indica
la imposibilidad de ocurrencia del suceso; el uno, la certidumbre de que ocurrirá.
2. Para dos eventos A y A’ mutuamente excluyentes, la probabilidad de ocurrencia de uno u otro es
igual a la suma de sus probabilidades separadas.

En símbolos, P (A o A’) = P(A) + P (A’), si A y A’ son mutuamente excluyentes.

Adaptado al tema que estamos estudiando, la expresión mutuamente excluyentes, cuyo significado
explicamos en el subtitulo 1.3, quiere decir que si ocurre uno de los eventos de un espacio muestral,
ninguno de los otros puede ocurrir al mismo tiempo; la ocurrencia de cualquiera de ellos excluye
automáticamente la de los restantes. Dicho de otro modo: la probabilidad de que sucedan A y A’ es
cero.

P(A o A’) = 0, si A y A’ son mutuamente excluyentes.

Nota. Si A y A’ son mutuamente excluyentes y exhaustivos, o sea, que juntos abarcan todo el espacio
muestral, la probabilidad de ocurrencia de uno u otro sigue siendo la suma de sus probabilidades
separadas, pero en este caso esa suma es igual a uno.

En símbolos, P (A o A’) = P(A) + P (A’) = 1 si A y A’ son mutuamente excluyentes y exhaustivos.






Probabilidad
Es un número que se asigna a un evento para indicar la posibilidad de su ocurrencia
103


Ejemplo 5.5 Una investigación realizada en una facultad de la universidad Veracruzana revela
que la probabilidad de que un alumno dedique al estudio, fuera del aula, más de 12 horas a la semana es
0.20. Determinemos la posibilidad de que estudie 12 horas más o menos.
Solución: Sea A el evento “mas de 12 horas” y A’ el evento “12 horas o menos”. Vemos que
ambos son no lo mutuamente excluyentes sino también exhaustivos, es decir, que juntos agotaron el
espacio muestral.

Entonces por la propiedad 2, podemos plantear:

P(A) + P(A’) = 1

P(A’) = 1 - P(A)

= 1 – 0.2

P(A’) = 0.8

Es decir, la probabilidad de que un alumno de esa facultad invierta en estudiar fuera de clases
12 horas más o menos a la semana es 80%.

Las posibilidades pueden ser escritas en forma fraccionaria, decimal o porcentual. Por ejemplo,
las expresiones 2/5, 0.4 y 40% se refieren todas a la misma probabilidad. Las tres son aceptables; la
elección de una u otra estará en función de la facilidad con que puedan leerse en un contexto
específico. Por ejemplo, 1/64 es mas simple que sus equivalentes 0.015625 ó 1.5625%, y 1/3 es más
exacto que 0.333 ó 33.3%. Pero 2/7 y 4/17 son más difíciles de comparar que sus formas decimales,
0.286 y 0.236, o porcentuales, 28.6% y 23.6%. la práctica, acompañada de un poco de reflexión, nos va
enseñando a escoger adecuadamente una u otra forma.

Visto el concepto genérico de probabilidad, sus propiedades y las distintas maneras en que podemos
escribir sus valores numéricos, a continuación interpretaremos las probabilidades en función del modo
en que se determinan.

5.5 PROBABILIDAD BAJO EL ENFOQUE CLÁSICO

El estudio de la probabilidad tienes sus raíces en los juegos de azar, donde el requisito básico de
imparcialidad exige que ciertos resultados sean igualmente probables. Un dado limpio o, como se dice en la
jerga de este tipo de juegos, “no cargado”, es aquel en que cualquiera de sus 6 caras tiene la misma
oportunidad de aparecer cuando se tira. Bajo las mismas condiciones de imparcialidad, el águila y el sol
tienen la misma oportunidad al echar el volado. Este requisito, que los resultados de un experimento
aleatorio sean igualmente probables, es la característica fundamental de la interpretación clásica de la
probabilidad, que dice:

Si para un evento A hay n resultados igualmente probables, de los cuales f son del tipo que nos interesa, la
probabilidad de que ocurra un resultado de ese tipo es f/n, es decir,

104
P(A)=

, para n resultados igualmente probables.

El supuesto de equiprobabilidad de los resultados posibles de un experimento aleatorio, estará implícito en
los ejemplos relativos al subtítulo que estamos desarrollando.





Ejemplo 5.6 Determinamos la probabilidad de que al tirar un dado: a) aparezca el número 3; b) no
aparezca el 3.

Solución a): Existen, como ya vimos, 6 resultados posibles al echar un dado, entre los cuales hay uno
del tipo que nos interesa. Por lo tanto,

P(3) = 1/6 = 16.7%

Solución b): Entro los resultados posibles hay ahora 5 del tipo que nos interesa; es decir, existen 5
alternativas diferentes que no son el 3. Entonces,

P(no sea 3) = 5/6 = 83.3%

Nota: Dado un evento A, la probabilidad de que no ocurra suele escribirse así:

P(~A)

Que, en el ejemplo 5.6, es igual a 5/6.

Observa que los eventos A y ~A son, aparte de mutuamente excluyentes, exhaustivos, ya que juntos
abarcan la totalidad del espacio muestral. En consecuencia, por la propiedad 2 de las probabilidades,
P(3) + P(~3) = 1

Lo cual concuerda con las posibilidades calculadas:

1/6 + 5/6 = 1




Ejemplo 5.7 ¿qué probabilidad existe en el juego de dominio: a) de sacar la ficha seis tres; b) de
sacar una mula?

Solución a): Como el juego consta de 28 fichas, el espacio muestral esta formado por 28 resultados
posibles, entre los cuales hay un solo seis tres. Por esto,

P(seis tres) = 1/28 = .036 = 3.6%

105
Solución b): Puesto que en el juego existen 7 mulas, la probabilidad de extraer una de ellas es 7/28.

P(mula) = 7/28 = 1/4 = 25%

El enfoque clásico se aplica no solo a los juegos de azar, sino tambien a cualquier situación en que
todos los resultados posibles sean igualmente probables. No obstante, este puesto no se cumple en una gran
variedad de problemas, razón por la cual no siempre es aplicable el enfoque clásico en el cual, como ya se
debió ver el lector, la determinación de una probabilidad se efectúa suponiendo un solo intento del
experimento, bastando con conocer el total de resultados posibles y la frecuencia del que nos interesa.




5.6 PROBABILIDAD BAJO EL ENFOQUE DE FRECUENCIA RELATIVA Y LA LEY DE LOS
GRANDES NÚMEROS

La segunda manera de interpretar la probabilidad tiene como base un teorema establecido por el
matemático suizo Jacobo Bernoulli (1654-1705). Este teorema dice:







Sea n un número grande de intentos o repeticiones de un experimento aleatorio; f, las veces que un
resultado específico ocurre en ellos y P(A), la probabilidad de ese resultado en cada intento, Entonces,
la proporción f/n es la probabilidad P(A).

Esto, en notación sintética, se escribe así:

P(A) = f/n, cuando n es grande.



El teorema de Bernoulli, conocido también como Ley de los grandes números, puede ser ilustrado
repitiendo un gran número de veces un experimento aleatorio sencillo, por ejemplo, echar volados o
tirar un dado, y anotar de vez en cuando, digamos cada 25 repeticiones, la proporción en que se
presenta cierto resultado, tabularlo y, para mejor visualización, hacer la representación gráfica
correspondiente. De un modo semejante salió este gráfico:








La Probabilidad de un evento es la frecuencia observada de ese evento en un
número muy grande de casos.
106

Proporción de águilas en 300 volados f/n


















Gráfico 5.6.1


Por la gran variedad de aplicaciones que tiene este teorema en la estimación de probabilidades,
es necesario que nos convenzamos, por vía empírica, de la verdad que encierra.

Supongamos que en una caja colocamos cierto número de canicas de igual tamaño, digamos 70,
de las cuales 42 sean blancas y el resto negras.* Mezclémoslas concienzudamente, saquemos uno al
azar y registremos en una tabla de conteo el color que tenga, cuidando de reintegrar la esferita antes de
repartir muchas veces el experimento. Esperamos, por la ley que acabamos de enunciar, que a la larga
el evento “blanca” se presentará mas o menos un 60% de las veces. La probabilidad 60% no significa
que de cada 10 repeticiones la canica saldrá 6 veces; de cada 100, 60; de cada 1000, 600. la ley de los
grandes números señala que si se repite el experimento un número de veces grande, el evento “blanca”
ocurrirá en una proporción cercana a 0.6. pero ¿cuándo un número de intentos se considera
suficientemente grande? No hay cifra específica; depende de la aproximación que requiramos al
verdadero valor de probabilidad y de que tan seguros queramos estar respecto a esa aproximación.

Esta ley permite estimar probabilidades con base en la proporción de veces que un hecho haya
ocurrido en el pasado en un gran número de repeticiones bajo la misma situación. Ilustremos este caso.


Ejemplo 5.8 Las 7 generaciones estudiantiles anteriores a la fecha en que un nuevo estudiante
se inscribe en cierta facultad de la Universidad, constaron de 435 alumnos, de los cuales 229 cursaron
los 8 semestres reglamentarios; pero hablando con rigor, solo 166 tenían la calidad de egresados, pues
terminaron su formación básica profesional sin adeudar asignaturas. Calculemos la probabilidad de que
el recién inscrito: a) curse los 8 semestres de la carrera; b) concluya los 8 semestres sin adeudar
asignaturas.

107
Solución a): De acuerdo con los datos, el acto de inscribirse para hacer carrera profesional se
repitió en 435 ocasiones, en las cuales el evento “cursar los 8 semestres” se presento en 229 veces; por
lo tanto, la proporción 229/435 = .526 = 53% será indicativa de la probabilidad que tiene el recién
inscrito de hacer todos los semestres.

P(8 Semestres) = 229/435 = 53%

Solución b): La proporción de egresados efectivos es de 166/435 = .382 = 38%. En
consecuencia la probabilidad de que el alumno de nuevo ingreso termine los 8 semestres en calidad de
egresado es de 38%.

P(egresado) = 166/435 = 38%

Nota: la objetividad de estas estimaciones depende no sólo del número de intentos observados
(435 en este caso), sino también de la situación en que se hayan presentado sea igual, en lo esencial, a
la situación en que se quiere conocer la probabilidad. Por ejemplo, para la nueva generación estudiantil,
¿siguen vigentes el mismo plan de estudios, las mismas estrategias didácticas que condicionaron a las 7
generaciones anteriores? Si la respuesta es afirmativa, la probabilidad estimada es confiable; de lo
contrario no.

Esto nos hace recordar la única exigencia del enfoque de frecuencia relativa: que las
repeticiones, aparte de numerosas, sean iguales en lo esencial. En otras palabras: que se repitan bajo las
mismas condiciones. Es indudable que muchas situaciones a las que se pretende añadir un enunciado de
probabilidad pueden no ser repetibles, sino mas bien únicas, lo cual hará discutible la objetividad de los
valores de probabilidad por la vía de la frecuencia relativa.

Con todo, este enfoque es el más aceptado y de mayor aplicación para la determinación de
probabilidades de eventos: posee la ventaja de eliminar la restricción de equiprobabilidad que tiene el
enfoque clásico, introduciendo el principio de repetir el proceso de selección n veces. Buena parte del
quehacer estadístico y de la confiabilidad de sus resultados descansa, como afirmamos en el subtítulo
1.1, precisamente en el Teorema de Bernoulli.


5.7 PROBABILIDAD SUBJETIVA Y PROBABILIDADES A FAVOR

Según el enfoque subjetivo, una probabilidad es una medida del grado de certidumbre que tiene una
persona respecto a la ocurrencia de un evento. Este punto de vista, que ha atraído la atención de los
estudiosos de estas interrogantes, no es tan arbitrario como puede parecer; no quiere decir que se escoja sin
ton ni son un número entre 0 y 1 y se anuncie que se trata de la probabilidad de un evento. Asociar un
número al grado de certeza que podamos tener respecto a un suceso es asunto separado del principio de la
probabilidad subjetiva, a saber: que la probabilidad puede ser vista como una medida del grado de creencia
que no tiene a partir juicio o la valoración propios de evidencias e incertidumbres relevantes. El enfoque
subjetivo es un modo de entender la probabilidad de eventos donde no hay ni resultados igualmente
probables ni un gran numero de repeticiones con las mismas características.

¿Qué significa, por ejemplo, que un dirigente de un partido político diga que la probabilidad
subjetiva de que su agrupación ganará las elecciones en cierto municipio es 80%? Significa que, partiendo
108
de su conocimiento de la situación y juzgando las evidencias que rodean la campaña, siente cuatro veces
mas probable (probabilidad = .08) que gane su partido a que pierda (probabilidad = 0.2).

En ocasiones, las probabilidades de ocurrencia de un evento se denota por p y la de su no ocurrencia
por

q = 1- p

Entonces las probabilidades a favor del evento se definen como la razón de p a q. por convención,
estas probabilidades se expresan como la razón de 2 enteros positivos, c a d, que carecen de factores
comunes. En notación matemática, si
p/q = c/d

Donde c y d son enteros positivos sin factores comunes, las probabilidades a favor del evento son c a
d y en contra son d a c. se enuncian a favor si p es mayor que q, y en contra si q es mayor que p; es decir, se
pone primero el entero mayor.





Ejemplo 5.9 La probabilidad de que al tirar un dado resulte un número mayor que 2 es “/3.
Expresar este valor en probabilidad a favor.

Solución sea p = 2/3, entonces q = 1 – p = 1 – 2/3 = 1/3

Y la razón de p a q es p = 2/3 = 2
q 1/3 1

Por lo tanto, las probabilidades a favor de que aparezca un número > 2 son 2 a 1.




Ejemplo 5.10 En cierta escuela universitaria, la probabilidad de que un alumno de nuevo ingreso
concluya sus estudios sin deber ninguna asignatura es .38. expresemos este valor en términos de razón.

Solución: Sea p = .38; entonces q = 1- p = 1 - .38 = .62.

p/q = .38/.62 = 38/62 = 19(2)/31(2)

Entonces, por la regla convencional de que se debe siempre poner primero el número mayor, diremos
que las probabilidades de que el alumno termine sus estudios sin deber ninguna materia están en contra 31 a
19.

Acabamos de ver que la proporción p/q = c/d conduce a la conversión de probabilidades en
probabilidades a favor o en contra. Aprendamos ahora a realizar la operación inversa. Para ello, mediante un
109
simple ejercicio de álgebra, se resuelve la ecuación para ello, mediante un simple ejercicio de álgebra, se
resuelve la ecuación p como sigue:

p/q es equivalente a p/1-p.

Podemos escribir entonces:

p/1-p = c/d
De donde

pd = c(1-p) = c-cp
pd+cp = c
p(c+d) = c
p = c/c+d

La educación resultante para p permite calcular la probabilidad de un evento a partir de sus
probabilidades a favor o en contra.



Ejemplo 5.11 respecto a la posibilidad de ser derecho o zurdo, las probabilidades a favor de que un
recién nacido sea derecho es 13 a 1. ¿Cuál es la probabilidad correspondiente?

Solución p(derecho) = 13/ 13+1 = 13/14 = .93





Ejemplo 5.12 las probabilidades de que un estudiante de licenciatura de la U. V. provenga de una
familia cuyo padre haya realizado estudios profesionales completos están en contra 23 a 2.
Expresemos este dato como probabilidad simple.

Solución la expresión “están 23 a 2” significa que por cada 23 probabilidades en contra solo hay
2 de que ocurra el evento mencionado. Por lo tanto, puesto que la probabilidad de un evento es siempre, por
definición, su probabilidad de ocurrencia, no la de su ocurrencia, escribiremos.

P = c/c+d = 2/2+23 = .08

Es decir, la probabilidad de que un estudiante de la u. v. provenga de una familia cuyo padre haya
realizado estudios profesionales completos es 8%.

La expresión (1), que acabamos de aplicar en los dos ejemplos anteriores, puede usarse para estimar
la probabilidad subjetiva de una persona respecto a un evento, siempre y cuando pueda decir cuales son,
desde su punto de vista, las probabilidades a favor de ese evento para hacer una apuesta imparcial. Veamos.



110


Ejemplo 5.13 Un aficionado al boxeo apuesta 2 a 1 a que entre los boxeadores A y B, ganará A.
¿Cuál es el valor mínimo de su probabilidad subjetiva de que ganará A?

Solución si el aficionado apuesta 2 a 1 a favor del púgil A es porque piensa que, de cada
dos probabilidades que este tiene de ganar, solo hay una en contra. Por lo tanto,
P = 2/2-1 = 2/3 = .67

Es decir, seguramente la probabilidad subjetiva del aficionado es mayor de 0.67


Ejemplo 5.14 Un aficionado a las peleas de gallos apuesta $50,000 contra $30,000 a que entre
el “giro” y el “colorado” ganará este último. Estimar la probabilidad subjetiva que lleva a la persona de
apostar de esa manera.

Solución si el aficionado arriesga $50,000 contra $30,000 es por que cree, que de cada 5
probabilidades que tiene el “colorado” de ganar, hay 3 en contra, por lo tanto,

P = $50,000/$50,000 + $30,000 = $50,000/$80,000
P = .625 = 62.5%

En palabras: la probabilidad subjetiva del apostador a favor del evento “gana el Colorado” no
puede ser menor de 62.5%.

Daremos fin a la explicación de los distintos enfoques de la probabilidad asentado que no se
trata de alternativas que compitan entre sí; son tres modos de calcular e interpretar probabilidades, cada
uno de los cuales cuenta con su propio ámbito de aplicación. ¿Cuál es, por ejemplo, la probabilidad de
que un trabajador escogido por sorteo, supongamos, de un gran almacén, sea del sexo masculino? No
podemos dar respuesta por vía del enfoque clásico, pues desconocemos como están distribuidos los
sexos en ese universo o, en el lenguaje que hemos estudiado, nada nos dice que los resultados
“hombre” y “mujer” sean igualmente probables. En casos como éste no hay más camino que el enfoque
de frecuencia relativa, cuya aplicación podría consistir en consultar una nómina confiable del universo
objeto de estudio y determinar, mediante censo o muestreo, la proporción de hombres.

Esa proporción o frecuencia relativa será indicativa de la probabilidad de que un trabajador
elegido al azar, es decir por sorteo, sea hombre. Y en el conjunto de situaciones donde no existen
resultados igualmente probables ni se necesitan muchas repeticiones, el enfoque subjetivo es, como ya
lo ilustramos, un auxiliar muy valioso para la estimación de probabilidades.









111
5.8 REGLAS BÁSICAS PARA COMBINAR PROBABILIDADES

Como ya vimos (subtítulo 5.3), el conjunto de todos los resultados posibles de un experimento aleatorio
integra lo que se llama espacio muestral. Este, en el experimento, digamos, de lanzar un dado, consta de seis
resultados posibles, es decir, de seis puntos muestrales: 1, 2, 3, 4, 5, 6. si cualquiera de estos se propone
como un evento esperado, por ejemplo, “que caiga el 2”, se esta proponiendo un evento simple cuya
probabilidad es 1/6.

No obstante, definido un espacio muestral, el calculo de probabilidades puede enfocarse también a la
ocurrencia de eventos formados por la combinación de dos o más eventos simples del espacio muestral de
que se trate. Tal es el caso, en el ejemplo del dado, del evento “numero par”, o del evento “mayor o igual
que 2”. Ahora bien, dado un evento combinado, se dice que este ocurre si ocurre uno cualquiera de los
eventos más simples que lo forman. Así, el evento “numero par” ocurrirá si al lanzar el dado aparece el 2, el
4 o el 6.

Eventos de este tipo se conocen como eventos disyuntos. La probabilidad de un evento disyunto es
una probabilidad disyunta. Por ejemplo, la probabilidad disyunta p(A o A’) es la probabilidad de que ocurra
cualquiera de los dos eventos A o A’, o ambos. Este tipo de probabilidades se puede determinar mediante la
regla siguiente:

Regla general para la adición de probabilidades

La probabilidad disyunta de dos eventos A o A’, es igual a la suma de sus probabilidades simples
menos su probabilidad conjunta.

En símbolos, P(A o A’) = P(A) + (A’) – P(A o A’)

Esta regla es de carácter general porque se aplica a eventos mutuamente excluyentes* o no
excluyentes. Veamos.





Ejemplo 5.15 En el experimento de tirar un dado, hallemos la probabilidad de que aparezcan el 2 o el 6.

Solución: Es evidente que el evento “salga el 2” y el evento “salga el 6” son mutuamente excluyentes. Por
lo tanto:

P(2 ó 6) = P(2) + P(6) – P(2 y 6).



* Al dar a conocer las propiedades de la probabilidad, dijimos (subtitulo 5.4) que para dos eventos A y A’
mutuamente excluyentes, la probabilidad de ocurrencia de uno u otro es igual a la suma de sus
probabilidades separadas. Estrictamente hablando, esto último no es más que la regla de la adición de
probabilidades restringida a eventos mutuamente excluyentes.

112



Pero, la probabilidad de que el 2 y el 6 ocurran simultáneamente es cero.

Entonces, P(2 o 6) = 1/6 + 1/6 – 0 P(2 o 6) = 1/3



Ejemplo 5.16 En el mismo experimento de tirar un dado, determinemos la probabilidad de que salga un
número par o un número mayor que 3.
Solución: Sea U el evento “numero par”, formado por los eventos simples, 2, 4, 6; y M, el evento “numero
mayor que tres”, formado por los eventos 4, 5, 6. así, aplicando la regla general tendremos:

P(U o M) = P(U) + P(M) – P(U y M)
= 3/6 – 2/6
= 1/2 + 1/2 – 1/3
P(U o M) = 2/3

Es decir, la probabilidad de que salga un número par o un número mayor que 3, al tirar un dado, es 2/3 ó
66.7%.









Diagramas de Venn

Problemas como los que acabamos de ejemplificar, que involucran eventos formados por dos o mas eventos
simples, se visualizan mucho mejor y se logran comprender cabalmente, mediante los diagramas de Venn,
método diseñado en 1880 por el lógico británico John Venn para la representación gráfica de eventos y de
las relaciones entre ellos. En el contexto de la teoría de la probabilidad, un diagrama de Venn emplea lo
siguiente: 1. Circulos o rectángulos para representar diversas clases de eventos; 2. Entrelazamiento de los
círculos para representar la posibilidad de ocurrencia de eventos conjuntos o simultáneos; y 3. Áreas de la
gráfica para representar probabilidades de ocurrencia, aunque, por lo general, aquellas no se dibujan a
escala.



La figura 5.8.1 presenta los elementos básicos de los diagramas de Venn. El espacio muestral se simboliza
por una S. puesto que definir un espacio muestral es incluir todos los resultados posibles de un experimento,
la probabilidad de que el resultado cualquier intento dado provenga del espacio muestral es, por fuerza, igual
a uno. P(S) = 1

113
(a) (b) (c)
s

A




Espacio Muestral Evento A Complemento de A






















Figura 5.8.1
Generalmente, el rectángulo representa el espacio muestral, como se señala en (a); un evento A en el espacio
muestral, por un circulo dentro del rectángulo S, como en (b). considerando el área total del rectángulo (S =
1), se puede pensar que el área del círculo A representa la probabilidad del evento A; la porción del espacio
muestral no incluida en este evento se conoce como el complemento del evento A, que se escribe A
c
, y su
probabilidad queda indicada por el área dentro de S, pero afuera de A (parte sombreada en (c)), el evento
disyunt., que consiste en la ocurrencia del evento A
1
, o del evento A
2
, o de ambos, se conoce como la union
de A
1
y A
2
, y su probabilidad P(A
1
y A
2
) se ilustra en (d). La ocurrencia conjunta de los eventos A
1
y A
2
es
la intersección de ambos eventos y su probabilidad P(A
1
y A
2
) se dibuja en (e). Si los eventos son
mutuamente excluyentes, su representación gráfica aparece en (f) y la probabilidad de que ocurran
conjuntamente es, por supuesto, igual a cero.





P(S) = 1

P(A)

P(A)

P(A
c
)

114
Ejemplo 5.17 En el mismo experimento de lanzar un dado, representamos gráficamente y hallemos las
probabilidades que se indican a continuación:

a) de que salga un número par o un número menor que 5;
b) del complemento del evento número menor que 5.


Solución a): En este experimento el espacio muestral es, como ya sabemos, S = 1, 2, 3, 4, 5, 6. ahora bien,
sea U = 2, 4, 6, el evento “numero par”, y L= 1, 2, 3, 4, el evento “numero menor que 5”. Es claro que U y L
tienen dos elementos comunes, el 2 y el 4. por tanto, para representar gráficamente ambos eventos nos
valdremos de dos círculos entrelazados, como se indica en la figura 5.8.2.












Luego, como trata de eventos disyuntos, la probabilidad disyunta correspondiente es

P(U o L) = P(U) + P(L) – P(U y L)

Evidentemente, P(U) = 3/6, P(L) = 4/6 y P(U y L) = 2/6, entonces,
P(U o L) = 3/6 + 4/6 – 2/6
P(U o L) = 5/6
Es decir, la probabilidad de que al lanzar un dado salga un “número par” o un “número mayor de 5”
es 5/6 u 83.3%.

Solución b): Para la representación de evento L
c
, es decir, del complemento del evento “número
menor de 5”, basta con dibujar un círculo para indicar el evento “número menor de 5” y sombrear toda el
área del rectángulo no incluida en el círculo. La superficie sombreada representa P(L
c
), o sea la probabilidad
del complemento de L.











115
Luego, puesto que L está integrado por los puntos 1, 2, 3, 4, entonces, L
c
, el complemento de L,
queda integrado por 5, 6. por lo tanto,

P(L
c
) = 2/6 = 1/3 = 33.3%




Eventos independientes y dependientes

Se dice que dos o más eventos son independientes si la ocurrencia de uno no afecta la probabilidad
de ocurrencia de los otros. Por ejemplo, si echamos un volado dos veces, es claro que si cae primero águila,
esto no afecta la probabilidad de que el segundo caiga sol o nuevamente águila. Si el primer hijo de una
pareja es varón, esto no determina que el segundo también sea varón o no lo sea.

Si por el contrario, la ocurrencia de un evento afecta la ocurrencia de eventos subsecuentes, se dice
que los eventos son dependientes. Si en el juego dominó mezclamos las fichas según las normas
convencionales, la probabilidad de extraer cualquier ficha en el primer intento es 1/28; si no se reintegra, la
probabilidad de extraer algunas de las restantes en el segundo intento es 1/27, pero ya que se tiene la primera
ficha, la probabilidad de que esta misma salga en el segundo intento es cero.

Sean independientes o dependientes los eventos, se trata de experimentos aleatorios concebidos
como una serie de intentos o repeticiones de la misma índole en los cuales se plantea la probabilidad de que
se den, sucesiva o simultáneamente, al menos dos eventos A
1
y A
2
. Para los fines que perseguimos, será
suficiente con aprender a calcular probabilidades para eventos independientes.




La regla es la siguiente:

Regla de multiplicación

Para hallar la probabilidad de ocurrencia de un conjunto de eventos independientes, se multiplican
las probabilidades separadas de los eventos que comprenden el conjunto.

P(A
1
y A
2
) = P(A
1
) P(A
2
) para eventos A
1
y A
2
independientes.


Ejemplo 5.18 Si se tira un dado dos veces, hallemos la probabilidad de que en ambas tiradas aparezca el 1.

Solución: Es claro que la ocurrencia del 1 en el primer dado no afecta la probabilidad de ocurrencia
del mismo numero en el otro. Hay, pues, independencia y, además, se trata de un evento conjunto formado
por dos simples: 1 y 1. la probabilidad de que en una tirada salga esta cifra es 1/6. Entonces.

P(1 y 1) = (1/6)(1/6) = 1/36


116

Ejemplo 5.19 Vimos en el ejemplo 4.11 que la probabilidad de que un recién nacido sea derecho es .93. Si
en una clínica de maternidad nacen 4 niños en un día, calculemos la probabilidad de que:
a) los 4 sean derechos; b) 2 sean derechos y dos zurdos; c) los 4 sean zurdos.

Solución a): el que el primer niño sea derecho, no afecta la probabilidad de que los restantes también lo
sean, por lo tanto:

P(DDDD) = .93(.93)(.93)(.93)
P(DDDD) = .75 = 75%

Es decir, la probabilidad de que los 4 sean derechos es 75%.

Solución b): si la probabilidad de ser derecho es .93, la de ser zurdo es .07. por lo tanto,

P(DDZZ) = .93(.93)(.07)(.07)
P(DDZZ) = 0.42%

Es decir, la probabilidad de que 2 sean zurdos y 2 derechos es apenas .42%.

Solución c):
P(ZZZZ) = (.07)(.07)(.07)(.07)
P(ZZZZ) = .0024% La probabilidad de este evento es casi nula; sin embargo, existe.



EJERCICIOS

Subtítulos 5.1 – 5.3

Anotar el espacio muestral a los experimentos que se indican a continuación:

5/1. Se echa un volado

5/2. Se hace una tirada de un par de dados en cada una de cuyas caras está inscrita sólo
Una de las cifras del 1 al 16.

5/3. Una pareja planea procrear 2 hijos.

5/4. De 5 representantes distinguidos en la asignatura de español, Juan, Liliana, Pedro,
Alma, y Roberto, se va a seleccionar, para hacer la exposición de un tema, a 2 de
ellos imparcialmente. ¿De cuantas maneras distintas pueden quedar formadas las
parejas?

5/5. En cierto universo se efectúa una rifa de 5 libros, cada uno de los cuales versa sobre
las siguientes temáticas: matemáticas, física, literatura, español y química. La
condición del sorteo es que el ganador puede escoger únicamente 3 libros
cualesquiera. ¿De cuántas maneras distintas puede hacerse la elección?
117

5/6. Una investigación realizada entre vendedores ambulantes menores de 15 años revela
que la probabilidad de que el vendedor no vaya a la escuela es 2/15. hallar la
probabilidad de que si vaya.

Subtítulo 5.4

5/7. De los números siguientes. ¿Cuáles no pueden ser probabilidades?
1.5, 7/18, 1, 0.9, 65%, 100.1%, 0, 18/13,, -0.4, -1, 136/128, -0.6, 3/2, 72%

5/8. Expresar las probabilidades siguientes en sus otras alternativas:
1/7, 0.5, 75%, 18/27, 35%, 108/113, 3/8, 0.5, 80%, .02%, 1/8, 1343/1625.

Subtitulo 5.5

5/9. Determinar el espacio muestral del experimento echar un volado 4 veces y hallar la
probabilidad de obtener:

a) 0 águilas
b) 1 águila o más
c) 2 águilas o más
d) 3 águilas o mas
e) 4 águilas
f) 3 águilas y un sol, en ese orden
g) 3 águilas y un sol en cualquier orden
h) 2 águilas y 2 soles, en cualquier orden

5/10. Resuelto el ejercicio 5/2, hallar la probabilidad de que la suma de puntos:

a) dé 12
b) no dé 12
c) dé 7
d) no dé 7
e) dé 1
f) no dé 1
g) dé 13
h) no dé 13

5/11 Resuelto el ejercicio 5/4, determinar la probabilidad de que la pareja elegida esté
integrada por:

118
a) 1 hombre y 1 mujer.
b) 2 mujeres
c) 2 hombres

Subtítulo 5.6

5/12. Una investigación realizada con una muestra de 1880 alumnos de una universidad
sobre el lugar donde, fuera del aula, estudian habitualmente, revela que 180 lo
hacen en bibliotecas, 1480 en su casa y 220 en otros sitios. Encontrar la probabilidad
de que un alumno de esa misma casa de estudios elegido al azar acostumbre:

a) estudiar en su casa
b) estudiar en bibliotecas
c) no estudiar en bibliotecas
5/13. De los 64 ingenios instalados en México que trabajaron en la zafra 89/90, 50
Produjeron menos de 80 mil toneladas de azúcar. Si se elige por sorteo un ingenio
Muela:

a) menos de 80 mil toneladas
b) 80 mil toneladas o más

5/14. En el mismo universo del ejercicio anterior, solo 24 ingenios molieron durante 150 días
O menos. Determinar la probabilidad de que, escogido al azar, un ingenio muela:

a) 150 dias
b) Más de 150 dias

Subtítulo 5.7

Escribir las probabilidades siguientes como probabilidades a favor o en contra,
el caso:

5/15. La probabilidad de ser hospitalizado en los Estados Unidos de America por enfermedades
mentales al menos una vez en la vida es 1/8.

5/16. En ese mismo país, la probabilidad de sufrir graves crisis de depresion, al menos una
una vez en la vida, al punto de necesitar ayuda profesional, es ¼.

5/17. La probabilidad de que un alumno de la universidad Veracruzana estudie
habitualmente en bibliotecas es 0.12.

5/18. La probabilidad de que un ingenio azucarero de la Republica Mexicana produzca
menos de 80 mil toneladas de azucar es de 0.78.

119
Expresar como probabilidades simples las que están a favor o en contra y que se dan a continuación:

5/19. Las probabilidades de que un estudiante de la universidad veracruzana haya
nacido en el estado de Veracruz están a favor 21 a 4.

5/20. Las probabilidades de que un estudiante de alguna facultad de la capital
Veracruzana haya nacido en Xalapa están en contra 2 a 1.

5/21. Las probabilidades a favor de que un alumno de la U. V. tenga menos de 24 años
de edad son 17 a 10.

5/22. Las apuestas a que el equipo A ganará la próxima serie mundial de béisbol contra
el B están 7 a 6. ¿Cuál es el valor mínimo de probabilidad subjetiva de que vencerá
el equipo A?

Subtítulo 5.7

5/24. Sea S el espacio muestral formado por los números primos 1, 2, 3, 7, 11, 13, 17, 19,
23, 29, sometidos todos a selección aleatoria; R, el evento número primo menor
17; T, el evento número primo mayor que 7; U, el evento número primo mayor que
11 y menor que 23. Hacer la representación gráfica y hallar las probabilidades que
Se indican:

a) P(R o T)
b) P(R o U)
c) P(T o U)
d) P(R
c
)
e) P(T
c
)
f) P(U
c
)

5/25. Sea S el espacio muestral formado por los numeros pares 2, 4, 6, 8, 10, 12, 14, 16, 18,
20, sometidos todos a selección aleatoria; U, el evento número par menor que 8; W
el evento número par mayor a 4; T, el evento número par mayor que 2 y menor
que 14. hacer la representación gráfica y hallar las probabilidades que se indican:

a) P(U o W)
b) P(U o T)
c) P(W o T)
d) P(U
c
)
e) P(W
c
)
f) P(T
c
)

120
5/26. La probabilidad de que un ingenio azucarero en México muela mas de 150 días
Por ciclo es .625. Si se seleccionan al azar una muestra de 4 ingenios, determinar la
probabilidad:

a) De que los 4 muelan más de 150 días.
b) De que 2 muelan más de 150 días y 2 150 días o menos.
c) De que los 4 muelan los 150 días o menos.





DISTRIBUCIONES DE PROBABILIDAD

6.1 CONCEPTOS BASICOS

En el capitulo 2 vimos que una distribución de frecuencia de una variable es una descripción de las
frecuencias con que se presentan, en un caso especifico, las categorías de esa variable. En el capitulo 5,
introdujimos algunos modos de calcular e interpretar la probabilidad de un evento, ahora, el capitulo
que iniciamos junta los temas de distribuciones y probabilidades,. Veremos que las probabilidades,
asociadas con un conjunto de eventos o con posibles valores de una variable, pueden ser organizadas en
descripciones coherentes.

La naturaleza de las distribuciones de probabilidad

La distribución de probabilidad de una variable es una descripción de las probabilidades con
que ocurren los diversos valores o categorías de esa variable.

En el ejemplo 5.2 conocimos el espacio muestral del experimento “procesar tres hijos”.
Hay en éste ocho resultados igualmente probables: HHH, HHM, HMH, MHH, MHM, MMH, MMM,
donde H= hombre y M= mujer. Considerando, por ejemplo, el numero de hombres, de estos 8
resultados posibles, 1 esta formado por 3 hombres; 3, por 2; 3, por 1 y 1, por 0. Por lo tanto, aplicando
la interpretación clásica de probabilidad, conocemos que las probabilidades asociadas con los 4
resultados posibles del numero de hijos varones son: 1/8, 3/8, 3/8, y 1/8, respectivamente; esto
constituye la distribución de probabilidad que puede ser representada en forma de tabla como sigue:










121
Tabla 6.1.1
probabilidad del número de hijos varones si se procrean tres hijos.

Número
de varones
Probabilidad
0 1/8 = 0.125
1 3/8 = 0.375
2 3/8 = 0.375
3 1/8 = 0.175
Total 8/8 = 1



La tabla siguiente, construida partir de la tabla 2.6.1, muestra la probabilidad asociada con cada una de
las nueve categorías de la variable tiempo de circulación de 270 automóviles.


Tabla 6.1.2

Distribución de probabilidad del tiempo
de circulación de automóviles (N=270)


Anos Probabilidad

0 -1 0.07
2 -3 0.11
4 -5 0.15
6 -7 0.15
8 -9 0.19
10 -12 0.26
13 -16 0.03
17 -20 0.03
21 -30 0.02

Total 1.0


Observando las dos tablas anteriores, nos daremos cuenta que las distribuciones de probabilidad están
estrechamente relacionadas con las distribuciones de frecuencias porcentuales estudiadas en el subtitulo
2.4. una distribución porcentual muestra, para un conjunto particular de datos provenientes de cierta
recolección, los porcentajes o proporciones con que se presentaron las distintas categorías. Si el
conjunto de datos constituye una población, estadísticamente hablando, entonces la distribución
porcentual resulta idéntica a la distribución de probabilidad que resultaría de hacer selecciones
aleatorias de esa población. Si la distribución porcentual pertenece a daos muéstrales, ella puede ser
considerada como una estimación de la distribución de probabilidad de la población que le
corresponde. Sea que los datos constituyan una población o una muestra, la distribución de frecuencias
122
porcentuales describe un conjunto de observaciones previamente realizadas. Una distribución de
probabilidad proveniente de observaciones realizadas recibe el nombre de distribución empírica de
probabilidad. Si, en cambio, la distribución de probabilidad proviene de tratamiento matemático, por
ejemplo, aplicando la regla de probabilidad y no de conceptos se ilustran en las tablas precedentes. La
6.1.1 muestra una distribución teórica de probabilidad para el proyecto de engendrar 3 hijos, sin que el
hecho se lleve a cabo; la 6.1.2, en cambio, muestra una distribución empírica de probabilidad, que
resulta de medir el tiempo de circulación de un conjunto de vehículos. Por razones de disponibilidad y
conveniencia matemática, se usa a veces una distribución teórica en lugar de una distribución empírica.
Debemos estar conscientes, sin embargo, que quizá nunca se encuentren en los datos del mundo real las
condiciones subyacentes a cualquier distribución teórica dada; consecuentemente, las distribuciones
teóricas de probabilidad deben verse como aproximaciones cuando se aplican a datos empíricos.






Variables aleatorias.

En estadística aplicada, se conoce como variable aleatoria cualquier variable cuyos valores
puedan describirse mediante una distribución de probabilidad

En la tabla 6.1.1 la variable aleatoria esta representada por los valores numéricos 0, 1, 2, o 3, o
sea por el numero de varones que podrían resultar al procrear tres hijos. En la tabla 6.1.2 la variable
aleatoria esta representada por los datos, en años del tiempo de circulación, correspondiente a distintos
automóviles.

Variables discretas y continuas.

Partiendo de la base de sus posibles valores, las variables se clasifican en discretas o continuas.
En el subtitulo 1.3 vimos que una variable es discreta si no puede tomar cualquier valor dentro de un
intervalo determinado; en otras palabras, si cada valor de la variable en la recta numérica esta separado
de los valores próximos, mayor o menor, por números reales que no puede asumir la variable. Los
ejemplos mas comunes de variables discretas son los que se limitan a enteros (…,-3, -3, -1, 0, 1, 2,
3,…). Las variables, pongamos por caso, números de hijos por familia, numero de águilas en una serie
de intentos o repeticiones del experimento echar un volado, no pueden adoptar mas que valores enteros.

Las variables continuas, por el contrario, pueden tomar cualquier valor dentro de un intervalo.
La estatura de un grupo de personas ilustra el carácter continuo de las variables, ya que entre dos
valores, digamos 1.68m. y 1.69m., es posible cualquier valor como 1.687m., y entre este y 1.688m.,
seria posible registrar otra estatura, como 1.6873m., y asi hasta el infinito. El que las estaturas de las
personas se reporten solo con dos decimales de aproximación, tiene que ver con una operación de
redondeo por razones practicas; la variable sigue siendo continua ya que, teóricamente, es posible
cualquier valor entre dos limites dados.

En resumen, los valores de una variable discreta son puntos desconectados en la recta numérica;
pero los posibles valores de una variable continua incluyen todos los valores dentro de una región o
intervalo ininterrumpido de eje real.
123

Si una distribución de probabilidad la variable aleatoria es discreta, se dice que es una
distribución discreta de probabilidad; si la variable aleatoria es continua, distribución continua de
probabilidad.


Funciones de probabilidad

Un modo conveniente de representar una distribución discreta de probabilidad es por medio de su
función de probabilidad.


Función de probabilidad

Es una función matemática que da la probabilidad de ocurrencia de cada valor de una variable aleatoria
discreta.

Consideremos la distribución del numero de puntos (x = 1, 2, 3, 4, 5, 6) que pueden resultar en un solo
lanzamiento de un dado. La función de probabilidad que describe esta distribución es:

P(X)= 1/6 para x = 1, 2, ..., 6 (1)

Esta expresión es un modo compacto de escribir P(1) = 1/6, P(2) =1/6,..., P(6)= 1/6.

La variable aleatoria es el numero de puntos en la cara superior, y la función de probabilidad P(x) da la
probabilidad de ocurrencia de cada uno de los 6 resultados posibles de esta variable discreta.


Como los valores de una función de probabilidad son probabilidades, deben cumplir las propiedades
señaladas en el subtitulo 5.4, en particular las siguientes :

0 s P(x) s 1 para todos los valores de x

¿ P(X) = 1

P(
i
x
o
j
x ) = P(
i
x
) + P (
j
x ) para
i
x
=
j
x


Función de distribución

Una función que muestra probabilidades acumuladas hasta determinados valores de la variable
aleatoria se conoce como función de distribución.

La función de distribución, que se designa por el símbolo F(
i
x ) , da la probabilidad de obtener
un valor de la variable aleatoria x menor o igual a
i
x ;

124
F(
i
x ) = (X s
i
x ) (2)

Un valor esperado es simplemente un promedio. Ahora bien, para los fines de este curso
introductorio, bastara con estudiar este concepto para variables aleatorias discretas.

Veremos a continuación que el concepto de esperanza matemática juega un papel central al
describir distribuciones de probabilidad.
La media de una distribución de probabilidad se define como el valor esperado de la variable
aleatoria:

x = E(X) (5)

La varianza de una distribución de probabilidad se define como el valor esperado (la media)
de las desviaciones cuadráticas con respecto al valor medio:


2 2
) ( x x S
i
÷ =
(6)
i i
P x x S
2 2
) ( ÷ ¿ =



La desviación estándar de una distribución de probabilidad es S, la raíz cuadrada positiva
de la varianza.

Ejemplo 6.3 La tabla 6.1.1 da la distribución de probabilidad del numero de hijos varones
que podría haber si se procrearan 3 hijos. Hallemos la media, la varianza y la desviación estándar de
esta distribución.

Solución: Sea x la variable aleatoria “numero de hijos”. Usando las expresiones (4), (5), (6),
tendremos.

El valor esperado de una variable aleatoria continua, que no estudiaremos en este texto, se
define en términos de calculo integral de manera análoga a la expresión (4).
)
8
1
( 3 )
8
3
( 2 )
8
3
( 1 )
8
1
( 0 ) ( + + + = = x E x


La media es: x = 1.5 varones

)
8
3
( )
8
6
( )
8
3
( + + =
125
Y la varianza de la distribución es p x x x x E S
2 2 2
) ( ) ( ÷ ¿ = ÷ =




2
S = 0.75

De donde, desviación estándar 9 . 0 75 . 0 = = S Varones





6.2 LA DISTRIBUCIÓN BINOMIAL

Hay muchas distribuciones discretas de probabilidad, pero quizás la mas importante por sus numerosas
aplicaciones en problemas empíricos y por el papel que juega en la comprensión de otros temas
estadísticos, es la distribución binomial, desarrollada por Jacobo Bernoulli y publicada en 1713.

La variable aleatoria en una distribución binomial

La distribución binomial es la distribución teórica de probabilidad del número de éxitos en una serie de
repeticiones independientes donde la probabilidad de éxito en cada repetición permanece constante. En
este contexto, el termino éxito se refiere al resultado o categoría de la variable cuya probabilidad se
requiere determinar; cualquier otro resultado se conoce como fracaso. En otras palabras, éxito,
estadísticamente hablando, equivale a resultado favorable; fracaso, a resultado desfavorable.

La variable aleatoria en una distribución binomial es el numero de éxitos y la distribución binomial
muestra la probabilidad de 0, 1, 2, ......, n éxitos en n repeticiones independientes en que la probabilidad
del éxito en cada intento se mantiene constante. Un intento que tiene dos resultados mutuamente
excluyentes y una probabilidad constante de éxito se llama intento de Bernoulli o prueba de
Bernoulli.

La función de probabilidad binomial

En general, la función de probabilidad binomial da la probabilidad de n, éxitos, exactamente en
n repeticiones independientes en que la probabilidad de éxito en cada repetición se mantiene constante.
La forma general de la función de probabilidad binomial se puede escribir así:

Pbin (n1)=
2 1
2 1
! !
!
n n
q p
n n
n
(7)

Donde Pbin (n1) es la probabilidad de obtener n1 éxitos exactamente (y, por lo tanto, n2
fracasos) en n = n1 + n2 repeticiones independientes. Si la probabilidad de éxito en cada intento es p,
la probabilidad de fracaso es q = 1 –p

En la expresión (1) existen 3 posibilidades.
8
1
) 5 . 1 (
8
3
) 5 . 0 ( )
8
3
( ) 5 . 0 ( )
8
1
( ) 5 . 1 0 (
2 2 2 2
+ + ÷ + = ÷ =
126

Distingámoslas.

 P es la probabilidad de éxito en cualquier intento.
 q = 1 –p, la probabilidad de fracaso en cualquier intento.
 Pbin (n1), la probabilidad de n1 éxitos y n2 fracasos exactamente en total de n = n1 + n2
intentos independientes.

Dado un problema, conocemos o se nos da la probabilidad p a partir de la cual calculamos q y
usamos la expresión (7) para hallar la probabilidad de algún valor particular de éxitos que nos interese.
Ilustremos lo anterior mediante un par de ejemplos, pero antes recordemos el concepto de factorial.

Sea n, un numero entero y positivo, entonces el factorial de n, que se simboliza n! Y se lee “n
factorial”, es el producto de todos los enteros positivos desde 1 hasta n. Así.
5! = 5 *4 *3 *2 *1 = 120.

Obsérvese que 5! = 5 *4!
= 5 *4 *3!
= 5 *4 *3 *2!
= 5 *4 *3 *2 *1!
Por definición: 0! = 1! = 1

Ejemplo 6.4 retomando el experimento de procrear 3 hijos, y suponiendo que la probabilidad de
engendrar un hijo varón es 0.5, determinemos la probabilidad de que el número de varones sea:
a) 0 b) 1 c) 2 d) 3
Solución: en este problema, que consiste en 3 intentos o repeticiones, entendemos por éxito el
engendrar 1 hijo varón; su probabilidad es p =0.5. por lo tanto, q = 1 – p = 0.5. Así, tendremos:

Para el inciso a:

n= 3;
1
n = 0;
2
n = 3, entonces

Pbin (n1)=


8
1
)
8
1
)( 1 ( 1 )
2
1
( )
2
1
(
! 3 ! 0
! 3
) 0 (
3 0
= = =
bin
P

Para el inciso b:

n= 3;
1
n = 1;
2
n = 2


8
3
)
8
1
( 3 )
2
1
(
! 2
! 2 * 3
)
2
1
( )
2
1
(
! 2 ! 1
! 3
) 1 (
3 2 1
= = = =
bin
P

Para el inciso c:

2 1
2 1
! !
!
n n
q p
n n
n
127
n= 3;
1
n = 2;
2
n = 1


8
3
)
2
1
)(
4
1
(
! 2
! 2 * 3
)
2
1
( )
2
1
(
! 1 ! 2
! 3
) 2 (
1 2
= = =
bin
P


Para el inciso d:

n= 3;
1
n = 3;
2
n = 0


8
1
) 1 )(
8
1
( 1 )
2
1
( )
2
1
(
! 0 ! 3
! 3
) 3 (
0 3 .
= = =
bin
P



Si comparamos el procedimiento que condujo a estos resultados con la manera en que se
determinaron las mismas probabilidades en el subtitulo 6.1 (la naturaleza de...), en que se obtuvo
primero el espacio muestral correspondiente, serán todavía mas evidentes las ventajas que ofrece la
aplicación del concepto de distribución binomial.

Ejemplo 6.5 según el censo de 1990, el 90% de la población mexicana de 5 años de edad y más,
profesa la religión católica, y el resto, otra o ninguna. Si elegimos al azar 4 personas de 5 años de edad
o más, determinemos la probabilidad de que, entre los 4, sean católicos:

|a) 0; b) 1; c) 2; d) 3; e) 4;

Solución: este problema consiste de 4 intentos o repeticiones independientes. Llamamos éxito al
resultado “profesar la religión católica”, cuya probabilidad, p = 0.9, para cada intento, es siempre la
misma. Entonces, la probabilidad del resultado desfavorable (fracaso) es q = 1 – p = 0.1. así,
tendremos:

Para el inciso a:

n= 4;
1
n = 0;
2
n = 4. Entonces


0001 . ) 0001 )(. 1 ( 1 ) 1 (. ) 9 (.
! 4 ! 0
! 4
) 0 (
4 0
= = =
bin
P


Para el inciso b:

n= 4;
1
n = 1;
2
n = 3


0036 . ) 001 )(. 9 (.
! 3
! 3 * 4
) 1 (. ) 9 (.
! 3 ! 1
! 4
) 1 (
3 1
= = =
bin
P


Para el inciso c:
128

n= 4;
1
n = 2;
2
n = 2



Para el inciso d:
n= 4;
1
n = 3;
2
n = 1


29 . 0 ) 1 )(. 729 (.
! 3
! 3 * 4
) 1 (. ) 9 (.
! 1 ! 3
! 4
) 3 (
1 3
= = =
bin
P


Para el inciso e:

n= 4;
1
n = 4;
2
n = 0

66 . 0 ) 1 )( 66 (. 1 ) 1 (. ) 9 (.
! 0 ! 4
! 4
) 4 (
0 4
= = =
bin
P


Así las interpretaciones correspondientes, serian: la probabilidad de que entre las 4 personas de 5 años
y más, elegidas al azar, haya exactamente cero que profesen la religión católica es .0001; que haya
exactamente una, .0036; que haya exactamente dos, .049; que haya exactamente tres, .29 y que haya
exactamente cuatro, .66.

Es claro que la función de distribución correspondiente F
bin
(n
1
) da la probabilidad de obtener n
1
éxitos
o menos. Así, para el ejemplo anterior, tendremos:

F
bin
(0) = P
bin
(0) = .0001
F
bin
(1) = P
bin
(0) + P
bin
(1) =.0037
F
bin
(2) = P
bin
(0) + P
bin
(1) + P
bin
(2) = .053
F
bin
(3) = P
bin
(0) + P
bin
(1) + P
bin
(2) + P
bin
(3) =.343
F
bin
(4) = P
bin
(0) + P
bin
(1) + P
bin
(2) + P
bin
(3) + P
bin
(4) = 1.000

Descripción de la distribución binomial

Las distribuciones teóricas de probabilidad como la binomial pueden ser descritas en términos de
muchos de los conceptos introducidos para distribuciones empíricas en el capitulo 2.

Una medida de tendencia central de una distribución teórica de probabilidad indica el lugar en que se
localizan en la recta numérica los valores posibles de la variable aleatoria. Vimos ya que la media de
una distribución de probabilidad es el valor esperado de la variable aleatoria. La media de una
distribución binomial, designada x bin, es el valor esperado del número de éxitos:
049 . ) 01 )(. 81 (. 6 ) 01 )(. 81 (.
! 2 ! 2
! 2 * 3 * 4
) 1 (. ) 9 (.
! 2 ! 2
! 4
) 2 (
2 2
= = = =
bin
P
129

x bin = E (n1) = 0 P
bin
(0) +1 P
bin
(1) +2 P
bin
(2) +...+ n P
bin
(n)

Que se simplifica a:
x
bin
= np

Donde p es la proporción que se obtendría a la larga del número de éxitos y, en consecuencia,
np es el numero matemáticamente esperado de éxitos en n intentos.

Ejemplo 6.6. En el ejemplo 6.5 consideramos las probabilidades de que exactamente 0, 1, 2, 3 y 4 de
cuatro personas de 5 años de edad y más elegidas al azar, profesen la religión católica, dado que la
probabilidad de que cada una de esas personas sea católica es .9. Así, la media de esa distribución se
calcula directamente usando la expresión :

x
bin
= 4(.9) = 3.6 católicos

Este resultado significa que a la larga se podría esperar una media de 3.6 católicos de cada 4 personas
cuyas edades fuesen de 5 años y más.

Una media de dispersión de una distribución teórica de probabilidad indica cuánto tienden a dispersarse
en la recta numérica los posibles valores de la variable aleatoria.

Aprendimos ya que la varianza de una distribución de probabilidad es el valor esperado de las
desviaciones cuadráticas con respecto a la media. La varianza de una distribución binomial se
simboliza por
2
bin
S y se define así:


2
bin
S = E (n1 – np)
) ( ) ( ... ) 1 ( ) 1 ( ) 0 ( ) 0 (
2 2 2
n P np n P np P np
bin bin bin
÷ + + ÷ + ÷ =


Que finalmente se simplifica a:


2
bin
S
= npq

Por lo tanto, la desviación estándar de una distribución binomial es:


npq S
bin
=
2


Para el caso de la distribución binomial de los católicos, los datos son: p = 0.9; q = 0.1 y n = 4.
Entonces,

6 . 0 36 . 0 ) 1 . 0 )( 9 . 0 ( 4 S
2
bin
= = =
Católicos

130

Es decir, los datos de la variable aleatoria se desvían 0.6 católicos en promedio y el valor esperado es
3.6



EJERCICIOS
Subtítulo 6.1

6/1. Una variable aleatoria x tiene valores posibles x =1, 2, 3. Indicar si cada uno de los datos
siguientes es una función de probabilidad para esa variable. Si no, explicar por qué.

a) P (1) =.18 P (2) = .38 P (3) = .44
b) P (1) = 2 P (2) = .43 P (3) = .28
c) P (1) =-.55 P (2) = .08 P (3) = -.53
d) P (1) = 1/6 P (2) = 1/2 P (3) = 1/3
e) P (1) = 78 P (2) = 12 P (3) = 10

6/2. Indicar si los datos siguientes en cada inciso son funciones de probabilidad. Si no, explicar
por qué.

a) P (x) = 1/4 para x = 6, 7, 8, 9.
b) P (x) = 1/30 para x = 6, 7, 8, 9.
c) P (x) = x/30 para x = 0, 1, 2.
d) P (x) = x/5 para x = 1, 2, 3, 4.
d) P (x) =
2
x para x = -3, .9, 10 .

6/3. Las probabilidades asociadas con cada uno de los cuatro valores posibles de una variable
aleatoria x (distribución de probabilidad) son como se señala en cada inciso. Calcular e interpretar las
funciones de distribución F(0), F(1), F(2) y F(3).

a) P(0) = .18 P(1) = .39 P(2) = .35 P(3) = .08
b) P(0) = .07 P(1) = .43 P(2) = .28 P(3) = .22
c) P(0) = 0 P(1) = 2/5 P(2) = 2/5 P(3) = 1/5
d) P(0) = 1/2 P(1) = 1/3 P(2) = 1/6 P(3) = 0

6/4 calcular el valor esperado (media) la varianza y la desviación estándar para cada
distribución de probabilidad del ejercicio anterior.

Subtítulo 6.2

6/5. En México, la probabilidad de que una persona muera pro enfermedades del aparato
circulatorio es 0.2. si se eligen al azar cinco personas:

a) determinar la probabilidad de que de esas 5 personas mueran exactamente 0, 1, 2, 3, 4, y 5
por la causa mencionada.
b) Determinar e interpretar F(3) y F(5).
131
c) Determinar el valor esperado (media), la varianza y la desviación estándar.

6/6. En México, la probabilidad de que una pareja que contrae matrimonio se divorcie es .07. si
se eligen al azar cuatro parejas recién casadas:

a) determinar la probabilidad de que de esas 4 parejas, se divorcien exactamente 0, 1, 2, 3, y 4.
b) Calcular e interpretar la función de distribución para todos los valores de la variable
aleatoria, es decir, F(0), F(1) etc.
c) Calcular la media, la varianza y la desviación estándar.

6/7. En México la probabilidad de que una persona al morir tenga más de 64 años de edad es
.47. si dentro del universo de defunciones se eligen al azar 5:

a) Determinar la probabilidad de que exactamente 0, 1, 2, 3, 4 y 5 hayan tenido al morir más de
64 años de edad.
b) Calcular e interpretar la función de distribución para todos los valores de la variable
aleatoria, es decir, F(0), F(1),etc.-
c) Calcular la media, la varianza y la desviación estándar.


LA DISTRIBUCION NORMAL

Recibe este nombre toda distribución acampanada y continua, como se ve en la Fig. 6.4.1. Debido a su
continuidad, se traza como una curva suave y no como histograma. Ahora bien: puesto que la x y
la S varían de una distribución a otra, no hay una sino muchas distribuciones normales. Lo que se les da
el carácter normal es que tienen la mima proporción de área bajo la curva en ciertas ordenadas.













- ∞ x +∞
Grafico 6.4.1


Esto significa que si dibujamos líneas verticales en +1 y -1 desviaciones estándar, por ejemplo, en dos
distribuciones normales cualesquiera, la proporción con respecto a la distribución total limitada por las
líneas verticales será la misma en ambas distribuciones. (Vid. Gráficos 6.4.2 y 6.4.3). El área
sombreada es la proporción del área total bajo la curva limitada por puntos que están a una desviación

132
estándar a ambos lados de la media. Para cualquier distribución normal, el área entre x - s y x + s
es siempre el 68.26% del área total. Por supuesto que podemos sustituir x - s y x + s por otros dos
puntos y buscar la proporción o parte del área total bajo la curva, que será la misma en todas las
distribuciones normales.













x - 1s x x + 1s x - 1s x x +1s

Gráfico 6.4.2 Gráfico 6.4.3


La figura 6.4.4 muestra las proporciones de área bajo la curva total, limitadas por puntos
seleccionados que son muy útiles para la comprensión de ciertos temas fundamentales en la teoría del
muestreo.



99.72%

95.46%

.14% .14%
- ∞ + ∞

68.26%

34.13%


x - 3s x - 2s x - s x x +s x +2s x +3s

Gráfico 6.4.4

Teóricamente, las colas de la curva normal nunca tocan el eje de la abscisas, sino que se extienden
infinitamente en ambas direcciones. Tanto el supuesto de rango infinito como el de continuidad


133
permiten asegurar que, en la práctica las observaciones jamás se distribuyen de manera perfectamente
normal. Sin embargo, muchas distribuciones empíricas se acercan a la normalidad aunque sean
discretas. Con frecuencia esta aproximación es tan cercana a la normalidad que se puede tratar como
normal una distribución empírica sin menoscabo de la presión.



6.3 LA DISTRIBUCION NORMAL ESTÁNDAR


Aunque las distribuciones normales pueden tener medias y desviaciones estándar cualesquiera,
es muy importante el caso donde la media y la desviación estándar son 0 y 1, respectivamente. Esta
distribución se conoce como distribución normal estándar. Se trata, de hecho, de una distribución de
datos Z que tiene forma normal. Su utilidad ha hecho que se construyan tablas que muestran el área
bajo la curva limitada por dos ordenadas cualesquiera. Estas tablas pueden ser usadas en todo conjunto
de datos distribuidos normalmente, luego de haber sido estandarizados.

Ilustremos ahora la manera de usar la tabla de áreas bajo la curva normal que aparece en el
apéndice, explicando primero algunas de sus características.

1. La proporción del área total que aparece en el cuerpo de la tabla está representada por la
porción sombreada de la figura 6.5.1.
2. El área total bajo la curva es 1 o 100% y, puesto que es simétrica, el área a ambos lados de
la media es 0.5 ó 50%.
3. Para ahorrar espacio, sólo la mitad de la curva normal está representada en la tabla (siendo
simétrica no se necesitara la otra mitad). Para hallar ciertas áreas, bastará con hacer algunas
operaciones aritméticas extras.

La tabla no incluye esta mitad de la curva














Z = 0 cualquier dato Z

Gráfico 6.5.1



134


Ejemplo 6.8. Hallamos el área bajo la curva limitada, a un lado, por la media, y el otro por Z = 1.3.

Solución: Representamos gráficamente el área solicitada.


a





c b





x Z =1.3

Gráfico 6.5.2

Localicemos Z= 1.3 en la primera columna de la izquierda en la tabla del apéndice (recordemos
que los datos Z son unidades de desviación estándar; así, Z = 1.3 es lo mismo que Z = 1.3s).

La proporción buscada se lee directamente bajo la columna “.00”. Esta: señalada que la cifra
que corresponde al segundo decimal del dato Z es 0, es decir, nula. Puesto que el segundo decimal de Z
= 1.3 es nulo, usamos solo la columna “.00”.

El área limitada por la x y Z = 1.3 es .4032 = 40.32%. esto significa que el 40.32% de todos
los datos de la distribución tienen valores comprendido entre la media y 1.3 desviaciones estándar.

Ejemplo 6.9. Determinamos el área que se halla por arriba de Z = 1.3.
Se trata del área b representada en el gráfico 6.5.2

Solución: puesto que la mitad de la curva vale 0.5 ó 50%, bastará con restar .4032 a 0.5. Así, el área
que se halla por arriba de Z = 1.3 es .0968 = 9.68%.

Esto significa que el 9.68% de los datos de la distribución tienen valores no menores de 1.3
desviaciones estándar.







135
Ejemplo 6.10. Hallemos el área que será por debajo de Z = 1.3.
Solución: Considerando una vez más el gráfico 6.5.2, es evidente que se trata del área resultante de
sumar c + a. En cifras.

0.5 + .4032 = .9032 = 90.32%

Podemos decir que el 90.32% de los datos de la distribución tienen valores no mayores de 1.3
desviaciones estándar. Los significados de las áreas resultantes en los tres ejemplos anteriores, deben
quedar claros en el siguiente ejemplo

Ejemplo 6.11. Supongamos que .en una prueba de inteligencia (I.Q) aplicada a un grupo de
estudiantes, la variable “calificación” se distribuye normalmente. La calificación promedio es 100 y la
desviación estándar 14.

Datos: x = 100 S = 14

Uno de los estudiantes obtuvo una calificación de 124. ¿Qué % de estudiantes alcanzaron
calificaciones entre la x y 124?





Solución: Gráficamente, el % de estudiantes que se pide está representado por el área sombreada de la
figura siguiente:













x - 100 x - 100

Gráfico 6.5.3


Ahora convertimos el dato X en z.


136
S
x ÷
=
X
Z

14
100 124 ÷
= Z
71 . 1 = Z


Busquemos luego en la tabla el área limitada por la x y Z = 1.71, y leemos .4564 = 45.64%.
Por lo tanto, el 45.64% de los estudiantes sometidos a prueba de inteligencia obtuvieron calificaciones
comprendidas entre el valor medio y 124, o sea, entre 100 y 124.



EJERCICIOS

Subtitulo 6.3

6/8. Transforma a datos Z cada una de las distribuciones siguientes y comprobar en cada caso que ¿
Z=0 y Z
2
= N:

a) 3, 4, 5, 7, 6, 4, 2, 3, 4
b) 1, 3, 5, 2, 3, 4, 6, 7.
c) 20, 30, 30, 40, 20, 30, 10, 40, 50.
d) 50, 55, 53, 57, 52, 55, 54, 54, 56, 54

Subtitulo 6.4 y 6.5

6/9. Determinar el área bajo la curva normal limitada como se indica:

a) entre la media y Z = 2
b) entre la media y Z = -1.8
c) por arriba de Z =1
d) pro debajo de Z =1
e) entre Z = - .5 y Z = .8
f) entre Z = -2.3 y Z= -.4
g) por arriba de Z = -2.1
h) por debajo de Z = -.7

6/10. En una prueba de duración para determinar la vida útil de un nuevo tipo de lámpara lanzada al
mercado, los datos de la muestra se distribuyen de manera casi normal. Se calculó una vida útil
promedio de 7000 horas y una desviación típica de 520 horas. Halla es porcentaje de lámparas que
tendrán una vida útil:

a) entre la media y 7600 horas
b) entre 6500 horas y 7600 horas
c) más de 7600 horas
d) menos de 7600 horas
¿
137


Simbología básica para estadígrafos y parámetros

Puesto que hablar de investigación por muestreo es referirse a universos previamente definidos de los
cuales se indignan diversas características (parámetros) con base en las correspondientes características
observadas en la muestra (estadígrafos), existe una simbología universalmente adoptada para distinguir
claramente entre una y otras. Daremos a continuación algunos de estos símbolos y los usaremos
sistemáticamente en lo sucesivo.


Indicador En la población En la muestra

Tamaño N n

Media µ (mu) X

Mediana µ Me

Moda µ Mo

Varianza
2
o S²

Desviación estándar
o
S


Existe aun tres símbolos de amplio uso para representar la media, la varianza y la desviación estándar
de distribuciones de muestreo de medidas:

x
µ = media de la distribución muestral de medidas (dmm)

2
x
o = varianza de la (dmm)

x
o = desviación estándar de la dmm












138


REGRESIÓN LINEL SIMPLE


Uso de las técnicas que genera el Análisis de Regresión Lineal en el estudio comparativo de la
observación de dos características que se hacen en ella.

En el contexto de la investigación en general existen situaciones donde es importante hacer
predicciones de cierta variable (de respuesta o dependiente), en función de otra u otras variables que
pueden ser controladas (independientes), para estos casos uno de los objetivos primarios es identificar
un modelo funcional que ayude a describir la relación que existe entre una variable y otra(s), en esta
sección sólo trataremos el caso de la relación entre dos variables. Así por ejemplo se puede estar
interesado en saber si existe alguna relación entre los resultados obtenidos en un examen y los niveles
de partida de los estudiantes sobre los tópicos tratados en el mismo; también puede estar interesado en
ver si la antigüedad laboral de los docentes de una institución con el rendimiento escolar de sus
estudiantes. Supongamos que un profesor tiene interés en conocer la relación que existe entre el
aprovechamiento de los estudiantes y el número de horas extraclase que le dedican a estudiar la
materia.


Problema #14.
Un profesor está interesado en establecer un programa de trabajo extraclase para sus estudiantes, de tal
manera que desea saber si existe relación entre el tiempo que los estudiantes dedican a la materia fuera
de clase y el aprovechamiento que tiene en la materia, el cual será medido con los exámenes. Después
de realizado el primer parcial, selecciona una muestra aleatoria de 20 estudiantes y les pregunta el
tiempo promedio que le dedican al día a su curso fuera de clase, los resultados obtenidos son los
siguientes:

Tiempo dedicado al
curso fuera de clase
(hrs)
Puntos del examen

1 64
1.5 70
0.5 54
2 71
139
2.25 86
3 97
1.25 67
0.75 62
0.5 67
1 60
0 40
2 76
1.5 75
2.75 92
0.75 68
1 66
1 70
2.5 93
2.5 90
2 84


a) ¿Cuál es la variable que se puede controlar (independiente)?
b) ¿Cuál es la variable de respuestas (dependiente)?
c) ¿Considera Usted que existe relación entre una variable y otra?
d) En caso que la respuesta del inciso anterior sea afirmativa, ¿Qué tipo de relación?
e) Graficar estos puntos en un plano cartesiano.
f) ¿Cuál es el comportamiento de los puntos?
g) ¿Qué tipo de comportamiento tiene los datos?


La relación funcional exacta de estas variable es posible que no se pueda obtener, pero si es posible
encontrar un modelo que ayude para hacer predicciones aceptables de una de las variables. De la
gráfica que hiciste en el problema, que llamaremos diagrama de dispersión, se puede identificar una
tendencia de los puntos hacia un comportamiento lineal, esto es una recta puede ser utilizada como
modelo de la relación entre ambas variables. Podemos suponer que el modelo verdadero que expresa la
relación entre estas variables es una recta de la forma:
| o + = X Y


donde | representa el valor de la ordenada cuando la recta corta al eje Y y o la pendiente de la recta,
esto es, mide la rapidez con que cambia Y cuando cambia X.

Cuando se utiliza un modelo de regresión lineal, la recta que mejor ajusta a los datos, utilizando la
técnica de mínimos cuadrados, el objetivo es encontrar una estimación de los parámetro de la recta que
genere la sumatoria mínima de distancias al cuadrado entre la ordenada estimada por el modelo y las
140
ordenadas de los puntos de la muestra que corresponden al mismo valor de X; es decir, encontrar a y b
estimaciones para o y | respectivamente, tal que
b aX Y + = , donde
( ) | | b ax y
i i
n
i
+ ÷ ¿
=1
sea mínima.

A partir de esta idea se tiene que los valores de a y b se pueden obtener de la siguiente manera:


¿ ÷
¿ ÷
=
=
=
n
i
n
i
i
i
X n x
XY n y x
a
1
2 2
1



X a Y b ÷ =



Problema # 15.
Con los datos del problema #1:

a) Encuentre la recta que mejor ajusta los datos (el tiempo que dedican los estudiantes al estudio
extraclase de la materia y las calificaciones obtenidas en el primer examen parcial).
b) El modelo obtenido, ¿predice la calificación que corresponde a un estudiante que se dedica en
promedio:
i) 0.25 hrs. al día de estudio extraclase?,
ii) 1 hr. al día de estudio extraclase?,
iii) 2.5 hrs al día de estudio extraclase?.
c) ¿Qué tan confiables son las predicciones que hace el modelo?
d) ¿Considera que el modelo representa adecuadamente la relación que existe entre la información que
se tiene?.


Por las expresiones que se tiene para el cálculo de los estimadores a y b, los cuales dependen de los
valores que se tiene para X y Y, se puede concluir que para cualquier conjunto de parejas de variables
es posible modelar la relación que existe entre ellas de manera lineal. Por lo anterior, es que surge la
inquietud de saber qué tan confiable es el modelo que se ha obtenido, una manera de responder a esta
pregunta es midiendo el grado de relación lineal que existe entre las variables en cuestión, esto es,
medir la fuerza de la relación lineal. Para medir esta correlación lineal que existe entre las variables,
utilizaremos el siguiente coeficiente:


141
2
1 1
2
1
2
1
2
1 1 1
|
.
|

\
|
÷ |
.
|

\
|
÷
÷
=
¿ ¿ ¿ ¿
¿ ¿ ¿
= = = =
= = =
n
i
i
n
i
i
n
i
n
i
i i
n
i
n
i
n
i
i i i i
y y n x x n
y x y x n
r



r toma valores en el intervalo [-1,1], cuando el valor de r es próximo a 1 o -1 se dice que existe una
buena relación lineal entre las variable, lo que nos lleva a que las predicciones que se hacen son
confiables (teniendo cuidado con los rangos de las variable utilizados en la muestra), es decir, se debe
tener cuidado con las extrapolaciones que se hagan; cuando el valor de r es próximo a 0 entonces se
tiene que el modelo de regresión lineal no refleja realmente la relación que existe entre las variables.

Problema # 16.
¿Qué tan confiables son las predicciones que se hacen con el modelo de regresión lineal obtenido en el
problema anterior?.

Existen problemas donde la relación que existe entre las variables involucradas en el estudio no es
lineal, esto es, existe otro tipo de modelos que se pueden presentar como por ejemplo: parabólico,
exponencial, logarítmico, etc., más aún se pueden presentar situaciones donde no exista una relación
definida entre las variables.



EJERCICIOS
Los siguiente tabla muestra los resultados de las calificaciones de 10 alumnos del tercer semestre en las
materias de cálculo y estadística, a partir de estos datos, dibuja una grafica de dispersión y efectúa el
análisis de regresión lineal simple para encontrar la ecuación de la recta de regresión. Al final de los
cálculos deberás anotar tus conclusiones.

Alumno Cálculo Estadística x
2
Y
2
x.y
1 8 8
2 9 5
3 8 7
4 9 7
5 5 4
6 5 6
7 10 10
8 9 9
9 7 6
10 10 7


b mx y + =
(ecuación de la recta de mejor ajuste ó recta de los cuadrados mínimos)

¿Si un alumno obtuvo 6.5 de
calificación en cálculo, qué
calificación estimas que obtendrá
en estadística?

¿Y si obtuvo 7.5 en cálculo?
142



( )
¿
¿
¿
¿ ¿
|
|
|
.
|

\
|
÷
|
|
.
|

\
|
÷
=
n
x
x
n
y x
y x
m
2
2
.

x m y b . ÷ =




A continuación calcula el coeficiente de correlación “r” y lee las copias respectivas para
responder a las preguntas y establecer conclusiones al respecto.

r = Coeficiente de correlación lineal simple (Correlación de Pearson)

( )
( ) ( )
¿
¿ ¿
¿
¿ ¿ ¿
|
|
.
|

\
|
÷
|
|
.
|

\
|
÷
|
.
|

\
|
÷
=
n
. y
y
n
. x
x
n
y
x xy
r
2
2
2
2



Finalmente extra-clase deberás leer la onceava unidad del libro “Estadística paso a paso” (página 555 )
para responder a las siguientes preguntas. (Puedes consultar otros libros)
¿Para que sirve el análisis de regresión y el análisis de correlación?
¿Qué es la regresión lineal simple?
¿Qué ejemplo se propone en el libro y cuáles son tus conclusiones?



BIBLIOGRAFÍA RECOMENDADA Y UTILIZADA PARA LA ELABORACIÓN DE ESTE
TEXTO


1. LEVIN Y. Richard & Rubin Davis S. “Estadística para administradores”.Prentice Hall. 6
a
edición. 1996
2. CHRISTENSEN H. “Estadística paso a paso”. Trillas. 3ª edición. 1997.
3. CUELLAR L. “Estadística y Probabilidad”. Compañía editorial nueva imagen. 2ª edición. 1994.
4. MANSON/ LIND/ MARCHAL. “Estadística para Administración y Economía”. Alfaomega. 10ª edición. 2001.
5. MONTAÑO A., “Estadística I”. Pac, S.a de C.V. México 1992,
6. FREUND JOHN E. y SIMON GARY A. “Estadística elemental”. Pearson (Phh). 8
va
edición. 1994
7. LARIOS R. IRMA y GUTIERREZ F. GERARDO. “Material para la materia de estadística de la Maestría en
Ciencias MCEC” Ciidet. Querétaro. 2001
143
8. CHAO, LINCOLN. ”Estadística para las Ciencias Administrativas”. McGraw-Hill. 3
ra
edición. 1993.
9. KAZMIER, LEONARD e.t. “Estadística aplicada a la Administración y a la Economía”. McGraw-Hill. 1993.
10. CANAVOS, GEORGE C. “Probabilidad y Estadística (aplicaciones y métodos). McGraw-Hill. 1988.
11. WALPOLE RONALD. “Probabilidad y estadística”. McGraw-Hill. 1992.
12. MENDEHALL, WILLIAM. “Estadística para administradores”. Gripo editorial Iberoamérica. 1988
13. FREEMAN, HAROLD. “Introducción a la inferencia estadística”. Trillas.
14. MILLER, IRWIN y FREUND E. JOHN. “Probabilidad y Estadística para Ingenieros”. Editoral Reverte.
15. SNEDECOR W GEORGE e.t. “Métodos estadísticos”. C.E.C.S.A.


Websites

 http://español.dir.yahoo.com/ciencia_y_tecnología/matemáticas/estadística/
 http://www.mor.itesm.mx
 http://www.qro.itesm.mx
 http://www.estadistica unam.mx
 http://www.dgeec.gov.py
 http://xue.unalmed.edu.co
 http://www.cft.gob.mx

Sign up to vote on this title
UsefulNot useful