Está en la página 1de 56

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

ESCUELA NACIONAL
COLEGIO DE CIENCIAS Y HUMANIDADES
PLANTEL SUR
ACADEMIA DE MATEMÁTICAS

GUÍA PARA PREPARAR EL EXAMEN EXTRAORDINARIO


DE ESTADISTICA Y PROBABILIDAD I

ELABORARON

PROFR. HELIOS BECERRIL MONTES


MTRO. JUAN DE DIOS HERNANDEZ GARZA
MTRA. MARIA DEL ROSARIO JIMENEZ HERNANDEZ
PROFRA. ALICIA LARA ALVAREZ

NOVIEMBRE DE 2005

REVISION
MTRA. MA. DEL ROSARIO JIMENEZ HERNANDEZ
MTRO. JUAN DE DIOS HERNANDEZ GARZA
MARZO DE 2010
CONSIDERACIONES IMPORTANTES

Los exámenes extraordinarios son oportunidades que debes aprovechar para aprobar las
asignaturas que, por diversas razones, reprobaste en el curso normal, pero, presentarse a
un examen sin la preparación suficiente significa un fracaso seguro, es una pérdida de
tiempo y un acto irresponsable que puedes evitar.

Para aumentar tu probabilidad de éxito en el examen mediante la utilización de la guía, es


necesario que:

• Sigas al pie de la letra las instrucciones de la guía.


• Procura dedicar al estudio de esta guía tiempo diario suficiente y con un tiempo
mínimo de dos meses antes del examen.
• Contesta toda la guía y verifica tus respuestas, cuando no hayas contestado
correctamente revisa lo que hiciste y si así no obtienes la respuesta correcta acude a
asesorías con algún profesor.

Programa de Estadística y Probabilidad I

La Estadística y la Probabilidad se han vuelto requisito indispensable en la vida cotidiana


para interpretar una gran variedad de información en diversos campos de estudio. En su
entorno una persona encuentra reportes financieros, económicos, médicos y otros que se
pueden entender y evaluar con una comprensión básica de estas disciplinas.

El estudio de ambas asignaturas representa una secuencia de conocimientos que se


enriquecen conforme se avanza en su estudio. Su objetivo es el de brindarte conceptos y
procedimientos básicos que te permitan continuar tu formación matemática, además de
adquirir conocimientos de carácter introductorio y propedéutico del estudio de los métodos
probabilísticos y estadísticos, así como de sus aplicaciones en diversos campos del
conocimiento. Con ello se pretende reforzar el empleo de estrategias, tu capacidad de
solución de problemas, desarrollo de habilidades y de diversas formas de razonamiento.

Al terminar de contestar esta guía de estudio habrás logrado:

• Comprender la naturaleza de los fenómenos aleatorios que se presentan en tu entorno,


para continuar el desarrollo de tu pensamiento matemático.
• Comprender que la Probabilidad y la Estadística constituyen disciplinas que incluyen
conceptos, técnicas y métodos que permiten aproximarse al estudio de los fenómenos
aleatorios a partir del tratamiento de la información.
• Realizar predicciones e inferencias sustentadas en modelos matemáticos, cuyo alcance
trasciende hacia otras áreas del conocimiento.
• La apropiación de una visión de la Estadística y de su aplicación para describir el
comportamiento de un conjunto de datos en una y dos variables.
• Adquirir los elementos, métodos y técnicas para estudiar los fenómenos de naturaleza
aleatoria con el fin de comprender sus características, obtener información sobre su
comportamiento y evaluar sus resultados.

2
LOS CONTENIDOS DEL CURSO Y DE LA GUÍA SON:

UNIDAD CONTENIDO
Introducción

1 Estadística Descriptiva

2 Datos Bivariados

3 Probabilidad

INDICE
Página
INTRODUCCION
Visión inicial y utilidad de la Estadística. 4
Errores en el uso de la Estadística. 4
Conceptos básicos. 5

UNIDAD 1. ESTADISTICA DESCRIPTIVA


Variables y su clasificación 7
Escalas de medición. 8
Recopilación de datos. 10
Tablas de distribución de frecuencias. 10
Descripción gráfica de los datos 12
Descripción numérica de los datos 16
Medidas de Tendencia Central. 16
Medidas de Dispersión. 26
Medidas de Posición. 32
Regla Empírica. 36

UNIDAD 2. DATOS BIVARIADOS


Diagrama de Dispersión 37
Correlación entre dos variable numéricas 38
Modelo de Regresión Lineal Simple 38

UNIDAD 3. PROBABILIDAD.
Fenómenos determinísticos y aleatorios 42
Definiciones de Probabilidad 43
Conceptos básicos 43
Probabilidad de eventos simples 45
Probabilidad de eventos compuestos 46

RESPUESTAS A LOS EJERCICIOS 52


BIBLIOGRAFIA RECOMENDADA 56

3
INTRODUCCION
Propósito.
Al finalizar esta introducción debes haberte apropiado de una visión inicial de la Estadística y
de la Probabilidad a partir de los conceptos básicos y el planteamiento de ejemplos para
apreciar los alcances de esta asignatura.

Visión inicial
Se presenta una visión inicial de la Estadística y de la Probabilidad, que permite apreciar los
alcances de la materia.

La Estadística es una ciencia que utiliza técnicas y conceptos para elaborar principios y
métodos para construir modelos teóricos que permitan describir, analizar e interpretar los
procesos estudiados y en consecuencia tomar decisiones frente a la incertidumbre.

Actualmente la Estadística se emplea en toda clase de estudios científicos como un


procedimiento en la toma de decisiones, como por ejemplo:

En medicina:
¿Cómo prueba un médico la eficiencia de un nuevo fármaco?
En la industria.
¿Cómo se determina la calidad de producción de un artículo específico?
En sociología:
¿De qué modo pronosticar el tamaño de la población mundial para el año 2025?
¿Cómo inferir el tipo de alimentación que nutrirá a la humanidad para ese mismo año?
En agricultura:
¿Qué tipos y en qué dosis los fertilizantes insecticidas aumentan las cosechas?
En medicina social:
¿Aumenta realmente el tabaquismo las probabilidades del surgimiento del cáncer
pulmonar?

Para su estudio, la Estadística se divide en:

- Estadística Descriptiva que tiene como objetivo organizar la información disponible para
describir el comportamiento de un suceso.
- Estadística Inferencial que tiene como objetivo interpretar la información para sacar
conclusiones acerca de un conjunto grande de personas u objetos, por medio de la
información obtenida de sólo una pequeña parte o muestra del conjunto total.

Errores en el uso de la estadística.

- Se piensa que los resultados resumidos en la estadística descriptiva son “la pura
verdad” y, por ende, hay que apegarse a ellos y que cualquier interpretación de los
mismos deforma los hechos.
- Se sostiene que las interpretaciones permitidas por los resultados de la estadística
descriptiva son múltiples y todas igualmente objetivas, pues se basan en los hechos
detectados.
4
Estas percepciones son erróneas.

La Estadística Descriptiva sí admite y exige una serie de interpretaciones intuitivas de la


información; sin embargo, ninguna de dichas interpretaciones posee el rigor teórico y
metodológico de la Estadística Inferencial.

Algunos ejemplos son:

En la determinación de la media de los salarios en una empresa, si se consideran los altos


salarios de los directivos, el promedio salarial estará muy por encima del resultado que se
obtendría si se hubiesen excluido las percepciones del cuerpo directivo.

Al medir las tasas de empleo, desempleo y subempleo, ¿con qué criterios definir a un
empleado, a un desempleado o a un subempleado? Un posible criterio es “que esté haciendo
algo (obrero, ejecutivo, estilista, etc.) para ganarse la vida”. Otro es “que tenga X tiempo
mínimo trabajando”, o, “que tenga o no un ingreso o sueldo regular”, etc.

Otro error muy frecuente es tomar una muestra de una población de manera espontánea, sin
un método de muestreo o utilizando criterios personales del investigador (como las muestras
no aleatorias).

Por ejemplo, al estudiar a los estudiantes de la UNAM se puede elegir como muestra al
conjunto de los compañeros del mismo salón, por ser los más accesibles al investigador y se
obtendrían conclusiones –sin base- sobre todo el estudiantado.

Conceptos básicos

Fenómeno.

Es cualquier suceso y se establece que es aleatorio cuando no se puede predecir su


resultado y determinístico en caso de que se pueda predecir.

Población

Una población es la colección de todos los individuos son características comunes.

Muestra
Una muestra es cualquier subconjunto de la colección de individuos que constituye la
población. Estadísticamente una muestra es pequeña cuando tiene menos de 30 datos y
grande cuando tiene 30 o más datos.

Variable
Es cualquier característica de interés que tienen todos los individuos de la muestra o de la
población.

5
Algunos ejemplos de variables son:
--A un grupo de investigadores de un hospital le interesa conocer en qué proporciones o
porcentajes se distribuye el tipo de sangre de las personas que habitan en una ciudad. El tipo
de sangre es la variable y también lo puede ser la estatura y peso de los recién nacidos en el
hospital.

--La trabajadora social del Hospital “Gustavo Baz Prada”, del Estado de México, lleva a cabo
un estudio socioeconómico de los pacientes. En cada familiar del paciente entrevistada
reporta entre otras el nivel socioeconómico que puede ser alto (A), medio alto (MA), medio
(M), medio bajo (MB), o bajo (B). Investiga el número de hijos por familia, que puede ser
desde cero hasta cualquier número entero positivo que corresponda a la magnitud
observada. El nivel académico de los integrantes de la familia. El tipo de vivienda donde se
pregunta si es propia o paga renta, el tipo de piso si es de tierra de cemento u otro; el
número de cuartos con que cuenta y cuantos se utilizan para dormir. Todas estas
características son variables.

Estas características de interés no presentan un solo valor determinado y predecible con


exactitud en cada medición observada.

Se concluye que una característica de interés que tienen en común todos los elementos de
un conjunto de individuos de tal manera que al medirla se obtienen valores diferentes e
impredecibles se le llama variable.

Relaciona cada concepto con su respectiva definición, escribiendo en el paréntesis la letra


correspondiente.

( ) Rama de la Estadística que proporciona las reglas


para obtener conclusiones de las características de una
población a partir de las de una muestra. A) Población

( ) Es un conjunto de individuos con características B) Muestra


comunes.
C) Fenómeno determinístico
( ) Rama de la Estadística que se ocupa de la
organización de la información para describir un suceso. D) Fenómeno aleatorio

( ) Muestra que contiene 30 o más datos E) Muestra grande

( ) Es un fenómeno al cual no se le puede predecir su F) Estadística Descriptiva


estado final.
G) Estadística Inferencial
( ) Es cualquier subconjunto de la población.
H) Muestra pequeña
( ) Muestra con menos de 30 datos.

6
UNIDAD 1. ESTADISTICA DESCRIPTIVA
Propósito.
Al finalizar esta unidad debes haber comprendido y aplicado técnicas para recopilar,
organizar y representar a un conjunto de datos proveniente del planteamiento, discusión y
resolución de problemas para interpretar y analizar el comportamiento de una variable en
dicho conjunto.

VARIABLES
Las variables constituyen los atributos o características de interés en una muestra o en una
población. Como estas características no se mantienen constantes de muestra a muestra o
de población a población, se les llama variables estadísticas o simplemente variables. Las
variables pueden ser numéricas (cuantitativas), o categóricas (cualitativas).

Clasificación de las variables.


Las variables se clasifican de acuerdo con el tipo de los valores que pueden asumir cuando
se mide la característica de interés.

Para los ejemplos de variables anteriores, se mencionan algunos valores:

• Tipo de sangre posee los niveles: A, B, AB, u O.


• La estatura puede ser desde 47 hasta 55 cm. El peso desde 1.5 kg hasta 6.1 kg.
• En el nivel socioeconómico consiste de cinco niveles: A, MA, M, MB o B.
• El número de hijos pueden ser: 0, 1, 2, 3, 4, …
• El nivel académico. Si es en primaria, que grado cursa 1º, 2º, 3º, 4º, 5º, 6º. Secundaria
el grado es 1º, 2º, 3º.

Se observa que los valores que asume cada variable son distintos, algunos números y otros
cierta cualidad.

Variable categórica, nominal o cualitativa,


Es aquella cuyos posibles valores son únicamente categorías o nombres.

Variable escalar, numérica o cuantitativa.


Es la variable cuyos valores posibles son números que describen cantidad.

Variable discreta.
Proviene de un proceso de conteo y se caracteriza por la propiedad de que para dos posibles
valores de ella solamente hay un número finito de posibles valores intermedios, es decir, sus
valores son numerables.

Variable continua.
Proviene de un proceso de medición y tiene la propiedad de que entre dos valores de ella,
cualquier valor intermedio es también un valor posible, es decir, sus valores no son
numerables.

Variable aleatoria,
Es aquella cuyo valor no se puede predecir.

7
Variable determinista,
Es aquella cuyo valor se puede predecir.

A continuación se enuncian ejemplos donde se da la característica, valores que puede


asumir y se define la variable.

Ejemplos:

a) Tipo de sangre que tendrá un alumno del CCH.


Los valores posibles son: A, B, AB, u O
Es una variable cualitativa, aleatoria, nominal.

b) Peso de los niños que nacerán en un día determinado en el Hospital Escandón


Algunos valores posibles son: 3.200 kg, 3.450 kg, 4 kg.
Es una variable cuantitativa, aleatoria, continua.

Ejercicios: Clasifica cada una de las siguientes variables y determina sus posibles valores o
algunos de ellos.

1. Grado que cursan los alumnos en una escuela primaria.


2. Número de hijos que tendrá un matrimonio.
3. Número de puntos de la cara superior al lanzar un dado legal una vez.
4. Peso atómico de los elementos químicos.
5. Calificación obtenida por un estudiante al final del curso de Matemáticas I
6. Género de los alumnos que cursarán el sexto semestre este ciclo escolar.
7. Número de teléfono de los alumnos de 16 años que cursan el 5to. Semestre.
8. Fecha de los próximos 10 eclipses solares visibles en México.
9. Número de alumnos a admitir en el bachillerato de la UNAM para el próximo año lectivo.
10. Edad de los alumnos de 3ro. de una secundaria del municipio de Naucalpan.

Escalas de medición.

Cuando las variables son numéricas, se utilizan, en su medición, las escalas de intervalo y de
razón. En la escala de intervalo se puede cambiar el origen y la unidad de medida, por
ejemplo en el tiempo (en minutos) que hacen los alumnos de su casa al plantel, el origen
puede ser de 15 minutos y la unidad de medida puede cambiar a “unidades de 10 minutos”.
Si el objetivo es conocer el número de hermanos, se usa la escala de razón (no se puede
cambiar la unidad de medida ni el origen).

Los valores de una variable continua se suelen agrupar en intervalos llamados intervalos de
clase. El punto medio entre los extremos de cada intervalo se llama marca de clase, punto
medio de clase o punto medio del intervalo. Siempre que se agrupe una variable por
intervalos se produce una pérdida de la información, pues lo que se tiene en cuenta es la
pertenencia o no de cada dato al intervalo y no su valor exacto.

La escala nominal se usa cuando se tienen variables categóricas (nominales) como por
ejemplo el tipo de música preferido o preferencia por algún refresco.

8
La escala ordinal se usa en situaciones donde los valores de la variable, comúnmente
categórica (ordinal), se pueden jerarquizar u ordenar, asignando valores como por ejemplo
Excelente, Bueno, Regular o Pésimo, pero no se pueden realizar operaciones aritméticas
entre estos valores.

Las variables son la herramienta fundamental de la Estadística porque dependiendo del tipo
de variable es el análisis que se realiza con cada una de ellas. Por ejemplo los datos de una
variable numérica se pueden analizar calculando las medidas de tendencia central (media
aritmética, mediana y moda) y las medidas de dispersión (varianza y desviación estándar). Si
la variable es categórica ordinal solo se le puede analizar calculando la mediana y la moda;
pero si la variable es nominal el único valor que se le puede calcular es la moda.

A continuación se presenta una tabla con las escalas de medición y sus características para
las diferentes variables:

Escala de Operaciones básicas Cambios permitidos Ejemplos de Valores


medición variables

Nominal Determinación de igualdad cambios en los Sexo M, F


o pertenencia a una nombres de las
categoría caregorías Religión C, P, A

Ordinal Dterminación del grado de Cambios que Calificación NA, S, B, MB


intensidad mantengan las
relaciones de orden

Intervalo Determinación de igualdad Se puede cambiar la Temperatura Números enteros y


de intervalos o diferencias unidad de medida y fraccionarios
el origen

Razón Determinación de igualdad Se puede cambiar la Porcentajes Numero enteros y


de razones o proporciones unidad de medida fraccionarios
pero no el origen

Absoluta Determinación del número No se puede cambiar Número de Enteros


de elementos o conteo de la unidad de medida hijos
unidades ni el origen

9
RECOPILACION DE DATOS

Ejercicio: Completa la siguiente tabla preguntado a 20 de tus compañeros la información


necesaria:

No. No de Cuenta Estatura No. de hermanos Peso Años cumplidos


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS

Cuando se está tratando con una gran cantidad de datos es conveniente agruparlos en
intervalos, para lo cual es necesario considerarlos ordenados dentro de ese intervalo de
acuerdo a su frecuencia que corresponde al número de veces que los datos considerados se
repiten.

- Los intervalos o clases deben ser del mismo tamaño o amplitud.


- Los intervalos deben construirse de manera que no haya datos que pertenezcan a dos
intervalos diferentes, es decir, los intervalos deben ser ajenos y no traslaparse.
- Los límites de clase que corresponden, el inferior al menor valor de la variable en cada
intervalo y el superior al mayor valor de la variable en el intervalo.
- Límites reales de clase que se localizan en medio del límite superior de un intervalo y del
límite inferior del siguiente.

Además es necesario determinar algunos valores que servirán para analizar y representar al
conjunto de datos agrupados en intervalos, tales como:

10
- Marca de clase o punto medio del intervalo.. Es el valor representativo de cada intervalo y
corresponde al valor de la variable situado exactamente en el centro de cada uno de ellos.
- Frecuencia relativa. Es la medida proporcional de las frecuencia para cada intervalo y que se
obtiene dividiendo cada valor de frecuencia entre la suma total de ellas.

- Frecuencia acumulada. Es para cualquier intervalo el resultado de sumar su frecuencia con


las frecuencias de los intervalos que le preceden.

- Frecuencia relativa acumulada. Es la frecuencia relativa de cada intervalo sumada con la


frecuencia relativa de los intervalos que le preceden.

- Tamaño o amplitud de intervalo. Es el tamaño que corresponde a cada intervalo y que se


obtiene como la diferencia del límite real superior menos el límite real inferior de cada
intervalo.

Ejemplo. Se tiene que el siguiente conjunto de datos corresponde a la edad (en años) de los
habitantes de una colonia de la delegación de Tlalpan, que asisten a la escuela (a partir de la
primaria).

Edad Número de Marca de Límites reales Frecuencia Frecuencia


(años) habitantes clase de clase relativa acumulada
Intervalo fi xi LRI LRS fr fa
7 a 10 5 8.5 6.5 10.5 0.05 5
11 a 14 11 12.5 10.5 14.5 0.11 16
15 a 18 23 16.5 14.5 18.5 0.23 39
19 a 22 31 20.5 18.5 22.5 0.31 70
23 a 26 16 24.5 22.5 26.5 0.16 86
27 a 30 10 28.5 26.5 30.5 0.1 96
31 a 34 4 32.5 30.5 34.5 0.04 100

Ejercicio. Los siguientes datos muestran el número de vuelos internacionales recibidos en el


aeropuerto de la ciudad de México durante los últimos meses de enero y febrero, construye una
tabla de frecuencias con intervalos de tamaño 9 considerando el dato menor como el límite
inferior del primer.

71 47 66 67 73 38 63 67 29 54 62 70
63 37 68 50 59 60 45 48 52 49 48 56
70 62 61 65 62 45 62 56 63 39 36 43
49 50 39 41 57 49 73 47 38 61 48 31
55 57 72 53 42 70 56 58 39 60 53 36

11
Intervalo Frecuencia Marca de Límites reales Frecuencia Frecuencia
clase de clase relativa acumulada

DESCRIPCION GRAFICA DE LOS DATOS

Las gráficas (o gráficos) son muy utilizados en la prensa, en la televisión y en los libros para
presentar los datos de una forma más vistosa. Además, también se consigue que, de un solo
vistazo, podamos darnos cuenta de los detalles fundamentales.

En ocasiones, cuando se nos habla de una persona o lugar, que no conocemos, preferimos
que nos muestren una fotografía además de las características que nos puedan platicar. Así
pues, resulta conveniente, además de tabular un conjunto de datos, proveer una imagen
gráfica que sea explicativa por si sola. Cuando los datos son cualitativos resultan adecuadas
las gráficas de barras o circulares. Si los datos son cuantitativos, pueden ser adecuadas el
polígono de frecuencias o los histogramas de frecuencias. Un histograma de frecuencias es
la gráfica más común para representar datos cuantitativos. Esta gráfica muestra como es la
distribución en cuanto a la forma de los datos (simétrica, asimétrica, bimodal,
concentraciones o huecos en los datos, etc.). Cuando el histograma se basa en datos
provenientes de una muestra, la gráfica solamente describe el comportamiento de los datos
en la muestra, pero podría sugerirnos que la población tiene una forma similar, sin embargo
no se puede afirmar que la población tenga la misma forma (no se pueden hacer inferencias).
Por lo tanto, el histograma es una técnica solamente descriptiva.

Características de los gráficos.

Las principales características que debe reunir un gráfico, son:

a) Debe ajustarse a la realidad de los datos que representa.


b) Ha de ser claro y fácil de leer y entender.
c) Debe de llevar el título y todas las indicaciones necesarias para una correcta
interpretación.

Los gráficos pueden ser simples, si representan directamente las frecuencias absolutas o
las frecuencias relativas.

Los gráficos son acumulativos si representan los valores de las frecuencias acumuladas.

12
Existen diferentes maneras de representar gráficamente a un conjunto de datos, las cuales
presentan en forma visual el patrón de comportamiento de la variable de interés, dentro de
éstas, están las gráficas de barras y circulares o de pastel las cuales sirven para representar
a menudo datos cualitativos o de atributo.

a) Gráfico de barras. Es la representación cuyas características convencionales son:

• De manera general, la variable independiente se acostumbra localizar sobre el eje


horizontal, aunque también se puede localizar en el vertical.
• Las barras son rectángulos cuyo ancho se elige arbitrariamente, pero debe ser el
mismo para todas las barras.
• Los rectángulos deben construirse separados y la separación debe ser la misma.
• Las bases de los rectángulos deben estar centrados sobre los valores de la
variable, aunque también, éstos pueden escribirse dentro del rectángulo.
• Para considerarse completa la gráfica debe tener Título, Nombre de las variables
que se representan, la escala utilizada y las unidades de las variables.

Ejercicio. Construye la gráfica de barras para los siguientes datos que corresponden al
número de pacientes atendidos de diferentes enfermedades, en una clínica del ISSSTE
durante el mes de febrero pasado.

Enfermedad No. de pacientes

Tos 34
Gripa 112
Fractura 19
Diabetes 64
Males cardiacos 43
Alta presión 31
Dolores estomacales 74

b) Gráfico circular. Es la representación cuyas características convencionales son:


• De manera general, se determina la proporción de cada valor de la variable
independiente.
• Se hace la equivalencia de la proporción de la variable independiente a una medida
angular.
• Se traza en el círculo un radio cualquiera y a partir de él se van midiendo las
respectivas aberturas angulares.
• Para considerarse completa la gráfica debe tener Título, sobre cada sector circular el
valor de la variable independiente y en ocasiones su correspondiente valor de variable
dependiente con sus unidades.

Ejercicio. Construye la gráfica circular para los siguientes datos que corresponden al
número de pacientes atendidos de diferentes enfermedades, en una clínica del ISSSTE
durante el mes de febrero pasado.

13
Enfermedad No. de pacientes

Tos 34
Gripa 112
Fractura 19
Diabetes 64
Males cardiacos 43
Alta presión 31
Dolores estomacales 74

Para una distribución de frecuencias se tienen diferentes representaciones gráficas, tales


como:

• Histograma de frecuencias. Es la representación gráfica de un conjunto agrupado de


datos que consiste en un gráfico de barras o rectágulos cuya altura corresponde a la
frecuencia de cada intervalo localizada sobre el eje vertical y cuya anchura
correspondiente a un intervalo de los valores de la variable representadas por los límites
reales de clase. Para considerarlo completo es necesario que tenga un título que
identifica a la variable de interés.

Ejercicio. Construye el histograma de frecuencias de los datos que corresponden a las


edades los habitantes de Tlalpan.

Edad Número de Marca de


(años) habitantes clase
Intervalo fi xi
7 a 10 5 8.5
11 a 14 11 12.5
15 a 18 23 16.5
19 a 22 31 20.5
23 a 26 16 24.5
27 a 30 10 28.5
31 a 34 4 32.5

Polígono de frecuencias. Es la representación gráfica de un conjunto agrupado de datos


que consiste en una gráfica de lineas trazado sobre un sistema de ejes y cuyos vértices
tienen como coordenadas los valores de la variable representados por las marcas de clase
como abscisas y las frecuencias correspondientes como ordenadas y para que sea un
polígono se debe cerrar sobre el eje horizontal en dos puntos que corresponden a las marcas
de clase de dos intervalos, uno anterior y el otro posterior a primero y al último intervalo, cuya
frecuencia es cero.

Para considerarlo completo es necesario que tenga un título que identifica a la variable de
interés.

14
Ejercicio. Construye el polígono de frecuencias de los datos que corresponden a las
edades los habitantes de Tlalpan.

Edad Número de Marca de


(años) habitantes clase
Intervalo fi xi
7 a 10 5 8.5
11 a 14 11 12.5
15 a 18 23 16.5
19 a 22 31 20.5
23 a 26 16 24.5
27 a 30 10 28.5
31 a 34 4 32.5

Ojiva. Es la representación gráfica de un conjunto de datos agrupados que consiste en un


gráfico de líneas donde los vértices tienen como abscisa los valores de la variable
representados por los límites reales superiores y como ordenada la frecuencia relativa o
frecuencia relativa acumulada (ojiva porcentual).

La ojiva puede ser creciente o “menos que” o decreciente o “o más”, pero generalmente a
menos que se indique lo contrario, cuando se solicita construir una ojiva, será la “menor que”
solo de la cual nos ocuparemos en esta guía y que se inicia con una frecuencia acumulada
igual a cero que corresponde al límite real inferior del primer intervalo y consecuentemente
al límite real superior de un intervalo precedente con frecuencia 0.

Ejercicio. Construye la ojiva de los datos que corresponden a las edades los habitantes de
Tlalpan.

Edad Número de Límites reales Frecuencia


(años) habitantes de clase acumulada
Intervalo fi LRS fa
6.5 0
7 a 10 5 10.5 5
11 a 14 11 14.5 16
15 a 18 23 18.5 39
19 a 22 31 22.5 70
23 a 26 16 26.5 86
27 a 30 10 30.5 96
31 a 34 4 34.5 100

15
DESCRIPCION NUMÉRICA DE LOS DATOS

Las medidas numéricas descriptivas, resumen la información de un conjunto de datos.

En una población, los parámetros más importantes son los que ubican el centro de la
distribución y los que describen la dispersión de los datos. A estos se les llama
respectivamente, Medidas de Tendencia Central y Medidas de Dispersión o Variabilidad, por
tal motivo resulta necesario, en primera instancia, calcular estos tipos de medidas a los datos
de la muestra y, en segundo lugar, cuando se pretende hacer inferencias sobre los
parámetros de la población, estas medidas muestrales serán los estimadores para tal efecto.

MEDIDAS DE CENTRALIZACIÓN O DE TENDENCIA CENTRAL

Las medidas de centralización o de tendencia central más comunes son: la media aritmética
(o simplemente media), la mediana y la moda. Estas medidas sirven para localizar el centro
de una distribución de datos, es decir, ubican el valor alrededor del cual se encuentra un
conjunto de datos. Aunque tienen un mismo propósito, estas medidas, de manera general,
tendrán un valor diferente (sólo en algunos casos muy particulares, se da que la media, la
mediana, y la moda sean iguales, o que dos de ellas coincidan).

Si los datos que se tienen fueran de una población, la medidas de centralización se calculan
de la misma manera que en la muestra, solamente es necesario tener presente si se habla
de un parámetro o de un estimador, según sea el caso.

Propiedades de las medidas de centralización

A continuación se proporcionan las propiedades más importantes:.

Propiedades numéricas.

1. La media de un conjunto de datos es siempre un valor perteneciente al rango de la


variable. En cualquier caso (por rara que sea la distribución de los datos, simétrica o
asimétrica, por ejemplo), tanto la media como la mediana y la moda, se encuentran
entre los valores máximo y mínimo de los valores observados.

2. La media puede no coincidir con ninguno de los valores de los datos. Es decir, puede
ser un número que no tenga sentido en el contexto propuesto, por ejemplo, si el
número de hermanos para 5 personas es 1, 4, 3, 0 y 5, el promedio es 2.6 hermanos.

3. En el cálculo de la media intervienen todos los valores de la variable.

4. La media se ve afectada por cualquier cambio extremo en los valores de los datos. Si
en el ejemplo anterior existiera una persona con 13 hermanos (en vez de 5), este valor
extremo modifica la media de 2.6 a 4.2 hermanos.

16
Propiedades algebraicas
.
1. La media conserva el cambio de origen y escala: si el promedio de calificación de un
alumno, es por ejemplo, 8.75 en la escala de 1 a 10, en la escala de 1 a 100, el
promedio es 87.5

2. La media de la suma de dos o más variables es la suma de las medias (en el caso de
la mediana y la moda, esta propiedad no se cumple).

3. La media no está definida para datos ordinales o nominales (la media no tiene sentido
si la variable es categórica o cualitativa).

4. La media, la mediana y la moda, consideradas como operación, no tienen ningún


elemento neutro, ni la propiedad asociativa.

Propiedades estadísticas.

1. La media es un valor representativo de un conjunto de datos. La media es menos


resistente (se ve afectada por cualquier cambio en los datos) que la mediana y la
moda.

2. La media coincide con el centro de gravedad del conjunto de datos.

3. La suma de las desviaciones de un conjunto de datos con respecto a la media es cero.

4. En distribuciones simétricas, la media, la mediana y la moda coinciden.

5. Es respecto a la media cuando la suma de los cuadrados de las desviaciones es


mínima.

La forma de la distribución de los datos es una característica importante para elegir


una medida de tendencia central adecuada.

Si la distribución de los valores de la variable es aproximadamente simétrica, la media,


la mediana son casi iguales.

Por ejemplo si se define la variable X: número de personas atendidas durante 30 días en una
oficina:

No. de 10 15 20 25 30
personas
No. de días 5 7 8 6 4

17
8
N 7
O
. 6
5
D
E 4 Series 1
3
D
I 2
A 1
S
0
10 15 20 25 30

NO. DE PERSONAS

La media y la mediana son casi iguales y cualquiera de ellas describe adecuadamente a los
datos.

Cuando la distribución de valores de la variable es asimétrica, la mediana es


frecuentemente la medida de centralización más adecuada.
A la mediana no le afecta tanto la frecuencia de ocurrencia de un sólo valor como a la
moda, tampoco es afectada por los valores extremos como la media.

Si en el ejemplo anterior, la distribución de las personas por día fuera: 3, 5, 6, 7, 9 la


frecuencia más alta (9) asociada al valor (30) modifica a la media, sin embargo la mediana
no cambia. Por esta razón la mediana sería la medida más adecuada.

9
N 8
O
7
.
6
D 5
E Series 1
4
D 3
I 2
A
1
S
0
10 15 20 25 30

NO. DE PERSONAS

La media es el único promedio que utiliza todos los datos. Esto es una desventaja si
existen valores que son muy distintos de la mayoría de ellos. En tales casos resulta
conveniente calcular la mediana. En situaciones apremiantes la moda puede dar una
idea aproximada del valor central de una serie de datos.

18
Actividades de exploración

1. Se han seleccionado 5 bolsas de pasta alimenticia, de una determinada marca, en un


supermercado. Todas ellas llevan impreso en la etiqueta “Peso neto: 250 gramos”,
después de pesarlas con precisión, se obtienen los siguientes resultados (en gramos):
243, 252, 260, 230 y 249.

a) ¿Cuánto pesan en total las 5 bolsas?

b) Si se tuviera que repartir de manera equitativa, este peso entre 5 personas, ¿cuánto
les corresponde a cada una?

c) ¿Qué peso podemos esperar que tenga una bolsa cualquiera de pasta alimenticia
de esta marca?

Medidas de centralización para datos no agrupados:

Se dice que los datos no agrupados son aquellos que por ser generalmente pocos no es
necesario agruparlos en intervalos de clase y que se analizan utilizando los valores brutos,
es decir los valores que se obtienen directamente de la recolección.
Para que tengas un mejor entendimiento del cálculo de las medidas de centralización para
datos no agrupados, utilizaremos el siguiente:

Ejemplo: Se sabe que la estatura de 10 alumnos de quinto semestre del CCH son
respectivamente 1.53m, 1.64m, 1.76m, 1.52m, 1.70m, 1.58m, 1.78m, 1.58m, 1.57m y 1.69m

La media aritmética es simplemente el promedio y se obtiene como la suma de todos los


datos entre el número total de ellos, es decir, mediante:
n

∑x i
x= i =1

n
Así, para el ejemplo:

1.53 + 1.64 + 1.76 + 1.52 + 1.70 + 1.58 + 1.78 + 1.58 + 1.57 + 1.69 16.35
x= = = 1.635 m
10 10

La mediana es el valor central del conjunto ordenado de datos, se obtiene ordenando los
datos generalmente en forma ascendente o puede ser en forma descendente, luego:

a) Si el número de datos es impar la mediana es el valor de la variable que se encuentra en


 n +1 
avo

el   lugar del conjunto ordenado de datos.


 2 

b) Si el número de datos es par la mediana es el promedio de los valores de la variable que


avo avo
n n 
se encuentran en el   y  + 1 lugares del conjunto ordenado de datos.
2 2 

19
Así, para el ejemplo:

1) Primero se ordenan los datos, quedando:

1.52, 1.53, 1.57, 1.58, 1.58, 1.64, 1.69, 1.70,1.76 y 1.78

2) Como el número de datos es par (10 datos), la mediana es el promedio de los valores
avo avo
 10   10 
que se encuentran en el   = 5to y  + 1 = 6to lugares, es decir.
 2  2 
1.58 + 1.64
Me = = 1.61 m
2
La moda es el valor o valores de la variable que más veces se repiten, por lo que podemos
considerar:
a) puede existir una moda (unimodal)
b) puede existir más de una moda (polimodal)
c) puede no existir moda
Así, para el ejemplo de las estaturas de los 10 alumnos:
Existe un valor que se repite dos veces, este valor es el que corresponde a la moda, o sea:

Mo = 1.58 m

Medidas de centralización para datos agrupados:

Se dice que los datos agrupados son aquellos que se agrupan en intervalos de clase y que
se analizan considerando a la marca de clase como el valor que corresponde a todos los
datos del intervalo, es decir, el análisis ya no se realiza con los datos brutos.

Para que tengas un mejor entendimiento del cálculo de las medidas de centralización para
datos agrupados, utilizaremos el siguiente:

Ejemplo. Se tiene que el siguiente conjunto de datos corresponde a la edad (en años) de los
habitantes de una colonia de la delegación de Tlalpan, que asisten a la escuela (a partir de la
primaria).
Edad Número de
(años) habitantes
fi
7 a 10 5
11 a 14 11
15 a 18 23
19 a 22 31
23 a 26 16
27 a 30 10
31 a 34 ___4___
n = ∑ fi = 100

20
Inicialmente, se obtienen las columnas correspondientes a las marcas de clase ( xi ), límites
reales de clase ( LRI y LRS ), frecuencias acumuladas ( fa ) y las necesarias ( f i xi ) para el
cálculo de la media aritmética.

xi LRI LRS fa f i xi
8.5 6.5 10.5 5 42.5
12.5 10.5 14.5 16 137.5
16.5 14.5 18.5 39 379.5
20.5 18.5 22.5 70 635.5
24.5 22.5 26.5 86 392.0
28.5 26.5 30.5 96 285.0
32.5 30.5 34.5 100 _130.0_
∑ fi xi = 2002
n

∑fx i 1
La media aritmética se obtiene con x = i =1

n
Donde: f i es la frecuencia i-ésima.
xi es la marca de clase i-ésima.
n es el número total de datos.
2002
Se tiene que: x = = 20.02 años
100

n
− fa
La mediana se obtiene con Me = LI + 2 ×c
fi
Donde: LI es el límite real inferior de la clase mediana.
n es el número total de datos.
fa es la frecuencia acumulada anterior a la de la clase mediana.
fi es la frecuencia absoluta de la clase mediana.
c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )

avo
n
La clase mediana es el intervalo de clase donde se encuentra el   dato, siendo en este
2
avo
 100 
 = 50 dato, es decir, el cuarto intervalo,
avo
caso el intervalo de clase donde está el 
 2 
donde c = 22.5 − 18.5 = 4 años , así la mediana es:
100
− 39
Me = 18.5 + 2 × 4 = 18.5 + 1.4193 = 19.9193 años
31

∆1
La moda se obtiene con Mo = LI + ×c
∆1 + ∆ 2

21
Donde: LI es el límite real inferior de la clase modal.
∆1 es la diferencia de frecuencias de la clase modal y la anterior.
∆ 2 es la diferencia de frecuencias de la clase modal y la siguiente.
c es el tamaño o amplitud de la clase modal. c = LRS − LRI

La clase modal es el (los) intervalo(s) de clase de mayor frecuencia, siendo en este caso el
cuarto intervalo, de donde se obtiene que ∆1 = 31 − 23 = 8 y ∆ 2 = 31 − 16 = 15 y como
c = 22.5 − 18.5 = 4 años , así la moda es:
8
Mo = 18.5 + × 4 = 18.5 + 1.3913 = 19.8913 años
8 + 15

Si los datos que se tienen fueran de una población, la medidas de centralización se calculan
de la misma manera que en la muestra, solamente es necesario tener presente si se habla
de un parámetro o de un estimador, según sea el caso.

Ejercicios

1. Calcula la media, la mediana y la moda de los números 1, 2, 3, 4 y 18.

2. Elimina el dato mayor 18 y calcula la media, la mediana y la moda de los números 1,


2, 3 y 4.

3. Compara las medidas obtenidas en los ejercicios anteriores, ¿qué observas?

4. ¿Qué le ocurre a la media de los números 1,2,3,y 4, si se agregan los números 20 y


24 y se calcula el promedio de estos seis números?

5. Si se tienen n datos x1, x2,,,,,xn muy cercanos entre si, y se calcula su media,¿qué
ocurre cuando se agrega un dato (o datos) xn+1, xn+2 que están muy alejados de los
anteriores y se calcula nuevamente la media?

6. En una familia se calcula el peso promedio de los niños que asisten a la escuela
primaria y se obtiene x = 30 kg. Si se incluye el peso de los padres, ¿qué ocurre si se
calcula nuevamente el promedio?

7. Si tenemos los números 3, 6, 9, 12 y 15, cuya media es 9, su mediana es también 9 y


no tiene moda. Si añadimos como sexto valor el cero, ¿cuáles son la media, la
mediana y la moda de estos 6 números?

8. Se desea encontrar un valor representativo de las edades (en años) de 5 personas:


15, 15, 16, 17, 18, ¿cuál de los dos procedimientos siguientes es el correcto?

(15 + 15) + 16 + 17 + 18 15 + 15 + 16 + 17 + 18
a) b)
4 5

22
9. En una fábrica trabajan 15 obreros, 8 especializados y 7 no especializados; el salario
medio mensual de los especialistas es de $4000 y el salario promedio por mes de
los no especialistas es de $3500. Para encontrar la media mensual de los salarios de
los 15 obreros, se proponen a continuación dos procedimientos, ¿cuál es el correcto?

8 × 4000 + 7 × 3500 4000 + 3500


a) b)
8+7 2

10. En la siguiente tabla calcula el valor de x de manera que x = 5

Valores de X 1 x 5 7
Frecuencia (f) 2 5 3 4

11. Una tienda de autoservicio vendió el mes pasado 4 marcas de T.V, como se muestra
en la siguiente tabla

Marca del T.V. Sony Toshiba LG Panasonic

Televisores vendidos 7 10 5 3

a) Observa que la variable no es numérica ¿cómo se le llama a este tipo de variables?

b) Si el gerente decide eliminar tres marcas , ¿con cuál se quedaría?

12. Los datos siguientes corresponden a la altura (en cms) de 40 plantas de una
especie común
.
Altura Número de plantas
(cm)
[10,16) 7
[16,22) 8
[22,28) 12
[28,34 ) 7
[34,40] 6

a) ¿En cuál intervalo se encuentra el valor más frecuente?

b) ¿Cuál es el valor que se encuentra a la mitad de la distribución de las alturas de las


plantas?

13. En una maestría solamente pueden ingresar aspirantes que obtengan calificaciones
superiores a la mediana en el examen de conocimientos. Este año se presentaron 12

23
aspirantes que obtuvieron los siguientes puntajes: 7.5, 9.5, 7.5, 9.7, 7.8, 9.2, 8,
9.2, 8.1, 9, 8.2, 8.8, ¿cuáles son los puntajes de los aspirantes aceptados?

14. Las calificaciones obtenidas por un estudiante en 7 asignaturas son: S, S, MB, B, S,


B, MB.

a) ¿Cuál es el valor de la moda?

b) ¿ Cuál es el valor de la mediana?

c) ¿ Cuál de las dos calificaciones anteriores es más representativa?

15. Un sindicato y una empresa sostienen un debate respecto a los salarios de los
trabajadores. El sindicato reporta que los obreros reciben en promedio $ 4000 por
mes. El gerente dice que el pago promedio es de $ 8364 mensuales. Un inspector
de impuestos afirma que es de $ 7000 por mes. ¿Quién tiene la razón?

Salarios mensuales Número de empleados

$ 3000 a $ 5000 5
$ 6000 a $ 8000 1
$ 9000 a $ 11000 0
$ 12000 a $ 14000 5

a) Calcula el salario medio ( x ).

b) Calcula el salario mediano ( Me).

c) Calcula el salario modal (Mo).

d) ¿Cómo interpretas cada una de las medidas anteriores?

16. Para los siguientes datos que corresponden al gasto en pasajes por semana de una
muestra de alumnos de la escuela, calcula las medidas de centralización.

Gasto Número de
(Pesos) alumnos
2.50 a 4.00 7
4.50 a 6.00 10
6.50 a 8.00 24
8.50 a 10.00 25
10.50 a 12.00 8
12.50 a 14.00 4
14.50 a 16.00 2

17. Para los siguientes datos que corresponden a la estatura en centímetros de un grupo

24
de alumnos de secundaria de la delegación Coyoacán, calcula las medidas de
centralización.

Estatura Número de
(centímetros) alumnos
142 - 144 5
144 - 146 9
146 - 148 14
148 - 150 25
150 - 152 28
152 - 154 17
154 - 156 12
156 - 158 10

18. Un comerciante mezcla 12 kgs. de cacahuates que valen $ 20.00 el kg, con 8 kgs. de
nueces que valen $ 80.00 el kg. ¿A qué precio debe dar el kg. de la mezcla, para ganar
$5.00 por kg?

19. Hay 10 personas en un ascensor, 4 mujeres, 4 hombres y 2 niños. El peso medio de las
mujeres es de 60 kgs, el peso medio de los hombres es de 80 kgs. y el peso medio de
los niños es de 35 kgs, ¿cuál es el peso medio de las 10 personas en el ascensor?

20. Cada estudiante de un grupo de 20 estudiantes pesa 86 kgs. en promedio. Se sabe que
9 personas del grupo pesan en promedio 75 kgs. cada una. Del grupo de los 11
estudiantes restantes, ¿cuánto pesa en promedio cada uno?

21. De los 200 alumnos que presentaron un examen de 12 reactivos, el 10% responde
correctamente a 3 reactivos, el 50% a 7 reactivos, el 30% responde correctamente a 10
reactivos y el resto al total de reactivos del examen. Organiza los datos en una tabla de
distribución de frecuencias y calcula el número promedio de reactivos resueltos
correctamente.

22. La tabla siguiente corresponde a una muestra de los diámetros (en centímetros) del tallo
de 28 plantas de una especie común:

Diámetro(cm) 1 2 3 4 5 6 7
No. de plantas 1 4 6 8 5 3 1

¿Es correcto el siguiente procedimiento para calcular la media del diámetro de los
tallos?
1 + 2 + 3 + 4 + 5 + 6 + 7 28
x= = = 1 cm.
1 + 4 + 6 + 8 + 5 + +3 + 1 28
Si el procedimiento no es correcto, ¿cuál es el valor correcto de la media?

25
MEDIDAS DE DISPERSIÓN O VARIABILIDAD

El análisis descriptivo de los datos no puede restringirse exclusivamente al cálculo de las


medidas de tendencia central porque, por ejemplo, dos distribuciones de frecuencias con
igual media o con igual mediana pueden tener diferentes gráficas, es decir, si solamente se
consideran las medidas de tendencia central, se pueden obtener conclusiones erróneas al no
tomar en cuenta la dispersión de los datos.

Por ejemplo Roberto y Esperanza forman una pareja con una estatura media de 1.70 m y
Ana y Luis también son pareja con una estatura promedio de 1.70 m. Si solamente
conocemos esta medida de centralización, nos inclinaríamos a pensar que los 4 tienen una
estatura muy parecida. Sin embargo si aparte del promedio nos dicen que la desviación
media de Roberto y Esperanza es de 0.01 m y que la desviación media de Ana y Luis es de
0.25 m, entonces llegaríamos a la conclusión de que Ana y Luis forman una pareja muy
“dispareja”.

Las medidas de dispersión indican, en promedio, cuánto se alejan los datos de la media
aritmética. Si los datos se alejan poco de la media entonces su dispersión es menor que si
alejan mucho de la media. Las medidas de dispersión más comúnmente utilizadas son el
rango, la varianza y la desviación estándar o típica y el coeficiente de variación que mide la
dispersión relativa.

La varianza muestral se define como la suma de los cuadrados de las diferencias de los
datos con respecto a la media, dividida entre el total de datos menos uno. Esta medida tiene
el inconveniente de que transforma las unidades de medición en cuadrados, por lo que no se
puede comparar con la media aritmética. Por esta razón se define la desviación estándar
como la raíz cuadrada de la varianza.

El coeficiente de variación se utiliza cuando se desea comparar dos distribuciones de


frecuencia que tienen diferente unidad de medida, se calcula dividiendo la desviación
estándar entre la media.

El rango es la mas simple de las medidas de dispersión y se define como la diferencia entre
la medida mayor y la menor, pero no informa cuántos valores abarcan los datos.
El rango es muy utilizado en procesos industriales. En mucho, su utilidad en este campo se
debe a lo sencillo y rápido que es calcularlo. El rango provee información útil cuando la
muestra es pequeña, pero cuando la muestra es grande, no resulta una medida adecuada.

La desviación estándar es la medida de dipersión más utilizada para medir la variabilidad


en una muestra (o si fuera el caso en una población). Para calcularla, primero se obtiene la
varianza y después se extrae su raíz cuadrada.

Medidas de dispersión para datos agrupados

Para que tengas un mejor entendimiento del cálculo de las medidas de dispersión para datos
agrupados, utilizaremos el siguiente:

26
Ejemplo 1. Determinar las medidas de dispersión para el siguiente conjunto de datos que
corresponden a la edad (en años) de la población de habitantes, que asisten a la escuela, de
una colonia de la delegación de Tlalpan.

Edad Número de
(años) habitantes
fi xi f i xi
7 a 10 5 8.5 42.5
11 a 14 11 12.5 137.5
15 a 18 23 16.5 379.5
19 a 22 31 20.5 635.5
23 a 26 16 24.5 392.0
27 a 30 10 28.5 285.0
31 a 34 ___4___ 32.5 _130.0
n = ∑ fi = 100 ∑ fi xi = 2002
2002
A partir de estos cálculos, se tiene que: µ= = 20.02
100

Considerando al conjunto de datos como una población, se calcula la varianza con:

∑ f (x − µ)
i i
2

σ2 = i =1
Donde:
. N
f i es la frecuencia i-ésima, xi es la marca de clase i-ésima y n es el número total de datos
(en este caso debe considerarse n=N=100) .

xi − µ ( xi − µ ) 2 f i ( xi − µ ) 2
–11.52 132.7104 663.552
– 7.52 56.5504 622.0544
– 3.52 12.3904 284.9792
0.48 0.2304 7.1424
4.48 20.0704 321.1264
8.48 71.9104 719.104
12.48 155.7504 __623.0016__
∑ fi ( xi − µ )2 = 3240.96
Con estos datos se tiene que:
3240.96
σ2 = = 32.4096
100
Por lo tanto, la desviación típica o estándar, es: σ = 32.4096 = 5.692943 años
También se puede calcular la varianza y consecuentemente la desviación típica o estándar,
mediante:

27
2
n
 n 
∑fx i i
2
 ∑ f i xi 
σ =
2 i =1
−  i =1  = x2 − µ 2
n  n 
 
 
Realizando los cálculos, se tiene:
xi f i xi xi 2 f i xi 2
8.5 42.5 72.25 361.25
12.5 137.5 156.25 1718.75
16.5 379.5 272.25 6261.75
20.5 635.5 420.25 13027.75
24.5 392.0 600.25 9604
28.5 285.0 812.25 8122.5
32.5 _130.0___ 1056.25 _4225___
∑ fi xi = 2002 ∑ fi xi 2 = 43321
2002 43321
De esto se obtiene que: µ = = 20.02 y x2 = = 433.21
100 100
σ 2 = x2 − µ 2 = 433.21 − 20.022 = 433.21 − 400.8004 = 32.4096

La desviación típica o estándar, es:


σ = 32.4096 = 5.692943 años

Como podrás observar, el valor de la desviación típica o estándar es el mismo, no


importando el camino que sigas para hacerlo.

Ejemplo 2. Los datos siguientes representan el contenido de azúcar (en g/100 ml) y el
contenido de cafeína (mg/100 ml) de 8 refrescos de cola. En la cuarta y quinta columna de la
tabla se ilustra el procedimiento para calcular la desviación estándar para el contenido de
azúcar (Profeco, 2003).

Marca Azúcar Cafeína xi − x ( x − x)


2
i
(g/100 ml) (mg/100 ml)
Big Cola 10.9 12 10.9-10.6875 0.04515625
CM 10.3 6 10.3-10.6875 0.15015625
Coca Cola 10.6 15 10.6-10.6875 0.00765625
Great Value 10.2 5 10.2-10.6875 0.23765625
Hola Cola 10.4 13 10.4-10.6875 0.08265625
Pepsi Cola 11.1 14 11.1-10. 6875 0.17015625
Pepsi Limón 11 16 11-10.6875 0.09765625
Royal Cola 11 12 11-10.6875 0.09765625
0.88875

Como el conjunto de datos corresponde a una muestra de datos no agrupados, la varianza


se calcula con:

28
n

∑ ( x − x) i
2

s2 = i =1

n −1
Con estos datos, se tiene:
0.88875
La varianza es s 2 = = 0.12696
8 −1
Por lo tanto, la desviación típica o estándar, es: s = 0.12696 = 0.3563 g /100 ml

Si la muestra es de datos agrupados, la varianza se calcula con:


n

∑ f ( x − x) i i
2

s =
2 i =1

n −1
Donde: f i es la frecuencia i-ésima y xi es la marca de clase i-ésima.
También se puede calcular la varianza para datos agrupados de una muestra y
consecuentemente la desviación típica o estándar, mediante:

2
 n 
n  ∑ f i xi 

i =1
f i xi −  i =1
2

 n


 
s =
2  
n −1

Una reflexión sobre las Medidas de Dispersión.

Es muy importante reflexionar que aún cuando la desviación estándar es la medida de


dispersión más comunmente utilizada para comparar distribuciones de frecuencias (o para
comparar varios conjuntos de datos), en algunas situaciones no siempre responde a la
pregunta ¿en cuál distribución de frecuencias existe mayor dispersión?.

El rango proporciona información útil cuando la muestra es pequeña, pero si la


muestra es grande, no resulta una medida de provecho.

Ejercicios.
1. Los datos siguientes proporcionan las temperaturas promedio diarias (en grados
centígrados) registradas durante 8 días del último mes de enero en Otawa y en
Washington

Otawa -1 2 1 1 -2 3 0 -4
Washington 1 1 -2 -1 -3 0 -1 5

¿En cuál ciudad se presenta mayor variación en la temperatura?

2. Propón un conjunto 6 de datos de manera que la varianza (y/o la desviación


estándar sea cero)

29
3. La tabla siguiente da los rendimientos, medidos en toneladas por hectárea, de dos
variedades de maíz, en 10 años consecutivos

Año 1 2 3 4 5 6 7 8 9 10
Maíz A 4.8 0.5 6 3.5 3.8 5 6 1.2 2.8 5.2
Maíz B 3.5 3.8 3.7 2.8 2.5 4.2 4 3.5 4.1 3.2

a)¿Qué variedad de maíz es mejor?

b)¿Cuál variedad es más consistente?

4. La media y la desviación estándar de las calificaciones en un examen final


correspondientes a los grupos A y B, se muestran en la siguiente tabla

Grupo Media D. Estándar


A 7.7 6.2
B 6.9 11.7

a) ¿Cuál de los grupos tuvo mejor rendimiento?

b) ¿Cuál de los grupos tuvo un rendimiento más homogéneo?

c) Sin considerar ninguna otra información, ¿en cuál de los dos grupos se
obtuvieron los puntajes individuales más bajos y más altos?

5. Una compañía desea comprar una máquina de corte controlada por computadora.
El ingeniero de la compañía prueba dos máquinas de diferentes fabricantes. Los
diámetros (en centímetros) de las barras cortadas por las máquinas fueron los
siguientes:

Fabricante 1: 2.001, 2, 2.004, 1.998, 1.997

Fabricante 2: 2.002, 2.008, 1.995, 1.99, 2.005

¿A cuál fabricante le conviene comprar?

6. Para los siguientes datos que corresponden a una muestra de las puntuaciones de
10 aspirantes en el examen de admisión de la UNAM del año pasado 76, 68, 85,
91, 80, 72, 84, 88, 77 y 82. Calcula su desviación estándar.

7. Para los siguientes datos que corresponden al gasto en pasajes por semana de
una población de alumnos de una escuela de computación. Calcula la varianza y la
desviación típica.

30
Gasto Número de
(Pesos) alumnos

2.50 a 4.00 7
4.50 a 6.00 10
6.50 a 8.00 24
8.50 a 10.00 25
10.50 a 12.00 8
12.50 a 14.00 4
14.50 a 16.00 2

Coeficiente de variación

Mide la dispersión relativa y pemite comparar dos conjuntos de datos cuyas medidas
descriptivas pueden estar expresados en diferentes unidades de medida. Es equivalente a la
razón, es decir, es la comparación por cociente entre la desviación estándar y la media
aritmética. Al ser un coeficiente no tiene unidades y si se desea se puede expresar en
porcentaje:
s s
CV = ó CV = ×100
x x

Ejemplo si deseamos comparar el contenido de azúcar con la cafeína, en los refrescos del
ejemplo de la tabla de Datos Profeco, 2003, necesitamos calcular el CV para cada variable.

El coeficiente de variación para el contenido de azúcar en los refrescos es

0.3563g / 100ml
CV = = 0.0333 , o de manera equivalente CV = 3.33%
10.6875 g / 100ml

El coeficiente de variación para el contenido de cafeína en los refrescos es

4.0333mg / 100ml
CV = = 0.3469 , o sea CV = 34.69%
11.625mg / 100ml

A partir de la comparación de los valores anteriores, se concluye que existe menos


dispersión o variabilidad en el contenido de azúcar de los refrescos como se puede observar
comparando los coeficientes de variación y donde se observa que el contenido de cafeína es
aproximadamente 10 veces mayor que el de azúcar.

Ejercicios.

1. Si se tiene que en una muestra de las temperaturas medias durante 5 días del
último verano en la ciudad de México fueron de 16°,14°,19°,22° y 24° y en una muestra
durante 5 días del invierno pasado fueron de 10°,11°,9°,8° y 12° , determina
en cual de las dos estaciones hubo mayor variabilidad.

31
2. Si se tienen dos muestras de estudiantes con pesos promedio de 68 kg y de 85 kg
respectivamente y con la misma desviación estándar, entonces se puede afirmar que:

a) La muestra con estatura promedio de 68 kg tiene menor variabilidad ( )

b) La muestra con estatura promedio de 85 kg tiene menor variabilidad ( )

c) Las dos muestras tienen la misma variabilidad ( )

3. En un estudio se encontró que el gasto promedio anual para atención médica de dos
muestras de familias de clase media fue el mismo con una desviación típica de
$700.00 para la primera muestra y de $450.00 para la segunda muestra, entonces, se
puede afirmar que:

a) La muestra con desviación típica de $450.00 tiene mayor variabilidad ( )

b) La muestra con desviación típica de $700.00 tiene mayor variabilidad ( )

c) Las dos muestras tienen la misma variabilidad ( )

MEDIDAS DE POSICION

En ocasiones es necesario conocer proporciones de una población que cumple ciertos


valores de la variable de interés lo cual no es posible describir fácilmente si solo se tienen las
medidas de centralización y dispersión, por lo que es necesario determinar algunas medidas
descriptivas mediante las cuales se pueda hacer esa descripción, estas medidas son
llamadas de posición las cuales permiten determinar los valores de la variable que divide al
conjunto de datos en partes iguales, tales medidas se llaman genéricamente cuantiles y de
acuerdo al número de partes en que dividen a la población, así tenemos:

Mediana. Valor de la variable que divide en dos partes al conjunto de datos, que si bien es
una medida de centralización también es de posición y su valor corresponde al central de
una distribución de datos y describe que a su izquierda se encuentra el 50% de la
distribución y a su derecha el otro 50%.

Cuartiles. Valores de la variable que dividen a la distribución en cuatro partes iguales y que
describen que alrededor de cada uno de ellos se encuentra el 50% de la distribución, así el
cuartil primero describe que a su izquierda se encuentra el 25% de la población con los
valores más bajos de la variable y a su derecha otro 25% de los datos, el cuartil segundo que
es equivalente a la mediana, describe que alrededor de el se encuentra el 50% de los datos
con los valores centrales de la variable 25% a su izquierda y 25% a su derecha y el cuartil
tercero describe que a su izquierda se encuentra el 25% de los valores centrales de la
distribución y a su derecha el 25% de los datos con los valores mayores de la variable.

Deciles. Son los valores de la variable que dividen al conjunto ordenado de datos en diez
partes iguales y que describe que alrededor de cada uno de ellos se tiene el 20% de la
distribución, de acuerdo a su posición relativa dentro de ella, así por ejemplo el decil noveno
describe que alrededor de él se encuentra el 20% de los valores de la variable más grandes,
32
el 10% a su izquierda y el otro 10% a su derecha y el decil 5 que es equivalente a la mediana
describe que alrededor de él se encuentra el 20% de los datos con los valores centrales de la
distribución, el 10% a su izquierda y el otro 10% a su derecha.

Porcentiles o Centiles. Son los valores de la variable que dividen al conjunto ordenado de
datos en cien partes iguales y que describe que alrededor de cada uno de ellos se tiene el
2% de la distribución, de acuerdo a su posición relativa dentro de ella, así por ejemplo el
percentil primero describe que alrededor de él se encuentra el 2% de los datos con los
valores de la variable más pequeños, el 1% a su izquierda y el otro 1% a su derecha y el
percentil 50 que es equivalente a la mediana describe que alrededor de él se encuentra el
2% de los datos con los valores centrales de la distribución, el 1% a su izquierda y el otro
1% a su derecha

Para efectuar el cálculo de las medidas de posición para datos agrupados se utiliza el mismo
procedimiento de interpolación que para calcular la mediana, así, tenemos:

Ejemplo. Para determinar las medidas de posición para el siguiente conjunto de datos que
corresponden a la edad (en años) de los habitantes de una colonia de la delegación de
Tlalpan, que asisten a la escuela.

Edad Número de
(años) habitantes
fi
7 a 10 5
11 a 14 11
15 a 18 23
19 a 22 31
23 a 26 16
27 a 30 10
31 a 34 ___4___
n = ∑ fi = 100

Inicialmente, se obtienen las columnas correspondientes a las marcas de clase( xi ), límites


reales de clase( LRI y LRS ), frecuencias acumuladas( fa ) y las necesarias ( f i xi ) para el
cálculo de la media aritmética.
xi LRI LRS fa
8.5 6.5 10.5 5
12.5 10.5 14.5 16
16.5 14.5 18.5 39
20.5 18.5 22.5 70
24.5 22.5 26.5 86
28.5 26.5 30.5 96
32.5 30.5 34.5 100

33
n
− fa
La mediana se obtuvo con Me = LI + 2 ×c
fi
Donde: LI es el límite real inferior de la clase mediana.
n es el número total de datos.
fa es la frecuencia acumulada anterior a la de la clase mediana.
f i es la frecuencia absoluta de la clase mediana.
c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )
avo
n
recordando que a clase mediana es el intervalo de clase donde se encuentra el   dato,
2
avo
 100 
 = 50 dato, es decir, el
avo
siendo en este caso el intervalo de clase donde está el 
 2 
cuarto intervalo, donde c = 22.5 − 18.5 = 4 años , así la mediana es:
100
− 39
Me = 18.5 + 2 × 4 = 18.5 + 1.4193 = 19.9193 años
31
n
× N − fa
Cuartiles. El cuartil N-ésimo se obtiene con: QN = LI + 4 ×c
fi
Donde: LI es el límite real inferior de la clase donde está el N-esimo cuartil.
n es el número total de datos.
fa es la frecuencia acumulada anterior a la de la clase mediana.
fi es la frecuencia absoluta de la clase dode está el N-esimo cuartil.
c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )

así, si se calcula el cuartil 1 la clase donde está, es el intervalo de clase donde se encuentra
avo
 100 
el  × 1 = 25avo dato, es decir, el tercer intervalo, donde c = 18.5 − 14.5 = 4 años , así el
 4 
primer cuartil es:
100
×1 − 16
Q1 = 14.5 + 4 × 4 = 14.5 + 1.5652 = 16.0652 años
23

Valor de la variable que describe que el 25% de los habitantes de esa colonia que asisten a
la escuela son menores de 16.0652 años.

Ejercicio:
Comprueba que el Q3 = 23.75 años e interpreta su significado, recuerda que el cuartil 2 es la
mediana.
n
× N − fa
Deciles. El decil N-ésimo se obtiene con: DN = LI + 10 ×c
fi

34
Donde: LI es el límite real inferior de la clase donde está el N-esimo decil.
n es el número total de datos.
fa es la frecuencia acumulada anterior a la de la clase mediana.
fi es la frecuencia absoluta de la clase donde está el N-esimo decil.
c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )

así, si se calcula el decil 8 la clase donde está, es el intervalo de clase donde se encuentra
avo
 100 
el  × 8  = 80avo dato, es decir, el quinto intervalo, donde c = 26.5 − 22.5 = 4 años , así el
 10 
octavo decil es:
100
× 8 − 70
D8 = 22.5 + 10 × 4 = 22.5 + 2.5 = 25 años
16
Valor de la variable que describe que el 80% de los habitantes de esa colonia que asisten a
la escuela son menores de 25 años o que el 20% son mayores de 25 años.

Ejercicio:
Comprueba que el D3 = 16.9347 años e interpreta su significado, recuerda que el decil 5 es la
mediana.
n
× N − fa
Percentiles. El percentil N-ésimo se obtiene con: PN = LI + 100 ×c
fi
Donde: LI es el límite real inferior de la clase donde está el N-esimo percentil.
n es el número total de datos.
fa es la frecuencia acumulada anterior a la de la clase mediana.
fi es la frecuencia absoluta de la clase dode está el N-esimo percentil.
c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )

así, si se calcula el percentil 53, la clase donde está es el intervalo de clase donde se
avo
 n 
encuentra el  × 53  dato, siendo en este caso el intervalo de clase donde está el
 100 
avo
 100 
 × 53  = 53avo dato, es decir, el cuarto intervalo, donde c = 18.5 − 14.5 = 4 años , así el
 100 
percentil 53 es:
100
× 53 − 39
P53 = 18.5 + 100 × 4 = 18.5 + 1.8064 = 20.3064 años
31
Valor de la variable que describe que el 53% de los habitantes de esa colonia que asisten a
la escuela son menores de 20.3064 años.

35
Ejercicio
Comprueba que el P10 = 12.3181 años e interpreta su significado y recuerda que el percentil 50
es la mediana.

REGLA EMPIRICA

En un gran número de estudios estadísticos, el uso conjunto de la media y la desviación


estándar, permite conocer la distribución porcentual de una muestra, aún cuando no se
conozcan los datos muestrales en su totalidad. Esta situación se verifica de manera general
en distribuciones de datos con una sola moda y simétricas como es la distribución normal
para la cual se cumple que:

En el intervalo ( x − s, x + s ) se encuentra el 68% de los datos.


En el intervalo ( x − 2s, x + 2s ) se encuentra el 95% de los datos.
En el intervalo ( x − 3s, x + 3s ) se encuentra el 99% de los datos.

Aunque esta última regla es aplicable especificamente a la distribución normal, con


frecuencia se aplica como guía para cualquier distribución.

Por ejemplo si se aplica un prueba estandarizada a 500 alumnos y se obtiene una media de
6 y una desviación estándar de 1.5, si la distribución es unimodal y bastante simétrica,
entonces en el intervalo (6-1.5,6+1.5)=(4.5,7.5) se tiene al 68% de los alumnos, es decir, 340
de los alumnos obtuvieron calificación entre 4.5 y 7.5

36
UNIDAD 2. DATOS BIVARIADOS
Propósito.
Al finalizar esta unidad debes haber comprendido la forma en que se establece una relación
entre dos variables, a partir de tablas, diagramas, regresiones y correlaciones y así describir
la naturaleza e intensidad lineal de esa relación.

Se ha tratado con variables numéricas y se ha estudiado una característica de interés, como


puede ser el número de materias que han acreditado, la edad de los alumnos del CCH, etc.
Ahora se consideran más características de interés como puede ser: el tiempo que tarda un
alumno en llegar a el CCH y lo que gasta en transporte, o la distancia promedio que recorre
para llegar al plantel. Otro sería el peso, la estatura y el periodo de embarazo (días
promedio), de un bebé al nacer.
Se quiere saber si existe, o no, relación lineal entre dos o más variables. Si existe, se debe
saber que tipo de relación es.
El método empleado es el método de la regresión lineal.
El objetivo estadístico (teórico) del método de regresión lineal es el de evaluar si dicho
modelo se ajusta o no al proceso estudiado.

Diagrama de dispersión
Se desea analizar comportamiento de las variables: estatura (X) y peso (Y) de alumnos
entre 15 y 18 años. Se debe evaluar si el modelo de regresión lineal puede ajustarse o no.
La población estadística se compone según el principio “a mayor estatura, mayor peso”.
Se elabora una grafica donde aparecen los valores muestrales obtenidos con muestras
aleatorias (x1, y1), (x2, y2), …, (xn, yn). Esta grafica se le nombra diagrama de dispersión.

Diagrama de dispersión
Peso

Estatura

37
Si los valores muestrales dan una configuración de puntos como el del diagrama de
dispersión, el modelo se llama de regresión lineal simple.
Cabe aclarar que la dispersión de puntos no solamente es lineal, hay dispersiones
cuadráticas y el modelo sería de regresión cuadrática, además se pueden utilizar modelos
de regresión exponencial, logarítmica, etc.

También hay la posibilidad de que entre las variables X y Y no exista relación alguna. Una
vez evaluada la pertinencia del modelo, se procede a describir y explicar el comportamiento
del proceso mediante la construcción del modelo respectivo. Este paso permite efectuar otros
aspectos como la de predecir y pronosticar su comportamiento.

Correlación entre dos variables numéricas


El objetivo estadístico es el de ver si existe o no una relación de carácter lineal entre dos
variables aleatorias, si existe, entonces medir el grado de intensidad de la linealidad, esto se
logra al calcular el coeficiente de correlación lineal de Pearson, denotado por r

n∑ XY − ∑ X ∑ Y
r=
 n X 2 − ( X ) 2   n Y 2 − ( Y )2 
 ∑ ∑   ∑ ∑ 
El coeficiente (r) toma valores en el intervalo -1 ≤ r ≤ 1.

-Por tanto, r puede ser -1, -0.98, -0.85,…; esto significa que la relación entre X y Y es
inversamente proporcional, (a menor X mayor Y)
-Si r se acerca a 0, la relación entre las variables es casi nula, esto quiere decir que no hay
relación entre ellas.
-Si r se acerca a 1 significa que la relación entre X y Y es proporcional, (a mayor X mayor Y).

Modelo de Regresión Lineal Simple


Al tener una tendencia lineal entre las variables X y Y el modelo matemático a proponerse es
de una recta. Para determinar la ecuación de la recta de la forma

Y = mx + b

Se necesita calcular los valores de m y b que corresponden a la pendiente y a la ordenada al


origen respectivamente.

Para determinar la recta de mejor ajuste se recurre al método de mínimos cuadrados:

“Se encontrará m y b de tal forma que la suma de los cuadrados de los residuos sea mínima”

La estimación de los coeficientes de la recta de regresión m y b, se calculan con:

a) ∑ Y = bn + m∑ X ∑ XY = b∑ X + m∑ X 2

las cuales se conocen como ecuaciones normales y al resolverse como simultáneas,


determinan los valores de la pendiente m y la ordenada al origen b

38
o con:
n∑ XY − ∑ X ∑ Y ∑ Y − m∑ X
b) m= y b=
n∑ X 2 − ( ∑ X )
2
n

Ejemplo
Los siguientes datos corresponden a los resultados de un estudio acerca de la cantidad de
azúcar refinada (Y) mediante un cierto proceso a varias temperaturas diferentes (X). Los
datos se codificaron y se registraron en la tabla siguiente:

X Y
Temperatura Azúcar transformada
1.0 8.1
1.1 7.8
1.2 8.5
1.3 9.8
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5

Para calcular el coeficiente de correlación, tenemos:

X Y X*Y X2 Y2
1.0 8.1 8.10 1.0 65.61
1.1 7.8 8.58 1.21 60.84
1.2 8.5 10.20 1.44 72.25
1.3 9.8 12.74 1.69 96.04
1.4 9.5 13.30 1.96 90.25
1.5 8.9 13.35 2.25 79.21
1.6 8.6 13.76 2.56 73.96
1.7 10.2 17.34 2.89 104.04
1.8 9.3 16.74 3.24 86.49
1.9 9.2 17.48 3.61 84.64
2.0 10.5 21.0 4.00 110.25
16.5 100.40 152.59 25.85 923.58

Se registran 11 parejas ordenadas (X,Y), por tanto n = 11.


Coeficiente de correlación r

n∑ XY − ∑ X ∑ Y 11× 152.59 − 16.5 × 100.4


r= = = 0.71
 n X 2 − ( X )  n Y 2 − ( Y )  (11× 25.85 − 16.52 )(11× 923.58 − 100.42 )
∑ ∑ ∑ ∑
2 2

   
Este valor de r = 0.71 se interpreta como una correlación positiva moderada.

39
La recta de regresión lineal, que es de la forma Y = mx + b, su pendiente y ordenada al
origen, se determinan como:

n∑ XY − ∑ X ∑ Y 11×152.59 − 16.5 ×100.4


m= = = 1.73
n∑ X − ( ∑ X ) 11× 25.85 − 16.52
2 2

b=
∑ Y − m∑ X 100.4 − 1.73 × 16.5
= = 6.53
n 11
Por lo que la recta de regresión lineal, que es la recta que mejor se ajusta a los datos, es:
Y = 1.73X + 6.53

La ecuación de la recta de regresión nos permite estimar la cantidad de azúcar producida


para una determinada temperatura así para una temperatura de 1.75, se tiene que al sustituir
X = 1.75 se obtiene para Y = 9.56 es la cantidad promedio de azúcar refinada obtenida a esa
temperatura.

Ejercicios.
1. Para la siguiente tabla que muestra la estatura de un bebé al nacer Y (cm) que
depende del período de embarazo de su mamá X (días promedio).
X Y XY X2 Y2
277.1 48
279.3 49
281.4 50
283.2 51
284.8 52

a) Construye el diagrama de dispersión


b) Completa la tabla
c) Calcula el coeficiente de correlación de Pearson.
d) Encuentra la ecuación de la recta de regresión.
e) Traza sobre el diagrama de dispersión, la recta de regresión
f) Determina la estatura estimada de un bebé al nacer si el tiempo promedio de
embarazo fue de 280 días.
g) Determina el tiempo estimado de embarazo de un bebé que midió al nacer
50.4 cm.
2. La siguiente tabla representa la densidad de un mineral (X) y su contenido de hierro
(Y)
X Y XY X2 Y2
2.8 27
3.0 30
3.2 30
3.2 34
3.4 36

40
a) Completa la tabla.
b) Construye el diagrama de dispersión.
c) Calcula el coeficiente de correlación r,
d) Determina la ecuación de regresión lineal.
e) Traza sobre el diagrama de dispersión, la recta de regresión.
f) Si la densidad del material es 2.9, determina el valor estimado del contenido
de hierro.
g) Si el contenido de hierro es de 31, determina la densidad estimada del
material.

41
UNIDAD 3. PROBABILIDAD
Propósito.
Al finalizar esta unidad sabrás los que son los fenómenos aleatorios, al resolver problemas
utilizando los enfoques, subjetivo, frecuentista y clásico, y comprenderás los conceptos
fundamentales que te permiten asociar a la probabilidad y a sus reglas directamente con la
Inferencia Estadística.

EL azar y la realidad

La presencia de fenómenos imprevisibles en sus resultados o manifestaciones en la realidad


que nos rodea es bastante patente. La casualidad y el azar gobiernan muchos
acontecimientos de nuestras vidas. Nuestro trabajo, la familia, cuando conducimos un coche
e incluso los rincones más ocultos de la ciencia están influídos por lo impredecible. Por ello,
el hombre ha tratado de controlar el mundo del azar para no depender de un simple golpe de
suerte (aunque no siempre ha obtenido buenos resultados).

Fenómenos deterministas y fenómenos aleatorios.

Decimos que un fenómeno es determinista si es posible determinar, con la exactitud


deseada, lo que va ha ocurrir como resultado del fenómeno (al repetir el fenómeno bajo las
mismas circunstancias, produce el mismo resultado).
Un fenómeno aleatorio se caracteriza por la propiedad de que su realización bajo un conjunto
dado de circunstancias no siempre produce el mismo resultado, sino que puede tener
diferentes resultados, y no tenemos forma de determinar cual de ellos ocurrirá. Por ejemplo
en el experimento de lanzar una moneda, se puede apreciar los dos tipos de fenómenos:
determinista (tenemos la certeza de que la moneda caerá al suelo) y aleatorio (no podemos
predecir qué lado de la moneda quedará hacia arriba).

Fuentes de fenómenos aleatorios

En la Biología
Muchas de las características heredadas en el nacimiento no se pueden prever de
antemano, sino que dependen del azar: el género, el color del pelo, el peso al nacer. La
transmisión de los caracteres genéticos obedece a las leyes del cálculo de probabilidades.

En la Medicina
La posibilidad de contagio o no en una epidemia, la duración de un cierto síntoma, la
posibilidad de un diagnóstico correcto cuando hay varias posibles enfermedades que
presentan síntomas parecidos, son ejemplos de situaciones donde el azar está presente.

En el mundo físico
La duración, intensidad y extensión de las lluvias, tormentas o granizos; la intensidad y
dirección del viento. las temperaturas máximas o mínimas, etc.

42
En el mundo social
En la sociedad en que vivimos, la familia, la escuela, el trabajo, están llenos de situaciones
en las que predomina la incertidumbre. El número de hijos en la familia, la edad de los
padres al contraer matrimonio, el tipo de trabajo, la terminación de los estudios escolares,
son ejemplos de fenómenos aleatorios en la vida social.

Las definiciones de probabilidad.

Laplace (1812) definió la probabilidad como la tasa de casos favorables sobre el número total
de casos igualmente posibles, pero también lo hizo Leibniz en 1678. Para Laplace, la teoría
del azar, “consiste en reducir todos los acontecimientos del mismo tipo a un cierto número de
casos igualmente posibles, es decir, aquellos para los que estamos igualmente indecisos
acerca de su existencia”.

William Emerson (1776) distingue la “probabilidad matemática” (o teórica) y “probabilidad


frecuentista”, dando una buena descripción de esta última:

Aunque es imposible determinar con certeza cómo ocurrirá un acontecimiento, puede


determinarse matemáticamente, sin embargo, qué verosimilitud o grado de probabilidad hay
de que ocurra o deje de ocurrir, excepto que se haga un número infinito de repeticiones y
entonces una con la otra llevarán siempre a la misma cosa que se obtiene con el cálculo.

Una teoría mucho más aplicable y muy sostenida, que evita alguna de estas dificultades, es
la “frecuencia relativa” o “interpretación estadística”. Puede atribuírse en gran medida, a este
punto de vista el adelanto registrado en la aplicación de la probabilidad, no sólo a la física y a
la astronomía, sino también a la biología, a las ciencias sociales y a los negocios. La
interpretación estadística está estrechamente relacionada con el punto de vista expresado
por Aristóteles: que lo probable es aquello que ocurre diariamente.

Conceptos básicos en Probabilidad

Con el propósito de continuar con el estudio de la Probabilidad de manera sistemática,


usaremos las siguientes definiciones:

La probabilidad es un término utilizado para describir un experimento con un resultado


aleatorio, lo que se conoce como experimento aleatorio. En la práctica, un experimento es
el proceso por medio del cual la medición de una observación es registrada.

El primer componente de un modelo de probabilidad, es el conjunto de todos los posibles


resultados del experimento llamado espacio muestral ( Ω ). Por ejemplo, si consideramos
que lanzar una moneda es un experimento aleatorio, los posibles resultados son águila o sol.
Simbólicamente, el espacio muestral de lanzar una moneda es Ω = {águila, sol}.

Por otro lado, si se lanza un dado cuyas caras están numeradas del 1 al 6, la posibilidad de
que el número mostrado sea un 7 es un evento que no puede ocurrir y a éste evento se le
llama evento imposible, se denota por ∅ y su probabilidad de ocurrencia es cero.

43
Si lanzamos una moneda, tenemos la seguridad de que obtendremos uno de los resultados
posibles contenidos en Ω , cada uno de éstos resultados se conocen como eventos
simples, éstos eventos comúnmente se denotan por Ei. Una característica evidente de los
eventos simples, es que en un experimento aleatorio ocurre uno y solo un evento simple.

En resumen el cálculo de probabilidades tiene las siguientes verdades básicas o


axiomas.

1. Si E es un evento cualquiera, entonces 0 ≤ P(E ) ≤ 1


2. Si Ω o S, es el evento seguro, entonces P(Ω) = 1 o P(S ) =1
3. Si E1, E2,……Ek son eventos mutuamente excluyentes, entonces
P(E1 o E2 o …. Ek)=P(E1)+P(E2)+…+P(Ek)

También es importante que sepas el uso correcto de algunos términos en español que se
usan cotidianamente en el cálculo de probabilidades.

Conectivo ”y”

Este conectivo y significa que estamos interesados en la ocurrencia simultánea o conjunta de


dos resultados en una situación aleatoria.

Ejemplo 1. Supóngase que se arrojan simultáneamente un dado y una moneda y se quiere


1
calcular la probabilidad de obtener un 3 y un águila. La probabilidad de obtener un 3 es y
6
1
la probabilidad de que salga águila en un volado es ; entonces la probabilidad de obtener
2
1 1
un 3 y un águila al lanzar simultáneamente un dado y una moneda es y , es decir,
6 2
1 1 1 1 1 1
× = . Esta situación se simboliza como: P (3 y A) = P (3 I A) = P (3) ⋅ P ( A) = × =
6 2 12 6 2 12
El razonamiento anterior se puede aplicar siempre y cuando la probabilidad de ocurrencia de
cualquiera de los dos eventos no afecte la probabilidad de ocurrencia del otro, es decir,
cuando ambos eventos no estén relacionados.

Ejemplo 2. Calcular la probabilidad de obtener tres cincos en el lanzamiento de 3 dados.


Como los eventos no están relacionados (son independientes), entonces
1 1 1 1
P (5 y 5 y 5) = P (5 I 5 I 5) = P (5) ⋅ P (5) ⋅ P (5) = × × =
6 6 6 216
La respuesta de estos ejemplos se hizo relacionando el conectivo y con la intersección de
conjuntos y con la operación aritmética multiplicación

Conectivo ”o”

Supóngase que se desea calcular la probabilidad de obtener un número par en el


lanzamiento de un dado, es decir, calcular la probabilidad de obtener 2 o 4 o 6, la respuesta
se obtiene relacionando el conectivo o con la unión de conjuntos y con la operación
aritmética adición, así:

44
1 1 1 3 1
P(2o 4o6) = P(2U 4U 6) =
+ + = = = 0.5
6 6 6 6 2
La condición para poder sumar probabilidades en esta forma es que los eventos sean
mutuamente excluyentes, es decir, que no puedan ocurrir conjuntamente.

Este procedimiento puede conducir a errores si los eventos no son mutuamente excluyentes.

Ejemplo: Sean los eventos:

A: Un tirador acierta en el blanco


B: Otro tirador acierta en el mismo blanco.

Si se sabe que: P(A)=0.8 y P(B)=0.7,determinar la probabilidad de que los dos tiradores


apuntando al mismo blanco, acierten uno u otro.

Si quisiéramos utilizar el procedimiento anterior en esta situación, nos encontraríamos con


que P ( Ao B ) = P ( A U B ) = P ( A) + P ( B ) = 0.8 + 0.7 = 1.5 resultado evidentemente absurdo,
porque como ya lo hemos señalado, la probabilidad de un evento no puede ser mayor a 1. El
error proviene del hecho de no considerar que ambos eventos no son mutuamente
excluyentes, porque es muy posible que ambos tiradores hagan blanco simultáneamente.
La forma correcta de calcularla es P ( Ao B ) = P ( A U B ) = P ( A) + P ( B ) − P ( A I B ) ,es decir, se
debe restar de 1.5, la probabilidad de que ambos tiradores hagan blanco simultáneamente.

Eventos simples y su probabilidad

Ejemplo 1. Consideremos una encuesta a 34 estudiantes, clasificados de acuerdo con las


variables género y resultado de un examen final en Estadística.

Masculino Femenino Total


(M) (F)
Aprobado (A) 2 10 12
No aprobado (NA) 9 13 22
Total 11 23 34

En esta tabla se puede observar que el espacio muestral se forma con las combinaciones de
los valores de ambas variables: (A y M), ((A y F), (NA y M) y (NA y F).

En esta situación los eventos simples con sus probabilidades son:


Seleccionar una mujer (F)
23
P( F ) = = 0.6764
34
Seleccionar un hombre (H)
11
P( H ) = = 0.3236
34
Seleccionar una persona que aprobó el examen (A)
12
P ( A) = = 0.3529
34

45
Seleccionar una persona que no aprobó el examen (NA).
22
P( NA) = = 0.6471
34

Cálculo de probabilidades de eventos compuestos

Los eventos compuestos se forman combinando varios eventos simples. A continuación


calcularemos probabilidades para eventos compuestos.

Consideremos la encuesta a 34 estudiantes, clasificados de acuerdo con las variables


género y resultado de un examen final en Estadística.

Masculino Femenino Total


(M) (F)
Aprobado (A) 2 10 12
No aprobado (NA) 9 13 22
Total 11 23 34

Podemos obtener directamente las probabilidades de los eventos compuestos:

2
P( A y M ) = P ( A I M ) = = 0.0588
34
10
P( A y F ) = P ( A I F ) = = 0.2941
34
9
P( NA y M ) = P( NA I M ) = = 0.2647
34
13
P( NA y F ) = P( NA I F ) = = 0.3823
34

La probabilidad de ocurrencia de dos eventos cuando ya se tiene cierta información de


uno de ellos.

Otra situación de interés consiste en determinar la probabilidad de un evento si ha ocurrido el


otro. Por ejemplo, si seleccionamos un estudiante de la muestra de 34, ¿cuál es la
probabilidad de que haya aprobado (A), si se sabe que es mujer (F)? La información se sabe
que es mujer condiciona la probabilidad de ocurrencia del evento aprobar, es decir, de las 23
alumnas en la muestra solamente nos interesan aquellas que aprobaron (10); de esta
10
manera, la probabilidad de ocurrencia (llamada probabilidad condicional), es = 0.4347
23
12
Observe que si se calcula solamente P(A), se obtiene = 0.3529 , pero la influencia del
34
evento F modifica su probabilidad a 0.4347

De manera semejante, podemos calcular la probabilidad de seleccionar una mujer si se sabe


(dado que) aprobó. Aquí únicamente nos interesa una parte de la muestra (12 estudiantes

46
que aprobaron), y de estos solamente seleccionamos a las mujeres, por lo tanto, la
10
probabilidad deseada es = 0.8333
12
Existen también algunas proposiciones (fórmulas) que junto con los axiomas permiten el
cálculo de probabilidades de ocurrencia de dos eventos A y B

Si dos eventos no son mutuamente excluyentes

P ( A U B ) = P ( A) + P ( B ) − P ( A I B )
lo que se interpreta como la probabilidad de ocurrencia de A o B, es igual a la suma de
probabilidades de A con B menos la probabilidad de ocurrencia de A y B.

Si dos o más eventos son mutuamente excluyentes, entonces:

P ( A U B U C ) = P ( A) + P ( B ) + P (C )

que se interpreta como la probabilidad de ocurrencia de A o B o C, es igual a la suma de


probabilidades de A con B con C.

La probabilidad de ocurrencia de un evento A o de un evento B.

Frecuentemente el interés se centra en calcular la probabilidad de ocurrencia de uno u otro


evento. Si los dos eventos son mutuamente excluyentes, la probabilidad se calcula como la
suma de las probabilidades simples, pero cuando los eventos no son mutuamente
excluyentes, el procedimiento anterior tiene que modificarse. Por ejemplo, al seleccionar un
alumno, ¿cuál es la probabilidad de que sea mujer (F) o no haya aprobado (NA)?

Si pensamos que los eventos son mutuamente excluyentes, entonces


23 22 45
P ( F o NA) = P ( F U NA) = P ( F ) + P ( NA) = + = = 1.3235 , resultado incorrecto porque la
34 34 34
probabilidad encontrada es mayor a 1. Como se mencionó anteriormente, el error proviene
de no considerar que los eventos no son mutuamente excluyentes, es decir, de no tomar en
consideración la ocurrencia simultánea de los eventos (F y NA). ¿Cómo eliminar este
error?

Una manera consiste en considerar que en la ocurrencia de estos dos eventos, digamos A y
B, nos interesa en realidad la ocurrencia de tres eventos:

a) que ocurra el evento A


b) que ocurra el evento B
c) que ocurran ambos eventos A y B.

De acuerdo con esto, las probabilidades de interés para la ocurrencia del evento F o el
evento NA, son:

10
a) P( FyA) = , nos interesa porque ocurre el evento F (aunque no ocurra el evento A).
34

47
9
b) P ( NA y M ) = P ( NA I M ) = , nos interesa porque ocurre el evento NA (aunque no ocurra
34
el evento M).
13
c) P ( F y NA) = P ( F I NA) = , nos interesa porque ocurren ambos eventos F y NA.
34

10 9 13 32
Así, P ( F o NA) = P ( F U NA) = P ( A I F ) + P ( NA I M ) + P ( F I NA) = + + = = 0.9411
34 34 34 34
que es equivalente a:
23 22 13 32
P ( F o NA) = P ( F U NA) = P ( F ) + P ( NA) − P ( F I NA) =
+ − = = 0.9411
34 34 34 34
Los procedimientos anteriores también se pueden utilizar cuando se conocen las
probabilidades simples y las probabilidades conjuntas para dos eventos (A y B). Para
ilustrarlo consideremos la siguiente situación:

Una compañía desea probar un producto en una zona comercial seleccionada


aleatoriamente. Las áreas de ubicación de los mercados pueden ser clasificadas con base en
su ubicación y densidad de población, para ello se definen los siguientes eventos (referidos
al número de mercados en cada categoría) y sus probabilidades asociadas:

Ubicación Este (E), P(E) = 0.6

Ubicación Oeste (O), P(O) = 0.4

Densidad de población urbana (U), P(U) = 0.36

Densidad de población rural (R), P(R) = 0.64

Ubicación Este y densidad urbana (E y U), P(E y U) = 0.2

Información que es conveniente organizar en una tabla de contingencia

Densidad de Densidad de Total


Población Rural (R) Población Urbana (U)
Ubicación Oeste (O) 0.24 0.16 0.4
Ubicación Este (E) 0.4 0.2 0.6
Total 0.64 0.36 1

Con este arreglo podemos contestar las siguientes preguntas:

a) Si se selecciona un mercado al azar, la probabilidad de que tenga ubicación este o se


encuentre en área de población urbana, es:

P ( E oU ) = P ( E U U ) = P ( E y R ) + P (O yU ) + P ( E yU ) = 0.4 + 0.16 + 0.2 = 0.76


que es equivalente a:

P ( E oU ) = P ( E U U ) = P ( E ) + P ( U ) − P ( E I U ) = 0.6 + 0.36 − 0.2 = 0.76

48
b) Si se selecciona un mercado al azar, la probabilidad de que tenga ubicación oeste dado
que(si se sabe que) es del área rural, es:

P(O I R) 0.24
P(O dado R) = P(O / R ) = = = 0.375
P( R ) 0.64

Para calcular la probabilidad de dos eventos correlacionados o dependientes, se tiene:

Si La probabilidad de ocurrencia del evento B afecta la probabilidad de ocurrencia del


evento A, se denota como Probabilidad Condicional, se simboliza como P(A/B) y se
calcula con:

P( A I B)
P( A / B ) = , con P ( B ) ≠ 0
P( B)

Regla de la multiplicación para dos eventos correlacionados o dependientes.

Si en la expresión anterior se despeja P ( A I B ) , se obtiene

P ( A I B ) = P ( A / B ) ⋅ P ( B ) , que es la expresión para calcular la probabilidad de ocurrencia


simultánea de dos eventos que no son independientes.

Procedimiento estadístico para determinar si dos eventos A y B son independientes.

Si en la regla de la multiplicación para dos eventos correlacionados o dependientes ocurre


que P ( A / B ) = P ( A) , entonces resulta que los eventos A y B son independientes, es decir, la
ocurrencia del evento B no altera de ninguna manera la ocurrencia del evento A. Esta
situación implica que la regla de la multiplicación se modifica a: P ( A I B ) = P ( A) ⋅ P ( B )

De manera general, dos eventos A y B son independientes si y solo si se cumple cualquiera


de las siguientes igualdades:
P( A / B ) = P ( A)
P( A / B ) P( B) = P( A) P( B)

Ejemplo. Si se tiene la siguiente tabla de contingencia para los eventos A, A c , B, B c


Los eventos A c , B c se llaman eventos complementarios y sus probabilidades se calculan
como: P( A c ) = 1 − P ( A) y P( B c ) = 1 − P ( B )

B B c Total
A 75 225 300
A c 50 150 200
Total 125 375 500

Para determinar si los eventos A y B son o no independientes (están o no correlacionados),


utilizaremos las expresiones anteriores para observar si se cumplen o no se cumplen:

49
75
P( A / B ) = = 0.6
125
300
P( A) = = 0.6
500

Como P ( A / B ) = P ( A) , se concluye que los eventos A y B son independientes (no están


correlacionados).

P( A I B ) = P( A) ⋅ P( B)
75 300 125
= ×
500 500 500
0.15 = 0.15

Como la igualdad se verifica, se concluye que los eventos A y B son independientes.

Procedimiento para determinar si dos eventos son mutuamente excluyentes

P( A I B)
Dos eventos A y B son mutuamente excluyentes si P( A / B ) = =0
P( B)
Por ejemplo los eventos A y B anteriores no son mutuamente excluyentes porque
P ( A / B ) = 0.6 ≠ 0 pero son independientes, porque P ( A / B ) = P ( A) = 0.6
Finalmente, señalamos que cuando se calcula la probabilidad conjunta de dos eventos, por
método, se debe de pensar que ambos están correlacionados o que no son independientes,
es decir, no se debe de partir del hecho de que no están correlacionados, a menos que se
diga de manera clara que son independientes.

Ejercicios

1. Determina el espacio muestral para cada uno de los siguientes


experimentos.

a) El lanzamiento de una moneda cargada cuya probabilidad de que


caiga sol es el doble de que caiga águila,

b) La suma de los puntos de las caras superiores de un “dado de 12


caras”

c) La extracción al azar de un gis de una caja donde se encuentran 8


gises blancos, 6 rojos, 4 amarillos y 12 azules.

2. A continuación se presentan los resultados de una investigación sobre los tipos de


sangre en una encuesta a 300 personas. Los datos se organizan en una matriz o tabla
de contingencia.

50
O A B AB Totales
Rh(+) 114 96 27 8 245
Rh(-) 23 22 7 3 55
Totales 137 118 34 11 300

Si se elige al azar una de esas persona ¿cuál es la probabilidad de qué

a) Tenga sangre tipo A o tipo B?


b) Tenga sangre tipo A o tipo B o tipo AB?
c) Tenga Rh(+) o sea del tipo A?
d) Tenga Rh(-) y sea del tipo AB?
e) Tenga sangre tipo O dado que su Rh es positivo?
f) Son independientes los eventos Rh(+) tipo O?

3. La probabilidad de que una enfermera encuentre a uno de sus pacientes en casa es


0.8. Suponiendo que hay independencia de eventos, ¿cuál es la probabilidad de que
en dos visitas que hace al día la enfermera, encuentre a sus pacientes en casa?.

4. El consejero escolar de un colegio estimó las probabilidades de éxito en la universidad


para tres alumnos X. Y y Z, de último año en 0.9, 0.8 y 0.6 respectivamente, ¿cuál es
la probabilidad de que los tres tengan éxito en la universidad? Suponga independencia
de eventos.

3
5. Si la probabilidad de que un estudiante apruebe Estadística es y de que apruebe
5
2
Biología es , determina la probabilidad de que apruebe al menos una de las dos
3
materias

6. Se ha recibido un cargamento de toronjas con las siguientes características: 10% son


rosadas sin semilla, 20% son blancas sin semilla, 30% son rosadas con semilla y 40%
son blancas con semilla. Si se selecciona aleatoriamente una toronja del cargamento,
determina la probabilidad de que:

a) sea sin semilla


b) sea blanca
c) sea rosada o sin semilla
d) sea rosada dado que es sin semilla
e) sea sin semilla dado que es rosada.

7. Si en uno de los libreros de la biblioteca de una escuela se encuentran 8 libros


mutilados y 9 en buen estado, determina la probabilidad de que si un usuario elige al
azar:

a) un libro, esté mutilado


b) uno esté en buen estado.
c) tres libros, los tres estén en buenas condiciones.
d) cuatro libros, la mitad estén en buen estado.

51
e) cinco libros, 3 estén en buen estado y 2 mutilados.

8 Una refaccionaria vende refacciones nuevas y usadas. El 60% de las refacciones en


existencia son usadas, y al mismo tiempo el 61% de ellas son usadas o defectuosas,
si el 5% de las piezas son defectuosas, ¿qué porcentaje de esas refacciones son
usadas y defectuosas?

9. Una persona tiene una entrevista relacionada con un empleo ofrecido por una
compañía, la probabilidad de que adquiera el trabajo después de la entrevista es de
0.68 La probabilidad de que la compañía tenga interés en esta persona es de 0.36. La
probabilidad de que adquiera el trabajo dado que la compañía tenga interés, es de
0.88

a) Encuentra la probabilidad de que la persona adquiera el trabajo y la compañía


tenga interés.
b) Determina la probabilidad de que la compañía tenga interés dado que adquirió el
trabajo.
c) ¿Son independientes los eventos “la persona adquiera el trabajo” y “la compañía
tenga interés”?

10. En una ciudad hay una alta incidencia de cirrosis entre la población. Se sospecha
que se debe al alto índice de consumo de alcohol. Se hacen estudios estadísticos
que asocian “presencia de la enfermedad” con “consumo de alcohol”. Se encuentra
que el 40% de la población consume alcohol, el 20% padece la enfermedad y el 5%
consume alcohol y padece la enfermedad. ¿Se verifica la creencia?

Respuestas a los ejercicios..

Página 6. G,A,F,E,D,B,H

Página 8. 1. Aleatoria, cualitativa, discreta


2. Aleatoria, cuantitativa, discreta.
3. Aleatoria, cuantitativa, discreta.
4. Determinística, Cuantitativa, continua.
5. Aleatoria, cuantitativa, discreta.
6. Aleatoria, cualitativa, discreta.
7. Aleatoria, cualitativa, discreta.
8. Determinística, cualitativa, discreta.
9. Determinística, cuantitativa, discreta.
10. Aleatoria, cuantitativa, continua.

52
Página 11

Intervalo Frecuencia Marca de Límites reales Frecuencia Frecuencia


clase de clase relativa acumulada

29 - 37 5 33 28.5 – 37.5 0.083 5


38 - 46 10 42 37.5 – 46.5 0.166 15
47 - 55 15 51 46.5 – 55.5 0.25 30
56 - 64 18 60 55.5 – 64.5 0.3 48
65 – 73 12 69 64.5 – 73.5 0.2 60

Páginas 22 a 25.
x = 5.6 x = 2.5
1. Me = 3 2. Me = 2.5 4. x = 9
Mo = No tiene Mo = No tiene
x = 7.5
7. Me = 7.5 8. b) 9. a) 10. x = 5
Mo = No tiene

11. a) Categórica, nominal o cualitativa


b) con Toshiba

12. a) [ 22, 28) 13. 8.8, 9, 9.2, 9.5 y 9.8 14. a) S


b) Mediana b) S
c) S

x = $8363.63 x = $8.175 x = 150.516 cm


15. Me = $ 7000.00 16. Me = $8.166 17. Me = 150.5 cm
Mo = $ 4166.67 y $13000.00 Mo = $8.361 Mo = 150.4285 cm

18. $ 45.00 por Kg. 19. 63 Kg. 20. 9.5 Kg.

21. 8 reactivos. 22. Incorrecto, el correcto es 3.8928 cm.

Páginas 29 a 30
1. En la Ciudad de Washington ya que tiene s = 2.449°
2. Si los datos son iguales, no hay variación.
3. a) La mejor variedad es la A porque su x = 3.88 , es la más alta.
b) La variedad más consistente es B porque su s = 0.557 es menor.
4. a) A b) A c) B
5. Al fabricante I porque su s = 0.0027
6. s = 7.165 puntos

53
7. s 2 = $ 7.2943 y s = $ 2.7008

Página 301 a 32
1. Hay más variabilidad en invierno porque su C.V . = 0.217

2. b) 3. a)

Página 40 a 41.
1. b) La tabla muestra la estatura de un bebé al nacer, X (cm), y el período de embarazo,
Y (días promedio).

X Y XY X2 Y2
48 277.1 13300.8 2304 76784.41
49 279.3 13685.7 2401 78008.49
50 281.4 14070.0 2500 79185.96
51 283.2 14443.2 2601 80202.24
52 284.8 14809.6 2704 81111.04
250 1405.8 70309.3 12510 395292.14

c) El coeficiente de correlación de Pearson es r = 0.9978


d) Con m = 1.93 y b = 184.66
La recta tiene como ecuación Y = 1.93X + 184.66
f) Si Y = 280 es el número de días de embarazo X = 49.398 cm. es la estatura del bebé
g) Si X = 50.4 cm. es la estura del bebé Y = 281.93 es el promedio de días de embarazo.

2. b) Tabla de Regresión del contenido de hierro Y de un mineral de hierro con densidad X.

X Y XY X2 Y2
2.8 27 75.6 7.84 729
3.0 30 90.0 9.00 900
3.2 30 96.0 10.24 900
3.2 34 108.8 10.24 1156
3.4 36 122.4 11.56 1296
15.6 157 492.8 48.88 4981

c) Coeficiente de correlación es r = 0.91


d) Con m = 14.23 y b = – 13
La ecuación de la recta de regresión es Y = 14.23X – 13
f) Si X = 2.9 es la densidad Y = 28.267 es el contenido de hierro.
g) Si Y = 31 es el contenido de hierro X = 3.092 es la densidad.

54
Páginas 50 a 52
1. a) S = {águila, sol} b) S = {2,3, 4,5, 6, 7,...24} c) S = { gis blanco, gis rojo, gis amarillo, gis azul}

118 34 152
a) P ( A U B ) = + = = 0.5066
2. 300 300 300
118 34 11 163
b) P( A U B U AB ) = + + = = 0.5433
300 300 300 300
245 118 96 267
c) P( Rh(+) U A) = + − = = 0.89
300 300 300 300
3
d) P( Rh(−) I AB ) = = 0.01
300
114
114
e) P(O / Rh(+)) = 300 = = 0.4653
245 245
300
f) No son independientes.

3. P ( Encontrar I Encontrar ) = 0.8 × 0.8 = 0.64

4. P(XyYyZ)=0.432

5. P=0.8666

6. a) P ( Sin semilla ) = 0.3


b) P ( Blanca ) = 0.6
… c) P ( Rosada o sin semilla ) = 0.6
d) P ( Rosada / Sin semilla ) = 0.333
e) P ( Sin semilla / Rosada ) = 0.25

7. a) P=0.4705
9
b) P =
17
21
c) P =
170
36
d) P =
85
1179
e) P =
3094

8. El 4%

9. a) P = 0.3168
b) P = 0.4658
c) No son independientes.

55
10. Se verifica la creencia.

BIBLIOGRAFIA RECOMENDADA PARA CONSULTA Y APOYO

DANIEL, W. D. (1981) Estadística con aplicaciones a las Ciencias Sociales y a la Educación.


Mc Graw -Hill. México.

JOHNSON, R. (1990) Estadística Elemental. Grupo Editorial Iberoamericano. México.

SPIEGEL. Estadística. Mc. Graw-Hill. México.

STEVENSON, Williams J. Estadística para Adminitración y Economía. Harla. México.

WILLOUGHBY, Stephen S. Probabilidad y Estadística. Publicaciones Cultural. México.

56

También podría gustarte