Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadist1 PDF
Estadist1 PDF
ESCUELA NACIONAL
COLEGIO DE CIENCIAS Y HUMANIDADES
PLANTEL SUR
ACADEMIA DE MATEMÁTICAS
ELABORARON
NOVIEMBRE DE 2005
REVISION
MTRA. MA. DEL ROSARIO JIMENEZ HERNANDEZ
MTRO. JUAN DE DIOS HERNANDEZ GARZA
MARZO DE 2010
CONSIDERACIONES IMPORTANTES
Los exámenes extraordinarios son oportunidades que debes aprovechar para aprobar las
asignaturas que, por diversas razones, reprobaste en el curso normal, pero, presentarse a
un examen sin la preparación suficiente significa un fracaso seguro, es una pérdida de
tiempo y un acto irresponsable que puedes evitar.
2
LOS CONTENIDOS DEL CURSO Y DE LA GUÍA SON:
UNIDAD CONTENIDO
Introducción
1 Estadística Descriptiva
2 Datos Bivariados
3 Probabilidad
INDICE
Página
INTRODUCCION
Visión inicial y utilidad de la Estadística. 4
Errores en el uso de la Estadística. 4
Conceptos básicos. 5
UNIDAD 3. PROBABILIDAD.
Fenómenos determinísticos y aleatorios 42
Definiciones de Probabilidad 43
Conceptos básicos 43
Probabilidad de eventos simples 45
Probabilidad de eventos compuestos 46
3
INTRODUCCION
Propósito.
Al finalizar esta introducción debes haberte apropiado de una visión inicial de la Estadística y
de la Probabilidad a partir de los conceptos básicos y el planteamiento de ejemplos para
apreciar los alcances de esta asignatura.
Visión inicial
Se presenta una visión inicial de la Estadística y de la Probabilidad, que permite apreciar los
alcances de la materia.
La Estadística es una ciencia que utiliza técnicas y conceptos para elaborar principios y
métodos para construir modelos teóricos que permitan describir, analizar e interpretar los
procesos estudiados y en consecuencia tomar decisiones frente a la incertidumbre.
En medicina:
¿Cómo prueba un médico la eficiencia de un nuevo fármaco?
En la industria.
¿Cómo se determina la calidad de producción de un artículo específico?
En sociología:
¿De qué modo pronosticar el tamaño de la población mundial para el año 2025?
¿Cómo inferir el tipo de alimentación que nutrirá a la humanidad para ese mismo año?
En agricultura:
¿Qué tipos y en qué dosis los fertilizantes insecticidas aumentan las cosechas?
En medicina social:
¿Aumenta realmente el tabaquismo las probabilidades del surgimiento del cáncer
pulmonar?
- Estadística Descriptiva que tiene como objetivo organizar la información disponible para
describir el comportamiento de un suceso.
- Estadística Inferencial que tiene como objetivo interpretar la información para sacar
conclusiones acerca de un conjunto grande de personas u objetos, por medio de la
información obtenida de sólo una pequeña parte o muestra del conjunto total.
- Se piensa que los resultados resumidos en la estadística descriptiva son “la pura
verdad” y, por ende, hay que apegarse a ellos y que cualquier interpretación de los
mismos deforma los hechos.
- Se sostiene que las interpretaciones permitidas por los resultados de la estadística
descriptiva son múltiples y todas igualmente objetivas, pues se basan en los hechos
detectados.
4
Estas percepciones son erróneas.
Al medir las tasas de empleo, desempleo y subempleo, ¿con qué criterios definir a un
empleado, a un desempleado o a un subempleado? Un posible criterio es “que esté haciendo
algo (obrero, ejecutivo, estilista, etc.) para ganarse la vida”. Otro es “que tenga X tiempo
mínimo trabajando”, o, “que tenga o no un ingreso o sueldo regular”, etc.
Otro error muy frecuente es tomar una muestra de una población de manera espontánea, sin
un método de muestreo o utilizando criterios personales del investigador (como las muestras
no aleatorias).
Por ejemplo, al estudiar a los estudiantes de la UNAM se puede elegir como muestra al
conjunto de los compañeros del mismo salón, por ser los más accesibles al investigador y se
obtendrían conclusiones –sin base- sobre todo el estudiantado.
Conceptos básicos
Fenómeno.
Población
Muestra
Una muestra es cualquier subconjunto de la colección de individuos que constituye la
población. Estadísticamente una muestra es pequeña cuando tiene menos de 30 datos y
grande cuando tiene 30 o más datos.
Variable
Es cualquier característica de interés que tienen todos los individuos de la muestra o de la
población.
5
Algunos ejemplos de variables son:
--A un grupo de investigadores de un hospital le interesa conocer en qué proporciones o
porcentajes se distribuye el tipo de sangre de las personas que habitan en una ciudad. El tipo
de sangre es la variable y también lo puede ser la estatura y peso de los recién nacidos en el
hospital.
--La trabajadora social del Hospital “Gustavo Baz Prada”, del Estado de México, lleva a cabo
un estudio socioeconómico de los pacientes. En cada familiar del paciente entrevistada
reporta entre otras el nivel socioeconómico que puede ser alto (A), medio alto (MA), medio
(M), medio bajo (MB), o bajo (B). Investiga el número de hijos por familia, que puede ser
desde cero hasta cualquier número entero positivo que corresponda a la magnitud
observada. El nivel académico de los integrantes de la familia. El tipo de vivienda donde se
pregunta si es propia o paga renta, el tipo de piso si es de tierra de cemento u otro; el
número de cuartos con que cuenta y cuantos se utilizan para dormir. Todas estas
características son variables.
Se concluye que una característica de interés que tienen en común todos los elementos de
un conjunto de individuos de tal manera que al medirla se obtienen valores diferentes e
impredecibles se le llama variable.
6
UNIDAD 1. ESTADISTICA DESCRIPTIVA
Propósito.
Al finalizar esta unidad debes haber comprendido y aplicado técnicas para recopilar,
organizar y representar a un conjunto de datos proveniente del planteamiento, discusión y
resolución de problemas para interpretar y analizar el comportamiento de una variable en
dicho conjunto.
VARIABLES
Las variables constituyen los atributos o características de interés en una muestra o en una
población. Como estas características no se mantienen constantes de muestra a muestra o
de población a población, se les llama variables estadísticas o simplemente variables. Las
variables pueden ser numéricas (cuantitativas), o categóricas (cualitativas).
Se observa que los valores que asume cada variable son distintos, algunos números y otros
cierta cualidad.
Variable discreta.
Proviene de un proceso de conteo y se caracteriza por la propiedad de que para dos posibles
valores de ella solamente hay un número finito de posibles valores intermedios, es decir, sus
valores son numerables.
Variable continua.
Proviene de un proceso de medición y tiene la propiedad de que entre dos valores de ella,
cualquier valor intermedio es también un valor posible, es decir, sus valores no son
numerables.
Variable aleatoria,
Es aquella cuyo valor no se puede predecir.
7
Variable determinista,
Es aquella cuyo valor se puede predecir.
Ejemplos:
Ejercicios: Clasifica cada una de las siguientes variables y determina sus posibles valores o
algunos de ellos.
Escalas de medición.
Cuando las variables son numéricas, se utilizan, en su medición, las escalas de intervalo y de
razón. En la escala de intervalo se puede cambiar el origen y la unidad de medida, por
ejemplo en el tiempo (en minutos) que hacen los alumnos de su casa al plantel, el origen
puede ser de 15 minutos y la unidad de medida puede cambiar a “unidades de 10 minutos”.
Si el objetivo es conocer el número de hermanos, se usa la escala de razón (no se puede
cambiar la unidad de medida ni el origen).
Los valores de una variable continua se suelen agrupar en intervalos llamados intervalos de
clase. El punto medio entre los extremos de cada intervalo se llama marca de clase, punto
medio de clase o punto medio del intervalo. Siempre que se agrupe una variable por
intervalos se produce una pérdida de la información, pues lo que se tiene en cuenta es la
pertenencia o no de cada dato al intervalo y no su valor exacto.
La escala nominal se usa cuando se tienen variables categóricas (nominales) como por
ejemplo el tipo de música preferido o preferencia por algún refresco.
8
La escala ordinal se usa en situaciones donde los valores de la variable, comúnmente
categórica (ordinal), se pueden jerarquizar u ordenar, asignando valores como por ejemplo
Excelente, Bueno, Regular o Pésimo, pero no se pueden realizar operaciones aritméticas
entre estos valores.
Las variables son la herramienta fundamental de la Estadística porque dependiendo del tipo
de variable es el análisis que se realiza con cada una de ellas. Por ejemplo los datos de una
variable numérica se pueden analizar calculando las medidas de tendencia central (media
aritmética, mediana y moda) y las medidas de dispersión (varianza y desviación estándar). Si
la variable es categórica ordinal solo se le puede analizar calculando la mediana y la moda;
pero si la variable es nominal el único valor que se le puede calcular es la moda.
A continuación se presenta una tabla con las escalas de medición y sus características para
las diferentes variables:
9
RECOPILACION DE DATOS
Cuando se está tratando con una gran cantidad de datos es conveniente agruparlos en
intervalos, para lo cual es necesario considerarlos ordenados dentro de ese intervalo de
acuerdo a su frecuencia que corresponde al número de veces que los datos considerados se
repiten.
Además es necesario determinar algunos valores que servirán para analizar y representar al
conjunto de datos agrupados en intervalos, tales como:
10
- Marca de clase o punto medio del intervalo.. Es el valor representativo de cada intervalo y
corresponde al valor de la variable situado exactamente en el centro de cada uno de ellos.
- Frecuencia relativa. Es la medida proporcional de las frecuencia para cada intervalo y que se
obtiene dividiendo cada valor de frecuencia entre la suma total de ellas.
Ejemplo. Se tiene que el siguiente conjunto de datos corresponde a la edad (en años) de los
habitantes de una colonia de la delegación de Tlalpan, que asisten a la escuela (a partir de la
primaria).
71 47 66 67 73 38 63 67 29 54 62 70
63 37 68 50 59 60 45 48 52 49 48 56
70 62 61 65 62 45 62 56 63 39 36 43
49 50 39 41 57 49 73 47 38 61 48 31
55 57 72 53 42 70 56 58 39 60 53 36
11
Intervalo Frecuencia Marca de Límites reales Frecuencia Frecuencia
clase de clase relativa acumulada
Las gráficas (o gráficos) son muy utilizados en la prensa, en la televisión y en los libros para
presentar los datos de una forma más vistosa. Además, también se consigue que, de un solo
vistazo, podamos darnos cuenta de los detalles fundamentales.
En ocasiones, cuando se nos habla de una persona o lugar, que no conocemos, preferimos
que nos muestren una fotografía además de las características que nos puedan platicar. Así
pues, resulta conveniente, además de tabular un conjunto de datos, proveer una imagen
gráfica que sea explicativa por si sola. Cuando los datos son cualitativos resultan adecuadas
las gráficas de barras o circulares. Si los datos son cuantitativos, pueden ser adecuadas el
polígono de frecuencias o los histogramas de frecuencias. Un histograma de frecuencias es
la gráfica más común para representar datos cuantitativos. Esta gráfica muestra como es la
distribución en cuanto a la forma de los datos (simétrica, asimétrica, bimodal,
concentraciones o huecos en los datos, etc.). Cuando el histograma se basa en datos
provenientes de una muestra, la gráfica solamente describe el comportamiento de los datos
en la muestra, pero podría sugerirnos que la población tiene una forma similar, sin embargo
no se puede afirmar que la población tenga la misma forma (no se pueden hacer inferencias).
Por lo tanto, el histograma es una técnica solamente descriptiva.
Los gráficos pueden ser simples, si representan directamente las frecuencias absolutas o
las frecuencias relativas.
Los gráficos son acumulativos si representan los valores de las frecuencias acumuladas.
12
Existen diferentes maneras de representar gráficamente a un conjunto de datos, las cuales
presentan en forma visual el patrón de comportamiento de la variable de interés, dentro de
éstas, están las gráficas de barras y circulares o de pastel las cuales sirven para representar
a menudo datos cualitativos o de atributo.
Ejercicio. Construye la gráfica de barras para los siguientes datos que corresponden al
número de pacientes atendidos de diferentes enfermedades, en una clínica del ISSSTE
durante el mes de febrero pasado.
Tos 34
Gripa 112
Fractura 19
Diabetes 64
Males cardiacos 43
Alta presión 31
Dolores estomacales 74
Ejercicio. Construye la gráfica circular para los siguientes datos que corresponden al
número de pacientes atendidos de diferentes enfermedades, en una clínica del ISSSTE
durante el mes de febrero pasado.
13
Enfermedad No. de pacientes
Tos 34
Gripa 112
Fractura 19
Diabetes 64
Males cardiacos 43
Alta presión 31
Dolores estomacales 74
Para considerarlo completo es necesario que tenga un título que identifica a la variable de
interés.
14
Ejercicio. Construye el polígono de frecuencias de los datos que corresponden a las
edades los habitantes de Tlalpan.
La ojiva puede ser creciente o “menos que” o decreciente o “o más”, pero generalmente a
menos que se indique lo contrario, cuando se solicita construir una ojiva, será la “menor que”
solo de la cual nos ocuparemos en esta guía y que se inicia con una frecuencia acumulada
igual a cero que corresponde al límite real inferior del primer intervalo y consecuentemente
al límite real superior de un intervalo precedente con frecuencia 0.
Ejercicio. Construye la ojiva de los datos que corresponden a las edades los habitantes de
Tlalpan.
15
DESCRIPCION NUMÉRICA DE LOS DATOS
En una población, los parámetros más importantes son los que ubican el centro de la
distribución y los que describen la dispersión de los datos. A estos se les llama
respectivamente, Medidas de Tendencia Central y Medidas de Dispersión o Variabilidad, por
tal motivo resulta necesario, en primera instancia, calcular estos tipos de medidas a los datos
de la muestra y, en segundo lugar, cuando se pretende hacer inferencias sobre los
parámetros de la población, estas medidas muestrales serán los estimadores para tal efecto.
Las medidas de centralización o de tendencia central más comunes son: la media aritmética
(o simplemente media), la mediana y la moda. Estas medidas sirven para localizar el centro
de una distribución de datos, es decir, ubican el valor alrededor del cual se encuentra un
conjunto de datos. Aunque tienen un mismo propósito, estas medidas, de manera general,
tendrán un valor diferente (sólo en algunos casos muy particulares, se da que la media, la
mediana, y la moda sean iguales, o que dos de ellas coincidan).
Si los datos que se tienen fueran de una población, la medidas de centralización se calculan
de la misma manera que en la muestra, solamente es necesario tener presente si se habla
de un parámetro o de un estimador, según sea el caso.
Propiedades numéricas.
2. La media puede no coincidir con ninguno de los valores de los datos. Es decir, puede
ser un número que no tenga sentido en el contexto propuesto, por ejemplo, si el
número de hermanos para 5 personas es 1, 4, 3, 0 y 5, el promedio es 2.6 hermanos.
4. La media se ve afectada por cualquier cambio extremo en los valores de los datos. Si
en el ejemplo anterior existiera una persona con 13 hermanos (en vez de 5), este valor
extremo modifica la media de 2.6 a 4.2 hermanos.
16
Propiedades algebraicas
.
1. La media conserva el cambio de origen y escala: si el promedio de calificación de un
alumno, es por ejemplo, 8.75 en la escala de 1 a 10, en la escala de 1 a 100, el
promedio es 87.5
2. La media de la suma de dos o más variables es la suma de las medias (en el caso de
la mediana y la moda, esta propiedad no se cumple).
3. La media no está definida para datos ordinales o nominales (la media no tiene sentido
si la variable es categórica o cualitativa).
Propiedades estadísticas.
Por ejemplo si se define la variable X: número de personas atendidas durante 30 días en una
oficina:
No. de 10 15 20 25 30
personas
No. de días 5 7 8 6 4
17
8
N 7
O
. 6
5
D
E 4 Series 1
3
D
I 2
A 1
S
0
10 15 20 25 30
NO. DE PERSONAS
La media y la mediana son casi iguales y cualquiera de ellas describe adecuadamente a los
datos.
9
N 8
O
7
.
6
D 5
E Series 1
4
D 3
I 2
A
1
S
0
10 15 20 25 30
NO. DE PERSONAS
La media es el único promedio que utiliza todos los datos. Esto es una desventaja si
existen valores que son muy distintos de la mayoría de ellos. En tales casos resulta
conveniente calcular la mediana. En situaciones apremiantes la moda puede dar una
idea aproximada del valor central de una serie de datos.
18
Actividades de exploración
b) Si se tuviera que repartir de manera equitativa, este peso entre 5 personas, ¿cuánto
les corresponde a cada una?
c) ¿Qué peso podemos esperar que tenga una bolsa cualquiera de pasta alimenticia
de esta marca?
Se dice que los datos no agrupados son aquellos que por ser generalmente pocos no es
necesario agruparlos en intervalos de clase y que se analizan utilizando los valores brutos,
es decir los valores que se obtienen directamente de la recolección.
Para que tengas un mejor entendimiento del cálculo de las medidas de centralización para
datos no agrupados, utilizaremos el siguiente:
Ejemplo: Se sabe que la estatura de 10 alumnos de quinto semestre del CCH son
respectivamente 1.53m, 1.64m, 1.76m, 1.52m, 1.70m, 1.58m, 1.78m, 1.58m, 1.57m y 1.69m
∑x i
x= i =1
n
Así, para el ejemplo:
1.53 + 1.64 + 1.76 + 1.52 + 1.70 + 1.58 + 1.78 + 1.58 + 1.57 + 1.69 16.35
x= = = 1.635 m
10 10
La mediana es el valor central del conjunto ordenado de datos, se obtiene ordenando los
datos generalmente en forma ascendente o puede ser en forma descendente, luego:
19
Así, para el ejemplo:
2) Como el número de datos es par (10 datos), la mediana es el promedio de los valores
avo avo
10 10
que se encuentran en el = 5to y + 1 = 6to lugares, es decir.
2 2
1.58 + 1.64
Me = = 1.61 m
2
La moda es el valor o valores de la variable que más veces se repiten, por lo que podemos
considerar:
a) puede existir una moda (unimodal)
b) puede existir más de una moda (polimodal)
c) puede no existir moda
Así, para el ejemplo de las estaturas de los 10 alumnos:
Existe un valor que se repite dos veces, este valor es el que corresponde a la moda, o sea:
Mo = 1.58 m
Se dice que los datos agrupados son aquellos que se agrupan en intervalos de clase y que
se analizan considerando a la marca de clase como el valor que corresponde a todos los
datos del intervalo, es decir, el análisis ya no se realiza con los datos brutos.
Para que tengas un mejor entendimiento del cálculo de las medidas de centralización para
datos agrupados, utilizaremos el siguiente:
Ejemplo. Se tiene que el siguiente conjunto de datos corresponde a la edad (en años) de los
habitantes de una colonia de la delegación de Tlalpan, que asisten a la escuela (a partir de la
primaria).
Edad Número de
(años) habitantes
fi
7 a 10 5
11 a 14 11
15 a 18 23
19 a 22 31
23 a 26 16
27 a 30 10
31 a 34 ___4___
n = ∑ fi = 100
20
Inicialmente, se obtienen las columnas correspondientes a las marcas de clase ( xi ), límites
reales de clase ( LRI y LRS ), frecuencias acumuladas ( fa ) y las necesarias ( f i xi ) para el
cálculo de la media aritmética.
xi LRI LRS fa f i xi
8.5 6.5 10.5 5 42.5
12.5 10.5 14.5 16 137.5
16.5 14.5 18.5 39 379.5
20.5 18.5 22.5 70 635.5
24.5 22.5 26.5 86 392.0
28.5 26.5 30.5 96 285.0
32.5 30.5 34.5 100 _130.0_
∑ fi xi = 2002
n
∑fx i 1
La media aritmética se obtiene con x = i =1
n
Donde: f i es la frecuencia i-ésima.
xi es la marca de clase i-ésima.
n es el número total de datos.
2002
Se tiene que: x = = 20.02 años
100
n
− fa
La mediana se obtiene con Me = LI + 2 ×c
fi
Donde: LI es el límite real inferior de la clase mediana.
n es el número total de datos.
fa es la frecuencia acumulada anterior a la de la clase mediana.
fi es la frecuencia absoluta de la clase mediana.
c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )
avo
n
La clase mediana es el intervalo de clase donde se encuentra el dato, siendo en este
2
avo
100
= 50 dato, es decir, el cuarto intervalo,
avo
caso el intervalo de clase donde está el
2
donde c = 22.5 − 18.5 = 4 años , así la mediana es:
100
− 39
Me = 18.5 + 2 × 4 = 18.5 + 1.4193 = 19.9193 años
31
∆1
La moda se obtiene con Mo = LI + ×c
∆1 + ∆ 2
21
Donde: LI es el límite real inferior de la clase modal.
∆1 es la diferencia de frecuencias de la clase modal y la anterior.
∆ 2 es la diferencia de frecuencias de la clase modal y la siguiente.
c es el tamaño o amplitud de la clase modal. c = LRS − LRI
La clase modal es el (los) intervalo(s) de clase de mayor frecuencia, siendo en este caso el
cuarto intervalo, de donde se obtiene que ∆1 = 31 − 23 = 8 y ∆ 2 = 31 − 16 = 15 y como
c = 22.5 − 18.5 = 4 años , así la moda es:
8
Mo = 18.5 + × 4 = 18.5 + 1.3913 = 19.8913 años
8 + 15
Si los datos que se tienen fueran de una población, la medidas de centralización se calculan
de la misma manera que en la muestra, solamente es necesario tener presente si se habla
de un parámetro o de un estimador, según sea el caso.
Ejercicios
5. Si se tienen n datos x1, x2,,,,,xn muy cercanos entre si, y se calcula su media,¿qué
ocurre cuando se agrega un dato (o datos) xn+1, xn+2 que están muy alejados de los
anteriores y se calcula nuevamente la media?
6. En una familia se calcula el peso promedio de los niños que asisten a la escuela
primaria y se obtiene x = 30 kg. Si se incluye el peso de los padres, ¿qué ocurre si se
calcula nuevamente el promedio?
(15 + 15) + 16 + 17 + 18 15 + 15 + 16 + 17 + 18
a) b)
4 5
22
9. En una fábrica trabajan 15 obreros, 8 especializados y 7 no especializados; el salario
medio mensual de los especialistas es de $4000 y el salario promedio por mes de
los no especialistas es de $3500. Para encontrar la media mensual de los salarios de
los 15 obreros, se proponen a continuación dos procedimientos, ¿cuál es el correcto?
Valores de X 1 x 5 7
Frecuencia (f) 2 5 3 4
11. Una tienda de autoservicio vendió el mes pasado 4 marcas de T.V, como se muestra
en la siguiente tabla
Televisores vendidos 7 10 5 3
12. Los datos siguientes corresponden a la altura (en cms) de 40 plantas de una
especie común
.
Altura Número de plantas
(cm)
[10,16) 7
[16,22) 8
[22,28) 12
[28,34 ) 7
[34,40] 6
13. En una maestría solamente pueden ingresar aspirantes que obtengan calificaciones
superiores a la mediana en el examen de conocimientos. Este año se presentaron 12
23
aspirantes que obtuvieron los siguientes puntajes: 7.5, 9.5, 7.5, 9.7, 7.8, 9.2, 8,
9.2, 8.1, 9, 8.2, 8.8, ¿cuáles son los puntajes de los aspirantes aceptados?
15. Un sindicato y una empresa sostienen un debate respecto a los salarios de los
trabajadores. El sindicato reporta que los obreros reciben en promedio $ 4000 por
mes. El gerente dice que el pago promedio es de $ 8364 mensuales. Un inspector
de impuestos afirma que es de $ 7000 por mes. ¿Quién tiene la razón?
$ 3000 a $ 5000 5
$ 6000 a $ 8000 1
$ 9000 a $ 11000 0
$ 12000 a $ 14000 5
16. Para los siguientes datos que corresponden al gasto en pasajes por semana de una
muestra de alumnos de la escuela, calcula las medidas de centralización.
Gasto Número de
(Pesos) alumnos
2.50 a 4.00 7
4.50 a 6.00 10
6.50 a 8.00 24
8.50 a 10.00 25
10.50 a 12.00 8
12.50 a 14.00 4
14.50 a 16.00 2
17. Para los siguientes datos que corresponden a la estatura en centímetros de un grupo
24
de alumnos de secundaria de la delegación Coyoacán, calcula las medidas de
centralización.
Estatura Número de
(centímetros) alumnos
142 - 144 5
144 - 146 9
146 - 148 14
148 - 150 25
150 - 152 28
152 - 154 17
154 - 156 12
156 - 158 10
18. Un comerciante mezcla 12 kgs. de cacahuates que valen $ 20.00 el kg, con 8 kgs. de
nueces que valen $ 80.00 el kg. ¿A qué precio debe dar el kg. de la mezcla, para ganar
$5.00 por kg?
19. Hay 10 personas en un ascensor, 4 mujeres, 4 hombres y 2 niños. El peso medio de las
mujeres es de 60 kgs, el peso medio de los hombres es de 80 kgs. y el peso medio de
los niños es de 35 kgs, ¿cuál es el peso medio de las 10 personas en el ascensor?
20. Cada estudiante de un grupo de 20 estudiantes pesa 86 kgs. en promedio. Se sabe que
9 personas del grupo pesan en promedio 75 kgs. cada una. Del grupo de los 11
estudiantes restantes, ¿cuánto pesa en promedio cada uno?
21. De los 200 alumnos que presentaron un examen de 12 reactivos, el 10% responde
correctamente a 3 reactivos, el 50% a 7 reactivos, el 30% responde correctamente a 10
reactivos y el resto al total de reactivos del examen. Organiza los datos en una tabla de
distribución de frecuencias y calcula el número promedio de reactivos resueltos
correctamente.
22. La tabla siguiente corresponde a una muestra de los diámetros (en centímetros) del tallo
de 28 plantas de una especie común:
Diámetro(cm) 1 2 3 4 5 6 7
No. de plantas 1 4 6 8 5 3 1
¿Es correcto el siguiente procedimiento para calcular la media del diámetro de los
tallos?
1 + 2 + 3 + 4 + 5 + 6 + 7 28
x= = = 1 cm.
1 + 4 + 6 + 8 + 5 + +3 + 1 28
Si el procedimiento no es correcto, ¿cuál es el valor correcto de la media?
25
MEDIDAS DE DISPERSIÓN O VARIABILIDAD
Por ejemplo Roberto y Esperanza forman una pareja con una estatura media de 1.70 m y
Ana y Luis también son pareja con una estatura promedio de 1.70 m. Si solamente
conocemos esta medida de centralización, nos inclinaríamos a pensar que los 4 tienen una
estatura muy parecida. Sin embargo si aparte del promedio nos dicen que la desviación
media de Roberto y Esperanza es de 0.01 m y que la desviación media de Ana y Luis es de
0.25 m, entonces llegaríamos a la conclusión de que Ana y Luis forman una pareja muy
“dispareja”.
Las medidas de dispersión indican, en promedio, cuánto se alejan los datos de la media
aritmética. Si los datos se alejan poco de la media entonces su dispersión es menor que si
alejan mucho de la media. Las medidas de dispersión más comúnmente utilizadas son el
rango, la varianza y la desviación estándar o típica y el coeficiente de variación que mide la
dispersión relativa.
La varianza muestral se define como la suma de los cuadrados de las diferencias de los
datos con respecto a la media, dividida entre el total de datos menos uno. Esta medida tiene
el inconveniente de que transforma las unidades de medición en cuadrados, por lo que no se
puede comparar con la media aritmética. Por esta razón se define la desviación estándar
como la raíz cuadrada de la varianza.
El rango es la mas simple de las medidas de dispersión y se define como la diferencia entre
la medida mayor y la menor, pero no informa cuántos valores abarcan los datos.
El rango es muy utilizado en procesos industriales. En mucho, su utilidad en este campo se
debe a lo sencillo y rápido que es calcularlo. El rango provee información útil cuando la
muestra es pequeña, pero cuando la muestra es grande, no resulta una medida adecuada.
Para que tengas un mejor entendimiento del cálculo de las medidas de dispersión para datos
agrupados, utilizaremos el siguiente:
26
Ejemplo 1. Determinar las medidas de dispersión para el siguiente conjunto de datos que
corresponden a la edad (en años) de la población de habitantes, que asisten a la escuela, de
una colonia de la delegación de Tlalpan.
Edad Número de
(años) habitantes
fi xi f i xi
7 a 10 5 8.5 42.5
11 a 14 11 12.5 137.5
15 a 18 23 16.5 379.5
19 a 22 31 20.5 635.5
23 a 26 16 24.5 392.0
27 a 30 10 28.5 285.0
31 a 34 ___4___ 32.5 _130.0
n = ∑ fi = 100 ∑ fi xi = 2002
2002
A partir de estos cálculos, se tiene que: µ= = 20.02
100
∑ f (x − µ)
i i
2
σ2 = i =1
Donde:
. N
f i es la frecuencia i-ésima, xi es la marca de clase i-ésima y n es el número total de datos
(en este caso debe considerarse n=N=100) .
xi − µ ( xi − µ ) 2 f i ( xi − µ ) 2
–11.52 132.7104 663.552
– 7.52 56.5504 622.0544
– 3.52 12.3904 284.9792
0.48 0.2304 7.1424
4.48 20.0704 321.1264
8.48 71.9104 719.104
12.48 155.7504 __623.0016__
∑ fi ( xi − µ )2 = 3240.96
Con estos datos se tiene que:
3240.96
σ2 = = 32.4096
100
Por lo tanto, la desviación típica o estándar, es: σ = 32.4096 = 5.692943 años
También se puede calcular la varianza y consecuentemente la desviación típica o estándar,
mediante:
27
2
n
n
∑fx i i
2
∑ f i xi
σ =
2 i =1
− i =1 = x2 − µ 2
n n
Realizando los cálculos, se tiene:
xi f i xi xi 2 f i xi 2
8.5 42.5 72.25 361.25
12.5 137.5 156.25 1718.75
16.5 379.5 272.25 6261.75
20.5 635.5 420.25 13027.75
24.5 392.0 600.25 9604
28.5 285.0 812.25 8122.5
32.5 _130.0___ 1056.25 _4225___
∑ fi xi = 2002 ∑ fi xi 2 = 43321
2002 43321
De esto se obtiene que: µ = = 20.02 y x2 = = 433.21
100 100
σ 2 = x2 − µ 2 = 433.21 − 20.022 = 433.21 − 400.8004 = 32.4096
Ejemplo 2. Los datos siguientes representan el contenido de azúcar (en g/100 ml) y el
contenido de cafeína (mg/100 ml) de 8 refrescos de cola. En la cuarta y quinta columna de la
tabla se ilustra el procedimiento para calcular la desviación estándar para el contenido de
azúcar (Profeco, 2003).
28
n
∑ ( x − x) i
2
s2 = i =1
n −1
Con estos datos, se tiene:
0.88875
La varianza es s 2 = = 0.12696
8 −1
Por lo tanto, la desviación típica o estándar, es: s = 0.12696 = 0.3563 g /100 ml
∑ f ( x − x) i i
2
s =
2 i =1
n −1
Donde: f i es la frecuencia i-ésima y xi es la marca de clase i-ésima.
También se puede calcular la varianza para datos agrupados de una muestra y
consecuentemente la desviación típica o estándar, mediante:
2
n
n ∑ f i xi
∑
i =1
f i xi − i =1
2
n
s =
2
n −1
Ejercicios.
1. Los datos siguientes proporcionan las temperaturas promedio diarias (en grados
centígrados) registradas durante 8 días del último mes de enero en Otawa y en
Washington
Otawa -1 2 1 1 -2 3 0 -4
Washington 1 1 -2 -1 -3 0 -1 5
29
3. La tabla siguiente da los rendimientos, medidos en toneladas por hectárea, de dos
variedades de maíz, en 10 años consecutivos
Año 1 2 3 4 5 6 7 8 9 10
Maíz A 4.8 0.5 6 3.5 3.8 5 6 1.2 2.8 5.2
Maíz B 3.5 3.8 3.7 2.8 2.5 4.2 4 3.5 4.1 3.2
c) Sin considerar ninguna otra información, ¿en cuál de los dos grupos se
obtuvieron los puntajes individuales más bajos y más altos?
5. Una compañía desea comprar una máquina de corte controlada por computadora.
El ingeniero de la compañía prueba dos máquinas de diferentes fabricantes. Los
diámetros (en centímetros) de las barras cortadas por las máquinas fueron los
siguientes:
6. Para los siguientes datos que corresponden a una muestra de las puntuaciones de
10 aspirantes en el examen de admisión de la UNAM del año pasado 76, 68, 85,
91, 80, 72, 84, 88, 77 y 82. Calcula su desviación estándar.
7. Para los siguientes datos que corresponden al gasto en pasajes por semana de
una población de alumnos de una escuela de computación. Calcula la varianza y la
desviación típica.
30
Gasto Número de
(Pesos) alumnos
2.50 a 4.00 7
4.50 a 6.00 10
6.50 a 8.00 24
8.50 a 10.00 25
10.50 a 12.00 8
12.50 a 14.00 4
14.50 a 16.00 2
Coeficiente de variación
Mide la dispersión relativa y pemite comparar dos conjuntos de datos cuyas medidas
descriptivas pueden estar expresados en diferentes unidades de medida. Es equivalente a la
razón, es decir, es la comparación por cociente entre la desviación estándar y la media
aritmética. Al ser un coeficiente no tiene unidades y si se desea se puede expresar en
porcentaje:
s s
CV = ó CV = ×100
x x
Ejemplo si deseamos comparar el contenido de azúcar con la cafeína, en los refrescos del
ejemplo de la tabla de Datos Profeco, 2003, necesitamos calcular el CV para cada variable.
0.3563g / 100ml
CV = = 0.0333 , o de manera equivalente CV = 3.33%
10.6875 g / 100ml
4.0333mg / 100ml
CV = = 0.3469 , o sea CV = 34.69%
11.625mg / 100ml
Ejercicios.
1. Si se tiene que en una muestra de las temperaturas medias durante 5 días del
último verano en la ciudad de México fueron de 16°,14°,19°,22° y 24° y en una muestra
durante 5 días del invierno pasado fueron de 10°,11°,9°,8° y 12° , determina
en cual de las dos estaciones hubo mayor variabilidad.
31
2. Si se tienen dos muestras de estudiantes con pesos promedio de 68 kg y de 85 kg
respectivamente y con la misma desviación estándar, entonces se puede afirmar que:
3. En un estudio se encontró que el gasto promedio anual para atención médica de dos
muestras de familias de clase media fue el mismo con una desviación típica de
$700.00 para la primera muestra y de $450.00 para la segunda muestra, entonces, se
puede afirmar que:
MEDIDAS DE POSICION
Mediana. Valor de la variable que divide en dos partes al conjunto de datos, que si bien es
una medida de centralización también es de posición y su valor corresponde al central de
una distribución de datos y describe que a su izquierda se encuentra el 50% de la
distribución y a su derecha el otro 50%.
Cuartiles. Valores de la variable que dividen a la distribución en cuatro partes iguales y que
describen que alrededor de cada uno de ellos se encuentra el 50% de la distribución, así el
cuartil primero describe que a su izquierda se encuentra el 25% de la población con los
valores más bajos de la variable y a su derecha otro 25% de los datos, el cuartil segundo que
es equivalente a la mediana, describe que alrededor de el se encuentra el 50% de los datos
con los valores centrales de la variable 25% a su izquierda y 25% a su derecha y el cuartil
tercero describe que a su izquierda se encuentra el 25% de los valores centrales de la
distribución y a su derecha el 25% de los datos con los valores mayores de la variable.
Deciles. Son los valores de la variable que dividen al conjunto ordenado de datos en diez
partes iguales y que describe que alrededor de cada uno de ellos se tiene el 20% de la
distribución, de acuerdo a su posición relativa dentro de ella, así por ejemplo el decil noveno
describe que alrededor de él se encuentra el 20% de los valores de la variable más grandes,
32
el 10% a su izquierda y el otro 10% a su derecha y el decil 5 que es equivalente a la mediana
describe que alrededor de él se encuentra el 20% de los datos con los valores centrales de la
distribución, el 10% a su izquierda y el otro 10% a su derecha.
Porcentiles o Centiles. Son los valores de la variable que dividen al conjunto ordenado de
datos en cien partes iguales y que describe que alrededor de cada uno de ellos se tiene el
2% de la distribución, de acuerdo a su posición relativa dentro de ella, así por ejemplo el
percentil primero describe que alrededor de él se encuentra el 2% de los datos con los
valores de la variable más pequeños, el 1% a su izquierda y el otro 1% a su derecha y el
percentil 50 que es equivalente a la mediana describe que alrededor de él se encuentra el
2% de los datos con los valores centrales de la distribución, el 1% a su izquierda y el otro
1% a su derecha
Para efectuar el cálculo de las medidas de posición para datos agrupados se utiliza el mismo
procedimiento de interpolación que para calcular la mediana, así, tenemos:
Ejemplo. Para determinar las medidas de posición para el siguiente conjunto de datos que
corresponden a la edad (en años) de los habitantes de una colonia de la delegación de
Tlalpan, que asisten a la escuela.
Edad Número de
(años) habitantes
fi
7 a 10 5
11 a 14 11
15 a 18 23
19 a 22 31
23 a 26 16
27 a 30 10
31 a 34 ___4___
n = ∑ fi = 100
33
n
− fa
La mediana se obtuvo con Me = LI + 2 ×c
fi
Donde: LI es el límite real inferior de la clase mediana.
n es el número total de datos.
fa es la frecuencia acumulada anterior a la de la clase mediana.
f i es la frecuencia absoluta de la clase mediana.
c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )
avo
n
recordando que a clase mediana es el intervalo de clase donde se encuentra el dato,
2
avo
100
= 50 dato, es decir, el
avo
siendo en este caso el intervalo de clase donde está el
2
cuarto intervalo, donde c = 22.5 − 18.5 = 4 años , así la mediana es:
100
− 39
Me = 18.5 + 2 × 4 = 18.5 + 1.4193 = 19.9193 años
31
n
× N − fa
Cuartiles. El cuartil N-ésimo se obtiene con: QN = LI + 4 ×c
fi
Donde: LI es el límite real inferior de la clase donde está el N-esimo cuartil.
n es el número total de datos.
fa es la frecuencia acumulada anterior a la de la clase mediana.
fi es la frecuencia absoluta de la clase dode está el N-esimo cuartil.
c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )
así, si se calcula el cuartil 1 la clase donde está, es el intervalo de clase donde se encuentra
avo
100
el × 1 = 25avo dato, es decir, el tercer intervalo, donde c = 18.5 − 14.5 = 4 años , así el
4
primer cuartil es:
100
×1 − 16
Q1 = 14.5 + 4 × 4 = 14.5 + 1.5652 = 16.0652 años
23
Valor de la variable que describe que el 25% de los habitantes de esa colonia que asisten a
la escuela son menores de 16.0652 años.
Ejercicio:
Comprueba que el Q3 = 23.75 años e interpreta su significado, recuerda que el cuartil 2 es la
mediana.
n
× N − fa
Deciles. El decil N-ésimo se obtiene con: DN = LI + 10 ×c
fi
34
Donde: LI es el límite real inferior de la clase donde está el N-esimo decil.
n es el número total de datos.
fa es la frecuencia acumulada anterior a la de la clase mediana.
fi es la frecuencia absoluta de la clase donde está el N-esimo decil.
c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )
así, si se calcula el decil 8 la clase donde está, es el intervalo de clase donde se encuentra
avo
100
el × 8 = 80avo dato, es decir, el quinto intervalo, donde c = 26.5 − 22.5 = 4 años , así el
10
octavo decil es:
100
× 8 − 70
D8 = 22.5 + 10 × 4 = 22.5 + 2.5 = 25 años
16
Valor de la variable que describe que el 80% de los habitantes de esa colonia que asisten a
la escuela son menores de 25 años o que el 20% son mayores de 25 años.
Ejercicio:
Comprueba que el D3 = 16.9347 años e interpreta su significado, recuerda que el decil 5 es la
mediana.
n
× N − fa
Percentiles. El percentil N-ésimo se obtiene con: PN = LI + 100 ×c
fi
Donde: LI es el límite real inferior de la clase donde está el N-esimo percentil.
n es el número total de datos.
fa es la frecuencia acumulada anterior a la de la clase mediana.
fi es la frecuencia absoluta de la clase dode está el N-esimo percentil.
c es el tamaño o amplitud de la clase mediana ( c = LRS − LRI )
así, si se calcula el percentil 53, la clase donde está es el intervalo de clase donde se
avo
n
encuentra el × 53 dato, siendo en este caso el intervalo de clase donde está el
100
avo
100
× 53 = 53avo dato, es decir, el cuarto intervalo, donde c = 18.5 − 14.5 = 4 años , así el
100
percentil 53 es:
100
× 53 − 39
P53 = 18.5 + 100 × 4 = 18.5 + 1.8064 = 20.3064 años
31
Valor de la variable que describe que el 53% de los habitantes de esa colonia que asisten a
la escuela son menores de 20.3064 años.
35
Ejercicio
Comprueba que el P10 = 12.3181 años e interpreta su significado y recuerda que el percentil 50
es la mediana.
REGLA EMPIRICA
Por ejemplo si se aplica un prueba estandarizada a 500 alumnos y se obtiene una media de
6 y una desviación estándar de 1.5, si la distribución es unimodal y bastante simétrica,
entonces en el intervalo (6-1.5,6+1.5)=(4.5,7.5) se tiene al 68% de los alumnos, es decir, 340
de los alumnos obtuvieron calificación entre 4.5 y 7.5
36
UNIDAD 2. DATOS BIVARIADOS
Propósito.
Al finalizar esta unidad debes haber comprendido la forma en que se establece una relación
entre dos variables, a partir de tablas, diagramas, regresiones y correlaciones y así describir
la naturaleza e intensidad lineal de esa relación.
Diagrama de dispersión
Se desea analizar comportamiento de las variables: estatura (X) y peso (Y) de alumnos
entre 15 y 18 años. Se debe evaluar si el modelo de regresión lineal puede ajustarse o no.
La población estadística se compone según el principio “a mayor estatura, mayor peso”.
Se elabora una grafica donde aparecen los valores muestrales obtenidos con muestras
aleatorias (x1, y1), (x2, y2), …, (xn, yn). Esta grafica se le nombra diagrama de dispersión.
Diagrama de dispersión
Peso
Estatura
37
Si los valores muestrales dan una configuración de puntos como el del diagrama de
dispersión, el modelo se llama de regresión lineal simple.
Cabe aclarar que la dispersión de puntos no solamente es lineal, hay dispersiones
cuadráticas y el modelo sería de regresión cuadrática, además se pueden utilizar modelos
de regresión exponencial, logarítmica, etc.
También hay la posibilidad de que entre las variables X y Y no exista relación alguna. Una
vez evaluada la pertinencia del modelo, se procede a describir y explicar el comportamiento
del proceso mediante la construcción del modelo respectivo. Este paso permite efectuar otros
aspectos como la de predecir y pronosticar su comportamiento.
n∑ XY − ∑ X ∑ Y
r=
n X 2 − ( X ) 2 n Y 2 − ( Y )2
∑ ∑ ∑ ∑
El coeficiente (r) toma valores en el intervalo -1 ≤ r ≤ 1.
-Por tanto, r puede ser -1, -0.98, -0.85,…; esto significa que la relación entre X y Y es
inversamente proporcional, (a menor X mayor Y)
-Si r se acerca a 0, la relación entre las variables es casi nula, esto quiere decir que no hay
relación entre ellas.
-Si r se acerca a 1 significa que la relación entre X y Y es proporcional, (a mayor X mayor Y).
Y = mx + b
“Se encontrará m y b de tal forma que la suma de los cuadrados de los residuos sea mínima”
a) ∑ Y = bn + m∑ X ∑ XY = b∑ X + m∑ X 2
38
o con:
n∑ XY − ∑ X ∑ Y ∑ Y − m∑ X
b) m= y b=
n∑ X 2 − ( ∑ X )
2
n
Ejemplo
Los siguientes datos corresponden a los resultados de un estudio acerca de la cantidad de
azúcar refinada (Y) mediante un cierto proceso a varias temperaturas diferentes (X). Los
datos se codificaron y se registraron en la tabla siguiente:
X Y
Temperatura Azúcar transformada
1.0 8.1
1.1 7.8
1.2 8.5
1.3 9.8
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5
X Y X*Y X2 Y2
1.0 8.1 8.10 1.0 65.61
1.1 7.8 8.58 1.21 60.84
1.2 8.5 10.20 1.44 72.25
1.3 9.8 12.74 1.69 96.04
1.4 9.5 13.30 1.96 90.25
1.5 8.9 13.35 2.25 79.21
1.6 8.6 13.76 2.56 73.96
1.7 10.2 17.34 2.89 104.04
1.8 9.3 16.74 3.24 86.49
1.9 9.2 17.48 3.61 84.64
2.0 10.5 21.0 4.00 110.25
16.5 100.40 152.59 25.85 923.58
Este valor de r = 0.71 se interpreta como una correlación positiva moderada.
39
La recta de regresión lineal, que es de la forma Y = mx + b, su pendiente y ordenada al
origen, se determinan como:
b=
∑ Y − m∑ X 100.4 − 1.73 × 16.5
= = 6.53
n 11
Por lo que la recta de regresión lineal, que es la recta que mejor se ajusta a los datos, es:
Y = 1.73X + 6.53
Ejercicios.
1. Para la siguiente tabla que muestra la estatura de un bebé al nacer Y (cm) que
depende del período de embarazo de su mamá X (días promedio).
X Y XY X2 Y2
277.1 48
279.3 49
281.4 50
283.2 51
284.8 52
40
a) Completa la tabla.
b) Construye el diagrama de dispersión.
c) Calcula el coeficiente de correlación r,
d) Determina la ecuación de regresión lineal.
e) Traza sobre el diagrama de dispersión, la recta de regresión.
f) Si la densidad del material es 2.9, determina el valor estimado del contenido
de hierro.
g) Si el contenido de hierro es de 31, determina la densidad estimada del
material.
41
UNIDAD 3. PROBABILIDAD
Propósito.
Al finalizar esta unidad sabrás los que son los fenómenos aleatorios, al resolver problemas
utilizando los enfoques, subjetivo, frecuentista y clásico, y comprenderás los conceptos
fundamentales que te permiten asociar a la probabilidad y a sus reglas directamente con la
Inferencia Estadística.
EL azar y la realidad
En la Biología
Muchas de las características heredadas en el nacimiento no se pueden prever de
antemano, sino que dependen del azar: el género, el color del pelo, el peso al nacer. La
transmisión de los caracteres genéticos obedece a las leyes del cálculo de probabilidades.
En la Medicina
La posibilidad de contagio o no en una epidemia, la duración de un cierto síntoma, la
posibilidad de un diagnóstico correcto cuando hay varias posibles enfermedades que
presentan síntomas parecidos, son ejemplos de situaciones donde el azar está presente.
En el mundo físico
La duración, intensidad y extensión de las lluvias, tormentas o granizos; la intensidad y
dirección del viento. las temperaturas máximas o mínimas, etc.
42
En el mundo social
En la sociedad en que vivimos, la familia, la escuela, el trabajo, están llenos de situaciones
en las que predomina la incertidumbre. El número de hijos en la familia, la edad de los
padres al contraer matrimonio, el tipo de trabajo, la terminación de los estudios escolares,
son ejemplos de fenómenos aleatorios en la vida social.
Laplace (1812) definió la probabilidad como la tasa de casos favorables sobre el número total
de casos igualmente posibles, pero también lo hizo Leibniz en 1678. Para Laplace, la teoría
del azar, “consiste en reducir todos los acontecimientos del mismo tipo a un cierto número de
casos igualmente posibles, es decir, aquellos para los que estamos igualmente indecisos
acerca de su existencia”.
Una teoría mucho más aplicable y muy sostenida, que evita alguna de estas dificultades, es
la “frecuencia relativa” o “interpretación estadística”. Puede atribuírse en gran medida, a este
punto de vista el adelanto registrado en la aplicación de la probabilidad, no sólo a la física y a
la astronomía, sino también a la biología, a las ciencias sociales y a los negocios. La
interpretación estadística está estrechamente relacionada con el punto de vista expresado
por Aristóteles: que lo probable es aquello que ocurre diariamente.
Por otro lado, si se lanza un dado cuyas caras están numeradas del 1 al 6, la posibilidad de
que el número mostrado sea un 7 es un evento que no puede ocurrir y a éste evento se le
llama evento imposible, se denota por ∅ y su probabilidad de ocurrencia es cero.
43
Si lanzamos una moneda, tenemos la seguridad de que obtendremos uno de los resultados
posibles contenidos en Ω , cada uno de éstos resultados se conocen como eventos
simples, éstos eventos comúnmente se denotan por Ei. Una característica evidente de los
eventos simples, es que en un experimento aleatorio ocurre uno y solo un evento simple.
También es importante que sepas el uso correcto de algunos términos en español que se
usan cotidianamente en el cálculo de probabilidades.
Conectivo ”y”
Conectivo ”o”
44
1 1 1 3 1
P(2o 4o6) = P(2U 4U 6) =
+ + = = = 0.5
6 6 6 6 2
La condición para poder sumar probabilidades en esta forma es que los eventos sean
mutuamente excluyentes, es decir, que no puedan ocurrir conjuntamente.
Este procedimiento puede conducir a errores si los eventos no son mutuamente excluyentes.
En esta tabla se puede observar que el espacio muestral se forma con las combinaciones de
los valores de ambas variables: (A y M), ((A y F), (NA y M) y (NA y F).
45
Seleccionar una persona que no aprobó el examen (NA).
22
P( NA) = = 0.6471
34
2
P( A y M ) = P ( A I M ) = = 0.0588
34
10
P( A y F ) = P ( A I F ) = = 0.2941
34
9
P( NA y M ) = P( NA I M ) = = 0.2647
34
13
P( NA y F ) = P( NA I F ) = = 0.3823
34
46
que aprobaron), y de estos solamente seleccionamos a las mujeres, por lo tanto, la
10
probabilidad deseada es = 0.8333
12
Existen también algunas proposiciones (fórmulas) que junto con los axiomas permiten el
cálculo de probabilidades de ocurrencia de dos eventos A y B
P ( A U B ) = P ( A) + P ( B ) − P ( A I B )
lo que se interpreta como la probabilidad de ocurrencia de A o B, es igual a la suma de
probabilidades de A con B menos la probabilidad de ocurrencia de A y B.
P ( A U B U C ) = P ( A) + P ( B ) + P (C )
Una manera consiste en considerar que en la ocurrencia de estos dos eventos, digamos A y
B, nos interesa en realidad la ocurrencia de tres eventos:
De acuerdo con esto, las probabilidades de interés para la ocurrencia del evento F o el
evento NA, son:
10
a) P( FyA) = , nos interesa porque ocurre el evento F (aunque no ocurra el evento A).
34
47
9
b) P ( NA y M ) = P ( NA I M ) = , nos interesa porque ocurre el evento NA (aunque no ocurra
34
el evento M).
13
c) P ( F y NA) = P ( F I NA) = , nos interesa porque ocurren ambos eventos F y NA.
34
10 9 13 32
Así, P ( F o NA) = P ( F U NA) = P ( A I F ) + P ( NA I M ) + P ( F I NA) = + + = = 0.9411
34 34 34 34
que es equivalente a:
23 22 13 32
P ( F o NA) = P ( F U NA) = P ( F ) + P ( NA) − P ( F I NA) =
+ − = = 0.9411
34 34 34 34
Los procedimientos anteriores también se pueden utilizar cuando se conocen las
probabilidades simples y las probabilidades conjuntas para dos eventos (A y B). Para
ilustrarlo consideremos la siguiente situación:
48
b) Si se selecciona un mercado al azar, la probabilidad de que tenga ubicación oeste dado
que(si se sabe que) es del área rural, es:
P(O I R) 0.24
P(O dado R) = P(O / R ) = = = 0.375
P( R ) 0.64
P( A I B)
P( A / B ) = , con P ( B ) ≠ 0
P( B)
B B c Total
A 75 225 300
A c 50 150 200
Total 125 375 500
49
75
P( A / B ) = = 0.6
125
300
P( A) = = 0.6
500
P( A I B ) = P( A) ⋅ P( B)
75 300 125
= ×
500 500 500
0.15 = 0.15
P( A I B)
Dos eventos A y B son mutuamente excluyentes si P( A / B ) = =0
P( B)
Por ejemplo los eventos A y B anteriores no son mutuamente excluyentes porque
P ( A / B ) = 0.6 ≠ 0 pero son independientes, porque P ( A / B ) = P ( A) = 0.6
Finalmente, señalamos que cuando se calcula la probabilidad conjunta de dos eventos, por
método, se debe de pensar que ambos están correlacionados o que no son independientes,
es decir, no se debe de partir del hecho de que no están correlacionados, a menos que se
diga de manera clara que son independientes.
Ejercicios
50
O A B AB Totales
Rh(+) 114 96 27 8 245
Rh(-) 23 22 7 3 55
Totales 137 118 34 11 300
3
5. Si la probabilidad de que un estudiante apruebe Estadística es y de que apruebe
5
2
Biología es , determina la probabilidad de que apruebe al menos una de las dos
3
materias
51
e) cinco libros, 3 estén en buen estado y 2 mutilados.
9. Una persona tiene una entrevista relacionada con un empleo ofrecido por una
compañía, la probabilidad de que adquiera el trabajo después de la entrevista es de
0.68 La probabilidad de que la compañía tenga interés en esta persona es de 0.36. La
probabilidad de que adquiera el trabajo dado que la compañía tenga interés, es de
0.88
10. En una ciudad hay una alta incidencia de cirrosis entre la población. Se sospecha
que se debe al alto índice de consumo de alcohol. Se hacen estudios estadísticos
que asocian “presencia de la enfermedad” con “consumo de alcohol”. Se encuentra
que el 40% de la población consume alcohol, el 20% padece la enfermedad y el 5%
consume alcohol y padece la enfermedad. ¿Se verifica la creencia?
Página 6. G,A,F,E,D,B,H
52
Página 11
Páginas 22 a 25.
x = 5.6 x = 2.5
1. Me = 3 2. Me = 2.5 4. x = 9
Mo = No tiene Mo = No tiene
x = 7.5
7. Me = 7.5 8. b) 9. a) 10. x = 5
Mo = No tiene
Páginas 29 a 30
1. En la Ciudad de Washington ya que tiene s = 2.449°
2. Si los datos son iguales, no hay variación.
3. a) La mejor variedad es la A porque su x = 3.88 , es la más alta.
b) La variedad más consistente es B porque su s = 0.557 es menor.
4. a) A b) A c) B
5. Al fabricante I porque su s = 0.0027
6. s = 7.165 puntos
53
7. s 2 = $ 7.2943 y s = $ 2.7008
Página 301 a 32
1. Hay más variabilidad en invierno porque su C.V . = 0.217
2. b) 3. a)
Página 40 a 41.
1. b) La tabla muestra la estatura de un bebé al nacer, X (cm), y el período de embarazo,
Y (días promedio).
X Y XY X2 Y2
48 277.1 13300.8 2304 76784.41
49 279.3 13685.7 2401 78008.49
50 281.4 14070.0 2500 79185.96
51 283.2 14443.2 2601 80202.24
52 284.8 14809.6 2704 81111.04
250 1405.8 70309.3 12510 395292.14
X Y XY X2 Y2
2.8 27 75.6 7.84 729
3.0 30 90.0 9.00 900
3.2 30 96.0 10.24 900
3.2 34 108.8 10.24 1156
3.4 36 122.4 11.56 1296
15.6 157 492.8 48.88 4981
54
Páginas 50 a 52
1. a) S = {águila, sol} b) S = {2,3, 4,5, 6, 7,...24} c) S = { gis blanco, gis rojo, gis amarillo, gis azul}
118 34 152
a) P ( A U B ) = + = = 0.5066
2. 300 300 300
118 34 11 163
b) P( A U B U AB ) = + + = = 0.5433
300 300 300 300
245 118 96 267
c) P( Rh(+) U A) = + − = = 0.89
300 300 300 300
3
d) P( Rh(−) I AB ) = = 0.01
300
114
114
e) P(O / Rh(+)) = 300 = = 0.4653
245 245
300
f) No son independientes.
4. P(XyYyZ)=0.432
5. P=0.8666
7. a) P=0.4705
9
b) P =
17
21
c) P =
170
36
d) P =
85
1179
e) P =
3094
8. El 4%
9. a) P = 0.3168
b) P = 0.4658
c) No son independientes.
55
10. Se verifica la creencia.
56