Está en la página 1de 69

APUNTES DE

ANÁLISIS ESTADÍSTICO DE DATOS


ETAD01

INACAP
Ciencias Básicas
Vicerrectoría de Académica de Pregrado
2015
2

 ÍNDICE 

UNIDAD 1 .................................................................................................................................................................... 4
ANÁLISIS DE DATOS UNIVARIADOS .............................................................................................................. 4
UNIDAD 2 ..................................................................................................................................................................28
ANÁLISIS DE DATOS BIVARIADOS ................................................................................................................28
UNIDAD 3 ..................................................................................................................................................................46
DISTRIBUCIÓN DE PROBABILIDAD NORMAL .........................................................................................46
3


 PRESENTACIÓN 

Estimado Alumno y Alumna, te damos la más cordial bienvenida a Estadística y Probabilidad,


asignatura lectiva del área formativa de Disciplinas Básicas, del área del conocimiento de
Ciencias Básicas.
Estadística y Probabilidad tiene el propósito de entregar la herramientas elementales para la
caracterización de un conjunto de datos uni y bivariado, como también comprender el
concepto de probabilidades y realizar inferencia bajo incertidumbre, mediante estrategias de
clase expositiva, solución de ejercicios y problemas; además de, contribuir en la formación
técnica de los alumnos, mediante el desarrollo de destrezas que mejoren su desempeño
profesional.

La asignatura se realizará, a partir de experiencias de aprendizajes que involucren


metodologías principalmente deductivas, donde tu rol es activo y participativo, y el del
docente un mediador.

El presente texto, que INACAP pone a tu disposición, tiene los contenidos que sirven de
base y apoyo a tus clases, y puede ser utilizado como material de consulta permanente.

Confía en tus capacidades, te deseamos mucho éxito.


UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 4

L a necesidad de caracterizar y extraer información desde conjunto de datos, a generado


el desarrollo de técnicas de clasificación y de resumen de conjuntos de datos, lo que
a la larga se a traducido en la Estadística.
El análisis estadístico tiene por objetivo encontrar propiedades, rasgos y relaciones
estadísticas de todo tipo respecto a las variables investigadas, las cuales se derivan de tablas
en las que se agrupan y clasifican los datos estadísticos en una investigación.

El nálisis descriptivo univariado trabaja con datos de una sola variable o distribución de
frecuencias y pretende determinar sus propiedades estadísticas. Este análisis proporciona
medidas representatvas de la distribución, estadísticos de dispersión, medidas de asimetría,
etc.
El análisis estadístico, involucra muchos más aspectos que solo definir, calcular y representar
en gráficos los datos, implica conocer la naturaleza de los datos y de esa forma la naturaleza
de la información. Al enfrentar los problemas que dan origen al conocimiento estadístico, los
investigadores utilizaron la intuición, la inventiva y la experimentación, elementos
fundamentales de todo experimento, que en muchas ocaciones no son perceptibles en las
fórmulas presentadas por los libros de textos.

UNIDAD 1 El término Estadística deriva de la palabra en


latin “status” que significa Estado.

ANÁLISIS DE Los primeros usos de la estadística fue la


compilación de datos y elaboración de gráficas
DATOS para describir diversos aspectos de un estado o
país.
UNIVARIADOS
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 5

PROGRAMA DE LA ASIGNATURA ETEP01


UNIDAD 1

ANÁLISIS DE DATOS UNIVARIADOS

APRENDIZAJE ESPERADO

Analiza información proveniente de tablas de frecuencias y gráficas para describir un fenómeno.

CRITERIOS DE EVALUACIÓN

 Clasifica diferentes tipos de variables que contenga un conjunto de observaciones.


 Construye tablas de frecuencias y gráficas a partir de un conjunto de observaciones.
 Analiza tablas de frecuencias y gráficas para determinar el comportamiento de un conjunto de observaciones.

APRENDIZAJE ESPERADO

Sintetiza información de un conjunto de datos aplicando las medidas de resumen.

CRITERIOS DE EVALUACIÓN

 Calcula medidas de tendencia central y las relaciona para definir el centro de un conjunto de datos.
 Calcula medidas de dispersión, para describir la variabilidad de un conjunto de datos.
 Compara conjuntos de datos mediante el uso de las medidas de resumen.

APRENDIZAJE ESPERADO

Caracteriza un conjunto de datos utilizando las medidas de posición relativa.

CRITERIOS DE EVALUACIÓN

 Calcula medidas de posición relativa para describir un conjunto de datos.


 Representa gráficamente las medidas de posición mediante boxplot.
 Relaciona medidas de posición para caracterizar un conjunto de datos.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 6

 Introducción
 ¿Qué significa aprender Estadística?
 VARIABLES Y Habitualmente hablar de las estadísticas, trae a la mente gráfico y
TABLAS  uorcentuales que, en muchas ocaciones no tienen mucho sentido si son
descontextualizadas.

Pero en general, la Estadística son una colección de herramientas que


permiten realizar análisis y caracterización de conjunts de datos, que tal forma
sería imposible de entender.
La ciencia de la
Estadística en sus La Estadística, entrega técnicas que permiten resumir la información que se
inicios también fue mantiene oculta en los datos, es decir, extraer la información que el conjunto
llamada fue de datos entrega y no los datos por si solos.
aritmética política,
pero fue hasta el siglo El principal objetivo que está detrás de las técnicas estadísticas, es resumir
XIX cuando la la información contenida en una colección de datos, de tal forma que que se
estadística adquirió el pueda transformar en información valiosa para la toma de decisiones.
significado de
Para lo anterior, existen variadas técnicas que facilitan
recolectar y clasificar
datos, término que ¿Por qué estudiar estadística?
fue introducido por el
militar británico sir La estadística es básica es la investigación científica, dada la necesidad de
John Sinclair (1754- manejar y tratar en ellas grandes catidades, progresivamente creciente, de
1835). datos.

La rama de la estadística que trata sobre la descripción y análisis de un


conjuntos de datos, sin pretender extender o generalizar sus resultados y
conclusiones a poblaciones distintas o más amplias que aquella de donde
proviene la información analizada recibe el nombre de “Estadística
Descriptiva”

Cuando este análisis descriptivo se centra en una variable, recibe el nombre


de Analisis Univariado y si se estudian simultaneamente dos variables, se
denomina Análisis Bivariado.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 7
Definiciones:

Población: Es la colección de todos individuos, elementos u observaciones
 que poseen al menos una caracterísca común.
 VARIABLES Y
 Muestra: Es una parte o subconjunto representativo de la población.
TABLAS  Al proceso de obtener la muestra se llama Muestreo.

 Parámetro: Es una medida de resumen que describe una característica


de toda la población. Por ejemplo media de la población = μ (se lee mu)

 Estadístico o estadígrafo: Es una medida de resumen que describe


una característica de la muestra. Por ejemplo media de la muestra =𝑥̅ .

 Unidad de observación o muetreo: Es el elemento o individuo


sobre el cual se mide la característica de interés.
 Variable: Es una característica de la población que se va a investigar
y que puede tomar dieferentes valores.

Nominal
Cuanlitativas
Ordinal

1.1 Clasificación de variables


Discreta
Cuantitativas
Continua

 Variables Cualitativas: Son variables cuyos valores son cualidades que


represetan la población. Cualitativa nominas: las categorías de la variables
no implican orden. Cualitativa ordinal: las categorías de la variables si
implican orden.

 Variables Cuantitativas: Surgen cuando se puede establecer cuánto o


qué cantidad se posee de una determinada característica. Cuantitativa
discreta: son aquellas que surgen por el procedimiento de conteo.
Cuantitativa continua: surgen cuando se mide alguna característica.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 8
Problema 1:

En los siguientes casos identifique: Población, Variable y Clasifique la
 variable:

 VARIABLES Y
TABLAS  a) La empresa XX se desea estudiar el número de horas trabajadas por
sus empleados.
b) En una fábrica se desea estudiar el número de hijos por cada
trabajador.
c) En la municipalidad de Santiago se estudia las marcas de automóviles
que tienen su patente obtenida en dicha Municipalidad.
d) En una Universidad se estudia las carreras que los alumnos siguen.
e) En un sindicato se desea estudiar el nivel de educación que tienen sus
afiliados.

Solución:

Letra Población Variable Clasificación


Todos los
Horas Cuantitativa
a trabajadores de la
trabajadas continua
empresa XX
Todos los
Número de Cauntitativa
b trabajadores de la
hijos discreta
fábrica
Todos los autos
con patente en la Marca del Cualitativa
c
municipalidad de auto nominal
Santiago
Todos los afiliados Nivel de Cualitativa
d
al sindicato educación ordinal
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 9
1.2 Tablas de distribución de frecuencias.

La información se resume en un cuadro o tabla que detalla las categorías de

una variable con sus correspondientes frecuencias. Es sinónimo de
 distribución de frecuencias.

 Clases Frecuencia Frecuencia Frecuencia Frecuencia


𝑥𝑖 Absoluta relativa Absoluta relativa
(𝑛𝑖 ) (ℎ𝑖 ) Acumulada acumulada

𝑥1 𝑛1 ℎ1 𝑁1 𝐻1
 VARIABLES Y … … … … …
𝑥𝑚 𝑛𝑚 ℎ𝑚 𝑁𝑚 1
TABLAS 
Total 𝑁 1

𝑥𝑖 : marca de clase, se calcula promediando los límites del intervalo o clase.

𝑛𝑖 : Se llama frecuencia absoluta, es el número de veces que aparece la categoría i-


ésima en el total de datos (𝑁).

ℎ𝑖 : Se llama frecuencia relativa, corresponde a la proporción que aparece la


categoría i-ésima en el total de datos (𝑁). Se calcula de la siguiente forma:
𝑛𝑖
ℎ𝑖 =
𝑁
𝑁𝑖 : Se llama frecuencia absoluta acumulada “menor que”, se obtine sumando en
orden descendente la columna de frecuencia absoluta.

𝐻𝑖 : Se llama frecuencia relativa acumula “menor que”, se obtiene sumando en


orden descendente la columna de frecuencia relativa.

Problema 2:
En la tabla de frecuencias que se da a continuación faltan algunos datos complétela.

Variable 𝑥𝑖 ni hi 𝑁𝑖 Hi
20 – 24 0,10
24 – 28 0,25
- 32 11 0,55
32 - 0,85
- 40 1,00
Complete en cuadro.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 10
Solución:

calcular la marca de clase del intervalo:

𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟
𝑥𝑖 =
 2

 Para obtener el total de datos, usar la frecuencias acumuladas (𝑁3 y 𝐻3 )


𝑁3 11
 𝐻3 = 𝑛
⇒ 0,55 = 𝑛
⇒ 𝑛 = 20

 VARIABLES Y
TABLAS 
Variable 𝑥𝑖 ni hi 𝑁𝑖 Hi
20 – 24 22 2 0,10 2 0,10
24 – 28 26 3 0,15 5 0,25
28 – 36 30 6 0,30 11 0,55
32 – 36 34 6 0,30 17 0,85
36 – 40 38 3 0,15 20 1,00

1.3 Medidas de Tendencia Central.

Esta medidas deben su nombre al hecho de que sus valores tienden a ocupar
posiciones centrales o intermedios entre el menor y mayor valor del conjunto
de datos, es decir entregan información sobre el centro de la distribución.
Los más usados:

 Media o Promedio. Es el punto de equilibrio de la distribución. Se


calcula sumando todas la observaciones de una serie de datos y luego
dividiendo el total entre el número de elementos involucrados.
 Mediana: es el valor medio de una secuencia ordenada de datos.
Esta medida de resumen no se ve afectada por ninguna observación
extrema.
 Moda: es aquel valor de la variable que presenta mayor frecuencia
absoluta, es decir, aquel que más veces se repite. Puede darse el caso de que
existan varios valores que presenten la máxima frecuencia absoluta,
entonces se tendrá una distribución bimodal, trimodal, etc.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 11
Problema 3:

Los empleados de la empresa ALFA son sometidos a un test de habilidades, que otorga de 0 a 10 puntos. Los
resultados obtenidos por un grupo de trabajadores de la empresa son los siguientes:

4 7 9 10 10 7 5 6 7 8 5 5 6 7 3
3 4 9 8 7 9 10 7 8 4 5 6 9 10 9

¿Cuál es el puntaje máximo que obtuvo el 50% de los empleados?

Solución:

Como primer paso, se deben ordenar los datos de menor a mayor.

3 3 4 4 4 5 5 5 5 6 6 6 7 7 7
7 7 7 8 8 8 9 9 9 9 9 10 10 10 10

Como la cantidad de observaciones es par, se debe utilizar la fórmula:

𝑿 𝟑𝟎 +𝑿 𝟑𝟎
(𝟐) ( 𝟐 +𝟏) 𝑿(𝟏𝟓) +𝑿(𝟏𝟔) 𝟕+𝟕
𝑴𝒆 = = = =𝟕
𝟐 𝟐 𝟐
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 12

 Problema 4:

Los siguientes datos corresponden a los trabajadores que se ausentaron de
 ANALISIS DE una fábrica en 55 días laborales.
DATOS
UNIVARIADOS  Días xi Trabajadores (ni)
0–4 2 5
4–8 6 15
8 – 12 10 16
12 – 16 14 8
16 – 20 18 3
20 – 24 22 7

a) Identifique y clasifique la variable.

Solución:

Días de ausencia: Cuantitativa continua.

b) ¿Es el número días de ausencia promedio es mayor al número de


días de ausencia mediano?

Solución:

2 ∗ 6 + 6 ∗ 15 + 10 ∗ 16 + 14 ∗ 8 + 18 ∗ 3 + 22 ∗ 7
𝑋̅ = = 10,58 [𝑑í𝑎𝑠]
55
4
𝑀𝑒 = 8 + [27,5 − 21] ∗ = 9,625[𝑑í𝑎𝑠]
16
Con lo anterior, se puede decir que la afirmación es correcta.

c) ¿Cuál el el número de ausencias más frecuente?

Solución:
16 − 15
𝑀𝑜 = 8 + ( ) ⋅ 4 = 8,44[𝑑í𝑎𝑠]
(16 − 15) + (16 − 8)

El número de ausencias más frecuente es de 8,44 días.


UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 13


Problema 5:

La información de la tabla presenta la distribución del sueldo de un grupo
 ANALISIS DE de Ingenieros Civiles industriales, en miles de pesos, con más de 3 años de
DATOS experiencia laboral y su calsificación según sexo.
UNIVARIADOS

Sueldo mensual[M$] xi Masculino Femenino

800 – 1100 950 1 3

1100 – 1400 1250 7 5

1400 – 1700 1550 10 6

1700 – 2000 1850 8 4

Total 26 18

a) Identifique y clasifique la o las variables.

Solución:

X: Sueldo mensual en miles de pesos. Cuantitativa continua.

Y: Sexo. Cualitativa nominal

b) ¿Es posible afirmar que el ingreso medio mensual es superior en los


varones?

950 ∗ 1 + 1250 ∗ 7 + 1550 ∗ 10 + 1850 ∗ 8


𝑋̅ = = 1538,46[𝑀$]
26

950 ∗ 3 + 1250 ∗ 5 + 1550 ∗ 6 + 1850 ∗ 4


𝑌̅ = = 1433,33[𝑀$]
18

El ingreso medio mensual de los varones es 1538,46 [M$], y el ingreso medio


mensual de las mujeres es 1433,33[M$], por lo tanto la afirmación es
verdadera.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 14
c) Indique cuál es el sueldo máximo del 50% de los ingenieros?

 Para respoder esta pregunta se debe considerar la información sin separar por
sexo.
 ANALISIS DE
DATOS Sueldo mensual[M$] Ingenieros
UNIVARIADOS 
800 – 1100 4

1100 – 1400 12

1400 – 1700 16

1700 – 2000 12

Total 44

Solución:
300
𝑀𝑒 = 1400 + (22 − 20) ⋅ = 1437,5[𝑀$]
16

El sueldo máximo del 50% de los ingenieros es de 1437,5 [M$].

1.3 Medidas de Localización

Corresponden a estadígrafos que dividen a los datos en porciones iguales y no


sólo a la mitad como lo hace la mediana. Estas medidas reciben el nombre de
Cuantiles. Los cuantiles más usados son: cuartiles, deciles y percentiles.

Como los percentiles dividen al conjunto en 100 partes iguales, para el claculo
de cualquier valor de cuantil usaremos sólo la fórmula de percentil.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 15
Problema 6:


Usando la información del ejercicio 5, determine:
 ANALISIS DE
DATOS a) ¿Cuál es el ingreso máximo del 25% de los ingenieros varones?
UNIVARIADOS 
Solución:

La expresión de percentil entrega el valor máximo para el porcentaje buscado,


por lo tanto el ingreso máximo del 25% es:
25%

800 [M$] 2000 [M$]

300
𝑃25 = 1100 + [6,5 − 1] ⋅ = 1335,71[𝑀$]
7

Por lo tanto el ingreso máximo del 25% de los ingenieros varones es de 1335,71
[M$]

b) ¿Cuál es el ingreso mínimo del 75% de los ingenieros varones que más ganan?

Solución:

Con apoyo de la resolución anterior. Si el ingreso máximo del 25% de los


ingenieros varones, entonces este valor equivale al ingreso mínimo del porcentaje
superior, que corresponde al 75%

c) ¿Qué porcentaje de ingenieros varones recibe ingresos entre $950.000 y


$1.200.000?

Solución:
26 ∗ 𝑘1 300
950 = 800 + [ − 0] ⋅ ⇒ 𝑘1 = 1,92%
100 1
26 ∗ 𝑘2 300
1200 = 1100 + [ − 1] ⋅ ⇒ 𝑘2 = 12,82%
100 7

𝑘2 − 𝑘1 = 12,82 − 1,92 = 10,9%

El 10.9% de los varones reciben ingresos entre $950.000 y $1.200.000.


UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 16

 1.4 Medidas de Variabilidad

 Miden la dispersión de los datos de una muestra, es decir mide cuán


similares son los valores que conforman la distribución de datos.
 ANALISIS DE
DATOS Dos conjunto de datos pueden tener la misma medida de tendencia central,
UNIVARIADOS  pero ser muy diferentes, por ejemplo: se tienen dos conjunto de datos
(medidos en cm).

a. 9-10-11-12-13-14-15.
b. 6-8-10-12-14-16-18.

En ambas conjuntos el promedio es de 12 cm y la mediana de 12 cm. A


simple vista es posible darse cuenta que cada conjunto está formado por
distintos valores, razón que hace tan importante la entrega de una medida
de variabilidad al momento de describir un conjunto de datos.

Acontinuación se detallan las más utilizadas:

 Rango o recoerrido de la variable (R): Corresponde a la diferencia


entre el valor máximo y mínimo del conjunto de datos.
 Rango Intercuartílico (RI): Corresponde a la diferencia entre en Cuartil
3 y Cuartil 1, lo que equivale a la diferencia entre en percentil 75 y percentil
25, siendo interpretada como la dispersión del 50% central de la distribución
de valores.
 Varianza (𝜎 2 ): Corresponde a la media de de los cuadrados de las
desviaciones de los datos de una distribución respecto a su media.
 Desviación Estándar (𝜎): Es simplemente la raíz cuadrada de la
varianza, es muy conveniente usar esta medida de dispersión, ya que se
encuentra en la misma dimensión en que están los datos.
 Coeficiente de variación o coeficiente de variabilidad (C.V.): Medida
de dispersión adimensional, lo que la hace adecuada para comparar en
términos de variabilidad dos o más grupos de datos. Corresponde al número
de veces en que se encuentra contenida la desviación estándar sobre la
media.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 17


 Problema 7:
 ANALISIS DE En la última encuesta de opinión general, EOG, se consultó sobre qué
DATOS puntuación le pondrían a las modificaciones que se desean realizar a la ley de
UNIVARIADOS  IVA a la compra de viviendas nuevas, obteniéndose los siguientes resultados:

Puntuación Frecuencia
0 – 20 40
20 – 40 35
40 – 60 15
60 – 80 5
80 – 100 5
Total 100

A partir de la información, calcule e interprete el Rango, Rango Intercuartílico,


Varianza, Desviación Estándar y Coeficiente de Variabilidad.

Solución:

 Rango:

𝑅 = 100 − 0 = 100 [𝑃𝑢𝑛𝑡𝑜𝑠]

La amplitud de los datos es de 100 puntos.

 Rango Intercuartílico:

20
𝑄3 = 𝑃75 = 20 + [75 − 40] ∗ = 40 [𝑝𝑢𝑛𝑡𝑜𝑠]
35
20
𝑄1 = 𝑃25 = 0 + [25 − 0] ∗ = 12,5[𝑝𝑢𝑛𝑡𝑜𝑠]
40
𝑅𝐼 = 𝑄3 − 𝑄1 = 40 − 12,5 = 27,5[𝑝𝑢𝑛𝑡𝑜𝑠]

Existe una diferencia de 27,5 puntos en el 50% central de la distribución.

 Varianza:

∑ 𝑥𝑖2 ∗ 𝑛𝑖
𝜎2 = − 𝜇2
𝑁
102 ⋅40+302 ⋅35+502 ⋅15+702 ⋅5+902 ⋅5
𝜎2 = − (30)2 = 480 [𝑝𝑢𝑛𝑡𝑜𝑠]2
100

La dispersión promedio de las puntuaciones en torno a la media de la


distribución es de 480 [puntos]2.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 18


 Desviación Estándar:

 ANALISIS DE 𝜎 = √480 = 21,91 [𝑝𝑢𝑛𝑡𝑜𝑠]


DATOS La dispersión promedio de las puntuaciones en torno a la media de la
UNIVARIADOS  distribución es de 21,91 [puntos].

 Coeficiente de Variabilidad:

𝜎 21,91
𝐶𝑉 = ∗ 100 = ∗ 100 = 73%
𝑥̅ 30
La dispersión porcentual de las puntuaciones alcanza el 73%, esto indica que
existe una alta dispersión en los datos.

Problema 8:

Suponga que se quieren comparar la dispersión existente entre los sueldos de


los técnicos y profesionales de una empresa.

Sueldo Nº de técnicos (ni) nixi x 2i nix2i


mensual
[M$]
200 10 2000 40000 400000
250 10 2500 62500 625000
300 10 3000 90000 900000
Total 30 7500 1925000

Sueldo Nº de nixi x2i nix2i


mensual profesionales
[M$] (ni)
400 5 2000 160000 800000
500 10 5000 250000 2500000
600 5 3000 360000 1800000
Total 20 7500 5100000
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 19

Estadístico Técnicos Profesionales


Recorrido 𝑅 𝑅 = 200
 = 300 − 200
= 100
 Rango Intercuartílico 𝑅𝐼 𝑅𝐼 = 150
= 300 − 200
 ANALISIS DE = 100
Varianza 𝜎2 = 𝜎 2 = 5000
DATOS 1925000

UNIVARIADOS  30
(250) =2

1666,67
Desviación estándar 𝜎 = 40,82 𝜎 = 70,71
Coeficiente de Variabilidad 𝐶𝑉 𝐶𝑉
40,82 = 14,14%
=
250
∗ 100
= 16,33%

Solución:

Notar que todas las medidas de dispersión absoluta son más altas en el
grupo de los profesionales, antes de concluir que estos sueldos
presentan mayor variabilidad hay que tener en cuenta que se están
comparardo dos grupos diferentes, donde los sueldos son siempre
mayores en los profesionales, por esta razón el coeficiente de
variabilidad es una medida de variabilidad perfecta, ya que tiene en
cuenta todos los valores de la variable y al no tener dimensión permite
comparar la dispersión entre grupos, entonces se puede concluir que el
grupo con mayor dispersión es el de los sueldos de los técnicos.

Problema 9:

Estado Civil de las personas que trabajan en “INACAP”. Realice una


representación gráfica de las frecuencias absolutas y relativas.

Frecuencia
Estado Civil Frecuencia Relativa
Absoluta
Soltero 85 65,9%
Casado 36 27,9%
Divorciado 5 3,9%
Viudo 3 2,3%
Total 129 100%
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 20
a) ¿Cuál es el estado civil que presenta mayor cantidad de personas?

 Solución:

 ANALISIS DE Son las personas solteras, hay 85 y es equivalente al 65,9%


DATOS
UNIVARIADOS  b) Realice una representación gráfica de la situación descrita por la tabla
de frecuencias.

Solución:

Una gráfica de barras de la frecuencia absoluta es:

Frecuencia absoluta

100 85
80
60 36
40
20 5 3
0

También es posible representar gráficamente las frecuencias relativas, como


sigue:

Frecuencia relativa

70%
60%
50%
40%
30%
20%
10%
0%

Pensamiento crítico y conocimiento estadístico. ¿Cuál de las gráficas


anteriores es más útil? En comparación, es más útil en el sentido de
información la gráfica de las frecuencias absolutas.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 21

 Problema 10:
 Construcción de una tabla de frecuencias a partir de datos no
 ANALISIS DE agrupados. Los siguientes datos corresponden, a los datos obtenidos en
una empresa en el turno vespertino, compuesto por trabajadores que
DATOS
prestan servicios a la empresa. Los datos se presentan en horas trabajadas
UNIVARIADOS 
en la semana.

14,0 8 18,4 16,6 20


15,6 18,4 17,6 26 12,2
17,6 19,4 19,8 21,6 24
15,6 15,8 15 12,2 20
10 22,4 9,4 13 17,4
16 16,8 12,6 18 10,5
18 17 19 16,6 15,5
11,2 21,8 19,6 12,8 18

a) Identifique y defina la población y la muestra.

Solución:

La población corresponde a todos los trabajadores de turno vespertino de


la empresa y la muestra corresponde a los 40 trabajadores que fueron
seleccionados.

b) Identifique la unidad y la variable.

Solución:

La unidad es un trabajador y la variable es el número de horas trabajadas en


el turno vespertino en una semana.

c) Construya una tabla de distribución de frecuencias.

Solución:

Rango=26,0-8,0=18,0
𝑘 = 1 + 3,3 ⋅ 𝑙𝑜𝑔 (40) = 6,28 𝑙𝑢𝑒𝑔𝑜 𝑘 = 6
C=18,0/6=3,0
𝐸 = 8,0 + 6 ⋅ 3,0 − 26,0 − 0,1 = −0,1 por lo tanto se debe corregir.
Entonces 𝐸 = 8,0 + 6 ⋅ 3,1 − 26,0 − 0,1 = 0,5
El límite inferior 1 es: I1=8,0-0,5/2=7,75 finalmente I1=7,8.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 22

LI LS 𝑛𝑖 ℎ𝑖 (%) 𝑁𝑖 𝐻𝑖 (%) 𝑥𝑖
 7,8 10,8 4 10,0 4 10,0 9,3
10,9 13,9 6 15,0 10 25,0 12,4
 ANALISIS DE
14,0 17,0 11 27,5 21 52,5 15,5
DATOS
17,1 20,1 14 35,0 35 87,5 18,6
UNIVARIADOS 
20,2 23,2 3 7,5 38 95,0 21,7
23,3 26,3 2 5,0 40 100,0 24,8

Conteste las siguientes preguntas en referencia a la información proporcionada


por la tabla de frecuencias.

d) ¿Cuántos intervalos de clases son?

Solución:

6 intervalos de clase.

e) ¿Cuál de las clases contiene el 15% de las observaciones?

Solución:

La clase 2, que contiene los valores de horas trabajadas desde 10,9 hasta 13,9.

f) ¿Cuál es la cantidad de horas más frecuente de trabajo?

Solución:

Existe un total de 14 observaciones en la clase 4 y valor que representa es 18,6


horas.

g) ¿Qué valor acumula el 87,5% de las horas trabajadas?

Solución:

20,1 horas trabajadas

h) ¿Qué proporción de las observaciones se encuentra por sobre 23,2


horas trabajadas?

Solución:

Sólo la última clase que contiene el 5% de las observaciones de la muestra.


UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 23

 i) ¿Qué porcentaje se observa entre 10,9 y 20,1 horas trabajadas?

 Solución:

 ANALISIS DE El 77,5%.
DATOS
UNIVARIADOS  j) Determine el promedio de horas trabajadas en la clase 4.

Solución:

18,6 horas.

k) Mediante una gráfica adecuada, caracterice la forma de la distribución.

Solución:

Frecuencia absoluta
15

10

0
9,3 12,4 15,5 18,6 21,7 24,8

Problema 11:

Construya el Box-plot para los datos del número de accidentes por año en una
intersección muy transitada en los últimos 20 años. Los valores ordenados son:

32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49
50 51

Solución: Para construir el Box-plot, se requiere los cinco números, que son
los siguientes:

Estadígrafo Valor
Mínimo (Xmin) 32
Primer cuartil (Q1) 41
Segundo cuartil (Q2) 43,5
Tercer cuartil (Q3) 46,5
Máximo (Xmax) 51
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 24

 Así, el Box-plot (gráfico de caja) que definido por, no existen valores extremos
en la muestra:

 ANALISIS DE
DATOS
UNIVARIADOS 

Gráfico de Statdisk

Problemas Propuestos:

1. Consideremos la distribución de frecuencias de los 210 dispositivos en el


control de calidad, distribuidos como lo muestra la siguiente tabla:

Marcas de Frecuencia Frecuencia Frecuencia Frecuencia


Intervalo clase Absoluta Absoluta Relativa Relativa
Acumulada Acumulada
350 – 400 4
400 – 450 6
450 – 500 9
500 – 550 20
550 – 600 31
600 – 650 80
650 – 700 42
700 – 750 10
750 – 800 8
800 - 850 2

a) Completa la información de la tabla de frecuencias


b) Dibuja en un gráfico, el histograma y el polígono de frecuencias.
c) ¿Cuál es la cantidad de dispositivos entre 450-700?
d) ¿Qué % de estos dispositivos se encuentran entre 550 y 750?
e) ¿Qué % de estos dispositivos se encuentran acumulados hasta 650?
f) ¿Qué valor representa la categoría de 750-800?
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 25
2. La siguiente información corresponde a la población que puede sostener una conversación en
inglés, según grupo de edad (censo 2012).

Grupo de Frecuencia Frecuencia Frecuencia Frecuencia Marca de Clase


edad (años) Absoluta Relativa Absoluta Relativa (Xi)
(ni) (pi) Acumulada (Ni) Acumulada (Pi)
0-14 119638
15-29 664257
30-44 437453
45-59 220559
60-90 143120
Total

a) ¿Cuál es el número de personas consideradas?


b) ¿A qué rango de edad pertenece la mayor cantidad de personas y cuál es su porcentaje?
c) Realiza una gráfica de barras de las frecuencias relativas.
d) Realiza una gráfica de las frecuencias absolutas acumuladas.
e) ¿Cuál es la edad promedio de personas que en mayor proporción pueden mantener una
conversación en inglés?
f) ¿Cuántas personas con 44 años o menos pueden mantener una conversación en inglés?
g) ¿Cuántas personas con más de 59 años pueden mantener una conversación en inglés? ¿Cuál es su
proporción?

3. Utilizando los datos del Variación mensual de ventas para una empresa de retail, con año base 2009,

0,09 0,20 0,42 0,62


0,11 0,21 0,43 0,66
0,12 0,25 0,43 0,69
0,13 0,26 0,44 0,80
0,14 0,28 0,47 0,81
0,14 0,30 0,51 0,83
0,15 0,36 0,52 0,86
0,15 0,36 0,52 0,86
0,16 0,36 0,54 0,99
0,19 0,36 0,55

a) Construye una tabla de frecuencias


b) Determina el porcentaje de observaciones de la tercera clase
c) ¿Cuál es la cantidad de datos contendidos hasta la cuarta categoría?
d) ¿Cuál es el promedio de la clase dos?
e) Defina el porcentaje de datos menores o iguales a una tasa de variación de 0,70.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 26
4. Su firma está introduciendo un nuevo chip de computador del cual se promociona que realiza
cálculos estadísticos mucho más rápidamente que los que actualmente se encuentran en el mercado.
Se hacen veinte cálculos diferentes, produciendo los tiempos en segundos que se ven más adelante.
Aunque usted no puede tergiversar su producto, usted desea presentar los resultados de la manera
más favorable para su empresa. Determine la media, la mediana y la moda. Además, calcule la
desviación estándar y los valores comunes utilizando la regla empírica.

3,2 4,1 6,3 1,9 0,6


5,4 5,2 3,2 4,9 6,2
1,8 1,7 3,6 1,5 2,6
4,3 6,1 2,4 2,2 3,3

5. Una empresa grande de equipos deportivos está probando el efecto de dos planes publicitarios sobre
las ventas de los últimos 4 meses. Dadas las ventas que se ven aquí, ¿cuál programa de publicidad
parece producir el crecimiento promedio más alto en ventas mensuales?
Mes Plan 1 Plan 2
Enero 1.657.000 4.735.000
Febrero 1.998.000 5.012.000
Marzo 2.267.000 5.479.000
Abril 3.432.000 5.589.000

6. Pensamiento crítico y medidas de tendencia central. Para cada uno de los siguientes ejercicios
podemos calcular medidas de tendencia central como la media y la mediana. Identifique una razón
importante por la que, en estos casos, la media y la mediana no son estadísticos que puedan servir de
manera precisa y efectiva como medidas de tendencia central.

 Códigos postales: 12601; 90210; 02116; 76177; 19102


 Clasificaciones de los niveles de estrés de distintos empleos: 1; 2; 3; 7; 9
 Los sujetos encuestados se codifican de la siguiente manera según la preferencia de club: 1 (U. de
Chile), 2 (U. Católica), 3 (Colo-colo), 4 (Palestino) o 5 (U. Española).

7. Exactitud del pronóstico del clima. En un análisis de la exactitud del pronóstico del clima se
comparan las temperaturas máximas reales con las temperaturas máximas pronosticadas un día
anterior y con las temperaturas máximas pronosticadas cinco días antes. Más abajo se señalan los
errores entre las temperaturas pronosticadas y las temperaturas máximas reales para días consecutivos
en Santiago. ¿La desviación estándar sugiere que las temperaturas pronosticadas un día antes son más
exactas que las pronosticadas cinco días antes, como se esperaría?

(real) — (pronosticada un día antes) 2 2 0 0 -3 -3 1 -2 8 1 0 -1 0 1


(real) — (pronosticada cinco días antes) 0 -3 2 5 -6 -9 4 -1 6 -2 -2 -1 6 -4
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 27
8. Los datos financieros con frecuencia están contenidos en un gráfico de máximos - mínimos y al
cierre. Como su nombre lo indica, muestra el valor más alto, el valor más bajo y el valor al cierre de
los instrumentos financieros como por ejemplo las acciones. Los datos tomados de The Wall Street
Journal para el índice Dow Jones respecto a 15 acciones durante un período de cinco días con base
en los siguientes datos, compare los valores máximos mínimos y de cierre utilizando elementos
estadísticos de tendencia central y variabilidad, además de la regla empírica.

Día Máximos Mínimos Cierre


1 181,07 178,17 178,88
2 180,65 178,28 179,11
3 180,24 178,17 179,35
4 182,79 179,82 181,37
5 182,14 179,53 181,31

9. Para ilustrar el cálculo de percentiles, se asume que se tienen observaciones para el número de
acciones correspondientes a 50 acciones transadas en la Bolsa de Valores de Santiago, como se
muestra en la tabla. Se desea calcular los cuartiles del conjunto de datos.

3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80

10. La siguiente tabla muestra la distribución de frecuencia de los sueldos (en miles de pesos) que reciben
150 empleados en una empresa.

Clases ni
120 – 160 20
160 – 200 30
200 – 240 50
240 – 280 30
280 – 320 20

Calcule el promedio, la mediana y la moda de los sueldos de los trabajadores de esta empresa.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 28

E n todo proceso de análisis, las variables cumplen un papel fundamental en el


momento de realizar un análisis, puesto que la cantidad de variables en análisis
condiciona, de alguna forma, las herramientas estadísticas a utilizar, un caso
particular es el Análisis Bivariado, esto ocurre cuando dos variables de interés son observadas
conjuntamente para el mismo grupo de elementos en estudio.

En general, el análisis bivariado no difiere significativamente al análisis univariado, la


diferencias fundamentales son en la cantidad de información contenida en los datos.

UNIDAD 2

ANÁLISIS DE DATOS BIVARIADOS


UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 29

PROGRAMA DE LA ASIGNATURA ETEP01


UNIDAD 2

ANÁLISIS DE DATOS BIVARIADOS

APRENDIZAJE ESPERADO

Utiliza tablas bivariadas para describir la distribución de un conjunto de observaciones.

CRITERIOS DE EVALUACIÓN

 Realiza tablas de doble entrada utilizando distintos tipos de variables para su análisis.
 Calcula distribuciones de frecuencias marginales y condicionales para describir las variables.
 Aplica análisis conjunto de las variables para caracterizar su comportamiento simultáneo.

APRENDIZAJE ESPERADO

Evalúa el grado de asociación entre dos variables mediante el coeficiente y el análisis gráfico.

CRITERIOS DE EVALUACIÓN

 Construye graficas de dispersión para presentar la relación entre variables.


 Estima el grado de asociación entre dos variables en base a gráfico de dispersión.
 Determina e interpreta de coeficiente de correlación lineal para estimar el grado de asociación entre variables.

APRENDIZAJE ESPERADO

Establece el comportamiento entre dos variables por medio de un modelo estadístico de regresión.

CRITERIOS DE EVALUACIÓN

 Determina componentes del modelo de regresión mediante el método de mínimos cuadrados.


 Interpreta los coeficientes de regresión y la variación explicada por el modelo.
 Analiza predicciones y residuos en un análisis posterior a los datos.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 30


Introducción

En muchas ocasiones el interés del investigador es estudiar
 ANALISIS DE
simultaneamente dos caráterísticas o variables medidas en cada individuo o
DATOS elemento. Por ejemplo medir estatura y peso en cada trabajador de una
UNIVARIADOS  empresa. Expresando la variable estatura con la letra x y el peso con la letra
y, por lo tanto se tendrán tantos pares de datos (x,y) como trabajadores
tenga la empresa. En esta unidad se estudian pares de variables de tipo
cuantitativas.

Tablas Estadísticas Bidimensionales: tablas de doble entrada. La


primera columna detalla frecuentemente la variable x y la primera fila detalla
la variable y.

Estructura de una Tabla Bidimensional con Frecuencias Absolutas:

X\Y yi … yl 𝑙

∑ 𝑛𝑖𝑗 = 𝑛𝑖.
𝑗=1
x1 n11 … n1l n.1
x2 n21 … n2l n.2
… …
xk nk1 … nkl n.k
𝑘

= ∑ 𝑛𝑖𝑗 = 𝑛.𝑗 n.1 … n.l 𝑘 𝑙

𝑖=1 ∑ ∑ 𝑛𝑖𝑗 = 𝑛
𝑖=1 𝑗=1

Para representar las frecuencias absoluta acumulada, frecuencia relativa y


relativa acumuladas se debe construir una tabla por separado por cada una
de ellas.

Distribuciones marginales: Corresponde a la representación de cada


variable en tablas unidimensionales y se obtiene con la suma de las filas o
columnas para las respectivas variables.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 31

 Otro aspecto interesante del análisis bivariado, es que es posible determinar


 el tipo y nivel de relación entre las variables, esto se puede realizar al
considerar una relación lineal entre las variables en estudio.
 ANALISIS DE
DATOS
UNIVARIADOS  Definiciones:

 Coeficiente de Correlación Lineal de Pearson.


𝑆𝑋𝑌
𝑟𝑋𝑌 =
√𝑆𝑋𝑋 ⋅ 𝑆𝑌𝑌
𝑛

𝑆𝑋𝑌 = ∑ 𝑥𝑖 𝑦𝑖 − 𝑛 ⋅ 𝑋̅ ⋅ 𝑌̅
𝑖=1
𝑛

𝑆𝑋𝑋 = ∑ 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2
𝑖=1
𝑛

𝑆𝑌𝑌 = ∑ 𝑦𝑖2 − 𝑛 ⋅ 𝑌̅ 2
𝑖=1

 El modelo de regresión lineal estimado es: 𝑦̂ = 𝛽̂0 + 𝛽̂1 ⋅ 𝑥.


𝛽̂0 = 𝑌̅ − 𝛽̂1 ⋅ 𝑋̅
𝑆𝑋𝑌
𝛽̂1 =
𝑆𝑋𝑋

 El coeficiente de correlación lineal cumple que −1 ≤ 𝑟𝑋𝑌 ≤ 1.

 También se define el coeficiente de determinación 𝑅 2 = (𝑟𝑋𝑌 )2.


UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 32
Problema 1:

Un examen de ingreso a la una universidad está compuesto de dos partes. El
 puntaje obtenido por un grupo de estudiantes se detalla en la tabla adjunta. Sea
X el puntaje obtenido en la primera parte e Y el puntaje obtenido en la segunda
 ANALISIS DE
parte.
DATOS
UNIVARIADOS  Y
0 5 10 15
X 0 2 6 2 10
5 4 15 20 10
10 1 15 14 1

a) Determine las distribuciones marginales de X e Y.

Solución:
Puntaje obtenido Nº de
Puntaje obtenido Nº de en la parte X estudiantes
en la parte X estudiantes 0 7
0 20 5 36
5 49 10 36
10 31 15 21
Total 100 Total 100

b) ¿En qué parte del examen los estudiantes obtuvieron mayor puntaje
medio?
0 ⋅ 20 + 5 ⋅ 49 + 10 ⋅ 31
𝑋̅ = = 5,55[𝑝𝑢𝑛𝑡𝑜𝑠]
100

0 ⋅ 7 + 5 ⋅ 36 + 10 ⋅ 36 + 15 ⋅ 21
𝑌̅ = = 8,55[𝑝𝑢𝑛𝑡𝑜𝑠]
100

La parte Y obtuvo mayor puntaje medio.

c) Para aquellos estudiantes que obtuvieron 5 puntos en la parte X, ¿cuál es la


media en la parte Y?
Solución:
Puntaje (𝑌|𝑥 = 5) Frecuencia
0 4
5 15
10 20
15 10
Total 49

0 ∗ 4 + 5 ∗ 15 + 10 ∗ 20 + 15 ∗ 10
𝑌̅𝑥=5 = = 8,67 [𝑝𝑢𝑛𝑡𝑜𝑠]
49
El puntaje medio en la parte Y para aquellos estudiantes que obtuvieron en la
parte X, 5 puntos fue de 8,67.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 33


Problema 2:

¿Existirá relación entre el estado nutricional y el rendimiento académico de
 ANALISIS DE
estudiantes de enseñanza básica? Se midió el estado nutricional de 1000 niños
DATOS de enseñanza básica, el que fue clasificado como "malo", "regular" "bueno". El
UNIVARIADOS  rendimiento académico fue clasificado como “bajo el promedio” “promedio” o
“sobre el promedio”.

Estado Nutricional
Malo Regular Bueno
Total
130 95 30 255
Rendimiento Bajo
120 450 35 605
Promedio
Académico
30 40 70 140
Sobre
280 585 135 1000
Total

 a) ¿Cuál es la cantidad de los niños de enseñanza básica tienen un rendimiento


académico promedio?

Solución:

Son 605 niños en la muestra

b) ¿Qué cantidad de los niños de enseñanza básica tienen un estado


nutricional regular?

Solución:

Son 585 niños en la muestra

c) ¿Qué cantidad de los niños de enseñanza básica tienen un rendimiento


académico promedio y un estado nutricional bueno?

Solución:

Son 35 niños en la muestra


UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 34
d) Calcule el porcentaje de los niños de enseñanza básica tienen un
 rendimiento académico sobre el promedio

 Solución:
140
 ANALISIS DE Son 140 niños en la muestra de 1.000, entonces el porcentaje es: 1000 = 0,14 =
DATOS 14%
UNIVARIADOS 

e) Determine el porcentaje de los niños de enseñanza básica tienen un


estado nutricional malo?

Solución:
30
Son 30 niños en la muestra de 1.000, entonces el porcentaje es: 1000 = 0,03 =
3%

f) ¿Qué porcentaje de los niños de enseñanza básica que tienen un estado


nutricional bueno están sobre el promedio en su rendimiento académico?

Solución:

Son 70 niños de 135 que tienen un estado nutricional bueno, entonces el


70
porcentaje es: 135 = 0,519 = 51,9%

g) Obtenga la distribución marginal del Estado Nutricional .

Solución:
Estado Nutricional
Malo Regular Bueno TOTAL
Frecuencia 280 585 135 1000
Frecuencia relativa 28% 58,5% 13,5% 100%

h) Calcule la distribución marginal del Rendimiento Académico.

Solución:

Rendimiento Académico
Bajo Promedio Sobre TOTAL
Frecuencia 255 605 140 1000
Frecuencia relativa 25,5% 60,5% 14% 100%
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 35
i) Obtenga la distribución condicional del rendimiento académico dado el estado nutricional, es
decir que consideramos al rendimiento académico como respuesta al estado nutricional.

Solución:

Estado Nutricional
Malo Regular Bueno

130/280 95/585 30/135


Rendimiento Bajo
120/280 450/585 35/135
Promedio
Académico
30/280 40/585 70/135
Sobre
280/280 585/585 135
Total
Luego:

Estado Nutricional
Malo Regular Bueno

46,4% 16,2% 22,2%


Rendimiento Bajo
42,9% 76,9% 25,9%
Promedio
Académico
10,7% 6,8% 51,9%
Sobre
100% 100% 100%
Total
Problema 3:

En una empresa donde trabajan 54 personas, se ordenó en una tabla de doble entrada, la información referida
al ingreso mensual y al tiempo de servicio en la empresa, Las variables definidas como sigue: 𝑋 =
𝑖𝑛𝑔𝑟𝑒𝑠𝑜 𝑚𝑒𝑛𝑠𝑢𝑎𝑙 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝑝𝑒𝑠𝑜𝑠) e 𝑌 = 𝑡𝑖𝑒𝑚𝑝𝑜 𝑑𝑒 𝑠𝑒𝑟𝑣𝑖𝑐𝑖𝑜 𝑒𝑛 𝑙𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 (𝑎ñ𝑜𝑠)

Tabla: ingreso y tiempo de servicio

Tiempo de Servicio
0-4 4-8 8-12

6 4 2
300-340
Ingreso 3 6 4
340-480
Mensual 2 8 6
480-620
1 2 10
620-960
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 36

a) ¿Cuál es la cantidad de personas que llevan 4-8 años en la empresa y que tienen un ingreso mensual
de 480-620?

Solución:

Son 8 personas

b) ¿Cuál es el porcentaje de personas que tienen un tiempo de servicio entre 0-4 años y su ingreso
mensual está entre 620-960? ¿Qué porcentaje representa de los empleados?

Solución:
1
Es 1 persona de 54 personas empleadas, entonces el porcentaje es: 54 = 0,0185 = 1,85%

c) Obtenga la Media marginal del Ingreso Mensual.

Solución:

Para Obtener la media marginal de la variable Ingreso Mensual, es necesario conocer la distribución
marginal, luego esta es:

Estado Nutricional
300-340 340-480 480-620 620-960 TOTAL
Marca de Clase 320 410 550 790
Frecuencia 12 13 16 13 54

En base a la información proporcionada por la distribución marginal, se calcula la media marginal,


como sigue:
12∗320+⋯+13∗790
𝑀𝑒𝑑𝑖𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑥̅ = = 523 (Miles de pesos)
54

Entonces, el ingreso promedio es de $523.000.- para el conjunto de datos.

Observación: Así también, se puede calcular la media marginal de la variable tiempo de servicio,
replicando el procedimiento anterior.

d) Calcule la Varianza marginal de la variable Ingreso Mensual:

Solución: La varianza cuantifica la variabilidad de un conjunto de datos, su obtención se basa en la


información proporcionada por los datos de la frecuencia marginal.

12∗(320−523)2 +⋯+13∗(790−523)2
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑆 2 = = 30.168 (Miles de pesos)2
54−1
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 37
Debido a que la unidad de los datos está al cuadrado no es posible interpretar de manera directa con el
promedio, luego, la desviación estándar marginal de los ingresos mensuales es:
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 = 𝑆 = √30.168 = 173,689 ≈ 174 (Miles de pesos)

e) ¿Cuál es la variación conjunta de las variables?

Solución: Para definir la variación conjunta, se obtiene la covarianza (𝐶𝑂𝑉(𝑥, 𝑦))

Tiempo de Servicio
Marcas de Clase 2 6 10

6 4 2
320
Ingreso 3 6 4
410
Mensual 2 8 6
550
1 2 10
790

320 ∗ 2 ∗ 6 + ⋯ + 790 ∗ 10 ∗ 10
𝐶𝑂𝑉(𝑥, 𝑦) = − 523,0 ∗ 6,7 = 237,8
54

Esto es la variación conjunta de las variables Ingreso Mensual y Tiempo de servicio. Podemos mencionar
que las variables 𝑥 e 𝑦 tiende a moverse en la misma dirección, es decir existe una relación positiva.

Problema 4:

Un docente de la asignatura de estadística desea relacionar los resultados obtenidos en la prueba 1 y los
resultados alcanzados en el examen, para lo cual cuenta con la siguiente información de sus estudiantes:

ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5
Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5

Su pregunta es ¿Existe correlación entre los resultados de la prueba 1 y el examen?

Solución:

El primer indicador es una referencia gráfica, a Continuación se presenta el Gráfico de Dispersión de Notas
en la Prueba 1 (X) versus Notas el Examen (Y) del curso de 25 alumnos.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 38

La gráfica presenta una correlación positiva (ascendente) leve entre las notas obtenidas en la prueba 1 y el
examen, por otra parte para determinar el grado de asociación entre dos variables se utiliza el coeficiente de
correlación de Pearson, denotado por “r”, en este caso su valor es:

Coeficiente de correlación 𝑟 = 0,407

El cual es consistente a la información gráfica, lo que señala finalmente que existe una correlación positiva y
leve entre ambas variables analizadas.

Problema 5:

Las estaturas y pesos de los 10 jugadores de baloncesto de la Universidad Tecnológica De Chile, Inacap son:

Estatura (x) 186 189 190 192 193 193 198 201 203 205
Pesos (y) 85 85 86 90 87 91 93 103 100 101

a) ¿Existe una correlación entre las estaturas y el peso?

Solución:

La gráfica de dispersión (scatterplot), entre la estatura y el peso es la siguiente:


UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 39

La gráfica presenta una correlación positiva (ascendente) fuerte entre la estatura y el peso, el coeficiente de
correlación de Pearson, 𝑟 = 0,944, es cercano a 1, lo que es considerado como alto o fuerte.

b) La regresión lineal e identifique las variables (predictiva y respuesta)

Solución:

El modelo de regresión lineal para las variables: la estatura en centímetros (𝑥), que corresponde a la variable
predictiva o independiente y el peso en kilogramos (𝑦), que es la variable respuesta o dependiente, es:

𝑦 = 𝑎+𝑏∗𝑥
Donde:
𝑎 = −107,139
𝑏 = 1,022

Luego el modelo es:


𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎

c) Calcule el peso estimado de un jugador que mide 208 cm.

Solución:

Para estimar el peso de un jugador que mide 208 cm,


Se tiene que 𝑥 = 208, entonces:

𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 208


𝑃𝑒𝑠𝑜 = 105,4
El peso estimado es 105,4 Kg.

d) La estatura estimada de un jugador que pesa 100 kg.

Solución:

Para estimar la estatura de un jugador que pesa 100 kg.

Se tiene que 𝑦 = 100, entonces:


UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 40
100 = −107,139 + 1,022 ∗ 𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎
Despejando, el resultado es:
𝐸𝑠𝑡𝑎𝑡𝑢𝑟𝑎 = 202,7
La estatura estimada es 202,7 cm.

e) El peso estimado de un jugador que mide 198 cm. ¿cuál es el residuo de la estimación?

Solución:

Para estimar el peso de un jugador que mide 198 cm,


Se tiene que 𝑥 = 198, entonces:

𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 198


𝑃𝑒𝑠𝑜 = 95,2
El peso estimado es 97,4 Kg.
La estimación del residuo o error: 𝑒 = 93 − 95,2 = −2,2
Esto significa que se estima un error de 2,2 kilogramos de sobrestimación.

f) El peso estimado de un jugador que mide 201 cm. ¿cuál es el residuo de la estimación?

Solución:

Para estimar el peso de un jugador que mide 201 cm,


Se tiene que 𝑥 = 201, entonces:

𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 201


𝑃𝑒𝑠𝑜 = 98,3
El peso estimado es 100,5 Kg.
La estimación del residuo o error: 𝑒 = 103 − 98,3 = 4,7
Esto significa que se estima un error de 4,7 kilogramos de subestimación.

Observación: las preguntas anteriores relejan los tipos de errores que se pueden estimar.

g) Estime el peso de un jugador de una estatura “particular” para la talla de los jugadores, que mide 155
cm. ¿cuál es el residuo de la estimación?

Solución:

Para estimar el peso de un jugador que mide 155 cm,


Se tiene que 𝑥 = 155, entonces:

𝑃𝑒𝑠𝑜 = −107,139 + 1,022 ∗ 155


𝑃𝑒𝑠𝑜 = 51,3
El peso estimado es 51,3 Kg.

La estimación del residuo o error: en esta situación no es posible afirmar que sea una buena estimación,
debido a que el valor de la variable 𝑥, se encuentra fuera del ámbito de los valores obtenidos en la muestra.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 41
h) Desarrollemos el análisis residual de nuestro modelo de regresión. Los datos considerados son
los siguientes:

Solución:

Estatura (𝑥) 186 189 190 192 193 193 198 201 203 205
Pesos (𝑦) 85 85 86 90 87 91 93 103 100 101
Estimado (𝑦̂) 83,0 86,0 87,0 89,1 90,1 90,1 95,2 98,3 100,3 102,4
Residuo (𝑒) 2,0 -1,0 -1,0 0,9 -3,1 0,9 -2,2 4,7 -0,3 -1,4

En base a los datos de los errores es posible realizar su representación gráfica:

Residuos
6,0

4,0

2,0
Residuos
0,0
185 190 195 200 205 210
-2,0

-4,0

Esta gráfica presenta una distribución uniforme de los errores o residuos, esto es un indicador de que el
modelo es adecuado.

i) Determinación de la variabilidad de los residuos, es error estándar de estimación, denotado 𝑆𝑒 .

Solución:

2,02 +⋯+(−1,4)2 5,776


Donde: 𝑆𝑒 = √ =√ = 2,4 (kilogramos)
=10−2 8

Este valor señala que el error estándar de estimación del modelo es de 2,4 kilogramos.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 42
Problemas Propuestos

1. Un grupo de investigadores, al estudiar la relación entre el tipo acción y la severidad de la


variabilidad, reunió los datos de 1500 acciones, los cuales se presentan en la tabla de
contingencia adjunta.

Tipo de Acción
A B C D

543 211 90 476


Baja
Variabilidad 44 22 8 21
Moderada
28 9 7 31
Severa

a) Calcule las distribuciones marginales. Interprete.


b) ¿Cuál es el porcentaje de acciones con variabilidad baja del tipo A?
c) ¿Cuál es el total de acciones que tienen una variabilidad severa, y su proporción de la muestra?
d) ¿Cuál de las acciones es la más estable?
e) Realice una representación gráfica de información proporcionada por la tabla

2. Una compañía aérea desea estudiar la relación entre el número de vuelos y la edad de sus
pasajeros, consultó a sus pasajeros y recabó información resumida en la siguiente tabla.

Número de vuelos por año


0-1 2-4 5-7

4 19 15
10-25
25-40 4 25 9
Edad
8 16 6
40-65
6 23 11
65-80

a) Determine las distribuciones marginales para las variables.


b) ¿Qué porcentaje de las personas entre 40 y 65 años, toma entre 2-4 vuelos?
c) ¿Cuál es el promedio de la variable edad? Y ¿Cuál es su variabilidad?
d) ¿Qué valor tiene la media de los vuelos por años?
e) Obtenga la Covarianza.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 43
3. Interprete cada uno de los siguientes coeficientes de correlación y use gráficos de
dispersión para representar como se vería cada una de las relaciones entre dos variables (x, y)
cualesquiera:

a) r = -1,0 b) r = 0,05 c) r = 0,85 d) r = -0,99 e) r = -0,03

4. Si el coeficiente de correlación para los datos de la tabla es 0,97, responda a las preguntas
siguientes, primero sin realizar ningún cálculo y después, comprobar las respuestas haciendo
los cálculos necesarios con su calculadora.

X 2 3 4 5 6
Y 5 7 8 13 14

Revise los gráficos de dispersión correspondientes y responda cómo cambiaría este


coeficiente si:

a) Sumamos 3 a la variable X (cada valor)


b) Sumamos 3 en ambas variables (cada valor)
c) Multiplicamos la variable X por 2 (cada valor)
d) Intercambiamos todos los valores de X por los de Y
e) Cambiamos el último valor de X por el de Y
f) Sumamos 10 a ambas variables pero sólo en el primer punto observado

5. Cada una de las frases siguientes contiene un error, explique en cada caso qué es lo que está
mal.

a) “Existe una alta correlación (r=0,32) entre el sexo de los trabajadores en Santiago y su salario”
b) “Se encontró una alta correlación (r=1,09) entre las evaluaciones de los estudiantes a los profesores
y los salarios de los académicos”
c) “La correlación entre el tamaño familiar y los metros cuadrados del hogar es r=0,65 metros
cuadrados”

6. La correlación lineal de X con Y es r = 0,60; la correlación de X con W es de r = -0,80. ¿Con


cuál de las variables Y o W, es mayor el grado de asociación lineal?

7. En un curso de introducción a la estadística, un profesor hace dos exámenes. El profesor


quiere determinar si los puntajes de los estudiantes en el segundo examen están
correlacionados con los puntajes del primero. Para facilitar los cálculos, se elige una muestra
de ocho estudiantes. Sus calificaciones aparecen en la siguiente tabla.

Estudiante 1 2 3 4 5 6 7 8
Examen 1 60 75 70 72 54 83 80 65
Examen 2 60 100 80 68 73 97 85 90
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 44

a) Construya una gráfica de dispersión para estos datos, utilizando el puntaje del primer examen
como la variable X. ¿Parece lineal la relación?
b) Suponga que existe una relación lineal entre las calificaciones de los dos exámenes, calcule el valor
r de Pearson.
c) ¿Cuál es la variable explicativa y la variable respuesta?
d) Construya un modelo de regresión lineal simple
e) ¿Cuál es el puntaje estimado para el examen 2, si un estudiante logró 83 puntos en el examen 1?
f) Obtenga el error (residuo) de la estimación de la pregunta anterior. ¿Qué tipo de error se produce?

8. A partir de los siguientes datos referentes a horas trabajadas en un taller y unidades


producidas, determina:

a) Grafica los datos, califique el gráfico según sus parámetros e infiera los resultados posibles del modelo
y la correlación,
b) La recta de regresión lineal de la producción sobre las horas.
c) El coeficiente de correlación lineal e interpreta la respuesta.
d) ¿Cuál es la proporción de variación de los resultados que puede explicarse por el modelo?
e) Obtenga el error estándar de estimación del modelo e interprete su valor.

Horas 80 79 83 84 78 60 82 85 79 84 80 62
Producción 300 302 315 330 300 250 300 340 315 330 310 240

9.Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a
partir de la relación de éstas y la renta nacional. Para investigar la relación cuenta con los
siguientes datos:

X 189 190 208 227 239 252 257 274 293 308 316
Y 402 404 412 425 429 436 440 447 458 469 469

X representa la renta nacional en miles de millones de pesos e Y representa las ventas las ventas de
la compañía en miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive):

a) La recta de regresión lineal, ¿Cuál es la variable explicativa y la variable respuesta?


b) El coeficiente de correlación lineal e interpretación y el coeficiente de determinación.
c) Si en 2001 la renta nacional del país fue de 325 miles de millones de pesos. ¿Cuál será la predicción
(extrapolación) para las ventas de la compañía en este año? ¿Es confiable dicho valor? ¿cuál es su
residuo?
d) Obtén los errores producidos en las estimaciones, para cada una de las observaciones (datos).
e) ¿El modelo calculado es representativo de los datos?
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 45
ñ
10. Remítase a los datos de la siguiente tabla y analice los valores extremos, en base a las
preguntas siguientes. (Efectos de un valor extremo)

x 1 1 1 2 2 2 3 3 3 10
y 1 2 3 1 2 3 1 2 3 10

a) Examine el patrón de los 10 puntos y determine de forma subjetiva sí parece existir una correlación
entre 𝑥 y 𝑦.
b) Después de identificar los 10 pares de coordenadas correspondientes a los 10 puntos, calcule el valor
del coeficiente de correlación r y determine si existe una correlación lineal.
c) Ahora elimine el punto con las coordenadas (10, 10) y repita los incisos a) y b). ¿Qué concluye cerca
del posible efecto de un solo par de valores?

11. Considere los siguientes conjuntos de datos. Desarrolle los siguientes puntos para cada uno
de los casos:

a) Construya una gráfica de dispersión


b) Obtenga e interprete el coeficiente de correlación lineal
c) Calcule el modelo de regresión
d) Obtenga los errores y realice una gráfica de éstos.
e) Calcule el error estándar de estimación
f) Interprete de forma conjunta ambas graficas realizadas

Caso 1

X 0 1 2 3 4 5 7 8 9 10
Y 1 4 8 18 19 24 36 43 42 47

Caso 2

X 0 1 2 3 4 5 7 8 9 10
Y 1 0 2 5 10 20 15 10 7 3

Caso 3

X 0 1 2 3 4 5 7 8 9 10
Y 0 6 9 15 10 35 15 60 75 20
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 46

L
a probabilidad, puede ser uno de los tópicos más interesantes para la caracterización
de un conjunto de datos, puesto que permite medir la incerteza que se tiene respecto
a un fenómeno de interés.

UNIDAD 3

DISTRIBUCIÓN DE PROBABILIDAD
NORMAL
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 47

PROGRAMA DE LA ASIGNATURA ETEP01


UNIDAD 3

DISTRIBUCIONES DE PROBABILIDAD

APRENDIZAJE ESPERADO

Resuelve problemas aplicando los principios de probabilidades en problemas de aplicación

CRITERIOS DE EVALUACIÓN

 Utiliza propiedades para determinación de probabilidades en problemas de aplicación.


 Construye la distribución de probabilidades para una variable aleatoria.

APRENDIZAJE ESPERADO

Describe el comportamiento de una variable aleatoria con distribución normal estándar.

CRITERIOS DE EVALUACIÓN

 Reconoce los parámetros de la distribución normal estándar.


 Calcula probabilidades de una distribución normal estándar.
 Obtiene e interpreta percentiles de una distribución normal estándar.

APRENDIZAJE ESPERADO

Aplica la distribución normal a resolución de problemas de la especialidad.

CRITERIOS DE EVALUACIÓN

 Estandariza una variable aleatoria normal para su aplicación a problemas.


 Determina probabilidades y percentiles de una variable aleatoria mediante el uso de la distribución normal
estandarizada.
 Resuelve problemas de la especialidad a través del uso de la distribución normal.
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 48


 Introducción
 PROBABILIDAD 
El concepto de probabilidad, aunque tiene suele ser utilizado con bastante
frecuencia en distintas situaciones, no siempre es utilizado de forma
adecuada. La medida de probabilidad permite medir el nivel de conocimiento
o de incertidumbre que se tiene respecto a un fenómeno de interés, es decir,
permite cuantificar qué tan seguros estamos que un determinado evento o
fenómeno puede ocurrir (respectivamente no ocurrir).

Definiciones:

 Ω: Espacio muestral, conjunto de todos los posibles resultados


de un experimento.
 𝐴 ⊆ Ω: Evento o fenómeno en Ω.
 #Ω: cardinalidad de Ω,cantidad de elementos del conjunto.
 𝑃(𝐴): Probabilidad de que ocurra el evento A.
⋕ A 𝐶𝑎𝑠𝑜𝑠 𝑎 𝑓𝑎𝑣𝑜𝑟 𝑑𝑒 𝐴 𝐶𝐹
𝑃(𝐴) = = =
⋕ Ω 𝑐𝑎𝑠𝑜𝑠 𝑇𝑜𝑡𝑎𝑙𝑒𝑠 𝑑𝑒 Ω 𝐶𝑇
 𝐶𝑘𝑛 : Cantidad de formas de seleccionar 𝑘 elementos sin
devolución desde un total de 𝑛, sin importar el orden en el cual
son seleccionados.
𝑛 𝑛!
𝐶𝑘𝑛 = ( ) =
𝑘 (𝑛 − 𝑘)! 𝑘!
 𝑃𝑘𝑛 : Cantidad de formas de seleccionar 𝑘 elementos sin
devolución desde un total de 𝑛, cuando importar el orden en el
cual son seleccionados.
𝑛 𝑛!
𝑃𝑘𝑛 = ( ) 𝑘! =
𝑘 (𝑛 − 𝑘)!
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 49

 Axiomas:
 PROBABILIDAD 
 P(Ω) = 1
 P(Ω𝑐 ) = P(ϕ) = 0
 Sea un evento 𝐴 ⊆ Ω, entonces
0 ≤ 𝑃(𝐴) ≤ 1
 Si 𝐴 ⊆ Ω, entonces 𝐴𝑐 ⊆ Ω, así
𝑃(𝐴𝑐 ) = 1 − 𝑃(𝐴)
 Sean 𝐴, 𝐵 ⊆ Ω, entonces:
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵)

Además todas las propiedades de conjuntos son válidads en probabilidades.

Definiciones:
 Dos eventos 𝐴 y 𝐵 se dicen independientes estocásticamente si
la ocurrencia de uno de ellos no afecta ni altera la ocurrencia del
otro, y viceversa.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)
 Dos eventos 𝐴 y 𝐵 se dicen excluyentes si la ocurrencia de uno
de ellos impide la ocurrencia del otro, y viceversa.
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵), 𝑃(𝐴 ∩ 𝐵) = 0
 Dos eventos 𝐴 y 𝐵 se dicen dependientes si la ocurrencia de uno
de ellos entrega información sobre la ocurrencia del otro, y
viceversa.
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) = , 𝑠𝑖 𝑃(𝐵) > 0
𝑃(𝐵)
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 50

 Teoremas:

 PROBABILIDAD  Teorema de la Multiplicación:


𝑆𝑒𝑎𝑛 𝐴1 , … , 𝐴𝑛 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑒𝑛 Ω, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠:
𝑛
𝑛
∏ 𝑃(𝐴𝑖 ) 𝑠𝑖 𝑙𝑜𝑠 𝐴′𝑖 𝑠𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.
𝑃 (⋂ 𝐴𝑖 ) = {
𝑖=1
𝑖=1
𝑃(𝐴1 ) ⋅ 𝑃(𝐴2 |𝐴1 ) ⋅ 𝑃(𝐴3 |𝐴1 ∩ 𝐴2 ) ⋯ 𝑃(𝐴𝑛 | ⋂𝑛−1
𝑖=1 𝐴𝑖 )

Teorema de Probabilidades Totales:


𝑆𝑒𝑎𝑛 𝐴1 , … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, y sea 𝐵 otro
evento en Ω, entonces:
𝑛

𝑃(𝐵) = ∑ 𝑃(𝐵|𝐴𝑖 ) ⋅ 𝑃(𝐴𝑖 )


𝑖=1

Teorema de Bayes:
𝑆𝑒𝑎𝑛 𝐴1 , … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, entonces para
cualquier otro evento 𝐵 en Ω, se tiene que:

𝑃(𝐵|𝐴𝑖 )𝑃(𝐴𝑖 )
𝑃(𝐴𝑖 |𝐵) = , ∀ 𝑖 = 1, … , 𝑛.
∑𝑛𝑗=1 𝑃(𝐵|𝐴𝑗 ) ⋅ 𝑃(𝐴𝑗 )
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 51

 Problema 1:

 PROBABILIDAD  Se lanza una vez un dado cúbico con sus caras enumeradas del 1 al 6 y se
observa la cara superior.

a) Determine el espacio muestral del experimento.


Solución:

Ω = {1,2,3,4,5,6}

b) Determine la probabilidad de que salga el 5.

Solución:

Sea el evento A = el dado muestra el número 5.

#A 1
P(A) = =
#Ω 6

c) Determine la probabilidad que salga un número par.

Solución:

Sea el evento B = el dado muestra un número par.

CF(B) 3 1
P(𝐵) = = =
𝐶𝑇(Ω) 6 2

d) Determine la probabilidad que salga un número mayor a 4.

Solución:

Sea el evento C = el dado muestra un número mayor a 4.

CF(𝐶) 2 1
P(𝐶) = = =
𝐶𝑇(Ω) 6 3
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 52
 Problema 2:

 1
Se tiene una moneda desbalanceada, con probabilidad de cara 3 y dos urnas,
 PROBABILIDAD  la urna A tiene 5 fichas blancas y 3 negras, la urna B tiene 3 fichas blancas y
5 negras. El experimento consiste en lanzar una vez la moneda al aire, si sale
cara se selecciona una ficha al azar desde la urna A, en cambio si sale sello se
selecciona al azar una ficha desde la urna B.

Una forma de representar el a) Determine el espacio muestral del experimento.


experimento, es mediante un
Solución:
árbol de probabilidades, en el
cual se representan
𝑆𝑒𝑎𝑛 𝑙𝑜𝑠 𝑒𝑣𝑒𝑛𝑡𝑜𝑠:
secuencialmente los eventos
y sus respectivas
𝐶: 𝑙𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑐𝑎𝑟𝑎
probabilidades de ocurrencia.

𝑆: 𝑙𝑎 𝑚𝑜𝑛𝑒𝑑𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑠𝑒𝑙𝑙𝑜

𝐵: la ficha extraída es blanca

𝑁: la ficha extraída es negra

Ω = {(𝐶, 𝐵), (𝐶, 𝑁), (𝑆, 𝐵), (𝑆, 𝑁)}


B

b) Determine la probabilidad de que la ficha extraída sea blanca.


C

Solución:
N

1 5 2 3 11
P(B) = ⋅ + ⋅ =
3 8 3 8 24
B

c) Si la ficha extarída es de color negro, ¿Cuál es la probabilidad que la


S
moneda haya mostrado sello?
N
Solución:

3 2 6
P(N|S)P(S) ⋅ 6
P(𝑆|𝑁) = = 8 3 = 24 =
𝑃(𝑁) 1 3 2 5 13 13
3⋅8+3⋅8 24
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 53
Problemas Propuestos

1. Demostrar que si dos eventos 𝐴 y 𝐵 son independientes, entonces 𝐴𝑐

y 𝐵 𝑐 son independientes.
 PROBABILIDAD 

2. Una urna contiene cinco dados con sus caras de color blanco o rojo.
El dado número 𝑖 (𝑖 = 1, … ,5) tiene 𝑖 de sus caras blancas y el resto rojas.
Se selecciona al azar un dado de la urna, se lanza y sale cara roja. ¿Cuál es la
probabilidad de que el dado seleccionado sea el 𝑖?

3. Una caja contiene 5 fichas blancas y 10 negras. Se lanza un dado y


luego se extraen (sin reposición) de la caja tantas fichas como puntos se
obtienen en el dado,
a) ¿Cuál es la probabilidad de que exactamente dos de las fichas extraídas
sean blancas?
b) ¿Cuál es la probabilidad de que el dado muestre 3 si todas las fichas
extraídas fueron blancas?

4. Una mano de póker consiste en cinco cartas seleccionadas sin


reemplazo de una baraja de 52 (sin comodines). Determine la probabilidad
de obtener las siguientes combinaciones:
a) Escalera de color: las cinco cartas consecutivas y del mismo palo.
b) Escalera de color real: escalera de color con el As como carta mayor,
detrás de la K.
c) Póker: cuatro cartas con la misma numeración.
d) Póker de ases.
e) Full: tres cartas con una numeración y las otras dos con otra.
f) Escalera: las cinco cartas consecutivas (el As puede ir al comienzo o al
final).
g) Color: las cinco cartas del mismo palo.
h) Dobles parejas.
i) Trío.
j) Pareja.
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 54


5. Un banco ha comprobado que la probabilidad de que un cliente con

fondos extienda un cheque con fecha equivocada es de 0,001. En cambio, todo
 PROBABILIDAD 
cliente sin fondos pone una fecha errónea en sus cheques. El 90% de los
clientes del banco tienen fondos. Se recibe hoy en caja un cheque con fecha
equivocada. ¿Qué probabilidad hay de que sea de un cliente sin fondos?

6. Obtener la probabilidad 𝑝 de que al lanzar n veces dos dados se


obtenga al menos un 6 doble. ¿Cuántas partidas habrá que jugar para que
tengamos 𝑝 = 1/2 de obtener un 6 doble?

7. Problema de Galton. Se lanzan tres monedas al aire, ¿cuál es la


probabilidad de que las tres sean caras o las tres cruces?

8. Una caja contiene ocho bolas rojas, tres blancas y nueve azules. Si se
sacan tres bolas al azar, determinar la probabilidad de que:
a) las tres sean rojas;
b) las tres sean blancas;
c) dos sean rojas y una blanca;
d) al menos una sea blanca;
e) sean una de cada color;
f) salgan en el orden roja, blanca, azul.
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 55


 Introducción
 VARIABLE
En variados problemas, es posible definir una variable que represente el
ALEATORIA
fenómeno de interés, ya sea que cuente la cantidad de caras al lanzar una
DISCRETA 
moneda diez veces o que cuente la cantidad de automóviles que pasan por
pórtico en una carretera.

Definición:

Se dice que una variable aleatoria (v.a.) 𝑋 es discreta, si el conjunto de


posibles resultados 𝐵 ∈ Ω (soporte), es un conjunto finito o infinito
numerable, de tal forma que existe una función que asocia un número
real con cada elemento del soporte.

Definiciones:

 Se denomina función de probabilidad o función de


distribución de probabilidad de la variable aleatoria 𝑿, al
conjunto de pares ordenados (𝑥, 𝑓(𝑥)) si se cumple:
1. 𝑓(𝑥) ≥ 0 ∀ 𝑥 ∈ 𝐵.
2. ∑𝑥∈𝐵 𝑓(𝑥) = 1.
3. 𝑃(𝑋 = 𝑥) = 𝑓(𝑥).
 Se denomina función de distribución acumulada 𝑭(𝒙) de la
variable aleatoria 𝑿:

𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∑ 𝑓(𝑡) ∀ 𝑥 ∈ 𝐵.


𝑡≤𝑥
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 56

 Definiciones:


 Se define el Valor Esperado de la variable aleatoria 𝑋, como:
 VARIABLE
𝐸(𝑋) = ∑ 𝑥 ⋅ 𝑓(𝑥).
ALEATORIA
𝑥∈𝐵
DISCRETA 
 Se define el Momento de orden 𝒌 de la variable aleatoria 𝑋,
como:

𝐸(𝑋 𝑘 ) = ∑ 𝑥 𝑘 ⋅ 𝑓(𝑥).
𝑥∈𝐵

 Se define la Varianza de la variable aleatoria 𝑋, como:


𝑉𝑎𝑟(𝑋) = 𝐸((𝑋 − 𝐸(𝑋) )2 ) = 𝐸(𝑋 2 ) − 𝐸(𝑋)2 .

Problema 1:

Se lanzar una moneda equilibrada tres veces y se observa la cantidad de caras


que muestre la moneda.

a) Construya la función de distribución de probabilidad para el número


de caras.

Solución:
Sea 𝑋 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑎𝑠, entonces los valores posibles de la variable
aleatoria son: 𝑋 = 0, 1, 2, 3 luego la distribución de probabilidad queda
definida como:
X: número de caras Espacio Muestral Probabilidad
0 (S,S,S) 1
8
1 (C,S,S); (S,C,S); (S,S,C) 3
8
2 (C,C,S); (C,S,C); (C,C,S) 3
8
3 (C,C,C) 1
8
Total 1
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 57
b) Obtener la media de la distribución.

 Solución:
1 3 3 1
 VARIABLE 𝐸(𝑋) = μ = 0 ( ) + 1 ( ) + 2 ( ) + 3 ( ) = 1,5
8 8 8 8
ALEATORIA
DISCRETA  El resultado de la media o valor esperado es 1,5 caras, para el experimento
aleatorio de lanzar tres veces una moneda.

c) Calcular e interpretar la varianza y desviación estándar.

Solución:
1 3 3 1
𝑉𝑎𝑟(𝑋) = 𝜎 2 = [02 ( ) + 12 ( ) + 22 ( ) + 32 ( )] − 1,52 = 0,75
8 8 8 8

Luego, la desviación estándar es:


𝐷. 𝐸. (𝑋) = 𝜎 = √𝑉𝑎𝑟(𝑋) = √0,75 = 0,87

El valor de la desviación estándar es de 0,87 caras, lo cual nos indica que tan
desviados están los valores alrededor de la media.

d) Representar gráficamente la distribución.

Solución:

Distribución de probabilidad
0,40

0,30

0,20

0,10

0,00
0 1 2 3
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 58
Problema 2:

Se realizó un estudio para caracterizar el comportamiento de la cantidad de
 hijos por familia. La tabla siguiente, resume los resultados del estudio:
 VARIABLE X 0 1 2 3 4
ALEATORIA
𝑃(𝑋 = 𝑥) 0,10 k 0,20 0,15 0,05
DISCRETA 
Con la información de la tabla anterior,

a) Determine el valor de la constante k para que la función sea una


función de probabilidad.

Solución:
4

∑ 𝑃(𝑋 = 𝑥) = 1 ⟺ 0,10 + 𝑘 + 0,20 + 0,15 + 0,05 = 1


𝑥=0
𝑘 = 1 − (0,10 + 0,20 + 0,15 + 0,05) = 0,50

b) ¿Cuál es la probabilidad que una familia tenga al menos 2 hijos?

Solución:
𝑃(𝑋 ≥ 2) = 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) + 𝑃(𝑋 = 4)
= 0,20 + 0,15 + 0,05 = 0,4

El 40% de las familias tienen al menos 2 hijos.

c) Determine la cantidad de hijos esperado por familia.

Solución:

𝐸(𝑋) = 0 ⋅ 0,10 + 1 ⋅ 0,50 + 2 ⋅ 0,20 + 3 ⋅ 0,15 + 4 ⋅ 0,05 =1,55

La cantidad esperada de hijos por familia es de 1,55 ≈ 2.

d) Determine la desviación estándar de la cantidad de hijos por familia.

Solución:

𝐸(𝑋 2 ) = 02 ⋅ 0,10 + 12 ⋅ 0,50 + 22 ⋅ 0,20 + 32 ⋅ 0,15 + 42 ⋅ 0,05 = 3,45

𝑉𝑎𝑟(𝑋) = 3,45 − 1,552 = 1,0475 ⟹ 𝜎 = √1,0475 = 1,02

La desviaciónestándar del número de hijos por familia es de 1,02.


UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 59
Problemas Propuestos

1. Estudiemos el modelo para el número de cuadernos en las mochilas

de estudiantes. Sea X una variable aleatoria que representa el número de
 VARIABLE cuadernos que llevan los estudiantes de esta Universidad:
ALEATORIA
X 0 1 2 3
DISCRETA 
𝑃(𝑋 = 𝑥) 0,5 0,2 0,2 0,1

a) Describir la forma de la distribución, de manera gráfica.


b) ¿Qué proporción de estudiantes llevan 3 o menos libros?
c) ¿Qué proporción de estudiantes llevan más de 2 libros?
d) ¿Qué proporción de estudiantes llevan entre 2,1 y 2,8 libros?
e) ¿Qué proporción de estudiantes llevan entre 1 y 2 libros (inclusive)?

2. En un estudio de reconocimiento de la marca Sony se entrevistaron


grupos de cuatro consumidores. Si X es el número de personas en el grupo
que reconocen la marca Sony entonces x puede ser 0, 1, 2, 3 o 4, y las
probabilidades correspondientes son 0,0016; 0,0250; 0,1746; 0,3892 y
0,4096. ¿Será infrecuente seleccionar al azar a cuatro consumidores y
descubrir que ninguno de ellos reconoce la marca Sony? ¿Cuál es la cantidad
esperada de personas que reconocen la marca?

𝑥
3. Determine si 𝑃(𝑋 = 𝑥) = 10 con X= 1, 2, 3, 4 es una función de
probabilidad. Verifique las propiedades que debe cumplir. Uno de los
requisitos de una distribución de probabilidad es que la suma de las
probabilidades debe ser 1 (se permite una pequeña cantidad de variación por
errores de redondeo). ¿Cuál es la justificación de este requisito?

4. Un trabador asigna un beneficio de carácter vitalicio a cinco personas.


Según las tablas actuales, la probabilidad de que una persona en estas
condiciones viva 30 años o más es 2/3. Hállese la probabilidad de que,
transcurridos 30 años, vivan:

a) Las cinco personas.


b) Al menos tres personas.
c) Exactamente dos personas.
d) Menos de dos personas.
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 60
5. En el informe del Mapa Socioeconómico de Chile elaborado por

Adimark aparece la distribución de número de bienes en el hogar (Ducha +
 TV color + Refrigerador + Lavadora + Calefont + Microondas + TV Cable
o Satelital + PC + Internet + Vehículo)
 VARIABLE
ALEATORIA X 𝑃(𝑋 = 𝑥)
DISCRETA  0 0,038
1 0,057
2 0,056
3 0,091
4 0,152
5 0,189
6 0,150
7 0,103
8 0,072
9 0,051
10 0,042

a) ¿Cuál es la probabilidad de encontrar un hogar con menos de 4 bienes?


b) ¿Cuál es la probabilidad de encontrar un hogar con más de 7 bienes?
c) ¿Cuál es la probabilidad de encontrar un hogar con 5 o más y menos
de 9?
d) Calcule el valor esperado de la variable aleatoria de interés, interprete
el resultado.
e) Determine la desviación estándar.
f) Represente gráficamente la distribución.

6. En la tabla distribución de probabilidades que se presenta a


continuación, se detalla número de artículos con fallas, en un embarque de
10.000 unidades de ese producto electrónico importado desde China y la
probabilidad respectiva.

N° de artículos con falla Probabilidad


3 0,111
4 0,278
5 0,222
6 0,167
7 0,139
8 0,083

Determine el intervalo de los ingresos esperados (𝜇 ± 𝜎).


UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 61

 7. En un sector de la ciudad de Santiago, se han otorgado subsidios de


agua con anterioridad alcanzando a un 25% de la población, si se extrae una
 muestra aleatoria de 10 familias.
a) ¿Cuál es la probabilidad de que exactamente en tres familias hayan
 VARIABLE
recibido el subsidio?
ALEATORIA
b) ¿Cuál es la probabilidad de que por lo menos una familia haya recibido
DISCRETA 
el subsidio?

8. El IPEC de abril muestra que se mantiene el buen ánimo de los


consumidores. Este resultado, además, se ubica como uno de los niveles
más altos de los últimos 16 años, señala que el 59,4%, de los chilenos
considera que nuestro país presenta actualmente una situación económica
buena. Determine la probabilidad de en una muestra de 30 personas entre
13 y 15, consideren una “buena situación económica” nacional.

9. Al analizar los impactos de las bombas V-1 en la Segunda Guerra


Mundial, el sur de Londres se subdividió en 576 regiones, cada una con área
de 0,25 km2. En total, 535 bombas impactaron el área combinada de 576
regiones. Si se selecciona al azar una región, calcule la probabilidad de que
haya sido impactada en dos ocasiones o menos.

10. El número promedio de goles de un equipo de fútbol de Inacap


durante el primer tiempo de un partido de futbol es 1,67. Calcule la
probabilidad de que pasen 2 goles en ese tiempo.

11. Un asistente comercial atiende en promedio a 5 personas por hora.


¿Cuál es la probabilidad de que en una determinada hora atienda a más de 7
personas? Además, calcule la desviación estándar.

12. Una compañía “asegura” la vida de 5000 personas mayores de 50 años.


La probabilidad de que una persona de 50 años muera en un determinado
año es de 0,001. ¿Cuál es la probabilidad de que la compañía pague 4
indemnizaciones en un determinado año?
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 62
Introducción

Dentro de las variables aleatorias, también se pueden distinguir las variables
 aleatorias continuas, de las cuales las más utilizadas para describir el
 DISTRIBUCIÓN comportamiento de distintos fenómenos y procesos de producción, en
NORMAL  especial en control de calidad es el llamado modelo Normal.

La distribución Normal, es un modelo que permite represntar el


comportamiento de una variable aleatoria continua. Su función de
distribución de probabilidad es:

1 −
1
(𝑥−𝜇)2
𝑓(𝑥) = ⋅𝑒 2⋅𝜎2 , 𝑠𝑖 − ∞ < 𝑥 < ∞
√2 ⋅ 𝜋 ⋅ 𝜎 2

Anotaremos, 𝑋 ∼ 𝑁(𝜇, 𝜎 2 ). La expresión anterior, indica que la variable 𝑋


tiene una distribución Normal de media 𝜇 y varianza 𝜎 2 .

Al construir el gráfico de la distribución Normal, se obtiene una forma muy


característica de esta distribución, forma por la cual recibe el nombre de
Campana de Gauss.

Aunque la distribución normal es muy útil para representar distintos


problemas sobre todo en control de calidad, el cálculo de las probabilidades
asociadas a una variable aleatoria normal, corresponderá al área bajo la
curva, cuya determinación implica técnicas complejas de Cálculo Integral.
Pero, toda variable normal puede ser transformada, mediante el siguiente
cambio de variable:

𝑋−𝜇
𝑍= ∼ 𝑁(0,1)
𝜎
La expresión 𝑍 ∼ 𝑁(0,1) indica que la variable aleatoria es normal con
media 0 y varianza 1, y se llama Distribución Normal Estándar.
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 63


Los valores de la distribución normal estándar se encuentran tabulados, y
 esta transformación se denomina estandarización.

 DISTRIBUCIÓN Problema 1:
NORMAL 
Sea una variable aleatoria con distribución Normal Estándar 𝑧 ∼ 𝑁(0,1).

a) Calcular el área que se encuentra a la izquierda de 𝑍 = 1,22

Solución:

La representación gráfica del problema, se muestra en la figura siguiente:

Utilizando la tabla de la distribución normal estándar acumulada, se obtiene


que 𝑃(𝑍 ≤ 1,22) = 0,8888.

b) Calcular el área que se encuentra a la derecha de 𝑍 = 1,22


(complemento).

Solución:

La representación gráfica del problema, se muestra en la figura siguiente:

𝑃(𝑍 > 1,22) = 1 − 𝑃(𝑍 ≤ 1,22) = 1 − 0,8888 = 0,1112


UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 64
c) Encuentre el área (probabilidad) de la distribución Normal
 estándar 𝑍 ∼ 𝑁(0,1) que se encuentra entre 𝑍 = 0 y 𝑍 = 1,22.

Solución:
 DISTRIBUCIÓN
NORMAL  La representación gráfica del problema, se muestra en la figura siguiente:

𝑃(0 ≤ 𝑍 ≤ 1,22) = P(Z ≤ 1,22) − P(Z ≤ 0)

= 0,8888 − 0,5000 = 0,3888

d) Encuentre el área (probabilidad) de la distribución Normal estándar


𝑍 ∼ 𝑁(0,1) que se encuentra entre 𝑍 = −2,07 y 𝑍 = 1,96.
Solución:

La representación gráfica del problema, se muestra en la figura siguiente:

𝑃(−2,07 ≤ 𝑍 ≤ 1,96) = P(Z ≤ 1,96) − P(Z ≤ −2,07)


= 0,975 − 0,0192 = 0,9558
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 65
Problema 2:

De acuerdo a los resultados de la Encuesta Suplementaria de Ingresos 2010-
 2011 dada a conocer por el Instituto Nacional de Estadísticas (INE), el
ingreso medio mensual per cápita de los ocupados es de $ 360.300 con una
 DISTRIBUCIÓN
variación típica $ 55.200.
NORMAL 
a) ¿Cuál es la probabilidad de seleccionar una persona al azar y que su
ingreso se encuentre entre $300.00 y $450.000 pesos?

Solución:

𝑃(300.000 ≤ 𝑋 ≤ 450.000)

Estandarizando:

300.000 − 360.300 450.000 − 360.300


= 𝑃( ≤𝑍≤ )
55.200 55.200

= 𝑃(−1,09 ≤ 𝑍 ≤ 1,63) = 𝑃(𝑍 ≤ 1,63) − 𝑃(𝑍 ≤ −1,09)

= Φ(1,63) − Φ(−1,09) = 0,9484 − 0,1379 = 0,8105

Finalmente: 𝑃(300.000 ≤ 𝑋 ≤ 450.000) = 0,8105.

El 81,05% de la población recibe un ingreso mensual entre $300.00 y


$450.000 pesos.

b) ¿Cuál es la probabilidad de seleccionar una persona al azar y que su


ingreso sea de al menos $490.000?

Solución:

𝑃(𝑋 ≥ 490.000) = 1 − 𝑃(𝑋 ≤ 490.000)

490.000 − 360.300
= 1 − 𝑃 (𝑍 ≤ ) = 1 − 𝑃(𝑍 ≤ 2,35)
55.200

= 1 − Φ(2,35) = 1 − 0,9906 = 0,0094

El 0,94% de la población recibe un ingreso mensual de al menos $490.000.

c) Determine el monto mínimo del ingreso que percibe el 20% superior


de los sueldos (cuarto quintil).

Solución:

𝑃(𝑋 ≥ 𝑥) = 0,20

Utilizando la estandarización y calculando el percentil 80, se tiene que:


UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 66

 x − 360.300
𝑃 (𝑍 ≤ ) = 1 − 0,20 = 0,80
55.200

𝑥 − 360.300
= 𝑍0,80
 DISTRIBUCIÓN 55.200
NORMAL 
𝑥 = 0,84 ⋅ 55.200 + 360.300

𝑥 = 406.668

El 20% se los sueldos superiores, son de al menos $406.668.

Problemas propuestos:

1. La pirámide poblacional de nuestro país presenta un promedio


poblacional de 𝜇 = 34,4 años y una desviación estándar de 𝜎 = 21,5, si
consideramos que nuestro país presenta un distribución Normal en la edad
¿Cuáles sería los valores para los cuartiles?

2. Calcular las probabilidades de la variable aleatoria Z, con una


distribución normal Z ~ N(0,1).
a) P(Z≤1,75)
b) P(Z>1,75)
c) P(Z≤0)
d) P(Z≥2,57)
e) P(1,89≤Z≤2,07)
f) P(-1,96≤Z≤-0,52)

3. Si X es una variable aleatoria distribuida normalmente con media 80 y


desviación estándar 10, calcular las siguientes probabilidades

a) P(X≤100)
b) P(X>80)
c) P(67≤X≤103)
d) P(82<X<92)
e) P(X>120)
f) P(X≤58)

4. Los administrativos de la municipalidad de Rioseco ganan en


promedio un sueldo líquido de $650.000 mensuales, con una desviación
estándar de $100.000, que se distribuye de forma Normal. Calcular la
probabilidad de que un empleado elegido aleatoriamente gane:

a) Un sueldo mayor a $850.000


UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 67
b) Un sueldo menor a $750.000

c) Un sueldo superior a $450.000
 d) Un sueldo entre $550.000 y $950.000
e) Un sueldo inferior a $650.000
 DISTRIBUCIÓN f) P(X>680.000)
NORMAL  g) P(X≤596.000)
h) P(567.000≤X≤803.000)
i) P(650.000<X<712.000)
j) ¿Cuál es el monto de sueldo que concentra el primer quintil?
k) ¿Cuál es el monto de sueldo que concentra el 10% de suelos más altos?
l) ¿Cuáles son los valores que concentran el 50% en torno a la media?

5. En una ciudad se estima que la temperatura máxima en el mes de abril


sigue una distribución normal, con media 23° y desviación típica 5°.Calcular
el número de días del mes en los que se espera alcanzar máximas entre 21°
y 27°. (Considere un mes=30 días).

6. La media de los pesos de 500 estudiantes de primero a cuarto medio


es 70 kilogramos y la desviación típica 5,5 kilógramos. Suponiendo que los
pesos se distribuyen normalmente. Construir la siguiente clasificación y
determinar el número de estudiantes que pertenecen a cada uno de las
categorías para determinar el gasto en un plan de salud:

a) Bajo peso: menos de 61,2 kilogramos


b) Peso normal: entre 61,2 y 77,2 kilogramos
c) Sobre peso: más de 77,2 kilogramos

7. El plan de salud que desea desarrollar una institución de ayuda tiene


los siguientes costos, debe invertir $50.000 por cada estudiante en categoría
bajo peso para su recuperación y $ 90.000 por cada estudiante con sobre
peso. El departamento de asistencia social cuenta con $5.000.000 de
presupuesto destinado a este colegio. ¿Es suficiente el monto para activar el
plan?

8. Se supone que los resultados de un examen siguen una distribución


normal con media 78 y varianza 36. Se pide:

a) ¿Cuál es la probabilidad de que una persona que se presenta el examen


obtenga una calificación superior a 72?
b) Si se sabe que con 64 puntos un estudiante obtiene nota de
aprobación. Calcule la proporción de estudiantes que tienen puntuaciones
que exceden por lo menos en cinco puntos de la puntuación que marca la
frontera entre aprobado y no aprobado.
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 68
9. Los puntajes de una prueba de concentración tienen una
 puntuación que sigue una distribución normal, con media 100 y desviación
 típica 15. Determinar el porcentaje de población que obtendría un puntaje
entre 95 y 110.
 DISTRIBUCIÓN
NORMAL  10. Se supone que el nivel de colesterol de los enfermos de un hospital
sigue una distribución normal con una media de 179,1 mg/dL y una
desviación estándar de 28,2 mg/dL.

a) Calcule el porcentaje de enfermos con un nivel de colesterol inferior


a 169 mg/dL.
b) ¿Cuál será el valor del nivel de colesterol a partir del cual se encuentra
el 10% de los enfermos del hospital con los niveles más altos?

11. El tiempo que demoran los nadadores de 100 metros estilo libre sigue
una normal con media 55 segundos y desviación estándar de 5 segundos.

a) Los organizadores de un campeonato deciden dar certificados a todos


los nadadores que terminen antes de 49 segundos. Si hay 50 nadadores en
los 100 metros mariposa, ¿cuántos certificados se necesitarán?
b) ¿Con qué tiempo debe terminar un nadador para estar entre el 2% más
rápido de la distribución de tiempos?
69

También podría gustarte