Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INACAP
Ciencias Básicas
Vicerrectoría de Académica de Pregrado
2015
2
ÍNDICE
UNIDAD 1 .................................................................................................................................................................... 4
ANÁLISIS DE DATOS UNIVARIADOS .............................................................................................................. 4
UNIDAD 2 ..................................................................................................................................................................28
ANÁLISIS DE DATOS BIVARIADOS ................................................................................................................28
UNIDAD 3 ..................................................................................................................................................................46
DISTRIBUCIÓN DE PROBABILIDAD NORMAL .........................................................................................46
3
PRESENTACIÓN
El presente texto, que INACAP pone a tu disposición, tiene los contenidos que sirven de
base y apoyo a tus clases, y puede ser utilizado como material de consulta permanente.
El nálisis descriptivo univariado trabaja con datos de una sola variable o distribución de
frecuencias y pretende determinar sus propiedades estadísticas. Este análisis proporciona
medidas representatvas de la distribución, estadísticos de dispersión, medidas de asimetría,
etc.
El análisis estadístico, involucra muchos más aspectos que solo definir, calcular y representar
en gráficos los datos, implica conocer la naturaleza de los datos y de esa forma la naturaleza
de la información. Al enfrentar los problemas que dan origen al conocimiento estadístico, los
investigadores utilizaron la intuición, la inventiva y la experimentación, elementos
fundamentales de todo experimento, que en muchas ocaciones no son perceptibles en las
fórmulas presentadas por los libros de textos.
APRENDIZAJE ESPERADO
CRITERIOS DE EVALUACIÓN
APRENDIZAJE ESPERADO
CRITERIOS DE EVALUACIÓN
Calcula medidas de tendencia central y las relaciona para definir el centro de un conjunto de datos.
Calcula medidas de dispersión, para describir la variabilidad de un conjunto de datos.
Compara conjuntos de datos mediante el uso de las medidas de resumen.
APRENDIZAJE ESPERADO
CRITERIOS DE EVALUACIÓN
Introducción
¿Qué significa aprender Estadística?
VARIABLES Y Habitualmente hablar de las estadísticas, trae a la mente gráfico y
TABLAS uorcentuales que, en muchas ocaciones no tienen mucho sentido si son
descontextualizadas.
Nominal
Cuanlitativas
Ordinal
VARIABLES Y
TABLAS a) La empresa XX se desea estudiar el número de horas trabajadas por
sus empleados.
b) En una fábrica se desea estudiar el número de hijos por cada
trabajador.
c) En la municipalidad de Santiago se estudia las marcas de automóviles
que tienen su patente obtenida en dicha Municipalidad.
d) En una Universidad se estudia las carreras que los alumnos siguen.
e) En un sindicato se desea estudiar el nivel de educación que tienen sus
afiliados.
Solución:
Problema 2:
En la tabla de frecuencias que se da a continuación faltan algunos datos complétela.
Variable 𝑥𝑖 ni hi 𝑁𝑖 Hi
20 – 24 0,10
24 – 28 0,25
- 32 11 0,55
32 - 0,85
- 40 1,00
Complete en cuadro.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 10
Solución:
calcular la marca de clase del intervalo:
𝑙í𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 + 𝑙í𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟
𝑥𝑖 =
2
VARIABLES Y
TABLAS
Variable 𝑥𝑖 ni hi 𝑁𝑖 Hi
20 – 24 22 2 0,10 2 0,10
24 – 28 26 3 0,15 5 0,25
28 – 36 30 6 0,30 11 0,55
32 – 36 34 6 0,30 17 0,85
36 – 40 38 3 0,15 20 1,00
Esta medidas deben su nombre al hecho de que sus valores tienden a ocupar
posiciones centrales o intermedios entre el menor y mayor valor del conjunto
de datos, es decir entregan información sobre el centro de la distribución.
Los más usados:
Los empleados de la empresa ALFA son sometidos a un test de habilidades, que otorga de 0 a 10 puntos. Los
resultados obtenidos por un grupo de trabajadores de la empresa son los siguientes:
4 7 9 10 10 7 5 6 7 8 5 5 6 7 3
3 4 9 8 7 9 10 7 8 4 5 6 9 10 9
Solución:
3 3 4 4 4 5 5 5 5 6 6 6 7 7 7
7 7 7 8 8 8 9 9 9 9 9 10 10 10 10
𝑿 𝟑𝟎 +𝑿 𝟑𝟎
(𝟐) ( 𝟐 +𝟏) 𝑿(𝟏𝟓) +𝑿(𝟏𝟔) 𝟕+𝟕
𝑴𝒆 = = = =𝟕
𝟐 𝟐 𝟐
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 12
Problema 4:
Los siguientes datos corresponden a los trabajadores que se ausentaron de
ANALISIS DE una fábrica en 55 días laborales.
DATOS
UNIVARIADOS Días xi Trabajadores (ni)
0–4 2 5
4–8 6 15
8 – 12 10 16
12 – 16 14 8
16 – 20 18 3
20 – 24 22 7
Solución:
Solución:
2 ∗ 6 + 6 ∗ 15 + 10 ∗ 16 + 14 ∗ 8 + 18 ∗ 3 + 22 ∗ 7
𝑋̅ = = 10,58 [𝑑í𝑎𝑠]
55
4
𝑀𝑒 = 8 + [27,5 − 21] ∗ = 9,625[𝑑í𝑎𝑠]
16
Con lo anterior, se puede decir que la afirmación es correcta.
Solución:
16 − 15
𝑀𝑜 = 8 + ( ) ⋅ 4 = 8,44[𝑑í𝑎𝑠]
(16 − 15) + (16 − 8)
Problema 5:
La información de la tabla presenta la distribución del sueldo de un grupo
ANALISIS DE de Ingenieros Civiles industriales, en miles de pesos, con más de 3 años de
DATOS experiencia laboral y su calsificación según sexo.
UNIVARIADOS
Total 26 18
Solución:
1100 – 1400 12
1400 – 1700 16
1700 – 2000 12
Total 44
Solución:
300
𝑀𝑒 = 1400 + (22 − 20) ⋅ = 1437,5[𝑀$]
16
Como los percentiles dividen al conjunto en 100 partes iguales, para el claculo
de cualquier valor de cuantil usaremos sólo la fórmula de percentil.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 15
Problema 6:
Usando la información del ejercicio 5, determine:
ANALISIS DE
DATOS a) ¿Cuál es el ingreso máximo del 25% de los ingenieros varones?
UNIVARIADOS
Solución:
300
𝑃25 = 1100 + [6,5 − 1] ⋅ = 1335,71[𝑀$]
7
Por lo tanto el ingreso máximo del 25% de los ingenieros varones es de 1335,71
[M$]
b) ¿Cuál es el ingreso mínimo del 75% de los ingenieros varones que más ganan?
Solución:
Solución:
26 ∗ 𝑘1 300
950 = 800 + [ − 0] ⋅ ⇒ 𝑘1 = 1,92%
100 1
26 ∗ 𝑘2 300
1200 = 1100 + [ − 1] ⋅ ⇒ 𝑘2 = 12,82%
100 7
a. 9-10-11-12-13-14-15.
b. 6-8-10-12-14-16-18.
Problema 7:
ANALISIS DE En la última encuesta de opinión general, EOG, se consultó sobre qué
DATOS puntuación le pondrían a las modificaciones que se desean realizar a la ley de
UNIVARIADOS IVA a la compra de viviendas nuevas, obteniéndose los siguientes resultados:
Puntuación Frecuencia
0 – 20 40
20 – 40 35
40 – 60 15
60 – 80 5
80 – 100 5
Total 100
Solución:
Rango:
Rango Intercuartílico:
20
𝑄3 = 𝑃75 = 20 + [75 − 40] ∗ = 40 [𝑝𝑢𝑛𝑡𝑜𝑠]
35
20
𝑄1 = 𝑃25 = 0 + [25 − 0] ∗ = 12,5[𝑝𝑢𝑛𝑡𝑜𝑠]
40
𝑅𝐼 = 𝑄3 − 𝑄1 = 40 − 12,5 = 27,5[𝑝𝑢𝑛𝑡𝑜𝑠]
Varianza:
∑ 𝑥𝑖2 ∗ 𝑛𝑖
𝜎2 = − 𝜇2
𝑁
102 ⋅40+302 ⋅35+502 ⋅15+702 ⋅5+902 ⋅5
𝜎2 = − (30)2 = 480 [𝑝𝑢𝑛𝑡𝑜𝑠]2
100
Desviación Estándar:
Coeficiente de Variabilidad:
𝜎 21,91
𝐶𝑉 = ∗ 100 = ∗ 100 = 73%
𝑥̅ 30
La dispersión porcentual de las puntuaciones alcanza el 73%, esto indica que
existe una alta dispersión en los datos.
Problema 8:
1666,67
Desviación estándar 𝜎 = 40,82 𝜎 = 70,71
Coeficiente de Variabilidad 𝐶𝑉 𝐶𝑉
40,82 = 14,14%
=
250
∗ 100
= 16,33%
Solución:
Notar que todas las medidas de dispersión absoluta son más altas en el
grupo de los profesionales, antes de concluir que estos sueldos
presentan mayor variabilidad hay que tener en cuenta que se están
comparardo dos grupos diferentes, donde los sueldos son siempre
mayores en los profesionales, por esta razón el coeficiente de
variabilidad es una medida de variabilidad perfecta, ya que tiene en
cuenta todos los valores de la variable y al no tener dimensión permite
comparar la dispersión entre grupos, entonces se puede concluir que el
grupo con mayor dispersión es el de los sueldos de los técnicos.
Problema 9:
Frecuencia
Estado Civil Frecuencia Relativa
Absoluta
Soltero 85 65,9%
Casado 36 27,9%
Divorciado 5 3,9%
Viudo 3 2,3%
Total 129 100%
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 20
a) ¿Cuál es el estado civil que presenta mayor cantidad de personas?
Solución:
Solución:
Frecuencia absoluta
100 85
80
60 36
40
20 5 3
0
Frecuencia relativa
70%
60%
50%
40%
30%
20%
10%
0%
Problema 10:
Construcción de una tabla de frecuencias a partir de datos no
ANALISIS DE agrupados. Los siguientes datos corresponden, a los datos obtenidos en
una empresa en el turno vespertino, compuesto por trabajadores que
DATOS
prestan servicios a la empresa. Los datos se presentan en horas trabajadas
UNIVARIADOS
en la semana.
Solución:
Solución:
Solución:
Rango=26,0-8,0=18,0
𝑘 = 1 + 3,3 ⋅ 𝑙𝑜𝑔 (40) = 6,28 𝑙𝑢𝑒𝑔𝑜 𝑘 = 6
C=18,0/6=3,0
𝐸 = 8,0 + 6 ⋅ 3,0 − 26,0 − 0,1 = −0,1 por lo tanto se debe corregir.
Entonces 𝐸 = 8,0 + 6 ⋅ 3,1 − 26,0 − 0,1 = 0,5
El límite inferior 1 es: I1=8,0-0,5/2=7,75 finalmente I1=7,8.
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 22
LI LS 𝑛𝑖 ℎ𝑖 (%) 𝑁𝑖 𝐻𝑖 (%) 𝑥𝑖
7,8 10,8 4 10,0 4 10,0 9,3
10,9 13,9 6 15,0 10 25,0 12,4
ANALISIS DE
14,0 17,0 11 27,5 21 52,5 15,5
DATOS
17,1 20,1 14 35,0 35 87,5 18,6
UNIVARIADOS
20,2 23,2 3 7,5 38 95,0 21,7
23,3 26,3 2 5,0 40 100,0 24,8
Solución:
6 intervalos de clase.
Solución:
La clase 2, que contiene los valores de horas trabajadas desde 10,9 hasta 13,9.
Solución:
Solución:
Solución:
Solución:
ANALISIS DE El 77,5%.
DATOS
UNIVARIADOS j) Determine el promedio de horas trabajadas en la clase 4.
Solución:
18,6 horas.
Solución:
Frecuencia absoluta
15
10
0
9,3 12,4 15,5 18,6 21,7 24,8
Problema 11:
Construya el Box-plot para los datos del número de accidentes por año en una
intersección muy transitada en los últimos 20 años. Los valores ordenados son:
32 37 39 40 41 41 41 42 42 43 44 45 45 45 46 47 47 49
50 51
Solución: Para construir el Box-plot, se requiere los cinco números, que son
los siguientes:
Estadígrafo Valor
Mínimo (Xmin) 32
Primer cuartil (Q1) 41
Segundo cuartil (Q2) 43,5
Tercer cuartil (Q3) 46,5
Máximo (Xmax) 51
UNIDAD 1: ANÁLISIS DE DATOS UNIVARIADOS 24
Así, el Box-plot (gráfico de caja) que definido por, no existen valores extremos
en la muestra:
ANALISIS DE
DATOS
UNIVARIADOS
Gráfico de Statdisk
Problemas Propuestos:
3. Utilizando los datos del Variación mensual de ventas para una empresa de retail, con año base 2009,
5. Una empresa grande de equipos deportivos está probando el efecto de dos planes publicitarios sobre
las ventas de los últimos 4 meses. Dadas las ventas que se ven aquí, ¿cuál programa de publicidad
parece producir el crecimiento promedio más alto en ventas mensuales?
Mes Plan 1 Plan 2
Enero 1.657.000 4.735.000
Febrero 1.998.000 5.012.000
Marzo 2.267.000 5.479.000
Abril 3.432.000 5.589.000
6. Pensamiento crítico y medidas de tendencia central. Para cada uno de los siguientes ejercicios
podemos calcular medidas de tendencia central como la media y la mediana. Identifique una razón
importante por la que, en estos casos, la media y la mediana no son estadísticos que puedan servir de
manera precisa y efectiva como medidas de tendencia central.
7. Exactitud del pronóstico del clima. En un análisis de la exactitud del pronóstico del clima se
comparan las temperaturas máximas reales con las temperaturas máximas pronosticadas un día
anterior y con las temperaturas máximas pronosticadas cinco días antes. Más abajo se señalan los
errores entre las temperaturas pronosticadas y las temperaturas máximas reales para días consecutivos
en Santiago. ¿La desviación estándar sugiere que las temperaturas pronosticadas un día antes son más
exactas que las pronosticadas cinco días antes, como se esperaría?
9. Para ilustrar el cálculo de percentiles, se asume que se tienen observaciones para el número de
acciones correspondientes a 50 acciones transadas en la Bolsa de Valores de Santiago, como se
muestra en la tabla. Se desea calcular los cuartiles del conjunto de datos.
3 10 19 27 34 38 48 56 67 74
4 12 20 29 34 39 48 59 67 74
7 14 21 31 36 43 52 62 69 76
9 15 25 31 37 45 53 63 72 79
10 17 27 34 38 47 56 64 73 80
10. La siguiente tabla muestra la distribución de frecuencia de los sueldos (en miles de pesos) que reciben
150 empleados en una empresa.
Clases ni
120 – 160 20
160 – 200 30
200 – 240 50
240 – 280 30
280 – 320 20
Calcule el promedio, la mediana y la moda de los sueldos de los trabajadores de esta empresa.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 28
UNIDAD 2
APRENDIZAJE ESPERADO
CRITERIOS DE EVALUACIÓN
Realiza tablas de doble entrada utilizando distintos tipos de variables para su análisis.
Calcula distribuciones de frecuencias marginales y condicionales para describir las variables.
Aplica análisis conjunto de las variables para caracterizar su comportamiento simultáneo.
APRENDIZAJE ESPERADO
Evalúa el grado de asociación entre dos variables mediante el coeficiente y el análisis gráfico.
CRITERIOS DE EVALUACIÓN
APRENDIZAJE ESPERADO
Establece el comportamiento entre dos variables por medio de un modelo estadístico de regresión.
CRITERIOS DE EVALUACIÓN
Introducción
En muchas ocasiones el interés del investigador es estudiar
ANALISIS DE
simultaneamente dos caráterísticas o variables medidas en cada individuo o
DATOS elemento. Por ejemplo medir estatura y peso en cada trabajador de una
UNIVARIADOS empresa. Expresando la variable estatura con la letra x y el peso con la letra
y, por lo tanto se tendrán tantos pares de datos (x,y) como trabajadores
tenga la empresa. En esta unidad se estudian pares de variables de tipo
cuantitativas.
X\Y yi … yl 𝑙
∑ 𝑛𝑖𝑗 = 𝑛𝑖.
𝑗=1
x1 n11 … n1l n.1
x2 n21 … n2l n.2
… …
xk nk1 … nkl n.k
𝑘
𝑖=1 ∑ ∑ 𝑛𝑖𝑗 = 𝑛
𝑖=1 𝑗=1
𝑆𝑋𝑌 = ∑ 𝑥𝑖 𝑦𝑖 − 𝑛 ⋅ 𝑋̅ ⋅ 𝑌̅
𝑖=1
𝑛
𝑆𝑋𝑋 = ∑ 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2
𝑖=1
𝑛
𝑆𝑌𝑌 = ∑ 𝑦𝑖2 − 𝑛 ⋅ 𝑌̅ 2
𝑖=1
Solución:
Puntaje obtenido Nº de
Puntaje obtenido Nº de en la parte X estudiantes
en la parte X estudiantes 0 7
0 20 5 36
5 49 10 36
10 31 15 21
Total 100 Total 100
b) ¿En qué parte del examen los estudiantes obtuvieron mayor puntaje
medio?
0 ⋅ 20 + 5 ⋅ 49 + 10 ⋅ 31
𝑋̅ = = 5,55[𝑝𝑢𝑛𝑡𝑜𝑠]
100
0 ⋅ 7 + 5 ⋅ 36 + 10 ⋅ 36 + 15 ⋅ 21
𝑌̅ = = 8,55[𝑝𝑢𝑛𝑡𝑜𝑠]
100
0 ∗ 4 + 5 ∗ 15 + 10 ∗ 20 + 15 ∗ 10
𝑌̅𝑥=5 = = 8,67 [𝑝𝑢𝑛𝑡𝑜𝑠]
49
El puntaje medio en la parte Y para aquellos estudiantes que obtuvieron en la
parte X, 5 puntos fue de 8,67.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 33
Problema 2:
¿Existirá relación entre el estado nutricional y el rendimiento académico de
ANALISIS DE
estudiantes de enseñanza básica? Se midió el estado nutricional de 1000 niños
DATOS de enseñanza básica, el que fue clasificado como "malo", "regular" "bueno". El
UNIVARIADOS rendimiento académico fue clasificado como “bajo el promedio” “promedio” o
“sobre el promedio”.
Estado Nutricional
Malo Regular Bueno
Total
130 95 30 255
Rendimiento Bajo
120 450 35 605
Promedio
Académico
30 40 70 140
Sobre
280 585 135 1000
Total
Solución:
Solución:
Solución:
140
ANALISIS DE Son 140 niños en la muestra de 1.000, entonces el porcentaje es: 1000 = 0,14 =
DATOS 14%
UNIVARIADOS
Solución:
30
Son 30 niños en la muestra de 1.000, entonces el porcentaje es: 1000 = 0,03 =
3%
Solución:
Solución:
Estado Nutricional
Malo Regular Bueno TOTAL
Frecuencia 280 585 135 1000
Frecuencia relativa 28% 58,5% 13,5% 100%
Solución:
Rendimiento Académico
Bajo Promedio Sobre TOTAL
Frecuencia 255 605 140 1000
Frecuencia relativa 25,5% 60,5% 14% 100%
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 35
i) Obtenga la distribución condicional del rendimiento académico dado el estado nutricional, es
decir que consideramos al rendimiento académico como respuesta al estado nutricional.
Solución:
Estado Nutricional
Malo Regular Bueno
Estado Nutricional
Malo Regular Bueno
En una empresa donde trabajan 54 personas, se ordenó en una tabla de doble entrada, la información referida
al ingreso mensual y al tiempo de servicio en la empresa, Las variables definidas como sigue: 𝑋 =
𝑖𝑛𝑔𝑟𝑒𝑠𝑜 𝑚𝑒𝑛𝑠𝑢𝑎𝑙 (𝑚𝑖𝑙𝑒𝑠 𝑑𝑒 𝑝𝑒𝑠𝑜𝑠) e 𝑌 = 𝑡𝑖𝑒𝑚𝑝𝑜 𝑑𝑒 𝑠𝑒𝑟𝑣𝑖𝑐𝑖𝑜 𝑒𝑛 𝑙𝑎 𝑒𝑚𝑝𝑟𝑒𝑠𝑎 (𝑎ñ𝑜𝑠)
Tiempo de Servicio
0-4 4-8 8-12
6 4 2
300-340
Ingreso 3 6 4
340-480
Mensual 2 8 6
480-620
1 2 10
620-960
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 36
a) ¿Cuál es la cantidad de personas que llevan 4-8 años en la empresa y que tienen un ingreso mensual
de 480-620?
Solución:
Son 8 personas
b) ¿Cuál es el porcentaje de personas que tienen un tiempo de servicio entre 0-4 años y su ingreso
mensual está entre 620-960? ¿Qué porcentaje representa de los empleados?
Solución:
1
Es 1 persona de 54 personas empleadas, entonces el porcentaje es: 54 = 0,0185 = 1,85%
Solución:
Para Obtener la media marginal de la variable Ingreso Mensual, es necesario conocer la distribución
marginal, luego esta es:
Estado Nutricional
300-340 340-480 480-620 620-960 TOTAL
Marca de Clase 320 410 550 790
Frecuencia 12 13 16 13 54
Observación: Así también, se puede calcular la media marginal de la variable tiempo de servicio,
replicando el procedimiento anterior.
12∗(320−523)2 +⋯+13∗(790−523)2
𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑀𝑎𝑟𝑔𝑖𝑛𝑎𝑙 = 𝑆 2 = = 30.168 (Miles de pesos)2
54−1
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 37
Debido a que la unidad de los datos está al cuadrado no es posible interpretar de manera directa con el
promedio, luego, la desviación estándar marginal de los ingresos mensuales es:
𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 = 𝑆 = √30.168 = 173,689 ≈ 174 (Miles de pesos)
Tiempo de Servicio
Marcas de Clase 2 6 10
6 4 2
320
Ingreso 3 6 4
410
Mensual 2 8 6
550
1 2 10
790
320 ∗ 2 ∗ 6 + ⋯ + 790 ∗ 10 ∗ 10
𝐶𝑂𝑉(𝑥, 𝑦) = − 523,0 ∗ 6,7 = 237,8
54
Esto es la variación conjunta de las variables Ingreso Mensual y Tiempo de servicio. Podemos mencionar
que las variables 𝑥 e 𝑦 tiende a moverse en la misma dirección, es decir existe una relación positiva.
Problema 4:
Un docente de la asignatura de estadística desea relacionar los resultados obtenidos en la prueba 1 y los
resultados alcanzados en el examen, para lo cual cuenta con la siguiente información de sus estudiantes:
ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
P1 1,7 3,8 5,1 5,6 5,0 5,7 2,1 3,7 3,8 4,1 3,4 4,4 6,8 5,1 4,3 6,2 5,9 5,4 4,1 6,2 5,2 4,6 4,9 5,9 5,5
Ex 3,5 3,2 3,5 5,2 4,9 3,7 3,6 4,5 4,0 3,6 4,4 3,3 5,5 3,9 4,6 5,7 4,3 4,1 5,0 3,8 4,4 4,0 4,5 3,4 4,5
Solución:
El primer indicador es una referencia gráfica, a Continuación se presenta el Gráfico de Dispersión de Notas
en la Prueba 1 (X) versus Notas el Examen (Y) del curso de 25 alumnos.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 38
La gráfica presenta una correlación positiva (ascendente) leve entre las notas obtenidas en la prueba 1 y el
examen, por otra parte para determinar el grado de asociación entre dos variables se utiliza el coeficiente de
correlación de Pearson, denotado por “r”, en este caso su valor es:
El cual es consistente a la información gráfica, lo que señala finalmente que existe una correlación positiva y
leve entre ambas variables analizadas.
Problema 5:
Las estaturas y pesos de los 10 jugadores de baloncesto de la Universidad Tecnológica De Chile, Inacap son:
Estatura (x) 186 189 190 192 193 193 198 201 203 205
Pesos (y) 85 85 86 90 87 91 93 103 100 101
Solución:
La gráfica presenta una correlación positiva (ascendente) fuerte entre la estatura y el peso, el coeficiente de
correlación de Pearson, 𝑟 = 0,944, es cercano a 1, lo que es considerado como alto o fuerte.
Solución:
El modelo de regresión lineal para las variables: la estatura en centímetros (𝑥), que corresponde a la variable
predictiva o independiente y el peso en kilogramos (𝑦), que es la variable respuesta o dependiente, es:
𝑦 = 𝑎+𝑏∗𝑥
Donde:
𝑎 = −107,139
𝑏 = 1,022
Solución:
Solución:
e) El peso estimado de un jugador que mide 198 cm. ¿cuál es el residuo de la estimación?
Solución:
f) El peso estimado de un jugador que mide 201 cm. ¿cuál es el residuo de la estimación?
Solución:
Observación: las preguntas anteriores relejan los tipos de errores que se pueden estimar.
g) Estime el peso de un jugador de una estatura “particular” para la talla de los jugadores, que mide 155
cm. ¿cuál es el residuo de la estimación?
Solución:
La estimación del residuo o error: en esta situación no es posible afirmar que sea una buena estimación,
debido a que el valor de la variable 𝑥, se encuentra fuera del ámbito de los valores obtenidos en la muestra.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 41
h) Desarrollemos el análisis residual de nuestro modelo de regresión. Los datos considerados son
los siguientes:
Solución:
Estatura (𝑥) 186 189 190 192 193 193 198 201 203 205
Pesos (𝑦) 85 85 86 90 87 91 93 103 100 101
Estimado (𝑦̂) 83,0 86,0 87,0 89,1 90,1 90,1 95,2 98,3 100,3 102,4
Residuo (𝑒) 2,0 -1,0 -1,0 0,9 -3,1 0,9 -2,2 4,7 -0,3 -1,4
Residuos
6,0
4,0
2,0
Residuos
0,0
185 190 195 200 205 210
-2,0
-4,0
Esta gráfica presenta una distribución uniforme de los errores o residuos, esto es un indicador de que el
modelo es adecuado.
Solución:
Este valor señala que el error estándar de estimación del modelo es de 2,4 kilogramos.
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 42
Problemas Propuestos
Tipo de Acción
A B C D
2. Una compañía aérea desea estudiar la relación entre el número de vuelos y la edad de sus
pasajeros, consultó a sus pasajeros y recabó información resumida en la siguiente tabla.
4 19 15
10-25
25-40 4 25 9
Edad
8 16 6
40-65
6 23 11
65-80
4. Si el coeficiente de correlación para los datos de la tabla es 0,97, responda a las preguntas
siguientes, primero sin realizar ningún cálculo y después, comprobar las respuestas haciendo
los cálculos necesarios con su calculadora.
X 2 3 4 5 6
Y 5 7 8 13 14
5. Cada una de las frases siguientes contiene un error, explique en cada caso qué es lo que está
mal.
a) “Existe una alta correlación (r=0,32) entre el sexo de los trabajadores en Santiago y su salario”
b) “Se encontró una alta correlación (r=1,09) entre las evaluaciones de los estudiantes a los profesores
y los salarios de los académicos”
c) “La correlación entre el tamaño familiar y los metros cuadrados del hogar es r=0,65 metros
cuadrados”
Estudiante 1 2 3 4 5 6 7 8
Examen 1 60 75 70 72 54 83 80 65
Examen 2 60 100 80 68 73 97 85 90
UNIDAD 2: ANÁLISIS DE DATOS BIVARIADOS 44
a) Construya una gráfica de dispersión para estos datos, utilizando el puntaje del primer examen
como la variable X. ¿Parece lineal la relación?
b) Suponga que existe una relación lineal entre las calificaciones de los dos exámenes, calcule el valor
r de Pearson.
c) ¿Cuál es la variable explicativa y la variable respuesta?
d) Construya un modelo de regresión lineal simple
e) ¿Cuál es el puntaje estimado para el examen 2, si un estudiante logró 83 puntos en el examen 1?
f) Obtenga el error (residuo) de la estimación de la pregunta anterior. ¿Qué tipo de error se produce?
a) Grafica los datos, califique el gráfico según sus parámetros e infiera los resultados posibles del modelo
y la correlación,
b) La recta de regresión lineal de la producción sobre las horas.
c) El coeficiente de correlación lineal e interpreta la respuesta.
d) ¿Cuál es la proporción de variación de los resultados que puede explicarse por el modelo?
e) Obtenga el error estándar de estimación del modelo e interprete su valor.
Horas 80 79 83 84 78 60 82 85 79 84 80 62
Producción 300 302 315 330 300 250 300 340 315 330 310 240
9.Una compañía desea hacer predicciones del valor anual de sus ventas totales en cierto país a
partir de la relación de éstas y la renta nacional. Para investigar la relación cuenta con los
siguientes datos:
X 189 190 208 227 239 252 257 274 293 308 316
Y 402 404 412 425 429 436 440 447 458 469 469
X representa la renta nacional en miles de millones de pesos e Y representa las ventas las ventas de
la compañía en miles de euros en el periodo que va desde 1990 hasta 2000 (ambos inclusive):
x 1 1 1 2 2 2 3 3 3 10
y 1 2 3 1 2 3 1 2 3 10
a) Examine el patrón de los 10 puntos y determine de forma subjetiva sí parece existir una correlación
entre 𝑥 y 𝑦.
b) Después de identificar los 10 pares de coordenadas correspondientes a los 10 puntos, calcule el valor
del coeficiente de correlación r y determine si existe una correlación lineal.
c) Ahora elimine el punto con las coordenadas (10, 10) y repita los incisos a) y b). ¿Qué concluye cerca
del posible efecto de un solo par de valores?
11. Considere los siguientes conjuntos de datos. Desarrolle los siguientes puntos para cada uno
de los casos:
Caso 1
X 0 1 2 3 4 5 7 8 9 10
Y 1 4 8 18 19 24 36 43 42 47
Caso 2
X 0 1 2 3 4 5 7 8 9 10
Y 1 0 2 5 10 20 15 10 7 3
Caso 3
X 0 1 2 3 4 5 7 8 9 10
Y 0 6 9 15 10 35 15 60 75 20
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 46
L
a probabilidad, puede ser uno de los tópicos más interesantes para la caracterización
de un conjunto de datos, puesto que permite medir la incerteza que se tiene respecto
a un fenómeno de interés.
UNIDAD 3
DISTRIBUCIÓN DE PROBABILIDAD
NORMAL
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 47
DISTRIBUCIONES DE PROBABILIDAD
APRENDIZAJE ESPERADO
CRITERIOS DE EVALUACIÓN
APRENDIZAJE ESPERADO
CRITERIOS DE EVALUACIÓN
APRENDIZAJE ESPERADO
CRITERIOS DE EVALUACIÓN
Introducción
PROBABILIDAD
El concepto de probabilidad, aunque tiene suele ser utilizado con bastante
frecuencia en distintas situaciones, no siempre es utilizado de forma
adecuada. La medida de probabilidad permite medir el nivel de conocimiento
o de incertidumbre que se tiene respecto a un fenómeno de interés, es decir,
permite cuantificar qué tan seguros estamos que un determinado evento o
fenómeno puede ocurrir (respectivamente no ocurrir).
Definiciones:
Definiciones:
Dos eventos 𝐴 y 𝐵 se dicen independientes estocásticamente si
la ocurrencia de uno de ellos no afecta ni altera la ocurrencia del
otro, y viceversa.
𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐴) ⋅ 𝑃(𝐵)
Dos eventos 𝐴 y 𝐵 se dicen excluyentes si la ocurrencia de uno
de ellos impide la ocurrencia del otro, y viceversa.
𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵), 𝑃(𝐴 ∩ 𝐵) = 0
Dos eventos 𝐴 y 𝐵 se dicen dependientes si la ocurrencia de uno
de ellos entrega información sobre la ocurrencia del otro, y
viceversa.
𝑃(𝐴 ∩ 𝐵)
𝑃(𝐴|𝐵) = , 𝑠𝑖 𝑃(𝐵) > 0
𝑃(𝐵)
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 50
Teoremas:
Teorema de Bayes:
𝑆𝑒𝑎𝑛 𝐴1 , … , 𝐴𝑛 una partición disjunta y exhaustiva de Ω, entonces para
cualquier otro evento 𝐵 en Ω, se tiene que:
𝑃(𝐵|𝐴𝑖 )𝑃(𝐴𝑖 )
𝑃(𝐴𝑖 |𝐵) = , ∀ 𝑖 = 1, … , 𝑛.
∑𝑛𝑗=1 𝑃(𝐵|𝐴𝑗 ) ⋅ 𝑃(𝐴𝑗 )
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 51
Problema 1:
PROBABILIDAD Se lanza una vez un dado cúbico con sus caras enumeradas del 1 al 6 y se
observa la cara superior.
Ω = {1,2,3,4,5,6}
Solución:
#A 1
P(A) = =
#Ω 6
Solución:
CF(B) 3 1
P(𝐵) = = =
𝐶𝑇(Ω) 6 2
Solución:
CF(𝐶) 2 1
P(𝐶) = = =
𝐶𝑇(Ω) 6 3
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 52
Problema 2:
1
Se tiene una moneda desbalanceada, con probabilidad de cara 3 y dos urnas,
PROBABILIDAD la urna A tiene 5 fichas blancas y 3 negras, la urna B tiene 3 fichas blancas y
5 negras. El experimento consiste en lanzar una vez la moneda al aire, si sale
cara se selecciona una ficha al azar desde la urna A, en cambio si sale sello se
selecciona al azar una ficha desde la urna B.
Solución:
N
1 5 2 3 11
P(B) = ⋅ + ⋅ =
3 8 3 8 24
B
3 2 6
P(N|S)P(S) ⋅ 6
P(𝑆|𝑁) = = 8 3 = 24 =
𝑃(𝑁) 1 3 2 5 13 13
3⋅8+3⋅8 24
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 53
Problemas Propuestos
1. Demostrar que si dos eventos 𝐴 y 𝐵 son independientes, entonces 𝐴𝑐
y 𝐵 𝑐 son independientes.
PROBABILIDAD
2. Una urna contiene cinco dados con sus caras de color blanco o rojo.
El dado número 𝑖 (𝑖 = 1, … ,5) tiene 𝑖 de sus caras blancas y el resto rojas.
Se selecciona al azar un dado de la urna, se lanza y sale cara roja. ¿Cuál es la
probabilidad de que el dado seleccionado sea el 𝑖?
5. Un banco ha comprobado que la probabilidad de que un cliente con
fondos extienda un cheque con fecha equivocada es de 0,001. En cambio, todo
PROBABILIDAD
cliente sin fondos pone una fecha errónea en sus cheques. El 90% de los
clientes del banco tienen fondos. Se recibe hoy en caja un cheque con fecha
equivocada. ¿Qué probabilidad hay de que sea de un cliente sin fondos?
8. Una caja contiene ocho bolas rojas, tres blancas y nueve azules. Si se
sacan tres bolas al azar, determinar la probabilidad de que:
a) las tres sean rojas;
b) las tres sean blancas;
c) dos sean rojas y una blanca;
d) al menos una sea blanca;
e) sean una de cada color;
f) salgan en el orden roja, blanca, azul.
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 55
Introducción
VARIABLE
En variados problemas, es posible definir una variable que represente el
ALEATORIA
fenómeno de interés, ya sea que cuente la cantidad de caras al lanzar una
DISCRETA
moneda diez veces o que cuente la cantidad de automóviles que pasan por
pórtico en una carretera.
Definición:
Definiciones:
Definiciones:
Se define el Valor Esperado de la variable aleatoria 𝑋, como:
VARIABLE
𝐸(𝑋) = ∑ 𝑥 ⋅ 𝑓(𝑥).
ALEATORIA
𝑥∈𝐵
DISCRETA
Se define el Momento de orden 𝒌 de la variable aleatoria 𝑋,
como:
𝐸(𝑋 𝑘 ) = ∑ 𝑥 𝑘 ⋅ 𝑓(𝑥).
𝑥∈𝐵
Problema 1:
Solución:
Sea 𝑋 = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑟𝑎𝑠, entonces los valores posibles de la variable
aleatoria son: 𝑋 = 0, 1, 2, 3 luego la distribución de probabilidad queda
definida como:
X: número de caras Espacio Muestral Probabilidad
0 (S,S,S) 1
8
1 (C,S,S); (S,C,S); (S,S,C) 3
8
2 (C,C,S); (C,S,C); (C,C,S) 3
8
3 (C,C,C) 1
8
Total 1
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 57
b) Obtener la media de la distribución.
Solución:
1 3 3 1
VARIABLE 𝐸(𝑋) = μ = 0 ( ) + 1 ( ) + 2 ( ) + 3 ( ) = 1,5
8 8 8 8
ALEATORIA
DISCRETA El resultado de la media o valor esperado es 1,5 caras, para el experimento
aleatorio de lanzar tres veces una moneda.
Solución:
1 3 3 1
𝑉𝑎𝑟(𝑋) = 𝜎 2 = [02 ( ) + 12 ( ) + 22 ( ) + 32 ( )] − 1,52 = 0,75
8 8 8 8
El valor de la desviación estándar es de 0,87 caras, lo cual nos indica que tan
desviados están los valores alrededor de la media.
Solución:
Distribución de probabilidad
0,40
0,30
0,20
0,10
0,00
0 1 2 3
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 58
Problema 2:
Se realizó un estudio para caracterizar el comportamiento de la cantidad de
hijos por familia. La tabla siguiente, resume los resultados del estudio:
VARIABLE X 0 1 2 3 4
ALEATORIA
𝑃(𝑋 = 𝑥) 0,10 k 0,20 0,15 0,05
DISCRETA
Con la información de la tabla anterior,
Solución:
4
Solución:
𝑃(𝑋 ≥ 2) = 𝑃(𝑋 = 2) + 𝑃(𝑋 = 3) + 𝑃(𝑋 = 4)
= 0,20 + 0,15 + 0,05 = 0,4
Solución:
Solución:
𝑥
3. Determine si 𝑃(𝑋 = 𝑥) = 10 con X= 1, 2, 3, 4 es una función de
probabilidad. Verifique las propiedades que debe cumplir. Uno de los
requisitos de una distribución de probabilidad es que la suma de las
probabilidades debe ser 1 (se permite una pequeña cantidad de variación por
errores de redondeo). ¿Cuál es la justificación de este requisito?
1 −
1
(𝑥−𝜇)2
𝑓(𝑥) = ⋅𝑒 2⋅𝜎2 , 𝑠𝑖 − ∞ < 𝑥 < ∞
√2 ⋅ 𝜋 ⋅ 𝜎 2
𝑋−𝜇
𝑍= ∼ 𝑁(0,1)
𝜎
La expresión 𝑍 ∼ 𝑁(0,1) indica que la variable aleatoria es normal con
media 0 y varianza 1, y se llama Distribución Normal Estándar.
UNIDAD 3: DISTRIBUCIONES DE PROBABILIDAD 63
Los valores de la distribución normal estándar se encuentran tabulados, y
esta transformación se denomina estandarización.
DISTRIBUCIÓN Problema 1:
NORMAL
Sea una variable aleatoria con distribución Normal Estándar 𝑧 ∼ 𝑁(0,1).
Solución:
Solución:
Solución:
𝑃(300.000 ≤ 𝑋 ≤ 450.000)
Estandarizando:
Solución:
490.000 − 360.300
= 1 − 𝑃 (𝑍 ≤ ) = 1 − 𝑃(𝑍 ≤ 2,35)
55.200
Solución:
𝑃(𝑋 ≥ 𝑥) = 0,20
x − 360.300
𝑃 (𝑍 ≤ ) = 1 − 0,20 = 0,80
55.200
𝑥 − 360.300
= 𝑍0,80
DISTRIBUCIÓN 55.200
NORMAL
𝑥 = 0,84 ⋅ 55.200 + 360.300
𝑥 = 406.668
Problemas propuestos:
a) P(X≤100)
b) P(X>80)
c) P(67≤X≤103)
d) P(82<X<92)
e) P(X>120)
f) P(X≤58)
11. El tiempo que demoran los nadadores de 100 metros estilo libre sigue
una normal con media 55 segundos y desviación estándar de 5 segundos.