Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Definición de Estadística
Es una disciplina que se encarga de recolectar, resumir, analizar e interpretar datos, con el fin de explicar
condiciones o situaciones, apoyando la toma de decisiones.
Población (N)
Es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Corresponde al
universo del que se desea medir alguna característica particular. Normalmente es demasiado grande para
poder abarcarla.
Muestra (n)
Es un subconjunto que es extraído de la población, al que tenemos acceso y sobre el que realmente
hacemos las observaciones (mediciones).
Muestreo:
En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una
población), se selecciona una muestra, entendiendo por tal una parte representativa de la población.
El muestreo es por lo tanto una herramienta de la investigación científica, cuya función básica es
determinar que parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha
población.
Unidad de Análisis:
Las unidades de análisis, corresponden a los elementos de la población que serán observados.
Variable:
Corresponde a una característica observable que varía entre los diferentes individuos de una población. La
información que disponemos de cada individuo es resumida en variables.
Observación:
Dato:
Corresponde a una característica o atributo en particular. Son medidas recopiladas en forma grupal o no
agrupadas.
Ejemplo:
Análisis Estadístico de Datos – Primavera 2020
a) Variable Cuantitativa:
Describe una característica en términos de un valor numérico, que puede variar de un sujeto a otro
o de un momento a otro en un mismo sujeto. Ejemplos: estatura en cm; peso en kg, edad en años,
temperatura, sueldos (en miles $), ventas mensuales (en miles $), etc.
b) Variable Cualitativa
Describe una característica en términos de una cualidad, propiedad o atributo que posee o no un
sujeto, o una propiedad o cualidad que posee o no un sujeto. Ej.: género, estado civil, nivel
socioeconómico, tipo de sangre, afiliación a una AFP, enfermedad, etc.
Gráfico Circular
Histograma de frecuencias
ü Se utiliza para representar la distribución de frecuencias absolutas o relativas en una variable cuantitativa
continua.
ü Esta formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los limites de los
intervalos.
Análisis Estadístico de Datos – Primavera 2020
Polígono de Frecuencias
ü Se utiliza para representar la distribución de frecuencias absolutas o relativas de una variable cuantitativa
continua. Es útil cuando se quiere comparar dos distribuciones en un mismo gráfico.
Gráfico de Línea
ü Los gráficos de líneas se recomiendan para representar series de tiempo, donde la variable independiente
es el tiempo.
ü Se utiliza para comparar valores a lo largo del tiempo, indicándonos las fluctuaciones que tiene la
variable.
Ejemplo: En la siguiente tabla adjunta se observan dos variables, altura en centímetros y peso en kilogramos,
de un grupo de individuos. Construya un gráfico de dispersión con los datos de la tabla.
Si observas la trayectoria de la nube de puntos, podrás darte cuenta que existe una relación directa entre la
altura y el peso delas personas.
Ejemplo: Consideremos las edades en años de un grupo de personas que asisten a un evento
ü Este gráfico se utiliza para graficar variables cuantitativas. Consta de dos partes: la caja, que representa los
datos entre el percentil 25 y 75 y en cuyo interior se identifica el valor de la mediana y los bigotes: El bigote
inferior indica los valores contenidos entre el valor mínimo de la serie y el percentil 25, mientras el bigote
superior representa los datos contenidos entre el percentil 75 y el valor máximo de la serie de datos.
100
80
60
40
20
X1 X2
X3 X4
X5 X6
Y
Análisis Estadístico de Datos – Otoño 2020
Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la
información. Las dos exponen ordenadamente la información recogida en una muestra. Para la construcción de
la distribución de frecuencias, se deben conocer los siguientes conceptos:
Ejemplo de Aplicación
Los siguientes datos representan las 200 ventas (en miles de $) realizadas por una tienda de ropa deportiva
ubicada en el Costanera Center en un mes determinado.
Análisis Estadístico de Datos – Otoño 2020
Podemos resumir los datos por medio de una tabla y/o un gráfico. Para comenzar es importante identificar la
población, la variable y su respectiva clasificación o tipo, para poder realizar las interpretaciones
correspondientes.
Se determina el número de intervalos usando la Regla de Sturges y posteriormente se calcula la amplitud, como
se indica a continuación:
Análisis Estadístico de Datos – Otoño 2020
Análisis Estadístico de Datos – Otoño 2020
Ejercicios de Aplicación
1. Se realizó un estudio sobre una muestra de 300 hogares de la comuna de Maipú que son abastecidos con
agua potable por la empresa Aguas Andinas, con respecto al consumo promedio mensual (en m3).
Se pide:
b) Interprete el Histograma.
Análisis Estadístico de Datos – Otoño 2020
2. De 221 chips de computadores inspeccionados por un fabricante. Se ha podido registrar los siguientes
defectos.
Defecto fi hi(%)
Orificio no abierto 20 9,0%
Conexión deficiente 116 52,5%
Chips tamaño incorrecto 60 27,1%
Otros 25 11,3%
Total 221 100,0%
Defecto fi hi(%)
Orificio no abierto 20 9,0%
Conexión deficiente 116 52,5%
Chips tamaño incorrecto 60 27,1%
Otros 25 11,3%
Total 221 100,0%
Determine:
a) El número de estudiantes de la carrera de Ingeniería Comercial que forman parte del estudio es:
80 estudiantes.
Las medidas de tendencia central o de resumen son valores que generalmente se ubican en la parte central de la
distribución de datos. Fundamentalmente estas medidas se usan para variables cuantitativas, aportando una
idea acerca del comportamiento de la variable, por ejemplo: el promedio de un conjunto de datos.
- Media aritmética.
- Moda.
- Mediana.
1. La Media o Promedio
Es una de las medidas de tendencia central de mayor uso. Dada una colección de datos X1,X2,....Xn.
Entonces el promedio se define como la suma de los datos dividida por el total de la muestra y se denota
por: X
åx i
X= i =1
n
6,8 5,1 6,2 5,8 4,5 5,0 6,0 5,7 4,2 3,8
3,8 5,8 3,7 5,0 4,8 5,9 5,7 6,1 5,8 6,2
6,8 + 5,1 + 6,2 + 5,8 + 4,5 + 5,0 + 6,0 + 5,7 + 4,2 + 3,8 + 3,8 + 5,8 + 3,7 + 5,0 + 4,8 + 5,9 + 5,7 + 6,1 + 5,8 + 6,2
X=
20
105,9
X = = 5,295
20 La nota promedio del curso fue de 5,3
Análisis Estadístico de Datos – Otoño 2020
Si los datos están agrupados en una tabla de frecuencias se calcula la media, multiplicando la marca
de clase por la frecuencia de cada intervalo. Se suman los resultados de cada multiplicación y se
dividen por el número total de datos.
k
å fi × x´i
X= i =1
n
2.195
X= = 54,9 gramos
40
2. La Moda
Es aquel valor que más se repite, o que se presenta con mayor frecuencia dentro de un conjunto de datos, y
se denota por Mo.
3,7 3,8 3,8 4,2 4,5 4,8 5,0 5,0 5,0 5,2
5,3 5,5 5,8 5,8 6,0 6,2 6,4 6,4 6,6 6,8
También se utiliza la moda si la variable está medida en escala ordinal o numérica discreta:
é D1 ù
Mo = Li + ê ú* A
ë D1 + D 2 û
Ejemplo: A continuación, se tienen las edades de un grupo de personas que asistieron a una reunión.
Edad fi
16 - 20 8
20 - 24 10
24 - 28 15
28 - 32 12
32 - 36 5
æ 5 ö
50 Mo = 24 + ç ÷ * 4 = 26,5
è5 + 3ø
La edad más frecuente en el grupo de personas que asistió a la reunión es de 26,5 años.
Análisis Estadístico de Datos – Otoño 2020
3. La Mediana
Es aquel valor que divide la muestra en dos partes iguales. De este modo, la mediana es el primer valor
de la variable que deja por debajo de sí al 50% de las observaciones. La mediana corresponde al percentil
50 o Cuartil 2, (Mediana=P50=Q2). Notemos que la mediana es tanto un estadígrafo de posición y de
centralización.
æn ö
ç - Fianterior ÷
Me = Li + ç 2 ÷* A
ç fi ÷
ç ÷
è ø
Edad fi Fi
15 - 25 40 40
25 - 35 67 107
35 - 45 143 250
45 - 55 180 430
55 - 65 270 700
æ 487,5 - 430 ö
65 - 75 275 975 Me = 55 + ç ÷ *10 = 57,1
975 è 270 ø
Ejercicios de Aplicación
1. Se llevó a cabo un estudio en los policlínicos de la capital, sobre el número de atenciones de personas con
problemas respiratorios durante el mes de julio del 2019, considerado el mes más crítico en cuanto a niveles
de contaminación. El estudio se basó en una muestra de 14 policlínicos de Santiago. Calcule e interprete las
medidas de tendencia central.
28 – 24 – 10 – 36 – 30 – 17 – 8 – 11 – 51 – 15 – 31 – 15 – 34 – 15
28 + 24 + 10 + 36 + 30 + 17 + 8 + 11 + 51 + 15 + 31 + 15 + 34 + 15
Promedio: X = = 23,2
14
Interpretación:
Los policlínicos realizaron en promedio 23,2 atenciones a personas con problemas respiratorios
durante el mes de julio del 2019.
Moda: 28 – 24 – 10 – 36 – 30 – 17 – 8 – 11 – 51 – 15 – 31 – 15 – 34 – 15
Interpretación:
Mediana:
8 – 10 – 11 – 15 – 15 – 15 – 17 – 24 – 28 – 30 – 31 – 34 – 36 – 51
17 + 24
Me = = 20,5
2
Interpretación:
El 50% de los policlínicos realizaron 20 atenciones o menos en mes de julio del 2019 a personas
con problemas respiratorios.
Análisis Estadístico de Datos – Otoño 2020
2. El departamento de RRHH de una empresa, realizó un estudio para conocer las pérdidas anuales (en miles de
$) ocasionadas por las horas de atraso que registraron cada uno de sus 84 trabajadores. La siguiente tabla de
frecuencias muestra las observaciones obtenidas
Variable : Pérdidas anuales (en miles $) generada por horas de atraso de los trabajadores.
Clasificación : Cuantitativa Continua.
e) ¿Cuál es la pérdida anual de los trabajadores que representa al 50% de los datos?
Li : 115
n : 84
Fianterior : 36 æ 84 ö
ç - 36 ÷
fi : 28 Me = 115 + ç 2 ÷ *15 = 118,2 (en miles $)
ç 28 ÷
A : 15 ç ÷
è ø
El 50% de los trabajadores registraron pérdidas en el año por concepto de horas de atraso en la
empresa de a lo más $118.200
Análisis Estadístico de Datos – Otoño 2020
Ejercicio Propuesto
La siguiente tabla de frecuencias corresponde a la distribución de sueldos (en miles $) de sus 150
trabajadores de la empresa “Tecnópolis”
Respuesta: $ 1.280.000
Respuesta: $ 721.067
Respuesta: $ 627.368
d) Bajo qué valor se encuentra el 50% de los trabajadores con menores ingresos?
Respuesta: $ 681.081
Análisis Estadístico de Datos – Otoño 2020
Antes de empezar por revisar esta parte de la materia, te presento la siguiente tabla correspondiente a las
notas de dos hermanos que van en el mismo curso de Estadística y que rindieron siete evaluaciones
Se puede observar que ambos alunmos tienen idéntico rendimiento promedio. Sin embargo ¿quién tiene
rendimiento más homogéneo?, por inspección vemos que DIEGO, pues obtuvo sólo notas 4.0, mientras que
NATALIA obtuvo toda la gama de notas. Para contestar la pregunta propuesta mediante el uso de
indicadores estadísticos se desarrollaron los estadígrafos de variabilidad o medidas de Dispersión.
Las medidas de dispersión cuantifican la variabilidad (el grado de separación) que presenta un conjunto
de datos. Ya que dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero
diferir en términos de variación.
1. Rango:
Se define el rango o recorrido de los datos como la distancia que existe entre el dato de mayor valor
(máximo) y el de menor valor (mínimo).
Rango = Xmáx - Xmín
Para el ejemplo anterior:
Se puede apreciar que mientras mas heterogénea es la colección de datos mayor es el valor del rango. Sin
embargo el Rango puede exagerar el grado de heterogeneidad del los datos, ya que sólo se está
considerando los valores extremos de la variable en estudio.
2. Varianza
Mide la dispersión del conjunto de datos con respecto a su media o promedio.
Donde:
S 2
=
(X 1 -X ) + (X
2
2 )2
(
- X + ... + X n - X )
2 Xi
muestra
: Representa cada uno de los datos de la
Está muy claro que en el caso de Diego la variabilidad será CERO porque sus siete notas fueron las
mismas.
No ocurre lo mismo con Natalia que obtuvo notas distintas (muy buenas y muy malas). Calculemos
entonces su varianza.
Ejemplo: Concentración de Proteínas totales del plasma en prematuros normales de 15 días de edad
S2 =
(42,5 - 54,9)2 * 2 + (47,5 - 54,9)2 * 6 + (52,5 - 54,9)2 *12 + (57,5 - 54,9)2 *13 + (62,5 - 54,9)2 * 5 + (67,5 - 54,9)2 * 2 = 35,88
40 - 1
S = var ianza
Ejemplo:
Interpretación: La mayoría de las concentraciones de proteínas en el plasma, están entre 54,9 -5,99 y
54,9 + 5,99, es decir entre 48,91g/l y 60,89 g/l.
Análisis Estadístico de Datos – Otoño 2020
Coeficiente de Variación
Es una medida que permite interpretar el grado de heterogeneidad entre los datos y comparar el nivel
de dispersión de dos muestras de variables diferentes. Entre menor es el valor, más homogéneos son los
datos. Se calcula como el cociente entre la desviación estándar y el promedio, multiplicado por 100.
S
CV = ´100%
X
Criterios de Homogeneidad.
Medidas de Posición
Las medidas de posición no centrales permiten conocer otros valores característicos de la distribución,
que no son los valores centrales, los que nos ayudan a ubicar un dato dentro de la distribución. Entre las
medidas de posición, están:
• Cuartiles
• Quintiles
• Deciles
• Percentiles
1. Cuartiles (Ck)
Los cuartiles son valores que dividen a la muestra ordenada en forma ascendente en 4 partes iguales,
cada una de ellas con un 25% de las observaciones.
æ k *n ö
ç - Fianterior ÷
Ck = Li + ç 4 ÷× A donde k = 1,2,3
ç fi ÷
ç ÷
è ø
Análisis Estadístico de Datos – Otoño 2020
2. Quintiles (Qk)
Los quintiles son valores que dividen a la muestra ordenada en forma ascendente en 5 partes iguales,
cada una de ellas con un 20% de las observaciones.
æ k *n ö
ç - Fianterior ÷
Qk = Li + ç 5 ÷× A donde k = 1,2,3,4
ç fi ÷
ç ÷
è ø
Análisis Estadístico de Datos – Otoño 2020
3. Deciles (Dk)
Los deciles son valores que dividen a la muestra ordenada en forma ascendente en 10 partes iguales,
cada una de ellas con un 10% de las observaciones.
æ k *n ö
ç - Fianterior ÷
Dk = Li + ç 10 ÷× A donde k = 1,2,3,4,5,6,7,8,9
ç fi ÷
ç ÷
è ø
Los percentiles son valores que dividen a la muestra ordenada en forma ascendente en 100 partes
iguales, cada una de ellas con un 1% de las observaciones. Si los datos de la variable se presentan
agrupados en intervalos, se deben seguir los siguientes pasos:
æ k *n ö
ç ÷
Segundo: Determinar el intervalo, que contiene el primer Fi que supere a è 100 ø
æ k *n ö
ç - Fianterior ÷
Pk = LI + ç 100 ÷× A Donde k = 1,2,3,4,.....,99
ç fi ÷
ç ÷
è ø
Análisis Estadístico de Datos – Otoño 2020
Para facilitarte más la vida, vamos a quedarnos sólo utilizando la fórmula de percentiles, ya que los
cuartiles, quintiles y deciles, se encuentran dentro de los percentiles. Sólo que debes tener claro lo
siguiente:
Quintil 1 = Percentil 20
Cuartil 1 = Percentil 25 Quintil 2 = Percentil 40
Cuartil 2 = Percentil 50 = Mediana Quintil 3 = Percentil 60
Cuartil 3 = Percentil 75 Quintil 4 = Percentil 80
Decil 1 = Percentil 10
Decil 2 = Percentil 20
Decil 3 = Percentil 30
Decil 4 = Percentil 40
Decil 5 = Percentil 50 = Mediana
Decil 6 = Percentil 60
Decil 7 = Percentil 70
Decil 8 = Percentil 80
Decil 9 = Percentil 90
Análisis Estadístico de Datos – Otoño 2020
Ejercicio de Aplicación
Ahora revisaremos paso a paso el siguiente ejercicio en donde aplicaremos todo lo visto durante la
semana 3 y tambien de la semana 2 para reforzar la materia de medidas de tendencia central.
En la siguiente tabla se muestra los montos (en miles $) por concepto de devolución de impuestos que
realizo el SII a una muestra de 1000 contribuyentes en abril 2019
Se pide:
Unidad de Observación: Contribuyentes que recibieron devolución de impuestos por parte del SII.
b) Construya una TDF considerando las frecuencias absolutas (fi) y relativas (hi)
c) Señale cuál sería el gráfico más adecuado para mostrar la información de los montos (en miles $) por
concepto de devolución de impuestos.
Como se trata de una variable cuantitativa continua, en la que los datos se encuentran
agrupados en intervalos, el gráfico recomendado es un Histograma de Frecuencias.
100 *12 + 140 *141 + 180 * 414 + 220 * 280 + 260 *108 + 300 * 32 + 340 * 8 + 380 * 5
X =
1.000
199.360
X = = 199,4 (en miles $)
1.000
Análisis Estadístico de Datos – Otoño 2020
Moda: Para calcular la moda, debes de tomar aquel intervalo en donde observes la mayor frecuencia
absoluta (fi), eso te indica que la mayoría de los pacientes se encuentra en ese intervalo.
æ 273 ö
Mo = 160 + ç ÷ * 40 = 186,8 (en miles $)
è 273 + 134 ø
Mediana
Para calcular la mediana, debes fijarte en el primer porcentaje acumulado (Hi%) que supere o contenga al
50% de los datos. Luego utilizas la fórmula.
Devolución de impuestos Número de
hi(%) Fi Hi(%)
(en miles $) contribuyentes
[80 – 120] 12 1,20% 12 1,20%
(120 – 160] 141 14,10% 153 15,30%
(160 – 200] 414 41,40% 567 56,70%
(200 – 240] 280 28,00% 847 84,70%
(240 – 280] 108 10,80% 955 95,50%
(280 – 320] 32 3,20% 987 98,70%
(320 – 360] 8 0,80% 995 99,50%
(360 – 400] 5 0,50% 1000 100,00%
æ 1000 ö
ç - 153 ÷
Me = 160 + ç 2 ÷ * 40 = 193,5 (en miles $)
ç 414 ÷
ç ÷
è ø
Primero debemos conocer la media o Promedio, que ya se determinó anteriormente y que es:
100 *12 + 140 *141 + 180 * 414 + 220 * 280 + 260 *108 + 300 * 32 + 340 * 8 + 380 * 5
X =
1.000
199.360
X = = 199,4
1.000
Análisis Estadístico de Datos – Otoño 2020
((100 - 199,4) *12)+ ((140 - 199,4) *141)+ ((180 - 199,4) * 414)+ ((220 - 199,4) * 280)+
2 2 2 2
S 2
=
((260 - 199,4) *108)+ ((300 - 199,4) * 32)+ ((340 - 199,4) * 8)+ ((380 - 199,4) * 5)
2 2 2 2
1000 - 1
1.932.392
S2 = = 1934,326
999
Ahora determinamos la Desviación Estándar(S), sacando la raíz cuadrada a la Varianza
S = 1934,326
S = 43,98
El primer quintil cubre el 20% más bajo del conjunto de datos. Por lo tanto, es equivalente a calcular el
Percentil 20. Antes de aplicar la fórmula debes ubicar el primer Hi(%) que contenga a ese 20%
Eso te indicará que el P20 se encuentra en el intervalo 160 – 200. Ahora ya puedes reemplazar los datos
en la fórmula
æ 20 *1000 ö
ç - 153 ÷
P20 = 160 + ç 100 ÷ * 40 = 164,5 (en miles $)
ç 414 ÷
ç ÷
è ø
Interpretación: El 20% de los contribuyentes con menores montos de devoluciones de
impuestos, recibieron a lo más $164.500
El tercer cuartil cubre el 75% más bajo del conjunto de datos. Por lo tanto, es equivalente a calcular el
Percentil 75. Antes de aplicar la fórmula debes ubicar el primer Hi(%) que contenga a ese 75%
Eso te indicará que el P75 se encuentra en el intervalo 200 – 240. Ahora ya puedes reemplazar los datos
en la fórmula
æ 75 *1000 ö
ç - 567 ÷
P75 = 200 + ç 100 ÷ * 40 = 226,1 (en miles $)
ç 280 ÷
ç ÷
è ø
Interpretación: El 75% de los contribuyentes con menores montos de devoluciones de
impuestos, recibieron a lo más $226.100
Análisis Estadístico de Datos – Otoño 2020
h) Sobre ¿qué valor se encuentra el decil con mayores montos en devoluciones de impuesto?
La palabra clave aquí es “sobre qué valor”. El decil con mayores montos representa el 10% de los
contribuyentes que más recaudaron. Por lo tanto, hay un 90% que se encuentra por debajo de ese
monto. Eso quiere decir que debemos calcular el Percentil 90
æ 90 *1000 ö
ç - 847 ÷
P90 = 240 + ç 100 ÷ * 40 = 259,6 (en miles $)
ç 108 ÷
ç ÷
è ø
Interpretación: El 10% de los contribuyentes con mayores montos de devoluciones de
impuestos, recibieron sobre los $259.600