Manual Estudiante Unidad 1

Análisis Estadístico de Datos – Primavera 2020
UNIDAD 1: Estadística Descriptiva
Definición de Estadística
Es una disciplina que se encarga de recolectar, resumir, analizar e interpretar datos, con el fin de explicar
condiciones o situaciones, apoyando la toma de decisiones.
Conceptos Básicos en Estadística
Población (N)
Es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Corresponde al
universo del que se desea medir alguna característica particular. Normalmente es demasiado grande para
poder abarcarla.
Ejemplo: Deseamos medir el rendimiento

académico de los alumnos de Ingeniería en
Administración de Empresas. Por lo que la
población son todos los estudiantes de dicha
carrera.
Muestra (n)
Es un subconjunto que es extraído de la población, al que tenemos acceso y sobre el que realmente
hacemos las observaciones (mediciones).
La muestra debe lograr una representación

adecuada de la población, en la que se Ejemplo: Tomando el ejemplo anterior de Población,
reproduzca de la mejor manera los rasgos una muestra de ella serían los cursos.
esenciales de dicha población que son
importantes para la investigación. Para que una
muestra sea representativa, y por lo tanto útil,
debe de reflejar las similitudes y diferencias
encontradas en la población, es decir
ejemplificar las características de ésta
Muestreo:
En ocasiones en que no es posible o conveniente realizar un censo (analizar a todos los elementos de una
población), se selecciona una muestra, entendiendo por tal una parte representativa de la población.
El muestreo es por lo tanto una herramienta de la investigación científica, cuya función básica es
determinar que parte de una población debe examinarse, con la finalidad de hacer inferencias sobre dicha
población.
Unidad de Análisis:
Las unidades de análisis, corresponden a los elementos de la población que serán observados.
Por ejemplo: Personas, familias, hospitales, estudiantes, trabajadores, etc.
Variable:
Corresponde a una característica observable que varía entre los diferentes individuos de una población. La
información que disponemos de cada individuo es resumida en variables.
Observación:
Son distintas características, propiedades o atributos observadas en un mismo sujeto u objeto.
Dato:
Corresponde a una característica o atributo en particular. Son medidas recopiladas en forma grupal o no
agrupadas.
Ejemplo:
Clasificación de las Variables:
a) Variable Cuantitativa:
Describe una característica en términos de un valor numérico, que puede variar de un sujeto a otro
o de un momento a otro en un mismo sujeto. Ejemplos: estatura en cm; peso en kg, edad en años,
temperatura, sueldos (en miles $), ventas mensuales (en miles $), etc.
Las variables cuantitativas se pueden clasificar en:
a.1) Variable Cuantitativa Discreta:

Es aquella que sólo puede tener un número finito de valores en un intervalo cualquiera.
Ejemplos: Número de hijos en una familia, Número de casos de una enfermedad en un año,
Edad en años cumplidos, etc.
a.2) Variable Cuantitativa Continua:

Es aquella que tiene un número infinito de valores posibles en un intervalo cualquiera.
Ejemplos: peso en kg, longitud en metros, temperatura en grados, etc.
b) Variable Cualitativa
Describe una característica en términos de una cualidad, propiedad o atributo que posee o no un
sujeto, o una propiedad o cualidad que posee o no un sujeto. Ej.: género, estado civil, nivel
socioeconómico, tipo de sangre, afiliación a una AFP, enfermedad, etc.
Las variables cualitativas se pueden clasificar en:
b.1) Variable Cualitativa Nominal (o de clasificación):

Asigna como atributos nombres, rótulos o etiquetas sin sentido de magnitud, orden o jerarquía.
Ejemplos: género, estado civil, nacionalidad, raza, etc.
b.2) Variable Cualitativa Ordinal (o de categoría):

Asigna atributos que tienen un ordenamiento jerárquico o sentido de magnitud. Ejemplos:
intensidad de dolor, grado de satisfacción con la atención, grado de acuerdo con una opinión,
etc.
Representación Gráfica de la Información
Para hacer más clara y evidente la información que

nos proporcionan las tablas, se utilizan los gráficos.
Existen múltiples tipos de gráficos, siendo los más
usados frecuentemente: Gráfico de barras, gráfico
de sectores o circular (pastel), histograma, polígono
de frecuencias, la ojiva y el pictograma.
Gráfico Circular
ü Se utiliza para representar la frecuencia relativa

porcentual (hi).
ü Se aplica para cualquier tipo de variable, pero de
preferencia se aplica a variables cualitativas.
Histograma de frecuencias
ü Se utiliza para representar la distribución de frecuencias absolutas o relativas en una variable cuantitativa
continua.
ü Esta formado por rectángulos unidos a otros, cuyos vértices de la base coinciden con los limites de los
intervalos.
Polígono de Frecuencias
ü Se utiliza para representar la distribución de frecuencias absolutas o relativas de una variable cuantitativa
continua. Es útil cuando se quiere comparar dos distribuciones en un mismo gráfico.
Gráfico de Línea
ü Los gráficos de líneas se recomiendan para representar series de tiempo, donde la variable independiente
es el tiempo.
ü Se utiliza para comparar valores a lo largo del tiempo, indicándonos las fluctuaciones que tiene la
variable.
Ejemplo: En IPG se desea estudiar la evolución de Año Masculino Femenino

las matrículas en los últimos 5 años, en términos 2015 322 319
de los alumnos matriculados por género. Los 2016 321 319
resultados están detallados en la tabla adjunta. 2017 321 320
2018 320 319
2019 318 321
Análisis Estadístico de Datos – Otoño 2020
Gráfico de Dispersión
ü Un diagrama de dispersión es una representación gráfica de un sistema de ejes coordenados X e Y. Cada eje
representa una variable.
ü El conjunto de todos los puntos se denomina nube de puntos.
ü El propósito del diagrama de dispersión es mostrar, de manera intuitiva, si existe o no relación entre las
variables.
Ejemplo: En la siguiente tabla adjunta se observan dos variables, altura en centímetros y peso en kilogramos,
de un grupo de individuos. Construya un gráfico de dispersión con los datos de la tabla.
Si observas la trayectoria de la nube de puntos, podrás darte cuenta que existe una relación directa entre la
altura y el peso delas personas.
Gráfico de Tallo y Hojas

ü Consiste en mantener la decena del dato y clasificar la unidad numérica. Las unidades, por cada decena, son
puestas en orden ascendente.
Ejemplo: Consideremos las edades en años de un grupo de personas que asisten a un evento
Ahora es fácil observar, por ejemplo que:
1) La persona con menor edad tiene 16 años

2) La persona de mayor edad tiene 58 años
3) Existen tres personas con 45 años, etc.
Gráfico de Cajas y bigotes o Box Plot
ü Este gráfico se utiliza para graficar variables cuantitativas. Consta de dos partes: la caja, que representa los
datos entre el percentil 25 y 75 y en cuyo interior se identifica el valor de la mediana y los bigotes: El bigote
inferior indica los valores contenidos entre el valor mínimo de la serie y el percentil 25, mientras el bigote
superior representa los datos contenidos entre el percentil 75 y el valor máximo de la serie de datos.
100
80
60
40
20
X1 X2
X3 X4
X5 X6
Y
Tablas de Distribución de Frecuencias (TDF)
Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la
información. Las dos exponen ordenadamente la información recogida en una muestra. Para la construcción de
la distribución de frecuencias, se deben conocer los siguientes conceptos:
Ejemplo de Aplicación
Los siguientes datos representan las 200 ventas (en miles de $) realizadas por una tienda de ropa deportiva
ubicada en el Costanera Center en un mes determinado.
¿Cómo resumiría los datos anteriores?
Podemos resumir los datos por medio de una tabla y/o un gráfico. Para comenzar es importante identificar la
población, la variable y su respectiva clasificación o tipo, para poder realizar las interpretaciones
correspondientes.
¿Cómo se elabora la tabla de frecuencias?
Se determina el número de intervalos usando la Regla de Sturges y posteriormente se calcula la amplitud, como
se indica a continuación:
Finalmente la TDF quedaría representada de la siguiente forma:

Ejercicios de Aplicación
1. Se realizó un estudio sobre una muestra de 300 hogares de la comuna de Maipú que son abastecidos con
agua potable por la empresa Aguas Andinas, con respecto al consumo promedio mensual (en m3).
Se pide:
a) Identificar población y variable (clasificarla).
b) Interprete el Histograma.
2. De 221 chips de computadores inspeccionados por un fabricante. Se ha podido registrar los siguientes
defectos.
Defecto fi hi(%)
Orificio no abierto 20 9,0%
Conexión deficiente 116 52,5%
Chips tamaño incorrecto 60 27,1%
Otros 25 11,3%
Total 221 100,0%
a) Identifique la variable y clasifíquela.
Variable : Tipos de defectos o desperfectos que presentan los Chips.

Clasificación : Cualitativa Nominal
b) ¿Cuántos chips tienen la conexión deficiente? 116 Chips.
c) ¿Cuál es el porcentaje de los chips con tamaño incorrecto? 27,1%
Defecto fi hi(%)
Orificio no abierto 20 9,0%
Conexión deficiente 116 52,5%
Chips tamaño incorrecto 60 27,1%
Otros 25 11,3%
Total 221 100,0%
d) Construya un gráfico adecuado que represente la información.

3. El siguiente Histograma de Frecuencias corresponde a las calificaciones obtenidas en el examen final de

Matemáticas 2017 aplicada a un grupo de estudiantes de Ingeniería Comercial.
Determine:
a) El número de estudiantes de la carrera de Ingeniería Comercial que forman parte del estudio es:
80 estudiantes.
b) ¿Cuál es el rango de los datos? Interprete

Rango = 100 – 50 = 50 puntos
c) ¿En qué rango se encuentra los estudiantes con mejores calificaciones?

Los estudiantes con mejor calificación en el examen de Matemática 2017 se encuentran en el
rango de 95 – 100 puntos. Siendo sólo 2 alumnos que se ubican en este rango.
d) ¿Cuántos estudiantes no superaron los 80 puntos?

58 estudiantes no superaron los 80 puntos.
e) ¿Qué porcentaje de estudiantes obtuvieron entre 75 y 90 puntos?

Un 37,5% de los estudiantes obtuvieron una calificación entre 75 y 90 puntos.
f) ¿Cuál es la amplitud de los intervalos?

La amplitud de los intervalos es de 5 puntos
g) ¿Qué porcentaje de estudiantes obtuvieron una calificación de a lo más 65 puntos?

21,25%
Medidas de Tendencia Central
Las medidas de tendencia central o de resumen son valores que generalmente se ubican en la parte central de la
distribución de datos. Fundamentalmente estas medidas se usan para variables cuantitativas, aportando una
idea acerca del comportamiento de la variable, por ejemplo: el promedio de un conjunto de datos.
Entre las medidas de tendencia central más

importantes tenemos:
- Media aritmética.
- Moda.
- Mediana.
1. La Media o Promedio
Es una de las medidas de tendencia central de mayor uso. Dada una colección de datos X1,X2,....Xn.
Entonces el promedio se define como la suma de los datos dividida por el total de la muestra y se denota
por: X
1.1 La Media o promedio para Datos No Agrupados
åx i
X= i =1
n
Ejemplo: Se tienen las notas de 20 alumnos de un curso.
6,8 5,1 6,2 5,8 4,5 5,0 6,0 5,7 4,2 3,8
3,8 5,8 3,7 5,0 4,8 5,9 5,7 6,1 5,8 6,2
6,8 + 5,1 + 6,2 + 5,8 + 4,5 + 5,0 + 6,0 + 5,7 + 4,2 + 3,8 + 3,8 + 5,8 + 3,7 + 5,0 + 4,8 + 5,9 + 5,7 + 6,1 + 5,8 + 6,2
X=
20
105,9
X = = 5,295
20 La nota promedio del curso fue de 5,3
1.2 La Media o Promedio para Datos Agrupados en intervalos
Si los datos están agrupados en una tabla de frecuencias se calcula la media, multiplicando la marca
de clase por la frecuencia de cada intervalo. Se suman los resultados de cada multiplicación y se
dividen por el número total de datos.
k
å fi × xí
X= i =1
n
2 * 42,5 + 6 * 47,5 + 12 * 52,5 + 13 * 57,5 + 5 * 62,5) + 2 * 67,5

X =
40
2.195
X= = 54,9 gramos
40
La concentración promedio de proteínas en el plasma, en niños prematuros normales, es de 54,9 gramos.
2. La Moda
Es aquel valor que más se repite, o que se presenta con mayor frecuencia dentro de un conjunto de datos, y
se denota por Mo.
2.1 La Moda para Datos No Agrupados
Ejemplo: Considere las siguientes notas de un curso de 20 alumnos
3,7 3,8 3,8 4,2 4,5 4,8 5,0 5,0 5,0 5,2
5,3 5,5 5,8 5,8 6,0 6,2 6,4 6,4 6,6 6,8
La nota más frecuente en el curso fue 5,0

La moda es el estadístico de centralización adecuado si la variable está medida en escala nominal:
También se utiliza la moda si la variable está medida en escala ordinal o numérica discreta:
2.2 La Moda para Datos Agrupados
Para calcularla debe ubicarse el intervalo que tiene la mayor frecuencia
é D1 ù
Mo = Li + ê ú* A
ë D1 + D 2 û
Ejemplo: A continuación, se tienen las edades de un grupo de personas que asistieron a una reunión.
Edad fi
16 - 20 8
20 - 24 10
24 - 28 15
28 - 32 12
32 - 36 5
æ 5 ö
50 Mo = 24 + ç ÷ * 4 = 26,5
è5 + 3ø
La edad más frecuente en el grupo de personas que asistió a la reunión es de 26,5 años.
3. La Mediana
Es aquel valor que divide la muestra en dos partes iguales. De este modo, la mediana es el primer valor
de la variable que deja por debajo de sí al 50% de las observaciones. La mediana corresponde al percentil
50 o Cuartil 2, (Mediana=P50=Q2). Notemos que la mediana es tanto un estadígrafo de posición y de
centralización.
3.1 Mediana para Datos No Agrupados
3.2 Mediana para Datos Agrupados en intervalos

Dividir el total de la muestra en dos (n/2) y buscar el intervalo que contenga la frecuencia absoluta
acumulada mayor a n/2.
æn ö
ç - Fianterior ÷
Me = Li + ç 2 ÷* A
ç fi ÷
ç ÷
è ø
Ejemplo: Distribución por edad de 975 individuos
Edad fi Fi
15 - 25 40 40
25 - 35 67 107
35 - 45 143 250
45 - 55 180 430
55 - 65 270 700
æ 487,5 - 430 ö
65 - 75 275 975 Me = 55 + ç ÷ *10 = 57,1
975 è 270 ø
El 50% de los individuos de la muestra tiene a lo más 57,1 años.

Ejercicios de Aplicación
1. Se llevó a cabo un estudio en los policlínicos de la capital, sobre el número de atenciones de personas con
problemas respiratorios durante el mes de julio del 2019, considerado el mes más crítico en cuanto a niveles
de contaminación. El estudio se basó en una muestra de 14 policlínicos de Santiago. Calcule e interprete las
medidas de tendencia central.
28 – 24 – 10 – 36 – 30 – 17 – 8 – 11 – 51 – 15 – 31 – 15 – 34 – 15
28 + 24 + 10 + 36 + 30 + 17 + 8 + 11 + 51 + 15 + 31 + 15 + 34 + 15
Promedio: X = = 23,2
14
Interpretación:
Los policlínicos realizaron en promedio 23,2 atenciones a personas con problemas respiratorios
durante el mes de julio del 2019.
Moda: 28 – 24 – 10 – 36 – 30 – 17 – 8 – 11 – 51 – 15 – 31 – 15 – 34 – 15
Interpretación:
El número más frecuente de atenciones en los policlínicos a personas con problemas

respiratorios en el mes de julio del 2019 fue 15.
Mediana:
Primero ordenamos los datos de menor a mayor:
8 – 10 – 11 – 15 – 15 – 15 – 17 – 24 – 28 – 30 – 31 – 34 – 36 – 51
17 + 24
Me = = 20,5
2
Interpretación:
El 50% de los policlínicos realizaron 20 atenciones o menos en mes de julio del 2019 a personas
con problemas respiratorios.
2. El departamento de RRHH de una empresa, realizó un estudio para conocer las pérdidas anuales (en miles de
$) ocasionadas por las horas de atraso que registraron cada uno de sus 84 trabajadores. La siguiente tabla de
frecuencias muestra las observaciones obtenidas
Distribución de trabajadores según pérdidas anuales
marca de clase Perdidas anuales Trabajadores

xi (en miles $) fi hi(%) Fi Hi(%)
92,5 85 - 100 13 15,5% 13 15,5%
107,5 100 -115 23 27,4% 36 42,9%
122,5 115 - 130 28 33,3% 64 76,2%
137,5 130 - 145 13 15,5% 77 91,7%
152,5 145 - 160 6 7,1% 83 98,8%
167,5 160 - 175 1 1,2% 84 100,0%
84
a) Identifique la variable y clasifíquela.
Variable : Pérdidas anuales (en miles $) generada por horas de atraso de los trabajadores.
Clasificación : Cuantitativa Continua.
b) ¿Qué porcentaje de individuos tienen perdidas entre $115.000 y $130.000? 33,3%
c) ¿Cuántos trabajadores tienen perdidas menores a $145.000? 77 trabajadores
d) Determine las pérdidas anuales promedio de los trabajadores. Interprete.
92,5 *13 + 107,5 * 23 + 122,5 * 28 + 137,5 *13 + 152,5 * 6 + 167,5 *1

X = = 118,75 (en miles $)
84
La pérdida anual promedio ocasionada por los trabajadores por concepto de horas de atraso en
la empresa fue de $118.750
e) ¿Cuál es la pérdida anual de los trabajadores que representa al 50% de los datos?
Li : 115
n : 84
Fianterior : 36 æ 84 ö
ç - 36 ÷
fi : 28 Me = 115 + ç 2 ÷ *15 = 118,2 (en miles $)
ç 28 ÷
A : 15 ç ÷
è ø
El 50% de los trabajadores registraron pérdidas en el año por concepto de horas de atraso en la
empresa de a lo más $118.200
Ejercicio Propuesto
La siguiente tabla de frecuencias corresponde a la distribución de sueldos (en miles $) de sus 150
trabajadores de la empresa “Tecnópolis”
Sueldos fi h i (%) Fi H i (%) x´ i f i * x´ i

240 - 400 18
400 - 560 29
560 - 720 37
720 - 880 26
880 - 1.040 18
1.040 - 1.200 12
1.200 - 1.360 7
1.360 - 1.520 3
150
Se pide:
a) ¿Cuál es el Rango de la variable?
Respuesta: $ 1.280.000
b) ¿Cuál es el sueldo promedio de los trabajadores de la empresa “Tecnópolis”
Respuesta: $ 721.067
c) ¿Cuál es el sueldo más frecuente en la empresa “Tecnópolis”
d) Bajo qué valor se encuentra el 50% de los trabajadores con menores ingresos?
Medidas de Variabilidad o de Dispersión
Antes de empezar por revisar esta parte de la materia, te presento la siguiente tabla correspondiente a las
notas de dos hermanos que van en el mismo curso de Estadística y que rindieron siete evaluaciones
Alumno Calificaciones Promedio

Diego 4,0 4,0 4,0 4,0 4,0 4,0 4,0 4,0
Natalia 2,0 3,0 7,0 4,0 6,0 5,0 1,0 4,0
Se puede observar que ambos alunmos tienen idéntico rendimiento promedio. Sin embargo ¿quién tiene
rendimiento más homogéneo?, por inspección vemos que DIEGO, pues obtuvo sólo notas 4.0, mientras que
NATALIA obtuvo toda la gama de notas. Para contestar la pregunta propuesta mediante el uso de
indicadores estadísticos se desarrollaron los estadígrafos de variabilidad o medidas de Dispersión.
Las medidas de dispersión cuantifican la variabilidad (el grado de separación) que presenta un conjunto
de datos. Ya que dos conjuntos de datos pueden tener las mismas medidas de tendencia central pero
diferir en términos de variación.
1. Rango:
Se define el rango o recorrido de los datos como la distancia que existe entre el dato de mayor valor
(máximo) y el de menor valor (mínimo).
Rango = Xmáx - Xmín
Para el ejemplo anterior:
Rango(Calificaciones de Natalia) = 7,0 – 1,0 = 6

Rango(Calificaciones de Diego) = 4,0 – 4,0 = 0
Se puede apreciar que mientras mas heterogénea es la colección de datos mayor es el valor del rango. Sin
embargo el Rango puede exagerar el grado de heterogeneidad del los datos, ya que sólo se está
considerando los valores extremos de la variable en estudio.
2. Varianza
Mide la dispersión del conjunto de datos con respecto a su media o promedio.
2.1 Varianza para datos no agrupados

Su calculo es la media de las diferencias cuadráticas de cada observación con su media. Es representada
como σ2 cuando es la varianza poblacional y S2 varianza muestral. Describe la variabilidad de los datos
alrededor de la media. La varianza es grande cuando hay mucha dispersión y pequeña cuando hay poca
dispersión.
Para determinar la varianza cuando se trata de datos no agrupados utilizamosla expresión:
Donde:
S 2
=
(X 1 -X ) + (X
2
2 )2
(
- X + ... + X n - X )
2 Xi
muestra
: Representa cada uno de los datos de la
n -1 n : Número total de observaciones

X : Media o Promedio de la variable en estudio.
Ejemplo: Consideremos las calificaciones obtenidas en Estadística por Natalia y Diego
Alumno Calificaciones Promedio

Diego 4,0 4,0 4,0 4,0 4,0 4,0 4,0 4,0
Natalia 2,0 3,0 7,0 4,0 6,0 5,0 1,0 4,0
Está muy claro que en el caso de Diego la variabilidad será CERO porque sus siete notas fueron las
mismas.
No ocurre lo mismo con Natalia que obtuvo notas distintas (muy buenas y muy malas). Calculemos
entonces su varianza.
(-2) 2 + (-1) 2 + (3) 2 + 0 2 + 2 2 + 12 + (-3) 2

S2 =
7 -1
4 + 1 + 9 + 0 + 4 + 1 + 9 28
S2 = = = 4,67
6 6
2.2 Varianza para datos Agrupados
Donde:
Xí : Marca de clase del intervalo “i”
å (X í - X ) * fi
k 2
n : Número total de observaciones
S2 = 1 fi : Frecuencia absoluta del intervalo “i”
n -1
X : Media o Promedio de la variable en estudio.
Ejemplo: Concentración de Proteínas totales del plasma en prematuros normales de 15 días de edad
Primero obtenemos la media o promedio del conjunto de dato:

(2 x 42,5) + (6 x 47,5) + (12 x52,5) + (13x57,5) + (5 x62,5) + (2 x67,5)
X = = 54,9 gramos
40
Luego, calculamos la varianza:
S2 =
(42,5 - 54,9)2 * 2 + (47,5 - 54,9)2 * 6 + (52,5 - 54,9)2 *12 + (57,5 - 54,9)2 *13 + (62,5 - 54,9)2 * 5 + (67,5 - 54,9)2 * 2 = 35,88
40 - 1
3. Desviación Estándar (S)

La desviación estándar es un índice numérico que mide la dispersión de un conjunto de datos con
respecto a su media o promedio. Mientras mayor es la desviación estándar, mayor es la dispersión de
los datos. Su cálculo es muy sencillo, sólo debes de obtener la raíz cuadrada de la varianza.
S = var ianza
Ejemplo:
La desviación estándar de Natalia será: S = 4,67 = 2,2
La desviación estándar de concentración de proteínas será:

S = 35,88 = 5,99
Interpretación: La mayoría de las concentraciones de proteínas en el plasma, están entre 54,9 -5,99 y
54,9 + 5,99, es decir entre 48,91g/l y 60,89 g/l.
Coeficiente de Variación
Es una medida que permite interpretar el grado de heterogeneidad entre los datos y comparar el nivel
de dispersión de dos muestras de variables diferentes. Entre menor es el valor, más homogéneos son los
datos. Se calcula como el cociente entre la desviación estándar y el promedio, multiplicado por 100.
S
CV = ´100%
X
Para el ejemplo de las calificaciones de Natalia, encontramos que:

2,2
CV = ´100% = 55%
4
Es decir, las notas de Natalia presentan un 55% de variabilidad o dispersión con respecto al
promedio, la cual es muy Alta. Sus notas son muy heterogéneas.
En el caso de la concentración de proteínas en el plasma, el coeficiente de variación será:

5,99
CV = ´100% = 10,9%
54,9
Lo cual indica que la concentración de proteínas en el plasma presenta una variabilidad moderada
con respecto a su media o promedio.
Criterios de Homogeneidad.
Homogéneo : Uniforme, semejante, similar, idéntico.

Heterogéneo : Diverso, variado, mezclado, distinto.
Observación: Expresado en porcentaje el coeficiente de variación toma valores desde 0% al
100%.
Medidas de Posición
Las medidas de posición no centrales permiten conocer otros valores característicos de la distribución,
que no son los valores centrales, los que nos ayudan a ubicar un dato dentro de la distribución. Entre las
medidas de posición, están:
• Cuartiles
• Quintiles
• Deciles
• Percentiles
1. Cuartiles (Ck)
Los cuartiles son valores que dividen a la muestra ordenada en forma ascendente en 4 partes iguales,
cada una de ellas con un 25% de las observaciones.
Para el cálculo de los Cuartiles en datos agrupados en intervalos utilizamos:
æ k *n ö
ç - Fianterior ÷
Ck = Li + ç 4 ÷× A donde k = 1,2,3
ç fi ÷
ç ÷
è ø
2. Quintiles (Qk)
Los quintiles son valores que dividen a la muestra ordenada en forma ascendente en 5 partes iguales,
Para el cálculo de los Quintiles en datos agrupados en intervalos utilizamos:
æ k *n ö
ç - Fianterior ÷
Qk = Li + ç 5 ÷× A donde k = 1,2,3,4
ç fi ÷
ç ÷
è ø
3. Deciles (Dk)
Los deciles son valores que dividen a la muestra ordenada en forma ascendente en 10 partes iguales,
Para el cálculo de los Quintiles en datos agrupados en intervalos utilizamos:
æ k *n ö
ç - Fianterior ÷
Dk = Li + ç 10 ÷× A donde k = 1,2,3,4,5,6,7,8,9
ç fi ÷
ç ÷
è ø
4. Percentiles para Datos Agrupados en Intervalos (Pk)
Los percentiles son valores que dividen a la muestra ordenada en forma ascendente en 100 partes
iguales, cada una de ellas con un 1% de las observaciones. Si los datos de la variable se presentan
agrupados en intervalos, se deben seguir los siguientes pasos:
Primero: Calcular frecuencias acumuladas simples (Fi)
æ k *n ö
ç ÷
Segundo: Determinar el intervalo, que contiene el primer Fi que supere a è 100 ø
Tercero: Reemplazar los datos disponibles en la expresión:
æ k *n ö
ç - Fianterior ÷
Pk = LI + ç 100 ÷× A Donde k = 1,2,3,4,.....,99
ç fi ÷
ç ÷
è ø
Para facilitarte más la vida, vamos a quedarnos sólo utilizando la fórmula de percentiles, ya que los
cuartiles, quintiles y deciles, se encuentran dentro de los percentiles. Sólo que debes tener claro lo
siguiente:
Quintil 1 = Percentil 20
Cuartil 1 = Percentil 25 Quintil 2 = Percentil 40
Cuartil 2 = Percentil 50 = Mediana Quintil 3 = Percentil 60
Cuartil 3 = Percentil 75 Quintil 4 = Percentil 80
Decil 1 = Percentil 10
Decil 5 = Percentil 50 = Mediana
Ejercicio de Aplicación
Ahora revisaremos paso a paso el siguiente ejercicio en donde aplicaremos todo lo visto durante la
semana 3 y tambien de la semana 2 para reforzar la materia de medidas de tendencia central.
En la siguiente tabla se muestra los montos (en miles $) por concepto de devolución de impuestos que
realizo el SII a una muestra de 1000 contribuyentes en abril 2019
Devolución de impuestos Número de

(en miles $) contribuyentes
[ 80 – 120 ] 12
( 120 – 160 ] 141
( 160 – 200 ] 414
( 200 – 240 ] 280
( 240 – 280 ] 108
( 280 – 320 ] 32
( 320 – 360 ] 8
( 360 – 400 ] 5
Total 1000
Se pide:
a) Identifique y clasifique la variable en estudio. ¿Cuál es la unidad de observación?
Variable en estudio: Montos (en miles $) por concepto de devolución de impuestos.
Clasificación: Cuantitativa Continua.
Unidad de Observación: Contribuyentes que recibieron devolución de impuestos por parte del SII.
b) Construya una TDF considerando las frecuencias absolutas (fi) y relativas (hi)

hi(%) Fi Hi(%)
[ 80 – 120 ] 12 1,20% 12 1,20%
( 120 – 160 ] 141 14,10% 153 15,30%
( 160 – 200 ] 414 41,40% 567 56,70%
( 200 – 240 ] 280 28,00% 847 84,70%
( 240 – 280 ] 108 10,80% 955 95,50%
( 280 – 320 ] 32 3,20% 987 98,70%
( 320 – 360 ] 8 0,80% 995 99,50%
( 360 – 400 ] 5 0,50% 1000 100,00%
Total 1000
c) Señale cuál sería el gráfico más adecuado para mostrar la información de los montos (en miles $) por
concepto de devolución de impuestos.
Como se trata de una variable cuantitativa continua, en la que los datos se encuentran
agrupados en intervalos, el gráfico recomendado es un Histograma de Frecuencias.
d) Determine e interprete las medidas de tendencia central para la variable en estudio

Promedio: Para calcular el promedio o media aritmética debes de calcular antes las marcas de clase
para cada intervalo.
Devolución de impuestos Marca de clase Número de

(en miles $) (xí) contribuyentes
[ 80 – 120 ] 100 12
( 120 – 160 ] 140 141
( 160 – 200 ] 180 414
( 200 – 240 ] 220 280
( 240 – 280 ] 260 108
( 280 – 320 ] 300 32
( 320 – 360 ] 340 8
( 360 – 400 ] 380 5
1000
100 *12 + 140 *141 + 180 * 414 + 220 * 280 + 260 *108 + 300 * 32 + 340 * 8 + 380 * 5
X =
1.000
199.360
X = = 199,4 (en miles $)
1.000
Moda: Para calcular la moda, debes de tomar aquel intervalo en donde observes la mayor frecuencia
absoluta (fi), eso te indica que la mayoría de los pacientes se encuentra en ese intervalo.

[ 80 – 120 ] 12
( 120 – 160 ] 141
( 160 – 200 ] 414
( 200 – 240 ] 280
( 240 – 280 ] 108
( 280 – 320 ] 32
( 320 – 360 ] 8
( 360 – 400 ] 5
æ 273 ö
Mo = 160 + ç ÷ * 40 = 186,8 (en miles $)
è 273 + 134 ø
Mediana
Para calcular la mediana, debes fijarte en el primer porcentaje acumulado (Hi%) que supere o contenga al
50% de los datos. Luego utilizas la fórmula.
hi(%) Fi Hi(%)
[80 – 120] 12 1,20% 12 1,20%
(120 – 160] 141 14,10% 153 15,30%
(160 – 200] 414 41,40% 567 56,70%
(200 – 240] 280 28,00% 847 84,70%
(240 – 280] 108 10,80% 955 95,50%
(280 – 320] 32 3,20% 987 98,70%
(320 – 360] 8 0,80% 995 99,50%
(360 – 400] 5 0,50% 1000 100,00%
æ 1000 ö
ç - 153 ÷
Me = 160 + ç 2 ÷ * 40 = 193,5 (en miles $)
ç 414 ÷
ç ÷
è ø
e) Determine la Varianza, Desviación Estándar y el Coeficiente de Variación e interprete.
Primero debemos conocer la media o Promedio, que ya se determinó anteriormente y que es:
100 *12 + 140 *141 + 180 * 414 + 220 * 280 + 260 *108 + 300 * 32 + 340 * 8 + 380 * 5
X =
1.000
199.360
X = = 199,4
1.000
Ahora procedemos a determinar la Varianza ( S 2 ) para datos agrupados en intervalos:
((100 - 199,4) *12)+ ((140 - 199,4) *141)+ ((180 - 199,4) * 414)+ ((220 - 199,4) * 280)+
2 2 2 2
S 2
=
((260 - 199,4) *108)+ ((300 - 199,4) * 32)+ ((340 - 199,4) * 8)+ ((380 - 199,4) * 5)
2 2 2 2
1000 - 1
1.932.392
S2 = = 1934,326
999
Ahora determinamos la Desviación Estándar(S), sacando la raíz cuadrada a la Varianza
S = 1934,326
S = 43,98
Finalmente, obtenemos el Coeficiente de Variación:
DesviaciónEs tan dar

CV = *100%
Pr omedio
43,98
CV = = 0,22 *100
199,4
CV = 22%
El Coeficiente de Variación es de un 22%, lo cual indica que existe una variabilidad o dispersión
moderada entre los montos de devolución de impuestos para la muestra seleccionada.
f) Determine e interprete el primer quintil
El primer quintil cubre el 20% más bajo del conjunto de datos. Por lo tanto, es equivalente a calcular el
Percentil 20. Antes de aplicar la fórmula debes ubicar el primer Hi(%) que contenga a ese 20%

hi(%) Fi Hi(%)
[80 – 120] 12 1,20% 12 1,20%
(120 – 160] 141 14,10% 153 15,30%
P20 (160 – 200] 414 41,40% 567 56,70%
(200 – 240] 280 28,00% 847 84,70%
(240 – 280] 108 10,80% 955 95,50%
(280 – 320] 32 3,20% 987 98,70%
(320 – 360] 8 0,80% 995 99,50%
(360 – 400] 5 0,50% 1000 100,00%
Eso te indicará que el P20 se encuentra en el intervalo 160 – 200. Ahora ya puedes reemplazar los datos
en la fórmula
æ 20 *1000 ö
ç - 153 ÷
P20 = 160 + ç 100 ÷ * 40 = 164,5 (en miles $)
ç 414 ÷
ç ÷
è ø
Interpretación: El 20% de los contribuyentes con menores montos de devoluciones de
impuestos, recibieron a lo más $164.500
g) Determine e interprete el tercer cuartil
El tercer cuartil cubre el 75% más bajo del conjunto de datos. Por lo tanto, es equivalente a calcular el
Percentil 75. Antes de aplicar la fórmula debes ubicar el primer Hi(%) que contenga a ese 75%

hi(%) Fi Hi(%)
[80 – 120] 12 1,20% 12 1,20%
(120 – 160] 141 14,10% 153 15,30%
(160 – 200] 414 41,40% 567 56,70%
P75 (200 – 240] 280 28,00% 847 84,70%
(240 – 280] 108 10,80% 955 95,50%
(280 – 320] 32 3,20% 987 98,70%
(320 – 360] 8 0,80% 995 99,50%
(360 – 400] 5 0,50% 1000 100,00%
Eso te indicará que el P75 se encuentra en el intervalo 200 – 240. Ahora ya puedes reemplazar los datos
en la fórmula
æ 75 *1000 ö
ç - 567 ÷
P75 = 200 + ç 100 ÷ * 40 = 226,1 (en miles $)
ç 280 ÷
ç ÷
è ø
Interpretación: El 75% de los contribuyentes con menores montos de devoluciones de
impuestos, recibieron a lo más $226.100
h) Sobre ¿qué valor se encuentra el decil con mayores montos en devoluciones de impuesto?
La palabra clave aquí es “sobre qué valor”. El decil con mayores montos representa el 10% de los
contribuyentes que más recaudaron. Por lo tanto, hay un 90% que se encuentra por debajo de ese
monto. Eso quiere decir que debemos calcular el Percentil 90

hi(%) Fi Hi(%)
[80 – 120] 12 1,20% 12 1,20%
(120 – 160] 141 14,10% 153 15,30%
(160 – 200] 414 41,40% 567 56,70%
(200 – 240] 280 28,00% 847 84,70%
P90 (240 – 280] 108 10,80% 955 95,50%
(280 – 320] 32 3,20% 987 98,70%
(320 – 360] 8 0,80% 995 99,50%
(360 – 400] 5 0,50% 1000 100,00%
æ 90 *1000 ö
ç - 847 ÷
P90 = 240 + ç 100 ÷ * 40 = 259,6 (en miles $)
ç 108 ÷
ç ÷
è ø
Interpretación: El 10% de los contribuyentes con mayores montos de devoluciones de
impuestos, recibieron sobre los $259.600

Manual Estudiante Unidad 1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual Estudiante Unidad 1

Cargado por

Copyright:

Formatos disponibles

Análisis Estadístico de Datos – Primavera 2020

Análisis Estadístico de Datos – Primavera 2020

UNIDAD 1: Estadística Descriptiva

Conceptos Básicos en Estadística

Ejemplo: Deseamos medir el rendimiento

La muestra debe lograr una representación

Por ejemplo: Personas, familias, hospitales, estudiantes, trabajadores, etc.

Son distintas características, propiedades o atributos observadas en un mismo sujeto u objeto.

Clasificación de las Variables:

Las variables cuantitativas se pueden clasificar en:

a.1) Variable Cuantitativa Discreta:

a.2) Variable Cuantitativa Continua:

Las variables cualitativas se pueden clasificar en:

b.1) Variable Cualitativa Nominal (o de clasificación):

b.2) Variable Cualitativa Ordinal (o de categoría):

Representación Gráfica de la Información

Para hacer más clara y evidente la información que

ü Se utiliza para representar la frecuencia relativa

Ejemplo: En IPG se desea estudiar la evolución de Año Masculino Femenino

Gráfico de Tallo y Hojas

Ahora es fácil observar, por ejemplo que:

1) La persona con menor edad tiene 16 años

Gráfico de Cajas y bigotes o Box Plot

Tablas de Distribución de Frecuencias (TDF)

¿Cómo resumiría los datos anteriores?

¿Cómo se elabora la tabla de frecuencias?

Finalmente la TDF quedaría representada de la siguiente forma:

a) Identificar población y variable (clasificarla).

a) Identifique la variable y clasifíquela.

Variable : Tipos de defectos o desperfectos que presentan los Chips.

b) ¿Cuántos chips tienen la conexión deficiente? 116 Chips.

c) ¿Cuál es el porcentaje de los chips con tamaño incorrecto? 27,1%

d) Construya un gráfico adecuado que represente la información.

3. El siguiente Histograma de Frecuencias corresponde a las calificaciones obtenidas en el examen final de

b) ¿Cuál es el rango de los datos? Interprete

c) ¿En qué rango se encuentra los estudiantes con mejores calificaciones?

d) ¿Cuántos estudiantes no superaron los 80 puntos?

e) ¿Qué porcentaje de estudiantes obtuvieron entre 75 y 90 puntos?

f) ¿Cuál es la amplitud de los intervalos?

g) ¿Qué porcentaje de estudiantes obtuvieron una calificación de a lo más 65 puntos?

Medidas de Tendencia Central

Entre las medidas de tendencia central más

1.1 La Media o promedio para Datos No Agrupados

Ejemplo: Se tienen las notas de 20 alumnos de un curso.

1.2 La Media o Promedio para Datos Agrupados en intervalos

2 * 42,5 + 6 * 47,5 + 12 * 52,5 + 13 * 57,5 + 5 * 62,5) + 2 * 67,5

La concentración promedio de proteínas en el plasma, en niños prematuros normales, es de 54,9 gramos.

2.1 La Moda para Datos No Agrupados

Ejemplo: Considere las siguientes notas de un curso de 20 alumnos

La nota más frecuente en el curso fue 5,0

La moda es el estadístico de centralización adecuado si la variable está medida en escala nominal:

2.2 La Moda para Datos Agrupados

Para calcularla debe ubicarse el intervalo que tiene la mayor frecuencia

3.1 Mediana para Datos No Agrupados

3.2 Mediana para Datos Agrupados en intervalos

Ejemplo: Distribución por edad de 975 individuos

El 50% de los individuos de la muestra tiene a lo más 57,1 años.

El número más frecuente de atenciones en los policlínicos a personas con problemas

Primero ordenamos los datos de menor a mayor:

Distribución de trabajadores según pérdidas anuales

marca de clase Perdidas anuales Trabajadores

a) Identifique la variable y clasifíquela.

b) ¿Qué porcentaje de individuos tienen perdidas entre $115.000 y $130.000? 33,3%

c) ¿Cuántos trabajadores tienen perdidas menores a $145.000? 77 trabajadores

92,5 13 + 107,5 23 + 122,5 * 28 + 137,5 13 + 152,5 6 + 167,5 *1