Está en la página 1de 59

Maestría en Gerencia Pública

Escuela de Posgrado

Estadística descriptiva
Análisis cuantitativo para la toma de decisiones basado en
evidencias
Temas y subtemas a tratar

Tema Nro. 01: “Estadística Descriptiva”


1. Datos e información
2. Fuente de datos
3. Distribución de frecuencia

Tema Nro. 02: “Medidas de localización ”


1. La media aritmética
2. La mediana
3. La moda
4. Percentiles
5. Cuartiles
Temas y subtemas a tratar

Tema Nro. 01: “Estadística Descriptiva”


1. Datos e información
2. Fuente de datos
3. Distribución de frecuencia

Tema Nro. 02: “Medidas de localización ”


1. La media aritmética
2. La mediana
3. La moda
4. Percentiles
5. Cuartiles
Datos

Los datos son los hechos del mundo real, describen lo que sucede en
la realidad sin proporcionar juicios de valor o interpretaciones de la
realidad, por ejemplo el señor Quispe mide 1 metro 75 cm y pesa 80
kg si bien no proporciona una valoración de los fenómenos que
representan, son importantes para las organizaciones ya que son
ellos el insumo básico para generar información.
Temas y subtemas a tratar

Tema Nro. 01: “Estadística Descriptiva”


1. Datos e información
2. Fuente de datos
3. Distribución de frecuencia

Tema Nro. 02: “Medidas de localización ”


1. La media aritmética
2. La mediana
3. La moda
4. Percentiles
5. Cuartiles
Fuente de datos

Los datos se pueden recolectar u obtener de diferentes fuente:


• Fuentes existentes
• Encuestas
• Estudios experimentales
Fuente de datos existentes

• Datos internos de la organización


o Planillas, ventas, datos de personal, proveedores, información, perfil de
clientes, datos de producción, etc.

• Datos externos de la organización


o Información de organismos privados, públicos, entidades que venden
datos.
Fuente de datos, encuestas y estudios
experimentales

• Encuesta
o Proceso sistemático para recoger información de las variables que se
desean conocer de un población determinada.

• Estudios experimentales
o En los estudios experimentales se identifica primero la variable de interés.
Después se ubica otra u otras variables que son controladas para lograr
datos de cómo ésta influye sobre la variable de interés.
Información

A diferencia de los datos, la información tiene un propósito y un


sentido. La información pretende formar al receptor del mensaje.
El mensaje es típicamente un documento o una comunicación
audible o visible. El creador del mensaje transforma los datos y
les añade significado, con un propósito. Usualmente esto se logra de
varias formas.(Davenport y Prusak, 1998).
Ejemplo:

INGRESO PROMEDIO MENSUAL PROVENIENTE DEL TRABAJO DE LA POBLACIÓN OCUPADA


FEMENINA, SEGÚN ÁMBITO GEOGRÁFICO, 2007-2020
(Soles corrientes)

Ámbito geográfico 2012 2013 2014 2015 2016 2017 2018 2019 2020

Región natural
Costa 1 038.0 1 077.3 1 133.4 1 230.4 1 291.0 1 298.3 1 307.8 1 378.6 1 268.6
Sierra 649.5 683.8 733.2 742.2 766.2 763.4 827.2 886.2 815.1
Selva 801.9 800.3 792.0 868.1 869.6 898.4 933.4 981.5 957.6
Datos cuantitativos y cualitativos

Los datos cuantitativos requieren valores numéricos que indiquen


cuánto o cuántos. Los datos cuantitativos se obtienen usando las
escalas de medición de intervalo o de razón. Los datos cualitativos
comprenden etiquetas o nombres que se usan para identificar un
atributo de cada elemento. Si la variable es cualitativa, el análisis
estadístico es bastante limitado.
Datos: sección transversal y series de tiempo

• Datos de sección transversal son los obtenidos en el mismo


o aproximadamente el mismo momento (punto en el tiempo).

• Los datos de series de tiempo son datos obtenidos a lo largo de


varios periodos.
Datos: sección transversal y series de tiempo

INGRESO PROMEDIO MENSUAL PROVENIENTE DEL TRABAJO DE LA POBLACIÓN OCUPADA


FEMENINA, SEGÚN ÁMBITO GEOGRÁFICO, 2007-2020
(Soles corrientes)

Ámbito geográfico 2012 2013 2014 2015 2016 2017 2018 2019 2020

Región natural
Costa 1 038.0 1 077.3 1 133.4 1 230.4 1 291.0 1 298.3 1 307.8 1 378.6 1 268.6
Sierra 649.5 683.8 733.2 742.2 766.2 763.4 827.2 886.2 815.1
Selva 801.9 800.3 792.0 868.1 869.6 898.4 933.4 981.5 957.6
Estadística descriptiva

La mayor parte de la información estadística en periódicos, revistas,


informes de empresas y otras publicaciones consta de datos que se
resumen y presentan en una forma fácil de leer y de entender. A
estos resúmenes de datos, que pueden ser tabulares, gráficos o
numéricos se les conoce como estadística descriptiva.
Inferencia estadística

En muchas situaciones se requiere información acerca de


grupos grandes de elementos (individuos, empresas, votantes,
hogares, productos, clientes, etc.). Pero, debido al tiempo, costo y
a otras consideraciones, sólo es posible recolectar los datos de
una pequeña parte de este grupo. Al grupo grande de
elementos en un determinado estudio se le llama población y al
grupo pequeño muestra.
Inferencia estadística

• Al proceso de realizar un estudio para recolectar datos de


toda una población se le llama censo.
• Al proceso de efectuar un estudio para recolectar datos de una
muestra se le llama encuesta muestral.
• Una de las principales contribuciones de la estadística es emplear
datos de una muestra para hacer estimaciones y probar hipótesis
acerca de las características de una población mediante un
proceso al que se le conoce como inferencia estadística.
Temas y subtemas a tratar

Tema Nro. 01: “Estadística Descriptiva”


1. Datos e información
2. Fuente de datos
3. Distribución de frecuencia

Tema Nro. 02: “Medidas de localización ”


1. La media aritmética
2. La mediana
3. La moda
4. Percentiles
5. Cuartiles
Distribución de frecuencia

Una distribución de frecuencia es un resumen tabular de datos


que muestra el número (frecuencia) de elementos en cada
una de las diferentes clases disyuntas (que no se
sobreponen).
Distribución de frecuencia

Los tres pasos necesarios para definir las clases de una distribución
de frecuencia con datos cuantitativos son:
1. Determinar el número de clases disyuntas.
2. Determinar el ancho de cada clase
3. Determinar los límites de clase.
Número de clases

Las clases se forman especificando los intervalos que se usarán


para agrupar los datos. Se recomienda emplear entre 5 y 20
clases. Cuando los datos son pocos, cinco o seis clases bastan
para resumirlos. Si son muchos, se suele requerir más clases. La idea
es tener las clases suficientes para que se muestre la variación en
los datos, pero no deben ser demasiadas si algunas de ellas
contienen sólo unos cuantos datos.
Número de clases

Regla de Sturges
K= número de clases
Log = logaritmo en base 10
n = tamaño de la muestra

K = 1 + 3.33 * Log(n)
Ancho de clase

El segundo paso al construir una distribución de frecuencia para


datos cuantitativos es elegir el ancho de las clases. Como
regla general es recomendable que el ancho sea el mismo
para todas las clases. Así, el ancho y el número de clases no
son decisiones independientes. Entre mayor sea el número de
clases menor es el ancho de las clases y viceversa.
Ancho de clase

Para determinar el ancho de clase apropiada se empieza por


identificar el mayor y el menor de los valores de los datos.
Después, usando el número de clases deseado, se emplea
la expresión siguiente para determinar el ancho aproximada de
clase.
Límites de clase

Los límites de clase deben elegirse de manera que cada dato pertenezca a una y sólo una de

las clases.

• El límite de clase inferior indica el menor valor de los datos a que pertenece esa clase.

• El límite de clase superior indica el mayor valor de los datos a que pertenece esa clase.

• Al elaborar distribuciones de frecuencia para datos cualitativos, no es necesario

especificar límites de clase porque cada dato corresponde de manera natural a una de

las clases disyuntas. Pero con datos cuantitativos, los límites de clase son necesarios para

determinar dónde colocar cada dato.


Distribución de frecuencia relativa

• La distribución de frecuencia relativa y de frecuencia porcentual para


datos cuantitativos se definen de la misma forma que para datos
cualitativos.
• La frecuencia porcentual de una clase es la frecuencia relativa
multiplicada por 100.
Distribución de frecuencia - Ejemplo
Distribución de frecuencia - Ejercicio

• La información de las tardanzas acumulada en un mes, de los 36 trabajadores de una empresa se


muestra en el cuadro siguiente. La gerencia preocupada le pide realizar análisis de la información.

267 179 165 46 25 203


114 15 234 234 279 103
38 18 187 55 15 219
14 223 196 208 258 99
51 87 212 187 134 68
241 102 282 283 278 186

Prepara la siguiente información


a) La tabla de distribución de frecuencias
b) Histograma de frecuencia relativa
c) Que conclusiones puede señalar con la información de los puntos a y b.
Distribución de frecuencia - Ejercicio
Para solucionar el ejercicio planteado, proceder de la siguiente manera:
1. Utilizar el Excel para realizar los cálculos
2. Calcular el rango de los datos (máximo menos mínimo)
3. Calcular el número de datos
4. Calcular el número de clases ( número de clases = 1+3.33*log(n)), el valor obtenido si no es entero, redondee al entero
con el redondeo matemático, el número de clases en un número entero.
5. Luego determine en ancho de clase ( rango / número de clases ), redondee este número con el redondeo
matemático si no entero.
6. El limite inferior de la primera clase es el valor mínimo, el limite superior el es limite inferior mas el ancho de clase.
7. El limite inferior de la segunda clase es igual al limite superior de la primera clase aumentada en una unidad (1), esto
se debe hacer porque las clases no se debe superponer, el limite superior de la segunda clase es el limite inferior mas
el ancho de clase.
8. Para calcular el limite inferior y superior de las demás clases proceder de manera simular al punto anterior.
9. La frecuencia absoluta se calcula con la función frecuencia del Excel.
Distribución de frecuencia - Ejercicio

Con la información disponible podemos afirmar


• El 25% de los trabajadores llegan entre 14 y 59 minutos tarde y
el 22.2% de los trabajadores llegan entre 198 y 289 minutos
tarde, en ambos grupos tenemos a 17 de los 36 trabajares.
• El rango de variación de las tardanzas es muy amplio el
mínimo es 14 minutos y el máximo es 283 minutos.
• No existe un patrón muy marcado de las tardanzas según los
intervalos de clases definidos.
• Los mas tardones representan el 16.7% de trabadores y en
promedio llegan 12 minutos tarde por día, asumiendo que el
mes tiene 22 días hábiles de trabajo.
Temas y subtemas a tratar

Tema Nro. 01: “Estadística Descriptiva”


1. Datos e información
2. Fuente de datos
3. Distribución de frecuencia

Tema Nro. 02: “Medidas de localización ”


1. La media aritmética
2. La mediana
3. La moda
4. Percentiles
5. Cuartiles
La media

La medida de localización más importante es la media, o valor


promedio, de una variable. La media proporciona una medida
de localización central de los datos. Si los datos son datos de una
muestra, la media se denota ; si los datos son datos de una
población, la media se denota con la letra griega µ.
La media

𝑁
෌𝑖=1 𝑥𝑖 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑁
𝑥ҧ = 𝑥ҧ =
𝑁 𝑁
En la fórmula anterior, el numerador es la suma de los valores de las n observaciones,
es decir,

σ 𝑥𝑖 = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑁
Media - Ejemplo

Si tenemos un grupo de 5 personas con las siguientes


edades:
28, 29, 35, 36 y 37 años
La edad promedio (media) del grupo será:
Media – Divide el valor de los datos en dos
mitades
Temas y subtemas a tratar

Tema Nro. 01: “Estadística Descriptiva”


1. Datos e información
2. Fuente de datos
3. Distribución de frecuencia

Tema Nro. 02: “Medidas de localización ”


1. La media aritmética
2. La mediana
3. La moda
4. Percentiles
5. Cuartiles
La mediana

La mediana es otra medida de localización. Es el valor de en


medio en los datos ordenados de menor a mayor (en forma
ascendente). Cuando tiene un número impar de observaciones, la
mediana es el valor de en medio. Cuando la cantidad de
observaciones es par, no hay un número en medio. En este caso, se
sigue una convención y la mediana es definida como el promedio
de las dos observaciones de en medio.
La mediana

Por conveniencia, la definición de mediana se replantea así:


Ordenar los datos de menor a mayor (en forma ascendente).
• Si el número de observaciones es impar, la mediana es el valor de
en medio.
• Si el número de observaciones es par, la mediana es el promedio
de las dos observaciones de en medio.
Temas y subtemas a tratar

Tema Nro. 01: “Estadística Descriptiva”


1. Datos e información
2. Fuente de datos
3. Distribución de frecuencia

Tema Nro. 02: “Medidas de localización ”


1. La media aritmética
2. La mediana
3. La moda
4. Percentiles
5. Cuartiles
Moda

• La tercera medida de localización es la moda. La moda se define como el


valor que se presenta con mayor frecuencia. Hay situaciones en que la
frecuencia mayor se presenta con dos o más valores distintos. Cuando esto
ocurre hay más de una moda. Si los datos contienen más de una moda se dice
que los datos son bimodales. Si contienen más de dos modas, son multimodales.
• En los casos multimodales casi nunca se da la moda, porque dar tres o más
modas no resulta de mucha ayuda para describir la localización de los datos.
Media ponderada

En la fórmula utilizada para la media, a cada Xi se le da la misma importancia o el mismo peso. No


obstante, en algunas situaciones la media se calcula dando a cada observación un peso que refleja
su importancia. A una media calculada de esta manera se le llama media ponderada En la fórmula
utilizada para la media, a cada Xi se le da la misma importancia o el mismo peso. No obstante, en
algunas situaciones la media se calcula dando a cada observación un peso que refleja su
importancia. A una media calculada de esta manera se le llama media ponderada.

𝜮𝒙𝒊 𝝎𝒊
ഥ=
𝒙 σ 𝝎𝒊
Donde 𝑥𝑖 son las observaciones y 𝜔𝑖 el peso de cada una.
Ejercicio N°1

Considere los datos del ingreso promedio mensual de la población masculina


en el Perú distribuida por departamentos para el año 2017.
Calcule:
a) La media
b) La mediana
c) La moda
Ejercicio N°1

La información de las tardanzas acumulada en un mes, de los 36 trabajadores de una empresa se


muestra en el cuadro siguiente. La gerencia preocupada le pide calcular.

267 179 165 46 25 203


114 15 234 234 279 103
38 18 187 55 15 219
14 223 196 208 258 99
51 87 212 187 134 68
241 102 282 283 278 186

a) La media, la moda, la mediana


Media 152.9
Moda 15.0 Los valores se pueden calcular con el
Mediana 182.5 procedimiento mostrado en la
presentación o utilizar la funciones
que tiene el Excel.
Temas y subtemas a tratar

Tema Nro. 01: “Estadística Descriptiva”


1. Datos e información
2. Fuente de datos
3. Distribución de frecuencia

Tema Nro. 02: “Medidas de localización ”


1. La media aritmética
2. La mediana
3. La moda
4. Percentiles
5. Cuartiles
Percentiles

• Un percentil aporte información acerca de la dispersión de los datos en el


intervalo que va del menor al mayor valor. En los conjuntos de datos que no
tienen muchos valores repetidos el percentil P divide a los datos en dos
partes.
• Cerca del P por ciento de las observaciones tienen valores menores que el
percentil P y aproximadamente (100 – P) por ciento de las observaciones
tienen valores mayores que el percentil P .
Percentiles

El percentil p se define como sigue:


• El percentil P es un valor tal que por lo menos p por ciento de las
observaciones son menores o iguales que este valor y por lo menos (100 - P)
por ciento de las observaciones son mayores o iguales que este valor.
Cálculo del Percentil

• Paso 1. Ordenar los datos de menor a mayor (colocar los datos en orden
ascendente).
• Paso 2. Calcular el índice i

𝑷
ⅈ= 𝒏
𝟏𝟎𝟎

Donde P es el percentil deseado y “n” es el número de observaciones.


Cálculo del Percentil

• Paso 3. (a) Si i no es un número entero, debe redondearlo. El primer


entero mayor que i denota la posición del percentil P. (b) Si i es un
número entero, el percentil p es el promedio de los valores en las posiciones
i e i + 1.
Temas y subtemas a tratar

Tema Nro. 01: “Estadística Descriptiva”


1. Datos e información
2. Fuente de datos
3. Distribución de frecuencia

Tema Nro. 02: “Medidas de localización ”


1. La media aritmética
2. La mediana
3. La moda
4. Percentiles
5. Cuartiles
Cuartiles

Con frecuencia es conveniente dividir los datos en cuatro partes; así, cada
parte contiene una cuarta parte o 25% de las observaciones. A los puntos de
división se les conoce como cuartiles y están definidos como sigue:
• Q1 = primer cuartil, o percentil 25
• Q2 = segundo cuartil, opercentil 50
• Q3 = tercer cuartil, opercentil 75
Cuartiles
Cuartiles

Millones de estadounidenses trabajan para sus empresas desde sus hogares. A


continuación se presenta una muestra de datos que dan las edades de estas personas
que trabajan desde sus hogares.

18 54 20 46 25 48 53 27 26 37

40 36 42 25 27 33 28 40 45 25

a. Calcule el primer y el tercer cuartil

b. Calcule e interprete el percentil 32


Cuartiles - Ejemplo

Ordenando los datos se tiene:

18 20 25 25 25 26 27 27 28 33

36 37 40 40 42 45 46 48 53 54
El primer cuartil equivale al percentil 25.

De manera que el primer cuartil es el promedio entre el quinto y sexto dato:


(25+26)/2= 25.5
Cuartiles - Ejemplo

El tercer cuartil equivale al percentil 75.

De manera que el tercer cuartil es el promedio entre el décimo quinto y décimo sexto
dato: (42 +45)/2= 43.5
Cuartiles - Ejemplo

El percentil 32 se encuentra con la siguiente expresión.

De manera que el percentil 32 corresponde al séptimo dato de la muestra = 27


Percentiles - Ejercicio

Considere los datos del ingreso promedio mensual de la población masculina en el Perú
distribuida por departamentos para el año 2017.

Calcule:
a. El primer, segundo, tercer y cuarto quintil de las observaciones.
Percentiles - Ejercicio
Conclusiones y/o recomendaciones

• Una decisión o propuesta basada en datos tiene un sustento más solido que la sola
argumentación cualitativa.
• La distribución de frecuencias es una forma útil de resumir los datos para extraer
información que a simple vista no es posible evidenciar.
• La medidas de localización como la media, moda y mediana son importantes
para caracterizar a un conjunto de datos cuantitativos.
• La media es la medida de localización más utilizada, pero debemos utilizarla
conociendo sus limitaciones en cada conjunto de datos.
• Los percentiles son importante para dividir un conjunto de datos en dos partes;
pero cuando se necesita dividirlos en varias partes iguales tenemos casos
especiales como los cuartiles, quintiles y deciles.
Instrucciones para la actividad de la Unidad

• Realizar la evaluación diagnóstica.


• Test de la unidad.

También podría gustarte