Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Datos: Son
hechos/informaciones y
cifras que se recogen,
analizan y resumen para su
presentación e
interpretación.
(p) Provisional.
Nota: PIB en dólares de 2005 = PIB en millones de pesos de 2005 sobre la tasa de cambio nominal
promedio de 2005.
Fuente: DANE - Dirección de Síntesis y Cuentas Nacionales y Banco de la República, Estudios
Económicos - Cuentas Financieras.
PRODUCTO INTERNO BRUTO TOTAL
Miles de millones de pesos, a precios constantes de 2005
600,000
551,701
542,116
531,262
515,528
493,831
500,000
470,880
452,578
424,599
408,379
401,744
400,000 387,983
362,938
340,156
Miles de millones
324,866
308,418
296,789
300,000 284,761 289,539
200,000
100,000
0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015(p) 2016(p) 2017(p)
Año
Miles de
millones…
VARIACIÓN DEL PIB TOTAL
%
Variación anual %
8
6.90
7 6.70
6.59
5.33
4.87
5 4.71
4.39
Porcentaje
3.97 4.04
3.92
4
3.55
3.05
3
2.50
2.04
2 1.77
1.68 1.65
0.00
0
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015( p )2016( p )2017( p )
Año
1.2 Elementos, variables y observaciones
Datos cualitativos:
Comprenden etiquetas o nombres que se usan para identificar un atributo
de cada elemento. Los datos cualitativos emplean la escala nominal o la
ordinal y pueden ser numéricos o no.
Aún cuando para los datos cualitativos se use un código numérico, las
operaciones aritméticas de adición, sustracción, multiplicación o división
no tienen sentido.
Datos cualitativos:
Comprenden etiquetas o nombres que se usan para identificar un atributo
de cada elemento. Los datos cualitativos emplean la escala nominal o la
ordinal y pueden ser numéricos o no.
Aún cuando para los datos cualitativos se use un código numérico, las
operaciones aritméticas de adición, sustracción, multiplicación o división
no tienen sentido.
Los datos cuantitativos se obtienen usando las escalas de medición de intervalo o de razón.
Por ejemplo, cuando se tienen variables cuantitativas, los datos se pueden sumar y luego
dividir entre el número de observaciones para calcular el valor promedio.
En general hay más alternativas para el análisis estadístico cuando se tienen datos
cuantitativos.
1.3 Tipos de datos y variables
1.3.2. Datos de sección transversal vs. Series de tiempo
Datos de sección transversal:
Datos de sección transversal son los obtenidos en el mismo o aproximadamente el mismo
momento (punto en el tiempo).
1.1 son datos transversales porque describen las cinco variables de las 25 empresas del 25
S&P en un mismo momento.
Por ejemplo, la figura 1.1 presenta una gráfica de los precios promedio por galón de
gasolina normal en las ciudades de Estados Unidos.
A estos resúmenes de datos, que pueden ser tabulares, gráficos o numéricos se les conoce
como estadística descriptiva.
1.5 Estadística inferencial
En muchas situaciones se requiere información acerca de grupos grandes de elementos
(individuos, empresas, votantes, hogares, productos, clientes, etc.).
Debido al tiempo, costo y a otras consideraciones, sólo es posible recolectar los datos de
una pequeña parte de este grupo.
Datos Los hechos y las cifras que se recolectan, analizan y resumen para su
presentación e interpretación.
Inferencia estadística El proceso de emplear los datos obtenidos de una muestra para hacer
estimaciones o probar hipótesis acerca de las características de la población.
Capítulo 2:
Estadística descriptiva:
presentaciones tabulares y gráficas
1. Estadística en la práctica
2. Resumen de datos cualitativos
3. Resumen de datos cuantitativos
4. Análisis exploratorio de datos
5. Tabulaciones cruzadas y diagramas de dispersión
2.0 Estadística en la práctica
La empresa Colgate-Palmolive aplica la
estadística en su programa de
aseguramiento de la calidad en los
detergentes caseros para la ropa.
Ejercicio:
Elaborar en Excel la tabla de distribución de frecuencias
Graficar la distribución de frecuencias.
2.1 Resumen de datos cualitativos
2.1.2. Distribuciones de frecuencia relativa y de
frecuencia porcentual
En una distribución de frecuencia se aprecia el número (frecuencia) de los
elementos de cada una de las diversas clases disyuntas.
Los tres pasos necesarios para definir las clases de una distribución de
frecuencia con los datos cuantitativos son los siguientes:
𝑛
1
Media muestral: 𝑥ҧ = 𝑥𝑖
𝑛
𝑖=1
46 54 42 46 32
Media muestral:
n=5
𝑛
1 1 1
𝑥ҧ = 𝑥𝑖 = 46 + 54 + 42 + 46 + 32 = 220 = 44
𝑛 5 5
𝑖=1
3.1 Medidas de posición o localización
Media poblacional
La fórmula para determinar la media de una
población es la misma, pero se usa una
notación diferente para indicar que se está
trabajando con toda la población.
(3.2)
El número de observaciones en una población
se denota por N y el símbolo para la media
poblacional es μ.
3.1 Medidas de posición o localización
Mediana
La mediana es otra medida de ubicación central; es el valor de en medio cuando los datos
están acomodados en orden ascendente (del valor menor al valor mayor).
En este caso se sigue la convención y la mediana se define como el promedio de los valores
de las dos observaciones de en medio.
Ordene los datos de forma ascendente (del valor menor al valor mayor).
Mediana
Calcule la mediana de la muestra:
46 54 42 46 32
Suponga además que se calcula la mediana de los sueldos iniciales para los 12 licenciados en
administración de empresas de la tabla 3.1. Primero se acomodan los datos en orden
ascendente.
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925
3490 + 3520
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = = 3505
2
3.1 Medidas de posición o localización
Mediana
Calcule la mediana de la muestra:
46 54 42 46 32
Suponga además que se calcula la mediana de los sueldos iniciales para los 12 licenciados en
administración de empresas de la tabla 3.1. Primero se acomodan los datos en orden
ascendente.
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925
3490 + 3520
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = = 3505
2
3.1 Medidas de posición o localización
Suponga que uno de los licenciados recién graduados (tabla 3.1) tenía un sueldo inicial de
$10 000 al mes (tal vez la empresa es propiedad de su familia).
Si se cambia el sueldo mensual inicial más alto de la tabla 3.1 de $3 925 a $10 000 y se
vuelve a calcular la media, la media muestral pasa de $3 540 a $4 046.
Sin embargo, la mediana de $3 505 permanece igual, ya que $3 490 y $3 520 siguen siendo
los dos valores de en medio.
Al hacer una generalización, se afirma que siempre que un conjunto de datos contiene
valores extremos, la mediana suele ser la medida preferida de posición central.
3.1 Medidas de posición o localización
1 3450
2 3550
3 36650
4 3480
5 3355
6 3310
7 3490
8 3730
9 3540
10 3925
11 3520
12 3480
3.1 Medidas de posición o localización
Moda
La moda es el valor que ocurre con mayor frecuencia.
Moda
Moda
3.1 Medidas de posición o localización
Percentiles
Un percentil proporciona información sobre CÁLCULO DEL p-ÉSIMO PERCENTIL
cómo se distribuyen los datos en el intervalo
Paso 1. Ordene los datos de modo
del valor menor al valor mayor.
ascendente (del valor menor al valor
mayor).
Para datos que no contienen muchos valores
repetidos, el percentil p-ésimo los divide en Paso 2. Calcule un índice i
dos partes.
𝒑
𝒊= 𝒏
Alrededor de p por ciento de las observaciones 𝟏𝟎𝟎
tiene valores menores que el percentil p-ésimo donde p es el percentil de interés y n es el
y cerca de (100 − 𝑝) por ciento de las número de observaciones.
observaciones tiene valores mayores que el
percentil p-ésimo. Paso 3.
a) Si i no es un entero, redondéelo.
El entero siguiente mayor que i denota la
Definición: El percentil p-ésimo es un valor tal
posición del p-ésimo percentil.
que por lo menos p por ciento de las
observaciones es menor o igual que este valor, b) Si i es un entero, el p-ésimo percentil es
y por lo menos (100 − 𝑝) por ciento de las el promedio de los valores en las posiciones
observaciones es mayor o igual que este valor. 𝒊 e 𝒊 + 𝟏.
3.1 Medidas de posición o localización
Percentiles
Ejemplo:
Determinar el percentil 85 para los datos de los sueldos iniciales mensuales de Tabla 3.1
Sueldos mensuales
la tabla 3.1. iniciales para una
muestra de 12
licenciados en
Paso 1: Ordene los datos de modo ascendente. administración recién
egresados
𝟖𝟓 1 3450
Paso 2: Calcule un índice i: 𝒊= 𝒏 2 3550
𝟏𝟎𝟎
3 36650
Paso 3: Como i no es un entero, se redondea. La posición del percentil 85 es el 4 3480
siguiente entero mayor que 10.2, es decir, la posición 11. 5 3355
6 3310
7 3490
Observe de nuevo los datos: el percentil 85 es el valor de datos en la posición 8 3730
11, o 3730. 9 3540
10 3925
𝟓𝟎 11 3520
Considere el cálculo del percentil 50 para los datos: 𝒊 = 𝒏
𝟏𝟎𝟎 12 3480
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925
𝟐𝟓
Q 1: 𝒊= 𝟏𝟐 = 𝟑
𝟏𝟎𝟎
Paso 3b: el primer cuartil, o percentil 25, es el promedio del tercer y cuarto valores de los datos;
por tanto, Q1 = (3450 + 3480)/2 = 3465.
3.1 Medidas de posición o localización
Cuartiles: Ejercicios
Realizar cuatro de los ejercicios de las páginas 92-95.
3.2 Medidas de variabilidad
Con frecuencia es conveniente considerar las medidas
de variabilidad o dispersión.
t
0 1 2 3 4 5 6
Este ejemplo ilustra una situación en la que la variabilidad en los tiempos de entrega
puede ser una consideración primordial al seleccionar a un proveedor.
3.2 Medidas de variabilidad
Rango
𝑹𝒂𝒏𝒈𝒐 = 𝒗𝒂𝒍𝒐𝒓 𝒎𝒂𝒚𝒐𝒓 − 𝒗𝒂𝒍𝒐𝒓 𝒎𝒆𝒏𝒐𝒓
Ejemplo:
t
0 1 2 3 4 5 6
3.2 Medidas de variabilidad
Rango intercuartílico
Es una medida de la variabilidad que supera la dependencia
sobre los valores extremos es el rango intercuartílico (RIC).
𝑹𝑰𝑸 = 𝑸𝟑 − 𝑸𝟏
Ejemplo:
Para los datos sobre los sueldos mensuales iniciales, los cuartiles son
Q3 = 3600 y Q1 = 3465.
Para una muestra, una desviación respecto de la media se escribe (𝑥𝑖 − 𝑥).
ҧ
Para una población, la desviación de cada dato respecto de la se escribe (𝑥𝑖 − 𝜇).
3.2 Medidas de variabilidad
Varianza
Varianza poblacional
Si los datos pertenecen a una población, el promedio de las desviaciones elevadas al
cuadrado se llama varianza poblacional, la cual se denota por medio del símbolo griego 𝜎 2 .
σ(𝑥 − 𝜇) 2
𝑖
𝜎2 =
𝑁
Varianza muestral
En la mayoría de aplicaciones, los datos que se analizan provienen de una muestra.
Cuando se calcula una varianza muestral, a menudo lo que interesa es usarla para estimar la
varianza poblacional 𝜎 2 .
ҧ 2
σ(𝑥𝑖 −𝑥)
𝑠2 =
𝑛−1
3.2 Medidas de variabilidad
Cálculo de desviaciones
3.2 Medidas de variabilidad
Cálculo de desviaciones
3.2 Medidas de variabilidad
Desviación estándar
La desviación estándar se define como la raíz cuadrada
positiva de la varianza.
3.2 Medidas de variabilidad
Coeficiente de variación
En algunas situaciones nos interesa la estadística descriptiva
que indique qué tan grande es la desviación estándar con
respecto a la media.
3.3 Medidas de la forma de la distribución
Forma de la
distribución
Uso de software para el
cálculo del sesgo.
3.3 Medidas de la posición
Valor z
También interesa la posición relativa de los valores
dentro de un conjunto de datos.
Asociado con cada valor, xi, hay otro valor llamado valor
z.
La ecuación (3.9) muestra cómo se calcula la puntuación
z para cada xi .
3.3 Medidas de la posición
Valor z
También interesa la posición relativa de los
valores dentro de un conjunto de datos.
Asociado con cada valor, xi, hay otro valor llamado valor z.
• Por lo menos 0.75, o 75%, de los datos debe estar dentro de z=2 desviaciones estándar de la
media.
• Al menos 0.89, u 89%, de los datos debe estar dentro de z=3 desviaciones estándar de la media.
• Por lo menos 0.94, o 94%, de los datos debe estar dentro de z=4 desviaciones estándar de la
media.
Como ejemplo, suponga que las calificaciones obtenidas en los exámenes parciales por 100
estudiantes universitarios en un curso de estadística para negocios tenían una media de 70 y una
desviación estándar de 5.
¿Cuántos alumnos obtuvieron una calificación de entre 60 y 80 en los exámenes?
¿Cuántos obtuvieron calificaciones de entre 58 y 82?
3.3 Medidas de la posición
Regla empírica
Una de las ventajas del teorema de Chebyshev estriba en
que se aplica a cualquier conjunto de datos sin importar su
forma de distribución.
1. Valor menor
2. Primer cuartil (Q1)
3. Mediana (Q2)
4. Tercer cuartil (Q3)
5. Valor mayor.
La manera más fácil de elaborar un resumen de cinco números es colocar primero los
datos en orden ascendente.
3310 3355 3450 3480 3480 3490 3520 3540 3550 3650 3730 3925
La clave para elaborar de un diagrama de caja es el cálculo de la mediana y los cuartiles Q 1 y Q3.
En la figura se aprecia el diagrama de cuadro de los datos de los sueldos mensuales iniciales.
3.4 Análisis exploratorio de datos
Diagrama de caja
1. Se traza una caja con sus extremos ubicados en el primer y tercer cuartiles. Para los datos de los
sueldos iniciales, Q1 = 3465 y Q3 = 3600. Este cuadro contiene la mitad, 50%, de los datos.
2. Se traza una línea vertical en el cuadro donde se ubica la mediana (3505 para los datos de los
sueldos iniciales).
3. Al usar el rango intercuartílico, RIC = Q3 - Q1, se localizan los límites. Para el diagrama de caja los
límites son 1.5(RIC) por debajo de Q1 y 1.5(RIC) por encima de Q3. Para los datos de los sueldos,
RIC = Q3 - Q1 = 3600 - 3465 = 135. Por tanto, los límites son 3465 - 1.5(135) = 3262,5 y 3 600 #
1.5(135) = 3802,5. Los datos fuera de estos límites se consideran observaciones atípicas.
4. Las líneas punteadas de la figura 3.5 se llaman bigotes. Éstos se trazan desde los extremos de la
caja hasta los valores menor y mayor dentro de los límites calculados en el paso 3. Por tanto, los
bigotes terminan en los valores de los sueldos de 3310 y 3730.
5. Por último, la ubicación de cada observación atípica se señala con un asterisco (símbolo*). En la
figura 3.5 se aprecia una observación, 3925.
3.4 Análisis exploratorio de datos
Diagrama de caja
Ejemplo
Con la finalidad de comparar los sueldos mensuales iniciales de los
licenciados en administración de empresas por área de especialización, se
seleccionó una muestra de 111 licenciados recién graduados. Se registraron
el campo de especialización y el sueldo mensual inicial de cada profesional.
3.5 Medidas de asociación entre dos variables
En esta sección se presentan la covarianza y la correlación
como medidas descriptivas de la relación entre dos variables.
Covarianza
Se introduce la covarianza como una medida descriptiva de
la asociación lineal entre dos variables.
Capítulo 4:
Introducción a la probabilidad
En cada repetición ocurre uno y sólo uno de los resultados posibles del experimento.
4.1 Experimentos, reglas de conteo y asignación de
probabilidades
Espacio muestral
El espacio muestral es el conjunto de todos los
resultados posibles de una experimento.
Ejemplo: Ejercicio:
Experimento: lanzamiento de una moneda Experimento: lanzamiento de un dado.
Experimentos de pasos
múltiples (conteo secuencial) ¿De cuántas maneras se pueden sacar dos veces las
Experimento: lanzamiento de dos monedas mismas tres bolas de colores?
𝑅, 𝑅 , 𝑅, 𝐵 , 𝑅, 𝑉 ,
𝑆= 𝐶, 𝐶 , 𝐶, 𝑆 , 𝑆, 𝐶 , (𝑆, 𝑆) 𝑆= 𝐵, 𝐵 , 𝐵, 𝑅 , 𝐵, 𝑉 ,
𝑉, 𝑉 , 𝑉, 𝑅 , 𝑉, 𝐵 ,
𝑆 = 22 = 4 𝑆 = 32 = 9
Un proyecto de expansión de una planta
4.1 Reglas de conteo
Etapas del proyecto:
1. Diseño
2. Construcción
Experimentos de pasos múltiples
(conteo secuencial)
Diagrama del árbol
𝑆 = 22 = 4
4.1 Reglas de conteo
Permutaciones
La regla de las permutaciones permite contar las veces en
que n objetos pueden disponerse en k posiciones.
n objetos distinguibles
𝑃𝑘𝑛 = 𝑛 ∙ 𝑛 − 1 ∙ 𝑛 − 2 … (𝑛 − 𝑘 + 1)
𝑛!
𝑃𝑘𝑛 =
𝑛−𝑘 !
4.1 Reglas de conteo
Combinaciones
Regla de conteo para combinaciones: Permite contar el número de resultados cuando el experimento
consiste en la selección de n objetos de un conjunto (generalmente mayor) de N objetos.
k n-k
𝑛!
n n-1 n-k+1 n-k n-k-1 1 𝑃𝑘𝑛 =
… … 𝑘! 𝑛 − 𝑘 !
… Descuenta las veces en que k de n objetos
distinguibles pueden disponerse.
Combinaciones - 𝑛 𝑛!
=
Ejemplo x 𝑘 𝑘! 𝑛 − 𝑘 !
Muestreo de dos objetos de
un lote de cuatro, con dos de x 4! 1∙2∙3∙4
4
ellos defectuosos.
2
= =
x x 2!2! 2∙2
¿De cuántas maneras puede 4 3∙4 12
aparecer al menos un objeto 2
= = =6
x 2 2
defectuoso en el muestreo?
𝒏! 4! x
𝑷𝒏𝒌 = =
𝒌! 2! x x
1∙2∙3∙4
𝑃𝑘𝑛 = = 12 x
1∙2 x x
n=4 k=2 x
x
x x x
x
x
x Cinco de seis posibles resultados del
x muestreo producen que al menos una de
las piezas resulte defectuosa.
4.1 Asignación de probabilidades
¿Cómo asignar las probabilidades a los resultados del experimento?
Los enfoques:
Método clásico
Método de la frecuencia relativa y
Método subjetivo.
0 ≤ 𝑃(𝐸𝑖 ) ≤ 1
Para n resultados:
𝑃 𝐸1 + 𝑃 𝐸2 + ⋯ + 𝑃 𝐸𝑛 = 1
4.1 Asignación de probabilidades:
Método clásico
Ejemplo
Experimento: Lanzamiento de una moneda sin truco.
𝑃 0 +𝑃 1 +𝑃 2 +𝑃 3 +𝑃 4 =
Eventos:
Un evento es una colección de puntos de la muestra.
Ejemplo:
Suponga que el gerente está interesado en el evento
de que el proyecto completo se termine en 10 meses
o menos.
#𝑝𝑢𝑛𝑡𝑜𝑠
𝑃 𝐶 ≤ 10 =
𝑆
6 2
𝑃 𝐶 ≤ 10 = =
9 3
4.3 Relaciones básicas de probabilidad
Complemento de un evento
Dado un evento A, el complemento de A se define como el evento que consta de todos los
puntos de la muestra que no están en A.
𝑃 𝐴 + 𝑃 𝐴𝑐 = 1
Cálculo de 𝑃 𝐴
𝑃 𝐴 = 1 − 𝑃 𝐴𝑐
4.3 Relaciones básicas de probabilidad
Complemento de un evento
Dado un evento A, el complemento de A se define como el evento que consta de todos los puntos de la
muestra que no están en A.
𝑃 𝐴 + 𝑃 𝐴𝑐 = 1
Cálculo de 𝑃 𝐴
𝑃 𝐴 = 1 − 𝑃 𝐴𝑐 (4,5)
Ejemplo:
Considere el caso de un gerente de ventas quien, después de revisar los informes de ventas, establece
que 80% de los contactos de clientes nuevos no generan ninguna venta. Encuentre la probabilidad de que
los contactos de clientes nuevos generen al menos una venta.
𝑃 𝐴 = 1 − 𝑃 𝐴𝑐 = 1 − 0,8 = 0,2
4.3 Relaciones básicas de probabilidad
Ley de la adición de
probabilidades
La ley de la adición es útil cuando interesa
conocer la probabilidad de que ocurra por lo
menos uno de dos eventos.
𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵
4.4 Probabilidad condicional
La probabilidad de un evento a menudo es influida por el hecho
de si otro evento relacionado ha ocurrido ya.
𝑃 𝐴𝐵
La notación se utiliza para indicar que se está considerando la
probabilidad del evento A dada la condición de que B ha
ocurrido.
La policía local está formada por 1 200 La comandancia argumentó que el número
relativamente bajo de ascensos de las oficiales
oficiales, 960 hombres y 240 mujeres.
femeninas no se debe a discriminación, sino al
hecho de que en la policía hay relativamente pocos
Durante los últimos dos años fueron
miembros que son mujeres.
ascendidos 324 oficiales de policía.
¿Cómo se utiliza la probabilidad condicional para
La composición específica de la promoción de
hombres y mujeres se muestra en la tabla: analizar la acusación de discriminación?
Sean
288
Una 𝑃 𝐻 ∩ 𝐴 = = 0,24 de que un agente
1200
elegido al azar sea hombre y sea ascendido.
672
÷ 1200 Una 𝑃 𝐻 ∩ 𝐴𝑐 =
1200
= 0,56 de que un agente
elegido al azar sea hombre y no sea ascendido.
36
Una 𝑃 𝑀 ∩ 𝐴 = = 0,03 de que un agente
1200
elegido al azar sea mujer y sea ascendida.
𝑃 𝐴 =𝑃 𝐻∩𝐴 +𝑃 𝑀∩𝐴 204
Una 𝑃 𝑀 ∩ 𝐴𝑐 = = 0,17 de que un agente
𝑃 𝐴 = 0,24 + 0,03 = 0,27 1200
elegido al azar sea mujer y no sea ascendida.
𝑃 𝐴 𝐻 = 0,30
𝑃 𝐴 𝐻 = 0,30.
4.4 Probabilidad condicional
𝑃 𝐴 𝐻 = 0,30
𝑃 𝐴 𝐻 = 0,30.
4.4 Probabilidad condicional
36 36/1200 0,03
𝑃 𝐴𝑀 = = =
240 240/1200 0,20
𝑃 𝐴 𝑀 = 0,15
𝑃 𝐴𝑀 : La probabilidad del oficial de ser 𝑃 𝐴 𝐻 = 0,30
ascendido, dado que es mujer.
¿Hay discriminación?
𝑃 𝐴 𝐻 = 36/240,
𝑃 𝐴 𝐻 = 0,15.
4.4 Probabilidad condicional