Documentos de Académico
Documentos de Profesional
Documentos de Cultura
M1 - Estadística Aplicada
M1 - Estadística Aplicada
Área: NEGOCIOS
1 Curso:ESTADÍSTICA APLICADA
Módulo:Introducción a la inferencia Estadística
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA
Introducción a la inferencia
estadística
Métodos de
Distribución de
Estadística descriptiva estimación puntual y Aplicación en Excel
Probabilidades
por Intervalos
Medidad de
Variables aleatorias
tendencia central
Medidas de
Variables discretas
dispersión
Variables continuas
Distribución normal
Distribución normal
estándar
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 1
Introducción
El desarrollo relativamente reciente de los computadores personales ha generado un gran cambio en el
desarrollo de los procesos productivos de las organizaciones. En particular observamos tres fenómenos
relacionados:
En segundo lugar, vemos el desarrollo de grandes bases de datos dado que el costo de
almacenamiento es cada vez menor y con niveles de seguridad crecientes. Muchas
empresas ya no se molestan en tener discos de almacenamiento, sino que simplemente
contratan empresas tecnológicas que les aseguran dicho servicio a un costo razonable y
con altos estándares de seguridad. Esto implica que la mayoría de las empresas están en
condiciones de almacenar su información histórica generando bases de datos.
Lo anterior implica que el análisis de información es una tarea que está cobrando cada vez más importancia en
las organizaciones. Algunas están en la primera etapa, lo cual implica automatizar sus procesos para generar
información, otras están en la parte de generar sus primeras bases de datos, en tanto tenemos empresas cuyo
principal foco es el análisis de la información que han logrado almacenar. Estas últimas entienden que las
ventajas competitivas que pueden desarrollar sobre su competencia están basadas en la tarea de extraer
información útil para el negocio a partir de la información que siempre han tenido pero que antes no habían
considerado relevantes.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 2
Por todo lo anterior, el análisis de datos es una competencia fundamental en el desarrollo profesional que será
cada vez más valorado en el mercado.
1. Estadística descriptiva
Prácticamente cualquier fenómeno de interés en el mundo de los negocios puede definirse como un proceso
de generación de información: las ventas diarias de la empresa, el historial de pagos a proveedores, el valor
del dólar, la inflación acumulada, etc. Sin duda que la gran cantidad de información que nos rodea debe ser
analizada y tomada en cuenta en el proceso de toma de decisiones de cualquier organización.
Sin embargo, el procesamiento de la información en detalle se hace imposible sin la ayuda de indicadores que
nos ayuden a resumir la información de tal forma que nos podamos formar una rápida idea del fenómeno, sin
tener que recurrir al detalle de los datos. La estadística descriptiva nos entrega una serie de valores conocidos
como parámetros estadísticos que describen en pocas cifras el total de la variable de interés a partir de definir
medidas de tendencia central y de dispersión.
1.1.1 Media
La media aritmética o simplemente la media o promedio, es la medida de tendencia central más comúnmente
utilizada y la más conocida.
El cálculo de la media para una variable es simplemente la suma de los valores observados que luego se
dividen en el número de observaciones. La media se representa con el símbolo 𝑥̅ o “x -barra”.
Si consideramos una serie X1, X2, X3,…, Xn para presentar el conjunto de valores y “n” para representar el número
de observaciones de la muestra, la media se calcula como:
𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
𝑥̅ =
𝑛
Esta aproximación considera que cada observación aporta de igual forma o tiene la misma ponderación en el
cálculo esto es, todos los valores son igualmente importantes.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 3
1.1.2 Moda
La moda es otra medida que describe una distribución de frecuencia, se trata del valor que se presenta en
forma más repetida. Esta medida es de particular utilidad en variables de tipo discreta, por ejemplo, si en un
estacionamiento registramos todas las marcas de los vehículos estacionados, podríamos construir la siguiente
tabla de frecuencia:
Marca Frecuencia
Chevrolet 8
Toyota 6
Mazda 2
Ford 5
Kia 6
Peugeot 2
Con estos datos podríamos construir el siguiente Histograma, que es un gráfico que presenta en el eje vertical
la frecuencia de cada categoría, en tanto que en el eje horizontal presenta cada categoría observada:
Frecuencia
7
6 6
5
2 2
En el histograma se puede apreciar que la categoría más observada corresponde a la marca Chevrolet por lo
que esta categoría sería el valor de la moda.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 4
Fecha Valor
03-abr 663.97
04-abr 658.16
05-abr 661.42
06-abr 657.74
07-abr 656.51
10-abr 656.47
11-abr 654.22
12-abr 652.80
13-abr 653.65
17-abr 650.00
Como podemos observar ningún valor se repite por lo que el concepto de moda no está presente.
Finalmente, una distribución puede presentar más de un valor modal, por ejemplo en el caso de las marcas de
automóviles presentes en un estacionamiento podríamos encontrar los siguientes valores:
Marca Frecuencia
Chevrolet 7
Toyota 7
Mazda 2
Ford 5
Kia 6
Peugeot 2
En este caso las categorías más frecuentes son Chevrolet y Toyota, ambas con 7 observaciones por lo que
ambas corresponden a la moda. En este caso la distribución tiene dos valores modales por lo que se conoce
como bimodal.
1.1.3 Mediana
La mediana consiste en el punto medio de las observaciones que podemos observar (no requiere calculo
como en el caso de la Media), una vez que hemos realizado un orden de la serie desde aquella que presenta el
menor valor a aquella que presenta el mayor valor. Por ejemplo, supongamos que estamos interesados en
adquirir una vivienda en sector determinado y hemos obtenido los valores de las viviendas en venta, las que
se presentan a continuación (en UF):
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 5
El valor medio de la secuencia es la mediana, que en este caso corresponde a 1.270. Si calculamos la media
de esta serie obtendremos el valor de 1,348.9. Ambos valores representan medidas de tendencia central pero
la ventaja de la mediana es que no se ve influenciada por valores extremos, en este caso la media es mayor
que la medina dado que existe un valor muy por sobre el resto de las observaciones (UF2.200) lo que implica
que la media del grupo no sea tan representativa del total de las observaciones como sí lo es la mediana.
No podemos concluir que una medida sea mejor que otra, sino más bien podemos concluir que la media, moda
y mediana son medidas complementarias, por lo que su utilización en conjunto nos describirá de mejor forma
la serie.
• El nivel de confiabilidad que podamos obtener de estos parámetros dependerá del tamaño de la
muestra que tengamos, en este sentido a mayor número de observaciones el resultado será más
confiable, sin embargo muchas veces el tamaño de la muestra estará limitado a un conjunto de datos
disponible sin posibilidad de acceder a más información, por ejemplo si queremos caracterizar a los
clientes de la empresa que realizan compras online, solo podremos contar los datos de los que
efectivamente han operado en dicho canal y tendremos que sacar conclusiones a partir de esta
muestra para abordar el universo de potenciales clientes.
• En otros casos como en el levantamiento de encuestas podríamos aumentar el número de la muestra
para un estudio pero sabemos que esto elevara el costo del estudio por lo que podríamos encontrar
limitaciones presupuestarias.
• En términos generales buscaremos un equilibrio para definir un tamaño de muestra que nos permita
optimizar recursos y obtener un nivel de confianza razonable respecto de los resultados a obtener.
Volviendo al ejemplo de los valores de tipo de cambio para una serie de días, podemos calcular el rango
identificando el mínimo y el máximo de la serie:
Fecha Valor
03-abr 663.97 Máximo
04-abr 658.16
05-abr 661.42
06-abr 657.74
07-abr 656.51
10-abr 656.47
11-abr 654.22
12-abr 652.80
13-abr 653.65
17-abr 650.00 Mínimo
Luego el rango estará dado la diferencia entre máximo y mínimo: 663.97-650.00 = 13.97.
Donde el valor X denota cada observación de la muestra, 𝑋̅ representa la media de la serie y n corresponde al
número de observaciones.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 7
Finalmente, el valor de la dispersión media es el promedio de dicha serie en valor absoluto. En este caso el
valor de la dispersión media es de 3.07.
Utilizar el cuadrado de las desviaciones es otra forma de asegurar que todos los valores sean positivos previo
al cálculo de su promedio, en general esta medida es más utilizada dado que tiene ciertas propiedades que la
hacen más fácil de incorporar en cálculos de optimizaciones como veremos más adelante. Luego la definición
de varianza estará dada por:
∑(𝑥 − 𝑥̅ )2
𝜎2 =
𝑛
Donde el símbolo conocido como sigma, suele utilizarse para denotar la varianza al expresarse al cuadrado.
Una dificultad de la interpretación de la varianza es que está definida en una medida al cuadrado, luego si
calculamos la varianza de los datos del tipo de cambio, que están expresados en pesos, nos estaremos
refiriendo a una medida expresada en pesos al cuadrado, lo que no tiene mucho sentido, es por esto que al
mismo tiempo de calcular la varianza calculamos la desviación estándar que es la raíz cuadrada de la varianza:
esta medida esta expresada en la misma medida que los valores originales.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 8
x-𝑥̅ (𝑥 − 𝑥̅ )2
Fecha Valor
media 656.49
varianza 15.36
desviación
estándar 3.92
2. Distribución de Probabilidades
2.1 Variables Aleatorias
El mundo de la gestión de empresas tiene numerosos elementos que podemos observar tanto en distintas
ramas de actividad como en distintas áreas funcionales de la organización. Una de estos corresponde a la
incertidumbre en muchas de las variables que son relevantes en los resultados que obtendremos, muchas
veces dicha incertidumbre es acotada, como por ejemplo conocer el número promedio de crías que tendrá el
ganado de una empresa ganadera, que históricamente ha oscilado entre 0.7 y 0.9 crías al año; o en otros casos
puede estar en un rango de incertidumbre mucho mayor, como es el valor del cobre en el horizonte de cinco
años plazo. Estas variables pueden resumirse bajo el concepto de variables aleatorias.
Una variable aleatoria es una variable que toma valores numéricos determinados por el resultado de un
experimento aleatorio. (Newbold, 1997).
Podemos distinguir entre variables aleatorias continuas y discretas, esta diferenciación es fundamental puesto
que determina todo el proceso de análisis de las variables, es importante tener absoluta claridad de la variable
en cuestión dado que en algunos casos puede haber confusión si es que variables continuas se expresan a
partir de notaciones numéricas.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 9
https://laicismo.org/2014/el-gobierno-reconoce-el-error-de-preguntar-
por-el-estado-civil-religioso-para-solicitar-becas/115528
Ejemplo:
Nótese que es posible transformar variables continuas a discretas, pero el proceso inverso no es factible.
Por ejemplo, si bien la edad es una variable continua, si reconocemos el hecho de que una persona puede
tener hoy 28 años, seis meses y 15 días de edad que equivale a 28,541 años de edad, para efectos de análisis
podríamos querer transformar esta variable en discreta generando rangos definidos de edad donde
podemos clasificar las respuestas posibles, entonces podremos categorizar simplemente en las alternativas
“menor a 18”, “entre 18 y 25”, etc. Este proceso puede facilitar el análisis en algunos casos.
Finalmente, hay que tener muy presente si una variable es discreta o continua para no cometer errores en la
eventual interpretación de resultados analíticos, por ejemplo si la variable “región” se mide como un número
del 1 al 15, debemos tener claridad que son categorías discretas y no niveles numéricos, esto es, debemos
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 10
La distribución de probabilidades de una variable aleatoria discreta X es una función, denotada por p(x) o
P[X=x], que asigna una probabilidad a cada valor posible de la variable aleatoria X.
Ejemplo:
Sea X una variable aleatoria que representa el número de libros que
llevan en la mochila los estudiantes de un colegio determinado, cuya
distribución se presenta en la siguiente tabla:
x 0 1 2 3
P(x) 0,5 0,2 0,2 0,1
0,4
0,2
0
0 1 2 3
d. ¿Qué proporción de estudiantes llevan entre 2,1 y 2,8 libros ( 2,1 X 2,8 )?
Respuesta: Dada la naturaleza discreta de la variable, esta no puede tomar valores decimales, esto es, ningún
estudiante puede llevar 2.5 libros, solo puede llevar 2 o 3 libros u otro valor entero definido en las categorías,
dado esto, la probabilidad de llevar entre 2.1 y 2.8 libros es de 0%.
Si X es una variable aleatoria discreta que toma valores x1, x2, ... xk, con probabilidad p1,p2,... pk, entonces la
media o el valor esperado de X está dado por:
E ( X ) = X = x1 p1 + x2 p2 + + xk pk
k
E ( X ) = xi pi
i =1
Var( X ) = x2 = E (X − ) 2
Var( X ) = xi2 pi − 2
x = x2
Un caso especial de variable continua lo constituyen las proporciones, estas corresponden a una fracción o
ratio que nos indica el porcentaje de una categoría respecto del total de la muestra. Este tipo de variables suele
ser de interés en muchos casos: la tasa de desempleo será el ratio de personas desempleadas respecto del
total de población en condiciones de trabajar, en otro caso podríamos estar interesados en analizar la
participación de mercado de nuestra empresa que se define como la fracción de las ventas de nuestra empresa
respecto del total de las ventas de las empresas de la industria-geografía.
Notación: X ~ N ( , 2 ) se lee: X es una variable aleatoria continua con distribución Normal, con media
y varianza 2 .
1
e −( x− ) 2 2
2
f ( x) = , - x , - , 0
2
Gráficamente:
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 13
− +
Características:
Características Su gráfico semeja una campana simétrica, cuyas colas se extienden hacia el
infinito tanto en dirección negativa como en la positiva.
95,4%
99,7%
- 3 - 2 - + + 2 + 3
✓ 68,3% de las observaciones se encontrarán a una desviación estándar de la media, es decir dentro del
intervalo:
( - , + )
✓ 95,4% de las observaciones se encontrarán a dos desviaciones estándar de la media, es decir dentro
del intervalo:
( - 2 , + 2 )
✓ 99,7% de las observaciones se encontrarán a tres desviaciones estándar de la media, es decir dentro
del intervalo:
( - 3 , + 3 )
Aunque teóricamente la distribución llega a - y a +, en la práctica es muy raro encontrar valores a más de 3
desviaciones estándar del promedio.
La anterior caracterización es extremadamente útil puesto que nos permite establecer la probabilidad de
ocurrencia de un valor o un rango de valores tan solo conociendo la media y la varianza una vez que hemos
asumido esta distribución de probabilidades.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 15
Supongamos que el IPP quiere estudiar edad de sus estudiantes, para ello selecciona una muestra de los
estudiantes matriculados el último año y calcula una media de 33 años, dicha media calculada corresponde a
una estimación puntual. Ahora bien, además de esta primera estimación será útil encontrar una expresión
probabilística que nos ayude a entender de mejor forma que tan representativo es este valor respecto del
verdadero valor de la población de la variable, para esto nos podemos ayudar de un intervalo de confianza.
Para efectos de calcular un intervalo de confianza de la media poblacional con un valor de varianza conocida
utilizaremos la siguiente expresión:
𝜎
𝑋̅ ± 𝑧
√𝑛
Donde:
𝑋̅ = media de la muestra
= desviación estándar
n= número de observaciones
z= variable asociada a la distribución normal estándar que asigna un valor dependiendo del nivel de confianza
que estemos definiendo.
Esta expresión deja en evidencia que la estimación de un parámetro (en este caso la media), a partir de una
muestra, está sujeta a un error de estimación que en este caso se aproxima con la segunda parte de la
expresión. Entonces, podemos decir que la estimación es la media muestral más menos un rango de error,
dicho error es proporcional al nivel de confianza que queremos obtener y a la volatilidad de la muestra y es
inversamente proporcional al tamaño de la muestra.
A continuación, se presentan los valores de z más comúnmente utilizados y sus respectivos niveles de
probabilidad:
Probabilidad Probabilidad
Acumulada Probabilidad del Intervalo
z (A) z Acumulada (B) (A)-(B)
1.28 90.00% -1.28 10.00% 80%
1.64 95.00% -1.64 5.00% 90%
1.96 97.50% -1.96 2.50% 95%
2.33 99.00% -2.33 1.00% 98%
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 16
𝜎 2.8
𝑋̅ ± 𝑧 = 33±1.96 = 33±0.41= (32.59, 33.41)
√𝑛 √180
Luego, el valor del intervalo es de (32.59, 33.41) lo que significa que la estimación puntual de la edad promedio
de los estudiantes del IPP es de 33 años y con un 95% de confianza podemos afirmar que la edad promedio de
los estudiantes de IPP se encuentra entre 32.59 y 33.41 años.
4. Aplicación en Excel
Si bien existen una gran cantidad de software cuyo principal objetivo es la aplicación de análisis estadísticos
sobre bases de datos, las actuales versiones de Microsoft Excel incorporan una buena cantidad de funciones y
complementos que permiten desarrollara estadística aplicada en un ambiente que es de fácil acceso y de
conocimiento amplio.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 17
Medida Función
Media =PROMEDIO()
Mediana =MEDIANA()
Moda =MODA()
Varianza =VAR.P()
Desviación estándar =DESVEST.P()
Por ejemplo, veamos un ejemplo de cálculo sobre una variable, digamos una serie diaria del precio del dólar:
Las otras funciones mencionadas se aplican de manera similar, esto es, basta señalar en la fórmula de Excel el
rango de datos sobre los cuales se desea calcular el promedio, el máximo, mínimo, etc.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 18
a) Comprobar si el complemento está activo o no: Para ello debemos ir a la pestaña Datos de Excel:
Como vemos en la figura, si el complemento está activo lo veremos en el extremo derecho: “Análisis de
datos”.
b) Si el complemento no ha sido utilizado antes, es posible que no es te activo. Para activarlos seguiremos
los siguientes pasos:
a. Ir a la opción “Archivo” de Excel:
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 19
Lo que entregará el siguiente resultado en una nueva hoja del libro Excel:
Nótese que la Moda no es calculada dado que se trata de una variable continua donde ningún elemento se
repite más de una vez, como ya se explicó previamente.
En los próximos módulos aplicaremos nuevas funciones incorporadas en el complemento de análisis de datos,
se recomienda al alumno que explore las distintas alternativas libremente.
Cierre
El análisis estadístico corresponde a la captura de toda la información que podemos extraer de un grupo de
datos ya sea de carácter muestral o poblacional. Por muy complejo que sea el análisis que se pretenda
desarrollar de una variable, el primer paso siempre será el mismo: análisis descriptivo de los datos, estos
incluyen el cálculo e interpretación de medidas de tendencia central y de dispersión. Normalmente en
complemento con la construcción de gráficos que nos ayuden a entender de la mejor forma posible la
distribución de las variables, esto es, cuál es su punto medio, qué tan dispersas respecto de su punto medio se
encuentra, si la dispersión es simétrica o tiende a dispersarse hacia una signo por sobre otro, entre otros.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 22
La correcta caracterización de los datos implica el cálculo de media, varianza y otras medidas de tendencia
central y dispersión. Tener claridad en estos valores nos permitirá también entender y validar los resultados
de eventuales modelos que se puedan estimar a partir de la información.
En este módulo vimos una primera aproximación al concepto de estimación por intervalos, dado que las
estimaciones puntuales no pueden interpretarse correctamente sin complementar con un indicador de error
del mismo. Por ejemplo, si una encuesta le entrega 3 puntos de ventaja al candidato A por sobre el candidato
B, ¿qué podemos concluir con esta información? La verdad es que no mucho si no conocemos el margen de
error que está dado por la estimación de error. Luego si el error de estimación es de 2 puntos, entonces
podemos decir que la diferencia entre un candidato es significativa, pero si el margen de error es de 5 puntos
entonces se dice que los candidatos están más bien empatados, existe un empate técnico o están en el margen
de error, todo lo cual quiere decir que en realidad los candidatos comparten un nivel de intervalo que hace
imposible que se pueda sacar una conclusión.
Finalmente, el módulo vimos la aplicación de los conceptos utilizando Microsoft Excel. Es fundamental que se
familiaricen con alguna alternativa de proceso de datos para bordar las exigencias que presenta el mundo
profesional en este sentido. Se considera Excel dado su amplio y fácil acceso.
APORTE A TU FORMACIÓN
Las organizaciones están transitando a una etapa de gestión eficiente de la información, la diferencia entre
aquellas que sean más o menos rentables está dada por la diferencia que tengan en adaptarse a esta forma
de abordar los negocios. Los supermercados ya no solo venden mercaderías, le preguntan a cada cliente
su RUT para ingresarlo y así caracterizar a cada cliente entendiendo que compra cada uno, con qué
frecuencia, cuánto gasta, etc. Lo mismo hacen las farmacias, distribuidores de combustibles, bancos, etc.
Todas las industrias están generando grandes bases de datos a todo nivel de los negocios: con proveedores,
competencia, clientes, etc. para luego utilizar dicha información en beneficio propio.
El análisis de información se fundamenta en las técnicas de inferencia estadística, por ende es fundamental
que los alumnos tengan claridad de cómo abordar una caracterización primaria de los datos y que lo
realicen con software que tienen integradas dichas funciones a cero costos adicionales.