Está en la página 1de 25

MÓDULO

Área: NEGOCIOS

1 Curso:ESTADÍSTICA APLICADA
Módulo:Introducción a la inferencia Estadística
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA

Introducción a la inferencia Estadística


Índice

Resultado de aprendizaje del módulo .................................................................................................................. 1


Introducción ......................................................................................................................................................... 1
1. Estadística descriptiva ...................................................................................................................................... 2
1.1 Medidas de Tendencia Central .................................................................................................................................... 2
1.1.1 Media ................................................................................................................................................................... 2
1.1.2 Moda .................................................................................................................................................................... 3
1.1.3 Mediana ............................................................................................................................................................... 4
1.2 Medidas de Dispersión ................................................................................................................................................ 5
1.2.1 Rango ................................................................................................................................................................... 6
1.2.2 Desviación Media ................................................................................................................................................. 6
1.2.3 Varianza y Desviación Estándar ............................................................................................................................ 7
2. Distribución de Probabilidades ......................................................................................................................... 8
2.1 Variables Aleatorias ..................................................................................................................................................... 8
2.2 Variables Discretas: Distribución de Probabilidades ................................................................................................. 10
2.3 Variables Continuas: Función de Densidad ............................................................................................................... 11
2.4 Distribución Normal................................................................................................................................................... 12
2.5 Distribución Normal Estándar.................................................................................................................................... 13
3. Métodos de Estimación Puntual y por Intervalos .......................................................................................... 15
4. Aplicación en Excel ......................................................................................................................................... 16
4.1 Medidas de Tendencia Central .................................................................................................................................. 17
4.2 Análisis de Datos ........................................................................................................................................................ 18
Cierre .................................................................................................................................................................. 21
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA

Introducción a la inferencia Estadística


Mapa de Contenido

Introducción a la inferencia
estadística

Métodos de
Distribución de
Estadística descriptiva estimación puntual y Aplicación en Excel
Probabilidades
por Intervalos

Medidad de
Variables aleatorias
tendencia central

Medidas de
Variables discretas
dispersión

Variables continuas

Distribución normal

Distribución normal
estándar
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 1

Introducción a la inferencia Estadística


Resultado de
aprendizaje del • Comprende los conceptos y métodos básicos de la inferencia estadística y
los aplica a situaciones particulares.
módulo

Introducción
El desarrollo relativamente reciente de los computadores personales ha generado un gran cambio en el
desarrollo de los procesos productivos de las organizaciones. En particular observamos tres fenómenos
relacionados:

En primer lugar, el desarrollo de computadores con cada vez un mayor poder de


procesamiento y a un costo cada vez menor, posibilita el acceso a esta tecnología a una gran
proporción de los hogares y empresas.

En segundo lugar, vemos el desarrollo de grandes bases de datos dado que el costo de
almacenamiento es cada vez menor y con niveles de seguridad crecientes. Muchas
empresas ya no se molestan en tener discos de almacenamiento, sino que simplemente
contratan empresas tecnológicas que les aseguran dicho servicio a un costo razonable y
con altos estándares de seguridad. Esto implica que la mayoría de las empresas están en
condiciones de almacenar su información histórica generando bases de datos.

Un último elemento corresponde a la disponibilidad de herramientas analíticas que


permiten analizar la información generada con un nivel de complejidad creciente y de bajo
costo. Por ejemplo las aplicaciones Microsoft Office, de fácil acceso por empresas y hogares,
han incorporado en forma paulatina alternativas analíticas que permiten el desarrollo de
análisis de información. Adicionalmente existen software denominados libres, dado que no
son producidos por una empresa sino por una colaboración de usuarios, que no cobran por
la generación y perfeccionamiento de estos programas (pero si por la venta de libros y de
asesorías). Todo ello permite acceder a herramientas especializadas como software de
bases de gestión de bases de datos, software estadísticos entre otros a bajo o cero costo.

Lo anterior implica que el análisis de información es una tarea que está cobrando cada vez más importancia en
las organizaciones. Algunas están en la primera etapa, lo cual implica automatizar sus procesos para generar
información, otras están en la parte de generar sus primeras bases de datos, en tanto tenemos empresas cuyo
principal foco es el análisis de la información que han logrado almacenar. Estas últimas entienden que las
ventajas competitivas que pueden desarrollar sobre su competencia están basadas en la tarea de extraer
información útil para el negocio a partir de la información que siempre han tenido pero que antes no habían
considerado relevantes.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 2

Introducción a la inferencia Estadística


El análisis de información puede tomar varias etapas, desde la generación de estadísticos descriptivos
(abordados en este módulo), modelos de causalidad (módulos posteriores) u otras técnicas más avanzadas.
Esto dependerá de la naturaleza de los negocios y de la data y recursos disponibles.

Por todo lo anterior, el análisis de datos es una competencia fundamental en el desarrollo profesional que será
cada vez más valorado en el mercado.

1. Estadística descriptiva
Prácticamente cualquier fenómeno de interés en el mundo de los negocios puede definirse como un proceso
de generación de información: las ventas diarias de la empresa, el historial de pagos a proveedores, el valor
del dólar, la inflación acumulada, etc. Sin duda que la gran cantidad de información que nos rodea debe ser
analizada y tomada en cuenta en el proceso de toma de decisiones de cualquier organización.

Sin embargo, el procesamiento de la información en detalle se hace imposible sin la ayuda de indicadores que
nos ayuden a resumir la información de tal forma que nos podamos formar una rápida idea del fenómeno, sin
tener que recurrir al detalle de los datos. La estadística descriptiva nos entrega una serie de valores conocidos
como parámetros estadísticos que describen en pocas cifras el total de la variable de interés a partir de definir
medidas de tendencia central y de dispersión.

1.1 Medidas de Tendencia Central


En general nos referimos a medidas de tendencia central para expresar parámetros que nos describen el valor
más común de una variable. Existen tres medidas de tendencia central que nos entregan información respecto
del valor más característico de la variable en análisis: media, moda y mediana.

1.1.1 Media
La media aritmética o simplemente la media o promedio, es la medida de tendencia central más comúnmente
utilizada y la más conocida.

El cálculo de la media para una variable es simplemente la suma de los valores observados que luego se
dividen en el número de observaciones. La media se representa con el símbolo 𝑥̅ o “x -barra”.

Si consideramos una serie X1, X2, X3,…, Xn para presentar el conjunto de valores y “n” para representar el número
de observaciones de la muestra, la media se calcula como:

𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛
𝑥̅ =
𝑛
Esta aproximación considera que cada observación aporta de igual forma o tiene la misma ponderación en el
cálculo esto es, todos los valores son igualmente importantes.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 3

Introducción a la inferencia Estadística


La pregunta ahora es: ¿el promedio es una buena medida para caracterizar la variable? No existe una única
respuesta a esta pregunta, puesto que dependerá de las características de la variable, en particular dependerá
de si existen valores muy alejados del promedio o si en general las observaciones se agrupan en torno a este.
En el primer caso se puede dar el absurdo de sacar conclusiones erróneas tomando el promedio: “Si mi vecino
come dos panes y yo no como ninguno, pues en promedio ambos comemos un pan”. En este sentido se plantea
la relevancia de considerar los promedios como una información relevante pero que debe ser complementada
con otros indicadores. Es común ver la discusión de si el producto interno Bruto (PIB) es realmente
representativo del bienestar de la sociedad dada su desigual distribución, entre otros indicadores.

1.1.2 Moda
La moda es otra medida que describe una distribución de frecuencia, se trata del valor que se presenta en
forma más repetida. Esta medida es de particular utilidad en variables de tipo discreta, por ejemplo, si en un
estacionamiento registramos todas las marcas de los vehículos estacionados, podríamos construir la siguiente
tabla de frecuencia:

Marca Frecuencia
Chevrolet 8
Toyota 6
Mazda 2
Ford 5
Kia 6
Peugeot 2

Con estos datos podríamos construir el siguiente Histograma, que es un gráfico que presenta en el eje vertical
la frecuencia de cada categoría, en tanto que en el eje horizontal presenta cada categoría observada:

Frecuencia

7
6 6
5

2 2

CHEVROLET TOYOTA MAZDA FORD KIA PEUGEOT

En el histograma se puede apreciar que la categoría más observada corresponde a la marca Chevrolet por lo
que esta categoría sería el valor de la moda.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 4

Introducción a la inferencia Estadística


En el caso de variables continuas, en menos común el uso de la moda como una medida de tendencia central
ya que puede darse el caso que ninguna categoría se repita, supongamos que medimos el valor del dólar en
una serie de 10 días:

Fecha Valor
03-abr 663.97
04-abr 658.16
05-abr 661.42
06-abr 657.74
07-abr 656.51
10-abr 656.47
11-abr 654.22
12-abr 652.80
13-abr 653.65
17-abr 650.00

Como podemos observar ningún valor se repite por lo que el concepto de moda no está presente.

Finalmente, una distribución puede presentar más de un valor modal, por ejemplo en el caso de las marcas de
automóviles presentes en un estacionamiento podríamos encontrar los siguientes valores:

Marca Frecuencia
Chevrolet 7
Toyota 7
Mazda 2
Ford 5
Kia 6
Peugeot 2
En este caso las categorías más frecuentes son Chevrolet y Toyota, ambas con 7 observaciones por lo que
ambas corresponden a la moda. En este caso la distribución tiene dos valores modales por lo que se conoce
como bimodal.

1.1.3 Mediana
La mediana consiste en el punto medio de las observaciones que podemos observar (no requiere calculo
como en el caso de la Media), una vez que hemos realizado un orden de la serie desde aquella que presenta el
menor valor a aquella que presenta el mayor valor. Por ejemplo, supongamos que estamos interesados en
adquirir una vivienda en sector determinado y hemos obtenido los valores de las viviendas en venta, las que
se presentan a continuación (en UF):
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 5

Introducción a la inferencia Estadística


1.250 1.350 1.270 1.100 2.200 1.300 1.200 1.180 1.290

Ahora bien, si ordenamos las observaciones des del menor valor al


mayor valor tenemos:

1,100 1,180 1,200 1,250 1,270 1,290 1,300 1,350 2,200

El valor medio de la secuencia es la mediana, que en este caso corresponde a 1.270. Si calculamos la media
de esta serie obtendremos el valor de 1,348.9. Ambos valores representan medidas de tendencia central pero
la ventaja de la mediana es que no se ve influenciada por valores extremos, en este caso la media es mayor
que la medina dado que existe un valor muy por sobre el resto de las observaciones (UF2.200) lo que implica
que la media del grupo no sea tan representativa del total de las observaciones como sí lo es la mediana.

No podemos concluir que una medida sea mejor que otra, sino más bien podemos concluir que la media, moda
y mediana son medidas complementarias, por lo que su utilización en conjunto nos describirá de mejor forma
la serie.
• El nivel de confiabilidad que podamos obtener de estos parámetros dependerá del tamaño de la
muestra que tengamos, en este sentido a mayor número de observaciones el resultado será más
confiable, sin embargo muchas veces el tamaño de la muestra estará limitado a un conjunto de datos
disponible sin posibilidad de acceder a más información, por ejemplo si queremos caracterizar a los
clientes de la empresa que realizan compras online, solo podremos contar los datos de los que
efectivamente han operado en dicho canal y tendremos que sacar conclusiones a partir de esta
muestra para abordar el universo de potenciales clientes.
• En otros casos como en el levantamiento de encuestas podríamos aumentar el número de la muestra
para un estudio pero sabemos que esto elevara el costo del estudio por lo que podríamos encontrar
limitaciones presupuestarias.
• En términos generales buscaremos un equilibrio para definir un tamaño de muestra que nos permita
optimizar recursos y obtener un nivel de confianza razonable respecto de los resultados a obtener.

1.2 Medidas de Dispersión


Las medidas de tendencia central ya revisadas son muy valiosas, pero solo nos entregan información respecto
del centro de la distribución de los datos. Sin embargo no nos entregan información sobre la dispersión de los
datos. A continuación, revisaremos las medidas de dispersión más conocidas.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 6

Introducción a la inferencia Estadística


1.2.1 Rango
Corresponde a la medida de dispersión más simple y se calcula como la diferencia entre el valor máximo y
mínimo de una distribución.

Volviendo al ejemplo de los valores de tipo de cambio para una serie de días, podemos calcular el rango
identificando el mínimo y el máximo de la serie:

Fecha Valor
03-abr 663.97 Máximo
04-abr 658.16
05-abr 661.42
06-abr 657.74
07-abr 656.51
10-abr 656.47
11-abr 654.22
12-abr 652.80
13-abr 653.65
17-abr 650.00 Mínimo

Luego el rango estará dado la diferencia entre máximo y mínimo: 663.97-650.00 = 13.97.

1.2.2 Desviación Media


La medida de dispersión previamente revisada, el rango, tiene la desventaja de que solo considera los valores
extremos de la distribución. La desviación media en cambio, considera todos los valores de la secuencia al
calcular el promedio de los valores absolutos de las desviaciones respecto de la media:
∑|𝑋 − 𝑋̅|
𝐷𝑀 =
𝑛

Donde el valor X denota cada observación de la muestra, 𝑋̅ representa la media de la serie y n corresponde al
número de observaciones.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 7

Introducción a la inferencia Estadística


Luego, calculemos el valor de la desviación media en los datos de tipo de cambio ya analizados:

Fecha Valor La tercera columna muestra el


𝑥 − 𝑥̅ |𝑥 − 𝑥̅ |
cálculo de la diferencia entre cada
03-abr 663.97 7.48 7.48
observación y la media calculada
04-abr 658.16 1.67 1.67
para el tipo de cambio.
05-abr 661.42 4.93 4.93
06-abr 657.74 1.25 1.25
07-abr 656.51 0.02 0.02
10-abr 656.47 -0.02 0.02
11-abr 654.22 -2.27 2.27
12-abr 652.80 -3.69 3.69
13-abr 653.65 -2.84 2.84
17-abr 650.00 -6.49 6.49

La cuarta columna muestra el mismo


Media 656.49 3.07
valor, pero ahora en valor absoluto.

Finalmente, el valor de la dispersión media es el promedio de dicha serie en valor absoluto. En este caso el
valor de la dispersión media es de 3.07.

1.2.3 Varianza y Desviación Estándar


Al igual que la desviación media, la varianza también utiliza la información de todos los datos presenten en la
serie de datos, la diferencia es que, en vez de calcular el valor absoluto de las desviaciones respecto de la
media, esta medida utiliza el valor de la dispersión al cuadrado.

Utilizar el cuadrado de las desviaciones es otra forma de asegurar que todos los valores sean positivos previo
al cálculo de su promedio, en general esta medida es más utilizada dado que tiene ciertas propiedades que la
hacen más fácil de incorporar en cálculos de optimizaciones como veremos más adelante. Luego la definición
de varianza estará dada por:
∑(𝑥 − 𝑥̅ )2
𝜎2 =
𝑛

Donde el símbolo  conocido como sigma, suele utilizarse para denotar la varianza al expresarse al cuadrado.

Una dificultad de la interpretación de la varianza es que está definida en una medida al cuadrado, luego si
calculamos la varianza de los datos del tipo de cambio, que están expresados en pesos, nos estaremos
refiriendo a una medida expresada en pesos al cuadrado, lo que no tiene mucho sentido, es por esto que al
mismo tiempo de calcular la varianza calculamos la desviación estándar que es la raíz cuadrada de la varianza:
 esta medida esta expresada en la misma medida que los valores originales.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 8

Introducción a la inferencia Estadística


Calculemos la varianza y la desviación estándar de los datos de tipo de cambio:

x-𝑥̅ (𝑥 − 𝑥̅ )2
Fecha Valor

03-abr 663.97 7.48 55.89


04-abr 658.16 1.67 2.78
05-abr 661.42 4.93 24.27
06-abr 657.74 1.25 1.55
07-abr 656.51 0.02 0.00
10-abr 656.47 -0.02 0.00
11-abr 654.22 -2.27 5.17
12-abr 652.80 -3.69 13.65
13-abr 653.65 -2.84 8.09
17-abr 650.00 -6.49 42.17

media 656.49
varianza 15.36
desviación
estándar 3.92

2. Distribución de Probabilidades
2.1 Variables Aleatorias
El mundo de la gestión de empresas tiene numerosos elementos que podemos observar tanto en distintas
ramas de actividad como en distintas áreas funcionales de la organización. Una de estos corresponde a la
incertidumbre en muchas de las variables que son relevantes en los resultados que obtendremos, muchas
veces dicha incertidumbre es acotada, como por ejemplo conocer el número promedio de crías que tendrá el
ganado de una empresa ganadera, que históricamente ha oscilado entre 0.7 y 0.9 crías al año; o en otros casos
puede estar en un rango de incertidumbre mucho mayor, como es el valor del cobre en el horizonte de cinco
años plazo. Estas variables pueden resumirse bajo el concepto de variables aleatorias.

Una variable aleatoria es una variable que toma valores numéricos determinados por el resultado de un
experimento aleatorio. (Newbold, 1997).

Podemos distinguir entre variables aleatorias continuas y discretas, esta diferenciación es fundamental puesto
que determina todo el proceso de análisis de las variables, es importante tener absoluta claridad de la variable
en cuestión dado que en algunos casos puede haber confusión si es que variables continuas se expresan a
partir de notaciones numéricas.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 9

Introducción a la inferencia Estadística


Una variable es discreta si solo puede tomar un numero definido y
acotado de resultados, por ejemplo, una variable discreta será la
región de residencia de un cliente donde la variable solo puede
tomar una alternativa entre las 15 regiones del país, podríamos
incorporar una alternativa de “otros” para clientes de otros países
completando así 16 alternativas posibles. Otros ejemplos en
variables discretas son: Genero (hombre o mujer), estado civil
(casado, soltero, separado, etc.), profesión u oficio (arquitecto,
abogado, ingeniero, etc.).

https://laicismo.org/2014/el-gobierno-reconoce-el-error-de-preguntar-
por-el-estado-civil-religioso-para-solicitar-becas/115528

Por otra parte, las variables que pueden tomar


cualquier valor dentro de un intervalo se conoce
como variables continuas, necesariamente estas
variables tienen una expresión numérica y el rango
puede estar o no acotado previamente. Ejemplos
de variables continuas es el valor que puede tomar
el precio de dólar en un día en particular el cual
puede tomar cualquier valor positivo entre,
digamos $400 y $1000 pesos por dólar. La
particularidad es que puede tomar cualquier valor
dentro de una infinidad de alternativas (en rigor
infinitas alternativas) dado que el precio puede
expresarse con una gran cantidad de decimales lo que hace que sea casi imposible que el precio de un día se
repita nuevamente otro día cualquiera. Otros ejemplos de variables continuas son el precio de una acción (y
en general cualquier precio que sea resultado del libre mercado), el peso de una persona medido en kilos y
gramos, el monto de créditos que un banco puede otorgar en un mes de año, el ingreso familiar promedio de
una región, entre otros.

Ejemplo:
Nótese que es posible transformar variables continuas a discretas, pero el proceso inverso no es factible.
Por ejemplo, si bien la edad es una variable continua, si reconocemos el hecho de que una persona puede
tener hoy 28 años, seis meses y 15 días de edad que equivale a 28,541 años de edad, para efectos de análisis
podríamos querer transformar esta variable en discreta generando rangos definidos de edad donde
podemos clasificar las respuestas posibles, entonces podremos categorizar simplemente en las alternativas
“menor a 18”, “entre 18 y 25”, etc. Este proceso puede facilitar el análisis en algunos casos.

Finalmente, hay que tener muy presente si una variable es discreta o continua para no cometer errores en la
eventual interpretación de resultados analíticos, por ejemplo si la variable “región” se mide como un número
del 1 al 15, debemos tener claridad que son categorías discretas y no niveles numéricos, esto es, debemos
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 10

Introducción a la inferencia Estadística


evitar que el computador lea que la “región 2” es el doble que la “región 1”, sino que lea que son categorías
distintas.

2.2 Variables Discretas: Distribución de Probabilidades


Si la variable aleatoria es discreta la describimos según su distribución de probabilidades, que consiste en una
lista de valores posibles de la variable y la proporción de veces que esperamos que ocurran:

La distribución de probabilidades de una variable aleatoria discreta X es una función, denotada por p(x) o
P[X=x], que asigna una probabilidad a cada valor posible de la variable aleatoria X.

Las propiedades de una función de distribución son:


• Los valores de las probabilidades están entre 0 y 1 ( ) para todo x.
• La suma de las probabilidades es 1.

Ejemplo:
Sea X una variable aleatoria que representa el número de libros que
llevan en la mochila los estudiantes de un colegio determinado, cuya
distribución se presenta en la siguiente tabla:

x 0 1 2 3
P(x) 0,5 0,2 0,2 0,1

Podemos responder las siguientes preguntas:

a. Describa la forma de la distribución


Respuesta: Podemos describir la forma de la distribución ayudándonos con un gráfico, donde el eje vertical
muestra la probabilidad indicada en tanto el eje horizontal muestra cada categoría. Este tipo de grafico se
conoce como histograma:

Distribución de numero de libros


0,6

0,4

0,2

0
0 1 2 3

b. ¿Qué proporción de estudiantes llevan 3 o menos libros ( X  3 )?


Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 11

Introducción a la inferencia Estadística


Respuesta: Si vemos los valores probables en la tabla, fácilmente reconocemos que todos los individuos llevan
3 o menos libros por lo que el porcentajes es del 100%.

c. ¿Qué proporción de estudiantes llevan más de 2 libros ( X  2 )?


Respuesta: Siguiendo la observación de los datos, vemos que la categoría que cumple la condición es la de 3
libros, la que corresponde a 10% de los estudiantes.

d. ¿Qué proporción de estudiantes llevan entre 2,1 y 2,8 libros ( 2,1  X  2,8 )?
Respuesta: Dada la naturaleza discreta de la variable, esta no puede tomar valores decimales, esto es, ningún
estudiante puede llevar 2.5 libros, solo puede llevar 2 o 3 libros u otro valor entero definido en las categorías,
dado esto, la probabilidad de llevar entre 2.1 y 2.8 libros es de 0%.

e. ¿Qué proporción de estudiantes llevan entre 1 y 2 libros ( 1  X  2 )?


Respuesta: Viendo la tabla, debemos considerar los alumnos que llevan uno o dos libros, por lo que debemos
sumar ambas categorías lo que entrega un resultado de 40% de los alumnos.

Si X es una variable aleatoria discreta que toma valores x1, x2, ... xk, con probabilidad p1,p2,... pk, entonces la
media o el valor esperado de X está dado por:

E ( X ) =  X = x1 p1 + x2 p2 +  + xk pk
k
E ( X ) =  xi pi
i =1

La varianza de X está dada por:

Var( X ) =  x2 = E (X −  )  2

Var( X ) =  xi2 pi −  2

y la desviación estándar de X está dada por:

 x =  x2

2.3 Variables Continuas: Función de Densidad


Una función de densidad es una función o curva que describe la forma de una distribución. El área total bajo
la curva es igual a uno y calculamos probabilidades como áreas bajo la curva de densidad.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 12

Introducción a la inferencia Estadística


Propiedades de una función densidad:
La función densidad de una variable aleatoria continua X es una función, denotada por f(x), que satisface:
1. f ( x)  0 La densidad es siempre mayor o igual a cero.
2. El área bajo la curva de densidad es uno.
3. P(a  X  b) = P(a  X  b) = es el área o proporción entre a y b

Un caso especial de variable continua lo constituyen las proporciones, estas corresponden a una fracción o
ratio que nos indica el porcentaje de una categoría respecto del total de la muestra. Este tipo de variables suele
ser de interés en muchos casos: la tasa de desempleo será el ratio de personas desempleadas respecto del
total de población en condiciones de trabajar, en otro caso podríamos estar interesados en analizar la
participación de mercado de nuestra empresa que se define como la fracción de las ventas de nuestra empresa
respecto del total de las ventas de las empresas de la industria-geografía.

2.4 Distribución Normal


Existe una distribución de frecuencias teórica llamada distribución normal, que puede considerarse como modelo
adecuado para la distribución de un gran número de variables.

Notación: X ~ N ( , 2 ) se lee: X es una variable aleatoria continua con distribución Normal, con media
 y varianza  2 .

La función densidad de una variable aleatoria Normal está dada por:

1
e −( x− ) 2 2
2
f ( x) = , -   x  , -     ,   0
 2

Gráficamente:
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 13

Introducción a la inferencia Estadística


Punto de
inflexión

−  +

Características:

Características Su gráfico semeja una campana simétrica, cuyas colas se extienden hacia el
infinito tanto en dirección negativa como en la positiva.

El promedio, la mediana y la moda de la distribución tienen el mismo valor.

La distribución queda completamente definida por el promedio y la


desviación estándar. El promedio nos informa sobre la posición o ubicación
de la distribución en el eje horizontal y la desviación estándar refleja la
dispersión de los valores con respecto al promedio.

2.5 Distribución Normal Estándar


X −
Si X ~ N (,  ) , la variable normal estandarizada es: Z = y tiene distribución Normal con media

cero y varianza igual a uno: Z ~ N (0,1) .

Z es el número de desviaciones estándar que x difiere de la media  :

Si Z> 0 entonces x es mayor a la media .

Si Z< 0 entonces x es menor a la media .

Si Z=0 entonces x es igual a la media .


Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 14

Introducción a la inferencia Estadística


68,3%

95,4%
99,7%

 - 3  - 2 -  +  + 2  + 3

Para cualquier distribución Normal N ( ,  ) se cumple que:

✓ 68,3% de las observaciones se encontrarán a una desviación estándar de la media, es decir dentro del
intervalo:
( -  ,  +  )

✓ 95,4% de las observaciones se encontrarán a dos desviaciones estándar de la media, es decir dentro
del intervalo:
(  - 2 ,  + 2 )

✓ 99,7% de las observaciones se encontrarán a tres desviaciones estándar de la media, es decir dentro
del intervalo:
(  - 3 ,  + 3 )

Aunque teóricamente la distribución llega a - y a +, en la práctica es muy raro encontrar valores a más de 3
desviaciones estándar del promedio.

La anterior caracterización es extremadamente útil puesto que nos permite establecer la probabilidad de
ocurrencia de un valor o un rango de valores tan solo conociendo la media y la varianza una vez que hemos
asumido esta distribución de probabilidades.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 15

Introducción a la inferencia Estadística


3. Métodos de Estimación Puntual y por Intervalos
Un estimador puntual es un estadístico único para calcular un parámetro que caracterice a la variable en
estudio.

Supongamos que el IPP quiere estudiar edad de sus estudiantes, para ello selecciona una muestra de los
estudiantes matriculados el último año y calcula una media de 33 años, dicha media calculada corresponde a
una estimación puntual. Ahora bien, además de esta primera estimación será útil encontrar una expresión
probabilística que nos ayude a entender de mejor forma que tan representativo es este valor respecto del
verdadero valor de la población de la variable, para esto nos podemos ayudar de un intervalo de confianza.

Un intervalo de confianza corresponde a un rango de valores construido a partir de la muestra de datos


observada y de la presunción de una distribución de probabilidades, que nos permita realizar una estimación
de la probabilidad de que el verdadero valor poblacional de la variable se encuentre en dicho rango o intervalo.
La probabilidad de ocurrencia se conoce en este caso como nivel de confianza.

Para efectos de calcular un intervalo de confianza de la media poblacional con un valor de varianza conocida
utilizaremos la siguiente expresión:

𝜎
𝑋̅ ± 𝑧
√𝑛
Donde:
𝑋̅ = media de la muestra
= desviación estándar
n= número de observaciones
z= variable asociada a la distribución normal estándar que asigna un valor dependiendo del nivel de confianza
que estemos definiendo.

Esta expresión deja en evidencia que la estimación de un parámetro (en este caso la media), a partir de una
muestra, está sujeta a un error de estimación que en este caso se aproxima con la segunda parte de la
expresión. Entonces, podemos decir que la estimación es la media muestral más menos un rango de error,
dicho error es proporcional al nivel de confianza que queremos obtener y a la volatilidad de la muestra y es
inversamente proporcional al tamaño de la muestra.

A continuación, se presentan los valores de z más comúnmente utilizados y sus respectivos niveles de
probabilidad:

Probabilidad Probabilidad
Acumulada Probabilidad del Intervalo
z (A) z Acumulada (B) (A)-(B)
1.28 90.00% -1.28 10.00% 80%
1.64 95.00% -1.64 5.00% 90%
1.96 97.50% -1.96 2.50% 95%
2.33 99.00% -2.33 1.00% 98%
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 16

Introducción a la inferencia Estadística


Nótese que la tabla es de carácter simétrico, esto es la probabilidad acumulada al 10% corresponde a un valor
de z de -1.28, en tanto que la probabilidad de 90% corresponde a un z de -1.28. Luego debemos considerar que
una probabilidad de ocurrencia debe considerar que estas probabilidades son acumuladas, vale decir, si
queremos considerar un nivel de confianza del 95% debemos considerar por una parte el valor de z que asocie
la probabilidad acumulada al 2.5% por una parte y al 97.5% por otra. Por ende, la última columna de la tabla
es la que presenta la probabilidad de ocurrencia de un intervalo asociado a los valores de z.

Ahora bien, consideremos el siguiente ejemplo: supongamos


que conocemos el valor del promedio de edad de los
estudiantes de IPP matriculados el último año, que es de 33
años, además sabemos que la desviación estándar es de 2.8
años y que la muestra es de 180 estudiantes. Con estos datos
podemos construir un intervalo de confianza para la media de
la edad de los estudiantes de IPP, supongamos que nos interesa
un nivel de confianza del 95% (por ende el valor de z=1.96):

𝜎 2.8
𝑋̅ ± 𝑧 = 33±1.96 = 33±0.41= (32.59, 33.41)
√𝑛 √180

Luego, el valor del intervalo es de (32.59, 33.41) lo que significa que la estimación puntual de la edad promedio
de los estudiantes del IPP es de 33 años y con un 95% de confianza podemos afirmar que la edad promedio de
los estudiantes de IPP se encuentra entre 32.59 y 33.41 años.

4. Aplicación en Excel
Si bien existen una gran cantidad de software cuyo principal objetivo es la aplicación de análisis estadísticos
sobre bases de datos, las actuales versiones de Microsoft Excel incorporan una buena cantidad de funciones y
complementos que permiten desarrollara estadística aplicada en un ambiente que es de fácil acceso y de
conocimiento amplio.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 17

Introducción a la inferencia Estadística


4.1 Medidas de Tendencia Central
Cabe mencionar que las medidas de tendencia central y de dispersión son fácilmente calculables en Excel a
través de las siguientes funciones:

Medida Función
Media =PROMEDIO()
Mediana =MEDIANA()
Moda =MODA()
Varianza =VAR.P()
Desviación estándar =DESVEST.P()

Por ejemplo, veamos un ejemplo de cálculo sobre una variable, digamos una serie diaria del precio del dólar:

Las otras funciones mencionadas se aplican de manera similar, esto es, basta señalar en la fórmula de Excel el
rango de datos sobre los cuales se desea calcular el promedio, el máximo, mínimo, etc.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 18

Introducción a la inferencia Estadística


4.2 Análisis de Datos
Para efectos de calcular elementos de análisis más allá de los mencionados en el punto anterior, es útil contar
con el complemento de Análisis de Datos de Excel, para ello podemos seguir los siguientes pasos:

a) Comprobar si el complemento está activo o no: Para ello debemos ir a la pestaña Datos de Excel:

Como vemos en la figura, si el complemento está activo lo veremos en el extremo derecho: “Análisis de
datos”.

b) Si el complemento no ha sido utilizado antes, es posible que no es te activo. Para activarlos seguiremos
los siguientes pasos:
a. Ir a la opción “Archivo” de Excel:
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 19

Introducción a la inferencia Estadística


b. Ir a “Opciones”:

c. Luego click a “Complementos” y después click en el botón “Ir”:


Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 20

Introducción a la inferencia Estadística


d. Finalmente habilitar la opción “Herramientas para análisis” y Aceptar:

e. Ahora podemos acceder a las alternativas de análisis de este complemento:

f. Se incluyen varias funciones, la primera que podemos revisar corresponde a “Estadística


Descriptiva”:
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 21

Introducción a la inferencia Estadística


Ahora debemos incorporar el rango de entrada de los datos, esto es simplemente donde se encuentra la serie
a analizar, luego le indicamos que buscamos el “Resumen de estadísticas” y el resto de las alternativas se
pueden mantener tal como aparecen en un inicio:

Lo que entregará el siguiente resultado en una nueva hoja del libro Excel:

Nótese que la Moda no es calculada dado que se trata de una variable continua donde ningún elemento se
repite más de una vez, como ya se explicó previamente.

En los próximos módulos aplicaremos nuevas funciones incorporadas en el complemento de análisis de datos,
se recomienda al alumno que explore las distintas alternativas libremente.

Cierre
El análisis estadístico corresponde a la captura de toda la información que podemos extraer de un grupo de
datos ya sea de carácter muestral o poblacional. Por muy complejo que sea el análisis que se pretenda
desarrollar de una variable, el primer paso siempre será el mismo: análisis descriptivo de los datos, estos
incluyen el cálculo e interpretación de medidas de tendencia central y de dispersión. Normalmente en
complemento con la construcción de gráficos que nos ayuden a entender de la mejor forma posible la
distribución de las variables, esto es, cuál es su punto medio, qué tan dispersas respecto de su punto medio se
encuentra, si la dispersión es simétrica o tiende a dispersarse hacia una signo por sobre otro, entre otros.
Área: NEGOCIOS M1
Curso:ESTADÍSTICA APLICADA Pág. 22

Introducción a la inferencia Estadística


En algunos casos se puede no abordar el análisis descriptivo para pasar directamente a la estimación de
modelos. Esto puede ser contraproducente dado que el análisis descriptivo previo no solo sirve para entender
el alcance de los datos, sino que nos permite abordar cuestiones prácticas como la detección de errores en las
bases de datos, cuestión extremadamente frecuente.

La correcta caracterización de los datos implica el cálculo de media, varianza y otras medidas de tendencia
central y dispersión. Tener claridad en estos valores nos permitirá también entender y validar los resultados
de eventuales modelos que se puedan estimar a partir de la información.

En este módulo vimos una primera aproximación al concepto de estimación por intervalos, dado que las
estimaciones puntuales no pueden interpretarse correctamente sin complementar con un indicador de error
del mismo. Por ejemplo, si una encuesta le entrega 3 puntos de ventaja al candidato A por sobre el candidato
B, ¿qué podemos concluir con esta información? La verdad es que no mucho si no conocemos el margen de
error que está dado por la estimación de error. Luego si el error de estimación es de 2 puntos, entonces
podemos decir que la diferencia entre un candidato es significativa, pero si el margen de error es de 5 puntos
entonces se dice que los candidatos están más bien empatados, existe un empate técnico o están en el margen
de error, todo lo cual quiere decir que en realidad los candidatos comparten un nivel de intervalo que hace
imposible que se pueda sacar una conclusión.

Finalmente, el módulo vimos la aplicación de los conceptos utilizando Microsoft Excel. Es fundamental que se
familiaricen con alguna alternativa de proceso de datos para bordar las exigencias que presenta el mundo
profesional en este sentido. Se considera Excel dado su amplio y fácil acceso.

APORTE A TU FORMACIÓN

Las organizaciones están transitando a una etapa de gestión eficiente de la información, la diferencia entre
aquellas que sean más o menos rentables está dada por la diferencia que tengan en adaptarse a esta forma
de abordar los negocios. Los supermercados ya no solo venden mercaderías, le preguntan a cada cliente
su RUT para ingresarlo y así caracterizar a cada cliente entendiendo que compra cada uno, con qué
frecuencia, cuánto gasta, etc. Lo mismo hacen las farmacias, distribuidores de combustibles, bancos, etc.
Todas las industrias están generando grandes bases de datos a todo nivel de los negocios: con proveedores,
competencia, clientes, etc. para luego utilizar dicha información en beneficio propio.

El análisis de información se fundamenta en las técnicas de inferencia estadística, por ende es fundamental
que los alumnos tengan claridad de cómo abordar una caracterización primaria de los datos y que lo
realicen con software que tienen integradas dichas funciones a cero costos adicionales.

También podría gustarte