Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Finanzas
Prof.: H. Ernesto Sheriff, PhD.
Sesión 4
INTRODUCCIÓN A LA ESTADÍSTICA
Estadística Aplicada a los Negocios
Encuestas Estimación
¿Qué es la estadística?
estadística.
(Del al. Statistik).
1. f. Estudio de los datos cuantitativos de la población, de los recursos
naturales e industriales, del tráfico o de cualquier otra manifestación de las
sociedades humanas.
2. f. Conjunto de estos datos.
3. f. Rama de la matemática que utiliza grandes conjuntos de datos numéricos
para obtener inferencias basadas en el cálculo de probabilidades.
Estadística Aplicada a los Negocios
Variables
Tipos de variables
Variables cuantitativas
Ejercicio
Lugar de nacimiento
Ingresos totales
Número de miembros de la familia
Grado escolar
Número de camas en un hospital
Número de teléfono
Nivel de estudios
Código Postal de su dirección
Estadística Aplicada a los negocios
Producto
CONCLUSIONES
Estadística Aplicada a los negocios
Cuadros
representación de datos Tablas
Gráficos
Descriptiva
Promedios
Reducción de datos
Dispersiones
Predice, infiere
Inferencial Trabajo en base a
muestras
Decide sobre las poblaciones
Estadística Aplicada a los negocios
Definiciones básicas
“Población es un conjunto de elementos definidos en el
tiempo y en el espacio, sobre los cuales se realizarán
las observaciones en el caso de una encuesta
exhaustiva o censo, o a los cuales se referirán los
resultados de la investigación en el caso de un
estudio por muestreo”.
“Muestra es el subconjunto de unidades seleccionadas
de la población definida. En esta recae la realización
de las observaciones”.
“Valores poblacionales” Parámetros
“Estimadores” Estadísticos
El proceso de inferencia
POBLACION MUESTRA
• N (finita o infinita) • n (siempre finita)
• Media () • Media muestral (X)
• Dispersión () • Dispersión muestral (s)
• Proporciones () • Proporciones muestrales
• Otras características (p)
• Otros estimadores
La muestra
• El tamaño de la muestra
– A ser resuelto con la teoría del muestreo
– A veces el costo obliga a tomar muestras más chicas.
– A veces el problema de investigación determina adicionalmente
velocidad en la toma de datos u otros factores.
• La representatividad de la muestra
– El tamaño de la muestra no es el único factor que contribuye a hacer
una muestra representativa.
– También está el carácter aleatorio de la muestra
– Pueden ser las muestras siempre aleatorias?
• Los tipos de muestra
– Cortes transversales (censos, encuestas, experimentos)
– Series de tiempo
– Datos de panel
Los tipos de muestra
• Cortes transversales
– Lo más acercado a la teoría tradicional
– En ciencias sociales incluso un censo tiene márgenes de error.
• Series de tiempo
– Los datos ya vienen en un orden y tamaño predeterminados
– Podemos achicar la muestra pero no expandirla
– Las observaciones no son independientes
• Datos de panel
– Solamente se los usa para aumentar la muestra?
– Diferencias entre periodos y entre individuos.
– El sesgo de selectividad.
– Si los individuos son mayores que los periodos o viceversa es
indiferente?
Las variables
• La medición de las variables
– Reflejan realmente lo que se quiere medir?
• Maltrato infantil
• Calidad de las instituciones
• Riesgo
– El tipo de medición afecta el proceso de inferencia
• Los tipos de variables
– Variables discretas
– Variables continuas
– Variables no observables
– Variables latentes
– Variables dicotómicas
– Variables censuradas
– Variables truncadas
Hay otro mundo fuera de la
estadística?
• La existencia de información extra muestral
– La opinión de expertos
– Estudios especializados aplicados a otras geografías o en otros
periodos
– Es posible o recomendable incorporar esta información?
• La existencia de información a priori
– Hay algún estudio que empieza de la nada?
– Es posible incorporar esta información en el proceso?
– La evidencia sólo puede ser utilizada para modificar la
información inicial solamente?
• La inexistencia, ausencia, ambigüedad de datos
• La ausencia de distribuciones
– Sin distribución no se puede hacer un test de hipótesis clásico
ESTADÍSTICA DESCRIPTIVA
Estadística Aplicada a los negocios
Polígono de
8
frecuencias
7
6
5
4
3
2
1
0
1793,5 1797,5 1801,5 1805,5 1809,5
histograma
DISTRIBUCIÓN DE FRECUENCIAS
• Determinamos que el rango en los que se
mueven los valores es: Ra = Xmax - Xmin
• El Numero de intervalos es arbitrario, pero se
recomienda que sea entre 4 y 12 dependiendo
del valor del rango (K).
• Determinando la amplitud que tendrán cada
uno de los intervalos, seria: A= R / K,
• El limite inferior del que se partirá, deberá ser
igual al valor menor menos un medio de la
unidad mínima de medición.
Huevos rotos Número de
por caja cajas (f) fr=f/n frp=fr*100 F
1 2 0.1538 15% 2
2 4 0.3077 31% 6
3 1 0.0769 8% 7
4 3 0.2308 23% 10
5 2 0.1538 15% 12
6 1 0.0769 8% 13
n 13 1.0000 100%
Distribución de una variable cuantitativa
continua
• Ahora si lo que nos interesa son los índices de
Productividad ponderado de 20 establecimientos
estamos frente a una variable cuantitativa continua.
• En este caso los valores individuales carecen de interés,
por la propia naturaleza de dicha variable, por lo tanto
se los agrupa en los llamados “intervalos de clase”.
• La cantidad de intervalos necesarios para construir una
distribución de frecuencias no se puede determinar
por alguna regla precisa, depende de la experiencia y el
sentido del investigador, generalmente se utilizan entre
5 -15.
Distribución de una variable cuantitativa continua
FRECUENCIAS
7
a la distribución de
6
frecuencias simples o
relativas de una variable 5
cuantitativa continua es 4
el HISTOGRAMA 3
0
40,0 - 44,0 44,0 - 48,0 48,0 - 52,0 52,0 - 56,0 56,0 - 60,0
X
En Excel
Excel: cont.
Salida Excel
Salida Excel cont.
Medidas que resumen información
Promedios y Dispersión
Mediana
Medidas de tendencia Central
Modo Media Aritmética
Promedios Media Geométrica
Media Armónica
Rango
Medidas de variabilidad y concentración
Desvío medio-
Varianza
Desvío típico (estándar)
Rango intercuartilar
Coeficiente de Variación
Medidas descriptivas
x
x 1 x 2 ... x n i 1
i
X
n n
Característica de la Media
• Es intuitiva y fácil de calcular.
• Su valor puede que no coincida con ninguno
de los valores de la muestra
• La suma de las diferencias de cada valor de la
muestra con la media su resultado es cero, es
decir,
n
(x x) 0
i 1
i
La mediana
• se suele definir como el valor “más intermedio” una
vez que los datos han sido ordenados en forma
creciente. Se suele denotar por Me.
• La forma más general de calcular la mediana es la
siguiente:
x n 1 2 si n es impar
Me x
n 2 x ( n 2) 1
si n es par
2
Características de la mediana
• La mediana es aquel valor que deja el
cincuenta por ciento de los datos por debajo y
otro cincuenta por encima.
• Cabe destacar que es preferible el uso de la
mediana como medida descriptiva del centro
cuando se quiere reducir o eliminar el efecto
de valores extremos en un conjunto de datos
(muy grandes o muy pequeños).
Moda o valor modal
• Es una medida de tendencia central que se
puede utilizar sea cual sea el tipo de variable a
estudiar.
• La moda de un conjunto de observaciones es
el valor que más se repite, aquel cuya
frecuencia absoluta es máxima. Puede ser
única, que haya más de una, o que no exista
Media geométrica
• Se define como la raíz n-ésima del producto
de todos los valores numéricos, es decir,
n
X G n x1.x2 ....xn n ( xi )
i 1
Media armónica
• Se define como el número de observaciones
de la muestra dividido por la suma del inverso
de cada una de las observaciones, es decir,
n
XA n
(1 / x )
i 1
i
Algunas consideraciones
• La localización o tendencia central de un conjunto de
datos no necesariamente proporciona información
suficiente para describirlos adecuadamente.
• Debido a que no todos los valores son semejantes, la
variación entre ellos se considera importante.
• Se puede decir que un conjunto de datos tiene una
dispersión reducida si los mismos se aglomeran
estrechamente en torno a alguna medida de
localización de interés y se dice que tiene una
dispersión grande si se esparcen ampliamente
alrededor de alguna medida de localización de interés.
Medidas de variación
• Las medidas descriptivas más comunes de
dispersión son:
– el rango
– la varianza,
– la desviación estándar
– rango intercuartílico.
Rango
• El rango de la muestra es la medida de
variabilidad más sencilla entre todas las
mencionadas;
• Se define como la diferencia entre la
observación más grande y la más pequeña :
r xmax xmin
Alcances y limitaciones
• Aunque es una medida muy fácil de calcular,
ignora toda la información de la muestra entre
las observaciones más grande y más pequeña.
• Sin embargo, vale la pena resaltar que el
rango se utiliza mucho en aplicaciones
estadísticas al control de calidad, donde lo
común es emplear muestras con tamaños n =
4 o n = 5 ya que en estos casos la pérdida de
información no se considera relevante.
Varianza y Desviación estándar
• En general, se desea una medida de
variabilidad que dependa de todas las
observaciones y no sólo de unas pocas;
• así que parece razonable medir la variación en
términos de las desviaciones relativas a alguna
medida de localización (generalmente esta
medida es la media)
Para el conjunto de datos x1, x2,….,xn
Las diferencias ( x1 x ), ( x2 x ),....., ( xn x )
Determinan las desviaciones de la media.
Dado que la suma de estas desviaciones es
cero, se utiliza como medida de variabilidad el
promedio de los cuadrados de tales
desviaciones.
Varianza
• Sin embargo, como sólo hay n-1 desviaciones
independiente se conviene en dividir entre n-
1, es decir,
(x x )
i
2
s
2 i 1
n 1
Características de la varianza
• Como S2 no tiene las mismas unidades que los
datos, se define la desviación estándar como la
raíz cuadrada (positiva) de la varianza a fin de
tener una medida en las mismas unidades de los
datos;
• La desviación estándar es útil para comparar
dispersión entre dos poblaciones, pero también
lo es para calcular el porcentaje de la población
que pueden localizarse a menos de una distancia
específica de la media.
Coeficiente de variación
• Si el CV 5% ----> datos muy homogéneos,
Media aritmética muy representativa
• Si el 5% CV 20% ----> datos con
homogeneidad aceptable. La media
aritmética es representativa
• Si el CV 20% ----> datos heterogéneos, la
media aritmética es poco representativa
s
CV __
X
Preguntas
• Para qué sirve la mediana si ya tenemos la media
aritmética
• Tiene alguna aplicación práctica la media
geométrica?
• Por qué calculamos la varianza con el cuadrado
de las diferencias en vez de su valor absoluto?
• En cuántos intervalos conviene dividir los datos
para construir un histograma?
• Qué hay que hacer cuando encontramos datos
atípicos?
Control 1 (jueves 5-3-15)
• Pedreros. Páginas 36-66