Estadística Aplicada
Docente: Carlos Andres Garibello
E-mail: carlos.garibello1@gmail.com
Facultad de Ciencias Básicas
Acerca del curso
• Créditos: 3
• Intensidad horaria: 3 horas/semana presénciales
+ 6 horas/semana trabajo independiente
• Horario: Martes 6:30 pm – 09:30 pm
• Evaluación: Talleres / Examen
Corte
Laboratorios Parcial
1(30%) 50% 50%
2(30%) 50% 50%
3(40%) 50% 50%
Objetivo
Brindar una visión general y aplicada de las
herramientas y técnicas estadísticas más
utilizadas en la solución a problemas de las
ciencias económicas y empresariales, que
permitan a los estudiantes desarrollar destreza
y comprensión en el análisis e interpretación de
resultados y reportes que se obtienen con el
software estadístico R.
Contenido
Unidad 1: Estadística y Probabilidad con R.
• Revisión de conceptos generales estadística.
• Introducción al R y RStudio.
• Estadística descriptiva e Inferencial con RStudio.
• Pruebas de hipótesis con dos poblaciones.
Unidad 2: Análisis de Dependencia
• Pruebas de asociación e independencia.
• Fundamentos del Análisis de Varianza ANOVA.
• Pruebas post ANOVA.
• ANOVA de dos vias.
Unidad 3: Introducción a modelos de regresión.
• Análisis de regresión lineal simple.
• Validación de supuestos.
• Análisis de regresión lineal múltiple.
• Regresión logística.
Referencias Bibliográficas
• Montgomery, D. y Runger, G. (2004). Probabilidad y estadística para ingenieros. (2ª
ed.), México: Limusa-Wiley.
• Levin, R. y Rubin, D. (2004). Estadística para Administración y Economía. (7 ed.),
México: 1ª ed.). España: Pearson Prentice Hall.
• Heumann, C., y Schomaker, M., (2016). Introduction to Statistics and Data Analysis
whit Exercises, Solutions and Applications in R. Springer.
• Moore, D. S. (2005). Estadística Aplicada Básica. (2ª ed.), España: Antoni Bosch.
• Domínguez, J., y Domínguez, J., (2015). Estadística para administración y economía. (1ª
ed.), Colombia: Alfaomega.
• Behar R. y Grima P. (2010). 55 Respuestas a dudas típicas de Estadística. (2ª ed.),
España: Díaz de Santos.
• Wackerly, D. D., Mendenhall, W. y Scheaffer, R. L. (2009). Estadística Matemática con
Aplicaciones. (2ª ed.), México: Cencage Learning.
Unidad 1.
Introducción
Repaso en conceptos básicos de estadística
El proceso de la Estadística
Muestreo
Características
(Variables)
Midiendo/observando
Datos
Descriptiva
Inferencia Gráficos
Estadísticos Tablas
Parámetros Indicadores
(Estimadores)
Incertidumbre
Análisis Exploratorio
Todo estudio basado en datos, sin importar su alcance, debe superar la fase
inicial del análisis exploratorio.
“Tabular, graficar, resumir, para identificar patrones y comportamientos regulares y
presencia de irregularidades en los datos”
Preguntas a resolver:
• Existen patrones de comportamiento regular en los datos?
• Se presentan datos atípicos? Que hacer con ellos?
• Como se relacionan las variables de análisis?
• Existen diferencias en el comportamiento de la variable entre grupos de
análisis?
Es un paso necesario, que consume tiempo, y que en ocasiones es descuidado por los
analistas.
Herramientas para la Descripción de Datos
Resúmenes gráficos Indicadores
• Tendencia Central:
✔Gráficos de Barras Promedio
Mediana
✔Gráficos de Pastel
Moda
✔Histogramas • Dispersión:
✔Diagramas de Cajas y Varianza
Alambres (Boxplot) Desviación
Coeficiente de Variación
✔Gráficos Temporales • Posición:
✔Gráficos Espaciales Percentiles
Deciles
✔Diagramas de Dispersión
Cuantiles
La idea es generar una combinación adecuada de gráficos, tablas e indicadores, que contribuyan a
resumir la información
Indicadores Estadísticos
• La Media y Desviación Estándar
La media aritmética y la desviación estándar son las medidas más frecuentes
usadas en estadística, se calculan como:
La desviación estándar es una medida de la “cercanía” de los datos a la media que
los representa.
En cierta forma la desviación estándar es una medida de la credibilidad de la
media aritmética en su intención de representar los datos.
Indicadores Estadísticos
• La Media y Desviación Estándar
Gran
variabilidad
Igual Media o dispersión
Baja variabilidad
A B
La media representa mejor la situación A debido a que su desviación es menor.
Indicadores Estadísticos
• La Mediana
La Mediana (Me) es el valor que se encuentra en la mitad de los datos, por lo tanto
es la medida de tendencia central que divide los datos en dos partes iguales.
La mediana de una serie de datos ordenada en forma creciente o decreciente, se
define de la siguiente forma:
• Coeficiente de Variación (CV)
Se emplea para resolver el problema de comparación de medias aritméticas de
múltiples variables que pueden venir en unidades diferentes. Se define como:
Indicadores de Posición
Percentiles: Deciles:
Cuartiles:
P1, P2, P3, …, D1, D2, D3, …D9,
Q1, Q2, Q3
P100 D10
Nótese que tanto lo deciles como los cuartiles se pueden representar en
función de los percentiles:
P25 = Q1 P50 = Q2= Me P75 = Q3
P10 = D1, P20 = D2, P30 = D3, ..., P50= Me, ..., P90= D9, P100= D10
”La representación grafica de los Cuartiles es el
diagrama de cajas y alambres”
Ejemplos
• El 5% de los recién nacidos tiene un peso demasiado bajo. ¿Qué
peso se considera “demasiado bajo”?
Ejemplos
¿Qué peso es superado sólo por el 25% de los individuos?
• Percentil 75 o tercer cuartil
Ejemplos
El colesterol se distribuye simétricamente en la población.
Supongamos que se consideran patológicos los valores extremos. El
90% de los individuos son normales ¿Entre qué valores se encuentran
los individuos normales?
Ejemplos
¿Entre qué valores se encuentran la mitad de los individuos “más
normales” de una población?
Entre el cuartil 1º y 3º
Gráficos Boxplot
“El grafico Boxplot es útil en la descripción general de un conjunto de datos. Ilustra
la forma de la distribución, su centramiento, da una idea de la variabilidad e
identifica valores atípicos”
Datos
Atípicos
CI=P25 -1.5RIQ CS=P75
+1.5RIQ
Inferencia Estadística
Inferencia Estadística
Rama de la Estadística que estudia el comportamiento y propiedades de las
muestras y la posibilidad, y límites, de la generalización de los resultados
obtenidos a partir de estas a las poblaciones que representan. Esta
generalización de tipo inductivo, se basa en la probabilidad.
Propósito: crear fundamentos que le permitan al investigador obtener
conclusiones acerca de los parámetros de la población a partir de datos
experimentales o muestrales.
La inferencia estadística se divide en dos problemas principales
• Estimación de parámetros
• Pruebas de hipótesis
Estimación
Procedimiento estadístico en el cual se logra una valoración de un
parámetro asociado a una población no medida (en su totalidad),
mediante el estudio de una muestra aleatoria
“Si el procedimiento de muestreo es adecuado y la característica no es muy
variable, se esperaría que el estimador de la mejor idea del parámetro”
Estimación Puntual
Consiste en la estimación del valor del parámetro mediante un solo valor,
obtenido de una formula determinada.
Media Proporción Varianza Desviación estándar
Estimador p S2 S
Parámetro µ π σ2 σ
Parámetros y sus Estimadores
Generalmente muestras diferentes
conducen a estimaciones diferentes
Distribución de un Estimador
¿Un estimador es una variable aleatoria?
El valor que adquiere un estimador es el resultado de un experimento aleatorio, por tanto
un estimador es una variable aleatoria y debe tener una distribución de probabilidades
asociada.
“La distribución de probabilidad de un estimador recibe el
nombre de distribución muestral”
Resumen Distribuciones Muestrales
Si n ≥ 30 Si n < 30
Población no es
Población es Normal
Normal
σ es
σ es conocido
desconocido
Z Z T ¿?
Si n < 30 y si se Si n < 30 y no se
cumple que: cumple que:
Si n ≥ 30
n*p ≥ 5 y n*(1-p) ≥ n*p ≥ 5 y n*(1-p) ≥
5 5
Z Z ¿?
Estimación por Intervalos de Confianza
Dado que los estimadores puntuales pocas veces serán iguales a los parámetros
que se desean estimar, es posible darse mayor libertad utilizando estimadores por
intervalos que reciben el nombre de intervalos de confianza.
Definición:
Un intervalo de confianza es un intervalo estimado en el cual se espera se encuentre
el valor del parámetro.
Intervalos de Confianza
Pasos en la construcción de un intervalo de confianza:
1.Obtener una muestra aleatoria de la población de interés.
1.Calcular el estimador correspondiente al parámetro de interés.
1.Fijar el nivel de confianza deseado.
1.Construir un intervalo mediante el siguiente planteamiento:
¿Cómo construir un IC para la Media ?
¿El tamaño de la muestra
es mayor a 30?
Si No
¿La distribución
de X es Normal?
Si No ¿?
Si No
Intervalos de Confianza para la Proporción
En cualquier otro caso, usar esta formula para calcular el
intervalo de confianza para la proporción
NO ES APROPIADO.