Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Inferencia Estadı́stica
Introducción y Análisis Exploratorio
17 de agosto de 2023
Introducción
Conceptos
¿Qué es estadı́stica?
Es una ciencia que proporciona un conjunto de métodos que se
utilizan para recolectar, resumir, clasificar, analizar e interpretar el
comportamiento de los “datos” con respecto a una caracterı́stica o
material de estudio o investigación.
Población
Es el conjunto de todos los elementos (individuos, objetos u
observaciones) para los cuales interesa el fenómeno aleatorio (o
poseen una caracterı́stica e común)
Muestra
Es una parte o un subconjunto representativo de la población
Muestra
Es una parte o un subconjunto representativo de la población
Muestra
Es una parte o un subconjunto representativo de la población
Muestra aleatoria
Dada una variable aleatoria X con función de masa o de
probabilidad marginal fx (x|θ). Una muestra aleatoria de tamaño n
es un conjunto finito de n variables independientes e idénticamente
distribuidas.
O bien,
Muestra aleatoria
Dada una variable aleatoria X con función de masa o de
probabilidad marginal fx (x|θ). Una muestra aleatoria de tamaño n
es un conjunto finito de n variables independientes e idénticamente
distribuidas.
Inferencia Estadı́stica
Es el conjunto de métodos estadı́sticos que permiten deducir como
se distribuye la población en estudio o las relaciones entre varias
variables de interes a partir de la información que proporciona una
muestra.
-Puntual
-Estimación
-Intervalo
Inferencia estadı́stica
-Sobre parámetros
-Contraste de hipótesis -De bondad
de ajuste
Estadı́stica Probabilidad
-Recolecta datos -Aleatorios
Estadı́stica Probabilidad
-Recolecta datos -Aleatorios
-Analiza e interpreta los datos -Medir frecuencias en lo que se
obtiene un resultado o conjunto
de datos, al llevar acabo un ex-
perimento aleatorio
Estadı́stica Probabilidad
-Recolecta datos -Aleatorios
-Analiza e interpreta los datos -Medir frecuencias en lo que se
obtiene un resultado o conjunto
de datos, al llevar acabo un ex-
perimento aleatorio
-Se usa en una variedad de dis- -Se usa en estadı́stica, fı́sica,
ciplinas desde la fı́sica hasta las matemáticas y filosofı́a para
ciencias sociales, control de cal- obtener conclusiones
idad para la toma de decisiones,
etc.
Análisis exploratorio
Análisis exploratorio
Variables estadı́sticas
Analisis exploratorio
Escalas de medición
Todos los datos son generados por una de las cuatro escalas de
medición, estas son las siguientes:
Nominal
Ordinal
Escalas =
De intervalo
De razón
Análisis exploratorio
Distribución de frecuencias, ejemplo
Análisis exploratorio
Distribución de frecuencias, ejemplo
Agrupamiento de valores
Agrupamiento de valores
Agrupamiento de valores
Análisis exploratorio
Tablas de contingencia
Análisis exploratorio
Tablas de contingencia
Análisis exploratorio
Tablas de contingencia
Análisis exploratorio
Tablas de contingencia
Análisis exploratorio
Tablas de contingencia, ejemplo
Diestro Zurdo
Hombre 43 9 53
Mujeres 44 4 48
87 13 100
Análisis exploratorio
Medidas de tendencia central
Q2 = Mediana{x1 , . . . , xn }
Q1 = Mediana{xi : xi ≤ Q2 }
Q3 = Mediana{xi : xi ≥ Q2 }
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio
Análisis exploratorio
Medidas de dispersión
IQR = Q3 − Q1
r = x(n) − x(1)
Análisis exploratorio
Momentos muestrales
Análisis exploratorio
Gráficas (Variables cualitativas)
Diagrama de sectores
(pictograma, pie)
no
90.31% Representa las categorı́as de una
variable proporcionalmente a su
yes
9.69% frecuencia, se construye tomando
ángulos proporcionales a la
frecuencia para cada una de las
clases.
Diagrama pareto
También llamado curva cerrada o
distribución A-B-C es una gráfica
para organizar datos de forma que
estos queden en orden
descendente de izquierda a
derecha. Permite mostrar (un
orden de prioridades) el principio
de Pareto (pocas vitales, muchas
triviales). Facilita el estudio de
las fallas en las industrias o
empresas comerciales, ası́ como
fenómenos sociales o naturales.
Análisis exploratorio
Gráficos (Variables cuantitativas)
Histograma 0.010
Frecuencia Relativa
los valores en intervalos y 0.006
proporcional a la la frecuencia de
0.000
cada intervalo
−50 0 50 100 150 200 250
Tiempo
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio
Histograma 0.010
Frecuencia Relativa
grafico es simetrico o 0.006
tiene algún sesgo.
0.004
0.002
0.000
Tiempo
Histograma
Se puede observar si el
grafico es simetrico o
tiene algún sesgo.
Si la distribución de
frecuencias es unimodal,
bimodal o miltimodal.
Histograma 0.010
grafico es simetrico o
Frecuencia Relativa
tiene algún sesgo. 0.006
Si la distribución de 0.004
frecuencias es unimodal,
bimodal o miltimodal. 0.002
Tiempo
Diagrama de dispersión o
puntos
Se emplea cuando una o varias
variables esta bajo el control del
experimentador. Si existe un
parámetro que se incrementa o se
disminuye de forma sistemática
por el experimentador, se le
denomina variable independiente
y habitualmente se representa a
lo largo del eje horizontal, la
variable medida o dependiente
usualmente se representa a lo
largo del eje vertical.
Análisis exploratorio
Medidas de forma
Asimetrı́a Estadı́stica
Asimetrı́a Positiva
Decimos que hay asimetrı́a
positiva (sesgo a la derecha) si la
“cola” a la derecha de la media es
más larga que la de la izquierda.
Asimetrı́a Negativa
Decimos que hay asimetrı́a
negativa (sesgo a la izquierda) si
la “cola” a la izquierda de la
media es más larga que la de la
derecha.
Asimetrı́a Estadı́stica
Coeficiente de asimetrı́a de Fisher
Asimetrı́a Estadı́stica
Coeficiente de asimetrı́a de Fisher
Asimetrı́a Estadı́stica
Coeficiente de asimetrı́a de Fisher
Curtosis
Indica la cantidad de datos que hay cercanos a la media de manera
que a mayor grado de curtosis más apuntada será la curva.
Curtosis
Coeficiente de curtosis de Fisher
Q-Q plot
Considérese x1 , x2 , . . . , xn y y1 , y2 , . . . , ym dos conjuntos de datos
numéricos, no necesariamente del mismo tamaño
Q-Q plot
Considérese x1 , x2 , . . . , xn y y1 , y2 , . . . , ym dos conjuntos de datos
numéricos, no necesariamente del mismo tamaño ¿Son
observaciones de dos variables con las mismas caracterı́sticas?
x , Qx , . . . , Qx y y y
Sean Q0.01 0.02 0.99 y Q0.01 , Q0.02 , . . . , Q0.99 , consideremos
x y x y x y
las parejas (Q0.01 , Q0.01 ), (Q0.02 , Q0.02 ), . . . (Q0.99 , Q0.99 )
Análisis exploratorio
Medidas de asociación
Correlación
Sxy
rxy =
Sx Sy
Sxy , rxy son medidas de asociación lineal, si la distribución entre X
Y no es lineal, estas medidas no tienen sentido.
Datos atı́picos
Métodos de imputación
Los métodos de imputación pueden ser de tres tipos:
Métodos de disponibilidad completa: Son aquellos que
utilizan toda la información disponible a partir de un subconjunto de
casos para generalizar sobre la muestra entera. Se utilizan para
estimar media, varianza y correlaciones.
Métodos de imputación
Los métodos de imputación pueden ser de tres tipos:
Métodos de disponibilidad completa: Son aquellos que
utilizan toda la información disponible a partir de un subconjunto de
casos para generalizar sobre la muestra entera. Se utilizan para
estimar media, varianza y correlaciones.
Método de sustitución: Estima valores de reemplazo para los
datos ausentes sobre la base de otra información existente en la
muestra. Ası́ se podrı́a sustituir observaciones con datos ausentes
por observaciones no muestrales o sustituir dichos datos por la
media de los valores observados o mediante regresión sobre otras
variables muy relacionadas con aquella a la que faltan observaciones.
Métodos de imputación
Los métodos de imputación pueden ser de tres tipos:
Métodos de disponibilidad completa: Son aquellos que
utilizan toda la información disponible a partir de un subconjunto de
casos para generalizar sobre la muestra entera. Se utilizan para
estimar media, varianza y correlaciones.
Método de sustitución: Estima valores de reemplazo para los
datos ausentes sobre la base de otra información existente en la
muestra. Ası́ se podrı́a sustituir observaciones con datos ausentes
por observaciones no muestrales o sustituir dichos datos por la
media de los valores observados o mediante regresión sobre otras
variables muy relacionadas con aquella a la que faltan observaciones.
Método basados en modelos: Que constituyen explı́citamente
el mecanismo por el que se producen los datos ausentes y los
estiman por máxima verosimilitud. Entran en esta categorı́a el
algoritmo EM o proceso de aumento de datos.
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica