Introducción y Análisis Exploratorio

Introducción Análisis exploratorio
Inferencia Estadı́stica
Introducción y Análisis Exploratorio
Prof.Martha A. Montes Fonseca
Facultad de Ciencias, UNAM
17 de agosto de 2023
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Introducción
Conceptos
¿Qué es estadı́stica?
Es una ciencia que proporciona un conjunto de métodos que se
utilizan para recolectar, resumir, clasificar, analizar e interpretar el
comportamiento de los “datos” con respecto a una caracterı́stica o
material de estudio o investigación.
Población
Es el conjunto de todos los elementos (individuos, objetos u
observaciones) para los cuales interesa el fenómeno aleatorio (o
poseen una caracterı́stica e común)

Muestra
Es una parte o un subconjunto representativo de la población

Muestra
El objetivo es seleccionar “buenas” muestras de una tamaño

“apropiado” considerando la información que tenemos de la
población que estamos estudiando y el presupuesto contamos.
¿Qué es una “buena” muestra?

Muestra
El objetivo es seleccionar “buenas” muestras de una tamaño

“apropiado” considerando la información que tenemos de la
población que estamos estudiando y el presupuesto contamos.
¿Qué es una “buena” muestra? Es una muestra representativa de

la población, es decir, que las variables de interés en la muestra
presenten una distribución semejante a la de la población.


Muestra aleatoria
Dada una variable aleatoria X con función de masa o de
probabilidad marginal fx (x|θ). Una muestra aleatoria de tamaño n
es un conjunto finito de n variables independientes e idénticamente
distribuidas.
Una muestra se obtiene con la intención de inferir propiedades de

la totalidad de la población.
O bien,

Muestra aleatoria
Dada una variable aleatoria X con función de masa o de
probabilidad marginal fx (x|θ). Una muestra aleatoria de tamaño n
es un conjunto finito de n variables independientes e idénticamente
distribuidas.
Una muestra se obtiene con la intención de inferir propiedades de

la totalidad de la población.
O bien, las muestras nos permiten mediante la inferencia

estadı́stica representar los resultados de la población en estudio.

Es el conjunto de métodos estadı́sticos que permiten deducir como
se distribuye la población en estudio o las relaciones entre varias
variables de interes a partir de la información que proporciona una
muestra.

-Puntual

 -Estimación



 -Intervalo

Inferencia estadı́stica 

  -Sobre parámetros
-Contraste de hipótesis -De bondad





de ajuste


Diferencias entre estadı́stica y probabilidad
Estadı́stica Probabilidad
-Recolecta datos -Aleatorios

-Analiza e interpreta los datos -Medir frecuencias en lo que se
obtiene un resultado o conjunto
de datos, al llevar acabo un ex-
perimento aleatorio

-Analiza e interpreta los datos -Medir frecuencias en lo que se
obtiene un resultado o conjunto
de datos, al llevar acabo un ex-
perimento aleatorio
-Se usa en una variedad de dis- -Se usa en estadı́stica, fı́sica,
ciplinas desde la fı́sica hasta las matemáticas y filosofı́a para
ciencias sociales, control de cal- obtener conclusiones
idad para la toma de decisiones,
etc.

Análisis exploratorio
Tiene como objetivo identificar el modelo más adecuado para

representar la población de la cual proceden los datos muestrales.
Dicho análisis se basa en gráficas y estadı́sticas que permiten
explorar la distribución identificando caracterı́sticas tales como
valores atı́picos (outliers), saltos o discontinuidades, concentración
de valores, forma de la distribución, etc.
Es importante la distribución entre los distintos tipos de variables
ya que las técnicas a aplicar a cada unos pueden ser muy diferentes
y muchos parámetros y cálculos tienen sentido para las variables de
un tipo y no para los de otro.

Variables estadı́sticas
Una variable es una caracterı́stica que puede ser medida adoptando

diferentes valores en cada unos de los casos de un estudio.

Ordinal

 Cualitativas
Nominal



Variable =
Discretas


 Cuantitativas


Continuas

Cualitativas (Categóricas) Expresan distintas cualidades o

caracterı́stica o modalidad, cada caracterı́stica se le denomina
atributo o categorı́a y la medición consiste en una clasificación de
dichos atributos.
Dicotómica: Cuanto toma solo dos posibles valores
Politómica: Cuando adquiere tres o más valores
Ordinal: Toma distintos valores ordenados siguiendo una escala

establecida, no necesario que el intervalo sea uniforme.
Llevan un orden en la respuesta pero no se puede medir una
distancia entre una y otra categorı́a.

Nominal: Los valores no pueden ser sometidos a un criterio de

orden, lo único que se puede hacer es establecer frecuencias en
cada atributo y la igualdad o desigualdad entre las diferentes
categorı́as. Si se observa el grupo que tiene mayor frecuencia
llegamos al concepto de moda.

Nominal: Los valores no pueden ser sometidos a un criterio de

orden, lo único que se puede hacer es establecer frecuencias en
cada atributo y la igualdad o desigualdad entre las diferentes
categorı́as. Si se observa el grupo que tiene mayor frecuencia
llegamos al concepto de moda.
Cuantativa: Son las que se expresan mediante cantidades
numéricas.
Discretas: Presentan separaciones o interrupciones (o ausencia de
valor) en las escalas de los valores que se puede tomar.
Continuas: Puede adquirir cualquier valor dentro del intervalo
especificado.

Analisis exploratorio
Escalas de medición
Todos los datos son generados por una de las cuatro escalas de
medición, estas son las siguientes:


 Nominal
Ordinal

Escalas =

 De intervalo
De razón

Nominal: si los datos son etiquetados que se usan para definir un

atributo de un elemento (Puede ser numérico o no numérico)
Ordinal: si los datos pueden usarse para jerarquizar u ordenar las
observaciones
De intervalo: si los datos tienen las propiedades de los datos

ordinales y los datos entre observaciones se expresan en términos
de una unidad de medición fija. Los datos de intervalo tienen que
ser numéricos.
De razón: Si los datos tienen las propiedades de los datos de
intervalo y el cociente (o razón) entre dos medidas tienen sentido.
Los datos de razón deben que ser numéricos.

Una de las finalidades de estadı́stica descriptiva es resumir la

información en pocos valores. La principal herramienta en el
análisis de una variable de tipo cualitativo es el recuento de casos
de cada categorı́a.

Una de las finalidades de estadı́stica descriptiva es resumir la

información en pocos valores. La principal herramienta en el
análisis de una variable de tipo cualitativo es el recuento de casos
de cada categorı́a.
Distribución de frecuencias: es un agrupamiento de los datos en
categorı́as (o clases), que muestre el número de observaciones en
cada categorı́a, por lo tanto en el registro de todas las posibles
categorı́as junto con la frecuencia asociada.
frecuencia absoluta: Es el número de veces que aparece una
categorı́a o frecuencia ni .
frecuencia relativa: Es la proporción del valor de la frecuencia
absoluta en cada clase en relación al total de observaciones de
la variable.

Categorı́a de Frecuencia Frecuencia

la variable absoluta relativa ni
fi =
C1 n1 n1 /N N
C2 n2 n2 /N
.. .. .. donde:
. . . X
Ci ni ni /N fi = 1
.. .. ..
. . . 0 ≤ fi ≤ 1
Ck nk nk /N
Las frecuencias absolutas y relativas son aplicables a cualquier tipo

de variables.

Distribución de frecuencias, ejemplo
El grupo sanguı́neo en una muestra de doscientas personas.
Grupo Frecuencia Frecuencia

sanguı́neo absoluta relativa
A 53 0.265
B 48 0.240
AB 14 0.070
O 85 0.425
200 1

Distribución de frecuencias, ejemplo
El grupo sanguı́neo en una muestra de doscientas personas.
Grupo Frecuencia Frecuencia

sanguı́neo absoluta relativa
A 53 0.265
Se le denomina
B 48 0.240
distribución de
AB 14 0.070
frecuencias
O 85 0.425
200 1

Agrupamiento de valores
En el caso de las variables continuas el número de puede tomar la

variable es “infinito” teóricamente, lo que provoca que las tablas
pudieran ser muy extensas para evitarlo se hacen agrupaciones de
varios valores o por intervalos pero son poco usuales por la
pérdida de información.Es decir, se pueden agrupar sus valores en
C1 , C2 , . . . , Ck estos grupos deben ser excluyentes y exhaustivos.
Por ejemplo, supongase que contamos con la variable salario diario,
es decir, se refiere al salario que gana un trabajador.


es decir, se refiere al salario que gana un trabajador.Imaginen que
para realizar la tabla haremos las siguientes clases. C1 : Salario
bajo, C2 : Salario medio y C3 : Salario alto.


es decir, se refiere al salario que gana un trabajador.Imaginen que
para realizar la tabla haremos las siguientes clases. C1 : Salario
bajo, C2 : Salario medio y C3 : Salario alto.Observen que se esta
transformando la variable de ser una cuantitativa a una cualitativa.

Tablas de contingencia
Esta tabla se emplea para registrar y analizar la relación entre dos

o mas variables, generalmente de tipo cualitativo.
Nos permite conocer la proporción de las observaciones


Existe o no asociación entre las variables


Si la proporción varia entre filas y columnas entonces existe
asociación


Si la proporción varia entre filas y columnas entonces existe
asociación
Prueba de bondad de ajuste, denomina χ2 − Pearson.

Tablas de contingencia, ejemplo
Suponga que disponemos de 2 variables la primera el género

(hombre, mujer) y la segunda variable indica si el individuo es
zurdo o diestro, se han observado 100 individuos.
Diestro Zurdo
Hombre 43 9 53
Mujeres 44 4 48
87 13 100

Medidas de tendencia central
Son medidas estadı́sticas que permiten resumir en un solo valor a

un conjunto de valores. Representan un cierto entorno al cual se
encuentra ubicado el conjunto de los datos. Las medidas más
utilizadas son:
Media: Suponga que se tiene una m.a de tamaño n {x1 , . . . , xn }
n
1X x1 + x2 + · · · + xn
x̄ = xi =
n n
i=1
Moda: Aquel valor de la variable que representa mayor frecuencia

en la distribución o bien en el caso de variables categóricas es el
atributo más frecuente.
Mediana: Es el valor de la distribución que ocupa el valor central

de la distribución, es decir deja por debajo y por encima el 50% de
los datos

 x( n+1

2
) si n es impar
Mediana =
 x( n2 ) +x( n2 +1)

2 si n es par
Cuartiles::Consideremos que x1 , x2 , . . . , xn es un conjunto de n

observaciones de una cierta variable cuantitativa y estos valores se
ordenan conservando las repeticiones
Q2 = Mediana{x1 , . . . , xn }
Q1 = Mediana{xi : xi ≤ Q2 }
Q3 = Mediana{xi : xi ≥ Q2 }
Cuantiles: Consideremos que α es un número cualquiera

conocido tal que α ∈ (0, 1]. Este valor determinara un cierto
porcentaje de los datos que son menores o iguales al cuantil y el
porcentaje complementario correspondea los datos que son
mayores o iguales al cuantil. Podemos suponer que α = 0.25,
entonces un cuantil es el número q tal que la proporción de valores
xi que son menores a o iguales a q es el 25%. En este caso el
número q se le llama cuantil de orden α = 0.25 o cuantil al 100α%
se le denota por qα .
Deciles: Son los nueve cuantiles que dividen a un grupo de datos
ordenados en 10 partes iguales.
Percentiles: Son los 99 cuantiles que dividen la recta real en
100 segmentos cada uno con igual número de observaciones.

Medidas de dispersión
Se utilizan para describir la variabilidad de las observaciones.

Miden el grado de dispersión de los valores de la variable.
Pretenden evaluar en que medida difieren los datos entre si
Varianza y desviación estándar

v
n u n
1 X u 1 X
S2 = (xi − x̄)2 S= t (xi − x̄)2
n−1 n−1
i=1 i=1

Rango Intercuartilico: Es una medida de dispersión, igual a

la diferencia entre el cuartil 0.25 y el 0.75.
IQR = Q3 − Q1
Desviación media absoluta: Es una medida solida de la

variabilidad de una muestra univariante de datos cuantitativos.
 1 Pn
 n i=1 |xi − x̄| respecto a la media
MAD =
 1 Pn
n i=1 |xi − Mediana| respecto a la mediana

Rango: El rango de una colección de datos x1 , x2 , . . . , xn . Para

calcular esta cantidad es necesario identificar el datos más pequeño
x(1) y el dato más grande x(n)
r = x(n) − x(1)
Puede interpretarse como la longitud del intervalo más pequeño en

el que se encuentran todos los datos observados.
Coeficiente de variación: Sea x1 , . . . , xn una colecciónde n
observaciones de una variable cuantitativa. Sea x̄ 6= 0 su media y s
su desviación estándar
s
cv (x) =
x̄
Puede servir para comparar la dispersión de dos o más conjuntos
de datos de variables cuantitativas.
Momentos muestrales
Consideren un conjunto de observaciones x1 , x2 , . . . , xn de una

variable cuantitativa de interés, sea k ≥ 1 un número entero, se
define el k−ésimo momento muestral no central o bien momento
muestral del órden k
n
1X k
mk0 = xi
n
i=1
Se trata básicamente del promedio aritmético de cada uno de los

datos elevado a la potencia k.

Si x̄ es la media de los datos, definimos los momentos centrales de

orden k como:
n
1X
mk = (xi − x̄)k
n
i=1
Tenemos un promedio aritmético pero esta vez se trata de los

datos centralizados al restarles a cada uno de ellos la media. Se
puede verificar que m1 = 0 y que m2 es la “varianza”

Gráficas (Variables cualitativas)
Gráfica de barras o rectángulos

Representa las frecuencias,
permite visualizar de manera
sencilla la distribución de una
variable cualitativa generalmente
sobre el eje horizontal se colocan
las categorı́as (clases) y sobre el
eje vertical las frecuencias de
cada categorı́a.

Gráfica de pie: El cliente ¿tiene plan internacional?
Diagrama de sectores
(pictograma, pie)
no
90.31% Representa las categorı́as de una
variable proporcionalmente a su
yes
9.69% frecuencia, se construye tomando
ángulos proporcionales a la
frecuencia para cada una de las
clases.

Diagrama pareto
También llamado curva cerrada o
distribución A-B-C es una gráfica
para organizar datos de forma que
estos queden en orden
descendente de izquierda a
derecha. Permite mostrar (un
orden de prioridades) el principio
de Pareto (pocas vitales, muchas
triviales). Facilita el estudio de
las fallas en las industrias o
empresas comerciales, ası́ como
fenómenos sociales o naturales.

Gráficos (Variables cuantitativas)
Histograma:Tiempo que ha estado activa la cuenta
Histograma 0.010
Gráfica adecuada para representar 0.008

variables continuas. Se agrupan
Frecuencia Relativa
los valores en intervalos y 0.006
gráficamente son rectángulos

cuyas bases representan el 0.004
intervalo y la altura son tales que

el área de cada rectángulo sea 0.002
proporcional a la la frecuencia de
0.000
cada intervalo
−50 0 50 100 150 200 250
Tiempo
Histograma 0.010
Se puede observar si el 0.008
Frecuencia Relativa
grafico es simetrico o 0.006
tiene algún sesgo.
0.004
0.002
0.000
−50 0 50 100 150 200 250
Tiempo

Histograma
Se puede observar si el
grafico es simetrico o
tiene algún sesgo.
Si la distribución de
frecuencias es unimodal,
bimodal o miltimodal.

Histograma 0.010
Se puede observar si el 0.008
grafico es simetrico o
Frecuencia Relativa
tiene algún sesgo. 0.006
Si la distribución de 0.004
frecuencias es unimodal,
bimodal o miltimodal. 0.002
Alguna forma de la 0.000
distribución −50 0 50 100 150 200 250
Tiempo

Grafica de caja (Box-plot)

También conocido como
diagrama de caja y bigotes, es
una gráfico basado en cuartiles y
mediante el cuál se visualiza la
distribución de un conjunto de
datos.


datos.


datos.

Diagrama de dispersión o
puntos
Se emplea cuando una o varias
variables esta bajo el control del
experimentador. Si existe un
parámetro que se incrementa o se
disminuye de forma sistemática
por el experimentador, se le
denomina variable independiente
y habitualmente se representa a
lo largo del eje horizontal, la
variable medida o dependiente
usualmente se representa a lo
largo del eje vertical.

Diagrama de tallo y hoja

Cada valor numérico se divide en
dos partes. El dı́gito principal se
convierte en el tallo y los dı́gitos
secundarios en las hojas. El tallo
se localiza a lo largo del eje
vertical y los valores de las hojas
se apilan unos contra otros a lo
largo del eje horizontal.

Diagrama de tallo y hoja

Medidas de forma
Permiten comprobar si una distribución de frecuencias tiene una

caracterı́stica especial como simetrı́a, asimetria nivel de
concentración de datos y nivel de apuntamiento que la clasifiquen
en un tipo particular de distribución.
Las medidas de forma son necesarias para determinar el

comportamiento de los datos y ası́, poder adoptar herramientas
para el análisis probabilista.
1 Coeficiente de asimetria (Skewness)
2 Curtosis

Asimetrı́a Estadı́stica
Las medidas de asimetrı́a son indicadores que permiten establecer

el grado de asimetrı́a (simétrica) que presenta una distribución de
probabilidad de una variable aleatoria sin tener que hacer su
representación gráfica.
Asimetrı́a Positiva
Decimos que hay asimetrı́a
positiva (sesgo a la derecha) si la
“cola” a la derecha de la media es
más larga que la de la izquierda.

Asimetrı́a Negativa
Decimos que hay asimetrı́a
negativa (sesgo a la izquierda) si
la “cola” a la izquierda de la
media es más larga que la de la
derecha.
Si la media=moda=mediana, la distribución es simétrica

Si la media>mediana, las distribución tiene una asimetria
positiva.
Si la media<mediana, las distribución tiene una asimetria
negativa.

Coeficiente de asimetrı́a de Fisher
Es representado por el tercer momento estándar y se define

µ3
γ1 =
σ3
Donde: µ3 es el tercer momento alrededor a la media
µ3 = E ((x − µ)3 ), σ es la desviación estándar.
Si γ1 > 0 las distribución es asimétrica positiva o sesgada a la
derecha.
Si γ1 < 0 las distribución es asimétrica negativa o sesgada a la
izquierda.
Si la distribución es simétrica, entonces sabemos que γ1 = 0, el
reciproco no es cierto
El coeficiente de asimetrı́a de Fisher evalúa la proximidad de los

datos con su media. Cuanto mayor sea la suma ni=1 (xi − x̄)3
P
mayor será la asimetrı́a entonces la formula de asimetrı́a es:
Pn 3
i=1 (xi − x̄)
nS 3
Donde: x̄ es la media y S es la desviación estándar.

El coeficiente de asimetrı́a de Fisher evalúa la proximidad de los

datos con su media. Cuanto mayor sea la suma ni=1 (xi − x̄)3
P
mayor será la asimetrı́a entonces la formula de asimetrı́a es:
Pn 3
i=1 (xi − x̄)
nS 3
Donde: x̄ es la media y S es la desviación estándar.
La media de asimetrı́a sobre todo el coeficiente de asimetrı́a de

Fisher, junto con las medidas de apuntamiento o curtosis se
utilizan para contrastar si se puede o no rechazar que una
distribución estadı́stica sigue una distribución normal.
Curtosis
Indica la cantidad de datos que hay cercanos a la media de manera
que a mayor grado de curtosis más apuntada será la curva.

Curtosis
Coeficiente de curtosis de Fisher
Es representado por el cuarto momento respecto a la media.

µ4
g= −3
σ4
Donde: µ4 es el tercer momento alrededor a la media
µ4 = E ((x − µ)4 ), σ es la desviación estándar.
Si g > 0 la distribución es leptocúrtica.
Si g < 0 la distribución es platicúrtica.
Si g = 0 la distribución es mesocúrtica

Q-Q plot
Considérese x1 , x2 , . . . , xn y y1 , y2 , . . . , ym dos conjuntos de datos
numéricos, no necesariamente del mismo tamaño

Q-Q plot
Considérese x1 , x2 , . . . , xn y y1 , y2 , . . . , ym dos conjuntos de datos
numéricos, no necesariamente del mismo tamaño ¿Son
observaciones de dos variables con las mismas caracterı́sticas?
x , Qx , . . . , Qx y y y
Sean Q0.01 0.02 0.99 y Q0.01 , Q0.02 , . . . , Q0.99 , consideremos
x y x y x y
las parejas (Q0.01 , Q0.01 ), (Q0.02 , Q0.02 ), . . . (Q0.99 , Q0.99 )




Medidas de asociación
Las medidas de asociación tratan de estimar la magnitud con la

que dos fenomenos o variables se relacionan.
Covarianza
n
1X
Sxy = (xi − x̄)(yi − ȳ )
n
i=1
Correlación
Sxy
rxy =
Sx Sy
Sxy , rxy son medidas de asociación lineal, si la distribución entre X
Y no es lineal, estas medidas no tienen sentido.

rxy ≈ 1 entonces la relación lineal es directa


rxy ≈ 0 entonces no hay relación lineal


rxy ≈ 0 entonces no hay relación lineal
rxy ≈ −1 entonces la relación lineal es inversa

Datos atı́picos
Los datos atı́picos son observaciones con caracterı́sticas diferentes

de las demás. Este tipo de datos no pueden ser caracterizados
como beneficos o problematicos si no que deben ser contemplados
en el contexto del análisis y debe evaluarse el tipo de información
que pueden proporcionar.
Su principal problema radica en que son datos que pueden no ser

representativos de la población pudiendo distorcionar seriamente el
comportamiento de los contrastes estadı́sticos, pueden ser señal de
la falta de representatividad de la muestra

Datos atı́picos (Outliers)

Tipos de datos atı́picos
Surgen de un error de procedimiento, como entrada de datos o error

de codificación. Deberı́a poder corregirse y en caso de no poder,
deberı́an eliminarse y recodificarse como datos ausentes.



Son consecuencia de un acontecimiento extraordinario. Podrı́a ser
eliminado ya que no es representativo o valido en la población.



Son observaciones cuyos valores caén dentro del rango de las
variables observadas, pero que no son únicas. Estas observaciones
deben de ser retenidas en el análisis pero estudiar que influencia
ejercen en los procesos de estimación de modelos.



Son observaciones cuyos valores caén dentro del rango de las
variables observadas, pero que no son únicas. Estas observaciones
deben de ser retenidas en el análisis pero estudiar que influencia
ejercen en los procesos de estimación de modelos.
Observaciones extraordinarias para las que el investigador no tiene
explicación, en estos casos lo que se puede hacer es replicar el
análisis con y sin dichas observaciones con el fin de evaluar su
influencia.
Datos ausentes (Missing)
Los datos ausentes son algo habitual en el análisis multivariante de

hecho, rara es la investigación en la que no se presentan.
La ocupación primaria del investigador debe determinar las razones
que subyacen en el dato ausente buscando entender el proceso
principal de esta ausencia. En particular el investigador debe
analizar si no existe algún patrón no aleatorio en dicho proceso que
pueda sesgar los resultados obtenidos debido a la pérdida de
representatividad de la muestra obtenida.


Tipos de valores ausentes
1 Datos ausentes prescindibles: Son resultado que se

encuentran bajo el control del investigador y pueden ser
identificados explı́citamente. En estos casos no se necesitan
soluciones especificas para la ausencia de datos dado que
dicha ausencia es inherente a la técnica usada.
2 Datos ausentes no prescindibles: Son resultado de procesos
que no se encuentran bajo el control del investigador y no
pueden ser identificados explı́citamente.

En el primer caso un ejemplo pueden ser los datos censurados son

observaciones inclompletas como consecuencia del proceso de
obtención de datos seguido en el análisis.
En el segundo caso son errores en la entrada de datos, la renuncia

del encuestador a responder a ciertas situaciones o respuestas
inaplicables. Se deben analizar si existen o no patrones sistemáticos
en el proceso que puedan sesgar los resultados obtenidos.
Si los datos son no prescindibles conviene analizar el grado de

aleatoriedad presente en los mismos. Según este grado el proceso
de datos ausentes se pueden clasificar en:

Datos ausentes completamente al azar (MCAR)

Este es el mayor grado de aleatoriedad y se da cuando los datos
ausentes son una muestra aleatoria simple de la muestra sin un
proceso subyacente que tiende a sesgar los datos observados. Ya sea
por que las condiciones climáticas, de seguridad o polı́ticas no
permiten recoger la información, porque ese dı́a los instrumentos se
descomponen, por que no se encontró a la persona u objeto de la
encuesta, aquı́ se puede pensar que la información se perdió
completamente al azar.
Si las personas con un nivel de ingresos alto tienden a no contestar,

entonces esa observación no se perdió completamente al azar.
MCAR corresponde a pensar que ese dato se perdió con la misma
probabilidad que cualquier otro dato. Si la persona no responde
acerca de sus ingresos, de la misma manera que no responde a
cuántos hijos tiene, entonces se considera MCAR. En este caso los
parámetros pueden estimarse sin sesgo.

Datos ausentes aleatorios (MAR)

En este caso el patrón de los datos ausentes en una variable Y no
es aleatorio si no que depende de otras variables de la muestra X .
Ası́, por ejemplo, si X es el sexo del encuestado e Y es su renta, un
proceso MAR se tendrı́a si existen valores ausentes de Y en
hombres que en mujeres y , sin embargo, los datos son aleatorios
para ambos sexos en el sentido de que, tanto en los hombres como
en las mujeres el patrón de ausentes es completamente aleatorio. Sı́
además, tampoco existen diferencias por sexos los datos ausentes
serı́an MCAR.
Se tiene la presión arterial de todos los individuos y se registra el

peso solamente de aquellas que tienen la presión alta.
Si los datos ausentes son MAR cualquier solución al problema

deberá tener en cuenta los valores de X dado que afectan al proceso
generador de datos ausentes.

Datos perdidos no al azar (MNAR)

Cuando no son MCAR ni MAR entonces se dice que son datos
faltantes no al azar. Esta falta de datos no al azar es un problema,
la única manera de obtener un estimador insesgado es modelar la
ausencia de datos y valores mismos de las ausencias, esa tarea no es
para nada simple.
Si se estudia una cierta enfermedad y las personas que la padecen

son las que tienen una mayor probabilidad a no contestar acerca de
si la padecen, entonces los datos son faltantes no al azar.


Localización de datos ausentes
Consiste en evaluar la magnitud del problema. Para ello se

comienza analizando el porcentaje de datos ausentes por variable y
por caso. Si existen renglones con un alto porcentaje de datos
ausentes, se sugiere excluirse del problema. Ası́ mismo si existe una
variable con un alto porcentaje de este tipo de casos, pero su
exclusión dependerá de la importancia teórica de la misma y la
posibilidad de ser reemplazada por variables con un contenido
similar.
Sin embargo si dicha variable es dependiente deberı́a ser eliminada

ya que cualquier proceso de imputación puede distorsionar las
significancia estadı́stica y practica de los modelos estimados
para dicha variable.
Reporte de valores faltantes

Porcentaje de valores faltantes por renglón
Porcentaje de valores faltantes por columna
Hacer comparaciones a través de tablas, por ejemplo si el
porcentaje de faltantes es el mismo en hombres que en
mujeres, es el mismo por grupos de edad o por estrato
socio-económico, etc.
Hay algún patrón sistemático en los casos completos y los
casos incompletos.

Métodos de imputación
Los métodos de imputación pueden ser de tres tipos:
Métodos de disponibilidad completa: Son aquellos que
utilizan toda la información disponible a partir de un subconjunto de
casos para generalizar sobre la muestra entera. Se utilizan para
estimar media, varianza y correlaciones.

Método de sustitución: Estima valores de reemplazo para los
datos ausentes sobre la base de otra información existente en la
muestra. Ası́ se podrı́a sustituir observaciones con datos ausentes
por observaciones no muestrales o sustituir dichos datos por la
media de los valores observados o mediante regresión sobre otras
variables muy relacionadas con aquella a la que faltan observaciones.

Método de sustitución: Estima valores de reemplazo para los
datos ausentes sobre la base de otra información existente en la
muestra. Ası́ se podrı́a sustituir observaciones con datos ausentes
por observaciones no muestrales o sustituir dichos datos por la
media de los valores observados o mediante regresión sobre otras
variables muy relacionadas con aquella a la que faltan observaciones.
Método basados en modelos: Que constituyen explı́citamente
el mecanismo por el que se producen los datos ausentes y los
estiman por máxima verosimilitud. Entran en esta categorı́a el
algoritmo EM o proceso de aumento de datos.

Introducción y Análisis Exploratorio

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción y Análisis Exploratorio

Cargado por

Copyright:

Formatos disponibles

Introducción Análisis exploratorio

Prof.Martha A. Montes Fonseca

Facultad de Ciencias, UNAM

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

El objetivo es seleccionar “buenas” muestras de una tamaño

¿Qué es una “buena” muestra?

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

El objetivo es seleccionar “buenas” muestras de una tamaño

¿Qué es una “buena” muestra? Es una muestra representativa de

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Una muestra se obtiene con la intención de inferir propiedades de

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Una muestra se obtiene con la intención de inferir propiedades de

O bien, las muestras nos permiten mediante la inferencia

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Diferencias entre estadı́stica y probabilidad

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Diferencias entre estadı́stica y probabilidad

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Diferencias entre estadı́stica y probabilidad

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Tiene como objetivo identificar el modelo más adecuado para

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Una variable es una caracterı́stica que puede ser medida adoptando

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Cualitativas (Categóricas) Expresan distintas cualidades o

Ordinal: Toma distintos valores ordenados siguiendo una escala

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Nominal: Los valores no pueden ser sometidos a un criterio de

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Nominal: Los valores no pueden ser sometidos a un criterio de

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Nominal: si los datos son etiquetados que se usan para definir un

De intervalo: si los datos tienen las propiedades de los datos

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Una de las finalidades de estadı́stica descriptiva es resumir la

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Una de las finalidades de estadı́stica descriptiva es resumir la

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Categorı́a de Frecuencia Frecuencia

Las frecuencias absolutas y relativas son aplicables a cualquier tipo

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

El grupo sanguı́neo en una muestra de doscientas personas.

Grupo Frecuencia Frecuencia

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

El grupo sanguı́neo en una muestra de doscientas personas.

Grupo Frecuencia Frecuencia

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

En el caso de las variables continuas el número de puede tomar la

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

En el caso de las variables continuas el número de puede tomar la

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

En el caso de las variables continuas el número de puede tomar la

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Esta tabla se emplea para registrar y analizar la relación entre dos

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Esta tabla se emplea para registrar y analizar la relación entre dos

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM

Esta tabla se emplea para registrar y analizar la relación entre dos