Está en la página 1de 86

Introducción Análisis exploratorio

Inferencia Estadı́stica
Introducción y Análisis Exploratorio

Prof.Martha A. Montes Fonseca

Facultad de Ciencias, UNAM

17 de agosto de 2023

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Introducción
Conceptos

¿Qué es estadı́stica?
Es una ciencia que proporciona un conjunto de métodos que se
utilizan para recolectar, resumir, clasificar, analizar e interpretar el
comportamiento de los “datos” con respecto a una caracterı́stica o
material de estudio o investigación.

Población
Es el conjunto de todos los elementos (individuos, objetos u
observaciones) para los cuales interesa el fenómeno aleatorio (o
poseen una caracterı́stica e común)

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Muestra
Es una parte o un subconjunto representativo de la población

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Muestra
Es una parte o un subconjunto representativo de la población

El objetivo es seleccionar “buenas” muestras de una tamaño


“apropiado” considerando la información que tenemos de la
población que estamos estudiando y el presupuesto contamos.

¿Qué es una “buena” muestra?

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Muestra
Es una parte o un subconjunto representativo de la población

El objetivo es seleccionar “buenas” muestras de una tamaño


“apropiado” considerando la información que tenemos de la
población que estamos estudiando y el presupuesto contamos.

¿Qué es una “buena” muestra? Es una muestra representativa de


la población, es decir, que las variables de interés en la muestra
presenten una distribución semejante a la de la población.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Muestra aleatoria
Dada una variable aleatoria X con función de masa o de
probabilidad marginal fx (x|θ). Una muestra aleatoria de tamaño n
es un conjunto finito de n variables independientes e idénticamente
distribuidas.

Una muestra se obtiene con la intención de inferir propiedades de


la totalidad de la población.

O bien,

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Muestra aleatoria
Dada una variable aleatoria X con función de masa o de
probabilidad marginal fx (x|θ). Una muestra aleatoria de tamaño n
es un conjunto finito de n variables independientes e idénticamente
distribuidas.

Una muestra se obtiene con la intención de inferir propiedades de


la totalidad de la población.

O bien, las muestras nos permiten mediante la inferencia


estadı́stica representar los resultados de la población en estudio.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Inferencia Estadı́stica
Es el conjunto de métodos estadı́sticos que permiten deducir como
se distribuye la población en estudio o las relaciones entre varias
variables de interes a partir de la información que proporciona una
muestra.

 
-Puntual

 -Estimación



 -Intervalo

Inferencia estadı́stica 

  -Sobre parámetros
-Contraste de hipótesis -De bondad





de ajuste

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Diferencias entre estadı́stica y probabilidad

Estadı́stica Probabilidad
-Recolecta datos -Aleatorios

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Diferencias entre estadı́stica y probabilidad

Estadı́stica Probabilidad
-Recolecta datos -Aleatorios
-Analiza e interpreta los datos -Medir frecuencias en lo que se
obtiene un resultado o conjunto
de datos, al llevar acabo un ex-
perimento aleatorio

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Diferencias entre estadı́stica y probabilidad

Estadı́stica Probabilidad
-Recolecta datos -Aleatorios
-Analiza e interpreta los datos -Medir frecuencias en lo que se
obtiene un resultado o conjunto
de datos, al llevar acabo un ex-
perimento aleatorio
-Se usa en una variedad de dis- -Se usa en estadı́stica, fı́sica,
ciplinas desde la fı́sica hasta las matemáticas y filosofı́a para
ciencias sociales, control de cal- obtener conclusiones
idad para la toma de decisiones,
etc.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio

Tiene como objetivo identificar el modelo más adecuado para


representar la población de la cual proceden los datos muestrales.
Dicho análisis se basa en gráficas y estadı́sticas que permiten
explorar la distribución identificando caracterı́sticas tales como
valores atı́picos (outliers), saltos o discontinuidades, concentración
de valores, forma de la distribución, etc.
Es importante la distribución entre los distintos tipos de variables
ya que las técnicas a aplicar a cada unos pueden ser muy diferentes
y muchos parámetros y cálculos tienen sentido para las variables de
un tipo y no para los de otro.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Variables estadı́sticas

Una variable es una caracterı́stica que puede ser medida adoptando


diferentes valores en cada unos de los casos de un estudio.
 
Ordinal

 Cualitativas
Nominal



Variable = 
Discretas


 Cuantitativas


Continuas

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Cualitativas (Categóricas) Expresan distintas cualidades o


caracterı́stica o modalidad, cada caracterı́stica se le denomina
atributo o categorı́a y la medición consiste en una clasificación de
dichos atributos.
Dicotómica: Cuanto toma solo dos posibles valores
Politómica: Cuando adquiere tres o más valores

Ordinal: Toma distintos valores ordenados siguiendo una escala


establecida, no necesario que el intervalo sea uniforme.
Llevan un orden en la respuesta pero no se puede medir una
distancia entre una y otra categorı́a.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Nominal: Los valores no pueden ser sometidos a un criterio de


orden, lo único que se puede hacer es establecer frecuencias en
cada atributo y la igualdad o desigualdad entre las diferentes
categorı́as. Si se observa el grupo que tiene mayor frecuencia
llegamos al concepto de moda.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Nominal: Los valores no pueden ser sometidos a un criterio de


orden, lo único que se puede hacer es establecer frecuencias en
cada atributo y la igualdad o desigualdad entre las diferentes
categorı́as. Si se observa el grupo que tiene mayor frecuencia
llegamos al concepto de moda.
Cuantativa: Son las que se expresan mediante cantidades
numéricas.
Discretas: Presentan separaciones o interrupciones (o ausencia de
valor) en las escalas de los valores que se puede tomar.
Continuas: Puede adquirir cualquier valor dentro del intervalo
especificado.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Analisis exploratorio
Escalas de medición

Todos los datos son generados por una de las cuatro escalas de
medición, estas son las siguientes:


 Nominal
Ordinal

Escalas =

 De intervalo
De razón

Nominal: si los datos son etiquetados que se usan para definir un


atributo de un elemento (Puede ser numérico o no numérico)
Ordinal: si los datos pueden usarse para jerarquizar u ordenar las
observaciones
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio

De intervalo: si los datos tienen las propiedades de los datos


ordinales y los datos entre observaciones se expresan en términos
de una unidad de medición fija. Los datos de intervalo tienen que
ser numéricos.
De razón: Si los datos tienen las propiedades de los datos de
intervalo y el cociente (o razón) entre dos medidas tienen sentido.
Los datos de razón deben que ser numéricos.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Una de las finalidades de estadı́stica descriptiva es resumir la


información en pocos valores. La principal herramienta en el
análisis de una variable de tipo cualitativo es el recuento de casos
de cada categorı́a.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Una de las finalidades de estadı́stica descriptiva es resumir la


información en pocos valores. La principal herramienta en el
análisis de una variable de tipo cualitativo es el recuento de casos
de cada categorı́a.
Distribución de frecuencias: es un agrupamiento de los datos en
categorı́as (o clases), que muestre el número de observaciones en
cada categorı́a, por lo tanto en el registro de todas las posibles
categorı́as junto con la frecuencia asociada.
frecuencia absoluta: Es el número de veces que aparece una
categorı́a o frecuencia ni .
frecuencia relativa: Es la proporción del valor de la frecuencia
absoluta en cada clase en relación al total de observaciones de
la variable.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Categorı́a de Frecuencia Frecuencia


la variable absoluta relativa ni
fi =
C1 n1 n1 /N N
C2 n2 n2 /N
.. .. .. donde:
. . . X
Ci ni ni /N fi = 1
.. .. ..
. . . 0 ≤ fi ≤ 1
Ck nk nk /N

Las frecuencias absolutas y relativas son aplicables a cualquier tipo


de variables.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Distribución de frecuencias, ejemplo

El grupo sanguı́neo en una muestra de doscientas personas.

Grupo Frecuencia Frecuencia


sanguı́neo absoluta relativa
A 53 0.265
B 48 0.240
AB 14 0.070
O 85 0.425
200 1

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Distribución de frecuencias, ejemplo

El grupo sanguı́neo en una muestra de doscientas personas.

Grupo Frecuencia Frecuencia


sanguı́neo absoluta relativa
A 53 0.265
Se le denomina
B 48 0.240
distribución de
AB 14 0.070
frecuencias
O 85 0.425
200 1

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Agrupamiento de valores

En el caso de las variables continuas el número de puede tomar la


variable es “infinito” teóricamente, lo que provoca que las tablas
pudieran ser muy extensas para evitarlo se hacen agrupaciones de
varios valores o por intervalos pero son poco usuales por la
pérdida de información.Es decir, se pueden agrupar sus valores en
C1 , C2 , . . . , Ck estos grupos deben ser excluyentes y exhaustivos.
Por ejemplo, supongase que contamos con la variable salario diario,
es decir, se refiere al salario que gana un trabajador.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Agrupamiento de valores

En el caso de las variables continuas el número de puede tomar la


variable es “infinito” teóricamente, lo que provoca que las tablas
pudieran ser muy extensas para evitarlo se hacen agrupaciones de
varios valores o por intervalos pero son poco usuales por la
pérdida de información.Es decir, se pueden agrupar sus valores en
C1 , C2 , . . . , Ck estos grupos deben ser excluyentes y exhaustivos.
Por ejemplo, supongase que contamos con la variable salario diario,
es decir, se refiere al salario que gana un trabajador.Imaginen que
para realizar la tabla haremos las siguientes clases. C1 : Salario
bajo, C2 : Salario medio y C3 : Salario alto.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Agrupamiento de valores

En el caso de las variables continuas el número de puede tomar la


variable es “infinito” teóricamente, lo que provoca que las tablas
pudieran ser muy extensas para evitarlo se hacen agrupaciones de
varios valores o por intervalos pero son poco usuales por la
pérdida de información.Es decir, se pueden agrupar sus valores en
C1 , C2 , . . . , Ck estos grupos deben ser excluyentes y exhaustivos.
Por ejemplo, supongase que contamos con la variable salario diario,
es decir, se refiere al salario que gana un trabajador.Imaginen que
para realizar la tabla haremos las siguientes clases. C1 : Salario
bajo, C2 : Salario medio y C3 : Salario alto.Observen que se esta
transformando la variable de ser una cuantitativa a una cualitativa.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Tablas de contingencia

Esta tabla se emplea para registrar y analizar la relación entre dos


o mas variables, generalmente de tipo cualitativo.
Nos permite conocer la proporción de las observaciones

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Tablas de contingencia

Esta tabla se emplea para registrar y analizar la relación entre dos


o mas variables, generalmente de tipo cualitativo.
Nos permite conocer la proporción de las observaciones
Existe o no asociación entre las variables

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Tablas de contingencia

Esta tabla se emplea para registrar y analizar la relación entre dos


o mas variables, generalmente de tipo cualitativo.
Nos permite conocer la proporción de las observaciones
Existe o no asociación entre las variables
Si la proporción varia entre filas y columnas entonces existe
asociación

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Tablas de contingencia

Esta tabla se emplea para registrar y analizar la relación entre dos


o mas variables, generalmente de tipo cualitativo.
Nos permite conocer la proporción de las observaciones
Existe o no asociación entre las variables
Si la proporción varia entre filas y columnas entonces existe
asociación
Prueba de bondad de ajuste, denomina χ2 − Pearson.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Tablas de contingencia, ejemplo

Suponga que disponemos de 2 variables la primera el género


(hombre, mujer) y la segunda variable indica si el individuo es
zurdo o diestro, se han observado 100 individuos.

Diestro Zurdo
Hombre 43 9 53
Mujeres 44 4 48
87 13 100

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Medidas de tendencia central

Son medidas estadı́sticas que permiten resumir en un solo valor a


un conjunto de valores. Representan un cierto entorno al cual se
encuentra ubicado el conjunto de los datos. Las medidas más
utilizadas son:
Media: Suponga que se tiene una m.a de tamaño n {x1 , . . . , xn }
n
1X x1 + x2 + · · · + xn
x̄ = xi =
n n
i=1

Moda: Aquel valor de la variable que representa mayor frecuencia


en la distribución o bien en el caso de variables categóricas es el
atributo más frecuente.
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio

Mediana: Es el valor de la distribución que ocupa el valor central


de la distribución, es decir deja por debajo y por encima el 50% de
los datos

 x( n+1

2
) si n es impar
Mediana =
 x( n2 ) +x( n2 +1)

2 si n es par

Cuartiles::Consideremos que x1 , x2 , . . . , xn es un conjunto de n


observaciones de una cierta variable cuantitativa y estos valores se
ordenan conservando las repeticiones

Q2 = Mediana{x1 , . . . , xn }

Q1 = Mediana{xi : xi ≤ Q2 }
Q3 = Mediana{xi : xi ≥ Q2 }
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio

Cuantiles: Consideremos que α es un número cualquiera


conocido tal que α ∈ (0, 1]. Este valor determinara un cierto
porcentaje de los datos que son menores o iguales al cuantil y el
porcentaje complementario correspondea los datos que son
mayores o iguales al cuantil. Podemos suponer que α = 0.25,
entonces un cuantil es el número q tal que la proporción de valores
xi que son menores a o iguales a q es el 25%. En este caso el
número q se le llama cuantil de orden α = 0.25 o cuantil al 100α%
se le denota por qα .
Deciles: Son los nueve cuantiles que dividen a un grupo de datos
ordenados en 10 partes iguales.
Percentiles: Son los 99 cuantiles que dividen la recta real en
100 segmentos cada uno con igual número de observaciones.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Medidas de dispersión

Se utilizan para describir la variabilidad de las observaciones.


Miden el grado de dispersión de los valores de la variable.
Pretenden evaluar en que medida difieren los datos entre si

Varianza y desviación estándar


v
n u n
1 X u 1 X
S2 = (xi − x̄)2 S= t (xi − x̄)2
n−1 n−1
i=1 i=1

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Rango Intercuartilico: Es una medida de dispersión, igual a


la diferencia entre el cuartil 0.25 y el 0.75.

IQR = Q3 − Q1

Desviación media absoluta: Es una medida solida de la


variabilidad de una muestra univariante de datos cuantitativos.
 1 Pn
 n i=1 |xi − x̄| respecto a la media
MAD =
 1 Pn
n i=1 |xi − Mediana| respecto a la mediana

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Rango: El rango de una colección de datos x1 , x2 , . . . , xn . Para


calcular esta cantidad es necesario identificar el datos más pequeño
x(1) y el dato más grande x(n)

r = x(n) − x(1)

Puede interpretarse como la longitud del intervalo más pequeño en


el que se encuentran todos los datos observados.
Coeficiente de variación: Sea x1 , . . . , xn una colecciónde n
observaciones de una variable cuantitativa. Sea x̄ 6= 0 su media y s
su desviación estándar
s
cv (x) =

Puede servir para comparar la dispersión de dos o más conjuntos
de datos de variables cuantitativas.
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Momentos muestrales

Consideren un conjunto de observaciones x1 , x2 , . . . , xn de una


variable cuantitativa de interés, sea k ≥ 1 un número entero, se
define el k−ésimo momento muestral no central o bien momento
muestral del órden k
n
1X k
mk0 = xi
n
i=1

Se trata básicamente del promedio aritmético de cada uno de los


datos elevado a la potencia k.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Si x̄ es la media de los datos, definimos los momentos centrales de


orden k como:
n
1X
mk = (xi − x̄)k
n
i=1

Tenemos un promedio aritmético pero esta vez se trata de los


datos centralizados al restarles a cada uno de ellos la media. Se
puede verificar que m1 = 0 y que m2 es la “varianza”

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Gráficas (Variables cualitativas)

Gráfica de barras o rectángulos


Representa las frecuencias,
permite visualizar de manera
sencilla la distribución de una
variable cualitativa generalmente
sobre el eje horizontal se colocan
las categorı́as (clases) y sobre el
eje vertical las frecuencias de
cada categorı́a.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Gráfica de pie: El cliente ¿tiene plan internacional?

Diagrama de sectores
(pictograma, pie)
no
90.31% Representa las categorı́as de una
variable proporcionalmente a su
yes
9.69% frecuencia, se construye tomando
ángulos proporcionales a la
frecuencia para cada una de las
clases.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Diagrama pareto
También llamado curva cerrada o
distribución A-B-C es una gráfica
para organizar datos de forma que
estos queden en orden
descendente de izquierda a
derecha. Permite mostrar (un
orden de prioridades) el principio
de Pareto (pocas vitales, muchas
triviales). Facilita el estudio de
las fallas en las industrias o
empresas comerciales, ası́ como
fenómenos sociales o naturales.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Gráficos (Variables cuantitativas)

Histograma:Tiempo que ha estado activa la cuenta

Histograma 0.010

Gráfica adecuada para representar 0.008


variables continuas. Se agrupan

Frecuencia Relativa
los valores en intervalos y 0.006

gráficamente son rectángulos


cuyas bases representan el 0.004

intervalo y la altura son tales que


el área de cada rectángulo sea 0.002

proporcional a la la frecuencia de
0.000
cada intervalo
−50 0 50 100 150 200 250

Tiempo
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio

Histograma:Tiempo que ha estado activa la cuenta

Histograma 0.010

Se puede observar si el 0.008

Frecuencia Relativa
grafico es simetrico o 0.006
tiene algún sesgo.
0.004

0.002

0.000

−50 0 50 100 150 200 250

Tiempo

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Histograma
Se puede observar si el
grafico es simetrico o
tiene algún sesgo.
Si la distribución de
frecuencias es unimodal,
bimodal o miltimodal.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Histograma:Tiempo que ha estado activa la cuenta

Histograma 0.010

Se puede observar si el 0.008

grafico es simetrico o

Frecuencia Relativa
tiene algún sesgo. 0.006

Si la distribución de 0.004

frecuencias es unimodal,
bimodal o miltimodal. 0.002

Alguna forma de la 0.000

distribución −50 0 50 100 150 200 250

Tiempo

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Grafica de caja (Box-plot)


También conocido como
diagrama de caja y bigotes, es
una gráfico basado en cuartiles y
mediante el cuál se visualiza la
distribución de un conjunto de
datos.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Grafica de caja (Box-plot)


También conocido como
diagrama de caja y bigotes, es
una gráfico basado en cuartiles y
mediante el cuál se visualiza la
distribución de un conjunto de
datos.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Grafica de caja (Box-plot)


También conocido como
diagrama de caja y bigotes, es
una gráfico basado en cuartiles y
mediante el cuál se visualiza la
distribución de un conjunto de
datos.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Diagrama de dispersión o
puntos
Se emplea cuando una o varias
variables esta bajo el control del
experimentador. Si existe un
parámetro que se incrementa o se
disminuye de forma sistemática
por el experimentador, se le
denomina variable independiente
y habitualmente se representa a
lo largo del eje horizontal, la
variable medida o dependiente
usualmente se representa a lo
largo del eje vertical.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Diagrama de tallo y hoja


Cada valor numérico se divide en
dos partes. El dı́gito principal se
convierte en el tallo y los dı́gitos
secundarios en las hojas. El tallo
se localiza a lo largo del eje
vertical y los valores de las hojas
se apilan unos contra otros a lo
largo del eje horizontal.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Diagrama de tallo y hoja

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Medidas de forma

Permiten comprobar si una distribución de frecuencias tiene una


caracterı́stica especial como simetrı́a, asimetria nivel de
concentración de datos y nivel de apuntamiento que la clasifiquen
en un tipo particular de distribución.

Las medidas de forma son necesarias para determinar el


comportamiento de los datos y ası́, poder adoptar herramientas
para el análisis probabilista.
1 Coeficiente de asimetria (Skewness)
2 Curtosis

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Asimetrı́a Estadı́stica

Las medidas de asimetrı́a son indicadores que permiten establecer


el grado de asimetrı́a (simétrica) que presenta una distribución de
probabilidad de una variable aleatoria sin tener que hacer su
representación gráfica.

Asimetrı́a Positiva
Decimos que hay asimetrı́a
positiva (sesgo a la derecha) si la
“cola” a la derecha de la media es
más larga que la de la izquierda.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Asimetrı́a Negativa
Decimos que hay asimetrı́a
negativa (sesgo a la izquierda) si
la “cola” a la izquierda de la
media es más larga que la de la
derecha.

Si la media=moda=mediana, la distribución es simétrica


Si la media>mediana, las distribución tiene una asimetria
positiva.
Si la media<mediana, las distribución tiene una asimetria
negativa.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Asimetrı́a Estadı́stica
Coeficiente de asimetrı́a de Fisher

Es representado por el tercer momento estándar y se define


µ3
γ1 =
σ3
Donde: µ3 es el tercer momento alrededor a la media
µ3 = E ((x − µ)3 ), σ es la desviación estándar.
Si γ1 > 0 las distribución es asimétrica positiva o sesgada a la
derecha.
Si γ1 < 0 las distribución es asimétrica negativa o sesgada a la
izquierda.
Si la distribución es simétrica, entonces sabemos que γ1 = 0, el
reciproco no es cierto
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio

Asimetrı́a Estadı́stica
Coeficiente de asimetrı́a de Fisher

El coeficiente de asimetrı́a de Fisher evalúa la proximidad de los


datos con su media. Cuanto mayor sea la suma ni=1 (xi − x̄)3
P
mayor será la asimetrı́a entonces la formula de asimetrı́a es:
Pn 3
i=1 (xi − x̄)
nS 3
Donde: x̄ es la media y S es la desviación estándar.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Asimetrı́a Estadı́stica
Coeficiente de asimetrı́a de Fisher

El coeficiente de asimetrı́a de Fisher evalúa la proximidad de los


datos con su media. Cuanto mayor sea la suma ni=1 (xi − x̄)3
P
mayor será la asimetrı́a entonces la formula de asimetrı́a es:
Pn 3
i=1 (xi − x̄)
nS 3
Donde: x̄ es la media y S es la desviación estándar.

La media de asimetrı́a sobre todo el coeficiente de asimetrı́a de


Fisher, junto con las medidas de apuntamiento o curtosis se
utilizan para contrastar si se puede o no rechazar que una
distribución estadı́stica sigue una distribución normal.
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio

Curtosis
Indica la cantidad de datos que hay cercanos a la media de manera
que a mayor grado de curtosis más apuntada será la curva.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Curtosis
Coeficiente de curtosis de Fisher

Es representado por el cuarto momento respecto a la media.


µ4
g= −3
σ4
Donde: µ4 es el tercer momento alrededor a la media
µ4 = E ((x − µ)4 ), σ es la desviación estándar.
Si g > 0 la distribución es leptocúrtica.
Si g < 0 la distribución es platicúrtica.
Si g = 0 la distribución es mesocúrtica

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Q-Q plot
Considérese x1 , x2 , . . . , xn y y1 , y2 , . . . , ym dos conjuntos de datos
numéricos, no necesariamente del mismo tamaño

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Q-Q plot
Considérese x1 , x2 , . . . , xn y y1 , y2 , . . . , ym dos conjuntos de datos
numéricos, no necesariamente del mismo tamaño ¿Son
observaciones de dos variables con las mismas caracterı́sticas?
x , Qx , . . . , Qx y y y
Sean Q0.01 0.02 0.99 y Q0.01 , Q0.02 , . . . , Q0.99 , consideremos
x y x y x y
las parejas (Q0.01 , Q0.01 ), (Q0.02 , Q0.02 ), . . . (Q0.99 , Q0.99 )

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Análisis exploratorio
Medidas de asociación

Las medidas de asociación tratan de estimar la magnitud con la


que dos fenomenos o variables se relacionan.
Covarianza
n
1X
Sxy = (xi − x̄)(yi − ȳ )
n
i=1

Correlación
Sxy
rxy =
Sx Sy
Sxy , rxy son medidas de asociación lineal, si la distribución entre X
Y no es lineal, estas medidas no tienen sentido.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

rxy ≈ 1 entonces la relación lineal es directa

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

rxy ≈ 1 entonces la relación lineal es directa


rxy ≈ 0 entonces no hay relación lineal

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

rxy ≈ 1 entonces la relación lineal es directa


rxy ≈ 0 entonces no hay relación lineal
rxy ≈ −1 entonces la relación lineal es inversa

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos atı́picos

Los datos atı́picos son observaciones con caracterı́sticas diferentes


de las demás. Este tipo de datos no pueden ser caracterizados
como beneficos o problematicos si no que deben ser contemplados
en el contexto del análisis y debe evaluarse el tipo de información
que pueden proporcionar.

Su principal problema radica en que son datos que pueden no ser


representativos de la población pudiendo distorcionar seriamente el
comportamiento de los contrastes estadı́sticos, pueden ser señal de
la falta de representatividad de la muestra

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos atı́picos (Outliers)


Tipos de datos atı́picos

Surgen de un error de procedimiento, como entrada de datos o error


de codificación. Deberı́a poder corregirse y en caso de no poder,
deberı́an eliminarse y recodificarse como datos ausentes.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos atı́picos (Outliers)


Tipos de datos atı́picos

Surgen de un error de procedimiento, como entrada de datos o error


de codificación. Deberı́a poder corregirse y en caso de no poder,
deberı́an eliminarse y recodificarse como datos ausentes.
Son consecuencia de un acontecimiento extraordinario. Podrı́a ser
eliminado ya que no es representativo o valido en la población.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos atı́picos (Outliers)


Tipos de datos atı́picos

Surgen de un error de procedimiento, como entrada de datos o error


de codificación. Deberı́a poder corregirse y en caso de no poder,
deberı́an eliminarse y recodificarse como datos ausentes.
Son consecuencia de un acontecimiento extraordinario. Podrı́a ser
eliminado ya que no es representativo o valido en la población.
Son observaciones cuyos valores caén dentro del rango de las
variables observadas, pero que no son únicas. Estas observaciones
deben de ser retenidas en el análisis pero estudiar que influencia
ejercen en los procesos de estimación de modelos.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos atı́picos (Outliers)


Tipos de datos atı́picos

Surgen de un error de procedimiento, como entrada de datos o error


de codificación. Deberı́a poder corregirse y en caso de no poder,
deberı́an eliminarse y recodificarse como datos ausentes.
Son consecuencia de un acontecimiento extraordinario. Podrı́a ser
eliminado ya que no es representativo o valido en la población.
Son observaciones cuyos valores caén dentro del rango de las
variables observadas, pero que no son únicas. Estas observaciones
deben de ser retenidas en el análisis pero estudiar que influencia
ejercen en los procesos de estimación de modelos.
Observaciones extraordinarias para las que el investigador no tiene
explicación, en estos casos lo que se puede hacer es replicar el
análisis con y sin dichas observaciones con el fin de evaluar su
influencia.
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos ausentes (Missing)

Los datos ausentes son algo habitual en el análisis multivariante de


hecho, rara es la investigación en la que no se presentan.
La ocupación primaria del investigador debe determinar las razones
que subyacen en el dato ausente buscando entender el proceso
principal de esta ausencia. En particular el investigador debe
analizar si no existe algún patrón no aleatorio en dicho proceso que
pueda sesgar los resultados obtenidos debido a la pérdida de
representatividad de la muestra obtenida.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos ausentes (Missing)


Tipos de valores ausentes

1 Datos ausentes prescindibles: Son resultado que se


encuentran bajo el control del investigador y pueden ser
identificados explı́citamente. En estos casos no se necesitan
soluciones especificas para la ausencia de datos dado que
dicha ausencia es inherente a la técnica usada.
2 Datos ausentes no prescindibles: Son resultado de procesos
que no se encuentran bajo el control del investigador y no
pueden ser identificados explı́citamente.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

En el primer caso un ejemplo pueden ser los datos censurados son


observaciones inclompletas como consecuencia del proceso de
obtención de datos seguido en el análisis.

En el segundo caso son errores en la entrada de datos, la renuncia


del encuestador a responder a ciertas situaciones o respuestas
inaplicables. Se deben analizar si existen o no patrones sistemáticos
en el proceso que puedan sesgar los resultados obtenidos.

Si los datos son no prescindibles conviene analizar el grado de


aleatoriedad presente en los mismos. Según este grado el proceso
de datos ausentes se pueden clasificar en:

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos ausentes completamente al azar (MCAR)


Este es el mayor grado de aleatoriedad y se da cuando los datos
ausentes son una muestra aleatoria simple de la muestra sin un
proceso subyacente que tiende a sesgar los datos observados. Ya sea
por que las condiciones climáticas, de seguridad o polı́ticas no
permiten recoger la información, porque ese dı́a los instrumentos se
descomponen, por que no se encontró a la persona u objeto de la
encuesta, aquı́ se puede pensar que la información se perdió
completamente al azar.

Si las personas con un nivel de ingresos alto tienden a no contestar,


entonces esa observación no se perdió completamente al azar.
MCAR corresponde a pensar que ese dato se perdió con la misma
probabilidad que cualquier otro dato. Si la persona no responde
acerca de sus ingresos, de la misma manera que no responde a
cuántos hijos tiene, entonces se considera MCAR. En este caso los
parámetros pueden estimarse sin sesgo.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos ausentes aleatorios (MAR)


En este caso el patrón de los datos ausentes en una variable Y no
es aleatorio si no que depende de otras variables de la muestra X .
Ası́, por ejemplo, si X es el sexo del encuestado e Y es su renta, un
proceso MAR se tendrı́a si existen valores ausentes de Y en
hombres que en mujeres y , sin embargo, los datos son aleatorios
para ambos sexos en el sentido de que, tanto en los hombres como
en las mujeres el patrón de ausentes es completamente aleatorio. Sı́
además, tampoco existen diferencias por sexos los datos ausentes
serı́an MCAR.

Se tiene la presión arterial de todos los individuos y se registra el


peso solamente de aquellas que tienen la presión alta.

Si los datos ausentes son MAR cualquier solución al problema


deberá tener en cuenta los valores de X dado que afectan al proceso
generador de datos ausentes.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos perdidos no al azar (MNAR)


Cuando no son MCAR ni MAR entonces se dice que son datos
faltantes no al azar. Esta falta de datos no al azar es un problema,
la única manera de obtener un estimador insesgado es modelar la
ausencia de datos y valores mismos de las ausencias, esa tarea no es
para nada simple.

Si se estudia una cierta enfermedad y las personas que la padecen


son las que tienen una mayor probabilidad a no contestar acerca de
si la padecen, entonces los datos son faltantes no al azar.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Datos ausentes (Missing)


Localización de datos ausentes

Consiste en evaluar la magnitud del problema. Para ello se


comienza analizando el porcentaje de datos ausentes por variable y
por caso. Si existen renglones con un alto porcentaje de datos
ausentes, se sugiere excluirse del problema. Ası́ mismo si existe una
variable con un alto porcentaje de este tipo de casos, pero su
exclusión dependerá de la importancia teórica de la misma y la
posibilidad de ser reemplazada por variables con un contenido
similar.

Sin embargo si dicha variable es dependiente deberı́a ser eliminada


ya que cualquier proceso de imputación puede distorsionar las
significancia estadı́stica y practica de los modelos estimados
para dicha variable.
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica
Introducción Análisis exploratorio

Reporte de valores faltantes


Porcentaje de valores faltantes por renglón
Porcentaje de valores faltantes por columna
Hacer comparaciones a través de tablas, por ejemplo si el
porcentaje de faltantes es el mismo en hombres que en
mujeres, es el mismo por grupos de edad o por estrato
socio-económico, etc.
Hay algún patrón sistemático en los casos completos y los
casos incompletos.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Métodos de imputación
Los métodos de imputación pueden ser de tres tipos:
Métodos de disponibilidad completa: Son aquellos que
utilizan toda la información disponible a partir de un subconjunto de
casos para generalizar sobre la muestra entera. Se utilizan para
estimar media, varianza y correlaciones.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Métodos de imputación
Los métodos de imputación pueden ser de tres tipos:
Métodos de disponibilidad completa: Son aquellos que
utilizan toda la información disponible a partir de un subconjunto de
casos para generalizar sobre la muestra entera. Se utilizan para
estimar media, varianza y correlaciones.
Método de sustitución: Estima valores de reemplazo para los
datos ausentes sobre la base de otra información existente en la
muestra. Ası́ se podrı́a sustituir observaciones con datos ausentes
por observaciones no muestrales o sustituir dichos datos por la
media de los valores observados o mediante regresión sobre otras
variables muy relacionadas con aquella a la que faltan observaciones.

Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM


Inferencia Estadı́stica
Introducción Análisis exploratorio

Métodos de imputación
Los métodos de imputación pueden ser de tres tipos:
Métodos de disponibilidad completa: Son aquellos que
utilizan toda la información disponible a partir de un subconjunto de
casos para generalizar sobre la muestra entera. Se utilizan para
estimar media, varianza y correlaciones.
Método de sustitución: Estima valores de reemplazo para los
datos ausentes sobre la base de otra información existente en la
muestra. Ası́ se podrı́a sustituir observaciones con datos ausentes
por observaciones no muestrales o sustituir dichos datos por la
media de los valores observados o mediante regresión sobre otras
variables muy relacionadas con aquella a la que faltan observaciones.
Método basados en modelos: Que constituyen explı́citamente
el mecanismo por el que se producen los datos ausentes y los
estiman por máxima verosimilitud. Entran en esta categorı́a el
algoritmo EM o proceso de aumento de datos.
Prof.Martha A. Montes Fonseca Facultad de Ciencias, UNAM
Inferencia Estadı́stica

También podría gustarte