Documentos de Académico
Documentos de Profesional
Documentos de Cultura
EDA Notas
EDA Notas
1
(b) ordenadas:
i
X i
Sinnimo: Lag plot
Propsito: La finalidad del diagrama de demora es comprobar (a) la aleatoriedad de un conjunto de
datos o serie temporal; (b) la presencia de autocorrelacin en una serie temporal
2
; (c) la
presencia o ausencia de datos extremos (datos aberrantes, outliers); y (d) si existe un
modelo adecuado a la estructura de los datos.
Ejemplos: (4)
1 El smbolo se lee para todo, en este caso, i significa para todo (alternativamente, para
cualquier), valor de i .
2 Una serie temporal es una secuencia de observaciones sucesivas, y por lo tanto estadsticamente no
independientes. Se caracteriza por presentar (o no) tendencia (aumentos o decrementos en los valores
medios), periodicidad (fluctuaciones por ejemplo diarias, mensuales, estacionales o anuales) y
autocorrelacin (las observaciones ms prximas son ms probablemente similares que las ms alejadas
en el tiempo).
6
Tcnicas estadsticas relacionadas: Diagrama de autocorrelacin (vase Mdulo 3: anlisis de series
temporales);
Diagrama espectral (vase Mdulo 3: anlisis de series temporales);
Test de rachas.
Interpretacin: En caso de tratarse de un conjunto aleatorio de datos, el grfico no presentar ninguna
estructura identificable. En el ejemplo (a) se observa un modelo lineal, fuertemente no
aleatorio y sin presencia de datos aberrantes.
6.3. Diagrama de linealidad de Cox y Box
Definicin: La transformacin linear de Box y Cox (5, 6) es una familia particularmente til de
transformaciones utilizadas para mejorar el ajuste lineal. Se definen como
( )
1
0
ln 0
X
si
X
X si
=
utilizando tablas de la distribucin normal inversa o funciones implementadas en paquetes estadsticos para
obtener el fractil de la distribucin normal y representarlo en una escala decimal. No obstante, la mayor
parte de paquetes estadsticos proporciona directamente el diagrama y no es necesaria esta
transformacin.
8
Ejemplo: (4)
Tcnicas estadsticas relacionadas: diagramas de probabilidad;
diagrama de probabilidad del coeficiente de correlacin;
histograma;
tests de normalidad (Shapiro Wilks, Anderson Darling, Kolmogorov,
2
, etc.)
Interpretacin: Cuando la distribucin observada se ajusta a la terica, los puntos se disponen en lnea
recta. Cuando este ajuste no es bueno, adoptan otras formas. En los siguientes grficos se
indica cuando la distribucin es (A) asimtrica a la derecha, (B) asimtrica a la izquierda, (C)
leptocrtica, o (D) platicrtica:
Las principales ventajas son la sencillez de interpretacin, la extensin a cualquier tipo de
distribucin y, en el caso de la distribucin normal, la facilidad de obtener el diagrama ya
que est implementado en muchos paquetes estadsticos. Adems, no requieren muestras
tan numerosas como algunos tests de normalidad. El principal inconveniente es la
subjetividad de la interpretacin visual, ya que al contrario de los tests de normalidad
numricos, no se concluye con una p objetiva.
6.6. Diagrama de probabilidad del coeficiente de correlacin
Definicin: el diagrama de probabilidad del coeficiente de correlacin (1) es un grfico que representa
el coeficiente de correlacin frente al parmetro de forma de la distribucin, :
(a) abscisas: valor del parmetro de la forma de la distribucin ; y
(b) ordenadas: diagrama de probabilidad del coeficiente de correlacin.
Sinnimo: PPCC, probability plot correlation coefficient plot, diagrama lambda de Tukey
4
4 La distribucin lambda generalizada (lambda asimtrica, lambda de Tukey) es una distribucin con un
amplio abanico de formas. Se define por su funcin cuantil la inversa de la funcin (acumulativa) de
distribucin, con cuatro parmetros:
1
,
2
,
3
,
4
. Existen varias parametrizaciones, por ejemplo la
propuesta por Freimer (7) con una funcin cuantil:
A B C D
9
Propsito: estimar parmetros de localizacin y escala, proporcionando al mismo tiempo una
evaluacin grfica de la bondad de ajuste en aquellos problemas en que el anlisis
estadstico asume un cierto tipo de distribucin. Es aplicable a distribuciones (como la de
Weibull) que se definen mediante un parmetro de forma adems de los parmetros de
localizacin y escala. Por esta razn no es adecuada para caracterizar distribuciones como
la normal caracterizadas nicamente por parmetros de localizacin y escala. Una
aplicacin adicional es decidir qu familia de distribuciones se ajusta mejor a los datos
observados.
Ejemplo:
Tcnicas estadsticas relacionadas: diagrama de probabilidad.
Interpretacin: El parmetro formal es especialmente til para orientar si una distribucin posee una cola
ms o menos extensa e indica varias distribuciones comunes:
1
Forma de la distribucin
-1 Cauchy (aproximada)
0 Logstica (exacta)
0,14 Normal (aproximada)
0,5 U
1 Uniforme (exacta)
6.7. Diagrama secuencial
(Vase el tema Anlisis de series temporales)
6.8. Diagrama de Weibull
Definicin: El diagrama de Weibull es una tcnica grfica para evaluar el ajuste y obtener una
estimacin de los parmetros de forma y escala de una distribucin de Weibull
5
. Est
definido por:
( )
( )
4
3
1 3 4
1
2
1 1
1
u
u
F u
= +
donde:
1
es un parmetro de localizacin;
2
es un parmetro de dispersin; y
3 4
, son dos parmetros de forma, tales que si
1 2
= la distribucin es simtrica.
5 La distribucin de Weibull es una familia de distribuciones caracteriza por:
( )
( )
1
X
Y X e
=
donde: es el parmetro de escala;
10
(a) abscisas: el logaritmo neperiano de la respuesta ordenada; y
(b) ordenadas: la probabilidad acumulada (en porcentaje) de la distribucin de
Weibull, una escala diseada para que, de seguir tal distribucin, el
grfico resultante del ajuste por mnimos cuadrados sea
aproximadamente linear:
( ) ( )
ln ln 1 Y p =
donde:
0, 3
0, 4
i
p
n
=
+
; y
i es el orden (el ordinal) de la observacin: se requiere un mnimo de
7 observaciones:
Sinnimo: Weibull plot
Propsito: Es una tcnica grfica para establecer si un conjunto de datos procede de una poblacin
que se ajusta razonablemente a la distribucin de Weibull con dos parmetros, suponiendo
que la localizacin es cero (8)..
Ejemplo: (4)
Tcnicas estadsticas relacionadas: Diagrama de probabilidad de Weibull;
Diagrama PPCC de Weibull;
Diagrama de riesgo de Weibull.
Estos dos ltimos permiten a diferencia del diagrama de Weibull la existencia de datos ausentes.
Interpretacin: la misma que otros diagrama de ajuste de datos a distribuciones trericas.
6.9. Diagramas mltiples
Sinnimo: 4Plot, 6 plot
Propsito: Combinar en un mismo diagrama diversos grficos (4, 6, etc.).
Ejemplos: (4)
es el parmetro de forma;
es el parmetro de localizacin.
11
6.10. Histograma
Definicin: El histograma es un grfico que presenta frecuencias tabuladas. Viene a ser la versin
grfica de la tabla, mostrando la proporcin de casos que caen dentro de determinadas
categoras o clase. Formalmente el histograma puede definirse como un mapa que
presenta el recuento de observaciones que pertenecen a n categoras disjuntas o clases y
el diagrama histograma es su expresin grfica. El histograma
i
h satisface la condicin
1
n
i
i
N h
=
=
donde: N es el nmero total de observaciones; y
i es el ndice que identifica la clase.
Un histograma acumulativo
i
H de un histograma
i
h es un mapa que presenta el recuento
acumulativo de observaciones que pertenecen a las i categoras disjuntas o clases previas,
definindose como:
1
i
i j
j
H h
=
=
Un histograma estandarizado (clsico o acumulativo) es aquel en que se representan
frecuencias relativas en lugar de frecuencias absolutas.
El nmero de clases n tiene una importancia decisiva en el aspecto e interpretacin del
histograma, por lo que debe seleccionarse con cuidado, a partir de reglas empricas como:
2
10log
n N
n N
n N
=
=
=
(esta ltima regla requiere un nmero de observaciones superior a 50). O alternativamente,
usando parmetros estadsticos: as, el nmero ptimo de clases es el que minimiza la
siguiente expresin
2
2
min
x s
n
c
| |
=
|
\ .
donde: c es la amplitud o intervalo de la clase.
El intervalo de clase c puede ser estimado a partir de la regla de FreedmanDiaconis (9):
1
3
2 rango intercuartlico c N
=
Una vez establecido el nmero de clases, la representacin grfica del histograma consiste
en dibujar n rectngulos adosados correspondientes a las clases en que se clasifican los
datos:
12
(a) abscisas: clases; y
(b) ordenadas: densidad de frecuencia: el rea de cada barra y no su altura representa la
frecuencia, por lo que sera ms correcto nombrar el eje de ordenadas como densidad
de frecuencia. Si la base de los rectngulos, es decir el intervalo de la clase, es igual, la
altura es proporcional al rea y no aplica esta distincin. Cuando la altura representa la
frecuencia, se habla de polgono de frecuencias
Propsito: La finalidad del histograma es resumir grficamente la distribucin univariada de un conjunto
de observaciones.
Ejemplo: (4)
Tcnicas estadsticas relacionadas: Diagrama de cajas
Diagrama de probabilidad
Interpretacin: En el histograma debe evaluarse la localizacin (centralizacin) de los datos y
eventualmente la presencia de varias modas; su dispersin (escala); la existencia de sesgo;
la presencia de valores extremos.
Calculadoras on line: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html
http://people.hofstra.edu/faculty/Stefan_Waner/stats/histogram.html
http://nlvm.usu.edu/en/nav/frames_asid_145_g_4_t_5.html?open=instructions
7. Procedimientos AED relacionados con distribuciones bivariadas
7.1. Diagrama mltiple
(Vase el apartado 6.9)
7.2. Diagrama de dispersin
(Vase el tema Correlacin)
7.3. Diagrama de correlacin lineal
(Vase el tema Correlacin)
7.4. Diagramas de interceptacin y de pendiente lineales
(Vase el tema Regresin)
7.5. Diagrama de desviacin residual estndar lineal
(Vase el tema Regresin)
13
8. Procedimientos AED relacionados con distribuciones multivariadas
8.1. Diagrama de estrella
Definicin: El diagrama de estrella es un mtodo para representar datos multivariados (10), estudiando
las variables dominantes en cada observacin, las observaciones ms parecidas (nubes o
clusters) y la existencia de datos extremos (outliers). Cada estrella representa una
observacin individual formada por la unin de los vrtice de vectores (separados por
ngulos iguales) que representan las variables. Estos vectores emergen del centro de un
crculo, siendo la longitud de cada vector proporcional a la magnitud de la variable en todos
los puntos. El nombre proviene del aspecto que presenta estas observaciones.
Ya que representan datos individuales, su principal limitacin es que es vlido para un
nmero limitado de observaciones. Cuando este nmero crece el grfico se hace cada vez
ms confuso.
Sinnimo: star plot
Propsito: Este diagrama se utiliza para examinar en un mismo grfico los valores relativos de
determinadas variables y localizar observaciones similares.
Ejemplo: (4)
Tcnicas estadsticas relacionadas: Grfico de caras de Chernoff.
Interpretacin: Estos diagramas pueden interpretarse desde el punto de vista de las observaciones
individuales, buscando por ejemplo qu variables son ms determinantes, o desde el punto
de vista de las variables, buscando modelos de comportamiento y agrupando los casos por
el aspecto similar de las estrellas respectivas
9. Procedimientos relacionados con anlisis de series temporales
9.1. Diagrama de autocorrelacin
(Vase Modulo 3 Anlisis de series temporales).
9.2. Diagrama espectral
(Vase Modulo 3 Anlisis de series temporales).
9.3. Diagramas de desmodulacin compleja de la amplitud y la fase
(Vase Modulo 3 Anlisis de series temporales).
9.4. Diagrama secuencial
(Vase Modulo 3 Anlisis de series temporales).
9.5. Diagrama funcional de Andrews
(Vase Modulo 3 Anlisis de series temporales).
14
10. Procedimientos grficos relacionados con el diseo experimental unifactorial
10.1. Bihistograma
Definicin: El bihistograma es un grfico basado en el histograma clsico para visualizar dos
distribuciones simultneamente consistente en la yuxtaposicin de dos histogramas: en la
parte superior la medicin en el primer nivel 1 del factor y en la parte inferior la distribucin
corresponde a la medicin en el segundo nivel. Est, pues restringido a examinar los
efectos de factores que tienen nicamente dos niveles. Desde el punto de vista grfico
puede ser ms ilustrativo que un test estadstico equivalente (como el test t de Student) ya
que pone en evidencia simultneamente los parmetros de localizacin, dispersin y forma
y la existencia o no de datos extremos.
Sinnimo: histograma bidimensional
Propsito: evaluar si una modificacin de nivel de un factor ha modificado la localizacin, variacin o
forma y caractersticas de una distribucin
Ejemplo: (4)
Tcnicas estadsticas relacionadas: Diagramas QQ;
Test t de Student;
Test F de Snedecor;
Test de KolmogorovSmirnov.
10.2. Diagrama de cajas
Definicin: El diagrama de cajas representa en una forma simple y cmoda una o varias poblaciones de
observaciones sin prejuzgar el tipo de distribucin terica subyacente. Es un grfico
esquemtico que representa cuatro de las principales caractersticas de la distribucin de
los datos: (a) localizacin: media, mediana; (b) dispersin: rango, rango intercuartlico; (c)
aspecto: sesgo; y (d) presencia de datos extremos.
Tiene el aspecto de una caja central que abarca la mitad de los datos, con una lnea de
prolongacin trazada a la altura de la mediana y una indicacin de la media. De la caja
emergen unas lneas (bisagras) acotadas en el percentil 25 y 75 y a partir de estas
acotaciones se indican los valores extremos.
Sinnimos: Diagrama de cajas y bigotes; Boxandwhisker plot, candlestick chart
Propsito: Representar las distribuciones y sus principales caractersticas de una o varias muestras
simultneamente
Ejemplo: (4)
15
Variantes: Existen numerosas variantes de este esquema clsico que incluye la presencia de muescas
que representan intervalos de confianza, modificaciones de las acotaciones de lneas que
emergen de la caja, etc. (11, 12)
Por ejemplo, construyendo muescas (11) en:
1, 25 rango intercuatlico
1, 7
1,35
mediana
N