Está en la página 1de 13

UNIVERSIDAD NACIONAL DE CATAMARCA

FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

EL ANALISIS EXPLORATORIO

“El examen preliminar de la mayoría de los datos se facilita mediante el empleo de


diagramas. Los diagramas no prueban nada, pero pueden ofrecer, de modo fácil,
pautas relevantes presentes en los datos.” (Fisher)

El análisis exploratorio es un campo de especial aplicación para el análisis


gráfico. Posee varias técnicas gráficas que le son específicas, como son: el gráfico
llamado “tallo y hojas (steam and leaf). O el de “caja con bigotes”, llamado también
“diagrama de caja”. El análisis exploratorio se caracteriza por tanto, por su carácter
ilustrativo.
Estos gráficos se desarrollan como respuesta a la necesidad de identificar la
forma más real de una distribución para luego determinar los intervalos de clase. Por
ello este tipo de representación gráfica incide en un mayor grado sobre el análisis de
la distribución.
JTP: Ing. Cristina Díaz de Luna
22/03/12
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

DIAGRAMA DE CAJA

En estos últimos años se viene empleando con éxito el llamado DIAGRAMA DE


CAJA para describir varias de las características más destacadas de un conjunto de
datos.
Este tipo de gráfico, que se construye con datos originales, es útil para evaluar la
forma de las distribuciones, es muy sensible para detectar problemas en las colas de
las distribuciones (casos extremos o atípicos).

Indica varias características importantes de un conjunto de datos, tales como:


 el centro,
 la dispersión,
 naturaleza y magnitud de cualquier la desviación de la simetría,
 la identificación de los valores inusuales (atípicos), extremadamente altos o
bajos, observaciones que están muy lejos del cuerpo principal de los datos.
JTP: Ing. Cristina Díaz de Luna
22/03/12
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

Utiliza medidas de tendencia central y de dispersión que tienen la propiedad de


resistencia, es decir, estadísticos que son relativamente insensibles a valores o
cambios extremos de algunos de los datos. Si se combinan estas medidas
resistentes con información referente a los extremos, se logra una mejor idea de
la forma de la distribución.

JTP: Ing. Cristina Díaz de Luna


22/03/12
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

COMO SE CONSTRUYE UN DIAGRAMA DE CAJA?

El diagrama de caja más sencillo se basa en el resumen de cinco cantidades:

Xmín_______ Q1 ________ Me ________ Q3 ________ Xmáx


Extremo inferior Primer Cuartil Mediana Tercer Cuartil Extremo superior

El gráfico consiste en una caja rectangular horizontal (o vertical), ubicado


sobre un eje horizontal (o vertical)

Para su construcción se traza una escala horizontal (o vertical) de medición.

A continuación se pone un rectángulo o “caja” sobre este eje, donde la arista


izquierda (o inferior) corresponde al 1° Cuartil (Q1) y la arista derecha (o superior)
al 3° Cuartil (Q3).
JTP: Ing. Cristina Díaz de Luna
22/03/12
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

La medida de la caja recoge la distancia entre el 1° y el 3° Cuartil, es decir, el


Recorrido Intercuartílico RIC=(Q3 – Q1),.

Este rectángulo está dividido por un asterisco, una línea, sombreado o cualquier
otra marca, que indica la mediana. La posición de la Me, en relación a los extremos de
la caja plasma la información de la asimetría en el 50% intermedio de los datos

RIC= Q3 – Q1

Xmín 100
Xmáx
80
60
Este
Q1 M40
e Q3 Oeste
20 Norte
100 0
1er 2do 3er 4to
80
trim. trim. trim. trim.
60
Este
40 Oeste
20 Norte

JTP: Ing. Cristina Díaz de Luna 0


1er 2do 3er 4to
22/03/12
trim. trim. trim. trim.
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

De cada uno de los lados cortos de la caja (que representan los bordes del
recorrido intercuartílico Q3 – Q1) sobresalen unas líneas rectas continuas o
punteadas – bigotes- que indican con su longitud a qué distancia se encuentran los
casos más extremos.

La prolongación de estos bigotes posee un límite, de modo que cualquier caso que
no se encuentre dentro de ese rango es identificado y marcado individualmente.

1. Así, están sobre los bigotes solo las observaciones comprendidas entre cero y
1,5 veces el Rango Intercuartílico a partir de las aristas del rectángulo. O sea:

Largo máximo de bigote derecho =Q3+1,5 RIC .


Largo máximo de bigote izquierdo =Q1-1,5 RIC

RIC
. =
Q3
– Q1

JTP: Ing. Cristina Díaz de Luna Q1 Me 100 Q3


22/03/12 80
100
60
Este
80
40 Oeste
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

2. Los valores atípicos están entre 1,5 y 3 veces el rango intercuartílico,

3. valores atípicos extremos son los valores que están más allá de 3 RIC, a
partir de las aristas del rectángulo.

100

Para ambos casos, valores atípicos y atípicos extremos, se emplean símbolos


80
60
Este

(círculos vacíos o llenos) para


40
identificarlos. Oeste
20 Norte
0
1er 2do 3er 4to
trim. trim. trim. trim.

JTP: Ing. Cristina Díaz de Luna


22/03/12
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

COMO SE LEEN LOS DATOS EN UN DIAGRAMA DE CAJA?

Los diagramas de caja son muy útiles para hacer comparaciones gráficas entre
conjuntos de datos, ya que tienen un gran impacto visual y son fáciles de comprender.
Estas cinco medidas, Xmín,, Q1, Me, Q3 Y Xmáx se utilizan para estudiar la forma de la
distribución, es decir, la simetría y la dispersión del conjunto global de datos, del
50% central

Si los datos fueran “perfectamente simétricos sería cierto lo siguiente:


1. La distancia de Q1 a la Me sería igual a la distancia de la Me a Q3
2. La distancia del Xmin a Q1 sería igual a la distancia Q3 a Xmax.
3. La Mediana = Eje Medio= Rango Medio= Media Aritmética.
Xmín__________ Q1 ________ Me ________ Q3 ________ Xmáx

JTP: Ing. Cristina Díaz de Luna


22/03/12
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

Si los datos estuvieran “sesgo hacia la derecha”


1. La distancia Q3 a Xmax excede en gran medida a la distancia Xmin a Q1.
2. Mediana < Eje Medio< Rango Medio.

Xmín_____ Q1 __ Me _____ Q3 ____________________________________ Xmáx

Si los datos tuvieran “sesgo a izquierda”


1. La distancia Xmin a Q1 excede en gran medida a la distancia Q3 a Xmáx
2. Rango Medio < Eje Medio < Mediana

Xmín_____________________ Q1 _____ Me__ Q3 ______________ Xmáx

JTP: Ing. Cristina Díaz de Luna


22/03/12
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

DIAGRAMA DE TALLO Y HOJAS.

Consiste en la combinación de una distribución de frecuencia con un


histograma; de la distribución de frecuencia recoge el hecho de representar los
valores observados en orden, mientras que del histograma emplea la capacidad de
expresar la forma de la distribución. Este tipo de representación gráfica es
semejante a un diagrama de barras horizontales, si bien se emplean los valores
correspondientes en cada caso.

¿Cómo se construye?
Para construir un diagrama de tallos y hojas, dado un conjunto de datos x1,
x2,...,xn, (donde cada número xi esta formado al menos por dos dígitos), los números xi
se dividen en dos partes: un tronco, o tallo, formada por uno o mas de los dígitos
principales y una hoja, la cual contiene el resto de los dígitos.

JTP: Ing. Cristina Díaz de Luna


22/03/12
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

Para ilustrar lo anterior,


si los datos contienen información sobre el porcentaje entre 0 y 100 de artículos
defectuosos en lotes de pastillas de semiconductor, entonces el valor 76 puede
dividirse en un tronco 7 y una hoja 6.
En general, debe escogerse un número relativamente pequeño de troncos en
comparación con el número de observaciones.
Lo usual es seleccionar entre 5 y 20 troncos.
Una vez elegido el conjunto de troncos se realiza una lista de éstos en la parte
izquierda del diagrama. Al lado de cada tronco se ponen todas las hojas que
corresponden a los valores observados ordenados tal como se encuentran en el
conjunto de datos.

JTP: Ing. Cristina Díaz de Luna


22/03/12
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

Pasos para la realización de un diagrama de tronco y hoja:

1) Escoger el intervalo de unidades a representar en el tronco, intentando que éste


cubra la totalidad de los datos a representar. Puede resultar útil realizar más de
un diagrama, empleando distintas unidades.

2)Dibujar la línea vertical, situando las unidades seleccionadas en orden creciente o


decreciente, según el tipo de datos a representar.

3)Anotar los valores de frecuencias absolutas y acumuladas al margen, indicando la


fila en la que se halla la Mediana; es aconsejable efectuar un recuento de las
frecuencias para asegurar la presencia de todos y cada uno de los datos originales.

JTP: Ing. Cristina Díaz de Luna


22/03/12
UNIVERSIDAD NACIONAL DE CATAMARCA
FACULTAD DE TECNOLOGIA Y CIENCIAS APLICADAS

CATEDRA: PROBABILIDAD Y ESTADISTICA

Resumiendo, mediante el diagrama de tronco y hoja podemos obtener y/o


observar fácilmente:

- Rango que cubren los datos

- Localización de los valores centrales de la distribución

- Concentraciones o agrupaciones de valores

- Identificación de valores poco o muy frecuentes

- Gaps o lagunas en los que no se han registrado valores

- Aproximación visual a la dispersión y simetría.

- Valores notablemente desviados del conjunto (anomalías)


JTP: Ing. Cristina Díaz de Luna
22/03/12

También podría gustarte