Está en la página 1de 15

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE CIENCIAS BIOLOGICAS

EP GENETICA Y BIOTECNOLOGIA

CURSO: Fundamentos de Estadstica

INTRODUCCION AL ANALISIS EXPLORATORIO DE DATOS


(continuacin clase 6)

Mg. Violeta Alicia Nolberto Sifuentes


Departamento Acadmico de Estadstica
vinolsi.biostatistics@gmail.com
Sem. 2017-I
C.U. 24/04/2017
1. INTRODUCCION
El Anlisis Exploratorio de Datos (A.E.D.) es un conjunto de tcnicas estadsticas
cuyo fin es conseguir un entendimiento bsico de los datos y de las relaciones
existentes entre las variables cuantitativas analizadas. El examen previo de los
datos es un paso necesario, que lleva tiempo, y que habitualmente se descuida
por parte de los analistas de datos. Las tareas implcitas en dicho examen
pueden parecer insignificantes y sin consecuencias a primera vista, pero son una
parte esencial de cualquier anlisis estadstico.

Tiene los siguientes objetivos:


1. Evaluar la calidad y consistencia de datos
2. Determinar la distribucin de la variable bajo estudio (forma)
3. Detectar datos ausentes (missing)
4. Identificar datos atpicos (outliers)
5. Resumir datos
6. Categorizacin de las variables, identificando puntos de corte.
7. Verificar los requisitos que deben cumplir los datos antes de emplear otras
herramientas estadsticas.
2. DIAGRAMA DE TALLO Y HOJA
(STEM-AND-LEAF)

Es una tcnica de anlisis exploratorio de datos de una variable


cuantitativa, muy til por que muestra simultneamente el
orden de rangos as como la forma del conjunto de
datos.

Se caracteriza por ser fcil de construir y dar


ms informacin que un histograma, debido a que
muestra los datos cuantitativos.
Tukey, W. (1977). Exploratory Data Analysis . Reading Mass. Adisson Wesley
No hay cantidad nica de tallos ni hojas an cuando se
recomienda seleccionar entre 5 a 20 tallos (clases)

Permite identificar:
1. Simetra de los datos.
2. Variabilidad de los datos
3. Presencia de datos atpicos
4. Concentracin de datos
5. Brechas en el conjunto de datos
Procedimiento:
1. Se redondean los datos a dos o tres cifras significativas,
expresndolos en unidades convenientes.
2. Se disponen en una tabla con dos columnas separadas
por una lnea vertical:
Para datos con 2 dgitos se escriben a la izquierda de una
lnea los dgitos de las decenas (tallo) y a la derecha las
unidades, que sern las hojas, por ejemplo:
65 se escribe 6 | 5
Para datos de 3 dgitos el tallo estar formado por los
dgitos de las centenas y de las decenas, que se escriben
a la izquierda, separados de las unidades.
Por ejemplo: 265 se escribe 26 | 5 .
3. Cada tallo define una clase, y se escribe una sola vez. El
nmero de hojas representa la frecuencia de dicha clase
Ejemplo 1: El peso (kg.) de residuos slidos por habitante
hogar en una muestra de cierta ciudad es:

1.19 0.93 0.91 0.93 0.91 0.85 0.86 1.13 1.24 0.83 0.87
0.93 1.16 0.97 1.16 1.13 0.82 0.9 0.94 1.15 0.95 0.96
1.13 1.18 1.27 0.97 1.02 1.05 1.07 0.98 1.09 1.06 0.99
1.08 1.14 0.98 1.01 1.12 0.99 1.12 0.97 1.04 1.03 0.98
1.09 1.04 1.03 1.04 0.98 1.01 0.99 1.04 0.91 0.93

1.04 10| 4

tallo hoja
Unidad del tallo 0.1
RS (kg/hab) Stem-and-Leaf Plot

Frequency Stem & Leaf

2.00 8. 23
3.00 8. 567
9.00 9. 011133334
12.00 9. 567778888999
9.00 10 . 112334444
6.00 10 . 567899
6.00 11 . 223334
5.00 11 . 56689
1.00 12 . 4
1.00 12 . 7

Stem width: .10


Each leaf: 1 case(s)
RS (kg/hab) Stem-and-Leaf Plot

Frequency Stem & Leaf

2.00 8 . 23
3.00 8 . 567
9.00 9 . 011133334
12.00 9 . 567778888999
9.00 10 . 112334444
6.00 10 . 567899
6.00 11 . 223334
5.00 11 . 56689
1.00 12 . 4
1.00 Extremes (>=1.52)

Stem width: .10


Each leaf: 1 case(s)
3. DIAGRAMA DE CAJA (Box and whisker plot )
Es un grfico representativo de un conjunto de datos de variable
cuantitativa, para su construccin se usan cinco medidas de
resumen que hemos estudiado:
Mediana, Cuartil 1, Cuartil 3, valor mximo y mnimo

Es una presentacin de los datos de una variable pero de manera


visual, asocia las cinco medidas de resumen antes mencionadas.
Presenta al mismo tiempo, informacin sobre la tendencia
central, dispersin y simetra.

Tambin permite identificar con claridad y de forma individual,


observaciones que se alejan de manera poco usual del resto de
los datos (outliers o atpicos)
Grfico de caja de una Grfico de caja de una variable con
variable simtrica datos atipicos

8 * 29
Cmo se interpreta un grfico de caja?
Si la caja y los bigotes son largos, entonces se trata de una
variable muy dispersa.
Si la mediana est ubicada relativamente en el centro de la
caja la distribucin es simtrica.
Si la mediana se acerca al cuartil 1, la distribucin tiene
asimetra positiva.
Si la mediana se acerca al cuartil 3, la distribucin tiene
asimetra negativa.
Si la mediana coincide con los cuartiles o con los lmites de
los bigotes, es por que se concentran muchos datos en un
mismo punto, puede ser el caso de una distribucin sesga-
da o de una distribucin muy homognea.
Interpretacin:
Grfico de caja de una variable con datos atpicos

Ejemplo 2: El tiempo (minutos) de


espera de los pacientes en dos
consultorios de emergencia se
muestran en los siguientes
grficos: (Interprete)

Interpretacin:
Ejemplo 3: Se estudi el peso vivo (gr) de 20 palomas machos y 20 hembras, que
se midi con balanza de precisin, los resultados se muestran en los siguientes
grficos:

Interpretacin:
Interpretacin:

También podría gustarte