Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Durante mucho tiempo, el análisis de datos ha tenido diversidad de papeles que podrían
ser resumidos o clasificados en dos tipos: el Confirmatorio y el Exploratorio. Sin
embargo, para poder implementar el paradigma confirmatorio se requiere, sin duda,
realizar una gran cantidad de trabajo exploratorio. Por lo tanto, ninguno de los dos tipos
de análisis son suficientes por si solos para contribuir al avance del conocimiento. El
Análisis Exploratorio de Datos es un modo de análisis de los datos que utiliza el
resumen numérico y visual para explorar datos en busca de patrones no anticipados.
Autores clásicos como John Tukey, Frederick Hartwig y Brian Dearing lo catologan
como un “estado mental” ante el conocimiento. Es así como el primero lo define como
una actitud, una flexibilidad y “algunas hojas con gráficos” (o transparencias, o ambos).
Esto último como un reconocimiento de que el ojo que mira al horizonte es el mejor
instrumento que tenemos para observar, de manera completa, lo no anticipado (Tukey,
1980). Por su parte, Hartwig y Dearing argumentan que el investigador debe aprender
todo lo posible acerca de una variable o conjunto de variables antes de utilizar los datos
para probar hipótesis o teorías acerca de las relaciones sociales (Hartwig y Dearing,
1979). Más recientemente, Eugene Horber y Dominique Ladiray plantean que el
“razonamiento” exploratorio es un esquema de análisis que enriquece las posibilidades
del investigador para hallar nuevas respuestas a los problemas que se plantee (Horber y
Ladiray, 1995). En general, el análisis exploratorio de datos se caracteriza por el uso de
herramientas o técnicas con mucha carga visual o gráfica, con énfasis en revelar
información vital sobre la data examinada. El arsenal correspondiente está compuesto,
entre otros, por instrumentos como:
Diagrama de dispersión (Scatter plot): gráfico que muestra la relación entre variables.
Es útil para examinar la dirección, fuerza y forma de la relación.
Literatura citada:
Tal y como hemos citado en la definición anterior el diagrama de dispersión nos indica la
relación existente entre dos variables, y por lo tanto si traducimos estas dos variables a
grupos de datos, podemos relacionar grupos de datos con el objeto de verificar o averiguar
que existe una relación entre ambos y como es esta relación de forma aproximada.
Modo de aplicación
Una vez que hemos realizado el diagrama de dispersión la forma que adquiera la nube de
puntos nos permitirá analizar la relación entre las 2 variables o grupos de datos, pudiendo
obtener las siguientes figuras e interpretaciones:
Correlación positiva - Se observa como la nube de puntos obtenida adquiere una
forma de recta creciente, cuando los puntos de la nube se encuentra próximos a la
recta se le conoce como fuerte, en el caso que se encuentren distantes a la recta es
conocida como débil. Por ejemplo la relación existente entre la altura y el peso de
una persona es positiva a mayor altura mayor peso.
Correlación negativa - Al contrario del caso anterior se observa como la nube de
puntos obtenida adquiere una forma de recta decreciente, cuando los puntos de la
nube se encuentra próximos a la recta se le conoce como fuerte, en el caso que se
encuentren distantes a la recta es conocida como débil. Por ejemplo la relación
existente para los fumadores entre el número de paquetes de tabaco al mes y los
años de vida es negativa dado que a mayor cantidad de tabaco fumado menor
esperanza de vida.
Correlación nula - Se observa una distribución de la nube de puntos con una forma
circular, indicándonos la no existencia de relación entre ambas variables. Por
ejemplo la relación existente entre el color de los ojos y el tamaño del pie es nula.
EL DIAGRAMA DE TALLOS Y HOJAS (Stem-and-Leaf Display)
El diagrama de tallos y hojas es un dispositivo gráfico similar al histograma, que aporta mayor
información que éste, ya que sustituye las barras por los datos mismos.
Se tiene un conjunto de datos formado por n observaciones, las cuales pueden ser representadas
Una forma rápida de obtener una representación visual del conjunto de datos es construir un diagrama
de tallos y hojas. Este diagrama es usado cuando hay un número no muy pequeño de datos.
Los siguientes son los pasos para construir un diagrama de tallos y hojas:
2. Cada valor observado es dividido en dos componentes: los dígitos iniciales (tallo) y los dígitos
restantes (hoja). Esta separación debe ser tal que permita destacar las diferencias entre los
datos. Para facilitar la determinación de la forma de la distribución de los datos se necesitan al
menos 5 tallos.
3. Hacer una lista de valores de tallo en una columna vertical. En una primera columna se colocan
los tallos. A la derecha de cada tallo se representa una fila que contiene las hojas
correspondientes.
4. Registrar las hojas por cada observación junto al valor correspondiente del tallo.
5. Indicar las unidades para tallos y hojas en algún lugar del diagrama.
Los diagramas de tallos y hojas nos dan una idea de la localización de los datos y de la forma de la
distribución. Esta técnica funciona bien para los conjuntos de datos que no tienen una dispersión muy
grande.
EJEMPLO 1
Stem-and-leaf of PORCENTAJE DE ALGODON N = 64 Leaf Unit = 0.10 (el número 1 después del punto
significa que se usa una sola cifra decimal).
Tallo Hojas
32 156789
33 114566666688
34 011122355666667777779
35 00111234456789
36 234888
37 13689
EJEMPLO 2
Los siguientes datos representan la acidez (PH) de 26 muestras de precipitaciones recogidas en una
ciudad de Pensilvania entre diciembre de 1973 y junio de 1974:
Interpretación:
A través del Diagrama se puede observar que la distribución de datos de Tiempo
(minutos) es asimétrica positiva (las frecuencias más altas se encuentran en el lado
izquierdo de la mediana, mientras que en el lado derecho hay frecuencias más pequeñas
(hacia la cola)), con la mayor concentración de datos en el segundo tallo, también se
puede determinar la moda, que en este caso es 22 minutos. Además se puede hallar la
mediana, considerando que la cantidad de datos son pares, se tiene que los elementos
centrales son 29 y 31 minutos, por lo tanto la mediana=(29+31)/2=30 minutos, es el
Tiempo que divide la distribución en dos partes iguales. Asimismo se pueden calcular
los cuartiles, usando Q1=n/4 y para el Q3=3n/4, por ejemplo: Q1=32/4=8, el valor
obtenido determina la posición, la cual arroja que 20 minutos es el Tiempo que deja el
25% de los datos por debajo, y el 75% de los datos de la distribución por encima.
Planteado de otro modo, el 75% de los datos de la distribución corresponde a Q3=3n/4=
(3*32)/4=24 (determina la posición) la cual arroja que 40 es el Tiempo que deja el 75 %
de los datos por debajo.
Recomendaciones:
Es importante tomar en cuenta que este tipo de diagramas, no es aconsejable en
informes anuales o en algún tipo de medios de difusión para un público en general,
porque se convierten en una ayuda básica para que investigadores y tomadores de
decisiones comprendan la naturaleza de los datos.
LOS DIAGRAMAS DE CAJA
LI = Q1 - 1,5*(Q3-Q1)
LS = Q3 + 1,5*(Q3-Q1)
1,5*(Q3-Q1)
1,5*(Q3-Q1)
LI
Daniel (2010) (*) menciona que en la Revista American Journal of Clinical Pathology,
Pitts y otros, asegura que "los carcinomas con metaplasia y sarcomas producidos dentro
del seno son difíciles de diagnosticar y clasificar con precisión debido a sus variados
patrones histológicos y a su rareza". En un intento por estudiar más detalles de las
características biológicas, los autores investigaron una serie de sarcomas puros y
carcinomas que exhibían metaplasia, a continuación se muestran los datos para la
construcción de la gráfica de caja.
0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5
5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0
Construcción de la gráfica:
Se calculan los cuartiles en el programa SPSS para Windows versión 19, se hace clic en
el menú Analizar, se selecciona Estadísticos descriptivos y luego Frecuencias; en el
cuadro diálogo que arroja se selecciona la variable en estudio, se hace clic en el botón
Estadísticos... (ubicado en la parte superior derecha), se selecciona Cuartiles (ubicado
en la parte superior izquierda), se hace clic en el botón Continuar y finalmente
en Aceptar.
Q2=4,75 cm
Q3=6,5 cm
Para hallar esta gráfica en el paquete estadístico SPSS para Windows versión 19, se
realiza el siguiente procedimiento:
Al examinar la gráfica se puede ver que el 50% central se encuentra entre 2,6 y 6,5 cm,
además se puede observar que la Mediana está cercana a 4,5 cm. La línea o bigote más
alargada en la parte superior indica que la distribución de diámetros está inclinada hacia
la derecha o es asimétrica positiva. Asimismo, se puede notar que el programa
estadístico indica cual es el dato extremo con un circulo y dice cuál es el número del
mismo en la base de datos.
(*) Daniel, W. (2010). Bioestadística. Base para el análisis de las ciencias de la salud (4a. Ed.).
México: Limusa Wiley.
Valor atípico
Valor inusualmente grande o pequeño. Los valores atípicos pueden tener una influencia
desproporcionada sobre los resultados estadísticos, como la media, lo que puede generar
interpretaciones engañosas. Por ejemplo, un conjunto de datos incluye los valores: 1, 2,
3 y 34. El valor medio, 10, que es mayor que la mayoría de los datos (1, 2, 3), es
influenciado considerablemente por el punto de dato extremo, 34. En este caso, el valor
medio da la impresión de que los valores de los datos son superiores de lo que
realmente son. Es necesario investigar los valores atípicos, porque pueden proporcionar
información útil sobre sus datos o proceso. Existen varias explicaciones de los valores
atípicos:
A menudo es más fácil identificar gráficamente los valores atípicos. Se identifican los
valores atípicos en gráficas de cajas, al etiquetar las observaciones que son por lo menos
1.5 veces el rango intercuartil (Q3 – Q1) desde el borde de la caja. Por ejemplo, una
compañía rastrea los pagos atrasados sobre la base de la fecha de vencimiento en
número de días. La gráfica de caja siguiente muestra dos valores atípicos, indicando dos
cuentas que tienen un atraso exagerado. Un analista investiga las cuentas y descubre que
los clientes se mudaron y nunca recibieron sus estados de cuenta.
Gráfica de caja