Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Datos
Dr. Víctor Aguirre Torres
Y
SEP-INDAUTOR
REGISTRO PUBLICO
03-2001-033012490200-01
1-1
1-2 CAPITULO 1
1.1 Introducción
La Estadística en sus comienzos, hace alrededor de trescientos a cuatrocientos años,
era poco más que registro y resumen de datos. Haciéndose ocasionalmente una
descripción de ellos, acompañándolos de gráficas. No fue sino hasta el desarrollo que
tuvo el cálculo y la probabilidad, que la Estadística dejó de ser únicamente
descriptiva para tornarse en una herramienta inferencial o de inducción. Este cambio
en la Estadística sucedió a principios del siglo XIX principalmente. El desarrollo que
tuvo la Inferencia Estadística fue tan exitoso y acelerado que hizo a un lado a los
métodos descriptivos, dejándolos casi en el olvido. Incluso se llegó al extremo de que
los análisis descriptivos se hacían para visualizar los resultados obtenidos por el
empleo de los procedimientos analíticos o inferenciales.
Esta situación perturbó a varios estadísticos aplicados. Ya que, no sólo las
conclusiones que se buscaban eran muchas veces evidentes de una manera gráfica,
sino que además la presencia de ciertos problemas, que invalidaba el uso de
procedimientos inferenciales, se podía detectar también usando ciertas gráficas. Fue
gracias al liderazgo de J.W Tukey, quien creó varios novedosos métodos gráfico-
numéricos, lo que hizo renacer el uso de gráficos al comienzo del análisis de un
conjunto de datos. A esta nueva tendencia de la estadística descriptiva extendida y
aumentada se le conoce como ANÁLISIS EXPLORATORIO DE DATOS.
El propósito de este capítulo será el de introducir los problemas de
comparación y asociación pero desde el punto de vista estadístico, es decir tomando
en cuenta datos y la variación natural que siempre existe en ellos. El énfasis será el
enfoque exploratorio. Se cubrirán varias de las herramientas de estadística descriptiva
tradicional como son el diagrama de barras y el histograma, pero serán
complementadas por despliegues exploratorios más efectivos. Aprenderemos a tratar
de "ver" la solución del problema de una manera gráfica, así como a detectar
particularidades en los datos que afectan adversamente los procedimientos
estadísticos inferenciales tradicionales, pero que por otro lado pueden estar señalando
una característica especial que aumente nuestro conocimiento del fenómeno bajo
estudio.
Del Análisis Exploratorio, la Inferencia Estadística surge como una
consecuencia lógica para medir y confirmar la fuerza de las diferencias o
asociaciones encontradas en la fase exploratoria. Los dos campos, el exploratorio y el
inferencial, forman una pareja que se refuerzan el uno al otro. Juntos forman una de
ANALISIS EXPLORATORIO DE DATOS 1-3
las más poderosas herramientas que tiene el hombre para descubrir, adquirir, y/o
confirmar el conocimiento de los fenómenos que le rodean.
Ejemplo 1.2.1
Suponiendo que tomamos una muestra aleatoria de estudiantes del ITAM cuya
característica a observar es la licenciatura en la que se encuentran inscritos. Como
pueden haber alumnos cursando más de una carrera al mismo tiempo, necesitamos
construir una regla para definir sin ambigüedad la licenciatura en la que se encuentran
inscritos todos y cada uno de los alumnos. Una regla para las carreras dobles, sería
que forman una categoría adicional.
Nótese que la licenciatura que están cursando no es la única característica que
podemos observar a los estudiantes. La tabla 1.1 muestra una colección de posibles
variables cualitativas que se podrían registrar de cada estudiante de la muestra.
Ejemplo 1.2.2
ANALISIS EXPLORATORIO DE DATOS 1-5
Retomando la encuesta de estudiantes del ITAM, la tabla 1.2 muestra una colección
de variables cuyas respuestas son cuantitativas
En algunas ocasiones en que se tienen datos cuantitativos puede resultar
conveniente agruparlos en categorías para así manejarlos como datos cualitativos. Por
ejemplo si agrupamos los valores que se pueden observar para la variable edad en las
categorías primera, segunda o tercera edad, con base en cierto criterio, podríamos
utilizarlos como datos cualitativos.
Ejemplo 1.2.3
Tomemos el siguiente ejemplo para identificar el tipo de datos que se pueden
observar para algunas variables. Supongamos que se desea hacer un estudio para
evaluar el impacto de los programas de desarrollo social en distintas zonas del país,
para lo cual se seleccionan como unidades experimentales a los municipios. Con el
objeto de cuantificar este impacto se podrían observar las variables de respuesta,
mostradas en la tabla 1.3, para cada uno de los municipios antes y después de la
instrumentación de los programas.
Ejemplo 1.3.1
1-8 CAPITULO 1
Tabla 1.8 Distribución de frecuencias relativas para tipo de televisor por colonia.
Encuesta de TV por cable.
CATEGORÍA COLONIA 1 COLONIA 2
pi (%) pi (%)
Ninguno 0.00 8.00
Blanco y negro 6.66 12.00
Color 80.00 48.00
Ambos 13.33 32.00
TOTAL 100.00 100.00
COLONIA 1 COLONIA 2
NINGUNO
0%
AMBOS BYN
13% 7%
NINGUNO
8% BYN
AMBOS
12%
32%
COLOR COLOR
80% 48%
Figura 1.1 Diagrama circular para tipo de televisor para cada colonia. Encuesta de TV
por cable.
60%
FRECUENCIA RELATIVA
50%
40%
30%
20%
10%
0%
O N
UN Y S
NG B BO R
NI AM LO
CO
TIPO DE TELEVISOR
Figura 1.2. Diagrama de barras para tipo de televisor. Encuesta de TV por cable
0 50 100
Figura 1.3 Diagrama de puntos. Variable RENTA. Encuesta de televisión por cable.
Diagrama de tallo y hojas. Con este diagrama se pueden obtener dos productos: un
gráfico que nos da una idea de la distribución de frecuencia y la de ordenación de los
datos.
Además el diagrama de tallo y hojas nos permite determinar:
0 0 00 0 00
1 1 64 1 4 6
2 2 804080782 2 000247888
3 3 1552480 3 012455
4 4 2020 4 0022
5 5 4642 5 2446
6 6 9820 6 0289
7 7 406 7 046
8 8 46422 8 2246
ORDENADO
Figura 1.4. Tallo y diagramas de tallo y hojas variable TVTOT. Encuesta de TV por
cable
0 00
1 4
6
2 0 0 0 24
7 8 8 8
3 0 1 2 4
5 5 8
4 0 0 2 2
5 2 44
6
6 0 2
8 9
7 0 4
6
8 2 244
6
Figura 1.5. Diagrama ordenado de tallo y hojas variable TVTOT. Expansión del tallo.
Encuesta de TV por cable
Las categorías resultan ser los valores discretos que toma la variable.
Nuevamente se aplica un proceso de conteo para determinar las frecuencias
(absolutas y relativas) correspondientes a cada valor.
En la tabla 1.9 se muestran las distribuciones de frecuencias de las variables
ADULTOS Y NIÑOS para el ejemplo 1.3.1 y en la figura 1.6 sus respectivas
representaciones gráficas:
Procedimiento:
1. Identificar el valor máximo y el mínimo observado en el conjunto de datos para
obtener el intervalo en el que se encuentran los valores observados, así como su la
amplitud.
2. Decidir cuantos intervalos de clase establecer (k) así como el ancho de cada uno
de ellos (c). Es recomendable emplear entre 5 y 20 clases (esta elección es
totalmente arbitraria), todas ellas del mismo ancho. Este ancho se puede
determinar de tal manera que el producto del número de intervalos de clase por el
ancho (k*c) sea un poco mayor que la amplitud. Para la variable VALOR
establezcamos 6 clases, con lo cual el ancho deberá ser un número mayor a
48,399.5 (k*c > amplitud). Por facilidad tomemos 50,000.
1 - 16 CAPITULO 1
40%
FRECUENCIA RELATIVA
35%
30%
25%
20%
15%
10%
5%
0% NIÑOS
0
1 ADULTOS
2
3
NUMERO 4
Figura 1.6 Gráficas de barras para las variables ADULTO y NIÑOS. Encuesta de TV
por cable.
3. Elegir el valor inicial que limitará al primer intervalo de clase y a partir del cual
se obtendrán todos los puntos que limitarán a cada uno de los siguientes
intervalos (estos puntos reciben el nombre de límites de clase). El primer límite
inferior deberá ser un número un poco menor que el valor mínimo observado en
el conjunto de datos. Para nuestro ejemplo, el valor más chico resultó ser 79,928,
por facilidad tomamos 75,000 como valor inicial. El siguiente límite inferior se
obtiene de sumarle al límite inferior anterior el ancho del intervalo:
75,000+50,000, y así sucesivamente. El resultado de este proceso se muestra en la
tabla 1.10.
4. Una vez elegido el límite inferior, los intervalos de clase quedan como se muestra
en la tabla 1.11.
5. A continuación se efectúa un conteo del número de observaciones cuyos valores
pertenecen a cada intervalo de clase, es decir se calculan las frecuencias
absolutas, y a partir de éstas se pueden obtener las frecuencias relativas. Para el
ANALISIS EXPLORATORIO DE DATOS 1 - 17
frecuencias relativas puesto que así tenemos una idea del porcentaje de observaciones
que ocurrieron por intervalo.
25%
FRECUENCIA RELATIVA
20%
15%
10%
5%
0%
0
0
00
0
00
0
00
0,
0
00
0,
10
00
0
0,
15
00
0,
20
0,
25
0,
30
35
MARCAS DE CLASE
Figura 1.7 Histograma Variable VALOR, seis intervalos de clase.
De la figura 1.7 podemos observar que los valores catastrales observados con
mayor frecuencia se encuentran entre los $175,000 y $225,000; y los valores
catastrales fuera de este intervalo ocurren cada vez con menor frecuencia. Sin
embargo notamos que al llegar al intervalo (325,000 , 375,000] la frecuencia con que
se observan estos valores vuelve a aumentar ligeramente.
Para observar con un poco de mas detalle la distribución de la variable valor,
realizamos el histograma con doce intervalos de clase, el resultado se muestra en la
1 - 20 CAPITULO 1
16%
14%
FRECUENCIA RELATIVA
12%
10%
8%
6%
4%
2%
0%
00 0 0
,5 50 50 0
87 2, 7, 50 0
11 2, 50 50
0 0
13 16 7, 2, 50 0
18 7, 50 50
0 0
21 23 2, 7, 50 0
26 2, 50 50
0
28 31 7, 2,
33 36
MARCAS DE CLASE
Figura 1.8 Histograma variable VALOR, doce intervalos de clase
Distribución Bimodal: Esta curva poblacional se caracteriza por tener dos cimas o
jorobas separadas que indican la presencia de dos grupos con diferentes distribuciones
en la población. El valor numérico que esta por debajo del punto máximo de la cima
se le llama moda, por lo que una distribución con dos jorobas tendría dos modas y
sería por lo tanto bimodal. Esta situación se podría dar por ejemplo en el caso de que
consideremos la población de pesos o estaturas cuando no se tienen separadas las
mediciones de hombres de las de las mujeres, figura 1.9.d).
Por ejemplo, el histograma de la figura 1.8 sugiere una distribución que es
bimodal y sesgada a la derecha.
C1 C1
C1
16%
14%
12%
FRECUENCIA
RELATIVA
10%
8%
6%
4%
2%
0%
87 00
11 500
13 500
16 500
,5
18 00
C1
21 00
23 00
62
26 00
2,
28 00
7,
31 00
2,
33 00
7,
36 00
2,
5
7,
38 00
5
2,
0
5
7,
50
2,
5
7,
2,
7,
VALOR
Este gráfico se puede usar de varias formas. Por ejemplo si deseamos tener
una idea del porcentaje de hogares cuyo valor catastral es menor a 250,000, la
respuesta se obtiene localizando primero la abscisa de 250,00 y después viendo en la
ojiva el valor del porcentaje correspondiente, que en este caso es de 63%
aproximadamente.
Otra aplicación sería la siguiente, supóngase que nos interesa estimar el valor
catastral que tiene por debajo al 20% de la población, para esto nos fijamos en el eje
vertical de la ojiva a la altura de 20%, trazamos la línea horizontal y determinamos la
abscisa, en este ejemplo sería de 160,000, es decir el 20% de la población se espera
que tenga un valor catastral a lo más de 160,000. Esta idea se generaliza en el
siguiente párrafo.
100%
80%
FREC RELATIVA
ACUMULADA
60%
40%
20%
0%
10 00
12 00
15 00
17 00
0
C1
20 00
00
22 00
75
50
25 00
00
27 0
50
30 0
00
32 0
50
35 0
00
37 0
50
0
00
00
0
50
00
50
VALOR
Figura 1.11 Ojiva variable VALOR, doce intervalos de clase.
ANALISIS EXPLORATORIO DE DATOS 1 - 23
100%
80%
FREC RELATIVA
ACUMULADA
60%
40%
20%
porcentil 90% = 345,000
0%
10 00
12 00
15 00
17 00
0
C1
20 00
00
22 00
75
50
25 00
00
27 0
50
30 0
00
32 0
50
35 0
00
37 0
50
0
00
00
0
50
00
50
VALOR
Figura 1.12 Ojiva variable VALOR. Determinación del porcentil del 90%.
Hasta ahora hemos visto como las distribuciones de frecuencias nos dan una idea de
la manera en que se encuentran distribuidos los valores de la característica de interés
en la población. Asimismo se dieron a conocer las representaciones gráficas de dicha
distribución con el objeto de visualizar tanto los valores que aparecían con mayor o
menor frecuencia, como también las distintas formas o perfiles que éstas podían
presentar.
Aunque esta descripción es bastante útil, existen otro tipo de descripciones
basadas en unos cuantos números que tratan de mostrar aspectos relevantes de la
distribución de frecuencia. Particularmente nos interesa describir la parte central de
la distribución de frecuencias así como conocer que tanto están variando los datos
observados con respecto a algún valor central de la distribución. A las primeras se les
conoce como medidas de tendencia central y a las últimas medidas de variabilidad,
que en conjunto se les denomina medidas descriptivas.
Las medidas de tendencia central son valores numéricos que tienden a localizar, en
cierto sentido, la parte central de la distribución de frecuencias. Se estudiarán
únicamente tres de ellas: la mediana, la media y la moda.
Mediana. Es el porcentil del 50%, por lo tanto es el valor que ocupa la posición
central del conjunto de datos una vez que estos han sido ordenados de acuerdo a su
magnitud en forma ascendente; es decir, el 50% de las observaciones tiene valores
menores o iguales que el de la mediana y el restante 50% tiene valores mayores o
iguales al de la mediana. Emplearemos M para denotar a la mediana de una
distribución de valores poblacionales, y m para cuando se trate de una distribución
de valores muestrales. La mediana es una medida de tendencia central útil cuando se
tienen distribuciones sesgadas.
Ya vimos en la sección pasada el cálculo de cualquier porcentil usando la
ojiva, a continuación veremos un método para calcular la mediana sin necesidad de
obtener la ojiva. Se siguen los siguientes pasos:
Ejemplo 1.4.1
Una empresa fabricante de productos cosméticos y de limpieza maneja ventas de
alrededor de cuatrocientos productos distintos a través de once centros de acopio en
toda la República. Dado el gran volumen de producto que se maneja es muy
importante que haya un buen control de inventarios, ya que si se tiene mucho
inventario ocioso significa dinero que no se esta empleando en producir, mientras
que un inventario escaso significa tener una demanda no satisfecha.
Esta empresa contrató los servicios de un bufete extranjero y recibió la
siguiente formula para controlar sus inventarios:
Tabla 1.16 Ventas diarias suavizante para ropa. Número de cajas vendidas. Centro de
acopio Guadalajara.
Semana 1 Semana 2 Semana 3 Semana 4 Semana 5 Semana 6 Semana 7
0 2838 413 5592 0 465 2119
515 590 47 673 80 703
746 331 340 561 159 462
1237 450 265 548 183 175
879 570 1083 216 113 422
l( m ) = (31+1)/2 = 16 y m = 462
21 19 21 19
28 38 28 38
55 92 55 92
Desordenado Ordenado
µ=
åX i
x=
åx i
de cada intervalo de clase tomamos la marca de clase y le asignamos ese valor a cada
una de las f i observaciones del intervalo. Para deducir el cálculo considérese el
siguiente desarrollo, sabemos que
x=
å fm i i
x=
åfm i i
Þ x=å
f i mi
Þ x=å
fi
mi
n n n
por lo tanto
x = å p i mi
x = 0.075( 100 ,000 ) + 0.2( 150 ,000 ) + ... + 0.125( 300 ,000 ) + 0.15( 350 ,000 )
x = 227 ,500
25%
FRECUENCIA RELATIVA
20%
15%
10%
Media=227,500
5%
0%
0
00
0
00
0
00
0,
0
00
0,
10
00
0
0,
15
00
0,
20
0,
25
0,
30
35
MARCAS DE CLASE
Figura 1.14 Histograma valor catastral. Encuesta TV por cable. Posición de la media
muestral.
Moda. Para un conjunto de datos discretos se define como aquel valor que ocurre con
mayor frecuencia. Si este valor es único, entonces decimos que la distribución de
frecuencias es unimodal. Para ver si hay mas de una moda, lo más conveniente es
observar la gráfica de barras de la distribución de frecuencias y buscar cimas. Los
valores debajo de las cimas serán los candidatos a modas.
En el caso de datos continuos, a partir del polígono de frecuencias las posibles
modas serían aquellos valores de la abscisa por debajo de las cimas o picos aparentes.
Consideremos la figura 1.10, las posibles modas serían en orden de importancia:
187,500; 337,500; y 87,500.
Cuartil inferior. El cuartil inferior o primer cuartil tiene por debajo al 25% de los
valores de la distribución de frecuencias. El cuartil inferior poblacional se denota Q1
mientras que el muestral por q1 . Dada una muestra, una manera fácil de obtener q1
es calculando la llamada localización del cuartil dada por:
l( q ) =
[l( m )] + 1
2
l( q ) = [ 16 + 1 ] / 2 = 8.5
q1 = (183+216)/2 = 199.5
q3 = (673+703) / 2 = 688
p
i =( )n
100
ANALISIS EXPLORATORIO DE DATOS 1 - 31
De esta manera, con la tabla 1.17, nos damos una idea de la posición relativa
de un valor específico. Este tipo de escalas se usan mucho para evaluar el puntaje
obtenido en exámenes internacionales como el TOEFL (Test of english as a foreign
language), GRE (Graduate record examination), GREMAT (Graduate record
examination in Mathematics), etc.
Los porcentiles 0.25 y 0.75 dan valores similares a q1 y q3 , por lo que se
usan indistintamente.
Resulta claro que las medidas vistas hasta ahora son de gran ayuda para tratar
de darle sentido a un conjunto de números desordenados. Sin embargo no son
suficientes para caracterizarlos por completo pues aún nos faltan algunas medidas
que cuantifiquen la variabilidad o dispersión presente en este conjunto de
observaciones.
1 - 32 CAPITULO 1
Amplitud (R). Esta es la medida de dispersión más simple de todas, y lo que mide es
la distancia que separa a la observación de mayor valor de la de menor valor en el
conjunto de observaciones:
R = 370,325-79,928= 290,397
R = 5592 - 0 = 5592
A.I. = q3 - q1
s 2
=
å ( Xi - µ ) 2
s2 =
å( x - x )
i
2
n -1
åx 2
i - nx 2
s2 = i =1
n -1
s = s2
s = s2
1 - 34 CAPITULO 1
s 2
=
å f (m
i i - x )2
n -1
s2 =
åfm i
2
i - nx 2
n -1
s2 =
[( 3 )( 100 ,000 ) 2
]
+ ( 8 )( 150 ,000 )2 + ... + ( 6 )( 350 ,000 )2 - ( 40 )( 227 ,500 )2
40 - 1
s 2 = 5 ,762' 820 ,513
s = s 2 = 75 ,913
ANALISIS EXPLORATORIO DE DATOS 1 - 35
s
C.V .=
µ
atípico atípico
q1 q3 menor mayor
adyacente m adyacente
inferior superior
Figura 1.15. Elementos de un diagrama de caja y brazos.
Para construir estos diagramas se parte de un primer formato que consta de:
n
l(m) m
l(q) q1 q3 A.I.
1 - 36 CAPITULO 1
31
16 462
fes
Adyacente Adyacente
inferior superior
f1 f2
Atípicos menores Atípicos menores
F1 F2
Atípicos mayores Atípicos mayores
Segundo formato, diagramas de caja
732.5
0 1237
-533.25 1420.75
ninguno 2119
-1266.0 2153.50
ninguno 2838, 5592
Segundo formato, ejemplo 1.4.1
1.5.1 Subpoblaciones.
Se sigue entonces de la tabla 1.20, que los hábitos de tabaquismo difieren con
respecto al género en la población estudiantil de la universidad bajo estudio. Es decir
el hábito de tabaquismo depende del género.
ANALISIS EXPLORATORIO DE DATOS 1 - 41
Para hacer más fácil la comparación y sobre todo cuando la variable que
usamos para definir las subpoblaciones tienen muchas categorías, cada frecuencia
condicional se puede comparar contra la frecuencia marginal.
80%
FRECUENCIAS CONDICIONALES
70%
60%
50%
40%
Masculino
30%
Femenino
20%
10%
0%
Nunca ha Dejó de fumar Fuma
fumado actualmente
HABITO DE FUMAR
Figura 1.17 Gráfica de barras hombro con hombro, condicionando sobre GENERO.
Encuesta estudiantil tabaquismo.
100%
0%
.6
FRECUENCIA CONDICIONAL
90%
21
80% 0% 6.20%
.9
70% 50
60%
50% 6.80% Fuma actualmente
40% 0% Dejó de fumar
.2
72 Nunca ha fumado
30%
0%
.3
20% 42
10%
0%
Masculino Femenino
GENERO
Figura 1.18 Gráfica de barras apiladas, condicionando sobre GENERO. Encuesta
estudiantil tabaquismo.
1 - 42 CAPITULO 1
Ejemplo 1.5.1
Consideremos el ejemplo 1.3.1. Supongamos que deseamos comparar la distribución
del número de televisores entre ambas colonias. Los datos relevantes en este caso se
encuentran en la tabla 1.21.
De la tabla 1.21 se puede obtener la tabulación cruzada y la tabla de
frecuencias relativas condicionales mostradas en la tabla 1.22.
Tabla 1.21 Número de televisores por hogar en la muestra. Encuesta de TV por cable.
Colonia 1 Colonia 2
Manzana TELES Manzana TELES
9 4,3,4,3,5 14 0,1,1,1,4
2 3,3,2,4,3 22 1,3,4,3,2
4 2,3,3,3,2 8 2,2,2,3,1
20 2,3,3,1,3
25 2,0,3,1,1
La figura 1.19 (que se obtiene de la tabla 1.22) es una variación del diagrama
de barras hombro con hombro. Presenta la distribución de frecuencias para cada
colonia una frente a la otra, ahí se ve claramente la diferencia que existe entre ambas
colonias con respecto al número de televisores por hogar. La interpretación sería que
en la colonia 1 hay una mayor cantidad de televisores por hogar, teniéndose que la
moda es alrededor de tres televisores, mientras que para la colonia 2 la moda es de
sólo un televisor.
ANALISIS EXPLORATORIO DE DATOS 1 - 43
Tabla 1.22 Comparación de la distribución del número de televisores por hogar entre
colonias
Tabulación cruzada Número de televisores por hogar
0 1 2 3 4 5
Colonia 1 0 0 3 8 3 1 15
2 2 8 6 7 2 0 25
Total 2 8 9 15 5 1 40
60%
FRECUENCIA RELATIVA
50%
CONDICIONAL
40%
30%
20%
10%
0%
Colonia 2
0 1 Colonia 1
2 3 4 5
TELEVISORES
12 13 14 15 16 17 18
12 13 14 15 16 17 18
12 13 14 15 16 17 18 12 13 14 15 16 17 18
Diagrama esquemático
Figura 1.20 Problema de comparación. Variable cuantitativa continua. Relación entre
distribuciones de frecuencia y el diagrama esquemático.
Ejemplo 1.5.2
Los datos de la tabla 1.23 provienen de ensayos de dureza de lámina de acero de tres
proveedores de una empresa nacional que produce manufacturas troqueladas. Una
característica de calidad importante es la dureza de la materia prima. Los datos
provienen de embarque recibidos en el primer semestre del año en cuestión, las
unidades son kg/cm2.
ACERIE-FRANCAISE
USSTEEL
LSA
35 40 45 50 55 60
Dureza
Figura 1.21 Diagrama esquemático. Comparación de la dureza de proveedores de
lámina.
Muchas veces es importante conocer si una variable influye sobre otra variable, por
ejemplo, en una cadena de establecimientos comerciales les interesaría saber que
tanto influye el tamaño del establecimiento en el volumen de las ventas.
También les interesaría saber si un incremento en el tamaño del
1 - 46 CAPITULO 1
Una manera de analizar la asociación entre dos variables que son ordinales y discretas
es a través de la tabla de contingencia usando frecuencias relativas condicionales con
sus correspondientes diagramas de barra.
Ejemplo 1.6.1
Consideremos una encuesta sobre el horario de verano, en la cual nos interesa
relacionar la posición respecto al cambio de horario (Y) con el nivel socio económico
del encuestado (X). Los valores de Y son: en desacuerdo, indiferente, de acuerdo,
mientras que para X son: bajo, medio, alto. Los datos de esta posible encuesta se
encuentran en la tabla 1.24.
100%
21%
90% 27%
80% 43%
70%
32%
60%
Acuerdo
50% 49%
Indiferente
40% 36% Desacuerdo
30%
47%
20%
24% 21%
10%
0%
Bajo Medio Alto
Figura 1.22 Diagrama de barras apiladas. Posición respecto al horario de verano en
función del nivel socioeconómico.
En esta situación una manera de evidenciar la posible asociación entre las variables es
a través del diagrama esquemático. Este diagrama es interesante porque nos puede
mostrar como dependen no sólo la localización sino también la dispersión de la
variable cuantitativa con respecto al incremento o decremento de la variable ordinal.
Ejemplo 1.6.2
Consideremos los datos de la tabla 1.26, corresponden a calificaciones de una prueba
de habilidad verbal para una muestra de niños de una escuela privada. La variable Y
es la calificación, mientras que la variable X es el grado escolar del niño.
Grado escolar
Maternal Kinder I Kinder II
68 255 425
35 202 370
145 317 380
173 327 476
190 247 410
225 100 358
340 448 338
123 412 373
228 228 377
192 467
297 388
Figura 1.23. Diagrama esquemático del grado escolar versus habilidad verbal.
1. Sobre un par de ejes cartesianos seleccionar una escala en el eje X y otra en el eje
Y, de forma tal que quepan todos los valores observados.
2. Graficar cada pareja ( xi , y i ) en el punto que le corresponda, si hay puntos
repetidos trazar círculos concéntricos.
ANALISIS EXPLORATORIO DE DATOS 1 - 49
Ejemplo 1.6.3
Consideremos el ejemplo 1.3.1, supóngase que deseamos explorar la posibilidad de
que haya una asociación entre le ingreso de un hogar (X=VALOR) y la cantidad de
renta que se está dispuesto a pagar por el servicio de TV por cable (Y=RENTA), el
diagrama de dispersión correspondiente está dado en la figura 1.24. De esta figura
podemos concluir que hay una asociación positiva entre ambas variables, ya que se
observa que, en general, los valores más grandes de VALOR están asociados con los
valores más grandes de RENTA y viceversa. Además se observan dos valores
atípicos que se separan de la nube de puntos, son dos hogares que no están dispuestos
a gastar en el servicio, examinando la tabla 1.6 se obtiene que son los hogares que no
tienen televisión.
90
80
70
60
RENTA
50
40
30
20
10
0
0 100000 200000 300000 400000
VALOR
( xi - x )( y i - y ) para i = 1,..., n
observando la figura 1.25 se nota que los productos son positivos para los cuadrantes
I y III y negativos para los cuadrantes II y IV.
1 - 50 CAPITULO 1
18
16
14
II (-) I (+)
12
y = 9.40
10
Y
8
2
x = 4.80
0
0 1 2 3 4 5 6 7 8 9
Nótese que en la figura 1.25 hay una asociación que podríamos llamar
positiva, ya que valores altos de X tienden a estar asociados con valores altos de Y y
viceversa, valores bajos de X tienden a coincidir con valores bajos de Y. También se
aprecia que al sumarse todos los productos cruzados, los de signo positivo dominan a
aquellos de signo negativo por lo que esta suma será un indicativo de la asociación
existente. Al promedio de esta suma se le llama la covarianza muestral entre X y Y,
formalmente se define como
n
Cov( X ,Y ) = å ( xi - x )( y i - y ) /( n - 1 ) (1.1)
i =1
La fórmula (1.1) es una medida de asociación entre las variables X y Y, tiene
como unidades el producto de las unidades de X por las unidades de Y, para el
ejemplo la covarianza tiene como unidades pesos al cuadrado. Resulta conveniente
eliminar la dependencia de la covarianza en las unidades en que se miden las
variables, para llevar a cabo esto se divide la covarianza entre el producto de las
desviaciones estándar de cada una de las variables. El coeficiente resultante se le
denomina coeficiente de correlación y se abrevia como r. Queda dado por la siguiente
fórmula:
n
å( x i - x )( y i - y ) /( n - 1 )
Corr ( X ,Y ) = r = i =1
s X sY
Aparte de que r ya no depende de las unidades en que se midan las variables,
también se puede demostrar matemáticamente que su valor absoluto nunca excederá
uno, es decir | r |£ 1 . El valor absoluto de r será mayor a medida que la nube de
puntos se aproxime más a una línea recta. Por esta razón a r también se la llama el
ANALISIS EXPLORATORIO DE DATOS 1 - 51
coeficiente de correlación lineal, ya que de hecho mide asociación lineal. Algún otro
tipo de asociación no lineal puede pasar inadvertida para este coeficiente, por eso,
aparte de calcular el coeficiente de correlación resulta conveniente hacer el diagrama
de dispersión. Algunos patrones de asociación junto con sus correspondientes valores
del coeficiente de correlación están dados en la figura 1.26.
18 18 18
16 16 16
12 12 12
y y y
10 10 10
Y Y Y
8 8 8
4 4 4
2
x 2
x 2
x
0 0 0
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
20 20 23
18 18 21
14 14 y
17
12
y 12
y
15
Y 10 Y 10 Y
13
8 8
III (+) IV (-) III (+) IV (-) 11 III (+) IV (-)
6 6
9
4 4
2
x 2
x 7
x
0 0 5
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
Fuerte asociación negativa, r = - 0.9 X Asociación negativa, r = - 0.6 X Asociación no lineal, r = 0.1 X
Una cuestión que es importante tener presente, es que tanto los diagramas de
dispersión como el coeficiente correlación son útiles para sugerir y comprender mejor
la asociación entre dos variables. Pero de ninguna forma deben tomarse como
evidencia de causalidad. Para llegar a esta conclusión es necesario tomar en cuenta el
conocimiento específico del área en cuestión o bien llevar cabo estudios
experimentales específicamente diseñados para el efecto.
1 - 52 CAPITULO 1
Ejemplo 1.6.4
La figura 1.27 muestra el diagrama de dispersión de la población (en miles) del
poblado de Oldenburg (Y) versus el número de cigüeñas observadas en ese mismo
año.
75
Población
(en miles)
70
65
60
55
50
100 150 200 250 300
Número de cigüeñas
Figura 1.27 Población anual de Oldenburg versus avistamientos de cigüeñas al año,
1930-1936.
En esta sección se describen y ejemplifican las operaciones que hay que hacer en
Excel para obtener los diagramas y estadísticas mencionadas en este capítulo con
excepción del diagrama de tallo y hojas, por su sencillez. Se presupone que el usuario
tiene cierta familiaridad con la estructura de las hojas de cálculo y con el uso de
funciones disponibles en Excel. No se requiere el uso de macros.
Ejemplo 1.7.1
La tabla 1.27 presenta una parte de los resultados de una prueba de consumidores de
refresco. El número de consumidores es 50, por lo que sus respuestas están en las
celdas A3:A52. La columna B contiene los datos codificados mientras que las
columnas C y D muestran la equivalencia entre los números y las marcas. La
herramienta de Excel se usaría de la siguiente forma:
Histogram
20
15
Frequency
10 Frequency
0
1 2 3 4 5 Mas
Bin
Sprite
10%
CocaCola
PepsiCola 38%
26%
Dr.Pepper DietCoke
10% 16%
1.7.2 Histogramas.
Secuencia de comandos:
Rango de clases: conjunto de celdas que contienen los límites de los intervalos
de clase
Rótulos: marcar
Rango de salida: celda a partir de la cual se depositará el resultado
Porcentaje acumulado: marcar
Crear gráfico: marcar
Ejemplo 1.7.2
La tabla 1.28 presenta una parte de los resultados de una encuesta de usuarios de
computadora personal. La variable de interés es horas de uso al día de cada usuario.
El número de usuarios es 50, por lo que sus respuestas están en las celdas
A3:A52. La herramienta de Excel se usaría de la siguiente forma:
Histogram
30 120.00%
25 100.00%
20 80.00%
Frequency
Frequency
15 60.00%
Cumulative %
10 40.00%
5 20.00%
0 .00%
0 3 6 9 12 15 More
limites
Se puede mejorar dando clic derecho sobre las barras de la figura, entrar a
“Formato de serie de datos”, en la pestaña de “Opciones” dar al “Ancho de rango” el
valor de cero. Posteriormente dar clic derecho sobre el eje horizontal de la gráfica y
en “Formato ejes”, pestaña “Alineación” dar al texto orientación de - 45 grados. El
resultado de estas operaciones se muestra en la figura 1.31.
ANALISIS EXPLORATORIO DE DATOS 1 - 57
Histogram
30 120.00%
25 100.00%
20 80.00%
Frequency
Frequency
15 60.00%
Cumulative %
10 40.00%
5 20.00%
0 .00%
0
12
15
M
ore
limites
Secuencia de comandos:
Ejemplo 1.7.3
Usando los datos de a tabla 1.28 la herramienta de Excel se usaría de la siguiente
forma:
1. Señalar la variable X y todas las variables Y que se van a graficar (la X deberá
estar completamente a la izquierda)
2. Marcar icono de gráficos
3. Marcar tipo de gráfico: XY (Dispersión)
4. Subtipo de gráfico: el de puntos sin líneas
5. Agregar título del gráfico y nombres a los ejes
6. Finalizar
ANALISIS EXPLORATORIO DE DATOS 1 - 59
60
55
50
DUREZA
45
40
35
LSA USSTEEL ACERIE-
FRANCAISE
Figura 1.32 Diagrama esquemático, dureza de lámina.
Ejemplo 1.7.4
Considere los datos de la tabla 1.30, los cuales corresponden al número de cigüeñas
observadas y al número de habitantes del poblado de Oldenburg del año
correspondiente. Para hacer el diagrama de dispersión con Excel, se señalaría A1:B8
en el primer paso y se llevarían a cabo el resto de los pasos.
Secuencia de comandos:
Ejemplo 1.7.5
Considere de nuevo los datos de la tabla 1.30, para obtener la correlación entre
Cigüeñas y Población se tendría que hacer lo siguiente:
1.8 Referencias
Hoaglin, D. Mosteller, F., Tukey, J., Eds. (1983). Understanding Robust and
Exploratory Data Analysis; John Wiley & Sons: New York.
Koopmans, L. H. (1987). Introduction to Contemporary Statistical Methods, segunda
edición, PWS Publishers.
Landwehr, J. L. y A. E. Watkins. (1986). Exploring Data, Dale Seymour
Publications.
Tukey, J. W. (1977). Exploratory Data Analysis, Addison-Wesley, Reading,
Massachusetts.