Está en la página 1de 60

Análisis Exploratorio de

Datos
Dr. Víctor Aguirre Torres
Y

Mat. Begoña Artaloitia Ciscomani

SEP-INDAUTOR
REGISTRO PUBLICO

03-2001-033012490200-01

1-1
1-2 CAPITULO 1

1.1 Introducción
La Estadística en sus comienzos, hace alrededor de trescientos a cuatrocientos años,
era poco más que registro y resumen de datos. Haciéndose ocasionalmente una
descripción de ellos, acompañándolos de gráficas. No fue sino hasta el desarrollo que
tuvo el cálculo y la probabilidad, que la Estadística dejó de ser únicamente
descriptiva para tornarse en una herramienta inferencial o de inducción. Este cambio
en la Estadística sucedió a principios del siglo XIX principalmente. El desarrollo que
tuvo la Inferencia Estadística fue tan exitoso y acelerado que hizo a un lado a los
métodos descriptivos, dejándolos casi en el olvido. Incluso se llegó al extremo de que
los análisis descriptivos se hacían para visualizar los resultados obtenidos por el
empleo de los procedimientos analíticos o inferenciales.
Esta situación perturbó a varios estadísticos aplicados. Ya que, no sólo las
conclusiones que se buscaban eran muchas veces evidentes de una manera gráfica,
sino que además la presencia de ciertos problemas, que invalidaba el uso de
procedimientos inferenciales, se podía detectar también usando ciertas gráficas. Fue
gracias al liderazgo de J.W Tukey, quien creó varios novedosos métodos gráfico-
numéricos, lo que hizo renacer el uso de gráficos al comienzo del análisis de un
conjunto de datos. A esta nueva tendencia de la estadística descriptiva extendida y
aumentada se le conoce como ANÁLISIS EXPLORATORIO DE DATOS.
El propósito de este capítulo será el de introducir los problemas de
comparación y asociación pero desde el punto de vista estadístico, es decir tomando
en cuenta datos y la variación natural que siempre existe en ellos. El énfasis será el
enfoque exploratorio. Se cubrirán varias de las herramientas de estadística descriptiva
tradicional como son el diagrama de barras y el histograma, pero serán
complementadas por despliegues exploratorios más efectivos. Aprenderemos a tratar
de "ver" la solución del problema de una manera gráfica, así como a detectar
particularidades en los datos que afectan adversamente los procedimientos
estadísticos inferenciales tradicionales, pero que por otro lado pueden estar señalando
una característica especial que aumente nuestro conocimiento del fenómeno bajo
estudio.
Del Análisis Exploratorio, la Inferencia Estadística surge como una
consecuencia lógica para medir y confirmar la fuerza de las diferencias o
asociaciones encontradas en la fase exploratoria. Los dos campos, el exploratorio y el
inferencial, forman una pareja que se refuerzan el uno al otro. Juntos forman una de
ANALISIS EXPLORATORIO DE DATOS 1-3

las más poderosas herramientas que tiene el hombre para descubrir, adquirir, y/o
confirmar el conocimiento de los fenómenos que le rodean.

1.2 Variables de Respuesta y Datos

Antes de introducirnos en el estudio de los diferentes métodos descriptivos del


Análisis Exploratorio de Datos, necesitamos conocer un poco más acerca de la
materia prima con la que estaremos trabajando: los datos.

Datos. Se refiere a las mediciones o en general a las observaciones documentadas que


recolectamos de un experimento o fenómeno; es decir, los datos son las diferentes
mediciones que obtenemos al observar cierta característica en cada una de las
unidades experimentales.

Unidad experimental. Es un concepto muy amplio, ya que puede referirse a seres,


cosas o bien períodos de tiempo.

Variables de respuesta. Cada una de las características que se observan en las


unidades experimentales y que son susceptibles de ser cuantificadas o registradas de
alguna manera, no necesariamente de manera numérica.

Población estadística. La totalidad de los valores de una variable de respuesta sobre


toda la población bajo estudio.

Idealmente debería definirse la utilidad de cada una de las variables antes de


captarlas, y de ser posible tomando en cuenta el tipo de análisis estadístico que se
llevará a cabo. En ocasiones las variables resultan muy complejas hasta para
definirse, por ello es recomendable definirlas de manera operacional, es decir con
base en operaciones realizables sin ambigüedad. También es conveniente tomar en
cuenta el tipo de análisis estadístico que sea realmente de utilidad para el propósito
del estudio, y no resulte que los datos que realmente interesan no están disponibles.
Resumiendo, de cada unidad experimental podemos observar y registrar una o
varias variables de respuesta, y los valores que pueden tomar estas variables son los
datos. A continuación se discute la clasificación de los datos de acuerdo a su tipo y
escala de medición en que se registren.

1.2.1 Datos Cualitativos.

Si los datos recolectados de un experimento denotan cualidades o atributos en las


unidades experimentales bajo estudio, entonces se definen como datos cualitativos
que pueden clasificarse en un número fijo de categorías o clases, cuyos nombres o
1-4 CAPITULO 1

códigos corresponden a los diferentes valores observados en la variable. Estas


categorías o clases deben ser mutuamente excluyentes y exhaustivas con el propósito
de que cada unidad experimental quede clasificada en una y solo una de las
categorías. En caso de existir alguna ambigüedad, ésta deberá resolverse de manera
única.

Tabla 1.1. Posibles variables cualitativas. Encuesta estudiantil


Variable Cualitativa Categorías
Género Hombre, Mujer
Escuela de procedencia Pública, privada
Color de tez Clara, Obscura
Gusto por su horario Ninguno, Poco, Regular, Mucho
Tipo de nariz Recta, Aguileña, Chata
Tipo de horario Matutino, Vespertino, Mixto
Mes de nacimiento Enero, Febrero, etc.

Ejemplo 1.2.1
Suponiendo que tomamos una muestra aleatoria de estudiantes del ITAM cuya
característica a observar es la licenciatura en la que se encuentran inscritos. Como
pueden haber alumnos cursando más de una carrera al mismo tiempo, necesitamos
construir una regla para definir sin ambigüedad la licenciatura en la que se encuentran
inscritos todos y cada uno de los alumnos. Una regla para las carreras dobles, sería
que forman una categoría adicional.
Nótese que la licenciatura que están cursando no es la única característica que
podemos observar a los estudiantes. La tabla 1.1 muestra una colección de posibles
variables cualitativas que se podrían registrar de cada estudiante de la muestra.

1.2.2 Datos Cuantitativos

Los datos cuantitativos son respuestas con significado numérico que se


obtienen de un proceso de conteo o de medición. Si los valores observados se
obtuvieron mediante un proceso de conteo entonces se denominan datos discretos. En
cambio si las observaciones resultaron de un proceso de medición, entonces se
definen como datos continuos. Para ser más precisos, se consideran datos continuos
si entre cualesquiera dos valores potencialmente observables, siempre se puede
encontrar otro valor potencialmente observable. Por ejemplo, si consideramos la
variable número de plantas que tiene un invernadero podemos observar datos
discretos, pero si nos preguntamos por el porcentaje de plantas que son de sombra
obtenemos una respuesta continua.

Ejemplo 1.2.2
ANALISIS EXPLORATORIO DE DATOS 1-5

Retomando la encuesta de estudiantes del ITAM, la tabla 1.2 muestra una colección
de variables cuyas respuestas son cuantitativas
En algunas ocasiones en que se tienen datos cuantitativos puede resultar
conveniente agruparlos en categorías para así manejarlos como datos cualitativos. Por
ejemplo si agrupamos los valores que se pueden observar para la variable edad en las
categorías primera, segunda o tercera edad, con base en cierto criterio, podríamos
utilizarlos como datos cualitativos.

Tabla 1.2. Posibles variables cuantitativas. Encuesta estudiantil.


Variable Cuantitativa Valores potenciales Tipo
Número de hermanos 0,1, 2, ... Discreta
Semestre que cursa 1, 2, 3, ... Discreta
Estatura (1.40, 2.00 ) m, Continua
Peso ( 40 , 100 ) kg., Continua
Promedio en la carrera (0 , 10 ] Continua

Ejemplo 1.2.3
Tomemos el siguiente ejemplo para identificar el tipo de datos que se pueden
observar para algunas variables. Supongamos que se desea hacer un estudio para
evaluar el impacto de los programas de desarrollo social en distintas zonas del país,
para lo cual se seleccionan como unidades experimentales a los municipios. Con el
objeto de cuantificar este impacto se podrían observar las variables de respuesta,
mostradas en la tabla 1.3, para cada uno de los municipios antes y después de la
instrumentación de los programas.

1.2.3 Escalas de Medición

Si tomamos en cuenta la precisión con la cual se realiza la medición de los diferentes


valores de una variable de respuesta, podemos clasificarlos en uno de los siguientes
cuatro niveles o escalas de medición, cada uno de los cuales requiere de diferentes
modelos matemáticos y por ende de tratamientos distintos: Escala Nominal, Escala
Ordinal, Escala de Intervalo y Escala de Razón.

Escala Nominal. En este nivel, que es el más bajo de medición, se realiza la


operación más sencilla y básica: la clasificación de los diferentes valores que asume
la variable en categorías mutuamente excluyentes y exhaustivas. Sin embargo no es
posible establecer una relación de orden entre las diferentes categorías, simplemente
podemos decir si una observación pertenece o no a determinada categoría. Ejemplos:
estado civil de una persona ( soltero, casado, divorciado, viudo, otros), color de ojos (
claro, oscuro), zona de la ciudad en la que reside ( norte, sur, este, oeste), etc.
1-6 CAPITULO 1

Escala Ordinal. En este nivel de medición no sólo se agrupan los valores de la


variable en categorías sino que además se establece una relación de orden entre las
categorías de acuerdo al grado de posesión de cierto atributo (“mayor que”, o “menor
que”). Sin embargo en esta escala no podemos hacer uso de las operaciones usuales
de suma, resta, multiplicación y división. Por ejemplo: nivel socioeconómico (bajo,
medio, alto), grado de preferencia a cierto producto, hábito de fumar (nunca, poco,
mucho), etc.

Tabla 1.3 Clasificación de variables en un estudio sobre impacto de programas sobre


desarrollo social.
Variable de respuesta Valores observados Tipo de Datos
Tipo de municipio rural , urbano Cualitativa
Partido político gobernante PRI, PAN, PRD, ... Cualitativa
Número de hogares 1, 2, 3,... Discreta
% de hogares con electricidad [ 0 , 100 ] Continua
Número de escuelas 0, 1, 2, ... Discreta
Ingreso per capita ( 0 , µ) Continua

Escala de Intervalo. Al alcanzar este nivel, los valores de la variable no sólo se


clasifican sobre la base del grado de posesión del atributo sino que además es posible
medir exactamente la intensidad con la que se posee esa característica. Para ello se
requiere de una unidad de medida aceptada como norma común cuyo origen o "cero"
se establece sobre la base de conveniencias prácticas. Las operaciones de suma o
resta pueden llevarse a cabo entre las mediciones. Por ejemplo las escalas Celsius y
Fahrenheit de temperatura pertenecen a esta escala, aunque nótese que el cero en ellas
no está implicando ausencia de temperatura.

Escala de Razón. En este nivel de medición, además de la unidad de medida


empleada, es posible situar un punto cero absoluto no arbitrario y fijo, en donde el
"cero" implica ausencia del atributo. De este modo se pueden realizar operaciones
aritméticas de producto o cociente y así comparar mediante proporciones o razones.
Por ejemplo, número de adultos en un hogar, ingreso mensual en el hogar, longitud
de caminos pavimentados, etc.
Debemos destacar que las diferentes escalas de medición son acumulativas, es
decir; la escala ordinal posee todas las propiedades de una nominal además del orden
entre categorías; por lo tanto, la escala ordinal es más fuerte que la nominal ya que
sus datos poseen más información. Asimismo la escala de intervalo es a su vez
nominal y ordinal, mientras que la escala de razón tiene todas las propiedades de la
escala de intervalo. Siempre es posible transformar datos que se encuentran en cierta
escala, a una más débil, simplemente ignorando la información extra que contienen.
ANALISIS EXPLORATORIO DE DATOS 1-7

RAZON Ì INTERVALO Ì ORDINAL Ì NOMINAL


Relación entre las escalas de medición

Finalmente la relación entre el tipo de datos y la precisión con la que se realiza


su medición es como sigue: los datos que toman valores en una escala nominal u
ordinal son a su vez cualitativos; mientras que aquellos cuyos valores pertenezcan a
una escala de intervalo o razón serán cuantitativos. Esto se resume en la tabla 1.4.

Tabla 1.4. Relación entre el tipo de datos y su escala de medición.


Tipo de datos Nominal Ordinal Intervalo Razón
Cualitativos ● ●
Cuantitativos ● ●
(discretos o continuos)

1.3 Distribuciones de Frecuencia

Una manera importantísima de caracterizar la variedad de valores que toma la


variable sobre la población es a través de la frecuencia con que ocurren esos valores.
En esta sección aprenderemos a construir tablas de frecuencias que nos ayudarán a
visualizar la manera en que se distribuye un conjunto de datos. De hecho a las tablas
de frecuencias usualmente se les conoce como distribuciones de frecuencia.

1.3.1 Variables cualitativas

Se muestra a continuación como construir y utilizar las distribuciones de frecuencia


para datos cualitativos. En términos generales, una tabla que muestra todos los
posibles valores de una variable de respuesta junto con el número de veces que cada
una de ellas es observada se le conoce como distribución de frecuencias.

Distribución de Frecuencia. Una distribución de frecuencia puede contener


frecuencias absolutas o frecuencias relativas. La frecuencia absoluta, que en adelante
emplearemos f i para referirnos a ella, representa el número de veces en que se
observó cierta categoría. Si esta frecuencia absoluta se divide entre el total de
observaciones, se tiene entonces una frecuencia relativa, denotada por pi . En
ocasiones resulta conveniente presentar las frecuencias relativas como porcentajes,
simplemente multiplicándolas por 100. Para construir una tabla de frecuencias
hacemos uso de un método de conteo.

Ejemplo 1.3.1
1-8 CAPITULO 1

Una empresa de televisión por cable encargó a un bufete hacer un estudio de


mercado, para conocer el perfil de los clientes potenciales en una zona residencial
formada por dos colonias. Cada colonia consta de 12 y 25 manzanas con un total de
236 y 605 hogares respectivamente. Empleando un muestreo probabilístico, cuyos
detalles no se discutirán por el momento, el bufete seleccionó una muestra de ocho
manzanas y cinco hogares dentro de cada manzana. En cada hogar seleccionado en la
muestra los encuestadores del bufete recabaron los datos de las variables mostradas
en la tabla 1.5. En realidad se recabaron datos para más variables, pero por
simplicidad en este ejemplo sólo se manejarán éstas.

Tabla 1.5 Variables, encuesta de TV por cable.


Variable Descripción
1. ADULTOS Número de adultos en el hogar
2. NIÑOS Número de niños menores de 12 años en el hogar
3. TELES Número de televisores en el hogar
4. TVTOT Suma del número de horas frente al televisor de todos los miembros del
hogar en la semana anterior a la encuesta
5. RENTA Cantidad máxima de renta, que el jefe del hogar este dispuesto a pagar al
mes, por servicio de TV por cable (en múltiplos de 5 pesos)
6. VALOR Valor catastral del hogar (en miles de pesos). Esta variable se introduce
para dar una idea aproximada del ingreso familiar
7. COLONIA Colonia a la que pertenece el hogar en la zona residencial
8. TIPO Tipo de televisor que posee: blanco y negro, a color o ambos.
9. MANZANA Número de manzana a la que pertenece el hogar

Un subconjunto de los datos que resultaron del levantamiento de la encuesta se


reportan en la tabla 1.6.
A continuación construiremos la tabla de frecuencias para la variable tipo de
televisor (TIPO). Primero se introducen las categorías, es decir las diferentes
respuestas para esta variable (ninguno, blanco y negro, color, ambos), y después
contamos cuantos hogares de la tabla 1.6 reportaron tener ningún televisor,
únicamente televisores blanco y negro, sólo televisores a color, o en su caso contaban
con ambos tipos de televisor. Este conteo es el que nos produce la columna
correspondiente a la frecuencia absoluta ( f i ) en la tabla 1.7. Si esta columna la
ANALISIS EXPLORATORIO DE DATOS 1-9

Tabla 1.6 Datos de la encuesta de televisión por cable.


COLONIA MANZANA ADULTOS NIÑOS TELES RENTA TVTOT TIPO VALOR
2 20 3 2 2 50 68 B 79928
2 25 3 3 1 65 82 B 94415
2 20 1 2 1 45 40 A 120896
2 8 2 2 2 35 56 A 132867
2 25 1 2 0 0 0 N 141901
2 14 1 2 0 0 0 N 147997
2 22 2 1 1 65 30 A 156410
2 20 3 1 3 45 62 C 156841
2 25 3 3 2 70 82 A 157041
2 20 2 2 3 45 60 C 161222
2 8 3 2 1 70 84 A 162509
2 8 2 1 3 45 34 A 180124
2 14 2 1 1 55 38 C 180437
2 8 2 1 2 45 42 A 190314
2 14 2 3 1 55 86 A 192265
2 25 1 2 3 70 40 B 192816
2 14 4 2 4 75 84 C 193279
2 20 4 3 3 55 14 C 205656
1 2 3 1 3 50 31 C 216190
2 22 1 1 3 65 42 C 216321
2 22 4 2 2 75 76 C 216465
2 22 2 3 2 40 74 C 225694
1 4 3 1 3 60 35 C 237752
2 25 1 1 1 55 22 C 241531
2 8 1 3 2 75 54 C 249098
1 9 2 1 3 65 27 C 252221
1 9 3 1 4 65 35 C 261763
2 14 2 2 1 65 52 C 269898
2 22 2 3 4 60 70 C 271556
1 2 3 3 3 65 69 C 279163
1 4 3 2 3 60 54 C 299558
1 9 4 0 4 70 32 B 311195
1 4 2 0 4 75 16 C 318551
1 2 3 0 4 70 24 A 322652
1 4 2 0 2 60 20 C 329198
1 2 2 0 2 60 20 A 332699
1 2 3 0 3 70 28 C 336290
1 9 3 0 5 85 28 C 355641
1 9 2 0 3 70 20 C 357972
1 4 3 0 4 80 28 C 370325
1 - 10 CAPITULO 1

dividimos entre el número de hogares encuestados (n = 40) obtenemos la columna de


frecuencia relativa ( pi ) que también puede expresarse en términos porcentuales al
multiplicarla por cien.
Obsérvese que la suma de frecuencias absolutas en todas las categorías de la
variable TIPO es igual al tamaño de la muestra (n = 40), y la suma de frecuencias
relativas nos da como resultado uno. La tabla anterior nos indica que el 60% de los
hogares muestreados poseen TV a color, mientras que el 5% de éstos no poseen TV
Un 25% de ellos tiene ambos tipos de televisor, y únicamente el 10% posee televisor
blanco y negro.

Tabla 1.7 Tabla de frecuencias para la variable tipo de televisor. Encuesta de


televisión por cable.
CATEGORÍA CONTEO fi pi
Ningún II 2 0.05
Blanco y negro IIII 4 0.10
Color IIIII IIIII IIIII 24 0.60
IIII
Ambos IIIII IIIII 10 0.25
TOTAL 40 1

Métodos Gráficos. Los métodos gráficos nos permiten describir y descubrir


características presentes en un conjunto de datos. Estos métodos son una herramienta
de diagnóstico muy poderosa ya que nos ayudan a confirmar supuestos y en
ocasiones sugieren acciones correctivas. Para representar gráficamente los datos de
variables cualitativas podemos emplear dos tipos de diagramas: circulares y de barras.

Diagrama circular. Los diagramas circulares (o de pastel) se emplean para comparar


las partes que componen una entidad con la entidad completa, expresando esta
comparación en términos de porcentaje. Estos diagramas se construyen calculando el
ángulo al que corresponde proporcionalmente la frecuencia relativa de esa categoría a
los 360 grados del círculo, es decir, ángulo de la porción del círculo es igual a 360
grados por pi .
La tabla 1.8 muestra las distribuciones de frecuencias de la variable TIPO para
cada una de las dos colonias de la zona residencial:
A partir de los diagramas circulares de la figura 1.1, observamos que en la
colonia 1 el 80% de los hogares poseen televisor a color mientras que en la colonia 2
este porcentaje es de tan solo el 48%. Asimismo en la colonia 1 todos los hogares de
la muestra poseen televisor mientras que en la colonia 2 el 8% de los hogares no
poseen televisor.
ANALISIS EXPLORATORIO DE DATOS 1 - 11

Diagrama de barras. La gráfica de barras es un despliegue gráfico de las frecuencias


relativas. Consta de dos ejes, uno vertical que denota las frecuencias relativas, y otro
horizontal que contiene las categorías de la variable. Encima de cada categoría se alza
una barra cuya altura es igual a la frecuencia relativa observada en dicha categoría. El
ancho de cada barra debe ser el mismo. La suma total de las alturas de las barras debe
ser igual a uno. La figura 1.2 muestra la gráfica de barras para la variable TIPO,
empleando la información contenida en la tabla 1.7.

Tabla 1.8 Distribución de frecuencias relativas para tipo de televisor por colonia.
Encuesta de TV por cable.
CATEGORÍA COLONIA 1 COLONIA 2
pi (%) pi (%)
Ninguno 0.00 8.00
Blanco y negro 6.66 12.00
Color 80.00 48.00
Ambos 13.33 32.00
TOTAL 100.00 100.00

COLONIA 1 COLONIA 2
NINGUNO
0%
AMBOS BYN
13% 7%
NINGUNO
8% BYN
AMBOS
12%
32%

COLOR COLOR
80% 48%

Figura 1.1 Diagrama circular para tipo de televisor para cada colonia. Encuesta de TV
por cable.

1.3.2 Variables Cuantitativas

Ya habíamos mencionado que los valores de una variable cuantitativa se obtenían


mediante un proceso de conteo (datos discretos) o de medición (datos continuos). La
manera en que estos valores se reparten o distribuyen en la población es un aspecto
de mucho interés, ya que buscamos caracterizar la variabilidad presente en la
población estadística a través de su distribución de frecuencias. A continuación se
dan varios métodos gráficos para variables cuantitativas.
1 - 12 CAPITULO 1

Diagramas de punto. Estos diagramas sirven para exhibir gráficamente un conjunto


de datos cuantitativos. En él se puede apreciar el número de veces en que se presenta
cada medición en el conjunto de datos. La construcción de los diagramas de puntos se
lleva a cabo colocando en el eje horizontal las diferentes observaciones de la variable
y sobre cada valor se anotan tantos puntos como veces se repiten estos valores.
Mediante este diagrama ciertas características presentes en el conjunto de datos se
vuelven aparentes, tales como:

• Observaciones atípicas: son valores observados substancialmente grandes o


pequeños con respecto a los valores del resto del conjunto.
• “Huecos”: espacios grandes entre conjuntos de puntos.
• Perfil de la distribución: valores que son mas frecuentes.

60%
FRECUENCIA RELATIVA

50%

40%

30%

20%

10%

0%
O N
UN Y S
NG B BO R
NI AM LO
CO

TIPO DE TELEVISOR
Figura 1.2. Diagrama de barras para tipo de televisor. Encuesta de TV por cable

En la figura 1.3 se muestra el diagrama de puntos para la variable RENTA del


ejemplo 1.3.1. En este diagrama podemos observar un conglomerado cuyos valores
fluctúan entre 35 y 85 pesos mensuales. Así mismo podemos observar dos
observaciones atípicas que corresponden a los hogares que no están dispuestos a
pagar una renta mensual por este servicio, pues de hecho corresponden a aquellos
hogares que no poseen TV.
Los diagramas de punto son muy fáciles de construir e interpretar si el número
de observaciones es menor a 25 y no se tienen demasiados valores repetidos o muy
juntos, pues de lo contrario se perdería claridad.
ANALISIS EXPLORATORIO DE DATOS 1 - 13

0 50 100

Figura 1.3 Diagrama de puntos. Variable RENTA. Encuesta de televisión por cable.

Diagrama de tallo y hojas. Con este diagrama se pueden obtener dos productos: un
gráfico que nos da una idea de la distribución de frecuencia y la de ordenación de los
datos.
Además el diagrama de tallo y hojas nos permite determinar:

• Que tan alejados se encuentran los datos entre sí.


• Alrededor de que valor se concentran las observaciones.
• Si existen muchos datos cuyos valores se alejan mucho del resto del conjunto.
• Si existe simetría en cuanto a la manera en que se distribuyen los valores
observados.
• Si existen grupos aislados de observaciones.

Pasos a seguir en la construcción del diagrama de tallo y hojas:

1) Determinar el valor máximo y mínimo en el conjunto de datos.


2) Determinar una regla para dividir los dígitos de cada observación en dos partes:
tallo y hoja, la cual se aplicará por igual a todas las observaciones.
3) Presentar los tallos de menor a mayor en forma vertical.
4) Por cada dato ingresar una hoja en el tallo que le corresponda. No es necesario
que se ingresen en orden.
5) Una vez que se han ingresado todos los datos, se construye un nuevo tallo y se
procede a anotar las hojas dentro de cada valor del tallo de manera ordenada. De
esta forma se obtendrán todos los datos ordenados.

Ilustraremos lo anterior construyendo el tallo y hoja para la variable TVTOT


del ejemplo 1.3.1, para lo cual el primer dígito formará el tallo y el segundo las hojas
del diagrama: por ejemplo el valor 0 se dividirá en 0 | 0, 16 en 1 | 6, y así
sucesivamente. Una vez que se ha repetido este procedimiento para todos los datos,
se procede a ordenar de menor a mayor las hojas de este diagrama, tal como se
muestra en la propia figura 1.4 extremo derecho. Ahí ya se tienen ordenados los
datos.
1 - 14 CAPITULO 1

tallo tallo hojas tallo hojas

0 0 00 0 00
1 1 64 1 4 6
2 2 804080782 2 000247888
3 3 1552480 3 012455
4 4 2020 4 0022
5 5 4642 5 2446
6 6 9820 6 0289
7 7 406 7 046
8 8 46422 8 2246

ORDENADO

Figura 1.4. Tallo y diagramas de tallo y hojas variable TVTOT. Encuesta de TV por
cable

En ocasiones ocurre que el diagrama presenta muchos datos en cada tallo,


para tener una descripción más detallada de la variable se podría abrir el tallo del
diagrama, subdividiendo cada tallo en dos casos, en uno cuando el primer dígito de la
hoja es 0,1,2,3,4, y otro cuando es 5,6,7,8,9. Este procedimiento, con fines didácticos,
se ilustra en la figura 1.5 para la variable TVTOT.

0 00

1 4
6
2 0 0 0 24
7 8 8 8
3 0 1 2 4
5 5 8
4 0 0 2 2

5 2 44
6
6 0 2
8 9
7 0 4
6
8 2 244
6

Figura 1.5. Diagrama ordenado de tallo y hojas variable TVTOT. Expansión del tallo.
Encuesta de TV por cable

Distribución de Frecuencias de Variables Discretas. La construcción de la


distribución de frecuencias de una variable discreta resulta muy semejante a la que se
vio para variables cualitativas.
ANALISIS EXPLORATORIO DE DATOS 1 - 15

Las categorías resultan ser los valores discretos que toma la variable.
Nuevamente se aplica un proceso de conteo para determinar las frecuencias
(absolutas y relativas) correspondientes a cada valor.
En la tabla 1.9 se muestran las distribuciones de frecuencias de las variables
ADULTOS Y NIÑOS para el ejemplo 1.3.1 y en la figura 1.6 sus respectivas
representaciones gráficas:

Tabla 1.9. Distribución de frecuencias relativas para las variables ADULTOS y


NIÑOS. Encuesta de televisión por cable.
ADULTOS NIÑOS
VALORES fi pi fi pi
0 0 0 9 0.23
1 7 0.18 11 0.28
2 15 0.38 12 0.30
3 14 0.35 8 0.20
4 4 0.10 0 0
TOTAL 40 1.00 40 1.00

Distribución de Frecuencias de Variables Continuas. En este caso, se tiene


que utilizar un procedimiento distinto al caso discreto, ya que para una variable
continua puede suceder que ningún valor se repita. La idea entonces es emplear
intervalos para clasificar a las observaciones. Primero se determina el intervalo en el
cual se encuentran los valores observados, después éste se subdivide en intervalos de
igual longitud, llamados intervalos de clase, y se cuenta el número de observaciones
que caen en cada intervalo. El siguiente procedimiento formaliza la idea anterior y se
ilustra con los datos de la variable VALOR del ejemplo 1.3.1.

Procedimiento:
1. Identificar el valor máximo y el mínimo observado en el conjunto de datos para
obtener el intervalo en el que se encuentran los valores observados, así como su la
amplitud.

Amplitud = máximo - mínimo =370,325 - 79,928= 290,397

2. Decidir cuantos intervalos de clase establecer (k) así como el ancho de cada uno
de ellos (c). Es recomendable emplear entre 5 y 20 clases (esta elección es
totalmente arbitraria), todas ellas del mismo ancho. Este ancho se puede
determinar de tal manera que el producto del número de intervalos de clase por el
ancho (k*c) sea un poco mayor que la amplitud. Para la variable VALOR
establezcamos 6 clases, con lo cual el ancho deberá ser un número mayor a
48,399.5 (k*c > amplitud). Por facilidad tomemos 50,000.
1 - 16 CAPITULO 1

40%

FRECUENCIA RELATIVA
35%
30%
25%
20%
15%
10%
5%
0% NIÑOS

0
1 ADULTOS
2
3
NUMERO 4

Figura 1.6 Gráficas de barras para las variables ADULTO y NIÑOS. Encuesta de TV
por cable.

3. Elegir el valor inicial que limitará al primer intervalo de clase y a partir del cual
se obtendrán todos los puntos que limitarán a cada uno de los siguientes
intervalos (estos puntos reciben el nombre de límites de clase). El primer límite
inferior deberá ser un número un poco menor que el valor mínimo observado en
el conjunto de datos. Para nuestro ejemplo, el valor más chico resultó ser 79,928,
por facilidad tomamos 75,000 como valor inicial. El siguiente límite inferior se
obtiene de sumarle al límite inferior anterior el ancho del intervalo:
75,000+50,000, y así sucesivamente. El resultado de este proceso se muestra en la
tabla 1.10.

Tabla 1.10 Límites inferiores de clase para la distribución de frecuencias de la


variable VALOR.
CLASE LIMITES INFERIORES
1 75,000
2 125,000
3 175,000
4 225,000
5 275,000
6 325,000

4. Una vez elegido el límite inferior, los intervalos de clase quedan como se muestra
en la tabla 1.11.
5. A continuación se efectúa un conteo del número de observaciones cuyos valores
pertenecen a cada intervalo de clase, es decir se calculan las frecuencias
absolutas, y a partir de éstas se pueden obtener las frecuencias relativas. Para el
ANALISIS EXPLORATORIO DE DATOS 1 - 17

ejemplo 1.3.1 la distribución de frecuencias para la variable VALOR esta dada en


la tabla 1.12.

Tabla 1.11 Intervalos de clase para la distribución de frecuencias de la variable


VALOR.
CLASE INTERVALOS DE CLASE
1 (75,000 , 125,000]
2 (125,000 , 175,000]
3 (175,000 , 225,000]
4 (225,000 , 275,000]
5 (275,000 , 325,000]
6 (325,000 , 375,000]

De la tabla 1.12 observamos que el 8% de los hogares de la muestra poseen un


valor catastral que oscila entre 75,000 y 125,000 pesos, 20% poseen valores
catastrales entre 125,000 y 175,000, un 25% se encuentran entre 175,000 y 225,000,
etc.

Tabla 1.12. Distribución de frecuencias de la variable VALOR. Encuesta de TV por


cable.
INTERVALOS DE FRECUENCIAS FRECUENCIAS
CLASE ABSOLUTAS, f i RELATIVAS, pi
(75,000 , 125,000] 3 0.08
(125,000 , 175,000] 8 0.20
(175,000 , 225,000] 10 0.25
(225,000 , 275,000] 8 0.20
(275,000 , 325,000] 5 0.13
(325,000 , 375,000] 6 0.15
TOTAL 40 1

Sin embargo al quedar todas las observaciones agrupadas en intervalos de clase


se pierde el valor o magnitud que tenían todas ellas antes de dicha agrupación. Por
tanto resulta conveniente elegir al punto central del intervalo de clase como el valor
que represente la magnitud de todas las observaciones que quedaron clasificadas en
dicho intervalo. A este valor central se le denomina marca de clase ( mi ) y para la
tabla 1.12 se calculan como sigue:

m1 =(75,000 + 125,000) / 2 = 100,000,


m2 =(125,000 + 175,000) / 2 = 150,000, . . .
1 - 18 CAPITULO 1

La distribución de frecuencias también puede incluir a la frecuencia absoluta


acumulada ( Fi ) que indica cuantos datos hay cuyo valor numérico es menor o igual al
de la frontera superior de cada intervalo de clase. Esta frecuencia absoluta acumulada
para un intervalo dado se calcula sumando todas las frecuencias absolutas de
intervalos anteriores a él más la frecuencia absoluta que le corresponde. Esta misma
frecuencia se puede presentar en forma de proporción simplemente dividiéndola entre
n, en cuyo caso se le designará frecuencia relativa acumulada ( Pi ). El resultado de
esto para nuestro ejemplo se muestra en la tabla 1.13.

Tabla 1.13 Distribución de frecuencias acumuladas, seis intervalos de clase, la


variable VALOR. Encuesta de TV por cable.
MARCAS DE FRECUENCIAS FRECUENCIAS FRECUENCIAS FRECUENCIAS
CLASE ABSOLUTAS RELATIVAS ABSOLUTAS RELATIVAS
ACUMULADAS ACUMULADAS
mi fi pi Fi Pi
100,000 3 0.08 3 0.08
150,000 8 0.20 11 0.28
200,000 10 0.25 21 0.53
250,000 8 0.20 29 0.73
300,000 5 0.13 34 0.85
350,000 6 0.15 40 1.00
TOTAL 40 1

Sobre la base de esta información podemos ver que el 8% de los hogares


muestreados poseen valores catastrales menores o iguales a $125,000, el 28% de los
valores catastrales son inferiores a $175,000, el 53% de las mediciones para esta
variable son menores a $225,000, etc.
Cabe mencionar que si cambiamos el ancho de las clases, entonces la
distribución de frecuencias también cambia. Sin embargo la interpretación es similar;
por ejemplo, si en lugar de seis intervalos de clase, tomamos ahora doce y el ancho de
clase lo reducimos a la mitad, obtenemos la distribución de frecuencias que se
encuentra en la tabla 1.14.
La interpretación vuelve a ser similar, pero ahora se tiene más detallada la
información: el 5% de las observaciones tienen un valor menor a $100,000, el 8% de
los valores catastrales se encuentran por debajo de los $125,000, etc.

Histogramas. La representación gráfica de la distribución de frecuencias de datos


continuos se realiza mediante histogramas. Un histograma es una forma especial de
una gráfica de barras en la cual los intervalos de clase están representados por el
ancho de las barras y las frecuencias de las mediciones son proporcionales a las áreas
de los rectángulos. La altura de las barras puede ser la frecuencia absoluta o la
relativa, el perfil del histograma será el mismo, sin embargo es más informativo con
ANALISIS EXPLORATORIO DE DATOS 1 - 19

frecuencias relativas puesto que así tenemos una idea del porcentaje de observaciones
que ocurrieron por intervalo.

Tabla 1.14 Distribución de frecuencias acumuladas, doce intervalos de clase, variable


VALOR. Encuesta de TV por cable.
MARCAS DE CLASE fi pi Fi Pi
87,500 2 0.05 2 0.05
112,500 1 0.03 3 0.08
137,500 3 0.08 6 0.15
162,500 5 0.13 11 0.28
187,500 6 0.15 17 0.43
212,500 4 0.10 21 0.53
237,500 4 0.10 25 0.63
262,500 4 0.10 29 0.73
287,500 2 0.05 31 0.78
312,500 2 0.05 33 0.83
337,500 4 0.10 37 0.93
362,500 3 0.08 40 1.00

La figura 1.7 muestra el histograma de la tabla 1.13.

25%
FRECUENCIA RELATIVA

20%

15%

10%

5%

0%
0

0
00

0
00

0
00
0,

0
00
0,
10

00

0
0,
15

00
0,
20

0,
25

0,
30

35

MARCAS DE CLASE
Figura 1.7 Histograma Variable VALOR, seis intervalos de clase.

De la figura 1.7 podemos observar que los valores catastrales observados con
mayor frecuencia se encuentran entre los $175,000 y $225,000; y los valores
catastrales fuera de este intervalo ocurren cada vez con menor frecuencia. Sin
embargo notamos que al llegar al intervalo (325,000 , 375,000] la frecuencia con que
se observan estos valores vuelve a aumentar ligeramente.
Para observar con un poco de mas detalle la distribución de la variable valor,
realizamos el histograma con doce intervalos de clase, el resultado se muestra en la
1 - 20 CAPITULO 1

figura 1.8. De ahí se ve que efectivamente la frecuencia relativa aumenta alrededor de


337,500.

16%

14%

FRECUENCIA RELATIVA
12%

10%

8%

6%

4%

2%

0%
00 0 0
,5 50 50 0
87 2, 7, 50 0
11 2, 50 50
0 0
13 16 7, 2, 50 0
18 7, 50 50
0 0
21 23 2, 7, 50 0
26 2, 50 50
0
28 31 7, 2,
33 36
MARCAS DE CLASE
Figura 1.8 Histograma variable VALOR, doce intervalos de clase

Relación entre histogramas y curvas poblacionales. En general, esperaríamos que


la distribución de frecuencias de una muestra nos sugiera un perfil similar al de la
población de la cual se tomó; el observar el perfil del histograma nos provee de una
caracterización de la variabilidad y distribución de los valores de la población
estadística.

El modelo matemático de la distribución de frecuencias poblacional de una


variable continua se puede visualizar como una versión suavizada de un histograma
pero considerando a toda la población, y en la cual las frecuencias quedan
representadas por áreas bajo esta curva. A la representación gráfica de las frecuencias
poblacionales se le denomina curva de la distribución de frecuencia poblacional y
puede adquirir comúnmente las siguientes formas:

Distribución Simétrica: Esta curva poblacional se caracteriza por la existencia de un


valor central alrededor del cual son igualmente probables valores superiores o
inferiores, ver figura 1.9.a).

Distribución Sesgada (asimétrica): Esta curva posee la característica de que una


extremidad o cola está más extendida que la otra. La dirección del sesgo corresponde
a la extremidad de mayor extensión, ver figuras 1.9 b) y c). Un ejemplo de una
distribución sesgada a la derecha sería la distribución del ingreso en la población, ya
que la mayoría de las personas percibe un ingreso pequeño, mientras que una
proporción mínima percibe ingresos altos.
ANALISIS EXPLORATORIO DE DATOS 1 - 21

Distribución Bimodal: Esta curva poblacional se caracteriza por tener dos cimas o
jorobas separadas que indican la presencia de dos grupos con diferentes distribuciones
en la población. El valor numérico que esta por debajo del punto máximo de la cima
se le llama moda, por lo que una distribución con dos jorobas tendría dos modas y
sería por lo tanto bimodal. Esta situación se podría dar por ejemplo en el caso de que
consideremos la población de pesos o estaturas cuando no se tienen separadas las
mediciones de hombres de las de las mujeres, figura 1.9.d).
Por ejemplo, el histograma de la figura 1.8 sugiere una distribución que es
bimodal y sesgada a la derecha.

C1 C1

a) Simétrica b) Sesgo a la derecha

C1

c) Sesgo a la izquierda d) Bimodal


f3

Figura 1.9. Distintos tipos de distribuciones de frecuencia.

Polígono de frecuencias. La construcción del polígono de frecuencias es muy fácil,


simplemente se unen los puntos medios de la parte superior de las barras del
histograma y se cierran los extremos con el eje horizontal. Esto puede ser útil para
visualizar el perfil de la distribución de frecuencias. En la figura 1.10 se encuentra el
polígono de frecuencias para el histograma de la figura 1.8, como se ve de esta figura
se refuerza la apreciación de bimodalidad.

Ojiva. La ojiva es la curva que resulta de graficar las frecuencias relativas


acumuladas contra las fronteras superiores de cada intervalo de clase. En la figura
1.11 se muestra la ojiva para la distribución de frecuencias acumuladas del valor
catastral empleando doce intervalos de clase.
1 - 22 CAPITULO 1

16%
14%
12%
FRECUENCIA
RELATIVA
10%
8%
6%
4%
2%
0%
87 00
11 500
13 500
16 500
,5

18 00
C1

21 00
23 00
62

26 00
2,

28 00
7,

31 00
2,

33 00
7,

36 00
2,

5
7,

38 00
5
2,

0
5
7,

50
2,

5
7,

2,

7,
VALOR

Figura 1.10 Polígono de frecuencias variable VALOR, doce intervalos de clase.

Este gráfico se puede usar de varias formas. Por ejemplo si deseamos tener
una idea del porcentaje de hogares cuyo valor catastral es menor a 250,000, la
respuesta se obtiene localizando primero la abscisa de 250,00 y después viendo en la
ojiva el valor del porcentaje correspondiente, que en este caso es de 63%
aproximadamente.
Otra aplicación sería la siguiente, supóngase que nos interesa estimar el valor
catastral que tiene por debajo al 20% de la población, para esto nos fijamos en el eje
vertical de la ojiva a la altura de 20%, trazamos la línea horizontal y determinamos la
abscisa, en este ejemplo sería de 160,000, es decir el 20% de la población se espera
que tenga un valor catastral a lo más de 160,000. Esta idea se generaliza en el
siguiente párrafo.

100%

80%
FREC RELATIVA
ACUMULADA

60%

40%

20%

0%
10 00
12 00
15 00
17 00
0

C1
20 00
00

22 00
75

50

25 00
00

27 0
50

30 0
00

32 0
50

35 0
00

37 0
50

0
00

00
0
50

00

50

VALOR
Figura 1.11 Ojiva variable VALOR, doce intervalos de clase.
ANALISIS EXPLORATORIO DE DATOS 1 - 23

Porcentiles. Los porcentiles dan información acerca de cómo se distribuyen los


valores de la variable sobre el intervalo. Si p es cualquier porcentaje entre cero y
100%, el p-ésimo porcentil es una abscisa tal que por lo menos p por ciento de los
elementos tienen un valor de la variable debajo de él y un (100-p) por ciento de los
elementos tienen un valor por arriba de él.
Gráficamente es muy fácil visualizar un porcentil usando la ojiva, solo hay
que trazar una línea horizontal a la altura de p% y encontrar donde se corta con la
ojiva, esto se muestra en la figura 1.12 para encontrar el porcentil del 90%, que
resulta ser aproximadamente 345,000. Es decir en este caso 90% de las casas tienen
un valor de hasta 345,000 pesos y sólo el 10% de las casas tienen un valor catastral
por encima de los 345,000 pesos.

100%

80%
FREC RELATIVA
ACUMULADA

60%

40%

20%
porcentil 90% = 345,000
0%
10 00
12 00
15 00
17 00
0

C1
20 00
00

22 00
75

50

25 00
00

27 0
50

30 0
00

32 0
50

35 0
00

37 0
50

0
00

00
0
50

00

50

VALOR
Figura 1.12 Ojiva variable VALOR. Determinación del porcentil del 90%.

En la sección 1.4.2 se dará un procedimiento más sencillo para el cálculo de


los porcentiles usando los datos muestrales sin necesidad de obtener la ojiva. La
importancia de usar la ojiva para definir el porcentil es la de mostrar gráficamente su
concepto.

Agrupación de variables. El proceso de agrupación consiste en formar una variable


cualitativa o categórica combinando los valores de otra variable en una colección de
clases.
Por ejemplo, mediante este proceso de agrupación podríamos convertir una
variable categórica en otra variable también categórica pero con menos clases.
Simplemente con variable TIPO del ejemplo 1.3.1 podríamos formar otra variable
categórica que representara la característica de tener o no televisión con lo cual la
categoría ninguna correspondería a no tener televisión y la agrupación de las
categorías color, blanco y negro, y ambos corresponderían a la categoría tener
1 - 24 CAPITULO 1

televisión. La frecuencia relativa de esta última se obtendría de sumar las frecuencias


relativas de las últimas tres categorías en la tabla 1.8. En éste caso se obtendrían las
frecuencias de la tabla 1.15.

Tabla 1.15. Agrupación de la variable TIPO DE TV.


TIPO pi TELEVISIÓN pi
Ningún .05 sin .05
Blanco y negro .10
Color .60 con .95
Ambos .25

Asimismo este proceso de agrupación puede también permitirnos convertir una


variable cuantitativa en una categórica. Por ejemplo, pensemos en la variable del
valor catastral ( que se está utilizando para dar una idea aproximada del ingreso del
hogar en el ejemplo1.3.1); esta variable es cuantitativa continua, y mediante un
proceso de agrupación es posible convertirla en una variable cualitativa. La variable
agrupada tendrá el valor de B (bajo) si el valor catastral es menor a 200,000; M
(medio) si el valor catastral se encuentra entre 200,000 y 300,000; y A (alto) si el
valor catastral es mayor a 300,000.

1.4 Medidas Descriptivas

Hasta ahora hemos visto como las distribuciones de frecuencias nos dan una idea de
la manera en que se encuentran distribuidos los valores de la característica de interés
en la población. Asimismo se dieron a conocer las representaciones gráficas de dicha
distribución con el objeto de visualizar tanto los valores que aparecían con mayor o
menor frecuencia, como también las distintas formas o perfiles que éstas podían
presentar.
Aunque esta descripción es bastante útil, existen otro tipo de descripciones
basadas en unos cuantos números que tratan de mostrar aspectos relevantes de la
distribución de frecuencia. Particularmente nos interesa describir la parte central de
la distribución de frecuencias así como conocer que tanto están variando los datos
observados con respecto a algún valor central de la distribución. A las primeras se les
conoce como medidas de tendencia central y a las últimas medidas de variabilidad,
que en conjunto se les denomina medidas descriptivas.

1.4.1 Tendencia Central


ANALISIS EXPLORATORIO DE DATOS 1 - 25

Las medidas de tendencia central son valores numéricos que tienden a localizar, en
cierto sentido, la parte central de la distribución de frecuencias. Se estudiarán
únicamente tres de ellas: la mediana, la media y la moda.

Mediana. Es el porcentil del 50%, por lo tanto es el valor que ocupa la posición
central del conjunto de datos una vez que estos han sido ordenados de acuerdo a su
magnitud en forma ascendente; es decir, el 50% de las observaciones tiene valores
menores o iguales que el de la mediana y el restante 50% tiene valores mayores o
iguales al de la mediana. Emplearemos M para denotar a la mediana de una
distribución de valores poblacionales, y m para cuando se trate de una distribución
de valores muestrales. La mediana es una medida de tendencia central útil cuando se
tienen distribuciones sesgadas.
Ya vimos en la sección pasada el cálculo de cualquier porcentil usando la
ojiva, a continuación veremos un método para calcular la mediana sin necesidad de
obtener la ojiva. Se siguen los siguientes pasos:

1. Realizar el diagrama de tallo y hojas ordenado.

2. Calcular la localización de la mediana en la serie ordenada de datos de la


siguiente manera:
n+1
l( m ) =
2

3. Si esta posición l( m ) es un número entero, entonces la mediana es precisamente


aquella observación que se encuentra en el lugar l( m ) , si l( m ) no es entero,
entonces la mediana será el resultado de promediar aritméticamente los dos
valores centrales.

Ejemplo 1.4.1
Una empresa fabricante de productos cosméticos y de limpieza maneja ventas de
alrededor de cuatrocientos productos distintos a través de once centros de acopio en
toda la República. Dado el gran volumen de producto que se maneja es muy
importante que haya un buen control de inventarios, ya que si se tiene mucho
inventario ocioso significa dinero que no se esta empleando en producir, mientras
que un inventario escaso significa tener una demanda no satisfecha.
Esta empresa contrató los servicios de un bufete extranjero y recibió la
siguiente formula para controlar sus inventarios:

nivel de reabastecimiento = días en tránsito* venta máxima*(1.3)

Donde días en tránsito significa el numero de días que tarda en llegar un


pedido al centro de acopio.
1 - 26 CAPITULO 1

Tabla 1.16 Ventas diarias suavizante para ropa. Número de cajas vendidas. Centro de
acopio Guadalajara.
Semana 1 Semana 2 Semana 3 Semana 4 Semana 5 Semana 6 Semana 7
0 2838 413 5592 0 465 2119
515 590 47 673 80 703
746 331 340 561 159 462
1237 450 265 548 183 175
879 570 1083 216 113 422

El factor 1.3 lo denominó el bufete textualmente "paranoia". La tabla 1.16


presenta los datos de ventas en cajas de un suavizante para ropa en el centro de
acopio de Guadalajara. La planta manufacturera está en México, por lo que los días
en tránsito son 3. Aplicando la formula anterior se obtiene que para Guadalajara el
nivel de reabastecimiento es de 21,808. Obviamente esta es una recomendación
exagerada de inventario, por lo que entonces la empresa recurrió a alguien que
supiera Estadística. Para comenzar a conocer la situación se analizaron los pedidos
diarios de los últimos meses, aquí solo presentaremos los datos del último mes y
medio ya que las conclusiones son similares.
Con estos datos ilustramos el cálculo de la mediana. La figura 1.13 muestra
los diagramas de tallo y hojas, primero el desordenado y después el ordenado.
Claramente se puede ver que la distribución de las ventas es sesgada a la derecha con
observaciones muy lejanas del grupo principal. En este caso el tamaño de muestra es
31 por lo que

l( m ) = (31+1)/2 = 16 y m = 462

Claro que resulta muy cuestionable tener un inventario de alrededor de veinte


mil cajas de un producto en el cual el 50% de las ventas es menor que 462 cajas.
Media. De las medidas de tendencia central, la media es la más común y con la que
más familiarizados nos encontramos. Esta medida es el promedio aritmético de un
conjunto de mediciones. Conceptualmente el promedio de todas las mediciones de la
población estadística es la media poblacional, lo denotaremos con la letra griega µ.
ANALISIS EXPLORATORIO DE DATOS 1 - 27
0 00, 47, 00, 80 0 00, 00, 47, 80
1 59, 83, 13, 75 1 13, 59, 75, 83
2 65, 16 2 16, 65
3 31,40 3 31, 40
4 50, 13, 65, 62, 22 4 13, 22, 50, 62, 65
5 15, 90, 70, 61, 48 5 15, 48, 61, 70, 90
6 73 6 73
7 46, 03 7 03, 46
8 79 8 79
9 9
10 83 10 83
11 11
12 37 12 37

21 19 21 19
28 38 28 38
55 92 55 92

Desordenado Ordenado

Figura 1.13 Diagramas de tallo y hojas, ventas diarias de suavizante, Guadalajara.

µ=
åX i

El promedio muestral se denotará por x . Entonces

x=
åx i

Retomando el ejemplo 1.4.1, su media es 734.68, compárese con la mediana


que fue de 462 hay una diferencia muy apreciable. En este caso en particular, la
media no es un buen indicador de la tendencia central, ya que del diagrama de tallo y
hojas podemos ver que alrededor del 77% (24/31) de las ventas tuvieron un valor
inferior a la media. El valor de la media resultó así porque la distribución es sesgada a
la derecha y hay observaciones atípicas muy grandes, de no ser así tanto la media
como la mediana arrojaran valores similares. La media es un buen indicador de la
tendencia central en el caso de una distribución no muy sesgada y sin observaciones
atípicas.
Para evitar problemas lo mejor es hacer un diagrama de puntos, o de tallo y
hojas, o incluso el diagrama de caja que se verá mas adelante, para darse cuenta de la
situación.
Cálculo de la media usando la distribución de frecuencia. Hay ocasiones
en que al consultar un reporte estadístico se cuenta únicamente con la distribución de
frecuencias, y por tanto la suma exacta de todas las observaciones ya no se puede
obtener. En ese caso podemos aproximar el valor de la media de la siguiente manera:
1 - 28 CAPITULO 1

de cada intervalo de clase tomamos la marca de clase y le asignamos ese valor a cada
una de las f i observaciones del intervalo. Para deducir el cálculo considérese el
siguiente desarrollo, sabemos que

x=
å fm i i

Si la expresión anterior la rescribimos, empleando las propiedades de la


notación suma, obtenemos el siguiente resultado:

x=
åfm i i
Þ x=å
f i mi
Þ x=å
fi
mi
n n n

por lo tanto

x = å p i mi

Como ilustración empleamos esta última expresión para la media muestral de


la variable VALOR del ejemplo 1.3.1, considerando seis intervalos de clase, se tiene
que:

x = 0.075( 100 ,000 ) + 0.2( 150 ,000 ) + ... + 0.125( 300 ,000 ) + 0.15( 350 ,000 )
x = 227 ,500

Compárese con el promedio aritmético de las observaciones que es 227,966.


Para este ejemplo la mediana es 216,393, un valor que ya no es tan discrepante con la
media, debido a que para esta variable la distribución no es tan sesgada.
De manera gráfica podemos identificar a la media como aquel punto sobre el
eje de las abscisas tal que el histograma quedaría totalmente balanceado (figura 1.14).
De hecho el lector fácilmente puede comprobar que la suma de las desviaciones de
cada observación a la media es igual a cero: å ( xi - x ) = 0
ANALISIS EXPLORATORIO DE DATOS 1 - 29

25%

FRECUENCIA RELATIVA
20%

15%

10%

Media=227,500
5%

0%

0
00

0
00

0
00
0,

0
00
0,
10

00

0
0,
15

00
0,
20

0,
25

0,
30

35
MARCAS DE CLASE
Figura 1.14 Histograma valor catastral. Encuesta TV por cable. Posición de la media
muestral.

Moda. Para un conjunto de datos discretos se define como aquel valor que ocurre con
mayor frecuencia. Si este valor es único, entonces decimos que la distribución de
frecuencias es unimodal. Para ver si hay mas de una moda, lo más conveniente es
observar la gráfica de barras de la distribución de frecuencias y buscar cimas. Los
valores debajo de las cimas serán los candidatos a modas.
En el caso de datos continuos, a partir del polígono de frecuencias las posibles
modas serían aquellos valores de la abscisa por debajo de las cimas o picos aparentes.
Consideremos la figura 1.10, las posibles modas serían en orden de importancia:
187,500; 337,500; y 87,500.

1.4.2 Porcentiles o Medidas de Posición

Un conjunto de medidas descriptivas muy útiles son los porcentiles o también


llamados medidas de posición. Ya vimos que un porcentil muy usado es la mediana,
por dividir la distribución de frecuencias por la mitad. En esta sección mencionamos
primeramente los cuartiles que dividen la distribución de frecuencias en cuatro partes
iguales, posteriormente daremos un método de cálculo general para cualquier
porcentil y veremos su aplicación al problema de posicionar una valor específico de
una variable dentro de una distribución de frecuencias.

Cuartiles. Los cuartiles son valores que dividen al conjunto de observaciones


ordenadas en cuatro partes. Es decir son abscisas que tienen por debajo al 25%, 50%
(que es la mediana), y 75% de los valores de la distribución de frecuencias. La
mediana ya se mencionó, por lo que trataremos el caso de los dos cuartiles extremos
únicamente.
1 - 30 CAPITULO 1

Cuartil inferior. El cuartil inferior o primer cuartil tiene por debajo al 25% de los
valores de la distribución de frecuencias. El cuartil inferior poblacional se denota Q1
mientras que el muestral por q1 . Dada una muestra, una manera fácil de obtener q1
es calculando la llamada localización del cuartil dada por:

l( q ) =
[l( m )] + 1
2

donde: [l( m )] significa la parte entera de la localización de la mediana. El valor de


l( q ) puede ser entero o fraccional. Una vez calculado l(q), q1 se obtiene del
diagrama tallo y hojas ordenado. Si l(q) fue entero, entonces q1 es la observación en
esa posición contando de menor a mayor. Si l(q) fue fraccionario entonces q1 es el
promedio de las observaciones alrededor de l(q). Para el ejemplo 1.4.1 tenemos:

l( q ) = [ 16 + 1 ] / 2 = 8.5

por lo que de la figura 1.13

q1 = (183+216)/2 = 199.5

Cuartil superior. Se le denomina también tercer cuartil y se denota por Q3 al


poblacional, y q3 al muestral. Para obtenerlo se lleva a cabo el mismo procedimiento
que con q3 pero ahora contando de mayor a menor. Para el ejemplo 1.4.1 se tiene de
nuevo que, del diagrama de tallo y hojas de la figura 1.13:

q3 = (673+703) / 2 = 688

Porcentiles. Ya se habían mencionado conceptualmente los porcentiles en general en


la sección 1.3.2, también ya se dio un método de cálculo en el caso en que se tenga la
ojiva. A continuación damos un método de cálculo sin necesidad de tener la ojiva,
pero se necesita el conjunto de datos ordenado.

Cálculo del p-ésimo porcentil: ( 0 < p < 1 )

1. Tener el conjunto de datos ordenado de manera ascendente.


2. Calcular el índice

p
i =( )n
100
ANALISIS EXPLORATORIO DE DATOS 1 - 31

donde p es el porcentil de interés y n es el tamaño de la muestra.


3. (a) Si i no es entero, se redondea. El valor entero inmediato mayor que i indica la
posición del p-ésimo porcentil. (b) Si i es entero, el p-ésimo porcentil es el
promedio de los valores de los datos ubicados en los lugares i e i+1.

La tabla 1.17 muestra el cálculo de los porcentiles aumentando de diez en


diez por ciento, a los cuales se les da el nombre de deciles. Esta tabla es muy usada
para posicionar valores específicos de una variable. Por ejemplo, deseamos saber qué
tan cara es una casa en estas colonias si su valor es de 150,000 pesos. Una respuesta
sería que ese valor está entre el decil 10 y 20 por ciento, o sea un valor relativo no
muy alto. Por otro lado, una casa de 250,000 pesos estaría entre los deciles 60 y 70
por ciento, o sea un valor relativo medio.

Tabla 1.17 Deciles para la variable VALOR. Encuesta de TV por cable.


Porcentaje i Decil
10% 4.0 137,384.0
20% 8.0 156,941.0
30% 12.0 180,280.5
40% 16.0 193,047.5
50% 20.0 216,393.0
60% 24.0 245,314.5
70% 28.0 270,727.0
80% 32.0 314,873.0
90% 36.0 334,494.5

De esta manera, con la tabla 1.17, nos damos una idea de la posición relativa
de un valor específico. Este tipo de escalas se usan mucho para evaluar el puntaje
obtenido en exámenes internacionales como el TOEFL (Test of english as a foreign
language), GRE (Graduate record examination), GREMAT (Graduate record
examination in Mathematics), etc.
Los porcentiles 0.25 y 0.75 dan valores similares a q1 y q3 , por lo que se
usan indistintamente.

1.4.3 Medidas de Dispersión

Resulta claro que las medidas vistas hasta ahora son de gran ayuda para tratar
de darle sentido a un conjunto de números desordenados. Sin embargo no son
suficientes para caracterizarlos por completo pues aún nos faltan algunas medidas
que cuantifiquen la variabilidad o dispersión presente en este conjunto de
observaciones.
1 - 32 CAPITULO 1

Estas medidas de variabilidad serán pequeñas si no existen diferencias muy


grandes entre los valores observados; y resultarán grandes en caso contrario, a
continuación mostramos algunas de las más usuales.

Amplitud (R). Esta es la medida de dispersión más simple de todas, y lo que mide es
la distancia que separa a la observación de mayor valor de la de menor valor en el
conjunto de observaciones:

R = Amplitud = Valor máximo - valor mínimo

La amplitud del conjunto de valores catastrales para la encuesta de TV por


cable es de:

R = 370,325-79,928= 290,397

Para el caso de ventas de suavizante tenemos:

R = 5592 - 0 = 5592

Esta medida de dispersión es muy fácil de calcularse, se usa mucho en el


control estadístico de la calidad.

Amplitud Intercuartílica ( A.I.). La amplitud intercuartílica también se basa en la


distancia entre los cuartiles para medir la variabilidad presente en los datos. Se
calcula tomando la diferencia entre el valor del cuartil superior y el del cuartil
inferior:

A.I. = q3 - q1

La amplitud intercuartílica es una estadística resistente ya que su valor no se


verá afectado en presencia de observaciones atípicas. Esto se ve en caso de las ventas
de suavizante, ya que:

A.I. = 688-199.5 = 488.5

La siguiente medida de dispersión se basa en las desviaciones, ( X i - µ ) , de


cada valor con respecto a la media.

Varianza ( s 2 ) Como anteriormente se mencionó, la suma de las desviaciones de las


observaciones con respecto a la media es cero para cualquier grupo de datos pues las
observaciones cuyos valores son menores al valor de la media tendrán desviaciones
ANALISIS EXPLORATORIO DE DATOS 1 - 33

negativas; mientras que valores mayores al de la media tendrán desviaciones


positivas. No obstante, una manera de eliminar el signo en las desviaciones con
respecto a la media es elevándolas al cuadrado. De esta manera definimos a la
varianza poblacional como el promedio de los cuadrados de las desviaciones de las
observaciones con respecto a su media:

s 2
=
å ( Xi - µ ) 2

Si lo que tenemos es una muestra tomada de una población, entonces se


utilizan estos valores muestrales para inferir sobre los valores poblacionales. La
expresión que se emplea para definir la varianza muestral es la siguiente:

s2 =
å( x - x )
i
2

n -1

Esta varianza muestral s 2 nos sirve para estimar la varianza poblacional s 2


que es desconocida. Es posible demostrar que utilizando en el denominador (n-1) en
lugar de n para el cálculo de la varianza muestral, obtenemos una mejor estimación
de s 2 . Si desarrollamos esta expresión apoyándonos en las propiedades de la
notación suma podemos facilitar el cálculo de la varianza muestral.
n

åx 2
i - nx 2
s2 = i =1

n -1

Obsérvese que las unidades en que se expresa la varianza son el cuadrado de


las unidades originales de medición, por lo que se acostumbra aplicar la raíz
cuadrada a la varianza para así tener una medida de dispersión que tenga las unidades
originales. A esta transformación de la varianza se le conoce como desviación
estándar ( s ) :

s = s2

s = s2
1 - 34 CAPITULO 1

Tanto la varianza como la desviación estándar son estadísticas no resistentes ya


que pueden distorsionarse en presencia de observaciones con valores extremos.

Obtención de la varianza con distribuciones de frecuencias. El procedimiento para


calcular la varianza en una distribución de frecuencias se basa en la misma
consideración que se hizo para el caso del cálculo de la media: el valor de la marca de
clase representa a los valores de todas las observaciones que quedaron clasificadas en
dicho intervalo de clase. De este modo, las desviaciones con respecto a la media para
cualquier intervalo i, es la diferencia entre la marca de clase y la media multiplicada
por la frecuencia absoluta de dicho intervalo, ya que ésta me indica el número de
observaciones que quedaron clasificadas en él, es decir ( mi - x ) f i .
Con el fin de neutralizar el efecto del signo en las desviaciones, las elevamos
al cuadrado y promediamos para entonces obtener el valor de la varianza muestral:

s 2
=
å f (m
i i - x )2
n -1

Si desarrollamos esta ecuación podemos simplificar el cálculo de la varianza


para datos agrupados:

s2 =
åfm i
2
i - nx 2
n -1

Apliquemos esta última expresión para calcular la varianza de la distribución


de frecuencias del valor catastral con seis intervalos de clase (tabla 1.13)

s2 =
[( 3 )( 100 ,000 ) 2
]
+ ( 8 )( 150 ,000 )2 + ... + ( 6 )( 350 ,000 )2 - ( 40 )( 227 ,500 )2
40 - 1
s 2 = 5 ,762' 820 ,513

s = s 2 = 75 ,913
ANALISIS EXPLORATORIO DE DATOS 1 - 35

La variación en los valores catastrales observados es en promedio de 75,913


nuevos pesos. Todas estas medidas de dispersión han sido absolutas y no han tomado
en cuenta la magnitud de los datos observados. Por lo que a continuación se presenta
una medida de dispersión relativa que permite comparar la variabilidad relativa de
dos conjuntos de datos.

Coeficiente de variación (C.V.). El coeficiente de variación mide la dispersión


relativa de un conjunto de valores al dividir la desviación estándar entre la media:

s
C.V .=
µ

De esta manera podemos expresar a la desviación estándar como proporción de


la media, con la gran ventaja de que este coeficiente es independiente de las unidades
de medición, debido a que tanto media como desviación estándar se miden en las
unidades originales. Por esta razón, resulta sumamente útil para comparar la
variabilidad de dos o más conjuntos de datos.

1.4.4 Diagrama de Caja y Brazos

Los diagramas de caja y brazos se emplean para analizar y presentar las


características más importantes de un conjunto de observaciones, como son
localización, dispersión, simetría, y observaciones atípicas. Además resultan ser
sumamente útiles cuando queremos comparar dos o más conjuntos de datos. La figura
1.15 muestra los elementos de un diagrama de caja, los extremos de la caja están
sobre los cuartiles, la línea interna corresponde al valor de la mediana, los brazos se
extienden hasta lo que se considera la amplitud de variación típica, y los círculos
corresponde a observaciones atípicas menores y mayores.

atípico atípico
q1 q3 menor mayor

adyacente m adyacente
inferior superior
Figura 1.15. Elementos de un diagrama de caja y brazos.

Para construir estos diagramas se parte de un primer formato que consta de:
n
l(m) m
l(q) q1 q3 A.I.
1 - 36 CAPITULO 1

Primer formato, diagramas de caja y brazos

para el caso del ejemplo 1.4.1 el primer formato es:

31
16 462

8.5 199.5 688 488.5


Primer formato, ejemplo 1.4.1

Después se calculan el factor de escala y cuatro barreras, dos interiores y dos


exteriores:

fes = 1.5 (A.I.)


barreras interiores: f1 = q1 - fes f 2 = q3 + fes
barreras exteriores: F1 = f1 - fes F2 = f 2 + fes

Ahora se pueden calcular los valores adyacentes izquierdo y derecho:

adyacente inferior: observación mas pequeña superior a f1 y menor a q1


adyacente superior: observación mas grande inferior a f 2 y mayor a q3

El brazo se traza del cuartil al adyacente, en caso de no haberlo no se traza.


Los datos entre f y F son valores atípicos menores, se marcan en el diagrama como
círculos vacíos, mientras que datos mas allá de F son valores atípicos mayores y se
marcan en el gráfico con círculos rellenos. Todo lo anterior se puede resumir en un
segundo formato:

fes
Adyacente Adyacente
inferior superior
f1 f2
Atípicos menores Atípicos menores
F1 F2
Atípicos mayores Atípicos mayores
Segundo formato, diagramas de caja

Para el ejemplo 1.4.1 los cálculos son como sigue:

fes = 1.5 ( 488.5 ) = 732.75


f1 = 199.5 - 732.75 = -533.25 f 2 = 688 + 732.75 = 1420.75
F1 = -533.25 - 732.75 = -1266.00 F2 = 1420.75 + 732.75 = 2153.50
ANALISIS EXPLORATORIO DE DATOS 1 - 37

Usando el diagrama de tallo y hojas de la figura 1.13 se obtiene el segundo formato:

732.5
0 1237
-533.25 1420.75
ninguno 2119
-1266.0 2153.50
ninguno 2838, 5592
Segundo formato, ejemplo 1.4.1

0 1000 2000 3000 4000 5000

Figura 1.16 Diagrama de caja, ventas de suavizante.

La figura 1.16 muestra el diagrama de caja resultante. La interpretación es


como sigue, el grueso de las ventas tiene una distribución sesgada hacia la derecha. El
extremo derecho de la distribución es de alrededor de 1300 cajas. Es decir
típicamente ese es el máximo pedido que se puede esperar. Con respecto al problema
que motivó el estudio, una estrategia sería tener un plan rutinario para satisfacer la
demanda típica, e instrumentar un plan de contingencia para satisfacer los picos en las
ventas.
Si calculamos el nivel de reabastecimiento, pero ahora con el valor adyacente
superior obtenemos:

nivel de reabastecimiento = 3 (1237) (1.3) = 4824

Este ya es un valor mucho mas bajo de lo que se proponía anteriormente, que


incluso cubriría algunos picos en la demanda. En el estudio real se continuó
mejorando la política de reabastecimiento haciendo varios análisis adicionales, pero
el diagrama mostrado aquí fue muy útil para comprender y comunicar la situación.
1 - 38 CAPITULO 1

1.5 Problema de Comparación

Independientemente de todos los tipos de variables, de sus distribuciones de


frecuencia, y de sus medidas de posición o de dispersión, hay dos temas que unifican
a la mayoría de los análisis estadísticos. A estos temas les llamaremos el problema de
comparación y el problema de asociación.
El problema de comparación consiste en contrastar las distribuciones de
frecuencia de una variable de interés para dos o más subpoblaciones basándose en los
datos de la muestra. Por ejemplo, en una encuesta sobre tabaquismo deseamos
comparar los hábitos de fumar para los distintos géneros, en este caso la variable de
interés es hábitos de fumar, una variable cualitativa que puede tomar digamos tres
valores: nunca ha fumado, dejó de fumar y fuma actualmente. Mientras que las
subpoblaciones a considerar serían hombres y mujeres.

1.5.1 Subpoblaciones.

Una manera de generar subpoblaciones es empleando una variable cualitativa


nominal, (en este ejemplo GENERO), para definirlas, si la variable que se empleó
para definir las subpoblaciones es cualitativa ordinal entonces puede ser conveniente
aprovechar esa estructura adicional y analizar el problema desde el punto de vista de
asociación como se verá mas adelante.
Otro ejemplo del problema de comparación se tendría en el caso de que una
empresa manufacturera metalmecánica desease comparar la dureza de los lotes de
acero entre los proveedores nacionales y los extranjeros. La variable de interés aquí
sería la DUREZA la cual se mide en kg/cm2 y las subpoblaciones serían los
proveedores de acero, digamos LSA, USSTEEL y ACERIE-FRAÇAISE.
Ambos ejemplos tienen en común que requieren la contestación de las
siguientes preguntas:

1.- ¿ Hay alguna diferencia en las distribuciones poblacionales?


2.- ¿ Cuál es la naturaleza de esas diferencias ?
3.- ¿ Qué tan grandes son esas diferencias?

Nótese que las preguntas se hacen acerca de las distribuciones de frecuencia


poblacionales, sin embargo para contestarlas usualmente contamos con muestras de
esas poblaciones para responderlas.
ANALISIS EXPLORATORIO DE DATOS 1 - 39

Emplearemos las herramientas de análisis exploratorio de datos para


visualizar las respuestas a las tres preguntas, para llevar a cabo un análisis
confirmatorio más riguroso se requiere del uso de métodos de inferencia estadística,
por ejemplo para responder las preguntas 1 y 2 se requerirá probar una hipótesis de
diferencia, mientras que para responder a la pregunta 3 será necesario construir un
intervalo que acote los valores más probables de la diferencia.
Para presentar el problema de comparación se discuten tres casos,
dependiendo si la variable de interés es cualitativa, discreta, o continua.

1.5.2. Variable cualitativa

La comparación de las distribuciones de frecuencia entre subpoblaciones cuando la


variable de interés es cualitativa se facilita con la ayuda de un arreglo tabular
bidimensional llamado la tabla de contingencia o tabulación cruzada.
Esta tabla contiene las frecuencias absolutas muestrales y toda la información
necesaria para llevar a cabo los procedimientos exploratorios. La tabla 1.18 es un
ejemplo de tal arreglo, nos muestra los datos de una encuesta sobre tabaquismo
realizada en una población estudiantil de una Universidad.

Tabla 1.18. Tabla de contingencia, encuesta estudiantil. Tabaquismo. Frecuencias


absolutas.
HÁBITO DE TABAQUISMO
GENERO Nunca ha fumado Dejó de fumar Fuma Total
actualmente
Masculino 154 25 185 364
Femenino 127 11 38 176
Total 281 36 223 540

Ya de esta tabla podemos comenzar a obtener información relevante


calculando las frecuencias relativas conjuntas y marginales, ambas se obtienen
dividiendo las frecuencias absolutas por el total de elementos en la muestra. En
nuestro ejemplo hay que dividir por 540. El resultado se ve en la tabla 1.19. La
interpretación es la siguiente, las frecuencias relativas conjuntas nos dan una idea
(estimación) de que tan frecuentemente se presentan simultáneamente ambos
atributos en la población. En la tabla 1.19 podemos ver que la combinación más
frecuente es hombres que fuman actualmente, mientras que la menos frecuente es
mujeres que han dejado de fumar. Las frecuencias relativas marginales, llamadas así
porque se presentan en los márgenes de la tabla, nos indican que tan frecuentemente
se presenta el atributo en la población por sí mismo.
1 - 40 CAPITULO 1

Tabla 1.19. Tabla de frecuencias relativas conjuntas y marginales. Encuesta


estudiantil tabaquismo.
HÁBITO DE TABAQUISMO
GENERO Nunca ha fumado Dejó de fumar Fuma Frecuencias
actualmente marginales
Masculino 28.5% 4.6% 34.3% 67.4%
Femenino 23.5% 2.1% 7% 32.6%
Frecuencias 52.0% 6.7% 41.3% 100%
marginales

De la frecuencia relativa marginal para la variable GENERO, podemos ver


que en la encuesta hubo más hombres que mujeres, aproximadamente una proporción
de 2 a 1. De la frecuencia marginal de HABITO DE TABAQUISMO se observa que
sin diferenciar con respecto a GENERO, aproximadamente el 52% de los estudiantes
nunca ha fumado, por otro lado el 41% fuma actualmente y un 7% dejó de fumar. Lo
anterior puede resultar interesante para las personas que requieran el estudio, sin
embargo en el problema de comparación lo que deseamos es ver si el hábito de
tabaquismo varía relativo al GENERO, es decir, deseamos ver si las frecuencias
relativas dado o dentro del género varían entre hombres y mujeres.
Para hacer esta comparación lo que es relevante calcular son las frecuencias
relativas condicionales que se obtienen al dividir las frecuencias conjuntas por la
correspondiente frecuencia marginal. Por ejemplo, para el caso en que deseamos
condicionar hábito de tabaquismo con respecto a GENERO se obtendría la tabla 1.20.
La interpretación de la tabla 1.20 es la siguiente, de la población femenina de
la universidad un 72% aproximadamente nunca ha fumado versus un 42% de la
población masculina, el porcentaje que han dejado de fumar es similar para ambos
géneros y finalmente el porcentaje de fumadores dentro de cada género varía
considerablemente.

Tabla 1.20. Tabla de frecuencias relativas condicionales ( GENERO).Encuesta


estudiantil tabaquismo.
HÁBITO DE TABAQUISMO
GENERO Nunca ha Dejó de fumar Fuma actualmente Total
fumado renglón
Masculino 42.3% 6.8% 50.9% 100%
Femenino 72.2% 6.2% 21.6% 100%
Frecuencias 52.0% 6.7% 41.3% 100%
marginales

Se sigue entonces de la tabla 1.20, que los hábitos de tabaquismo difieren con
respecto al género en la población estudiantil de la universidad bajo estudio. Es decir
el hábito de tabaquismo depende del género.
ANALISIS EXPLORATORIO DE DATOS 1 - 41

Para hacer más fácil la comparación y sobre todo cuando la variable que
usamos para definir las subpoblaciones tienen muchas categorías, cada frecuencia
condicional se puede comparar contra la frecuencia marginal.

80%

FRECUENCIAS CONDICIONALES
70%

60%

50%

40%
Masculino
30%
Femenino
20%

10%

0%
Nunca ha Dejó de fumar Fuma
fumado actualmente
HABITO DE FUMAR
Figura 1.17 Gráfica de barras hombro con hombro, condicionando sobre GENERO.
Encuesta estudiantil tabaquismo.

100%
0%
.6
FRECUENCIA CONDICIONAL

90%
21
80% 0% 6.20%
.9
70% 50

60%
50% 6.80% Fuma actualmente
40% 0% Dejó de fumar
.2
72 Nunca ha fumado
30%
0%
.3
20% 42
10%
0%
Masculino Femenino
GENERO
Figura 1.18 Gráfica de barras apiladas, condicionando sobre GENERO. Encuesta
estudiantil tabaquismo.
1 - 42 CAPITULO 1

La figura 1.17 muestra la comparación usando diagramas de barras hombro


con hombro, mientras que la figura 1.18 muestra la comparación usando diagrama de
barras apiladas, en esta gráfica se aprecia más claramente el hecho de que las
frecuencias condicionales tiene que sumar 100% dentro de cada género. De
cualquiera de las dos gráficas se puede interpretar que en esta población hay una
mayor tendencia de los hombres a fumar, ya que la proporción de hombre que fuma
actualmente es mucho mayor que la de las mujeres. O bien que la proporción de
mujeres que nunca ha fumado es mucho mayor que la correspondiente de hombres.

1.5.3 Variable discreta

En este caso el problema de comparación se puede enfocar de la misma manera que


con variables cualitativas, es decir comparando las distribuciones de frecuencia
condicionales.

Ejemplo 1.5.1
Consideremos el ejemplo 1.3.1. Supongamos que deseamos comparar la distribución
del número de televisores entre ambas colonias. Los datos relevantes en este caso se
encuentran en la tabla 1.21.
De la tabla 1.21 se puede obtener la tabulación cruzada y la tabla de
frecuencias relativas condicionales mostradas en la tabla 1.22.

Tabla 1.21 Número de televisores por hogar en la muestra. Encuesta de TV por cable.
Colonia 1 Colonia 2
Manzana TELES Manzana TELES
9 4,3,4,3,5 14 0,1,1,1,4
2 3,3,2,4,3 22 1,3,4,3,2
4 2,3,3,3,2 8 2,2,2,3,1
20 2,3,3,1,3
25 2,0,3,1,1

La figura 1.19 (que se obtiene de la tabla 1.22) es una variación del diagrama
de barras hombro con hombro. Presenta la distribución de frecuencias para cada
colonia una frente a la otra, ahí se ve claramente la diferencia que existe entre ambas
colonias con respecto al número de televisores por hogar. La interpretación sería que
en la colonia 1 hay una mayor cantidad de televisores por hogar, teniéndose que la
moda es alrededor de tres televisores, mientras que para la colonia 2 la moda es de
sólo un televisor.
ANALISIS EXPLORATORIO DE DATOS 1 - 43

Tabla 1.22 Comparación de la distribución del número de televisores por hogar entre
colonias
Tabulación cruzada Número de televisores por hogar
0 1 2 3 4 5
Colonia 1 0 0 3 8 3 1 15
2 2 8 6 7 2 0 25
Total 2 8 9 15 5 1 40

Frecuencias relativas Número de televisores por hogar


condicionales 0 1 2 3 4 5
Colonia 1 0% 0% 20% 53% 20% 7% 100%
2 8% 32% 24% 28% 8% 0% 100%

60%
FRECUENCIA RELATIVA

50%
CONDICIONAL

40%

30%

20%

10%

0%
Colonia 2
0 1 Colonia 1
2 3 4 5
TELEVISORES

Figura 1.19 Gráfica de frecuencias relativas condicionales del número de televisores


respecto a la colonia. Encuesta de TV por cable.

1.5.4. Variable Continua

En este caso estamos interesados en comparar tanto localización como la dispersión


entre las distribuciones de frecuencia de las subpoblaciones. Tomemos por ejemplo el
lado izquierdo de la figura 1.20, ahí se muestran las curvas de frecuencia de la misma
variable pero sobre dos subpoblaciones distintas, digamos A y B.
La distribución de frecuencias de la subpoblación A es simétrica y centrada en
15, mientras que la distribución de frecuencias de B es sesgada a la izquierda y
centrada alrededor de 17.2. En las aplicaciones no se cuenta con las distribuciones de
frecuencia mostradas en el lado izquierdo de la figura 1.20, se cuenta con muestras de
cada una de las subpoblaciones. Usando los datos de las muestras se podría construir
un diagrama de caja para cada una de las subpoblaciones.
1 - 44 CAPITULO 1

El lado derecho de la figura 1.20 muestra un gráfico en el cual se presenta un


diagrama de caja de la misma variable pero para una muestra proveniente de cada una
de las subpoblaciones. Nótese que, para hacer más fácil la comparación, se dibujan
los diagramas de caja uno encima del otro y con la misma escala.
Subpoblaciones Muestras
(distribuciones de frecuencias) (diagramas de caja)

12 13 14 15 16 17 18
12 13 14 15 16 17 18

12 13 14 15 16 17 18 12 13 14 15 16 17 18

Diagrama esquemático
Figura 1.20 Problema de comparación. Variable cuantitativa continua. Relación entre
distribuciones de frecuencia y el diagrama esquemático.

Interpretando los diagramas de caja, lado derecho de la figura 1.20, se ve que


obtendríamos una conclusión similar a la obtenida interpretando las distribuciones de
frecuencia. Es decir, para A tenemos una distribución simétrica centrada alrededor de
15, mientras que para B se observa una distribución sesgada a la izquierda con centro
alrededor de 17.5. Al diagrama del lado derecho se le llama diagrama esquemático.
Consta de un diagrama de caja para cada una de las subpoblaciones graficadas, uno
encima del otro y con la misma escala, esto facilita mucho la comparación de la
localización, dispersión y sesgo entre las distintas distribuciones de frecuencia.

Ejemplo 1.5.2
Los datos de la tabla 1.23 provienen de ensayos de dureza de lámina de acero de tres
proveedores de una empresa nacional que produce manufacturas troqueladas. Una
característica de calidad importante es la dureza de la materia prima. Los datos
provienen de embarque recibidos en el primer semestre del año en cuestión, las
unidades son kg/cm2.

Tabla 1.23 Dureza de lotes de lámina para tres proveedores


ANALISIS EXPLORATORIO DE DATOS 1 - 45

LSA USTEEL ACERIE-


FRANÇAISE

52.4 47.9 54.4 48.8 48.8 42.7


50.8 50.1 50.2 47.9 49.8 52.7
45.5 52.2 49.4 47.5 43.2 51.6
44.4 41.4 57.0 49.2 45.7 51.2
45.2 51.9 55.5 49.0 48.1 39.8
46.2 50.8 54.9 47.6 48.9 39.1
46.2 45.4 49.9 47.9 49.1 51.1
46.2 47.9 48.7 51.7 46.7 41.1
52.5 53.0 47.3 38.9 51.3
46.7 50.9 50.7 43.2

De esta tabla se obtiene la figura 1.21, que es el diagrama esquemático


correspondiente. El diagrama sugiere lo siguiente:
USSTEEL provee lámina de mayor dureza más consistentemente (con menor
dispersión) que LSA y ACERIE-FRANÇAISE.
Entre LSA y ACERIE-FRANÇAISE no parece haber mucha diferencia ni en
localización ni en dispersión.
Parece haber un sesgo hacia la derecha en la dureza de la lámina provista por
USSTEEL. Para ACERIE-FRANÇAISE y LSA parece haber un sesgo a la derecha.

ACERIE-FRANCAISE

USSTEEL

LSA

35 40 45 50 55 60
Dureza
Figura 1.21 Diagrama esquemático. Comparación de la dureza de proveedores de
lámina.

1.6 Problema de asociación

Muchas veces es importante conocer si una variable influye sobre otra variable, por
ejemplo, en una cadena de establecimientos comerciales les interesaría saber que
tanto influye el tamaño del establecimiento en el volumen de las ventas.
También les interesaría saber si un incremento en el tamaño del
1 - 46 CAPITULO 1

establecimiento necesariamente significa un incremento en las ventas.


Otro ejemplo sería aquel en el que se considera un entorno económico e
interesa saber si el incremento de un agente económico implica un cambio sobre otras
variables del entorno, digamos que estamos estudiando el sector agrícola de un país y
deseamos saber que tanto influyen los insumos de trabajo o capital sobre el producto
de ese sector.
Así como los ejemplos anteriores hay muchos, todos ellos se pueden
caracterizar como un problema de asociación en el cual nos interesa conocer si el
incremento o decremento de una variable, digamos X, tiene un efecto o está asociado
con incrementos o decrementos de otra variable, digamos Y. Por su naturaleza solo
consideraremos asociación entre variables que estén al menos en una escala ordinal,
si una de las variables no es ordinal entonces el problema cae dentro el ámbito del
problema de comparación. Consideraremos tres casos, cuando X y Y sean ambas
ordinales, cuando una de ellas sea ordinal y la otra cuantitativa (ya sea continua o
discreta), y cuando ambas sean cuantitativas.

1.6.1 Ambas variables ordinales

Una manera de analizar la asociación entre dos variables que son ordinales y discretas
es a través de la tabla de contingencia usando frecuencias relativas condicionales con
sus correspondientes diagramas de barra.

Ejemplo 1.6.1
Consideremos una encuesta sobre el horario de verano, en la cual nos interesa
relacionar la posición respecto al cambio de horario (Y) con el nivel socio económico
del encuestado (X). Los valores de Y son: en desacuerdo, indiferente, de acuerdo,
mientras que para X son: bajo, medio, alto. Los datos de esta posible encuesta se
encuentran en la tabla 1.24.

Tabla 1.24 Tabla de contingencia, encuesta sobre horario de verano. Frecuencias


absolutas.
Posición respecto al horario de verano
Desacuerdo Indiferente Acuerdo Total
Bajo 98 201 111 410
Nivel Medio 134 91 60 285
socioeconómico Alto 12 21 25 58
Total 244 313 196 753

La tabla 1.25 que nos muestra la tabla de frecuencias relativas condicionales


con respecto al nivel socioeconómico. La gráfica 1.22 muestra los diagramas de
barras correspondientes a la tabla 1.25, de ahí se puede observar que en los niveles
socioeconómicos bajo y alto hay mayor aceptación del horario que en el nivel medio.
ANALISIS EXPLORATORIO DE DATOS 1 - 47

Tabla 1.25 Tabla de frecuencias relativas condicionales con relación al nivel


socioeconómico.
Posición respecto al horario de verano
Desacuerdo Indiferente Acuerdo Total
Nivel Bajo 24% 49% 27% 100%
socioeconómico Medio 47% 32% 21% 100%
Alto 21% 36% 43% 100%

100%
21%
90% 27%
80% 43%

70%
32%
60%
Acuerdo
50% 49%
Indiferente
40% 36% Desacuerdo
30%
47%
20%
24% 21%
10%
0%
Bajo Medio Alto
Figura 1.22 Diagrama de barras apiladas. Posición respecto al horario de verano en
función del nivel socioeconómico.

1.6.2 Una Variable Ordinal y otra Cuantitativa

En esta situación una manera de evidenciar la posible asociación entre las variables es
a través del diagrama esquemático. Este diagrama es interesante porque nos puede
mostrar como dependen no sólo la localización sino también la dispersión de la
variable cuantitativa con respecto al incremento o decremento de la variable ordinal.

Ejemplo 1.6.2
Consideremos los datos de la tabla 1.26, corresponden a calificaciones de una prueba
de habilidad verbal para una muestra de niños de una escuela privada. La variable Y
es la calificación, mientras que la variable X es el grado escolar del niño.

Tabla 1.26. Datos de calificaciones de habilidad verbal.


1 - 48 CAPITULO 1

Grado escolar
Maternal Kinder I Kinder II
68 255 425
35 202 370
145 317 380
173 327 476
190 247 410
225 100 358
340 448 338
123 412 373
228 228 377
192 467
297 388

La figura 1.23 muestra el diagrama esquemático del grado escolar versus


habilidad verbal, a partir de esto se puede observar que la habilidad verbal aumenta
con la edad, lo cual es algo que ya se espera, sin embargo también se puede ver
también una notable disminución en la dispersión de la habilidad verbal entre Kinder
I y Kinder II y no tanto así entre maternal y Kinder I. Este resultado ya no es tan
intuitivo.

Figura 1.23. Diagrama esquemático del grado escolar versus habilidad verbal.

1.6.3 Ambas Variables Cuantitativas

En este caso un diagrama interesante es el llamado diagrama de dispersión, el


cual consiste en representar cada pareja de valores de la muestra ( x1 , y1 ),...,( x n , y n )
sobre un plano cartesiano. Su construcción es como sigue.

1. Sobre un par de ejes cartesianos seleccionar una escala en el eje X y otra en el eje
Y, de forma tal que quepan todos los valores observados.
2. Graficar cada pareja ( xi , y i ) en el punto que le corresponda, si hay puntos
repetidos trazar círculos concéntricos.
ANALISIS EXPLORATORIO DE DATOS 1 - 49

Ejemplo 1.6.3
Consideremos el ejemplo 1.3.1, supóngase que deseamos explorar la posibilidad de
que haya una asociación entre le ingreso de un hogar (X=VALOR) y la cantidad de
renta que se está dispuesto a pagar por el servicio de TV por cable (Y=RENTA), el
diagrama de dispersión correspondiente está dado en la figura 1.24. De esta figura
podemos concluir que hay una asociación positiva entre ambas variables, ya que se
observa que, en general, los valores más grandes de VALOR están asociados con los
valores más grandes de RENTA y viceversa. Además se observan dos valores
atípicos que se separan de la nube de puntos, son dos hogares que no están dispuestos
a gastar en el servicio, examinando la tabla 1.6 se obtiene que son los hogares que no
tienen televisión.

90
80
70
60
RENTA

50
40
30
20
10
0
0 100000 200000 300000 400000
VALOR

Figura 1.24. Diagrama de dispersión RENTA vs VALOR. Encuesta de TV por cable.

Aparte del análisis gráfico, es interesante tener una medida de la asociación


entre las dos variables. Con este propósito se creó el coeficiente de correlación, la
idea de su construcción se muestra en la figura 1.25. Sobre este diagrama de
dispersión se han trazado líneas paralelas a los ejes a la altura de x y y
respectivamente. De esta forma los datos se han dividido en cuatro cuadrantes, los
cuales se muestran con números romanos.
Consideremos los productos cruzados de la forma

( xi - x )( y i - y ) para i = 1,..., n

observando la figura 1.25 se nota que los productos son positivos para los cuadrantes
I y III y negativos para los cuadrantes II y IV.
1 - 50 CAPITULO 1

18

16

14
II (-) I (+)

12

y = 9.40
10

Y
8

III (+) IV (-)


6

2
x = 4.80
0
0 1 2 3 4 5 6 7 8 9

Figura 1.25. Motivación del coeficiente de correlación. Signos de los productos


cruzados por cuadrante.

Nótese que en la figura 1.25 hay una asociación que podríamos llamar
positiva, ya que valores altos de X tienden a estar asociados con valores altos de Y y
viceversa, valores bajos de X tienden a coincidir con valores bajos de Y. También se
aprecia que al sumarse todos los productos cruzados, los de signo positivo dominan a
aquellos de signo negativo por lo que esta suma será un indicativo de la asociación
existente. Al promedio de esta suma se le llama la covarianza muestral entre X y Y,
formalmente se define como
n
Cov( X ,Y ) = å ( xi - x )( y i - y ) /( n - 1 ) (1.1)
i =1
La fórmula (1.1) es una medida de asociación entre las variables X y Y, tiene
como unidades el producto de las unidades de X por las unidades de Y, para el
ejemplo la covarianza tiene como unidades pesos al cuadrado. Resulta conveniente
eliminar la dependencia de la covarianza en las unidades en que se miden las
variables, para llevar a cabo esto se divide la covarianza entre el producto de las
desviaciones estándar de cada una de las variables. El coeficiente resultante se le
denomina coeficiente de correlación y se abrevia como r. Queda dado por la siguiente
fórmula:
n

å( x i - x )( y i - y ) /( n - 1 )
Corr ( X ,Y ) = r = i =1

s X sY
Aparte de que r ya no depende de las unidades en que se midan las variables,
también se puede demostrar matemáticamente que su valor absoluto nunca excederá
uno, es decir | r |£ 1 . El valor absoluto de r será mayor a medida que la nube de
puntos se aproxime más a una línea recta. Por esta razón a r también se la llama el
ANALISIS EXPLORATORIO DE DATOS 1 - 51

coeficiente de correlación lineal, ya que de hecho mide asociación lineal. Algún otro
tipo de asociación no lineal puede pasar inadvertida para este coeficiente, por eso,
aparte de calcular el coeficiente de correlación resulta conveniente hacer el diagrama
de dispersión. Algunos patrones de asociación junto con sus correspondientes valores
del coeficiente de correlación están dados en la figura 1.26.

18 18 18

16 16 16

14 II (-) I (+) 14 II (-) I (+) 14 II (-) I (+)

12 12 12
y y y
10 10 10

Y Y Y
8 8 8

III (+) IV (-) III (+) IV (-) III (+) IV (-)


6 6 6

4 4 4

2
x 2
x 2
x
0 0 0
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9

Fuerte asociación positiva, r = 0.9 X Asociación positiva, r = 0.6 X No hay asociación, r = 0 X

20 20 23

18 18 21

16 II (-) I (+) 16 II (-) I (+) II (-) I (+)


19

14 14 y
17

12
y 12
y
15

Y 10 Y 10 Y
13
8 8
III (+) IV (-) III (+) IV (-) 11 III (+) IV (-)
6 6

9
4 4

2
x 2
x 7
x
0 0 5
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9

Fuerte asociación negativa, r = - 0.9 X Asociación negativa, r = - 0.6 X Asociación no lineal, r = 0.1 X

Figura 1.26. Patrones de asociación y su correspondiente coeficiente de correlación.

Una cuestión que es importante tener presente, es que tanto los diagramas de
dispersión como el coeficiente correlación son útiles para sugerir y comprender mejor
la asociación entre dos variables. Pero de ninguna forma deben tomarse como
evidencia de causalidad. Para llegar a esta conclusión es necesario tomar en cuenta el
conocimiento específico del área en cuestión o bien llevar cabo estudios
experimentales específicamente diseñados para el efecto.
1 - 52 CAPITULO 1

Ejemplo 1.6.4
La figura 1.27 muestra el diagrama de dispersión de la población (en miles) del
poblado de Oldenburg (Y) versus el número de cigüeñas observadas en ese mismo
año.
75
Población
(en miles)
70

65

60

55

50
100 150 200 250 300

Número de cigüeñas
Figura 1.27 Población anual de Oldenburg versus avistamientos de cigüeñas al año,
1930-1936.

Se nota que la correlación es bastante alta, pero obviamente no hay


causalidad. En esta caso lo que sucede es que hay una tercera variable, el tiempo, en
donde ambas poblaciones crecen simultáneamente. A este fenómeno se le llama
correlación espuria.

1.7 Uso de Excel en Análisis Exploratorio de Datos.

En esta sección se describen y ejemplifican las operaciones que hay que hacer en
Excel para obtener los diagramas y estadísticas mencionadas en este capítulo con
excepción del diagrama de tallo y hojas, por su sencillez. Se presupone que el usuario
tiene cierta familiaridad con la estructura de las hojas de cálculo y con el uso de
funciones disponibles en Excel. No se requiere el uso de macros.

1.7.1 Gráfica de barras.

La aplicación supone que las categorías de la variable categórica están etiquetadas


con números.
Secuencia de comandos:
ANALISIS EXPLORATORIO DE DATOS 1 - 53

Herramientas > Análisis de datos > Histograma

Rango de entrada: conjunto de celdas de la variable, incluyendo el nombre


Rango de clases: conjunto de celdas que contiene un número por cada valor
distinto de la variable
Rótulos: marcar
Rango de salida: celda a partir de la cual se depositará el resultado
Crear gráfico: marcar

Tabla 1.27 Datos sobre preferencias de refresco codificados


A B C D E F
1
2 preferencia código Clase Nombre Bin Frequency
3 Coke Classic 1 1 CocaCola 1 19
4 Diet Coke 2 2 DietCoke 2 8
5 Pepsi-Cola 4 3 Dr.Pepper 3 5
6 Diet Coke 2 4 PepsiCola 4 13
7 Coke Classic 1 5 Sprite 5 5
8 Coke Classic 1 Mas 0
9 Dr. Pepper 3
10 Diet Coke 2 Total 50

Ejemplo 1.7.1
La tabla 1.27 presenta una parte de los resultados de una prueba de consumidores de
refresco. El número de consumidores es 50, por lo que sus respuestas están en las
celdas A3:A52. La columna B contiene los datos codificados mientras que las
columnas C y D muestran la equivalencia entre los números y las marcas. La
herramienta de Excel se usaría de la siguiente forma:

Rango de entrada: B2:B52


Rango de clases: C2:C7
Rótulos: marcar
Rango de salida: E2
Crear gráfico: marcar

La aplicación produce los resultados de las celdas E2:F10, tabla 1.27, y el


gráfico mostrado en la figura 1.28. Como se ve, esa representación deja mucho que
desear. Es mas vistoso si se hace un diagrama circular con efectos tridimensionales.
Ya con el conteo realizado por Excel, se obtiene fácilmente el gráfico que se muestra
en la figura 1.29. Para obtenerlo hay que marcar simultáneamente las celdas D2:D7 y
F2:F7 y hacer una gráfica de barras con la opción de diagrama circular
1 - 54 CAPITULO 1

tridimensional. En la pestaña de rótulos de datos hay que marcar la opción de


“Mostrar rótulo y porcentaje”.

Histogram

20

15
Frequency

10 Frequency

0
1 2 3 4 5 Mas
Bin

Figura 1.28 Gráfico de barras, preferencias de refresco, datos codificados

Distribución de Frecuencias PREFERENCIAS de Refrescos

Sprite
10%
CocaCola
PepsiCola 38%
26%

Dr.Pepper DietCoke
10% 16%

Figura 1.29 Gráfico de pastel, preferencias de refresco.

1.7.2 Histogramas.

Secuencia de comandos:

Herramientas > Análisis de datos > Histograma

Rango de entrada: conjunto de celdas de la variable, incluyendo el nombre


ANALISIS EXPLORATORIO DE DATOS 1 - 55

Rango de clases: conjunto de celdas que contienen los límites de los intervalos
de clase
Rótulos: marcar
Rango de salida: celda a partir de la cual se depositará el resultado
Porcentaje acumulado: marcar
Crear gráfico: marcar

Ejemplo 1.7.2
La tabla 1.28 presenta una parte de los resultados de una encuesta de usuarios de
computadora personal. La variable de interés es horas de uso al día de cada usuario.

Tabla 1.28 Datos y resultados sobre encuesta de uso de computadora personal.


A B C D E F G
1 Horas límites Lim sup Frequency Cumulative Horas Uso
Uso %
2 4.1 0 0 0 .00%
3 3.1 3 3 6 12.00% Mean 5.706
4 4.1 6 6 27 66.00% Standard Error 0.442344
5 10.8 9 9 8 82.00% Median 4.75
6 7.2 12 12 6 94.00% Mode 4.1
7 1.5 15 15 3 100.00% Standard 3.127849
Deviation
8 4.8 More 0 100.00% Sample 9.783432
Variance
9 4.1 Kurtosis 0.657135
10 2.8 Skewness 1.042964
11 6.1 Range 14.1
12 10.4 Minimum 0.7
13 2.0 Maximum 14.8
14 8.8 Sum 285.3
15 9.5 Count 50
16 5.7 Largest(1) 14.8
17 5.9 Smallest(1) 0.7

El número de usuarios es 50, por lo que sus respuestas están en las celdas
A3:A52. La herramienta de Excel se usaría de la siguiente forma:

Rango de entrada: A1:A51


Rango de clases: B1:B7
Rótulos: marcar
Rango de salida: C1
Porcentaje acumulado: marcar
1 - 56 CAPITULO 1

Crear gráfico: marcar

La aplicación produce los resultados de las celdas C1:E8, tabla 1.28, y el


gráfico mostrado en la figura 1.30. Como se ve, esa representación deja mucho que
desear.

Histogram

30 120.00%

25 100.00%

20 80.00%
Frequency

Frequency
15 60.00%
Cumulative %

10 40.00%

5 20.00%

0 .00%
0 3 6 9 12 15 More
limites

Figura 1.30 Histograma horas de uso, computadora personal. Presentación original


Excel.

Se puede mejorar dando clic derecho sobre las barras de la figura, entrar a
“Formato de serie de datos”, en la pestaña de “Opciones” dar al “Ancho de rango” el
valor de cero. Posteriormente dar clic derecho sobre el eje horizontal de la gráfica y
en “Formato ejes”, pestaña “Alineación” dar al texto orientación de - 45 grados. El
resultado de estas operaciones se muestra en la figura 1.31.
ANALISIS EXPLORATORIO DE DATOS 1 - 57

Histogram

30 120.00%

25 100.00%

20 80.00%
Frequency

Frequency
15 60.00%
Cumulative %
10 40.00%

5 20.00%

0 .00%
0

12

15

M
ore
limites

Figura 1.31 Histograma horas de uso, computadora personal. Presentación


modificada.

1.7.3 Medidas descriptivas.

Secuencia de comandos:

Herramientas > Análisis de datos > Estadística Descriptiva

Rango de entrada: conjunto de celdas de las variables, incluyendo el nombre


Agrupado por: columnas o filas, según sea el caso
Rótulos en la primera fila: marcar
Rango de salida: celda a partir de la cual se depositará el resultado
Resumen de estadísticas: marcar

Ejemplo 1.7.3
Usando los datos de a tabla 1.28 la herramienta de Excel se usaría de la siguiente
forma:

Rango de entrada: A1:A51


Agrupado por: columnas
Rótulos en la primera fila: marcar
Rango de salida: F1
Resumen de estadísticas: marcar
1 - 58 CAPITULO 1

Los resultados se muestran en la misma tabla 1.28 columnas F y G.

1.7.4 Diagrama esquemático.

Para obtener el diagrama esquemático se necesita organizar los resultados de los


cálculos tal como se muestra en la tabla 1.29, incluyendo los nombres.

Tabla 1.29 Organización de resultados para diagrama esquemático.


A B C D E F
1 q1 adyacente adyacente q3
superior inferior
2 LSA 45.675 52.5 41.4 50.8
3 USSTEEL 48.5 57 47.3 52.025
4 ACERIE- 42.95 52.7 38.9 50.45
FRANCAISE
5

Posteriormente se marcan las celdas A1:E4, se marca el icono de gráficos, se


selecciona “Cotizaciones”, se selecciona la opción “Apertura, máximos, mínimos,
cierre”, especificar que las series son en columnas. Resulta conveniente eliminar la
“Leyenda”, indicar en la pestaña de “Rótulos de datos” que se muestren los valores y
ajustar la escala del eje. Finalmente se obtiene un gráfico como el de la figura 1.32.
La línea de la mediana se tiene que poner manualmente.

1.7.5 Diagramas de dispersión.

Se supone que las variables están almacenadas por columnas. Pasos:

1. Señalar la variable X y todas las variables Y que se van a graficar (la X deberá
estar completamente a la izquierda)
2. Marcar icono de gráficos
3. Marcar tipo de gráfico: XY (Dispersión)
4. Subtipo de gráfico: el de puntos sin líneas
5. Agregar título del gráfico y nombres a los ejes
6. Finalizar
ANALISIS EXPLORATORIO DE DATOS 1 - 59

60

55

50
DUREZA

45

40

35
LSA USSTEEL ACERIE-
FRANCAISE
Figura 1.32 Diagrama esquemático, dureza de lámina.

Ejemplo 1.7.4
Considere los datos de la tabla 1.30, los cuales corresponden al número de cigüeñas
observadas y al número de habitantes del poblado de Oldenburg del año
correspondiente. Para hacer el diagrama de dispersión con Excel, se señalaría A1:B8
en el primer paso y se llevarían a cabo el resto de los pasos.

1.7.6 Coeficiente de correlación

Secuencia de comandos:

Herramientas > Análisis de datos > Coeficiente de Correlación

Rango de entrada: conjunto de celdas de las variables, incluyendo el nombre,


entre las que se va a calcular las correlaciones.
Agrupado por: columnas o filas, según sea el caso
Rótulos en la primera fila: marcar
Rango de salida: celda a partir de la cual se depositará el resultado
1 - 60 CAPITULO 1

Tabla 1.30 Datos de Oldenburg


A B C D F G
1 Cigüeñas Población
2 120 55 Cigüeñas Población
3 130 60 Cigüeñas 1
4 190 66 Población 0.952302 1
5 200 67
6 250 68
7 260 70
8 270 73
9

Ejemplo 1.7.5
Considere de nuevo los datos de la tabla 1.30, para obtener la correlación entre
Cigüeñas y Población se tendría que hacer lo siguiente:

Rango de entrada: A1:B8


Agrupado por: columnas
Rótulos en la primera fila: marcar
Rango de salida: D2

El resultado de la aplicación está en las celdas D2:G4.

1.8 Referencias

Hoaglin, D. Mosteller, F., Tukey, J., Eds. (1983). Understanding Robust and
Exploratory Data Analysis; John Wiley & Sons: New York.
Koopmans, L. H. (1987). Introduction to Contemporary Statistical Methods, segunda
edición, PWS Publishers.
Landwehr, J. L. y A. E. Watkins. (1986). Exploring Data, Dale Seymour
Publications.
Tukey, J. W. (1977). Exploratory Data Analysis, Addison-Wesley, Reading,
Massachusetts.

También podría gustarte