Está en la página 1de 24

2022

Análisis Exploratorio de Datos.

Oscar Diaz
Piensa Estadística.
1-1-2022
1

Unidad I
Introducción al análisis exploratorio de datos
(EDA)

Contenido de la unidad

I. Variabilidad y pensamiento estadístico


1.1 ¿Qué es la variabilidad?
1.2 Noción intuitiva de variabilidad
1.3 ¿Qué causa la variabilidad?
1.4 El pensamiento estadístico

II. Variables y sus medidas


2.1 ¿Qué es una variable?
2.2 Clasificación de las variables
2.3 Escalas de medición

III. Análisis exploratorio de datos


3.1 ¿Qué es el EDA?
3.2 Distribuciones de frecuencias y gráficos para variables cualitativas
3.3 Distribuciones de frecuencias y gráficos para variables cuantitativas
3.4 Midiendo el centro y la dispersión de una distribución de datos
3.5 El resumen de cinco puntos y diagramas de caja
3.6 La filosofía del análisis exploratorio de datos
2

Unidad I
Introducción al Análisis Exploratorio de Datos
Resumen. En esta unidad se presentan al estudiante las primeras herramientas que le ayudarán a
desarrollar el pensamiento estadístico, una forma de pensamiento que parte de la existencia de la
variabilidad, trata de entender su estructura y aplica ese entendimiento en el resumen, descripción
y representación de datos en un ambiente de variabilidad e incertidumbre. La primera herramien-
ta que se proporciona es el Análisis Exploratorio de Datos (EDA), una forma de pensar y actuar so-
bre el análisis de datos que requiere de cierto enfoque, de cierta perspectiva y que se apoya en un
conjunto de herramientas gráficas y de síntesis de datos que tienen como finalidad maximizar lo
que se aprende de los datos.

SESIÓN 1: Parte 1. buena parte de la literatura —lo cual es incorrecto— pero


OBJETIVOS DE APRENDIZAJE que nosotros distinguiremos: desviación y dispersión.
Después de finalizar con éxito esta sesión serás capaz de:
1. Explicar los conceptos de Variabilidad y Variación Desviación: se refiere a la cantidad de variación —es
2. Explicar la naturaleza de la relación entre datos y variabilidad decir la variabilidad— de un valor en particular con respec-
3. Explicar el concepto de variabilidad a partir del enfoque de las 6M to a una referencia que, por lo general, es la media.
4. Explicar la naturaleza de la variabilidad a partir del enfoque de las 6M Dispersión: se refiere a la cantidad de variación —es
5. Explicar en qué consiste el pensamiento estadístico en el ambiente decir la variabilidad— de una serie de datos con respecto a
de ingeniería.
una referencia que, por lo general, es la media.
I. VARIABILIDAD Y PENSAMIENTO ESTADÍSTICO.
Los conceptos anteriores se pueden explicar, de una
1.1 ¿Qué es la Variabilidad? manera muy general, a partir de los diagramas de la figura
1. En (a) se ha indicado con una flecha la desviación de una

E
l objeto de estudio a lo largo de este curso de proba- observación en particular con respecto a la media —la línea
bilidad y estadística es la variabilidad. Como afirma punteada—. Esta «distancia» es la medida de la variabili-
Ruiz (2017) la variabilidad dota a la estadística de dad de esta observación. De manera similar, cada una de
su razón de ser. El estudio de la variabilidad es lo que ha las otras observaciones tiene asociada una desviación con
hecho posible el avance de esta ciencia a lo largo de los respecto a la media. Cuando se consideran en conjunto
años hasta llegar al desarrollo de los modernos métodos todas estas desviaciones aparece el concepto de dispersión
estadísticos que hacen posible el funcionamiento de nuestra como una medida de la variabilidad del conjunto de datos.
sociedad moderna, donde la percepción y compresión de la Así, si se comparan ambas series de datos se puede apreciar
variabilidad es un componente esencial en el desarrollo de que la dispersión en (a) es mayor que en (b). Se dice enton-
una nueva forma de pensar —el pensamiento estadístico— ces que la variabilidad en (a) es mayor que en (b) enfati-
que sirve como una herramienta fundamental que nos ayuda zando de esta manera la naturaleza cambiante de ambas
series —en contraste con fenómenos deterministas que no
a tomar decisiones en escenarios inciertos.
tendrían esta característica—.
¿Qué es entonces la variabilidad? En una primera apro-
1.2 Noción Intuitiva de Variabilidad
ximación se puede definir como una propiedad inherente de
una serie de datos que indica que algo es propenso a variar Resulta imposible imaginar nuestra realidad inmediata
o cambiar —por ejemplo, la variación en los precios del sin la presencia de la variabilidad. Un recorrido por un día
bitcoin—. Esta afirmación establece una relación entre cualquiera de nuestra existencia nos muestra que interac-
datos y variabilidad —una especie de íntima relación sim- tuamos con ella de manera permanente. Por la mañana,
biótica producto de una historia evolutiva entrelazada— tan usamos alarmas porque la variabilidad a la hora de desper-
estrecha y fuerte que no se puede hablar de variabilidad sintarnos día con día podría ponernos en serios aprietos algu-
hablar de datos, y no se puede interpretar correctamente nas mañanas. Luego, el tiempo utilizado para desplazarnos
una serie de datos sin tomar en cuenta la variabilidad pre- desde nuestro hogar a la Universidad o al trabajo varía día
sente en ellos. Esto hace necesario disponer de métodos con día debido a diversos factores que escapan de nuestro
para cuantificar la variabilidad. Usaremos el término varia-control —como cierre de calles, accidentes, desperfectos
ción para hacer referencia a la descripción, cuantificación o
mecánicos en la unidad de transporte, clima y protestas
medida de la variabilidad. entre otros motivos— por lo que solemos salir temprano
Por último, es importante definir dos conceptos más previendo algún retraso importante —es decir previendo
que, junto con el de variación, se tratan como sinónimos en una variabilidad grande en este tiempo—. En la Universi-
dad por lo general la clase no iniciará siempre a la misma
3

hora y quizá ocupe un asiento diferente al que ocupó en la logra una mejor calidad a través de una variabilidad menor.
última clase. Las personas sentadas a su alrededor segura- Dicho de otra manera: si la variabilidad de las característi-
mente no serán las mismas. Al final del día, el tiempo utili- cas importantes de un producto disminuye, la calidad del
zado para regresar a casa probablemente tendrá una variabi- producto aumenta. Montgomery (2009) proporciona una
lidad tan grande que ronda lo caótico y seguramente la hora «definición moderna» de calidad: calidad es inversamente
de dormir no será la misma que el día anterior. Sin lugar a proporcional a la variabilidad.
duda, somos seres estadísticos que hemos aprendido a lidiar
Ejemplo 1: La variabilidad en acción. Imagine que
con la variabilidad día con día.
para ensamblar un componente mecánico se requiere del
Esta variabilidad que se experimenta en la vida diaria uso de tornillos de una longitud específica para unir las
también se presenta en el ámbito laboral, donde tiene un distintas piezas que lo forman, por lo que la longitud de
fuerte impacto práctico en los puestos de trabajo y en la estos tornillos resulta ser una característica de calidad im-
forma de hacer negocios. Un ingeniero tendrá que trabajar a portante. La empresa ha solicitado lotes de tornillos a los
diario con la variabilidad ya que la encontrará presente en proveedores A y B. Al inspeccionar tres tornillos de cada
todos los procesos productivos. Al hacer un pronóstico de uno de estos proveedores resultan las siguientes lecturas (en
la demanda de energía eléctrica, al medir el volumen de cm)
ventas de un producto durante un período específico, al
Proveedor A: 2.03, 1.95, 2.02
medir los niveles de calidad de un proceso o al medir el
Proveedor B: 2.50, 1.80, 1.70
tiempo de una reacción química encontrará variabilidad en
las mediciones. Los métodos que se estudiarán a lo largo Si solo se toma en consideración la longitud promedio,
del curso proporcionan las herramientas básicas para carac- no existe diferencia entre los tornillos que fabrican cada
terizar la variabilidad, tomar decisiones en escenarios con uno de los proveedores puesto que ambos tienen la misma
variabilidad e incertidumbre y realizar predicciones cuyo media:
error puede ser cuantificado. La decisión tomada tendrá
grandes repercusiones en la calidad de los productos fabri- 2.03 + 1.95 + 2.02
𝑥̅𝐴 = = 2.00
cados o en los servicios prestados por la empresa. 3
2.50 + 1.80 + 1.70
𝑥̅𝐵 = = 2.00
3
Sin otro análisis adicional no existe diferencia entre ad-
quirir los tornillos del proveedor A o los del B. Sin embar-
go, al hacer una inspección visual de los tornillos notamos
que los del proveedor A parecen tener longitudes «muy
similares» entre sí —es decir con poca variabilidad—
mientras que los del proveedor B presentan una mayor va-
riabilidad en las longitudes (compare visualmente las longi-
tudes de los tornillos en las figuras 2 y 3).

Figura 1

La variabilidad es una realidad observable que afecta


todos los aspectos de la vida —lo que Wild y Pfannkuch,
(1999) dieron por llamar «la omnipresencia de la variabili-
dad»—. La variabilidad es la responsable de que dos pro-
ductos fabricados por la misma máquina, en el mismo
turno, por el mismo operario y con la misma materia prima
sean diferentes entre sí con respecto a alguna característica
o criterio de calidad. En los procesos de fabricación la va- Figura 2 Figura 3
riabilidad juega un papel muy importante en la calidad de
los productos manufacturados, de modo que podemos esta- Si la longitud de los tornillos es una característica críti-
blecer una estrecha relación entre variabilidad y calidad: se ca para la empresa que los adquiere, el criterio de la longi-
tud promedio no es un buen indicativo de la calidad de
4

estos. Pero al analizar la variabilidad de las longitudes pa- riabilidad no explicada. En ocasiones, el efecto de las va-
rece un poco más claro que los tornillos del proveedor A riables de ruido o variables fuera de control es pequeño y
son de mejor calidad que los del proveedor B ya que su puede ignorarse, pero a veces su efecto genera una desvia-
variabilidad en la longitud es menor. ción tan grande con respecto a las características deseadas
que produce un producto o un servicio no conforme con la
En resumen, una primera noción sobre la variabilidad,
norma, es decir, defectuoso. Esto supone que en todo pro-
basada en nuestra intuición, es que describe un escenario
ceso se tolera cierto nivel de variabilidad y que los produc-
donde se espera que las observaciones o medidas sucesivas
tos no son exactamente iguales, pero sí lo suficientemente
de un sistema o fenómeno sean las mismas —en el ejemplo
homogéneos como para ser comercializados. Aquellos que
1 las longitudes de los tornillos— pero por alguna razón no
presenten una variabilidad muy grande no son homogéneos
lo son. A medida se avance por las siguientes unidades del
y no deberían comercializarse. Reducir la variabilidad re-
curso, se irá construyendo, desde diferentes enfoques, un
sulta clave para obtener productos y servicios de calidad.
concepto más completo de la variabilidad.
1.3 ¿Qué causa la Variabilidad?
¿Qué pudo causar que las longitudes de los tornillos del
proveedor B difieran tanto entre sí? Una posible explica-
ción tiene que ver con los errores humanos. Por ejemplo, un
operario inexperto pudo cortar los tornillos y por eso resul-
taron con las longitudes tan diferentes. Otra posible expli-
cación puede estar relacionada con el proceso que fabrica
los tornillos, ya que en cada etapa del proceso se pueden ir
acumulando pequeñas variaciones que, combinadas entre
sí, causan diferencias lo suficientemente grandes en las
longitudes como para ser tomadas en cuenta al evaluar la
calidad de los tornillos. Como se puede intuir, las causas de
estas diferencias en las longitudes se pueden encontrar en
situaciones muy diversas. por lo que es necesario disponer
de una metodología que permita explicar el origen de la
variabilidad en un contexto determinado. En esta sección
se presenta la metodología de las 6Ms descrita por Gutié-
rrez, (2009) que, de un modo muy general, intenta ser un
modelo que explica las causas de la variabilidad. Figura 4

La metodología inicia suponiendo que cualquier proce- Según este modelo toda variación observada es causada
so puede concebirse como un sistema con una serie de va- —es decir que no surge espontáneamente en los procesos—
riables de entrada y una variable de salida como en la figura por lo que la componente de variabilidad no explicada se
4. Las entradas interactúan entre sí y producen la salida del puede conceptualizar como una medida del nivel de igno-
sistema, que puede ser un producto o un servicio. rancia o desconocimiento del proceso que, dado el contexto
En este sistema se tiene control sobre algunas de las en- y el conocimiento científico actual y las limitaciones eco-
tradas, conocidas como variables de control del proceso, nómicas, no podemos, o elegimos no explicar. Esto signifi-
tales como la temperatura, las cantidades de materia prima ca que siempre es posible mejorar la comprensión —es
a usar, el tiempo de cocido, velocidad, el proveedor y la decir reducir la ignorancia— del proceso identificando y
presión entre otras. También existe un grupo de variables eliminando las fuentes de variación. La metodología de las
sobre las que no se tiene control o resulta difícil hacerlo. 6M es útil para identificar las fuentes de variación y parte
Estas se conocen como variables fuera de control o de del principio que en todo proceso interactúan Materiales,
ruido. Algunos ejemplos de este tipo de variables son la Maquinas, Mano de obra, Mediciones, Medio ambiente y
humedad, la temperatura ambiente, las propiedades de la Métodos (a las que llamaremos las 6M) y que cada uno de
materia prima suministradas por un proveedor y las fluc- estos elementos aporta algo de la variabilidad total obser-
tuaciones de los precios de la materia prima. Ambos tipos vada, de modo que, si existe una variación significativa en
de variables tienen efecto en la variabilidad total observada. el desempeño del proceso, su razón se puede explicar por
Las primeras generan un componente que llamaremos va- alguna o algunas de las 6M. Por ejemplo, los materiales no
riabilidad explicada y las segundas un componente de va- son completamente idénticos, ni toda la mano de obra tiene
5

las mismas habilidades y formación o las máquinas pueden cambiar las mentalidades existentes. Lo que caracteriza al
desajustarse y desgastarse por el uso continuo. pensamiento estadístico es que consiste en procesos de
pensamiento en lugar de técnicas numéricas. Estos procesos
Entonces, para responder a la pregunta ¿Qué causa la
de pensamiento afectan la forma en que las personas asimi-
variabilidad? Podemos responder que existe un modelo que
lan, procesan y reaccionan a la información.
establece que en todo proceso interactúan seis elementos
(las 6M) de modo que cada M aporta una parte —no nece- Sin embargo, no queremos «encapsular» en una defini-
sariamente igual— de la variabilidad total observada en el ción el pensamiento estadístico. Nuestro objetivo es más
proceso. profundo que esto. Sobre todo, estamos interesados en
desarrollar en los alumnos un marco general para los patro-
1.4 El Pensamiento Estadístico.
nes de pensamiento involucrados en la resolución de pro-
En términos muy generales el pensamiento estadístico blemas, dotarlos de estrategias efectivas que integren ele-
es una forma de entender el mundo incierto y complejo mentos estadísticos para la resolución de éstos teniendo en
describiéndolo en términos relativamente simples que, no cuenta que el objetivo buscado es aprender del contexto en
obstante, capturan aspectos esenciales de su estructura o el cual los datos fueron medidos. En alguna media el obje-
función, y que también nos dan una idea de cuán inseguros tivo es el que predijo Moore (1992): los alumnos en el futu-
somos acerca de ese conocimiento. ro sacarán de su escolarización una estructura de pensa-
miento que susurra «la variación importa»
Snee, (1990) define el pensamiento estadístico como
una filosofía de aprendizaje (cómo adquirimos informa-
SESIÓN 1: Parte 2.
ción) y acción (cómo respondemos a esa información) ba-
OBJETIVOS DE APRENDIZAJE
sada en tres principios fundamentales: Después de finalizar con éxito esta sesión serás capaz de:
1. Todo el trabajo ocurre en un sistema de procesos inter- 6. Explicar qué es una variable.
conectados. 7. Explicar las diferentes escalas de medición de una variable.
2. La variabilidad existe en todos los procesos. 8. Clasificar una variable en su escala de medición correcta.
3. Entender, caracterizar, cuantificar, controlar y reducir la 9. Distinguir entre variables discretas y continuas
10. Distinguir entre variables cualitativas y cuantitativas.
variabilidad son claves para el éxito.
A partir de esta definición, se puede decir que los ele- II. VARIABLES Y SUS MEDIDAS.
mentos esenciales del pensamiento estadístico son los pro- 2.1 ¿Qué es una Variable?
cesos, la variabilidad y los datos. La integración de estos
tres elementos hace posible el desarrollo del pensamiento En nuestra búsqueda del desarrollo del pensamiento es-
estadístico, que es la forma en que la información se ve, se tadístico es necesario estudiar y comprender el concepto de
procesa y se convierte en información que nos permite variable. En esta sección estudiaremos la naturaleza de las
aprender de los datos. Pensar en forma estadística implica variables y los tipos de datos con los que se trabaja en esta-
tomar conciencia de la variabilidad que existe y se transmi- dística. Cuando hablamos de datos nos referimos a infor-
te en los datos, así como de la incertidumbre originada por mación a partir de la cual se pueden extraer algunas conclu-
la variabilidad no explicada y tomarla en cuenta en cada siones que posteriormente nos servirán para la toma de
paso de acción para la toma de decisiones. decisiones.
Uno de los principales objetivos de este curso es desa- Por lo general, los datos se recolectan durante un estu-
rrollar en el futuro ingeniero el pensamiento estadístico, ya dio en particular y es común referirse a ellos como la serie
que esto le ayudará a visualizar la realidad que le rodea de de datos (o el conjunto de datos u observaciones). Toda
otra manera —con variabilidad— y poder así dirigir de serie de datos proporciona información sobre un grupo de
manera más adecuada sus esfuerzos de mejora en su am- elementos individuales que pueden ser personas, objetos,
biente de trabajo, ya sea a nivel estratégico (creando estra- eventos o cualquier otra entidad. Esta información usual-
tegias y comunicándolas, usando datos de diversas fuentes mente describe una o más características o atributos de
para la toma de decisiones o desarrollando sistemas de me- estos elementos. Llamaremos a estas características o atri-
dición de los procesos) a nivel directivo (desarrollando butos variables. Así, una variable es una característica o
proyectos estructurados, fijando metas que toman en cuenta atributo que puede asumir diferentes valores.
la variabilidad) o a nivel operacional (conoce la existencia Las variables por lo general se ordenan en tablas, con la
de la variabilidad, es capaz de analizarla y cuantificarla e finalidad de describir una situación de interés para el usua-
identifica oportunidades de mejora tomando en cuenta la rio de la información de una manera sencilla y práctica. Por
variabilidad). Sin lugar a duda, para lograr esto se requiere ejemplo, en la tabla 1 se muestran las mediciones hechas
6

por 12 inspectores de calidad para el diámetro de una pieza ya que la variable puede asumir un infinito número de valo-
de acero usando un micrómetro y un vernier. En este caso res entre dos longitudes dadas. Este tipo de variables están
la característica de interés es el diámetro de la pieza. A asociadas a procesos de medición que requieren de un ins-
pesar de que se está midiendo una sola pieza, las lecturas trumento para ser cuantificadas.
son diferentes para cada uno de los inspectores y más aún,
2.3 Escalas de Medición.
resultan ser diferentes según el tipo de instrumento utiliza-
do (la variabilidad en acción). Decimos entonces que el Además de clasificarse como cualitativas o cuantitati-
diámetro de la pieza es una variable. vas, las variables pueden ser clasificadas por como son
categorizadas, contadas o medidas. El proceso de medición,
Inspector Micrómetro Vernier en un sentido muy general, se puede definir como la asig-
1 0.150 0.151 nación de números a objetos y eventos de acuerdo con cier-
2 0.151 0.150
3 0.151 0.150 tas reglas. La manera de cómo se asignan esos números
4 0.151 0.152 determina el tipo de escala de medición.
5 0.152 0.151
6 0.151 0.150 En 1946 S. S. Steven introdujo un esquema muy elabo-
7 0.151 0.152 rado para la clasificación de variables, vigente aún en nues-
8 0.152 0.153
9 0.152 0.150 tros días, en el cual se definieron las diferentes reglas para
10 0.153 0.151 la asignación de números, las propiedades matemáticas de
11 0.151 0.151
las escalas resultantes, y las operaciones estadísticas que
12 0.151 0.151
Tabla 1
pueden aplicarse a las mediciones hechas en cada escala.
Mediciones hechas por 12 inspectores Steven propuso que una variable puede ser clasificada en
una de cuatro escalas: nominal, ordinal, de intervalo y de
2.2 Clasificación de las Variables. razón. Desde el punto de vista de las propiedades matemá-
ticas y estadísticas, la escala de medición más rudimentaria
Las variables se pueden clasificar como cualitativas
es la nominal y la más completa la de razón.
o cuantitativas. En las variables cualitativas ‒también co-
nocidas como categóricas‒ la medición describe un elemen- Escala Nominal: En esta categoría la característica o
to colocándolo en una categoría o grupo de acuerdo con variable de interés consiste en clases excluyentes según
alguna característica o atributo. Por ejemplo, si se clasifi- determinada propiedad. Además, no existe un orden lógico
can personas de acuerdo con el género ‒masculino o feme- particular para las distintas clasificaciones o categorías que
nino‒ entonces, la variable género es cualitativa. Otros resulten, es decir que los números asignados en esta escala
ejemplos de estas variables son la preferencia religiosa, el solo se usan como identificadores o nombres. Por ejemplo,
estado civil, la afiliación política, la etnia, el color de ojos y si nuestro estudio incluye la variable género, podríamos
el tipo de sangre. codificar a la categoría femenino como 1 y a masculino
como 2. Pero los números 1 y 2 representan categorías de
En el caso de las variables cuantitativas, las mediciones
datos: son simples identificadores de una cualidad que se
resultan en valores numéricos que podemos ordenar y reali-
está midiendo y son completamente arbitrarios ya que pue-
zar operaciones aritméticas con ellos. Por ejemplo, la va-
de usarse F o M o cualquier otra alternativa para la codifi-
riable edad es numérica y las personas pueden ser ordena-
cación. A este nivel, la operación matemática permitida es
das de acuerdo con su edad o podemos encontrar una edad
el conteo (o número de casos). Una vez que se han formado
promedio. Otros ejemplos de este tipo de variables son el
las clases y asignados los numerales a cada una de ellas, se
peso y la altura de una persona o su temperatura corporal.
puede determinar cuál es la clase más numerosa.
Las variables cuantitativas pueden ser clasificadas en dos
grupos: discretas y continuas. Escala Ordinal: Posee todas las características de la
escala nominal; pero, además, los datos o mediciones pue-
Las variables discretas pueden asumir valores como 0,
den ser colocados en categorías que pueden ordenarse de
1, 2, 3, ... por lo que se dice que son contables. Por ejemplo,
manera que reflejen diferentes grados o cantidades de la
el número de niños de una familia, el número de estudiantes
característica de interés. Los números representan una cua-
en el salón de clase y el número de llamadas que recibe un
lidad que se está midiendo y expresan si una observación
operador cada día durante un mes. Para este tipo de varia-
tiene más de la cualidad medida que otra. Por ejemplo, un
bles, el proceso de medición está asociado a conteos.
estudiante de inglés puede ser clasificado como básico,
Las variables continuas pueden asumir un numero infi- intermedio o avanzado, que codificamos con 1, 2 y 3 res-
nito de valores en un intervalo de números reales. Por pectivamente. En este caso 3 indica que una persona está
ejemplo, la longitud de una pieza es una variable continua más avanzada que un 2 o que un 1. Sin embargo, la distan-
7

cia entre puntos de la escala no es constante de manera que rentes técnicas del análisis estadístico, es necesario identifi-
no podemos determinar la distancia entre categorías. Por car previamente la escala de medición correspondiente, ya
ejemplo, ¿es la diferencia entre básico e intermedio la mis- que cada escala tiene sus propiedades matemáticas que
ma que entre intermedio y avanzado? No se puede saber, determinan el análisis estadístico apropiado en cada caso,
hay un cierto orden que puede interpretarse, pero no una de manera que los datos se puedan explorar conveniente-
cantidad mensurable. Además del conteo, en esta categoría mente, organizarlos, resumirlos, presentarlos y aprender de
se pueden ordenar los datos. ellos. La tabla 2 resume las principales características de las
escalas de medición.
Escala de Intervalo: Esta posee todas las característi-
cas de las dos escalas anteriores, con la propiedad adicional Escala Operación matemática permitida Operación estadística permitida
Nominal Conteo Frecuencia, Moda
de que las mediciones son generalmente números que re- Ordinal Ordenar Mediana, Rango
presentan magnitudes y la diferencia entre un par de ellos Intervalo Suma, Resta Media, Varianza
Razón Multiplicación, División Coeficiente de Variación
da un resultado significativo debido a la existencia de una Tabla 2
unidad de medida común y constante. Una limitante de esta Principales Características y Propiedades de las Escalas de Medición.
escala es que carece de un punto inicial o de referencia
SESIÓN 2.
absoluto que indique la ausencia de atributo, por lo que las
OBJETIVOS DE APRENDIZAJE
operaciones aritméticas de multiplicación y división no Después de finalizar con éxito esta sesión serás capaz de:
resultan adecuadas en esta escala. Por ejemplo, en el caso 11. Explicar qué es el EDA
de un termómetro cuyas lecturas son medidas en grados 12. Construir diagramas de barras para variables categóricas utili-
Celsius, el cero de esta escala (0°C) es arbitrariamente fija- zando R
do al punto al cual el agua se congela —a nivel del mar—. 13. Construir diagramas de barras para comparar dos o más series
En contraste, la ausencia de calor es decir la temperatura a de datos utilizando R.
la cual la actividad molecular cesa es aproximadamente 14. Extraer las principales características de una distribución de
−273°C. Como consecuencia, no podemos afirmar que datos a partir de un diagrama de barras.
0°C indique la ausencia de calor. Esta falta de un cero natu- 15. Construir histogramas para variables cuantitativas utilizando R
ral impide establecer que un día con 30°C sea tres veces 16. Extraer las principales características de una distribución de
datos a partir de un histograma.
más caliente que uno con 10°C, pero sí podemos decir que
17. Comparar las principales características de dos o más distribu-
la distancia entre 25°C y 30°C es la misma que la existente ciones de datos a partir de sus histogramas.
entre 20°C y 25°C. Si la temperatura en un lugar es de
20°C y en otro de 25°C podemos jerarquizar según lo frío o III. ANÁLISIS EXPLORATORIO DE DATOS (EDA).
caliente que son: el primero es más frío que el segundo ya
que la escala fija de medición (1°C) permite decir que el 3.1 ¿Qué es el EDA?
primer sitio es 5°C más frío que el segundo. En esta escala En ingeniería es común trabajar con datos que provie-
las diferencias y las sumas de datos tienen un significado nen de mediciones que han sido tomadas bajo condiciones
numérico racional, pero no la multiplicación y división. controladas (de laboratorio) para reducir la variabilidad con
Escala de Razón: Esta escala tiene todas las caracterís- el propósito de tomar alguna decisión. Por lo general, la
ticas de la escala de intervalo, pero, además, tiene un cero cantidad de datos es voluminosa y sin ningún significado a
natural que indica la ausencia del atributo. Esto tiene como primera vista, por lo que se hace necesario procesar los
consecuencia que —además de las operaciones lógicas de datos a fin de que puedan proporcionar la información re-
ordenación y comparación, las diferencias y las sumas— la querida por el usuario para la toma de decisiones.
división y multiplicación de datos tiene un sentido numéri- Para asegurarnos que las principales características de
co racional. Por ejemplo, la cantidad de litros de agua con-
una serie de datos (como patrones, diferencias, tendencias,
sumido por una persona en un día. Cero litros indica la anomalías) sean claramente descritas y resulten fáciles de
ausencia de la característica medida (la persona no ha con-visualizar, necesitamos de algunos «traductores» que nos
sumido agua ese día). Además, si alguien consume 2 litros permitan procesar todo este volumen de información de
de agua, podemos decir que ha consumido el doble de una manera que tenga un significado claro y menos complejo a
persona que haya consumido 1 litro ese mismo día. Otros una «escala humana». El enfoque conocido como EDA
ejemplos de este tipo de variables son: la altura de una per-
(Exploratory Data Analysis) es por hoy la mejor alternativa
sona, el diámetro de una pieza, el consumo de combustible con la que disponemos. Este enfoque nos permite procesar
de un automóvil y la presión sanguínea. esta gran cantidad de datos y «dibujar» una imagen general
En resumen ¿Por qué es importante conocer las escalas que nos permita entender cosas —y por lo tanto aprender—
de medición? Para entender y usar apropiadamente las dife- acerca de los datos.
8

El EDA es una manera de pensar —una filosofía de 2. Registre la frecuencia asociada f con cada categoría y, si
pensamiento— con respecto al análisis de datos. Esta ma- lo desea, su correspondiente frecuencia relativa (calcu-
nera de pensar requiere de ciertas técnicas, de ciertas mane- lada como un porcentaje del total de casos para cada una
ras de aproximarse a los datos —desde una cierta perspec- de las categoría). Incluya además el número total de da-
tiva— durante el análisis. Las técnicas del EDA son apro- tos o casos, n, al final de la tabla.
piadas tanto para datos cualitativos como para cuantitativos 3. Considerar las recomendaciones dadas en Effective
y su énfasis se centra en usar representaciones visuales que Tables and Graphs in Official Statistics (Guiadance for
revelen información vital sobre los datos que están siendo Producers) disponible en https://gss.civilservice.gov.uk/wp-
examinados. Visualizar es una forma de tratar de empezar a content/uploads/2014/12/Effective-graphs-and-tables-in-official-
interactuar con la información. Una buena visualización de statistics-version-1.pdf
datos permite descubrir algún tipo de relación, estructura o En el siguiente ejemplo se muestra cómo construir una
patrones que serían difíciles de describir a partir de los distribución de frecuencias y a partir de ella, el gráfico de
datos en bruto. En esta primera parte del curso nos centra- barras.
remos en las diferentes técnicas del EDA que buscan orga-
nizar y desplegar los datos gráficamente de manera que Ejemplo 2: En el artículo «Nearly Half of American
sean evidentes algunos valores distintivos de la serie de Adults are Smartphone Owners» (Pew Research Center,
datos tales como: valores centrales (aquellos valores que pewresearch.org, March 1, 2012) se examina el tipo de
parecen ocupar el centro de la serie de datos), valores ex- teléfono celular preferido por los adultos estadounidenses.
tremos (valores que parecen estar muy lejos de los valores Esta variable es categórica, y, por tanto, la única operación
centrales), conglomerados (grupos de datos muy cercanos matemática que podemos efectuar es contar; de manera que
entre sí), brechas (separaciones de magnitud considerable los resultados de la encuesta se pueden resumir a partir del
entre conglomerados), anomalías (algo que no encaja en un artículo en una tabla de distribución de frecuencias como
patrón) y la identificación de patrones globales (The big se muestra en la tabla 3.
picture). La aplicación de estas técnicas también determina- Tipo de Celular Preferido Frecuencia Frecuencia Relativa
rá en gran parte qué otras técnicas alternativas de análisis Android Smartphone 458 20.33%
pueden aplicarse posteriormente a los datos en estudio. iPhone Smartphone 437 19.40%
Blackberry Smartphone 141 6.26%
3.2 Distribuciones de Frecuencias y Gráficos para Celular no inteligente 924 41.01%
Variables Cualitativas. No posee teléfono celular 293 13.00%
Total 2253 100%
Distribuciones de Frecuencias y Gráfico de Barras Tabla 3
Distribución de Frecuencias para el ejemplo 2
En esta sección estudiaremos cómo las distribuciones Fuente: www.pewinternet.org/wp-
de frecuencia y los gráficos de barra pueden ser usados para content/uploads/sites/9/media/Files/Reports/2012/Smartphone-ownership-
resumir datos categóricos. Ambas técnicas están íntima- 2012.pdf
mente ligadas: a partir de una distribución de frecuencias Por lo general, la información en la distribución de fre-
construimos el gráfico de barras y a partir de un gráfico de cuencias resulta más ilustrativa si se calculan las frecuen-
barras debería ser fácil visualizar la distribución de fre- cias relativas de los conteos (también conocidas como pro-
cuencias que le dio origen. Para construir la distribución de porciones). Por ejemplo, para la categoría Android Smartp-
frecuencias siga los siguientes pasos: hone la frecuencia relativa se calcula como el cociente
1. Liste las categorías que componen las variables. Re- 458⁄2253 = 0.2033 que equivale al 20.33%. De manera
cuerde que la única operación que puede hacer con las similar se calculan las demás frecuencias relativas como se
variables categóricas es contar, y que el orden en que se muestra en la tabla 3. La proporción es un resumen estadís-
listen las categorías es irrelevante. Sin embargo, para tico que nos permite hacer comparaciones sin hacer refe-
evitar algún tipo de sesgo o tendencia que pueda generar rencia al total de observaciones. Así, sabemos que la pro-
algún tipo de mala interpretación, se recomienda listar- porción de adultos que no poseen teléfono celular es del
las categorías alfabéticamente, o en orden descendente o 13.00 %. Si no hacemos uso de la proporción tendríamos
ascendente de la frecuencia. que decir que 293 de un total de 2253 adultos no usan telé-
fono.
9

A partir de la distribución de frecuencias podemos Android o iPhone, pero es evidente que la proporción de los
construir fácilmente el gráfico de barras, que no es más que que prefieren Blackberry es menor que estas dos. Un pe-
una representación gráfica de esta tabla, que nos permite queño grupo de adultos no poseen teléfono celular.
visualizar la distribución de los datos, es decir cómo se
distribuyen los datos a través de las diferentes categorías
que pueden observarse, o comparar visualmente dos o más
series de datos según alguna característica de interés. En la
figura 5 se muestra el gráfico de barras para el ejemplo 2 y
en la figura 6 se muestra el diagrama de frecuencias relati-
vas.

Figura 6

Gráfico de Barras Comparativo


Los gráficos de barras también pueden ser usados para
comparar visualmente dos o más grupos. Esto se logra
construyendo dos o más gráficos de barras usando el mismo
Figura 5 par de ejes horizontal y vertical.
Ejemplo 3: El artículo «The Need to Be Plugged In»
Análisis: El gráfico de la figura 6 muestra que cerca de
(Associated Press, December 22, 2005) describe una en-
la mitad (46%) de los adultos estadounidenses prefieren
cuesta donde participaron 1006 adultos. En ella se explora
Smartphones. De éstos, los basados en sistemas Android y
qué tan esenciales se consideran algunas tecnologías como
los iPhone son los preferidos con un porcentaje cercano al
las computadoras, celulares y lectores de DVD. La tabla 4
20% cada uno, seguidos por los Blackberry con menos del
resume las respuestas expresadas como frecuencias relati-
10%. Cerca del 40% prefiere usar celulares no inteligentes.
vas.
Finalmente, un poco más del 10% no poseen celulares1.
Nota: todo análisis de este tipo de variables debe de incluir: ten- Una forma de comparar dos o más variables cualitativas
dencias (el reparto casi igual de los Android y iPhone), anomalías (el es por medio de un gráfico de barras comparativo. En este
alto porcentaje de personas que usan celulares no inteligentes) y toda tipo de gráfico debe usarse siempre las frecuencias relativas
información que ayude al usuario de la información a dibujar un pano- en lugar de las frecuencias absolutas para construir la escala
rama completo del comportamiento de los datos (the big picture).
del eje vertical ya que esto permitirá hacer comparaciones
Es importante mencionar que no existe un análisis úni- que tengan sentido, aunque los tamaños de los grupos de
co para una serie de datos. El objetivo de este apartado es estudio sean diferentes.
desarrollar en el estudiante la capacidad de describir el Respuesta PC Celular DVD
panorama general que él visualiza en los datos, que por No podría vivir sin 0.46 0.41 0.19
supuesto varía de individuo en individuo y ahí radica su Podría vivir sin 0.28 0.25 0.35
carácter no único. En este sentido, otra posible interpreta- Definitivamente podría vivir 0.26 0.34 0.46
ción de la figura 6 es la siguiente: La mayoría de los adul- sin
tos prefieren teléfonos celulares no inteligentes. De los que Tabla 4:
Datos para el ejemplo 3
prefieren teléfonos inteligentes no parece haber una dife-
rencia significativa entre los que prefieren dispositivos En la figura 7 se muestra el gráfico de barras compara-
tivo. Las tecnologías se muestran como las categorías en el
1 eje horizontal y en el eje vertical se colocan las proporcio-
Una consecuencia inevitable del uso de gráficos es la «pérdida» de precisión en la informa-
ción. Note como en el análisis se habla de cantidades aproximadas (cerca de la mitad, porcen- nes o frecuencias relativas.
taje cercano al 20%, cerca del 40%, un poco más del 10%). Esto en realidad no es una limitan-
te de los métodos gráficos, ya que el objetivo de su uso es hacernos un panorama general (The Análisis: El gráfico sugiere que resulta más difícil
big picture) del comportamiento de los datos y para eso no interesan las cantidades exactas
sino las tendencias. Por supuesto, es una buena práctica siempre citar la fuente o proporcionar prescindir de las computadoras personales y los teléfonos
la tabla de frecuencias en caso de que algún lector desee más detalle en la información. Por lo celulares que de los DVD.
general, gastar esfuerzo en calcular las cantidades exactas a partir de un gráfico es una tarea
que se volverá tediosa y de poco aporte para el EDA.
10

Tabla 5:
Datos para el ejemplo 4

Solución: para construir la distribución de frecuencias


seguiremos los siguientes pasos:
1. Encuentre el mayor y el menor de los valores en la
serie de datos. Para nuestro ejemplo estos valores son
Figura 7. Diagrama de barras comparativo para el ejemplo 3.
99 y 51 respectivamente.
2. Calcule el Rango de los valores restando el menor valor
En la figura 8 se muestra otra alternativa para comparar del mayor. 𝑅 = 𝑚𝑎𝑥 − 𝑚𝑖𝑛 = 99 − 51 = 48.
los datos del ejemplo 3. Este se conoce como diagrama de 3. Calcule el número de clases que usará. La cantidad
barras apilado. En este caso, las barras se apilan una sobre 2𝑘 = 𝑛 se usa a menudo para estimar el número de cla-
otra para cada una de las categorías. ses conociendo el total de datos disponibles. En nuestro
caso 2𝑘 = 50. Con 𝑘 = 5 obtenemos 32 y con 𝑘 = 6
obtenemos 64. Seleccionamos este último valor por es-
tar más cerca de 50. Entonces usaremos 6 clases. Se re-
comienda usar entre 5 y 20 clases.
4. Determine el ancho de clases por medio de la ecuación
𝑐 = 𝑅⁄𝑘 = 48⁄6 = 8. En este paso, si el resultado no
es un número entero redondee al siguiente entero. Adi-
cionalmente, para asegurarnos de que las clases inclu-
yan a todos los datos este resultado lo aproximaremos
siempre al entero siguiente, por lo que el ancho de clase
que usaremos será de 9.
5. Construya el primer intervalo sumando al valor menor
(51) el ancho de clase (9). Entonces, nuestro primer
Figura 8: Diagrama de barras apilado para el ejemplo 3 intervalo irá desde 51 hasta 60. El siguiente de 60 hasta
69 y así sucesivamente hasta el último intervalo que va
También resulta muy común construir ambos tipos de grá-
desde 96 hasta 105.
ficos en forma horizontal.

3.3 Distribuciones de Frecuencias y Gráficos para Varia-


bles Cuantitativas. Sin embargo, debemos acomodar estas clases de la si-
En el caso de variables cuantitativas, usaremos las dis- guiente manera: restamos 1 del límite superior de la
tribuciones de frecuencias e histogramas para estudiar su primera clase: 60-1=59. Entonces, la primera clase es
comportamiento. En el ejemplo 4 se muestra el procedi- 51-59, la segunda 60-68 y así sucesivamente como se
miento para construir una distribución de frecuencias y el muestra en la siguiente tabla.
histograma.
Ejemplo 4: En la tabla 5 se muestran las notas de 50
alumnos de Probabilidad y Estadística correspondientes a la
primera evaluación. Construya una distribución de frecuen-
cias para la nota de los estudiantes. (Las notas se han mul-
tiplicado por 10 por facilidad).
11

6. Finalmente, contamos cuantos de los datos correspon- o relativas. En este caso como se trata de analizar las notas
den a cada uno de los intervalos y anotamos el resulta- de los alumnos usaremos las frecuencias absolutas. El his-
do en la columna de frecuencias absolutas. En la tabla 6 tograma se muestra en la figura 9.
se muestran los resultados obtenidos y el cálculo de las
¿Qué información nos proporciona el histograma? Po-
frecuencias relativas. Las marcas de clase son el punto
demos obtener las mismas conclusiones que ya hemos
medio de cada una de las clases. Por ejemplo, la marca
51+59 mencionado con anterioridad a partir de la distribución de
de clase para la primera clase es 2 = 55. Estas frecuencias, pero «de otra manera». Retomemos las ideas
marcas de clase suelen emplearse como valores repre- principales y explicaremos como obtenerlas a partir del
sentativos de su respectiva clase. Por ejemplo, podemos gráfico:
decir que un valor representativo de los 20 datos com-
prendidos en la cuarta clase es 82.
Límites de 𝑓 𝑓𝑟 (%) Marca de Clase
Clase
51 – 59 2 4 55
60 – 68 5 10 64
69 – 77 11 22 73
78 – 86 20 40 82
87 – 95 10 20 91
96 – 104 2 4 100
Totales 50 100
Tabla 6
Distribución de frecuencias para el ejemplo 4

¿Qué información nos proporciona una distribución de


frecuencias? Organizar los datos de esta manera permite
hacernos una idea general e inmediata del comportamiento
de las notas de los alumnos. Por ejemplo, la nota más fre-
cuente está entre 7.8 y 8.6 y un valor representativo de esta
nota es 8.2 que es la marca de clase. Hay dos estudiantes
con notas sobresalientes entre 9.6 y 10.0, casi el doble de la Figura 9
nota que obtuvieron los dos alumnos con menor nota, pero
solo representan un 4 % de los estudiantes. Si consideramos 1. La nota más frecuente está entre 7.8 y 8.6 y un valor
que 6.0 es la nota requerida para aprobar el examen, pode- representativo de esta nota es 8.2. En el histograma, es-
mos decir que la mayoría de los estudiantes (48) aprobaron to se refleja en la barra con mayor altura. No olvide
el examen, lo cual representa un 96 % de aprobados. (Re- usar los límites de clase en lugar de los reales (sino di-
cuerde que al inicio hemos multiplicado por 10 los datos, ríamos que la nota más frecuente está entre 7.75 y 8.65,
por lo que hay que tener en cuenta eso a la hora de obtener lo cual sería incorrecto ya que las notas no están repor-
conclusiones). tadas hasta la centésima)
Representación Gráfica de una Distribución de Frecuen- 2. Hay dos estudiantes con notas sobresalientes entre 9.6
cias. y 10.0, casi el doble de la nota que obtuvieron los dos
alumnos con menor nota, pero solo representan un 4 %
Para representar gráficamente una distribución de fre- de los estudiantes. En el histograma esto se ve en la úl-
cuencias usaremos el histograma de frecuencias, un gráfico tima barra a la derecha. A menudo, como en este caso,
muy parecido al gráfico de barras que construimos en la la lectura en el eje 𝑦 resulta un poco difícil a simple
sección anterior. La diferencia más importante es que en el vista, por lo que establecer esta relación de «casi el do-
histograma, ambos ejes poseen escala ya que vamos a ble» resulta un tanto difícil. Sin embargo, esto no re-
representar variables cuantitativas. presenta una limitación del gráfico, ya que, como he-
mos mencionado antes, una información tan detallada
Iniciamos introduciendo el concepto de limites reales
por lo general no es necesaria, bastará con decir que
de clase. Estos se obtienen restando 0.5 a los límites infe-
hay «muy pocos estudiantes» con notas sobresalientes.
riores de clase y sumando 0.5 a los superiores. Luego mar-
Si usamos las frecuencias relativas estas comparaciones
camos en el eje 𝑥 los límites reales de clases y levantamos
resultan más fáciles. En lo subsiguiente se recomienda
barras con altura proporcionales a las frecuencias absolutas
12

el uso de las frecuencias relativas para facilitar el análi-


sis.
3. Si consideramos que 6.0 es la nota requerida para apro-
bar el examen, podemos decir que la mayoría de los es-
tudiantes (48) aprobaron el examen, lo cual representa
un 96 % de aprobados. En el histograma a lo mejor no
Figura 11
logramos tanta precisión, así que esta información po-
dría quedar como: Si consideramos que 6.0 es la nota 2. La simetría: Un histograma es simétrico si existe una
requerida para aprobar el examen, podemos decir que línea vertical tal que la porción del histograma a la iz-
la mayoría de los estudiantes aprobaron el examen (lo quierda de esta línea es similar a la porción que está
cual resulta evidente porque hay mayor cantidad de ba- a la derecha (a). Si esta línea no existe, entonces el his-
rras a la derecha de 6.0. tograma tendrá un sesgo a la derecha (b) o a la izquier-
En resumen, del histograma se puede obtener la misma da (c). se suele referir a esta característica como la for-
información que de una distribución de frecuencias, pero ma de la distribución.
«de otra manera». Esta otra manera de hacerlo por lo gene-
ral implica la perdida de precisión; es decir, un menor deta-
lle de la información, lo cual, como se ha explicado antes,
no es una limitante, sino más bien un componente básico
del pensamiento estadístico: el saber describir a grandes
rasgos y de manera rápida el escenario al que nos transporta
una serie de datos (The big picture). Figura 12: Simetría de una distribución de datos.
Características de una Distribución de Datos 3. La variabilidad: ¿Se agrupan los datos alrededor de su
Hay un aspecto muy importante que revela el histogra- valor representativo o se dispersan a lo largo del eje 𝑥?
ma: la forma o perfil de la distribución de los datos, lo cual estas preguntas tienen que ver con la variabilidad de los
nos proporciona una herramienta más de análisis. En las datos en una distribución, que en el histograma se ve en
secciones siguientes veremos que la forma de la distribu- el «ancho» que este tiene. En (a) se muestran dos dis-
ción determina el método estadístico apropiado que debe tribuciones que tienen el mismo valor central, pero tie-
usarse para analizar los datos. Al describir la forma de la nen diferente variabilidad (la distribución más «alta»
distribución resulta conveniente aproximar el histograma tiene una menor variabilidad). En (b) se muestran dos
por una curva suavizada, tal como en la figura 10. distribuciones con diferente variabilidad, y con diferen-
te valor central.

Figura 10: Histograma Suavizado


Figura 13: Variabilidad en una Distribución de Datos
Una distribución puede ser caracterizada de muchas
formas, pero para los propósitos de este curso nos bastarán Con respecto al ejemplo 4, ¿Que nuevas características
algunas de ellas y nos centraremos en las siguientes carac- posee la distribución de notas? Al observar el histograma
terísticas: (figura 9), notamos que es unimodal (por lo general este
1. El número de picos o modas: Una distribución de datos será el caso más común, de manera que puede omitirse del
puede ser unimodal, si tiene un pico (a), bimodal, si análisis y solo hacer referencia a esta característica si el
tiene dos picos (b) y multimodal si tiene más de dos pi- histograma es bimodal o multimodal), además posee un
cos (c). Para el desarrollo de este curso nos centraremos sesgo a la izquierda, lo cual indica que la mayoría de las
exclusivamente en distribuciones unimodales. puntuaciones fueron altas.
13

Uso de Histogramas para Comparar dos Series de Datos. sentativo está entre 2 y 4 horas, y entre 0 y 2 horas para el
grupo de tres años. Ambos histogramas presentan un sesgo
Si se desea comparar dos series de datos se recomienda
a la derecha, lo cual nos indica que existe un pequeño gru-
usar siempre las frecuencias relativas para construir el his-
po de niños que ven mucha TV (entre 14 y 16 horas)
tograma, ya que los grupos que compara podrían ser de
tamaños diferentes. Otro aspecto importante es usar las Resumen: las ideas principales de esta sección son:
mismas escalas en ambos gráficos para hacer que las com-
paraciones se vuelvan más fáciles. 1. Cuando se analicen variables cualitativas usaremos
gráficos de barras para representarlas en forma gráfica.
Ejemplo 5: El artículo «Early Television Exposure and En este tipo de gráfico el orden en que se listen las ca-
Subsequent Attention Problems in Children» investiga los tegorías es irrelevante.
hábitos televisivos de los niños de EU. Los datos fueron 2. Cuando se analicen variables cuantitativas usaremos
obtenidos en un estudio a nivel nacional. En la tabla 7 se histogramas de frecuencias relativas para representarlas
muestran las frecuencias relativas aproximadas para el nú- en forma gráfica. Las características que buscamos re-
mero de horas frente a la TV por día para niños de uno y saltar son: el valor representativo (el centro) de la dis-
tres años. Construya un histograma para cada variable y tribución de datos y su posible simetría o asimetría.
compare sus características más importantes.
Horas frente a la TV por día Un año Tres años SESIÓN 3.
0a2 0.270 0.630 OBJETIVOS DE APRENDIZAJE:
2a4 0.390 0.195
4a6 0.190 0.100 Después de terminar con éxito esta sesión serás capaz de:
6a8 0.085 0.025 18. Explicar qué son las medidas de tendencia central.
8 a 10 0.030 0.020
10 a 12 0.020 0.015 19. Explicar cuál medida de tendencia central describe de mejor manera
12 a 14 0.010 0.010 una serie de datos.
14 a 16 0.005 0.005 20. Calcular las medidas de tendencia central de una serie de datos.
Tabla 7 21. Explicar qué son las medidas de dispersión.
Datos para el Ejemplo 5 22. Utilizar las medidas de tendencia central y dispersión para describir
una serie de datos.
Solución: Intentar comparar ambas variables a partir de
la tabla resulta un tanto complicado, pero si construimos 3.4 Midiendo el Centro y la Dispersión de una Dis-
histogramas para ambas variables aparecen las característi- tribución de Datos.
cas que buscamos. En la figura 14 se muestran ambos his-
togramas. Observe la importancia de usar la misma escala Las técnicas aprendidas en las secciones anteriores nos
en el sistema de ejes coordenados, lo cual nos permitirá permiten realizar un análisis visual de los datos, lo cual
hacer comparaciones que tengan sentido. resulta ser una excelente técnica para obtener impresiones
preliminares. Un análisis más formal requiere del cálculo
Análisis: En ambos grupos de edades el tiempo frente a de números que nos resuman algunas de las características
la TV es pequeño. Para el grupo de un año, un valor repre- más importantes de la distribución de datos. Nos centrare-

Figura 14
14

mos en dos de estas características: el centro y la variabili- decidir si la distribución es simétrica o no. El histograma se
dad. El centro responde a la pregunta ¿dónde está centrada muestra en la figura 15.
la distribución de datos a lo largo de una escala o eje de
450.97 437.70 433.75 444.96 448.24
valores? Por su parte, la variabilidad describe cómo es la 432.70 429.83 446.96 449.03 419.53
dispersión de los datos, es decir ¿son muy similares entre 454.81 450.83 470.04 456.21 472.13
sí? o ¿difieren significativamente entre sí? Esto nos lleva a 442.95 434.90 435.13 454.77 448.28
las siguientes dos definiciones: 449.22 466.95 444.55 448.90 445.76
445.41 451.04 449.28 448.74 436.22
Definición: Una medida de tendencia central describe 440.49 465.09 445.04 461.53 438.96
dónde se ubica la distribución de datos a lo largo de una 448.29 437.54 433.59 463.35 469.28
458.10 429.22 459.67 461.06 446.88
escala numérica. Además, nos proporciona información 451.07 473.82 458.59 442.54 455.69
sobre lo qué es «típico o representativo» de la distribución. Tabla 8.
Datos para el ejemplo 6.
Definición: Una medida de dispersión describe qué
tanta variabilidad existe en una distribución de datos. Ade-
más, nos proporciona información sobre qué tanto los valo-
res individuales tienden a diferir unos de otros.
Midiendo el Centro de una Distribución de Datos Aproxi-
madamente Simétrica.
Cuando una distribución es aproximadamente simétri-
ca, la mejor manera de describir el centro es con la media y
la mejor manera de medir la dispersión es con la desviación
estándar.
La media aritmética. Matemáticamente, la media
aritmética o simplemente media o promedio, es la suma de
todos los valores dividida por el número total de observa-
ciones. En el cálculo de la media se utiliza la siguiente no-
tación: Sean:
Figura 15: Distribución de los diámetros para el ejemplo 6
𝑥: la variable de interés.
𝑛: número de observaciones. Como la distribución de los diámetros resulta ser apro-
𝑥1 : la primera observación del conjunto de datos. ximadamente simétrica, la media es una opción razonable
𝑥2 : la segunda observación del conjunto de datos. para describir el centro de la distribución. Entonces, el diá-
⋮ metro promedio es:
𝑥𝑖 : la i-ésima observación del conjunto de datos 450.97+⋯+455.69 22439.59
𝑥̅ = = = 448.79 milímetros.
50 50

𝑥𝑛 : la n-ésima observación del conjunto de datos. Interpretación: El valor calculado de 448.79 describe
Entonces la media se calcula de la siguiente manera: dónde se centra el valor del diámetro de las piezas a lo lar-
go del eje 𝑥, y se puede interpretar como un diámetro típico
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖 o representativo del conjunto de datos, de tal manera que,
𝑥̅ = = para describir este conjunto de 50 datos, ya no hace falta
𝑛 𝑛
hacer referencia a cada uno de ellos, bastará con reportar a
Ejemplo 6: El diámetro, en milímetros, de 50 piezas un «representante» de todos ellos: la media. En este sentido
usadas para el ensamblaje de un sistema de enfriamiento se podemos decir que el valor representativo del conjunto de
muestra en la tabla 8. Calcule e interprete la medida de datos es 448.79 milímetros.
tendencia central más adecuada para los diámetros de las 50
piezas. Una interpretación física de la media es la siguiente:
imagine que podemos recortar el histograma y luego bus-
Solución: Según las técnicas del EDA descritas hasta el camos un punto sobre el eje 𝑥 donde se equilibre (el centro
momento es necesario construir el histograma para la serie de gravedad) este punto resultará ser la media (tal como se
de datos ya que esto proporciona una representación visual muestra en la figura 16).
a cerca de la distribución de los diámetros que permitirá
15

Entonces, ¿cómo podemos cuantificar esta variabili-


dad? La medida de variabilidad más simple es el rango, que
se define como la diferencia entre el mayor valor y el me-
nor valor:
𝑅 = 𝑚𝑎𝑥 − 𝑚𝑖𝑛.
Si bien esta medida es fácil de calcular, no resulta ser
una buena medida de la variabilidad. Por ejemplo, la serie
A y B tienen el mismo rango 𝑅 = 100 − 50 = 50, pero la
serie A tiene más variabilidad que la serie B, por lo que el
Figura 16: Interpretación física de la media
rango no es una buena medida de la dispersión.

Midiendo la Variabilidad de una Distribución de Datos


Aproximadamente Simétrica.
Al reportar la medida del centro de una distribución de
datos solamente se da una información parcial a cerca del
conjunto de datos. También es importante describir cuánto
difieren las observaciones unas de otras. Por ejemplo, con-
sidere las tres series de datos siguientes:
A: 50,70,80,60,90,100
B: 75,75,50,75,100,75
C: 75,70,75,80,75,75 Figura 17

Cada una de estas series de datos tiene una media de Debido a situaciones como estas, el rango se usa muy
75, es decir que el centro de las tres distribuciones es el poco como medida de dispersión. Es mejor considerar me-
mismo. No habría diferencia alguna entre las tres distribu- didas de variabilidad que incluyan a todas las observacio-
ciones si las describimos sólo midiendo su centro. nes (y no sólo los dos valores extremos).
Noción intuitiva de dispersión. Desviaciones con respecto a la media.
La dispersión es una característica de un conjunto de La medida de variabilidad más usada se basa en medir
datos que se utiliza sobre todo para analizar la variabilidad cuánto se desvía cada observación con respecto a la media.
respecto a una medida de posición central. En general, po-
𝑥𝑖 − 𝑥̅
demos decir que es un indicador de qué tan separados están
los datos entre sí o el grado que una variable se extiende Una desviación a partir de la media es positiva, si la co-
alrededor del centro o de la distribución. rrespondiente observación es mayor que la media. Y nega-
En la figura 17 se muestra el diagrama de puntos para tiva, si la observación es menor que la media. En general,
las tres series de datos. Este diagrama es una excelente cuando una serie de datos tiene una gran variabilidad, las
herramienta que nos permite visualizar en forma gráfica la observaciones tienden a desviarse mucho de la media. Esto
variabilidad y cómo esta se relaciona con la dispersión de se reflejará en el cálculo de la desviación con respecto a la
las observaciones (que tan cerca o alejadas están entre sí). media y es por esta razón que las desviaciones con respecto
A medida que nos desplazamos hacia abajo en la gráfica, la a la media se pueden combinar para obtener una medida
variabilidad de las distribuciones aumenta. En la serie C, global de la variabilidad.
los datos están más cercanos entre sí, por lo que la variabi- Varianza y Desviación Estándar.
lidad es menor. En la serie B, dos de los datos se han des-
plazado hacia los extremos, aumentando la distancia entre Cuando la distribución de datos es aproximadamente
los datos y por tanto la variabilidad. En la serie A, todos los simétrica, las dos medidas de dispersión más usadas son la
datos se han reacomodado de modo que la distancia entre varianza y la desviación estándar. Ambas medidas de va-
ellos ha aumentado, causando la mayor variabilidad de las riabilidad se basan en las desviaciones con respecto a la
tres distribuciones. media.
16

La varianza de una serie de datos, denotada por 𝑠 2 , es están más cercanas a la media que esta cantidad, y otras
la suma de las desviaciones cuadradas con respecto a la más lejanas, pero «en promedio», se desvían 18.71 dólares.
media divididas por 𝑛 − 1. Media y Desviación Estándar Juntas.
2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 Además de cuantificar, dando una indicación de la va-
𝑠 =
𝑛−1 riabilidad de la serie de datos, una medida de dispersión es
La desviación estándar de una serie de datos, denota- necesaria para completar la información obtenida con una
da por 𝑠, es la raíz cuadrada positiva de la varianza medida de tendencia central. En general podemos utilizar el
siguiente esquema:
∑𝑛 (𝑥𝑖 − 𝑥̅ )2
𝑠 = √𝑠 2 = √ 𝑖=1
𝑛−1

Ahora estamos en capacidad de cuantificar la variabili-


dad de las tres series de datos:
Serie A:
(50−75)2 +(70−75)2 +(80−75)2 +(60−75)2 +(90−75)2 +(100−75)2
𝑠𝐴2 =
6−1

(−25)2 +(−5)2 +(5)2 +(−15)2 +(15)2 +(25)2 1750


𝑠𝐴2 = = = 350
5 5

Serie B:
(75−75)2 +(75−75)2 +(50−75)2 +(75−75)2 +(100−75)2 +(75−7 5)2
𝑠𝐵2 =
6−1 Ejemplo 7: Describiendo una distribución aproxi-
(0)2 +(0)2 +(−25)2 +(0)2 +(25)2 +(0)2 1250 madamente simétrica.
𝑠𝐵2 = = = 250
5 5
Un laboratorio de pruebas desea comparar dos marcas
Serie C: de pintura para exteriores para determinar el tiempo antes
(75−75)2 +(70−75)2 +(75−75)2 +(80−75)2 +(75−75)2 +(75−75)2 de que se decoloren. Debido a que las marcas tienen agen-
𝑠𝐶2 = tes químicos diferentes y caros, se probaron únicamente 6
6−1

(0)2 +(−5)2 +(0)2 +(5)2 +(0)2 +(0)2 50


galones de cada una de las marcas. los resultados (en me-
𝑠𝐶2 = = = 10 ses) son los siguientes:
5 5

Estos resultados confirman lo que ya antes se había in- Marca A Marca B


tuido visualmente sobre la variabilidad de cada una de las 10 35
60 45
series, pero ahora de manera cuantitativa. 50 30
Las unidades de la varianza resultan difíciles de inter- 30 35
40 40
pretar intuitivamente debido a que genera unidades cuadra- 20 25
das. Por ejemplo, si los datos representan cantidades de Tabla 9.
dinero (en dólares) se dice que la varianza de la serie C es Datos para el ejemplo 7
de 10 𝑑ó𝑙𝑎𝑟𝑒𝑠 2 ¿Cómo se interpretan estas unidades de ¿Cuál de las pinturas es mejor y por qué?
manera que resulten intuitivas? Una solución es utilizar la
desviación estándar en lugar de la varianza ya que la raíz Solución: Si se siguen los tres pasos sugeridos en la fi-
cuadrada regresa a las unidades originales. Así, se puede gura 18 tenemos:
decir que la serie A tiene una desviación estándar de 18.71
Explore:
dólares, la B de 15.81 dólares y la C de 3.16 dólares.
Verifique si la distribución de datos es aproximadamente simétrica. Suge-
La desviación estándar puede ser interpretada infor- rencia: si tiene 30 o más datos construya un histograma. Si tiene menos
de 30 datos construya un diagrama de puntos.
malmente como «el tamaño de una desviación típica o re-
presentativa» con respecto a la media. Para la serie A, una
La distribución de los datos resulta ser aproximadamen-
desviación representativa con respecto a la media es de
te simétrica, como lo muestra la figura 19.
aproximadamente 18.71 dólares. Algunas desviaciones
17

en el centro de la lista, dividiéndola en dos partes iguales.


Cuando el número de datos es impar, la mediana será el
dato que se ubica en el centro. Pero si el número de datos es
par la mediana es el promedio de los dos datos centrales.
Por ejemplo, considere las siguientes puntuaciones:
8, 10, 11, 13, 16
Como el número de datos es impar, la mediana es el da-
to que se ubica en el centro de la lista. Por tanto 𝑥̃ = 11
(Note que antes de 11 hay dos datos y después de 11 tam-
Figura 19
Calcule: bién hay dos datos).
Utilice alguna herramienta tecnológica que permita realizar los cálcu-
Si ahora consideramos la siguiente serie:
los con facilidad. Sin embargo, es importante que pueda realizar los
cálculos a mano, aunque en la práctica no lo haga así. 8, 10, 11, 13, 16,17
Ma rca A (x − x ) (x − x ) 2
ma rca B (x − x ) (x − x ) 2
notamos que no hay un dato en el centro sino dos. En este
10 -25.0 625 35 0.0 0.0 11+13
60
caso 𝑥̃ = 2 = 12. De nuevo, hay tres datos antes de la
25.0 625 45 10.0 100.0
50 15.0 225 30 -5.0 25.0 mediana y 3 después de ella.
30 -5.0 25 35 0.0 0.0
En una distribución de datos, la mediana divide la curva
40 5.0 25 40 5.0 25.0
en dos áreas iguales tal como lo muestra la figura 20
20 -15.0 225 25 -10.0 100.0
Totales 210 0.0 1750 210 0.0 250.0

Marca A:
∑ 𝑥𝑖 210
𝑥̅𝐴 = = = 35.0 𝑚𝑒𝑠𝑒𝑠
𝑛 6

∑(𝑥−𝑥̅ )2 1750 50% de 50% de


𝑠𝐴2 = = = 350 𝑚𝑒𝑠𝑒𝑠 2
𝑛−1 5
Área Área
𝑠𝐴 = √𝑠𝐴2 = √350 = 18.7 𝑚𝑒𝑠𝑒𝑠 𝑥̃
Figura 20
Marca B:
∑ 𝑥𝑖
La mediana es una medida apropiada de la tendencia
210
𝑥̅𝐵 = = = 35.0 𝑚𝑒𝑠𝑒𝑠 central si la escala de medición de la variable es al menos
𝑛 6
ordinal. No tendría sentido, por ejemplo, decir que el «café
∑(𝑥−𝑥̅ )2 250
𝑠𝐵2 = = = 50 𝑚𝑒𝑠𝑒𝑠 2 latte» es la bebida preferida mediana ya que esta variable es
𝑛−1 5
categórica.
𝑠𝐵 = √𝑠𝐵2 = √50 = 7.1 𝑚𝑒𝑠𝑒𝑠
La mediana tiene una propiedad muy importante que la
Interprete: hace particularmente atractiva como medida de tendencia
central para cierto tipo de distribuciones. Como es el valor
En promedio, el tiempo de duración de ambas pinturas para exteriores
parece no tener diferencia. Sin embargo, la desviación estándar para la
que está en el centro de la distribución, la mediana depende
marca B es menor, indicando una menor variabilidad que la marca A, por lo
que concluimos que la marca B es mejor que la A. del número de valores por debajo y encima de ella, y no de
qué tan separados estén los datos entre sí. Para ilustrar esta
Midiendo el Centro de una Distribución de Datos Sesgada. propiedad consideremos la serie 8,10,11,13,16 pero cam-
Cuando la distribución de los datos no es simétrica, la biemos el último dato por 160:
media no es una buena alternativa para describir el centro. 8,10,11,13,160
Una mejor alternativa en este caso es una medida llamada
la mediana. A pesar del cambio, la mediana sigue siendo 11, ya que
la mediana es insensible al cambio en los valores extremos,
La Mediana una ventaja cuando se desea medir el centro de una distri-
Una vez que los datos han sido ordenados de menor a bución que tiene un sesgo evidente.
mayor, la mediana, simbolizada por 𝑥̃, es el valor que está
18

Ejemplo 8: Describiendo una distribución sesgada. Los cuartiles dividen la distribución de datos en cuatro
partes de más o menos el mismo tamaño, tal como lo mues-
Cuarenta estudiantes de un curso de Probabilidad y Es-
tra la figura 22. Cada parte se conoce como cuartil.
tadística fueron monitoreados para conocer qué tan a me-
nudo consultan el material puesto en el aula virtual. Los
resultados (el número de veces que cada alumno accede al
material) fueron los siguientes:
20 22 5 42 36 36 13 0
0 0 8 0 7 0 331 21
4 12 20 14 14 8 8 0
13 4 13 19 4 5 16 26
37 3 23 84 12 18 19 7
Tabla 10.
Datos para el ejemplo 8.

La distribución de datos es sesgada a la derecha, como 𝑄1 𝑄2 𝑄3


se ve en la figura 21. Figura 22

La primera de estas partes, 𝑄1 , separa el 25% más pe-


queño de los datos del 75% más grande. 𝑄2 separa el 50%
más pequeños de los datos del 50% más grande. Por defini-
ción 𝑄2 = 𝑥̃. 𝑄3 separa el 25% más grande de los datos del
75% más pequeño. Sus valores se calculan dividiendo los 𝑛
datos en una mitad inferior y una mitad superior. Los cuar-
tiles inferior y superior son las medianas de estos dos gru-
pos respectivamente. Los cálculos se muestran a continua-
ción:
Mitad Inferior:
0 0 0 0 0 0 3 4 4 4 5 5 7 7 8 8 8 12 12 13

4+5
Q1 = = 4.5
2

Figura 21 Mitad Superior:


La mediana de la serie de datos resulta ser 𝑥̃ = 13 veces. 13 13 14 14 16 18 19 19 20 20 21 22 23 26 36 26 37 42 84 331

La mediana de 13 nos indica que la mitad de los estu- 20 + 21


diantes visitaron el aula virtual menos de 13 veces y la mi- Q3 = = 20.5
2
tad de los estudiantes la visitaron más de 13 veces. El recorrido intercuartílico se calcula como:
Notas: 𝑄 = 𝐼𝑄𝑅 = 𝑄3 − 𝑄1
1. Generalmente, la mitad de los valores son menores que la mediana y la Para la serie de daos del ejemplo 8 el IQR tiene un va-
mitad son mayores. Nuestro ejemplo no es el caso, debido a que el 13 ocurre
3 veces. Aun así, es común interpretar la mediana como el valor que divide lor de 𝑄 = 20.5 − 4.5 = 16.0 y mide la variabilidad de los
el conjunto de datos a la mitad. datos viendo cómo éstos se dispersan en la mitad central de
2. En este ejemplo, la media 𝑥̅ = 23.10 no resulta ser una medida representati-
va de la serie de datos, ya que sólo 7 datos son mayores que 23.10. Esto se
los datos. Si el valor calculado es pequeño, los valores al
debe a la presencia de los datos 84 y 331 que impactan grandemente en la centro de la distribución están muy cercanos entre sí, indi-
media. Como podemos intuir al ver el histograma de los datos, 13 es un va- cando una variabilidad pequeña. Un valor grande indicará
lor más típico del conjunto de datos que 23.10.
una dispersión mayor. Enfocándose en la mitad central de
Midiendo la Variabilidad de una Distribución Sesgada los datos y no en todos, el recorrido intercuartílico no se ve
influenciado por los valores extremos.
La variabilidad de una distribución sesgada puede me-
dirse con una cantidad conocida como el recorrido inter- Mediana y Recorrido Intercuartílico Juntos.
cuartílico (IQR), simbolizado por 𝑄 que tiene la ventaja de
Podemos resumir la distribución del ejemplo 8 de la si-
que, igual que la mediana, es insensible a cambios en los
guiente manera: La mediana para el número de veces que
valores extremos. Para su cálculo necesitamos definir los
los alumnos acceden al material es 13. Esto significa que la
cuartiles.
19

47 83.5 164
mitad de los estudiantes visitó el aula virtual menos de 13
veces y la mitad de los estudiantes visitaron el aula virtual 30 296
13 o más veces. 25% de los estudiantes visitaron el aula
virtual 4.5 veces o menos y 25% de ellos visitó el aula vir-
tual 20.5 veces o más. Un IQR de 16.0 nos indica que el 50
% central de accesos de estudiantes al aula, se dispersa en
un intervalo de 16 puntos porcentuales.
SESIÓN 4. Figura 23
OBJETIVOS DE APRENDIZAJE:
Después de terminar con éxito esta sesión serás capaz de: • En segundo lugar, permite visualizar la forma de la
23. Calcular el resumen de 5 puntos utilizando R distribución de datos. El largo de los segmentos traza-
24. Construir diagramas de caja utilizando R dos desde el cuartil 1 hasta 𝑚𝑖𝑛 y del cuartil 3 a 𝑚𝑎𝑥
25. Extraer las principales características de una serie de datos utilizando dará una idea si la distribución es simétrica o sesgada.
diagramas de caja. Si la distribución es simétrica las longitudes de estos
26. Comparar dos o más series de datos utilizando diagramas de caja. segmentos serán aproximadamente iguales. Si la longi-
tud del segmento de la derecha es mayor, la distribu-
3.5 El resumen de Cinco Puntos y Diagramas de ción es sesgada a la derecha. Si la longitud del seg-
Caja. mento de la izquierda es mayor, la distribución es ses-
El cálculo de los cuartiles es la base para la construc- gada a la izquierda. Para la serie de datos anterior, la
ción de uno de los diagramas más usados en el EDA: el distribución es sesgada a la derecha como puede apre-
boxplot o diagrama de caja. Para su construcción se necesi- ciarse en la figura 24, donde se ha superpuesto al dia-
ta del resumen de cinco puntos: grama de caja, la dispersión de los valores. Como pue-
de apreciarse las regiones donde la dispersión de los
1. La menor de las observaciones (𝑚𝑖𝑛) puntos
2. El primer cuartil (𝑄1 )
3. El segundo cuartil (𝑄2 ) • se vuelven más angostas
4. El tercer cuartil (𝑄3 )
El grueso de los datos se ubica
5. La mayor de las observaciones (𝑚𝑎𝑥) en esta región

La construcción del diagrama es relativamente simple.


Por ejemplo, considere la serie 89, 47, 164, 296, 30, 215,
138, 78, 48, 39. El resumen de cinco puntos es:
𝑚𝑖𝑛 𝑄1 𝑄2 𝑄3 𝑚𝑎𝑥
30 47 83.5 164 296

30 39 47 48 78 89 138 164 215 296


Algunos pocos datos se ubican
en esta región

𝑄1 = 47 𝑄3 = 164

Figura 24
78 + 89
𝑄2 = = 83.5 El diagrama también nos da una idea de la variabilidad
2
de la distribución. En la figura 24, resulta notorio que
Con esta información y un eje adecuado se construye un existe mucha variabilidad en la serie de datos, causada
diagrama como el de la figura 23. por los dos datos a la derecha de la distribución.
Interpretación del diagrama: el diagrama muestra al- Otra de las versatilidades del diagrama de caja es mos-
gunas de las propiedades más importantes de la distribución trar la presencia de valores atípicos (Outliers). Por ejemplo,
de datos: para los datos del ejemplo 8 la brecha en el histograma (el
• En primer lugar, muestra la posición relativa de la me- espacio central «en blanco») sugiere la presencia de valores
diana, cuartiles y extremos de la distribución. muy alejados del grueso de los datos. En ese caso se cons-
truye el diagrama de caja de la siguiente manera:
20

1) Se calcula el resumen de cinco puntos: • La posición relativa de la mediana, cuartiles y extremos


de la distribución.
𝑚𝑖𝑛 𝑄1 𝑄2 𝑄3 𝑚𝑎𝑥
• La simetría o asimetría de la distribución.
0 4.5 13 20.5 331
• La presencia o no de valores atípicos.
2) Se verifica si existen valores atípicos (outliers). Estos
se definen como aquellos que se desvían más de 1.5𝑄 a Diagramas de Caja para Comparar Series de Datos.
partir del cuartil uno o del cuartil tres.
Cuando se trata de comparar dos o más series de datos,
< 𝑄1 − 1.5𝑄 los diagramas de caja resultan de mucha ayuda. En la figura
𝑈𝑛 𝑣𝑎𝑙𝑜𝑟 𝑒𝑠 𝑎𝑡í𝑝𝑖𝑐𝑜 𝑠𝑖 𝑒𝑠: { 26 se muestran los diagramas de caja para las dos series de
> 𝑄3 + 1.5𝑄
datos del ejemplo 7.
Entonces: 𝑄 = 𝑄3 − 𝑄1 = 20.5 − 4.5 = 16.0
De la figura resulta evidente que, aunque ambas distri-
𝑄1 − 1.5𝑄 = 4.5 − 1.5(16.0) = −19.5 buciones tienen el mismo valor central y son simétricas, la
variabilidad entre ellas es muy diferente. El menor espacio
𝑄3 + 1.5𝑄 = 20.5 + 1.5(16) = 44.5 que ocupa el boxplot en la escala numérica para la marca B
Ya que no existen valores menores que -19.5 se con- es evidencia de su menor variabilidad y por lo tanto de su
cluye que no hay atípicos en este extremo, pero sí exis- mejor calidad.
ten valores mayores que 44.5 (84 y 331). Si excluimos
estos dos valores de la serie, entonces el nuevo máxi-
mo sería 42, es decir que el resumen de cinco puntos,
después de este cambio, seria:
𝑚𝑖𝑛 𝑄1 𝑄2 𝑄3 𝑚𝑎𝑥
0 4.5 13 20.5 42
3) Se construye el diagrama con este nuevo máximo y los
valores atípicos se marcan como puntos en el diagrama,
tal como se muestra en la figura 25.

Figura 26

Es importante tener siempre que mente que, para com-


parar la dispersión de dos o más distribuciones medidas en
la misma magnitud y unidad no basta con comparar solo la
media de las distribuciones, hay que comparar también las
medidas de dispersión. De esta manera podemos caracteri-
zar mejor las diferencias o similitudes de las distribuciones.
SESIÓN 5.
OBJETIVOS DE APRENDIZAJE:
Figura 25 Después de terminar con éxito esta sesión serás capaz de:
27. Explicar los principales componentes de la filosofía del EDA
Al análisis hecho con anterioridad para esta serie de da- 28. Aplicar el EDA para describir una distribución de datos según el mo-
tos hay que agregar que existen dos valores atípicos (84 y delo 𝐷𝑎𝑡𝑜𝑠 = Verdadero estado de la naturaleza + 𝑅𝑢𝑖𝑑𝑜
331) lo que indica que hay dos estudiantes que accedieron
al material muchas más veces que el resto. (Esto sugiere dar 3.6 La Filosofía del Análisis Exploratorio de Datos.
un seguimiento a estos dos estudiantes para determinar si El pensamiento estadístico trata la variabilidad en las
esta cantidad de accesos afecta positivamente sus notas). observaciones o mediciones como si se generara a partir de
En resumen, el gráfico de caja proporciona la siguiente un modelo matemático y luego usa este modelo para prede-
información: cir los valores de la característica de interés en el futuro. Al
21

realizar estas predicciones está implícito el supuesto de que valores que pueden ser considerados como atípicos
el futuro se comportará como el pasado, es decir, que el y que explicarían el residual.
proceso continuará funcionando de la misma manera que lo
En el siguiente ejemplo intentaremos describir una me-
ha hecho antes. Sin duda, pueden existir elaborados mode-
todología que nos permita proceder de manera ordenada en
los deterministas que podrían usarse para describir cómo
la aplicación del EDA.
varía la característica de interés. Dichos modelos, que sur-
gen de un conocimiento detallado de una ciencia en particu- Ejemplo 9: La calidad de la enseñanza está vinculada a
lar, representan cómo se genera una cantidad de la caracte- los recursos financieros. Una enseñanza de calidad tiene un
rística de interés o de algún fenómeno en particular. En el costo significativo y, salvo algunas excepciones, la poca
mundo real, sin embargo, solo se pueden observar cantida- inversión en educación deriva en una educación de baja
des medidas. El modelo no es observable, pero subyace en calidad. Desde el punto de vista de la exigibilidad del dere-
el proceso. El pensamiento estadístico ve los datos medidos cho a la educación, suele recurrirse al estándar mínimo del
como si hubieran sido producidos por este mecanismo sub- 6% del PIB recomendado por la UNESCO. En la tabla 11
yacente de generación de datos. Una forma de expresar este se muestra la inversión pública como porcentaje del PIB
mecanismo es escribir para algunos de los países de centro américa.
𝐷𝑎𝑡𝑜𝑠 = 𝑓(verdadero estado de la naturaleza, ruido)
Hay muchas interpretaciones de esta ecuación. La más
simple es que el verdadero estado de la naturaleza y el rui-
do son aditivos, y ambos pueden tener estructuras compli- Tabla 11
cadas de modelar. En general y, sin entrar en debates filo-
sóficos, se puede pensar en el «ruido» como un reflejo de la ¿Qué información podemos extraer de esta serie de da-
variabilidad que, dado el contexto y el conocimiento cientí- tos? El enfoque del EDA se basa en la representación gráfi-
fico actual y las limitaciones económicas, no se puede, o se ca de la información y a partir de esta representación buscar
elige no explicar. la «regularidad» y las «desviaciones». En la figura 27 se
muestra el diagrama de caja para el gasto de cada uno de
Las técnicas descritas hasta este momento proporcionan los países en educación. Se muestra, además, indicado con
los conocimientos básicos que permitirán utilizar la filoso- una línea horizontal, el 6% sugerido por la UNESCO.
fía del EDA. Esta filosofía, consiste en explorar los datos
desde todas las perspectivas y con todas las herramientas
posibles para encontrar patrones inherentes o regularidades,
es decir, el «verdadero estado de la naturaleza», y detectar
desviaciones con respecto a estos patrones —el ruido o
residual— con el objetivo de encontrar hechos generaliza-
bles.
De esta manera, el enfoque del EDA puede ser caracte-
rizado como una búsqueda interactiva de un modelo, que
indica la estructura simplificada del conjunto de datos, y
una explicación del ruido, las diferencias de los datos con
respecto a esta estructura, a partir del contexto.
El diagrama de caja es la herramienta por excelencia
en el EDA ya que tiene la versatilidad de resumir tres dife-
rentes modelos: Figura 27. Gasto público en Educación para los países de la región cen-
• La mediana, que marca el punto que divide 50:50 troamericana. Tomado de diversas fuentes para fines didácticos.
de los datos;
• El IQR, representado por el ancho de la caja, que
nos muestra el patrón del 50% central; y
• La caja junto con los segmentos (que en la literatu-
ra se conocen como bigotes), que nos muestran los
22

¿Cómo Aplico el EDA?


1. Generación de Hipótesis. En esta 6. Considere los valores atípicos. Examine
etapa, a partir del gráfico compara- individualmente cada diagrama y trate de ex-
mos y razonamos acerca de la ten- plicar la presencia de los valores atípicos en el
dencia grupal. En el ejemplo, parece contexto de la información. Si no se deben a
que el gasto en educación se divide errores, los atípicos no deben eliminarse del
en dos grupos: análisis. Tenga presente siempre que la variabi-
• Los que invierten más del 6% lidad debe explicarse no eliminarse. Considere
• Los que invierten menos del 6% además los tamaños de muestra, la población
de donde fue tomada y los datos perdidos.
En el caso de Honduras la presencia de datos
2. Resumir. Comparamos los resúmenes de 5 perdidos o faltantes en la tabla de valores po-
puntos que parezcan similares y los que parez- dría ser la causante de los datos atípicos. La
can diferentes. ausencia de datos equivale a comparar mues-
tras de tamaños diferentes.
min 𝑸𝟏 𝑸𝟐 𝑸𝟑 Max
Gu 2.1 2.8 2.92 2.96 3.2
ES 2.7 3.1 3.7 3.8 3.96
Ni 3.7 3.8 3.9 4.11 4.35 7. Formule su explicación. El analizar cada uno
Ho 5.87 6.2 6.2 6.41 7.2 de los aspectos antes mencionados le dará un
CR 4.7 5.2 6.63 6.87 7.4 panorama más general sobre los datos. No
existe una única interpretación correcta, de-
penderá de su pensamiento estadístico el des-
La hipótesis inicial de los dos grupos parece tomar cubrir la mayor cantidad de información y
más fuerza si comparamos sus valores representati- formular una hipótesis.
vos, sus extremos y la variabilidad. En nuestro ejemplo, la hipótesis que parece
surgir de los datos es que el gasto público en
3. Busque cambios comparativos. Compare educación en la región centroamericana se
cada diagrama con el resto y busque cambios puede dividir en dos grupos. Un grupo lo for-
importantes que ayuden a responder su pregun- man Guatemala, El Salvador y Nicaragua, con
ta de investigación. Si estamos interesado en el un gasto que está por debajo del 6% del PIB
gasto de El Salvador podemos ver que no es- recomendado por la UNESCO.
tamos en una situación muy privilegiada. A Otro grupo lo integran Honduras y Costa Rica,
penas superamos a Guatemala (el último de la con un gasto en educación por arriba del suge-
región) y Costa Rica, el primero en la región, rido por la UNESCO.
casi nos duplica en el gasto destinado a Educa- La información en los pasos del 1 al 6 sirve pa-
ción. En general, destaca el caso de Costa Rica ra sustentar con datos esta hipótesis.
con un gasto muy superior al de sus vecinos
4. Busque las primeras señales del «modelo».
Compare el 50% central buscando si hay tras-
lapes. En el caso de Guatemala, El Salvador y
Nicaragua las cajas no se traslapan. Esto es un
indicador de que el gasto para estos países
(2.92, 3.7 y 3.9) podría ser significativamente Recuerda que el EDA es una herra-
diferente y por debajo del sugerido por la
UNESCO. Además, pueden buscarse algunos mienta exploratoria de datos que se
otros detalles como que el gasto máximo de usa principalmente al inicio de una
Guatemala apenas supera el 25% más bajo del
gasto de El Salvador, o que el gasto máximo investigación con el propósito de
del El Salvador es menor que el gasto mediano
de Nicaragua, pero estos dependen de la pre- extraer cuanta información sea posi-
gunta que se está tratando de responder. ble, generar hipótesis nuevas o con-
En el caso de Honduras y Costa Rica, vemos
que hay un traslape de las cajas, esto es un in- jeturas sobre los datos disponibles.
dicador de que el gasto en educación mediano
para estos países (6.20 y 6.63) podría ser en
realidad igual y superior al 6%.
5. Analice la Variabilidad y la Dispersión en
busca del «residual». Compare e identifique
el tipo de dispersión local (de cada diagrama) y
global (entre diagramas).
La variabilidad del grupo de Guatemala, El
Salvador y Nicaragua es muy similar y es evi-
dente que el gasto en los dos primeros ha ido
en aumento (indicado por el tipo de sesgo),
aunque de manera más homogénea en El Sal-
vador. El gasto en Nicaragua se muestra bas-
tante simétrico. En el caso del otro grupo, re-
sulta evidente la diferencia en la variabilidad
de ambas distribuciones, con un gasto más
homogéneo para Costa Rica y bastante errático
para Honduras
23

Referencias. Angel Gutierrez, Julio César, La Variación y su Significa-


do, Revista Universitaria Eafit No. 101.
Linda L. Cooper & Felice S. Shore (2010) The Effects of
Data and Graph Type on Concepts and Visualizations of Roxy Peck, (2015), Statistics: Learning from Data. Cenga-
Variability, Journal of Statistics Education.
ge Learning. California Polytechnic State University, San
Luis Obispo.
Douglas Whitaker & Tim Jacobbe (2017) Students' Un-
derstanding of Bar Graphs and Histograms: Results From Theodore Coladarci, Casey D. Cobb, (2014). Fundamentals
the LOCUS Assessments, Journal of Statistics Education. of Statistical Reasoning in Education. Wiley & Sons, Inc.
Linda L. Cooper (2018) Assessing Students' Understan-
ding of Variability in Graphical Representations that Share
the Common Attribute of Bars, Journal of Statistics Educa-
tion, 26:2, 110-124
Batanero, Carmen, Ortiz, Juan Jesús, Una Perspectiva de
Síntesis de las Tendencias Actuales en la Educación Esta-
dística. Universidad de Granada.
Snee, Ronald D. (1999), Development and Use of Statisti-
cal Thinking: A New Era. International Statistical Institute
(ISI)
Wild, C. J., & Pfannkuch, M. (1999). Statistical thinking in
empirical enquiry (with discussion). International Statisti-
cal Review, 67(3), 223-265.
Karla Ballman (1997), Greater Emphasis on Variation in
an Introductory Statistics Course, Journal of Statistics
Education.
Reading, Chris and Reid, Jackie, (2004), Consideration of
Variation: A Model for Curriculum Development. Curricu-
lar Development in Statistics Education, Sweden
Batanero, Carmen, Sentido Estadístico: Componentes y
Desarrollo. Jornadas Virtuales de Didáctica de la Estadísti-
ca, la Probabilidad y la Combinatoria. Granada, 2013.
Wild, C. J., & Pfannkuch, M. (1999). Statistical thinking
Models. ICOTS6, 2002.
J.B. Garfield, D. Ben-Zvi, (2008), Developing Students’
Statistical Reasoning: Connecting Research and Teaching
Practice. Springer Science+Business Media B.V.
Beth L. CHANCE and Allan J. ROSSMAN, Sequencing
Topics in Introductory Statistics: A Debate on What to
Teach When. The American Statistician, May 2001, Vol.
55, No. 2

Jennifer J. Kaplan, John G. Gabrosek, Phyllis Curtiss &


Chris Malone (2014) Investigating Student Understanding
of Histograms, Journal of Statistics Education.

También podría gustarte