Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Oscar Diaz
Piensa Estadística.
1-1-2022
1
Unidad I
Introducción al análisis exploratorio de datos
(EDA)
Contenido de la unidad
Unidad I
Introducción al Análisis Exploratorio de Datos
Resumen. En esta unidad se presentan al estudiante las primeras herramientas que le ayudarán a
desarrollar el pensamiento estadístico, una forma de pensamiento que parte de la existencia de la
variabilidad, trata de entender su estructura y aplica ese entendimiento en el resumen, descripción
y representación de datos en un ambiente de variabilidad e incertidumbre. La primera herramien-
ta que se proporciona es el Análisis Exploratorio de Datos (EDA), una forma de pensar y actuar so-
bre el análisis de datos que requiere de cierto enfoque, de cierta perspectiva y que se apoya en un
conjunto de herramientas gráficas y de síntesis de datos que tienen como finalidad maximizar lo
que se aprende de los datos.
E
l objeto de estudio a lo largo de este curso de proba- observación en particular con respecto a la media —la línea
bilidad y estadística es la variabilidad. Como afirma punteada—. Esta «distancia» es la medida de la variabili-
Ruiz (2017) la variabilidad dota a la estadística de dad de esta observación. De manera similar, cada una de
su razón de ser. El estudio de la variabilidad es lo que ha las otras observaciones tiene asociada una desviación con
hecho posible el avance de esta ciencia a lo largo de los respecto a la media. Cuando se consideran en conjunto
años hasta llegar al desarrollo de los modernos métodos todas estas desviaciones aparece el concepto de dispersión
estadísticos que hacen posible el funcionamiento de nuestra como una medida de la variabilidad del conjunto de datos.
sociedad moderna, donde la percepción y compresión de la Así, si se comparan ambas series de datos se puede apreciar
variabilidad es un componente esencial en el desarrollo de que la dispersión en (a) es mayor que en (b). Se dice enton-
una nueva forma de pensar —el pensamiento estadístico— ces que la variabilidad en (a) es mayor que en (b) enfati-
que sirve como una herramienta fundamental que nos ayuda zando de esta manera la naturaleza cambiante de ambas
series —en contraste con fenómenos deterministas que no
a tomar decisiones en escenarios inciertos.
tendrían esta característica—.
¿Qué es entonces la variabilidad? En una primera apro-
1.2 Noción Intuitiva de Variabilidad
ximación se puede definir como una propiedad inherente de
una serie de datos que indica que algo es propenso a variar Resulta imposible imaginar nuestra realidad inmediata
o cambiar —por ejemplo, la variación en los precios del sin la presencia de la variabilidad. Un recorrido por un día
bitcoin—. Esta afirmación establece una relación entre cualquiera de nuestra existencia nos muestra que interac-
datos y variabilidad —una especie de íntima relación sim- tuamos con ella de manera permanente. Por la mañana,
biótica producto de una historia evolutiva entrelazada— tan usamos alarmas porque la variabilidad a la hora de desper-
estrecha y fuerte que no se puede hablar de variabilidad sintarnos día con día podría ponernos en serios aprietos algu-
hablar de datos, y no se puede interpretar correctamente nas mañanas. Luego, el tiempo utilizado para desplazarnos
una serie de datos sin tomar en cuenta la variabilidad pre- desde nuestro hogar a la Universidad o al trabajo varía día
sente en ellos. Esto hace necesario disponer de métodos con día debido a diversos factores que escapan de nuestro
para cuantificar la variabilidad. Usaremos el término varia-control —como cierre de calles, accidentes, desperfectos
ción para hacer referencia a la descripción, cuantificación o
mecánicos en la unidad de transporte, clima y protestas
medida de la variabilidad. entre otros motivos— por lo que solemos salir temprano
Por último, es importante definir dos conceptos más previendo algún retraso importante —es decir previendo
que, junto con el de variación, se tratan como sinónimos en una variabilidad grande en este tiempo—. En la Universi-
dad por lo general la clase no iniciará siempre a la misma
3
hora y quizá ocupe un asiento diferente al que ocupó en la logra una mejor calidad a través de una variabilidad menor.
última clase. Las personas sentadas a su alrededor segura- Dicho de otra manera: si la variabilidad de las característi-
mente no serán las mismas. Al final del día, el tiempo utili- cas importantes de un producto disminuye, la calidad del
zado para regresar a casa probablemente tendrá una variabi- producto aumenta. Montgomery (2009) proporciona una
lidad tan grande que ronda lo caótico y seguramente la hora «definición moderna» de calidad: calidad es inversamente
de dormir no será la misma que el día anterior. Sin lugar a proporcional a la variabilidad.
duda, somos seres estadísticos que hemos aprendido a lidiar
Ejemplo 1: La variabilidad en acción. Imagine que
con la variabilidad día con día.
para ensamblar un componente mecánico se requiere del
Esta variabilidad que se experimenta en la vida diaria uso de tornillos de una longitud específica para unir las
también se presenta en el ámbito laboral, donde tiene un distintas piezas que lo forman, por lo que la longitud de
fuerte impacto práctico en los puestos de trabajo y en la estos tornillos resulta ser una característica de calidad im-
forma de hacer negocios. Un ingeniero tendrá que trabajar a portante. La empresa ha solicitado lotes de tornillos a los
diario con la variabilidad ya que la encontrará presente en proveedores A y B. Al inspeccionar tres tornillos de cada
todos los procesos productivos. Al hacer un pronóstico de uno de estos proveedores resultan las siguientes lecturas (en
la demanda de energía eléctrica, al medir el volumen de cm)
ventas de un producto durante un período específico, al
Proveedor A: 2.03, 1.95, 2.02
medir los niveles de calidad de un proceso o al medir el
Proveedor B: 2.50, 1.80, 1.70
tiempo de una reacción química encontrará variabilidad en
las mediciones. Los métodos que se estudiarán a lo largo Si solo se toma en consideración la longitud promedio,
del curso proporcionan las herramientas básicas para carac- no existe diferencia entre los tornillos que fabrican cada
terizar la variabilidad, tomar decisiones en escenarios con uno de los proveedores puesto que ambos tienen la misma
variabilidad e incertidumbre y realizar predicciones cuyo media:
error puede ser cuantificado. La decisión tomada tendrá
grandes repercusiones en la calidad de los productos fabri- 2.03 + 1.95 + 2.02
𝑥̅𝐴 = = 2.00
cados o en los servicios prestados por la empresa. 3
2.50 + 1.80 + 1.70
𝑥̅𝐵 = = 2.00
3
Sin otro análisis adicional no existe diferencia entre ad-
quirir los tornillos del proveedor A o los del B. Sin embar-
go, al hacer una inspección visual de los tornillos notamos
que los del proveedor A parecen tener longitudes «muy
similares» entre sí —es decir con poca variabilidad—
mientras que los del proveedor B presentan una mayor va-
riabilidad en las longitudes (compare visualmente las longi-
tudes de los tornillos en las figuras 2 y 3).
Figura 1
estos. Pero al analizar la variabilidad de las longitudes pa- riabilidad no explicada. En ocasiones, el efecto de las va-
rece un poco más claro que los tornillos del proveedor A riables de ruido o variables fuera de control es pequeño y
son de mejor calidad que los del proveedor B ya que su puede ignorarse, pero a veces su efecto genera una desvia-
variabilidad en la longitud es menor. ción tan grande con respecto a las características deseadas
que produce un producto o un servicio no conforme con la
En resumen, una primera noción sobre la variabilidad,
norma, es decir, defectuoso. Esto supone que en todo pro-
basada en nuestra intuición, es que describe un escenario
ceso se tolera cierto nivel de variabilidad y que los produc-
donde se espera que las observaciones o medidas sucesivas
tos no son exactamente iguales, pero sí lo suficientemente
de un sistema o fenómeno sean las mismas —en el ejemplo
homogéneos como para ser comercializados. Aquellos que
1 las longitudes de los tornillos— pero por alguna razón no
presenten una variabilidad muy grande no son homogéneos
lo son. A medida se avance por las siguientes unidades del
y no deberían comercializarse. Reducir la variabilidad re-
curso, se irá construyendo, desde diferentes enfoques, un
sulta clave para obtener productos y servicios de calidad.
concepto más completo de la variabilidad.
1.3 ¿Qué causa la Variabilidad?
¿Qué pudo causar que las longitudes de los tornillos del
proveedor B difieran tanto entre sí? Una posible explica-
ción tiene que ver con los errores humanos. Por ejemplo, un
operario inexperto pudo cortar los tornillos y por eso resul-
taron con las longitudes tan diferentes. Otra posible expli-
cación puede estar relacionada con el proceso que fabrica
los tornillos, ya que en cada etapa del proceso se pueden ir
acumulando pequeñas variaciones que, combinadas entre
sí, causan diferencias lo suficientemente grandes en las
longitudes como para ser tomadas en cuenta al evaluar la
calidad de los tornillos. Como se puede intuir, las causas de
estas diferencias en las longitudes se pueden encontrar en
situaciones muy diversas. por lo que es necesario disponer
de una metodología que permita explicar el origen de la
variabilidad en un contexto determinado. En esta sección
se presenta la metodología de las 6Ms descrita por Gutié-
rrez, (2009) que, de un modo muy general, intenta ser un
modelo que explica las causas de la variabilidad. Figura 4
La metodología inicia suponiendo que cualquier proce- Según este modelo toda variación observada es causada
so puede concebirse como un sistema con una serie de va- —es decir que no surge espontáneamente en los procesos—
riables de entrada y una variable de salida como en la figura por lo que la componente de variabilidad no explicada se
4. Las entradas interactúan entre sí y producen la salida del puede conceptualizar como una medida del nivel de igno-
sistema, que puede ser un producto o un servicio. rancia o desconocimiento del proceso que, dado el contexto
En este sistema se tiene control sobre algunas de las en- y el conocimiento científico actual y las limitaciones eco-
tradas, conocidas como variables de control del proceso, nómicas, no podemos, o elegimos no explicar. Esto signifi-
tales como la temperatura, las cantidades de materia prima ca que siempre es posible mejorar la comprensión —es
a usar, el tiempo de cocido, velocidad, el proveedor y la decir reducir la ignorancia— del proceso identificando y
presión entre otras. También existe un grupo de variables eliminando las fuentes de variación. La metodología de las
sobre las que no se tiene control o resulta difícil hacerlo. 6M es útil para identificar las fuentes de variación y parte
Estas se conocen como variables fuera de control o de del principio que en todo proceso interactúan Materiales,
ruido. Algunos ejemplos de este tipo de variables son la Maquinas, Mano de obra, Mediciones, Medio ambiente y
humedad, la temperatura ambiente, las propiedades de la Métodos (a las que llamaremos las 6M) y que cada uno de
materia prima suministradas por un proveedor y las fluc- estos elementos aporta algo de la variabilidad total obser-
tuaciones de los precios de la materia prima. Ambos tipos vada, de modo que, si existe una variación significativa en
de variables tienen efecto en la variabilidad total observada. el desempeño del proceso, su razón se puede explicar por
Las primeras generan un componente que llamaremos va- alguna o algunas de las 6M. Por ejemplo, los materiales no
riabilidad explicada y las segundas un componente de va- son completamente idénticos, ni toda la mano de obra tiene
5
las mismas habilidades y formación o las máquinas pueden cambiar las mentalidades existentes. Lo que caracteriza al
desajustarse y desgastarse por el uso continuo. pensamiento estadístico es que consiste en procesos de
pensamiento en lugar de técnicas numéricas. Estos procesos
Entonces, para responder a la pregunta ¿Qué causa la
de pensamiento afectan la forma en que las personas asimi-
variabilidad? Podemos responder que existe un modelo que
lan, procesan y reaccionan a la información.
establece que en todo proceso interactúan seis elementos
(las 6M) de modo que cada M aporta una parte —no nece- Sin embargo, no queremos «encapsular» en una defini-
sariamente igual— de la variabilidad total observada en el ción el pensamiento estadístico. Nuestro objetivo es más
proceso. profundo que esto. Sobre todo, estamos interesados en
desarrollar en los alumnos un marco general para los patro-
1.4 El Pensamiento Estadístico.
nes de pensamiento involucrados en la resolución de pro-
En términos muy generales el pensamiento estadístico blemas, dotarlos de estrategias efectivas que integren ele-
es una forma de entender el mundo incierto y complejo mentos estadísticos para la resolución de éstos teniendo en
describiéndolo en términos relativamente simples que, no cuenta que el objetivo buscado es aprender del contexto en
obstante, capturan aspectos esenciales de su estructura o el cual los datos fueron medidos. En alguna media el obje-
función, y que también nos dan una idea de cuán inseguros tivo es el que predijo Moore (1992): los alumnos en el futu-
somos acerca de ese conocimiento. ro sacarán de su escolarización una estructura de pensa-
miento que susurra «la variación importa»
Snee, (1990) define el pensamiento estadístico como
una filosofía de aprendizaje (cómo adquirimos informa-
SESIÓN 1: Parte 2.
ción) y acción (cómo respondemos a esa información) ba-
OBJETIVOS DE APRENDIZAJE
sada en tres principios fundamentales: Después de finalizar con éxito esta sesión serás capaz de:
1. Todo el trabajo ocurre en un sistema de procesos inter- 6. Explicar qué es una variable.
conectados. 7. Explicar las diferentes escalas de medición de una variable.
2. La variabilidad existe en todos los procesos. 8. Clasificar una variable en su escala de medición correcta.
3. Entender, caracterizar, cuantificar, controlar y reducir la 9. Distinguir entre variables discretas y continuas
10. Distinguir entre variables cualitativas y cuantitativas.
variabilidad son claves para el éxito.
A partir de esta definición, se puede decir que los ele- II. VARIABLES Y SUS MEDIDAS.
mentos esenciales del pensamiento estadístico son los pro- 2.1 ¿Qué es una Variable?
cesos, la variabilidad y los datos. La integración de estos
tres elementos hace posible el desarrollo del pensamiento En nuestra búsqueda del desarrollo del pensamiento es-
estadístico, que es la forma en que la información se ve, se tadístico es necesario estudiar y comprender el concepto de
procesa y se convierte en información que nos permite variable. En esta sección estudiaremos la naturaleza de las
aprender de los datos. Pensar en forma estadística implica variables y los tipos de datos con los que se trabaja en esta-
tomar conciencia de la variabilidad que existe y se transmi- dística. Cuando hablamos de datos nos referimos a infor-
te en los datos, así como de la incertidumbre originada por mación a partir de la cual se pueden extraer algunas conclu-
la variabilidad no explicada y tomarla en cuenta en cada siones que posteriormente nos servirán para la toma de
paso de acción para la toma de decisiones. decisiones.
Uno de los principales objetivos de este curso es desa- Por lo general, los datos se recolectan durante un estu-
rrollar en el futuro ingeniero el pensamiento estadístico, ya dio en particular y es común referirse a ellos como la serie
que esto le ayudará a visualizar la realidad que le rodea de de datos (o el conjunto de datos u observaciones). Toda
otra manera —con variabilidad— y poder así dirigir de serie de datos proporciona información sobre un grupo de
manera más adecuada sus esfuerzos de mejora en su am- elementos individuales que pueden ser personas, objetos,
biente de trabajo, ya sea a nivel estratégico (creando estra- eventos o cualquier otra entidad. Esta información usual-
tegias y comunicándolas, usando datos de diversas fuentes mente describe una o más características o atributos de
para la toma de decisiones o desarrollando sistemas de me- estos elementos. Llamaremos a estas características o atri-
dición de los procesos) a nivel directivo (desarrollando butos variables. Así, una variable es una característica o
proyectos estructurados, fijando metas que toman en cuenta atributo que puede asumir diferentes valores.
la variabilidad) o a nivel operacional (conoce la existencia Las variables por lo general se ordenan en tablas, con la
de la variabilidad, es capaz de analizarla y cuantificarla e finalidad de describir una situación de interés para el usua-
identifica oportunidades de mejora tomando en cuenta la rio de la información de una manera sencilla y práctica. Por
variabilidad). Sin lugar a duda, para lograr esto se requiere ejemplo, en la tabla 1 se muestran las mediciones hechas
6
por 12 inspectores de calidad para el diámetro de una pieza ya que la variable puede asumir un infinito número de valo-
de acero usando un micrómetro y un vernier. En este caso res entre dos longitudes dadas. Este tipo de variables están
la característica de interés es el diámetro de la pieza. A asociadas a procesos de medición que requieren de un ins-
pesar de que se está midiendo una sola pieza, las lecturas trumento para ser cuantificadas.
son diferentes para cada uno de los inspectores y más aún,
2.3 Escalas de Medición.
resultan ser diferentes según el tipo de instrumento utiliza-
do (la variabilidad en acción). Decimos entonces que el Además de clasificarse como cualitativas o cuantitati-
diámetro de la pieza es una variable. vas, las variables pueden ser clasificadas por como son
categorizadas, contadas o medidas. El proceso de medición,
Inspector Micrómetro Vernier en un sentido muy general, se puede definir como la asig-
1 0.150 0.151 nación de números a objetos y eventos de acuerdo con cier-
2 0.151 0.150
3 0.151 0.150 tas reglas. La manera de cómo se asignan esos números
4 0.151 0.152 determina el tipo de escala de medición.
5 0.152 0.151
6 0.151 0.150 En 1946 S. S. Steven introdujo un esquema muy elabo-
7 0.151 0.152 rado para la clasificación de variables, vigente aún en nues-
8 0.152 0.153
9 0.152 0.150 tros días, en el cual se definieron las diferentes reglas para
10 0.153 0.151 la asignación de números, las propiedades matemáticas de
11 0.151 0.151
las escalas resultantes, y las operaciones estadísticas que
12 0.151 0.151
Tabla 1
pueden aplicarse a las mediciones hechas en cada escala.
Mediciones hechas por 12 inspectores Steven propuso que una variable puede ser clasificada en
una de cuatro escalas: nominal, ordinal, de intervalo y de
2.2 Clasificación de las Variables. razón. Desde el punto de vista de las propiedades matemá-
ticas y estadísticas, la escala de medición más rudimentaria
Las variables se pueden clasificar como cualitativas
es la nominal y la más completa la de razón.
o cuantitativas. En las variables cualitativas ‒también co-
nocidas como categóricas‒ la medición describe un elemen- Escala Nominal: En esta categoría la característica o
to colocándolo en una categoría o grupo de acuerdo con variable de interés consiste en clases excluyentes según
alguna característica o atributo. Por ejemplo, si se clasifi- determinada propiedad. Además, no existe un orden lógico
can personas de acuerdo con el género ‒masculino o feme- particular para las distintas clasificaciones o categorías que
nino‒ entonces, la variable género es cualitativa. Otros resulten, es decir que los números asignados en esta escala
ejemplos de estas variables son la preferencia religiosa, el solo se usan como identificadores o nombres. Por ejemplo,
estado civil, la afiliación política, la etnia, el color de ojos y si nuestro estudio incluye la variable género, podríamos
el tipo de sangre. codificar a la categoría femenino como 1 y a masculino
como 2. Pero los números 1 y 2 representan categorías de
En el caso de las variables cuantitativas, las mediciones
datos: son simples identificadores de una cualidad que se
resultan en valores numéricos que podemos ordenar y reali-
está midiendo y son completamente arbitrarios ya que pue-
zar operaciones aritméticas con ellos. Por ejemplo, la va-
de usarse F o M o cualquier otra alternativa para la codifi-
riable edad es numérica y las personas pueden ser ordena-
cación. A este nivel, la operación matemática permitida es
das de acuerdo con su edad o podemos encontrar una edad
el conteo (o número de casos). Una vez que se han formado
promedio. Otros ejemplos de este tipo de variables son el
las clases y asignados los numerales a cada una de ellas, se
peso y la altura de una persona o su temperatura corporal.
puede determinar cuál es la clase más numerosa.
Las variables cuantitativas pueden ser clasificadas en dos
grupos: discretas y continuas. Escala Ordinal: Posee todas las características de la
escala nominal; pero, además, los datos o mediciones pue-
Las variables discretas pueden asumir valores como 0,
den ser colocados en categorías que pueden ordenarse de
1, 2, 3, ... por lo que se dice que son contables. Por ejemplo,
manera que reflejen diferentes grados o cantidades de la
el número de niños de una familia, el número de estudiantes
característica de interés. Los números representan una cua-
en el salón de clase y el número de llamadas que recibe un
lidad que se está midiendo y expresan si una observación
operador cada día durante un mes. Para este tipo de varia-
tiene más de la cualidad medida que otra. Por ejemplo, un
bles, el proceso de medición está asociado a conteos.
estudiante de inglés puede ser clasificado como básico,
Las variables continuas pueden asumir un numero infi- intermedio o avanzado, que codificamos con 1, 2 y 3 res-
nito de valores en un intervalo de números reales. Por pectivamente. En este caso 3 indica que una persona está
ejemplo, la longitud de una pieza es una variable continua más avanzada que un 2 o que un 1. Sin embargo, la distan-
7
cia entre puntos de la escala no es constante de manera que rentes técnicas del análisis estadístico, es necesario identifi-
no podemos determinar la distancia entre categorías. Por car previamente la escala de medición correspondiente, ya
ejemplo, ¿es la diferencia entre básico e intermedio la mis- que cada escala tiene sus propiedades matemáticas que
ma que entre intermedio y avanzado? No se puede saber, determinan el análisis estadístico apropiado en cada caso,
hay un cierto orden que puede interpretarse, pero no una de manera que los datos se puedan explorar conveniente-
cantidad mensurable. Además del conteo, en esta categoría mente, organizarlos, resumirlos, presentarlos y aprender de
se pueden ordenar los datos. ellos. La tabla 2 resume las principales características de las
escalas de medición.
Escala de Intervalo: Esta posee todas las característi-
cas de las dos escalas anteriores, con la propiedad adicional Escala Operación matemática permitida Operación estadística permitida
Nominal Conteo Frecuencia, Moda
de que las mediciones son generalmente números que re- Ordinal Ordenar Mediana, Rango
presentan magnitudes y la diferencia entre un par de ellos Intervalo Suma, Resta Media, Varianza
Razón Multiplicación, División Coeficiente de Variación
da un resultado significativo debido a la existencia de una Tabla 2
unidad de medida común y constante. Una limitante de esta Principales Características y Propiedades de las Escalas de Medición.
escala es que carece de un punto inicial o de referencia
SESIÓN 2.
absoluto que indique la ausencia de atributo, por lo que las
OBJETIVOS DE APRENDIZAJE
operaciones aritméticas de multiplicación y división no Después de finalizar con éxito esta sesión serás capaz de:
resultan adecuadas en esta escala. Por ejemplo, en el caso 11. Explicar qué es el EDA
de un termómetro cuyas lecturas son medidas en grados 12. Construir diagramas de barras para variables categóricas utili-
Celsius, el cero de esta escala (0°C) es arbitrariamente fija- zando R
do al punto al cual el agua se congela —a nivel del mar—. 13. Construir diagramas de barras para comparar dos o más series
En contraste, la ausencia de calor es decir la temperatura a de datos utilizando R.
la cual la actividad molecular cesa es aproximadamente 14. Extraer las principales características de una distribución de
−273°C. Como consecuencia, no podemos afirmar que datos a partir de un diagrama de barras.
0°C indique la ausencia de calor. Esta falta de un cero natu- 15. Construir histogramas para variables cuantitativas utilizando R
ral impide establecer que un día con 30°C sea tres veces 16. Extraer las principales características de una distribución de
datos a partir de un histograma.
más caliente que uno con 10°C, pero sí podemos decir que
17. Comparar las principales características de dos o más distribu-
la distancia entre 25°C y 30°C es la misma que la existente ciones de datos a partir de sus histogramas.
entre 20°C y 25°C. Si la temperatura en un lugar es de
20°C y en otro de 25°C podemos jerarquizar según lo frío o III. ANÁLISIS EXPLORATORIO DE DATOS (EDA).
caliente que son: el primero es más frío que el segundo ya
que la escala fija de medición (1°C) permite decir que el 3.1 ¿Qué es el EDA?
primer sitio es 5°C más frío que el segundo. En esta escala En ingeniería es común trabajar con datos que provie-
las diferencias y las sumas de datos tienen un significado nen de mediciones que han sido tomadas bajo condiciones
numérico racional, pero no la multiplicación y división. controladas (de laboratorio) para reducir la variabilidad con
Escala de Razón: Esta escala tiene todas las caracterís- el propósito de tomar alguna decisión. Por lo general, la
ticas de la escala de intervalo, pero, además, tiene un cero cantidad de datos es voluminosa y sin ningún significado a
natural que indica la ausencia del atributo. Esto tiene como primera vista, por lo que se hace necesario procesar los
consecuencia que —además de las operaciones lógicas de datos a fin de que puedan proporcionar la información re-
ordenación y comparación, las diferencias y las sumas— la querida por el usuario para la toma de decisiones.
división y multiplicación de datos tiene un sentido numéri- Para asegurarnos que las principales características de
co racional. Por ejemplo, la cantidad de litros de agua con-
una serie de datos (como patrones, diferencias, tendencias,
sumido por una persona en un día. Cero litros indica la anomalías) sean claramente descritas y resulten fáciles de
ausencia de la característica medida (la persona no ha con-visualizar, necesitamos de algunos «traductores» que nos
sumido agua ese día). Además, si alguien consume 2 litros permitan procesar todo este volumen de información de
de agua, podemos decir que ha consumido el doble de una manera que tenga un significado claro y menos complejo a
persona que haya consumido 1 litro ese mismo día. Otros una «escala humana». El enfoque conocido como EDA
ejemplos de este tipo de variables son: la altura de una per-
(Exploratory Data Analysis) es por hoy la mejor alternativa
sona, el diámetro de una pieza, el consumo de combustible con la que disponemos. Este enfoque nos permite procesar
de un automóvil y la presión sanguínea. esta gran cantidad de datos y «dibujar» una imagen general
En resumen ¿Por qué es importante conocer las escalas que nos permita entender cosas —y por lo tanto aprender—
de medición? Para entender y usar apropiadamente las dife- acerca de los datos.
8
El EDA es una manera de pensar —una filosofía de 2. Registre la frecuencia asociada f con cada categoría y, si
pensamiento— con respecto al análisis de datos. Esta ma- lo desea, su correspondiente frecuencia relativa (calcu-
nera de pensar requiere de ciertas técnicas, de ciertas mane- lada como un porcentaje del total de casos para cada una
ras de aproximarse a los datos —desde una cierta perspec- de las categoría). Incluya además el número total de da-
tiva— durante el análisis. Las técnicas del EDA son apro- tos o casos, n, al final de la tabla.
piadas tanto para datos cualitativos como para cuantitativos 3. Considerar las recomendaciones dadas en Effective
y su énfasis se centra en usar representaciones visuales que Tables and Graphs in Official Statistics (Guiadance for
revelen información vital sobre los datos que están siendo Producers) disponible en https://gss.civilservice.gov.uk/wp-
examinados. Visualizar es una forma de tratar de empezar a content/uploads/2014/12/Effective-graphs-and-tables-in-official-
interactuar con la información. Una buena visualización de statistics-version-1.pdf
datos permite descubrir algún tipo de relación, estructura o En el siguiente ejemplo se muestra cómo construir una
patrones que serían difíciles de describir a partir de los distribución de frecuencias y a partir de ella, el gráfico de
datos en bruto. En esta primera parte del curso nos centra- barras.
remos en las diferentes técnicas del EDA que buscan orga-
nizar y desplegar los datos gráficamente de manera que Ejemplo 2: En el artículo «Nearly Half of American
sean evidentes algunos valores distintivos de la serie de Adults are Smartphone Owners» (Pew Research Center,
datos tales como: valores centrales (aquellos valores que pewresearch.org, March 1, 2012) se examina el tipo de
parecen ocupar el centro de la serie de datos), valores ex- teléfono celular preferido por los adultos estadounidenses.
tremos (valores que parecen estar muy lejos de los valores Esta variable es categórica, y, por tanto, la única operación
centrales), conglomerados (grupos de datos muy cercanos matemática que podemos efectuar es contar; de manera que
entre sí), brechas (separaciones de magnitud considerable los resultados de la encuesta se pueden resumir a partir del
entre conglomerados), anomalías (algo que no encaja en un artículo en una tabla de distribución de frecuencias como
patrón) y la identificación de patrones globales (The big se muestra en la tabla 3.
picture). La aplicación de estas técnicas también determina- Tipo de Celular Preferido Frecuencia Frecuencia Relativa
rá en gran parte qué otras técnicas alternativas de análisis Android Smartphone 458 20.33%
pueden aplicarse posteriormente a los datos en estudio. iPhone Smartphone 437 19.40%
Blackberry Smartphone 141 6.26%
3.2 Distribuciones de Frecuencias y Gráficos para Celular no inteligente 924 41.01%
Variables Cualitativas. No posee teléfono celular 293 13.00%
Total 2253 100%
Distribuciones de Frecuencias y Gráfico de Barras Tabla 3
Distribución de Frecuencias para el ejemplo 2
En esta sección estudiaremos cómo las distribuciones Fuente: www.pewinternet.org/wp-
de frecuencia y los gráficos de barra pueden ser usados para content/uploads/sites/9/media/Files/Reports/2012/Smartphone-ownership-
resumir datos categóricos. Ambas técnicas están íntima- 2012.pdf
mente ligadas: a partir de una distribución de frecuencias Por lo general, la información en la distribución de fre-
construimos el gráfico de barras y a partir de un gráfico de cuencias resulta más ilustrativa si se calculan las frecuen-
barras debería ser fácil visualizar la distribución de fre- cias relativas de los conteos (también conocidas como pro-
cuencias que le dio origen. Para construir la distribución de porciones). Por ejemplo, para la categoría Android Smartp-
frecuencias siga los siguientes pasos: hone la frecuencia relativa se calcula como el cociente
1. Liste las categorías que componen las variables. Re- 458⁄2253 = 0.2033 que equivale al 20.33%. De manera
cuerde que la única operación que puede hacer con las similar se calculan las demás frecuencias relativas como se
variables categóricas es contar, y que el orden en que se muestra en la tabla 3. La proporción es un resumen estadís-
listen las categorías es irrelevante. Sin embargo, para tico que nos permite hacer comparaciones sin hacer refe-
evitar algún tipo de sesgo o tendencia que pueda generar rencia al total de observaciones. Así, sabemos que la pro-
algún tipo de mala interpretación, se recomienda listar- porción de adultos que no poseen teléfono celular es del
las categorías alfabéticamente, o en orden descendente o 13.00 %. Si no hacemos uso de la proporción tendríamos
ascendente de la frecuencia. que decir que 293 de un total de 2253 adultos no usan telé-
fono.
9
A partir de la distribución de frecuencias podemos Android o iPhone, pero es evidente que la proporción de los
construir fácilmente el gráfico de barras, que no es más que que prefieren Blackberry es menor que estas dos. Un pe-
una representación gráfica de esta tabla, que nos permite queño grupo de adultos no poseen teléfono celular.
visualizar la distribución de los datos, es decir cómo se
distribuyen los datos a través de las diferentes categorías
que pueden observarse, o comparar visualmente dos o más
series de datos según alguna característica de interés. En la
figura 5 se muestra el gráfico de barras para el ejemplo 2 y
en la figura 6 se muestra el diagrama de frecuencias relati-
vas.
Figura 6
Tabla 5:
Datos para el ejemplo 4
6. Finalmente, contamos cuantos de los datos correspon- o relativas. En este caso como se trata de analizar las notas
den a cada uno de los intervalos y anotamos el resulta- de los alumnos usaremos las frecuencias absolutas. El his-
do en la columna de frecuencias absolutas. En la tabla 6 tograma se muestra en la figura 9.
se muestran los resultados obtenidos y el cálculo de las
¿Qué información nos proporciona el histograma? Po-
frecuencias relativas. Las marcas de clase son el punto
demos obtener las mismas conclusiones que ya hemos
medio de cada una de las clases. Por ejemplo, la marca
51+59 mencionado con anterioridad a partir de la distribución de
de clase para la primera clase es 2 = 55. Estas frecuencias, pero «de otra manera». Retomemos las ideas
marcas de clase suelen emplearse como valores repre- principales y explicaremos como obtenerlas a partir del
sentativos de su respectiva clase. Por ejemplo, podemos gráfico:
decir que un valor representativo de los 20 datos com-
prendidos en la cuarta clase es 82.
Límites de 𝑓 𝑓𝑟 (%) Marca de Clase
Clase
51 – 59 2 4 55
60 – 68 5 10 64
69 – 77 11 22 73
78 – 86 20 40 82
87 – 95 10 20 91
96 – 104 2 4 100
Totales 50 100
Tabla 6
Distribución de frecuencias para el ejemplo 4
Uso de Histogramas para Comparar dos Series de Datos. sentativo está entre 2 y 4 horas, y entre 0 y 2 horas para el
grupo de tres años. Ambos histogramas presentan un sesgo
Si se desea comparar dos series de datos se recomienda
a la derecha, lo cual nos indica que existe un pequeño gru-
usar siempre las frecuencias relativas para construir el his-
po de niños que ven mucha TV (entre 14 y 16 horas)
tograma, ya que los grupos que compara podrían ser de
tamaños diferentes. Otro aspecto importante es usar las Resumen: las ideas principales de esta sección son:
mismas escalas en ambos gráficos para hacer que las com-
paraciones se vuelvan más fáciles. 1. Cuando se analicen variables cualitativas usaremos
gráficos de barras para representarlas en forma gráfica.
Ejemplo 5: El artículo «Early Television Exposure and En este tipo de gráfico el orden en que se listen las ca-
Subsequent Attention Problems in Children» investiga los tegorías es irrelevante.
hábitos televisivos de los niños de EU. Los datos fueron 2. Cuando se analicen variables cuantitativas usaremos
obtenidos en un estudio a nivel nacional. En la tabla 7 se histogramas de frecuencias relativas para representarlas
muestran las frecuencias relativas aproximadas para el nú- en forma gráfica. Las características que buscamos re-
mero de horas frente a la TV por día para niños de uno y saltar son: el valor representativo (el centro) de la dis-
tres años. Construya un histograma para cada variable y tribución de datos y su posible simetría o asimetría.
compare sus características más importantes.
Horas frente a la TV por día Un año Tres años SESIÓN 3.
0a2 0.270 0.630 OBJETIVOS DE APRENDIZAJE:
2a4 0.390 0.195
4a6 0.190 0.100 Después de terminar con éxito esta sesión serás capaz de:
6a8 0.085 0.025 18. Explicar qué son las medidas de tendencia central.
8 a 10 0.030 0.020
10 a 12 0.020 0.015 19. Explicar cuál medida de tendencia central describe de mejor manera
12 a 14 0.010 0.010 una serie de datos.
14 a 16 0.005 0.005 20. Calcular las medidas de tendencia central de una serie de datos.
Tabla 7 21. Explicar qué son las medidas de dispersión.
Datos para el Ejemplo 5 22. Utilizar las medidas de tendencia central y dispersión para describir
una serie de datos.
Solución: Intentar comparar ambas variables a partir de
la tabla resulta un tanto complicado, pero si construimos 3.4 Midiendo el Centro y la Dispersión de una Dis-
histogramas para ambas variables aparecen las característi- tribución de Datos.
cas que buscamos. En la figura 14 se muestran ambos his-
togramas. Observe la importancia de usar la misma escala Las técnicas aprendidas en las secciones anteriores nos
en el sistema de ejes coordenados, lo cual nos permitirá permiten realizar un análisis visual de los datos, lo cual
hacer comparaciones que tengan sentido. resulta ser una excelente técnica para obtener impresiones
preliminares. Un análisis más formal requiere del cálculo
Análisis: En ambos grupos de edades el tiempo frente a de números que nos resuman algunas de las características
la TV es pequeño. Para el grupo de un año, un valor repre- más importantes de la distribución de datos. Nos centrare-
Figura 14
14
mos en dos de estas características: el centro y la variabili- decidir si la distribución es simétrica o no. El histograma se
dad. El centro responde a la pregunta ¿dónde está centrada muestra en la figura 15.
la distribución de datos a lo largo de una escala o eje de
450.97 437.70 433.75 444.96 448.24
valores? Por su parte, la variabilidad describe cómo es la 432.70 429.83 446.96 449.03 419.53
dispersión de los datos, es decir ¿son muy similares entre 454.81 450.83 470.04 456.21 472.13
sí? o ¿difieren significativamente entre sí? Esto nos lleva a 442.95 434.90 435.13 454.77 448.28
las siguientes dos definiciones: 449.22 466.95 444.55 448.90 445.76
445.41 451.04 449.28 448.74 436.22
Definición: Una medida de tendencia central describe 440.49 465.09 445.04 461.53 438.96
dónde se ubica la distribución de datos a lo largo de una 448.29 437.54 433.59 463.35 469.28
458.10 429.22 459.67 461.06 446.88
escala numérica. Además, nos proporciona información 451.07 473.82 458.59 442.54 455.69
sobre lo qué es «típico o representativo» de la distribución. Tabla 8.
Datos para el ejemplo 6.
Definición: Una medida de dispersión describe qué
tanta variabilidad existe en una distribución de datos. Ade-
más, nos proporciona información sobre qué tanto los valo-
res individuales tienden a diferir unos de otros.
Midiendo el Centro de una Distribución de Datos Aproxi-
madamente Simétrica.
Cuando una distribución es aproximadamente simétri-
ca, la mejor manera de describir el centro es con la media y
la mejor manera de medir la dispersión es con la desviación
estándar.
La media aritmética. Matemáticamente, la media
aritmética o simplemente media o promedio, es la suma de
todos los valores dividida por el número total de observa-
ciones. En el cálculo de la media se utiliza la siguiente no-
tación: Sean:
Figura 15: Distribución de los diámetros para el ejemplo 6
𝑥: la variable de interés.
𝑛: número de observaciones. Como la distribución de los diámetros resulta ser apro-
𝑥1 : la primera observación del conjunto de datos. ximadamente simétrica, la media es una opción razonable
𝑥2 : la segunda observación del conjunto de datos. para describir el centro de la distribución. Entonces, el diá-
⋮ metro promedio es:
𝑥𝑖 : la i-ésima observación del conjunto de datos 450.97+⋯+455.69 22439.59
𝑥̅ = = = 448.79 milímetros.
50 50
⋮
𝑥𝑛 : la n-ésima observación del conjunto de datos. Interpretación: El valor calculado de 448.79 describe
Entonces la media se calcula de la siguiente manera: dónde se centra el valor del diámetro de las piezas a lo lar-
go del eje 𝑥, y se puede interpretar como un diámetro típico
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ∑𝑛𝑖=1 𝑥𝑖 o representativo del conjunto de datos, de tal manera que,
𝑥̅ = = para describir este conjunto de 50 datos, ya no hace falta
𝑛 𝑛
hacer referencia a cada uno de ellos, bastará con reportar a
Ejemplo 6: El diámetro, en milímetros, de 50 piezas un «representante» de todos ellos: la media. En este sentido
usadas para el ensamblaje de un sistema de enfriamiento se podemos decir que el valor representativo del conjunto de
muestra en la tabla 8. Calcule e interprete la medida de datos es 448.79 milímetros.
tendencia central más adecuada para los diámetros de las 50
piezas. Una interpretación física de la media es la siguiente:
imagine que podemos recortar el histograma y luego bus-
Solución: Según las técnicas del EDA descritas hasta el camos un punto sobre el eje 𝑥 donde se equilibre (el centro
momento es necesario construir el histograma para la serie de gravedad) este punto resultará ser la media (tal como se
de datos ya que esto proporciona una representación visual muestra en la figura 16).
a cerca de la distribución de los diámetros que permitirá
15
Cada una de estas series de datos tiene una media de Debido a situaciones como estas, el rango se usa muy
75, es decir que el centro de las tres distribuciones es el poco como medida de dispersión. Es mejor considerar me-
mismo. No habría diferencia alguna entre las tres distribu- didas de variabilidad que incluyan a todas las observacio-
ciones si las describimos sólo midiendo su centro. nes (y no sólo los dos valores extremos).
Noción intuitiva de dispersión. Desviaciones con respecto a la media.
La dispersión es una característica de un conjunto de La medida de variabilidad más usada se basa en medir
datos que se utiliza sobre todo para analizar la variabilidad cuánto se desvía cada observación con respecto a la media.
respecto a una medida de posición central. En general, po-
𝑥𝑖 − 𝑥̅
demos decir que es un indicador de qué tan separados están
los datos entre sí o el grado que una variable se extiende Una desviación a partir de la media es positiva, si la co-
alrededor del centro o de la distribución. rrespondiente observación es mayor que la media. Y nega-
En la figura 17 se muestra el diagrama de puntos para tiva, si la observación es menor que la media. En general,
las tres series de datos. Este diagrama es una excelente cuando una serie de datos tiene una gran variabilidad, las
herramienta que nos permite visualizar en forma gráfica la observaciones tienden a desviarse mucho de la media. Esto
variabilidad y cómo esta se relaciona con la dispersión de se reflejará en el cálculo de la desviación con respecto a la
las observaciones (que tan cerca o alejadas están entre sí). media y es por esta razón que las desviaciones con respecto
A medida que nos desplazamos hacia abajo en la gráfica, la a la media se pueden combinar para obtener una medida
variabilidad de las distribuciones aumenta. En la serie C, global de la variabilidad.
los datos están más cercanos entre sí, por lo que la variabi- Varianza y Desviación Estándar.
lidad es menor. En la serie B, dos de los datos se han des-
plazado hacia los extremos, aumentando la distancia entre Cuando la distribución de datos es aproximadamente
los datos y por tanto la variabilidad. En la serie A, todos los simétrica, las dos medidas de dispersión más usadas son la
datos se han reacomodado de modo que la distancia entre varianza y la desviación estándar. Ambas medidas de va-
ellos ha aumentado, causando la mayor variabilidad de las riabilidad se basan en las desviaciones con respecto a la
tres distribuciones. media.
16
La varianza de una serie de datos, denotada por 𝑠 2 , es están más cercanas a la media que esta cantidad, y otras
la suma de las desviaciones cuadradas con respecto a la más lejanas, pero «en promedio», se desvían 18.71 dólares.
media divididas por 𝑛 − 1. Media y Desviación Estándar Juntas.
2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 Además de cuantificar, dando una indicación de la va-
𝑠 =
𝑛−1 riabilidad de la serie de datos, una medida de dispersión es
La desviación estándar de una serie de datos, denota- necesaria para completar la información obtenida con una
da por 𝑠, es la raíz cuadrada positiva de la varianza medida de tendencia central. En general podemos utilizar el
siguiente esquema:
∑𝑛 (𝑥𝑖 − 𝑥̅ )2
𝑠 = √𝑠 2 = √ 𝑖=1
𝑛−1
Serie B:
(75−75)2 +(75−75)2 +(50−75)2 +(75−75)2 +(100−75)2 +(75−7 5)2
𝑠𝐵2 =
6−1 Ejemplo 7: Describiendo una distribución aproxi-
(0)2 +(0)2 +(−25)2 +(0)2 +(25)2 +(0)2 1250 madamente simétrica.
𝑠𝐵2 = = = 250
5 5
Un laboratorio de pruebas desea comparar dos marcas
Serie C: de pintura para exteriores para determinar el tiempo antes
(75−75)2 +(70−75)2 +(75−75)2 +(80−75)2 +(75−75)2 +(75−75)2 de que se decoloren. Debido a que las marcas tienen agen-
𝑠𝐶2 = tes químicos diferentes y caros, se probaron únicamente 6
6−1
Marca A:
∑ 𝑥𝑖 210
𝑥̅𝐴 = = = 35.0 𝑚𝑒𝑠𝑒𝑠
𝑛 6
Ejemplo 8: Describiendo una distribución sesgada. Los cuartiles dividen la distribución de datos en cuatro
partes de más o menos el mismo tamaño, tal como lo mues-
Cuarenta estudiantes de un curso de Probabilidad y Es-
tra la figura 22. Cada parte se conoce como cuartil.
tadística fueron monitoreados para conocer qué tan a me-
nudo consultan el material puesto en el aula virtual. Los
resultados (el número de veces que cada alumno accede al
material) fueron los siguientes:
20 22 5 42 36 36 13 0
0 0 8 0 7 0 331 21
4 12 20 14 14 8 8 0
13 4 13 19 4 5 16 26
37 3 23 84 12 18 19 7
Tabla 10.
Datos para el ejemplo 8.
4+5
Q1 = = 4.5
2
47 83.5 164
mitad de los estudiantes visitó el aula virtual menos de 13
veces y la mitad de los estudiantes visitaron el aula virtual 30 296
13 o más veces. 25% de los estudiantes visitaron el aula
virtual 4.5 veces o menos y 25% de ellos visitó el aula vir-
tual 20.5 veces o más. Un IQR de 16.0 nos indica que el 50
% central de accesos de estudiantes al aula, se dispersa en
un intervalo de 16 puntos porcentuales.
SESIÓN 4. Figura 23
OBJETIVOS DE APRENDIZAJE:
Después de terminar con éxito esta sesión serás capaz de: • En segundo lugar, permite visualizar la forma de la
23. Calcular el resumen de 5 puntos utilizando R distribución de datos. El largo de los segmentos traza-
24. Construir diagramas de caja utilizando R dos desde el cuartil 1 hasta 𝑚𝑖𝑛 y del cuartil 3 a 𝑚𝑎𝑥
25. Extraer las principales características de una serie de datos utilizando dará una idea si la distribución es simétrica o sesgada.
diagramas de caja. Si la distribución es simétrica las longitudes de estos
26. Comparar dos o más series de datos utilizando diagramas de caja. segmentos serán aproximadamente iguales. Si la longi-
tud del segmento de la derecha es mayor, la distribu-
3.5 El resumen de Cinco Puntos y Diagramas de ción es sesgada a la derecha. Si la longitud del seg-
Caja. mento de la izquierda es mayor, la distribución es ses-
El cálculo de los cuartiles es la base para la construc- gada a la izquierda. Para la serie de datos anterior, la
ción de uno de los diagramas más usados en el EDA: el distribución es sesgada a la derecha como puede apre-
boxplot o diagrama de caja. Para su construcción se necesi- ciarse en la figura 24, donde se ha superpuesto al dia-
ta del resumen de cinco puntos: grama de caja, la dispersión de los valores. Como pue-
de apreciarse las regiones donde la dispersión de los
1. La menor de las observaciones (𝑚𝑖𝑛) puntos
2. El primer cuartil (𝑄1 )
3. El segundo cuartil (𝑄2 ) • se vuelven más angostas
4. El tercer cuartil (𝑄3 )
El grueso de los datos se ubica
5. La mayor de las observaciones (𝑚𝑎𝑥) en esta región
𝑄1 = 47 𝑄3 = 164
Figura 24
78 + 89
𝑄2 = = 83.5 El diagrama también nos da una idea de la variabilidad
2
de la distribución. En la figura 24, resulta notorio que
Con esta información y un eje adecuado se construye un existe mucha variabilidad en la serie de datos, causada
diagrama como el de la figura 23. por los dos datos a la derecha de la distribución.
Interpretación del diagrama: el diagrama muestra al- Otra de las versatilidades del diagrama de caja es mos-
gunas de las propiedades más importantes de la distribución trar la presencia de valores atípicos (Outliers). Por ejemplo,
de datos: para los datos del ejemplo 8 la brecha en el histograma (el
• En primer lugar, muestra la posición relativa de la me- espacio central «en blanco») sugiere la presencia de valores
diana, cuartiles y extremos de la distribución. muy alejados del grueso de los datos. En ese caso se cons-
truye el diagrama de caja de la siguiente manera:
20
Figura 26
realizar estas predicciones está implícito el supuesto de que valores que pueden ser considerados como atípicos
el futuro se comportará como el pasado, es decir, que el y que explicarían el residual.
proceso continuará funcionando de la misma manera que lo
En el siguiente ejemplo intentaremos describir una me-
ha hecho antes. Sin duda, pueden existir elaborados mode-
todología que nos permita proceder de manera ordenada en
los deterministas que podrían usarse para describir cómo
la aplicación del EDA.
varía la característica de interés. Dichos modelos, que sur-
gen de un conocimiento detallado de una ciencia en particu- Ejemplo 9: La calidad de la enseñanza está vinculada a
lar, representan cómo se genera una cantidad de la caracte- los recursos financieros. Una enseñanza de calidad tiene un
rística de interés o de algún fenómeno en particular. En el costo significativo y, salvo algunas excepciones, la poca
mundo real, sin embargo, solo se pueden observar cantida- inversión en educación deriva en una educación de baja
des medidas. El modelo no es observable, pero subyace en calidad. Desde el punto de vista de la exigibilidad del dere-
el proceso. El pensamiento estadístico ve los datos medidos cho a la educación, suele recurrirse al estándar mínimo del
como si hubieran sido producidos por este mecanismo sub- 6% del PIB recomendado por la UNESCO. En la tabla 11
yacente de generación de datos. Una forma de expresar este se muestra la inversión pública como porcentaje del PIB
mecanismo es escribir para algunos de los países de centro américa.
𝐷𝑎𝑡𝑜𝑠 = 𝑓(verdadero estado de la naturaleza, ruido)
Hay muchas interpretaciones de esta ecuación. La más
simple es que el verdadero estado de la naturaleza y el rui-
do son aditivos, y ambos pueden tener estructuras compli- Tabla 11
cadas de modelar. En general y, sin entrar en debates filo-
sóficos, se puede pensar en el «ruido» como un reflejo de la ¿Qué información podemos extraer de esta serie de da-
variabilidad que, dado el contexto y el conocimiento cientí- tos? El enfoque del EDA se basa en la representación gráfi-
fico actual y las limitaciones económicas, no se puede, o se ca de la información y a partir de esta representación buscar
elige no explicar. la «regularidad» y las «desviaciones». En la figura 27 se
muestra el diagrama de caja para el gasto de cada uno de
Las técnicas descritas hasta este momento proporcionan los países en educación. Se muestra, además, indicado con
los conocimientos básicos que permitirán utilizar la filoso- una línea horizontal, el 6% sugerido por la UNESCO.
fía del EDA. Esta filosofía, consiste en explorar los datos
desde todas las perspectivas y con todas las herramientas
posibles para encontrar patrones inherentes o regularidades,
es decir, el «verdadero estado de la naturaleza», y detectar
desviaciones con respecto a estos patrones —el ruido o
residual— con el objetivo de encontrar hechos generaliza-
bles.
De esta manera, el enfoque del EDA puede ser caracte-
rizado como una búsqueda interactiva de un modelo, que
indica la estructura simplificada del conjunto de datos, y
una explicación del ruido, las diferencias de los datos con
respecto a esta estructura, a partir del contexto.
El diagrama de caja es la herramienta por excelencia
en el EDA ya que tiene la versatilidad de resumir tres dife-
rentes modelos: Figura 27. Gasto público en Educación para los países de la región cen-
• La mediana, que marca el punto que divide 50:50 troamericana. Tomado de diversas fuentes para fines didácticos.
de los datos;
• El IQR, representado por el ancho de la caja, que
nos muestra el patrón del 50% central; y
• La caja junto con los segmentos (que en la literatu-
ra se conocen como bigotes), que nos muestran los
22