Está en la página 1de 188

Bioestadística - Bacteriología

O. Elias Bru-Cordero
Semana 1 a la Semana 2

Facultad de Ciencias Básicas


Universidad de Córdoba
Primer Semestre de 2023

1 / 133
Moticación

2 / 133
Moticación

Figura 2

3 / 133
Moticación

Figura 3: https://n9.cl/d3fqx 4 / 133


Moticación

Figura 4: https://www.scielo.cl/pdf/infotec/v32n4/0718-0764-infotec-
32-04-31.pdf

5 / 133
Moticación

Figura 5
6 / 133
Moticación

7 / 133
Estadística Descriptiva: Objetos de estudio

En el mundo, abundan los problemas, y para resolver la ma-


yoría, requerimos de infomaciones. Pero ¿qué tipo de infor-
mación? ¿qué cantidad de información? y después de tenerla
¿qué hacemos con esa información?

8 / 133
Estadística Descriptiva: Objetos de estudio

En el mundo, abundan los problemas, y para resolver la ma-


yoría, requerimos de infomaciones. Pero ¿qué tipo de infor-
mación? ¿qué cantidad de información? y después de tenerla
¿qué hacemos con esa información?
La estadística trabaja con esas informaciones, asociando los
datos al problema, descubriendo cómo y que colectar, permi-
tiendole al investigador/especialista/profesional extraer con-
clusiones de esta información.

8 / 133
Estadística Descriptiva: Objetos de estudio

Por ejemplo,
• La estadística es una herramienta fundamental en la in-
vestigación bacteriológica, ya que permite analizar y en-
tender los datos obtenidos de manera objetiva y riguro-
sa.

9 / 133
Estadística Descriptiva: Objetos de estudio

Estadística
La aplicación de técnicas estadísticas en la bacteriología es
amplia y variada, abarcando desde la identificación y clasi-
ficación de bacterias, hasta la evaluación de la eficacia de
tratamientos antibióticos. Además, la estadística también se
utiliza en la predicción de la evolución de epidemias y en la
estimación de la probabilidad de aparición de mutaciones ge-
néticas que puedan generar resistencia a los antibióticos.

10 / 133
Estadística Descriptiva: Objetos de estudio

Estadística
La aplicación de técnicas estadísticas en la bacteriología es
amplia y variada, abarcando desde la identificación y clasi-
ficación de bacterias, hasta la evaluación de la eficacia de
tratamientos antibióticos. Además, la estadística también se
utiliza en la predicción de la evolución de epidemias y en la
estimación de la probabilidad de aparición de mutaciones ge-
néticas que puedan generar resistencia a los antibióticos.
En general, la estadística es fundamental en el análisis de
datos provenientes de cualquier proceso donde exista varia-
bilidad.

10 / 133
Estadística Descriptiva: Objetos de estudio

Conforme la definición anterior, el análisis envuelve dos fases:

11 / 133
Estadística Descriptiva: Objetos de estudio

Conforme la definición anterior, el análisis envuelve dos fases:


1. Estadística Descriptiva
La estadística descriptiva es un conjunto de técnicas que tie-
nen como objetivo recolectar, organizar, presentar, analizar
y sintetizar la información de interés pero sin llegar a con-
clusiones profundas sobre la misma.

11 / 133
Estadística Descriptiva: Objetos de estudio

Conforme la definición anterior, el análisis envuelve dos fases:


1. Estadística Descriptiva
La estadística descriptiva es un conjunto de técnicas que tie-
nen como objetivo recolectar, organizar, presentar, analizar
y sintetizar la información de interés pero sin llegar a con-
clusiones profundas sobre la misma.

2. Estadística Inferencial
La estadística inferencial es un conjunto de técnicas que per-
miten, a partir de una muestra, obtener conclusiones sólidas
y profundas, que pueden generalizarse a toda la población pa-
ra la toma de decisiones.

11 / 133
Definición no-formal: Estadística

12 / 133
Definición no-formal: Estadística

Estadística
Es el arte de aprender de los datos.

12 / 133
Definición no-formal: Estadística

Estadística
Es el arte de aprender de los datos.

En resumen
La estadística es esencial para la investigación bacteriológica
y su aplicación es fundamental para el avance de la micro-
biología y la salud pública.

12 / 133
Conceptos básicos

Población
La población es el conjunto de “N” elementos o unidades de
investigación (personas, animales, domicilios, objetos, em-
presas, etc) para los que se desea estudiar ciertas caracterís-
ticas.

13 / 133
Conceptos básicos

Población
La población es el conjunto de “N” elementos o unidades de
investigación (personas, animales, domicilios, objetos, em-
presas, etc) para los que se desea estudiar ciertas caracterís-
ticas.
La población puede ser:
• Finita: Cuando el número de unidades de investigación
que se va a observar puede ser contado y limitado.
• Infinita: Cuando el número de unidades de investiga-
ción es ilimitada o cuando no se pueden contar.

13 / 133
Conceptos básicos

Ejemplos:
1. Cuando un banco desea lanzar un nuevo producto, ne-
cesita conocer el perfil socioeconómico de sus clientes.

14 / 133
Conceptos básicos

Ejemplos:
1. Cuando un banco desea lanzar un nuevo producto, ne-
cesita conocer el perfil socioeconómico de sus clientes.
En este caso, la población (finita) de interés son los clien-
tes de todas las sucursales del banco.

14 / 133
Conceptos básicos

Ejemplos:
1. Cuando un banco desea lanzar un nuevo producto, ne-
cesita conocer el perfil socioeconómico de sus clientes.
En este caso, la población (finita) de interés son los clien-
tes de todas las sucursales del banco.
2. Conjunto de medidas de una determinada longitud, ga-
ses, líquidos (población infinita).

14 / 133
Conceptos básicos

Ejemplos:
1. Cuando un banco desea lanzar un nuevo producto, ne-
cesita conocer el perfil socioeconómico de sus clientes.
En este caso, la población (finita) de interés son los clien-
tes de todas las sucursales del banco.
2. Conjunto de medidas de una determinada longitud, ga-
ses, líquidos (población infinita).
3. Los censos demográficos son realizados cada 10 años con
el objetivo de recopilar información sobre toda la pobla-
ción del país.

14 / 133
Conceptos básicos

Censo
El censo es una recopilación exhaustiva de la información de
todas las unidades de investigación de la población.

15 / 133
Conceptos básicos

Censo
El censo es una recopilación exhaustiva de la información de
todas las unidades de investigación de la población.
La mayoría de las veces no son convenientes o imposibles
debido los siguientes factores:
• Tiempo: la información debe obtenerse rápidamente.
• Precisión: la información debe ser correcta.
• Costo: en el proceso de recolección, sistematización, aná-
lisis e interpretación, el costo debe ser lo más bajo po-
sible.
En su lugar, nos delimitamos a un subconjunto (finito) de la
población.
15 / 133
Conceptos básicos

Muestra
La muestra es un subconjunto finito de la población.
La muestra debe seleccionarse adecuadamente para que sea
“lo más representativa posible de la población”, de manera
que represente todas las características de la población como
si fuera una fotografía de la misma.

16 / 133
Conceptos básicos

Muestra
La muestra es un subconjunto finito de la población.
La muestra debe seleccionarse adecuadamente para que sea
“lo más representativa posible de la población”, de manera
que represente todas las características de la población como
si fuera una fotografía de la misma.

¿Cómo seleccionarla de una forma adecuada?

16 / 133
Conceptos básicos

Muestra
La muestra es un subconjunto finito de la población.
La muestra debe seleccionarse adecuadamente para que sea
“lo más representativa posible de la población”, de manera
que represente todas las características de la población como
si fuera una fotografía de la misma.

¿Cómo seleccionarla de una forma adecuada?

Respuesta: Usando unas técnicas especiales que son conoci-


das como técnicas de muestreo.

16 / 133
Conceptos básicos

Después de haber obtenido una muestra de una población y


analizarla, el especialista o investigador deseará generalizar
las conclusiones obtenidas en ella a toda la población.

¿Esto es posible?

Respuesta: Depende de las técnicas utilizadas en dicho aná-


lisis.

17 / 133
Conceptos básicos

18 / 133
Técnicas de Muestreo

19 / 133
Tipos de Muestreo
En los tipos de muestreo tenemos:

Muestreos probabilísticos:
En ellos se conoce la probabilidad de que un individuo sea
elegido para la muestra. Son interesantes para usar estadís-
tica matemática con ellos. La elección de la muestra se hace
aleatoriamente. La estadística inferencial exige este tipo de
muestreo (REPRESENTATIVA).

20 / 133
Tipos de Muestreo
En los tipos de muestreo tenemos:

Muestreos probabilísticos:
En ellos se conoce la probabilidad de que un individuo sea
elegido para la muestra. Son interesantes para usar estadís-
tica matemática con ellos. La elección de la muestra se hace
aleatoriamente. La estadística inferencial exige este tipo de
muestreo (REPRESENTATIVA).

Muestreos no probabilísticos:
En ellos no se conoce la probabilidad. Son muestreos que muy
posiblemente esconden sesgos. En principio, no se pueden
extrapolar los resultados a la población..

20 / 133
Tipos de Muestreo

Los muestreos con la menor posibilidad de sesgo (probabilís-


ticos) son los siguientes: aleatorio simple, aleatorio estratifi-
cado, sistemático, y por grupos o conglomerados.

Muestreo aleatorio simple:


Es aquél en el que cada individuo tiene las mismas posibili-
dades de ser elegido para formar parte de la muestra..

21 / 133
Tipos de Muestreo

Muestreo aleatorio estratificado:


En este tipo de muestreo la población se divide en estratos.
La muestra se obtiene seleccionando de cada estrato un nú-
mero proporcional a la población que representa. Con este
tipo de muestreo se asegura que la muestra tenga la misma
proporción de una(s) variable(s) que la población de la que
procede y que podría tratarse de una variable-pronóstico di-
ferente en los grupos de estudio.

22 / 133
Tipos de Muestreo

Muestreo aleatorio estratificado:


En este tipo de muestreo la población se divide en estratos.
La muestra se obtiene seleccionando de cada estrato un nú-
mero proporcional a la población que representa. Con este
tipo de muestreo se asegura que la muestra tenga la misma
proporción de una(s) variable(s) que la población de la que
procede y que podría tratarse de una variable-pronóstico di-
ferente en los grupos de estudio.

Muestreo sistemático:
El proceso de selección empleado se basa en alguna regla sis-
temática simple como, por ejemplo, elegir uno de cada n.
individuos..

22 / 133
Tipos de Muestreo

Muestreo por conglomerados:


En este tipo, la selección se realiza fundamentalmente con el
objetivo de reducir costos, utilizando como base del muestreo
al grupo de sujetos..

23 / 133
Tipos de Muestreo

Muestreo por conglomerados:


En este tipo, la selección se realiza fundamentalmente con el
objetivo de reducir costos, utilizando como base del muestreo
al grupo de sujetos..

Tamaño muestral:
El proceso de selección empleado se basa en alguna regla sis-
temática simple como, por ejemplo, elegir uno de cada n in-
dividuos..

23 / 133
Caso Clínico

24 / 133
Conceptos básicos

Variables Cualitativas
Las variables cualitativas clasifican o describen un atributo
o cualidad de las unidades de investigación.
Las variables cualitativas pueden ser:
• Ordinal: cuando se puede establecer un orden natural
entre las categorías de la variable. Algunos ejemplos son,
el nivel educativo, el estrato socioeconómico, etc.
• Nominales: cuando no se puede establecer un orden
entre las categorías de la variable. La raza, la religión
y el género son tres ejemplos de variables cualitativas
nominales

25 / 133
Conceptos básicos

Variables Cuantitativas
Las variables cuantitativas miden características de las uni-
dades de investigación.
Las variables cuantitativas pueden ser:
• Continuas: cuando la variable puede asumir cualquier
valor numérico en un determinado intervalo de varia-
ción. Estas variables resultan de mediciones (peso, altu-
ra, dosis de hemoglobina, etc).
• Discretas: sólo puede asumir valores pertenecientes a
un conjunto enumerable. Estas variables resultan de pro-
cesos de conteos (número de embarazos, número de em-
pleados, etc).

26 / 133
Tipos de Variables

Figura 7: Clasificación de variables según su naturaleza

27 / 133
Resumen

La diferenciación entre los tipos de variables es importante


para la selección adecuada de las técnicas estadísticas y la
visualización de los datos.

28 / 133
Conceptos básicos

¿Cómo se organizan los datos?

29 / 133
Conceptos básicos

¿Cómo se organizan los datos?

En la práctica, los datos son organizados en tablas o planillas


donde cada columna representa los valores observados de las
variables y cada fila representa a una unidad de investigación.

29 / 133
Conceptos básicos

¿Cómo se organizan los datos?

En la práctica, los datos son organizados en tablas o planillas


donde cada columna representa los valores observados de las
variables y cada fila representa a una unidad de investigación.

Cuadro 1: Organización de los datos

ID Variable 1 Variable 2 ··· Variable p


Uni. de inv. 1
Uni. de inv. 2
..
.
Uni. de inv. n

29 / 133
Conceptos básicos

En general, la primera tarea de un análisis estadístico de un


conjunto de datos es resumirlo. Las técnicas disponibles para
este propósito dependen del tipo de variables involucradas.
Por lo tanto, estudiaremos las técnicas conforme la natura-
leza de las variables:
• Análisis descriptivo para variables cualitativas.
• Análisis descriptivo para variables cuantitativas

30 / 133
Análisis exploratorio de datos una variable
cualitativa

En esta primera parte aprenderemos a resumir datos (varia-


bles) cualitativos(as) usando dos tipos de herramientas:

31 / 133
Análisis exploratorio de datos una variable
cualitativa

En esta primera parte aprenderemos a resumir datos (varia-


bles) cualitativos(as) usando dos tipos de herramientas:
• Tablas (de distribución) de frecuencias.

31 / 133
Análisis exploratorio de datos una variable
cualitativa

En esta primera parte aprenderemos a resumir datos (varia-


bles) cualitativos(as) usando dos tipos de herramientas:
• Tablas (de distribución) de frecuencias.
Las frecuencias se refieren a las ocurrencias de cada una
de las categorías de la variable cualitativa.
• Gráficos.

31 / 133
Análisis exploratorio de datos una variable
cualitativa

En esta primera parte aprenderemos a resumir datos (varia-


bles) cualitativos(as) usando dos tipos de herramientas:
• Tablas (de distribución) de frecuencias.
Las frecuencias se refieren a las ocurrencias de cada una
de las categorías de la variable cualitativa.
• Gráficos.
Los gráficos complementan la presentación tabular y
permiten hacer un examen visual más rápido que en las
tablas de frecuencia, principalmente cuando éstas son
grandes.

31 / 133
Análisis exploratorio de datos una variable
cualitativa

Tablas de frecuencias
Es una tabla que contiene las frecuencias absolutas (o sim-
ples) y relativas de las unidades de investigación para cada
categoría de la variable cualitativa.
La frecuencia absoluta de la i-ésima categoría (ni ) corres-
ponde al número de veces que ocurre esa categoría.
La frecuencia relativa de la i-ésima categoría (fi ) corresponde
a la razón entre la frecuencia absoluta en esa categoría y el
número total de datos (n).

32 / 133
Análisis exploratorio de datos una variable
cualitativa

Cuadro 2: Representación de una tabla de frecuencias

Categorías Frec. absoluta Frec. relativa


1 n1 f1 = n1 /n
2 n2 f2 = n2/n
.. .. ..
. . .
k n fk = nk /n
Pkk
Total n = i=1 nk 1

Las Tablas de frecuencias también son conocidas como dis-


tribución de frecuencia.

33 / 133
Análisis exploratorio de datos una variable
cualitativa
Ejemplo 1.1. Suponga que se tiene la información sobre las
distintas especie de pescado que existen en la cuenca del rio
Cauca, como se informa en la siguiente tabla:
Cuadro 3: Tabla de frecuencias para el color de cabello

Color del cabello Frec. absoluta Frec. relativa


Rubio 34 34/160 = 0.2125
Castaño 89 89/160 = 0.5563
Negro 25 25/160 = 0.1563
Rojo 12 12/160 = 0.075
Total 160 1
Note que la variable de interés es el color del cabello, tiene
k = 4 categorías (Rubio, Castaño, Negro, Rojo) y es de tipo
nominal. 34 / 133
Análisis exploratorio de datos una variable
cualitativa

A partir de la Tabla (3), podemos concluir que:


• La mayoría (0.5563 × 100 = 55.63 %) de las personas
encuestadas tienen el cabello de color castaño.
• Sólo el 0.075 × 100 = 7.5 % de las personas encuestadas,
tienen color de cabello rojo.
• El 0.2125 × 100 = 21.25 % de las personas encuestadas
son de cabello rubio, mientras que el 0.1563 × 100 =
15.63 % son de cabello negro.

35 / 133
Análisis exploratorio de datos una variable
cualitativa

Cuando, la variable es cualitativa ordinal, podemos agregar


a la tabla de frecuencias:
• las frecuencias absolutas acumuladas
i
X
Ni = ni ,
i=1

• las frecuencias relativas acumuladas


Ni
Fi = ,
n
las cuales son útiles en su análisis.

36 / 133
Análisis exploratorio de datos una variable
cualitativa
Ejemplo 1.2. Considere que se aplicó un cuestionario a 50
estudiantes de una universidad, con el objetivo de saber su
fluencia en inglés. Los dados se encuentran resumidos en la
tabla de abajo.

Cuadro 4: Tabla de frecuencias para la fluencia de inglés

F. en inglés ni fi Ni Fi
Ninguna 2 0.04 2 2/50 = 0.04
Alguna 26 0.52 2+26 =28 28/50 =0.56
Fluente 22 0.44 28+22 = 50 50/50=1
Total 50 1

37 / 133
Análisis exploratorio de datos una variable
cualitativa

Algunas conclusiones de la Tabla (4):


• Más de la mitad (0.52 × 100 = 52 %) de los estudiantes
respondió que tiene alguna fluencia en inglés.
• Sólo el 4 % (0.04×100 = 4 %) de los estudiantes no tiene
fluencia en inglés.
• Cerca del 60 % (0.56 × 100 = 56 %) de los estudiantes
dijeron que tienen como máximo alguna fluencia en in-
glés.

38 / 133
Análisis exploratorio de datos una variable
cualitativa

Los presentados en las Tablas (3) y (4), pueden ser represen-


tados mediante gráficos de barras y/o gráficos circulares
(de sectores o de pizza).

39 / 133
Análisis exploratorio de datos una variable
cualitativa

Gráfico de barras
Se utiliza para graficar las frecuencias absolutas o relativas
de una variable cualitativa.

40 / 133
Análisis exploratorio de datos una variable
cualitativa

Gráfico de barras
Se utiliza para graficar las frecuencias absolutas o relativas
de una variable cualitativa.
Para construir un gráfico de barra coloque las categorías de
la variable en el eje vertical (horizontal) y las frecuencias ab-
solutas (o relativas) en el eje horizontal (vertical); enseguida,
para cada categoría, construya una barra a la altura de la
frecuencia correspondiente.
Nota: Todas las barras deben tener la misma anchura y debe
existir espacios entre ellas.

40 / 133
Análisis exploratorio de datos una variable
cualitativa

Figura 8: Gráfico de barras para el color de cabello.

41 / 133
Análisis exploratorio de datos una variable
cualitativa
Diagrama Circular
Es un gráfico en forma de círculo, donde las categorías se
basan en una proporcionalidad entre la frecuencia y el
ángulo central de una circunferencia, de tal manera que a
la frecuencia total le corresponde el ángulo central de 360
grados.

42 / 133
Análisis exploratorio de datos una variable
cualitativa
Diagrama Circular
Es un gráfico en forma de círculo, donde las categorías se
basan en una proporcionalidad entre la frecuencia y el
ángulo central de una circunferencia, de tal manera que a
la frecuencia total le corresponde el ángulo central de 360
grados.
La construcción del gráfico circular sigue una regla de 3 sim-
ple, donde las frecuencias relativas (en porcentajes) de cada
categoría corresponden al ángulo que desea representar en
relación a la frecuencia total que representa 360°, así que
cada “sector o pedazo” representa el porcentaje de cada ca-
tegoría.
42 / 133
Análisis exploratorio de datos una variable
cualitativa

Figura 9: Gráfico circular para la influencia de inglés.

43 / 133
Análisis exploratorio de datos una variable
cuantitativa
Aquí aprenderemos a resumir datos (variables) cuantitati-
vos(as) usando dos tipos de herramientas:
• tablas (de distribución) de frecuencias,
• gráficos

44 / 133
Análisis exploratorio de datos una variable
cuantitativa
Aquí aprenderemos a resumir datos (variables) cuantitati-
vos(as) usando dos tipos de herramientas:
• tablas (de distribución) de frecuencias,
• gráficos
Para la construcción de distribuciones de frecuencia de va-
riables cuantitativas (principalmente para las continuas) no
podemos utilizar el mismo criterio adoptado para las varia-
bles cualitativas, pues

44 / 133
Análisis exploratorio de datos una variable
cuantitativa
Aquí aprenderemos a resumir datos (variables) cuantitati-
vos(as) usando dos tipos de herramientas:
• tablas (de distribución) de frecuencias,
• gráficos
Para la construcción de distribuciones de frecuencia de va-
riables cuantitativas (principalmente para las continuas) no
podemos utilizar el mismo criterio adoptado para las varia-
bles cualitativas, pues
• obtendríamos tablas con pequeña frecuencia en las dis-
tintas categorías,
• las tablas serían muy extensas,

44 / 133
Análisis exploratorio de datos una variable
cuantitativa
Aquí aprenderemos a resumir datos (variables) cuantitati-
vos(as) usando dos tipos de herramientas:
• tablas (de distribución) de frecuencias,
• gráficos
Para la construcción de distribuciones de frecuencia de va-
riables cuantitativas (principalmente para las continuas) no
podemos utilizar el mismo criterio adoptado para las varia-
bles cualitativas, pues
• obtendríamos tablas con pequeña frecuencia en las dis-
tintas categorías,
• las tablas serían muy extensas,
en consecuencia, no se lograría el objetivo de resumir los
datos.
44 / 133
Análisis exploratorio de datos una variable
cuantitativa
Ejemplo 1.3. Los datos de la siguiente tabla corresponde
al puntaje obtenido por n = 100 estudiantes fisioterapia en
una prueba de estadística:

45 / 133
Representación Gráfica

46 / 133
Representación Gráfica

Figura 11: Gráfico de barras

47 / 133
Análisis exploratorio de datos una variable
cuantitativa
Cuadro 5: Tabla de frecuencias del puntaje de los estudiantes

Puntajes Frecuencia absoluta Frecuencia relativa


45 1 0.01 (1 %)
50 2 0.02 (2 %)
55 5 0.05 (5 %)
60 12 0.12 (12 %)
65 18 0.18 (18 %)
70 25 0.25 (25 %)
75 19 0.19 (19 %)
80 10 0.10 (10 %)
85 5 0.05 (5 %)
90 2 0.02 (2 %)
95 1 0.01 (1 %)
Total 100 1 (100 %)

48 / 133
Análisis exploratorio de datos una variable
cuantitativa
Una solución a este problema es agrupar por clases los valores
de las variables y entonces obtener las frecuencias en cada
clase.

49 / 133
Análisis exploratorio de datos una variable
cuantitativa
Una solución a este problema es agrupar por clases los valores
de las variables y entonces obtener las frecuencias en cada
clase.
Para construir la tabla se deben seguir los siguientes paso:
1. Determinar el número de clases.
Usamos la regla de Sturges
K = 1 + 3.3 log10 (n),
donde n es el tamaño de la muestra.
2. Calcule el rango
R = Máximo de los datos − Mínimo de los Datos
3. Calcule la amplitud del intervalo
A = R/K
49 / 133
Análisis exploratorio de datos una variable
cuantitativa

4. Constuya las clases


• Clase 1: [Mín. de los Datos, Mín
| de los{zDatos + A} )
ls
• Clase i: [ls , ls + A)
5. Calcule las frecuencias absolutas, relativas y acumuladas
para cada clase.
6. Agregue a la tabla, las marcas de clases, las cuales co-
rresponden al punto medio de cada clase.

50 / 133
Análisis exploratorio de datos una variable
cuantitativa (k=9, para efectos de la clase)

Cuadro 6: Tabla de distribución de frecuencias para datos agrupados

Clases F. Abs. F. Rel. F. Abs. Acum F. Rel. Acum


[45, 51) 3 0.03 3 0.03
[51, 57) 5 0.05 8 0.08
[57, 63) 12 0.12 20 0.20
[63, 69) 18 0.18 38 0.38
[69, 75) 25 0.25 63 0.63
[75, 81) 29 0.29 92 0.92
[81, 87) 5 0.05 97 0.97
[87, 93) 2 0.02 99 0.99
[93, 99) 1 0.01 100 1
51 / 133
Análisis exploratorio de datos una variable
cuantitativa

Algunas conclusiones que se extraen de la tabla:


• La mayoría (29 %) de los estudiantes obtuvo puntajes
entre 75 y 81.
• El 25 % de los estudiantes obtuvo puntaje entre 69 y 75.
• Aproximadamente el 63 % de los estudiante obtuvo un
puntaje inferior a 75.
• Sólo el 3 % de los estudiantes obtuvo puntaje encima de
87.

52 / 133
Análisis exploratorio de datos una variable
cuantitativa

La tabla anterior es conocida como tabla de distribución de


frecuencias para datos agrupados y se recomienda cuando:
• El tamaño de la muestra es grande (n > 40).
• La variable es discreta o continua y sus valores son muy
diferentes.

53 / 133
Análisis exploratorio de datos una variable
cuantitativa

La tabla anterior es conocida como tabla de distribución de


frecuencias para datos agrupados y se recomienda cuando:
• El tamaño de la muestra es grande (n > 40).
• La variable es discreta o continua y sus valores son muy
diferentes.
Análogo al caso de las variables cualitativas, se pueden usar
gráficos para representar la distribución de frecuencia de un
conjunto de datos como alternativas a las tablas con el for-
mato antes visto.

53 / 133
Análisis exploratorio de datos una variable
cuantitativa

Gráficos de puntos o dotplots


Este gráfico es recomendado para variables cuantitativas
discretas principalmente cuando el conjunto de datos es
razonablemente pequeño o existen pocos valores de datos
distintos.
Este gráfico nos permite identificar:
• la forma (simétrica o asimétrica) de la distribución
de los datos,
• el centro de la distribución,
• la dispersión de los datos.

54 / 133
Análisis exploratorio de datos una variable
cuantitativa

Para construir un dotplots siga los siguientes pasos:


• Coloque en una línea horizontal todos los valores de la
variable de forma ascendente.
• Coloque un punto encima de cada valor tantas veces co-
mo éste aparezca en el banco de datos. Así que, cuando
un valor ocurre más de una vez, existe un punto por ca-
da ocurrencia, los cuales se apilan verticalmente como
se ilustra a continuación,

55 / 133
Análisis exploratorio de datos una variable
cuantitativa

Figura 12: Dotplot para los puntajes de los estudiantes

56 / 133
Análisis exploratorio de datos una variable
cuantitativa

Observe que en el gráfico es evidente que:


• Los datos están distribuidos en una forma simétrica,
• Los datos estan dispersos,
• La mayoría está concentrada entre 65 y 75 puntos, más
específicamente en 70.
• Los datos más extremos son 45 y 95.

57 / 133
Análisis exploratorio de datos una variable
cuantitativa
Diagrama de tallos y hojas o Stemplots
Este gráfico es recomendado para variables discretas cuando
las muestras son pequeñas o cuando pocos valores de datos
distintos. No se han establecido reglas para construirlo, sin
embargo, la idea básica consiste en dividir cada observación
en dos partes: 1. la rama que es colocada a la izquierda de
una línea vertical y 2. la hoja que es colocada a la derecha.
Este gráfico nos permite identificar:
• La forma (simétrica o asimétrica) de la distribución
de los datos,
• El centro de la distribución,
• La dispersión de los datos.
58 / 133
Análisis exploratorio de datos una variable
cuantitativa

Ejemplo 1.4. Considere que tenemos las edades de 22 per-


sonas sometidas a terapias respiratorias:

36 25 37 24 39 20 19 45 52 31

62 39 14 29 23 41 54 33 9 34 40 65
En este caso los tallos corresponden a los dígitos de 10 cifras
(00, 10, 20, 30, 40, 50) y las hojas a los dígitos de una cifra
(1, 2, 3, 4, 5, 6, 7, 8, 9).

59 / 133
Análisis exploratorio de datos una variable
cuantitativa

Figura 13: Stemplot para las edades de las 22 personas

A partir de este diagrama se puede concluir que:


• Los datos parecen estar distribuidos de una forma simé-
trica,
• La gran mayoría de las edades de las personas están
entre 31 y 39, inclusive.
60 / 133
Análisis exploratorio de datos una variable
cuantitativa

Histogramas
Estos gráficos son recomendables cuando tenemos una mues-
tra grande (tamaños mayores a 40, n > 40) de datos discre-
tos o continuos.

61 / 133
Análisis exploratorio de datos una variable
cuantitativa

Histogramas
Estos gráficos son recomendables cuando tenemos una mues-
tra grande (tamaños mayores a 40, n > 40) de datos discre-
tos o continuos.
Este gráfico nos permite identificar:
• La forma (simétrica o asimétrica) de la distribución
de los datos,
• El centro de la distribución,
• La dispersión de los datos.

61 / 133
Análisis exploratorio de datos una variable
cuantitativa
Para construir un histograma siga los siguientes pasos:
• Construya una tabla de frecuencias para datos agrupa-
dos.
• Dibuje dos ejes ortogonales.
• Coloque en el eje vertical las frecuencias (absolutas o
relativas).
• Divida el eje horizontal en tantas partes como el número
de clases y marque los números correspondientes a los
límites inferior y superior de cada clase.
• Para cada clase, dibuje un rectángulo con un ancho igual
a la amplitud de la clase con una altura igual a la fre-
cuencia de la clase. Vale la pena resaltar que los rectán-
gulos son contiguos.
62 / 133
Análisis exploratorio de datos una variable
cuantitativa

Figura 14: Histograma para los puntajes de los estudiantes

63 / 133
Análisis exploratorio de datos una variable
cuantitativa

En este gráfico podemos verbalmente describir rápidamente


el comportamiento de la distribución de los puntajes de los
100 estudiantes:
• Los puntajes son bastante simétricos,
• La gran mayor frecuencia de estudiantes se encuentra
entre 60 y 75,
• Donde menos se presenta estudiantes es en los extremos
de la distribución.

64 / 133
Análisis exploratorio de datos una variable
cuantitativa

En este gráfico podemos verbalmente describir rápidamente


el comportamiento de la distribución de los puntajes de los
100 estudiantes:
• Los puntajes son bastante simétricos,
• La gran mayor frecuencia de estudiantes se encuentra
entre 60 y 75,
• Donde menos se presenta estudiantes es en los extremos
de la distribución.
¿Cómo determinamos ese centro de la distribución?

64 / 133
Análisis exploratorio de datos una variable
cuantitativa

Uno de los procedimientos más utilizados para describir o


resumir un conjunto de datos consiste en extraer de ellos
mismos una única medida cuantitativa que proporcione una
idea de la tendencia o del comportamiento general de la va-
riable que los originó. En ese sentido, la idea es que esa me-
dida reproduzca un valor de referencia alrededor del cual se
distribuyan los demás valores.

65 / 133
Ideas Clave

Figura 15

66 / 133
Análisis exploratorio de datos una variable
cuantitativa

Figura 16: Representación de los datos (izquierda) - ilustración de


valores de referencia (derecha).

67 / 133
Análisis exploratorio de datos una variable
cuantitativa

Estas medidas son conocidas como medidas de tenden-


cia central, es decir, qué valor de una determinada variable
tienden a converger los demás valores.

68 / 133
Análisis exploratorio de datos una variable
cuantitativa

Estas medidas son conocidas como medidas de tenden-


cia central, es decir, qué valor de una determinada variable
tienden a converger los demás valores.
Las medidas de tendencia central más utilizadas son: moda,
media y mediana.

68 / 133
Análisis exploratorio de datos una variable
cuantitativa

Moda
La moda es el valor que más se repite, es decir, el valor más
frecuente.

69 / 133
Análisis exploratorio de datos una variable
cuantitativa

Moda
La moda es el valor que más se repite, es decir, el valor más
frecuente.
Para los puntajes de los estudiantes de fisioterapia tenemos:
Puntajes 45 50 55 60 65 70 75 80 85 90 95
Frec. abs 1 2 5 12 18 25 19 10 5 2 1

El puntaje que más se repite es 70, por lo tanto la moda es


70.

69 / 133
Análisis exploratorio de datos una variable
cuantitativa

Como acabamos de ver, la moda es muy sencilla de encontrar;


sin embargo, esta medida de tendencia central no es la más
adecuada, pues una misma serie de datos puede presentar
más de una moda (bimodal, trimodal, etc.) y recordemos que
el interés es encontrar una sola medida que pueda resumir a
toda la serie.

70 / 133
Análisis exploratorio de datos una variable
cuantitativa
Media aritmética o promedio
La media aritmética de una variable cuantitativa es la suma
de todos los valores de la variable (xi ), dividida por el número
de individuos en la muestra (tamaño de la muestra, n), esto
es,
n
x1 + x2 + · · · + xn X xi
x̄ = =
n i=1
n

Para los puntajes de los estudiantes tenemos que


70 + 50 + · · · + 60 + 65 6985
x̄ = = = 69.85
100 100
El puntaje medio (promedio) de los estudiantes es 69.85.
71 / 133
Análisis exploratorio de datos una variable
cuantitativa

Teniendo en cuenta que la noción de las medidas de tenden-


cia central es encontrar un valor que resuma el centro de una
distribución de datos, resulta interesante pensar que, si orga-
nizamos los datos en forma ascendente, podemos determinar
el valor central y por lo tanto, éste divide a la serie de datos
en dos partes iguales.

72 / 133
Análisis exploratorio de datos una variable
cuantitativa

Teniendo en cuenta que la noción de las medidas de tenden-


cia central es encontrar un valor que resuma el centro de una
distribución de datos, resulta interesante pensar que, si orga-
nizamos los datos en forma ascendente, podemos determinar
el valor central y por lo tanto, éste divide a la serie de datos
en dos partes iguales.
Mediana
La mediana corresponde al valor de la variable que ocupa la
posición central de la serie de datos; es decir, la mediana
parte la distribución de los datos en dos partes iguales.

72 / 133
Análisis exploratorio de datos una variable
cuantitativa
Ejemplo 1.5. Considere que tenemos las edades de 11 pa-
cientes:

36 25 37 24 39 20 19 45 52 31 62

Las organizamos de forma ascendente

La mitad (50 %) de las personas tienen menos de 36 años y


el otro 50 % tiene más de 36 años.
73 / 133
Análisis exploratorio de datos una variable
cuantitativa

Las medidas de tendencia central son un “intento” de resumir


un conjunto de datos usando sólo una cantidad numérica.

74 / 133
Análisis exploratorio de datos una variable
cuantitativa

Las medidas de tendencia central son un “intento” de resumir


un conjunto de datos usando sólo una cantidad numérica.
El problema es que esa cantidad por sí sola no siempre es lo
suficientemente significativa.

74 / 133
Análisis exploratorio de datos una variable
cuantitativa

75 / 133
Análisis exploratorio de datos una variable
cuantitativa

En la figura enterior podemos ver que ambos conjuntos de da-


tos son simétricos, tienen la misma media, la misma mediana
y la misma moda; sin embargo, tienen otras características
diferentes. Por ejemplo, observe que
• La primera gráfica es “más alta” que la segunda,
• Los datos de la segunda gráfica están “más regados o
dispersos” que los de la primera.

76 / 133
Análisis exploratorio de datos una variable
cuantitativa

En la figura enterior podemos ver que ambos conjuntos de da-


tos son simétricos, tienen la misma media, la misma mediana
y la misma moda; sin embargo, tienen otras características
diferentes. Por ejemplo, observe que
• La primera gráfica es “más alta” que la segunda,
• Los datos de la segunda gráfica están “más regados o
dispersos” que los de la primera.
Entonces, necesitamos una referencia cruzada estadística que
mida la dispersión de los datos.

76 / 133
Análisis exploratorio de datos una variable
cuantitativa

Para intentar “medir” esta dispersión podemos considerar la


amplitud o rango de los datos
Rango
El rango o amplitud es la diferencia entre los valores máximo
(xmx ) y mínimo (xmin ) de una distribución de datos.

77 / 133
Análisis exploratorio de datos una variable
cuantitativa
Ejemplo 1.6. Una gran panadería ordena regularmente ca-
jas de arándanos de Maine. Se supone que el peso promedio
de las cajas es de 22 onzas. Para verificarlo, se pesaron mues-
tras aleatorias de cajas de cartón de dos proveedores,
Proveedor I : 17 22 22 22 27
Proveedor II : 17 19 20 27 27
Calcule el rango (R) de pesos de las cajas de cada proveedor.
Solución: Denotando por xi los pesos de las cajas de cada
proveedor, tenemos que

RI = xmax − xmin = 27 − 17 = 10
RII = xmax − xmin = 27 − 17 = 10
78 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe también que,
17 + 22 + 22 + 22 + 27 110
x̄I = = = 22
5 5
17 + 19 + 20 + 27 + 27 110
x̄II = = = 22
5 5

79 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe también que,
17 + 22 + 22 + 22 + 27 110
x̄I = = = 22
5 5
17 + 19 + 20 + 27 + 27 110
x̄II = = = 22
5 5
¿En qué se diferencian?

79 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe también que,
17 + 22 + 22 + 22 + 27 110
x̄I = = = 22
5 5
17 + 19 + 20 + 27 + 27 110
x̄II = = = 22
5 5
¿En qué se diferencian?
Si calculamos las diferencias de los pesos de cada caja de
cartón (xi ) con respecto a su media (x̄), tenemos

Provedor I 5 0 0 0 5
Provedor II 5 3 2 5 5

79 / 133
Análisis exploratorio de datos una variable
cuantitativa

Es evidente que el provedor I proporciona más cajas de car-


tón con pesos más cercanos a la media (los pesos están más
agrupados en torno a la media), lo que implicaría que las
cajas tienen un peso constante, en comparación con las del
provedor II. Para la panadería, esto podría ser más satisfac-
torio, ya que usa una caja de arándanos en cada receta y por
lo tanto las magdalenas quedarían “perfectas”.

80 / 133
Análisis exploratorio de datos una variable
cuantitativa

Es evidente que el provedor I proporciona más cajas de car-


tón con pesos más cercanos a la media (los pesos están más
agrupados en torno a la media), lo que implicaría que las
cajas tienen un peso constante, en comparación con las del
provedor II. Para la panadería, esto podría ser más satisfac-
torio, ya que usa una caja de arándanos en cada receta y por
lo tanto las magdalenas quedarían “perfectas”.
Luego, el rango no nos dice cuánto varían los otros valores
entre sí o de la media.

80 / 133
Análisis exploratorio de datos una variable
cuantitativa
Una forma de medir la dispersión de los datos es tener en
cuenta los tamaños de las desviaciones de cada observación
de la media al cuadrado, esto es
Provedor I Provedor II
2
xi (xi − x̄) xi (xi − x̄)2
17 (17 − 22)2 = 25 17 (17 − 22)2 = 25
22 (22 − 22)2 = 0 19 (19 − 22)2 = 9
22 (22 − 22)2 = 0 20 (20 − 22)2 = 4
22 2
(22 − 22) = 0 27 (27 − 22)2 = 25
27 (27 − 22)2 = 25 27 (27 − 22)2 = 25
Total 50 Total 88

81 / 133
Análisis exploratorio de datos una variable
cuantitativa

Luego,
• La dispersión en el Provedor I: 50/5 = 10,
• La dispersión en el Provedor II: 88/5 = 17.6.

82 / 133
Análisis exploratorio de datos una variable
cuantitativa

Luego,
• La dispersión en el Provedor I: 50/5 = 10,
• La dispersión en el Provedor II: 88/5 = 17.6.
Por lo tanto, los pesos de las cajas de cartón del provedor I
están más cercanos al peso medio de las cajas.

82 / 133
Análisis exploratorio de datos una variable
cuantitativa

Luego,
• La dispersión en el Provedor I: 50/5 = 10,
• La dispersión en el Provedor II: 88/5 = 17.6.
Por lo tanto, los pesos de las cajas de cartón del provedor I
están más cercanos al peso medio de las cajas.
Por razones técnicas, dividimos la suma de las desviaciones
al cuadrado por n − 1 en vez de n. Esto nos da la mejor
estimación matemática de esta medida. Entonces,
• La dispersión en el Provedor I: 50/4 = 12.5,
• La dispersión en el Provedor II: 88/4 = 22.

82 / 133
Análisis exploratorio de datos una variable
cuantitativa

Varianza
La varianza (s2 ) es una medida que representa cuánto están
dispersos (separados) los datos en relación con la media arit-
mética: n
2
X (xi − x̄)2
s =
i=1
n−1

Valores más grandes de la varianza implican una mayor dis-


persión en los datos.

83 / 133
Análisis exploratorio de datos una variable
cuantitativa

Como los pesos de las cajas estaban dados en onzas, entonces


el peso medio de las cajas también son en onzas, lo mismo
ocurre con las desviaciones de cada peso con respecto a la
media.
Ahora bien, en el cálculo de la varianza, las desviaciones fue-
ron elevadas al cuadrado, entonces la varianza está medida
en onzas al cuadrado, una unidad que no tiene interpretación
física.
Una forma de obtener una medida de dispersión con la mis-
ma unidad de datos es sacar la√raíz cuadrada de la varianza
(desviación estándar - s = s2 ).

84 / 133
Análisis exploratorio de datos una variable
cuantitativa
La desviación estándar para los pesos de las cajas de arán-
danos es:

• Provedor I: SI = 12.5 = 3.53,

• Provedor II: SII = 22 = 4.69.

85 / 133
Análisis exploratorio de datos una variable
cuantitativa
La desviación estándar para los pesos de las cajas de arán-
danos es:

• Provedor I: SI = 12.5 = 3.53,

• Provedor II: SII = 22 = 4.69.
Como acabamos de ver, la desviación estándar se expresa con
las mismas unidades que los datos sobre los que se calcularon.
Sin embargo, muchas veces es de interés comparar dos o mas
conjuntos de datos cuyas unidades de medidas pueden ser o
no iguales.
Cuando las variables se dan en las mismas unidades de me-
didas, la dispersión de los datos se puede realizar usando la
desviación estándar.
85 / 133
Análisis exploratorio de datos una variable
cuantitativa
Cuando las variables se dan en unidades de medidas diferen-
tes, la dispersión de los datos se puede realizar usando una
medida relativa de variabilidad conocida como coeficiente de
variación.
Coeficiente de variación
El coeficiente de variación (CV) es el cociente entre la des-
viación estándar y la media aritmética, esto es
s
CV = × 100 %

Entonces, coeficiente de variación indica que proporción de


la media representa la desviación estándar.
86 / 133
Análisis exploratorio de datos una variable
cuantitativa

Siguiendo la idea de la mediana de dividir los valores de


una serie de observaciones, en dos partes iguales, podemos
ampliar esta división a más de dos y así delimitar un cierto
porcentaje de valores por debajo o por encima o entre ellos.

87 / 133
Análisis exploratorio de datos una variable
cuantitativa

Siguiendo la idea de la mediana de dividir los valores de


una serie de observaciones, en dos partes iguales, podemos
ampliar esta división a más de dos y así delimitar un cierto
porcentaje de valores por debajo o por encima o entre ellos.
Estos valores son conocidos como percentiles (P) y los más
utilizados son los cuartiles (Q), en los cuales se divide la
serie de datos en cuatro partes iguales:

87 / 133
Análisis exploratorio de datos una variable
cuantitativa

88 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe que:
• El primer cuartil (Q1 ) es el valor que separa el primer
cuarto (25 %) de valores más bajos de los siguientes tres
cuartos (75 %) de valores más altos de la serie ordenada.

89 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe que:
• El primer cuartil (Q1 ) es el valor que separa el primer
cuarto (25 %) de valores más bajos de los siguientes tres
cuartos (75 %) de valores más altos de la serie ordenada.
• El segundo cuartil (Q2 ) es el valor que separa los valores
correspondientes a los dos cuartos (50 %) de los valores
más bajos de los dos cuartos (50 %) de valores más altos
de la serie ordenada. Por lo tanto, el segundo cuartil es
igual a la mediana.

89 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe que:
• El primer cuartil (Q1 ) es el valor que separa el primer
cuarto (25 %) de valores más bajos de los siguientes tres
cuartos (75 %) de valores más altos de la serie ordenada.
• El segundo cuartil (Q2 ) es el valor que separa los valores
correspondientes a los dos cuartos (50 %) de los valores
más bajos de los dos cuartos (50 %) de valores más altos
de la serie ordenada. Por lo tanto, el segundo cuartil es
igual a la mediana.
• El tercer cuartil (Q3 ) es el valor que separa los valores
correspondientes a los tres cuartos (75 %) de los valores
más bajos del cuarto (25 %) de valores más altos de la
serie ordenada.
89 / 133
Análisis exploratorio de datos una variable
cuantitativa

Ejemplo 1.7. Los siguientes datos corresponden al precio


(en dólares) de las barras de helado
1.29 1.37 1.30 0.80 0.67 1.33 1.37 1.37
1.27 0.93 0.63 0.80 0.27 1.38 0.77 1.14
1.53 0.55 0.80 0.70 0.36 0.65 0.47 0.68
0.50 0.48 0.46
Vamos a calcular Q1 , Q2 , Q3 .

90 / 133
Análisis exploratorio de datos una variable
cuantitativa

Ejemplo 1.7. Los siguientes datos corresponden al precio


(en dólares) de las barras de helado
1.29 1.37 1.30 0.80 0.67 1.33 1.37 1.37
1.27 0.93 0.63 0.80 0.27 1.38 0.77 1.14
1.53 0.55 0.80 0.70 0.36 0.65 0.47 0.68
0.50 0.48 0.46
Vamos a calcular Q1 , Q2 , Q3 .
El primer paso es organizar los valores de la variable en orden
ascendente o descendiente.

90 / 133
Análisis exploratorio de datos una variable
cuantitativa
Para encontrar Q1 debemos tener en cuenta que este valor
separa el cuarto (25 %) de los valores más bajos de los tres
cuartos (75 %) más altos.

Entonces, debemos encontrar qué posición está a un cuarto


de la posición inicial de la serie ordenada:
n+1 27 + 1
= = 7.
4 4
Luego, Q1 es el precio que está en la posición 7.
91 / 133
Análisis exploratorio de datos una variable
cuantitativa

Posición 1 2 3 4 5 6 7 8
Precio 0.27 0.36 0.46 0.47 0.48 0.50 0.55 0.63
Posición 9 10 11 12 13 14 15 16
Precio 0.65 0.67 0.68 0.70 0.77 0.80 0.80 0.80
Posición 17 18 19 20 21 22 23 24
Precio 0.93 1.14 1.27 1.29 1.30 1.33 1.37 1.37
Posición 25 26 27
Precio 1.37 1.38 1.53

entonces Q1 = 0.55. Por lo tanto, el 25 % de los precios de


los helados está por debajo de 0.55 dólares.

92 / 133
Análisis exploratorio de datos una variable
cuantitativa
Para encontrar Q2 debemos tener en cuenta que este valor
separa en dos cuartos (50 %) de los valores más bajos de los
dos cuartos (50 %) más altos.

Entonces, debemos encontrar qué posición está a dos cuartos


de la posición inicial de la serie ordenada:
2 2
(n + 1) = (27 + 1) = 14.
4 4
Luego, Q2 es el precio que está en la posición 14.
93 / 133
Análisis exploratorio de datos una variable
cuantitativa

Posición 1 2 3 4 5 6 7 8
Precio 0.27 0.36 0.46 0.47 0.48 0.50 0.55 0.63
Posición 9 10 11 12 13 14 15 16
Precio 0.65 0.67 0.68 0.70 0.77 0.80 0.80 0.80
Posición 17 18 19 20 21 22 23 24
Precio 0.93 1.14 1.27 1.29 1.30 1.33 1.37 1.37
Posición 25 26 27
Precio 1.37 1.38 1.53

entonces Q2 = 0.80. Por lo tanto, el 50 % (Mediana) de los


precios de los helados está por debajo de 0.80 dólares.

94 / 133
Análisis exploratorio de datos una variable
cuantitativa
Para encontrar Q3 debemos tener en cuenta que este valor
separa en tres cuartos (75 %) de los valores más bajos del
cuarto (25 %) más altos.

Entonces, debemos encontrar qué posición está a tres cuartos


de la posición inicial de la serie ordenada:
3 3
(n + 1) = (27 + 1) = 21.
4 4
Luego, Q2 es el precio que está en la posición 21.
95 / 133
Análisis exploratorio de datos una variable
cuantitativa

Posición 1 2 3 4 5 6 7 8
Precio 0.27 0.36 0.46 0.47 0.48 0.50 0.55 0.63
Posición 9 10 11 12 13 14 15 16
Precio 0.65 0.67 0.68 0.70 0.77 0.80 0.80 0.80
Posición 17 18 19 20 21 22 23 24
Precio 0.93 1.14 1.27 1.29 1.30 1.33 1.37 1.37
Posición 25 26 27
Precio 1.37 1.38 1.53

entonces Q3 = 1.30. Por lo tanto, el 75 % de los precios de


los helados está por debajo de 1.30 dólares.

96 / 133
Análisis exploratorio de datos una variable
cuantitativa

Diagrama de Cajas o Boxplot


El boxplot es un gráfico basado en los cuartiles que sirve para
evaluar las características más importantes de la distribución
de los datos: centro, dispersión y forma. Además, permiten
detectar valores extremos, discrepantes o outliers (aquellos
valores muy diferentes al resto del conjunto de datos) en caso
que estos existan.

97 / 133
Análisis exploratorio de datos una variable
cuantitativa

Diagrama de Cajas o Boxplot


El boxplot es un gráfico basado en los cuartiles que sirve para
evaluar las características más importantes de la distribución
de los datos: centro, dispersión y forma. Además, permiten
detectar valores extremos, discrepantes o outliers (aquellos
valores muy diferentes al resto del conjunto de datos) en caso
que estos existan.
Los boxplot son útiles para la comparación de varios conjun-
tos de datos.

97 / 133
Análisis exploratorio de datos una variable
cuantitativa

Figura 17: Detalles para la construcción de un Boxplot

98 / 133
Análisis exploratorio de datos una variable
cuantitativa

¿Cómo evaluamos el centro, la dispersión y la forma de las


distribución de los datos en el boxplot?

99 / 133
Análisis exploratorio de datos una variable
cuantitativa

1. El rango inter cuartil (RIC = Q3 − Q1 ) mide la disper-


sión de los datos dentro de la caja y por lo tanto expresa
la variabilidad del 50 % de los datos. Así, cuanto mayor
sea la longitud mayor es la variabilidad.

100 / 133
Análisis exploratorio de datos una variable
cuantitativa

1. El rango inter cuartil (RIC = Q3 − Q1 ) mide la disper-


sión de los datos dentro de la caja y por lo tanto expresa
la variabilidad del 50 % de los datos. Así, cuanto mayor
sea la longitud mayor es la variabilidad.
2. La posición de Q2 (mediana) indica si la distribución de
los datos es simétrica o asimétrica, a saber:
• Cuando la mediana está en el centro de la caja, la
distribución de los datos es simétrica, o sea que los
datos de la caja están “igualmente” dispersos.

100 / 133
Análisis exploratorio de datos una variable
cuantitativa

• Cuando la mediana está más cerca de Q1 (la parte baja


de la caja < parte de arriba de la caja) la distribución
de los datos es asimétrica a derecha. Aquí los datos que
están por encima de la mediana están más dispersos que
los que están por debajo de ella.

101 / 133
Análisis exploratorio de datos una variable
cuantitativa

• Cuando la mediana está más cerca de Q1 (la parte baja


de la caja < parte de arriba de la caja) la distribución
de los datos es asimétrica a derecha. Aquí los datos que
están por encima de la mediana están más dispersos que
los que están por debajo de ella.
• Cuando la mediana está más cerca de Q3 (la parte baja
de la caja > parte de arriba de la caja) la distribución
de los datos es asimétrica a izquierda. Aquí los datos
que están por debajo de la mediana están más dispersos
que los que están por encima de ella.

101 / 133
Análisis exploratorio de datos una variable
cuantitativa

Figura 18: Simetría y asimetría de distribuciones por medio del


diagrama de cajas o bigotes

102 / 133
Análisis exploratorio de datos una variable
cuantitativa
3. Los dos segmentos de rectas colocados encima de Q3 y
debajo de Q1 son denominados bigotes (whiskers), cal-
culados como sigue:
• Superior
mín[x(n) , Q3 + 1.5 × RIC],
siendo x(n) el máximo de los datos y RIC = Q3 −Q1
• Inferior
máx[x(1) , Q1 − 1.5 × RIC],
siendo x(1) el mínimo de los datos y RIC = Q3 −Q1
Los puntos que esten encima o debajo de estos límites
son considerados valores atípicos o discrepantes (outliers)
y son representados en el gráfico por algún símbolo (⋆/∗
/ • /◦). 103 / 133
Análisis exploratorio de datos una variable
cuantitativa

Los outliers pueden representar:


• Errores en el proceso de colecta/procesamiento. En esos
casos deben ser excluidos del banco de datos.
• Valores correctos que por alguna razón são muy diferen-
tes al resto. En ese caso, el análisis debe ser cuidadoso
porque algunas medidas descriptivas como la media y la
desviación estándar son sensibles a estos valores.

104 / 133
Análisis exploratorio de datos bivariados
En general, cuando se tienen dos variables, el interés es de-
terminar si están o no asociadas. Esta asociación se refiere a
que el conocimiento del valor de una brinda alguna informa-
ción sobre la distribución de la otra. Por ejemplo,

x1 : “Nivel educativo′′ x2 : “Salario′′

105 / 133
Análisis exploratorio de datos bivariados
En general, cuando se tienen dos variables, el interés es de-
terminar si están o no asociadas. Esta asociación se refiere a
que el conocimiento del valor de una brinda alguna informa-
ción sobre la distribución de la otra. Por ejemplo,

x1 : “Nivel educativo′′ x2 : “Salario′′

se espera que cuanto mayor sea el nivel educativo, mayor sea


el salario.
Como tenemos dos variables, puede suceder que:
(i) ambas sean cualitativas,
(ii) ambas sean cuantitativas,
(iii) una cualitativa y otra cuantitativa.

105 / 133
Análisis exploratorio de datos bivariados

Asociación entre dos variables cualitativas


Las categorías de las dos variables se pueden organizar en
una tabla de doble entrada (tabla de contingencia), donde
las filas corresponden a las categorías de una de las
variables y las columnas a las categorías de la otra.

106 / 133
Análisis exploratorio de datos bivariados
Ejemplo 1.8. Considere que tenemos dos variables, hiper-
tension arterial y la insuficiencia cardiaca, ambas fueron ob-
servadas en una muestra de 50 pacientes. La distribución de
frecuencias conjunta de las dos variables está dada en la si-
guiente tabla

Cuadro 7: Dist. conjunta de hipertensión e insuficiencia cardiaca

Hipertensión
Insuficiencia Cardiaca
Si No Total
Si 12 4 16
No 20 14 34
Total 32 18 50

Observe que 12 pacientes padecen ambas enfermedades y 14


ninguna de las dos.
107 / 133
Análisis exploratorio de datos bivariados

Para el propósito de la comparación con otros estudios que


incluyen las mismas variables pero con un número de dife-
rentes pacientes, es conveniente expresar los resultados en
forma de porcentajes.

108 / 133
Análisis exploratorio de datos bivariados
Porcentajes con respecto al total de la tabla:
Cuadro 8: Porcentages con respecto al total (50)

Hipertensión
Insuficiencia Cardiaca
Si No Total
Si 24 % 8% 32 %
No 40 % 28 % 68 %
Total 64 % 36 % 100 %
A partir de esta tabla podemos concluir que:
• la mayoría (64 %) de los pacientes evaluados sufre de
hipertensión,
• la mayoría (68 %) de los pacientes evaluados no sufre de
insuficiencia cardiaca,
• el 24 % de los pacientes evaluado padecen ambas enfer-
medades.
109 / 133
Análisis exploratorio de datos bivariados
Porcentajes con respecto al total de columnas:

Cuadro 9: Porcentages con respecto al total de columnas

Hipertensión
Insuficiencia Cardiaca
Si No Total
Si 37.5 % 22.2 % 32 %
No 62.5 % 77.8 % 68 %
Total 100 % 100 % 100 %

Note que la distribución de frecuencias de insuficiencia car-


diaca para los pacientes clasificados en cada categoría de
hipertensión no parecen ser muy grandes (parece ser homo-
génea), lo cuál es un indicio de no asociación entre las varia-
bles.
110 / 133
Análisis exploratorio de datos bivariados

Este cálculo de los porcentajes son más apropiados cuando se


considera una de las variables explicativa (fue fijada a priori)
y el otro, considerado una respuesta (categorias o valores son
aleatorios).

111 / 133
Análisis exploratorio de datos bivariados

Este cálculo de los porcentajes son más apropiados cuando se


considera una de las variables explicativa (fue fijada a priori)
y el otro, considerado una respuesta (categorias o valores son
aleatorios).
En este caso estaríamos considerando a la variable hiperten-
sión arterial como explicativa, esto significa que NO tenemos
interés en la distribución de frecuencias de hipertensos o no
hipertensos.

111 / 133
Análisis exploratorio de datos bivariados

Asociación entre dos variables cuantitativas


En este caso, las técnicas más apropiadas son: (i) el gráfico
de dispersión o scattlerplot y (ii) el coeficiente de
correlación lineal de Pearson.

112 / 133
Análisis exploratorio de datos bivariados
Una de las principales herramientas para evaluar la asocia-
ción entre dos variables cuantitativas es el gráfico de disper-
sión (scatterplot).

Figura 19: Scatterplot o Gráfico de Dispersión.

113 / 133
Análisis exploratorio de datos bivariados

Coeficiente de correlación lineal de Pearson (rp )


El coeficiente de correlación lineal de Pearson permite eva-
luar la asociación lineal entre dos variables cuantitativas y
es definido por:
Pn
i=1 (xi − x) (yi − y)
rp = P (1)
n 2 Pn 2 1/2
i=1 (x i − x) i=1 (yi − y)
Pn
i=1 xi yi − nx y
rp = Pn 1/2
(2)
[( i=1 x2i − nx2 ) ( ni=1 yi2 − ny 2 )]
P

114 / 133
Análisis exploratorio de datos bivariados

Pn
xi yi − nx y
rp = i=1
(3)
(n − 1)sx sy
donde
• x y y son las medias de x y y, respectivamente.
• sx y sy son las desviacioes estándar de x y y, respecti-
vamente.
Este coeficiente es una medida que evalúa cuanto “la nube
de puntos” en el diagrama de dispersión se aproxima a una
recta.

115 / 133
Análisis exploratorio de datos bivariados

Propiedad: −1 ≤ rp ≤ 1.
Interpretación:
• Si rp ≈ 1 o si rp ≈ −1, decimos que las variables están
fuertemente asociadas o linealmente correlacionadas.
• Si rp ≈ 0, decimos que las variables no son correlacio-
nadas.

116 / 133
Análisis exploratorio de datos bivariados

Figura 20: Ejemplos de relaciones entre variable y el coeficiente de


correlación.

117 / 133
Análisis exploratorio de datos bivariados

Cuadro 10: Fortaleza de la asociación lineal de acuerdo al intervalo


del coeficiente de correlación.

Intervalo Fortaleza de la asociación


[ 0.9, 1) Muy alta (+)
[ 0.7, 0.9) Alta (+)
[ 0.5, 0.7) Media (+)
[ 0.3, 0.5) Baja (+)
( 0, 0.3) Muy baja (+)
(−0.3, 0) Muy baja (−)
(−0.5, −0.3] Baja (−)
(−0.7, 0.5] Media (−)
(−0.9, −0.7] Alta (−)
(−1, −0.9] Muy Alta (−)

118 / 133
Análisis exploratorio de datos bivariados

Ejemplo 1.9. Considere que se quiere estudiar la relación


entre el consumo diario de cerveza por mil habitantes, en
litros y la temperatura máxima, en grados celcius. Ambas
variables fueron observadas en 9 lugares con características
demográficas y socioeconómicas similares. Los datos son pre-
sentados en la siguiente tabla:

Cuadro 11: Consumo de cerveza y temperatura en 9 lugares

Temperatura 16 31 38 39 37 36 36 22 10
Consumo 290 374 393 425 406 370 365 320 269

119 / 133
Análisis exploratorio de datos bivariados

Figura 21: Scatterplot del consumo de cerveza (y) vs temperatura (x).

120 / 133
Análisis exploratorio de datos bivariados

Observe que a medida que la temperatura aumenta, el concu-


mo de cerveza también aumenta, esto indica que existe una
relación lineal (positiva) entre la temperatura y el consumo
de cerveza.

121 / 133
Análisis exploratorio de datos bivariados

Observe que a medida que la temperatura aumenta, el concu-


mo de cerveza también aumenta, esto indica que existe una
relación lineal (positiva) entre la temperatura y el consumo
de cerveza.
Vamos a calcular el coeficiente de correlación de Pearson,
usando la equación (3)
Pn
xi yi − nx y
rp = i=1
(n − 1)sx sy

121 / 133
Análisis exploratorio de datos bivariados

i xi yi xi y i
1 16 290 4640
2 31 374 11594
3 38 393 14934
4 39 425 16575
5 37 406 15022
6 36 370 13320
7 36 365 13140
8 22 320 7040
9 10 269 2690
Pn
i=1 xi yi = 98955 x̄ = 29.44 ȳ = 356.89 sx = 10.74
sy = 52.96 y por lo tanto rp = 0.9616 indica que la relación
lineal entre x y y es fuerte.
122 / 133
Análisis exploratorio de datos bivariados

Asociación entre una variable cualitativa y una cuantitativa


Aquí podemos comparar las distribuciones de la variable
cuantitativa para cada categoría de la variable cualitativa.
Ejemplo 1.10. La Prueba Saber 11º es la evaluación del
nivel de Educación Media que desde el 2014 se alinea con
las evaluaciones de la Educación Básica para proporcionar
información a la comunidad educativa en el desarrollo de
las competencias básicas que debe desarrollar un estudiante
durante el paso por la vida escolar.

123 / 133
Análisis exploratorio de datos bivariados

Cuadro 12: Resultados obtenidos por los estudiantes de un colegio en


las pruebas de matemáticas y lectura crítica del examen Saber 11 del
año 2020

Matemáticas Lectura Critica


Pos. Pts Pos. Pts Pos. Pts Pos. Pts
1 30 9 47 1 30 9 56
2 36 10 48 2 35 10 59
3 36 11 54 3 41 11 60
4 41 12 60 4 44 12 61
5 44 13 62 5 46 13 61
6 45 14 62 6 49 14 62
7 45 15 77 7 55 15 69
8 47 8 56

124 / 133
Análisis exploratorio de datos bivariados
• Media:
n
1X 30 + 36 + . . . + 62 + 77 734
xM = xi = = = 48.93
n i=1 15 15
n
1X 30 + 35 + . . . + 62 + 69 784
xLC = xi = = = 52.27
n i=1 15 15

125 / 133
Análisis exploratorio de datos bivariados
• Media:
n
1X 30 + 36 + . . . + 62 + 77 734
xM = xi = = = 48.93
n i=1 15 15
n
1X 30 + 35 + . . . + 62 + 69 784
xLC = xi = = = 52.27
n i=1 15 15

• Mediana: Como n = 15, entonces la mediana esta en


la posición x( n+1 ) = x( 15+1 ) = x(8) . Por lo tanto,
2 2

Matemáticas: M e = 47 Lectura Critica: M e = 56

125 / 133
Análisis exploratorio de datos bivariados
• Media:
n
1X 30 + 36 + . . . + 62 + 77 734
xM = xi = = = 48.93
n i=1 15 15
n
1X 30 + 35 + . . . + 62 + 69 784
xLC = xi = = = 52.27
n i=1 15 15

• Mediana: Como n = 15, entonces la mediana esta en


la posición x( n+1 ) = x( 15+1 ) = x(8) . Por lo tanto,
2 2

Matemáticas: M e = 47 Lectura Critica: M e = 56

• Moda:
Para Matemáticas tenemos tres modas: 36, 45 y 62
Para Lectura Crítica tenemos dos modas: 56 y 61
125 / 133
Análisis exploratorio de datos bivariados
• Cuantil 1 (Q1 ): Se calcula como el valor ordenado que
está en la posición 0.25 × (n + 1) = 0.25 × (15 + 1) = 4.
Por lo tanto,

para matemáticas: Q1 = 41

para lectura crítica: Q1 = 44

126 / 133
Análisis exploratorio de datos bivariados
• Cuantil 1 (Q1 ): Se calcula como el valor ordenado que
está en la posición 0.25 × (n + 1) = 0.25 × (15 + 1) = 4.
Por lo tanto,

para matemáticas: Q1 = 41

para lectura crítica: Q1 = 44

• Cuantil 2 (Q2 ): Se calcula como el valor ordenado que


está en la posición 0.50 × (n + 1) = 0.50 × (15 + 1) = 8.
Por lo tanto,

para matemáticas: Q2 = 47

para lectura crítica: Q2 = 56


126 / 133
Análisis exploratorio de datos bivariados

• Cuantil 3 (Q3 ): Se calcula como el valor ordenado que


está en la posición 0.75 × (n + 1) = 0.50 × (15 + 1) = 12.
Por lo tanto,

para matemáticas: Q3 = 60

para lectura crítica: Q3 = 61

127 / 133
Análisis exploratorio de datos bivariados

Cuadro 13: Medidas de posisción del puntaje de los estudiantes de


colegio en la prueba de matemáticas y lectura crítica del examen
Saber 11 del año 2020

Medidas
Asignatura
Min Máx Rango1 x Q1 Q2 Q3
Matemáticas 30 77 47 48.9 41 47 60
Lect. Critica 30 69 39 52.3 44 56 61

A partir de la tabla se puede concluir que:


• En ambas asignaturas el puntaje mínimo fue 30.
• El puntaje promedio mayor de los estudiantes se presen-
ta en la prueba de Lectura Crítica.

1
Rango = Máx - Mín
128 / 133
Análisis exploratorio de datos bivariados

• La variabilidad en el puntaje parece ser mayor en la


prueba de matemáticas.
• El 25 % de los estudiantes obtuvo un puntaje inferior a
41 para la prueba de matemáticas y 44 en la prueba de
lectura crítica.
• El máximo puntaje entre las dos asignaturas fue obte-
nido en la prueba de matemáticas (77).
• La mitad de los estudiantes obtuvo un puntaje superior
a 47 en la prueba de matemáticas y a 56 en la prueba
de lectura crítica.
• El 75 % de los estudiantes obtuvo un puntaje inferior a
60 en la prueba de matemáticas y 61 en la prueba de
lectura crítica.

129 / 133
Análisis exploratorio de datos bivariados
Para los datos de los puntajes de los estudiantes del colegio
en las pruebas de Matemáticas y Lectura Crítica del examen
Saber 11 del 2020 tenemos:
Medidas
Asignatura
Min Máx Q1 Q2 Q3 RIC
Matemáticas 30 77 41 47 60 19
Lect. Critica 30 69 44 56 61 17

Límite del bigote superior.


Matemáticas,

mín[x(n) ; Q3 + 1.5 × RIC] = mín[77 ; 60 + 1.5 × 19]


= mín[77 ; 88.5] = 77

130 / 133
Análisis exploratorio de datos bivariados

Lectura Crítica,

mín[x(n) ; Q3 + 1.5 × RIC] = mín[69 ; 61 + 1.5 × 17]


= mín[69 ; 86.5] = 69

131 / 133
Análisis exploratorio de datos bivariados

Lectura Crítica,

mín[x(n) ; Q3 + 1.5 × RIC] = mín[69 ; 61 + 1.5 × 17]


= mín[69 ; 86.5] = 69

Límite del bigote inferior.


Matemáticas,

máx[x(1) ; Q1 − 1.5 × RIC] = máx[30 ; 41 − 1.5 × 19]


= máx[30 ; 12.5] = 30

131 / 133
Análisis exploratorio de datos bivariados

Lectura Crítica,

máx[x(1) ; Q1 − 1.5 × RIC] = máx[30 ; 44 − 1.5 × 17]


= máx[30 ; 18.5] = 30

132 / 133
Análisis exploratorio de datos bivariados

Figura 22: Boxplot del puntaje de los estudantes de colegio en las


pruebas de Matemáticas y Lectura Crítica.
133 / 133

También podría gustarte