Documentos de Académico
Documentos de Profesional
Documentos de Cultura
O. Elias Bru-Cordero
Semana 1 a la Semana 2
1 / 133
Moticación
2 / 133
Moticación
Figura 2
3 / 133
Moticación
Figura 4: https://www.scielo.cl/pdf/infotec/v32n4/0718-0764-infotec-
32-04-31.pdf
5 / 133
Moticación
Figura 5
6 / 133
Moticación
7 / 133
Estadística Descriptiva: Objetos de estudio
8 / 133
Estadística Descriptiva: Objetos de estudio
8 / 133
Estadística Descriptiva: Objetos de estudio
Por ejemplo,
• La estadística es una herramienta fundamental en la in-
vestigación bacteriológica, ya que permite analizar y en-
tender los datos obtenidos de manera objetiva y riguro-
sa.
9 / 133
Estadística Descriptiva: Objetos de estudio
Estadística
La aplicación de técnicas estadísticas en la bacteriología es
amplia y variada, abarcando desde la identificación y clasi-
ficación de bacterias, hasta la evaluación de la eficacia de
tratamientos antibióticos. Además, la estadística también se
utiliza en la predicción de la evolución de epidemias y en la
estimación de la probabilidad de aparición de mutaciones ge-
néticas que puedan generar resistencia a los antibióticos.
10 / 133
Estadística Descriptiva: Objetos de estudio
Estadística
La aplicación de técnicas estadísticas en la bacteriología es
amplia y variada, abarcando desde la identificación y clasi-
ficación de bacterias, hasta la evaluación de la eficacia de
tratamientos antibióticos. Además, la estadística también se
utiliza en la predicción de la evolución de epidemias y en la
estimación de la probabilidad de aparición de mutaciones ge-
néticas que puedan generar resistencia a los antibióticos.
En general, la estadística es fundamental en el análisis de
datos provenientes de cualquier proceso donde exista varia-
bilidad.
10 / 133
Estadística Descriptiva: Objetos de estudio
11 / 133
Estadística Descriptiva: Objetos de estudio
11 / 133
Estadística Descriptiva: Objetos de estudio
2. Estadística Inferencial
La estadística inferencial es un conjunto de técnicas que per-
miten, a partir de una muestra, obtener conclusiones sólidas
y profundas, que pueden generalizarse a toda la población pa-
ra la toma de decisiones.
11 / 133
Definición no-formal: Estadística
12 / 133
Definición no-formal: Estadística
Estadística
Es el arte de aprender de los datos.
12 / 133
Definición no-formal: Estadística
Estadística
Es el arte de aprender de los datos.
En resumen
La estadística es esencial para la investigación bacteriológica
y su aplicación es fundamental para el avance de la micro-
biología y la salud pública.
12 / 133
Conceptos básicos
Población
La población es el conjunto de “N” elementos o unidades de
investigación (personas, animales, domicilios, objetos, em-
presas, etc) para los que se desea estudiar ciertas caracterís-
ticas.
13 / 133
Conceptos básicos
Población
La población es el conjunto de “N” elementos o unidades de
investigación (personas, animales, domicilios, objetos, em-
presas, etc) para los que se desea estudiar ciertas caracterís-
ticas.
La población puede ser:
• Finita: Cuando el número de unidades de investigación
que se va a observar puede ser contado y limitado.
• Infinita: Cuando el número de unidades de investiga-
ción es ilimitada o cuando no se pueden contar.
13 / 133
Conceptos básicos
Ejemplos:
1. Cuando un banco desea lanzar un nuevo producto, ne-
cesita conocer el perfil socioeconómico de sus clientes.
14 / 133
Conceptos básicos
Ejemplos:
1. Cuando un banco desea lanzar un nuevo producto, ne-
cesita conocer el perfil socioeconómico de sus clientes.
En este caso, la población (finita) de interés son los clien-
tes de todas las sucursales del banco.
14 / 133
Conceptos básicos
Ejemplos:
1. Cuando un banco desea lanzar un nuevo producto, ne-
cesita conocer el perfil socioeconómico de sus clientes.
En este caso, la población (finita) de interés son los clien-
tes de todas las sucursales del banco.
2. Conjunto de medidas de una determinada longitud, ga-
ses, líquidos (población infinita).
14 / 133
Conceptos básicos
Ejemplos:
1. Cuando un banco desea lanzar un nuevo producto, ne-
cesita conocer el perfil socioeconómico de sus clientes.
En este caso, la población (finita) de interés son los clien-
tes de todas las sucursales del banco.
2. Conjunto de medidas de una determinada longitud, ga-
ses, líquidos (población infinita).
3. Los censos demográficos son realizados cada 10 años con
el objetivo de recopilar información sobre toda la pobla-
ción del país.
14 / 133
Conceptos básicos
Censo
El censo es una recopilación exhaustiva de la información de
todas las unidades de investigación de la población.
15 / 133
Conceptos básicos
Censo
El censo es una recopilación exhaustiva de la información de
todas las unidades de investigación de la población.
La mayoría de las veces no son convenientes o imposibles
debido los siguientes factores:
• Tiempo: la información debe obtenerse rápidamente.
• Precisión: la información debe ser correcta.
• Costo: en el proceso de recolección, sistematización, aná-
lisis e interpretación, el costo debe ser lo más bajo po-
sible.
En su lugar, nos delimitamos a un subconjunto (finito) de la
población.
15 / 133
Conceptos básicos
Muestra
La muestra es un subconjunto finito de la población.
La muestra debe seleccionarse adecuadamente para que sea
“lo más representativa posible de la población”, de manera
que represente todas las características de la población como
si fuera una fotografía de la misma.
16 / 133
Conceptos básicos
Muestra
La muestra es un subconjunto finito de la población.
La muestra debe seleccionarse adecuadamente para que sea
“lo más representativa posible de la población”, de manera
que represente todas las características de la población como
si fuera una fotografía de la misma.
16 / 133
Conceptos básicos
Muestra
La muestra es un subconjunto finito de la población.
La muestra debe seleccionarse adecuadamente para que sea
“lo más representativa posible de la población”, de manera
que represente todas las características de la población como
si fuera una fotografía de la misma.
16 / 133
Conceptos básicos
¿Esto es posible?
17 / 133
Conceptos básicos
18 / 133
Técnicas de Muestreo
19 / 133
Tipos de Muestreo
En los tipos de muestreo tenemos:
Muestreos probabilísticos:
En ellos se conoce la probabilidad de que un individuo sea
elegido para la muestra. Son interesantes para usar estadís-
tica matemática con ellos. La elección de la muestra se hace
aleatoriamente. La estadística inferencial exige este tipo de
muestreo (REPRESENTATIVA).
20 / 133
Tipos de Muestreo
En los tipos de muestreo tenemos:
Muestreos probabilísticos:
En ellos se conoce la probabilidad de que un individuo sea
elegido para la muestra. Son interesantes para usar estadís-
tica matemática con ellos. La elección de la muestra se hace
aleatoriamente. La estadística inferencial exige este tipo de
muestreo (REPRESENTATIVA).
Muestreos no probabilísticos:
En ellos no se conoce la probabilidad. Son muestreos que muy
posiblemente esconden sesgos. En principio, no se pueden
extrapolar los resultados a la población..
20 / 133
Tipos de Muestreo
21 / 133
Tipos de Muestreo
22 / 133
Tipos de Muestreo
Muestreo sistemático:
El proceso de selección empleado se basa en alguna regla sis-
temática simple como, por ejemplo, elegir uno de cada n.
individuos..
22 / 133
Tipos de Muestreo
23 / 133
Tipos de Muestreo
Tamaño muestral:
El proceso de selección empleado se basa en alguna regla sis-
temática simple como, por ejemplo, elegir uno de cada n in-
dividuos..
23 / 133
Caso Clínico
24 / 133
Conceptos básicos
Variables Cualitativas
Las variables cualitativas clasifican o describen un atributo
o cualidad de las unidades de investigación.
Las variables cualitativas pueden ser:
• Ordinal: cuando se puede establecer un orden natural
entre las categorías de la variable. Algunos ejemplos son,
el nivel educativo, el estrato socioeconómico, etc.
• Nominales: cuando no se puede establecer un orden
entre las categorías de la variable. La raza, la religión
y el género son tres ejemplos de variables cualitativas
nominales
25 / 133
Conceptos básicos
Variables Cuantitativas
Las variables cuantitativas miden características de las uni-
dades de investigación.
Las variables cuantitativas pueden ser:
• Continuas: cuando la variable puede asumir cualquier
valor numérico en un determinado intervalo de varia-
ción. Estas variables resultan de mediciones (peso, altu-
ra, dosis de hemoglobina, etc).
• Discretas: sólo puede asumir valores pertenecientes a
un conjunto enumerable. Estas variables resultan de pro-
cesos de conteos (número de embarazos, número de em-
pleados, etc).
26 / 133
Tipos de Variables
27 / 133
Resumen
28 / 133
Conceptos básicos
29 / 133
Conceptos básicos
29 / 133
Conceptos básicos
29 / 133
Conceptos básicos
30 / 133
Análisis exploratorio de datos una variable
cualitativa
31 / 133
Análisis exploratorio de datos una variable
cualitativa
31 / 133
Análisis exploratorio de datos una variable
cualitativa
31 / 133
Análisis exploratorio de datos una variable
cualitativa
31 / 133
Análisis exploratorio de datos una variable
cualitativa
Tablas de frecuencias
Es una tabla que contiene las frecuencias absolutas (o sim-
ples) y relativas de las unidades de investigación para cada
categoría de la variable cualitativa.
La frecuencia absoluta de la i-ésima categoría (ni ) corres-
ponde al número de veces que ocurre esa categoría.
La frecuencia relativa de la i-ésima categoría (fi ) corresponde
a la razón entre la frecuencia absoluta en esa categoría y el
número total de datos (n).
32 / 133
Análisis exploratorio de datos una variable
cualitativa
33 / 133
Análisis exploratorio de datos una variable
cualitativa
Ejemplo 1.1. Suponga que se tiene la información sobre las
distintas especie de pescado que existen en la cuenca del rio
Cauca, como se informa en la siguiente tabla:
Cuadro 3: Tabla de frecuencias para el color de cabello
35 / 133
Análisis exploratorio de datos una variable
cualitativa
36 / 133
Análisis exploratorio de datos una variable
cualitativa
Ejemplo 1.2. Considere que se aplicó un cuestionario a 50
estudiantes de una universidad, con el objetivo de saber su
fluencia en inglés. Los dados se encuentran resumidos en la
tabla de abajo.
F. en inglés ni fi Ni Fi
Ninguna 2 0.04 2 2/50 = 0.04
Alguna 26 0.52 2+26 =28 28/50 =0.56
Fluente 22 0.44 28+22 = 50 50/50=1
Total 50 1
37 / 133
Análisis exploratorio de datos una variable
cualitativa
38 / 133
Análisis exploratorio de datos una variable
cualitativa
39 / 133
Análisis exploratorio de datos una variable
cualitativa
Gráfico de barras
Se utiliza para graficar las frecuencias absolutas o relativas
de una variable cualitativa.
40 / 133
Análisis exploratorio de datos una variable
cualitativa
Gráfico de barras
Se utiliza para graficar las frecuencias absolutas o relativas
de una variable cualitativa.
Para construir un gráfico de barra coloque las categorías de
la variable en el eje vertical (horizontal) y las frecuencias ab-
solutas (o relativas) en el eje horizontal (vertical); enseguida,
para cada categoría, construya una barra a la altura de la
frecuencia correspondiente.
Nota: Todas las barras deben tener la misma anchura y debe
existir espacios entre ellas.
40 / 133
Análisis exploratorio de datos una variable
cualitativa
41 / 133
Análisis exploratorio de datos una variable
cualitativa
Diagrama Circular
Es un gráfico en forma de círculo, donde las categorías se
basan en una proporcionalidad entre la frecuencia y el
ángulo central de una circunferencia, de tal manera que a
la frecuencia total le corresponde el ángulo central de 360
grados.
42 / 133
Análisis exploratorio de datos una variable
cualitativa
Diagrama Circular
Es un gráfico en forma de círculo, donde las categorías se
basan en una proporcionalidad entre la frecuencia y el
ángulo central de una circunferencia, de tal manera que a
la frecuencia total le corresponde el ángulo central de 360
grados.
La construcción del gráfico circular sigue una regla de 3 sim-
ple, donde las frecuencias relativas (en porcentajes) de cada
categoría corresponden al ángulo que desea representar en
relación a la frecuencia total que representa 360°, así que
cada “sector o pedazo” representa el porcentaje de cada ca-
tegoría.
42 / 133
Análisis exploratorio de datos una variable
cualitativa
43 / 133
Análisis exploratorio de datos una variable
cuantitativa
Aquí aprenderemos a resumir datos (variables) cuantitati-
vos(as) usando dos tipos de herramientas:
• tablas (de distribución) de frecuencias,
• gráficos
44 / 133
Análisis exploratorio de datos una variable
cuantitativa
Aquí aprenderemos a resumir datos (variables) cuantitati-
vos(as) usando dos tipos de herramientas:
• tablas (de distribución) de frecuencias,
• gráficos
Para la construcción de distribuciones de frecuencia de va-
riables cuantitativas (principalmente para las continuas) no
podemos utilizar el mismo criterio adoptado para las varia-
bles cualitativas, pues
44 / 133
Análisis exploratorio de datos una variable
cuantitativa
Aquí aprenderemos a resumir datos (variables) cuantitati-
vos(as) usando dos tipos de herramientas:
• tablas (de distribución) de frecuencias,
• gráficos
Para la construcción de distribuciones de frecuencia de va-
riables cuantitativas (principalmente para las continuas) no
podemos utilizar el mismo criterio adoptado para las varia-
bles cualitativas, pues
• obtendríamos tablas con pequeña frecuencia en las dis-
tintas categorías,
• las tablas serían muy extensas,
44 / 133
Análisis exploratorio de datos una variable
cuantitativa
Aquí aprenderemos a resumir datos (variables) cuantitati-
vos(as) usando dos tipos de herramientas:
• tablas (de distribución) de frecuencias,
• gráficos
Para la construcción de distribuciones de frecuencia de va-
riables cuantitativas (principalmente para las continuas) no
podemos utilizar el mismo criterio adoptado para las varia-
bles cualitativas, pues
• obtendríamos tablas con pequeña frecuencia en las dis-
tintas categorías,
• las tablas serían muy extensas,
en consecuencia, no se lograría el objetivo de resumir los
datos.
44 / 133
Análisis exploratorio de datos una variable
cuantitativa
Ejemplo 1.3. Los datos de la siguiente tabla corresponde
al puntaje obtenido por n = 100 estudiantes fisioterapia en
una prueba de estadística:
45 / 133
Representación Gráfica
46 / 133
Representación Gráfica
47 / 133
Análisis exploratorio de datos una variable
cuantitativa
Cuadro 5: Tabla de frecuencias del puntaje de los estudiantes
48 / 133
Análisis exploratorio de datos una variable
cuantitativa
Una solución a este problema es agrupar por clases los valores
de las variables y entonces obtener las frecuencias en cada
clase.
49 / 133
Análisis exploratorio de datos una variable
cuantitativa
Una solución a este problema es agrupar por clases los valores
de las variables y entonces obtener las frecuencias en cada
clase.
Para construir la tabla se deben seguir los siguientes paso:
1. Determinar el número de clases.
Usamos la regla de Sturges
K = 1 + 3.3 log10 (n),
donde n es el tamaño de la muestra.
2. Calcule el rango
R = Máximo de los datos − Mínimo de los Datos
3. Calcule la amplitud del intervalo
A = R/K
49 / 133
Análisis exploratorio de datos una variable
cuantitativa
50 / 133
Análisis exploratorio de datos una variable
cuantitativa (k=9, para efectos de la clase)
52 / 133
Análisis exploratorio de datos una variable
cuantitativa
53 / 133
Análisis exploratorio de datos una variable
cuantitativa
53 / 133
Análisis exploratorio de datos una variable
cuantitativa
54 / 133
Análisis exploratorio de datos una variable
cuantitativa
55 / 133
Análisis exploratorio de datos una variable
cuantitativa
56 / 133
Análisis exploratorio de datos una variable
cuantitativa
57 / 133
Análisis exploratorio de datos una variable
cuantitativa
Diagrama de tallos y hojas o Stemplots
Este gráfico es recomendado para variables discretas cuando
las muestras son pequeñas o cuando pocos valores de datos
distintos. No se han establecido reglas para construirlo, sin
embargo, la idea básica consiste en dividir cada observación
en dos partes: 1. la rama que es colocada a la izquierda de
una línea vertical y 2. la hoja que es colocada a la derecha.
Este gráfico nos permite identificar:
• La forma (simétrica o asimétrica) de la distribución
de los datos,
• El centro de la distribución,
• La dispersión de los datos.
58 / 133
Análisis exploratorio de datos una variable
cuantitativa
36 25 37 24 39 20 19 45 52 31
62 39 14 29 23 41 54 33 9 34 40 65
En este caso los tallos corresponden a los dígitos de 10 cifras
(00, 10, 20, 30, 40, 50) y las hojas a los dígitos de una cifra
(1, 2, 3, 4, 5, 6, 7, 8, 9).
59 / 133
Análisis exploratorio de datos una variable
cuantitativa
Histogramas
Estos gráficos son recomendables cuando tenemos una mues-
tra grande (tamaños mayores a 40, n > 40) de datos discre-
tos o continuos.
61 / 133
Análisis exploratorio de datos una variable
cuantitativa
Histogramas
Estos gráficos son recomendables cuando tenemos una mues-
tra grande (tamaños mayores a 40, n > 40) de datos discre-
tos o continuos.
Este gráfico nos permite identificar:
• La forma (simétrica o asimétrica) de la distribución
de los datos,
• El centro de la distribución,
• La dispersión de los datos.
61 / 133
Análisis exploratorio de datos una variable
cuantitativa
Para construir un histograma siga los siguientes pasos:
• Construya una tabla de frecuencias para datos agrupa-
dos.
• Dibuje dos ejes ortogonales.
• Coloque en el eje vertical las frecuencias (absolutas o
relativas).
• Divida el eje horizontal en tantas partes como el número
de clases y marque los números correspondientes a los
límites inferior y superior de cada clase.
• Para cada clase, dibuje un rectángulo con un ancho igual
a la amplitud de la clase con una altura igual a la fre-
cuencia de la clase. Vale la pena resaltar que los rectán-
gulos son contiguos.
62 / 133
Análisis exploratorio de datos una variable
cuantitativa
63 / 133
Análisis exploratorio de datos una variable
cuantitativa
64 / 133
Análisis exploratorio de datos una variable
cuantitativa
64 / 133
Análisis exploratorio de datos una variable
cuantitativa
65 / 133
Ideas Clave
Figura 15
66 / 133
Análisis exploratorio de datos una variable
cuantitativa
67 / 133
Análisis exploratorio de datos una variable
cuantitativa
68 / 133
Análisis exploratorio de datos una variable
cuantitativa
68 / 133
Análisis exploratorio de datos una variable
cuantitativa
Moda
La moda es el valor que más se repite, es decir, el valor más
frecuente.
69 / 133
Análisis exploratorio de datos una variable
cuantitativa
Moda
La moda es el valor que más se repite, es decir, el valor más
frecuente.
Para los puntajes de los estudiantes de fisioterapia tenemos:
Puntajes 45 50 55 60 65 70 75 80 85 90 95
Frec. abs 1 2 5 12 18 25 19 10 5 2 1
69 / 133
Análisis exploratorio de datos una variable
cuantitativa
70 / 133
Análisis exploratorio de datos una variable
cuantitativa
Media aritmética o promedio
La media aritmética de una variable cuantitativa es la suma
de todos los valores de la variable (xi ), dividida por el número
de individuos en la muestra (tamaño de la muestra, n), esto
es,
n
x1 + x2 + · · · + xn X xi
x̄ = =
n i=1
n
72 / 133
Análisis exploratorio de datos una variable
cuantitativa
72 / 133
Análisis exploratorio de datos una variable
cuantitativa
Ejemplo 1.5. Considere que tenemos las edades de 11 pa-
cientes:
36 25 37 24 39 20 19 45 52 31 62
74 / 133
Análisis exploratorio de datos una variable
cuantitativa
74 / 133
Análisis exploratorio de datos una variable
cuantitativa
75 / 133
Análisis exploratorio de datos una variable
cuantitativa
76 / 133
Análisis exploratorio de datos una variable
cuantitativa
76 / 133
Análisis exploratorio de datos una variable
cuantitativa
77 / 133
Análisis exploratorio de datos una variable
cuantitativa
Ejemplo 1.6. Una gran panadería ordena regularmente ca-
jas de arándanos de Maine. Se supone que el peso promedio
de las cajas es de 22 onzas. Para verificarlo, se pesaron mues-
tras aleatorias de cajas de cartón de dos proveedores,
Proveedor I : 17 22 22 22 27
Proveedor II : 17 19 20 27 27
Calcule el rango (R) de pesos de las cajas de cada proveedor.
Solución: Denotando por xi los pesos de las cajas de cada
proveedor, tenemos que
RI = xmax − xmin = 27 − 17 = 10
RII = xmax − xmin = 27 − 17 = 10
78 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe también que,
17 + 22 + 22 + 22 + 27 110
x̄I = = = 22
5 5
17 + 19 + 20 + 27 + 27 110
x̄II = = = 22
5 5
79 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe también que,
17 + 22 + 22 + 22 + 27 110
x̄I = = = 22
5 5
17 + 19 + 20 + 27 + 27 110
x̄II = = = 22
5 5
¿En qué se diferencian?
79 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe también que,
17 + 22 + 22 + 22 + 27 110
x̄I = = = 22
5 5
17 + 19 + 20 + 27 + 27 110
x̄II = = = 22
5 5
¿En qué se diferencian?
Si calculamos las diferencias de los pesos de cada caja de
cartón (xi ) con respecto a su media (x̄), tenemos
Provedor I 5 0 0 0 5
Provedor II 5 3 2 5 5
79 / 133
Análisis exploratorio de datos una variable
cuantitativa
80 / 133
Análisis exploratorio de datos una variable
cuantitativa
80 / 133
Análisis exploratorio de datos una variable
cuantitativa
Una forma de medir la dispersión de los datos es tener en
cuenta los tamaños de las desviaciones de cada observación
de la media al cuadrado, esto es
Provedor I Provedor II
2
xi (xi − x̄) xi (xi − x̄)2
17 (17 − 22)2 = 25 17 (17 − 22)2 = 25
22 (22 − 22)2 = 0 19 (19 − 22)2 = 9
22 (22 − 22)2 = 0 20 (20 − 22)2 = 4
22 2
(22 − 22) = 0 27 (27 − 22)2 = 25
27 (27 − 22)2 = 25 27 (27 − 22)2 = 25
Total 50 Total 88
81 / 133
Análisis exploratorio de datos una variable
cuantitativa
Luego,
• La dispersión en el Provedor I: 50/5 = 10,
• La dispersión en el Provedor II: 88/5 = 17.6.
82 / 133
Análisis exploratorio de datos una variable
cuantitativa
Luego,
• La dispersión en el Provedor I: 50/5 = 10,
• La dispersión en el Provedor II: 88/5 = 17.6.
Por lo tanto, los pesos de las cajas de cartón del provedor I
están más cercanos al peso medio de las cajas.
82 / 133
Análisis exploratorio de datos una variable
cuantitativa
Luego,
• La dispersión en el Provedor I: 50/5 = 10,
• La dispersión en el Provedor II: 88/5 = 17.6.
Por lo tanto, los pesos de las cajas de cartón del provedor I
están más cercanos al peso medio de las cajas.
Por razones técnicas, dividimos la suma de las desviaciones
al cuadrado por n − 1 en vez de n. Esto nos da la mejor
estimación matemática de esta medida. Entonces,
• La dispersión en el Provedor I: 50/4 = 12.5,
• La dispersión en el Provedor II: 88/4 = 22.
82 / 133
Análisis exploratorio de datos una variable
cuantitativa
Varianza
La varianza (s2 ) es una medida que representa cuánto están
dispersos (separados) los datos en relación con la media arit-
mética: n
2
X (xi − x̄)2
s =
i=1
n−1
83 / 133
Análisis exploratorio de datos una variable
cuantitativa
84 / 133
Análisis exploratorio de datos una variable
cuantitativa
La desviación estándar para los pesos de las cajas de arán-
danos es:
√
• Provedor I: SI = 12.5 = 3.53,
√
• Provedor II: SII = 22 = 4.69.
85 / 133
Análisis exploratorio de datos una variable
cuantitativa
La desviación estándar para los pesos de las cajas de arán-
danos es:
√
• Provedor I: SI = 12.5 = 3.53,
√
• Provedor II: SII = 22 = 4.69.
Como acabamos de ver, la desviación estándar se expresa con
las mismas unidades que los datos sobre los que se calcularon.
Sin embargo, muchas veces es de interés comparar dos o mas
conjuntos de datos cuyas unidades de medidas pueden ser o
no iguales.
Cuando las variables se dan en las mismas unidades de me-
didas, la dispersión de los datos se puede realizar usando la
desviación estándar.
85 / 133
Análisis exploratorio de datos una variable
cuantitativa
Cuando las variables se dan en unidades de medidas diferen-
tes, la dispersión de los datos se puede realizar usando una
medida relativa de variabilidad conocida como coeficiente de
variación.
Coeficiente de variación
El coeficiente de variación (CV) es el cociente entre la des-
viación estándar y la media aritmética, esto es
s
CV = × 100 %
x̄
87 / 133
Análisis exploratorio de datos una variable
cuantitativa
87 / 133
Análisis exploratorio de datos una variable
cuantitativa
88 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe que:
• El primer cuartil (Q1 ) es el valor que separa el primer
cuarto (25 %) de valores más bajos de los siguientes tres
cuartos (75 %) de valores más altos de la serie ordenada.
89 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe que:
• El primer cuartil (Q1 ) es el valor que separa el primer
cuarto (25 %) de valores más bajos de los siguientes tres
cuartos (75 %) de valores más altos de la serie ordenada.
• El segundo cuartil (Q2 ) es el valor que separa los valores
correspondientes a los dos cuartos (50 %) de los valores
más bajos de los dos cuartos (50 %) de valores más altos
de la serie ordenada. Por lo tanto, el segundo cuartil es
igual a la mediana.
89 / 133
Análisis exploratorio de datos una variable
cuantitativa
Observe que:
• El primer cuartil (Q1 ) es el valor que separa el primer
cuarto (25 %) de valores más bajos de los siguientes tres
cuartos (75 %) de valores más altos de la serie ordenada.
• El segundo cuartil (Q2 ) es el valor que separa los valores
correspondientes a los dos cuartos (50 %) de los valores
más bajos de los dos cuartos (50 %) de valores más altos
de la serie ordenada. Por lo tanto, el segundo cuartil es
igual a la mediana.
• El tercer cuartil (Q3 ) es el valor que separa los valores
correspondientes a los tres cuartos (75 %) de los valores
más bajos del cuarto (25 %) de valores más altos de la
serie ordenada.
89 / 133
Análisis exploratorio de datos una variable
cuantitativa
90 / 133
Análisis exploratorio de datos una variable
cuantitativa
90 / 133
Análisis exploratorio de datos una variable
cuantitativa
Para encontrar Q1 debemos tener en cuenta que este valor
separa el cuarto (25 %) de los valores más bajos de los tres
cuartos (75 %) más altos.
Posición 1 2 3 4 5 6 7 8
Precio 0.27 0.36 0.46 0.47 0.48 0.50 0.55 0.63
Posición 9 10 11 12 13 14 15 16
Precio 0.65 0.67 0.68 0.70 0.77 0.80 0.80 0.80
Posición 17 18 19 20 21 22 23 24
Precio 0.93 1.14 1.27 1.29 1.30 1.33 1.37 1.37
Posición 25 26 27
Precio 1.37 1.38 1.53
92 / 133
Análisis exploratorio de datos una variable
cuantitativa
Para encontrar Q2 debemos tener en cuenta que este valor
separa en dos cuartos (50 %) de los valores más bajos de los
dos cuartos (50 %) más altos.
Posición 1 2 3 4 5 6 7 8
Precio 0.27 0.36 0.46 0.47 0.48 0.50 0.55 0.63
Posición 9 10 11 12 13 14 15 16
Precio 0.65 0.67 0.68 0.70 0.77 0.80 0.80 0.80
Posición 17 18 19 20 21 22 23 24
Precio 0.93 1.14 1.27 1.29 1.30 1.33 1.37 1.37
Posición 25 26 27
Precio 1.37 1.38 1.53
94 / 133
Análisis exploratorio de datos una variable
cuantitativa
Para encontrar Q3 debemos tener en cuenta que este valor
separa en tres cuartos (75 %) de los valores más bajos del
cuarto (25 %) más altos.
Posición 1 2 3 4 5 6 7 8
Precio 0.27 0.36 0.46 0.47 0.48 0.50 0.55 0.63
Posición 9 10 11 12 13 14 15 16
Precio 0.65 0.67 0.68 0.70 0.77 0.80 0.80 0.80
Posición 17 18 19 20 21 22 23 24
Precio 0.93 1.14 1.27 1.29 1.30 1.33 1.37 1.37
Posición 25 26 27
Precio 1.37 1.38 1.53
96 / 133
Análisis exploratorio de datos una variable
cuantitativa
97 / 133
Análisis exploratorio de datos una variable
cuantitativa
97 / 133
Análisis exploratorio de datos una variable
cuantitativa
98 / 133
Análisis exploratorio de datos una variable
cuantitativa
99 / 133
Análisis exploratorio de datos una variable
cuantitativa
100 / 133
Análisis exploratorio de datos una variable
cuantitativa
100 / 133
Análisis exploratorio de datos una variable
cuantitativa
101 / 133
Análisis exploratorio de datos una variable
cuantitativa
101 / 133
Análisis exploratorio de datos una variable
cuantitativa
102 / 133
Análisis exploratorio de datos una variable
cuantitativa
3. Los dos segmentos de rectas colocados encima de Q3 y
debajo de Q1 son denominados bigotes (whiskers), cal-
culados como sigue:
• Superior
mín[x(n) , Q3 + 1.5 × RIC],
siendo x(n) el máximo de los datos y RIC = Q3 −Q1
• Inferior
máx[x(1) , Q1 − 1.5 × RIC],
siendo x(1) el mínimo de los datos y RIC = Q3 −Q1
Los puntos que esten encima o debajo de estos límites
son considerados valores atípicos o discrepantes (outliers)
y son representados en el gráfico por algún símbolo (⋆/∗
/ • /◦). 103 / 133
Análisis exploratorio de datos una variable
cuantitativa
104 / 133
Análisis exploratorio de datos bivariados
En general, cuando se tienen dos variables, el interés es de-
terminar si están o no asociadas. Esta asociación se refiere a
que el conocimiento del valor de una brinda alguna informa-
ción sobre la distribución de la otra. Por ejemplo,
105 / 133
Análisis exploratorio de datos bivariados
En general, cuando se tienen dos variables, el interés es de-
terminar si están o no asociadas. Esta asociación se refiere a
que el conocimiento del valor de una brinda alguna informa-
ción sobre la distribución de la otra. Por ejemplo,
105 / 133
Análisis exploratorio de datos bivariados
106 / 133
Análisis exploratorio de datos bivariados
Ejemplo 1.8. Considere que tenemos dos variables, hiper-
tension arterial y la insuficiencia cardiaca, ambas fueron ob-
servadas en una muestra de 50 pacientes. La distribución de
frecuencias conjunta de las dos variables está dada en la si-
guiente tabla
Hipertensión
Insuficiencia Cardiaca
Si No Total
Si 12 4 16
No 20 14 34
Total 32 18 50
108 / 133
Análisis exploratorio de datos bivariados
Porcentajes con respecto al total de la tabla:
Cuadro 8: Porcentages con respecto al total (50)
Hipertensión
Insuficiencia Cardiaca
Si No Total
Si 24 % 8% 32 %
No 40 % 28 % 68 %
Total 64 % 36 % 100 %
A partir de esta tabla podemos concluir que:
• la mayoría (64 %) de los pacientes evaluados sufre de
hipertensión,
• la mayoría (68 %) de los pacientes evaluados no sufre de
insuficiencia cardiaca,
• el 24 % de los pacientes evaluado padecen ambas enfer-
medades.
109 / 133
Análisis exploratorio de datos bivariados
Porcentajes con respecto al total de columnas:
Hipertensión
Insuficiencia Cardiaca
Si No Total
Si 37.5 % 22.2 % 32 %
No 62.5 % 77.8 % 68 %
Total 100 % 100 % 100 %
111 / 133
Análisis exploratorio de datos bivariados
111 / 133
Análisis exploratorio de datos bivariados
112 / 133
Análisis exploratorio de datos bivariados
Una de las principales herramientas para evaluar la asocia-
ción entre dos variables cuantitativas es el gráfico de disper-
sión (scatterplot).
113 / 133
Análisis exploratorio de datos bivariados
114 / 133
Análisis exploratorio de datos bivariados
Pn
xi yi − nx y
rp = i=1
(3)
(n − 1)sx sy
donde
• x y y son las medias de x y y, respectivamente.
• sx y sy son las desviacioes estándar de x y y, respecti-
vamente.
Este coeficiente es una medida que evalúa cuanto “la nube
de puntos” en el diagrama de dispersión se aproxima a una
recta.
115 / 133
Análisis exploratorio de datos bivariados
Propiedad: −1 ≤ rp ≤ 1.
Interpretación:
• Si rp ≈ 1 o si rp ≈ −1, decimos que las variables están
fuertemente asociadas o linealmente correlacionadas.
• Si rp ≈ 0, decimos que las variables no son correlacio-
nadas.
116 / 133
Análisis exploratorio de datos bivariados
117 / 133
Análisis exploratorio de datos bivariados
118 / 133
Análisis exploratorio de datos bivariados
Temperatura 16 31 38 39 37 36 36 22 10
Consumo 290 374 393 425 406 370 365 320 269
119 / 133
Análisis exploratorio de datos bivariados
120 / 133
Análisis exploratorio de datos bivariados
121 / 133
Análisis exploratorio de datos bivariados
121 / 133
Análisis exploratorio de datos bivariados
i xi yi xi y i
1 16 290 4640
2 31 374 11594
3 38 393 14934
4 39 425 16575
5 37 406 15022
6 36 370 13320
7 36 365 13140
8 22 320 7040
9 10 269 2690
Pn
i=1 xi yi = 98955 x̄ = 29.44 ȳ = 356.89 sx = 10.74
sy = 52.96 y por lo tanto rp = 0.9616 indica que la relación
lineal entre x y y es fuerte.
122 / 133
Análisis exploratorio de datos bivariados
123 / 133
Análisis exploratorio de datos bivariados
124 / 133
Análisis exploratorio de datos bivariados
• Media:
n
1X 30 + 36 + . . . + 62 + 77 734
xM = xi = = = 48.93
n i=1 15 15
n
1X 30 + 35 + . . . + 62 + 69 784
xLC = xi = = = 52.27
n i=1 15 15
125 / 133
Análisis exploratorio de datos bivariados
• Media:
n
1X 30 + 36 + . . . + 62 + 77 734
xM = xi = = = 48.93
n i=1 15 15
n
1X 30 + 35 + . . . + 62 + 69 784
xLC = xi = = = 52.27
n i=1 15 15
125 / 133
Análisis exploratorio de datos bivariados
• Media:
n
1X 30 + 36 + . . . + 62 + 77 734
xM = xi = = = 48.93
n i=1 15 15
n
1X 30 + 35 + . . . + 62 + 69 784
xLC = xi = = = 52.27
n i=1 15 15
• Moda:
Para Matemáticas tenemos tres modas: 36, 45 y 62
Para Lectura Crítica tenemos dos modas: 56 y 61
125 / 133
Análisis exploratorio de datos bivariados
• Cuantil 1 (Q1 ): Se calcula como el valor ordenado que
está en la posición 0.25 × (n + 1) = 0.25 × (15 + 1) = 4.
Por lo tanto,
para matemáticas: Q1 = 41
126 / 133
Análisis exploratorio de datos bivariados
• Cuantil 1 (Q1 ): Se calcula como el valor ordenado que
está en la posición 0.25 × (n + 1) = 0.25 × (15 + 1) = 4.
Por lo tanto,
para matemáticas: Q1 = 41
para matemáticas: Q2 = 47
para matemáticas: Q3 = 60
127 / 133
Análisis exploratorio de datos bivariados
Medidas
Asignatura
Min Máx Rango1 x Q1 Q2 Q3
Matemáticas 30 77 47 48.9 41 47 60
Lect. Critica 30 69 39 52.3 44 56 61
1
Rango = Máx - Mín
128 / 133
Análisis exploratorio de datos bivariados
129 / 133
Análisis exploratorio de datos bivariados
Para los datos de los puntajes de los estudiantes del colegio
en las pruebas de Matemáticas y Lectura Crítica del examen
Saber 11 del 2020 tenemos:
Medidas
Asignatura
Min Máx Q1 Q2 Q3 RIC
Matemáticas 30 77 41 47 60 19
Lect. Critica 30 69 44 56 61 17
130 / 133
Análisis exploratorio de datos bivariados
Lectura Crítica,
131 / 133
Análisis exploratorio de datos bivariados
Lectura Crítica,
131 / 133
Análisis exploratorio de datos bivariados
Lectura Crítica,
132 / 133
Análisis exploratorio de datos bivariados