Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción Al Análisis Cuantitativo de Datos: July 2020
Introducción Al Análisis Cuantitativo de Datos: July 2020
net/publication/343188494
CITATIONS READS
0 31,010
2 authors:
Some of the authors of this publication are also working on these related projects:
Investigación formativa en Fisioterapia y Kinesiología en América Latina Pasado, presente y futuro View project
All content following this page was uploaded by Rodrigo Adasme on 24 July 2020.
1 Coordinador Equipo Terapia Respiratoria Hospital Clínico Red de Salud Christus-UC. Docente adjunto
Universidad Nacional Andrés Bello. Especialista DENAKE Intensivo y Respiratorio. Vicepresidente DIKISOCHIMI-
SOCHIKITER. Magíster en Epidemiología, PALS Inst., BLS Inst, TRC ICRC, AARC-NPS, EVACAM AMPA. R.C.K. 4.559.
radasme@hotmail.com
2 Ayudante alumno ramo análisis cuantitativo cualitativo 2019. Kinesiología, sede Santiago.
j.zunigagodoy27@gmail.com
Para el desarrollo del contenido de este capítulo utilizaremos el “software”
estadístico Stata (StataCorp, Collegue Station, TX, USA) con sus comandos asociados,
sin embargo la mayoría de los estadígrafos, tablas y gráficos aquí presentados
pueden ser realizados con cualquier “software” de base de datos o estadístico, como
MS Excel, SPSS, SAS, R-studio, Minitab u otro. Además utilizaremos la base de datos
BBDD2019.xls disponible en link de Google Drive®:
https://drive.google.com/open?id=1XZUhWP9ax-rH8XFfcuZptNS9-07k-9Fn.
Las variables de estudio pueden presentar naturaleza diversa entre cualitativa, que
en nuestro curso llamaremos no numérica; y cuantitativa o numérica, con escalas de
medida que puede ser nominal, ordinal, intervalar o de razón, cada una con
características diferenciadoras entre ellas. Podemos resumir esta información en la
Tabla 1. Esta nueva nomenclatura de numérica o no numérica hace mayor sentido
epistemológico al entendimiento de la naturaleza de la variable.
2
Tipo de variables Escala de medición
Cualitativas Nominal (Dicotómica, policotómica)
No numéricas
Ordinal (orden jerárquico de los atributos)
Cuantitativas Discretas (numero enteros, eventos)
Numéricas Continua (números reales, con decimales)
3
Ordinal: esta naturaleza de variable corresponde igualmente a la numeración de
atributos cualitativos, pero en este caso el valor numérico da un orden jerárquico a
los componentes de la variable. Ejemplos de este tipo de variables pueden ser:
calidad de atención (1: mala; 2: regular; 3: buena; 4; muy buena), nivel
socioeconómico (1: bajo; 2: medio; 3: alto), puntaje obtenido en alguna escala de
valoración (escalas visual análoga, AUDIT, ASSIST, sueño de Epworth), escalas tipo
Likert, etcétera…
Discretas: este tipo de variables corresponde al conteo de eventos, por lo mismo usa
números enteros para caracterizar la magnitud de los datos de las variables en
estudio. Ejemplo clásico de esto es el número de hijos, ingresos al hospital, latidos por
minuto del corazón, cantidad de accidentes de un sujeto, etcétera...
De razón: este tipo de escala de medición usa el valor 0 como indicativo de ausencia
de atributo, por lo mismo la aparición de este número en la variable nos dice que el
sujeto no posee tal característica. Como ejemplo de esto podemos decir que tener 0
hijos ante la pregunta número de hijos se traduce en que el sujeto no tiene hijos, por
4
lo mismo ausencia del atributo medido. Si el sujeto tiene una presión arterial o latidos
cardiacos de cero, significa que el sujeto esta occiso por no poseer este atributo.
Intervalos: donde el valor 0 puede ser un valor que la variable puede tomar y ser
indicativo a su vez de magnitud en la escala. Ejemplo de esto es el valor de la
temperatura en grados Celsius o Fahrenheit (donde 0 es un valor que puede tomar la
temperatura), valor del exceso de base en gases arteriales o valor de un potencial de
acción de membrana, entre otros. La precisión con la que se mide una variable va
de acuerdo al interés de la investigación y la respuesta al problema de investigación
planteado.
Consideraciones importantes
Una variable de nivel clasificatorio más alto que corresponde a la cuantitativa
continua puede analizarse en valores discretos si la llevo a números enteros, o en
rangos de mediciones para un análisis cualitativo ordinal, o incluso a nivel nominal si
dicotomizo el valor. Supongamos el caso de la presión arterial (PA), que corresponde
a una variable cuantitativa continua en su naturaleza y la medimos en PA sistólica de
120.4 mmHg y diastólica de 89.7 mmHg, sin embargo la puedo llevar a valores enteros
si no expongo los decimales de la presión arterial, siendo la clásica PA de 120/80
mmHg. También puedo llevarla a rangos según los valores de presión arterial en baja,
normal, alta, o hipertensión; e incluso llevarla a nominal dicotómica describiéndola
como presión normal o presión alta. El caso contrario, que sería tener una naturaleza
de variable cualitativa nominal u ordinal, es imposible que escale a otro tipo
cuantitativo, lo mismo sucede con las cuantitativas discretas que no pueden volverse
continuas.
5
Presentación visual de datos
La representación gráfica de la información cuantitativa se puede mostrar tanto en
tablas como gráficos, siendo estos lo más comunes. Además existen otras opciones
como diagramas de flujo, algoritmos, mapas, infografías u otros similares. Aquí
describiremos las tablas y gráficos más comunes según naturaleza de la variables y
como se pueden realizar en Stata®.
Tablas de frecuencia
Las tablas de frecuencia corresponden a tablas de contingencia que reportan los
valores absolutos y relativos de la distribución de los datos. Pueden ir desde una
variable a varias, e incluso pueden ser mostradas asociando dos variables. Son
adecuadas para mostrar variables cualitativas según su distribución mostrando
aparte del valor absoluto y relativo, el valor acumulado. En el caso de nuestra base
de datos, vamos a tabular la variable de género según sexo fenotípico auto-
reportado:
En esta podemos encontrar, después de aplicar etiquetas a los datos de las variable
que hay 63 personas de sexo femenino, que equivalen al 59,43%, y que hay 43
personas de sexo masculino, que equivalen al 40,57%. La tercera columna
corresponde al valor acumulado de porcentajes. Para etiquetar valores de las
variables usamos los comandos:
6
En el siguiente caso también tabulamos la variable año de ingreso, donde existen 3
tipos de datos ordinales reportados, con sus respectiva frecuencia de aparición,
porcentaje y acumulado.
La tabla tetracórica o 2x2 nos permite relacionar dos variables en una sola tabla,
calcular valores relativos por columna, fila o celda, según el requerimiento de nuestro
análisis e incluso calcular pruebas de significación estadística o de riesgo. En este caso
reportaremos los estudiantes que trabajan por sexo. Usaremos etiquetas creadas
para la variable trabajo de: 0=“No” y 1=”Sí”.
En este caso se reportan la frecuencia absoluta y total por cada celda. Sin embargo
para relativizar y poder comparar estos valores necesitamos reportar porcentajes que
pueden ser por columna, fila o celda con respecto al total. Estas opciones sólo
cambian el valor del porcentaje, no el valor absoluto de cada celda.
7
. trabajo sexo, row
Podemos decir que dentro de los estudiantes que trabajan, el 41.8% es de sexo
femenino, y el 58.8% es de sexo masculino (suma= 100% de los que trabajan). Igual
interpretación es para los estudiantes que no trabajan.
Otra opción es calcular los porcentajes por columna, en este caso la extensión del
detalle es col (, col).
Donde podemos interpretar que de los estudiantes de sexo femenino el 11.1% trabaja,
y de los de sexo masculino trabaja el 23.3%. Nótese que la suma por cada sexo
(columna) ahora da 100%. Podemos precisar también que el total de alumnos que
trabajan corresponde al 16.0%.
8
La tercera opción es reportar el valor que posee cada celda con respecto al total de
la muestra, para eso se utiliza en la extensión el detalle cell (, cell).
En este caso podemos decir que los estudiantes de sexo masculino que trabajan con
respecto al total corresponden al 9.4%, o que las estudiantes de sexo femenino que
no trabajan corresponden al 52.8% del total de la muestra.
Consideraciones importantes:
Recuerde que los “software” o paquetes estadísticos sólo nos ayudan a calcular
basados en un algoritmo de trabajo, por lo mismo el valor absoluto simplemente
corresponde a contar cada evento que cumple la condición (Conté 7 que entraron
el 2016, 71 el 2017 y 24 el 2018), y el cálculo del porcentaje (%) es:
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎
𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒 (%) = 𝑋 100
𝑛 𝑡𝑜𝑡𝑎𝑙
9
𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑎𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠
Para el cálculo en tabla tetracórica, ya sea por fila, columna o celda, se utiliza la
misma fórmula de porcentaje, pero cambia el denominador. En el caso de fila el
denominador corresponde al n total por cada fila (en nuestra base trabaja sí o no),
en el caso de columna es el n total por cada columna (en nuestro ejemplo sexo
femenino o masculino), o por el total en el caso de celda.
40.57%
59.43%
Femenino Masculino
n=106
10
En el caso de variables más complejas como la pregunta ¿Con quién vive?, también
etiquetamos los posibles datos de la variable, y podemos hacer un gráfico circular
con:
. label define vive 1 "Familia completa" 2 "Ambos Padres" 3 "Padre o Madre" 4 "Abuelos"
5 "Tíos" 6 "Hermanos" 7 "Solo" 8 "Familia de la Pareja"
3.8%
3.8%
5.7% 22.9%
61.0%
Figura 2. Distribución de la muestra según personas con quien vive el estudiante. Los
porcentajes no mostrados de manera numérica en 3 categorías del gráfico
corresponden a 1% por cada una.
11
Diagrama de tallo y hojas
Este tipo de gráfico nos permite observar y describir gran cantidad de información
contenida en variables cualitativas o cuantitativas agrupadas por cada decena o
centena, acompañado hacia el lado por las unidades que componen ese rango.
Además nos permite ordenar la información n para futuros cálculos descriptivos de
orden. La expresión del lado izquierdo vertical corresponde al tallo, lo dígitos en
horizontal hacia a la derecha son las unidades. Aquí construiremos la distribución del
tiempo en minutos de desplazamiento a la Universidad.
. stem tiempo
. stem tiempo
0* 8
1* 5
2* 014
3* 5
4* 00002
5* 05
6* 00000
7* 016
8* 0023458
9* 0000000000000000002457
10* 000000023455555
11* 013
12* 00000000000000444
13* 00058
14* 000
15* 00007
16* 0000
17* 02
18* 0
19*
20*
21* 0
12
Diagrama de barras
Un diagrama de barras, también conocido como gráfico de barras o diagrama de
columnas, es una forma de representar gráficamente un conjunto de datos o valores,
y está conformado por barras rectangulares de longitudes proporcionales a los
valores representados. Los gráficos de barras son usados para comparar dos o más
valores. Las barras pueden orientarse horizontal o verticalmente. En estos gráficos se
pueden presentar valores de cada dato agrupado de las variables ya sea en
frecuencias, porcentajes, medias, etcétera… En el siguiente ejemplo graficamos la
mediana de veces que se desbloquea el celular y el uso promedio de minutos de usos
de celular por día por condición de trabajo remunerado del estudiante.
304.6
0
30
233.8
0
20
100
0 83
10
0
No Si
p50 de Veces desbloqueo celular
Promedio de minutos de uso de celular
Figura 4. Uso de celular por condición de trabajo remunerado del estudiante. En el eje
X vemos si estudiante tiene trabajo remunerado o no, en el eje Y tenemos una barra
de escala de valores numéricos continuos, donde en los resultados de la barra azul
vemos la mediana del número de veces que los estudiantes desbloquean el celular
13
por condición de trabajo, y en rojo el tiempo de uso promedio en minutos por día de
uso de celular por condición de trabajo.
0
10
80
60
40
20
0
0 50 100 150 200
Tiempo transporte a la Universidad (minutos)
14
Histograma
Este gráfico corresponde a la representación más adecuada para las variables
cuantitativas discretas o continuas debido a la capacidad de revisar gráficamente la
distribución de la variable. Puede reportar densidad, frecuencia, porcentaje o
fracciones de los datos de la variable. También permite hacer estimaciones gráficas
de distribución normal o densidad Kernel. El valor más alto de la distribución
corresponde al valor más representado dentro de la variable, pero que no
corresponde siempre al promedio (media aritmética) del dato.
.01
.005
15
Figura 6. Distribución de densidad de tiempo en minutos para traslado a la
Universidad. Curva de estimación normal de distribución, donde se aprecia sesgo y
curtosis que sugieren distribución normal.
40
35
30
25
20
15
10
0
18 20 22 24 26 28
Edad en años
n= 106 estudiantes
16
Gráfico de cajón y bigote
Este tipo de gráfico, también conocido como gráfico de cajas, diagramas de
dispersión, “box-plot” o “graph-box”, corresponde a una muy buena representación
de variables cualitativas ordinales, y cuantitativas. En este gráfico se ve representada
la mediana (p50) como una línea en el centro del cuadro, el rango intercuartílico
(percentil 25; percentil 75) como los bordes de la caja, y la dispersión hacia arriba,
sobre el cajón sumando 1,5 veces el rango intercuartílico al p75, y hacia abajo,
restando 1,5 veces el rango intercuartílico al p25. Existen puntos que pueden
encontrarse fuera de la distribución anteriormente mencionado, y son representados
como puntajes atípicos, “outliers”, u “outlayers”, siendo estos habitualmente errores
de digitación, o valores que realmente se alejan de la distribución. En el siguiente
gráfico vemos la distribución de la edad de los estudiantes:
28
27
26
25
Edad en años
24
23
22
21
20
19
18
17
Figura 8. La distribución de edad de los 106 estudiantes nos muestra una mediana de
edad de 20 años (línea central del cajón), un percentil 25 de 19 años, y un percentil
75 de 21 años, lo que nos entrega un rango intercuartílico (RIC) de 2 años. Hacia abajo
el bigote llega a los 18 años, y hacia arriba a los 24 años. Existen 3 puntajes atípicos, a
los 26, 26 y 28 años que están fuera de la distribución.
También se pueden realizar varios tipos de estos gráficos sobre otra variable, por
ejemplo peso por sexo que vemos en el próximo gráfico:
0
12
0
11
0
10
90
80
70
60
50
40
Femenino Masculino
n= 103 estudiantes
18
Otra opción de representar este tipo de gráficos es en horizontal. Acá vemos la
distribución de la talla por sexo fenotípico.
Femenino
Masculino
Figura 10. Distribución de talla en estudiantes. Nótese la diferencia entre las medianas
y RIC's por sexo, y la presencia de dos puntajes atípicos en la distribución de sujetos
de sexo masculino, tanto hacia valores bajos y altos.
19
Distribución de probabilidad de variables
La distribución de probabilidad, se refiere a todos los resultados posibles que pueda
tener una variable aleatoria, es decir, describe el comportamiento de dicha variable
dentro de un intervalo de valores o de posibles resultados, por lo mismo es una función
que asigna a cada suceso definido sobre la variable la probabilidad de que dicho
suceso ocurra. Esta variable puede ser discreta o continua.
20
Dentro de las continuas, la más clásica es la distribución normal o Gaussiana, que
veremos en detalle en otros capítulos, la que nos permite comprender de mejor modo
el comportamiento de los datos de variables numéricas continuas y tener poder de
decisión con respecto a la estadística descriptiva que utilizaremos más adelante para
este tipo de variables.
21
Habitualmente se describe como: X~N (,2), donde la función de densidad de
probabilidad es:
1 (𝑋−𝜇)2
𝑓(𝑥) = ∙ 𝑒 2𝜎2 , −∞ < 𝑋 < ∞, 𝜇 ∈ 𝑅, 𝜎 ∈ 𝑅+
√2𝜋𝜎
22
Distribución normal típica o estándar
Corresponde a distribución normal que reporta números Z de distribución. Su fórmula
corresponde a: z~N (0,1), donde:
𝑋−𝜇
𝑧~𝑁(𝜇, 𝜎 2 ), 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑧 = ~ 𝑁(0,1)
𝜎
Figura 12. Distribución normal estándar con =0 y =1, se observa =percentil50, y que
la probabilidad de distribución a ± 1 DS es de 62.3%, a ± 2 DS es de 95.5% y a 3 DS es ±
99.3%.
23
Dentro de esta distribución los percentiles clásicos son:
Pz z
1.00% -2.33
2.50% -1.96
5.00% -1.64
10.00% -1.28
50.00% 0
90.00% 1.28
95.00% 1.64
97.50% 1.96
99.00% 2.33
Tabla 2. Percentiles clásicos de la distribución normal estándar [z~N(0,1)] asociados a
su valor z.
Pruebas de normalidad:
Existen variadas pruebas para evaluar la normalidad de una distribución, todas ellos
consideran la hipótesis nula que el conjunto de datos distribuye similar a distribución
normal, por lo mismo un p-value menor a 0.05 nos brinda evidencia para distribución
no normal. Las pruebas que revisaremos por orden de importancia, más allá del
análisis gráfico del histograma, son:
24
. swilk perimetro
Donde no tenemos evidencia que esta distribución distribuye no normal (El valor del
p-value no es menor a 0.05), dado lo mismo esta distribución es normal. Esto puede
corroborarse en el histograma:
10
5
0
40 60 80 100 120
Perimetro medido de cintura
25
Para observar un modelo contrafactual, donde la distribución de datos es no normal,
analizaremos la variable flujometría con la misma prueba y la revisión del histograma.
. swilk flujo
.006
.004
Density
.002
Figura 14. En esta prueba tenemos un p-value menor a 0.05, por lo cual tenemos
evidencia de distribución no normal, donde existe asimetría de los brazos de la
distribución. Media aritmética es diferente a moda y mediana, que también podemos
revisar.
26
Donde el valor de media aritmética es diferente al valor de mediana, tal como se
observó en el histograma.
. sktest perimetro
27
o al cuadrado el valor de la variable, usar la raíz cuadrada de los valores de la
variable, el logaritmo, o los inversos de la variable, ya sea idéntica, raíz cuadrada,
potencia al cuadrado o inverso de la potencia al cubo. El detalle importante de este
“truco” es que ahora las conclusiones serán con respecto al ajuste matemático de la
variable, no directo sobre la variable en cuestión. En Stata® tenemos la posibilidad en
ejemplo para la variable peso de:
. ladder peso
28
. gladder peso
Para normalizar la variable se debe generar una variable nueva con la condición
matemática planteada. En este caso vamos a usar el inverso de la raíz cuadrado de
la variable peso para nuevas estimaciones bajo normalidad.
. gen pesonormal=1/sqrt(peso)
Por lo cual ahora tenemos la variable de peso normal que es el inverso de la raíz
cuadrada del peso, por lo mismo cada vez que describamos esta variable debemos
referirnos al inverso de la raíz cuadrado de la variable peso.
29
Estadígrafos
Los estadígrafos o estadísticos corresponden a números resúmenes, claves para
cualquier análisis estadístico descriptivo, que nos permiten establecer conclusiones
con respecto a la estructura de una muestra de todos los datos recolectados y poder
así resumir y caracterizar la variable en cuestión.
Estadígrafos de posición
Estos dan información acerca del orden en la estructura de una muestra. Al ordenar
los valores de la muestra del menor al mayor, desde una escala ordinal a una
continua podemos obtener variados valores relacionados a ella. Los valores clásicos
son:
Mínimo
Valor más bajo observado en la muestra. Existen dos comandos de Stata® para el
reporte de este valor. El más sencillo y preciso es:
variable min
peso 44
30
Máximo
Valor más alto observado en la muestra. En Stata®:
Percentiles
De estos valores de la variable ordenada si los dividimos en 100 partes iguales
hablamos de percentiles siendo en total 99. Se denota como percentil (P(k))entre el 1
y el 99 a la división de la muestra en dos partes iguales, la inferior que contiene el %
inferior de las observaciones, y su complemento que contiene el (100 - percentil) % de
las observaciones. Las propiedades de los percentiles las vemos en la siguiente figura:
31
Figura 16. Observamos en X el número de la muestra requerido desde el P(1) hasta el
valor X(n) que corresponde al P(99). De cualquier percentil deseado P(k) este
corresponde al K% inferior de la distribución de la muestra. El complemento es (100 –
K%), y el P(k-1) corresponde al percentil inmediatamente inferior.
- Quintiles: dividen la muestra en 5 partes iguales, siendo C1, C2, C3, y C4, que
corresponden a los percentiles 20, 40, 60 y 80.
- Deciles: divide la muestra en 10 partes iguales, siendo los D1, D2,… D9; que
corresponden a los percentiles 10, 20,… 90.
. tab estadosalud
32
Figura 17. Estado de salud auto reportado en escala visual análoga el día de la
encuesta.
Figura 18. Percentil 10, 25, 50, 75 y 90 de valor de escala visual análoga sobre estado
de salud auto reportado el día de la encuesta.
33
calculado. En el caso de la variable perímetro de cintura tenemos 90 mediciones
correctamente efectuadas, por lo mismo el valor del percentil 10 equivale a: (90 X 10
/ 100), que es 9. El primer valor que iguale o supere a la posición 9 corresponde a p10.
Al verificar esto en un diagrama de tallo y hojas observamos que:
El valor que esta en la 9° posición es 66, siendo este el p10. Así el p50 equivales a (90 x
50 / 100)= 45, estando en posición 45 el valor de 80, siendo este el p50. Valores más
exóticos como el p7 lo podemos encontrar de igual modo (90 x 7 / 100)= 6.3, siendo
el valor de este percentil el primer valor que pase ese orden, así el p7 equivale a 63.
De este modo el p25 es 73, y el p75 es 88. Con el mismo comando anterior podemos
tener acceso más fácil a los percentiles clásicos.
Si bien es cierto el p50 que calculamos con tallo y hojas fue de 80, el programa
estadístico calculo 80.5, lo cual hace caer en error de agrupamiento.
34
El comando que nos puede reportar toda la estadística descriptiva de una variable
corresponde a: “summarize”, sin embargo se debe ser sumamente cuidadoso con la
interpretación de los valores aquí mostrados, pues la selección de los valores a
reportar depende de la naturaleza de la variable y de la pregunta de investigación
a resolver y no de lo que el paquete estadístico muestre, pues puede calcular incluso
el promedio a una variable dicotómica. Ejemplo del uso adecuado de este comando
es:
. sum peso, d
Percentiles Smallest
1% 44 44
5% 50 48
10% 52.5 49 Obs 90
25% 59 50 Sum of Wgt. 90
Figura 19. Reporte sumario de las posibles estadísticas descriptivas del peso en
kilogramos observados en la muestra de estudiantes.
Aquí podemos observar reportes de valores mínimo y máximos, percentiles 1, 5, 10, 25,
50, 75, 90, 95 y 99%, número de observaciones, sumatoria de pesos, media aritmética,
desviación estándar, varianza, sesgo y curtosis de una variable en particular. La
interpretación de los otros valores será discutida más adelante en esta sección.
35
de cálculos reportados por Stata® no sirven para resumir la información de los datos
de la variable.
36
Estadígrafos de tendencia central
Este tipo de estadígrafos muestran si los datos recolectados se aglutinan en torno a
ciertos valores representativos que son propios del fenómeno estudiado, por lo mismo
los estadístico de tendencia central son aquellos valores hacia los cuales tienden a
aglomerarse los datos de una muestra. Los más frecuentes son:
Mediana
Como describimos anteriormente la mediana corresponde al percentil 50 que divide
en dos partes iguales la muestra de datos de la variable. La mediana se encuentra
en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de
las frecuencias absolutas. Tiene propiedades muy interesantes como ser la base del
análisis no paramétrico, pues su valor es robusto incluso en mediciones no simétricos
o desbalanceadas. En fórmula la mediana para datos continuos no agrupados
depende si el número total de la muestra (n) es par o impar, donde:
Muestra impar:
Muestra par:
𝑋𝑛 + 𝑋𝑛+1
2 2
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 =
2
𝑛
− 𝐹𝑖−1
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝐿𝑖 + 2 − 𝑡𝑖
𝑓𝑖
37
Donde, Li es el límite inferior de la clase donde se encuentra la mediana; N/2 es la
semisuma de las frecuencias absolutas; Fi-1 es la frecuencia acumulada anterior a la
clase mediana; fi es la frecuencia absoluta del intervalo mediano; y ti es la amplitud
de la clase.
. tab anoingreso, d
. sum peso, d
38
Donde la mediana de peso es de 65 kilogramos para la muestra total. Si quisiéramos
diferenciarla por sexo, tenemos que:
Moda
En variables nominales, ordinales y discretas es aquel valor que más se repite en una
muestra y se denota por Mo. Formalmente no se calcular en variables continuas
debido a que por el valor decimal de cada dato podría ser imposible encontrar
repetición exacta del mismo, sin embargo el valor más alto en el histograma
corresponde a la moda de esa distribución agrupada. La fórmula de la moda en el
primer caso es:
𝑓𝑖 − 𝑓𝑖−1
𝑀𝑜𝑑𝑎 = 𝐿𝑖 + ∙𝑡
(𝑓𝑖 − 𝑓𝑖−1 ) + (𝑓𝑖 − 𝑓𝑖+1 ) 𝑖
39
Donde Li es el extremo inferior del intervalo modal (intervalo de mayor frecuencia
absoluta); fi es la frecuencia absoluta del intervalo modal; fi-1 es la frecuencia absoluta
del intervalo anterior al modal; fi+1 es la frecuencia absoluta del intervalo posterior al
modal; y ti es la amplitud de los intervalos.
En nuestra base de datos buscamos en que comuna es moda vivir para los
estudiantes con:
. modes comuna
40
. tab comuna
Está de moda vivir en la comuna 15. Esta según el “codebook” de nuestra base de
datos es la comuna de Maipú, que es la que más se repite en reporte de frecuencia
absoluta. Otras comunas de moda son la 23: Puente alto (9 sujetos) y la 32: Santiago
Centro (8 sujetos).
41
Media aritmética o promedio
Corresponde a la sumatoria de todos los valores de la variable divididos por la
cantidad total de datos de la muestra. Es el centro de masas de la muestra, que
equilibra ambos brazos simétricos de dispersión, suponiendo así que todos los datos
de la muestra son representados por este valor promedio. Sin embargo este
estadígrafo de centralización es el más utilizado, abusado y mal usado en estadística
debido al no cumplimiento de sus supuestos de uso. Este valor es muy afectado por
valores extremos (muy altos o bajos de la distribución), datos no simétricos, y que no
sigan una distribución normal. Su fórmula corresponde a:
𝑛
1 𝑋1 + 𝑋2 + 𝑋3 … + 𝑋𝑛
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑜 = 𝑋̅ = ∙ ∑ 𝑋𝑖 =
𝑛 𝑛
𝑖=1
. tabstat tiempo
42
. sum tiempo
. sum tiempo, d
Promedio ponderado
Corresponde a la media aritmética, pero ponderada por el peso relativo de cada
categoría de análisis, donde cada dato dentro de la muestra pudiera tener un peso
relativo diferente. Es una medida de tendencia central, que es apropiada cuando en
un conjunto de datos cada uno de ellos tiene una importancia relativa (o peso)
respecto de los demás datos. Se obtiene multiplicando cada uno de los datos por su
ponderación (peso) para luego sumarlos, obteniendo así una suma ponderada;
43
después se divide esta entre la suma de los pesos, dando como resultado la media
ponderada. Su fórmula corresponde a:
Donde el peso en kilogramos del sexo masculino ponderado por los años de fumador
corresponde a 86.13 kilogramos.
𝑛
𝐻=
1
∑𝑛𝑖=1
𝑥𝑖
- Media geométrica (G): es la raíz n-ésima del producto de todos los números. Se
recomienda para datos de progresión geométrica, para promediar razones,
interés compuesto y números índice. Es siempre igual o menor a la media
aritmética y sirve sólo para valores positivos. Su fórmula es:
44
𝑛 𝑛
𝑥̅ = √∏ 𝑥𝑖
𝑖=1
𝑛
1
𝑥𝑅𝑀𝑆 = ∙ √∑ 𝑥𝑖2
𝑛
𝑖=1
45
Figura 21. Relación trigonométrica entre media aritmética (AM), media armónica
(HM), media geométrica (GM) y media cuadrática (RMS).
Rango o recorrido
Este estadígrafo corresponde a la diferencia entre el valor máximo de la distribución
y el valor mínimo, lo cual nos permite establecer el largo total del intervalo de
mediciones. Puede calcularse en cualquier tipo de variable de ordinal en adelante,
y se reporta cuando el recorrido de toda la distribución es importante de describir
para la respuesta a la pregunta de investigación. La fórmula corresponde a:
46
El comando para obtener este valor en Stata® para la variable talla es:
Donde la diferencia entre la talla más alta y más baja es de 47 centímetros (entre 192
y 145 centímetros)
Recorrido intercuartílico
Es la diferencia entre el percentil 75 y el percentil 25 de la distribución, acompaña al
percentil 50 (mediana) como estadígrafo de dispersión sobre esta tendencia central.
Permite establecer el recorrido sobre el 75% de la distribución de la muestra y se utiliza
para describir la dispersión en variables ordinales, discretas y continuas. La fórmula
corresponde a:
47
Desviación estándar
Previo conocer este datos debemos describir la diferencia entre un dato y el
promedio, dado por di = 𝑥𝑖 − 𝑥̅
𝑁
1
𝜎 = √ ∙ ∑(𝑥𝑖 − 𝑥̅ )2
𝑛
𝑖=1
𝑁
1
𝑠= √ ∙ ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑖=1
Varianza
Corresponde al cuadrado de la desviación estándar (S), en fórmula es:
(𝑥 − 𝑥̅ )2
𝑆2 =
𝑛−1
Tanto desviación estándar y varianza esta relacionadas a media aritmética, por ende
a distribución normal, como estadístico de dispersión. De manera común la notación
es promedio ± desviación estándar (X ± )
. sum perimetro, d
48
En este caso la DS con respecto al promedio es de ± 11.81 cms. con una varianza de
139.4.
Error estándar
El error estándar de la media estima la variabilidad entre las medias de las muestras
que usted obtendría si tomara muestras repetidas de la misma población. Mientras
que el error estándar de la media estima la variabilidad entre las muestras, la
desviación estándar mide la variabilidad dentro de una misma muestra. Por lo mismo
aplica bien como un dato poblacional. En fórmula corresponde a:
𝜎
𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 =
√𝑛
49
Coeficiente de variabilidad
El cálculo de este coeficiente nos permite determinar la heterogeneidad de la
distribución de datos, al llevarlo a un porcentaje e más fácil de interpretar. La fórmula
corresponde a:
𝑆𝑥
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = ∙ 100
Χ
Se ha reportado que valores bajo el 80% nos sugieren valores homogéneos, donde el
promedio sería un buen representante de la muestra; por el contrario valor sobre 80%
nos hablan de muestra heterogénea, por lo cual el promedio no se aproxima a resumir
la información y se sugiere mediana.
50
Estadígrafos de forma
Sesgo o “skewness”
Medida estadística que describe la simetría de la distribución alrededor de un
promedio. Si el sesgo es igual a cero, la distribución es simétrica; si el sesgo es positivo
la distribución una tendrá una cola asimétrica extendida hacia los valores positivos.
Un sesgo negativo indica una distribución con una cola asimétrica extendida hacia
los valores negativos. La fórmula no paramétrica que determina el valor del sesgo es:
(𝜇 − 𝜈)
𝑆𝑒𝑠𝑔𝑜 =
𝜎
Figura 22. Izquierda. Curva con sesgo negativo o sesgado a izquierda, donde la
distribución está más concentrada a la derecha y la cola hacia la izquierda es más
larga. Derecha. Curva con sesgo positivo o segado a derecha, donde la distribución
está más concentrada a la izquierda y la cola hacia la derecha es más larga.
Curtosis o “kurtosis”
Es una medida estadística que describe el apuntamiento o achatamiento de una
cierta distribución con respecto a una distribución normal. La curtosis positiva indica
51
una distribución relativamente apuntada, y la negativa indica una distribución
relativamente achatada. En una distribución normal la kurtosis es igual a 3
(mesocurtica), a los valores mayores a 3 se los llama kurtosis excesiva o leptocurtica.
El caso de kurtosis excesiva indica que hay una mayor probabilidad de que los
retornos observados estén más alejados de la media que en una distribución normal.
La curtosis disminuida (platicurtica) es achatada y con colas menos gruesas que la
normal. Por fórmula corresponde al cuarto momento con respecto a la media
estandarizada, donde estas corresponden a:
𝜇2
𝑀𝑒𝑑𝑖𝑎 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑎 =
𝜎2
𝜇4
𝑀𝑒𝑑𝑖𝑎 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑎 4° 𝑚𝑜𝑚𝑒𝑛𝑡𝑜 =
𝜎4
𝑚4
𝐶𝑢𝑟𝑡𝑜𝑠𝑖𝑠 =
𝑚22
52
Gráficamente podemos diferenciar los 3 grados de apuntamiento del histograma.
Estos valores pueden obtenerse por ejemplo para la variable creada de índice de
masa corporal (imc) con los comandos:
. sum imc, d
3
Adaptado de: Barrantes Aguilar LE. Diferencias en la estimación del coeficiente de curtosis en diferentes
softwares estadísticos. Revista e-Agronegocios 2019;5(2). Disponible en:
https://revistas.tec.ac.cr/index.php/eagronegocios/article/view/4456
53
. histogram imc, norm
.15
.1
Density
.05
0
20 25 30 35 40
imc
En todos los casos vemos una curva sesgada derecho, y con apuntamiento mayor al
sugerido, brindándonos información que esta distribución no es normal.
Existe más información con respecto a estadística descriptiva en inglés disponible en:
https://www.youtube.com/watch?v=kKFbnEWwa2s
54
Bibliografía sugerida
3. Graña CR, Díaz MR. Introducción a la Estadística Descriptiva. Netbiblo; 2007. 250 p.
4. Guyatt G, Rennie D, Meade MO, Cook DJ. Users’ Guides to the Medical Literature:
A Manual for Evidence-Based Clinical Practice, Second Edition. McGraw Hill
Professional; 2008. 870 p.
5. Mitchell MN. A Visual Guide to Stata Graphics, Third Edition. Stata Press; 2012. 499 p.
8. Escobar M. Análisis de datos con Stata (2a edición). CIS; 2012. 519 p.
55