Está en la página 1de 56

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/343188494

Introducción al análisis cuantitativo de datos

Technical Report · July 2020


DOI: 10.13140/RG.2.2.25253.93926

CITATIONS READS
0 31,010

2 authors:

Javier Zúñiga Godoy Rodrigo Adasme


Universidad Andrés Bello Universidad Andrés Bello
1 PUBLICATION 0 CITATIONS 50 PUBLICATIONS 80 CITATIONS

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Epidemiología del COVID-19 en niños View project

Investigación formativa en Fisioterapia y Kinesiología en América Latina Pasado, presente y futuro View project

All content following this page was uploaded by Rodrigo Adasme on 24 July 2020.

The user has requested enhancement of the downloaded file.


Introducción al análisis cuantitativo de datos
Klgo. MsC. Rodrigo Adasme Jeria1, Javier Zúñiga Godoy2.

El análisis cuantitativo de datos corresponde a un elemento constitutivo del


método estadístico para: recolectar, organizar, resumir, presentar y analizar datos
requeridos mediante método científico; y para la obtención de inferencias a partir de
un volumen de datos cuando se observa sólo una parte de este, pudiendo de este
modo disminuir la incertidumbre con respecto a un problema de investigación. De
este modo se pueden obtener conclusiones válidas y tomar decisiones razonables
con base en este análisis. Esta disciplina llevada a las condiciones de salud es regida
por la Bioestadística que se preocupa de gestionar diseños de estudios de calidad y
la posibilidad de asimilar críticamente los resultados aportados mediante este tipo de
análisis.

A la parte de la estadística que únicamente trata de describir y analizar un


grupo dado, sin sacar ninguna conclusión, ni hacer inferencia alguna acerca de un
grupo más grande, se le conoce como estadística descriptiva o deductiva, siendo
esta la base de cualquier estudio con respecto a la descripción de los datos
contenidos en cada variable.

El concepto de variable estadística se define como característica que es


medida en diferentes individuos, y que es susceptible de adoptar diferentes valores.
Conocer la naturaleza de cada variable y su escala de medición es crucial para
cualquier análisis de datos que se plantee y realice sobre ellas, por lo mismo el primer
tópico a revisar corresponde a naturaleza de variables y escalas de medición.

1 Coordinador Equipo Terapia Respiratoria Hospital Clínico Red de Salud Christus-UC. Docente adjunto
Universidad Nacional Andrés Bello. Especialista DENAKE Intensivo y Respiratorio. Vicepresidente DIKISOCHIMI-
SOCHIKITER. Magíster en Epidemiología, PALS Inst., BLS Inst, TRC ICRC, AARC-NPS, EVACAM AMPA. R.C.K. 4.559.
radasme@hotmail.com
2 Ayudante alumno ramo análisis cuantitativo cualitativo 2019. Kinesiología, sede Santiago.
j.zunigagodoy27@gmail.com
Para el desarrollo del contenido de este capítulo utilizaremos el “software”
estadístico Stata (StataCorp, Collegue Station, TX, USA) con sus comandos asociados,
sin embargo la mayoría de los estadígrafos, tablas y gráficos aquí presentados
pueden ser realizados con cualquier “software” de base de datos o estadístico, como
MS Excel, SPSS, SAS, R-studio, Minitab u otro. Además utilizaremos la base de datos
BBDD2019.xls disponible en link de Google Drive®:
https://drive.google.com/open?id=1XZUhWP9ax-rH8XFfcuZptNS9-07k-9Fn.

Naturaleza de variables y escalas de medida


Una vez definido el problema de investigación se definen los objetos que serán
observados (humanos, equipos, órganos, etcétera), llamados en lenguaje técnico
unidades de análisis. De estas unidades de análisis nos interesan atributos que pueden
variar entre ellos y que sean importantes para resolver el problema de investigación.
Cuando podemos medir y analizar estos atributos comenzamos a hablar de variables
de estudio.

Las variables de estudio pueden presentar naturaleza diversa entre cualitativa, que
en nuestro curso llamaremos no numérica; y cuantitativa o numérica, con escalas de
medida que puede ser nominal, ordinal, intervalar o de razón, cada una con
características diferenciadoras entre ellas. Podemos resumir esta información en la
Tabla 1. Esta nueva nomenclatura de numérica o no numérica hace mayor sentido
epistemológico al entendimiento de la naturaleza de la variable.

2
Tipo de variables Escala de medición
Cualitativas Nominal (Dicotómica, policotómica)
No numéricas
Ordinal (orden jerárquico de los atributos)
Cuantitativas Discretas (numero enteros, eventos)
Numéricas Continua (números reales, con decimales)

Intervalos (valor 0 existe, podemos medir en


número negativos y positivos)
De razón (valor 0 indica ausencia de atributo)
Tabla 1. Tipo de variable según naturaleza y escala de medición

Variables de tipo cualitativo o no numérica


Las variables de naturaleza cualitativa o no numérica son atributos codificadas con
números, pero representan un atributo cualitativo que las caracteriza. Dada esta
situación el número que las representa no se traduce en una magnitud calculable
entre los componentes de esta variable, pero si podría imponer un orden jerárquico
en las de tipo ordinal. Los tipos de variables cualitativas son:

Nominal: corresponde a nombrar según atributos los elementos (datos) de la variable


y codificar en números esta información. Existe a su vez un tipo especial de variable
cualitativa nominal que es la dicotómica que sólo permite 2 respuestas mutuamente
excluyentes. Ejemplo de esto son las variables cuya respuesta es Sí o No (Codificación:
No=0; Sí=1) o sexo fenotípico al momento de nacer (Codificación: Masculino=1;
Femenino=2), donde no existe valor del número en si, más allá de ser un código que
representa al atributo, y permitir funciones matemáticas de recuento o marcar
ausencia de atributo en caso de valores 0 (cero). Ejemplos de variables cualitativas
nominales policotómicas son color de pelo, nombres de las personas, estado civil,
comuna de residencia, etcétera...

3
Ordinal: esta naturaleza de variable corresponde igualmente a la numeración de
atributos cualitativos, pero en este caso el valor numérico da un orden jerárquico a
los componentes de la variable. Ejemplos de este tipo de variables pueden ser:
calidad de atención (1: mala; 2: regular; 3: buena; 4; muy buena), nivel
socioeconómico (1: bajo; 2: medio; 3: alto), puntaje obtenido en alguna escala de
valoración (escalas visual análoga, AUDIT, ASSIST, sueño de Epworth), escalas tipo
Likert, etcétera…

Variables de tipo cuantitativo o numérica


Las variables de tipo cuantitativo o numérica el valor de su magnitud numérica
corresponde a la valoración de las variables, siendo este número utilizable con todas
sus funciones matemáticas ya sea de tipo numérico entero o real.

Discretas: este tipo de variables corresponde al conteo de eventos, por lo mismo usa
números enteros para caracterizar la magnitud de los datos de las variables en
estudio. Ejemplo clásico de esto es el número de hijos, ingresos al hospital, latidos por
minuto del corazón, cantidad de accidentes de un sujeto, etcétera...

Continuas: corresponde a un valor numérico de espectro real que representa la


magnitud del valor al cual representa, por lo mismo puede involucrar valores
decimales hasta el infinito si el instrumento de medición es sensible para detectarlos.
En este caso podemos considerar valores de exámenes de laboratorio como valor de
glucosa en sangre, micro-voltios de una electromiografía, presión arterial, peso o talla
según la precisión del instrumento de medición, entre otros.

Dentro de las variables cuantitativas existe un división clásica con respecto a la


información que pueda tomar el valor 0 (cero) de una variables. Estas se clasifican en:

De razón: este tipo de escala de medición usa el valor 0 como indicativo de ausencia
de atributo, por lo mismo la aparición de este número en la variable nos dice que el
sujeto no posee tal característica. Como ejemplo de esto podemos decir que tener 0
hijos ante la pregunta número de hijos se traduce en que el sujeto no tiene hijos, por

4
lo mismo ausencia del atributo medido. Si el sujeto tiene una presión arterial o latidos
cardiacos de cero, significa que el sujeto esta occiso por no poseer este atributo.

Intervalos: donde el valor 0 puede ser un valor que la variable puede tomar y ser
indicativo a su vez de magnitud en la escala. Ejemplo de esto es el valor de la
temperatura en grados Celsius o Fahrenheit (donde 0 es un valor que puede tomar la
temperatura), valor del exceso de base en gases arteriales o valor de un potencial de
acción de membrana, entre otros. La precisión con la que se mide una variable va
de acuerdo al interés de la investigación y la respuesta al problema de investigación
planteado.

Consideraciones importantes
Una variable de nivel clasificatorio más alto que corresponde a la cuantitativa
continua puede analizarse en valores discretos si la llevo a números enteros, o en
rangos de mediciones para un análisis cualitativo ordinal, o incluso a nivel nominal si
dicotomizo el valor. Supongamos el caso de la presión arterial (PA), que corresponde
a una variable cuantitativa continua en su naturaleza y la medimos en PA sistólica de
120.4 mmHg y diastólica de 89.7 mmHg, sin embargo la puedo llevar a valores enteros
si no expongo los decimales de la presión arterial, siendo la clásica PA de 120/80
mmHg. También puedo llevarla a rangos según los valores de presión arterial en baja,
normal, alta, o hipertensión; e incluso llevarla a nominal dicotómica describiéndola
como presión normal o presión alta. El caso contrario, que sería tener una naturaleza
de variable cualitativa nominal u ordinal, es imposible que escale a otro tipo
cuantitativo, lo mismo sucede con las cuantitativas discretas que no pueden volverse
continuas.

5
Presentación visual de datos
La representación gráfica de la información cuantitativa se puede mostrar tanto en
tablas como gráficos, siendo estos lo más comunes. Además existen otras opciones
como diagramas de flujo, algoritmos, mapas, infografías u otros similares. Aquí
describiremos las tablas y gráficos más comunes según naturaleza de la variables y
como se pueden realizar en Stata®.

Tablas de frecuencia
Las tablas de frecuencia corresponden a tablas de contingencia que reportan los
valores absolutos y relativos de la distribución de los datos. Pueden ir desde una
variable a varias, e incluso pueden ser mostradas asociando dos variables. Son
adecuadas para mostrar variables cualitativas según su distribución mostrando
aparte del valor absoluto y relativo, el valor acumulado. En el caso de nuestra base
de datos, vamos a tabular la variable de género según sexo fenotípico auto-
reportado:

En esta podemos encontrar, después de aplicar etiquetas a los datos de las variable
que hay 63 personas de sexo femenino, que equivalen al 59,43%, y que hay 43
personas de sexo masculino, que equivalen al 40,57%. La tercera columna
corresponde al valor acumulado de porcentajes. Para etiquetar valores de las
variables usamos los comandos:

. label define genero 1"Masculino" 0"Femenino"

. label define genero 1"Masculino" 0"Femenino"

6
En el siguiente caso también tabulamos la variable año de ingreso, donde existen 3
tipos de datos ordinales reportados, con sus respectiva frecuencia de aparición,
porcentaje y acumulado.

La tabla tetracórica o 2x2 nos permite relacionar dos variables en una sola tabla,
calcular valores relativos por columna, fila o celda, según el requerimiento de nuestro
análisis e incluso calcular pruebas de significación estadística o de riesgo. En este caso
reportaremos los estudiantes que trabajan por sexo. Usaremos etiquetas creadas
para la variable trabajo de: 0=“No” y 1=”Sí”.

En este caso se reportan la frecuencia absoluta y total por cada celda. Sin embargo
para relativizar y poder comparar estos valores necesitamos reportar porcentajes que
pueden ser por columna, fila o celda con respecto al total. Estas opciones sólo
cambian el valor del porcentaje, no el valor absoluto de cada celda.

Al aplicar al mismo comando la opción de fila (, row) el paquete estadístico calcula


el % por fila.

7
. trabajo sexo, row

Podemos decir que dentro de los estudiantes que trabajan, el 41.8% es de sexo
femenino, y el 58.8% es de sexo masculino (suma= 100% de los que trabajan). Igual
interpretación es para los estudiantes que no trabajan.

Otra opción es calcular los porcentajes por columna, en este caso la extensión del
detalle es col (, col).

. trabajo sexo, col

Donde podemos interpretar que de los estudiantes de sexo femenino el 11.1% trabaja,
y de los de sexo masculino trabaja el 23.3%. Nótese que la suma por cada sexo
(columna) ahora da 100%. Podemos precisar también que el total de alumnos que
trabajan corresponde al 16.0%.

8
La tercera opción es reportar el valor que posee cada celda con respecto al total de
la muestra, para eso se utiliza en la extensión el detalle cell (, cell).

. trabajo sexo, cell

En este caso podemos decir que los estudiantes de sexo masculino que trabajan con
respecto al total corresponden al 9.4%, o que las estudiantes de sexo femenino que
no trabajan corresponden al 52.8% del total de la muestra.

Consideraciones importantes:
Recuerde que los “software” o paquetes estadísticos sólo nos ayudan a calcular
basados en un algoritmo de trabajo, por lo mismo el valor absoluto simplemente
corresponde a contar cada evento que cumple la condición (Conté 7 que entraron
el 2016, 71 el 2017 y 24 el 2018), y el cálculo del porcentaje (%) es:

𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎
𝑃𝑜𝑟𝑐𝑒𝑛𝑡𝑎𝑗𝑒 (%) = 𝑋 100
𝑛 𝑡𝑜𝑡𝑎𝑙

El valor acumulado corresponde a la sumatoria de los valores relativos por cada


categoría.

9
𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑎𝑠 𝑡𝑜𝑡𝑎𝑙𝑒𝑠

∑ (𝑉𝑎𝑙𝑜𝑟𝑒𝑠 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑜𝑠 𝑝𝑜𝑟 𝑐𝑎𝑑𝑎 𝑐𝑎𝑡𝑒𝑔𝑜𝑟í𝑎 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎)


0

Para el cálculo en tabla tetracórica, ya sea por fila, columna o celda, se utiliza la
misma fórmula de porcentaje, pero cambia el denominador. En el caso de fila el
denominador corresponde al n total por cada fila (en nuestra base trabaja sí o no),
en el caso de columna es el n total por cada columna (en nuestro ejemplo sexo
femenino o masculino), o por el total en el caso de celda.

Gráfico circular o de tortas


Este tipo de gráfico representa la aparición de cada categoría de la variable según
su frecuencia relativa con respecto al total de la muestra, por lo mismo nos sirve para
la presentación de variables de naturaleza cualitativa.

La siguiente representación corresponde a la distribución de sexo fenotípico de la


muestra con ajustes gráficos para mejor visualización:

. graph pie, over(sexo) plabel(_all percent) note(n=106)

40.57%

59.43%

Femenino Masculino
n=106

Figura 1. Distribución relativa por sexo fenotípico del total de la muestra.

10
En el caso de variables más complejas como la pregunta ¿Con quién vive?, también
etiquetamos los posibles datos de la variable, y podemos hacer un gráfico circular
con:

. label define vive 1 "Familia completa" 2 "Ambos Padres" 3 "Padre o Madre" 4 "Abuelos"
5 "Tíos" 6 "Hermanos" 7 "Solo" 8 "Familia de la Pareja"

. label values vivecon vive

. graph pie, over(vivecon) plabel(_all percent) note(n=105)

3.8%
3.8%

5.7% 22.9%

61.0%

Familia completa Ambos Padres


Padre o Madre Abuelos
Tíos Hermanos
Solo Familia de la Pareja
n=105

Figura 2. Distribución de la muestra según personas con quien vive el estudiante. Los
porcentajes no mostrados de manera numérica en 3 categorías del gráfico
corresponden a 1% por cada una.

El caso de gráficos de torta sólo muestra el peso relativo de cada categoría de la


variable por frecuencia relativa, pero es incapaz de indicar jerarquía u orden de las
mismas.

11
Diagrama de tallo y hojas
Este tipo de gráfico nos permite observar y describir gran cantidad de información
contenida en variables cualitativas o cuantitativas agrupadas por cada decena o
centena, acompañado hacia el lado por las unidades que componen ese rango.
Además nos permite ordenar la información n para futuros cálculos descriptivos de
orden. La expresión del lado izquierdo vertical corresponde al tallo, lo dígitos en
horizontal hacia a la derecha son las unidades. Aquí construiremos la distribución del
tiempo en minutos de desplazamiento a la Universidad.

. stem tiempo
. stem tiempo

Stem-and-leaf plot for tiempo (Tiempo transporte a la Universidad)

0* 8
1* 5
2* 014
3* 5
4* 00002
5* 05
6* 00000
7* 016
8* 0023458
9* 0000000000000000002457
10* 000000023455555
11* 013
12* 00000000000000444
13* 00058
14* 000
15* 00007
16* 0000
17* 02
18* 0
19*
20*
21* 0

Figura 3. Gráfico de tallo y hojas sobre tiempo de desplazamiento en minutos a la


Universidad. El rango con mayor representación de eventos corresponde a los 90
minutos, seguido por los 120 minutos. El rango va entre 8 y 210 minutos de
desplazamiento.

12
Diagrama de barras
Un diagrama de barras, también conocido como gráfico de barras o diagrama de
columnas, es una forma de representar gráficamente un conjunto de datos o valores,
y está conformado por barras rectangulares de longitudes proporcionales a los
valores representados. Los gráficos de barras son usados para comparar dos o más
valores. Las barras pueden orientarse horizontal o verticalmente. En estos gráficos se
pueden presentar valores de cada dato agrupado de las variables ya sea en
frecuencias, porcentajes, medias, etcétera… En el siguiente ejemplo graficamos la
mediana de veces que se desbloquea el celular y el uso promedio de minutos de usos
de celular por día por condición de trabajo remunerado del estudiante.

. graph bar (median) vecesdesbloqueocelular (mean) minutoscelular, over(trabajo)


blabel(bar)

304.6
0
30

233.8

0
20

100
0 83
10

0
No Si
p50 de Veces desbloqueo celular
Promedio de minutos de uso de celular

Figura 4. Uso de celular por condición de trabajo remunerado del estudiante. En el eje
X vemos si estudiante tiene trabajo remunerado o no, en el eje Y tenemos una barra
de escala de valores numéricos continuos, donde en los resultados de la barra azul
vemos la mediana del número de veces que los estudiantes desbloquean el celular

13
por condición de trabajo, y en rojo el tiempo de uso promedio en minutos por día de
uso de celular por condición de trabajo.

Gráfico de puntos y líneas


Este tipo de gráfico permite unir varios puntos con respecto a una unidad de
progresión temporal. Existen variadas posibilidades, que más adelante revisaremos
dentro del curso y que corresponden a asociaciones entre variables, regresiones,
líneas de tiempo y otras opciones. En el caso del ejemplo evaluamos la frecuencia
respiratoria y cardiaca de reposo con respecto a su variación con el tiempo de
transporte.

. twoway rconnected fr fc tiempo , sort

0
10

80

60

40

20

0
0 50 100 150 200
Tiempo transporte a la Universidad (minutos)

Figura 5. Frecuencia respiratoria y frecuencia cardiaca en reposo de los estudiantes


con respecto a su tiempo de desplazamiento en minutos hacia la Universidad.

14
Histograma
Este gráfico corresponde a la representación más adecuada para las variables
cuantitativas discretas o continuas debido a la capacidad de revisar gráficamente la
distribución de la variable. Puede reportar densidad, frecuencia, porcentaje o
fracciones de los datos de la variable. También permite hacer estimaciones gráficas
de distribución normal o densidad Kernel. El valor más alto de la distribución
corresponde al valor más representado dentro de la variable, pero que no
corresponde siempre al promedio (media aritmética) del dato.

Aquí representamos gráficamente la distribución de tiempos de desplazamiento a la


Universidad (en densidad) y la edad de los estudiantes (en porcentaje) con
estimación normal en ambas (línea sobreimpuesta en el gráfico).

. histogram tiempo, norm


.02
.015
Density

.01
.005

0 50 100 150 200


Tiempo transporte a la Universidad

15
Figura 6. Distribución de densidad de tiempo en minutos para traslado a la
Universidad. Curva de estimación normal de distribución, donde se aprecia sesgo y
curtosis que sugieren distribución normal.

. histogram edad, norm percent

40

35

30

25

20

15

10

0
18 20 22 24 26 28
Edad en años
n= 106 estudiantes

Figura 7. Distribución porcentual de edad en años de los estudiantes. La mayor carga


de distribución esta hacia los valores bajos de la distribución, gráficamente
corresponde a una distribución no simétrica que sugiere no normalidad de la
distribución.

16
Gráfico de cajón y bigote
Este tipo de gráfico, también conocido como gráfico de cajas, diagramas de
dispersión, “box-plot” o “graph-box”, corresponde a una muy buena representación
de variables cualitativas ordinales, y cuantitativas. En este gráfico se ve representada
la mediana (p50) como una línea en el centro del cuadro, el rango intercuartílico
(percentil 25; percentil 75) como los bordes de la caja, y la dispersión hacia arriba,
sobre el cajón sumando 1,5 veces el rango intercuartílico al p75, y hacia abajo,
restando 1,5 veces el rango intercuartílico al p25. Existen puntos que pueden
encontrarse fuera de la distribución anteriormente mencionado, y son representados
como puntajes atípicos, “outliers”, u “outlayers”, siendo estos habitualmente errores
de digitación, o valores que realmente se alejan de la distribución. En el siguiente
gráfico vemos la distribución de la edad de los estudiantes:

. graph box edad

28

27

26

25
Edad en años

24

23

22

21

20

19

18

17
Figura 8. La distribución de edad de los 106 estudiantes nos muestra una mediana de
edad de 20 años (línea central del cajón), un percentil 25 de 19 años, y un percentil
75 de 21 años, lo que nos entrega un rango intercuartílico (RIC) de 2 años. Hacia abajo
el bigote llega a los 18 años, y hacia arriba a los 24 años. Existen 3 puntajes atípicos, a
los 26, 26 y 28 años que están fuera de la distribución.

También se pueden realizar varios tipos de estos gráficos sobre otra variable, por
ejemplo peso por sexo que vemos en el próximo gráfico:

. graph box peso, over(sexo)

0
12

0
11

0
10

90

80

70

60

50

40
Femenino Masculino
n= 103 estudiantes

Figura 9. Distribución de peso de los estudiantes según sexo fenotípico auto-


reportado. El peso en sexo femenino es de 61 (55; 70) kilogramos; y en sexo masculino
es de 78 (65; 89) kilogramos. No se observan puntajes atípicos en la distribución en
ambos sexos.

18
Otra opción de representar este tipo de gráficos es en horizontal. Acá vemos la
distribución de la talla por sexo fenotípico.

. graph hbox talla, over(sexo)

Femenino

Masculino

140 150 160 170 180 190


Estatura medida del sujeto (cm)

Figura 10. Distribución de talla en estudiantes. Nótese la diferencia entre las medianas
y RIC's por sexo, y la presencia de dos puntajes atípicos en la distribución de sujetos
de sexo masculino, tanto hacia valores bajos y altos.

Mayor información disponible en inglés en:


https://www.youtube.com/watch?v=y6dngL80xuo

19
Distribución de probabilidad de variables
La distribución de probabilidad, se refiere a todos los resultados posibles que pueda
tener una variable aleatoria, es decir, describe el comportamiento de dicha variable
dentro de un intervalo de valores o de posibles resultados, por lo mismo es una función
que asigna a cada suceso definido sobre la variable la probabilidad de que dicho
suceso ocurra. Esta variable puede ser discreta o continua.

Distribución de probabilidad discreta


Una distribución discreta describe la probabilidad de ocurrencia de cada valor de
una variable aleatoria discreta. Una variable aleatoria discreta es una variable
aleatoria que tiene valores contables, tales como una lista de enteros no negativos.
Con una distribución de probabilidad discreta, cada valor posible de la variable
aleatoria discreta puede estar asociado con una probabilidad distinta de cero. Por lo
tanto, una distribución de probabilidad discreta suele representarse en forma tabular.
Dentro de los tipos de distribución discreta más conocidas podemos mencionar:
distribución de Bernoullí, binomial, de Poisson, geométrica, hipergeométrica, y
logarítmica, entre otras…

Distribución de probabilidad continua


Una distribución continua describe las probabilidades de los posibles valores de una
variable aleatoria continua. Una variable aleatoria continua es una variable aleatoria
con un conjunto de valores posibles (conocido como el rango) que es infinito y no se
puede contar. Las probabilidades de las variables aleatorias continuas (X) se definen
como el área por debajo de la curva de su función de densidad de probabilidad. Por
lo tanto, solo los rangos de valores pueden tener una probabilidad diferente de cero.
La probabilidad de que una variable aleatoria continua equivalga a algún valor
siempre es cero. En variables continuas existen variados tipo de distribuciones como:
beta, exponencial, Chi-cuadrada, gamma, Gompertz, de Weibull, de Pareto,
uniforme, Normal o Gaussiana, normal estándar o típica, entre otras.

20
Dentro de las continuas, la más clásica es la distribución normal o Gaussiana, que
veremos en detalle en otros capítulos, la que nos permite comprender de mejor modo
el comportamiento de los datos de variables numéricas continuas y tener poder de
decisión con respecto a la estadística descriptiva que utilizaremos más adelante para
este tipo de variables.

Distribución normal o Gaussiana


Otro detalle relevante sobre la distribución de datos continuos corresponde a la
normalidad de su distribución, tema que será varias veces revisado durante este
curso. La normal también es conocida como distribución de Gauss o Gaussiana. La
gráfica de su función de densidad tiene una forma acampanada y es simétrica
respecto de un determinado parámetro estadístico. Esta curva se conoce como
campana de Gauss y es el gráfico de una función gaussiana. Dentro de sus
propiedades clásicas se debe considerar que es simétrica con respecto a su media
(); moda y mediana son idénticas a la media; los puntos de inflexión de la curva se
dan en cuando: x= ( - ), y x= ( + ); y que a: (± ) encontramos el 68.26% de la
distribución, a: (± 2 ) el 95.44% de la distribución y a: (± 3 ) el 99.74% de la distribución
total de datos. De esta última propiedad se deprenden los intervalos de confianza al
% que requiramos como investigadores. Asumir una distribución normal se traduce en
poder describir una muestra en media aritmética y desviación estándar como
estadígrafos de tendencia central y dispersión; en caso de distribución no normal
debemos describir la muestra en mediana y rango intercuartílico (p25; p75). Si no
realizamos una observación adecuada del tipo de distribución podemos cometer
falacia en el resumen y descripción de la muestra que se puede traducir en errores
trascendentales en la interpretación, análisis posterior de los datos y conclusiones con
respecto a nuestra investigación.

21
Habitualmente se describe como: X~N (,2), donde la función de densidad de
probabilidad es:

1 (𝑋−𝜇)2
𝑓(𝑥) = ∙ 𝑒 2𝜎2 , −∞ < 𝑋 < ∞, 𝜇 ∈ 𝑅, 𝜎 ∈ 𝑅+
√2𝜋𝜎

Donde  es corresponde a la constante pi (=3.1415927);  es la desviación estándar


de la muestra;  media aritmética de la muestra; 2 es varianza de la muestra; e es la
base del logaritmo natural (=2.71828); y X el valor observado.

Para x~N (80;10) el histograma corresponde a:

Figura 11. Histograma de distribución normal simulada en 1000 observaciones con =


80; y 2= 10. En este caso promedio y mediana son idénticas, y la distribución es
simétrica con una desviación estándar de 10.

22
Distribución normal típica o estándar
Corresponde a distribución normal que reporta números Z de distribución. Su fórmula
corresponde a: z~N (0,1), donde:

𝑋−𝜇
𝑧~𝑁(𝜇, 𝜎 2 ), 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑧 = ~ 𝑁(0,1)
𝜎

Donde el histograma de distribución corresponde a:

Figura 12. Distribución normal estándar con =0 y =1, se observa =percentil50, y que
la probabilidad de distribución a ± 1 DS es de 62.3%, a ± 2 DS es de 95.5% y a 3 DS es ±
99.3%.

23
Dentro de esta distribución los percentiles clásicos son:

Pz z
1.00% -2.33
2.50% -1.96
5.00% -1.64
10.00% -1.28
50.00% 0
90.00% 1.28
95.00% 1.64
97.50% 1.96
99.00% 2.33
Tabla 2. Percentiles clásicos de la distribución normal estándar [z~N(0,1)] asociados a
su valor z.

Pruebas de normalidad:
Existen variadas pruebas para evaluar la normalidad de una distribución, todas ellos
consideran la hipótesis nula que el conjunto de datos distribuye similar a distribución
normal, por lo mismo un p-value menor a 0.05 nos brinda evidencia para distribución
no normal. Las pruebas que revisaremos por orden de importancia, más allá del
análisis gráfico del histograma, son:

- Prueba de Shapiro-Wilk: corresponde a una prueba con precisión ajustada


actualmente a una muestra de tamaño 4  n  2000 sujetos. Ejemplo de esta es
la distribución de perímetro de cintura:

24
. swilk perimetro

Donde no tenemos evidencia que esta distribución distribuye no normal (El valor del
p-value no es menor a 0.05), dado lo mismo esta distribución es normal. Esto puede
corroborarse en el histograma:

. histogram perimetro, norm percent


20
15
Percent

10
5
0

40 60 80 100 120
Perimetro medido de cintura

Figura 13. Distribución del perímetro de cintura en centímetros de estudiantes de


kinesiología 2019. Observamos mediana, moda y media similar, con simetría en ambos
brazos de distribución.

25
Para observar un modelo contrafactual, donde la distribución de datos es no normal,
analizaremos la variable flujometría con la misma prueba y la revisión del histograma.

. swilk flujo
.006
.004
Density

.002

200 300 400 500 600 700


Flujo Espiratorio Máximo medido

Figura 14. En esta prueba tenemos un p-value menor a 0.05, por lo cual tenemos
evidencia de distribución no normal, donde existe asimetría de los brazos de la
distribución. Media aritmética es diferente a moda y mediana, que también podemos
revisar.

26
Donde el valor de media aritmética es diferente al valor de mediana, tal como se
observó en el histograma.

- Prueba de Sesgo y Curtosis: esta prueba utiliza la probabilidad de los


estadígrafos de forma sesgo y curtosis para evaluar la distrbución. En el caso
del perímetro de cintura observamos:

. sktest perimetro

Donde el p-value es >0.05, por lo cual no tenemos evidencia para distribución no


normal.

- Prueba de Shapiro-Francia: es similar a Shapiro Wilk, pero permite un tamaño


de muestra de 10  n  5000 datos.

Ante la presencia de distribuciones no normales existe la posibilidad de normalizar la


distribución con un elemento matemático extra, estos corresponden a: elevar al cubo

27
o al cuadrado el valor de la variable, usar la raíz cuadrada de los valores de la
variable, el logaritmo, o los inversos de la variable, ya sea idéntica, raíz cuadrada,
potencia al cuadrado o inverso de la potencia al cubo. El detalle importante de este
“truco” es que ahora las conclusiones serán con respecto al ajuste matemático de la
variable, no directo sobre la variable en cuestión. En Stata® tenemos la posibilidad en
ejemplo para la variable peso de:

. ladder peso

Donde la normalización de la variable se consigue con la raíz cuadrada, el logaritmo,


el inverso de la raíz cuadrada, el inverso idéntico, y el inverso de la potencia al
cuadrado. Gráficamente esto lo podemos ver en:

28
. gladder peso

Figura 15. Representación gráfica en histogramas sobre las opciones matemáticas de


normalización de la variable peso.

Para normalizar la variable se debe generar una variable nueva con la condición
matemática planteada. En este caso vamos a usar el inverso de la raíz cuadrado de
la variable peso para nuevas estimaciones bajo normalidad.

. gen pesonormal=1/sqrt(peso)

Por lo cual ahora tenemos la variable de peso normal que es el inverso de la raíz
cuadrada del peso, por lo mismo cada vez que describamos esta variable debemos
referirnos al inverso de la raíz cuadrado de la variable peso.

29
Estadígrafos
Los estadígrafos o estadísticos corresponden a números resúmenes, claves para
cualquier análisis estadístico descriptivo, que nos permiten establecer conclusiones
con respecto a la estructura de una muestra de todos los datos recolectados y poder
así resumir y caracterizar la variable en cuestión.

Valores absolutos, relativos y acumulados


La representación más sencilla y simple, sobretodo en variables cualitativas, es
cuantificar la frecuencia con la que se repite un dato, esto lo conocemos como la
frecuencia absoluta y corresponde a la representación del atributo en un número. Al
llevar a porcentaje este valor hablamos de valores relativos que corresponde al valor
absoluto dividido por el total y multiplicado por 100 como revisamos anteriormente en
la construcción de tablas de frecuencia, pudiendo realizarse por columna, fila o
celda. El valor acumulado corresponde a la sumatoria de los porcentajes a medida
que se van sumando observaciones relativas categorizadas a la presentación de la
muestra total. Estos valores son clave para la interpretación descriptiva e incluso para
estadística más elaborada en el análisis de categorías.

Estadígrafos de posición
Estos dan información acerca del orden en la estructura de una muestra. Al ordenar
los valores de la muestra del menor al mayor, desde una escala ordinal a una
continua podemos obtener variados valores relacionados a ella. Los valores clásicos
son:

Mínimo
Valor más bajo observado en la muestra. Existen dos comandos de Stata® para el
reporte de este valor. El más sencillo y preciso es:

. tabstat peso, stat(min)


. tabstat peso, stat(min)

variable min

peso 44

30
Máximo
Valor más alto observado en la muestra. En Stata®:

. tabstat peso, stat(min max)

Bajo este programa estadístico también se puede condicionar el análisis a un valor


de variable, por ejemplo evaluar el peso mínimo y máximo sólo en sexo masculino.

. tabstat peso if sexo==1, stat(min max)

Percentiles
De estos valores de la variable ordenada si los dividimos en 100 partes iguales
hablamos de percentiles siendo en total 99. Se denota como percentil (P(k))entre el 1
y el 99 a la división de la muestra en dos partes iguales, la inferior que contiene el %
inferior de las observaciones, y su complemento que contiene el (100 - percentil) % de
las observaciones. Las propiedades de los percentiles las vemos en la siguiente figura:

31
Figura 16. Observamos en X el número de la muestra requerido desde el P(1) hasta el
valor X(n) que corresponde al P(99). De cualquier percentil deseado P(k) este
corresponde al K% inferior de la distribución de la muestra. El complemento es (100 –
K%), y el P(k-1) corresponde al percentil inmediatamente inferior.

Existen percentiles que dada su importancia tienen nombres propios como:

- Cuartiles: corresponden a la división de la muestra en 4 partes iguales, percentil


25, percentil 50, y percentil 75; también llamados cuartil 1 (Q1), cuartil 2 (Q2), y
cuartil 3 (Q3).

- Quintiles: dividen la muestra en 5 partes iguales, siendo C1, C2, C3, y C4, que
corresponden a los percentiles 20, 40, 60 y 80.

- Deciles: divide la muestra en 10 partes iguales, siendo los D1, D2,… D9; que
corresponden a los percentiles 10, 20,… 90.

- Mediana: corresponde al percentil 50. Este será descrito en estadígrafos de


tendencia central, pero divide en 2 partes iguales la distribución de la muestra.

Para calcular los percentiles debemos tomar en consideración si la escala de


medición es ordinal o discreta, en este caso el valor acumulado que pasa por primera
vez el valor percentil pedido corresponde al P(k) evaluado. Como ejemplo de este
caso tabulamos la variable estado de salud auto percibido el día de la encuesta
obteniendo los siguientes resultados:

. tab estadosalud

32
Figura 17. Estado de salud auto reportado en escala visual análoga el día de la
encuesta.

Acá el percentil 10 de la muestra corresponde a un valor de 6, pues 17.78% es el primer


valor acumulado que sobrepasa el 10%; el percentil 25 equivale a 7; el percetil 50 a 8;
el percentil 75 a 9; y el percentil 90 también equivale a 9 dada la situación planteada.
Por lo mismo el 50% de la muestra tiene al menos un estado de salud de 8.

Un comando abreviado para obtener la misma información corresponde a:

. tabstat estadosalud, stat(p1 p10 q p90 p99)

Figura 18. Percentil 10, 25, 50, 75 y 90 de valor de escala visual análoga sobre estado
de salud auto reportado el día de la encuesta.

En variables de naturaleza continua se multiplica el tamaño de la muestra por k/100,


y se ubica la observación cuya posición iguale o supere por primera vez el número

33
calculado. En el caso de la variable perímetro de cintura tenemos 90 mediciones
correctamente efectuadas, por lo mismo el valor del percentil 10 equivale a: (90 X 10
/ 100), que es 9. El primer valor que iguale o supere a la posición 9 corresponde a p10.
Al verificar esto en un diagrama de tallo y hojas observamos que:

El valor que esta en la 9° posición es 66, siendo este el p10. Así el p50 equivales a (90 x
50 / 100)= 45, estando en posición 45 el valor de 80, siendo este el p50. Valores más
exóticos como el p7 lo podemos encontrar de igual modo (90 x 7 / 100)= 6.3, siendo
el valor de este percentil el primer valor que pase ese orden, así el p7 equivale a 63.
De este modo el p25 es 73, y el p75 es 88. Con el mismo comando anterior podemos
tener acceso más fácil a los percentiles clásicos.

. tabstat perimetro, stat(p1 p5 p10 q p90 p95 p99)

Si bien es cierto el p50 que calculamos con tallo y hojas fue de 80, el programa
estadístico calculo 80.5, lo cual hace caer en error de agrupamiento.

34
El comando que nos puede reportar toda la estadística descriptiva de una variable
corresponde a: “summarize”, sin embargo se debe ser sumamente cuidadoso con la
interpretación de los valores aquí mostrados, pues la selección de los valores a
reportar depende de la naturaleza de la variable y de la pregunta de investigación
a resolver y no de lo que el paquete estadístico muestre, pues puede calcular incluso
el promedio a una variable dicotómica. Ejemplo del uso adecuado de este comando
es:

. sum peso, d

Peso medido del sujeto

Percentiles Smallest
1% 44 44
5% 50 48
10% 52.5 49 Obs 90
25% 59 50 Sum of Wgt. 90

50% 65 Mean 68.16667


Largest Std. Dev. 13.77855
75% 75 93
90% 88.5 104 Variance 189.8483
95% 93 107 Skewness .9150202
99% 113 113 Kurtosis 3.750765

Figura 19. Reporte sumario de las posibles estadísticas descriptivas del peso en
kilogramos observados en la muestra de estudiantes.

Aquí podemos observar reportes de valores mínimo y máximos, percentiles 1, 5, 10, 25,
50, 75, 90, 95 y 99%, número de observaciones, sumatoria de pesos, media aritmética,
desviación estándar, varianza, sesgo y curtosis de una variable en particular. La
interpretación de los otros valores será discutida más adelante en esta sección.

Como se mencionaba anteriormente se pueden cometer errores por exceso de uso


de “software” como calcular el promedio a una variable dicotómica. Vemos a
continuación el resumen de la variable trabajo de estudiante, donde la gran mayoría

35
de cálculos reportados por Stata® no sirven para resumir la información de los datos
de la variable.

Figura 20. Resumen estadístico mal utilizado, al intentar calcular estadística de


variables al menos ordinales de una escala nominal. Nótese que el programa realiza
el cálculo, pero este no tiene interpretación válida directa.

36
Estadígrafos de tendencia central
Este tipo de estadígrafos muestran si los datos recolectados se aglutinan en torno a
ciertos valores representativos que son propios del fenómeno estudiado, por lo mismo
los estadístico de tendencia central son aquellos valores hacia los cuales tienden a
aglomerarse los datos de una muestra. Los más frecuentes son:

Mediana
Como describimos anteriormente la mediana corresponde al percentil 50 que divide
en dos partes iguales la muestra de datos de la variable. La mediana se encuentra
en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de
las frecuencias absolutas. Tiene propiedades muy interesantes como ser la base del
análisis no paramétrico, pues su valor es robusto incluso en mediciones no simétricos
o desbalanceadas. En fórmula la mediana para datos continuos no agrupados
depende si el número total de la muestra (n) es par o impar, donde:

Muestra impar:

𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝑋𝑛+1 = 𝑋𝑛+1


2 2 2

Muestra par:

𝑋𝑛 + 𝑋𝑛+1
2 2
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 =
2

Donde X es la posición de los datos ordenados (número de ranking); y n el número


total de la muestra.

En el caso de datos agrupados es:

𝑛
− 𝐹𝑖−1
𝑀𝑒𝑑𝑖𝑎𝑛𝑎 = 𝐿𝑖 + 2 − 𝑡𝑖
𝑓𝑖

37
Donde, Li es el límite inferior de la clase donde se encuentra la mediana; N/2 es la
semisuma de las frecuencias absolutas; Fi-1 es la frecuencia acumulada anterior a la
clase mediana; fi es la frecuencia absoluta del intervalo mediano; y ti es la amplitud
de la clase.

En el caso de uso de paquetes estadísticos el cálculo de la mediana para datos


agrupados y no agrupados es sencillo. Revisemos la variable ordinal año de ingreso,
y la continua de peso en kilogramos.

. tab anoingreso, d

Donde la mediana de año de ingreso es el 2017. También podemos obtenerla bajo el


comando (mediana o p50 es lo mismo):

. tabstat anoingreso, stat(median p50)

Para la variable peso en kilogramos los comandos son los mismos:

. sum peso, d

38
Donde la mediana de peso es de 65 kilogramos para la muestra total. Si quisiéramos
diferenciarla por sexo, tenemos que:

. tabstat peso , stat(p50) by(sexo)

La mediana de peso en sexo femenino es de 61 kilogramos y en sexo masculino de 78


kilogramos.

Moda
En variables nominales, ordinales y discretas es aquel valor que más se repite en una
muestra y se denota por Mo. Formalmente no se calcular en variables continuas
debido a que por el valor decimal de cada dato podría ser imposible encontrar
repetición exacta del mismo, sin embargo el valor más alto en el histograma
corresponde a la moda de esa distribución agrupada. La fórmula de la moda en el
primer caso es:

𝑓𝑖 − 𝑓𝑖−1
𝑀𝑜𝑑𝑎 = 𝐿𝑖 + ∙𝑡
(𝑓𝑖 − 𝑓𝑖−1 ) + (𝑓𝑖 − 𝑓𝑖+1 ) 𝑖

39
Donde Li es el extremo inferior del intervalo modal (intervalo de mayor frecuencia
absoluta); fi es la frecuencia absoluta del intervalo modal; fi-1 es la frecuencia absoluta
del intervalo anterior al modal; fi+1 es la frecuencia absoluta del intervalo posterior al
modal; y ti es la amplitud de los intervalos.

Dada la posibilidad de encontrar más de una moda, Stata® no trae cargado un


comando para su cálculo. Esta se podría estimar de tabulación de una vía (. tab
variable) o descargando el comando desde “Stata commands”: modes -- Tabulation
of mode(s) (Desarrollado por: Nicholas J. Cox, Durham University, UK.
n.j.cox@durham.ac.uk) que reporta el (los) valor de moda(s) con su respectiva
frecuencia.

En nuestra base de datos buscamos en que comuna es moda vivir para los
estudiantes con:

. modes comuna

40
. tab comuna

Está de moda vivir en la comuna 15. Esta según el “codebook” de nuestra base de
datos es la comuna de Maipú, que es la que más se repite en reporte de frecuencia
absoluta. Otras comunas de moda son la 23: Puente alto (9 sujetos) y la 32: Santiago
Centro (8 sujetos).

41
Media aritmética o promedio
Corresponde a la sumatoria de todos los valores de la variable divididos por la
cantidad total de datos de la muestra. Es el centro de masas de la muestra, que
equilibra ambos brazos simétricos de dispersión, suponiendo así que todos los datos
de la muestra son representados por este valor promedio. Sin embargo este
estadígrafo de centralización es el más utilizado, abusado y mal usado en estadística
debido al no cumplimiento de sus supuestos de uso. Este valor es muy afectado por
valores extremos (muy altos o bajos de la distribución), datos no simétricos, y que no
sigan una distribución normal. Su fórmula corresponde a:

𝑛
1 𝑋1 + 𝑋2 + 𝑋3 … + 𝑋𝑛
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑜 = 𝑋̅ = ∙ ∑ 𝑋𝑖 =
𝑛 𝑛
𝑖=1

Donde Xx es el valor numérico de cada uno de los datos de la distribución; y n es el


número total de observaciones.

Por ejemplo podemos calcular el promedio de la variable tiempo de transporte a la


Universidad. Para eso podemos usar 2 comandos en Stata®:

. tabstat tiempo, stat(mean)

. tabstat tiempo

Donde el promedio de tiempo de transporte es de 100.5566 minutos, siendo los dos


comandos anteriormente reportados análogos. Otro comando es:

42
. sum tiempo

. sum tiempo, d

Donde tenemos reporte nuevamente de la misma magnitud. El grado de precisión


del valor nuevamente depende de los objetivos de nuestra investigación. Más
adelante en esta sección se discutirá sobre si esta media aritmética es el mejor
estadígrafo de centralización para todas las variables cuantitativas.

Promedio ponderado
Corresponde a la media aritmética, pero ponderada por el peso relativo de cada
categoría de análisis, donde cada dato dentro de la muestra pudiera tener un peso
relativo diferente. Es una medida de tendencia central, que es apropiada cuando en
un conjunto de datos cada uno de ellos tiene una importancia relativa (o peso)
respecto de los demás datos. Se obtiene multiplicando cada uno de los datos por su
ponderación (peso) para luego sumarlos, obteniendo así una suma ponderada;

43
después se divide esta entre la suma de los pesos, dando como resultado la media
ponderada. Su fórmula corresponde a:

∑𝑛𝑖=1(𝑝𝑒𝑠𝑜𝑠 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑜𝑠 𝑥 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒𝑙 𝑑𝑎𝑡𝑜)


𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑝𝑜𝑛𝑑𝑒𝑟𝑎𝑑𝑜 =
∑𝑛𝑖=1(𝑝𝑒𝑠𝑜𝑠 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑜𝑠)

Su utilización frecuente es en el cálculo de notas en la Universidad, cálculo de


incidencias y tasas, número de hijos por número de mujeres fértiles (tasa de
fecundidad), y en la estimación de parámetros poblacionales a través de meta
análisis como la prevalencia. En este caso vamos a ponderar el peso en kilogramos
del sexo masculino por los años de consumo de tabaco:

. sum peso if sexo==1 [aweight= anosfumar]

Donde el peso en kilogramos del sexo masculino ponderado por los años de fumador
corresponde a 86.13 kilogramos.

Media armónica, media geométrica, media cuadrática y media móvil


- Media armónica (H): se designa usualmente mediante H donde de una
cantidad finita de números es igual al recíproco, o inverso, de la media
aritmética de los recíprocos de dichos valores. Es recomendada para
promediar velocidades y tiempos. Su fórmula corresponde a:

𝑛
𝐻=
1
∑𝑛𝑖=1
𝑥𝑖

- Media geométrica (G): es la raíz n-ésima del producto de todos los números. Se
recomienda para datos de progresión geométrica, para promediar razones,
interés compuesto y números índice. Es siempre igual o menor a la media
aritmética y sirve sólo para valores positivos. Su fórmula es:

44
𝑛 𝑛
𝑥̅ = √∏ 𝑥𝑖
𝑖=1

- Media cuadrática (Q): es una medida estadística de la magnitud de una


cantidad variable. En inglés se abrevia RMS (“root mean square”). Puede
calcularse para una serie de valores discretos o para una función matemática
de variable continua tanto en números positivos y negativos. El nombre deriva
del hecho de que es la raíz cuadrada de la media aritmética de los cuadrados
de los valores y se usa para calcular la media de errores de medida. Su fórmula
es:

𝑛
1
𝑥𝑅𝑀𝑆 = ∙ √∑ 𝑥𝑖2
𝑛
𝑖=1

- Media móvil: es un cálculo utilizado para analizar un conjunto de datos en


modo de puntos para crear series de promedios. Así las medias móviles son una
lista de números en la cual cada uno es el promedio de un subconjunto de los
datos originales. Se utiliza en análisis de series temporales.

Relación entre medias


Hay una relación de orden de las medias obtenidas de una misma colección de
valores, pues el valor de H≤ G ≤ A ≤ Q , donde H es la media armónica; G, la media
geométrica; A, la media aritmética ; Q, la media cuadrática

45
Figura 21. Relación trigonométrica entre media aritmética (AM), media armónica
(HM), media geométrica (GM) y media cuadrática (RMS).

Estadígrafos de variabilidad o dispersión


Corresponden a valores numéricos que nos permiten ver como se distribuyen en
concentración los datos de la variable con respecto a su valor central. Existen
variados tipos de acuerdo al tipo de distribución, y su estadígrafo de centralización.

Rango o recorrido
Este estadígrafo corresponde a la diferencia entre el valor máximo de la distribución
y el valor mínimo, lo cual nos permite establecer el largo total del intervalo de
mediciones. Puede calcularse en cualquier tipo de variable de ordinal en adelante,
y se reporta cuando el recorrido de toda la distribución es importante de describir
para la respuesta a la pregunta de investigación. La fórmula corresponde a:

𝑅𝑎𝑛𝑔𝑜 = 𝑉𝑎𝑙𝑜𝑟 𝑚á𝑥𝑖𝑚𝑜 − 𝑉𝑎𝑙𝑜𝑟 𝑚í𝑛𝑖𝑚𝑜

46
El comando para obtener este valor en Stata® para la variable talla es:

. tabstat variable, stat(range)

Donde la diferencia entre la talla más alta y más baja es de 47 centímetros (entre 192
y 145 centímetros)

Recorrido intercuartílico
Es la diferencia entre el percentil 75 y el percentil 25 de la distribución, acompaña al
percentil 50 (mediana) como estadígrafo de dispersión sobre esta tendencia central.
Permite establecer el recorrido sobre el 75% de la distribución de la muestra y se utiliza
para describir la dispersión en variables ordinales, discretas y continuas. La fórmula
corresponde a:

𝑅𝑒𝑐𝑜𝑟𝑟𝑖𝑑𝑜 𝑖𝑛𝑡𝑒𝑟𝑐𝑢𝑎𝑟𝑡í𝑙𝑖𝑐𝑜 = 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 75 − 𝑃𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 25


Para la variable peso podemos calcularlo con el comando:

. tabstat peso, stat(iqr p75 p25)

Donde el 75% central de la muestra es distribuido entre 17 kilogramos de dispersión


(Entre 76 y 69 kilogramos).

47
Desviación estándar
Previo conocer este datos debemos describir la diferencia entre un dato y el
promedio, dado por di = 𝑥𝑖 − 𝑥̅

𝑁
1
𝜎 = √ ∙ ∑(𝑥𝑖 − 𝑥̅ )2
𝑛
𝑖=1

𝑁
1
𝑠= √ ∙ ∑(𝑥𝑖 − 𝑥̅ )2
𝑛−1
𝑖=1

Donde  corresponde a DS poblacional y s a DS muestral

Varianza
Corresponde al cuadrado de la desviación estándar (S), en fórmula es:

(𝑥 − 𝑥̅ )2
𝑆2 =
𝑛−1

Tanto desviación estándar y varianza esta relacionadas a media aritmética, por ende
a distribución normal, como estadístico de dispersión. De manera común la notación
es promedio ± desviación estándar (X ± )

Como ejemplo evaluaremos para perímetro de cintura la varianza, desviación


estándar y media aritmética a través de los comandos:

. sum perimetro, d

48
En este caso la DS con respecto al promedio es de ± 11.81 cms. con una varianza de
139.4.

Error estándar
El error estándar de la media estima la variabilidad entre las medias de las muestras
que usted obtendría si tomara muestras repetidas de la misma población. Mientras
que el error estándar de la media estima la variabilidad entre las muestras, la
desviación estándar mide la variabilidad dentro de una misma muestra. Por lo mismo
aplica bien como un dato poblacional. En fórmula corresponde a:

𝜎
𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 =
√𝑛

Donde  es la desviación estándar; y n el tamaño muestral. Con el comando: tabstat


y opción stat(semean), podemos calcular el error estándar. Actualmente en la gran
mayoría de revistas científicas se pide explícitamente no reportar el error estándar,
salvo que se trate de datos a nivel poblacional.

49
Coeficiente de variabilidad
El cálculo de este coeficiente nos permite determinar la heterogeneidad de la
distribución de datos, al llevarlo a un porcentaje e más fácil de interpretar. La fórmula
corresponde a:

𝑆𝑥
𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 = ∙ 100
Χ

Donde Sx es la desviación estándar de la muestra, y X la media aritmética.

Se ha reportado que valores bajo el 80% nos sugieren valores homogéneos, donde el
promedio sería un buen representante de la muestra; por el contrario valor sobre 80%
nos hablan de muestra heterogénea, por lo cual el promedio no se aproxima a resumir
la información y se sugiere mediana.

En el siguiente caso calcularemos el coeficiente de variabilidad en Stata® para la


variable perímetro de cintura.

. tabstat perimetro, stat(cv)

La salida computacional no esta en porcentaje, pero corresponde a un valor de


14.8% lo que indica heterogeneidad baja de los datos.

50
Estadígrafos de forma

Corresponden a números resúmenes que indican la forma de la distribución de datos

Sesgo o “skewness”
Medida estadística que describe la simetría de la distribución alrededor de un
promedio. Si el sesgo es igual a cero, la distribución es simétrica; si el sesgo es positivo
la distribución una tendrá una cola asimétrica extendida hacia los valores positivos.
Un sesgo negativo indica una distribución con una cola asimétrica extendida hacia
los valores negativos. La fórmula no paramétrica que determina el valor del sesgo es:

(𝜇 − 𝜈)
𝑆𝑒𝑠𝑔𝑜 =
𝜎

Donde:  es media aritmética de la distribución;  es mediana; y  es la desviación


estándar.

Ejemplos de sesgo positivo y negativo:

Figura 22. Izquierda. Curva con sesgo negativo o sesgado a izquierda, donde la
distribución está más concentrada a la derecha y la cola hacia la izquierda es más
larga. Derecha. Curva con sesgo positivo o segado a derecha, donde la distribución
está más concentrada a la izquierda y la cola hacia la derecha es más larga.

Curtosis o “kurtosis”
Es una medida estadística que describe el apuntamiento o achatamiento de una
cierta distribución con respecto a una distribución normal. La curtosis positiva indica

51
una distribución relativamente apuntada, y la negativa indica una distribución
relativamente achatada. En una distribución normal la kurtosis es igual a 3
(mesocurtica), a los valores mayores a 3 se los llama kurtosis excesiva o leptocurtica.
El caso de kurtosis excesiva indica que hay una mayor probabilidad de que los
retornos observados estén más alejados de la media que en una distribución normal.
La curtosis disminuida (platicurtica) es achatada y con colas menos gruesas que la
normal. Por fórmula corresponde al cuarto momento con respecto a la media
estandarizada, donde estas corresponden a:

𝜇2
𝑀𝑒𝑑𝑖𝑎 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑎 =
𝜎2

𝜇4
𝑀𝑒𝑑𝑖𝑎 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑎 4° 𝑚𝑜𝑚𝑒𝑛𝑡𝑜 =
𝜎4

En diverso programas estadísticos el algoritmo de cálculo es diferente, pero para


Stata® el cálculo es dado por:

𝑚4
𝐶𝑢𝑟𝑡𝑜𝑠𝑖𝑠 =
𝑚22

52
Gráficamente podemos diferenciar los 3 grados de apuntamiento del histograma.

Figura 23. Curtosis alta o letocúrtica (valor>3), normal o mesocúrtica (valor=3), o


curtosis baja o platicúrtica (valor <3)3.

Estos valores pueden obtenerse por ejemplo para la variable creada de índice de
masa corporal (imc) con los comandos:

. sum imc, d

. tabstat imc, stat (k sk)

3
Adaptado de: Barrantes Aguilar LE. Diferencias en la estimación del coeficiente de curtosis en diferentes
softwares estadísticos. Revista e-Agronegocios 2019;5(2). Disponible en:
https://revistas.tec.ac.cr/index.php/eagronegocios/article/view/4456

53
. histogram imc, norm
.15
.1
Density

.05
0

20 25 30 35 40
imc

En todos los casos vemos una curva sesgada derecho, y con apuntamiento mayor al
sugerido, brindándonos información que esta distribución no es normal.

Existe más información con respecto a estadística descriptiva en inglés disponible en:
https://www.youtube.com/watch?v=kKFbnEWwa2s

54
Bibliografía sugerida

1. Acock AC. A Gentle Introduction to Stata. Stata Press; 2006. 312 p.

2. Cobo E. Bioestadística para no estadísticos. Elsevier España; 2011. 364 p.

3. Graña CR, Díaz MR. Introducción a la Estadística Descriptiva. Netbiblo; 2007. 250 p.

4. Guyatt G, Rennie D, Meade MO, Cook DJ. Users’ Guides to the Medical Literature:
A Manual for Evidence-Based Clinical Practice, Second Edition. McGraw Hill
Professional; 2008. 870 p.

5. Mitchell MN. A Visual Guide to Stata Graphics, Third Edition. Stata Press; 2012. 499 p.

6. Spiegel MR, Stephens LJ. Estadística. McGraw-Hill; 2008. 577 p.

7. Taucher E. Bioestadistica. Editorial Universitaria; 1997. 314 p.

8. Escobar M. Análisis de datos con Stata (2a edición). CIS; 2012. 519 p.

55

View publication stats

También podría gustarte