Está en la página 1de 12

CAPITULO 1

Docente Milciades Ibáñez

VARIABLES DE ESTUDIO

INTRODUCCIÓN
Uno de los problemas mas frecuentes que ocurre en investigación epidemiológica
esta dado por la realización directa de instrumentos de recolección de información, sin
tener en cuenta la construcción previa de la variables de estudio posterior a revisar
los estudios previos de otros autores y los aspectos conceptuales establecidos, lo que
conlleva a errores muy graves de medición que están relacionados con la falta de
validez de las variables medidas. Por lo tanto el formular el problema de investigación
en salud, conlleva a preguntarse de que forma se debe dar a respuesta a este, es por
esto que un paso dentro del método es el de establecer los objetivos del estudio,
clasificados en generales y específicos, donde se debe determinar cuales deben ser
las variables de estudio que midan dichos objetivos y donde el investigador entra en
un ejercicio de medición definido como un procedimiento de atribuir valores
cuantitativos o cualitativos a características de los sujetos del estudio que
generalmente son los pacientes. La adecuada identificación, definición y
operacionalización de las variables utilizadas en el estudio, están estrechamente
relacionada con las medidas y métodos estadísticos a ser utilizados en el proyecto y
no da parámetros para obtener validez interna, definida por la inferencia de las
conclusiones del estudio a la población diana o blanco.

IDENTIFICACIÓN Y SELECCIÓN DE LAS VARIABLES


En investigación formativa el problema de investigación generalmente es asignado por
un tutor científico, el primer paso que debe hacer el estudiante es realizar una revisión
completa del estado del arte del problema de investigación y del marco conceptual
relacionado con su proyecto de investigación. En la revisión critica de la literatura, se
debe centrar en los materiales y métodos para identificar las variables utilizadas por
cada investigador, donde se debe esquematizar las variables dependientes,
independientes y de confusión a ser medidas.

TIPO DE VARIABLES Y SU RELACIÓN


El primer paso que se debe realizar en los estudios epidemiológicos posterior a
revisar los estudios previos y desarrollar el marco conceptual, es clasificar las
variables de estudio según su relación, en variables dependientes dadas por las
variables de resultado o desenlace que el investigador quiere explicar, que están
dadas por los eventos de importancia en el área de la salud, como la enfermedad,
muerte, complicaciones, recuperación de los pacientes, y en variables
independientes que son las posibles causas que explican los eventos anteriormente
especificados. Aunque también existen variables que solo se utilizan para describir
solamente, como ocurre en algunos casos con algunas variables de tipo
sociodemográfico. (ejemplo 1)

Ejemplo 1: Estudio de cohorte retrospectiva de sobrevida


En el estudio de sobrevida de cáncer tiroides papilar y medular en el Instituto
Nacional de Cancerología (INC) entre 1982 y 1992; la variable dependiente del estudio
fue la Sobrevida a cáncer de tiroides y papilar y las variables independientes o
explicativas de sobrevida fueron el tipo de tratamiento, metástasis, tipo histológico
del cáncer de tiroides, extensión del tumor, recidivas, tamaño del tumor, genero y
edad de inicio del tratamiento. Una variable utilizada en este caso para la descripción,
fue la procedencia del paciente.
En algunos estudios además de tener variables simples también se pueden clasificar
las variables como factores, que son conjuntos de variables, como el factor
sociodemográfico, que lo conforman las variables, edad, género, ocupación,
procedencia y estrato socioeconómico etc; el factor ginecológico, dado por el número
de partos, abortos, hijos nacidos vivos etc.

Ejemplo 2: Estudio analítico de casos y controles


En el estudio de Factores asociados al cáncer de mama en pacientes de la clínica,
San Pedro Claver, la variable dependiente a ser explicada fue el cáncer de seno y las
variables independientes como factores fueron, el ginecobstétrico medido por las
variables edad de menarquia, edad en la que dejo de menstruar, edad en la que tuvo
el primer hijo y numero de hijos; factor de consumo de sustancias psicoactivas,
medios por las variables de consumo de alcohol, de cigarrillo y café, el factor
nutricional, medido por el consumo frecuente de fritos, carne, huevo y azúcar.

En los estudios epidemiológicos de tipo analítico y experimental, se debe identificar


las Variables de confusión del estudio, debido a que se podría atribuir una
asociación o diferencia a una variable independiente, cuando esta no existe,
generando asociaciones no causales y la explicación es realizada por otra variable
independiente que son las llamadas variables de confusión, que deben cumplir con las
siguientes tres condiciones
1. La variable de confusión debe estar asociada causalmente con el desenlace
(enfermedad)
2. La variable de confusión debe estar asociada causal o no-causalmente con la
exposición
3. La variable de confusión no es una variable intermedia, en la vía causal entre la
exposición y el desenlace.

Ejemplo de variable de confusión


Un estudio donde se tiene como objetivo determinar la asociación del género
masculino (variable independiente) con malaria (variable dependiente), la variable de
confusión de esta asociación es la ocupación fuera de casa (trabajos con exposición
ambiental), primero se debe determinar si esta es una variable de confusión con las
tres condiciones.
1. La ocupación fuera de casa esta asociada causalmente con malaria, debido a
que estar trabajando fuera de casa aumenta la probabilidad de tener malaria
2. La ocupación fuera de casa esta asociada no causalmente con el genero
masculino, debido a que estas ocupaciones fuera de casa esta relacionadas
con mayor probabilidad al genero masculino
3. La ocupación fuera de casa no es intermedia entre la asociación genero
masculino con malaria

Un ejemplo de una variable intermedia es el bajo peso al nacer en el recién nacido, en


la asociación entre consumo frecuente de tabaquismo con muerte perinatal, debido a
que el consumo frecuente de tabaquismo en la madre conlleva a bajo peso al nacer
de recién nacido y esto conlleva a un aumento de muerte perinatal.

También es importante evaluar en el análisis de datos la interacción o modificación


del efecto de las variables, que esta dado por la situación en que dos o más factores
de riesgo modifican sus efectos entre si en relación con la ocurrencia de un evento de
interés.
Un ejemplo es al evaluar la relación entre la exposición a asbesto y el cáncer
pulmonar, la variable modificadora es el tabaquismo, que acentúa la fuerza de
asociación.

DEFINICIÓN DE VARIABLES
La definición de las variables se debe iniciar conceptualmente y posteriormente la
forma especifica como se va a medir que es la forma operativa. La definición
conceptual debe hacerse en las variables principales de estudio, como por ejemplo la
definición conceptual de hipertensión, que esta dada por el aumento de la tensión
arterial, posteriormente se debe definir como se va a medir el aumento de la tensión
arterial, es por esto importante definir operativamente lo que se entiende por aumento
de la tensión arterial, como por ejemplo una definición operativa podría ser, una
presión diastólica mayor de 90 y una sistólica mayor de 140, lo que lleva a que todas
las personas que están recolectando la información tenga el mismo criterio para
determinar si el paciente incluido en el estudio es o no hipertenso. La definición
operacional nos muestra con que escala se va a medir cada variable de estudio, en el
caso anterior de hipertensión, sería de 1. Si 2. No. También puede ocurrir que una
variable la mida con una escala y se analice con una clasificación pre-establecida
como en el caso del estudio de sobrevida donde se midió el tamaño del tumor en
centímetros y se analizo clasificando en dos grupos 1. < 3 y 2. >=3 (ejemplo 3)
Es importante en el caso de que en la escala operativa utilizada no exista claridad en
sus categorías, se debe definir cada valor de la escala, como pasa en el caso de
severidad de los síntomas, clasificados en leve, moderado o severo, que pueden ser
definidos de la siguiente forma:

 Leve: muy poco frecuente o en forma esporádica.


 Moderado: se presentan en forma permanente pero no limitan las actividades
cotidianas diarias
 Severo: se presentan en forma permanente y limitan las actividades diarias

Ejemplo 3: Estudio de cohorte retrospectiva de sobrevida


En el estudio de sobrevida de cáncer tiroides papilar y medular, se encuentra algunas
definiciones conceptuales como metástasis dada por la aparición de focos morbosos
secundarios al primitivo en partes no contiguas al foco primario, en forma operativa se
podría definir como la aparición o no del cáncer en otro órgano distinto a donde
apareció en la primera ocasión, medido con la escala de 1. Si 2. No. También
operativamente se podría haber medido el órgano específico donde se produjo el
cáncer.
Tabla 1 Definición conceptual y operativa de algunas variables del estudio de sobrevida
de cáncer de tiroides papilar y medular

Variables Definición Definición Escala operacional Relación entre


conceptual operacional las variables
Sobrevida de Tiempo que se Tiempo en días en Días Dependiente
cáncer de tiroides sobrevive por que el paciente
papilar y medular cáncer de tiroides sobrevive post-
papilar y medular tratamiento para el
cáncer
Metástasis Aparición de focos Aparición o no del 1. Si Independiente
morbosos cáncer de tiroides 2. No
secundarios al en otro órgano
primitivo en partes distinto a donde
no contiguas al foco apareció en la
primario primera ocasión, en
el paciente, del INC.
Tratamiento Sistema o método Método(s) 1. Quirúrgico Independiente
que se emplea para utilizado(s) en el 2. Hormonoterapia
la curación de una paciente para el 3. Iodoterapia
enfermedad manejo del cáncer 4. Radioterapia
de tiroides, en el
INC.
Extensión del Propagación del Clasificación según 1. Intratiroideo Independiente
tumor foco del cáncer en la extensión del 2. Capsular
partes adyacentes tumor, en el 3. Extratiroideo
paciente en el INC.
Tamaño Magnitud de la Distancia con mayor Centímetros Independiente
masa del cáncer diámetro del cáncer Clasificando para el análisis
en cm 1. < 3
2. >= 3

OPERACIONALIZACIÓN DE VARIABLES
Posterior a definir las variables operativamente se debe establecer si las mediciones
obtenidas son dadas en categorías o en forma numérica, a partir de las escalas de
medición de la variables se pueden clasificar en cualitativas o cuantitativas.
En las variables cualitativas los valores que toman las categorías están dados por
atributos o cualidades. La primera escala de medición es la nominal que esta definida
por una clasificación de categorías excluyentes (solo se puede pertenecer solamente a
una categoría) y deben estar el totalidad de las categorías. Esta escala se pueden
clasificar en nominales dicotómicas, que es cuando se tiene solo dos resultados, que
son muy usuales en investigación en salud, como por el ejemplo, para enfermedad,
complicación, recuperación, muerte, donde se mide si se presenta o no (1.Si 2. No); la
otra clasificación es nominal policotómica cuando se tiene más de 2 clasificaciones
en las categorías de las variables, como por ejemplo el estado civil (1. Unión libre,
casado, 3. soltero, 4. Viudo, 5. Separado). La segunda escala de medición entre las
variables cualitativas es la ordinal, definida por categorías excluyentes, donde existen
un orden jerárquico entre estas categorías, como por ejemplo, la severidad de los
síntomas, clasificada en 1. Leve, 2. Moderada y 3. Severo.

En las variables cuantitativas los valores que toman son numéricos y están dados por
cantidades, la primera escala de medición es la discreta que esta definida por valores
numéricos enteros, como por ejemplo, el numero de embarazos, numero de partos,
numero de hijos nacidos vivos, numero de dientes careados etc; la segunda escala es
la continua, que esta definida por, tomar valores infinitos entre dos valores de la
variables, como por ejemplo el peso, entre 60 y 61 Kg, (60,01, 60,02…..). Otra forma
de clasificar las variables cuantitativas es con la escala de medición de intervalo y de
razón. La escala de medición de intervalo esta dada en términos numéricos donde el 0
es convencional y arbitrario, como en el caso del año en que vivimos, el 0, esta dado
por convención que es la aparición de Cristo y es arbitrario debido a que en el 0 no es
que no existiera vida. En la escala de razón también toma valores numéricos, pero el
0 representa la nulidad, como en el caso del peso, talla, presión arterial donde el 0
representa la no existencia.

Tabla 2 Operacionalización de las variables: escala de medición y tipo de variable de


algunas variables del estudio de sobrevida de cáncer de tiroides papilar y medular

Variables Escala operacional Escala de Medición Tipo de variable


Sobrevida de Días Continua-Razón Cuantitativa
cáncer de tiroides
papilar y medular
Metástasis 1. Si Nominal-dicotómica Cualitativa
2. No
Tratamiento 1. Quirúrgico Nominal- Cualitativa
2. Hormonoterapia policotómica
3. Iodoterapia
4. Radioterapia
Extensión del 1. Intratiroideo Nominal- Cualitativa
tumor 2. Capsular policotómica
3. Extratiroideo
Tamaño Centímetros Continua -Razón Cuantitativa

Tamaño 1. <3 Ordinal Cualitativa


2. >= 3
CAPITULO 2
Docente Edgar Ibáñez
ESTADÍSTICA DESCRIPTIVA
El objetivo de la estadística descriptiva es sintetizar conjuntos de observaciones a
partir de medidas estadísticas. La escogencia de las medidas adecuadas está
directamente relacionada con la escala de medición de las variables.
Antes de cualquier análisis es importante determinar la escala de medición de las
variables, para utilizar el método estadístico adecuado.
Para variables cuantitativas, utilizamos medidas de tendencia central; como la media
aritmética(promedio), media geométrica, media armónica, mediana y moda. Para la
dispersión utilizamos la varianza muestral, desviación estándar muestral y en caso de
que el grupo de estudio sea toda la población se halla varianza y desviación estándar
poblacional, rango intercuartilico, para las demás medidas de tendencia central su
aplicación es la misma.
Para determinar la homogeneidad utilizamos el coeficiente de variación y otras medidas
para complementar la descripción como percentiles, cuartiles y graficas como box plot,
tallos y hojas.
Para variables cualitativas los métodos utilizados en esta primera parte son las
frecuencias absolutas, relativas y graficas de barras
Con una base de datos que contengan variables cuantitativas y cualitativas se pueden
ejemplificar estos procedimientos. (Tabla 1)
Tabla 1. Base de datos
ID Edad Peso Altura IMC Sexo* Estrato
1 21 50 161 19,29 1 5
2 21 72 160 28,13 2 2
3 23 58 165 21,3 1 6
4 36 63 160 24,61 1 4
5 22 71 175 23,18 1 1
6 22 54 167 19,36 1 6
7 21 55 158 22,03 1 1
8 20 75 176 24,21 2 4
9 20 56 167 20,08 1 2
10 21 57 155 23,73 1 1
*Las categorías de sexo son 1=Femenino y 2=Masculino
-
DISTRIBUCIÓN DE FRECUENCIAS
Estas distribuciones son mas útiles para sintetizar variables cualitativas con escala de
medición nominal u ordinal, en el ejemplo tomado de la tabla 1 de un estudio previo, las
variables cualitativas son el sexo y el estrato. La forma de sintetizar las categorías de las
variables sexo con categoría femenino y categoría masculino, con una escala de
medición cualitativa nominal, es contado las veces que se repíta la categoría en la base
de datos de la tabla 1, este procedimiento se denomina frecuencias absolutas y la forma
de calcularlo es
Frecuencia absoluta= 𝑛𝑖 𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑖𝑎𝑋𝑖 ;
Frecuencia absoluta de la categoría femenino= 1+1+1+1+1+1+1+1=8 para la frecuencia
absoluta de la categoría masculino se sumas las veces que se repite este código, en este
caso la suma que nos da es 2, el total es el numero de integrantes de la muestra en este
caso 10, estos valores se encuentran representados en la tabla 2.
La frecuencia relativa porcentual es el valor de la frecuencia absoluta en porcentaje, la
forma de calcularlos es:
𝐹𝑟𝑒𝑐𝑢𝑎𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎
Frecuencia relativa=𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢 8𝑒𝑛𝑐𝑖𝑎𝑠 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎𝑠 ∗ 100
8
Frecuencia relativa de la variable sexo para la categoría femenino= 10 ∗ 100=80%
2
Frecuencia relativa de la variable sexo para la categoría masculino= 10 ∗ 100=20%, estas
frecuencias se encuentran en la tabla 2.
Tabla 2. Distribución de Frecuencias de la variable sexo
Código Frecuencia Frecuencia
Categoría absoluta Relativa(%)
Código 1 Femenino 8 80
Código 2 Masculino 2 20
Total 10 100,0

Para la variable estrato en donde su escala es cualitativa ordinal, la forma de


describirlo es igual a la variable sexo, la distribución de estrato se encuentra en la tabla
3.

Tabla 3. Distribución de Frecuencias de la variable estrato


Frecuencia Frecuencia
Código Categoría absoluta Relativa
Código 1 Uno 3 30
Código 2 Dos 2 20
Código 4 Cuatro 2 20
Código 5 Cinco 1 10
Código 6 Seis 2 20
Total 10 100

MEDIDAS DE TENDENCIA CENTRAL


Previamente identificamos las variables cuantitativas que son: Edad, Peso , Altura e
Índice de masa corporal (IMC) y procedemos a realizar las medidas ya mencionadas
previamente:
Media aritmética (Promedio)
Definición: Es la cantidad del total de una variable que se distribuye en parte iguales
entre cada unidad u observación que resulta de sumar todos los datos y dividirlos entre
el total de observaciones.
La ventaja de utilizar la media aritmética es que para su cálculo se utilizan todos sus
datos y su desventaja es que es muy sensible a datos extremos ya sean grandes o
pequeños, por eso es importante que a estas medidas se les agregue una medida de
dispersión como la desviación estándar que se desarrollara mas adelante
𝒏
𝑿𝒊
Formula: 𝑿 = 𝒊=𝟏 aplicándolo a las variables anteriores (tabla 1) como edad el
𝒏
calculo seria el siguiente: 𝑿 = 𝟐𝟏+𝟐𝟏+𝟐𝟑+𝟑𝟔+𝟐𝟐+𝟐𝟐+𝟐𝟏+𝟐𝟎+𝟐𝟎+𝟐𝟏
𝟏𝟎
= 𝟐𝟐𝟕
𝟏𝟎
= 22.7 años,
utilizando el mismo procedimiento el promedio para peso seria 61.1 kg, para altura
164.4 cm y para IMC es 22.6𝑚𝐾𝑔2
Mediana
Definición: Es el valor central que parte la distribución en dos partes iguales también
conocido como el cuartil dos, su forma de determinarla es ordenando de menor a mayor
𝑛 +1
o mayor a menor todos los datos de la variable y hallar la posición por medio de 2
10+1
que en este caso seria 2 = 5.5 donde 10 es el numero de observaciones, ordenado la
variables edad:
Posición 1 2 3 4 5 6 7 8 9 10
Edad 20 20 21 21 21 21 22 22 23 36

La posición de la mediana estaría entre 5 y 6 en este caso se suman los dos valores y se
21+21
dividen entre 2 ; Me= 2 = 21 años, por lo tanto la Me= 21 años, la mediana para
peso seria 57.5 kg, para altura 163 cm y para IMC 22.6 𝑚𝐾𝑔2 . En caso de que el número de
datos sea impar la posición de la mediana queda exactamente en el número medio y no
hay necesidad de realizar este procedimiento.
Moda
Definición: es el valor que mas se repite o con mayor frecuencia, puede ocurrir que la
variable no contenga moda debido a que no se repita ningún valor o puede tener varias
modas, en el caso de la edad el dato que mas se repite es 21 años.
Edad 20 20 21 21 21 21 22 22 23 36

Para el peso no hay moda ya que todos lo datos son diferentes, con respecto a la altura hay
dos modas que son: 160 y 167 cm, este caso seria bimodal, para el IMC por ser una variable
con dos decimales por lo general no se encuentra moda

MEDIDAS DE DISPERSIÓN
Varianza
Esta medida se usa para determinar la dispersión de los datos con respecto al promedio,
si los datos provienen de una muestra la notación matemática es la siguiente:
𝑛 2
2 𝑖 𝑋𝑖 − 𝑋
𝑆 =
𝑛−1
En el caso de que se este haciendo la investigación en toda la población sin tomar
muestras la notación matemática es la siguiente:
𝑁 2
2 𝑖 𝑋𝑖 − 𝑋
𝜎 =
𝑁
En este ejemplo se parte de una muestra de 10 personas por lo tanto se utiliza la primera
formula de la varianza, para la variable edad la varianza quedara:
𝑿𝒊 =Edad 𝑿𝒊 − 𝑿 𝑿𝒊 − 𝑿 𝟐
21 21-22.7= -1.7 2,89
21 21-22.7= -1.7 2,89
23 23-22.7= 0.3 0,09
36 36-22.7= 13.3 176,89
22 22-22.7= -0.7 0,49
22 22-22.7= -0.7 0,49
21 21-22.7= -1.7 2,89
20 20-22.7= -2.7 7,29
20 20-22.7= -2.7 7,29
21 21-22.7= -1.7 2,89
𝑛
= 204.1
𝑖
La primera parte de la ecuación es la sumatoria al cuadrado de cada una de las
observaciones menos el promedio, la segunda parte se halla restando el numero de datos
de la muestra que en este caso es 10 menos 1 para un total de 9:
204.1 204.1
𝑆2 = = = 22.7𝑎ñ𝑜𝑠2
10 − 1 9
La varianza de peso fue de 75.2 Kg2, la de la altura fue de 48.9 cm2 y la del IMC fue de
𝐾𝑔 2
7.6 𝑚4

Una medida que por estar al cuadrado no es muy útil, por esto se debe contar con una
medida como la desviación estándar que es la raíz cuadrada de la varianza para mejorar
su interpretación, como en el caso de la varianza existe desviación estándar para la
población y otra para la muestra, la formula para la desviación estándar para la muestra
es la siguiente:

2 𝑛 2
𝑋𝑖 − 𝑋
𝑖
𝑠=
𝑛−1
Y para la población
2 𝑁 2
𝑋𝑖 − 𝑋
𝑖
𝜎=
𝑁
Siguiendo el ejemplo anterior para la muestra de 10 personas la varianza era 22.7 años2
por lo tanto su desviación estándar es:
2
𝑠 = 22.7 = 4.8 𝑎ñ𝑜𝑠
La desviación estándar para el peso fue de 8.7 Kg, para la altura fue de 7 cm y para el
𝐾𝑔
IMC fue de 2.8 𝑚 2

Coeficiente de variación
Aunque no se considera una medida de dispersión es muy útil cuando se desconoce si la
desviación estándar es muy dispersa o poca dispersa con respecto al promedio, su
formula es:
𝑠
𝐶𝑉 = ∗ 100
𝑋
La forma de analizarla es determinando su homogeneidad en las siguientes tres
categorías:
0 a 10% homogénea
10.1 a 20% medianamente homogénea
Mayor al 20% heterogénea
4.8𝑎ñ𝑜𝑠
En este ejemplo el Coeficiente de variación para la edad es 𝐶𝑉 = 22.7 𝑎ñ𝑠𝑜 ∗ 100 = 21%
por lo tanto se puede determinar que los datos están muy dispersos con respecto a su
promedio por lo tanto su variabilidad es heterogénea. En el caso del peso el C.V fue de
14. 2% siendo medianamente homogéneo, el C.V de la altura fue de 4.3% siendo
homogéneo y el C.V de l IMC fue de 12.2% siendo medianamente homogéneo.
MEDIDAS DE LOCALIZACION

Las medidas de localización nos permiten dividir el conjunto de datos en partes iguales,
las formas mas usuales de realizar esta división se conocen con el nombre de cuartiles,
deciles y percentiles. Estos tipos de medidas se realizan para varaiables cuantitativas y
en algunos casos para varables ordinales.

Cuartiles

Los cuartiles dividen al conjunto de datos en 4 partes iguales, es decir la primera parte
q1 el 25%, la segunda parte q2 el 50% y la tercera parte q3 el 75%. El q2 es la misma
mediana calculada anteriormente.
Para calcular la posición, la notación matematica es la siguiente:

Q1=(n+1)/4
Q2=(n+1)/2
Q3=3(n+1)/4
En el ejemplo de la tabla 1 los cuartiles son:
Q1=(10+1)/4=2.75, en donde n es el numero total de observaciones
Q2=(10+1)/2=5.5, en donde n es el numero total de observaciones
Q3=3(10+1)/4=8.25, en donde n es el numero total de observaciones

El numero 2.75, 5.5 y 8.25 nos indica la posición del numero que corresponde a los
datos, en este caso no es fácil determinar cual es el valor exacto (a menos que se utilice
un programa estadístico), por lo tanto en el caso de Q1 y Q3 utilizamos un método
matematico denominado truncar, esto significa tomar la unidad ya sea por debajo o por
encima del valor, en este ejemplo si truncamos por el menor el valor de la posición de
Q1 sera 2 que corresponde al valor 20 años y el valor de la posición de Q3 sera 8 que
corresponde al valor 22 años. En el caso de truncar al mayor el valor de la posición de
Q1 sera 3 que corresponde al valor de 21 años y el valor de la posición de Q3 sera 9 que
corresponde al valor de 23 años. Para el calculo de Q2 se utiliza el mismo
procedimiento de la mediana descrito anteriormente, sin embargo aquí repetimos el
procedimiento, la posición de Q2 estaría entre 5 y 6 en este caso se suman los dos
21+21
valores y se dividen entre 2 ; Q2= 2 = 21 años, por lo tanto Q2= 21 años. Para este
ejercicio tomamos el método de truncar al menor por lo tanto
Q1=20 años
Q2=21 años
Q3=22 años

Posición 1 2 3 4 5 6 7 8 9 10
Edad 20 20 21 21 21 21 22 22 23 36

Con un pequeño margen de error debido a no tener los valores exactos se puede
determinar que el 25% de las edades se encuentran por debajo de 20 años el 50% se
encuentran por debajo o por encima de 21 años, y el 75% de edades menores por debajo
de 22 años o el 25% de las edades mayores se encuentran por encima de 22 años.
Realizando este procedimiento por un programa estadístico los datos para la variable
edad, peso y altura son:
Tabla 4. Cuartiles de las variables cuantitativas de la tabla 1
Cuartiles Edad Peso Altura
Q1=25% 20,75 54,75 159,5
Q2=50% 21 57,5 163
Q3=75% 22,25 71,25 169

Otra forma de ayudarnos a este análisis es por medio del diagrama denominado cajas y
bigotes o box-plot.

Deciles y Percentiles

Estos calculos para dividir el conjunto de datos en partes iguales se vuelven cada vez
mas complejos, por lo tanto se aconceja utilizar cualquier programas estadístico.

Los deciles dividen al conjunto de datos en 10 partes iguales y un percentil hace lo tanto
pero en 100 partes iguales, el ejemplo con que hemos venido trabajando no se hace
viable para realizar este procedimiento debido a que solamente se cuentan con 10 datos,
por lo tanto realizamos un ejemplo anexo con mas datos.

Tabla 5. Edad (110 datos)


16 18 18 18 19 19 20 21 21 22 24
17 18 18 18 19 19 20 21 21 22 24
17 18 18 18 19 19 20 21 21 22 24
17 18 18 18 19 20 20 21 22 22 25
17 18 18 19 19 20 20 21 22 23 25
18 18 18 19 19 20 20 21 22 23 27
18 18 18 19 19 20 20 21 22 23 27
18 18 18 19 19 20 20 21 22 23 29
18 18 18 19 19 20 21 21 22 24 30
18 18 18 19 19 20 21 21 22 24 36

En en este ejemplo el 10% de los datos menores de edad es a partir de los 18 años, y asi
consecutivamente con cada decil.
Tabla 6. Deciles
Deciles Edad
1 18
2 18
3 18
4 19
5 20
6 20
7 21
8 22
9 24
Para los percentiles es importante determinar cual es el percentil importante para el
estudio, en este caso el percentil 1% de los datos menores es a parti de 16.11 años, el
percentil de las edades menores del 95% es a partir de 25.9 años o el 5% de los datos
mayores es a partir de este numero, y asi consecutivamente.

Tabla 7. Percentiles
Percentiles Edad
1 16,11
5 17,55
10 18
90 24
95 25,9
99 35,34

MEDIDAS DE DISTRIBUCION

DATOS AGRUPADOS

En algunas ocasiones los datos pierden interpretabilidad si no se agrupan o al agruparlos


se complementa el análisis, estas agrupaciones se realizan para variables cuantitativas o
en algunos casos variables ordinales.
Para agrupar datos se puede realizar por tres métodos, referente teorico, grupos iguales
o por una de las formulas mas usadas propuesta por L.A. Sturges. El cuando utilizarlos
depende de las necesidades del estudio, por ejemplo el primero se puede utilizar si en el
estudio es importante tomar todas las edades sin discriminar ningún grupo, el segundo
método se puede utilizar si el grupo es muy similar en edades y el tercero sino se tiene
idea de cómo agrupar y se necesitan explorar los datos. Para este ejemplo se realizan
todos los métodos utilizando los 110 datos de la tabla 5.

Referente Teorico

ANALISIS BIVARIADO