Está en la página 1de 8

UNMSM - FIGMM – UPG - Maestría en Ciencias Ambientales Sem.

2023-I
Asignatura: Bio-Estadística (G202A112 y G202C113)

MEDIDAS DE RESUMEN PARA DATOS DE UNA VARIABLE CUANTITATIVA

1. INTRODUCCIÓN:
Al medir una variable cuantitativa, X , y obtener un conjunto de datos cuyos valores son:
x1 , x2 , x3 , . . . , xn , obtener tablas de frecuencias, cuyo análisis no nos permite absolver las siguientes
preguntas:
¿Alrededor de qué valor de la variable se agrupan los datos?, si se agrupan alrededor de un valor,
¿cómo lo hacen?, ¿poco concentrados?, ¿poco dispersos?. Para resolver estas interrogantes se emplean
las medidas de resumen, que pueden ser: Medidas de Tendencia Central (Posición Central), Medidas
de Posición (Tendencia no Central), Medidas de Dispersión y Medidas de Forma

2. MEDIDAS DE TENDENCIA CENTRAL (MTC, POSICION CENTRAL)

Las MTC son medidas estadísticas cuyo valor representa el valor del dato que se encuentra en el centro
o con tendencia al centro de la distribución de frecuencias.

2.1 MEDIA ARITMÉTICA x  


La Media Aritmética de los valores de la variable X , es la suma de todos los valores de la variable
dividida por el número de datos, es decir:
n

x i
x i 1
(1)
n
Características:
1. Para su cálculo intervienen todos los datos.
2. Afectada por valores extremos.

2.2 MEDIANA Me 


La mediana de los datos ordenados (creciente) de una variable es el valor que por debajo de ella se
encuentra el 50% de datos con valores más bajos y sobre ella se encuentra el 50% de datos con valores
más altos. Se calcula de la siguiente manera:
xn / 2  x( n / 2) 1
Si n es par: Me  (2)
2
Si n es impar: Me  x( n 1) / 2 (3)

Características:
1. Para su cálculo no intervienen todos los datos.
2. No está afectada por valores extremos.

2.3 MODA Mo 


Es el valor que se presenta con mayor frecuencia absoluta en un conjunto de datos de una variable.

Mg. Violeta Alicia Nolberto Sifuentes. Lima , 06/05/2023 1


UNMSM - FIGMM – UPG - Maestría en Ciencias Ambientales Sem.2023-I
Asignatura: Bio-Estadística (G202A112 y G202C113)

Características:
1. Si existe puede no ser la única (unimodal), puede tener 2 modas (bimodal) o más de 2 modas
(multimodal).
2. Puede no tener moda (amodal).

Ejemplo 1: Se elige una m.a. de 10 niños menores de 12 años en 3 zonas de cierta región y se mide la
concentración de plomo en sangre, cuyo límite tolerante es 10 μg/dL. Los datos recolectados son:

Blanca 4 2.4 3.8 4.7 5.8 4.7 3.9 8.1 4.5 2.9
Azul 9.6 12.7 13.3 10.3 9.5 11.4 12.9 10.2 8.4 10.3
Verde 12.8 10.3 9.7 10.9 9.3 9 16.6 9 10.3 10.7

Describir y comparar la variable en estudio, empleando la media, mediana y moda. Interpretar.

3. MEDIDAS DE TENDENCIA NO CENTRAL: PERCENTIL

El k-ésimo Percentil PK  de los datos ordenados de una variable, siendo 0  k  100 , es el valor que
por debajo de él se encuentra el k% de datos y el (1-k)% restante de datos toma por lo menos su valor.
Por ejemplo el percentil de orden 15 ( k  15 ) deja por debajo al 15% de las observaciones, y por
encima queda el 85%. Se calcula como:
Si n(k /100) no es entero: Pk  xn( k / 100) 1 (4)
xn( k / 100)  x( n( k / 100)1)
Si n(k /100) es entero: Pk  (5)
2
Características:
1. Medida muy útil para caracterizar a una variable que es muy dispersa.
2. Se usa para comparar un valor individual con una norma.
3. De uso frecuente en epidemiología para conocer curvas endémicas

CUARTILES: son tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales,
El primer cuartil, Q1 , es el máximo valor de la cuarta parte (25%) de los datos de valores más bajos.
El segundo cuartil, Q2 , es el máximo valor de la mitad (50%) de los datos de valores más bajos.
El tercer cuartil, Q3 , es el máximo valor de la tres cuarta parte (75%) de los datos de valores más
bajos.

QUINTOS: son cuatro valores que dividen al conjunto de datos ordenados en cinco partes iguales.

DECILES: son nueve valores que dividen al conjunto de datos ordenados en diez partes iguales.

Mg. Violeta Alicia Nolberto Sifuentes. Lima , 06/05/2023 2


UNMSM - FIGMM – UPG - Maestría en Ciencias Ambientales Sem.2023-I
Asignatura: Bio-Estadística (G202A112 y G202C113)

Ejemplo 2: Se elige una muestra de 60 pacientes que se atienden en servicio de ginecología y se les
pregunta por el tiempo de espera (minutos) hasta ser atendido:

11 19 18 13 19 7 18 14 8 14 11 17 14 8 11
26 16 10 8 7 9 10 16 13 8 4 15 14 11 13
12 14 13 11 8 15 10 8 16 14 12 9 10 15 9
5 13 10 17 10 16 21 26 7 13 7 13 13 8 3

1. Calcular e interpretar lo siguiente: P10 , P40 y P85


2. Cuánto es: el valor mínimo del tiempo de espera hasta ser atendido del 80% superior y el valor máximo del
25% inferior.
3. Cuáles son los valores del tiempo que contiene al 50% central de pacientes.

Mg. Violeta Alicia Nolberto Sifuentes. Lima , 06/05/2023 3


UNMSM - FIGMM – UPG - Maestría en Ciencias Ambientales Sem.2023-I
Asignatura: Bio-Estadística (G202A112 y G202C113)
4. MEDIDAS DE DISPERSIÓN.

4.1 INTRODUCCION
Al resumir datos de una variable cuantitativa con una medida de posición, es interesante determinar
cuan alejados o cercanos se encuentran respecto a esa medida de posición, para ello se emplean las
medidas de dispersión (medidas de variabilidad) y se clasifican como:
1. Medidas de dispersión absoluta: Son aquellas que se expresan en unidades de la variable, siendo las
más usadas: Rango o Amplitud, Varianza, Desviación Estándar (Desviación Típica), y Rango
Intercuartílico.
2. Medidas de dispersión relativa: Son aquellas que no se expresan en unidades de la variable, siendo
la más usada, el Coeficiente de Variación.
Estas medidas identifican la concentración de los datos, respecto a una medida de posición, por tanto a
menor dispersión, mayor es la concentración de los datos respecto a esa medida de posición.

4.2 RANGO Rango


Es la diferencia entre el valor máximo y mínimo de la variable, esto es: Rango  Max  Min (6)
Se usa frecuentemente en el control estadístico de calidad.
Características:
1. De fácil cálculo.
2. Para su cálculo no intervienen todos los datos, solo los valores extremos. No toma en
cuenta el número de datos.

4.3 VARIANZA ( S 2 )
Es el promedio de la suma de los cuadrados de las desviaciones de los valores de una variable respecto
a su media aritmética. Mide la dispersión de los datos respecto a su media aritmética, se calcula como:

 x  x 
n
2
i
S2  i 1
(7)
n
Su valor está expresado en unidades al cuadrado. Cuanto mayor sea la varianza de una variable mayor
dispersión existirá y por tanto no es recomendable la media aritmética, como MTC.
Características:
1. Para su cálculo no intervienen todos los datos. Toma en cuenta el número de datos
2. Está afectada por valores extremos.

4.4 DESVIACION ESTANDAR (S )


Se define como la raíz cuadrada positiva de la varianza, esto es: S  S2 (8)
Tiene las mismas características de la varianza, manteniendo su propia definición.

Ejemplo 3: Calcular e interpretar rango, varianza y desviación estándar para los datos del ejemplo 1.
Zona Rango S2 S
Blanca
Azul
Verde

4.5 RANGO INTERCUARTILICO


Es la diferencia entre los cuartiles 3 y 1, cuyo cálculo es: IQR  Q3  Q1 (9)
por tanto es el intervalo que contiene al 50% central de datos y se usa cuando se ha empleado a la mediana como
MTC.
Características: Su valor no está influenciado por valores extremos.

Mg. Violeta Alicia Nolberto Sifuentes. Lima , 06/05/2023 4


UNMSM - FIGMM – UPG - Maestría en Ciencias Ambientales Sem.2023-I
Asignatura: Bio-Estadística (G202A112 y G202C113)

Ejemplo 4: Se aplica una prueba que mide nivel de resiliencia en estudiantes de ciencias de la salud en
LM, empleando un cuestionario válido y confiable (a1.mayor puntaje,
Explicar mayor
porque se haresiliencia).
empleado laLas medidas
mediana
de resumen son: como medida de tendencia central
Escuela Profesional Q1 Q2 Q3 2. Analizar la dispersión respecto a su mediana.
Medicina Humana 50 70 87 3.
Enfermería 53 65 80 4.
Odontología 60 72 78

4.6 COEFICIENTE DE VARIACION


Expresa en porcentaje la relación que existe entre la desviación estándar y la media aritmética, es decir, la
desviación estándar como un porcentaje de la media aritmética. Se calcula como:
S
CV ( X )  x 100 (10)
x
Características:
1. No considera la unidad de la variable, por ello es útil para comparar la dispersión de datos de variables
diferentes, o de grupos de observaciones diferentes en donde se analizan la dispersión de la misma
variable, pero tienen igual desviación estándar con medias diferentes.
2. No es recomendable calcular cuando el valor de la media tiende al valor cero o para variables cuyos
datos tienen valores negativos.
Ejemplo 5: Se elige una m.a. de 50 varones y 50 mujeres que realizan actividades técnicas y se les pregunta
¿Cuántas horas trabaja usted como promedio a la semana?, el resumen de las respuestas de presenta en el
siguiente cuadro:
¿En cuál de los géneros la variable es más dispersa respecto a su
Medidas Masculino Femenino media?
Media 10 12
D.E. 3.3 3.3

Ejemplo 6: Analizar la dispersión de la variable respecto a su media aritmética del ejemplo 2.

Ejemplo 7: Analizar la dispersión del Puntaje de actitud para donar órganos (DO) (a mayor puntaje la actitud es
favorable) y la edad (años cumplidos) de una muestra de estudiantes universitarios de pregrado:

Medidas DO Edad
Promedio 60 22.7
D.E. 13.7 2.8

5. GRAFICO DE CAJA

Es un gráfico representativo de un conjunto de datos de variable cuantitativa, del Análisis


Exploratorio de datos,para su construcción se usan cinco medidas de resumen que hemos estudiado:
Mediana, Cuartil 1, Cuartil 3, valor máximo y mínimo

Es una presentación de los datos de una variable pero de manera visual, asocia las cinco medidas de
resumen antes mencionadas.
Presenta al mismo tiempo, información sobre la tendencia central, dispersión y simetría. También
permite identificar con claridad y de forma individual, observaciones que se alejan de manera poco
usual del resto de los datos (outliers o atípicos)

Mg. Violeta Alicia Nolberto Sifuentes. Lima , 06/05/2023 5


UNMSM - FIGMM – UPG - Maestría en Ciencias Ambientales Sem.2023-I
Asignatura: Bio-Estadística (G202A112 y G202C113)

¿Cómo se interpreta un gráfico de caja?

Mg. Violeta Alicia Nolberto Sifuentes. Lima , 06/05/2023 6


UNMSM - FIGMM – UPG - Maestría en Ciencias Ambientales Sem.2023-I
Asignatura: Bio-Estadística (G202A112 y G202C113)

1. Si la caja y los bigotes son largos, entonces se trata de una variable muy dispersa.
(Zona 3 y 4)
2. Si la mediana está ubicada relativamente en el centro de la caja la distribución es simétrica.

3. Si la mediana se acerca al cuartil 1, la distribución tiene asimetría positiva. (Zona 2)

4. Si la mediana se acerca al cuartil 3, la distribución tiene asimetría negativa. (Zona 4)

5. Si la mediana coincide con los cuartiles o con los límites de los bigotes, es porque se concentran
muchos datos en un mismo punto, puede ser el caso de una distribución sesgada o de una
distribución muy homogénea. (Zonas 1 (datos atípicos) y 5)

Ejemplo 8: Interprete el plomo (ejemplo 1) considerando el grafico de cajas.

1) Mediana:

2) Rango Intercuartílico:

3) Forma:
Zona Blanca:

Zona Azul:

Zona Verde:

4) Datos atípicos:

Mg. Violeta Alicia Nolberto Sifuentes. Lima , 06/05/2023 7


UNMSM - FIGMM – UPG - Maestría en Ciencias Ambientales Sem.2023-I
Asignatura: Bio-Estadística (G202A112 y G202C113)

GRAFICO DE CAJAS CON IBM SPSS

Mg. Violeta Alicia Nolberto Sifuentes. Lima , 06/05/2023 8

También podría gustarte