Está en la página 1de 5

EJE TRANSVERSALES:

DESGRABADO DE VIDEOS- MEDIDAS DE RESUMEN PARA DATOS CUALITATIVOS (1RA Y


2DA PARTE)
(Prof. Mgter. Genero, Sebastián)

1ra parte:
INTRODUCCIÓN:
En ésta clase, se pretende enseñar cómo se resuelven datos que han sido medidos en escalas
cuantitativas. Cuando tenemos una gran masa de datos de éste estilo, vamos a resumirlos mediante
Medidas de Tendencia Central, Medidas de tendencia No Central y Medidas de Dispersión.
Éstos son los tres temas de la clase.
MEDIDAS DE TENDENCIA CENTRAL (Media, Mediana y Moda)
 La media es la medida de tendencia central más conocida por todos nosotros, y se obtiene mediante
la suma de cada valor dividido el número de observaciones.
- En general vamos a utilizar la media para datos interválicos o proporcionales (o sea, para
cualquier valor que haya sido medido en escala cuantitativa).
- Es el valor “típico” de los datos aunque a veces, ningún dato sea su valor.
- Siempre que se utilice la Media como Medida de Tendencia Central, vamos a utilizar el Desvío
Estandar (D.E.) como medida de dispersión.
- Por otra parte, la media se utiliza cuando los datos se distribuyen uniformemente alrededor de
ella misma, porque es sensible a valores extremos.
FÓRMULA PARA CALCULAR LA MEDIA:
Ejemplo 1:
Se presentan los valores: 2 2 3 4 4 5 5 5 6 (Serie de Datos Simple).
La fórmula nos indica que se sume cada valor de la serie de datos, entonces
2 + 2 + 3 + 4 + 4 + 5 + 5 + 5 + 6 = 36. El resultado 36 se divide por la
cantidad de observaciones (que, en este caso, son 9), por lo que 36/9=4, y
ese resultado (4) es la media de ésta serie de datos.
Ejemplo 2:
La serie de datos es: 1 2 2 3 5 5 5 6 7, cuya suma da 36 y que, como son igual número de
observaciones que el ejemplo 1 (9 observaciones, entonces 36/9=4), la media es 4; pero obsérvese
que ningún valor de ésta serie de datos es 4. Eso es el ejemplo del concepto: “es el valor típico de los
datos (el que mejor lo representa, podríamos pensar), aunque a veces ningún dato sea su valor”,
como en esta serie de datos, cuya media es 4, pero ningún dato es 4.
 Otra Medida de Tendencia Central es la mediana, cuya fórmula es n (nro de observaciones) + 1
divido 2. La mediana se define como el valor que ocupa el centro espacial de la serie de datos,
una vez ordenados. Es decir, es aquel valor que está en el centro de la serie de datos.
- Cuando la serie es impar, es fácil identificar la mediana porque es aquella que deja la misma
cantidad de observaciones antes y después de la mediana. Ejemplo: serie de datos: 2 2 3 4 8 8 8
8 9. El primer 8 de la serie deja atrás 4 observaciones, y por delante tiene otras cuatro observaciones:
esa es la mediana. El valor de la mediana es el valor del dato que está en el centro espacial de esa
serie de datos.
- Sin embargo, no es tan fácil reconocerla cuando la serie es par.
La mediana va a utilizarse siempre que las series sean asimétricas.
Entonces, en general, vamos a usar siempre que podamos como Medida de Tendencia Central, la
Media, pero cuando la serie de datos tiene una distribución asimétrica (es decir, si hay valores
extremos en su composición), se va a utilizar la Mediana.
FÓRMULA PARA CALCULAR LA MEDIANA:
Ejemplo para series impares:
Serie de 9 observaciones: 2 2 3 4 8 8 8 8 9.
La mediana sería: 9+1=10, si dividimos por 2 (10/2=5); es decir, es el valor
que está en el 5to lugar de la serie (8).
Ejemplo para series pares:
Serie de 10 observaciones: 2 2 3 4 8 8 8 8 9 9.
La mediana se calcularía 10+1=11, si dividimos por 2 (11/2=5,5), nos da como resultado 5,5, que está
indicando el lugar en el cual se encuentra la mediana debe ser interpretado como aquel valor que
se encuentra entre el 5to y el 6to lugar. En este caso, los valores que se encuentran entre el 5to y
el 6to lugar son 8 y 8. Entonces se calcula la media de ambos valores que sería 8+8=16/2=8. Ese 8
es el valor de la mediana de ésta serie de datos.
No siempre el cálculo de la mediana es tan simple como en estos casos que se realizaron a partir de
una inspección visual. Es un ejemplo simplificado, ya que, cuando tenemos grandes masas de datos
es cuando cobran valor todas las formulas.
La mediana de la serie de datos es 8.
 Para calcular la mediana de una serie de datos par, primero se deben localizar entre qué lugares va a
estar la mediana. En este caso, se calcula con la fórmula n+1/2, que nos dio 5,5 y lo interpretamos
como el valor que está entre el 5to y el 6to lugar. Luego tomo esos valores y, de ellos, calculo la
media. En este caso, la mediana de la serie de datos es 8, porque 8 es la media de los valores que
están entre el 5to y el 6to lugar en éste ejemplo.
Ahora vamos a ver una situación que se produce con la introducción de valores extremos en una
serie de datos, que implica una decisión que tomar cuando tenemos que elegir entre media y
mediana como la medida de resumen que vamos a utilizar en alguna serie de datos que estemos
utilizando.
EFECTO DE LA INTRODUCCIÓN DE VALORES EXTREMOS EN LA MEDIA Y LA MEDIANA:
 Primer serie de datos: 2 2 3 4 8 8 9 9.
Media: 54/7=6.
Mediana: 9+1/2=5 (el valor que se encuentra en el quinto lugar, o sea 8).
 Segunda serie de datos: 2 2 3 4 8 8 9 9 180
Media: 225/9=25.
Mediana: 9+1/2=5 (el valor que se encuentra en el 5to lugar, o sea 8).
En la segunda serie de datos se introduce un valor extremo: se reemplaza el 9 por el 180, y la media
cambia muchísimo: de 6 pasó a 25, en tanto que la mediana no tuvo cambios. Esto es importante
porque, por este motivo, cuando la serie de datos que estamos analizando tiene valores extremos (es
muy asimétrica en sus valores) vamos a preferir el uso de la mediana o, sino, el uso de la media.
 La última medida de tendencia central que vamos a estudiar es el modo, que se define como aquel
valor que más se repite en una serie de datos.
Ejemplo. Serie de datos: 2 2 3 4 8 8 9 9 9. En este caso es el 9, porque hay 3 veces el número 9.

2da parte:
INTRODUCCIÓN:
Hasta acá, hemos estudiado las Medidas
de Tendencia Central (Media, Mediana y
Modo), de lo que rescatamos, en particular,
que siempre que podamos, vamos a
utilizar la Media, pero cuando en nuestra
serie de datos existan valores extremos,
es decir, sea una serie asimétrica, vamos
a tener que utilizar la Mediana, porque la
Media es sensible a la presencia de valores
extremos.
El Rango no suele ser muy utilizado en las
Ciencias de la Salud, comparado con la
Media y la Mediana.
En ésta clase vamos a tratar las Medidas
de Posición o Medidas de Tendencia No
Central, cuyo ejemplo son los cuantiles. Ésta segunda parte del video puede llegar a ser de una
mayor dificultad que la primera, por lo que se debe complementar con la bibliografía para mayor
entendimiento sobre el tema.
MEDIDAS DE POSICIÓN: CUANTILES
Los cuantiles dividen una serie de datos en partes igua-
les. Vamos a definir a un cuantil al valor por debajo del
cual existe una frecuencia conocida acumulada de da-
tos.
Si se divide una serie de datos en tres partes iguales, cada parte se llama tercil. Puedo dividir una
serie de datos en cuatro partes iguales, cada parte se va a llamar un cuartil, en éste caso va a
representar un 25% del total de los datos, los cuartiles van a ser tomados como ejemplos
representativos de las Medidas de Posición No Central. Si dividimos una serie de datos en cinco
partes iguales, cada parte se va a llamar quintil, y va a representar un 20% de todos los datos, y si
las divido en diez partes iguales, cada parte se va a llamar decil, y va a representar el 10% del total
de los datos. También se puede dividir en cien partes iguales, cada parte se va a llamar percentil.
Los percentiles y los cuartiles son medidas de posición muy usados en Medicina.
Tomamos como ejemplo los cuartiles:

Una serie de datos es dividida en cuatro partes iguales. Cada parte de cuatro que tiene la serie de
datos representa el 25% de la serie de datos. Es decir que hasta el último 3 se han acumulado un
25% de los datos, hasta el último 5 se han acumulado 50% de los datos (donde se encuentra la
mitad de la serie. Si se relaciona con temas anteriores, es acá donde se halla la Mediana de ésta
serie de datos, porque hasta el último cinco se acumulan un 50% de los datos. Quiere decir que, por
debajo de ese 5, hay una misma cantidad de datos que por encima de el. Entonces, el cuartil 2 o Q2
es, además la Mediana de una serie de datos). Hasta cuartil 3 o Q3 acumulamos un 75% de todos
los datos.
En base a este simple conocimiento de posiciones de los cuartiles:
 ¿Cuál es el valor que deja por debajo al 50% de las observaciones? Si se que cada cuartil vale
25%, y la pregunta es en base al 50% de los datos, la respuesta será referida al cuartil 2, es decir 5
o menos.
 ¿Por encima de qué valor se encuentra el 25% de las observaciones? Por encima del cuartil 3,
que en este caso coincide con el número 8, se encuentra un 25% de las observaciones.
 ¿Por debajo de qué valor se encuentra el 75% de las observaciones? Es la misma pregunta que
la anterior. Por debajo del valor 8 o menos, se encuentra un 75% de las observaciones.
De tal manera que los cuartiles nos ubican en la serie de datos en términos del porcentaje que éstos
representan. Sabiendo que cada cuartil significa el 25% (o sea, un cuarto) de la serie de datos, a
partir de allí se puede conocer mucho de la serie que se está estudiando.
EJEMPLO CON GRÁFICO LINEAL:
Vamos a detenernos a estudiar este gráfico y a
aplicar las medidas de resumen en éste ejemplo.
En éste gráfico, se representan las personas con
HIV de la provincia del Chaco al momento del
diagnóstico en relación a la edad cuando se
hicieron el diagnóstico.
En el eje de las x se representa la edad. En el eje
de las y se representa la cantidad de personas
que se hicieron el diagnóstico de HIV en éste
periodo. Es decir, por ejemplo, si tenemos 20
personas, mas o menos 20 personas se hicieron
diagnóstico de HIV a los 18 años; y coincide con el
punto que indica 20 personas, y así sucesivamente con cada una de las edades.
Ésta serie de datos puede dividirse en 4 partes iguales,
que no serían iguales desde el punto de vista del gráfico
sino en relación a la cantidad de personas de cada
parte. En el primer cuarto tenemos la misma cantidad
de personas que en el segundo, el tercero y el cuarto.
A excepción de que en Q1 Y Q4 hay mayor dispersión
De edades que en Q2 y Q3.
Vamos a aplicar lo que venimos estudiando en base a
éste ejemplo:
- Observaciones: 1840. – Mínimo: 0.
- Media: 33. - Máximo: 86.
- Mediana: 31. - Q1: 26.
- Modo: 27. - Q2: 39.
- Desvío estándar (D.E.): 11.
 ¿A qué edad es más frecuente que los pacientes se diagnostiquen el HIV? ¿Cuáles de las
medidas estudiadas se deberían observar para dar respuesta a ésta pregunta? Sin dudas, el
Modo, porque el Modo es el valor que más se repite en una serie de datos. Entonces, 27 es el que
coincide con la mayor cantidad de personas que tenían esa edad al momento del diagnóstico.
 Otra pregunta de aplicación: ¿Entre cuáles edades están comprendidos el 50% central de las
observaciones? Analizando la pregunta: la serie de datos se dividió en 4 partes iguales (cada parte
vale 25%), la pregunta es sobre el 50% central de las observaciones, o sea Q2 y Q3, es decir, lo que
transcurre entre el primer y tercer cuartil. Por lo tanto, se sabe que Q3 tiene 39 años, Q1 equivale a
26 años, por lo que el diagnóstico del 50% central de estas observaciones se realizará entre esas
edades (entre 26-39 años).
 ¿Cuál es la edad por encima de la cual se encuentra al 50% de los pacientes con HIV al
momento del diagnóstico? Hace referencia a una edad que se encuentra en la mitad de la serie de
datos y eso corresponde a la Mediana, osea que 31 años.
 ¿Cuántos años tiene el 25% más joven de los pacientes con HIV al momento del diagnóstico?
Estoy preguntando sobre el primer cuartil (25% más joven), que equivale a 26 años.
 ¿Qué porcentaje de casos se realiza el diagnóstico luego de los 39 años de edad? El valor del
cuartil 3 es 39, entonces, se sabe que Q3 empieza a los 39 años, por lo que representaría un 25%.
Ésta es la utilidad de las medidas que estamos estudiando.
Ya hacia el final de la clase, se empiezan a estudiar las Medidas de Variabilidad o Dispersión.
Recordemos que se han estudiado: Medidas de Tendencia Central, la más importante o la que más
se utiliza es la Media. Luego estudiamos las Medidas de Posición, haciendo bastante hincapié en
los cuartiles, también son importantes los percentiles, pero acá solo reduciremos el contenido a los
cuartiles, nos quedan las Medidas de Dispersión, utilizadas para describir una serie de datos
numéricos todas las medidas que se están estudiando son muy útiles.
MEDIDAS DE DISPERSIÓN:
En ésta última parte del video, vamos a estudiar las Medidas de Dispersión, mencionando, entre
ellas, el Rango, la Varianza, el Desvío estándar, el Intervalo interquartílico. Se mencionarán y
explicarán de manera muy breve, ya que son temas que se utilizarán más adelante.
Las Medidas de Dispersión expresan cómo se distribuyen las observaciones de una serie
alrededor de una Medida de Posición Central.
Ej. 1:
Serie de datos: 1, 2, 3, 4, 5. MEDIA= 3.
Ej. 2:
Serie de datos: -40, -25, -15, -10-, -6, -5, 5, 6, 10, 110. MEDIA= 3.
Las dos series de datos tienen la misma Media, pero la composición de la serie es bastante
diferente: en la primera, los datos están bastante cercanos a la media; y en la segunda, podríamos
decir que el 3 no representa ningún dato de la serie de datos.
Si esquematizamos, resultaría algo así:
EJEMPLO 1: EJEMPLO 2:

Hay valores
Los valores
muy negativos y
están más o
muy positivos
menos
que, en
alrededor del
compensación,
valor central
promedian una
de la Media.
Media de 3

Las dos series de datos son bien diferentes en su distribución gráfica.


Por ello es que las Medidas de Tendencia Central se complementan con las Medidas de
Dispersión, para obtener una mejor información de la serie de datos.
Volviendo al ejemplo del gráfico anterior:
La primer medida de dispersión que podemos estudiar es el
Rango, Amplitud o Recorrido (los 3 son sinónimos), que se
obtiene mediante la resta entre el valor máximo y el mínimo
(86-0=86). Es la diferencia que hay entre el valor máximo y el
mínimo.
El Rango, en muestras grandes, es muy sensible e inestable a
valores extremos y puede usarse para demostrar la
variabilidad de una muestra.
En general, la utilidad del rango es limitada, la utilizaremos
únicamente para demostrar la variabilidad muy importante de
una muestra, pero, en general, no utilizamos ésta Medida de Dispersión.
 El intervalo intercuartílico se obtiene mediante la diferencia que existe entre el tercer y el primer
cuartil (en éste caso, 39-26=13). Esto representa la amplitud del 50% central de las
observaciones.
 La última Medida de Dispersión a estudiar es la más importante: el Desvío Estándar, la Medida de
Dispersión con la cual debemos acompañar a la Media cuando ésta es utilizada como Medida de
Tendencia Central y que, en general, se utiliza la Media con el Desvío Estándar en las
Investigaciones en Medicina.
 La Media +1 D.E. corresponde al 68,2% de las observaciones. Esto quiere decir que, teniendo
en cuenta el cálculo del D.E. y de la Media en una serie de datos, a la media le sumo o le
resto el valor de un D.E., y eso representa al 68% de las observaciones.
 En tanto que, si a la Media le sumo o le resto el valor de 2 D.E. (Media +2 D.E.), obtengo el
95% de las observaciones.
 La Media +3 D.E. corresponde al 99% de las observaciones.
En el ejemplo que venimos analizando, tenemos:
 Observaciones: 1840.
 Media: 33.
 Desvío Estandar: 11.
Si aplicamos 1 D.E. (11)= 33 + 11 (22 a 44 años). Entre 22 a 44 años se encuentran las edades del
68,2% de los Pacientes con HIV al momento del diagnóstico.
Si aplicamos 2 D.E. (11+11= 22)= 33 + 22 (11 a 55 años). Entre 11 a 55 años se encuentran las
edades del 95% de los Pacientes.
Si aplicamos 3 D.E. (11 x 3= 33)= 33 + 33 (0 a 66 años). Entre 0 a 66 años se encuentran las
edades del 99% de los Pacientes.
En general, en Medicina se utiliza la Media +2 D.E.

También podría gustarte