Está en la página 1de 21

Estadística Descriptiva

En este folleto se tratarán algunos aspectos sobre resumen de la información.


Medidas de tendencia central (media aritmética, mediana y moda).
Características, propiedades, cálculo e interpretación. Medidas de dispersión.
Recorrido de la variable o amplitud total. Varianza, Desviación Standard y
Coeficiente de variación. Características, propiedades, cálculo e interpretación.
Medidas de posición relativa (percentiles). Características. Cálculo e
interpretación. Sistema estadístico profesional para resumen y tratamiento de
datos y medidas para resumir datos cualitativos.. Presentación de la
información.

Resumen de la información.

El resumen de la información es una etapa del método estadístico en las cuales


estudiaremos diferentes tipos de medidas de resumen, en ocasiones, manejar
un gran número de datos no es lo más aconsejable para determinados análisis,
y puede ser muy beneficioso tener toda la distribución de una variable resumida
en un solo valor o en muy pocos valores que caractericen la distribución, o sea
que sean capaces de representarla, veremos pues algunas medidas que
permiten resumir datos cuantitativos y cualitativos, así como las formas de
presentación de la información.

Medidas de tendencia central

Las medidas de posición, específicamente las llamadas de tendencia central,


tienden a ocupar los valores centrales de la distribución por lo que precisamente
caracterizan el centro de la misma.
Las Medidas de Tendencia central que estudiaremos son la Media Aritmética, la
Mediana y la Moda.

La media aritmética es conocida por ustedes desde hace tiempo pues es el


llamado promedio.

Propiedades:

• Fácil compresión y cálculo


• Siempre existe, o sea que se puede calcular para cualquier conjunto de datos
numéricos
• tiene valor único.

La media aritmética es el conocido promedio. Su cálculo se realiza


sumando todos los datos y dividiendo entre el número de estos.

Cuando los datos de que disponemos están agrupados en una tabla de


distribución de frecuencias, el representante de cada clase es el valor
que se utiliza para realizar el cálculo, en este caso la suma
aproximada de los elementos de cada clase se calcula multiplicando el
representante por la frecuencia absoluta. En este caso el valor del
promedio no se obtiene exactamente.
Como elemento negativo se puede plantear que la media aritmética se ve
afectada por valores atípicos, es decir, que cuando aparecen datos muy
alejados del grueso de la distribución porque son muy grandes o muy
pequeños esto la afecta. La afectación consiste en que la media
aritmética en esos casos no brinda una idea adecuada del centro de la
distribución, lo cual es su objetivo como medida de tendencia central.
La mediana
Es aquel valor que divide al conjunto ordenado de modo que a ambos
lados de dicho valor quede aproximadamente el 50% de las observaciones.

Propiedades:
• Siempre existe y se puede calcular para cualquier conjunto de
Datos numéricos
• Es única
• No se ve afectada por valores extremos.
• La mediana constituye el centro geométrico de la distribución.

Siempre está ubicada en el centro del conjunto de datos.


Cálculo de la mediana para series simples:

1. Ordenar los datos


2. Si n es impar: localizar el valor de la posición (n+1)/2.
Si n es par: corresponderá entonces al promedio de los valores que
ocupan las posiciones n/2 y n/2+1

La moda: Es el valor más frecuente en la distribución de datos. La moda


puede no existir y cuando existe puede no ser única. Un conjunto de
datos puede tener una moda, puede no tener y tener más de una.

Nótese que, a diferencia de la media aritmética y la mediana que solo


pueden calcularse en datos numéricos, la moda puede calcularse en datos
cualitativos.
Medidas de dispersión
Las medidas de dispersión que analizaremos son la varianza, la
desviación estándar y el coeficiente de variación.

Varianza:

. El cálculo es la suma de los cuadrados de la diferencia de cada valor del


conjunto de datos con respecto a la media aritmética del conjunto de datos total,
dividido el número de observaciones disminuido en uno. Se identifica por la letra
S al cuadrado.
Cuando la variable estudiada se expresa en una unidad de medida, por
ejemplo cuando estamos trabajando con tallas en centímetros el
resultado de la varianza estará elevado al cuadrado, es decir la
varianza se expresa en centímetros cuadrados, lo cual es realmente una
incoherencia teniendo en cuenta que ella expresa la desviación promedio
de los valores del conjunto, de la media aritmética del mismo. Es por
eso que se define la Desviación estándar, como la raíz cuadrada de la
varianza, esto nos permite eliminar la expresión de la unidad de medida
al cuadrado. La desviación estándar es la más utilizada y conocida
medida de dispersión. Se expresa en la misma unidad de medida que los
datos originales. Veamos la expresión en la siguiente pantalla.

Desviación estándar (S)

Se define como la raíz cuadrada de la varianza.

Las medidas de dispersión que hemos visto hasta ahora se


consideran medidas de dispersión absoluta, estas son: el rango o
recorrido de la variable, la varianza y la desviación estándar.
Coeficiente de variación

Indica qué por ciento de la media representa la desviación estándar Se identifica


por la letra C y se calcula por la relación de la varianza entre la media del
conjunto de datos multiplicado por cien.

Utilizando el coeficiente de variación, es posible comparar las dispersiones de


dos o más grupos de datos que son expresados en unidades distintas. En vez
de comparar, digamos, la variabilidad de pesos en libras, largos en pulgadas y
edades en años, podemos comparar los respectivos coeficientes de variación
que son todos porcentajes.

Veremos un ejemplo
Grupo de 25 años
Peso promedio = 72.5kg
Desviación estándar = 5kg
CV Peso = 5/72.5 x 100= 6.9%

Grupo de 11 años
Peso Promedio = 40 kg
Desviación estándar = 5 kg.
CV Peso =5/40 x 100= 12.5%

Estos cálculos hacen concluir que hay más variabilidad en el peso de los
integrantes del grupo de 11 años que en el de 25 años.

Estas medidas dividen la distribución respectivamente en 4, 10 y 100 partes.


Medidas de posición relativa

CUANTILES:
• CUARTILES Para dividir el recorrido de una variable en 4 partes iguales
necesitamos 3 valores y estos son los cuartiles Q1, Q2, y Q3
• DECILES para dividir el recorrido de la variable en 10 partes necesitamos
9 valores y estos son los deciles D1, D2,..., D9
• PERCENTILES para dividir en 100 partes necesitamos 99 valores que
serían los percentiles P1, P2,... P99.

Notar que el segundo cuartil o sea Q2 coincide con la mediana, con el quinto
decil (D5) y con el cincuenta percentil (P50). Una cuarta parte de los datos se
encuentra por debajo del primer cuartil que coincide con el 25 percentil.

Forma de obtención:
1. Ordenar los datos de menor a mayor.
2. Localizar la posición del cuantil de que se trate.

Si el valor obtenido como resultado del cálculo indicado en el punto 2 no es


entero se aproxima al entero inmediato superior que coincide con la posición del
cuantil que se busca.
Si este número es entero se toma el promedio de las observaciones que ocupan
el lugar que indica ese entero y el entero siguiente. Similar a lo que
realizábamos con la mediana.

Analicemos como se hace el cálculo mediante un ejemplo.


Ejemplo:
Supongamos que tenemos 620 observaciones de frecuencia cardiaca en
pacientes portadores de hipertiroidismo.
¿Qué medida podría servirnos para delimitar el 25% de las frecuencias
cardíacas más bajas y que posición ocupará el elemento que separe ese 25%
del 75% restante?

frec. Cardiaca: .. 114, 116, 118, 120, 120, 120, ., 190


Posic. Dato ord. (154) (155) (156) (157) (158) (159)....(620)

Aquí se muestran algunos fragmentos de los datos ordenados en cuestión.

Nos planteamos hallar por debajo de qué valor se encuentra el 25% de los
datos, o sea hallar el 25% de 620. Ese cálculo da 155 que es un número entero
por lo que es necesario hallar la semisuma del valor que ocupa la posición 155
con el valor que ocupa la posición siguiente, la 156. El resultado no es más que
el primer cuartil Q1. En este caso la observación 155 tiene un valor de 116
pulsaciones por minuto y la observación 156 tiene un valor de 118 pulsaciones
por minutos luego,

Promedio de los valores de las observaciones que ocupan las posiciones:


(116+118)/2= 117

Valor de Q1=117 pulsaciones por minuto.

Como vemos el primer cuartil es un valor que en este caso no pertenece


al conjunto original, eso es debido a que el total de observaciones es
par.
¿Cuál sería la posición del primer cuartil si en lugar de 620 observaciones
hubieran sido 625 manteniéndose el fragmento anterior con la misma
numeración?
En esta nueva situación, al tener la sucesión 625 observaciones que es un
número impar, el cálculo de la posición que ocupa el cuartil Q1, o sea 25% de
625 nos da un valor fraccionario que se aproxima al entero inmediato superior
157. La posición del primer cuartil es la 157, en la posición 157 aparece el valor
120.

En dependencia de la variable de que se trate se definen los rangos de


normalidad que en algunos casos pueden encontrarse entre los percentiles 5 y
95 por ejemplo.

El uso de estas medidas de posición relativa en las Ciencias Medicas es el de


encontrar rangos de normalidad.
Ejemplo: Tablas de percentiles para peso y talla en Pediatría

Presentación de los resultados.

Una vez recogida y procesada la información, es necesario presentar los


resultados de manera adecuada, de forma tal que contribuya a una mejor
comprensión y exposición de dichos resultados, en función de los objetivos del
trabajo. Existen tres tipos fundamentales de presentación: Textual, Tabular
(cuadro estadístico) y Gráfica.

Presentación Textual.
La presentación de la información textual es la forma escrita habitual de
presentar un documento o informe. Constituye la forma principal de presentación
de los resultados. Atendiendo a que se trata de una comunicación científica
debe limitarse a lo estrictamente necesario, cuidando de mantener una
secuencia lógica en la exposición y de no incurrir en repeticiones innecesarias,
citando todas y cada una de las tablas y figuras a que se haga referencia.
Cuadro o tabla estadística.

Los datos originales recopilados por el investigador, directamente de la fuente,


se les llama datos primarios y una vez que son sometidos a algún
procesamiento estadístico (como resumirlos en una tabla o gráfico) se les llaman
datos secundarios. Los datos primarios contienen información más precisa que
los secundarios, pero son también más difíciles de manipular porque
generalmente son muy voluminosos.

Los cuadros estadísticos resultan de gran ayuda tanto para el investigador como
para el lector del informe de su trabajo, ya que constituyen una forma sintetizada
y más comprensible de mostrar los resultados sobre todo cuando la información
es de tipo repetitivo. Además permite mostrar frecuencias, relaciones,
contrastes, variaciones y tendencias mediante una presentación ordenada de la
información.

El autor debe velar porque las tablas sean autoexplicativas, es decir que el lector
no tenga necesidad de acudir al texto para conocer de qué trata determinada
tabla.

Las partes de una tabla son:

Número de orden.
Título
Cuadro propiamente dicho o cuerpo de la tabla
Notas explicativas o calce, también se le llama píe.

Número de orden .- El mismo se emplea para facilitar la referencia a la tabla en


el texto. Debe asignársele un número consecutivo a cada tabla siguiendo el
orden en que se citan por primera vez en el texto. Este número la identifica y se
coloca precediendo al título.

Título.- Debe ser completo, claro y conciso, es decir, debe reflejar claramente en
qué consiste el contenido y con qué criterios se clasificaron los elementos a que
se hace referencia, ubicándolo además en tiempo y lugar.

Cuadro o cuerpo de la tabla.- Esta constituido por un grupo de casillas o celdas


formadas por el entrecruzamiento de filas y columnas. La primera fila se reserva
para indicar a qué se refieren los datos subyacentes y que unidad de medida se
utilizó. En la primera columna se reflejan las diferentes clases según la escala de
clasificación empleada.

Notas explicativas, calce o píe.- Sirven para indicar la fuente de donde se


obtuvieron los datos y, de ser pertinente, la significación estadística o alguna
breve nota aclaratoria del contenido, que puede indicarse por llamadas mediante
símbolos colocados como exponentes.

Ejemplo:
Tabla 1 Hábito de Fumar según Sexo Hospital 1998
Masculino Femenino Total
Fumadores 60 15* 75
No Fumadores 20 60 80
Total 80 75 115
Fuente: Historias Clínica. P< 0.05

Tipos de tablas

Las tablas se clasifican en:


Distribuciones de frecuencias.
Series cronológicas
Datos de asociación

Las tablas estadísticas pueden prepararse de forma simple o compleja. En


ambos casos las variables que se representan pueden ser discretas o continuas.
La tabulación simple está indicada para presentar los hechos con respecto a
uno o más grupos de investigaciones independientes.

A continuación se muestra un ejemplo de tabla simple mediante una distribución


de frecuencias de una variable cualitativa nominal.

Tabla 2 Localización anatómica de los nódulos en la


glándula mamaria.
Hosp. Y 1994

Localización No. de casos %


Cuadrantes superiores 164 47.7

Cuadrantes inferiores 30 8.7

Retroareolar 8 2.3

Bilateral 142 41.3


TOTAL 344 100.0

* fuente: Historias Cínicas.

La tabulación compleja permite ofrecer la división de las categorías en dos o


más subcategorías. Una o varias columnas y/o filas son a su vez subdivididas
para representar o resaltar una condición importante del fenómeno que se
estudia.

Veamos a continuación un ejemplo de tabla compleja

Tabla 3 Localización anatómica de los nódulos


en la glándula mamaria.
Hosp.

Localización No. de casos %


Cuadrantes superiores 164 47.7
Externo 114 33.2
Interno 50 14.5

Cuadrantes inferiores 30 8.7


Externo 17 4.9
Interno 13 3.8

Retroareolar 8 2.3

Bilateral 142 41.3


* fuente: Historias
Clínicas.

De forma independiente a que la tabla sea simple o compleja tenemos también


el número de columnas. Las anteriores son tablas de una columna (dos si
contáramos la del por ciento) y la que sigue es de columnas múltiples.
Tabla 4 Distribución por grupos de edades
según presencia de afección mamaria
Hosp.
Mujeres examinadas
Grupos Con afección % Sin afección % Total %
de edad mamaria mamaria
15 a 20 268 61.05 171 38.95 439 17.2
21 a 30 525 50.48 516 49.57 1041 40.8
31 a 40 289 54.94 237 45.06 526 20.8
41 y más 348 64.32 193 35.67 541 21.2

Total 1430 56.14 1117 43.86 2547 100.0


*Fuente: Datos obtenidos de la investigación

Presentación Gráfica.

La forma gráfica constituye un complemento importante para la presentación de


los resultados ya que permite incrementar la información científica que se trata
de transmitir. Aunque los gráficos se elaboran a partir de tablas estadísticas es
un error, al presentar los resultados, pretender acompañar a cada tabla por un
gráfico, ello origina repeticiones en la información y pérdida de espacio. El
gráfico debe agregar información, no duplicarla. El empleo del gráfico debe
reservarse para cuando se quiera mostrar algún patrón especial en los
resultados, destacar tendencias o ilustrar comparaciones de forma clara y
exacta.

El gráfico, al igual que las tablas, debe ser autoexplicativo, sencillo y de fácil
comprensión.
Las partes del gráfico son:
Número de orden.
Título
Cuerpo o gráfico propiamente dicho
Leyenda

El Número de orden y el Título deben cumplir los mismos requisitos señalados


anteriormente para la tabla estadística. El Cuerpo o gráfico propiamente dicho,
varía en su configuración en dependencia del tipo de dato que se representa,
pero siempre debe indicar claramente las coordenadas, las escalas y las
unidades de medida, reservando el eje de las abscisas (eje X) para la variable
independiente y el eje de las ordenadas (eje Y) para la variable dependiente. La
leyenda permite identificar claramente los diferentes elementos del cuerpo del
gráfico.

Gráficos para representar variables cualitativas y cuantitativas discretas.

Gráfico de Barras.- Las variables son representadas por barras o rectángulos


que pueden colocarse en posición horizontal o vertical.
Para la construcción de este tipo de gráfico deben tenerse en cuenta los
siguientes requisitos:
☯ Todas las barras deben tener el mismo ancho.
☯ Los espacios entre las barras deben ser todos iguales y nunca menores
que la mitad del ancho de las barras ni mayores que este.
☯ La escala de la frecuencia debe comenzar por cero.

Los gráficos de barra presentan tres variedades:


Barras simples.
Barras múltiples.
Barras proporcionales.

A partir de la siguiente tabla ejemplificaremos estas variedades de gráficos de


barras.
Tabla 5 Ingresos en el Servicio de Pediatría
Hospital 1996-1998

Año Gastroentero Respiratorio Miscelánea Total


logía
1996 551 1623 1503 3677
1997 420 1436 1374 3230
1998 398 1475 1247 3120
TOTAL 1369 4534 4124 10027

Gráfico de barras simples.- Se utilizan para representar una variable. Por


ejemplo a partir de la tabla anterior se representan los ingresos en la sala de
Gastroenterología en los tres años.

F ig u r a 1
In g r e s o s e n la s a la d e G a s t r o e n t e r o lo g í a
H o s p it a l " A le id a F e r n a n d e z C h a r d ie t "
199 6-1 998

600

400

200

0
1996 1997 1998

Gráfico de Barras Múltiples.- Se utilizan para representar dos o más


variables en relación con otra que fija el criterio de agrupamiento de las
barras. Ejemplo: para representar los ingresos en Gastroenterología,
Respiratorio y Miscelánea en cada año, elaboraríamos el gráfico siguiente:
F ig u r a 2
In g r e s o s e n e l S e r v ic io d e P e d ia tr ía
H o s p ita l
1 9 9 6 -1 9 9 8

2000 G A S T R O E N T E R O L O G IA

R E S P IR A T O R IO
1000 M IS C E L A N E A

0
1996 1997 1998

Gráfico de Barras Proporcionales.- En una sola barra se representan todos


los datos de determinada variable, mostrando la proporción de cada una de
las clases que la integran. Por ejemplo, para representar la proporción de los
ingresos en Gastroenterología, Respiratorio y Miscelánea en cada año
elaboraríamos un gráfico como el siguiente:

F ig u r a 3
In g r e s o s e n e l S e r v ic io d e P e d ia t r ía
H o s p it a l
1 9 9 6 -1 9 9 8

100%

80%
M IS C E L A N E A
60%
R E S P IR A T O R IO
40% G A S T R O E N T E R O L O G IA

20%

0%
1996 1997 1998
Gráfico de Pastel o Sector.

Se utiliza generalmente para ilustrar comparaciones entre los diversos


componentes de un conjunto de datos. Para ello se emplea un círculo el cual se
divide en sectores cuyas medidas angulares son proporcionales a las
magnitudes de los valores que representan. Por ejemplo, para comparar la
proporción de los ingresos en el servicio de pediatría durante el año 1998
podemos utilizar el siguiente gráfico:

Figura 4
Ingresos en el Servicio de Pediatría
Hospital
1996-1998
15%
41%
GASTROENTEROLOGIA
RESPIRATORIO
MISCELANEA

44%

Gráfico para representar a las variables cuantitativas continúas.

Las medidas de tendencia central y variación ya estudiadas son medidas de


resumen que permiten informar sobre el comportamiento de una variable
cuantitativa, así cuando decimos que la edad promedio de un grupo de personas
es de 20 años enseguida pensamos que en ese grupo debe de haber gran
cantidad de personas jóvenes. Pero, puede ud usar la media y la desviación
típica para resumir variables cualitativas, por ejemplo el sexo? Qué usaría
entonces?

GRÁFICO PARA REPRESENTAR A LAS VARIABLES CUANTITATIVAS


CONTINÚAS
Histograma
Las variables son representadas por rectángulos al igual que en el gráfico de
barras, pero a diferencia de este, en el histograma las barras se colocan siempre
en posición vertical y sin ningún espacio entre ellas. Aunque en la primera
columna de la tabla a partir de la cual se confecciona el histograma se señalan
los intervalos de clase, al realizar el histograma se reflejan para identificarlos
solo los puntos medios de dichos intervalos de clase.

EL POLIGONO DE FRECUENCIAS
Las variables son representadas en un sistema de coordenadas por un trazo que
une los puntos en que se interceptan los puntos medios de cada clase (eje X)
con la frecuencia correspondiente (eje Y). El polígono de frecuencias también se
puede confeccionar uniendo los puntos medios superiores de cada barra del
histograma.

Medidas para resumir datos cualitativos

Vamos a ver como calcular e interpretar las medidas.

PROPORCIÓN ( p):
a
P=⎯
n

Donde: a es el total de elementos de un conjunto de n elementos.


Así si de 400 personas hay 300 hombres entonces: n = 400 y a = 300 y
300 3
P= ⎯ = ⎯ = 0,75
400 4

La interpretación de esto es que la 0,75 parte de las personas del conjunto son
hombres. Esta interpretación es mucho más fácil si se multiplica por 100, en este
caso estamos en presencia de un:

PORCIENTO
El porciento no es más que p multiplicado por 100. Así en el caso anterior el
porciento de hombres es 75% y esto significa que por cada 100 personas hay 75
hombres.

RAZÓN (R)
En ocasiones no interesa conocer que parte representa un grupo de elementos
de un total sino la relación que hay entre elementos con distinta características
por ejemplo la relación que hay entre hombres y mujeres, en este caso esta
razón es:

300
R = ⎯ =3 Note que hemos usado R para denotar la razón.
100

Esto significa que por cada mujer hay 3 hombres, esta razón se conoce con el
nombre de “razón de masculinidad” y es usada en Demografía.
No todas las razones son enteras (calcule la razón de mujer a hombre) y la
interpretación se hace difícil, por esto se suele usar el:
INDICE
No es más que la razón multiplicada por 100, en el ejemplo anterior el índice de
masculinidad es:
I = R*100 = 300

Esto significa que hay 300 hombres por cada 100 mujeres.

Son muy usados en las ciencias médicas el porciento de bajo peso al nacer que
se conoce como índice de bajo peso al nacer y que se calcula dividiendo el
número de niños con bajo peso al nacer entre el total de recién nacidos por 100.
Esta medida resume e ilustra el comportamiento del bajo peso al nacer en un
lugar y momento dado y permite comparar este problema de salud entre
distintos lugares o épocas.
Una razón muy usada en el diagnóstico de la situación de salud de un
Consultorio o área de salud es el llamado índice de hacinamiento que se obtiene
dividiendo el número de personas en una vivienda entre el número de
habitaciones de esta.
Cómo ud interpreta este índice? Se considera que en una vivienda con índice
mayor de 3, hay hacinamiento.
Otra medida muy usada en las ciencias médicas es la:

TASA (T)

Dado un determinado evento que puede ser experimentado por los individuos de
una población, en un intervalo de tiempo (un año, semestre, etc) la tasa del
evento en el período se define co
A
T = ⎯⎯⎯ * 10K
N

A: números de individuos que experimentaron el evento en el período


N: número de individuos en la población
K: número entero cualquiera
Ejemplo: Si en un grupo de 100 000 personas mueren 100 en un año la tasa de
mortalidad en esa población en ese año es:
100
T = ⎯⎯⎯⎯ * 10K = 0, 001 * 10K
100 000
El objetivo que se persigue con multiplicar por una potencia de 10 es convertir
este número a enteros para facilitar su interpretación, así en este ejemplo
pudiéramos multiplicarlo por 103 entonces T = 0,001 * 1000 = 1
Esto significa que en ese período en esa población falleció una persona por
cada 1000 habitantes.
Esta tasa expresa el riesgo de morir en esa población.
En general toda tasa expresa un riesgo o probabilidad de experimentar un
evento determinado en un periodo.
En clases posteriores se estudiarán una serie de tasas muy usadas en Salud.
El ejemplo: En un curso desaprobaron 8 estudiantes de primer año de Medicina
de 150 matriculados. Calcule e interprete la tasa de desaprobados ese curso.

8
T = ⎯⎯⎯ * 10K = 0,053 * 10K
150
Si se multiplica por 100 T= 5,3
Esto significa que 5,3 de cada 100 estudiantes desaprobaron o lo que es lo
mismo en este caso, 100 que el 5,3% de los estudiantes desaprobaron.
Ejercicio: Si en otra Facultad desaprobaron 40 de 300, calcule e interprete la
tasa de desaprobados.
Si comparamos el % de desaprobados en ambos centros evidentemente en el
segundo centro hay un 13,3% por lo que hay mayor proporción de
desaprobados en ese centro.

También podría gustarte