Está en la página 1de 16

Universidad de Oriente

Ncleo Bolvar
Unidad de Cursos Bsicos

008-1123 Estadstica Aplicada a las Ciencias de la Salud


008-1023 Estadstica General
Semestre I-2011

Estadstica Descriptiva
Prof. Luis Alfredo Machado P.
INTRODUCCIN
De lo estudiado en el tema I pudimos conocer que la estadstica es una ciencia referente
a la recoleccin, anlisis e interpretacin de datos, ya sea para ayudar en la resolucin
de la toma de decisiones o para explicar condiciones regulares o irregulares de algn
fenmeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin
embargo estadstica es mucho ms que eso, dado que en otras palabras es el vehculo
que permite llevar a cabo el proceso relacionado con la investigacin cientfica.
A partir de este concepto podemos diferenciar dos corrientes o dos tipos de estadstica,
una estadstica descriptiva y una estadstica inferencial, definiendo la primera como
aquella que se dedica a los mtodos de recoleccin, descripcin, visualizacin y
resumen de datos originados a partir de los fenmenos en estudio y donde los datos
pueden ser resumidos numrica o grficamente. Por otra parte, la estadstica inferencial
que se dedica a la generacin de los modelos, inferencias y predicciones asociadas a los
fenmenos en cuestin teniendo en cuenta la aleatoriedad de las observaciones. Se usa
para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo
estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba
de hiptesis), estimaciones de caractersticas numricas (estimacin), pronsticos de
futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de
relaciones entre variables (anlisis de regresin). En este tema nos dedicaremos a tratar
todo lo referente (en sentido global) a la estadstica descriptiva.
Ejemplos de este tipo de anlisis descriptivo pueden encontrarse en la prensa diaria, en
la parte de informacin econmico-social: series de tiempo, grfica de barras, ndices de

precios, resultados de una encuesta y ms elaborado, para ms de una variable, en


pirmide de edades, comparativas, calificaciones, resultados de deportes, etc.

ORGANIZACIN DE LOS DATOS


Arreglo Ordenado: es una lista de valores de un grupo (sea poblacin o muestra) en
orden de magnitud de menor a mayor valor.
Tablas de frecuencia: exponen la informacin recogida en la muestra de forma que no
se pierda nada de informacin. Se caracterizan por ordenar la informacin dividindola
en clases o intervalos y definiendo varias magnitudes para cada una de ellas. Estas
magnitudes son:
Frecuencia absoluta (fa) de una variable estadstica X, es el nmero de veces
que aparece en el estudio este valor.
Frecuencia relativa (fr), es el cociente entre la frecuencia absoluta y el tamao
de la muestra (N). Multiplicado por 100% representa el porcentaje de la
poblacin que representa esa clase.
Frecuencia acumulada (absoluta o relativa): acumulacin de las frecuencias a
medida que se va incrementando de clases.
Marca de clase: punto intermedio entre el valor mnimo y el valor mximo de
una clase determinada.
Modelo de tabla de frecuencia
Clase

Marca de
clase

Frecuencia Frecuencia % Frecuencia


Absoluta

relativa

Relativa

% Frecuencia
relativa
acumulada

Estas tablas de frecuencia sirven para todo tipo de variables en donde la nica diferencia
sera la forma de determinar las clases. Si las variables son cualitativas, cada cualidad
estudiada es una clase. Si las variables son cuantitativas continuas es necesario
determinar intervalos de clase los cuales, para efectos de este curso, se determinan
utilizando la regla de Sturges. Para el caso de las variables cuantitativas discretas es
necesario conocer la modalidad de la variable de estudio, si esta es muy grande (por
ejemplo, cantidad de aos que puede vivir una persona) es necesario dividir esa

modalidad en intervalos, los cuales determinaremos utilizando la regla de Sturges (para


efectos de este curso). Pero, si la modalidad es pequea (por ejemplo, el lanzamiento de
un dado, el cual solo tiene 6 valores posibles) colocaremos cada valor posible en una
nica clase (sin agruparlos de algn modo).
Presentacin grafica de datos:
Diagrama de barras para variables cualitativas.
Diagrama de sectores (torta): para variables cualitativas.
Histograma de frecuencias (absolutas, relativas o porcentaje): para variables
cuantitativas.
Polgono de frecuencias (absolutas, relativas o porcentaje): para variables
cuantitativas.
Diagrama de frecuencias acumuladas (escalones) para variables cuantitativas
discretas.
Diagrama de frecuencias acumuladas (ojiva): para variables cuantitativas
continuas.
Anlisis de los datos
Dada la siguiente tabla de frecuencias:

Responder:

A) Cuntos individuos tienen menos de dos hijos? R: Se suman las frecuencias de


las clases 0 y 1 y da como resultado 674 individuos.
B) Qu porcentaje de individuos tiene 6 hijos o menos? R: 97,3%
C) Qu cantidad de hijos es tal que al menos el 50% de los individuos tiene una
cantidad menor o igual? R: 2 hijos.

DESCRIPCIN

DE

UN

CONJUNTO

DE

MEDICIONES:

MTODOS

NUMRICOS
Las tablas de frecuencia y los histogramas de frecuencia relativa introducidos en el tema
I proporcionan una informacin til respecto al conjunto de mediciones, pero no son
adecuados para hacer inferencias por que no estn bien definidos. De hecho, se podran
construir muchos histogramas semejantes a partir del mismo conjunto de medidas. Para
hacer inferencias de una poblacin basadas en datos de una muestra y medir la validez
de estas necesitamos definir cantidades de manera rigurosa para analizar la informacin
de la muestra. Mediante las matemticas es posible obtener ciertas propiedades de esas
cantidades mustrales y establecer conclusiones probabilsticas en cuanto a la validez de
nuestras inferencias.
Las cantidades que definiremos son medidas numricas descriptivas de un conjunto de
datos. Buscamos nmeros que describan la distribucin de frecuencias de cualquier
conjunto de mediciones. En este tema abordaremos las medidas de tendencia central,
medidas de dispersin y variabilidad, medidas de posicionamiento y medidas de
apuntamiento o curtosis.
Parmetro y Estadstico
Una medida descriptiva relacionada con una variable aleatoria, cuando la variable se
considera sobre toda una poblacin se denomina parmetro. Los parmetros se indican
por lo general con letras griegas. Un parmetro con el que es frecuente encontrarse es el
valor promedio de la poblacin o media de la poblacin, la cual se indica mediante la
letra griega . Por ejemplo, en el estudio de las enfermedades cardiacas, el investigador
estara interesado en determinar el valor promedio de cigarros fumados por da por los
miembros de la poblacin, sin embargo no es posible obtener el valor exacto de este
parmetro a menos que se estudien todos los miembros de la poblacin, lo cual es una

tarea casi imposible. Puesto que es imposible hacerlo, el valor del parmetro seguir
siendo una incgnita desconocida incluso despus de terminar el estudio, pero la cual
podremos aproximar mediante el uso de diversos mtodos estadsticos aplicados a una
serie de datos (una muestra) recogidos de esa poblacin.
Una medida descriptiva relacionada con una variable aleatoria, cuando las variables solo
se considera sobre una muestra, se denomina estadstico. Los estadsticos tienen dos
fines, por un lado, describen la muestra que est disponible, y por el otro, sirven como
aproximacin a los parmetros correspondientes a la poblacin. Por ejemplo, la media
de cigarrillos fumados diariamente por los miembros de una muestra de pacientes con
enfermedades cardiacas es un estadstico que se denomina promedio de la muestra o
media muestral. Su valor para una muestra dada, probablemente, no ser igual a la
media de la poblacin, pero sin embargo, se espera que al menos su valor se aproxime
a .
Como ejemplo de estos conceptos pudiramos citar el evento de las elecciones
presidenciales de un pas. El hecho de votar, implica que tericamente (y segn las
restricciones constitucionales de cada pas) toda la poblacin debera ir a escoger un
candidato. Una vez que se realiza el proceso de votacin y finaliza el conteo de votos
los resultados dados pudieran ser, por ejemplo, 60% de los votos a favor del candidato
alfa y 40% de los votos a favor del candidato beta (suponiendo que solo fueron dos
candidatos a elecciones). Estos valores 60% y 40% son parmetros, ya que estos
valores descriptivos fueron calculados a partir de datos de una poblacin completa.
Tomando este mismo ejemplo es fcil imaginar que antes de las elecciones cada uno de
los candidatos quera conocer o tener una idea de con cuanta popularidad cuentan y
pronosticar los resultados. Para ello cada cierto tiempo tomaban una muestra aleatoria a
la cual estudiar y tener una idea de la popularidad con la que cuentan antes de las
elecciones. As, el estudio de un cierto da podra dar 30% a favor del candidato beta
versus un 70% a favor del candidato alfa y otro da podra dar 50% y 50% para ambos
candidatos, todos estos datos obtenidos son estadsticos ya que fueron calculados a
partir de una muestra aleatoria y aunque no son iguales a los parmetros tienen cierta
tendencia a aproximarse a ellos.
Medidas de tendencia central

Las medidas de tendencia central conllevan informacin respecto al valor promedio de


un conjunto de valores. Tal como se ver, la palabra promedio se puede definir en
diversas formas. Las tres medicas de tendencia central de uso ms frecuente son: la
media, la moda y la mediana.
La media aritmtica: es la medida de tendencia central ms conocida y es la que la
mayora de las personas tienen en mente cuando hablamos de promedio. Esta se obtiene
sumando todos los valores en una poblacin o muestra y dividiendo entre el nmero de
valores sumados.
La mediana: de un conjunto finito de valores es aquel valor que divide al conjunto en
dos partes iguales, de forma que el numero de valores mayores o iguales a la mediana es
igual al nmero de valores menores o iguales a esta. Si el nmero de valores en el
conjunto es impar, la mediana es el valor central siempre y cuando todos los valores
estn arreglados en orden de su magnitud. Cuando el numero de valores en el conjunto
es par, no existe un valor medio nico, si no que existen dos valores medios. En tal caso,
la mediana corresponde a la media de esos dos valores centrales, cuando todos los
valores son arreglados en orden de magnitud. Sobre la mediana podemos definir algunas
propiedades, la primera es que es nica, (al igual que la media) existe solo una mediana
para un conjunto de datos, es simple de calcular y los valores extremos no tienen efectos
importantes sobre la mediana (lo que si ocurre con la media).
La moda: de un conjunto de valores es aquel valor que ocurre con mayor frecuencia. Si
todos los valores son diferentes, no hay moda. Por otra parte, un conjunto de valores
puede tener ms de una moda.
Medidas de dispersin
La media de un conjunto de datos y las dems medidas de tendencia central indican el
centro de una distribucin de los datos, no proporciona en s misma una descripcin
adecuada de un conjunto de mediciones. Dos conjuntos de mediciones podran tener
distribuciones de frecuencia muy distintas pero con la misma media, por eso para
describir los datos de manera adecuada es preciso definir medidas de variabilidad de
datos.
La medida de variabilidad de ms comn empleada en estadstica es la varianza, que es
una funcin de las desviaciones o distancias de las mediciones muestrales con respecto

a la media. Resulta til considerar a la varianza como casi el promedio de los


cuadrados de las desviaciones entre los valores observados y media. Cuanto mayor sea
la varianza de un conjunto de mediciones, mayor ser el grado de variacin dentro del
conjunto. La varianza es til para comparar la variacin relativa de dos conjuntos de
mediciones, pero solo cuando se interpreta en trminos de desviacin estndar
proporciona informacin referente a la variacin de un solo conjunto.
El coeficiente de variacin: es una medida de dispersin til para comparar
dispersiones a escalas distintas pues es una medida invariante ante cambios de escala.
Sirve para comparar variables que estn a distintas escalas pero que estn
correlacionadas estadsticamente y sustantivamente con un factor en comn. Es decir,
ambas variables tienen una relacin causal con ese factor. Su frmula expresa la
desviacin estndar como porcentaje de la media aritmtica, mostrando una mejor
interpretacin porcentual del grado de variabilidad que la desviacin tpica o estndar.
Medidas de localizacin. Percentiles y Cuartiles.
Los estadsticos de posicin van a ser valores de la variable caracterizados por superar a
cierto porcentaje de observaciones en la poblacin (o muestra). Tenemos
fundamentalmente a los percentiles como medidas de posicin, y asociados a ellos
veremos tambin los cuartiles y deciles.
Percentiles: Para una variable discreta, se define el percentil de orden k, como la
observacin, Pk, que deja por debajo de si el k% de la poblacin. Vase la figura a
continuacin. Esta definicin nos recuerda a la mediana, pues como consecuencia de la
definicin es evidente que
Med = P50

Cuartiles: Los cuartiles, son un caso particular de los percentiles. Hay 3, y se definen
como:
Q1 = P25
Q2 = P50 = Med
Q3 = P75
Estadsticos de Asimetra
Al ver la simetra o asimetra de un conjunto de datos, vamos a plantear el saber si los
datos se distribuyen de forma simtrica con respecto a un valor central, o si bien la
grfica que representa la distribucin de frecuencias es de una forma diferente del lado
derecho que del lado izquierdo.
Para saber si una distribucin de frecuencias es simtrica, hay que precisar con respecto
a que. Un buen candidato es la mediana, ya que para variables continuas, divide al
histograma de frecuencias en dos partes de igual rea.
Podemos basarnos en ella para, de forma natural, decir que una distribucin de
frecuencias es simtrica si el lado derecho de la grafica (a partir de la mediana) es la
imagen por un espejo del lado izquierdo (vase la figura a continuacin). Cuando la
variable es discreta, decimos que es simtrica, si lo es con respecto a la media.
Dentro de los tipos de asimetra posible, vamos a destacar los dos fundamentales:

Asimetra positiva: Si las frecuencias ms altas se encuentran en el lado


izquierdo de la media, mientras que en derecho hay frecuencias ms pequeas
(cola).
Asimetra negativa: Cuando la cola esta en el lado izquierdo.
Cuando realizamos un estudio descriptivo es altamente improbable que la distribucin
de frecuencias sea totalmente simtrica. En la prctica diremos que la distribucin de
frecuencias es simtrica si lo es de un modo aproximado. Por otro lado, aun observando
cuidadosamente la grafica, podemos no ver claro de qu lado estn las frecuencias ms
altas. Se definen entonces toda una familia de estadsticos que ayuden a interpretar la
asimetra, denominados ndices de asimetra.

FUNDAMENTACIN BIBLIOGRFICA
Wackerly, D. Mendenhall III, W. Scheafer, R. (2002) Estadstica matemtica con
aplicaciones. Editorial Thomson, Mexico, D.F. Mexico.
Daniel, W. (2006) Bioestadstica, base para el anlisis en ciencias de la salud.
Editorial Limusa-Weiley, Mexico D.F. Mexico.

FORMULARIO
Medidas de tendencia central
n

Datos sin agrupar:


Media

xi

x= i=1
n
n

Datos Agrupados:
Mediana

Datos Agrupados:

x=

1
fi mi
n i=1

M =L+

w
(0,5 nfb)
fm

Medidas de dispersin
n

1
2
2
(xix)
Datos sin agrupar: = n1
i=1

fimi
n

i=1

Varianza
Datos Agrupados:

(2 n)

mi 2 fi
i=1

x=
Desviacin
estndar
Coeficiente de
Variacin

n1

2
Con datos agrupados o sin agrupar: =

Con datos agrupados o sin agrupar:

%CV =

Medidas de Localizacin
Percentil

Medida de Asimetra

Con datos agrupados:

P=L+

w
(0,5 nfb)
fm

Metodo de
Yule-Bowley

As=

Q32 Q2+ Q1
Q 3Q1

EJERCICIOS

1. Una variable de inters en un estudio del cangrejo Xanthidae, es el nmero de huevos


puestos por individuo. Las siguientes son las observaciones obtenidas para 45
cangrejos:
195
9
280
2
241
2
683
7
509
9
647
2

453
4
246
2
762
4
863
9
662
7
837
2

702
0
400
0
154
8
741
7
448
4
822
5

672
5
337
8
480
1
608
2
563
3
614
2

742
8
418
9
532
1

6964
7343
737
1024
1

962

4148

658
8

935
9
897
3
849
389
4
584
7

916
6
432
7
574
9
180
1
463
2

1213
0

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y


polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas
(ojiva). Por otra parte, intente calcular las medidas de tendencia central, dispersin,
localizacin (Cuartiles) y asimetra y curtosis, utilizando los mtodos de datos
agrupados. Por ltimo, intente dar una conclusin sobre los resultados.
2. Un estudio consisti en preguntarles a 20 pacientes cual fue el grado de dolor que
sintieron durante una puncin lumbar. Este grado de valor de midi creando una escala
del 1 al 5 donde a medida que el nmero aumenta, el nivel de dolor es cada vez mayor y
donde el 1 representa nada de dolor y el 5 representa dolor insoportable. La tabla
que se muestra a continuacin representa las respuestas de estas 20 personas:
3
2
4
4
5

5
2
4
3
1

5
4
5
3
2

2
4
3
3
1

2
5
5
4
3

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y


polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas
(escaln). Por otra parte, intente dar una conclusin sobre los resultados.
3. Un Psiclogo est estudiando las preferencias religiosas de una determinada
poblacin. Para ello tomo una muestra de 50 personas y las respuestas que obtuvo de
cada una de ellas fueron:

Catolico
Protestante
Budista
Protestante
Ateo

Musulman
Ateo
Catolico
Ateo
Budista

Protestante
Catolico
Musulman
Budista
Catolico

Budista
Protestante
Protestante
Catolico
Ateo

Ateo
Musulman
Budista
Budista
Protestante

Budista
Catolico
Ateo
Musulman
Protestante

Catolico
Protestante
Protestante
Musulman
Catolico

Catolico
Ateo
Budista
Protestante
Protestante

Budista
Musulman
Musulman
Protestante
Ateo

Catolico
Budista
Catolico
Budista
Catolico

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y


polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas
(escaln). Por otra parte, intente dar una conclusin sobre los resultados.
4. A continuacin, se muestra el histograma de frecuencias relativas de los promedios de
puntuaciones de una muestra de 30 estudiantes de medicina. Dicho histograma posee
una variacin, los nmeros bajo las barras son marcas de clase y no intervalos.
8
7
6
5
4
3
2
1
0

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y


polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas
(ojiva). Por otra parte, intente calcular las medidas de tendencia central, dispersin,
localizacin (Cuartiles) y asimetra y curtosis, utilizando los mtodos de datos
agrupados. Por ltimo, intente dar una conclusin sobre los resultados.
Responda:
Qu categoras de promedios de puntuaciones identificadas en el eje horizontal se
relacionan con la mayor proporcin de estudiantes?
Qu proporcin de estudiantes tenia promedios de puntuaciones en cada una de las
categoras identificadas?
Qu proporcin de estudiantes tenia promedio de puntuaciones menor de 2,65?
De sus propias conclusiones acerca de esta grafica

5. El histograma de frecuencias relativas que aparece a continuacin se elaboro a partir


de los datos obtenidos de una muestra de 25 familias. A cada una se le pregunto cuntos
cuartos de litro de leche haba comprado la semana anterior.

38.00%
36.00%
34.00%
32.00%
30.00%
28.00%
26.00%
24.00%
22.00%
20.00%
18.00%
16.00%
14.00%
12.00%
10.00%
8.00%
6.00%
4.00%
2.00%
0.00%
-2.00%

Con el histograma de frecuencias relativas determine cuantos cuartos de leche compro


la mayor proporcin de las 25 familias. Las categoras relacionadas con la mayor
frecuencia relativa recibe el nombre de moda.
Qu proporcin de las 25 familias compro ms de 2 cuartos de litro de leche?
Qu proporcin compro ms de 0 cuartos y menos de 5 cuartos?
Cuntas de las 25 familias, compraron 1, 2, 3, 4, 5 y 6 cuartos litros de leche?
Por lo general, cuantos cuartos de litros podra llevarse una familia?
Cuntas familias, de las 25, compraron 4 o ms cuartos de litro?
Cuntas familias, de las 25, compraron entre 2 y 5 cuartos de litro?

6. Quince pacientes con limitaciones crnicas severas de respiracin son sujetos de


estudio por parte de Fernandez et al. (A-8), para investigar la eficacia del tratamiento
para mejorar el intercambio de gases. Los siguientes valores representan la superficie
corporal de los pacientes:
1,57
1,71
2,76

2,10
1,73
1,90

1,74
1,65
1,77

1,68
1,74
1,69

1,83
1,57
2,38

A partir de estos calcule las medidas de tendencia central y dispersin, utilizando los
mtodos de datos sin agrupar, luego agrupe los datos en una tabla de frecuencias y
calcules las mismas medidas utilizando el mtodo de datos agrupados y compare los
resultados. Por ltimo, intente dar una conclusin sobre los resultados.
7. A partir de los siguientes datos:

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y


polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas
(ojiva). Por otra parte, intente calcular las medidas de tendencia central, dispersin,
localizacin (Cuartiles) y asimetra y curtosis, utilizando los mtodos de datos
agrupados. Por ltimo calcule las medidas de tendencia central y dispersin utilizando
los mtodos de datos sin agrupar y compare con lo anteriormente calculados.
8. A partir de los siguientes datos:

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y


polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas
(ojiva). Por otra parte, intente calcular las medidas de tendencia central, dispersin,
localizacin (Cuartiles) y asimetra y curtosis, utilizando los mtodos de datos

agrupados. Por ltimo calcule las medidas de tendencia central y dispersin utilizando
los mtodos de datos sin agrupar y compare con lo anteriormente calculados.

También podría gustarte