Está en la página 1de 14

Universidad de Oriente Ncleo Bolvar Unidad de Cursos Bsicos

008-1123 Estadstica Aplicada a las Ciencias de la Salud 008-1023 Estadstica General Semestre I-2011

Estadstica Descriptiva
Prof. Luis Alfredo Machado P. INTRODUCCIN De lo estudiado en el tema I pudimos conocer que la estadstica es una ciencia referente a la recoleccin, anlisis e interpretacin de datos, ya sea para ayudar en la resolucin de la toma de decisiones o para explicar condiciones regulares o irregulares de algn fenmeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo estadstica es mucho ms que eso, dado que en otras palabras es el vehculo que permite llevar a cabo el proceso relacionado con la investigacin cientfica. A partir de este concepto podemos diferenciar dos corrientes o dos tipos de estadstica, una estadstica descriptiva y una estadstica inferencial, definiendo la primera como aquella que se dedica a los mtodos de recoleccin, descripcin, visualizacin y resumen de datos originados a partir de los fenmenos en estudio y donde los datos pueden ser resumidos numrica o grficamente. Por otra parte, la estadstica inferencial que se dedica a la generacin de los modelos, inferencias y predicciones asociadas a los fenmenos en cuestin teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacin bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), estimaciones de caractersticas numricas (estimacin), pronsticos de futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin). En este tema nos dedicaremos a tratar todo lo referente (en sentido global) a la estadstica descriptiva. Ejemplos de este tipo de anlisis descriptivo pueden encontrarse en la prensa diaria, en la parte de informacin econmico-social: series de tiempo, grfica de barras, ndices de

precios, resultados de una encuesta y ms elaborado, para ms de una variable, en pirmide de edades, comparativas, calificaciones, resultados de deportes, etc.

ORGANIZACIN DE LOS DATOS Arreglo Ordenado: es una lista de valores de un grupo (sea poblacin o muestra) en orden de magnitud de menor a mayor valor. Tablas de frecuencia: exponen la informacin recogida en la muestra de forma que no se pierda nada de informacin. Se caracterizan por ordenar la informacin dividindola en clases o intervalos y definiendo varias magnitudes para cada una de ellas. Estas magnitudes son: Frecuencia absoluta (fa) de una variable estadstica X, es el nmero de veces que aparece en el estudio este valor. Frecuencia relativa (fr), es el cociente entre la frecuencia absoluta y el tamao de la muestra (N). Multiplicado por 100% representa el porcentaje de la poblacin que representa esa clase. Frecuencia acumulada (absoluta o relativa): acumulacin de las frecuencias a medida que se va incrementando de clases. Marca de clase: punto intermedio entre el valor mnimo y el valor mximo de una clase determinada. Modelo de tabla de frecuencia Clase Marca de Frecuencia Frecuencia % Frecuencia % Frecuencia clase Absoluta relativa Relativa relativa acumulada

Estas tablas de frecuencia sirven para todo tipo de variables en donde la nica diferencia sera la forma de determinar las clases. Si las variables son cualitativas, cada cualidad estudiada es una clase. Si las variables son cuantitativas continuas es necesario determinar intervalos de clase los cuales, para efectos de este curso, se determinan utilizando la regla de Sturges. Para el caso de las variables cuantitativas discretas es necesario conocer la modalidad de la variable de estudio, si esta es muy grande (por

ejemplo, cantidad de aos que puede vivir una persona) es necesario dividir esa modalidad en intervalos, los cuales determinaremos utilizando la regla de Sturges (para efectos de este curso). Pero, si la modalidad es pequea (por ejemplo, el lanzamiento de un dado, el cual solo tiene 6 valores posibles) colocaremos cada valor posible en una nica clase (sin agruparlos de algn modo). Presentacin grafica de datos: Diagrama de barras para variables cualitativas. Diagrama de sectores (torta): para variables cualitativas. Histograma de frecuencias (absolutas, relativas o porcentaje): para variables cuantitativas. Polgono de frecuencias (absolutas, relativas o porcentaje): para variables cuantitativas. Diagrama de frecuencias acumuladas (escalones) para variables cuantitativas discretas. Diagrama de frecuencias acumuladas (ojiva): para variables cuantitativas continuas. Anlisis de los datos Dada la siguiente tabla de frecuencias:

Responder: A) Cuntos individuos tienen menos de dos hijos? R: Se suman las frecuencias de las clases 0 y 1 y da como resultado 674 individuos. B) Qu porcentaje de individuos tiene 6 hijos o menos? R: 97,3% C) Qu cantidad de hijos es tal que al menos el 50% de los individuos tiene una cantidad menor o igual? R: 2 hijos.

DESCRIPCIN NUMRICOS

DE

UN

CONJUNTO

DE

MEDICIONES:

MTODOS

Las tablas de frecuencia y los histogramas de frecuencia relativa introducidos en el tema I proporcionan una informacin til respecto al conjunto de mediciones, pero no son adecuados para hacer inferencias por que no estn bien definidos. De hecho, se podran construir muchos histogramas semejantes a partir del mismo conjunto de medidas. Para hacer inferencias de una poblacin basadas en datos de una muestra y medir la validez de estas necesitamos definir cantidades de manera rigurosa para analizar la informacin de la muestra. Mediante las matemticas es posible obtener ciertas propiedades de esas cantidades mustrales y establecer conclusiones probabilsticas en cuanto a la validez de nuestras inferencias. Las cantidades que definiremos son medidas numricas descriptivas de un conjunto de datos. Buscamos nmeros que describan la distribucin de frecuencias de cualquier conjunto de mediciones. En este tema abordaremos las medidas de tendencia central, medidas de dispersin y variabilidad, medidas de posicionamiento y medidas de apuntamiento o curtosis. Parmetro y Estadstico Una medida descriptiva relacionada con una variable aleatoria, cuando la variable se considera sobre toda una poblacin se denomina parmetro. Los parmetros se indican por lo general con letras griegas. Un parmetro con el que es frecuente encontrarse es el valor promedio de la poblacin o media de la poblacin, la cual se indica mediante la letra griega . Por ejemplo, en el estudio de las enfermedades cardiacas, el investigador estara interesado en determinar el valor promedio de cigarros fumados por da por los

miembros de la poblacin, sin embargo no es posible obtener el valor exacto de este parmetro a menos que se estudien todos los miembros de la poblacin, lo cual es una tarea casi imposible. Puesto que es imposible hacerlo, el valor del parmetro seguir siendo una incgnita desconocida incluso despus de terminar el estudio, pero la cual podremos aproximar mediante el uso de diversos mtodos estadsticos aplicados a una serie de datos (una muestra) recogidos de esa poblacin. Una medida descriptiva relacionada con una variable aleatoria, cuando las variables solo se considera sobre una muestra, se denomina estadstico. Los estadsticos tienen dos fines, por un lado, describen la muestra que est disponible, y por el otro, sirven como aproximacin a los parmetros correspondientes a la poblacin. Por ejemplo, la media de cigarrillos fumados diariamente por los miembros de una muestra de pacientes con enfermedades cardiacas es un estadstico que se denomina promedio de la muestra o media muestral. Su valor para una muestra dada, probablemente, no ser igual a la media de la poblacin, pero sin embargo, se espera que al menos su valor se aproxime a . Como ejemplo de estos conceptos pudiramos citar el evento de las elecciones presidenciales de un pas. El hecho de votar, implica que tericamente (y segn las restricciones constitucionales de cada pas) toda la poblacin debera ir a escoger un candidato. Una vez que se realiza el proceso de votacin y finaliza el conteo de votos los resultados dados pudieran ser, por ejemplo, 60% de los votos a favor del candidato alfa y 40% de los votos a favor del candidato beta (suponiendo que solo fueron dos candidatos a elecciones). Estos valores 60% y 40% son parmetros, ya que estos valores descriptivos fueron calculados a partir de datos de una poblacin completa. Tomando este mismo ejemplo es fcil imaginar que antes de las elecciones cada uno de los candidatos quera conocer o tener una idea de con cuanta popularidad cuentan y pronosticar los resultados. Para ello cada cierto tiempo tomaban una muestra aleatoria a la cual estudiar y tener una idea de la popularidad con la que cuentan antes de las elecciones. As, el estudio de un cierto da podra dar 30% a favor del candidato beta versus un 70% a favor del candidato alfa y otro da podra dar 50% y 50% para ambos candidatos, todos estos datos obtenidos son estadsticos ya que fueron calculados a partir de una muestra aleatoria y aunque no son iguales a los parmetros tienen cierta tendencia a aproximarse a ellos.

Medidas de tendencia central Las medidas de tendencia central conllevan informacin respecto al valor promedio de un conjunto de valores. Tal como se ver, la palabra promedio se puede definir en diversas formas. Las tres medicas de tendencia central de uso ms frecuente son: la media, la moda y la mediana. La media aritmtica: es la medida de tendencia central ms conocida y es la que la mayora de las personas tienen en mente cuando hablamos de promedio. Esta se obtiene sumando todos los valores en una poblacin o muestra y dividiendo entre el nmero de valores sumados. La mediana: de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes iguales, de forma que el numero de valores mayores o iguales a la mediana es igual al nmero de valores menores o iguales a esta. Si el nmero de valores en el conjunto es impar, la mediana es el valor central siempre y cuando todos los valores estn arreglados en orden de su magnitud. Cuando el numero de valores en el conjunto es par, no existe un valor medio nico, si no que existen dos valores medios. En tal caso, la mediana corresponde a la media de esos dos valores centrales, cuando todos los valores son arreglados en orden de magnitud. Sobre la mediana podemos definir algunas propiedades, la primera es que es nica, (al igual que la media) existe solo una mediana para un conjunto de datos, es simple de calcular y los valores extremos no tienen efectos importantes sobre la mediana (lo que si ocurre con la media). La moda: de un conjunto de valores es aquel valor que ocurre con mayor frecuencia. Si todos los valores son diferentes, no hay moda. Por otra parte, un conjunto de valores puede tener ms de una moda. Medidas de dispersin La media de un conjunto de datos y las dems medidas de tendencia central indican el centro de una distribucin de los datos, no proporciona en s misma una descripcin adecuada de un conjunto de mediciones. Dos conjuntos de mediciones podran tener distribuciones de frecuencia muy distintas pero con la misma media, por eso para describir los datos de manera adecuada es preciso definir medidas de variabilidad de datos.

La medida de variabilidad de ms comn empleada en estadstica es la varianza, que es una funcin de las desviaciones o distancias de las mediciones muestrales con respecto a la media. Resulta til considerar a la varianza como casi el promedio de los cuadrados de las desviaciones entre los valores observados y media. Cuanto mayor sea la varianza de un conjunto de mediciones, mayor ser el grado de variacin dentro del conjunto. La varianza es til para comparar la variacin relativa de dos conjuntos de mediciones, pero solo cuando se interpreta en trminos de desviacin estndar proporciona informacin referente a la variacin de un solo conjunto. El coeficiente de variacin: es una medida de dispersin til para comparar dispersiones a escalas distintas pues es una medida invariante ante cambios de escala. Sirve para comparar variables que estn a distintas escalas pero que estn correlacionadas estadsticamente y sustantivamente con un factor en comn. Es decir, ambas variables tienen una relacin causal con ese factor. Su frmula expresa la desviacin estndar como porcentaje de la media aritmtica, mostrando una mejor interpretacin porcentual del grado de variabilidad que la desviacin tpica o estndar. Medidas de localizacin. Percentiles y Cuartiles. Los estadsticos de posicin van a ser valores de la variable caracterizados por superar a cierto porcentaje de observaciones en la poblacin (o muestra). Tenemos fundamentalmente a los percentiles como medidas de posicin, y asociados a ellos veremos tambin los cuartiles y deciles.

Percentiles: Para una variable discreta, se define el percentil de orden k, como la observacin, Pk, que deja por debajo de si el k% de la poblacin. Vase la figura a continuacin. Esta definicin nos recuerda a la mediana, pues como consecuencia de la definicin es evidente que Med = P50

Cuartiles: Los cuartiles, son un caso particular de los percentiles. Hay 3, y se definen como: Q1 = P25 Q2 = P50 = Med Q3 = P75 Estadsticos de Asimetra Al ver la simetra o asimetra de un conjunto de datos, vamos a plantear el saber si los datos se distribuyen de forma simtrica con respecto a un valor central, o si bien la grfica que representa la distribucin de frecuencias es de una forma diferente del lado derecho que del lado izquierdo. Para saber si una distribucin de frecuencias es simtrica, hay que precisar con respecto a que. Un buen candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos partes de igual rea. Podemos basarnos en ella para, de forma natural, decir que una distribucin de frecuencias es simtrica si el lado derecho de la grafica (a partir de la mediana) es la imagen por un espejo del lado izquierdo (vase la figura a continuacin). Cuando la variable es discreta, decimos que es simtrica, si lo es con respecto a la media. Dentro de los tipos de asimetra posible, vamos a destacar los dos fundamentales:

Asimetra positiva: Si las frecuencias ms altas se encuentran en el lado izquierdo de la media, mientras que en derecho hay frecuencias ms pequeas (cola). Asimetra negativa: Cuando la cola esta en el lado izquierdo. Cuando realizamos un estudio descriptivo es altamente improbable que la distribucin de frecuencias sea totalmente simtrica. En la prctica diremos que la distribucin de frecuencias es simtrica si lo es de un modo aproximado. Por otro lado, aun observando cuidadosamente la grafica, podemos no ver claro de qu lado estn las frecuencias ms altas. Se definen entonces toda una familia de estadsticos que ayuden a interpretar la asimetra, denominados ndices de asimetra.

FUNDAMENTACIN BIBLIOGRFICA Wackerly, D. Mendenhall III, W. Scheafer, R. (2002) Estadstica matemtica con aplicaciones. Editorial Thomson, Mexico, D.F. Mexico. Daniel, W. (2006) Bioestadstica, base para el anlisis en ciencias de la salud. Editorial Limusa-Weiley, Mexico D.F. Mexico.

FORMULARIO

Medidas de tendencia central

Datos sin agrupar: Media Datos Agrupados: Mediana Datos Agrupados:

Medidas de dispersin

Datos sin agrupar: Varianza Datos Agrupados:


Desviacin estndar Coeficiente de Variacin

Con datos agrupados o sin agrupar:

Con datos agrupados o sin agrupar:

Medidas de Localizacin
Percentil Con datos agrupados:

Medida de Asimetra
Metodo de Yule-Bowley

EJERCICIOS

1. Una variable de inters en un estudio del cangrejo Xanthidae, es el nmero de huevos puestos por individuo. Las siguientes son las observaciones obtenidas para 45 cangrejos: 1959 2802 2412 6837 5099 6472 4534 2462 7624 8639 6627 8372 7020 4000 1548 7417 4484 8225 6725 6964 7428 3378 7343 4189 4801 737 5321 6082 10241 962 5633 4148 6588 6142 12130 9359 8973 849 3894 5847 9166 4327 5749 1801 4632

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas (ojiva). Por otra parte, intente calcular las medidas de tendencia central, dispersin, localizacin (Cuartiles) y asimetra y curtosis, utilizando los mtodos de datos agrupados. Por ltimo, intente dar una conclusin sobre los resultados.

2. Un estudio consisti en preguntarles a 20 pacientes cual fue el grado de dolor que sintieron durante una puncin lumbar. Este grado de valor de midi creando una escala del 1 al 5 donde a medida que el nmero aumenta, el nivel de dolor es cada vez mayor y donde el 1 representa nada de dolor y el 5 representa dolor insoportable. La tabla que se muestra a continuacin representa las respuestas de estas 20 personas: 3 2 4 4 5 5 2 4 3 1 5 4 5 3 2 2 4 3 3 1 2 5 5 4 3

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas (escaln). Por otra parte, intente dar una conclusin sobre los resultados. 3. Un Psiclogo est estudiando las preferencias religiosas de una determinada poblacin. Para ello tomo una muestra de 50 personas y las respuestas que obtuvo de cada una de ellas fueron:
Catolico Protestante Budista Protestante Ateo Musulman Ateo Catolico Ateo Budista Protestante Catolico Musulman Budista Catolico Budista Protestante Protestante Catolico Ateo Ateo Musulman Budista Budista Protestante Budista Catolico Ateo Musulman Protestante Catolico Protestante Protestante Musulman Catolico Catolico Ateo Budista Protestante Protestante Budista Musulman Musulman Protestante Ateo Catolico Budista Catolico Budista Catolico

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas (escaln). Por otra parte, intente dar una conclusin sobre los resultados. 4. A continuacin, se muestra el histograma de frecuencias relativas de los promedios de puntuaciones de una muestra de 30 estudiantes de medicina. Dicho histograma posee una variacin, los nmeros bajo las barras son marcas de clase y no intervalos.
8 7 6 5 4 3 2 1 0 1.85 2.05 2.25 2.45 2.65 2.85 3.05 3.25 3.45

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas (ojiva). Por otra parte, intente calcular las medidas de tendencia central, dispersin, localizacin (Cuartiles) y asimetra y curtosis, utilizando los mtodos de datos agrupados. Por ltimo, intente dar una conclusin sobre los resultados. Responda: Qu categoras de promedios de puntuaciones identificadas en el eje horizontal se relacionan con la mayor proporcin de estudiantes? Qu proporcin de estudiantes tenia promedios de puntuaciones en cada una de las categoras identificadas? Qu proporcin de estudiantes tenia promedio de puntuaciones menor de 2,65? De sus propias conclusiones acerca de esta grafica

5. El histograma de frecuencias relativas que aparece a continuacin se elaboro a partir de los datos obtenidos de una muestra de 25 familias. A cada una se le pregunto cuntos cuartos de litro de leche haba comprado la semana anterior.

38.00% 36.00% 34.00% 32.00% 30.00% 28.00% 26.00% 24.00% 22.00% 20.00% 18.00% 16.00% 14.00% 12.00% 10.00% 8.00% 6.00% 4.00% 2.00% 0.00% 1 2 3 4 5 6

Con el histograma de frecuencias relativas determine cuantos cuartos de leche compro la mayor proporcin de las 25 familias. Las categoras relacionadas con la mayor frecuencia relativa recibe el nombre de moda. Qu proporcin de las 25 familias compro ms de 2 cuartos de litro de leche? Qu proporcin compro ms de 0 cuartos y menos de 5 cuartos? Cuntas de las 25 familias, compraron 1, 2, 3, 4, 5 y 6 cuartos litros de leche? Por lo general, cuantos cuartos de litros podra llevarse una familia? Cuntas familias, de las 25, compraron 4 o ms cuartos de litro? Cuntas familias, de las 25, compraron entre 2 y 5 cuartos de litro?

6. Quince pacientes con limitaciones crnicas severas de respiracin son sujetos de estudio por parte de Fernandez et al. (A-8), para investigar la eficacia del tratamiento

para mejorar el intercambio de gases. Los siguientes valores representan la superficie corporal de los pacientes:

1,57 1,71 2,76

2,10 1,73 1,90

1,74 1,65 1,77

1,68 1,74 1,69

1,83 1,57 2,38

A partir de estos calcule las medidas de tendencia central y dispersin, utilizando los mtodos de datos sin agrupar, luego agrupe los datos en una tabla de frecuencias y calcules las mismas medidas utilizando el mtodo de datos agrupados y compare los resultados. Por ltimo, intente dar una conclusin sobre los resultados. 7. A partir de los siguientes datos:

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas (ojiva). Por otra parte, intente calcular las medidas de tendencia central, dispersin, localizacin (Cuartiles) y asimetra y curtosis, utilizando los mtodos de datos agrupados. Por ltimo calcule las medidas de tendencia central y dispersin utilizando los mtodos de datos sin agrupar y compare con lo anteriormente calculados.

8. A partir de los siguientes datos:

A partir de estos datos realice una tabla de distribucin de frecuencias, histogramas y polgonos de frecuencias absolutas y relativas, diagrama de frecuencias acumuladas (ojiva). Por otra parte, intente calcular las medidas de tendencia central, dispersin, localizacin (Cuartiles) y asimetra y curtosis, utilizando los mtodos de datos agrupados. Por ltimo calcule las medidas de tendencia central y dispersin utilizando los mtodos de datos sin agrupar y compare con lo anteriormente calculados.

También podría gustarte