Está en la página 1de 13

Mg.

Csar Puicn Montero

BIOESTADISTICA I. INTRODUCCIN El objetivo de estas notas es presentar en forma clara y resumida los principales conceptos y mtodos que constituyen la estadstica descriptiva e inferencia estadstica. En ese sentido se hace necesario tener claro conocimiento de algunos trminos que van a ser utilizados con frecuencia, tales como: 1. 2. 3. 4. 5. 1.1 Poblacin y muestra Variables: tipo de variables Parmetros Estadsticas o estadgrafos Escalas de medicin

Poblacin y muestra: a) Poblacin: Se designa con este trmino a cualquier conjunto de elementos que tienen por lo menos una caracterstica comn. Cada uno de los elementos que integra tal conjunto recibe el nombre de unidad de anlisis o individuo. La poblacin debe ser precisada en el tiempo (perodo en que se lleva a cabo el estudio) y en el espacio (lugar geogrfico o institucin) para que resulte inequvoca. Cuando se realiza una investigacin, generalmente no es posible analizar todos los individuos de la poblacin, es decir, el investigador tiene limitaciones en este proceso por diversos motivos; por ejemplo el proceso de investigacin puede significar la distorsin del elemento estudiado (en los procesos de control de calidad) o bien los individuos no existen en la realidad sino conceptualmente, o sencillamente porque la poblacin de estudio contiene tantos elementos que resulta imposible operativamente el estudio de todos ellos (poblacin de peces en una determinada baha). Es por ello que en muchas circunstancias se recurre al estudio de un subconjunto, en general pequeo, de elementos extrados de la poblacin, y que denominamos muestra. b) Muestra: Es un subconjunto de individuos pertenecientes a una poblacin, representativo de la misma, es decir, subconjunto seleccionado apropiadamente. Existen diversas formas de obtencin de la muestra en funcin del anlisis que se pretende efectuar y de acuerdo con la configuracin de la poblacin. A estas formas o tcnicas de extraer muestras representativas de la poblacin se conoce con el nombre de tcnicas de muestreo. Es as como obtenemos una muestra representativa de la poblacin en el sentido de que las caractersticas o variables de la poblacin deben estar en la muestra sin haber sufrido modificaciones significativas.

1.2 Variables Cuando se inicia una investigacin en la que se obtiene datos, hay que tener en cuenta que se va a manejar una cantidad que puede ser grande o pequea de ellos, que no son otra cosa que una representacin de la realidad que se pretende analizar. Este paso de la realidad a los datos exige un proceso de abstraccin mediante el cual nos adecuamos al lenguaje de la estadstica. En este proceso de abstraccin, el primer paso consiste en relacionar el fenmeno que se estudia con los conceptos de variables y atributos. Se denomina variable cuantitativa o numrica a cualquier fenmeno o caracterstica susceptible de ser concretada en trminos numricos. Ejemplo de variables cuantitativas: la estatura o el peso de las personas, el nmero de hijos por familia, etc. Los resultados al medir este tipo de fenmenos recibe el nombre de valores u observaciones. Las variables cuantitativas pueden ser clasificadas como: a) Variables discretas: Son aquellas que pueden tomar un nmero finito de valores dentro de un intervalo finito o un nmero infinito numerable. Por ejemplo: nmero de hijos por familia, nmero de huevos por nido, el nmero de glbulos rojos por milmetro

Mg. Csar Puicn Montero

cbico de sangre, el nmero de partculas alfa que emite una sustancia radiactiva en un segundo, etc. b) Variable continua: Es aquella que puede tomar infinitos valores dentro de un intervalo finito en el que esta definido. Ejemplo: la estatura, el peso, el tiempo de reaccin frente a un estmulo, el tiempo de incubacin de un huevo de una gallina, etc. En este caso, dados dos valores cualesquiera de la variable, siempre ser posible encontrar valores intermedios entre ambos, utilizando un instrumento de medida de mayor precisin. Se denomina variable cualitativa o atributo al fenmeno o caracterstica que no puede ser expresada en trminos numricos y cuyos resultados se denominan categoras, niveles o modalidades. Ejemplos: gnero, partido poltico, nivel socioeconmico, tipo de sangre etc. La variable cualitativa ms simple es aquella que solo presenta dos niveles o categoras (atributos dicotmicos) y corresponden a aquellos fenmenos para los cuales caben nicamente dos tipos de respuesta: si / no, favorable / desfavorable, presencia / ausencia, positivo / negativo, hembra / macho, etc. 1.3 Parmetros. Son medidas de resumen que describen las caractersticas de una poblacin. Para obtener su valor es necesario medir u observar a todos los elementos de la poblacin, es por esto que no se pueden calcular muy fcilmente, slo se estiman. Los parmetros son constantes. Ejemplos: media aritmtica y varianza poblacionales. 1.4 Estadsticas. Son tambin medidas de resumen que las caractersticas de la muestra y para calcular su valor se miden u observan los elementos de la muestra. Las estadsticas son variables puesto que son funciones de los elementos de la muestra. Ejemplos: media aritmtica, varianza, proporcin o porcentajes muestrales.. 1.5 Escala de medicin (grado de precisin de la medida de la caracterstica) Por medicin se entiende la asignacin de nmeros a una determinada caracterstica. En toda investigacin es necesario precisar en que escala se han medido las variables involucradas. La escala de medicin determina los mtodos estadsticos que se usan para analizar los datos. Existen cuatro tipos de escalas: a) Escala nominal,La informacin sobre una determinada caracterstica o fenmeno est expresada en escala nominal cuando tal informacin se clasifica en categoras o niveles mutuamente excluyentes, entre, los cuales no se puede establecer ninguna relacin de orden. Los atributos tales como sexo, color de cabello, estado civil, son ejemplos de factores medidos en esta escala nominal. b) Las medidas en escala ordinal.- son aquellas que teniendo las propiedades de la escala nominal se diferencian en que es posible establecer relaciones de orden entre las diferentes categoras. Ejemplo de esta escala son los niveles de datos tales como: leve, moderado y severo; la severidad de una enfermedad: grado I, grado II y grado III. c) Escala de intervalo.- Se asignan nmeros para indicar la intensidad de una caracterstica, con unidad de medida y origen arbitrarios. As como, la escala por intervalos asume la clasificacin entre los valores de la variable estudiada. Los ejemplos clsicos de variables medidas en esta escala son: temperatura, coeficiente de inteligencia, edad monrquica de las mujeres. d) Escala de proporcin o razn.- En esta categora se consideran aquellas mediciones en las que adems de ser relevantes las propiedades de la escala de intervalos, tiene sentido fijar un punto de origen que marque un cero absoluto. Esta escala asume todas las operaciones matemticas de las anteriores escalas: clasifica, ordena, establece intervalos, determina la igualdad de razones o proporciones entre los intervalos establecidos. Es decir, se permiten las operaciones aritmticas con los nmeros que identifican las categoras. Ejemplo de variables cuantitativas medidas por escala de proporcin son estatura, peso, el CO2 en la sangre.

Mg. Csar Puicn Montero

II

ORGANIZACIN DE LA INFORMACIN

Realizado el experimento o finalizada la investigacin, el investigador ha recopilado un conjunto de datos u observaciones los cuales requieren ser ordenados u organizados. La Estadstica nos proporciona los mtodos apropiados para tal fin. As tenemos: 2.1 Tablas o cuadros estadsticos. Es la presentacin de datos ordenados en filas y columnas. Partes principales de una tabla y Nmero de la tabla: Es el cdigo con el que se identifica la tabla que generalmente es un nmero decimal. Ejemplo: Tabla N 3.7 la parte entera, 3, indica el captulo o parte de la obra en donde se encuentra ubicada la tabla y la parte decimal 7, indica que es la sptima tabla de ese captuloy El ttulo de la tabla: La tabla se explicar por si misma por tanto se debe dar suficiente informacin en el ttulo, es decir, el ttulo debe ser conciso y completo puesto que es una descripcin del contenido. Para que un ttulo sea completo, ste debe responder a cuatro preguntas claves: Qu? Qu se estudia, es decir, cul es la poblacin que se est estudiando?; Cmo?, es decir, cmo se clasifican los datos en la tabla, o sea, de acuerdo a qu caractersticas?; Dnde?, es decir, a qu institucin o lugar geogrfico pertenecen los datos?; Cundo?, es decir, el perodo de tiempo o fecha en la que se realiz la investigacin y se recolectaron los datos. y Fila de los encabezamientos o de los subttulos. En esta fila se escriben los nombres de las variables y sus categoras o niveles. Cuando la variable es cuantitativa se anota sus unidades de medida. y Columna matriz: es la primera columna del margen izquierdo. En esta columna se anota las categoras o niveles de la variable que est considerada en la fila de los encabezamientos. y Cuerpo de la tabla: son las casillas o celdas en donde se consignan los datos.

y Fuente: Cuando los datos corresponden a investigaciones realizadas con objetivos diferentes, es conveniente mencionar la fuente no solo como un reconocimiento al autor sino tambin para orientar al lector y pueda consultar la fuente primaria. 2.2 Distribuciones de frecuencias Qu es una distribucin de frecuencias?. Es la organizacin de los datos obtenidos en grupos o clases llamados intervalos de clase, los cuales son mutuamente excluyentes y colectivamente exhaustivos Cul es el objetivo al organizar los datos en una distribucin de frecuencias? Detectar la tendencia de la variable de estudio, es decir observar alrededor de valor o valores se agrupa la mayora de los datos, y hacer un anlisis preliminar.. Se dice tambin que una distribucin de frecuencias es una primera forma de resumir la informacin. Ejemplo. La tabla N 2.6 es una distribucin de frecuencias; en esta tabla se han ordenado 1067 observaciones correspondientes a los niveles de colesterol en la sangre de 1067 varones estadounidenses de entre 25 y 34 aos de edad. En esta distribucin se observa que el 69,45% ((442+299) / 1067) de los individuos de la investigacin tiene niveles colesterol comprendidos entre 160 y 239 mg/100 ml

Mg. Csar Puicn Montero

Para variables nominales y ordinales, una distribucin de frecuencias consiste en un conjunto de categoras o clases con cantidades numricas correspondientes a cada categora que toman el nombre de frecuencias. Ejemplo, la tabla N 2.9 Para presentar las observaciones correspondientes a una variable discreta o continua en forma de una distribucin de frecuencias debemos proceder de la siguiente manera: a) Determinar el nmero el nmero de intervalos a considerar. En principio, ni pocos ni demasiados intervalos. Si hay demasiados intervalos el resumen no tiene grandes ventajas respecto de los datos a procesar. Si se consideran pocos, se sintetiza demasiado de manera que se pierde gran cantidad de informacin. Una regla que se usa para determinar el nmero de intervalos a considerar, se conoce con el nombre de regla de Sturges, que consiste en calcular k k = 1 + 3.322log N siendo N el nmero de observaciones y k el nmero de intervalos. Se recomienda que el nmero de intervalos no debe ser menor de 5 ni mayor de 20. b) Luego se divide el rango o recorrido entre k, y de esa manera obtenemos la longitud de cada intervalo c) Se calculan los lmites inferior y superior de cada intervalote clase. d) Calculados los lmites se hace el recuento de cuantas observaciones pertenecen a cada intervalo de clase ( frecuencias absolutas) e) Toda distribucin de frecuencias debe empezar con el nmero y el ttulo. Ejemplos
Tabla No 2.6 Frecuencias absolutas de niveles de Colesterol en la sangre de 1067 Varones estadounidenses de entre 25 y 34 aos de edad, 1976- 1980 Niveles de colesterol (mg/100ml 80-119 120-159 160-199 200-239 240-279 280-319 320-359 360-399 Total Cantidad de varones 13 150 442 299 115 34 9 5 1067

Fuente: Marcelo Pagano, K Gauvreau. Fundamentos de Bioestadstica 2001 Thomson Learning

Tabla N 2.9 Muertes por lesiones de 100 nios De entre 5 y 9 aos de edad, Estados Unidos, 19890-1985 Causa Cantidad de muertes Vehculos de motor 48 Ahogamiento 14 Incendio domstico 12 Homicidio 7 Otro 19 Total 100

Mg. Csar Puicn Montero

2.3 Diagramas de tallos y hojas. Es la representacin numrico- grfica del conjunto de datos. y se recomienda su uso cuando se dispone de pocos datos (menos de treinta). El diagrama de tallos y hojas consiste en una sucesin de filas horizontales de datos (nmero) . Cada fila tiene como rtulo un nmero representativo llamado tallo de la fila, mientras que los dems nmeros de la fila se llaman hojas. Construccin de un diagrama de tallos y hojas a. En principio, cada dato original se divide en dos partes, el primer dgito o los dos primeros dgitos constituirn los tallos b. Se determina cuntos tallos hay en el conjunto de datos. Luego se rotulan las filas con los tallos seleccionados c. En cada observacin (dato), el dgito que sigue al tallo se considera como hoja y se registra en la fila que est rotulada con el tallo correspondiente. Ejercicios: 1.- La exposicin intensa al cadmio produce dificultad respiratoria, daos en los riones y el hgado, y puede ocasionar la muerte. Por esta razn, se controla el nivel de polvo de cadmio y de humo de xido de cadmio en el aire. Una muestra de 35 lecturas proporciona estos datos: 0.044 0.020 0.040 0.057 0.055 0.061 0.047 0.030 0.066 0.045 0.050 0.037 0.061 0.051 0.052 0.052 0.039 0.056 0.062 0.058 0.054 0.044 0.049 0.039 0.061 0.062 0.053 0.042 0.046 0.030 0.039 0.042 0.070 0.060 0.051 a. Construir un diagrama de tallos y hojas. Utilizar los nmeros 02 03 04 05 06 y 07 como tallos. b. Se sorprendera si le dijeran que la variable aleatoria X, nivel de polvo de cadmio del aire sigue una distribucin en forma de campana?. 2.- Se estn estudiando dos medicamentos, amantadina (A) y rimantadina ( R), para combatir el virus de la gripe. Se han administrado por va oral dosis nica de 100 mg a adultos sano. La variable estudiada es Tmax, tiempo requerido en minutos la alcanzar la concentracin mxima de plasma. Se obtuvieron los datos siguientes: ( Basado en la informacin publicada en Gordon Douglas Jr. Drug Therapy, New Englad Journal of Medicine, febrero de 1990, pags.443-449)
T max (A): 105 126 120 119 133 145 200 123 108 112 132 136 156 12.4 134 130 130 142 170. T max (R): 221 261 250 230 253 256 227 264 236 246 273 271 280 238 240 283 516

a. Construir un diagrama de cajas para cada conjunto de datos e identificar los datos atpicos. b. Calcular la media aritmtica y la desviacin estndar para cada conjunto de datos. c. Supongamos que el dato atpico del conjunto A es el resultado de un punto decimal mal colocado. Corregir el error borrando el decimal y observar qu cambios produce esto en el diagrama de cajas. Volver a calcular la media y desviacin estndar, utilizando los datos correctos y comparar los resultados con los del apartado b d. Hay algn dato atpico en el conjunto R? Si es as, existe alguna razn legtima obvia para borrarlo del conjunto de datos? 2.4 Representaciones grficas La mayora son figuras geomtricas que se utilizan para visualizar el comportamiento o la tendencia de la variable (s) de estudio. Tipos de grficos segn la naturaleza de la variable de estudio: y Para variables cuantitativas: Histogramas y polgonos. y Para variables cualitativas: Grficos de barras y grficos circulares

Mg. Csar Puicn Montero

III RESUMEN DE LA INFORMACIN Las distribuciones de frecuencias y las tablas estadsticas son una primera forma de resumir la informacin para hacer un anlisis preliminar, pero no es suficiente. Se trata ahora de sustituir a toda la serie de datos o distribucin de frecuencias por unos pocos ndices. Para elegir a esos ndices o parmetros debemos considerar tres aspectos bsicos, y ellos son: la localizacin o ubicacin, dispersin o variacin, y la forma, de la distribucin y Localizacin o ubicacin de la distribucin. Se trata de la ubicacin de la masa de datos en el eje real. Los indicadores o ndices de la localizacin se conocen con el nombre de medidas de tendencia central, y son: media aritmtica, mediana, moda o modo, media geomtrica y la media armnica. En la Figura N 1 Se observan dos poblaciones ubicadas en diferentes puntos del eje real, en los puntos 1 y 2 , es decir, tienen diferente localizacin o ubicacin.( 1 < 2 ) Poblacin I Poblacin II

1 Fig. N 1 y

Dispersin o variacin. Se refiere a la variabilidad de los datos que constituyen la distribucin, es decir, a la forma como se dispersan o como varan los datos alrededor de un valor central. Los ndices de la dispersin se conocen con el nombre de medidas de dispersin, y estos son: la varianza, desviacin estndar, coeficiente de variacin, recorrido intercuartlico y el recorrido o rango o amplitud total. En la Figura. N 2 se observan dos poblaciones con diferente dispersin y tambin diferente ubicacin ( 1 < 2 y .1 < 2 respectivamente) Poblacin I
1

y Poblacin II
2

1 Fig. N 2

En la Figura N 3 se observan tres poblaciones con igual ubicacin y diferente dispersin ( 1 = 2 = 3 y 1 < 2 < 3 respectivamente) Poblacin I: (1,
1

) )
3)

Poblacin II (2;

Poblacin III (3 ;

Fig. N 3

Mg. Csar Puicn Montero

Forma de la distribucin. La distribucin puede ser simtrica, o asimtrica o sesgada, esta ltima puede ser de sesgo positivo o de sesgo negativo. Los ndices de la forma de la distribucin son los coeficientes de asimetra. En la Figura N4 se observan tres distribuciones con diferente forma Poblacin I Poblacin II Poblacin III

Distribucin con

Distribucin

Distribucin con

asimetra negativa

simtrica Fig. N 4

asimetra positiva

Vamos a describir a cada uno de estos ndices. 3.1 MEDIDAS DE TENDENCIA CENTRAL A este conjunto de medidas de resumen se les conoce como medidas de tendencia central, porque tienden a ubicarse en el centro de la distribucin. Estas medidas son: la media aritmtica, mediana, moda, media geomtrica y tambin podemos considerar a las medidas de posicin conocidos con el nombre de percentiles 3.1.1 Media aritmtica Es la medida de tendencia central ms conocida y de mayor uso, comnmente la llaman promedio aritmtico o simplemente promedio, pero todas las tendencia central son promedios. Se define como la suma de todas las observaciones dividida entre el nmero de observaciones, es decir,

x!
Ejemplo 3.1.1.1

X
n

Se han obtenido la cantidad de fsforo (en mg / g de hoja) en hojas secas: Xi: 8.15, 8.26, 8.40, 8.58 y 8.60 La media aritmtica es:

. Es decir,

X =

X
n

41.91 ! 8.398 mg / g 5

Ubicacin de los cinco datos y la media aritmtica en eje real

8.00 Datos

8.10 o

8.20 o

8.30

8.40 o

8.50

8.60 o o

= 8.398 (media aritmtica

Mg. Csar Puicn Montero

Ejemplo 3.1.1.2 Se dispone del tiempo de vida (en meses) de tres especies de pjaros en cautiverio: Especie A Xi: (meses): 34 36 37 39 40 41 42 43 49 Especie B Xi: (meses): 35 36 39 41 42 43 45 Especie C Xi : (meses): 46 38 36 44 46 50

45 48 52 47 39 36 92

Se observa que la especie A tiene menor esperanza de vida en cautiverio ( A =40.11 meses, en tanto que B = 42.10 meses y C = 47.9 meses) No olvide que la media aritmtica tiene la misma unidad de medida como la tienen las observaciones individuales. Observaciones f) La media aritmtica se emplea en datos cuantitativos o numricos; en cambio no debe usarse en datos ordinales debido a la naturaleza arbitraria de la escala. g) La media es sensible a valores extremos o discordantes y la presencia de ellos en un conjunto de datos hacen que la media pierda su condicin de ser representativa del conjunto h) Es la medida de tendencia central que mejor describe a un conjunto de datos cuando la distribucin es simtrica. i) Se expresa en las mismas unidades de medida en que estn dados los datos originales

3.1.2 La Mediana La mediana de un conjunto de datos es la observacin central, es decir, la mitad de las observaciones son menores o iguales que la mediana y la otra mitad son mayor o iguales que la mediana. Clculo de la mediana Procedimiento: En primer lugar, se ordenan los datos de menor a mayor (o viceversa) Segundo, encontrar el valor que esta ocupando el centro. Casos: Primer caso: En un nmero impar de observaciones la mediana es el valor que ocupa el centro. En el ejemplo 2, especie A, la mediana es Md = 40 meses. Segundo caso En un nmero par de observaciones se define como mediana a la media aritmtica de los dos valores centrales, por ejemplo en la especie B de aves en cautiverio la mediana es la semisuma de la quinta y sexta observacin, es decir, Md =

40  41 = 40.5 meses. 2
Observaciones a) La mediana no es sensible a los valores extremos, es decir, stos no tienen efectos importantes sobre la mediana ( no la modifican). b) La mediana puede usarse con valores ordinales debido a que para su clculo no se usa los valores reales de las observaciones si no se ubica el valor central. c) Se recomienda como representativa del conjunto de datos cuando existen valores extremos (distribucin asimtrica o sesgada). d) Al igual que la media aritmtica, se expresa en las mismas unidades de medida en que estn dados los datos originales.

Mg. Csar Puicn Montero

3.1.3 La Moda La moda o modo de un conjunto de observaciones se define como la observacin que ocurre con mayor frecuencia. Tal vez es mejor definir a la moda como una medicin de mayor concentracin. En algunas distribuciones de frecuencia puede haber ms de uno de esos puntos de mayor concentracin (moda), sin embargo esos puntos pueden no tener la misma frecuencia. As por ejemplo, una muestra consiste de los siguientes datos en mm. 4, 4, 5, 7,7, 8, 8, 9, 9, 9, 9, 10, 11, 12, 12, 12, 12, 12, 13, 13, 14. En este conjunto de datos observamos dos modas locales 9 y 12, pero la moda de todo el conjunto de datos segn la definicin es la observacin 12 mm 3.1.4 La Media Geomtrica Es otra medida de tendencia central, no se usa tan a menudo como las anteriores. En general se usa cuando los datos estn medidos en una escala logartmica. Se emplea en microbiologa para calcular ttulos desilusin promedio y para promediar cantidades en forma de progresiones y tasas de crecimiento. La media geomtrica cuyo smbolo que utilizaremos es del producto de n observaciones positivas. En smbolos: Sean Xi > 0 ; X1, X2, .., Xn n observaciones todas positivas, entonces la media geomtrica es:
g g

se define como la raz ensima

( x1 )( x 2 ).......( x n )

Qu medida de tendencia central usar? Obtenida la informacin, (las observaciones) la pregunta es qu medida de tendencia central es mejor para usar con los datos obtenidos. La respuesta est condicionada a dos factores: la escala de medicin (numrica u ordinal) y la forma de la distribucin de las observaciones (simtrica o asimtrica). Esta informacin ayuda a elegir la medida de tendencia central apropiada. Si existen valores discrepantes o discordantes en una distribucin se dice que la distribucin es asimtrica o sesgada, as tenemos: si los valores discordantes son pequeos la asimetra es o la izquierda o negativa. Si slo existen unos cuantos valores muy grandes comparados con el resto de los datos, la asimetra es a la derecha o positiva. Una regla para deducir la asimetra de la distribucin es comparando la media y la median, como sigue:

a) Si la media y la mediana son iguales, la distribucin es simtrica. b) Si la media es mayor que la mediana, la distribucin est sesgada o asimtrica a la derecha. c) Si la media es menor que la mediana, entonces la distribucin est sesgada o asimtrica a la izquierda. Las siguientes recomendaciones para elegir la medida de tendencia central ms adecuada: i) La media se usa para datos numricos y distribuciones simtricas (no sesgadas). ii) La mediana se usa en datos ordinales o si la distribucin es sesgada. iii) El modo se usa cuando se desea resaltar el dato ms frecuente. iv) La media geomtrica se usa en observaciones medidas en una escala logartmica.

Mg. Csar Puicn Montero

3.2 MEDIDAS DE DISPERSIN O VARIABILIDAD Las medidas de dispersin permiten estimar la representatividad de un promedio (media o mediana), en ese sentido es necesario cuantificar la dispersin o variabilidad de los datos alrededor del promedio correspondiente. Las principales medidas que calculan la dispersin son: la varianza, la desviacin estndar y el coeficiente de variacin. Todas ellas miden desviaciones respecto a la media, pero en tanto que, las dos primeras proporcionan desviaciones absolutas, la ltima proporciona desviaciones en trminos relativos a la media.

3.2.1 Varianza La varianza muestral (s2) se define como:


2

s =

( xi  X ) 2 n 1

Donde xi son los valores de la variable X, X es la media aritmtica muestral y n es el tamao de la muestra. Como vemos, la varianza viene a ser la media aritmtica de las distancias de cada uno de los datos con respecto a la media X ; pero elevados al cuadrado, en ese sentido, la magnitud de s2 medir la mayor o menor dispersin de los valores de la variable respecto a la media aritmtica; es decir, la varianza mostrar el grado de 2 representatividad de dicho promedio aritmtico, de tal forma que a mayor valor de s la dispersin ser mayor y la media aritmtica no ser buena representativa de la 2 distribucin (lo contrario suceder cuando s sea pequea). Grficamente: Y X
1 2 3

Y X
4

Y
5

Y X
6

Y X
7 8 9 10 11

P e

o s (gramos)

Grfico N 3.2.1 Tenemos dos conjuntos de observaciones (dos distribuciones): El conjunto Y cuyos vales son: 3, 4, 5, 6, y 7: El conjunto X cuyos valores son: 2, 4, 6, 8. Las medias aritmticas Y = 5 gr y X = 5 gr, es decir, las dos distribuciones tienen igual media aritmtica. Sin embargo la dispersin de los datos alrededor de su media aritmtica es diferente para las dos distribuciones y as observamos que en la distribucin Y hay  gr2. En efecto: menor dispersin comparada con la distribucin X, por tanto = =
    

gr  gr
2

 

Ejemplo3.2.1.1: En el ejemplo 3.1.1.2, la varianza del tiempo de vida de la especie A es


2

2 sA

= 19.6249 meses2 ; de la especie B es s B = 20.9764 meses2 y de la especie C es .= 2 270.537 meses .Con estos resultados deducimos que hay menor dispersin en los datos del tiempo de vida correspondiente a la especie A comparada con la dispersin los datos de la

10

Mg. Csar Puicn Montero

especie B, y con la dispersin de los datos de la especie C. Por lo tanto la media aritmtica de las observaciones del tiempo de sobrevivencia de la especie A (tiempo medio de vida) ser mejor representativa. Adems, en la especie C existe un valor atpico que es el dato 92, es por eso que la varianza aumenta.. 3.2.2 Desviacin Estndar o Tpica (s) Un inconveniente de la varianza radica en que sus unidades de medida corresponde al de la variable pero, elevadas al cuadrado, lo cual puede dificultar su interpretacin. Por esta razn se define una medida de dispersin la cul si est expresada en las mismas unidades de medida que la variable que se est analizando. Esta medida de dispersin se conoce con el nombre de desviacin estndar, es decir:

s! s !

(x

 X )2

n 1

En el ejemplo del tiempo de vida en cautiverio de las dos especies, las correspondientes desviaciones estndar son: SA = 4.43 meses y SB = 4.58 meses.

No obstante la ventaja de interpretacin que la desviacin estndar supone respecto a la varianza, sin embargo, es imposible efectuar comparaciones entre distribuciones de frecuencia cuando las dimensiones de las variables no coinciden debido precisamente a que las distribuciones no poseen idnticas unidades de medida. Este inconveniente da lugar a nuevas medidas de dispersin o variabilidad relativa (adimensionales, es decir, carecen de unidades de medida), entre ellas, el coeficiente de variacin. 3.2.3 Coeficiente de Variacin (C.V.) Se define como la relacin por cociente entre la desviacin estndar y la media aritmtica, expresado en porcentaje, es decir:

C.V . !

s 100% x

Como, tanto s como x estn expresadas en las mismas unidades de medida, el C.V. resulta un indicador adimensional. Adems expresa qu tanto por ciento es la desviacin estndar de la media aritmtica. Ejemplo 1 En un grupo de personas, el peso promedio fue de 145 libras con una desviacin estndar de 7 libras; la estatura promedio fue 67 pulgadas con desviacin estndar de 5 pulgadas. La pregunta es: en cul caracterstica el grupo es ms variable (heterogneo)?. En este caso no podemos comparar paso y estatura (caractersticas expresadas en diferentes unidades de medida). Para dar respuesta a la pregunta calculamos el coeficiente de variacin: Peso Estatura C.V. =

7 C.V. = ! 4.8% 145

5 ! 7.5% 67

Por tanto decimos que en estatura el grupo es ms heterogneo. Ejemplo 2 Consideremos las siguientes muestras de los pesos de hombres de 25 aos y de nios de 11 aos

11

Mg. Csar Puicn Montero

Muestra Hombres Nios

Peso (Kg) Media aritmtica Desviacin estndar 66 4.5 36 4.5

Si observamos las desviaciones estndar, aparentemente los dos grupos tienen la misma dispersin o variabilidad en peso, sin embargo: C.VHombres =

4.5 (100) ! 6.82% 66

C.VNios =

4.5 (100) ! 12.5% 36

Los pesos de los nios son relativamente ms variables (heterogneos) que los pesos de los adultos. 3.2.3 Recorrido Intercuartlico Cuando la distribucin es asimtrica se utiliza como indicador de la dispersin de los datos el recorrido intercuartlico que se define como la diferencia entre el tercer y primer cuartil, en smbolos: RIQ ! Q3  Q1 3.2.4 Recorrido, Rango o Amplitud Total Es la medida de dispersin que muy poco se usa porque no usa toda la informacin proporcionada por la muestra para calcular su valor, por lo tanto puede inducir a error. Se define como la diferencia entre el mximo y el mnimo valor de la distribucin de datos.

R ! X max  X min
3.3 ASIMETRA Una distribucin es simtrica si su curva de frecuencias es simtrico con respecto al centro de del conjunto de datos Si una distribucin es simtrica entonces, entonces, la media, mediana y moda coinciden, es decir, tienen el mismo valor. Existen varias formas de medir la asimetra de una distribucin de frecuencias, conocidos como coeficientes o ndices de asimetra. 3.3.1 Coeficientes de asimetra a) Coeficiente de asimetra de Pearson (CAP ), est definido de la siguiente manera: CAP = b) Otro coeficiente de asimetra: c) CA =
  


Interpretacin Si la distribucin es simtrica, el CA = 0, adems se tiene que

Si CA 0 la distribucin es asimtrica, y hay dos formas de asimetra: Asimetra positiva o sesgada a la derecha si CA > 0, y la relacin  Asimetra negativa o sesgada a la izquierda si CA > 0, la relacin es  

12

Mg. Csar Puicn Montero

       Asimetra negativa Distribucin simtrica Asimetra negativa Fig. N 3.3.1 Fig. N 3.3.2 Fig. N 3.3.3 Ejercicios 1.- Las siguientes afirmaciones son verdaderas (V) o falsas (F): 1.1 Una escala de medicin nominal se usa para datos que: ( ) Compara categoras que no pueden ser ordenadas ( ) No son cualitativas ( ) Son evaluadas como porcentajes. ) Son rangos 1.2 Una muestra es aleatoriamente extrada de una poblacin: ( ) Para reducir el estudio a un tamao manejable ( ) Para asegurar que ha sido incluido un rango completo de posibilidades. ( ) Para obtener personas normales` ( ) Para obtener un grupo representativo ( ) Para evitar selecciones preferenciales 2.- En un laboratorio clnico se corrieron pruebas en tres instrumentos nuevos que se usaron para llevar a cabo cierta medicin de la qumica sangunea. Las soluciones de prueba se prepararon conteniendo una concentracin conocida (10 mg/ml) de la sustancia que se iba a determinar. A continuacin se dan los resultados que se obtuvieron con los tres instrumentos experimentales: Instrumento 1 : 5 10 7 15 16 12 4 8 10 13 Instrumento 2: 10 9 10 9 11 8 9 7 8 9 Instrumento 3: 10 11 9 10 10 9 11 12 8 10 j) Completar la siguiente tabla: Instrumento Media aritmtica Desviacin estndar

En mediciones clnicas se tienen tres trminos que se emplean con frecuencia y que son precisin, ausencia de desviaciones y exactitud. La precisin se relaciona con la extensin o la dispersin de un conjunto de observaciones y se mide a travs de la desviacin estndar. La ausencia de desviaciones se asocia con la tendencia de un conjunto de mediciones para ser iguales a un valor real o verdadero. Para que un instrumento sea exacto, es preciso que sus lecturas sean al mismo tiempo precisas y carentes de desviaciones. k) l) Describa los tres instrumentos en funcin de las definiciones antes citadas. Qu instrumento estara dispuesto a comprar? Por qu?

13

También podría gustarte