Está en la página 1de 43

Bioestadstica

Ricardo guila Gmez


rickaguila@live.com.mx

Contenido Temtico
1.

Estadsticas descriptivas.

2.

Probabilidad.

3.

Distribucin de probabilidad.

4.

Estimacin y prueba de hiptesis.

5.

Regresin y correlacin

6.

Estadsticas paramtricas y no paramtricas.

Bibliografa
1.

Wayne, Daniel. Bioestadstica:


Base para el anlisis de las
ciencias de la salud. 4ta. Ed.
Limusa Wiley, Mxico. 2012.

2.

Sokal, Robert y Rohlf F. James.


Introduction to Bioestadistics.
2da. Ed. DOVER Publications,
Inc. Mineola, New York. 2009.

3.

Blair, Clifford y Taylor Richard.


Bioestadstica. Pearson Prentice
Hall. Mxico. 2008.

Evaluacin continua

Exmenes departamentales : uno.

Exmenes parciales : dos.

Actividades prcticas: cuatro practicas con paquetes


estadsticos.

Actividades complementarias: tareas, participacin en


clase, trabajo en equipo

Criterios de evaluacin

20% Exmenes Departamentales.

40% Exmenes Parciales.

20% Actividades Prcticas.

20% Actividades Complementarias.

Unidad 1
Estadsticas
Descriptivas

1.1. Conceptos bsicos.


Estadstica
La estadstica es la disciplina que
se ocupa de
1. La recoleccin, organizacin
resumen y anlisis de datos.
2. La obtencin de inferencias a
partir de un volumen de datos
cuando se examina solo una
parte de estos.
Las personas que realizan estas actividades estadsticas deben estar preparadas
para interpretar y comunicar los resultados a los dems, tal como lo demande la
situacin.

Datos

Los datos son la materia prima de la


estadstica. Para este propsito se pueden
definir a los datos como nmeros.

Las dos clases de nmeros que se utilizan son:


1. Los que resultan de la toma de medidas. Por ejemplo cuando una enfermera
pesa al paciente o le toma la temperatura.
2. Los que resultan de procesos de conteos. Por ejemplo cuando el administrador
de un hospital cuenta el nmero de pacientes dados de alta en un da.

Fuente de datos

1. Registros rutinarios. Por ejemplo registros clnicos de un


hospital, registros contables de una institucin. Cuando
surge la necesidad de tener datos, se debe buscar
primero en los registros que se llevan rutinariamente.

2. Encuesta. Si los datos necesarios para contestar una


pregunta no estn disponibles a partir de los registros
almacenados de manera rutinaria, la fuente lgica puede
ser una encuesta.
3. Experimentacin.
4. Fuentes externas. Los datos necesarios para responder
preguntas pueden ya existir como informes publicados,
bancos de datos disponibles o en la literatura de
investigacin.

Bioestadstica
Cuando los datos que se analizan proceden de las ciencias biolgicas o mdicas,
se utiliza el trmino bioestadstica para diferenciar esta aplicacin particular de
las herramientas y conceptos de la estadstica general.

Variables
Una caracterstica se clasifica como variable si, tal como se observa, se
encuentra que est toma diferentes valores en diferentes personas, lugares o
cosas.
Algunos ejemplos son:
1. Presin sangunea diastlica.
2. Frecuencia cardiaca.
3. Estaturas de varones adultos.

4. Pesos de nios en edad preescolar.


5. Edad de pacientes que consulta un dentista.

Variable cuantitativa
Una variable cuantitativa es aquella que puede medirse en la forma usual. Las
mediciones hechas con variables cuantitativas conllevan a informacin respecto a
la cantidad.

Variable cualitativa
Una variable cualitativa es aquella en la cual la medicin consiste en una
clasificacin. Las mediciones hechas sobre este tipo de variables contienen
informacin respecto a los atributos.
Por ejemplo:
1. Si vamos a medir el dolor en un paciente, lo podemos medir como leve,
moderado o fuerte.
2. El administrador de un hospital, por ejemplo, puede contar el nmero de
pacientes internados en un da, con base a cada uno de los diagnsticos de
admisin. Estos conteos o frecuencias, son el nmero que se maneja cuando
el anlisis involucra variables cualitativas.

Variable aleatoria
Cuando los valores se originan como resultado de factores aleatorios (al azar),
que no pueda predecirse con exactitud y anticipacin, la variable se llama
variable aleatoria.
Por ejemplo la estura de los adultos, ya que cuando nacen los nios no es posible
predecir con exactitud la estatura que alcanzara en la edad adulta ya que
depende de factores genticos y ambientales.

Variable aleatoria discreta


Se caracteriza por separaciones o interrupciones en la escala de los valores que
pueda tomar.
Por ejemplo:
1. El nmero de admisiones diarias en un hospital general.
2. El nmero de caries, amalgamas o perdida de dientes por nio en una escuela
primaria.

Variable aleatoria continua


No posee las separaciones o interrupciones tpicas de una variable aleatoria
discreta, puede tomar cualquier valor dentro de un intervalo especificado de
valores asumidos por la variable. Algunos ejemplos son la estatura, peso y
dimetro del crneo.

Poblacin
Una poblacin de entidades se define
como la coleccin mas grande de
entidades de inters en un momento
particular.
Una poblacin de valores se puede
definir como la mayor coleccin de
valores para una variable aleatoria,
los cuales son de inters en un
momento particular.

Muestra
Una muestra puede definirse simplemente como una parte de una poblacin.

Por ejemplo, una poblacin se puede


componer por el nmero de enfermos de
cncer en el pas. Y una muestra seria
los enfermos de cncer en el estado de
Jalisco.

Medidas y escalas de medicin


Medicin
Se define como la asignacin de
nmeros a objetos o eventos de
acuerdo con un conjunto de reglas.

Escala nominal
Es la escala de medicin mas baja.
Consiste
en
clasificar
las
observaciones en varias categoras
mutuamente
excluyentes
y
colectivamente exhaustivas. Por
ejemplo las dicotomas masculinofemenino,
sano-enfermo,
nioadulto, casado-soltero, etc.

Escala ordinal
Siempre que las observaciones no solo difieran de categora a categora, sino que
adems puedan clasificarse por grados de acuerdo con algn criterio, se dice que se
miden sobre una escala ordinal. Por ejemplo los pacientes convalecientes pueden
clasificarse como sin mejora, mejorados y bastante mejorados.

Escala de intervalos
Es una escala ms especializada que la nominal o la ordinal en el sentido de que,
con esta escala, no solo es posible ordenar las mediciones, sino que tambin se
conoce la distancia entre dos mediciones cualesquiera.
Por ejemplo se sabe que la diferencia entre una medida de 20 y una medida de 30
es igual a la diferencia entre las medidas entre las medidas de 30 y 40. La capacidad
de esto implica el uso de una distancia unitaria y un punto cero, los cuales son
arbitrarios.

Escala de razones
Es el nivel mas alto de medicin, esta escala se caracteriza por el hecho de que
puede determinarse tanto la igualdad de las razones tanto como la de los intervalos.
Y para esta escala es fundamental un punto cero verdadero. La medicin de rasgos
tan familiares como altura, peso y longitud hacen uso de este tipo de escala.

1.2. Distribucin de frecuencias.


Aunque un conjunto de observaciones puede
hacerse ms comprensible y mas significativo por
medio de un arreglo ordenado, es mas til el
resumen que se obtiene mediante una agrupacin
de datos.

Principales objetivos de agrupar grandes conjuntos de datos:


1. Anteriormente. Facilitar el calculo de medidas descriptivas como porcentajes y
promedios.
2. Actualmente. Resumir la informacin, ya que es una forma sencilla para
determinar la naturaleza de los datos.

Tabla de distribucin de frecuencias


Para construir una tabla de distribucin de frecuencias se tienen que seguir los
siguientes pasos:

1. Establecer el nmero de intervalos de clase (k) que tendr la tabla.


Formula de Sturges
= 1 + 3.322 log10

Una regla emprica que habitualmente se sigue establece que deben ser entre 6 y
15 intervalos de clase. Si hay menos de seis intervalos de clase, los datos se han
resumido en exceso y la informacin que contiene se habr perdido. Si hay mas
de 15 intervalos, los datos no fueron resumidos lo suficiente.

2. Establecer la amplitud del intervalo de clase (w). La amplitud se determina


dividiendo el rango entre k, que es el nmero de intervalos de clase.

donde R es el rango que se obtiene calculando la diferencia entre la observacin


mas grande y la mas pequea dentro del conjunto de datos.
3. Calcular la marca de clase ( ) para cada intervalo de clase.

=
2
donde y son el limite superior e inferior respectivamente del intervalo de
clase.

4. Frecuencia absoluta( ). Es el numero de ocurrencia de un dato en el


intervalo.
5. Frecuencia absoluta acumulada ( ). Se refiere al total de frecuencias
absolutas para todos los eventos iguales o anteriores que un cierto valor.
6. Frecuencia relativa ( ). Es el cociente entre la frecuencia absoluta y el
tamao del conjunto de datos.
7. Frecuencia relativa acumulada ( ). Se refiere al total de frecuencias
relativas para todos los eventos iguales o anteriores a un cierto valor.

Ejercicio.

Representacin grfica de datos


Histograma
Es una representacin grfica de la distribucin de
frecuencias en un tipo especial de grfica de
barras.
Para construir un histograma, los valores de las
variable respectiva se ponen sobre el eje
horizontal y la frecuencia absoluta en el eje
vertical. Sobre cada intervalo de clase, arriba del
eje horizontal, se levanta una barra rectangular, o
celda, hasta que intercepte con la frecuencia
respectiva.
Las barras del histograma deben ser adyacentes, y
es necesario tomar en cuenta los lmites correctos
de los intervalos de clase para evitar la separacin
de las barras.

Polgono de frecuencia
Es una representacin grfica de la distribucin de
frecuencias en un tipo especial de grfica de
lineal.
Para dibujar este polgono, se toma en cuenta la
marca de clase de cada intervalo que son
representados en el eje horizontal. La altura
correspondiente del eje horizontal de una marca
dada corresponde a la frecuencia del intervalo de
clase.
Al unir las marcas mediante lneas rectas se
obtiene un polgono de frecuencia. El polgono cae
sobre el eje horizontal en los extremos en los
puntos que corresponderan a las marcas de clase
de haber un intervalo de clase adicional en cada
extremo del histograma. El rea total bajo el
polgono de frecuencia es igual al rea bajo el
histograma.

Ojiva
Es el polgono de frecuencia acumulado, es
decir,
que
permite
ver
cuantas
observaciones se encuentran por encima o
por debajo de ciertos valores, en lugar de
solo exhibir solo los nmeros asignados a
cada intervalo.

Despliegue (Diagrama) de tallo y hojas


Un despliegue de este tipo representa con
gran similitud con el histograma y tiene el
mismo propsito. Para construirlo se divide
a la medicin en dos, la primera parte se
llama tallo y la segunda son las hojas. El
tallo se forma con uno o mas dgitos
iniciales de la medicin y las hojas se
forman con uno o mas dgitos de los
restantes.

Muestreo Aleatorio Simple


La inferencia estadstica es el procedimiento por
medio del cual se llega a una conclusin acerca de
una poblacin con base en los resultados que se
obtienen de una muestra extrada de esa poblacin.

Si se extrae una muestra de tamao n de una poblacin de tamao N, de manera que


cada muestra posible de tamao n tenga la misma probabilidad de ser seleccionada, la
muestra se llama muestra aleatoria simple.

1.3. Medidas de tendencia central


Aunque las distribuciones de frecuencias sirven para propsitos muy tiles, con
frecuencia es conveniente resumir la informacin con un solo nmero. Este nmero,
para tal fin, suele situarse hacia el centro de la distribucin de datos y se le llama
medida de tendencia central o de centralizacin.
Las medidas de tendencia central pueden calcularse
a partir de una muestra o de una poblacin.
1. Una medida descriptiva calculada a partir de los
datos de una muestra se llama estadstica. La
notacin para las estaditicas es con letras
latinas.
2. Una medida descriptiva calculada a partir de los
datos de una poblacin se llama parmetro. La
notacin para los parmetros es con letras
griegas.

Media aritmtica (, )
La medida de tendencia central mas conocida es la media aritmtica. Esta es la
medida descriptiva que la mayora de personas tiene en mente cuando se habla de
promedio.

Propiedades:

1. Es nica.

2. Simple de calcular.
3. La afectan valores extremos.

=1

=1

Mediana ()
Es aquel valor que divide al conjunto de datos en dos partes iguales, de forma que el
nmero de valores mayores o iguales a la mediana es igual al nmero de valores
menores o iguales a sta.
Impar
Propiedades:

= +1
2

1. Es nica.
2. Simple de calcular.

Par

+ +1

3. No la afectan valores extremos.

Moda ()
Es aquel valor que ocurre con mayor frecuencia. Si todos los valores son diferentes, no
hay moda. Por otro lado, un conjunto de valores puede tener ms de una moda.

Sesgo
Es el grado de asimetra de una distribucin.

Ejercicio. Calcular las medidas de tendencia


central para el siguiente conjunto de datos.

1.4. Medidas de dispersin.


La dispersin de un conjunto de observaciones se refiere a la variedad que muestran
stas. Una medida de dispersin conlleva informacin respecto a la cantidad total de
variabilidad presente en el conjunto de datos.
Si todos los valores son iguales,
no hay dispersin, pero si no
todos son iguales, entonces
existe dispersin en los datos.
La magnitud de la dispersin es
pequea cuando los valores,
aunque diferentes, son cercanos
entre si. Si los valores estn
ampliamente
espaciados
la
dispersin es mayor.
Otros sinnimos de dispersin son variacin y expansin.

Rango o intervalo de variacin (R)


Es la diferencia entre el valor mas grande y el valor mas pequeo entre el conjunto de
observaciones.

= 1

Varianza ( 2 , 2 )
Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de
su media, la dispersin es menor que cuando estn esparcidos. En consecuencia, se
puede pensar intuitivamente que es posible medir la dispersin en funcin del
esparcimiento de los valores alrededor de su media.

=1

=1

Desviacin estndar (, )
La varianza representa unidades al cuadrado, por lo que no es una medida adecuada
de dispersin si se pretende expresar este concepto en trminos de unidades
originales. Para obtener la medida de dispersin en unidades originales, simplemente
se obtiene la raz cuadrada de la varianza.

Coeficiente de variacin (C. V.)


Cuando se requiere comparar la dispersin de dos conjuntos de datos se utiliza el
coeficiente de variacin.

. . = (100)

Debido a que el coeficiente de variacin es independiente de la escala de medicin,


constituye una estadstica til para comparar la variabilidad de dos o mas variables
medidas a escalas diferentes.

Coeficiente de asimetra de Pearson


Una manera de cuantificar el sesgo es utilizando el coeficiente de asimetra de
Pearson que se calcula de la siguiente manera

3
=

Si . . , los datos se consideran significativamente sesgados.

Regla emprica

Percentiles y cuartiles
La media y la mediana son casos especiales de la familia de parmetros conocidos
como parmetros de localizacin. Estas medidas descriptivas se llaman parmetros de
localizacin porque pueden utilizarse para designar ciertas posiciones sobre el eje
horizontal cuando se elabora una grfica de la distribucin de una variable.
Dado un conjunto de observaciones 1 , 2 , , , el percentil es el valor
de , tal que porciento o menos de las observaciones son menores que , y
100 porciento o menos de las observaciones son mayores que .
El percentil 25, 50 y 75, reciben el nombre de cuartiles. La manera de obtenerlos es
como sigue:
+1

4
+1
2 = =

2
3 +1
3 =

4

1 =

Rango intercuartilico (IQR)


El rango intercuartilico es la diferencia entre el cuartil superior y el cuartil inferior, es
decir:

= 3 1

Datos tpicos, atpicos y atpicos extremos


Una observacin es atpica si < 1 1.5 > 3 1.5
Una observacin es atpica si < 1 3 > 3 3
De otro modo ser una observacin tpica.

Diagrama de caja (BoxPlot)


Un dispositivo visual muy til para comunicar la informacin contenida en el conjunto
de datos es el diagrama de caja. Para la construccin de esta grfica se utilizan los
cuartiles del conjunto de datos, y se siguen los siguientes cinco pasos que se
mencionan a continuacin:
1. Representar la variable de inters en el eje de las x.
2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo izquierdo
este alineado con el primer cuartil 1 , y el extremo derecho del cuadro quede
alineado con el tercer cuartil 3 .
3. Dividir el cuadro en dos partes con una lnea vertical que se alinee con la
mediana 2 .
4. Dibujar una lnea horizontal desde el extremo izquierdo del cuadro hasta el punto
en donde quede alineada con la medicin mas pequea en el conjunto de datos.
5. Dibujar otra lnea horizontal desde el extremo derecho del cuadro hasta el punto
donde se alinea con la medicin mas grande del conjunto de datos.

Ejercicio. Calcular las medidas de dispersin y


construir un diagrama de caja para el siguiente
conjunto de datos.

Ejercicio. Cual de las siguientes muestras


presenta mayor variabilidad.