Está en la página 1de 51

BioEstadística

Carlos Beyzaga M.
carlos.beyzaga@uauto
noma.cl
Bibliografía
• Díaz, VP (2009) Metodología de la Investigación Científica y Bioestadísticas
para Profesionales y Estudiantes de Ciencias de la Salud. Editorial RIL.
Santiago.
• Daniel, Bioestadística bases para el análisis de las ciencias de la salud, 4ta.
Edición, Editorial Limusa Wiley

• COMPLEMENTARIA
• Calero, A. (1979) Técnicas de Muestreo. Pueblo y Educación. La Habana.
• Castañeda, J. (1996) Métodos de Investigación. T. I y II. McGraw-Hill.
México.
• Cochran, W. Y G. Cox. (1980) Experimental Desings. John Wiley and
Sons,
Inc. New York.
• Cox, D. (1958) Planning of Experiments. John Wiley and Sons, Inc.
New York.
Unidad 0

Introducción a la Estadística
¿Para qué sirve la estadística?
• La Ciencia se ocupa en general de fenómenos observables

• La Ciencia se desarrolla observando hechos, formulando leyes que los


explican y realizando experimentos para validar o rechazar dichas leyes

• Los modelos que crea la ciencia son de tipo determinista o aleatorio


(estocástico)

• La Estadística se utiliza como tecnología al servicio de las ciencias donde


la variabilidad y la incertidumbre forman parte de su naturaleza

• “La Bioestadística [...] enseña y ayuda a investigar en todas las áreas


de las Ciencias de la Vida donde la variablidad no es la excepción sino
la regla”
Carrasco de la Peña (1982)
Definición
La Estadística es la Ciencia de la

• Sistematización, recogida, ordenación y presentación


de los datos referentes a un fenómeno que presenta
variabilidad o incertidumbre para su estudio metódico,
con objeto de

• deducir las leyes que rigen esos fenómenos,

• y poder de esa forma hacer previsiones sobre los


mismos, tomar decisiones u obtener conclusiones.
Pasos en un estudio estadístico
• Plantear hipótesis sobre una población
• Los fumadores tienen “más bajas” laborales que los no fumadores
• ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?

• Decidir qué datos recoger (diseño de experimentos)


– Qué individuos pertenecerán al estudio (muestras)
• Fumadores y no fumadores en edad laboral.
• Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas?
– Qué datos recoger de los mismos (variables)
• Número de bajas
• Tiempo de duración de cada baja
• ¿Sexo? ¿Sector laboral? ¿Otros factores?

• Recoger los datos (muestreo)


– ¿Estratificado? ¿Sistemáticamente?

• Describir (resumir) los datos obtenidos


• tiempo medio de baja en fumadores y no (estadísticos)
• % de bajas por fumadores y sexo (frecuencias), gráficos,...

• Realizar una inferencia sobre la población


• Los fumadores están de baja al menos 10 días/año más de media que los no fumadores.

• Cuantificar la confianza en la inferencia


– Nivel de confianza del 95%
– Significación del contraste: p=2%
Método científico y estadística

Plantear Diseñar
hipótesis experimento

Recoger
Obtener datos
conclusiones
y analizarlos
Población y muestra

• Población (‘population’) es el conjunto sobre el que estamos


interesados en obtener conclusiones (hacer inferencia).
– Normalmente es demasiado grande para poder
abarcarlo.

• Muestra (‘sample’) es un subconjunto suyo al que tenemos


acceso y sobre el que realmente hacemos las observaciones
(mediciones)
– Debería ser “representativo”
– Esta formado por miembros “seleccionados” de la población
(individuos, unidades experimentales).
Variables
• Una variable es una característica observable que varía entre los diferentes
individuos de una población. La información que disponemos de cada
individuo es resumida en variables.

• En los individuos de la población española, de uno


a otro es variable:

– El grupo sanguíneo
• {A, B, AB, O}  Var. Cualitativa
– Su nivel de felicidad “declarado”
• {Deprimido, Ni fu ni fa, Muy Feliz}  Var. Ordinal
– El número de hijos
• {0,1,2,3,...}  Var. Numérica discreta
– La altura
• {1’62 ; 1’74; ...}  Var. Numérica continua
Tipos de variables
• Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un
número (no se pueden hacer operaciones algebraicas con ellos)

– Nominales: Si sus valores no se pueden ordenar


• Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar (Sí/No)

– Ordinales: Si sus valores se pueden ordenar


• Mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor

• Cuantitativas o Numéricas
Si sus valores son numéricos (tiene sentido hacer operaciones
algebraicas
con ellos)

– Discretas: Si toma valores enteros


• Número de hijos, Número de cigarrillos, Num. de “cumpleaños”

– Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


• Altura, Presión intraocular, Dosis de medicamento administrado, edad
• Los posibles valores de una variable suelen denominarse modalidades.

• Las modalidades pueden agruparse en clases (intervalos)


– Edades:
• Menos de 20 años, de 20 a 50 años, más de 50 años
– Hijos:
• Menos de 3 hijos, De 3 a 5, 6 o más hijos

• Las modalidades/clases deben forman un sistema exhaustivo y


excluyente
– Exhaustivo: No podemos olvidar ningún posible valor de la variable
– Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?
– Bien: ¿Cuál es su grupo sanguíneo?
– Excluyente: Nadie puede presentar dos
valores simultáneos de la variable
• Estudio sobre el ocio
– Mal: De los siguientes, qué le gusta:
(deporte, cine)
– Bien: Le gusta el deporte: (Sí, No)
– Bien: Le gusta el cine: (Sí, No)
– Mal: Cuántos hijos tiene: (Ninguno,
Menos de 5, Más de 2)
Presentación ordenada de datos
7

6
Género Frec.
5
Hombre 4 4

2
Mujer 6
1

0
Hombre Mujer

• Las tablas de frecuencias y las representaciones gráficas


son dos maneras equivalentes de presentar la
información. Las dos exponen ordenadamente la
información recogida en una muestra.
Tablas de
• frecuencia
Exponen la información recogida
nadade información (o poca).
en la muestra, de forma que no se pierda

– Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad

– Frecuencias relativas (porcentajes): Idem, pero dividido por el total

– Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas


• Muy útiles para calcular cuantiles (ver más adelante)
– ¿Qué porcentaje de individuos tiene menos de 3 hijos? Sol:83,8
– ¿Entre 4 y 6 hijos? Soluc 1ª: 8,4%+3,6%+1,6%= 13,6%. Soluc 2ª: 97,3% - 83,8% =
13,5%
Sexo del
Número de
encuestado
Porcentaj hijos
Porcentaj Porcentaj
Frecuencia Porcentaje e válido
Frecuencia Porcentaje e e
Válidos Hombre 636 41,9 41,9 válido acumulad
Mujer 881 58,1 58,1 o
Total 1517 100,0 100,0 Válidos 0 419 27,6 27,8 27,8
1 255 16,8 16,9 44,7
Nive l 2 375 24,7 24,9 69,5
defelicidad 3 215 14,2 14,2 83,8
Porcentaj Porcentaj
Frecuenci Porcentaje e e 4 127 8,4 8,4 92,2
a válido acumulad 5 54 3,6 3,6 95,8
o
6 24 1,6 1,6 97,3
Válidos Muy feliz 467 30,8 31,1 31,1
7 23 1,5 1,5 98,9
Bastante feliz 872 57,5 58,0 89,0
Ocho o más 17 1,1 1,1 100,0
Nodemasiado feliz 165 10,9 11,0 100,0
Total
Total 1509 99,5 100,0
1504 99,1 100,0
Perdidos No contesta 13 ,9 Perdidos No contesta 8 ,5
Total 1517 100,0 Total 1517 100,0
Datos desordenados y ordenados en tablas
• Variable: Género Géner Frec. Frec. relat.
o porcentaje
– Modalidades:
• H = Hombre Hombr 4 4/10=0,4=40%
e
• M = Mujer
Mujer 6 6/10=0,6=60%

10=tamañ
o muestral
• Muestra:

MHHMMHMMMH

– equivale a
HHHH MMMMMM
Gráficos para v. cualit ativas
• Diagramas de barras
– Alturas proporcionales a las frecuencias (abs. o
rel.)
– Se pueden aplicar también a variables discretas

• Diagramas de sectores (tartas, polares)


– No usarlo con variables ordinales.
– El área de cada sector es proporcional a
su frecuencia (abs. o rel.)

• Pictogramas
– Fáciles de entender.
– El área de cada modalidad debe ser proporcional
a la frecuencia. ¿De los dos, cuál es incorrecto?.
Gráficos diferenciales para variables numéricas
419
400 375

• Son diferentes en función de que las 300

255

Recuento
variables sean discretas o continuas.
215
200

Valen con frec. absolutas o relativas.


127

100

54

– Diagramas barras para v. discretas 0 1 2 3 4 5


24

6
23 17

7 Ocho omás

• Se deja un hueco entre barras para Número de hijos

indicar los valores que no son posibles


250

– Histogramas para v. continuas 200

• El área que hay bajo el histograma entre

Rec uento
150

dos puntos cualesquiera indica la cantidad 100

(porcentaje o frecuencia) de individuos 50

en el intervalo.
20 40 60 80

Edad del
encuestado
Diagramas integrales
• Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizana
partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad
(frecuencia) de individuos que poseen un valor inferior o igual al mismo. No los construiremos
en clase. Se pasan de los diferenciales a los integrales por integración y a la inversa por
derivación (en un sentido más general del que visteis enbachillerato.)
Unidad I

Estadística Descriptiva
Conceptos Básicos de Estadística
Descriptiva
• Población: (Simbología N)
– Corresponde al universo del que se desea medir
alguna característica particular. Ejemplo:
deseamos medir el rendimiento de los alumnos de
la Universidad Autónoma de la carrera de
Nutrición y Dietética, por lo que la población son
todos los estudiantes de dicha carrera.
• Muestra (simbología n)
– Corresponde a un subconjunto de elementos de la
población. Ejemplo: tomando el ejemplo de
población, una muestra de ellos son los cursos.
Datos: Son números o medidas que han sido
recopilados en forma grupal o no agrupadas.
Ejemplo:
Los siguientes datos especifican el tiempo de
funcionamiento (en días) hasta que se presente la
primera falla de 80 radio transmisores-receptores.
• Variables: Es la característica o fenómeno que
puede tomar diferentes valores.
– Las variables se clasifican en:
• Variables cualitativas: miden cualidad o característica
del fenómeno o individuo. Ejemplo: cualidad, como el
estado civil, sexo o color de ojos; o características,
como si una persona tiene trabajo o si posee una casa
de madera.
• Variables Cuantitativas: Mediciones Numéricas, Existen
dos tipos de variables cuantitativas: discretas y
continuas. Las variables discretas toman valores
enteros y las variables continuas tomas valores en
todos los reales. Ejemplo edad, peso, estatura, tasa de
interés, entre otros.
ENCUEST
A
Estadígrafos o medidas descriptivas
Medidas de dispersión
• Indican que tan alejados están los datos con
respecto a su medida, es decir muestran la
variabilidad de una distribución.

Varianza : Mide la dispersión de los datos con


respecto a su media, su calculo es la media de las
diferencias cuadráticas de cada observación con
su media. Es representada como cuando es la
varianza poblacional y S2 varianza muestral.
Desviación Estándar
• Es la raíz cuadrada de la varianza. Si la
dispersión de los datos con respecto a su
media es alta, mayor será el valor de la
desviación estándar.
Formato de una tabla de frecuencias
Formato de una tabla de Frecuencias
Relación entre la media, mediana y la
moda
• Si media=moda=mediana, la distribución es simétrica
• Si media > mediana, la distribución es asimétrica con cola a la derecha
(sesgada a la derecha).
• Si media < mediana, la distribución es asimétrica con cola a la
izquierda (sesgada a la izquierda).
Media v/s Mediana
• La media es un estadístico sensible a valores extremos. Basta que algún
dato dentro de la muestra sea muy alto o muy bajo, el promedio se verá
alterado.
• La mediana, en cambio, es un estadístico robusto. Aunque los extremos de
los datos se vean alterados, la mediana permanece invariable.
• El famoso trío - media, mediana y moda – representan tres métodos
diferentes para encontrar el valor del centro. Estos tres valores pueden ser
un mismo valor pero a menudo son distintos. Cuando son distintos,
pueden servir para diferentes interpretaciones de los datos que queremos
resumir.
• Considere el ingreso mensual de cinco familias: $120 000 $120 000 $300
000 $900 000 $1 000 000 ¿Cuál es el ingreso típico de este grupo?
El ingreso mensual promedio es:
La mediana del ingreso mensual es:
La moda del ingreso mensual es:
Estadísticos de posición
• Son valores de la variable que dividen a la muestra en partes de
igual porcentaje. Los percentiles separan la muestra en grupos de
1% cada uno (son 99).
• Cuartiles: agrupan 25% cada uno (son 3)
• Quintiles: agrupan 20% cada uno (son 4)
• Deciles: agrupan 10% cada uno (son 9)
Percentile

s
En datos sin tabular:
• Primero se ordenan de menor a mayor los n datos.
• Calcular el valor

1.Si A es entero, entonces el percentil k corresponde al


valor medio de las observaciones ubicadas en las
posiciones A y A+1.
2.Si A no es un entero, el percentil k corresponde a la
observación ubicada en la posición entera siguiente, es
decir,[A+1].
Ejemplo
•Determinar los percentiles 25 y 60 de los siguientes datos:
3, 5, 5, 8, 12, 15, 21, 23, 25, 26, 29, 35

P25: A= 12 x 25 /100 = 3
Aquí, resulta un entero, por tanto el P25 corresponde al
promedio de las observaciones en las posiciones 3º y 4º, es
decir, P25= (5+8)/2 = 6.5

P60: A = 12 x 60 / 100 = 7.2


En este caso A no es un entero, nos movemos al entero
siguiente. Es decir, P60 = 23 (observación en la 8ª posición).
Estadísticos de forma
La simetría de una distribución de frecuencias, hace referencia al grado en
que valores de la variable, equidistantes a un valor que se considere centro de
la distribución, poseen frecuencias similares.
Es un concepto más intuitivo a nivel visual, especialmente, si se observa una
representación gráfica (diagrama de barras, histograma…) de la distribución
de frecuencias. Ésta será simétrica si la mitad izquierda de la distribución es la
imagen especular de la mitad derecha.
Asimetría
Media y mediana coinciden en las distribuciones simétricas. Si sólo hay una moda (distribución unimodal),
el valor de ésta también será igual a las dos anteriores.
En distribuciones unimodales, el nivel de simetría se suele describir de acuerdo a tres grandes categorías:
distribuciones simétricas, distribuciones asimétricas positivas (o sesgada a la derecha) y distribuciones
asimétricas negativas (o sesgada a la izquierda). Tomando como eje de referencia a la moda, estas
categorías de asimetría vienen definidas por el diferente grado de dispersión de los datos a ambos lados
(colas) de ese eje virtual. La cola más dispersa en el lado de los valores altos de la variable caracteriza a la
asimetría positiva; si en el lado de los más bajos, a la asimetría negativa; y si la dispersión es igual o muy
similar a ambos lados, a una distribución de
frecuencias simétrica.
En caso de asimetría, los valores de la media, mediana y moda difieren. En concreto si la asimetría es
positiva: media>mediana>moda. Si la asimetría es negativa: media<mediana<moda.
Curtosis
Distribución platicúrtica (apuntamiento negativo): indica
que en sus colas hay más casos acumulados que en
las colas de una distribución normal.

Distribución leptocúrtica (apuntamiento positivo): menos


datos en las colas.

Distribución mesocúrtica (apuntamiento normal):


como en la distribución normal.

También podría gustarte