SEMANA 1
Bioestadística
FUNDAMENTOS DE BIOESTADÍSTICA
Definiciones e Ideas Básicas
Estadística Estadística
descriptiva inferencial
Conclusiones
Histogramas
Gráficos de Barras
Gráficos de Sectores
Tablas de probabilidad
Tablas bidimensionales
Gráficos de cajas
Extraer juicios o
conclusiones a partir de Una población de datos, es
ciertos supuestos, sean el conjunto total de datos Una muestra es una parte de la
estos generales o que existen sobre un población de datos.
particulares. variable.
• Probabilístico (Aleatorio)
• No probabilístico
Muestreo No Probabilístico
• En este tipo de muestreo hay uno o mas criterios de
selección por parte del investigador, para que uno o
mas sujetos pueda formar parte del estudio. No todos
los sujetos tienen la misma posibilidad para ser
elegidos.
Bioestadística
FUNDAMENTOS DE BIOESTADÍSTICA
Definiciones e Ideas Básicas
La escala de medición
Los datos pueden usarse para Los datos son etiquetas o Los datos tienen las propiedades de Posee un cero absoluto (es
jerarquizar u ordenar las categorías que se usan para los datos ordinales, pero a su vez la indispensable que exista) y
observaciones definir un atributo de un separación entre las variables tiene determina la igualdad de
elemento sentido. relaciones o proporciones.
El valor cero no indica la ausencia de
la propiedad
Estado de Salud
• El estado de salud de un
5
paciente son datos ordinales no Muy Saludable
4
numéricos. Medianamente saludable
Saludable
X 3
Poco Saludable 2
No Saludable 1
• Ejemplo:
• Los datos discretos tiene un número
finito de categorías naturales. Número de hijos, Son datos discretos, porque se
adultos o mascotas cuentan por números
• Prácticamente hablamos de números en su familia. indivisibles: no se puede tener
enteros, por valores completos. 2,5 hijos, o 1,3 mascotas.
• Se cuentan, no se miden.
Bioestadística
DISTRIBUCIONES
Generalidades
DISTRIBUCIÓN DE FRECUENCIA
Generalidades
Generalidades
La organización de los datos constituye la primera
etapa de su tratamiento, puesto que facilita los
cálculos posteriores y evita posibles confusiones.
Cuando no existían los computadores, o ni siquiera
calculadoras, era necesario que los datos tuvieran
alguna estructura que permitiera resumirlos y
comprenderlos de una forma más o menos
sencilla.
La organización va a depender del número de
observaciones distintas que se tengan y de las
veces que se repitan cada una de ellas. En base a lo
anterior, se pueden estructurar los datos de
maneras diferentes.
Generalidades…
Las distribuciones de frecuencias son tablas en que
se dispone las modalidades de la variable por filas.
En las columnas se dispone el número de
ocurrencias por cada valor, porcentajes, etc. La
finalidad de las agrupaciones en frecuencias es
facilitar la obtención de la información que
contienen los datos
En estadística y por consiguiente en bioestadística,
se le llama distribución de frecuencias a la
agrupación de datos en categorías mutuamente
excluyentes que indican el número de observaciones
en cada categoría. Esto proporciona un valor
añadido a la agrupación de datos.
Recordemos: Variables en Estadística
Variable Discreta
Una variable discreta es aquella que no puede tomar algunos valores dentro
de un mínimo conjunto numerable, quiere decir, no acepta cualquier valor,
únicamente aquellos que pertenecen al conjunto.
Ejemplos: número de empleados de una fábrica; número de hijos;
Variable Continua
Una variable continua es aquella que puede adoptar cualquier valor en el
marco de un intervalo que ya está predeterminado.
Ejemplos: temperaturas registradas en un observatorio; tiempo en recorrer
una distancia en una carrera; contenido de alcohol en un cuba-libre; estatura
Tipos de Frecuencia
Una de los primeros pasos que se realizan en
cualquier estudio estadístico es la tabulación
de resultados, es decir, recoger la información
de la muestra resumida en una tabla en la que
a cada valor de la variable se le asocian
determinados números que representan el
número de veces que ha aparecido, su
proporción con respecto a otros valores de la
variable, etc. Estos números se denominan
frecuencias.
Tipos de Frecuencia…
FRECUENCIA FRECUENCIA
ABSOLUTA RELATIVA
Cuantas veces
se repite un
evento ( fi )
Frecuencia Absoluta
La frecuencia absoluta es una medida
estadística que nos da información
acerca de la cantidad de veces que se
repite un suceso al realizar un número
determinado de experimentos
aleatorios. Esta se representa mediante
las letras fi.
La letra f se refiere a la palabra
frecuencia y la letra i se refiere a la
realización i-ésima del experimento
aleatorio. (En otros textos las
encontraran como ni)
Ejemplo de Frecuencia Absoluta (Variable Discreta)
Supongamos que tenemos el número de Xi fi
miembros de una familia y los datos son los 1 1
siguientes: 2 2
1, 2, 8, 5, 8, 3, 8, 5, 6, 10, 5, 7, 9, 4, 10, 2, 7, 6, 5, 10. 3 1
Xi = Variable aleatoria estadística, número de 4 1
miembros de una familia. 5 4
6 2
N = 20
7 2
fi = Frecuencia absoluta = Número de veces que 8 3
se repite el suceso (en este caso, el número de 9 1
miembros de cada familia). 10 3
∑ 20
Ejemplo de Frecuencia Absoluta (Variable continua)
Supongamos que la altura de 15 personas que se presentan a los
postulantes del cuerpo de policía nacional son las siguientes: Xi fi
1,82, 1,97, 1,86, 2,01, 2,05, 1,75, 1,84, 1,78, 1,91, 2,03, 1,81, 1,75,
1,77, 1,95, 1,73.
Para elaborar la tabla de frecuencias, los valores se ordenan de [1,70 , 1,80) 5
menor a mayor, pero en este caso dado que la variable es continua
y podría tomar cualquier valor de un espacio continuo infinitesimal,
hay que agrupar las variables por intervalos. [1,80 , 1,90) 4
Por tanto tendremos:
Xi = Variable aleatoria estadística, altura de los postulantes al
cuerpo de policía nacional. [1,90 , 2,00) 3
N = 15
fi = Frecuencia absoluta = Número de veces que se repite el suceso [2,00 , 2,10) 3
(en este caso, las alturas que se encuentran dentro de un
determinado intervalo).
∑ 15
Frecuencia Relativa
Personas Número
Activas Familias
Xi fi fi/N hi
1 16 16/50 32%
2 20 20/50 40%
3 9 9/50 18%
4 5 5/50 10%
Total 50 100%
APLICACIONES INFORMÁTICAS PARA OBTENER LA TABLA DE
FRECUENCIAS
Bioestadística
DISTRIBUCIONES
FRECUENCIA FRECUENCIA
ABSOLUTA RELATIVA
ACUMULADA ACUMULADA
Sumatoria de la
Sumatoria del número proporción que
de veces que se repite representa el valor i-
el suceso (Fi) ésimo en la muestra
(Hi)
Ing. Freddy Burgos Robalino, MDGPT 75
Frecuencia Acumulada
La frecuencia acumulada es el
resultado de sumar
sucesivamente las frecuencias
absolutas o relativas, desde el
menor al mayor de sus valores
Personas Número
Activas Familias
Xi fi fi/N hi Fi Fi/N Hi
1 16 16/50 32% 16 16/50 32%
Total 50 100%
Bioestadística
GRÁFICOS
Generalidades:
Un grafico es la representación de datos, generalmente numéricos ,
mediante líneas, superficies o símbolos, para ver la relación que esos datos
guardan entre si y facilitar su interpretación. La utilización de gráficos hace
mas sencilla e inmediata la interpretación de los datos.
La calidad de un gráfico estadístico consiste en comunicar ideas complejas
con precisión, claridad y eficiencia, de tal manera que:
• Induzca a pensar en el contenido más que en la apariencia.
• No distorsione la información proporcionada por los datos.
• Presente mucha información (números) en poco espacio.
• Favorezca la comparación de diferentes grupos de datos o de relaciones
entre los mismos (por ejemplo una secuencia temporal)
Marrón Verde Verde Azul Marrón Azul Marrón Marrón Azul Marrón
Azul Marrón Verde Verde Marrón Azul Verde Marrón Marrón Azul
Marrón Verde Marrón Verde Verde Marrón Marrón Marrón Azul Marrón
CATEGORIA fi hi Grados
Azul
0,23
Marrón 15 0.50 180 23%
Marrón
30 --> 360° 0,50
Verde 50%
Verde 8 0.27 96
0,27
27%
Azul 7 0.23 84
N 30 1.00 360
Marrón Verde Azul
proporcional a su frecuencia 12
absoluta o relativa. 10
8
8 7
6
Se usan también Xi fi
para representar la GRÁFICO DE BARRAS: NOTAS
1 1 DE EXÁMES - FI
distribución de 2 2 4,5
4
frecuencias de 3 1 4
variables discretas. 4 1
3,5
CANTIDAD DE ESTUDIANTES
3 3
3
Cada categoría se 5 4
2,5
6 2 2 2 2
representa por una 7 2
2
1
1 1 1 1
de observaciones 10 3 0
1 2 3 4 5 6 7 8 9 10
de dicha categoría. ∑ 20 NOTAS
Generalidades:
• Cuando las variables son continuas, utilizamos como diagramas
diferenciales los histogramas y los polígonos de frecuencias.
• Un histograma se construye a partir de la tabla estadística,
representando sobre cada intervalo, un rectángulo que tiene a este
segmento como base
[1,70 , 1,80) 5
[1,80 , 1,90) 4
[1,90 , 2,00) 3
[2,00 , 2,10) 3
∑ 15
Ing. Freddy Burgos Robalino, MDGPT
Generalidades
Son diagramas de línea que se obtienen al unir los puntos medios del
lado superior de cada rectángulo del histograma correspondiente.
El histograma y el polígono de frecuencias son gráficos que se utilizan
para representar distribuciones de frecuencias para datos agrupados.
Marca de
Xi fi
clase
[1,70 , 1,80) 1,75 5
[1,80 , 1,90) 1,85 4
[1,90 , 2,00) 1,95 3
[2,00 , 2,10) 2,05 3
∑ 15
36 25 37 24 39 20 36 45 31 31
39 24 29 23 41 40 33 24 34 40
Los diagramas de Caja-Bigotes son una presentación visual que describe varias
características importantes, al mismo tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo
de los datos, sobre un rectángulo, alineado horizontal o verticalmente.
Construcción:
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más
largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un
segmento vertical que indica donde se posiciona la mediana y por lo tanto su
relación con los cuartiles primero y tercero(recordemos que el segundo cuartil
coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores
mínimo y máximo de la variable. Las líneas que sobresalen de la caja se llaman
bigotes. Estos bigotes tienen un límite de prolongación, de modo que cualquier
dato o caso que no se encuentre dentro de este rango es marcado e identificado
individualmente
Bioestadística
ESTADÍSTICA DESCRIPTIVA
Medidas de tendencia central:
Media, mediana y moda
Donde.
N: Se trata del número total de observaciones. Por ejemplo, si tenemos el
crecimiento de los beneficios de una empresa durante 4 periodos, N será 4.
x: La variable X es sobre la que calculamos la media geométrica. Siguiendo el
ejemplo anterior, el crecimiento de los beneficios estará expresado en porcentaje y
será la variable X.
i: Representa la posición de cada observación. En este ejemplo, podríamos ponerle
un número cada periodo. Un 1, al periodo 1, un 2 al periodo 2, etc. De manera que
x1 es el crecimiento de los beneficios en el periodo 1, x2 el crecimiento de los
beneficios en el periodo 2, x3 el crecimiento de los beneficios en el periodo 3 y x4
el crecimiento de los beneficios en el periodo 4.
Ing. Freddy Burgos Robalino, MDGPT. 132
Fórmula de la media geométrica…
Sean x1, x2, x3,…, xn los datos de una muestra ordenada en orden
creciente y designando la mediana como Me, distinguimos dos casos:
Si n es impar, la mediana es el valor que ocupa la posición (n+1)/2 una
vez que los datos han sido ordenados (en orden creciente o
decreciente), porque este es el valor central. Es decir: Me= x(n+1)/2.
Por ejemplo, si tenemos 5 datos, que ordenados son: x1=3, x2=6,
x3=7, x4=8, x5=9 => El valor central es el tercero: x(5+1)/2= x3=7. Este
valor, que es la mediana de ese conjunto de datos, deja dos datos por
debajo x1, x2 y otros dos por encima de él x4, x5.
Sean x1, x2, x3,…, xn los datos de una muestra ordenada en orden
creciente y designando la mediana como Me, distinguimos dos casos:
b. Si n es par, la mediana es la media aritmética de los dos valores
centrales. Cuando n es par, los dos datos que están en el centro de
la muestra ocupan las posiciones n/2 y (n/2)+1. Es decir: Me=((x
n/2)+(x n/2+1)/2.
Por ejemplo, si tenemos 6 datos, que ordenados son: x1=3, x2=6, x3=7,
x4=8, x5=9, x6=10. Aquí dos valores que están por debajo del
x6/2=x3=7 y otros dos que quedan por encima del siguiente dato
x(6/2+1)=x4=8. Por tanto, la mediana de este grupo de datos es la
media aritmética de estos dos datos: Me=)x3+x4)/2=(7+8)/2=7,5.
Ing. Freddy Burgos Robalino, MDGPT.
Fórmula y cálculo de la mediana para datos agrupados
Li = 66 fi Fi
N/2 = 100/2 = 50 [60 , 63) 5 5
fi = 42 [63 , 66) 18 23
Fi - 1 = 23 [66 , 69) 42 65
ai = 3 [69 , 72) 27 92
Me = 67,92 100
𝑁
− 𝐹𝑖 −1
2
𝑀𝑒 = 𝐿𝑖 + . 𝑎𝑖
𝑓𝑖
Ing. Freddy Burgos Robalino, MDGPT. 143
Moda
𝑓𝑖 − 𝑓𝑖 −1
𝑀𝑜 = 𝐿𝑖 + . 𝑎𝑖
(𝑓𝑖 −𝑓𝑖−1 )+(𝑓𝑖 −𝑓𝑖+1 )
donde:
Li es el límite inferior
fi es la frecuencia del iésimo valor
fi+1 es la frecuencia del iésimo valor más uno, es decir, el siguiente
fi-1 es la frecuencia del iésimo valor menos uno, es decir, el anterior
ai es la amplitud de ese intervalo
Nota: Se debe tomar en la frecuencia absoluta el número más mayor.
Bioestadística
ESTADÍSTICA DESCRIPTIVA
Medidas de posición:
Cuartiles, Percentiles, Deciles
• Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante
las siguientes fórmulas:
• Para el primer cuartil:
• Cuando n es par:
• Cuando n es impar:
El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de
los datos; es decir, aquel valor de la variable que supera 25% de las
observaciones y es superado por el 75% de las observaciones.
Fórmula de Q1, para series de Datos agrupados:
Donde:
Li = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase
El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes
de los datos, es decir aquel valor de la variable que supera al 75% y es
superado por el 25% de las observaciones.
Fórmula de Q3, para series de Datos agrupados:
Donde:
L1 = limite inferior de la clase que lo contiene
P = valor que representa la posición de la medida
f1 = la frecuencia de la clase que contiene la medida solicitada.
Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada.
Ic = intervalo de clase.
Si se tienen una serie de valores X1, X2, X3 ... Xn, se localiza mediante
las siguientes fórmulas:
• Cuando n es par:
• Cuando n es impar:
k= 1,2,3,... 9
Donde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil
k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
Ing. Freddy Burgos Robalino, MDGPT
Otra fórmula para calcular los deciles:
k= 1,2,3,... 99
Donde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
200-300 85 85
• Siendo, La posición del primer
300-400 90 175
cuartil.
400-500 120 295
• La posición del 7 decil.
500-600 70 365
600-700 62 427
• La posición del percentil 30.
700-800 36 463
Entonces,
El primer cuartil:
463
115.75 – 85 = 30.75 = 115,75
4
Li = 300, Ic = 100 , fi = 90
El 7 decil:
Posición:
324.1 – 295 = 29.1
Li = 500, fi = 70
El percentil 30
Posición:
138.9 – 85 = 53.9
Li= 300, fi = 90
Estos resultados nos indican que el 25% de los empleados ganan salarios por debajo de $
334; que bajo 541.57 gana el 70% de los empleados y sobre $359.88, gana el 70% de los
empleados.