Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4. COMPARACIONES
EXPERIMENTALES
(observación en 3. PREDICCIÓN
condiciones controladas)
DISEÑO DEL
EXPERIMENTO
USMP
Población
Inferencial
Inferencia •Población Muestreada (Inferencial) Muestreo
2. ELABORACIÓN DE DATOS
1. RECOLECCIÓN DE DATOS
Aquí es necesario tener presente como se hace la
En una investigación, la recolección de datos es un paso presentación de las tablas y de las graficas
crucial e indispensable.
BIOESTADÍSTICA Degras pa’ no biquear
- Después de recopilar y revisar los datos necesarios - Estas cifras constituyen la FRECUENCIA
para la investigación, se deben clasificar y ABSOLUTA SIMPLE (fi) de cada valor (bueno,
presentar de forma adecuada para permitir su satisfactorio, regular y malo).
análisis e interpretación estadística y debemos
tener en cuenta dos cosas: - Para obtener la FRECUENCIA RELATIVA SIMPLE
(hi%) se procede a aplicar la fórmula establecida (fi/n
A) CLASIFICACIÓN DE DATOS: Depende del tipo de
x 100). –Se expresa en porcentajes-
variable
TABLA DE FRECUENCIAS
Es una forma de agrupación de datos.
Los datos pueden ser cualitativos o cuantitativos,
Facilita la lectura y el análisis de los datos debido al
orden de los datos
Sirve para observar la frecuencia con la cual los
datos adoptan ciertos valores. El resultado es la siguiente tabla de frecuencias:
Cada tipo de variable tiene características especiales
por lo que la estructuración de una tabla de
frecuencias para cada una es diferente.
TIPO DE VARIABLE:
o Cualitativa,
o Cuantitativa discreta
o Cuantitativa continua: Es la más compleja y
necesita el uso de una calculadora científica y
operaciones matemáticas b) CASO DE LAS VARIABLES CUANTITATIVAS
a) CASO DE LAS VARIABLES CUALITATIVAS: DISCRETAS:
Para explicar cómo se construye una tabla de Las variables cuantitativas discretas son
frecuencias con datos cualitativos se utilizará los representadas sólo por números enteros, como
resultados de la evaluación de 20 pacientes hacia un número de hijos, de episodios de enfermedad, de
tratamiento. comidas en un día, entre otros.
* Se creará una tabla de frecuencias a partir de la
siguiente información de los N° de hijos de 15
pacientes mujeres:
Con esta información se puede hallar también las FRECUENCIA RELATIVA SIMPLE (hi%):
FRECUENCIAS ABSOLUTAS ACUMULADAS (Fi
Indica el porcentaje del total de observaciones que
= F (i-1) + fi).
representa el valor ó el i-ésimo intervalo (en el caso
Para obtener la FRECUENCIA RELATIVA SIMPLE
de variables cuantitativas continuas).
(hi%) se procede a aplicar la fórmula establecida
Se obtiene:
(fi/n x 100).
Finalmente, la FRECUENCIA RELATIVA hi% = fi/n*100 (siendo n el número de
ACUMULADA (Hi%) también se halla con la observaciones)
fórmula correspondiente (Fi/n x 100).
FRECUENCIA RELATIVA ACUMULADA (Hi%):
El resultado es la siguiente tabla de
Es el cociente de frecuencia absoluta y el número
total de observaciones, multiplicado por 100.
Hi% = Fi/n*100 (siendo n el número de
observaciones)
También se puede sumar las frecuencias relativas
simples porcentuales
c) CASO DE LAS VARIABLES CUANTITATIVAS
frecuencias: CONTINUAS
*La tabla ya no tendría 3 columnas, sino CINCO En el caso de las variables continuas, hay una
COLUMNAS, colocando el número de hijos y cantidad muy grande de posibles valores.
asignamos sus respectivas frecuencias. El Cuando se manejan más de 30 observaciones es
resultado del conteo va en fi y luego completamos necesario usar intervalos que permitan ordenar
la tabla de forma práctica los valores.
Sólo cuando se dividen los valores en intervalos
Asimismo el cálculo de Fi es por de la sumatoria de la
encontramos en la tabla de frecuencias: clase,
anterior fi iniciando con el mismo número si en caso el
marca de clase y límites reales (tablas más largas
“N° de hijos es 0”
que las anteriores)
IMPORTANTE: La última frecuencia relativa Para crearlos existe un procedimiento e implica la
acumulada es 100% aparición de 3 nuevas columnas:
o CLASE: Indica el número de intervalo del
Cabe mencionar que en el caso de que la variable pueda
que se trata.
adoptar una gran cantidad de valores se utilizan
o MARCA DE CLASE (Xi): Es un promedio de
enunciados como ‘más de...’ o ‘menos de...’ para
los límites del intervalo de clase i. Es el
resumir la información, pero NUNCA intervalos.
número representativo del intervalo.
FRECUENCIA ABSOLUTA SIMPLE (fi): o LÍMITES REALES: Cada intervalo tiene
números que representan sus límites y
Se refiere a la frecuencia absoluta del valor ó del i- depende de las características de los datos,
ésimo intervalo (en el caso de variables pero los límites reales indican los verdaderos
cuantitativas continuas). valores que toma una medición, ya que los
Indica el número de veces que aparece repetido límites nominales son aparentes.
dicho valor en el conjunto de observaciones
estudiadas
FRECUENCIA ABSOLUTA ACUMULADA (FI):
Indica la suma de las frecuencias absolutas de los
iguales o inferiores a ese valor ó al i-ésimo intervalo
(en el caso de variables cuantitativas
continuas).
Fi = F (i-1) + fi
BIOESTADÍSTICA Degras pa’ no biquear
Ej.: DATOS DE 30 PACIENTES CON CÁNCER *Este valor siempre se debe redondear a entero
PULMONAR.
3.- Determinar la amplitud del intervalo de clase (C),
utilizando la siguiente expresión:
C=A/k
Para nuestro ejemplo: C= 42 / 6 = 7
*Se recomienda que C este en función a la
naturaleza de los datos, si es entero, C tiene que
ser entero, redondeo matemático, si es un decimal,
C tiene que ser redondeado a un decimal
Ahora procedemos a construir nuestros intervalos,
existen muchas formas, pero la más fácil es empezar
con el valor mínimo y luego hacia abajo agregamos el
valor de C sumando consecutivamente.
En el curso trabajaremos con intervalos cerrados
entonces significa que si en el ejemplo el segundo del
*Primero necesitamos datos, los cuales ya se observan lado izquierdo es 30 + 7 (Valor de C) y el primero del
en esta tabla entonces se procede a obtener el rango de lado derecho será 37 restando 1, es decir 36 y así
los datos, buscando el valor mínimo y el máximo. Así sucesivamente y al final va a suceder que en donde es
sencillamente vemos que el paciente 1 tiene 30 años 64 + 7 es 71.
(mínimo) y el paciente 22 tiene 71 años (máximo)
4.- Determinar los límites. El Vmin es el límite inferior
PROCEDIMIENTO PARA CONSTRUIR de la primera clase y su respectivo límite superior será
TABLAS DE FRECUENCIAS Vmin + (C-1); el límite inferior de la segunda clase es el
1.- Encontrar la amplitud (A) del conjunto de datos, límite superior de la primera clase más uno y el
es decir el valor máximo menos el valor mínimo, más respectivo límite superior será igual al límite inferior más
una unidad de medida. (C-1); y así sucesivamente hasta completar el número
A = (Vmax - Vmin)+ 1 de intervalos.
5- La clasificación de los datos de una variable Las frecuencias relativas son siempre valores
continua puede hacerse manualmente o en forma fraccionarios. O < hi < 1
automatizada. La suma de las frecuencias relativas porcentual es
igual a 100%
El último valor de las FRECUENCIAS
ABSOLUTAS ACUMULADAS es igual a n.
El último valor correspondiente a las
FRECUENCIAS RELATIVAS ACUMULADAS
PORCENTUALES debe ser igual a 100%.
RECUERDEN:
fi: Frecuencia absoluta del i-ésimo intervalo,
nos indica número de veces que aparece
repetido dicho valor en el conjunto de
observaciones estudiadas.
Fi: Frecuencia absoluta acumulada de la clase
*Se procede a analizar cuantos datos hay en el intervalo i nos indica la suma de las frecuencias absolutas
de 30-36 y recordemos que está incluido 30 y 36 porque de los iguales o inferiores a el.
es un intervalo cerrado, y así sucesivamente hasta que F1 = f1
fi sume 30 F2 = f1+f2
hi%: Frecuencia relativa de la clase i es el
RESULTADO: TABLA DE FRECUENCIAS
cociente entre la frecuencia absoluta y el
número total de observaciones multiplicando
por 100.
hi% = fi/n*100
Hi%: Frecuencia relativa acumulada de la clase
i, es la frecuencia absoluta acumulada dividido
por el número total de observaciones.
Hi% = Fi/n*100
*Se ha mencionado que el Xi es un promedio de los Xi: Es la marca de clase de la clase i se
dos límites del intervalo y su incremento es constante determina mediante el promedio de los límites
y sigue de 7 en 7 coincidiendo con el valor de C de dicho intervalo.
Limites reales: Si los límites nominales de los
Ej: 33 es la semisuma de los dos valores del intervalos de clase están expresados en enteros
intervalo (30 + 36 = 66 y 66/2 = 33) los límites reales de cada intervalo se determina
En el caso de los límites reales si son enteros (como en restando y sumando media unidad al límite
el caso del ejemplo) al LÍMITE INFERIOR se le RESTA inferior y superior respectivamente de cada
0.5 y al LÍMITE SUPERIOR se le SUMA 0.5 intervalo.
*En el caso de entero se suma 0.5, en el caso
OJO: En los límites reales observamos la de decimal 0.05, y en el caso de dos decimales
continuidad de los datos a diferencia de los primeros se va a restar y sumar 2 decimales 0.005
intervalos que hay saltos de 36 a 37, y lo que
queremos demostrar es que en los límites reales las 2.2. PRESENTACIÓN DE DATOS
variables son continuas Depende del tipo de variable que trabajamos y bajo las
normas Vancouver
PROPIEDADES DE LAS FRECUENCIAS
Las frecuencias absolutas son siempre valores VARIABLES CUALITATIVAS:
enteros. A) VARIABLE CUALITATIVA DE DOS
La suma de las frecuencias absolutas es igual n. CATEGORÍAS:
BIOESTADÍSTICA Degras pa’ no biquear
Es una variable que sólo admite dos posibles Para su elaboración se utiliza la circunferencia siendo
datos, por lo que es una medida dicotómica: necesario que los valores absolutos y/o porcentajes
Sexo: masculino o femenino. sean traducidos a grados, los 360° y que se reparten en
Antecedente de enfermedad proporción a los porcentajes.
cardiovascular: si o no.
INFORMACIÓN:
Para la presentación tabular, se utiliza la tabla
de frecuencia univariable dicotómica.
B) VARIABLE CONTINUA:
Es una variable que admite valores numéricos
reales, es decir, que pueden contener décimas,
centésimas, milésimas, etc. La precisión de la
observación, en este tipo de variable, sólo se ve HISTOGRAMA
limitado por el método o instrumento con el cual Muestra la distribución de datos cuantitativos
se mide. El área es proporcional a la frecuencia respectiva
Edad Representa a las frecuencias absolutas o relativas
Temperatura Tiene como base los límites reales (Importante
determinarlos) de los intervalos de clase.
*Su característica es que el rango de edad es OJO: No es necesario hacer la medición ya que
muy grande y cuando se tiene más de 30 datos Excel brinda herramientas, solo construimos la
se debe construir tablas por intervalo tabla y se obtienen automáticamente las figuras
Para la presentación tabular, se utiliza la tabla rectangulares juntas
de frecuencia univariable. En casos de tener
una gran cantidad de datos, estos pueden ser
agrupados en intervalos.
El área total bajo el polígono equivale al área del no se toca en el curso pero es necesario tenerlo
histograma. presente como cultura estadística.
*Usamos la misma información por medio del uso de SELECCIÓN DEL GRAFICO DE ACUERDO
líneas uniendo puntos medios superiores. Como es una AL TIPO VARIABLE
figura geométrica no tiene curva normal pero se
evidencia los dos bloques que se está modificando (se
verá cómo se interpreta en la clase de Distribución
normal)
POLÍGONO DE FRECUENCIAS
ACUMULADAS (OJIVA)
Denominado también ojiva, utiliza las
FRECUENCIAS ABSOLUTAS O RELATIVAS
ACUMULADAS, y consiste en un gráfico lineal que
nos permite observar la cantidad de elementos que
quedan por encima o por debajo de determinados
valores de los límites de los intervalos de clase. IMPORTANTE:
Tienen que tener una forma proporcional a lo que
se trabaja con las frecuencias - Ubicar la variable de estudio, luego lo
Se utiliza mucho en el campo de la economía para clasificamos en cuantitativa o cualitativa.
tomar decisiones o para calcular medidas de - Si es cualitativa es SIMPLE: Colocamos su
posición. variable, categoría y el fi y hi% -3 columnas-
En bioestadística usualmente se trabaja con el - Si es cuantitativa discreta cambia la figura ya
polígono, es decir, con las frecuencias simples que aparte de las categorías(números enteros)
calculamos la fi, FI, hi, y Hi% -5 columnas-
La ojiva se obtiene uniendo los puntos que le
- Si es cuantitativa continua son 8 columnas
corresponden a las frecuencias acumuladas de los
porque agregamos número de clase, marca de
respectivos límites superiores de cada intervalo
clase y límites reales.
NO punto medio.
- En cuanto a la gráfica:
o Variables Cualitativas: Se recomienda
gráfico en barras y circulares (Hasta el
momento).
o Variables Discretas: Hay una discusión
(diferencias en la literatura) pero se
recomienda el uso de Barras Simples
(separadas).
o Variable Cuantitativa continua:
Histograma y polígonos de frecuencia son
lo más útiles en bioestadística para poder
Muy util para calcular medidas de persintión como realizar una interpretación correcta y el tipo
cuartiles o en el caso de la mediana. En el curso de distribución de datos.
interesa interpretar este polígono de frecuencias.
Trazamos el polígono y si observamos una especie
de campana (no perfecta pero que los datos estén
en el centro) nos dará la idea de una distribución
HOMOGENEA pero si en los extremos una
distribución HETEROGÉNEA entonces no habrá
interpretación respectiva.
Por ser una figura rectangular tambien tiene su
función de densidad o de modelo matematica pero
BIOESTADÍSTICA Degras pa’ no biquear
S3 ( T3 )
Aplica conocimientos de estadística descriptiva para Permiten hallar un solo valor numérico
calcular ciertas medidas resúmenes según el tipo de alrededor del cual los datos parecen
variable que se está considerando
Agruparse, como si fuera el “centro de gravedad” de los
LA ESTADÍSTICA DE RESUMEN datos. Debido a estas circunstancias, suelen ser
llamados de POSICIÓN O TENDENCIA CENTRAL.
Después de construir tablas y gráficos, a partir de
una colección de datos, se requieren medidas
más exactas. PRINCIPALES MEDIDAS DE TENDENCIA
La estadística de resumen, proporciona medidas CENTRAL
para describir un conjunto de datos.
Moda (Mo)
EXISTEN DOS TIPOS DE MEDIDAS DE
RESUMEN: Mediana (Me)
1. De tendencia central. Media Aritmética (x o )
De forma y de posición Cuartiles (Q)
2. De dispersión.
Estado Civil fi
Soltero 30 Intervalo
modal:
Casado 60 mayor
Divorciado 10 frecuencia
absoluta
Total 100
Li: es el límite inferior de la clase donde se encuentra
la moda, 30.
MO = 1 HIJO
fi: es la frecuencia absoluta del intervalo modal, 12
Número de hijos de 60 personas
fi-1: es la frecuencia absoluta del intervalo previo al
Xi 0 1 2 3 4 5 6 modal, 7
fi 10 21 15 7 3 2 2 Fi+1: es la frecuencia absoluta del intervalo posterior
al modal, 3
ti: es la amplitud de los intervalos. Se calcula restando
EJEMPLO: MODA PARA DATOS AGRUPADOS
el extremo superior menos el inferior del intervalo,
En una tabla de distribución de frecuencias es la 40 - 30 = 10
marca de clase o punto medio de la clase que tiene
REEMPLAZAMOS:
la mayor frecuencia absoluta simple.
La moda estará ubicada en el intervalo: CLASE III
Clase Variable fi
I 1-4 3
II 5 - 17 9
III 18 - 25 15
IV 26 - 65 8
V 65 - 100 5
total 40
ORDENADOS= 3, 4, 6, 7, 10, 12, 16, 19, 20, 21 Me= X N/2 y X (N/2 +1)
50% 50% 2
3, 4, 6, 7, 10, 12, 16, 19, 20, 21
V. min. Me. V. máx. Ejemplo:
Me = ? Dado los valores: 11, 8, 13, 20, 14, 3, 7, 12. Par.
Hallar la mediana.
(10 + 12) / 2
Ordenando ascendentemente:
= 11 3, 7, 8, 11, 12, 13, 14, 20.
Procedimiento:
X = [(fi Xi)] / n
5. Como incluye todos los datos, puede estar = 1648 / 30
=54.9
afectado por valores extremos. INTERPRETACIÓN:
6. Como incluye todos los datos, puede estar
afectado por valores extremos. En promedio los valores de la edad de los 30
pacientes son de 54.93 años.
Ejemplo 1:
Los siguientes datos son edades de 10 madres
que asisten a un centro de salud en un día:
30, 43, 58, 61, 70, 42, 58, 39, 60, 55
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13
BIOESTADÍSTICA Degras pa’ no biquear
Moda
ASIMETRÍA A LA DERECHA
CUARTILES (Q) DATOS AGRUPADOS
Son aquellos que dividen a la distribución en
30
Moda
Mediana cuatro partes iguales, en donde cada uno de
25
20
Media ellos incluye el 25% de las observaciones.
__25%_._25%__.__25%__.__25%__
15
Q1 Q2 Q3
10
Me
5
0
1 2 3 4 5 6 7 8 9 10 11 12 13
DISTRIBUCIÓN SESGADA A LA
DERECHA
MEDIDAS DE POSICIÓN
Sitúan a un individuo en la distribución de la
variable que se está estudiando.
Primero deben ordenarse los datos.
fi Fi
Se usan mucho en test psicométricos y medidas 50-60 8 8
60-70
antropométricas. 10 18
70-80 16 34
PERCENTILES
*Usado más en pediatría.
PERCENTILES (P) datos agrupados
Variable fi Fi hi Hi
55 - 58 20 20 8% 8%
59 - 62 30 50 12% 20%
63 - 66 80 130 32% 52%
67 - 70 70 200 28% 80%
71 - 74 40 240 16% 96%
75 - 78 10 250 4% 100%
Total 250
Cálculo de los percentiles en datos agrupados:
En primer lugar, buscamos la clase donde se INTERPRETAR:
encuentra cada percentil, en la tabla de las
frecuencias acumuladas. 1. Q3: P25
2. P45: Mediana= P50
3. P90: P75
BIOESTADÍSTICA Degras pa’ no biquear
RAZON
Es la comparación por cociente entre dos cifras
de diferentes o similar naturaleza en donde el
numerador y el denominador son excluyentes.
Por ejemplo, si tenemos 380 camas
hospitalarias y 95 enfermeras y queremos
encontrar la razón entre ellas, tenemos que
dividir:
380 camas hospitalarias/95
enfermeras= 4 camas/enfermera.
PROPORCIÓN
Es la comparación por cociente entre el
número de elementos de un subconjunto y
el número de elementos de un conjunto al
que pertenece dicho subconjunto.
En este caso el numerador está incluido en
el denominador, por este motivo los valores
siempre van a ser menores que la unidad.
Por ejemplo, si en la población hubo 175
casos de cáncer pulmonar de un total de 1925
casos de todos los tipos de cáncer, la
proporción se calculará.
175 / 1925 = 0.09
Quiere decir que el 9% de todos los
cánceres, fueron cáncer pulmonar
BIOESTADÍSTICA Degras Pa’ no biquear
Medidas descriptivas
Recordemos frecuentes, hay menos cantidad de datos
o MODA (Mo): Dato que más se repetía por encima del promedio.
o MEDIANA (Me): Dato Central
o MEDIA ARITMÉTICA (x o ): Promedio Cuando los datos de una población se distribuyen con
o CUARTILES (Q): Tres valores que dividen a igual frecuencia y alejamiento por debajo y por
los datos en cuatro partes iguales encima de la media aritmética, se dice que la
distribución es simétrica; pero si los datos por debajo
MEDIDAS DE FORMA de la media son más frecuentes que aquellos por
encima de la media, o viceversa, se dice que la
Son aplicadas en función a la representación gráfica de distribución es asimétrica.
los datos. Comparan la forma gráfica con la distribución
normal para determinar si son simétricos o no y se
determina una clasificación:
1. SIMETRÍA
Se establece que la distribución es simétrica
cuando los datos de una población se
distribuyen con igual frecuencia y alejamiento
por debajo y por encima de la media aritmética
(promedio). En estas distribuciones el valor de
las medidas de tendencia central –media, moda
y mediana- es el mismo.
La simetría determina que la población es Esta es una curva normal, aquí la media, mediana y
homogénea en relación a la variable en moda son iguales. Si tú doblas la curva por la tangente
estudio. central entonces serán la misma cantidad de datos a la
2. ASIMETRÍA derecha y a la izquierda.
Se clasifica como asimétrica la distribución
donde los datos por debajo de la media son más
frecuentes que aquellos por encima de la media, ASIMETRÍA IZQUIERDA O NEGATIVA
o viceversa, son diferentes por encima o debajo Moda
del promedio. Mediana
En este caso, se establece que la población es
heterogénea para la variable en estudio. Media
o Distribución asimétrica a la izquierda: los
datos por debajo de la media son menos
frecuentes, hay menos datos pequeños por
debajo del promedio
o Distribución asimétrica a la derecha: los
datos por encima de la media son menos
En este caso, el promedio es el dato más pequeño, la
mediana es mayor y la moda mucho mayor.
BIOESTADÍSTICA Degras Pa’ no biquear
La que menos información nos ofrece sobre la
ASIMETRÍA DERECHA O POSITIVA agrupación de las variables en torno a las
Moda medidas de tendencia central. El rango nos
Mediana dice cuales el largo de mis datos entre el valor
Media máximo y el valor mínimo, no tienen en cuenta
la medida de tendencia central; por ello, se
debe agarrar el largo de mis datos entre el
valor máximo y el valor mínimo y restarlo. No
tienen en cuenta ninguna medida de tendencia
central.
A = Obsmax - Obsmin
Se aplican a variables cuantitativas discretas
o continuas pero no a las cualitativas.
En este caso, la moda es el valor más pequeño, la
mediana es el valor intermedio y la media es el valor más 2. VARIANZA (V / 2 / s2)
grande. Es una medida de dispersión que cuantifica la
variabilidad de los datos con respecto a la
Una medida de dispersión indica cómo las Media Aritmética. Ver que tan lejos está cada
observaciones se separan de la Media Aritmética o uno de los datos del promedio y darte un valor;
Promedio. cuanto más grande sea la varianza, significará
Esta medida de dispersión será grande si las que más dispersos o lejos estarán los datos.
observaciones están distantes o lejos de la media o En la clase anterior, la Dra. comentó que si
promedio y pequeña si están cerca. nosotros restáramos cada dato individual su
promedio y luego lo sumábamos, su valor sería
Llamadas también medidas de variabilidad, miden cero. Entonces lo que tenemos que hacer aquí
el grado de separación de los datos respecto al valor es poner al cuadrado todas las restas del
central. promedio, es decir dato 1 menos el promedio
Son útiles porque al cuadrado, dato 2 menos el promedio al
o Permiten juzgar la confiabilidad de la medida cuadrado y así sucesivamente; esto quiere
de tendencia central. Si yo tengo una medida decir que todos los valores que sumemos
de dispersión pequeña significa que todos mis serán positivos y no vamos a obtener ningún 0.
datos se parecen al promedio o a la media,
serían muy similares; entonces mi descripción
de medida de tendencia central realmente
describen a muchos de esos datos. Junto con la desviación estándar, es la medida
o Los datos demasiados dispersos tienen un de dispersión que mejor expresa la variabilidad
comportamiento especial. Cuando hay muy del fenómeno.
grandes o muy pequeños tienen ese tipo de Si tenemos N datos X1, X2, X3,…, XN. La
comportamiento varianza de estos datos se define como:
o Es posible comparar dispersión de diversas
muestras.
FEs = Q3 +3(RIQ)
EJEMPLO
6. Mirando las Fronteras EDAD DE 100 PACIENTES
Interiores inferior (FIi) y
superior (FIs):
FIi = Q1 – (1.5)
(RIQ)
FIs = Q3 + (1.5)
(RIQ)
Valores atípicos moderados
se dibujan con un punto “●”
7. Mirando las Fronteras Exteriores inferior (FEi) y
superior (FEs):
Procedemos a saber cuáles son los cuartiles.
FEi = Q1 –3(RIQ)
FEs = Q3 +3(RIQ) POSICIÓN DE LOS CUARTILES
PASOS
1. Dibujar una caja cuyo límite
inferior será Q1=23 y el superior
Q3=31.
2. Dentro de la caja trazar una
línea que localice la
Mediana=26.
3. Calcular el rango
intercuartílico:
RIQ= Q3 – Q1= 31 - 23= 8
4. Se calculan las Fronteras
Interiores inferior y superior:
FIi = Q1 – (1.5) (RIQ)= 11
FIs = Q3 + (1.5) (RIQ)= 43
EJEMPLO
5. Se calculan las Fronteras Exteriores inferior y superior:
FEi = Q1 – (3) (RIQ)= -1 CAMBIO EN DISCAPACIDAD SEGÚN NUDS
FEs = Q3 + (3) (RIQ)= 55
6. Dibujar un “bigote” saliendo del borde inferior de la caja
hasta la frontera inferior (11), o valor mínimo = 18.
7. Dibujar otro “bigote” saliendo del borde superior de la caja
hasta la Frontera Interior superior = 43 o valor máximo.
8. Dibujar cualquier observación que se ubique fuera de los
bigotes. Estos serán los outliers moderados=51 o
extremos.
FIi = Q1 – (1.5)(RIQ)= 11
FIs = Q3 + (1.5)(RIQ)= 43
9. Dibujar los valores más alejados, se debe considerar otra
forma para el outlier extremo= 57, por ejemplo un
asterisco.
FEi = Q1-(3 x RIQ) = -1
FEs = Q1+(3 x RIQ) = 55
BIOESTADÍSTICA Degras pa’ no biquear
Cajas angostas
VISTA DE UN BOXPLOT Y SU
muestran una gran
concentración de HISTOGRAMA
datos.
La longitud de las
colas por su parte
nos dirá la mayor o
menor
concentración de
los datos en las
zonas extremas.
INTERPRETACIÓN
Mientras más
larga la caja y
los bigotes,
más dispersa
es la
distribución de
datos.
La distancia
entre las cinco
medidas del
boxplot (sin
incluir la media aritmética) puede variar, sin embargo,
recuerde que la cantidad de elementos entre una y otra El histograma y Boxplot presentan cierta simetría.
es aproximadamente la misma. Hay una ligera asimetría en ambos bigotes.
Se observan valores extremos
Entre el límite inferior y Q1 hay igual cantidad de datos que de
Q1 a la mediana, de ésta a Q3 y de Q3 al límite superior (25%). Recordar que el histograma y boxplot nos presentan la
misma información, sin embargo será mucho más
Se considera aproximado porque pudiera haber valores
detallado en el Boxplot
atípicos, en cuyo caso la cantidad de elementos se ve
levemente modificada.
La línea que representa la mediana indica la simetría.
Si está relativamente en el centro de la caja la
distribución es simétrica.
BIOESTADÍSTICA Degras pa’ no biquear
EJEMPLO
Conforme la parte de estadística diferencial nos permite P(AUB) = P(A) + P(B) - P(AB)
trabajar con hipótesis que son probabilísticos.
Se ha aplicado desde la edad media y ha ido cambiando
durante el tiempo mediante el enfoque de la enseñanza.
Es importante seguir al pie de la letra las siguientes
propiedades.
PROPIEDADES
1. 0 P(A) 1
P(A) = n(A) / Gran total
Esta primera regla se refiere a que la probabilidad del EJEMPLO:
evento va a tomar los valores de entre 0 y 1; esto quiere
decirnos que la probabilidad de un evento seguro será de
1, mientras que la probabilidad de un evento imposible es
0.
NOTA: Es similar a una proporción, por eso que su
rango va a ser entre 0 y 1
EJEMPLO:
P(OsteopeniaUOsteoporosis)=P(Osteopenia)+P(Osteo
porosis)- P(Osteopenia∩Osteoporosis)
=467/1000+64/1000=0,531
Son sucesos disjuntos
Osteopenia ∩ Osteoporosis=Ø
¿Probabilidad que sea una mujer normal y tenga ¿Probabilidad de tener osteoporosis o menopausia?
menopausia? Con la guía de la tabla sabremos los valores P(OsteoporosisUMenopausia)=P(Osteoporosis)+P(Men
que corresponden. opausia)-P (Osteoporosis ∩ Menopausia)
P (Normal y Menopausia) = 280/1000=0,28 =64/1000+697/1000-58/1000=0,703
BIOESTADÍSTICA Degras Pa´ no biquear
EJEMPLO:
8. INDEPENDENCIA DE SUCESOS
Se ha repetido en 1000 ocasiones el experimento de Dos sucesos son independientes si el que ocurra uno,
elegir a una mujer de una población muy grande. El no añade información sobre el otro. No se afectan
resultado está en la tabla. entre los dos. Tenemos que tenerlo en cuenta para la
¿Cuál es la probabilidad de que una mujer tenga toma de decisiones.
osteoporosis? A es independiente de B
P(Osteoporosis)=64/1000=0,064=6,4% P(A∩B) = P(A) P(B)
Noción frecuentista de probabilidad P(A|B) = P(A)
¿Cuál es la probabilidad de que una mujer no tenga EJEMPLO:
osteoporosis?
P (No Osteoporosis) =1-P(Osteoporosis)=1-
64/1000=0,936=93,6%, este es el complemento y es
muy utilizado en casos de prevalencia.
6. PROBABILIDAD CONDICIONAL: P(B/A)
Es muy importante para poder entender casos de
probabilidades condicionales.
Sea (omega) un espacio muestral asociado al
experimento aleatorio E. Sean los eventos A y B dados APLICACIONES
en . EVALUACION DE UNA PRUEBA DE TAMIZAJE EN
La probabilidad de la ocurrencia del evento B dado ESTUDIOS: TRANSVERSAL Y CASO-CONTROL
que ha ocurrido A se denomina probabilidad Se aplican a nivel poblacional en el estudio transversal y
condicional de B dado A. en el caso-control el objetivo es identificar los factores de
Fórmula: riesgo, no se puede conocer prevalencias.
Tiene dos formas de expresión que son las siguientes:
P(B/A) = n(AB) / n (A)
Esto se aplica cuando los datos están en una tabla
P(B/A) = P(AB) / P (A)
Esto se aplica cuando los datos no están en una tabla
donde P(A) > 0.
Esta probabilidad es un cociente de dos probabilidades.
BIOESTADÍSTICA Degras Pa´ no biquear
OJO:
VPP = VALOR PREDICTIVO POSITIVO
VPN = VALOR PREDICTIVO NEGATIVO
EJEMPLO:
En general:
BIOESTADÍSTICA Degras Pa´ no biquear
0 1425
1 1351
2 793
3 348
4 156
5 58
6 28
7 15
8 6
9 3
10 1
El eje X es # de medicamentos
12 1
Total 4185
P(X=2) es 0.1895, esto se tiene que encontrar en la
tabla.
De ahí tenemos que hallar la frecuencia relativa de cada ¿P(X=4) es ?, sería 0.0373
una de las posibilidades y tendremos la siguiente tabla:
DISTRIBUCIÓN DE PROBABILIDAD DEL NÚMERO DE DISTRIBUCION BINOMIAL
MEDICAMENTOS CONSUMIDOS DURANTE EL Es una distribución de probabilidad de variables discretas.
EMBARAZO
# medicamentos Frecuencia ENSAYO DE BERNOULLI
0 0.3405 Es cualquier ensayo de algún experimento que conduce
1 0.3228 sólo a uno de dos resultados que son mutuamente
2 0.1895
excluyentes, tales como: vivo o muerto; enfermo o sano;
+ ó – ; Masculino o Femenino.
3 0.0832
Estos pueden ser expresados en "Sí" o "No", si hago la
4 0.0373
pregunta correctamente. Por ejemplo:
5 0.0139 Al tirar una moneda, ¿Será cara?
6 0.0067 ¿Era el recién nacido fue niña?
7 0.0036 ¿Sus ojos son verdes?
8 0.0014
¿El paciente, tiene TBC?
¿La prueba, salió +?
9 0.0007
EJEMPLOS:
10 0.0002
Tirar una moneda.
12 0.0002 En este contexto, ("cara") convencionalmente denota éxito
Total 1.0000 y el reverso ("sello") denota fallo. Por definición, una
moneda tiene 0.5 de probabilidad de éxito.
BIOESTADÍSTICA Degras Pa´ no biquear
CARACTERÍSTICAS
Se demuestra que la distribución binomial es una
distribución de probabilidad ya que:
p(x) 0
p(x) =1
La distribución binomial tiene dos parámetros:
n y p B(n,p)
La media de la distribución binomial es: x = np
La desviación estándar es: x = npq
PARÁMETROS DE LA DISTRIBUCIÓN
BINOMIAL
Media 𝓊 = 𝓃𝓅
Varianza 𝓊2 = 𝓃𝓅𝓆
Desv. Estándar 𝓊 = √(𝓃𝓅𝓆)
Ejemplo: En cierta población la prevalencia de alergia es
de 20%. Si se selecciona una muestra aleatoria de 10
personas.
Calcular :
a. La probabilidad de que la muestra contenga
exactamente un alérgico.
Solución: n!
p(X = x) = p x qn-x
Datos: x!(n - x)!
Éxito = tener alergia p = 0,2 y q = 0,8
n = 10 ; x = 1
Luego: p(X=1)= 10! (0,2)1 (0,8)9
1!9!
p(X=1) = 10 (0,2)(0,8)9
p(X=1) = 0,2684
b. La probabilidad de que la muestra incluya menos de dos
alérgicos
Solución: p(X = x) =
n! x n-x
p q
p = 0,2 x!(n - x)!
q = 0,8
n = 10
p(X<2) = p(X=0) + p(X=1)
p(X=0) + p(X=1)
= 10! (0,2)0 (0,8)10 + 0,2684
0!10!
= 0,1074 + 0,2684
p(X<2) = 0,3758
BIOESTADÍSTICA Degras pa' no biquear
S6
(T6.2)
DISTRIBUCIÓN NORMAL Y LA Valores de presión arterial sistólica en
CAMPANA DE GAUS una muestra de
1000 pacientes isquémicos ingresados
Es una distribución de probabilidad de variables continuas
(variable numérica con números decimales).
en UCI
Polígono de Frecuencias:
Su importancia se debe principalmente a que hay muchas
variables asociadas a fenómenos naturales que siguen el - Se observa: La presión arterial sistólica de una
modelo de la distribución normal. muestra de 1000 pacientes con problemas isquémicos
cardíacos hospitalizados en la UCI.
Caracteres morfológicos de individuos (personas, Pasos a seguir: Realizar un histograma y
animales, plantas,) de una especie, p.ejm. tallas, pesos, posteriormente, unir los puntos medios de la parte de
envergaduras, diámetros, perímetros. arriba de cada barra.
Caracteres fisiológicos, por ejemplo: efecto de una
misma dosis de un fármaco, o de una misma cantidad
de abono.
Caracteres sociológicos, por ejemplo: consumo de
cierto producto por un mismo grupo de individuos,
puntuaciones de examen.
Caracteres psicológicos, por ejemplo: cociente
intelectual, grado de adaptación a un medio.
Errores cometidos al medir ciertas magnitudes.
Valores estadísticos muestrales, por ejemplo: la
media.
Otras distribuciones como la binomial o la de Poisson
son aproximaciones normales.
Y en general cualquier característica que se obtenga
como suma de muchos factores.
DISTRIBUCIÓN NORMAL
Es una distribución de probabilidad de variables
continuas.
El matemático Gauss contribuyó notablemente en el
Interpretación: El polígono de frecuencias se asemeja
estudio y difusión de esta distribución.
más a la curva normal cuanto más grande sea la
La mayoría de las variables continuas tienen
muestra.
polígonos de frecuencias que permiten visualizar un
aumento gradual hasta llegar a un máximo y luego un
descenso igualmente gradual.
Así:
BIOESTADÍSTICA Degras pa' no biquear
99.74%
95.44%
68.26%
Figura 2:
FUNCIÓN DE DISTRIBUCIÓN Distribuciones
normales con
o Puede tomar cualquier valor (- ∞, + ∞)
diferente media,
o Son más probables los valores cercanos a uno
pero la misma
central que llamamos media m
desviación
o Conforme nos separamos de ese valor m, la
estándar.
probabilidad va decreciendo de igual forma a derecha
e izquierda (es simétrica).
o Conforme nos separamos de ese valor m, la Interpretación figura 1: El centro es el mismo, por
probabilidad va decreciendo de forma más o menos ende, la media será la misma, sin embargo,
rápida dependiendo de un parámetro s, que es la cambia la desviación estándar.
desviación estándar.
Desviación estándar más grande: Curva
En síntesis, conforme vamos cambiando la lejanía del celeste
centro, la pendiente de la curva va cambiando. Desviación estándar más pequeña:
Curva azul
DISTRIBUCIÓN NORMAL
UNITARIA O NORMAL
ESTÁNDAR
Tiene una media de cero y desviación estándar
de uno.
DISTRIBUCIÓN NORMAL Se obtiene a partir de la ecuación,
Queda definida por dos parámetros, su media y su desviación
típica y la representamos así
𝑵= (𝝁, 𝝈)
haciendo =0, =1 y x - = z
Para cada valor de 𝜇 𝑦 𝜎 tendremos una función de densidad Interpretación: Se obtiene una curva
distinta, por lo tanto, la expresión 𝑁= (𝜇, 𝜎) representa una familia normal estándar.
de distribuciones normales.
BIOESTADÍSTICA Degras pa' no biquear
ABREVIACIONES
1. Media de la población = μ
2. Desviación estándar = σ
3. Media de una muestra = x
4. Desviación estándar muestral = s
- Población = N
Las cuatro distribuciones del gráfico son normales, con - Muestra = n
distintos valores de la media y la desviación típica. La
5. Grados de libertad = v
verde es la "normal estándar", de media cero y
6. Distribución Normal Estándar = z
desviación típica uno.
- μ = 0 y σ =1
Interpretación:
- La curva roja es mucho más delgada y alta, es
decir, hay más datos cercanos al promedio.
- Desviación estándar pequeña: 0.2
- Curva azul: Media = 0, desviación estándar: 5,
es decir, es una curva chata y gordita.
En síntesis:
- Desviación estándar grande: Curva chata y
gordita. Curva T, parecida a la curva Z
- Desviación estándar pequeña: Curva alta y mas no, igual.
flaquita.
Curva Morada o lila: Un poco más alta que la
desviación estándar.
BIOESTADÍSTICA Degras pa' no biquear
• Así:
Interpretación: Tabla Z
Como 1era columna dará valores de Z y
como 2da, valores de probabilidad.
De la mitad de la tabla a la izquierda:
Valores de P menores que 0.5 ya que,
existen probabilidades pequeñas.
Cuando trazo mi recta a la derecha del
centro: Áreas grandes.
Interpretación: Se puede observar el Z de 2
Todo lo que está detrás de 2 tiene un área de
0.97725.
Es decir, que la probabilidad de que un valor
elegido a azar sea menor que 2 es igual a
0.977725.
BIOESTADÍSTICA Degras pa' no biquear
Interpretación:
De la tabla: área entre -∞ y
La probabilidad de que un valor de z sea mayor
z=2,45 área entre -∞ y z=0,84 igual a 2,71 es de 0,00336.
p(0,84 z 2,45) =
BIOESTADISTICA Degras pa´ no biquear
u=140 u=0
En la primera imagen vemos un histograma con polígono de =20
FORMULA
Se transforman o estandarizan los valores de xi en términos
de z.
x1
230 200
z1 1,50
20
x 170 200
z2 2 1,50
z es una variable aleatoria con distribución normal. Luego: 20
Valor z:
BIOESTADISTICA Degras pa´ no biquear
b. Tenga un valor de 270 ó más.
= 1 Solución:
1
p(x270) =?
z =20
-1,50 0 1,5
i
0
Luego: p(170x230)= p(-1,50z1,50)=?.
200 270 x
De la tabla: i
ó Cálculo de z:
El 86.6% de personas tienen colesterol entre 170 y 230. Z= 270 – 200= 3,50
TABLA Z 20
A la izquierda se encuentran los valores negativos de Z y los Luego:
valores menores que 0.5 del área bajo la curva.
p(x270)=p(z3,50)
A la derecha están los valores positivos de Z y valores
mayores que 0.5 del área bajo la curva. = 1 - 0,99865