Degrabas USMP Bioestadistica

BIOESTADÍSTICA Degras Pa’ no biquear
• Primero debemos buscar lo que otras personas han

encontrado acerca del tema que te interesa. Por lo
tanto, te vas a la bibliografía.
• Luego, creamos una hipótesis, es decir, que creo
TEOLÓGICO yo que está sucediendo y el por qué está
sucediendo.
 Algo que nos dicen por medio de documentos o • Después predecimos por qué sucede de esta
historias contadas. manera y de ahí diseñamos un experimento que
 Ejemplos: Creencias de dioses, conocimientos de nos permita comprobar esta hipótesis y esa
la biblia, etc. predicción.
• Finamente, hacemos una comparación
FILOSÓFICO
experimental, es decir, observar lo que yo plantee
 Empezamos a preguntarnos el “por qué” y el “para en el experimento y ver qué es lo que sucede. Con
que” de las cosas. lo que observamos, vamos a decidir si rechazar o
no la hipótesis.
CIENTÍFICO • Para así poder escribir nuestros resultados en un
 En el campo de las ciencias fácticas (datos artículo científico o en una carta o en un libro.
encontrados y observados) Creamos nuevas bibliografías para que otras
 Es inductivo, metódico y sistemático personas puedan entenderlo.
 El espíritu científico es:
Los problemas nuevos pueden surgir incluso desde el
• Crítico, objetivo y racional.
primer paso
• Cuestiona sus resultados y los somete a
prueba
1. OBSERVACIÓN
MÉTODO CIENTÍFICO
• Es esencial para todo buen científico.
• Es el método más poderoso para examinar y
dominar nuestro entorno natural. • Debe ser:
o Atenta, exacta, completa, precisa
MÉTODO CIENTÍFICO • El científico observador debe tener:

o Curiosidad, paciencia, valor e imparcialidad.
1.a. BIBLIOGRAFÍA 1. OBSERVACIÓN EN
(observaciones e
hipótesis)
CONDICIONES “Para que la observación tenga valor, es necesario
“NATURALES”
tener una cierta idea de lo que hay que observar” - J.
RECHAZO O
APROBACIÓN DE
Jacob
2. HIPÓTESIS
LA HIPÓTESIS
 Para yo poder observar en la naturaleza y hacer
mi experimento, tengo que haber leído lo que
otros ya saben del tema. Para así no cometer los
4. COMPARACIONES
EXPERIMENTALES mismo errores o quizá ya tengamos una
(observación en condiciones 3. PREDICCIÓN
controladas) respuesta.
DISEÑO DEL
EXPERIMENTO
PROBLEMAS 2. ELABORACIÓN DE LA HIPÓTESIS
NUEVOS
• Una vez que se observa el fenómeno a estudiarse,
• Se empieza teniendo una pregunta sobre algo, se construye una explicación lógica y verosímil que
observando lo que sucede en condiciones pueda ser comprobada, la HIPÓTESIS.
naturales.
3. EXPERIMENTACIÓN • Se usa en dos partes: Al principio, cuando

observo en condiciones naturales y en la parte 4,
• Es el conjunto de procesos usados para contrastar la cuando ejecuto mi experimento.
hipótesis elaborada. • También en los resultados, que resultados fueron
• Consiste en aislar una variable dependiente y una influenciados por el azar y que otros fueron una
independiente (controlada por el investigador). causa y efecto del fenómeno que se está
• Un diseño experimental correcto, permite emitir estudiando.
criterios de causalidad del fenómeno estudiado.
(causa-efecto: mayor aprendizaje en Epidemiología) LA ESTADISTICA: Es la ciencia de sacar
conclusiones de los datos. Ejemplos:
Variable Independiente: la controla el investigador
o ¿Cómo sabemos que un medicamento es bueno?
Si el medicamento sirve para disminuir el dolor,
4. ESTADÍSTICAS entonces se tendrá que diseñar un experimento
para saber cuánto bajo el dolor en las personas
P. pequeña que lo toman.
o ¿Cómo se puede predecir el resultado de las
Deducción Inducción votaciones conociendo sólo un pequeño
Población porcentaje de los votos?
grande  Sacar conclusiones de datos que viene de
muestras al azar.
A partir de la teoría de las probabilidades (que es una o ¿Qué es una muestra al azar (aleatoria)?
disciplina deductiva), se desarrolló la estadística (una o ¿Cómo entiendo/interpreto un conjunto de datos?
disciplina inductiva). Cuando yo estoy deduciendo En un conjunto de datos, la estadística te sirve
algo, he visto lo que sucede en una proporción para tener las cosas más ordenadas, para
grande de personas y deduzco que lo mismo pasará obtener una descripción y resumen de los datos.
en un grupo pequeño; en cambio, en una inducción,
Ningún método estadístico podrá compensar
yo he visto lo que sucede en una muestra pequeña
observaciones mal hechas, mal planificadas o un
de personas y asumo que lo mismo sucede en la
experimento mal programado.
población más grande.
Tiene 2 ramas:
Mediante un razonamiento lógico-matemático, se
 La estadística descriptiva
estudia aquellos aspectos de la realidad en los que
 La estadística analítica o inferencia
interviene el azar.
La metodología estadística ayuda mucho al método
científico gracias al manejo de datos y a la
comparación de resultados a través de las pruebas
de hipótesis.
¿Dónde observamos la estadística? POBLACIÓN
Se generan muchos datos y El conjunto de todos los elementos que cumplen
será importante recogerlos y
mostrarlos ordenadamente para
1.a. BIBLIOGRAFÍA 1. OBSERVACIÓN EN ciertas propiedades, entre las cuales se desea
(observaciones e CONDICIONES
su análisis. hipótesis)
“NATURALES” estudiar un determinado fenómeno.
RECHAZO O
APROBACIÓN DE LA 2. HIPÓTESIS Sinónimo: Universo
HIPÓTESIS
4. COMPARACIONES
EXPERIMENTALES
(observación en 3. PREDICCIÓN
condiciones controladas)
DISEÑO DEL
EXPERIMENTO
PROBLEMAS NUEVOS En los resultados obtenidos será bueno

determinar la influencia del azar.
UNIVERSITARIOS Individuo Muestra

•Población Objeto (Referencial)
USMP
Población
Inferencial
Inferencia •Población Muestreada (Inferencial) Muestreo
1000 Alumnos de USMP Población

•Muestra representativa Referencial
Primero, tengo una población referencial (objeto de
estudio): Preguntarles su edad a los universitarios en el
país, pero sería un estudio largo y difícil de realizar. Así
que, lo reducimos a los estudiantes de la USMP
(población muestreada o inferencial: lista de todos los
matriculados de la USMP), sin embargo probablemente
La población referencial tiene a más personas o
llevaría mucho tiempo. Por lo tanto, tomamos una
individuos, un subconjunto de ella es la población
muestra representativa de toda la población de alumno
inferencial, según el ejemplo, personas matriculados en
de USMP, a esto llamamos MUESTREO.
la USMP. Luego viene el subconjunto de esto que sería
Ejemplo: Edad de 1000 alumnos de la USMP. Sale en la muestra va a tener a 1000 individuos.
promedio 23 años y aquí podemos hacer una
INFERENCIA y decir que los alumnos de la USMP VARIABLE
tienen en promedio 23 años. La propiedad o cualidad que se desea estudiar en los
elementos de una población.
MUESTRA Una característica.
 Talla
Subconjunto de la población.  Raza
 Glucosa en sangre
MUESTRA REPRESENTATIVA
• Los elementos han sido elegidos al azar. TIPOS DE VARIABLES
• Cada elemento de la población tiene la misma V. INDEPENDIENTE:
probabilidad de ser elegido.  Controlada por el investigador.
• Debe ser de tamaño adecuado (fórmulas).  INTERVENCIÓN (dada por el investigador) –
CAUSA (de lo que se observa en el experimento.
MUESTRA NO REPRESENTATIVA
• Los elementos no han sido elegidos al azar.  Ej. Dosis de analgésico en mi experimento para ver
si funciona mi medicamento para el dolor. Se tiene
3 grupos de 100 personas cada uno, a un grupo le
INDIVIDUO / UNIDAD DE ANÁLISIS doy una dosis de 200 g, a otro le doy 400 y al último
Cada uno de los elementos de la muestra o de la 600 g. La variable independiente sería la dosis de
población. la pastilla analgésica que se va a usar
Unidad básica V. DEPENDIENTE
 Ejemplo: 1 persona, 1 animal, 1 objeto.  Aleatoria
 Cambia por el azar
 Respuesta propia del individuo
 Es el RESULTADO
 Ej. Cuánto disminuye el dolor. Que el paciente
diga cuanto era su dolor antes de tomar la
pastilla y después de tomarla.
V. CUANTITATIVA VARIABLES CUALITATIVAS ORDINALES

 Pueden medirse numéricamente, pueden
cuantificarse.  Son variables que establecen un orden de las
cosas.
 Toman valores numéricos, con significado
matemático.  Ejemplos: Gravedad de enfermedad (leve,
moderado, severo); Peso (desnutrido, normal,
 Deben acompañarse de unidades de medida
sobrepeso, obeso); Grado de Instrucción (no
(m; cm; etc.)
estudio, primaria, secundario, técnico o superior).
Puede ser:
VARIABLES CUANTITATIVAS DE INTERVALO
 DISCRETA: Entre 2 valores consecutivos
no podemos encontrar ningún otro valor.  En las escalas de intervalo el valor de cero no
Ejemplos: ¿Cuantos hijos tienes? Pueden representa la ausencia de la cantidad medida (no
ser 2 o 3 pero no hay posibilidad que tengan representa el cero absoluto), sino un status.
2.3 o 2.5. Por ejemplo:
 Número de hijos;
 Años de estudio terminados;  Temperatura del ambiente, hablar de 0º C
 Edad de una persona EN AÑOS; no implica que no exista temperatura,
 Número de cursos que llevas. también puede haber temperatura bajo
cero.
 CONTINUA: Números con decimales. Entre  Notas de un examen. Sacar cero en un
2 valores consecutivos podemos encontrar examen, no significa que no sepan nada.
infinitos valores. Ejemplos: Peso, Talla No representa la ausencia.
(altura de persona), edad de una persona.  Puntos en test psicológico. Si sacan cero en
una característica.
V. CUALITATIVA  Talla de ropa para recién nacidos: talla cero,
no quiere decir que no haya ropa.
 No puede medirse numéricamente, no pueden
cuantificarse. Se describen con palabras
El 0 significa ausencia de: NO
Ejemplos Si el número es el doble significa que lo que esta
 Sexo (F-M), midiendo también es el doble (Ej. talla de ropa): NO
 Estudios (primaria-secundaria-superior),
 Estado civil (soltero- casado-viudo-divorciado ::
VARIABLE CUANTITATIVA DE RAZÓN
ESCALAS DE MEDIDAS • En las escalas de razón el valor de cero sí
representa que en el individuo que se está
observando la cantidad medida es cero, nula o
no existe.
Por ejemplo
 0 mg% de glucosa en un líquido, significa que
no hay nada de glucosa en ese líquido
 0 hermanos. La persona realmente no tiene
hermanos.
 Peso en kg
El 0 significa ausencia de: SI
VARIABLES CUALITATIVAS NOMINALES El doble del número es el doble de lo que estoy

midiendo (Ej.: kilos de azúcar): SI
 Son variables que solo se pueden nombrar.
::
 Ejemplos: Sexo, Lugar de nacimiento, Distrito de
residencia, Colegio, Universidad, Color de ojos,
Grupo sanguíneo, Religión, etc.
CLASIFICACIÓN DE VARIABLES o Tipo: Es una variable cualitativa.
VARIABLE RECOLECCIÓN DE DATOS

En una investigación, la recolección de datos es un
Tipos de
Variables
Escala de
Medida paso crucial e indispensable.
Los datos se obtienen de una medición o de un
Cuantitativa Para variable Para variable
Cualitativa
o numérica cualitativa cuantitativa conteo de las variables de interés (cuantitativas o
cualitativas) en la población o muestra.
Escala de
Discreta Nominal
intervalo FUENTES DE DATOS
Continua Ordinal
Escala Primarias
de razón
Aquellos datos que son generados por el investigador,
quien los obtiene directamente de las unidades de
PARÁMETROS Y ESTADÍSTICOS observación o como resultado de un experimento.
 Se registran usando diversas técnicas:
PARÁMETROS ESTADÍSTICO cuestionario (encuesta), entrevista,
Aquellos valores Aquellos valores observación, experimentación, entre otros.
que resumen una que resumen una
Secundarios
determinada determinada
información información Aquellos datos obtenidos anteriormente de las
referente a la referente a la unidades de observación y que se encuentran
documentados en: revistas, tesis, censos, registros,
POBLACIÓN. MUESTRA.
publicaciones de organizaciones, publicaciones en
Internet, entre otros.
EJEMPLOS de lo que puede venir en el examen.
Se desea realizar un estudio sobre la proporción de Se debe revisar primero las FUENTES
hipertensos en la ciudad de Piura. Cuando hablamos de SECUNDARIAS, antes de planificar mi
PROPORCIÓN nos referimos quienes son hipertensos y experimento. Luego se generan las FUENTES
quiénes no. PRIMARIAS.
• Población objeto de estudio:

o Todos los habitantes que viven en la ciudad
de Piura
• Población inferencial: (se debe tener un listado
de las personas)
o Todos los habitantes que estaban
censados en Piura en el año 2013
• Muestra representativa:
o Los “n” habitantes de la ciudad de Piura
que estaban censados en Piura en el año
2013 y que han sido escogidos por
métodos aleatorios. ¿Por qué pongo “n”?
Porque va a depender de que tan grande
quiero que sea mi muestra, va a depender
de la fórmula que yo tenga.
• Unidad de Análisis:
o Cada uno de los habitantes que estaban
censados en Piura en el año 2013.
• Variables:
o Hipertensión (si/no).
BIOESTADÍSTICA Degras pa’ no biquear
S2 (T2): ELABORACIÓN DE DATOS:

RECOLECCIÓN DE DATOS CLASIFICACIÓN Y
PRESENTACIÓN DE INFORMACIÓN
Tener en cuenta de la primera clase los conceptos de Los datos se obtienen de una medición o de un conteo
unidad de análisis, población y muestra debido al de las variables de interés en la población o muestra,
desarrollo de cualquier análisis estadístico es importante generalmente es una muestra de estudio.
reconocer cual ha sido la unidad de análisis para poder
En el caso de la variable N° de hijos o N° o de
identificar de donde se sacó el dato estadístico, puede
matriculados en un curso, lo que se hace es obtener un
ser un paciente, un gerente, un médico, etc.
SISTEMA DE CONTEO, pero si lo que voy a medir son
Dentro de los términos estadísticos, algo importante es los valores de glucosa o hemoglobina, se usa un
el tema de la clasificación de las variables, ya que se } SISTEMA DE MEDICIÓN.
mencionó que según su tipificación puede ser
FUENTE DE DATOS
CUALITATIVAS (se reconocen cuando las categorías
de respuesta son literales. Ej: Diagnóstico médico.  PRIMARIAS: Datos que son generados por el
Estadio de cáncer) o CUANTITATIVAS (Figuran en investigador, quien los obtiene directamente de las
números, pero a su vez hay dos tipos: Discretas unidades de observación.
(números enteros) y Continuas (números decimales)) o Se registran usando diversas técnicas:
Dentro de bioestadística se trabaja con datos cuestionario (encuesta), entrevista,
procedentes de fuentes de información PRIMARIAS ya observación, experimentación, entre otros.
que se obtienen directamente de las unidades de  SECUNDARIOS: Datos obtenidos anteriormente
observación de las unidades de observación y que se
encuentran documentados en: revistas, tesis,
Ej. Me voy a un hospital, un apartamento médico, censos, registros, publicaciones de organizaciones,
obtengo información de pacientes atendidos en publicaciones en Internet, entre otros.
consulta externa. El hecho de preguntar la edad, o Las fuentes mencionadas constituyen fuentes
género, tiempo de enfermedad, síntomas o signos ya secundarias de datos y son las primeras que
estoy obteniendo datos de fuentes primarias deben ser analizadas en el proceso de
Este tema es más práctico y se necesita el uso de una recolección.
calculadora científica con operaciones de logaritmo así o Se encuentran publicadas y antes fueron
como conocimientos previos de aritmética por el uso de primarias porque fueron obtenidas por un
porcentajes. Este tema es en relación a la elaboración proceso de recolección
de datos lo que implica cómo se obtienen datos en En el curso de las herramientas estadísticas que vamos
medicina y como se clasifica y presenta la información y a conocer poco a poco en las sesiones del curso, las
se debe tener presente en la presentación de la herramientas están más para fuentes primarias
información *revisar lecturas adjuntas* las normas entonces no se trabaja con fuentes secundarias, para
Vancouver en las cuales se trabaja en medicina, la cual fuentes secundarias existe otras técnicas estadísticas
presenta sus propias características en cuanto a la como metanálisis (requiere una revisión propia ya que
presentación de tablas y gráficas, una gran diferencia actualmente en la medicina se ha empezado a trabajar
con las normas APA que trabajan los psicólogos con fuentes de datos provenientes de artículos
americanos así como las normas Chicago y normas ISO. científicos o publicaciones entonces en metanálisis se
OJO: Todas las ciencias de la salud son normas busca la heterogeneidad o homogeneidad de los datos
Vancouver estadísticos) o revisiones sistemáticas.
2. ELABORACIÓN DE DATOS
1. RECOLECCIÓN DE DATOS
Aquí es necesario tener presente como se hace la
En una investigación, la recolección de datos es un paso presentación de las tablas y de las graficas
crucial e indispensable.
- Después de recopilar y revisar los datos necesarios - Estas cifras constituyen la FRECUENCIA
para la investigación, se deben clasificar y ABSOLUTA SIMPLE (fi) de cada valor (bueno,
presentar de forma adecuada para permitir su satisfactorio, regular y malo).
análisis e interpretación estadística y debemos
tener en cuenta dos cosas: - Para obtener la FRECUENCIA RELATIVA SIMPLE
(hi%) se procede a aplicar la fórmula establecida (fi/n
A) CLASIFICACIÓN DE DATOS: Depende del tipo de
x 100). –Se expresa en porcentajes-
variable
TABLA DE FRECUENCIAS
 Es una forma de agrupación de datos.
 Los datos pueden ser cualitativos o cuantitativos,
 Facilita la lectura y el análisis de los datos debido al
orden de los datos
 Sirve para observar la frecuencia con la cual los
datos adoptan ciertos valores. El resultado es la siguiente tabla de frecuencias:
 Cada tipo de variable tiene características especiales
por lo que la estructuración de una tabla de
frecuencias para cada una es diferente.
 TIPO DE VARIABLE:
o Cualitativa,
o Cuantitativa discreta
o Cuantitativa continua: Es la más compleja y
necesita el uso de una calculadora científica y
operaciones matemáticas b) CASO DE LAS VARIABLES CUANTITATIVAS
a) CASO DE LAS VARIABLES CUALITATIVAS: DISCRETAS:
Para explicar cómo se construye una tabla de Las variables cuantitativas discretas son
frecuencias con datos cualitativos se utilizará los representadas sólo por números enteros, como
resultados de la evaluación de 20 pacientes hacia un número de hijos, de episodios de enfermedad, de
tratamiento. comidas en un día, entre otros.
* Se creará una tabla de frecuencias a partir de la
siguiente información de los N° de hijos de 15
pacientes mujeres:
*Se necesita conocer el rango de valores, en este

caso, inicia de 0 hasta 5 hijos, es decir un rango
pequeño (característica de las variables discretas)
*Entonces la clasificación de los datos en variables  Haciendo un conteo de la información, se puede
cualitativas consiste en contabilizar ¿Cuántas veces establecer que de las 15 pacientes 4 de ellas no
se repite la categoría bueno, satisfactorio, regular y tienen hijos, 3 de ellas tienen un hijo, 3 de ellas
malo, respectivamente? tienen dos hijos, 2 de ellas tienen tres hijos, 2 de
Lo que ayuda a realizar nuestra tabla de frecuencias ellas tienen cuatro hijos y sólo 1 tiene más de 4
Haciendo un conteo de las observaciones, se puede hijos.
establecer que de los 20 pacientes en 6 de ellos el  Estas cifras constituyen la FRECUENCIA
resultado es bueno, en 8 de ellos es satisfactorio, en ABSOLUTA SIMPLE (FI) de cada valor (0, 1, 2, 3,
3 es regular y en 3 es malo. 4 y más de 4)
 Con esta información se puede hallar también las FRECUENCIA RELATIVA SIMPLE (hi%):
FRECUENCIAS ABSOLUTAS ACUMULADAS (Fi
 Indica el porcentaje del total de observaciones que
= F (i-1) + fi).
representa el valor ó el i-ésimo intervalo (en el caso
 Para obtener la FRECUENCIA RELATIVA SIMPLE
de variables cuantitativas continuas).
(hi%) se procede a aplicar la fórmula establecida
 Se obtiene:
(fi/n x 100).
 Finalmente, la FRECUENCIA RELATIVA hi% = fi/n*100 (siendo n el número de
ACUMULADA (Hi%) también se halla con la observaciones)
fórmula correspondiente (Fi/n x 100).
FRECUENCIA RELATIVA ACUMULADA (Hi%):
 El resultado es la siguiente tabla de
 Es el cociente de frecuencia absoluta y el número
total de observaciones, multiplicado por 100.
Hi% = Fi/n*100 (siendo n el número de
observaciones)
 También se puede sumar las frecuencias relativas
simples porcentuales
c) CASO DE LAS VARIABLES CUANTITATIVAS
frecuencias: CONTINUAS
*La tabla ya no tendría 3 columnas, sino CINCO  En el caso de las variables continuas, hay una
COLUMNAS, colocando el número de hijos y cantidad muy grande de posibles valores.
asignamos sus respectivas frecuencias. El  Cuando se manejan más de 30 observaciones es
resultado del conteo va en fi y luego completamos necesario usar intervalos que permitan ordenar
la tabla de forma práctica los valores.
 Sólo cuando se dividen los valores en intervalos
Asimismo el cálculo de Fi es por de la sumatoria de la
encontramos en la tabla de frecuencias: clase,
anterior fi iniciando con el mismo número si en caso el
marca de clase y límites reales (tablas más largas
“N° de hijos es 0”
que las anteriores)
IMPORTANTE: La última frecuencia relativa  Para crearlos existe un procedimiento e implica la
acumulada es 100% aparición de 3 nuevas columnas:
o CLASE: Indica el número de intervalo del
Cabe mencionar que en el caso de que la variable pueda
que se trata.
adoptar una gran cantidad de valores se utilizan
o MARCA DE CLASE (Xi): Es un promedio de
enunciados como ‘más de...’ o ‘menos de...’ para
los límites del intervalo de clase i. Es el
resumir la información, pero NUNCA intervalos.
número representativo del intervalo.
FRECUENCIA ABSOLUTA SIMPLE (fi): o LÍMITES REALES: Cada intervalo tiene
números que representan sus límites y
 Se refiere a la frecuencia absoluta del valor ó del i- depende de las características de los datos,
ésimo intervalo (en el caso de variables pero los límites reales indican los verdaderos
cuantitativas continuas). valores que toma una medición, ya que los
 Indica el número de veces que aparece repetido límites nominales son aparentes.
dicho valor en el conjunto de observaciones
estudiadas
FRECUENCIA ABSOLUTA ACUMULADA (FI):
 Indica la suma de las frecuencias absolutas de los
iguales o inferiores a ese valor ó al i-ésimo intervalo
(en el caso de variables cuantitativas
continuas).
Fi = F (i-1) + fi
Ej.: DATOS DE 30 PACIENTES CON CÁNCER *Este valor siempre se debe redondear a entero
PULMONAR.
3.- Determinar la amplitud del intervalo de clase (C),
utilizando la siguiente expresión:
C=A/k
Para nuestro ejemplo: C= 42 / 6 = 7
*Se recomienda que C este en función a la
naturaleza de los datos, si es entero, C tiene que
ser entero, redondeo matemático, si es un decimal,
C tiene que ser redondeado a un decimal
Ahora procedemos a construir nuestros intervalos,
existen muchas formas, pero la más fácil es empezar
con el valor mínimo y luego hacia abajo agregamos el
valor de C sumando consecutivamente.
En el curso trabajaremos con intervalos cerrados
entonces significa que si en el ejemplo el segundo del
*Primero necesitamos datos, los cuales ya se observan lado izquierdo es 30 + 7 (Valor de C) y el primero del
en esta tabla entonces se procede a obtener el rango de lado derecho será 37 restando 1, es decir 36 y así
los datos, buscando el valor mínimo y el máximo. Así sucesivamente y al final va a suceder que en donde es
sencillamente vemos que el paciente 1 tiene 30 años 64 + 7 es 71.
(mínimo) y el paciente 22 tiene 71 años (máximo)
4.- Determinar los límites. El Vmin es el límite inferior
PROCEDIMIENTO PARA CONSTRUIR de la primera clase y su respectivo límite superior será
TABLAS DE FRECUENCIAS Vmin + (C-1); el límite inferior de la segunda clase es el
1.- Encontrar la amplitud (A) del conjunto de datos, límite superior de la primera clase más uno y el
es decir el valor máximo menos el valor mínimo, más respectivo límite superior será igual al límite inferior más
una unidad de medida. (C-1); y así sucesivamente hasta completar el número
A = (Vmax - Vmin)+ 1 de intervalos.
Ejemplo.- Considerando los datos de edad dado en el En relación al ejemplo se tiene:

tabla tenemos:
A= (71 - 30) + 1 = 42
NOTA: Si los valores máximo y mínimo están
expresados hasta décimas se incrementará un décimo
(0.1); si los valores están expresados en centésimos, se
agregará un centésimo (0.01) y así sucesivamente.
*En el curso se trabajará máximo un decimal NOTA: Si los límites están expresados hasta décimas
entonces se tendrá que el límite superior de la primera
Luego utilizamos la regla de Sturges para calcular el
clase es:
número de intervalos…
Vmin + (C-0.1);
2.- Determinar el número de intervalos (k), utilizando
la siguiente fórmula: Si está expresado hasta centésimas será:
k = 1 + 3.322 log n Vmin + (C-0.01)
n: Número de datos
En relación al ejemplo se tiene que:
k = 1 + 3.322 log 30 = 5.9 Redondeando = 6
5- La clasificación de los datos de una variable  Las frecuencias relativas son siempre valores
continua puede hacerse manualmente o en forma fraccionarios. O < hi < 1
automatizada.  La suma de las frecuencias relativas porcentual es
igual a 100%
 El último valor de las FRECUENCIAS
ABSOLUTAS ACUMULADAS es igual a n.
 El último valor correspondiente a las
FRECUENCIAS RELATIVAS ACUMULADAS
PORCENTUALES debe ser igual a 100%.
RECUERDEN:
 fi: Frecuencia absoluta del i-ésimo intervalo,
nos indica número de veces que aparece
repetido dicho valor en el conjunto de
observaciones estudiadas.
 Fi: Frecuencia absoluta acumulada de la clase
*Se procede a analizar cuantos datos hay en el intervalo i nos indica la suma de las frecuencias absolutas
de 30-36 y recordemos que está incluido 30 y 36 porque de los iguales o inferiores a el.
es un intervalo cerrado, y así sucesivamente hasta que  F1 = f1
fi sume 30  F2 = f1+f2
 hi%: Frecuencia relativa de la clase i es el
RESULTADO: TABLA DE FRECUENCIAS
cociente entre la frecuencia absoluta y el
número total de observaciones multiplicando
por 100.
 hi% = fi/n*100
 Hi%: Frecuencia relativa acumulada de la clase
i, es la frecuencia absoluta acumulada dividido
por el número total de observaciones.
 Hi% = Fi/n*100
*Se ha mencionado que el Xi es un promedio de los  Xi: Es la marca de clase de la clase i se
dos límites del intervalo y su incremento es constante determina mediante el promedio de los límites
y sigue de 7 en 7 coincidiendo con el valor de C de dicho intervalo.
 Limites reales: Si los límites nominales de los
Ej: 33 es la semisuma de los dos valores del intervalos de clase están expresados en enteros
intervalo (30 + 36 = 66 y 66/2 = 33) los límites reales de cada intervalo se determina
En el caso de los límites reales si son enteros (como en restando y sumando media unidad al límite
el caso del ejemplo) al LÍMITE INFERIOR se le RESTA inferior y superior respectivamente de cada
0.5 y al LÍMITE SUPERIOR se le SUMA 0.5 intervalo.
*En el caso de entero se suma 0.5, en el caso
OJO: En los límites reales observamos la de decimal 0.05, y en el caso de dos decimales
continuidad de los datos a diferencia de los primeros se va a restar y sumar 2 decimales 0.005
intervalos que hay saltos de 36 a 37, y lo que
queremos demostrar es que en los límites reales las 2.2. PRESENTACIÓN DE DATOS
variables son continuas Depende del tipo de variable que trabajamos y bajo las
normas Vancouver
PROPIEDADES DE LAS FRECUENCIAS
 Las frecuencias absolutas son siempre valores VARIABLES CUALITATIVAS:
enteros. A) VARIABLE CUALITATIVA DE DOS
 La suma de las frecuencias absolutas es igual n. CATEGORÍAS:
Es una variable que sólo admite dos posibles Para su elaboración se utiliza la circunferencia siendo
datos, por lo que es una medida dicotómica: necesario que los valores absolutos y/o porcentajes
 Sexo: masculino o femenino. sean traducidos a grados, los 360° y que se reparten en
 Antecedente de enfermedad proporción a los porcentajes.
cardiovascular: si o no.
INFORMACIÓN:
Para la presentación tabular, se utiliza la tabla
de frecuencia univariable dicotómica.
Tenemos 3 columnas, en la primera colocamos

variable y sus categorías, luego el fi en la
segunda y en la tercera el Hi (%)
Para la presentación gráfica se utiliza un gráfico
de barras:
B) VARIABLE CUALITATIVA DE MÁS DE DOS

CATEGORÍAS: Correspondiendo a cada sector de la circunferencia la
Es una variable que sólo admite varios datos magnitud de cada categoría de la variable.
posibles, teniendo una escala de medición
nominal u ordinal. VARIABLES CUANTITATIVAS:
 Estado civil: soltero / casado / viudo / A) VARIABLE DISCRETA:
divorciado… Es una variable que sólo admite valores
 Estadio de enfermedad: Fase I / Fase II numéricos enteros.
/ Fase III  Número de hijos
Para la presentación tabular, se utiliza la tabla  Cantidad de comidas al día
de frecuencia univariable. *La diferencia es que las categorías de las
variables ya son números enteros y pueden
colocar hi% y Hi%
Para la presentación tabular, se utiliza la tabla
de frecuencia univariable.
de barras:
En casos de tener una gran cantidad de datos,

estos pueden ser agrupados.
de barras.
GRÁFICO DE SECTORES CIRCULARES
B) VARIABLE CONTINUA:
Es una variable que admite valores numéricos
reales, es decir, que pueden contener décimas,
centésimas, milésimas, etc. La precisión de la
observación, en este tipo de variable, sólo se ve HISTOGRAMA
limitado por el método o instrumento con el cual  Muestra la distribución de datos cuantitativos
se mide.  El área es proporcional a la frecuencia respectiva
 Edad  Representa a las frecuencias absolutas o relativas
 Temperatura  Tiene como base los límites reales (Importante
determinarlos) de los intervalos de clase.
*Su característica es que el rango de edad es OJO: No es necesario hacer la medición ya que
muy grande y cuando se tiene más de 30 datos Excel brinda herramientas, solo construimos la
se debe construir tablas por intervalo tabla y se obtienen automáticamente las figuras
Para la presentación tabular, se utiliza la tabla rectangulares juntas
de frecuencia univariable. En casos de tener
una gran cantidad de datos, estos pueden ser
agrupados en intervalos.
IMPORTANTE: Identificar los números de

clase, números de intervalos y luego los
intervalos de edad (en este caso), marca de
clase, fi, Fi, hi%, Hi% y los límites reales (en
base a estos se realizan figuras rectangulares
en base a fi o hi)
Para la presentación gráfica se utiliza un
histograma (figuras rectangulares JUNTAS a
diferencia de las barras simples que están
*Se puede colocar los en el eje X los Xi, es válido, y por
su forma de distribución en este caso no figura la curva
uniendo los puntos, de hecho identifica que la
distribución de la edad es heterogénea. Lo ideal es que
se forme una curva
POLÍGONO DE FRECUENCIAS SIMPLES

Este gráfico se obtiene uniendo los puntos medios
superiores de los rectángulos del histograma,
formándose de esta manera un gráfico lineal, el cual
debe llevarse hasta el eje x en los extremos del límite
inferior del primer intervalo y superior del último intervalo
separadas): respectivamente.
El área total bajo el polígono equivale al área del no se toca en el curso pero es necesario tenerlo
histograma. presente como cultura estadística.
*Usamos la misma información por medio del uso de SELECCIÓN DEL GRAFICO DE ACUERDO
líneas uniendo puntos medios superiores. Como es una AL TIPO VARIABLE
figura geométrica no tiene curva normal pero se
evidencia los dos bloques que se está modificando (se
verá cómo se interpreta en la clase de Distribución
normal)
POLÍGONO DE FRECUENCIAS
ACUMULADAS (OJIVA)
 Denominado también ojiva, utiliza las
FRECUENCIAS ABSOLUTAS O RELATIVAS
ACUMULADAS, y consiste en un gráfico lineal que
nos permite observar la cantidad de elementos que
quedan por encima o por debajo de determinados
valores de los límites de los intervalos de clase. IMPORTANTE:
 Tienen que tener una forma proporcional a lo que
se trabaja con las frecuencias - Ubicar la variable de estudio, luego lo
 Se utiliza mucho en el campo de la economía para clasificamos en cuantitativa o cualitativa.
tomar decisiones o para calcular medidas de - Si es cualitativa es SIMPLE: Colocamos su
posición. variable, categoría y el fi y hi% -3 columnas-
En bioestadística usualmente se trabaja con el - Si es cuantitativa discreta cambia la figura ya
polígono, es decir, con las frecuencias simples que aparte de las categorías(números enteros)
calculamos la fi, FI, hi, y Hi% -5 columnas-
 La ojiva se obtiene uniendo los puntos que le
- Si es cuantitativa continua son 8 columnas
corresponden a las frecuencias acumuladas de los
porque agregamos número de clase, marca de
respectivos límites superiores de cada intervalo
clase y límites reales.
NO punto medio.
- En cuanto a la gráfica:
o Variables Cualitativas: Se recomienda
gráfico en barras y circulares (Hasta el
momento).
o Variables Discretas: Hay una discusión
(diferencias en la literatura) pero se
recomienda el uso de Barras Simples
(separadas).
o Variable Cuantitativa continua:
Histograma y polígonos de frecuencia son
lo más útiles en bioestadística para poder
 Muy util para calcular medidas de persintión como realizar una interpretación correcta y el tipo
cuartiles o en el caso de la mediana. En el curso de distribución de datos.
interesa interpretar este polígono de frecuencias.
 Trazamos el polígono y si observamos una especie
de campana (no perfecta pero que los datos estén
en el centro) nos dará la idea de una distribución
HOMOGENEA pero si en los extremos una
distribución HETEROGÉNEA entonces no habrá
interpretación respectiva.
 Por ser una figura rectangular tambien tiene su
función de densidad o de modelo matematica pero
S3 ( T3 )







Aplica conocimientos de estadística descriptiva para  Permiten hallar un solo valor numérico
calcular ciertas medidas resúmenes según el tipo de alrededor del cual los datos parecen
variable que se está considerando
Agruparse, como si fuera el “centro de gravedad” de los
LA ESTADÍSTICA DE RESUMEN datos. Debido a estas circunstancias, suelen ser
llamados de POSICIÓN O TENDENCIA CENTRAL.
 Después de construir tablas y gráficos, a partir de
una colección de datos, se requieren medidas
más exactas. PRINCIPALES MEDIDAS DE TENDENCIA
 La estadística de resumen, proporciona medidas CENTRAL
para describir un conjunto de datos.
Moda (Mo)
EXISTEN DOS TIPOS DE MEDIDAS DE
RESUMEN: Mediana (Me)
1. De tendencia central. Media Aritmética (x o )
 De forma y de posición Cuartiles (Q)
2. De dispersión.
LAS MEDIDAS DE POSICIÓN

MODA
1. Reflejan la tendencia central y la
localización/posición de los datos  La MODA es la observación que más se repite en
2. Las medidas de tendencia central más los datos, (observación más COMÚN).
importantes son la media, la mediana y la moda.  Se puede utilizar para cualquier tipo de variable,
pero generalmente se utiliza cuando la
característica en estudio se ha medido en escala
MEDIDAS DE  Media
TENDENCIA nominal u ordinal.
 Mediana
CENTRAL  Moda Ejemplo:
3. También es útil conocer las medidas de - Se tiene la siguiente información:

localización: percentiles. Estas nos indican el 2, 3, 4, 5, 5, 6, 4, 5 Mo = 5
lugar de cada dato en relación con los demás
datos. PROPIEDADES DE LA MODA
MEDIDAS DE TENDENCIA CENTRAL 1. Si todos los valores son diferentes, no hay

moda.
 Denominadas también promedios 2. En una distribución puede existir dos o más
modas (Unimodal, Multimodal: bimodal, trimodal).
3. Es usada para variables categóricas o - Luego la Moda es:

cualitativas.
Mo = 21.5
EJEMPLO
MO = Casado MODA EN DATOS AGRUPADOS
(Intervalos Con La Misma Amplitud)
Estado Civil de 100 personas
Estado Civil fi
Soltero 30 Intervalo
modal:
Casado 60 mayor
Divorciado 10 frecuencia
absoluta
Total 100
Li: es el límite inferior de la clase donde se encuentra
la moda, 30.
MO = 1 HIJO
fi: es la frecuencia absoluta del intervalo modal, 12
Número de hijos de 60 personas
fi-1: es la frecuencia absoluta del intervalo previo al
Xi 0 1 2 3 4 5 6 modal,  7
fi 10 21 15 7 3 2 2 Fi+1: es la frecuencia absoluta del intervalo posterior
al modal,  3
ti: es la amplitud de los intervalos. Se calcula restando
EJEMPLO: MODA PARA DATOS AGRUPADOS
el extremo superior menos el inferior del intervalo, 
 En una tabla de distribución de frecuencias es la 40 - 30 = 10
marca de clase o punto medio de la clase que tiene
REEMPLAZAMOS:
la mayor frecuencia absoluta simple.
 La moda estará ubicada en el intervalo: CLASE III
Clase Variable fi
I 1-4 3
II 5 - 17 9
III 18 - 25 15
IV 26 - 65 8
V 65 - 100 5
total 40
- Por lo tanto, la marca de clase será:

17.5 + 25.5 = 21.5 MEDIANA (Me)
2 La mediana es un valor que divide a la distribución
(ordenada en forma ascendente o descendente) en
dos mitades o partes iguales.
20, 3, 4, 19, 6, 7, 10, 21,12, 16  Los valores centrales se encuentran en las

posiciones: X N/2 y X (N/2 +1).
Cuando tengo 10 datos esto será irrelevante, ya que
no necesita aplicar la formula.
ORDENADOS= 3, 4, 6, 7, 10, 12, 16, 19, 20, 21 Me= X N/2 y X (N/2 +1)
50% 50% 2
3, 4, 6, 7, 10, 12, 16, 19, 20, 21
V. min. Me. V. máx. Ejemplo:
Me = ? Dado los valores: 11, 8, 13, 20, 14, 3, 7, 12. Par.
Hallar la mediana.
(10 + 12) / 2
 Ordenando ascendentemente:
= 11 3, 7, 8, 11, 12, 13, 14, 20.
PROPIEDADES DE LA MEDIANA N= 8 datos

1. Es única, existe solamente una mediana para POSICION en el grupo de datos ordenados:
un conjunto de datos. - N/2 = 4 Entonces: X N/2
2. Los valores extremos no tienen efectos = 11
importantes sobre la mediana. - N/2 + 1 = 5 Entonces: X (N/2 +1)
= 12
3. Se aplica también a variables que pertenecen a
la escala ordinal. Me = (11 + 12) / 2
4. Es muy variable de muestra a muestra. = 11.5
INTERPRETACIÓN:
(Ejemplo: yo tengo una población de 1500 Por debajo o por encima de 11.5 existe un 50% o la
personas. A esas personas, yo voy a hacer un mitad de las observaciones.
estudio sobre la presión arterial, y voy a tomar la
edad a 100 personas; y tú vas a hacer un estudio
con diabetes, y también vas a tomar la edad, por
ende, tú 100 personas, yo 100 personas, son
Mediana:
estudios diferentes, por lo que estamos Si el número de DATOS ES IMPAR, el valor de la
considerando la edad en ambos estudios. mediana es el valor del centro.
Por lo tanto, la mediana de mi estudio va a ser

un tanto diferente a la mediana de tu estudio o Me = X (N+1) /2
totalmente distinta, y si una tercera persona  donde (N+1) /2 es la posición central, de
toma muestra en 50 personas para un resfrío,
entonces la mediana también será distinta. la mediana
Ejemplo:
MEDIANA EN DATOS NO AGRUPADOS Calcular la mediana dado los valores: 11, 19, 12,
16, 13, 15, 17
 Se ordena los datos en forma ascendente o
descendente. Ordenando los valores:
 Si el número de DATOS ES PAR, el valor de la 11, 12, 13, 15, 16, 17, 19.
mediana será la semisuma de los 2 valores
POSICIÓN: 1, 2, 3, 4, 5, 6, 7.
centrales.
Posición: MEDIA ARITMÉTICA

(N+1) /2 = 4 entonces: X (N+1) /2 = 15
 Es un valor representativo de un conjunto de datos
Me = 15 que se está estudiando y caracteriza a toda una
distribución.
INTERPRETAR Es decir por debajo de 15 existe
un 50 % de observaciones.  Se le conoce también como promedio.
MEDIANA EN DATOS AGRUPADOS

x (ESTADÍSTICO)  (PARÁMETRO)
En su cálculo intervienen todos los valores que se

están estudiando.
Definición:
 Si tenemos n datos representados por:
x1, x2, x3, ......xn.

 La media aritmética de estos n datos está dada por:
 Lo que tengo q hacer es buscar la clase q pase
el 50%, y ese es la clase III.
X = X1 + X2 + X3 +..........+ Xn
n
Lo podemos representar como:
PROPIEDADES DE LA MEDIA ARITMÉTICA

1. Es única, puede ser un valor positivo, cero o un
valor negativo.
Li: es el límite inferior de la clase donde se encuentra 2. Si a los valores que estudiamos le sumamos o
la mediana,  20. restamos una constante, el valor de la nueva
N / 2: es la semisuma de las frecuencias absolutas, media quedaría como la media aritmética de los
 15,5. datos originales más o menos la constante que se
Fi-1: es la frecuencia acumulada anterior a la clase ha agregado.
mediana,  9. 10,12,14 u=?
fi: es la frecuencia absoluta del intervalo mediano, = 12
7 +3 a todos los datos
ti:es la amplitud de los intervalos. Se calcula 13,15,17
restando el extremo superior menos el inferior del u= ?
intervalo, 30 - 20 = 10 u= 12+3
= 15
3. Si a cada valor de la serie le multiplicamos por

una constante, la nueva media aritmética sería
igual a la media aritmética original multiplicada
por la constante.
4. La suma de las desviaciones de los datos con
respecto a la media es cero, es decir:
Procedimiento:
X = [(fi Xi)] / n
5. Como incluye todos los datos, puede estar = 1648 / 30
=54.9
afectado por valores extremos. INTERPRETACIÓN:
6. Como incluye todos los datos, puede estar
afectado por valores extremos. En promedio los valores de la edad de los 30
pacientes son de 54.93 años.
Ejemplo 1:
Los siguientes datos son edades de 10 madres
que asisten a un centro de salud en un día:
30, 43, 58, 61, 70, 42, 58, 39, 60, 55
 La edad promedio de estas madres será:

X = (30 + 43 + 58 +..... + 55) / 10
= 516 / 10
= 51.6 años
 En promedio los valores de edad de las 10
madres es 51.6 años.
MEDIA ARITMÉTICA EN DATOS

SIMETRÍA
AGRUPADOS EN TABLA DE
FRECUENCIAS  Cuando los datos de una población se distribuyen
con igual frecuencia y alejamiento por debajo y
por encima de la media aritmética, se dice que la
distribución es simétrica; pero, si los datos por
debajo de la media son más frecuentes que aquellos
por encima de la media, o viceversa, se dice que la
Ejemplo 2: distribución es asimétrica.
A continuación, se presenta las edades de 30
personas con cáncer pulmonar que pasan a
consulta en el Hospital María Auxiliadora. Lima. ASIMETRÍA A LA IZQUIERDA
Julio 2004: 30
30,43,58,61,70,42,58,39,60,55,71,70,65,39,40,61,6 Moda
25
5,56,38,57,49,61,69,43,46,69,44,59,62,66 Media
20
Determinar la Media: Mediana
15
10
0
1 2 3 4 5 6 7 8 9 10 11 12 13
DISTRIBUCIÓN SESGADA A LA IZQUIERDA  Deciles. (10 partes iguales)

 Percentiles. (100 partes iguales)
Moda
ASIMETRÍA A LA DERECHA
 CUARTILES (Q) DATOS AGRUPADOS
Son aquellos que dividen a la distribución en
30
Moda
Mediana cuatro partes iguales, en donde cada uno de
25
20
Media ellos incluye el 25% de las observaciones.
__25%_._25%__.__25%__.__25%__
15
Q1 Q2 Q3
10
Me
5
0
1 2 3 4 5 6 7 8 9 10 11 12 13
DISTRIBUCIÓN SESGADA A LA
DERECHA
Cálculo de los cuartiles en datos agrupados:

En primer lugar, buscamos la clase donde se encuentra
cada cuartil, en la tabla de las frecuencias acumuladas
MEDIDAS DE POSICIÓN
 Sitúan a un individuo en la distribución de la
variable que se está estudiando.
 Primero deben ordenarse los datos.
fi Fi
 Se usan mucho en test psicométricos y medidas 50-60 8 8
60-70
antropométricas. 10 18
70-80 16 34
LOS CUANTILES 80-90

90-100
14 48
10 58
Son aquellos que dividen a la distribución en cuatro, 100-110 5 63

110-120 2 65
diez o cien partes iguales:
65
 Cuartiles. (4 partes iguales)

 Cálculo del primer cuartil:

Cálculo de los deciles en datos agrupados:
En primer lugar, buscamos la clase donde se
encuentra cada decil, en la tabla de las frecuencias
acumuladas.
INTERPRETACIÓN: por debajo de 68.25%. está el

25% de mis datos. También se puede decir que por
encima de 68.25% está el 75% de mis datos. fi Fi
50-60 8 8
 Cálculo del segundo cuartil: 60-70 10 18
70-80 16 34
80-90 14 48
90-100 10 58
100-110 5 63
110-120 2 65
65
 Cálculo del primer decil:
 Cálculo del tercer cuartil:
0 porque no existe clase anterior

INTERPRETACIÓN: El 90% de los datos son
menores que 58.12, también se puede decir que el
10% de los datos son mayores que 58.12.
 DECILES (D) DATOS AGRUPADOS
 Son aquellos que dividen a la distribución en  Cálculo del octavo decil:
diez partes iguales en donde cada uno de
ellos incluye el 10% de las observaciones.
 Cálculo del noveno decil:  Cálculo del percentil 35:

fi Fi
50-60 8 8
60-70 10 18
70-80 16 34
80-90 14 48
90-100 10 58
100-110 5 63
110-120 2 65
65
PERCENTILES
*Usado más en pediatría.
PERCENTILES (P) datos agrupados
 Son aquellos que dividen a la distribución en Ejemplo:

cien partes iguales en donde cada Como los cálculos de los cuantiles, deciles y percentiles
 uno de ellos incluye el 1% de las son similares se calculará el Q3 de la siguiente

observaciones: distribución:
Variable fi Fi hi Hi
55 - 58 20 20 8% 8%
59 - 62 30 50 12% 20%
63 - 66 80 130 32% 52%
67 - 70 70 200 28% 80%
71 - 74 40 240 16% 96%
75 - 78 10 250 4% 100%
Total 250
Cálculo de los percentiles en datos agrupados:
En primer lugar, buscamos la clase donde se INTERPRETAR:
encuentra cada percentil, en la tabla de las
frecuencias acumuladas. 1. Q3: P25
2. P45: Mediana= P50
3. P90: P75
MEDIDAS DE RESUMEN NUMÉRICO TASA

PARA VARIABLES CUALITATIVAS
 Es la comparación por cociente entre un número
Las medidas de resumen numérico empleadas de eventos ocurridos en un tiempo y lugar
para variables cualitativas son: determinados y la población que estuvo
expuesta al riesgo de que le ocurriera dichos
 Razón eventos en la misma época y en ese lugar.
 Proporción
 Tasa
RAZON
 Es la comparación por cociente entre dos cifras
de diferentes o similar naturaleza en donde el
numerador y el denominador son excluyentes.
 Por ejemplo, si tenemos 380 camas
hospitalarias y 95 enfermeras y queremos
encontrar la razón entre ellas, tenemos que
dividir:
380 camas hospitalarias/95
enfermeras= 4 camas/enfermera.
 Este número constituye un valor que refleja

una relación.
 En este caso, el número 4 se interpreta como
que por cada cuatro camas hospitalarias hay
una enfermera
PROPORCIÓN
 Es la comparación por cociente entre el
número de elementos de un subconjunto y
el número de elementos de un conjunto al
que pertenece dicho subconjunto.
En este caso el numerador está incluido en
el denominador, por este motivo los valores
siempre van a ser menores que la unidad.
 Por ejemplo, si en la población hubo 175
casos de cáncer pulmonar de un total de 1925
casos de todos los tipos de cáncer, la
proporción se calculará.
175 / 1925 = 0.09
 Quiere decir que el 9% de todos los
cánceres, fueron cáncer pulmonar
Medidas descriptivas
 Recordemos frecuentes, hay menos cantidad de datos
o MODA (Mo): Dato que más se repetía por encima del promedio.
o MEDIANA (Me): Dato Central
o MEDIA ARITMÉTICA (x o ): Promedio Cuando los datos de una población se distribuyen con
o CUARTILES (Q): Tres valores que dividen a igual frecuencia y alejamiento por debajo y por
los datos en cuatro partes iguales encima de la media aritmética, se dice que la
distribución es simétrica; pero si los datos por debajo
MEDIDAS DE FORMA de la media son más frecuentes que aquellos por
encima de la media, o viceversa, se dice que la
Son aplicadas en función a la representación gráfica de distribución es asimétrica.
los datos. Comparan la forma gráfica con la distribución
normal para determinar si son simétricos o no y se
determina una clasificación:
1. SIMETRÍA
 Se establece que la distribución es simétrica
cuando los datos de una población se
distribuyen con igual frecuencia y alejamiento
por debajo y por encima de la media aritmética
(promedio). En estas distribuciones el valor de
las medidas de tendencia central –media, moda
y mediana- es el mismo.
 La simetría determina que la población es Esta es una curva normal, aquí la media, mediana y
homogénea en relación a la variable en moda son iguales. Si tú doblas la curva por la tangente
estudio. central entonces serán la misma cantidad de datos a la
2. ASIMETRÍA derecha y a la izquierda.
 Se clasifica como asimétrica la distribución
donde los datos por debajo de la media son más
frecuentes que aquellos por encima de la media, ASIMETRÍA IZQUIERDA O NEGATIVA
o viceversa, son diferentes por encima o debajo Moda
del promedio. Mediana
 En este caso, se establece que la población es
heterogénea para la variable en estudio. Media
o Distribución asimétrica a la izquierda: los
datos por debajo de la media son menos
frecuentes, hay menos datos pequeños por
debajo del promedio
o Distribución asimétrica a la derecha: los
datos por encima de la media son menos
En este caso, el promedio es el dato más pequeño, la
mediana es mayor y la moda mucho mayor.
 La que menos información nos ofrece sobre la
ASIMETRÍA DERECHA O POSITIVA agrupación de las variables en torno a las
Moda medidas de tendencia central. El rango nos
Mediana dice cuales el largo de mis datos entre el valor
Media máximo y el valor mínimo, no tienen en cuenta
la medida de tendencia central; por ello, se
debe agarrar el largo de mis datos entre el
valor máximo y el valor mínimo y restarlo. No
tienen en cuenta ninguna medida de tendencia
central.
A = Obsmax - Obsmin
Se aplican a variables cuantitativas discretas
o continuas pero no a las cualitativas.
En este caso, la moda es el valor más pequeño, la
mediana es el valor intermedio y la media es el valor más 2. VARIANZA (V / 2 / s2)
grande.  Es una medida de dispersión que cuantifica la
variabilidad de los datos con respecto a la
 Una medida de dispersión indica cómo las Media Aritmética. Ver que tan lejos está cada
observaciones se separan de la Media Aritmética o uno de los datos del promedio y darte un valor;
Promedio. cuanto más grande sea la varianza, significará
 Esta medida de dispersión será grande si las que más dispersos o lejos estarán los datos.
observaciones están distantes o lejos de la media o  En la clase anterior, la Dra. comentó que si
promedio y pequeña si están cerca. nosotros restáramos cada dato individual su
promedio y luego lo sumábamos, su valor sería
 Llamadas también medidas de variabilidad, miden cero. Entonces lo que tenemos que hacer aquí
el grado de separación de los datos respecto al valor es poner al cuadrado todas las restas del
central. promedio, es decir dato 1 menos el promedio
 Son útiles porque al cuadrado, dato 2 menos el promedio al
o Permiten juzgar la confiabilidad de la medida cuadrado y así sucesivamente; esto quiere
de tendencia central. Si yo tengo una medida decir que todos los valores que sumemos
de dispersión pequeña significa que todos mis serán positivos y no vamos a obtener ningún 0.
datos se parecen al promedio o a la media,
serían muy similares; entonces mi descripción
de medida de tendencia central realmente
describen a muchos de esos datos. Junto con la desviación estándar, es la medida
o Los datos demasiados dispersos tienen un de dispersión que mejor expresa la variabilidad
comportamiento especial. Cuando hay muy del fenómeno.
grandes o muy pequeños tienen ese tipo de  Si tenemos N datos X1, X2, X3,…, XN. La
comportamiento varianza de estos datos se define como:
o Es posible comparar dispersión de diversas
muestras.
MEDIDAS QUE CALCULAN LA

DISPERSIÓN
La sumatoria de todos los datos menos el
1. RANGO O AMPLITUD TOTAL (A) promedio elevados al cuadrado, sobre el
 Es la medida más simple de dispersión. número total de datos (trabajo en una
población).
Para facilitar el cálculo, se recomienda agregar
 Para una muestra de tamaño n: a la tabla de frecuencias 2 columnas:
 Una columna que indique el valor de fiXi2
por cada intervalo
 Una columna que indique el valor de fiXi
por cada intervalo
Cuando trabajos con muestras, la fórmula

cambia: la sumatoria de cada dato menos el
promedio elevado al cuadrado, sobre n menos
1.
 Ej.
Se ha agregado una columna más que es cada
Se tienen los siguientes datos de una muestra:
dato por su frecuencia absoluta simple, pero
4, 7, 8, 3, 5, 9, 10, 2
necesitamos una más.
Hallar la varianza.
Primero se debe hallar la media (promedio)
Todos los datos entre el número total de datos
4  7  8  3  5  9  10  2

8
Ahora que conozco el promedio puedo aplicar
la fórmula para la varianza. Cada dato
individual menos el promedio elevado al Yo voy a tener que reemplazar del cuadro
cuadrado, como es una muestra y hay 8 datos
se resta menos 1.
V= (4  6) 2  (7 6) 2  (8 6) 2  (3 6) 2  (5 6) 2  (9 6) 2  (10 6) 2  (2 6) 2
8 1
Vamos reemplazando paso por paso

Esto es la varianza cuando se tiene datos
sueltos.
 Varianza en datos agrupados
En el caso de manejar datos agrupados, en
una tabla de frecuencias, para hallar la
varianza se necesita la marca de clase (Xi) y la
frecuencia absoluta simple (fi).
La fórmula es la siguiente:
Recomendación: Siempre que usemos estas
fórmulas, trabajar con 4 decimales y recién
dando el resultado redondear a 2 decimales, ya
que puede variar el resultado.
En esta fórmula, se suele equivocar donde
3. DESVIACIÓN ESTÁNDAR ( / s)
elevar al cuadrado. En la primera parte de la
fórmula cada dato se eleva al cuadrado y se  Es la medida de dispersión más común para
multiplica por la frecuencia absoluta simple; en definir los datos médicos y del área de la salud.
cambio, en la segunda parte de la fórmula es Analiza la dispersión del 100% de los datos.
la multiplicación de cada dato por la frecuencia  Específicamente, es la raíz cuadrada de la
absoluta simple la que se eleva al cuadrado. varianza, y se representa con si se trata de una
Recuerden que estamos trabajando con una población y con s si se trata de una muestra.
muestra.
 Recordemos cuanto fue el resultado de la Recordar:
varianza del ejercicio anterior. - Debajo del primer cuartil (Q1) hay 25% de los datos
- Encima del tercer cuartil (Q3) hay también 25% de los
datos
- Por consiguiente, en el rango intercuartílico, hay un
rango de 50% de los datos (mitad central)
Reemplazando los datos
MEDIDAS DE DISPERSIÓN O
VARIABILIDAD ABSOLUTA
Eso quiere decir que los datos están separados
del promedio maso menos en 11.58 años y allí Rango, Desviación Estándar, Varianza y Desviación Cuartil
yo lo puedo visualizar de una mejor forma ya
 Son absolutas porque siempre van acompañadas
que mis datos están entre el 30 y el 71; 11.58
de sus unidades de medida, se pone siempre la
años es algo más visual que puedo entender
unidad de la variable. Ej. Rango de 6 hijos,
mejor que hablar 134 años en una varianza.
Desviación estándar de 1.5 hijos, 134 años de
 Es la medida de dispersión para datos
varianza.
simétricos, más común para definir datos
médicos y del área de salud.
 Es la raíz cuadrada de la varianza, requiriendo
COEFICIENTE DE VARIACIÓN
de datos numéricos.  Es una medida relativa de los datos entre la media
y la desviación estándar de una población o
Cuanto menor sea la desviación estándar, menor será muestra. Dos muestras distintas, diferentes
la dispersión (más pegados al promedio - más unidades; no se puede comparar resultados en
homogénea) y cuanto mayor sea la desviación típica, dichas unidades, tenemos que tener una medida
mayor dispersión (más diferentes entre sí - menos que pueda ser relativa para compararlos.
homogénea).  Permite comparar la variabilidad de dos o más
conjuntos de datos expresados en unidades
diferentes.
4. DESVIACIÓN CUARTIL (DC) o Ej. Peso en kg, libras o peso y talla
 Es la medida de dispersión para datos  Es el porcentaje que la desviación estándar
asimétricos (media, mediana y moda son representa de la media y al tenerlo en porcentaje
diferentes). eliminaría la unidad que me brindan.
 Medida de dispersión respecto a la mediana, a) Cálculo a partir de datos no agrupados.
que analiza la dispersión de los datos del 50% Debemos tener la desviación estándar y el
central de observaciones. promedio.
 Sacar los cuartiles: Es la semisuma de la Para la muestra:
distancia entre el primer y el tercer cuartil. s
RIQ: Rango Intercualtílico. CV   100
x
Para la población:

Excluye el 25% más alto y el 25% más bajo, CV   100
dando un rango del 50% de los datos. 
 Pero solo se puede usar si la escala de medida de
la variable es de razón.
 Si cambiamos el cero arbitrariamente, cambia
también la medida y por lo tanto cambiará el CV.
 Ej.  Cuando la distribución no es simétrica (sesgada)
Supongamos que dos poblaciones se han obtenido se emplean la mediana y percentiles y rango
los siguientes datos. intercuartílicos y desviación cuartil. Me deben
dar la mediana y desviación cuartil.
¿Qué grupo es más homogéneo o menos variable?

La medida de dispersión que tengo es la desviación
estándar, en ambos casos es 5 en una es 5 kg y en
otra 5 cm. Tengo que sacar el coeficiente de
variación.
Desviación estándar
entre promedio Caso de asimetría a la izquierda. La moda es el
número más grande y la media el más pequeño.
Como ven la curva a la izquierda es más plana, más
chata y los datos con mayor grupo, mayor cantidad
son los datos mayores.
 Existe una clasificación de dispersión de un conjunto

de datos, según el porcentaje de coeficiente de
variación:
Al contrario, caso a la asimetría a la derecha. La

moda es el menor y la media es la mayor. La curva
está más aplanado para la derecha.
Las distribuciones más homogéneas tienen
coeficientes de variación más pequeñas, las
distribuciones más heterogéneas tienen porcentajes
de variación más grandes.
USO DE LAS DIFERENTES

MEDIDAS DE DISPERSIÓN
 PREGUNTA DE EXAMEN. Con distribución
simétricas (no sesgadas), se emplean la media y la
desviación estándar de datos numéricos. Media,
mediana y moda son iguales, en un gráfico son Para yo recordar cuando es a la derecha o a la
simétricos; entonces me deben dar el promedio y la izquierda, siempre recuerdo mediana, mediana y
deviación estándar. moda. Primero va la media (promedio) porque es el
siempre se usa y la moda es el que menos se usa,
por eso va al último. Debemos usar los signos de
mayor y menor. Cuando los signos están menores,
la flecha va dirigida hacia la izquierda; los datos por
debajo de la media son menos frecuentes, la parte
aplanada de la curva está a la izquierda. Cuando los
signos son mayores, la flecha va dirigida hacia la
derecha; los datos por encima de la media son
menos frecuentes, en la curva se puede ver
aplanado por el lado derecho.
 El rango es una medida apropiada para datos

numéricos cuando el propósito es enfatizar valores
extremos.
 El coeficiente de variación es útil cuando la
intención es comparar dos distribuciones
numéricas medidas en escalas diferentes.
Recordemos que lo usábamos cuando queríamos
comparar la variación entre grupo que mediamos
talla y otro peso; normalmente no se podía comparar
sin embargo al ser una medida relativa si se puede
realizar la dispersión en ambos grupos.
MEDIDAS DE POSICICIÓN *Outliers (Valores atípicos)
 Sitúan a un individuo en la distribución de la variable  Es un gráfico representativo de las distribuciones de

que se está estudiando. un conjunto de datos en cuya construcción se usan
 Primero deben ordenarse los datos. cinco medidas descriptivas: mediana, primer
 Se usan mucho en test psicométricos y medidas cuartil, tercer cuartil, valor máximo y valor
antropométricas. mínimo.
 Presenta, al mismo tiempo, información sobre la
Y dividen a la distribución en cuatro, diez o cien partes tendencia central, dispersión y simetría de los
iguales: datos de estudio.
 Cuartiles  Además, permite identificar con claridad y de forma
individual, observaciones que se alejan de manera
 Deciles
inusual del resto de los datos. A estas observaciones
 Percentiles
se les conoce como valores atípicos “outliers” o
Recordar: valores extremos.
 Al igual que el histograma y el gráfico de Tallos y
 Q1 = P25
Hojas permite tener una idea visual de la distribución
 Q2 = Mediana = P50 de los datos (simetría y variabilidad)
 Q3 = P75
Sirve para ver datos de forma gráfica
PROCEDIMIENTO
1. Dibujar una
BOX PLOT (DIAGRAMA DE CAJA)
caja cuyo límite
inferior será Q1
y el superior
Q3.
2. Dentro de la
caja trazar una
línea que localice la mediana.
3. Calcular el rango intercuartílico:
 RIQ = Q3 – Q1
4. Se calculan las Fronteras Interiores inferior (FIi) y
superior (FIs):
 FIi = Q1 – (1.5) (RIQ)
 FIs = Q3 + (1.5) (RIQ)
5. Se calculan las Fronteras Exteriores inferior (FEi) y
Alternativa gráfica a pruebas estadísticas. superior (FEs):
 FEi = Q1 –3(RIQ)
 FEs = Q3 +3(RIQ)
EJEMPLO
6. Mirando las Fronteras EDAD DE 100 PACIENTES
Interiores inferior (FIi) y
superior (FIs):
 FIi = Q1 – (1.5)
(RIQ)
 FIs = Q3 + (1.5)
(RIQ)
Valores atípicos moderados
se dibujan con un punto “●”
7. Mirando las Fronteras Exteriores inferior (FEi) y
superior (FEs):
Procedemos a saber cuáles son los cuartiles.
 FEi = Q1 –3(RIQ)
 FEs = Q3 +3(RIQ) POSICIÓN DE LOS CUARTILES
Valores atípicos extremos se dibujan con un asterisco N = 100

“✽” N/4 = 25  Posición del 1° cuartil
N/2 = 50  Posición de la mediana
 Mirando estas fronteras: 3N/4 = 75  Posición del 3° cuartil
 Si no hay valores
atípicos, ‘outliers’,
entonces las líneas
perpendiculares
(bigotes) al límite
de cada caja se
trazan:
o hasta el valor mínimo de los datos, por
abajo, y
o hasta el valor máximo de los datos, por
arriba.
 Puedo incluir la media aritmética, o promedio con un
punto, (generalmente dentro de la caja).
*Buscar el primero que se pasa

CALCULOS
Q1 = 23 Q2 o Me = 26 Q3 = 31
Min = 18 Máx. = 57
RIQ = Q3 – Q1 = 31 -23 = 8
FRONTERAS INTERIORES INFERIOR Y SUPERIOR
FIi = Q1 – (1.5) (RIQ) = 11 BOX PLOT

FIs = Q3 + (1.5) (RIQ) = 43
FRONTERAS EXTERIORES INFERIOR Y SUPERIOR
FEi =Q1 – (3) (RIQ) = -1
FEs = Q3 + (3) (RIQ) = 55
PASOS
1. Dibujar una caja cuyo límite
inferior será Q1=23 y el superior
Q3=31.
2. Dentro de la caja trazar una
línea que localice la
Mediana=26.
3. Calcular el rango
intercuartílico:
RIQ= Q3 – Q1= 31 - 23= 8
4. Se calculan las Fronteras
Interiores inferior y superior:
 FIi = Q1 – (1.5) (RIQ)= 11
 FIs = Q3 + (1.5) (RIQ)= 43
EJEMPLO
5. Se calculan las Fronteras Exteriores inferior y superior:
 FEi = Q1 – (3) (RIQ)= -1 CAMBIO EN DISCAPACIDAD SEGÚN NUDS
 FEs = Q3 + (3) (RIQ)= 55
6. Dibujar un “bigote” saliendo del borde inferior de la caja
hasta la frontera inferior (11), o valor mínimo = 18.
7. Dibujar otro “bigote” saliendo del borde superior de la caja
hasta la Frontera Interior superior = 43 o valor máximo.
8. Dibujar cualquier observación que se ubique fuera de los
bigotes. Estos serán los outliers moderados=51 o
extremos.
FIi = Q1 – (1.5)(RIQ)= 11
FIs = Q3 + (1.5)(RIQ)= 43
9. Dibujar los valores más alejados, se debe considerar otra
forma para el outlier extremo= 57, por ejemplo un
asterisco.
FEi = Q1-(3 x RIQ) = -1
FEs = Q1+(3 x RIQ) = 55
DISPERSIÓN  Si se acerca al borde de la caja (Q1 o Q3), la

distribución pudiera ser sesgada a la derecha
Cajas anchas (asimétrica positiva) o sesgada a la izquierda
sugieren (asimétrica negativa) respectivamente.
distribuciones muy  La mediana puede inclusive coincidir con los cuartiles
dispersas en la o con los límites de los bigotes. Esto sucede cuando
parte central. se concentran muchos datos en un mismo punto.
Cajas angostas
VISTA DE UN BOXPLOT Y SU
muestran una gran
concentración de HISTOGRAMA
datos.
La longitud de las
colas por su parte
nos dirá la mayor o
menor
concentración de
los datos en las
zonas extremas.
INTERPRETACIÓN
 Mientras más
larga la caja y
los bigotes,
más dispersa
es la
distribución de
datos.
 La distancia
entre las cinco
medidas del
boxplot (sin
incluir la media aritmética) puede variar, sin embargo,
recuerde que la cantidad de elementos entre una y otra  El histograma y Boxplot presentan cierta simetría.
es aproximadamente la misma.  Hay una ligera asimetría en ambos bigotes.
 Se observan valores extremos
Entre el límite inferior y Q1 hay igual cantidad de datos que de
Q1 a la mediana, de ésta a Q3 y de Q3 al límite superior (25%). Recordar que el histograma y boxplot nos presentan la
misma información, sin embargo será mucho más
Se considera aproximado porque pudiera haber valores
detallado en el Boxplot
atípicos, en cuyo caso la cantidad de elementos se ve
levemente modificada.
 La línea que representa la mediana indica la simetría.
 Si está relativamente en el centro de la caja la
distribución es simétrica.
EJEMPLO
 Mayor salario es del management

 Valor más simétrico lo tiene el office (caja central)
 Valores atípicos: Trabajadores, servicios y
managment
BIOESTADÍSTICA Degras Pa´ no biquear
S5(T5) – PROBABILIDADES EN MEDICINA

TEORIA DE PROBABILIDADES 3. Si A, B eventos cualesquiera, entonces,
Conforme la parte de estadística diferencial nos permite P(AUB) = P(A) + P(B) - P(AB)
trabajar con hipótesis que son probabilísticos.
Se ha aplicado desde la edad media y ha ido cambiando
durante el tiempo mediante el enfoque de la enseñanza.
Es importante seguir al pie de la letra las siguientes
propiedades.
PROPIEDADES
1. 0  P(A)  1
P(A) = n(A) / Gran total
Esta primera regla se refiere a que la probabilidad del EJEMPLO:
evento va a tomar los valores de entre 0 y 1; esto quiere
decirnos que la probabilidad de un evento seguro será de
1, mientras que la probabilidad de un evento imposible es
0.
NOTA: Es similar a una proporción, por eso que su
rango va a ser entre 0 y 1
EJEMPLO:
4. Si A, B eventos excluyentes (AB=), entonces,

P(AUB) = P(A) + P(B)
Aquí tenemos dos variables que son la menopausia y el En este caso la intersección de eventos es imposible.
otro sería la de OMS. En la cuál de las 1000 mujeres, solo
303 no tienen menopausia y 697 si la tienen.
También de las 1000 mujeres son clasificadas como
normal 469 mujeres, osteopenia 467 mujeres y 64 mujeres
 ¿Probabilidad de una mujer normal?
Para hallar esto tenemos que guiarnos de la tabla poniendo
los datos de una mujer clasificada normal sobre el total de
mujeres. EJEMPLO:
P (Normal)=469/1000=0,469 ¿Probabilidad de tener osteopenia u osteoporosis?
2. INTERSECCION DE EVENTOS
Es la probabilidad que dos eventos ocurran en forma
simultánea. Esto nos habla de la intersección que va a
tener estos eventos.
P(A∩B) = n(A∩B) / Gran total
EJEMPLO:
 P(OsteopeniaUOsteoporosis)=P(Osteopenia)+P(Osteo
porosis)- P(Osteopenia∩Osteoporosis)
=467/1000+64/1000=0,531
 Son sucesos disjuntos
 Osteopenia ∩ Osteoporosis=Ø
¿Probabilidad que sea una mujer normal y tenga ¿Probabilidad de tener osteoporosis o menopausia?
menopausia? Con la guía de la tabla sabremos los valores  P(OsteoporosisUMenopausia)=P(Osteoporosis)+P(Men
que corresponden. opausia)-P (Osteoporosis ∩ Menopausia)
P (Normal y Menopausia) = 280/1000=0,28 =64/1000+697/1000-58/1000=0,703
 No son sucesos disjuntos 7. REGLA DE LA MULTIPLICACIÓN

5. Si A y A’ son complementarios, entonces, Es conocido como eventos de pendientes.
P(A’) = 1 - P(A) o P(A) = 1 - P(A’), tener presente que A partir de : P(B/A) = P(AB) / P (A), despejando
el resultado máximo es igual a 1 tenemos:
P(AB) = P(A)* P(B/A)
EJEMPLO:
EJEMPLO:
8. INDEPENDENCIA DE SUCESOS
Se ha repetido en 1000 ocasiones el experimento de Dos sucesos son independientes si el que ocurra uno,
elegir a una mujer de una población muy grande. El no añade información sobre el otro. No se afectan
resultado está en la tabla. entre los dos. Tenemos que tenerlo en cuenta para la
¿Cuál es la probabilidad de que una mujer tenga toma de decisiones.
osteoporosis? A es independiente de B
P(Osteoporosis)=64/1000=0,064=6,4%  P(A∩B) = P(A) P(B)
Noción frecuentista de probabilidad  P(A|B) = P(A)
¿Cuál es la probabilidad de que una mujer no tenga EJEMPLO:
osteoporosis?
P (No Osteoporosis) =1-P(Osteoporosis)=1-
64/1000=0,936=93,6%, este es el complemento y es
muy utilizado en casos de prevalencia.
6. PROBABILIDAD CONDICIONAL: P(B/A)
Es muy importante para poder entender casos de
probabilidades condicionales.
Sea  (omega) un espacio muestral asociado al
experimento aleatorio E. Sean los eventos A y B dados APLICACIONES
en . EVALUACION DE UNA PRUEBA DE TAMIZAJE EN
La probabilidad de la ocurrencia del evento B dado ESTUDIOS: TRANSVERSAL Y CASO-CONTROL
que ha ocurrido A se denomina probabilidad Se aplican a nivel poblacional en el estudio transversal y
condicional de B dado A. en el caso-control el objetivo es identificar los factores de
Fórmula: riesgo, no se puede conocer prevalencias.
Tiene dos formas de expresión que son las siguientes:
P(B/A) = n(AB) / n (A)
Esto se aplica cuando los datos están en una tabla
P(B/A) = P(AB) / P (A)
Esto se aplica cuando los datos no están en una tabla
donde P(A) > 0.
Esta probabilidad es un cociente de dos probabilidades.
OJO:
VPP = VALOR PREDICTIVO POSITIVO
VPN = VALOR PREDICTIVO NEGATIVO
EJEMPLO:
En general:
DEFINICIÓN PROPIEDADES DE LA DISTRIBUCIÓN

Para una variable aleatoria discreta es una tabla, gráfica, DE PROBABILIDAD DE VARIABLE
fórmula u otro sistema utilizado para especificar todos los DISCRETA
valores posibles, junto con sus probabilidades La longitud de cada barra vertical indica la probabilidad
respectivas. para el valor correspondiente de x. Los valores P(X=x) son
Recordemos que la variable discreta era la variable todos positivos, menores que 1, y la suma de estos es
numérica entera y lo que se va a querer hacer es encontrar igual a 1.
alguna forma para ver exactamente los posibles valores y 1) 0 ≤ P(X=x) ≤ 1
sean representados cada uno de estos valores. 2) ∑ 𝑝(𝑋 = 𝑥) = 1
EJEMPLOS:
PREVALENCIA DEL CONSUMO DE MEDICAMENTOS
DURANTE EL EMBARAZO
Recuerda que la frecuencia es las veces que consumieron
en este caso los medicamentos.
# medicamentos Frecuencia
0 1425
1 1351
2 793
3 348
4 156
5 58
6 28
7 15
8 6
9 3
10 1
El eje X es # de medicamentos
12 1
Total 4185
 P(X=2) es 0.1895, esto se tiene que encontrar en la
tabla.
De ahí tenemos que hallar la frecuencia relativa de cada  ¿P(X=4) es ?, sería 0.0373
una de las posibilidades y tendremos la siguiente tabla:
DISTRIBUCIÓN DE PROBABILIDAD DEL NÚMERO DE DISTRIBUCION BINOMIAL
MEDICAMENTOS CONSUMIDOS DURANTE EL Es una distribución de probabilidad de variables discretas.
EMBARAZO
# medicamentos Frecuencia ENSAYO DE BERNOULLI
0 0.3405 Es cualquier ensayo de algún experimento que conduce
1 0.3228 sólo a uno de dos resultados que son mutuamente
2 0.1895
excluyentes, tales como: vivo o muerto; enfermo o sano;
+ ó – ; Masculino o Femenino.
3 0.0832
 Estos pueden ser expresados en "Sí" o "No", si hago la
4 0.0373
pregunta correctamente. Por ejemplo:
5 0.0139 Al tirar una moneda, ¿Será cara?
6 0.0067 ¿Era el recién nacido fue niña?
7 0.0036 ¿Sus ojos son verdes?
8 0.0014
¿El paciente, tiene TBC?
¿La prueba, salió +?
9 0.0007
EJEMPLOS:
10 0.0002
 Tirar una moneda.
12 0.0002 En este contexto, ("cara") convencionalmente denota éxito
Total 1.0000 y el reverso ("sello") denota fallo. Por definición, una
moneda tiene 0.5 de probabilidad de éxito.
 Tirar un dado. CÁLCULO DE PROBABILIDADES CON LA

En este caso designamos un 6 como un "éxito" y todos los DISTRIBUCIÓN BINOMIAL
demás resultados como “fracaso". Al estudiar la distribución binomial se tiene interés en
calcular la probabilidad de obtener x éxitos de un total
PROCESO DE BERNOULLI de n ensayos de Bernoulli.
Es la repetición de un Ensayo de Bernoulli. Este cálculo se realiza con:
Hacer independientes pero idénticos ensayos de Bernoulli
en forma repetida, por ejemplo, tirar 10 veces una moneda n!
p(X = x) = p x qn-x
CARACTERÍSTICAS DE LA DISTRIBUCIÓN BINOMIAL. x!(n - x)!
1. En cada ensayo ocurre 1 de 2 posibles resultados
mutuamente excluyentes. CARA O SELLO Donde: X = variable aleatoria
2. La probabilidad de éxito (p) permanece constante de x = 0,1,2,3, …n
un ensayo a otro, cada vez que tiro siempre va a ser
0.5 probabilidad de éxito, entonces la cantidad de
veces que tire el dado no influye. La probabilidad de
fracaso: (q)
3. Los ensayos son independientes.
Si nos fijamos en el ejemplo de la moneda, en este caso
estaremos estudiando cuantas veces sale cara o sale
cruz, o las probabilidades de que salga:
 3 veces cara de los 10 intentos.
 Calcular la probabilidad de 3 éxitos en 10 ensayos
de Bernoulli EJEMPLO
 Calcular la probabilidad de x éxitos en n Probabilidad de tener 5 éxitos en 12 ensayos de
ensayos de Bernoulli Bernoulli
¿QUÉ SIGNIFICA DISTRIBUCIÓN

BINOMIAL?
Todo experimento que tenga características de ensayo de
Bernoulli, diremos que sigue el modelo de la distribución
Binomial.
A la variable X que expresa el número de éxitos obtenidos El procedimiento para hacerlo en la calculadora en la
en cada prueba del experimento, la llamaremos variable siguiente imagen:
aleatoria binomial.
 La variable binomial es una variable aleatoria
discreta, sólo puede tomar los valores 0, 1, 2, 3, 4, ...,
n suponiendo que se han realizado n pruebas. Como
hay que considerar todas las maneras posibles de
obtener k-éxitos y (n-k) fracasos debemos calcular
éstas por combinaciones (número combinatorio n
sobre k).
Se representa de la siguiente manera:
B(n,p)
Siendo: n y p los parámetros de dicha distribución.
 El número de pruebas (n)
 La probabilidad de éxito (p)
CARACTERÍSTICAS
Se demuestra que la distribución binomial es una
distribución de probabilidad ya que:
 p(x)  0
  p(x) =1
La distribución binomial tiene dos parámetros:
n y p B(n,p)
La media de la distribución binomial es: x = np
La desviación estándar es: x = npq
PARÁMETROS DE LA DISTRIBUCIÓN
BINOMIAL
Media 𝓊 = 𝓃𝓅
Varianza 𝓊2 = 𝓃𝓅𝓆
Desv. Estándar 𝓊 = √(𝓃𝓅𝓆)
Ejemplo: En cierta población la prevalencia de alergia es
de 20%. Si se selecciona una muestra aleatoria de 10
personas.
Calcular :
a. La probabilidad de que la muestra contenga
exactamente un alérgico.
Solución: n!
p(X = x) = p x qn-x
Datos: x!(n - x)!
Éxito = tener alergia  p = 0,2 y q = 0,8
n = 10 ; x = 1
Luego: p(X=1)= 10! (0,2)1 (0,8)9
1!9!
p(X=1) = 10 (0,2)(0,8)9
p(X=1) = 0,2684
b. La probabilidad de que la muestra incluya menos de dos
alérgicos
Solución: p(X = x) =
n! x n-x
p q
p = 0,2 x!(n - x)!
q = 0,8
n = 10
p(X<2) = p(X=0) + p(X=1)
p(X=0) + p(X=1)
= 10! (0,2)0 (0,8)10 + 0,2684
0!10!
= 0,1074 + 0,2684
p(X<2) = 0,3758
BIOESTADÍSTICA Degras pa' no biquear
S6
(T6.2)
DISTRIBUCIÓN NORMAL Y LA Valores de presión arterial sistólica en
CAMPANA DE GAUS una muestra de
1000 pacientes isquémicos ingresados
Es una distribución de probabilidad de variables continuas
(variable numérica con números decimales).
en UCI
Polígono de Frecuencias:
Su importancia se debe principalmente a que hay muchas
variables asociadas a fenómenos naturales que siguen el - Se observa: La presión arterial sistólica de una
modelo de la distribución normal. muestra de 1000 pacientes con problemas isquémicos
cardíacos hospitalizados en la UCI.
 Caracteres morfológicos de individuos (personas, Pasos a seguir: Realizar un histograma y
animales, plantas,) de una especie, p.ejm. tallas, pesos, posteriormente, unir los puntos medios de la parte de
envergaduras, diámetros, perímetros. arriba de cada barra.
 Caracteres fisiológicos, por ejemplo: efecto de una
misma dosis de un fármaco, o de una misma cantidad
de abono.
 Caracteres sociológicos, por ejemplo: consumo de
cierto producto por un mismo grupo de individuos,
 puntuaciones de examen.
 Caracteres psicológicos, por ejemplo: cociente
intelectual, grado de adaptación a un medio.
 Errores cometidos al medir ciertas magnitudes.
 Valores estadísticos muestrales, por ejemplo: la
media.
 Otras distribuciones como la binomial o la de Poisson
son aproximaciones normales.
 Y en general cualquier característica que se obtenga
como suma de muchos factores.
DISTRIBUCIÓN NORMAL
 Es una distribución de probabilidad de variables
continuas.
 El matemático Gauss contribuyó notablemente en el
Interpretación: El polígono de frecuencias se asemeja
 estudio y difusión de esta distribución.
más a la curva normal cuanto más grande sea la
 La mayoría de las variables continuas tienen
muestra.
polígonos de frecuencias que permiten visualizar un
aumento gradual hasta llegar a un máximo y luego un
descenso igualmente gradual.
 Así:
5. La normal queda completamente determinada por

CARACTERÍSTICAS DE LA DISTRIBUCIÓN
los parámetros  y 
PROBABILÍSTICA NORMAL
 La curva normal tiene forma de campana con un
solo pico justo en el centro de la distribución.
 La media, mediana y moda de la distribución son
iguales y se localizan en el pico: Distribución
Simétrica. Interpretación: La moda y promedio se encuentran al centro.
 La mitad del área bajo la curva está a la derecha
del pico, y la otra mitad está a la izquierda. ÁREAS BAJO LA CURVA NORMAL
 La distribución normal es simétrica respecto a su  Cerca de 68% del área bajo la curva normal está a menos
media. de una desviación estándar respecto a la media. μ ± 1 σ
 La distribución normal es asintótica - la curva se  Alrededor de 95% está a menos de dos desviaciones
acerca cada vez más al eje x, pero en realidad  estándar de la media. μ ± 2 σ
nunca llega a tocarlo.  Casi el 100% está a menos de tres desviaciones estándar
 de la media. μ ± 3 σ.
99.74%
95.44%
68.26%
Como toda figura geométrica en el plano, la

Importante: Pico en cero, se acerca al eje x. curva normal posee una fórmula o ecuación
denominada también Función de densidad
Encontraremos los valores de z y valores T cuando las de la variable aleatoria continua que es la
muestras resultan ser menores a 30. siguiente:
Características más importantes de

la distribución normal
-  x  
1. Es simétrica respecto a la media, .
2. La media, la mediana y la moda son iguales y están en
el pico.
3. El área total debajo de la curva y el eje x es igual a una  Donde:
unidad cuadrada
y = altura de la curva en el punto x
4. Si se levantan perpendiculares a una distancia de una
desviación estándar a ambos lados de la media, se
habrá delimitado aproximadamente el 68% del área
total.
Si se extienden estas perpendiculares
hasta dos desviaciones estándar, se define
aproximadamente el 95% del área total y con 3
desviaciones estándar aproximadamente el 100%.
Así:
“Representación gráfica Ejemplos de

distribuciones normales
de esta función de Figura 1: con diferentes parámetros.
densidad” Distribuciones La media determina dónde
normales con la está el centro.
misma media, La desviación estándar
pero diferente determina que tan ancha
desviación es la distribución.
estándar.
Figura 2:
FUNCIÓN DE DISTRIBUCIÓN Distribuciones
normales con
o Puede tomar cualquier valor (- ∞, + ∞)
diferente media,
o Son más probables los valores cercanos a uno
pero la misma
central que llamamos media m
desviación
o Conforme nos separamos de ese valor m, la
estándar.
probabilidad va decreciendo de igual forma a derecha
e izquierda (es simétrica).
o Conforme nos separamos de ese valor m, la Interpretación figura 1: El centro es el mismo, por
probabilidad va decreciendo de forma más o menos ende, la media será la misma, sin embargo,
rápida dependiendo de un parámetro s, que es la cambia la desviación estándar.
desviación estándar.
Desviación estándar más grande: Curva
En síntesis, conforme vamos cambiando la lejanía del celeste
centro, la pendiente de la curva va cambiando. Desviación estándar más pequeña:
Curva azul
DISTRIBUCIÓN NORMAL
UNITARIA O NORMAL
ESTÁNDAR
Tiene una media de cero y desviación estándar
de uno.
DISTRIBUCIÓN NORMAL Se obtiene a partir de la ecuación,
Queda definida por dos parámetros, su media y su desviación
típica y la representamos así
𝑵= (𝝁, 𝝈)
haciendo =0, =1 y x -  = z

Para cada valor de 𝜇 𝑦 𝜎 tendremos una función de densidad Interpretación: Se obtiene una curva
distinta, por lo tanto, la expresión 𝑁= (𝜇, 𝜎) representa una familia normal estándar.
de distribuciones normales.
DISTRIBUCIÓN NORMAL o Gráfica de una distribución normal

ESTÁNDAR y significa del área bajo la curva.
 Una distribución normal que tiene media igual a 0
y desviación estándar igual a 1 se denomina
distribución normal estándar.
Probabilidades de obtener un valor o un individuo

que se encuentre entre A y B.
Preguntas:
¿Cuál es la probabilidad de que un
valor de X se encuentre entre A y B?
¿Cuál es la probabilidad de que X sea
mayor igual que A, pero menor igual
que B?
ABREVIACIONES
1. Media de la población = μ
2. Desviación estándar = σ
3. Media de una muestra = x
4. Desviación estándar muestral = s
- Población = N
 Las cuatro distribuciones del gráfico son normales, con - Muestra = n
distintos valores de la media y la desviación típica. La
5. Grados de libertad = v
verde es la "normal estándar", de media cero y
6. Distribución Normal Estándar = z
desviación típica uno.
- μ = 0 y σ =1
Interpretación:
- La curva roja es mucho más delgada y alta, es
decir, hay más datos cercanos al promedio.
- Desviación estándar pequeña: 0.2
- Curva azul: Media = 0, desviación estándar: 5,
es decir, es una curva chata y gordita.
En síntesis:
- Desviación estándar grande: Curva chata y
gordita. Curva T, parecida a la curva Z
- Desviación estándar pequeña: Curva alta y mas no, igual.
flaquita.
Curva Morada o lila: Un poco más alta que la
desviación estándar.
 TABLA DE DISTRIBUCIÓN CÁLCULO DE ÁREA O PROBABILIDAD EN

NORMAL ESTÁNDAR N (0,1) LA CURVA NORMAL ESTÁNDAR
Se utiliza la tabla de áreas, es decir, la

tabla Z.
Ejemplo 1:
• Calcular el área entre z=0 y z=2
Solución:
Interpretación: Todo lo que • Se recomienda graficar la curva normal
está pintado de amarillo es y sombrear el área solicitada para facilitar
el área bajo la curva por la resolución del problema.
detrás o menor que X.
• Así:
 De la tabla de áreas se obtiene:

p(z
Recordar: La tabla sólo me dará el área a la

izquierda de un número.
Interpretación: Tabla Z
 Como 1era columna dará valores de Z y
como 2da, valores de probabilidad.
 De la mitad de la tabla a la izquierda:
Valores de P menores que 0.5 ya que,
existen probabilidades pequeñas.
 Cuando trazo mi recta a la derecha del
centro: Áreas grandes.
Interpretación: Se puede observar el Z de 2
Todo lo que está detrás de 2 tiene un área de
0.97725.
Es decir, que la probabilidad de que un valor
elegido a azar sea menor que 2 es igual a
0.977725.
Interpretación: En la tabla Z ubicamos el Z = a

2.45 y mi área por detrás de 0.84 en rojo.
De la tabla de áreas se obtiene:

• p (z  2) = 0.9772
• Pero piden:
p (0  z  2)
¿Recuerdan cuánto había a la izquierda de cero?
De la tabla: área entre -∞ y z=2,45 
Recordar: Que todo lo que está por detrás 0,99286
del centro es un área del 0.5.
Área entre -∞ y z=0,84  0,79955
p (0  z  2) = 0.9774 – 0.5= 0,47725
p (0,84  z  2,45) = 0,99286 - 0,79955= 0,19331=
Interpretación: Área azul
La probabilidad de que la variable z asuma valores Interpretación:
entre 0 y 2 inclusive, es 0,47725 La probabilidad de que una z elegida al azar quede
entre 0,84 y 2,45 es de 0,19331 ó el 19,33% de los
Ejemplo 2:
valores de z están entre 0,84 y 2,45.
 Si de la población de posibles valores Ejemplo 3:
de z, se elige uno al azar:
Calcular p(z2,71)
¿Cuál es la probabilidad de que se encuentre Recordar =Debajo de toda la curva está la
entre 0,84 y 2,45 inclusive? unidad.
Solución: Solución: Graficando:
La pregunta permite calcular: p (0,84  z  2,45) =?

Veamos el gráfico siguiente:
De la tabla: área entre -∞ y

z=2,71  0,99664
Luego: p(z2,71) = 1 -0,99664
= 0,00336.
Interpretación:
De la tabla: área entre -∞ y
La probabilidad de que un valor de z sea mayor
z=2,45  área entre -∞ y z=0,84 igual a 2,71 es de 0,00336.
 p(0,84  z  2,45) =
BIOESTADISTICA Degras pa´ no biquear
Distribución normal, ejemplos con estudios reales y

distribuciones normales no estándar-parte c
LOS DATOS DE NUESTRAS  La distancia entre un valor seleccionado, designado
INVESTIGACIONES NO SON ENTRE - Y + como X, y la población media μ, dividida entre la
CON MEDIA 0 Y DESVIACIÓN ESTÁNDAR desviación estándar de la población σ.
DE 1
CÁLCULO DE ÁREAS EN UNA CURVA
¿Qué hacemos? NORMAL CUALQUIERA
Tenemos que transformar la curva normal de nuestros datos Ejemplo:
a la curva normal estándar.
Los niveles de colesterol total en la población general se
Para eso necesitamos de una fórmula. distribuyen normalmente con =200 y = 20. Si de esta
población se selecciona un sujeto al azar, ¿cuál es la
Ejemplo:
probabilidad de que:
a. tenga un valor entre 170 y 230?
Solución:
Se solicita: p(170x230)=?
En el gráfico, el área que debemos calcular aparece
sombreada:
u=140 u=0
En la primera imagen vemos un histograma con polígono de =20
frecuencias y el promedio de la presión sistólica es 140.

Sin embargo, en la tabla el promedio era 0.
Aquí se emplea la transformación los datos en estándar.
X
170 200 230 i
FORMULA
Se transforman o estandarizan los valores de xi en términos
de z.
x1  
230 200
z1   1,50
 20
x   170 200
z2  2   1,50
z es una variable aleatoria con distribución normal. Luego:  20
Valor z:
BIOESTADISTICA Degras pa´ no biquear
b. Tenga un valor de 270 ó más.
= 1 Solución:
1
p(x270) =?
z =20
-1,50 0 1,5
i
0
Luego: p(170x230)= p(-1,50z1,50)=?.
200 270 x
De la tabla: i
p(-1,50z1,50)= 0,93319 - 0,06681 = 0.86638

=1
Interpretación:
La probabilidad de que un sujeto seleccionado al azar tenga
un nivel de colesterol entre 170 y 230, es de 0,86638 0 3,50 z
i
ó Cálculo de z:
El 86.6% de personas tienen colesterol entre 170 y 230. Z= 270 – 200= 3,50
TABLA Z 20
A la izquierda se encuentran los valores negativos de Z y los Luego:
valores menores que 0.5 del área bajo la curva.
p(x270)=p(z3,50)
A la derecha están los valores positivos de Z y valores
mayores que 0.5 del área bajo la curva. = 1 - 0,99865
El área bajo la curva representa las probabilidades. = 0,00135
En verde, el valor de z igual a -1.5 y en rojo a +1.5 Interpretación:

La probabilidad de que un sujeto elegido al azar tenga
un nivel de colesterol de 270 ó más, es de 0,00135
El valor por debajo de 3
positivo es 0.99865, sin
embargo, no hay el valor
por detrás de 3.5. En este
caso iremos a lo que más se
acerca, en este caso seria
3. Es importante recordar
que cuanto más nos
acercamos a 0 la diferencia
de los valores será grande,
pero si estamos lejos en las
colas negativas como
positivas, los valores se
encontrarán cerca.

Degrabas USMP Bioestadistica

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Degrabas USMP Bioestadistica

Cargado por

Copyright:

Formatos disponibles

BIOESTADÍSTICA Degras Pa’ no biquear

• Primero debemos buscar lo que otras personas han

MÉTODO CIENTÍFICO • El científico observador debe tener:

3. EXPERIMENTACIÓN • Se usa en dos partes: Al principio, cuando

PROBLEMAS NUEVOS En los resultados obtenidos será bueno

UNIVERSITARIOS Individuo Muestra

1000 Alumnos de USMP Población

V. CUANTITATIVA VARIABLES CUALITATIVAS ORDINALES

El 0 significa ausencia de: SI

VARIABLES CUALITATIVAS NOMINALES El doble del número es el doble de lo que estoy

CLASIFICACIÓN DE VARIABLES o Tipo: Es una variable cualitativa.

VARIABLE RECOLECCIÓN DE DATOS

• Población objeto de estudio:

S2 (T2): ELABORACIÓN DE DATOS:

*Se necesita conocer el rango de valores, en este

Ejemplo.- Considerando los datos de edad dado en el En relación al ejemplo se tiene:

Tenemos 3 columnas, en la primera colocamos

B) VARIABLE CUALITATIVA DE MÁS DE DOS

En casos de tener una gran cantidad de datos,

IMPORTANTE: Identificar los números de

POLÍGONO DE FRECUENCIAS SIMPLES

LAS MEDIDAS DE POSICIÓN

3. También es útil conocer las medidas de - Se tiene la siguiente información:

MEDIDAS DE TENDENCIA CENTRAL 1. Si todos los valores son diferentes, no hay

3. Es usada para variables categóricas o - Luego la Moda es:

- Por lo tanto, la marca de clase será:

20, 3, 4, 19, 6, 7, 10, 21,12, 16  Los valores centrales se encuentran en las

PROPIEDADES DE LA MEDIANA N= 8 datos

Por lo tanto, la mediana de mi estudio va a ser

Posición: MEDIA ARITMÉTICA

MEDIANA EN DATOS AGRUPADOS

En su cálculo intervienen todos los valores que se

x1, x2, x3, ......xn.

Lo podemos representar como:

PROPIEDADES DE LA MEDIA ARITMÉTICA

3. Si a cada valor de la serie le multiplicamos por

 La edad promedio de estas madres será:

MEDIA ARITMÉTICA EN DATOS

DISTRIBUCIÓN SESGADA A LA IZQUIERDA  Deciles. (10 partes iguales)

Cálculo de los cuartiles en datos agrupados:

LOS CUANTILES 80-90

Son aquellos que dividen a la distribución en cuatro, 100-110 5 63

 Cuartiles. (4 partes iguales)

 Cálculo del primer cuartil:

INTERPRETACIÓN: por debajo de 68.25%. está el

 Cálculo del primer decil:

 Cálculo del tercer cuartil:

0 porque no existe clase anterior

 Cálculo del noveno decil:  Cálculo del percentil 35:

 Son aquellos que dividen a la distribución en Ejemplo:

MEDIDAS DE RESUMEN NUMÉRICO TASA

 Este número constituye un valor que refleja

MEDIDAS QUE CALCULAN LA

Cuando trabajos con muestras, la fórmula

Vamos reemplazando paso por paso

¿Qué grupo es más homogéneo o menos variable?

 Existe una clasificación de dispersión de un conjunto

Al contrario, caso a la asimetría a la derecha. La

USO DE LAS DIFERENTES

 El rango es una medida apropiada para datos

MEDIDAS DE POSICICIÓN *Outliers (Valores atípicos)

 Sitúan a un individuo en la distribución de la variable  Es un gráfico representativo de las distribuciones de

Valores atípicos extremos se dibujan con un asterisco N = 100