Está en la página 1de 218

UNIVERSIDAD DE GUAYAQUIL

ESTADÍSTICA
DESCRIPTIVA
Medidas de Dispersión:
Varianza y desviación típica
Rango intercuartílico
Coeficiente de variación
UNIVERSIDAD DE GUAYAQUIL

GENERALIDADES

LA VARIANZA, LA DESVIACIÓN RANGO INTERCUARTÍLICO COEFICIENTE DE VARIACIÓN


ESTÁNDAR Y LA DESVIACIÓN
MEDIA
UNIVERSIDAD DE GUAYAQUIL

Medidas de Dispersión
Las medidas de tendencia central ofrecen una idea aproximada del comportamiento
de una serie estadística. Pero, no resultan suficientes para expresar sus
características: una misma medida puede provenir de valores cercanos a la misma o
resultar de la confluencia de datos estadísticos enormemente dispares. Para
conocer en que grado las medidas de tendencia central son representativas de la
serie, se han de complementar con medidas de dispersión o también llamadas de
variabilidad absoluta,
Las medidas dispersión, amplían el concepto de variabilidad, como el método de las
medidas de tendencia central, que describen el comportamiento de los datos en una
distribución de frecuencia. Las informaciones que proporcionan estas medidas son
limitadas y no dicen nada sobre cómo están distribuidos o dispersos los datos con
relación a la tendencia central. Poco indican sobre un determinado dato con
relación a otros de la distribución.
Las medidas de dispersión o variabilidad son aquellas que miden la
dispersión de los datos, es decir, nos dicen qué tan parecidos o que tan diferentes
son entre si los valores observados.
UNIVERSIDAD DE GUAYAQUIL

Medidas de Dispersión
La interpretación de un grupo de datos individuales necesita de
informaciones que permitan apreciar la dispersión de los valores
alrededor de la medida de tendencia central. Estas medidas son
importantes por sus propiedades algebraicas, por lo que es
frecuente su implementación en la solución de problemas de
estadística aplicada.
Así, las medidas de dispersión pueden definirse como los
valores numéricos cuyo objeto es analizar el grado de separación de
los valores de una serie estadística con respecto a las medidas de
tendencia central consideradas.
UNIVERSIDAD DE GUAYAQUIL

Las medidas de dispersión son de dos tipos:

• Medidas de dispersión absoluta: como recorrido, desviación


media, varianza y desviación típica, que se usan en los análisis
estadísticos generales.
• Medidas de dispersión relativa: que determinan la dispersión de la
distribución estadística independientemente de las unidades en que se
exprese la variable. Se trata de parámetros más técnicos y utilizados en
estudios específicos, y entre ellas se encuentran los coeficientes de
apertura, el recorrido relativo, el coeficiente de variación (índice de
dispersión de Pearson) y el índice de dispersión mediana.
UNIVERSIDAD DE GUAYAQUIL

MEDIDAS DE DISPERSIÓN

• Describen la cantidad de dispersión o variabilidad que se encuentra


entre los datos. Datos bastante agrupados poseen valores relativamente
pequeños; dato más dispersos tienen valores más grandes. El
agrupamiento más extenso ocurre cuando los datos carecen de
dispersión.
• Desviación estándar: (σ) mide cuánto se separan los datos. Es la
raíz cuadrada de la varianza.
• Varianza: media aritmética de los cuadrados de las diferencias
(desviaciones) entre los valores que toma la variable y su media
aritmética. Su símbolo es S2 en la muestra y σ2 en la población.
UNIVERSIDAD DE GUAYAQUIL

Resumen de Varianza

• En otras palabras, sigue estos pasos:


1. Calcula la media (el promedio de los números)
2. Por cada número resta la media y eleva el resultado
al cuadrado (la diferencia elevada al cuadrado).
3. Calcula la media de esas diferencias al cuadrado.
UNIVERSIDAD DE GUAYAQUIL

Ejemplo de Varianza
• Las alturas de los hombros de los siguientes perros son:
600mm, 470mm, 170mm, 430mm y 300mm.
UNIVERSIDAD DE GUAYAQUIL

Media
• Media: 600+470+170+430+300/5=1970/5=394

• Diferencia de cada altura con la media:


UNIVERSIDAD DE GUAYAQUIL

Varianza
• Para calcular la varianza, toma cada diferencia, elévala al
cuadrado, y haz la media:
UNIVERSIDAD DE GUAYAQUIL

Ejemplo de Desviación estándar


• Es la raíz cuadrada de la varianza.
σ = 21,704 = 147

• Veremos qué alturas están a distancia menos de la desviación


estándar (147 mm) de la media.
• Usando la desviación estándar tenemos una manera "estándar" de
saber qué es normal, o extra grande o extra pequeño.
UNIVERSIDAD DE GUAYAQUIL

Desviación Media
• En toda distribución la suma de las desviaciones de cada valor de la
variable respecto a la media es cero. Significa que la suma de las
desviaciones de las variables mayores que la media es igual y de
signo contrario a la suma de las desviaciones de las variables menores que
la media, razón por la que emplea los valores absolutos de las desviaciones
para obtener la desviación media.
• Para calcular la varianza media es necesario prescindir de los signos
negativos y tomar los valores absolutos de las desviaciones respecto a la
media aritmética. Si elevamos al cuadrado las desviaciones, logramos que
todos los resultados positivos, sumando los cuadrados de las desviaciones
y dividiendo por N, resulte el estadístico llamado varianza, base para
calcular la desviación estándar.
UNIVERSIDAD DE GUAYAQUIL

Desviación Media
• Las medidas de variabilidad absoluta o de dispersión analizan
un grupo de datos de manera más rigurosa y profunda, para
extraer información sobre qué tan dispersos resultan los datos
alrededor de la media y así verificar su comportamiento
• Esta medida de dispersión es considerada como una de las
medidas más fácil de calcular, por lo que es utilizada en la
mayoría de los casos, con el único fin de agilizar las operaciones,
de ahí que el resultado se le considere como una aproximación a
la cuantificación de la dispersión.
UNIVERSIDAD DE GUAYAQUIL
Desviación media de una muestra
• La desviación media (representada por DM) de una muestra que contiene n observaciones x1, x 2, xn, se escribe de la
siguiente manera:

• Donde:
• : media aritmética de la muestra
• Xi : i valor de la variable aleatoria x
• n : tamaño de la muestra
• Al realizar la suma de los resultados de las diferencias entre cada observación y la media, sin el valor absoluto la
respuesta sería, siempre igual a cero. Observe que la desviación media (además de incluir todos los datos) tiene en
cuenta una medida de posición, que puede ser la media o la mediana.
• Si se calcula tomando la media aritmética de los valores absolutos de las diferencias entre cada uno de los datos del
conjunto y la mediana, se llamará desviación mediana, usada para distribuciones que tienen valores extremos (muy
alejados del centro) o que contienen intervalos abiertos.
UNIVERSIDAD DE GUAYAQUIL

# de neveras # de Xi − |Xi − |
vendidas vendedores
fi
5 1 5 - 10,5 = -5,5 5,5
8 2 8 - 10,5 = -2,5 2,5
11 3 11 - 10,5 = 0,5 0,5
14 1 14 - 10,5 = 3,5 3,5
16 1 16 - 10,5 = 5,5 5,5
8 17,5
DM = 17,5/8
= 2,19
UNIVERSIDAD DE GUAYAQUIL

Recorrido
• La medida de dispersión más inmediata es el recorrido de la
distribución estadística, también llamado rango o amplitud,
que es la diferencia entre los valores extremos de los intervalos
(el mayor y el menor de todos); rango en el que están
distribuidos los demás valores del conjunto, dada una serie de
valores x1, x2, ..., xn, su recorrido es la diferencia aritmética
entre el máximo y el mínimo de estos valores:
UNIVERSIDAD DE GUAYAQUIL

Intervalos de clase

• No hay formas definidas respecto al número de clases a utilizar en una


distribución de frecuencias. Para escoger bien priman la experiencia y
la intuición. Si son pocos, se pierden detalles; si son demasiados, el
trabajo se torna dispendioso, mostrando irregularidades, no un patrón
de comportamiento. Es recomendable no formar menos de cinco y no
más de 18 intervalos de clase. La anchura de un intervalo de clase es el
número de elementos que lo forman, debe ser igual, pero no es camisa
de fuerza. En caso de no establecer esta igualdad, es posible usar
diferentes anchuras.
• Número de intervalos de clase: subconjuntos de medidas o datos. Tienen
un límite inferior (dato menor) y un límite superior (dato mayor).
UNIVERSIDAD DE GUAYAQUIL

Medidas de Dispersión
PARA DATOS AGRUPADOS
UNIVERSIDAD DE GUAYAQUIL

MEDIDAS DE
DISPERSIÓN

Fórmulas para la
varianza y desviación
estándar de datos
agrupados
UNIVERSIDAD DE GUAYAQUIL

MEDIDAS DE DISPERSIÓN
Donde:
• k: número de clases.
• fi: frecuencia absoluta de cada clase, es decir, el número de elementos que
pertenecen a dicha clase.
• xi: marca de clase. Es el punto medio del límite inferior y del límite superior.
• σ2: varianza de la población.
• σ: desviación estándar de la población.
• μ: media de la población.
• s2: varianza de la muestra.
• s: desviación estándar de la muestra.
• x̄ : media de la muestra
Tenemos siempre que fijarnos si estamos trabajando con datos que forman una
población o con datos que forman una muestra, pues las fórmulas son diferentes.
UNIVERSIDAD DE GUAYAQUIL

Desviación media para datos agrupados

• Si los datos vienen agrupados en una tabla de frecuencias, la


expresión de la desviación media es:
UNIVERSIDAD DE GUAYAQUIL

Desviación Media para datos agrupados


Donde:

• fi: frecuencia absoluta de cada valor, es decir, el número de


veces que aparece el valor en el estudio.
• xi: marca de clase. Es el punto medio del límite inferior y el
límite superior de cada intervalo.
• k: número de clases.
• D. M.: desviación media.
• x̄: media aritmética de los datos.
UNIVERSIDAD DE GUAYAQUIL

Ejemplo para datos agrupados

• Calcular la varianza y la
desviación estándar de una
población de niños a partir de
la siguiente tabla:
UNIVERSIDAD DE GUAYAQUIL

Solución:
• En este caso, nos dicen que los datos
pertenecen a una población de niños,
por lo tanto, usaremos las fórmulas de
la población.
• Primero calculamos el número de
elementos de la población N:

• Con ayuda de la tabla, calculamos la


suma de las frecuencias fi.
UNIVERSIDAD DE GUAYAQUIL

Como segundo paso:


• Calcularemos las marcas de clase.
Recordemos que la marca de clase
xi, es el punto medio del límite
inferior y el límite superior de cada
intervalo. Se calcula con la siguiente
fórmula:

• Agregamos una columna más a


nuestra tabla para la marca de clase
xi:
UNIVERSIDAD DE GUAYAQUIL

Como tercer paso:


• Calculamos la media
poblacional µ:

• Agregamos una columna


más a nuestra tabla, dónde
colocaremos los valores de
xi・fi:
UNIVERSIDAD DE GUAYAQUIL

• Aplicamos la fórmula:

• La media poblacional µ tiene un valor de 4 años.


UNIVERSIDAD DE GUAYAQUIL

Como cuarto
paso:
• Calculamos la varianza
de la población:

• Agregamos más
columnas a nuestra tabla,
buscando la forma de la
fórmula de la varianza:
UNIVERSIDAD DE GUAYAQUIL

Resultados:

• Aplicamos la fórmula de la varianza de la población:


• Recuerda que la varianza queda expresada en unidades al cuadrado,


por ello, nos queda en años al cuadrado.
• Como último paso, calculamos la desviación estándar, recordando que
es la raíz cuadrada positiva de la varianza.

• El valor de la desviación estándar poblacional σ es de 2,175 años.


UNIVERSIDAD DE GUAYAQUIL

Rango intercuartil
UNIVERSIDAD DE GUAYAQUIL

Rango intercuartílico IQR


(o rango intercuartil)
• Es una estimación estadística de la dispersión de una distribución de datos.
Consiste en la diferencia entre el tercer y el primer cuartil. Mediante esta medida
se eliminan los valores extremadamente alejados. El rango intercuartílico es
altamente recomendable cuando la medida de tendencia central utilizada es la
mediana (ya que este estadístico es insensible a posibles irregularidades en los
extremos).

• En una distribución, encontramos la mitad de los datos, el 50 %, ubicados dentro


del rango intercuartílico.
• Conforme aumente el IQR, indicará que la dispersión será mayor.
• Por lo tanto, en distribuciones con una gran asimetría, (alejadas de la distribución
normal o campana de Gauss) es más apropiado medir la tendencia central y la
dispersión mediante la mediana y el rango intercuartil respectivamente que con la
media aritmética y la desviación típica.
• Con el IQR podremos elaborar los diagramas de caja, que es un instrumento muy
visual para evaluar la dispersión de una distribución.
31
UNIVERSIDAD DE GUAYAQUIL

Ejercicio
Sea un conjunto ordenado de las edades de los veinte Edad de los socios de un club (ordenados)
sujetos (N=20) de un club. 19 21 24 28 28 29 30 32 33 34
37 40 45 45 52 53 54 56 60 63
Para calcular el rango intercuartílico, tendremos que
calcular el primer y el tercer cuartil (Q1 y Q3).
Primer cuartil
El primer cuartil será el sujeto (N+1)/4=21/4=5,25.
Como es decimal, será un número entre el X5=28 y
X6=29. Edad de los socios de un club (ordenados)
19 21 24 28 X5= 28 X6= 29 30 32 33 34
37 40 45 45 52 53 54 56 60 63
El número decimal es el 5,25, por lo que i=5 y
d=0,25. El cuartil 1 es:

32
UNIVERSIDAD DE GUAYAQUIL

Ejercicio…
Tercer cuartil
El tercer cuartil es el sujeto 3(N+1)/4=63/4=15,75. Como el número es decimal, el
cuartil estará entre X15=52 y X16=53.
Edad de los socios de un club (ordenados)
19 21 24 28 28 29 30 32 33 34
37 40 45 45 X15=52 X16=53 54 56 60 63

El número decimal es el 15,75, por lo que i=15 y d=0,75. El cuartil 3 es:

Rango intercuartílico
Una vez hemos calculado en primer y tercer cuartil, ya podemos calcular el rango
intercuartílico.

33
UNIVERSIDAD DE GUAYAQUIL

Coeficiente de Variación
Coeficiente de Variación de Pearson o
Índice de dispersión de Pearson
UNIVERSIDAD DE GUAYAQUIL

Coeficiente de Variación
• El coeficiente de variación, también denominado
como coeficiente de variación de Pearson, es una
medida estadística que nos informa acerca de la
dispersión relativa de un conjunto de datos.
• Es decir, nos informa al igual que otras medidas
de dispersión, de si una variable se mueve mucho,
poco, más o menos que otra.

35
UNIVERSIDAD DE GUAYAQUIL

Fórmula del coeficiente de variación


• Su cálculo se obtiene de dividir la desviación típica entre el valor
absoluto de la media del conjunto y por lo general se expresa en
porcentaje para su mejor comprensión.
• El coeficiente de variación se puede ver expresado con las letras CV o
r, dependiendo del manual o la fuente utilizada. Su fórmula es la
siguiente:

• X: variable sobre la que se pretenden calcular la varianza


• σx: Desviación típica de la variable X.
• | x̄ |: Es la media de la variable X en valor absoluto con x̄ ≠ 0
36
UNIVERSIDAD DE GUAYAQUIL

Fórmula del coeficiente de variación…


• El coeficiente de variación se utiliza para
comparar conjuntos de datos pertenecientes a
poblaciones distintas. Si atendemos a su fórmula,
vemos que este tiene en cuenta el valor de la
media. Por lo tanto, el coeficiente de variación nos
permite tener una medida de dispersión que
elimine las posibles distorsiones de las medias de
dos o más poblaciones.

37
UNIVERSIDAD DE GUAYAQUIL

Ejemplos de uso del coeficiente de


variación en lugar de la desviación típica
• Comparación de conjuntos de datos de diferente
dimensión
• Se quiere comprar la dispersión entre la altura de 50 alumnos
de una clase y su peso. Para comparar la altura podríamos
utilizar como unidad de medida metros y centímetros y para el
peso el kilogramo. Comparar estas dos distribuciones mediante
la desviación estándar, no tendría sentido dado que se
pretenden medir dos variables cualitativas distintas (una
medida de longitud y una de masa).

38
UNIVERSIDAD DE GUAYAQUIL

Ejemplos de uso del coeficiente de


variación en lugar de la desviación típica
• Comparar conjuntos con gran diferencia entre medias
• Medir el peso de los escarabajos y el de los hipopótamos.
• El peso de los escarabajos se mide en gramos o miligramos y el peso
de los hipopótamos por lo general se mide en toneladas. Si para
nuestra medición convertimos el peso de los escarabajos a toneladas
para que ambas poblaciones estén en la misma escala, utilizar la
desviación estándar como medida de dispersión no sería lo
adecuado. El peso medio de los escarabajos medido en toneladas
sería tan pequeño, que si utilizamos la desviación estándar, apenas
habría dispersión en los datos. Esto sería un error dado que el peso
entre las diferentes especies de escarabajos puede variar de manera
considerable.

39
UNIVERSIDAD DE GUAYAQUIL

Ejemplo de cálculo del coeficiente de


variación
• Pensemos en una población de elefantes y otra de ratones. La población de
elefantes tiene un peso medio de 5.000 kilogramos y una desviación típica de 400
kilogramos. La población de ratones tiene un peso medio de 15 gramos y una
desviación típica de 5 gramos. Si comparáramos la dispersión de ambas
poblaciones mediante la desviación típica podríamos pensar que hay mayor
dispersión para la población de elefantes que para la de los ratones.
• Sin embargo al calcular el coeficiente de variación para ambas poblaciones, nos
daríamos cuenta que es justo al contrario.
Elefantes: 400/5000=0,08
Ratones: 5/15=0,33
• Si multiplicamos ambos datos por 100, tenemos que el coeficiente de variación
para los elefantes es de apenas un 8%, mientras que el de las ratones es de un
33%. Como consecuencia de la diferencia entre las poblaciones y su peso medio,
vemos que la población con mayor dispersión, no es la que tiene una mayor
desviación típica.

40
UNIVERSIDAD DE GUAYAQUIL

En Resumen
• La estadística descriptiva es una disciplina que proporciona un conjunto de
métodos y procedimientos para recopilar información, clasificar, encontrar las
características de los datos y hacer una buena interpretación de los mismos; así,
es posible emitir una conclusión acertada respecto a un tema de interés.
• Las medidas de dispersión describen qué tan agrupados o separados están los
datos alrededor de los valores de tendencia central. Aunque existen medidas de
dispersión definidas en torno a la mediana, generalmente se definen al comparar
los datos con la media. Las medidas más usadas son la varianza, la desviación
estándar y el coeficiente de variación; también son conocidas la desviación media
y el rango.
• Los sistemas o métodos estadísticos sirven para propósitos descriptivos,
organizar y resumir datos numéricos, campos de estudio de la estadística
descriptiva. Su aplicación está en diversas áreas, como mercadotecnia,
contabilidad, control de calidad, estudios de consumidores, análisis de resultados
deportivos, administradores de instituciones, educación, organismos políticos,
médicos, entre otros.
UNIVERSIDAD DE GUAYAQUIL

ESTADÍSTICA
DESCRIPTIVA
Medidas de la forma de una Distribución:
Asimetría
Curtosis
UNIVERSIDAD DE GUAYAQUIL

GENERALIDADES

ASIMETRÍA CURTOSIS
UNIVERSIDAD DE GUAYAQUIL

COEFICIENTE.ASIMETRÍA
Esta medida nos permite identificar si los datos se
distribuyen de forma uniforme alrededor del
punto central (Media aritmética). La asimetría
presenta tres estados diferentes [Figura], cada uno
de los cuales define de forma concisa como están
distribuidos los datos respecto al eje de asimetría.
Se dice que la asimetría es positiva cuando la
mayoría de los datos se encuentran por encima del
valor de la media aritmética, la curva
es Simétrica cuando se distribuyen
aproximadamente la misma cantidad de valores en
ambos lados de la media y se conoce
como asimetría negativa cuando la mayor
cantidad de datos se aglomeran en los valores
menores que la media.
44
UNIVERSIDAD DE GUAYAQUIL

Los resultados pueden ser los siguientes:


• g1 = 0 (distribución simétrica; existe la misma concentración
de valores a la derecha y a la izquierda de la media)
• g1 > 0 (distribución asimétrica positiva; existe mayor
concentración de valores a la derecha de la media que a su
izquierda)
• g1 < 0 (distribución asimétrica negativa; existe mayor
concentración de valores a la izquierda de la media que a su
derecha)

45
UNIVERSIDAD DE GUAYAQUIL

FUNCIÓN CURTOSIS
Esta medida determina el grado
de concentración que presentan
los valores en la región central
de la distribución. Por medio
del Coeficiente de Curtosis,
podemos identificar si existe
una gran concentración de
valores (Leptocúrtica), una
concentración normal
(Mesocúrtica) ó una baja
concentración (Platicúrtica).
46
UNIVERSIDAD DE GUAYAQUIL

FUNCIÓN CURTOSIS
Descripción
• Devuelve la curtosis de un conjunto de datos. La curtosis caracteriza
la intensidad de pico o la curvatura relativa de una distribución en
comparación con la distribución normal. Una curtosis positiva indica
una distribución relativamente elevada. Una curtosis negativa indica
una distribución relativamente plana.
Sintaxis
CURTOSIS(número1, [número2], ...)
• La sintaxis de la función CURTOSIS tiene los siguientes argumentos:
• Número1, número2... Número1 es obligatorio, los demás
números son opcionales. De 1 a 255 argumentos cuya curtosis puede
calcular. También puede usar una matriz única o una referencia de
matriz en lugar de argumentos separados por comas.
47
UNIVERSIDAD DE GUAYAQUIL

Observaciones
• Los argumentos pueden ser números o nombres, matrices o
referencias que contengan números.
• Se tienen en cuenta los valores lógicos y las representaciones
textuales de números escritos directamente en la lista de
argumentos.
• Si el argumento matricial o de referencia contiene texto, valores
lógicos o celdas vacías, estos valores se pasan por alto; sin embargo,
se incluirán las celdas con el valor cero.
• Los argumentos que son valores de error o texto que no se pueden
traducir a números provocan errores.
• Si hay menos de cuatro puntos de datos, o si la desviación estándar
de la muestra es igual a cero, curtosis devuelve el #DIV/0! #¡VALOR!

48
UNIVERSIDAD DE GUAYAQUIL

FUNCIÓN CURTOSIS
Los resultados de esta fórmula se interpretan:
• (g2 = 0) la distribución es Mesocúrtica: Al igual que en la
asimetría es bastante difícil encontrar un coeficiente de
Curtosis de cero (0), por lo que se suelen aceptar los valores
cercanos (± 0.5 aprox.).
• (g2 > 0) la distribución es Leptocúrtica
• (g2 < 0) la distribución es Platicúrtica

49
UNIVERSIDAD DE GUAYAQUIL Datos
3
Ejemplo 4
5
2
• Copie los datos de ejemplo en 3
la tabla siguiente y péguelos 4
en la celda A1 de una hoja de 5
cálculo nueva de Excel. Para 6
4
que las fórmulas muestren los 7
resultados, selecciónelas, Fórmula Descripción Resultado
presione F2 y luego ENTRAR. =CURTOSIS( Curtosis del -0,15179963
A2:A11) conjunto de
Si lo necesita, puede ajustar el datos anterior
ancho de las columnas para
ver todos los datos.

50
UNIVERSIDAD DE GUAYAQUIL

Ejercicio en excel
UNIVERSIDAD DE GUAYAQUIL

Bioestadística
FUNDAMENTOS DE
BIOESTADÍSTICA

Probabilidades
• ¿Cuál es la probabilidad de aprobar Bioestadística?

• ¿Cuál es la probabilidad de no encontrarme un atasco cuando voy a


clase?

• Todos los días nos hacemos preguntas sobre probabilidad e incluso


los que hayáis visto poco de la materia en cursos anteriores, tenéis
una idea intuitiva lo suficientemente correcta para lo que
necesitamos de ella en este curso.
Nociones de probabilidad
• Frecuentista (objetiva): Probabilidad de un suceso es la frecuencia relativa (%)
de veces que ocurriría el suceso al realizar un experimento repetidas veces.

CLASIFICACION OMS
CLASIFICACION OMS

NORMAL
Frecuencia Porcentaje
Válidos NORMAL 469 46,9% OSTEOPENIA
OSTEOPENIA 467 46,7%
OSTEOPOROSIS
OSTEOPOROSIS 64 6,4%
Total 1000 100,0 0 10 20 30 40 50
Porcentaje

• Subjetiva (bayesiana): Grado de certeza que se posee sobre un suceso. Es


personal. En ambos tipos de definiciones aparece el concepto de suceso. Vamos
a ver qué son y algunas operaciones que se pueden realizar con sucesos.

Sucesos
Cuando se realiza un experimento aleatorio diversos resultados son posibles.
E espacio muestral
El conjunto de todos los resultados posibles se llama espacio muestral (E).

• Se llama suceso a un subconjunto de dichos resultados.

• Se llama suceso contrario (complementario) de un suceso A, A’, al formado


por los elementos que no están en A E espacio muestral

A
• Se llama suceso unión de A y B, AUB, al formado por los resultados
experimentales que están en A o en B (incluyendo los que están en ambos. A’

• Se llama suceso intersección de A y B, A∩B o simplemente AB, al formado por


los elementos que están en A y B
E espacio muestral
E espacio muestral E espacio muestral
A
UNIÓN INTERS.
A A
B
B B

Tema 4: Probabilidad 4 Bioestadística. U. Málaga.


Definición de probabilidad
• Se llama probabilidad a cualquier función, P, que asigna a
cada suceso A un valor numérico P(A), verificando las
siguientes reglas (axiomas)
E espacio muestral
• P(E)=1
100%

E espacio muestral
• 0≤P(A) ≤1
A
• P(AUB)=P(A)+P(B) si A∩B=Ø B
• Ø es el conjunto vacío.

• Podéis imaginar la probabilidad de un subconjunto como el


tamaño relativo con respecto al total (suceso seguro)
Tema 4: Probabilidad 5 Bioestadística. U. Málaga.
EJEMPLOS
P(A)=3/9=1/3
P(A)=?
E espacio muestral
P(B)=5/9P(B)=?
A P(AUB)=6/9=2/3
P(AUB)=?
P(AB)=?
P(AB)=2/9 P(A)=3/9=1/3
P(A)=?
B P(A’)=?
P(A’)=6/9=2/3 E espacio muestral
P(B)=2/9P(B)=?
P(B’)=4/9
P(B’)=? A
P(AUB)=3/9=1/3
P(AUB)=?
B
P(AB)=2/9
P(AB)=?
P(A’)=?
P(A’)=6/9=2/3
E espacio muestral
P(A)=3/9=1/3
P(A)=? P(B’)=7/9
P(B’)=?
P(B)=2/9P(B)=?
A P(AUB)=5/9
P(AUB)=?
B
P(AB)=0P(AB)=?
P(A’)=6/9=2/3
P(A’)=?
P(B’)=7/9
P(B’)=?
Tema 4: Probabilidad 6 Bioestadística. U. Málaga.
Probabilidad condicionada
• Se llama probabilidad de A condicionada a B, o
probabilidad de A sabiendo que pasa B:
E espacio muestral

P(AÇ B) A
P(A | B) 
P(B) B

 Error frecuentíiiiiiisimo:
 No confundáis probabilidad condicionada con intersección.
 En ambos medimos efectivamente la intersección, pero…
 En P(A∩B) con respecto a P(E)=1
 En P(A|B) con respecto a P(B)

Tema 4: Probabilidad 7 Bioestadística. U. Málaga.


EJEMPLOS
P(A)=3/9=1/3
E espacio muestral
P(B)=5/9
A P(AUB)=6/9=2/3
P(AB)=2/9 P(A)=3/9=1/3
B P(A’)=6/9=2/3 E espacio muestral
P(B)=2/9
P(B’)=4/9 A
P(AUB)=3/9=1/3
P(A|B)=? P(B|A)=2/3
P(A|B)=2/5 P(B|A)=? P(AB)=2/9
B
P(A’)=6/9=2/3
P(A)=3/9=1/3
E espacio muestral
P(B’)=7/9
P(B)=2/9 P(A|B)=? P(B|A)=2/3
P(A|B)=1 P(B|A)=?
A P(AUB)=5/9
B
P(AB)=0
P(A’)=6/9=2/3
P(B’)=7/9
P(A|B)=? P(B|A)=0
P(A|B)=0 P(B|A)=?
Tema 4: Probabilidad 8 Bioestadística. U. Málaga.
Intuir la probabilidad condicionada
A A

B
B

P(A) = 0,25 P(A) = 0,25


P(B) = 0,10 P(B) = 0,10
P(A∩B) = 0,10 P(A∩B) = 0,08

¿Probabilidad de A sabiendo que ha pasado B?


P(A|B)=1 P(A|B)=0,8
Tema 4: Probabilidad 9 Bioestadística. U. Málaga.
Intuir la probabilidad condicionada
A A

B
B

P(A) = 0,25 P(A) = 0,25


P(B) = 0,10 P(B) = 0,10
P(A∩B) = 0,005 P(A∩B) = 0
¿Probabilidad de A sabiendo que ha pasado B?
P(A|B)=0,05 P(A|B)=0
Tema 4: Probabilidad 10 Bioestadística. U. Málaga.
Algunas reglas de cálculo prácticas
• Cualquier problema de probabilidad puede resolverse
en teoría mediante aplicación de los axiomas. Sin
embargo, es más cómodo conocer algunas reglas de
cálculo:

• P(A’) = 1 - P(A)

• P(AUB) = P(A) + P(B) - P(AB)

• P(AB) = P(A) P(B|A)

= P(B) P(A|B)

• Prob. de que pasen A y B es la prob. de A y que también pase B


sabiendo que pasó A.
Tema 4: Probabilidad 11 Bioestadística. U. Málaga.
Recuento
MENOPAUSIA
Ejemplo (I) CLASIFICACION NORMAL
NO
189
SI
280
Total
469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000

• Se ha repetido en 1000 ocasiones el experimento de elegir a una


mujer de una población muy grande. El resultado está en la tabla.
• ¿Cuál es la probabilidad de que una mujer tenga
osteoporosis?
• P(Osteoporosis)=64/1000=0,064=6,4%
• Noción frecuentista de probabilidad
• ¿Cuál es la probabilidad de que una mujer no tenga
osteoporosis?
• P(No Osteoporosis)=1-P(Osteoporsis)=1-64/1000=0,936=93,6%

Tema 4: Probabilidad 12 Bioestadística. U. Málaga.


Recuento

Ejemplo (II) MENOPAUSIA


NO SI Total
CLASIFICACION NORMAL 189 280 469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000
• ¿Probabilidad de tener osteopenia u osteoporosis?
• P(OsteopeniaUOsteoporosis)=P(Osteopenia)+P(Osteoporosis)-
P(Osteopenia∩Osteoporosis)=467/1000+64/1000=0,531
• Son sucesos disjuntos
• Osteopenia ∩ Osteoporosis=Ø

• ¿Probabilidad de tener osteoporosis o menopausia?


• P(OsteoporosisUMenopausia)=P(Osteoporosis)+P(Menopausia)-
P(Osteoporosis ∩ Menopausia)=64/1000+697/1000-58/1000=0,703
• No son sucesos disjuntos
• ¿Probabilidad de una mujer normal?
• P(Normal)=469/1000=0,469
• P(Normal)=1-P(Normal’)=1-P(OsteopeniaUOsteoporosis) =1-0,531=0,469
Tema 4: Probabilidad 13 Bioestadística. U. Málaga.
Recuento

Ejemplo (III) MENOPAUSIA


NO SI Total
CLASIFICACION NORMAL 189 280 469
OMS OSTEOPENIA 108 359 467
OSTEOPOROSIS 6 58 64
Total 303 697 1000

• Si es menopáusica… ¿probabilidad de osteoporosis?


• P(Osteoporosis|Menopausia)=58/697=0,098

• ¿Probabilidad de menopausia y osteoporosis?


• P(Menop ∩ Osteoporosis) = 58/1000=0,058

• Otra forma:

P( Menop  Osteoporosis )  P( Menop)  P(Osteoporosis | Menop) 


697 58
   58 / 1000  0,058
1000 697
Tema 4: Probabilidad 14 Bioestadística. U. Málaga.
SEMANA 1

Tabla de contingencia
En estadística las tablas de contingencia se
emplean para registrar y analizar la asociación
entre dos o más variables, habitualmente de
naturaleza cualitativa (nominales u ordinales).

Se sabe que la información proporcionada por una tabla


bidimensional puede expresarse en términos diversos:
frecuencias absolutas conjuntas, relativas conjuntas,
condicionadas de una variable a valores de la otra. Además
puede derivarse el comportamiento unidimensional de las
variables implicadas mediante las distribuciones marginales.

15
donde nij expresa la frecuencia
absoluta observada en las
modalidades Xi e Yj refleja la
distribución conjunta de X e Y.

La misma tabla puede expresarse en


frecuencias relativas o proporciones sin
más que dividir cada casilla nij por el total
N. ∑∑= = = k j p i i j

16
Las tablas de contingencia hemos dicho que estudia relaciones
entre dos variables cualitativas

Si queremos estudiar la relación entre el color de ojos y el color del pelo.

La variable X: Color de La variable Y: Color de


ojos pelo
x1: ojos claros y1: pelo claro
x2: ojos oscuros y2: pelo oscuro
¿Cómo construir una tabla de contingencia?

EJEMPLO. En un hospital
psiquiátrico se hace un
estudio en el que participan Variable X: Tipo de tratamiento
30 pacientes con dos tipos de x1: antiguo
problemas neuronales (altos y x2: nuevo
bajos), queremos comparar Variable Y: Problemas neuronales
y1: altos
un fármaco nuevo con otro
y2: bajos
antiguo. ¿Cómo podemos
representar esta situación?
¿Cómo podemos ver si el
tratamiento nuevo es
preferible al anterior?

18
Los pacientes nos dijeron el tipo de problema y que fármaco tomaban

Sujeto1 (alto, antiguo), Sujeto2 (alto, antiguo),


Sujeto3 (bajo, antiguo), Sujeto4 (alto, nuevo), Sujeto5 (alto, nuevo)…

Contamos cuantos hay del mismo tipo, es decir:

a = Problemas altos y tratamiento antiguo = 10


b = Problemas bajos y tratamiento antiguo = 4
c = Problemas altos y tratamiento nuevo = 5
d = Problemas bajos y tratamiento nuevo = 11
19
TABLA DE CONTINGENCIA

Tratamiento (X) Problemas neuronales (Y)


Altos (y1) Bajos (y2)
Antiguo (x1) a = 10 b=4
Nuevo (x2) c=5 d = 11

Estos 4 valores calculados llamaremos frecuencias absolutas dobles


(f), que nos dicen el número de sujetos que hay, con valores
específicos de las variables
20
FRECUENCIAS MARGINALES Y DISTRIBUCIÓN MARGINAL

En la tabla de las frecuencias absolutas dobles


anterior, añadimos una columna a la derecha y una
fila debajo, que llamaremos “TOTAL”, en ambos
casos.

La columna del TOTAL llamaremos distribución marginal de X


Cada valor llamaremos frecuencia marginal de X
La fila del TOTAL llamaremos distribución marginal de Y
Cada valor llamaremos frecuencia marginal de Y

¿Cómo se obtiene?
Sumando la fila para la distribución marginal de X
Sumando la columna para la distribución marginal
de Y
EJEMPLO
Tratamiento Problemas neuronales TOTAL
Altos Bajos
Antiguo 10 4 10+4 = 14
(f1.)
Nuevo 5 11 5+11= 16
(f2.)
TOTAL 10+5 = 15 (f.1) 4+11 = 15 (f.2) 30 (n)

El valor n, se obtiene sumando cualquier distribución


marginal, representa el número total de sujetos, que como
recordamos son 30 pacientes.
FRECUENCIAS CONDICIONALES Y DISTRIBUCIÓN CONDICIONAL

Vamos a conocer estos términos con nuestro ejemplo

Se trabaja con la tabla de frecuencias absolutas, es decir:

Tratamiento Problemas neuronales TOTAL


Altos Bajos
Antiguo 10 (f11) 4 (f12) 14 (f1.)
Nuevo 5 (f21) 11 (f22) 16 (f2.)
TOTAL 15 (f.1) 15 (f.2) 30 (n)
Calculemos una
Podemos distribución de Y
obtener la condicionada por
distribución X, esto implica
calcular:
de X La frecuencia
condicionada condicional de y1
por y1 ó y2 Podemos condicionada por
x2
obtener la La frecuencia
distribución de condicional de y2
Y condicionada condicionada por
por x1 ó x2 x2
Los datos que nos interesan son:

Tratamiento Problemas neuronales (Y) TOTAL


Altos (y1) Bajos (y2)
Nuevo (x2) 5 11 16

Las frecuencias condicionales son:

Tratamiento Problemas neuronales (Y) TOTAL


Altos (y1) Bajos (y2)
Nuevo (x2) 5/16=0,3125 11/16=0,6875 1
(h(y1/x2)) (h(y2/x2))
La interpretación

Tratamiento Problemas neuronales (Y) TOTAL


Altos (y1) Bajos (y2)
Nuevo (x2) 5/16=0,3125 11/16=0,6875 1
(h(y1/x2)) (h(y2/x2))

- El 31,25% de los pacientes con el tratamiento


nuevo, tienen problemas neuronales altos
- El 68,75% de los pacientes con el tratamiento
nuevo, tienen problemas neuronales bajos
Muestreo Probabilístico
Es requisito que todos y cada uno de los elementos
de la población tengan la misma probabilidad de
ser seleccionados (azar)

Se debe tener disponible un listado completo de


todos los elementos de la población, a esto se le
llama MARCO DE MUESTREO.

27
TIPOS DE MUESTREO
ALEATORIO SIMPLE (Muestreo Simple al Azar)

Cada sujeto tiene una probabilidad igual de ser


seleccionado para el estudio. Se necesita una lista
numerada de las unidades de la población que se quiere
muestrear.

Ejemplo :
Cobertura de la vacuna anti- sarampión entre 1200
Pasos : niños
◦ Determinar el tamaño de la muestra de una escuela X :
◦ Numerar los individuos de 1 a n ◦ Muestra = 60
◦ Tirar unidades al azar (probabilidad igual) ◦ Hacer una lista de todos los niños
◦ Numerarlos de 1 a 1200
◦ Selección aleatoria de 60 números

28
ALEATORIO SISTEMÁTICO
Ejemplo :
• Población (N) : 12,000
• Muestra requerida (n) : 600
• Calcular el intervalo de muestreo (k) = 12,000 / 600 = 20
• Escoger el 1er numero al azar [1 - 20]
• Añadir k para escoger la siguiente unidad y así sucesivamente hasta
completar n.

1er # = 12
k= 20

29
Muestreo Estratificado.

Cuando la muestra incluye subgrupos representativos


(estratos) de los elementos de estudio con características
específicas: urbano, rural, nivel de instrucción, año
académico, carrera, sexo, grupo étnico, edad, paridad etc.
En cada estrato para obtener el tamaño de la muestra se
puede utilizar el muestreo aleatorio o sistemático.

Ejemplo: Estudiantes de la Carrera


de Medicina 2005 I año =20% II
año=18% III año =15% IV año=30%

30
Muestreo por Racimos (Cluster o Conglomerado)
Conglomerados: son unidades geográficas (distritos, Limitantes: financieras, tiempo, geografía y otros
pueblos, organizaciones, clínicas) obstáculos. Se reducen costos, tiempo y energía al
Facultad de Ciencias Económicas considerar que muchas veces las unidades de análisis se
Facultad de Ciencias Jurídicas y Sociales encuentran encapsuladas o encerradas en determinados
Facultad de Química y Farmacia lugares físicos o geográficos: Conglomerados.

Unidad de análisis: sujeto o sujetos


Unidad Muestral en este caso: conglomerado
a través del cual se logra el acceso a la unidad
de análisis.
Selección en 2 etapas:
◦ Los racimos o conglomerados
◦ En los racimos se seleccionan a los sujetos a
ser medidos. Población, Localidades,
Viviendas. Croquis.

31
Video probabilidades
https://www.youtube.com/watch?v=2XWejSaiw
NE

https://www.youtube.com/watch?v=xYco67hkE
Cs

Tablas de contingencia
https://www.youtube.com/watch?v=CEWJZxFp
C8w&t=205s

https://www.youtube.com/watch?v=swOYG7bg
3Lk

Muestreos

https://www.youtube.com/watch?v=MptL2R3o
11Y

https://www.youtube.com/watch?v=Z39oSkQ1i
dE 32
UNIVERSIDAD DE GUAYAQUIL

Bioestadística
FUNDAMENTOS DE
BIOESTADÍSTICA

La curva normal

Ing. Profesor
Ing. Profesor
Ing. Profesor
Ing. Profesor 4
Ing. Profesor 5
PROPIEDADES DE LA CURVA NORMAL

• Si se conoce que la distribución normal estándar


tiene esas propiedades se pueden calcular las
siguientes cualidades.
– La probabilidad entre -1 desviación estandar (σ) y +1 σ es
de 0.68 o sea que el 68% de los datos están en ese
intervalo
– La probabilidad entre -2 σ y +2 σ es de 0.96 o sea que el
96% de los datos están en ese intervalo
– La probabilidad entre -3 σ y +3 σ es de 0.99 o sea de 99%
de los datos están en ese intervalo

Ing. Profesor 6
• La probabilidad de que un valor caiga entre 0 y
1.35 σ
– Es de 0.4115
• La probabilidad de que un valor caiga entre -
1.35 y +1.35 σ
– Es de 0.823
• La probabilidad de que un valor sea superior a
1.35 σ es de 0.0885
• Que es la misma probabilidad de un valor menor
a -1.35

Ing. Profesor 7
• Basado en lo anterior
– El 95% de los datos cae en el intervalo
comprendido entre -1.96 σ y + 1.96 σ
– El 99% de los datos cae en el intervalo entre -2.58
σ y +2.58 σ
• Esto significa que
– Un valor cualquiera tendrá 95% de probabilidad
de caer en el intervalo de 1.96 σ y -1.96 σ
– Un valor cualquiera tendrá 99% de probabilidad
de caer entre 2.58 σ y -2.58 σ
Ing. Profesor 8
IMPORTANCIA DE LA CURVA NORMAL

1.Muchos fenómenos que podemos medir tanto en las ciencias exactas


como las sociales de asemejan en su frecuencia a esta distribución.
2.La distribución normal tiene ciertas propiedades matemáticas que nos
permiten predecir qué proporción de la población (estadística) caerá dentro
de cierto rango si la variable tiene distribución normal.
3.Varios tests de significanza de diferencia entre conjuntos de datos
presumen que los datos del conjunto tiene una distribución normal.

Ing. Profesor 9
MUESTREO DE LA POBLACIÓN

Ing. Profesor 10
El muestreo de población es un proceso que consiste en tomar
un subgrupo de sujetos que sea representativo de toda la
población. La muestra debe tener un tamaño suficiente como
para garantizar un análisis estadístico.

Ing. Profesor 11
TIPOS DE MUESTREO.

Ing. Profesor 12
• Probabilístico
• Aleatorio Simple
• Estratificado
• Sistemático
• Por Conglomerado
• No Probabilístico
• Por conveniencia
• Por cuotas

Ing. Profesor 13
TIPOS DE MUESTREO.

PROBABILISTICO NO PROBABILISTICO

Es requisito que todos y c/u de los elementos


de la población tengan la misma
probabilidad de ser seleccionados (azar) Se No se conoce la probabilidad que tienen los
debe tener disponible un listado completo de diferentes elementos de la población de
todos los elementos de la población, a esto se estudio de ser seleccionados.
le llama MARCO DE MUESTREO.

Ing. Profesor 14
Ing. Profesor 15
Ing. Profesor 16
• La forma de la curva de la distribución depende de sus dos
CARACTERÍSTICAS parámetros: la media y la desviación estándar.
• La media indica la posición de la campana, la gráfica se
desplaza a lo largo del eje x.
DE LA CURVA • A mayor desviación la curva será más "plana", dado que la
distribución, en este caso, presenta una mayor variabilidad.
NORMAL • La curva es simétrica respecto a la media.

Ing. Profesor 17
Característica de la curva normal

Es la idealización de un polígono de
frecuencias con tendencia central para
una gran cantidad de casos. Por esta Tiene forma de campana: no tiene
razón tiene la apariencia de una curva otras formas similares como puede ser
y no de una línea quebrada, ya que el la forma de herradura o la forma de
polígono de frecuencias tiene infinito una campana invertida.
número de lados.

Ing. Profesor 18
Es simétrica respecto de un eje vertical, lo que las diferencia de otras curvas como por ejemplo la
hipérbole equilátera. La simetría de la curva normal implica que la media aritmética, la mediana y
el moda coinciden en el punto central.

Ing. Profesor 19
La curva normal puede adoptar Los puntos de inflexión (donde la curva
diferentes formas: cambia de cóncava a convexa y viceversa)
se encuentran en los puntos
• Mesocúrtica correspondientes a la media aritmética
• platicúrtica o leptocúrtica. más/menos un desvío estándar.

Ing. Profesor 20
Hay muchas posibilidades de curvas normales, dependiendo de cuáles sean los
valores de las medias aritméticas y los desvíos estándar. La más importante es
aquella que tiene como media aritmética 0 (cero) y como desvío estándar 1 (la
unidad). En este caso, la curva normal se designa como distribución o curva
normal estándar o estandarizada.

Ing. Profesor 21
CÁLCULOS DE ÁREAS BAJO LA CURVA
Probabilidad de Ocurrencia

Supongamos que frente a una determinación de glucosa en la sangre


tengamos que definir si este valor es normal o no.

Aceptemos que la glucosa sanguínea tiene una distribución normal con


promedio 83 y desviación estándar 4

Supongamos un paciente con glucosa de 90, para determinar si es habitual


tener ese valor , o superior, debemos conocer la probabilidad con que esto
ocurre

Ing. Profesor 22
Probabilidad de Ocurrencia

• Para calcular el área bajo la curva, lo cual corresponde a la probabilidad de ocurrencia,


se han construido tablas de áreas de la normal.

• Esta tabla se trabajo, con el concepto de


curva normal estandarizada => media = 0 y S = 1

• Para poder usar estas tabulaciones es necesario transformar la variable original en que
están todos los datos de manera que su promedio y su desviación estándar tengan esos
valores.

Ing. Profesor 23
ESTANDARIZACIÓN DE LAS VARIABLES

• Para calcular probabilidades con variables que siguen una distribución normal
se usan tablas

• Pero sería imposible tener una tabla para cada posible distribución normal,

• Solamente tenemos la tabla de la distribución normal estándar.

• Necesitaremos, pues, ser capaces de transformar las variables X "normales" N(µ,s)

• En variables Z que sigan una distribución normal estándar N(0,1).

• Este proceso se llama tipificación o estandarización de la variable.

Ing. Profesor 24
PUNTAJE “Z”
 La variable transformada se llama variable normal
estándar y se símbolizará por “z”

 Las puntuaciones “z” son transformaciones que se


hacen a los valores observados, con el propósito de
analizar su distancia respecto a la media en unidades de
desviación estándar.

z = x – promedio
D.E.

Ing. Profesor 25
VEAMOS EL EJEMPLO DE LA GLUCOSA

z = x – promedio
D.E. 90 se encuentra a
z = 90 – 83 = 7 = 1,75 1,75 S del promedio
4 4

Este valor se busca en la Tabla de puntajes “z”, para determinar la


probabilidad de encontrar glicemias iguales o superior a 90 mg por 100 ml de
sangre.

El valor encontrado en la Tabla es 0,0401, lo que significa que es probable que


haya un 4,01% de individuos sanos con valores iguales o superior a 90 mg por 100
ml de sangre.
Ing. Profesor 26
VEAMOS OTRO EJEMPLO:

Valor observado: 50
Promedio: 60
Desviación estándar: 10

z = 50 – 60 = -10 = -1
10 10

Podemos decir que el valor “50” está localizado a una desviación


estándar por debajo de la media de la distribución .

El valor “30” estará a tres desviaciones estándar por debajo de la


media.

Ing. Profesor 27
TABLA DE
LA CURVA
NORMAL

Ing. Profesor 28
Ing. Profesor 29
Ing. Profesor 30
VIDEOS

• La curva normal

https://www.youtube.com/watch?v=5q5UOSGzPmw

• Muestreo de la población

https://www.youtube.com/watch?v=zGtk_Ii9VBs

• Características de la curva normal

https://youtu.be/E7T6PKZNxCc

• Calcular áreas bajo la curva

https://www.youtube.com/watch?v=tgsvUco7rkI

Ing. Profesor 31
UNIVERSIDAD DE GUAYAQUIL

Como utilizar la curva normal para aproximar probabilidades

Esta distribución es un modelo matemático que


permite determinar probabilidades de ocurrencia
para distintos valores de la variable. Así, para
determinar la probabilidad de encontrar un valor de
la variable que sea igual o inferior a un cierto valor xi,
conociendo el promedio y la varianza de un conjunto
de datos, se debe reemplazar estos valores (media,
varianza y xi) en la fórmula matemática del modelo.

Ing. Profesor 1
UNIVERSIDAD DE GUAYAQUIL

En el gráfico, el área sombreada corresponde a la probabilidad de


encontrar un valor de la variable que sea igual o inferior a un
valor dado

Ing. Profesor 2
UNIVERSIDAD DE GUAYAQUIL

EJEMPLO

Se puede calcular las probabilidades de

sucesos que siguen una distribución

normal

La altura media de los arboles de Pedro

es de 4m y la desviación típica es 0,5 m

Sea x la altura del manzano.

Ing. Profesor 3
UNIVERSIDAD DE GUAYAQUIL

La probabilidad de que un manzano mida menos de 4m es

P(x  4) = 50% . Además, P ( x  4,5) = 50% + 34% = 84% o 0,84


Ing. Profesor 4
UNIVERSIDAD DE GUAYAQUIL

El valor esperado se halla multiplicando la cantidad

de elementos de la muestra por la probabilidad

Por ejemplo, si eligiéramos 100 manzanos

aleatoriamente el valor esperado de árboles que

medirán menos de 4 m = 100 x 0,5 = 50

Ing. Profesor 5
UNIVERSIDAD DE GUAYAQUIL

Bioestadística
FUNDAMENTOS DE
BIOESTADÍSTICA

Introducción a los
programas
estadististicos

Ing. Profesor
UNIVERSIDAD DE GUAYAQUIL

Un programa estadístico paquete estadístico es un conjunto de programas


informáticos específicamente diseñados para el análisis estadístico de datos con el
objetivo de resolver problemas de estadística descriptiva e inferencial o ambos .

Ing. Profesor 7
UNIVERSIDAD DE GUAYAQUIL

Se puede decir que los paquetes o programas


estadísticos son muy útiles al momento de
hacer cálculos estadísticos pero ,los usuarios
que solo se aproximan si circunstancialmente a
problemas de tipo estadístico y que solo buscan
soluciones poco sofisticadas y puntuales deben
reexaminar las rutinas estadísticas de cualquier
hoja de cálculo .

Ing. Profesor 8
UNIVERSIDAD DE GUAYAQUIL

Ventajas

• Puede calcular decenas de modelos de regresión en un tiempo muy corto y después


quedarse con el más apropiado de ellos.
• En problemas de investigación de operaciones un programa estadístico es capaz de realizar
miles de iteraciones por segundo de un algoritmo en el que una persona tardaría varios
minutos en cada una de ellas.
• Asimismo, es capaz de elegir entre miles de resultados posibles cuál de todos ellos es el
óptimo. Básicamente, lo que permiten es resolver problemas de estadística aplicada por
fuerza bruta o por probar miles de combinaciones para quedarse finalmente con la que se
crea que es la mejor

Ing. Profesor 9
UNIVERSIDAD DE GUAYAQUIL

DESVENTAJAS

• En los programas más complejos se necesita tener conocimientos de


programación, así como para realizar los cálculos más laboriosos.
• Por ejemplo si se desea realizar una operación dada a una columna concreta, lo
más frecuente es que se pueda hacer esto por ventanas
• Sin embargo, si deseamos hacer esto mismo para todas las columnas de nuestro
documento, que pueden ser centenares, es posible que necesitemos programar
un bucle en la sintaxis del programa.

Ing. Profesor 10
UNIVERSIDAD DE GUAYAQUIL

Epi Info

es un software estadístico que se utiliza en


todo el mundo para la evaluación rápida de
los brotes de enfermedades; sistemas de
vigilancia de enfermedades de tamaño medio;
como componentes especiales integrados con
otros grandes sistemas de información de
salud pública a nivel de empresa o de escala; y
en la formación continua de los profesionales
de la salud pública de aprendizaje de la
ciencia de la epidemiología , las herramientas
y técnicas

Ing. Profesor 11
UNIVERSIDAD DE GUAYAQUIL

CARACTERISTICAS
• Máxima compatibilidad con los estándares de la industria Microsoft Access, SQL,
Dbase, Fox Pro, ODBC (estándar de acceso a Bases de datos).
• Navegación de internet
• Regresión logística y análisis de supervivencia
• Puede utilizarse para crear sistemas o aplicaciones de uso
• Diseño Rápido de cuestionarios
• Analizar de otros programas
• No necesita muchos recursos para ejecutarse
• No se necesita pagar licencia
• Es un programa creado por profesionales de la salud
Ing. Profesor 12
UNIVERSIDAD DE GUAYAQUIL

VENTAJAS
• Enfocado a la documentación de datos: etiquetas, notas, etc.
• Control de la calidad: doble entrada, control de consistencia interna, fácil
programación de valores legales .
• Seguridad de datos y confidencialidad.
• Ampliable por el usuario: funciones de control definidas por el usuario, llamada a
programas externos.
• Compatibilidad: open standard con Epi Info 6.
• No inferencias con el sistema operativo: no depende del registro; puede funcionar
desde una llave USB.

Ing. Profesor 13
UNIVERSIDAD DE GUAYAQUIL

Desventajas

• No se incluyen técnicas avanzadas de gran utilidad como: modelos de regresión


logística, métodos de estimación de parámetros
• No posee métodos multivariados
• Debilidad en la visualización de datos multivariados
• No permite la imputación de valores perdidos en el análisis, los elimina
automáticamente
• La técnica de meta análisis no está incorporada en el sistema

Ing. Profesor 14
SPSS
SPSS es un software para editar y analizar todo tipo de datos. Estos
datos pueden provenir básicamente de cualquier fuente: investigación
científica, una base de datos de clientes, Google Analytics o incluso los
archivos de registro del servidor de un sitio web. SPSS puede abrir
todos los formatos de archivo que se utilizan comúnmente para datos
estructurados como

• hojas de cálculo de MS Excel u OpenOffice


• archivos de texto sin formato (.txt o .csv)
• bases de datos relacionales (SQL)
• Stata y SAS.
Ing. Profesor
Vista de datos DE SPSS
• Después de abrir los datos, SPSS los muestra de una hoja de
cálculo-como se muestra en la captura de pantalla siguiente

Esta hoja -llamada vista de datos- siempre muestra nuestros valores de datos.

Ing. Profesor 16
Vista de variables SPSS

Un archivo de datos SPSS siempre tiene una segunda hoja denominada vista de variable.
Muestra los metadatos asociados a los datos. Los metadatos son información sobre el
significado de las variables y los valores de datos. Esto se conoce generalmente como el
"código", pero en SPSS se llama el diccionario.

Ing. Profesor 17
Análisis de datos
• Para que SPSS pueda abrir todo tipo de datos y mostrarlos -y sus metadatos- en dos hojas en su ventana Editor de datos. Entonces,
¿cómo analizar sus datos en SPSS? Bueno, una opción es usar las elaboradas opciones de menú de SPSS.
• Por ejemplo, si nuestros datos contienen una variable que contiene los ingresos de los encuestados durante 2010, podemos
calcular el ingreso promedio navegando a Descriptive Statistics como se muestra a continuación.

Al hacerlo, se abre un cuadro de diálogo en el


que seleccionamos una o varias variables y una o
varias estadísticas que nos gustaría inspeccionar.

Ing. Profesor 18
Informes de SPSS
• Los elementos de salida de SPSS, normalmente tablas y gráficos, se copian fácilmente en otros
programas. Por ejemplo, muchos usuarios de SPSS utilizan un procesador de textos como MS
Word, OpenOffice o GoogleDocs para generar informes. Las tablas normalmente se copian en
formato de texto enriquecido, lo que significa que conservarán su estilo, como fuentes y bordes. La
captura de pantalla siguiente ilustra el resultado.

Ing. Profesor 19
SPSS - Visión general Características
principales
Crear tablas y gráficos
que contengan
recuentos de
Abrir archivos de frecuencias o
datos,ya sea en el estadísticas de Guardar datos y
propio formato de resumen sobre salidas en una amplia
archivo de SPSS o en (grupos de) casos y variedad de formatos
muchos otros; variables. de archivo.

Editar datos como Estadísticas


sumas y medias inferenciales como
informáticas sobre ANOVA, regresión y
columnas o filas de análisis de factores.
datos. SPSS también
tiene opciones
excepcionales para
operaciones más
complejas.

Ing. Profesor 20
Estadísticas Inferenciales

• pruebas t;
• pruebas de chi-cuadrado;
• Anova;
• correlaciones y otras medidas de asociación;
• Regresión;
SPSS contiene todas las
• pruebas no paramétricas;
pruebas estadísticas
básicas y análisis • análisis de factores;
multivariados, como • análisis de clústeres.

Ing. Profesor 21
Guardar datos y salidas

Las opciones de salida son aún más


elaboradas: los gráficos a menudo se copian
Los datos SPSS se como imágenes en formato .png. Para las
pueden guardar como tablas, el formato de texto enriquecido se
una variedad de utiliza a menudo porque conserva el diseño,
las fuentes y los bordes de las tablas.
formatos de archivo, Además de copiar y pegar elementos de
• MS Excel; salida individuales, todos los elementos de
• texto sin formato (.txt o salida se pueden exportar de una sola vez a
.csv); .pdf, HTML, MS Word y muchos otros
• Stata; formatos de archivo. Una excelente
• Sas. estrategia para escribir un informe es crear
un archivo de salida SPSS con tablas y
gráficos bien peinados.

Ing. Profesor 22
SPSS
• Es uno de los programas estadísticos más conocidos teniendo en cuenta su capacidad para
trabajar con grandes bases de datos y una sencilla interfaz para la mayoría de los análisis.
En la versión 12 de SPSS se podían realizar análisis con dos millones de registros y 250
000 variables. El programa consiste en un módulo de base y módulos anexos que se han
ido actualizando constantemente con nuevos procedimientos estadísticos. Cada uno de
estos módulos se compra por separado.
• Actualmente, compite no sólo con programas licenciados como SAS, MATLAB, Statistica,
Stata, sino también con software de código abierto y libre, de los cuales el más destacado
es el Lenguaje R. Recientemente ha sido desarrollado un paquete libre llamado PSPP, con
una interfaz llamada PSPPire que ha sido compilada para diversos sistemas operativos
como Linux, además de versiones para Windows y macOS. Este último paquete pretende
ser un clon de código abierto que emule todas las posibilidades del SPSS.

Ing. Profesor 23
RSTUDIO
¿Qué es RStudio?

• Este software es una interfase - entre otras existentes como


RCommander - que permite contar con una interacción más
fluida con el programa R. Básicamente se trata de una máscara
para visualizar el software que tiene como principales ventajas
• (1) el orden
• (2) la visualización de los procesos
Que son llevados a cabo con R, todo de manera simultánea.

Ing. Profesor 24
Se pueden ver 4 ventanas, además de la barra de opciones en la parte superior.

Ventana (1): es el editor de sintaxis: se trata del


lugar donde editamos la sintaxis para
posteriormente ejecutarla. Al escribir allí no
sucederá nada, a no ser que se apriete algún
botón para ejecutar los comandos o la tecla
ctrl+enter.

Ventana (2): es el “entorno de trabajo” del


programa: en este lugar se muestra el conjunto de
datos y los “objetos” (resultados, variables,
gráficos, etc.) que se almacenan al ejecutar
diferentes análisis.

Ventana (3) tiene varias sub pestañas: (i) la pestaña files permite ver el historial de archivos trabajados con el programa; (ii)
la pestaña plots permite visualizar los gráficos que se generen; (iii) la pestaña packages permite ver los paquetes
descargados y guardados en el disco duro; (iv) la ventana help permite acceder al CRAN - Comprehensive R Archive
Network (siempre que se cuente con conexión a Internet), página oficial del software que ofrece diferentes recursos para el
programa; (v) la ventana viewer muestra los resultados al construir reportes mediante funcionalidades tipo rmarkdown.

Ventana (4): es la consola. Corresponde a lo que sería el software R en su versión básica. Allí el software ejecuta las
operaciones realizadas desde el editor de sintaxis.
Ing. Profesor 25
VIDEO PARA COMPLEMENTAR:
RStudio
• https://youtu.be/k3tiNvTmug8
• https://youtu.be/skPzCkvr8Cw

Ing. Profesor 26
REFERENCIAS
• https://es.wikipedia.org/wiki/SPSS
• https://www.spss-tutorials.com/spss-what-is-it/
• https://bookdown.org/gboccardo/manual-ED-UCH/uso-
basico-de-rstudio.html

Ing. Profesor 27
UNIVERSIDAD DE GUAYAQUIL

Bioestadística
FUNDAMENTOS DE
BIOESTADÍSTICA

Probabilidades

Ing. Profesor
TABLAS DE PROBABILIDAD
Una tabla de probabilidad es una matriz cuadrada
que contiene las probabilidades calculadas dada
una función de distribución de probabilidad y un
número determinado por el cuál se quiere saber
la probabilidad.

• Una tabla de probabilidad contiene en la primera


columna las unidades y en la cabecera los decimales y en
su interior la probabilidad calculada a partir de una
función de probabilidad.

• También se las conoce como tablas de distribución o


tablas estadísticas
Ing. Profesor
Estructura de la tabla
• La cabecera y la primera columna hacen referencia al mismo
concepto que es el número determinado por el cual queremos
buscar la probabilidad. Todas las otras columnas y filas
contienen probabilidades.

Generalización de una tabla de probabilidad

Ing. Profesor 3
• No todas las tablas de probabilidad serán iguales, su forma va
cambiando pero su contenido sigue siendo el mismo.
• Es importante fijarse bien en las cabeceras de la tabla para evitar la
confusión.

Existen tablas que contienen la


probabilidad acumulada y otras tablas
que contienen la probabilidad de las colas
de la distribución. Esto se puede ver en el
dibujo que normalmente aparece encima
de la tabla. En este caso, el dibujo
pertenece a una distribución normal.

Ing. Profesor 4
Utilidad de las tablas de probabilidad
• Las tablas de probabilidad sirven para saber la probabilidad de
que un determinado suceso ocurra sin necesidad de hacer
cálculos complejos.

• El procedimiento que ahorran las tablas de probabilidad es


tener que calcular la probabilidad dado un número
determinado a partir de la función de distribución de
probabilidad.

Ing. Profesor 5
INDEPENDENCIA

• En teoría de probabilidades, se dice que dos sucesos aleatorios


son independientes entre sí cuando la probabilidad de cada uno
de ellos no está influida porque el otro suceso ocurra o no, es
decir, cuando ambos sucesos no están relacionados.

Entonces, dos sucesos son independientes si la ocurrencia


de uno de ellos no modifica la probabilidad del otro.
Matemáticamente P(A∣B)=P(A)P(A∣B)=P(A) y P(B∣A)=P(
B)P(B∣A)=P(B).
En consecuencia, si dos sucesos son independientes
P(A∩B)=P(A)⋅P(B)
Ing. Profesor 6
Probabilidad de eventos independientes
Ejemplos
• Se lanza un dado dos veces. ¿Cuál es la probabilidad de que en el primer
lanzamiento resulte 3 y en el segundo lanzamiento un número impar?

• Solución:
Sean los eventos:
• A ≡Obtener un 3. De seis números posibles, hay un solo 3 ⇒P(A) =1/6
• B ≡Obtener un número impar. De seis números posibles, tenemos tres
impares⇒ P(B) =3/6 =1/2

• Los eventos A y B son independientes, por lo tanto, P(A∩B) = P(A) •P(B)=


(1/6)(1/2)= 1/12

Ing. Profesor 7
• Una persona muy distraída ha extraviado el número telefónico de su mejor amigo, pero logra
averiguar las 5 cifras intermedias de un total de 7. Sabiendo además que el primer dígito debe ser
par, distinto de 0 y que la última cifra es impar mayor que 4, ¿cuál es la probabilidad de acertar al
número de teléfono de su amigo?
• Solución:
Solo debe adivinar dos dígitos, el primero y el último. Las posibilidades para el primer número son
par y distinto de cero: 2, 4, 6, 8. Las posibilidades para el segundo número son impar y mayor que
cuatro: 5, 7, 9
Sean los eventos:
• A ≡Acertar el primer dígito.
• B ≡Acertar el segundo dígito.
• A∩B ≡Acertar los dos dígitos.
• Entonces P(A) =1/4
• Entonces P(B) =1/3
Como son eventos independientes, la probabilidad de acertar los dos dígitos en el número telefónico
de su amigo es el producto de ambas probabilidades:
P(A∩ B) = P(A) •P(B)=(1/4)(1/3)=1/12
Ing. Profesor 8
FR1

EVENTOS
DEPENDIENTES
Dos o más eventos serán dependientes cuando la ocurrencia o no-
ocurrencia de uno de ellos afecta la probabilidad de ocurrencia del otro (o
otros). Cuando tenemos este caso, empleamos entonces, el concepto de
probabilidad condicional para denominar la probabilidad del evento
relacionado. La expresión P(A|B) indica la probabilidad de ocurrencia del
evento A sí el evento B ya ocurrió.
• Se debe tener claro que A|B no es una fracción.
• P(A|B) = P(A y B)/P(B) o P(B|A) = P(A y B)/P(A)
Ejemplos:
Una caja contiene 4 canicas rojas, 3 canicas verdes y 2 canicas azules. Una canica es
eliminada de la caja y no es reemplazada. Otra canica se saca de la caja. Cuál es la
probabilidad de que la primera canica sea azul y la segunda canica sea verde?
• Ya que la primera canica no es reemplazada, el tamaño del espacio muestral para la
primera canica (9) es cambiado para la segunda canica (8) así los eventos son
dependientes.
• P(azul luego verde) = P(azul) · P(verde)

Ing. Profesor 9
Diapositiva 9

FR1 FERNANDA RODRIGUEZ; 29/12/2020


Video para complementar
https://youtu.be/d4yIg-nEk-M

Ing. Profesor 10
1
1

TASA DE RIESGO
Y RAZÓN DE
PROBABILIDAD

Ing. Profesor
Riesgos y tasas
Riesgos
• Definición
En sentido amplio, riesgo es la probabilidad de que algo
desfavorable (un evento negativo) ocurra.

En investigación clínica, indica la probabilidad de que


aparezca un fenómeno adverso concreto, quizás tras
una actividad, intervención o exposición.

Ing. Profesor 12
Veamos su cálculo en unos datos sencillos.
Ejemplo:
Suponga que una enfermedad (Y) y su Factor de Riesgo (X) sólo pueden tomar dos valores:
presente (+) y ausente (-). Así, Y+ representará tener la enfermedad; y X-, que no está expuesto al
factor de riesgo.
En la tabla puede leerse que de 1000 casos, 15 presentaban la enfermedad, de los que 7 estaban
expuestos y 8 no.

Presencia de la enfermedad (Y) y del factor de riesgo (X) en 1000 casos

Riesgo: P(Y+) = 15 / 1000 = 0.015


Riesgo en los Expuestos: P(Y+|X+) = 7 / 132 0.053
Riesgo en los No-Expuestos: P(Y+|X-) = 8 / 868 0.009

Ing. Profesor 13
Odds o momio
• Los países de tradición anglosajona usan una forma alternativa
para expresar resultados inciertos. Si la probabilidad expresa
“casos a favor divididos por todos los casos posibles”, la odds
habla de “casos a favor divididos por casos en contra”.
Ejemplo: así, mientras nosotros diríamos que cierto caballo tiene 7 números sobre (un total de) 8 de
ganar una carrera, los anglosajones suelen decir que los números de este caballo están 7 a favor frente
a 1 en contra.

Si el denominador de la medida Usar odds permite calcular


de frecuencia es el número de rápidamente el momio o
“casos en contra”, hablamos de beneficio potencial de una
odds. apuesta.
Ing. Profesor 14
Razón de probabilidades
La razón de momios (RM), razón de oportunidades o razón de
probabilidades —en inglés, odds ratio (OR)— es una medida
estadística utilizada en estudios epidemiológicos transversales y
de casos y controles, así como en los metaanálisis.

Ing. Profesor 15
Tasa
• En muchas ocasiones, los casos se observan durante un tiempo
variable que conviene tener en cuenta. La tasa incluye en el
denominador este tiempo de seguimiento. El riesgo así
calculado es el cociente entre un número de eventos y una suma
de tiempos de seguimiento, por lo que ya no se trata de una
probabilidad (casos posibles entre casos totales)

Ing. Profesor 16
Si el riesgo es constante a lo largo del seguimiento, basta con un único valor para representarlo:
la tasa de riesgo anterior. Pero si va cambiando a lo largo del seguimiento, necesitamos
especificar cuánto vale este riesgo en cada momento del tiempo, lo que llamamos “riesgo en
función del tiempo” o, más brevemente, función de riesgo. Como analogía, podemos decir que la
tasa representa cierta velocidad promedio de aparición de eventos: igual que en un viaje, esta
velocidad puede ser más o menos variable. Cuanto menos varíe (“más constante”), más útil será
una tasa global; pero cuanto más varíe, más información aporta conocer su valor exacto en cada
momento mediante la función de riesgo.

Ing. Profesor 17
1
8

TEOREMA DE
BAYES

Ing. Profesor
Teorema de Bayes

• La regla de Bayes, también llamada regla de la probabilidad


inversa establece la relación entre estas probabilidades.

• La probabilidad P(B) se
conoce como probabilidad
a priori (ex ante) y la
probabilidad P(B/A) se
llama probabilidad a El teorema de Bayes es de enorme relevancia puesto que
posteriori (ex post). En vincula la probabilidad de A dado B con la probabilidad de
una relación causa-efecto, B dado A. Es decir, por ejemplo, que sabiendo la
se trata de determinar la probabilidad de tener un dolor de cabeza dado que se tiene
probabilidad de la causa, gripe, se podría saber (si se tiene algún dato más), la
cuando se ha producido probabilidad de tener gripe si se tiene un dolor de cabeza
un determinado efecto. Ing. Profesor 19
Ing. Profesor 20
Ejemplo:
En una clase el 70% de los alumnos son mujeres. De ellas, el 10% son fans de Pitingo. De
los varones, son fans de Pitingo el 20%. ¿Qué porcentaje de fans de Pitingo hay en total?
• Solución:
Empezamos construyendo una tabla con los datos que nos dan:

Ahora se elije a un alumno/a al azar y va escuchando a Pitingo.


¿Probabilidad de que sea un hombre?

Ing. Profesor 21
Video para complementar: Teorema de
Bayes
• https://youtu.be/Fi6G48j0IZ4

Ing. Profesor 22
• https://economipedia.com/definiciones/tablas-de-
probabilidad.html#:~:text=Una%20tabla%20de%20probabilidad%2
0es,se%20quiere%20saber%20la%20probabilidad.
• https://bookdown.org/aquintela/EBE/independencia-de-
sucesos.html
• https://es.wikipedia.org/wiki/Independencia_(probabilidad)
• http://probabilidad2013a.blogspot.com/2013/05/eventos-
dependientes-e-independientes.html
• https://youtu.be/d4yIg-nEk-M
• https://es.wikipedia.org/wiki/Raz%C3%B3n_de_momios
• https://upcommons.upc.edu/bitstream/handle/2117/186430/04_pr
obabilidad-5328.pdf

Ing. Profesor 23
UNIVERSIDAD DE GUAYAQUIL

Bioestadística
PRUEBA DE HIPÓTESIS

Ing.
En la estadística uno de los procedimientos
para probar la validez de un enunciado
relativo a un parámetro poblacional
basándose en la evidencia muestral, es sin
duda la Prueba de hipótesis.
Una parte muy útil de la estadística son las
pruebas de hipótesis

Ing. 2
CONCEPTOS FUNDAMENTALES
• Para entender bien que es una prueba de hipótesis es
necesario tener claros los conceptos de:
• Variable
• Parámetro
• Estimador de un parámetro
• Hipótesis estadística
• Estadístico de prueba

Ing. 3
CONCEPTOS FUNDAMENTALES
• VARIABLE: Es una característica de interés, que tienen los
individuos/ objetos de una población
• PARÁMETRO: Es una constante asociada a la distribución de
probabilidades de una variable aleatoria
• ESTIMADOR: Es un estadístico (estadístico: variable aleatoria
función de las observaciones muestrales) que toma “valores
cercanos” al verdadero valor del parámetro

Ing. 4
CONCEPTOS FUNDAMENTALES
• Fundamentalmente interesan los siguientes estimadores:
• La media muestral es un estimador de la media poblacional μ
• La desviación estándar muestral s es un estimador de la
desviación estándar poblacional σ
• La proporción muestral es un estimador de la proporción
poblacional p

Ing. 5
CONCEPTOS FUNDAMENTALES

Ing. 6
CONCEPTOS FUNDAMENTALES
• Estadístico de prueba es un valor determinado a partir de la
información de la muestra para determinar si se acepta o
rechaza. Es la que vincula a un parámetro de interés, con un
estimador de ese parámetro.

Ing. 7
Ing. 8
• Una hipótesis es una declaración relativa a una población sujeta
a verificación , es una afirmación de algo que se puede o no
probar.
• Ejemplos de hipótesis estadísticas
• “La rapidez promedio sí es de 50 cm/s”
Escrita en términos estadísticos sería: Ho: μ = 50
Otro ejemplo “La rapidez promedio no es de 50 cm/s ”
En términos estadísticos sería: H1 μ ≠ 50

Ing. 9
Ing. 10
PASO 1 Establecimiento de hipótesis
nula y alternativa
• Se debe establecer en primer lugar la hipótesis nula (H0 )que es
el enunciado relativo al valor de un parámetro poblacional
formulado con el fin de probar evidencia numérica.

Ing. 11
PASO 1 Establecimiento de hipótesis
nula y alternativa
• Establecer en segundo lugar la hipótesis alternativa (H1 ) que es
la afirmación que se acepta si los datos de la muestra ofrecen
evidencia suficiente para rechazar la hipótesis nula.

Ing. 12
PASO 2 Selección del nivel de
significancia
• Nivel de significancia ( α) que es el nivel de riesgo. Se trata del
riesgo que se corre al rechazar la hipótesis nula cuando es
verdadera

Ing. 13
PASO 2 Selección del nivel de
significancia
• Significancia para una prueba de una o dos colas, esto se refiere
a las gráficas unilaterales y bilaterales respectivamente. Una
prueba es de una cola cuando la hipótesis alternativa H1 indica
una sola dirección.

Ing. 14
PASO 3 Selección del estadístico de
prueba
• De acuerdo al parámetro a probar elegir el estadístico. Para el
caso de la media µ se tienen la siguientes opciones

Ing. 15
PASO 3 Selección del estadístico de
prueba
• El ingreso promedio por persona en Estados Unidos es de $40
000, con una desviación estándar de $10 000. Una muestra
aleatoria de 10 residentes de Wilmington, Delaware, presentó
una media de $50 000, A un nivel de significancia de 0.05,
¿existe suficiente evidencia para concluir que los residentes de
Wilmington, Delaware, ganan más que el promedio nacional?

Ing. 16
PASO 3 Selección del estadístico de
prueba
• La administración de White Industries analiza una nueva
técnica para armar un carro de golf; la técnica actual requiere
42.3 minutos de trabajo en promedio. El tiempo medio de
montaje de una muestra aleatoria de 24 carros, con la nueva
técnica, fue de 40.6 minutos, y la desviación estándar, de 2.7
minutos. Con un nivel de significancia de 0.10, ¿puede concluir
que el tiempo de montaje con la nueva técnica es más breve?

Ing. 17
PASO 4 Formulación del criterio de
decisión
• La regla de decisión es una afirmación sobre las condiciones
específicas en que se rechaza H0

Ing. 18
PASO 4 Formulación del criterio de
decisión
• Nota: se sugiere considerar como valor absoluto el valor
calculado (Zcal) y comparar contra valor crítico esto facilitará la
decisión siguiendo que si el valor calculado es mayor que el
crítico rechazo H0 y no rechazo H1

Ing. 19
PASO 5 Conclusiones, toma de decisión
• Consiste en calcular el estadístico de la prueba comparándola
con el valor crítico y tomar la decisión de rechazar o no la
hipótesis nula. Se interpretan los resultados de la prueba.

Ing. 20
PRUEBA DE HIPOTESIS RELACIONADAS
CON LA MEDIA (MUESTRA GRANDE)
• En este caso se trabajará la distribución normal y el
estadígrafo que me permitirá aceptar o rechazar la hipótesis
nula será:

• Se establecerá, según el tipo de prueba (unilateral o bilateral),


un nivel de significancia; si por ejemplo es unilateral derecha se
tendría esta gráfica.

Ing. 21
PRUEBA DE HIPOTESIS RELACIONADAS
CON LA MEDIA (MUESTRA GRANDE)

Ing. 22
PRUEBA DE HIPOTESIS RELACIONADAS
CON LA MEDIA (MUESTRA GRANDE)
• EJEMPLO 1
La estatura promedio de los estudiantes varones en el primer
semestre de cierta universidad es de 172 cm, con una desviación
estándar de 9 cm. ¿Hay alguna razón para creer que hay algún
cambio en la estatura promedio, si una muestra de 65 estudiantes
en el grupo actual de primer semestre tiene una altura promedio
de 175 cm? Utilice un nivel de significancia de 0,05.

Ing. 23
PRUEBA DE HIPOTESIS RELACIONADAS
CON LA MEDIA (MUESTRA GRANDE)
• EJEMPLO 1
• La formulación de la hipótesis será:
H0=172
H1>172
• El nivel de significancia: α=0,05
• La región crítica estará:

Ing. 24
PRUEBA DE HIPOTESIS RELACIONADAS
CON LA MEDIA (MUESTRA GRANDE)
• EJEMPLO 1
Aplicando el estadígrafo:

Como el estadígrafo dio mayor, se puede concluir que con la


evidencia tomada el promedio de las estaturas de los estudiantes
es mayor de 172 cm.
Ing. 25
PRUEBA DE HIPOTESIS RELACIONADAS
CON LA MEDIA (MUESTRA GRANDE)
• EJEMPLO 2
La resistencia media a la rotura de una varilla de construcción es
de 60000 P.S.I. con una desviación estándar de 1000 P.S.I. Para
verificar la afirmación, se toma una muestra aleatoria de 50
varillas que se fallan y se obtuvo una media de 59000 P.S.I.
Pruebe la hipótesis de que la media de las varillas es de 60000
P.S.I. Utilice un nivel de significancia de 0,01.

Ing. 26
PRUEBA DE HIPOTESIS RELACIONADAS
CON LA MEDIA (MUESTRA GRANDE)
• EJEMPLO 2
• La formulación de la hipótesis será:
H0=60000 P.S.I
H1≠60000 P.S.I
El nivel de significancia: α=0,01
• La región crítica estará:

Ing. 27
PRUEBA DE HIPOTESIS RELACIONADAS
CON LA MEDIA (MUESTRA GRANDE)
• EJEMPLO 2
Aplicando el estadígrafo:

Como el estadígrafo dio entre los límites se puede concluir que


con la evidencia tomada, el promedio de la resistencia a la rotura
de las varillas no es diferente de 60000 P.S.I.
Ing. 28
VIDEOS RELACIONADOS
https://www.youtube.com/watch?v=5ZvKgnRVSjI
https://www.youtube.com/watch?v=ttMkW7HdIKU
https://www.youtube.com/watch?v=QZkD1AH4dtU
https://www.youtube.com/watch?v=muHwIBu6s8Y

Ing. 29
UNIVERSIDAD DE GUAYAQUIL

Bioestadística
PRUEBA DE HIPÓTESIS

Ing.
PRUEBA DE HIPOTESIS RELACIONADAS CON
LA MEDIA (MUESTRAS PEQUEÑAS n < 30)
• Si los tamaños de las muestras son muy pequeños, y no se
conoce la desviación estándar de la población, se utiliza una
distribución conocida como la “t de student”

Ing. 2
PRUEBA DE HIPOTESIS RELACIONADAS CON
LA MEDIA (MUESTRAS PEQUEÑAS n < 30)
• Existe una diferencia en su aplicación y es que ahora se
utilizará una o mas tablas de valores t en lugar de la tabla
para valor z
• Solo el cuando el tamaño de la muestra tiende a infinito las dos
distribuciones serán las mismas.

Ing. 3
PRUEBA DE HIPOTESIS RELACIONADAS CON
LA MEDIA (MUESTRAS PEQUEÑAS n < 30)

Ing. 4
PRUEBA DE HIPOTESIS RELACIONADAS CON
LA MEDIA (MUESTRAS PEQUEÑAS n < 30)

Ing. 5
PRUEBA DE HIPOTESIS RELACIONADAS CON
LA MEDIA (MUESTRAS PEQUEÑAS n < 30)
• EJEMPLO 1
Un supervisor desea probar que el promedio de calificaciones en
las escuelas de ingeniería son menores a 12 pts. Se selecciona una
muestra aleatoria de 25 escuelas y se obtiene una media muestral
de 11,916 y una desviación estándar de 1,40 con un nivel de
significancia de 0,05.

Ing. 6
PRUEBA DE HIPOTESIS RELACIONADAS CON
LA MEDIA (MUESTRAS PEQUEÑAS n < 30)
• EJEMPLO 1

Ing. 7
PRUEBA DE HIPOTESIS RELACIONADAS CON
LA MEDIA (MUESTRAS PEQUEÑAS n < 30)
• EJEMPLO 1

Ing. 8
PRUEBA DE HIPOTESIS RELACIONADAS CON
LA MEDIA (MUESTRAS PEQUEÑAS n < 30)
• EJEMPLO 1

Ing. 9
PRUEBA DE HIPOTESIS RELACIONADAS CON
LA MEDIA (MUESTRAS PEQUEÑAS n < 30)
• EJEMPLO 1

Ing. 10
TIPOS DE ERRORES EN PRUEBAS DE
HIPOTESIS
• Ninguna prueba de hipótesis es 100% cierta. Puesto que la
prueba se basa en probabilidades, siempre existe la posibilidad
de llegar a una conclusión incorrecta.
• Cuando usted realiza una prueba de hipótesis, puede cometer
dos tipos de error: tipo I y tipo II.
• Los riesgos de estos dos errores están inversamente
relacionados y se determinan según el nivel de significancia y la
potencia de la prueba. Por lo tanto, usted debe determinar qué
error tiene consecuencias más graves para su situación antes de
definir los riesgos
Ing. 11
ERROR TIPO I
• Si usted rechaza la hipótesis nula cuando es verdadera, comete un
error de tipo I.
• La probabilidad de cometer un error de tipo I es α, que es el nivel de
significancia que usted establece para su prueba de hipótesis.
• Un α de 0.05 indica que usted está dispuesto a aceptar una
probabilidad de 5% de estar equivocado al rechazar la hipótesis nula.
• Para reducir este riesgo, debe utilizar un valor menor para α. Sin
embargo, usar un valor menor para alfa significa que usted tendrá
menos probabilidad de detectar una diferencia si esta realmente
existe

Ing. 12
ERROR TIPO II
• Cuando la hipótesis nula es falsa y usted no la rechaza, comete
un error de tipo II.
• La probabilidad de cometer un error de tipo II es β, que
depende de la potencia de la prueba. Puede reducir el riesgo de
cometer un error de tipo II al asegurarse de que la prueba tenga
suficiente potencia.
• Para ello, asegúrese de que el tamaño de la muestra sea lo
suficientemente grande como para detectar una diferencia
práctica cuando esta realmente exista.
• La probabilidad de rechazar la hipótesis nula cuando es falsa es
igual a 1–β. Este valor es la potencia de la prueba
Ing. 13
ERROR TIPO I Y II

Ing. 14
EJEMPLO DE ERROR TIPO I Y II

• Para entender la interrelación entre los errores de tipo I y tipo


II, y para determinar cuál error tiene consecuencias más graves
para su situación, considere el siguiente ejemplo.
• Un investigador médico desea comparar la efectividad de dos
medicamentos. Las hipótesis nula y alternativa son:
• Hipótesis nula (H0 ): μ1= μ2
Los dos medicamentos tienen la misma eficacia.
• Hipótesis alternativa (H1 ): μ1≠ μ2
Los dos medicamentos no tienen la misma eficacia.
Ing. 15
EJEMPLO DE ERROR TIPO I Y II
• Un error de tipo I se produce si el investigador rechaza la hipótesis
nula y concluye que los dos medicamentos son diferentes cuando, en
realidad, no lo son
• Si los medicamentos tienen la misma eficacia, el investigador podría
considerar que este error no es muy grave, porque de todos modos
los pacientes se beneficiarían con el mismo nivel de eficacia
independientemente del medicamento que tomen.
• Sin embargo, si se produce un error de tipo II, el investigador no
rechaza la hipótesis nula cuando debe rechazarla. Es decir, el
investigador concluye que los medicamentos son iguales cuando en
realidad son diferentes. Este error puede poner en riesgo la vida de
los pacientes si se pone en venta el medicamento menos efectivo en
lugar del medicamento más efectivo.

Ing. 16
EJEMPLO DE ERROR TIPO I Y II
• Un error de tipo I se produce si el investigador rechaza la hipótesis
nula y concluye que los dos medicamentos son diferentes cuando, en
realidad, no lo son
• Si los medicamentos tienen la misma eficacia, el investigador podría
considerar que este error no es muy grave, porque de todos modos
los pacientes se beneficiarían con el mismo nivel de eficacia
independientemente del medicamento que tomen.
• Sin embargo, si se produce un error de tipo II, el investigador no
rechaza la hipótesis nula cuando debe rechazarla. Es decir, el
investigador concluye que los medicamentos son iguales cuando en
realidad son diferentes. Este error puede poner en riesgo la vida de
los pacientes si se pone en venta el medicamento menos efectivo en
lugar del medicamento más efectivo.

Ing. 17
EL P VALOR EN LAS PRUEBAS DE
HIPOTESIS
• El valor P es el mínimo nivel de significancia en el cual Ho sería
rechazada cuando se utiliza un procedimiento de prueba
especificado con un conjunto dado de información. Una vez que
el valor de P se haya determinado, la conclusión en cualquier
nivel α particular resulta de comparar el valor P con α.
• Valor P ≤ α  rechazar Ho al nivel α
• Valor P > α  No rechazar Ho al nivel α

Ing. 18
EL P VALOR EN LAS PRUEBAS DE
HIPOTESIS
• Ensayo unilateral derecho

• Ensayo unilateral izquierdo

• Ensayo bilateral

Ing. 19
EL P VALOR EN LAS PRUEBAS DE
HIPOTESIS
• EJERCICIO 1
• Una muestra aleatoria de 100 muertes registradas en Estados
Unidos el año pasado muestra una vida promedio de 71.8 años.
Suponga una desviación estándar poblacional de 8.9 años, ¿esto
parece indicar que la vida media hoy en día es mayor que 70
años? Utilice un nivel de significancia de 0.05 para determinar
el valor de P.

Ing. 20
EL P VALOR EN LAS PRUEBAS DE
HIPOTESIS
• EJERCICIO 1

• Ho: µ = 70 años.

• H1: µ > 70 años.

Ing. 21
EL P VALOR EN LAS PRUEBAS DE
HIPOTESIS
• EJERCICIO 1

• Valor P ≤ 0.05  Se rechaza Ho


• Valor P > 0.05  No se rechaza Ho

• Esta es el valor de Z que se utilizará para calcular el valor de P,


como es un ensayo unilateral derecho se calculará el área a la
derecha de este valor.

Ing. 22
EL P VALOR EN LAS PRUEBAS DE
HIPOTESIS
• EJERCICIO 1

• Como el valor de P es 0.0217 y es menor al valor del nivel de


significancia de 0.05 por lo tanto se rechaza H0, y se concluye
que la edad media de los habitantes es mayor a 70 años.

Ing. 23
VIDEOS RELACIONADOS
https://www.youtube.com/watch?v=M2O-kWEfxYI
https://www.youtube.com/watch?v=G2Q4Dgr_K44
https://www.youtube.com/watch?v=3FbLkVtzW_w

Ing. 24

También podría gustarte