Está en la página 1de 51

MUESTREO

Proceso de selección de una muestra a partir


de una población

Depende del tamaño de la población si


tengo una población grande, ejemplo de
tamaño 500 o 1000 en este caso será
importante utilizar el muestreo para
seleccionar una muestra representativa,
existe situaciones en investigaciones médicas El grafico nos hace ver diferencia entre los 2
en donde las poblaciones son pequeñas, por términos
ejemplo; tengo una población de 60 gerentes
de servicios de salud en ese caso no es Población: aquí se puede calcular
necesario sacar una muestra representativa. parámetros, y estos se reconocía como
mejor es trabajar con toda la población medidas de resumen de la población,
pueden ser:
MUESTREO ESTADISTICO
•  : media
Población: conjunto de unidad de análisis • 2 : sigma al cuadrado
En este caso es una población finita porque •  : sigma la desviación estándar
llegamos a conocer el • : proporción poblacional
total de la población, Dada que la población es grande lo que
pero no siempre las
hacemos es usar el muestreo para
poblaciones son finitas,
seleccionar una muestra representativa.
existen también
poblaciones llamadas Muestra: estará conformada por estadísticos:
infinitas, teniendo en
• x: media
cuenta las características
• s2 : varianza muestral
de la población veremos.
• s: desviación estándar muestral
• p: proporción muestral

El proceso es seleccionar una muestra


representativa a partir de la población, de los
resultados de la muestra se hace una
inferencia estadística a la población.

MUESTREO ESTADISTICO

1. DEFINICIÓN: Procedimiento para


seleccionar una o más muestras
estadísticamente representativas de la
población o poblaciones.

2. EJEMPLOS DE USO DEL MUESTREO.


Dado que la población es muy grande lo que a. Encuestas (ENDES, ENAHO).
hacemos es seleccionar una muestra, que b. Diseño y análisis de experimentos.
está conformado por una unidad de análisis c. Control de calidad.
debido a que la población también lo está, • ENDES (encuesta nacional de esalud)
será importante definir con que unidad de • ENAHO (encuesta nacional de hogares)
análisis se va trabajar (paciente, gerente,
cliente , medico profesional) dependerá de lo
que se está priorizando. ¿CÓMO SE ELIGE UN MÉTODO DE MUESTREO?
El método elegido debe: • Aquí el profesional de medicina indica
que se trabajó con una muestra que el
1. Proporcionar una muestra que tenga la
mismo decidió, es decir quienes forman
mayor representatividad posible. Esto se logra
parte de la muestra.
si en el proceso de selección, cada elemento
de la población tiene una probabilidad ejemplo: indica eh trabajado con
conocida, diferente de cero, de conformar la pacientes que asisten a consulta externa
muestra. Esto es, si la muestra es probabilística. los días lunes, miércoles y viernes en el
horario de 6 a 8 am, eso es intencional
• Cuando hablamos de probabilidad de
porque el investigador decidió quienes
selección hablamos de una muestra
forman parte de la muestra
probabilística
2. Sin norma (chunk)
2. Permitir a través del método de muestreo,
3. Accidental (casos)
el cálculo del error muestral o precisión de la
4. De voluntarios:
estimación (E). El error muestral viene hacer
• también es muy utilizado
las diferencias (+,-) entre parámetro y
estadístico, la diferencia puede ser positivo o ejemplo: es lo que se está haciendo para
negativas. Esto solo permiten las muestras el caso de probar las vacunas, en el caso
probabilísticas. de vacunas en los protocolos se pide
antes de dar la certificación final, que
pase por voluntarios, entonces se pide a
personas que quieran participar en la
investigación y esto es previo
3. Ser viable, económico y eficiente: es decir consentimiento y se hace la prueba
que en teoría y práctica lo que veremos es especifica en este caso la vacuna,
que, el método elegido proporcione la mayor entonces hay también no hay selección
cantidad de información a un costo menor. aleatoria.
• Aquí viene la disyuntiva entre cual es mejor Probabilistico: Dan muestras
; un censo o una muestra , de hecho en un representativas
censo poblacional en donde se abarca
toda la población se van a cometer 1. Aleatorio simple:
muchos errores , porque para empezar 2. Sistemático
desde los entrevistadores tienen diferentes • Ambos se usan en poblaciones
características , existen entrevistadores homogéneas.
que tienen un nivel de educación superior 3. Estratificado
técnico o escolares del último año 4. De conglomerados
académico , el hecho de que exista estas • Ambos se usan en poblaciones
diferencias genera que la información sea heterogéneas
diferente , otro problema del censo es que • Muestreo de conglomerados, este
debemos tener mapas catastrales último es más complejo para esto se
actualizados que muchas veces no se necesita tener mapas catastrales, es
hace , por eso mejor seleccionar una un muestreo que generalmente lo usa
muestra probabilística que nos da el instituto nacional de estadística
información más precisa respecto a la informática para hacer estudios de
población. campo.

3. METODO DE MUESTREO El estadístico por lo general ayuda más en


poblaciones homogéneas.
SE CONOCEN 2 TIPOS:
Es mejor trabajar con muestreos
No probabilísticos: Prácticos y económicos probabilísticos.
1. Intencional: RECUERDEN QUE EL TAMAÑO DE MUESTRA
• Son los que más se dan en medicina CALCULADO ES EL MÍNIMO REQUERIDO
En el caso de la determinación de tamaño MUESTREO PROBABILISTICO
muestra.
Tenemos 4 tipos de muestreo (nos importa
Pregunta que siempre hacen: ¿que en primer tipo de muestreo)
necesitamos para obtener el tamaño
1. Muestreo aleatorio simple.
mínimo de muestra?
2. Muestreo sistemático con inicio
Actualmente se han desarrollado una aleatorio.
serie de programas informáticos, 3. Muestreo aleatorio estratificado
calculadores, estadísticos, entonces lo 4. Muestreo aleatorio por
importante es solo colocar información conglomerados.
que nos pide y automáticamente te saldrá
MUESTREO ALEATORIO SIMPLE (MAS)
el numero para calcular el tamaño de
muestra. A. Definición:
TAMAÑO DE MUESTRA ES PARA ESTIMAR Consiste en la selección de n elementos, a
UNA MEDIA partir de una población de tamaño N, de
modo que cada elemento de la
Para estimar una media, si quiero hacer
población tiene la misma probabilidad de
una investigación y quiero hacer una
conformar la muestra.
estimación de una media poblacional en
el tamaño de muestra me piden 3 datos: su probabilidad de selección será n /N
1. Error B. TAMAÑO DE MUESTRA (una población)
2. desviación estándar
3. nivel de confianza Para determinar un tamaño de muestra
de una población y mi objetivo es estimar
Para estos 3 casos se debe tener información la media poblacional, necesitamos lo
y para eso se aplica la continuación. sgte:
TAMAÑO DE LA MUESTRA ES PARA ESTIMAR 1. El n estimado será = al valor de Z2 × la
UNA PROPORCION desviación estándar al cuadrado s2 , la
varianza sobre E2 .
Para estimación de proporción, para una
2. Si se conoce el tamaño de la
prevalencia se va necesitar:
población N lo que hacemos será un
1. Error absoluto ajuste, entonces la n final será igual a
2. Proporción esperada la n estimado / 1+ n estimado sobre la
3. Nivel de confianza población.

MUESTREO (SAMPLING)

Tenemos 2 tipos de muestreo:

Muestreo probabilístico:

• Conocemos la probabilidad de que un


individuo sea elegido para la muestra.
• Base para la estadística frecuentista.

Muestreo no probabilístico:
Donde:
• No conocemos la probabilidad de que un
individuo sea elegido. • Zα/2 = coeficiente o nivel de confianza
• Pueden conducir a sesgo de selección. = 1,96; para un nivel de confianza del
• En principio no se pueden extrapolar los 95%.
resultados a la población.
• Aquí solo nos quedamos con los resultados Se puede trabajar un nivel de confianza:
provenientes de la muestra
o El nivel de confianza al 90% es 1,64
o El nivel de confianza al 95% es 1,96 • 86.4 como se conoce la población
o El nivel de confianza al 99% es 2,57 realizamos un ajuste
• s2e = varianza esperada, representa el • Al final siempre se hace un redondeo por
grado de variabilidad de los elementos exceso en este caso será 76.
de la población de estudio. Se obtiene Interpretación.
de:
El número mínimo de pacientes para
o Revisión bibliográfica
realizar el estudio es 76, si se desea estimar
o Estudio piloto el nivel promedio de colesterol total en la
• E = error absoluto de muestreo o población de estudio, con una precisión o
precisión con la que se desea estimar error de  3,5 mg/dL y un nivel de
la media poblacional. confianza de 95%.
• E = debe ser asumido por el
2.ESTIMACION UNA PORPORCION
investigador
POBLACIONAL
• E = representa ( -x)
• N = tamaño de la población Aquí en vez de varianza se trabaja con p
• n (n estimado) = tamaño de muestra para y q.
población infinita Entonces:
• n = tamaño de muestra final después
que se hace ajuste de acuerdo al 1. n estimado será igual, Zα/2 (al nivel de
tamaño de la población (si se conoce confianza al cuadrado) por la pe
N) (proporción estimada) por su
complemento que es q, entre el error
• El error relativo se define como: Er = E
absoluto al cuadrado.
/xe (error relativo, será igual al error absoluto sobre la
2. Si conocemos N, se realiza un ajuste y el n
media, no siempre)
final será igual al n estimado sobre 1 más n
• E= (representa la diferencia entre
estimado sobre el N total de la población
parámetro y estadístico)

Ejemplo. En una población de 600


pacientes del programa de diabetes de
un hospital se desea estimar el nivel
promedio de colesterol total con 95% de
confianza. En un estudio piloto se
encontró: xe = 175,0 y se =16,6 mg/dl. El
investigador asume un error absoluto E = 
3,5 mg/dl, calcular n.

• Si te dicen nivel de confianza al 95%,


entonces Z será 1,96 será constante.

Seguimos la fórmula:
• Pe: proporción esperada de sujetos con las características • Si no nos dan error se asume 5%.
de interés en la población de estudio. Se puede obtener: • Si no te dan la prevalencia, no te dan
o revisión bibliográfica
el valor p se asume 50%.
o • En caso de estimación de la
estudio piloto
o pe= qe=0,5=50% (Si no te dan ninguno de los anteriores se proporción Muchas veces de los
asume que es 0,5), Como el lanzamiento de la moneda, cara o estudios de prevalencia no se conoce
sello 50 % para cada uno.
la población y hay termina el cálculo
• qe= 1 - pe = proporción esperada de sujetos sin la característica
de interés en la población. estadístico.
• E= error absoluto de muestreo
Interpretación: Para estimar la prevalencia
• E= representa (π – p), debe ser asumido por el investigador
y, para este caso E es mas o menos 5% o 0,05. poblacional, con 95% de confianza y una
• El error relativo se define, Er= E/ pe precisión de 5%, se debe evaluar a 323
pacientes.
Muchas veces se coloca 5% porque es un
complemento de nivel de confianza de C. PROCEDIMIENTO DE SELECCIÓN
95%, si en el ejercicio no aparece ¿Como hago para que la selección se
información bibliográfica, estudio piloto aleatoria, probabilística?
no digan que falta datos se asume que p
y q serán 0.5. Para esto utilizó muestreo aleatorio simple
se expresa como (+), este muestreo
Si no te dan nivel de confianza asumen aleatorio simple se trabaja con la
automáticamente 95% población.
Ejemplo. Para seleccionar una MAS:
En la población de mujeres mayores de 40 • La población debe ser homogénea y,
años que acude al servicio de • Debe disponerse del marco muestral.
reumatología de un hospital nacional, se • El marco muestral debe estar
desea estimar la prevalencia de actualizado.
osteoporosis. En la revisión bibliográfica se
encontró una prevalencia de 30%, si se Esto funcionara perfecto cuando la
asume un error absoluto de muestreo E =  población homogénea y se conoce
5%, calcular el tamaño de muestra, n. exactamente el total de la población y se
enumera del 1 hasta el n, para poder
Solución. seleccionar la muestra y para eso. Se
Datos: utiliza tabla de números aleatorios. (abre
las tablas que están en el aula virtual se
• Zα/2 = 1,96 usara para el sgte ejercicio)
• pe = 0,3 Para identificar el número de cada
• qe = 0,7 elemento poblacional que será parte de
la muestra, puede utilizarse la tabla de
• E =  0,05 números aleatorios, una calculadora
científica o una computadora.

Ejemplo. (archivo Word anexo 1)

De la población de 150 sujetos


aparentemente normales.
• En el ejercicio no te dan directamente
a) Seleccionar una MAS de tamaño 10.
el nivel de confianza, entonces asumo
b) Calcular los estimadores media (x ) y
q será 95% = 1,96.
desviación estándar (s).
• Como no tengo el tamaño de la
c) Calcular e interpretar el error estándar
población, no hay población terminas
de la media (EEx ).
el análisis y redondeas por exceso el
resultado 323.
Solución. • Cada número es una columna, en el
bloque tenemos 6, el total de bloques
a. Se tiene: N =150 y n =10
tengo 10 entonces tendré 60 columnas,
Es decir, necesitamos 10 números primera columna 8, segunda columna 0,
aleatorios comprendidos entre 1 y 150 tercera columna 0, cuarta columna 8,
para lo cual, de la tabla de números columna 60 cuatro y hacia abajo en el
aleatorios, sabiendo que el tamaño de la bloque hay 5 y tengo 10 bloques 50.
población tiene tres dígitos, se • Solo consideramos los 3 primeros dígitos de
seleccionan tres columnas cualesquiera. acuerdo al número de dígitos de la
Por esta vez utilizaremos las tres primeras población que es 150 se forma 800,
columnas de dicha tabla. Entonces los 10 tenemos que buscar números debajo de
números seleccionados son: 150, veamos el siguiente 221, 562, 493, 950
son altos.
Anexo 1: del archivo Word • Si vemos 28 esta seleccionado por que es
En el anexo están enumerados del 1 al 150 menor que 150.
cada sujeto tiene su concentración de • Si vemos 425, 601, 555, 164, 816, 752, 453,
azúcar y le piden solamente seleccionar 999 no porque sobrepasan 150.
una muestra de tamaño de 10. • Veremos 126 segundo número
seleccionado, 72 tercer número y así hasta
Veamos la tabla de números aleatorios abajo hasta completar 10 números, y
que está en pdf , veremos que cada terminando estas 3 primeras columnas
numero de la tabla es una columna y el faltara entonces subimos y consideramos
total de columna será 60 y filas hacia las tres siguientes columnas (4, 5 y 6) y
abajo 50 , como la población tiene 3 empezamos hasta abajo hasta completar
dígitos (150) se considera las 3 primeras 10 números.
columnas para que se forme 3 dígitos y
ubicamos hacia abajo , en forma vertical
buscaremos números entre 1 a 150 de la
tabla de números aleatorios , solo se
considera los 3 primeros columnas para
formar números de 3 dígitos , luego
buscamos números menores igual a 150 y
seleccionamos 10 números.

Vemos la tabla de los números seleccionados


y tomamos en cuenta su valor de
En la tabla considero los 3 primeros dígitos,
concentración.
porque 150 tiene 3 dígitos .
ESTIMACIÓN DE PARÁMETROS de la muestra (de una muestra representativa) y
empezar a hacer la contrastación.

INFERENCIA ESTADÍSTICA 1. ESTIMACIÓN


1. Estimación de Parámetros • La estimación es el proceso de utilizar datos
2. Definición de términos de la prueba de Hipótesis, muestrales para estimar los valores de parámetros
estadística. Aunque ahora en medicina se le está desconocidos de una población.
conociendo más por pruebas de significancia
estadística. • La estimación es un instrumento básico para la toma
de decisiones, especialmente en medicina basada
DEFINICIÓN en evidencias

• Se define como un proceso por medio del cuál se • La estimación de parámetro puede adoptar la forma
elaboran conclusiones probabilísticas en relación a de un solo “punto” o un intervalo.
una población, valiéndose de la información
proporcionada por una muestra extraída de esa DATOS CONTINUOS
población.
Cuando se tienen datos cuantitativos continuos, se puede
• Siendo las poblaciones descritas por medidas obtener una serie de medidas, por ejemplo en la población y
numéricas descriptivas llamadas parámetros, la muestra se pueden obtener:
inferencia acerca de una población es posible POBLACIÓN MUESTRA
haciendo inferencias acerca de sus parámetros  : Media poblacional x : Media muestral
usando los estadísticos. 2 : varianza poblacional s2 : Varianza muestral
 : desviación poblacional s : Desviación muestral
POBLACIÓN OBJETIVO EE =  /  n EE = S /  n

Hay que tener presente que ahí el error estándar (EE) aparece
tanto en la población como en la muestra donde se divide la
desviación estándar sobre la población en el caso de la
población y en el caso de muestra la desviación estándar
sobre el tamaño de la muestra.

DATOS DICOTÓMICOS

POBLACIÓN MUESTRA
Para empezar tenemos la población objetivo. A través del
P p
muestreo se va a seleccionar una muestra representativa y
luego del resultado de la muestra vamos a hacer una Proporción poblacional Proporción muestral
inferencia a la población, esto viene a ser inferencia
estadística, entonces se cumple todo el ciclo de la
investigación estadística.
En variables cualitativas calculamos siempre la proporción
Hay que tener presente en que todo proceso o toda actividad
poblacional expresadas con una P mayúscula o Φ y en la
dentro de inferencia estadística es probabilística, aquí
muestra una p minúscula para la proporción muestral.
intervienen mucho las probabilidades para tomar decisiones.
1.1Tipo de estimación de parámetros
ÁREAS DE LA INFERENCIA ESTADÍSTICA
a) La estimación por punto de parámetros
Estimación de parámetros
• El parámetro se obtiene directamente de los datos
 Resuelve situaciones en las que se busca conocer un
muestrales, como un único valor. Específicamente, los
dato o medida descriptiva de determinada
estadísticos son introducidos en la fórmula
población (parámetro) a partir de datos o medida
establecida como estimador para obtener el
descriptiva de una muestra (estadístico)
parámetro:
representativa.
• n: # de muestra
Prueba de hipótesis
• z: desviación normal (según el grado de
 Sirve para decidir si se rechaza o no una hipótesis
confianza)
estadística establecida basándose en la información
de una muestra. Se realiza una contrastación de Entonces yo puedo decir he encontrado una muestra que la
información entre la hipótesis estadística existente y proporción de asma es igual a 15%, entonces concluyo que en
los resultados obtenidos de la muestra, para una la población, también la proporción poblacional es 15%;
corroboración. Oseas se conocen los valores entonces lo que hago es igualar un valor muestral con el valor
poblacionales, entonces lo que se hace es en base al poblacional, eso viene a ser la estimación puntual.; cosa que
resultado a la muestra contrastar si es verdadero o si eso casi no se va a dar porque hay que tener presente que hay
es falso las afirmaciones de los valores poblacionales. mucha variabilidad en los datos, por eso la estimación puntual
Por ejemplo yo puedo decir que la prevalencia de queda más como una información descriptiva o académica.
asma en Lima es de 18% o se sabe que la prevalencia
es 18%, aparece un investigador y me dice que no
que eso es falso, que la prevalencia es mayor al 18%,
entonces lo que se hace es recabar la investigación
Ejemplo 1:

Se desea estudiar el salario promedio anual de los profesionales


de salud de una compañía farmacéutica. Para ello se tomó
una muestra de n=100 profesionales de la compañía, se registra Por consiguiente, los límites del intervalo se obtienen sumando
el salario anual de cada profesional de salud en la muestra y o restando el error estándar al valor de la media muestral ( ).
se calculan la media y la desviación estándar muestral de los Específicamente, para hallar el límite inferior (L1) se resta el error
salarios obteniéndose: estándar y para hallar el límite superior (L2) se suma el error
estándar.
x= $7,750 y s= $900

Solución: : Salario promedio anual


Para explicar el uso de esta forma de estimación se resolverán
 = x = $7,750
los ejemplos planteados anteriormente y otros.
Se estima que el salario promedio anual es de $7,750
Ejemplo 1: estimación de una media aritmética
b) Estimación por intervalo
Se tiene interés en estimar la altura media de los alumnos de la
Lo más importante y lo más valioso dentro de la estimación Facultad de Medicina de la USMP. Se recurre a una muestra
viene a ser la construcción de intervalo de confianza. En aleatoria de n=36 alumnos y se obtienen los siguientes
epidemiología se han visto los intervalos de confianza como resultados: x = 170 cm ; s= 20 cm
por ejemplo de odds ratio (OR), riesgo relativo entonces eso
Solución
viene a ser la estimación por intervalo.
Si no se especifica el grado de confianza, se utiliza por lo
 Consiste en determinar, mediante un estimador, 2
general 95%, lo cual corresponde a z= 1.96. Conociendo los
valores numéricos llamados límite inferior (L1) y límite
datos. Se puede aplicar la fórmula:
superior (L2). Con un cierto grado de confianza, se
espera que estos límites contengan el valor del 
parámetro que se quiere hallar. Es decir, el valor del
= x  Z x s_
parámetro debería encontrarse entre el límite inferior
n
y límite superior obtenidos de la estimación.
➔ Li = 170 - 1.96 x 20/6_ → 163.47 cm
 Cabe mencionar que no todos los intervalos
➔ Ls = 170 + 1.96 x 20/6 → 176.53 cm
obtenidos de un estimador incluirán realmente al
parámetro. Es por ello que se aplica el concepto de Por lo tanto, la estatura promedio de los estudiantes de la
nivel de confianza. facultad de medicina de la USMP está comprendida entre
163.5 y 176.5 cm, con un grado de confianza del 95%.
ASPECTOS A TENER EN CUENTA
→ I.C. 95% (163.5; 176.5 cm)
• Los estimadores de intervalo se denominan
comúnmente intervalos de confianza **DATO: n es mayor a 30 por eso se está trabajando con z.

• Los extremos superior e inferior de un intervalo de Caso 2: Intervalo De Confianza De Una Sola Muestra En Caso
confianza se llaman límites de confianza superior e De Variable Cuantitativa en muestras pequeñas (n≤30)
inferior respectivamente

• Un intervalo de confianza nos lleva de un solo valor PARÁMETRO INTERVALO DE


estimado (la media muestral, proporción muestral, CONFIANZA
diferencias entre medias y proporciones, etc.)a un
recorrido de valores.

Intervalos De Confianza
La amplitud del intervalo de confianza basado en el valor
muestral depende de:
Donde:
- del error estándar de ese valor y EE =  /  n EE = S /  n
X = media muestral
- del grado de confianza que queremos asociar con el
t = Valor de t a un determinado nivel de confianza
intervalo resultante.
90% - 95% - 99%
s = desviación estándar

1.64 - 1.96 - 2.57 n = muestra g.l= n- 1

El parámetro  va a depender del valor muestral “x barra” más


INTERPRETACION:
menos (+-) el nivel de confianza que ya no va a ser con “z” si
Intervalo de confianza al 95%.- Hay 95% de confianza de que no que va a ser con la distribución “t” por el error estándar;
el valor de la población (parámetro) se halle dentro del solamente va a cambiar que en vez de z aparece t, eso
intervalo. significa que en la distribución t, en la tabla t nos va a pedir un
grado de libertad. Grado de libertad es una medida de
Caso 1- Intervalo de confianza para la media poblacional  variabilidad de la distribución t, en este caso va a ser (n -1),
en muestras grandes entonces calculamos grado de libertad e interceptamos con
el valor del nivel de confianza y sale valor de t.
Los valores de los límites, inferior (L1) y superior (L2), se
encuentran aplicando la fórmula general:
Ejemplo 2:

Suponga que se desea estimar el peso promedio de los


enfermos de hipotiroidismo. En una muestra de n=30 pacientes
se encontró un x = 71Kg y una S=5Kg.Para el 95% de confianza,
los límites del intervalo serían: Por consiguiente, los límites del intervalo se obtienen sumando
o restando el error estándar al valor de la proporción muestral
(p). Específicamente, para hallar el límite inferior (L1) se resta el

g.l=n-1=29 error estándar y para hallar el límite superior (L2) se suma el error
estándar.

**El valor de t lo sacamos con grado de libertad, ubicamos n-


1=29 y nos vamos a la tablita al costado de los documentos,
ubicamos grado de libertad 29, si estoy trabajando al 95% mi
nivel de significación o en este caso el margen de error va a ser Para explicar el uso de esta forma de estimación se resolverán
el 5%, no se va a buscar 0,05, hay que recordar que es un los ejemplos planteados anteriormente.
intervalo de confianza, tiene 2 extremos, se va a calcular límite
inferior y límite superior, entonces ese 0,05 se va a dividir entre 2 Intervalo De Confianza De Una Sola Muestra En Caso De
entonces seria 0,025. Entonces en la tabla t ubicamos el grado Variable Cualitativa
de libertad 29 e interceptamos con 0,025 y vamos a ver que el
valor de t va a ser 2,045.
PARÁMETRO INTERVALO DE
Limite inferior: 71 - 2.045 (5/√30) =69.133 Kg CONFIANZA
p
Límite superior: 71 + 2.045 (5√30) =72.867 Kg

➔ ESTA ES LA TABLA

Donde:

p = proporción muestral

Z =Valor de Z a un determinado nivel de confianza (90%-95%-


99%)

n = tamaño de muestra

Ejemplo 1: estimación de una proporción

Se tiene interés en estimar la proporción de niños desnutridos


menores de 5 años e una determinada comunidad. Se
selecciona una muestra de n=100 niños menores de 5 años y se
determina que 45 están desnutridos.

De los 100, hay 45 desnutridos, la proporción (p) de desnutridos


en la muestra es de (45/100=0,45).

En z como no se le da información se asume que es 95%, osea


1,96.

El error estándar (EE) es: 1-p


INTERPRETACION:
Solución
Con un 95% de nivel de confianza, el promedio del peso de los
Como fue mencionado, se utiliza un valor de z = 1.96. Con los
hipotiroideos en la población se encuentra entre 69.133 Kg y
datos conocidos, se aplica la fórmula:
72.867 Kg.

Caso 3: Intervalo de confianza para la proporción P

Los valores de los límites, inferior (L1) y superior (L2), se


encuentran aplicando la fórmula general: 0,45

Esta fórmula va a funcionar cuando la muestra es mayor a 30, 0,45


si no, va a ser complicado si tengo una muestra menor a 30.

Por consiguiente, los límites del intervalo se obtienen sumando Por lo tanto, la proporción de niños menores de 5 años
o restando el error estándar al valor de la proporción muestral desnutridos en dicha comunidad está entre 0.352 y 0.548, con
(p). Específicamente, para hallar el límite inferior (L1) se resta el un intervalo de confianza del 95%.
error estándar y para hallar el límite superior (L2) se suma el error
estándar.
2. PRUEBA DE HIPÓTESIS  no se puede establecer de manera directa, se hace de forma
indirecta.

Es una técnica estadística que se sigue para decidir si se Nivel de significación: 


rechaza o no una hipótesis estadística en base a la información
Al hallar el valor , se puede tomar una decisión respecto a
de una muestra. Es llamada también docimasia de hipótesis o
cuál de las 2 hipótesis planteadas es verdadera y cual falsa. La
contraste de hipótesis o prueba de significación estadística.
toma de decisiones se resume en el siguiente cuadro:
2.1 Hipótesis estadística
Ho verdadero Ho falso
Es una afirmación de lo que se cree sobre una población, es
decir, es un supuesto. Por lo general, esta hipótesis se refiere a Rechazar Ho Error tipo I () Decisión correcta
los parámetros de la población o a una situación existente en Decisión
la población. (1 - )
estadística
Tipos de hipótesis estadística No rechazar Decisión correcta Error tipo II ()
Ho
Existen 2 tipos de hipótesis estadística. (1 - )

Hipótesis nula (Ho): también llamada hipótesis de la no


diferencia, pues plantea que los grupos comparados no
difieren en la característica (parámetro) en estudio. Por lo Este cuadro es importante. Cuando se va a tomar la decisión
tanto, la diferencia observada en la investigación es se van a cometer 2 tipos de errores, por ejemplo la Ho puede
consecuencia del error de muestreo. La hipótesis nula (Ho) se ser verdadera o falsa, si tengo una hipótesis nula verdadera y
plantea para ser rechazada o desacreditada, por lo general. en la decisión estadística se rechaza en la Ho estoy cometiendo
un error tipo I llamado (); ahora el otro error, tengo una Ho falsa
Hipótesis alterna (H1): Es la que plantea el investigador (ejm: y no rechazo la Ho pues es un error tipo II llamado ().
hipótesis que planteamos en nuestro trabajo de investigación).
Son todas las alternativas o suposiciones para contrastar la Las decisiones correctas entonces están, tengo una Ho
hipótesis nula (Ho), es decir, aquellas que plantean una verdadera y no rechazo a la hipótesis nula, esa es una decisión
diferencia entre los parámetros involucrados y proponen que correcta (1 - ); el otro es cuando tengo una Ho falsa y lo
la diferencia observada es consecuencia efectiva entre las rechazo pues es una decisión correcta (1 - ).
poblaciones de origen. La hipótesis alterna puede ser unilateral
o bilateral. Como se ha dicho nosotros estamos asumiendo que nuestras
hipótesis nulas siempre son verdaderas.
Ejemplo:
Error Tipo I / Error Tipo II.
Un investigador pretende estudiar en forma comparativa la
eficacia de 2 tratamientos, tratamiento A y tratamiento B, para Cuando se toma una decisión estadística, se puede cometer
determinar cuál es mejor. el error tipo I o el error tipo II.

Ho: A - B= 0. La afirmación de esta hipótesis es que el Para evitarlo, se considera el valor , que fue planteado
tratamiento A no difiere del tratamiento B. anteriormente:

Con respecto al ejemplo, se pueden plantear varias = P(Rechazar Ho / Ho es verdadero)


alternativas. Una de ellas es H1: A - B > 0. La interpretación es
que el tratamiento A es mejor que el tratamiento B, siendo por Representa la probabilidad de cometer un error tipo I. Es así
consiguiente H1 unilateral a la derecha. que un valor mínimo de  determina una menor probabilidad
de cometer el error en el cual se estaría rechazando una
Aspectos a tener en cuenta: hipótesis nula (Ho) que es acertada.  puede ser manejada por
el investigador, por consiguiente es posible hallar su valor. Se ha
En la prueba de hipótesis se investiga la veracidad de ambos establecido que un valor de  menor al nivel de significancia,
supuestos, lo cual conduce a rechazar una de estas 2 hipótesis 5% o 1% dependiendo del caso, es un indicador de que la
y optar por la que tiene un planteamiento acertado. La hipótesis nula (Ho) debe ser rechazada. De esta forma,  indica
elección de la hipótesis acertada se determina en base a el nivel de significación de la prueba, pues permite diferenciar
probabilidades condicionales: la región de rechazo y no rechazo de la prueba. Es así que 1-
=0,95 indica el grado de confianza de la prueba.
  = probabilidad de rechazar la Ho dado que la Ho es
verdadera. RECORDAR: el investigador manea directamente el valor .

 (1 - ) = probabilidad de no rechazar la Ho dado que


la Ho es verdadera. ß
  = probabilidad de no rechazar la Ho dado que la Ho Además existe un valor ß, el cual no se maneja directamente
es falsa. por el investigador.

 (1 - ) = probabilidad de rechazar la Ho dado que la ß= P(No rechazar Ho / Ho falso)


Ho es falsa.
 y ß están relacionados y ambos disminuyen su valor si se
  y  tienen una relación inversamente proporcional, incrementa el tamaño de muestra o si se mejora el diseño del
es decir, uno decrece a medida que el otro aumenta estudio.
y viceversa.
➔ ß Se puede calcular (ß=4)
En un trabajo de investigación con la probabilidad que
Entonces si yo digo que voy a trabajar con  de 0,05, mi ß va a
normalmente trabajamos directamente es con  y con 1-.
ser 0,20.
1-ß= P(rechazar Ho /Ho es falso), también se denomina potencia
de prueba. Es la probabilidad de rechazar la Ho dado que la Ho
es falsa, entonces el valor mínimo que puede tomar es de 80%.

→ Entonces si tengo un  de 0,05, mi ß va a ser 4 veces  osea


0,20.

→ 1-ß va a ser 1 - 0,20 = 0,80

→ Si tengo un  de 0,01, mi ß va a ser 0,04 y mi potencia 1-0,04


= 0,96

→ Solamente el investigador puede establecer directamente


el valor , el valor ß no se puede establecer directamente,
para eso se hace la operación de ß=4.

Generalmente en la prueba de hipótesis estamos asumiendo


que la Ho es verdadera.
MÓDULO 10A: APLICACIÓN DE ● Los grupos comparados no difieren en
la característica (parámetro) en
LA PRUEBA DE HIPÓTESIS estudio.
● Por lo tanto, la diferencia observada
Prueba de hipótesis para variables
en la investigación es consecuencia
cuantitativas numéricas:
del error de muestreo.
● Vamos a poder comparar 2 ● Las variables son iguales entre los dos
promedios grupos
HIPÓTESIS ALTERNATIVA (H1)
INTRODUCCIÓN:
● Es la que el investigador realmente
1. Investigar la veracidad de una piensa que sucederá.
hipótesis ● Los grupos difieren en la característica
2. Existen o no diferencias en alguna (parámetro) en estudio.
característica, es decir de una ● Por lo tanto, la diferencia observada
variable de dos o más muestras. en la muestra es consecuencia
3. Si existe diferencia entre las muestras efectiva entre las poblaciones de
4. ¿también hay diferencias entre las origen.
poblaciones? ● Las variables son diferentes entre los
grupos
Etapas de una prueba de
significación estadística Entonces, la hipótesis nula nos dice
Para ellos hay 5 etapas: básicamente que en la población las
variables son iguales entre los dos
1. PLANTEAMIENTO DE HIPÓTESIS grupos y la hipótesis alternativa en
2. NIVEL DE SIGNIFICACIÓN: ¿Tienen que resumen nos dice que en la población
decidir cuál será ese nivel de las variables son diferentes entre los
significación?, lo vamos a llamar grupos.
``alfa” y lo regular es usar que alfa sea Usualmente el investigador quiere que
igual a 0.05, en algunos casos más las variables sean distintas ¿por qué?
estrictos usaremos un alfa de 0.01. Porque uno de los grupos
seguramente está recibiendo un
3. ESTADÍSTICO DE PRUEBA medicamento y quiere comprobar
4. DETERMINACIÓN DE LA REGIÓN DE que ese medicamento es bueno por
RECHAZO DE LA HIPÓTESIS NULA 🡪 Ho: ej. es para bajar la temperatura o
para disminuir el dolor, o para mejorar
5. INTERPRETACIÓN DE LOS RESULTADOS
algún problema de salud que tienen
Se irá viendo detalladamente cada las personas
uno de los pasos
2) NIVEL DE SIGNIFICACIÓN
1) PLANTEAMIENTO DE HIPÓTESIS
● Se define como la probabilidad
de tomar la decisión de
HIPÓTESIS NULA(Ho): rechazar la hipótesis
nula cuando ésta es verdadera
(decisión conocida como error • pero siempre tenemos cierta
de tipo I, o falso positivo). probabilidad de cometer lo
● La decisión se toma con el que se denomina un error de
valor-p: si el valor p es menor al tipo 1: rechazar la hipótesis nula
nivel de significación, entonces cuando en realidad es
la hipótesis nula es rechazada. verdadera, esto sucede
● Cuanto menor sea el valor p, cuando caemos en esa
más significativo será el probabilidad que pensábamos
resultado, pero lo más que era chiquita porque es
importante es que el p sea menor del 5% pero existe, por
menor que el nivel de eso se dice que nos podemos
significación equivocar.

RECORDAR: “…siempre nos movemos en el terreno de la


probabilidad” ¡y nos podemos equivocar!
a = nivel de significación.
• Por otra parte, el valor de p > 0,05 no
• Lo decide el investigador, (0.05 o 5% /
afirma que la hipótesis nula (H0) sea
0.01 o 1%)
verdadera, ya que puede ocurrir que
• Si no se dice nada 🡪 a = 0.05 la diferencia sea real y el estudio no
tenga potencia para detectarla.
Valor-p: se define como la probabilidad de
que un valor estadístico calculado sea • Eso sería el error de tipo 2: no
posible DADO QUE la hipótesis nula es cierta. rechazar la hipótesis de nulidad
(y afirmar que no existe el
p ≤ a 🡪 Se rechaza Ho
efecto) cuando en realidad sí
• Si la prueba da un valor-p muy que existe en la población
pequeño (p<0.05). (pensar, por ejemplo, que el
tamaño muestra no sea el
• Se asume que la probabilidad de
suficiente)”
obtener esa diferencia, dado que Ho
es cierta, es muy pequeña. TIPOS DE ERRORES
• Por lo tanto, esa hipótesis nula se
Debido a que una hipótesis se rechaza o no
debería rechazar.
en base a los resultados de una muestra,
“…siempre nos movemos en el terreno de siempre existe la posibilidad de no decidir
la probabilidad” ¡y nos podemos acertadamente, cometiendo un error. Se
equivocar!” pueden cometer dos tipos de errores:

• Una p < 0,05 quiere simplemente decir Decisión Realidad


que es poco probable que la hipótesis estadística
nula (H0) sea cierta, luego la
H0 es verdadera Ho es falsa
rechazamos para abrazar la
alternativa

OJO:
estudiar la población completa y por lo tanto
No Decisión acertada Error tipo II
tomamos muestras, lo que nosotros
rechazar
1-a b encontramos en las muestras probablemente
H0
pueda suceder en la población siempre y
cuando las muestras sean representativas y
Decisión
para ver si que lo encontrado en las muestras
Error tipo I acertada
es real tenemos que hacer este tipo
Rechazar
a 1-b de hipótesis y  este tipo de
H0
pruebas estadísticas,  entonces como les
(Potencia de
decía estos son los tipos de errores que
Prueba)
podemos cometer en estadística.
Aquí quiero que encuentren y que vean ya
que  es súper importante, “ Alfa” es
Los tipos de errores se basan en que igual a “P” o probabilidad del “error tipo 1” y
una hipótesis se rechaza o no en base a eso es igual a “P” o probabilidad de
los resultados de una  muestra y  siempre rechazar la hipótesis nula dado
existe la posibilidad de no decidir  de que la hipótesis nula es
manera acertada cometiendo entonces  un verdadera, recuerden esto porque siempre
error, estos son los tipos de errores que nos basamos en las probabilidades
cometemos, si la decisión estadística fue y “beta “es “P” o  probabilidad del error
de  no rechazar  la hipótesis nula  pero en tipo 2 qué es igual a “P” o probabilidad de
realidad la hipótesis nula es falsa entonces no rechazar la hipótesis nula dado que
estamos cometiendo el error tipo “2  o beta”, la hipótesis nula es falsa recordando siempre
si la hipótesis nula en ese caso era que lo que está a la derecha del paréntesis
verdadera entonces estamos tomando una es lo que sucede primero. 
decisión acertada esa decisión acertada
será de “1- Alfa”.  Si la OJO:
decisión estadística que nosotros tomamos
Podemos rechazar H0, PERO NUNCA
era de rechazar la hipótesis nula, pero en
podemos afirmar lo contrario:
realidad la hipótesis nula era verdadera
entonces estamos cometiendo el error” tipo NO SE PUEDE Aceptar la H0
1” a eso se le llama “Alfa”. La realidad
H0 solo es falsable, nunca podemos afirmar
podría también haber sido
que sea cierta.
que la hipótesis nula si era falsa y la
rechazamos, entonces tomamos una 3) ESTADÍSTICO DE PRUEBA
decisión acertada y eso es “1-Beta” y a
Vamos a centrarnos en la diferencia de 2
ese “1-Beta” se le llama “potencia de la
medias y pueden ser:
prueba”. Hay que recordar un poquito
que es esto de tomar muestras y obtener Diferencia de dos medias independientes
cosas con las muestras y si es o no factible
Se una: Prueba t independencia
para la población, desde la primera clase
hemos visto sobre los métodos  estadísticos, 
los métodos científicos y recuerden que es
imposible para nosotros como investigadores
Diferencia de dos medias relacionadas Por otro lado, cuando la hipótesis alterna no
(pareadas indica una diferencia específica es decir
puede ser simplemente diferente entonces
Se usa: Prueba t pareada
se requiere de una prueba bilateral.
Las muestras independientes normalmente se
Entonces recordemos: cuando los signos son
obtienen cuando tengo 2 grupos diferentes
mayor o menor debe usarse una prueba
de personas a las que a una se le da un
unilateral, en cambio cuando los signos son
medicamento y a la otra un placebo, por ej.
diferentes se usa la prueba bilateral porque si
Mientras que la diferencia de 2 medias
es diferente puede que sea mayor o menor,
relacionadas o pareadas suele suceder
no importa lo único que nosotros decimos en
cuando se le da a un mismo grupo de
la hipótesis alterna en que sea diferente.
personas una medición, luego a ese mismo
grupo de personas le doy un medicamento y Zona de rechazo
un tiempo después vuelvo a medir lo mismo
que medí hace unas semanas. Entonces es
la misma cantidad, es la misma persona, son
los mismos sujetos en la muestra con un antes
y un después.

4) DETERMINACIÓN DE LA
REGIÓN DE RECHAZO DE LA
HIPÓTESIS NULA 🡪 Ho:
La localización de esta región de rechazo va Y aquí tenemos las figuras de las campanas
a depender de la hipótesis alterna, es decir de gauss o de la distribución de la población
de lo que diga el investigador. donde vemos arriba a la derecha que la
hipótesis alterna dice que un promedio es
Entonces nosotros tenemos que haber
mayor que el promedio de la hipótesis sub
planteado nuestra hipótesis y según ese O. Cuando es mayor entonces voy a tener
planteamiento vamos a poder decidir la que la zona de rechazo está a la derecha, es
dirección de la diferencia. la cola derecha eso sería entonces
unilateral, en el dibujo de abajo podemos
• Si indica la dirección de la diferencia
ver una prueba bilateral porque puede ser
(H1:m1 > m2 ó H1: m1 < m2) menor o puede ser mayor por lo tanto
la zona de rechazo serán las dos colas, la
si la hipótesis alterna dice que la muestra 1
cola a la izquierda es negativo y la
tiene un mayor valor que la muestra 2 o que cola derecha un partitivo. Ojo que eso
la muestra 1 tiene un menor valor que la significa lo pintado en rojo del gráfico de
muestra 2 entonces tenemos que usar una arriba a la derecha tiene dentro de él el 5%
prueba unilateral. del área bajo la curva porque mi Alfa
escogida es 0.05 o 5%s en cambio en
• Si no indica la dirección de la
el gráfico de abajo ambos triángulos ambas
diferencia,
colas deben medir 0.05 es 
(H1: m1 = m2) decir  deben tener el 5% del área bajo la
curva pero está dividido en
2 triángulos por lo tanto
cada triángulo mide la mitad de 5% es decir
cada área bajo la curva de la cola izquierda
de la cola derecha cada 1 individualmente
tienen 0.025 del área bajo la curva. 
Este tercer gráfico de la parte superior
es el gráfico donde se ve una hipótesis
unilateral donde el triángulo es a
la izquierda por lo tanto es unilateral y voy a
tener la zona de rechazo en la
cola izquierda 
¿Cómo decido entonces la zona de
rechazo? Hay que recordar que se En este caso la hipótesis nula es bilateral, la
determina por lo que dice el investigador en región de rechazo está a ambos lados, las
la hipótesis alterna o alternativa.  colas deben tener un área de 0.025, al
medio queda entonces 0.95 del área total
Hipótesis nula unilateral a derecha bajo la curva.

Recuerden siempre tiene la región de 5) INTERPRETACIÓN DE LOS


rechazo a la derecha, este triángulo que da RESULTADOS
bajo la curva es el 0.05 del área bajo la
curva y detrás de esa raya azul dibujada DIFERENCIAS ESTADÍSTICA
queda 0.95 del área bajo la curva SIGNIFICATIVA

Es decir, cuando lo que encontramos


Hipótesis nula unilateral a izquierda
se encuentra en la región de rechazo
o cuando el “P” es menor al 0.05, que
es lo mismo, vamos a tener que
interpretar de la siguiente manera,
vamos a tener que decir que “Hay
evidencia de una diferencia
significativa”.

Para hacerlo más específico nosotros


diremos que “Hay evidencia de ___ (lo
que diga la hipótesis alterna Ha)” Y
esto por qué? Porque con el nivel de
significancia que nosotros hemos
elegido, por ej. 0.05, si la hipótesis nula
fuera verdadera sería muy improbable
En este caso es una hipótesis nula unilateral a
que se hubiera obtenido una
la izquierda, por la tanto la cola donde se
diferencia igual o mayor a esa
encuentra la región de rechazo está en el
diferencia observada, por lo tanto
lado negativo y su valor crítico será -1.65,
vamos a aceptar que lo que
recuerden siempre la tabla Z.
encontramos realmente es efecto de
Hipótesis nula bilateral la diferencia que lo que nosotros
propusimos en los grupos, es decir por
ej, que el grupo A tuvo menor dolor
que el grupo B porque el grupo A
estuvo tomando el medicamento que
yo quiero usar para bajar el dolor.

DIFERENCIA ESTADÍSTICA NO
SIGNIFICATIVA

Cuando yo no encuentro una


diferencia estadísticamente
significativa entonces tendré que
decir que no hay evidencia de una
diferencia significativa, para ponerlo
más específico del problema que
estamos desarrollando tendríamos
que decir que: No hay evidencia de
___ (lo que diga la hipótesis alternativa
Ha) ¿Por qué hay esto? Porque de
acuerdo al nivel de significación
escogido, no hay suficiente evidencia
para rechazar la posibilidad de que la
diferencia observada se debe a error
de muestreo.
MODULO 10B: APLICACIÓN DE LA
PRUEBA DE HIPÓTESIS
MEDIAS INDEPENDIENTES
Habíamos mencionado que para 2 medias
independientes vamos a usar la prueba T de
independencia. A la izquierda vemos la
Estadístico de hipótesis bilateral, donde la hipótesis nula que
Prueba: siempre tiene el signo de igual(=) dice que el
promedio del grupo 1 es igual al promedio del
Prueba t grupo 2 en este caso la hipótesis alterna tiene
independencia que decir todo lo contrario a la hipótesis
nula por lo tanto si la hipótesis nula dice que
son iguales la hipótesis alterna tiene que decir
Desviación
que
común
son diferentes, entonces la hipótesis alterna
dice que el promedio del grupo 1 es diferente
Donde: del grupo 2, si es menor es diferente si es
mayor también es diferente y por lo tanto es
SC: Desviación común bilateral tenemos que tener en cuenta las dos
colas.
n= Tamaño del grupo
En el ejemplo del medio la hipótesis nula dice
S= Desviación del grupo
que el grupo 1 tiene un promedio mayor o
X1 Y X2: Medias igual que el grupo 2, recordemos que la
hipótesis nula siempre contiene el signo de
Es super importante recordar
igual (=), la hipótesis alterna por el contrario
como diferenciar que estas medias sean
dice todo lo contrario, por tanto, dice que el
realmente independientes, vamos a trabajar
grupo 1 tiene un promedio menor que el
toda esta clase con un ejemplo y es que suele
grupo 2.
decirse que las personas que hacen ejercicio
tienen el nivel de creatinina en sangre un En el ejemplo de la derecha la hipótesis nula
poco más elevado que las personas que dice que el grupo 1 tiene un promedio menor
no hacen ejercicio, entonces si yo quiero o igual que el grupo 2, y la hipótesis alterna
realmente a comparar esto y ver si en la dice todo lo contrario, dice que el grupo 1
muestra que estoy utilizando tengo personas tiene un promedio mayor que el grupo 2.
deportistas y personas no deportistas voy a
EJEMPLO:
poder medir el nivel de creatinina, el “grupo
1” serán mujeres no deportistas el “grupo • Queremos comparar la cantidad de
2” serán mujeres deportistas, a ambos grupos creatinina en la sangre en mujeres
les voy a medir el nivel de creatinina en deportistas y no deportistas. Para ello,
sangre. Es obvio entonces que estas son se tomaron dos muestras
muestras diferentes, uno son mujeres que independientes de 10 personas cada
hacen deporte y otro son mujeres que no una, de una población de mujeres de
hacen deporte 30 años clínicamente sanas.

DIFERENCIA DE DOS PROMEDIOS


se contrastará alguna de las hipótesis que
sigue:
Aquí tenemos entonces en el grupo 1 mujeres 0.21(desviación común) y nos va a salir -
no deportistas, en el grupo 2 deportistas y 3.27(valor del T calculado)
vemos que en el grupo 1 el promedio de
creatinina es 0.67 con una desviación
estándar de 0.13 y en el grupo 2 los niveles de
creatinina es 0.98 y una desviación estándar
de 0.27. A simple vista podemos ver que los
promedios nos indican que el grupo 2 tiene
mayores niveles de creatinina en sangre, pero
nosotros queremos ver si lo que sucede en
esta muestra de 20 personas también sucede
en la población. Entonces vamos a hacer el
procedimiento de las 5 fases, la primera fase
era plantear la hipótesis. Tenemos que RECORDANDO:
asegurarnos que dice la pregunta, esta
Primero mis hipótesis eran bilaterales
hablaba de una diferencia por lo tanto la
hipótesis alterna que es la que quiere el
investigador es que el promedio del grupo 1
es diferente al promedio del grupo 2. Ahí solo
hablaba de una diferencia, no decía quien
era mayor o menor, por tanto, tengo que
poner el valor de “diferente”. LA HIPOTESIS
NULA tiene que ser lo contrario de LA
HIPOTESIS ALTERNA, y lo contario es que sea Para el 4to paso tengo que determinar mi
igual (=) en este caso la hipótesis nula dice región de rechazo, al ser bilateral recuerdo
que el grupo 1 es igual al grupo 2 en sus que tengo que pintar las 2 colas, luego tengo
valores de creatinina en la población. La que recordar que mi “tabla T” me habla de
segunda parte era buscar el nivel de una T de tabla con grados de libertad y para
significación, si en la pregunta o enunciado escoger mi valor de la T de tabla, tengo que
no habla de ningún valor de nivel de saber cuáles son los grados de libertad. En
significación nosotros debemos escoger 5%. este caso como son 2 grupos, ya no es” n-1”,
ahora es “n del grupo 1” + “n del grupo 2” –
La tercera fase es la estadística a usar,
“2”, si yo tenía 20 participantes en total en el
recordando que al ser muestras
estudio entonces mis grados de libertad van a
independientes vamos a usar la T de
ser “18”
independencia. La primera formula a usar es
la desviación común:

Porque la formula de T incluye a la fórmula de


desviación común, entonces vamos a
reemplazar los valores que nos brindaron a la
formula, y haciendo la operación nos sale
0.21(desviación común). Una vez que
tenemos “0.21” vamos a obtener la fórmula
¿Y cómo vamos a trabajar con la tabla?,
del estadístico de prueba es decir en la T de
independencia, vamos a reemplazar los
valores de los grupos y los valores del
El punto donde nosotros tenemos que dibujar
la línea perpendicular para nosotros poder
pintar a la izquierda y derecha es -2.10 y 2.10+,
pero eso es en la tabla, pero ¿Qué nos había
salido a nosotros? Nos había salido el T
calculado en -3.27, ahora este -3.27 tengo
que ubicarlo en el grafico ¿Dónde cae el -
3.27? Cae más a la izquierda del -2.10 por lo
tanto cae dentro de la zona de rechazo y
¿qué significa esto?, Significa que se rechaza
la HIPOTESIS NULA Y se concluye que hay
diferencias significativas entre los promedios
poblacionales de creatinina en la sangre
medidos a mujeres deportistas y a mujeres no
deportistas.

Aquí vemos la tabla, a la izquierda podemos


ver los grados de libertad, arriba podemos ver
los niveles de 2 colas y abajo los niveles de 1
cola, esto nos va a servir ya sea para escoger
de una cola pero en este caso es una prueba
Luego de ver como comparamos el T
bilateral por lo tanto escogeremos de arriba(2
calculado con el T de tabla y en nuestro
colas) , entonces ¿cuál era el nivel de
dibujo si el T calculado cae en la zona de
significancia?, era “5% o 0.05”, entonces de
rechazo nuestra decisión será rechazar la
aquí escogemos la columna que nos hable
hipótesis nula, sin embargo, hay una forma
de 2 colas y que nos hable de 0.05 de niveles
mucho mas especifica de determinar si debo
de significancia, y tenemos que ver donde
rechazar o no la hipótesis nula y eso es
cae esa columna del 0.05 con la fila de 18
encontrando un rango de valores del P en
grados de libertad. En la imagen se puede
este estudio:
apreciar que el valor de T de tabla seria 2.10
recordando que lo estamos haciendo en
negativo, entonces seria -2.10.

Entonces ya habiendo escogido nuestro T de


tabla que salió -2.10 vamos a ubicarlo:
Recordando que 18 grados de libertad es la
fila, se quiere que mi P sea menor que 0.05
porque ese es mi nivel de significancia, pero
yo puedo determinar incluso donde cae el
3.27 dentro de esta fila de 18 grados de
libertad, como sabemos el 3.27 es mayor que
1.33, 1.73, 2.10 y por lo tanto desde aquí se
puede decir que es estadísticamente
significativo pero también es mayor que 2.45,
2.55, 2.88 y 3.20 y por lo tanto el 3.27 se • Figura1: Usando la región de
encontraría a la derecha de 3.20 y al 3.20 le rechazo
corresponde un valor de significancia de
0.005, entonces yo puedo decir que mi T
calculado de 3.27 caería a la derecha de
esta columna y por lo tanto es menor que • Figura 2: Usando el valor de p, o
0.005 ese vendría a ser el P de mi estudio y el el intervalo donde encontraría
rango en el que se mueve es menor que el valor p
0.005. Cabe la posibilidad que el T calculado ¿Pero y como vamos a hacer para interpretar
que nosotros obtengamos en algunos estudios de investigación o publicaciones en
ejercicios no esté a la derecha de todas las revistas científicas?
columnas sino este al medio de 0.02 y 0.01
entonces diremos que el P del estudio esta EJEMPLO:
entre 0.01 y 0.02 por ende es menor que mi
nivel de significancia y caería en una región
de rechazo. Entonces seguimos con los pasos
y se rechaza la hipótesis nula porque el P fue
menor que 0.05.

En la tabla 3 de este estudio se ve el efecto


de administración de la hormona de
crecimiento en las concentraciones de
plasma de IGF-1 en hombres sanos mayores.

Se puede ver los niveles de plasma de IGF-1


Teniendo esto entonces, sabemos que hasta el mes 6 son niveles de base y a partir
podemos tomar la decisión de 2 formas, del mes 7 hay periodo de tratamiento con
usando la región de rechazo con el grafico o hormona de crecimiento. Nos habla del
definiendo cual es el rango de valores que grupo 1 y grupo 2 y nos dice que los valores
podría tomar mi P en este estudio. En este que nos están dando son promedios +- una
caso es un valor de P muy pequeño menor desviación estándar, además nos dice que
que 0.005 cuando hay un asterisco (*) significa que el P
para esas diferencias es menor que 0.05.

Vemos que en el mes 1 los valores son casi


iguales, 240 con una desviación de 86 o de 69
para el grupo 2, pero a partir del periodo 7
que empieza el periodo de tratamiento
comenzamos a ver unas diferencias bastante
grandes, en el grupo 1 hay 830 +- una
desviación estándar y en el grupo 2 queda
como 200 +- una desviación estándar.

En el mes 8 siguen esas diferencias “680 vs


220”, en el grupo 9 “720 vs 240”, en el mes 10
“810 vs 180”, en el mes 11 “810 vs 240” y en el
mes 12 “910 vs 300”.

PREGUNTA DE EXAMEN:

¿HAY DIFERENCIA ENTRE LAS MEDIAS DE LAS


CONCENTRACIONES DE PLASMA IGF-I EN LOS
DOS GRUPOS A LOS 12 MESES?
Ahora escojo mi estadístico de prueba,
Si hay una diferencia en las muestras, además primero empiezo con “SC” es decir la
veo los asteriscos y eso me dice que esa desviación común, tengo aquí la formula,
diferencia es significativa. ¿Podemos decir en reemplazo los valores en mi formula y me sale
qué meses de tratamiento llega a ser una 270.865(SC), con esta desviación ya puedo
diferencia significativa? Sí, tendríamos que trabajar en mi formula T y me sale 5.17(T)
encontrar todos los meses en donde haya un
asterisco (*), están en el mes 12, 11, 10, 9 y 8
incluso en el mes 7. Entonces en todos los
meses donde hubo tratamiento la diferencia
de concentraciones de plasma IGF-1 es
significativa, esa va a ser la clave, es decir que
cuando haya un asterisco el P va a ser menor
que 0.05 por lo tanto esa diferencia que
encontremos en cualquiera de los meses será
una diferencia significativa.

Tenemos entonces grados de libertad,


recordemos tenemos que saber cuantas
personas hay en el grupo 1 y 2 y a eso restarle
2, y me sale 19 (grados de libertad), y el T
calculado me sale 5.17.

Vamos a ver ahora si: Luego vamos a la tabla y ubicamos con 0.05
2 colas y 19 grados de libertad y vamos a
¿HAY DIFERENCIA ENTRE LAS MEDIAS DE LAS encontrar que el valor de la t de tabla es
CONCENTRACIONES DE PLASMA IGF-I EN LOS 2.093.
DOS GRUPOS A LOS 12 MESES?
Entonces dibujamos el grafico en 2.093 en
Copio los datos de los valores a los 12 meses positivo y negativo, voy a dibujar mi línea
del grupo 1 y 2, mi hipótesis nuevamente será perpendicular y las colas las pintare como
bilateral porque no me dice si es mayor o zona de rechazo. ¿Dónde cae 5.17? Cae a la
menor solo me indica si “hay diferencia”, por derecha de la T de tabla por lo tanto esta en
tanto, mi hipótesis alternativa dirá que son la zona de rechazo así que se rechaza la
diferentes y mi hipótesis nula dirá que son hipótesis nula y como conclusión seria que
iguales, luego tengo que escoger mi nivel de hay diferencias significativas en las medias (p
significación, si no dice nada mi pregunta hay < 0.05)
que recordar que es escoge 5%
Por lo tanto, decimos que:
El tratamiento con HGH ha tenido influencia
sobre la concentración de plasma IGF-I.
ANÁLISIS DE REGRESIÓN • Es un gráfico que permite detectar la
existencia de una relación entre dos
REGRESIÓN variables (X e Y). Esto se dara por
medio de puntos.
• El análisis de regresión es útil para
averiguar la forma probable de las • Visualmente se puede buscar
relaciones entre las variables. patrones que indiquen el tipo de
• El objetivo final del análisis de relación que se da entre las variables
regresión es predecir o estimar el
valor de una variable cuando
conocemos el valor de otra
variable que esta relacionda
CORRELACIÓN
El análisis de correlación se refiere a la
medición de la intensidad de la relación
entre variables
VARIABLES X e Y
• X= variable independiente, bajo el RELACIONES POSIBLES ENTRE X E Y VISTOS
control del investigador. EN DIAGRAMAS DE DISPERSION
o Los valores de X son
Las siguientes imagenes nos muestra las
seleccionados previamente por
posibles relaciones , pero nos centraremos
el investigador, de modo que en
en las que esta resaltadas ; una relacion
la recolección de datos estos no
positive lineal o una relacion negrativa
pueden variar , y solo
lineal.
recolectaremos los valoes de Y
• Y= variable dependiente , cambian al
azar dependiendo al sujeto en el que
estemos estudiando
• Normalmente se habla de regresión
de Y sobre X.
Ecuación de regresión
▪ Lo que el investigador desea es
encontrar una línea que pueda
predecir lo que le sucede a Y con
cada cambio de X.
▪ Esta ecuación describe la relación real
entre las variables X e Y. • La relacion positiva se suele llamar
directa
▪ Como es una relación lineal, dicha • La relacion negativa se suele llamar
ecuación será la ecuación de una inversa
recta:
APLICACIÓN
Y= a +bX
• Los datos siguientes muestran el
• Es la ecuación de la recta tiempo (en horas por semana) y la
disminución de peso de niños con
EL DIAGRAMA DE DISPERSION
signos de obesidad. De acuerdo a la 2do Paso:
cantidad de ejercicio que hacen el
• Encuentre los valores mínimos y
horas/semana.
máximos para X e Y. para poder
dibujar el eje X y eje Y , esto nos dará
las escalas de los ejes.
• Elija las escalas que se usarán en los
ejes horizontal y vertical, de manera
que ambas longitudes sean
aproximadamente iguales, facilitando
la lectura del diagrama.

En el cuadro tenemos 10 pacientes,


vemos que al paciente 1 se le dio 1h de
ejercicio a la semana y al paciente 10 se
le dieron 5h 30min a la semana, esto fue
determinado por el investigador, lo que
será variable de acuerdo al individuo será
la disminución de peso en kilos. 3er Paso:
PROCEDIMIENTO • Registre los datos en el gráfico.
• Si tuviera los mismos valores en
1er Paso:
diferentes observaciones, muestre
• Temenos que decider cual X e Y , estos puntos haciendo círculos
recuerda que lo que determina el concéntricos (o), o registre el segundo
investigador es la variable punto muy cerca del primero.
independiente , y a eso le llamamos X.
(horas por semana que se le dio a
cada niño).
• Reúna pares de datos (X,Y), cuya
relación desea estudiar y organice la
información en una tabla.

el grafico está representando al ejemplo


4to Paso:
• Agregue toda la información que
puede ser de utilidad para entender el
diagrama, tal como: título del
diagrama, período de tiempo, número
de pares de datos, nombre de la
variable y unidades de cada eje, y
saber que estoy midiendo en cada eje
, entre otros.
REGRESIÓN LINEAL SIMPLE
• Es una técnica estadística que permite
determinar la mejor ecuación que
represente la relación entre dos
variables relacionadas.
• Si yo quiero graficar a una linea a
mano , en un grafico como el que
temenos , esa linea tendriamos que
tratara que exista la misma cantidad
ANÁLISIS DE REGRESIÓN de puntos por encima de la linea y por
debajo de la linea , pero para eso
OBJETIVO DEL ANÁLISIS DE REGRESIÓN
debemos determiner la ecuacion de la
• Estudio de la relación funcional recta , para tener una regresion lineal
entre dos variables. adecuada.

• Establecer una relación


cuantitativa entre dos o más
variables relacionadas.
• Se trata de PREDECIR y/o EXPLICAR
que le va pasar a la variable si yo
cambio el valor de otra variable,
que le va pasar a la variable
dependiente si yo cambio , por
ejemlo en una unidad la variable
Con esa línea yo podre predecir el valor
independiente.
de Y (variable independiente) a partir de
• Las variables X e Y deben ser de un valor que conozco de X , en el ejemplo
naturaleza cuantitativa y de de las horas de ejercicio yo podre decirle
preferencia continua. a un niño que haga 10h de ejercicio a la
semana y podría predecir cuanto peso
ANÁLISIS DE REGRESION
debe de bajar ese niño después de cierto
Se debe AJUSTAR una línea entre los tiempo porque ya podría conocer la
puntos observados, esta linea debe ecuación de regresión.
parecerce lo mas possible a todos los
• Para poder hallar la relación
datos que obtengo de ese grafico , a fin
cuantitativa entre las variables,
de usarla para predecir el valor de Y
mediante la regresión lineal, se
(variable dependiente) a partir de un
debe ajustar una línea entre los
valor conocido de X (variable
puntos observados.
independiente).
• Ahora, es posible usar la línea para
predecir el valor de Y (variable
dependiente) a partir de un valor
conocido de X (la variable
independiente).
valor que acompaña a X , si X cambia en
1 en Y cambiara 1.5 su valor.
▪ El aumento en Y, cuando X varía en
una unidad, está dado por el
coeficiente de X. en el ejemplo
anterior era 1.5

En toda regresión lineal: Ejemplo:

• Para cada valor de X hay una


En Y = 10 + 2X
subpoblación de valores Y.
cuando X aumenta en 1, Y aumenta
• Cada subpoblación de los valores en 2
de Y tiene distribución normal.
En Y = 5 - 0,8X
LAS ECUACIONES LINEALES SIMPLES
cuando X aumenta en 1, Y disminuye
Formula generica: en 0,8
▪ Es importante definir el signo, en este
• Si dos variables, como X e Y, están
caso no solo puedo decir que cambia
relacionadas, se puede expresar
en 2 , sino que puedo decir que
como una relación, por ejemplo:
aumenta en 2 , y también puedo decir
Y = 3 + 1,5X (Y= a +bX ) que disminuye en 0.8.

• Al conocer la ecuación se puede: esta TIPOS DE VARIABLES


es la parte de predicción
Variable Y es la dependiente y Variable X
a) Calcular el valor de Y para cualquier es la independiente, eso se llama
valor dado de X ecuación de regresión y nos permite
hacer predicciones.
b) Conocer el cambio en Y, cuando X
varía en 1punto En una ecuación como Y = 30 + 3X, el valor
de Y depende del valor que toma X, por
Por ejemplo: Y = 3 + 1,5X
eso a Y se le llama variable dependiente,
y a X se le llama variable independiente.

Para cada valor de X que tengo voy a En los gráficos podemos ver que todos los
calcular un valor de Y, y también puntos no caen exactamente sobre la
calculare cuanto cambio Y por un recta y eso es porque existen errores entre
cambio de un punto en X, vemos que el la recta y valores reales observados.
resultado es 1.5 , lo encontramos en la
ecuación al costado de X , y ese será el
TIPO DE RELACIONES GRÁFICA DE UNA ECUACIÓN DE PRIMER
GRADO
• Cuando cambios en X provoca
cambios en Y en igual sentido Ejemplo: Y = 3 + 1,5X
(aumentos o disminuciones), las
variables están directamente
relacionadas. Se observa el signo +
• Cuando X aumenta en 1 e Ytambien • Los cinco pares de valores se
aumenta vamos a observar vamos diagraman de la forma siguiente.
observar un valor positivo en la
ecuación , y los puntos dibujados en el
diagrama de dispersión sera de esa
forma , es decir iran hacia arriba.

Cuando cambios en X, provoca


FORMA GENERAL:
variaciones en Y en sentido inverso (X
aumenta, Y disminuye o viceversa), las La ecuación simple de primer grado tiene
variables están inversamente la siguiente forma general
relacionadas. Se observa en la
Y=a + bX
ecuación el signo -.
o Cuando un aumento en X lo que Donde:
hace es una disminución en Y
b: pendiente de la recta , o sea, el cambio
entonces decimos que están
en Y cuando DX = 1.
inversamente relacionadas, y
encuentro el signo negativo y una a: el valor autónomo, es decir, Y = ?
línea que esta bajando. Hay cuando X = 0.
decimos que las variables están
En la gráfica es la intersección con el eje
inversamente relacionadas una
Y
sube y la otra baja.
• Pendiente significa cuanto será el
cambio en Y , cuando X cambia solo
un punto , en este caso la pendiente
esta determinada por 1.5
• Valor autónomo significa cuando X es
igual a 0 , cual será el valor de Y ,
también es la intersección de la recta
en el eje Y. en este ejemplo es 3
los Y , X , Y° , X° y XY , esta es la fila que
se usara para usar las fórmulas :

PASOS
Para determinar los valores de la
ecuación debo tener encuenta estas dos
formulas, y recordar que debo encontrar
los valores de a y b.
EJEMPLO
• Los valores constantes de la ecuación
son a y b. • Una compañía farmacéutica
conduce un estudio piloto para
• El primer paso para determinar la
evaluar la relación entre tres dosis en
ecuación es hallar b con la fórmula: y
un nuevo agente hipnótico (pastilla
después encontrar el valor de a ,
para dormir) y tiempo de sueño. Los
porque dentro de la formula de a esta
resultados de este estudio son
el valor de b
presentados de la siguiente manera.

• Conociendo b es posible hallar el valor


• Vemos que dieron tres dosis distintas ,
de a con la ecuación:
3 mm/kg , otros 3 pacientes tomaron
10 y otros 3 tomaron 15 , pero
obviamente los pacientes que
tomaron 3 tuvieron la misma hora de
sueño los que tomaron 10 o 15 , pero
queremos ver la relación entre la dosis
del medicamento y la dosis del sueño
• Sin embargo, aún con la ecuación, que obtuvieron.
como todos los puntos no están
SOLUCIÓN
exactamente sobre una línea recta, se
cometen errores en el ajuste. • El diagrama de dispersión que se
construye a partir de estos datos es el
Debido a la complejidad de la fórmula
siguiente:
para hallar b y a, es recomendable
ordenar los datos observados y los
respectivos cálculos en un cuadro
igual al propuesto en el análisis de
correlación y sumar estas tres
columnas (X° , Y° Y XY)y finalmente una
fila final de totales donde sumo todos
La idea es ajustar una línea
Ppt 31: Interpretación:
• Según el diagrama de dispersión, se • Por cada incremento de dosis del
espera una relación positiva o directa agente hipnótico, el tiempo de
entre ambas variables. Se puede sueño promedio aumenta en 0.5 puntos.
aplicar el modelo de regresión para
ajustar los puntos y establecer una
relación lineal que permita conocer la
relación cuantitativa entre ambas
variables.
• Modelo de regresión y = a + b x,
quiero establecer esta fórmula, pero
con los números de mis datos
Para hallar la ecuación es recomendable
realizar determinados cálculos y ordenar
los datos de la siguiente forma:

Esta organización de los datos facilita la


estimación de la recta de regresión,
debido a que proporciona todos los datos
requeridos para hallar b y a

• Conociendo los valores de b y a, se


tiene el modelo de regresión
estimado que sería:
• Y = 3.33 + 0.5X
ANÁLISIS DE CORRELACIÓN

Objetivo:
Aplica conocimientos de inferencia estadística para determinar la asociación o relación entre dos variables cuantitativas.

→ El análisis de correlación se refiere a la medición de la intensidad de la relación entre variables.

El análisis de correlación
El análisis de correlación es la técnica estadística que permite describir el grado hasta el cual una variable está linealmente relacionada
con otra.

Hay dos medidas que se usan para describir la correlación

▪ El coeficiente de determinación:

▪ El coeficiente de correlación: estadístico r, parámetro ρ (con este haremos la prueba de hipótesis y porsiacaso usaremos la tabla t).

Correlación simple r o de Pearson


El análisis de correlación es un grupo de técnicas estadísticas que permiten medir la intensidad de la relación que puede existir entre
dos variables.

•Por ejemplo, si se quiere conocer la relación entre los datos de peso y talla de 30 individuos que se presentan a continuación:

Talla (cm) 162 154 180 158 171 169 166 176 163 ...X30
Peso (kg)
61 60 78 62 60 60 54 84 68 ...Y30

•Los datos pueden ser representados en un diagrama de dispersión, en el cual cada individuo es un punto que se ubica en el espacio
según los valores de sus variables talla (X) y peso (Y).

¿Será una relación positiva o negativa? ¿Por dónde se ajusta la línea? Maso menos será donde está la línea amarilla

•Con este diagrama se puede suponer, por observación, que existe una relación directa entre ambas variables. Sin embargo, se
requiere de un análisis de correlación para comprobar y validar la suposición.

Correlación simple (r) o de Pearson


•El coeficiente de correlación lineal de Pearson indica si los puntos en el diagrama tienen una tendencia a disponerse alineadamente
(relación lineal)
•Siendo este el caso, indica también el grado de relación y el sentido (relación directa o inversa). Este coeficiente – representado
como parámetro ρ o como estadístico r se halla con la siguiente fórmula:

Talla (cm) 162 154 180 158 171 169 166 176 163 ...X30
Peso (kg)
61 60 78 62 60 60 54 84 68 ...Y30

•Cuando se aplica a un conjunto de datos es recomendable ordenar la información de la siguiente forma e incluyendo los siguientes
cálculos:

# de observación Talla (cm) Peso (kg) X2 Y2 XY


1 162 61 26244 3721 9882

2 154 60 23716 3600 9240

...n Xn Yn Xn 2 Yn2 (Xn )(Yn)

TOTAL ∑X ∑Y ∑X2 ∑Y2 ∑XY

*Son 30 datos y se deben poner en la tabla que estudiamos con las 3 columnas extras (morado que están ahí)
*La parte amarilla es la parte más importante porque son los valores que vienen en mi fórmula para encontrar el r o el coeficiente de
correlación de Pearson

•De esta forma, se obtienen ordenadamente los datos que se requieren para hallar, por el método clásico, el coeficiente de
correlación de Pearson (r).

Interpretación del coeficiente r


• El valor del coeficiente de correlación (r) va a indicar el sentido y la intensidad de la relación entre variables (X e Y).

A) SENTIDO
Relación directa
El valor del coeficiente r es positivo.

Se cumple que:

• a los valores de X mayores que la media le corresponden valores de Y también mayores que la media.

• a los valores de X menores que la media le corresponden valores de Y también menores que la media.

EN RESUMEN: cuando X aumenta, Y también aumenta y vamos a tener una línea maso menos de esta forma.

Relación inversa
El valor del coeficiente r es negativo.

•Se cumple que:

•a los valores de X mayores que la media le corresponden valores de Y menores que la media.

• a los valores de X menores que la media le corresponden valores de Y mayores que la media.

EN RESUMEN: cuando X aumenta, Y disminuye y vamos a tener una línea maso menos de esta forma.
B) INTENSIDAD
CORRELACIÓN POSITIVA PERFECTA
Cuando r=+1.

En este caso los puntos están prácticamente todos sobre la línea

CORRELACIÓN POSITIVA INTENSA


Cuando 1> r > 0.5.

CORRELACIÓN POSITIVA MODERADA


Cuando r = 0.5
CORRELACIÓN POSITIVA DÉBIL
Cuando 0.5 > r > 0

CORRELACIÓN NEGATIVA PERFECTA


Cuando r=-1.

Aquí también casi todos los puntos están sobre la recta.

CORRELACIÓN NEGATIVA INTENSA


Cuando -0.5 > r > -1

CORRELACIÓN NEGATIVA MODERADA


Cuando r= -0.5
CORRELACIÓN NEGATIVA DÉBIL
Cuando 0 > r > -0.5

Hay un valor que no hemos visto, ¿Qué pasa cuando r es exactamente igual a 0? Pues no existe
correlación y eso es importante!!

Coeficiente de Correlación Simple

Esta es la fórmula que vamos a utilizar; los valores los encontramos en la tabla que hicimos con las 3 columnas extras que pusimos.

DATO: en el examen viene esta definición, es importante. Nos pueden dar uno de los valores presentados aquí y nosotros debemos
indicar que tipo de correlación existe (positiva, negativa y que tan intensa es).

INCORRELACIÓN
• En el caso de que el coeficiente de correlación sea cero (r=0) → NO EXISTE RELACIÓN ENTRE VARIABLES.

• Es decir, para valores de X por encima de la media se tienen valores de Y por encima y por debajo en proporciones
similares.

Propiedades del coeficiente de relación (r)


• Es adimensional

• Sólo toma valores en [-1,1] // Si sale r menor a -1 o mayor de 1 algo nos equivocamos en la fórmula y debemos repetirla.

• Si r=0 las variables son incorrelacionadas

• Relación lineal perfecta entre dos variables → r=+1 o r=-1 (positiva o negativa)
• *Se excluyen los casos de puntos alineados horizontal o verticalmente.

• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.

• *Siempre que no existan observaciones anómalas.

# de observación Talla (cm) Peso (kg) X2 Y2 XY


1 162 61 26244 3721 9882

2 154 60 23716 3600 9240

...n Xn Yn Xn 2 Yn2 (Xn )(Yn)

TOTAL ∑X ∑Y ∑X2 ∑Y2 ∑XY

Esta es la fila que vamos a utilizar para poder reemplazar en la fórmula de r

Significancia estadística: prueba de hipótesis


• El valor del coeficiente de correlación (r) determina si existe una relación lineal entre las variables.

• Sin embargo, no indica si esta relación es estadísticamente significativa.

• Para ello se aplica la prueba de hipótesis del parámetro ρ (rho).

• La hipótesis nula (Ho) establece que no existe una relación, es decir, que el coeficiente de correlación (ρ) es igual a 0.

• La hipótesis alterna (H1) propone que sí existe una relación significativa por lo que ρ debe ser diferente a 0. Debemos
recordar que se usa 2 colas porque es igual o diferente, no importa si es mayor o menor la cosa es que sea diferente;
entonces en la tabla T usaremos 2 colas.

Ho: ρ = 0

H1: ρ¹ 0

• El estadístico de prueba, (es un estadístico T y el estadístico T siempre se mide con grados de libertad que son n-2), que
revela si la hipótesis nula (Ho) es o no verdadera es el siguiente:

EJEMPLO:
• 2 métodos distintos para la medición de la presión sistólica de 25 pacientes con hipertensión,

• ¿se puede establecer que existe una relación lineal significativa entre ambos métodos?

Paciente Método I Método II X2 Y2 XY

1 132 130 17424 16900 17160

2 138 134 19044 17956 18492

3 144 132 20736 17424 19008

4 146 140 21316 19600 20440

...25 220 202 48400 40804 44440

TOTAL 4440 4172 808408 710952 757276


En el paciente 1 por ejemplo se le mide la presión sistólica y sale 132, ahora con el método 2 sale 130; queremos saber si hay una
relación lineal entre estos 2 métodos; debemos recordar que debemos usar las 3 columnas que se agregaron a la tabla. Y estos son
los valores totales que vamos a utilizar en la fórmula para obtener r.

∑X ∑Y ∑ X2 ∑ Y2 ∑ XY

4440 4172 808408 710952 757276

Solución
• Primero se debe hallar el coeficiente de correlación de Peason (r)

• r= 0.95

• el coeficiente de correlación indica una relación lineal directa intensa

• Luego, se procede a plantear la prueba de hipótesis del parámetro ρ:


Ho: ρ = 0

H1: ρ ≠ 0

Luego utilizaremos el estadístico de prueba recordando grados de libertad n-2

• (el nivel de significancia no se indica, por ello se asume que es 0.05)

➔ Mi t calculado es de 14,59

Decisión y Conclusión
Para determinar si se rechaza o no la hipótesis nula (Ho), se compara el valor de tcalculado con el valor hallado en la tabla (t n-2 ) según el
nivel de significancia y el grado de libertad.

TABLA t

Se usan dos colas porque ρ = 0 o ρ ≠ 0

Para dos colas se utiliza 0.05 que es mi nivel de confianza del 95%

Grados de libertad: 23

Y llego a donde se cruzan que es 2.07

tt = t n-2 → t23

= 2.07 es mi t de tabla o t crítico

Decisión y Conclusión
• Para determinar si se rechaza o no la hipótesis nula (Ho), se compara el valor de tcalculado con el valor hallado en la tabla (t n-2 )
según el nivel de significancia y el grado de libertad

• tt = t n-2 → t23 = 2.07

➔ Se debe comparar con el t que se calculó que es 14.59:

tc = 14.59 vs tt = 2.07

• Debido a que el valor de tc es mayor al valor hallado en la tabla (t 23), se debe rechazar la hipótesis nula (Ho); al rechazar la
hipótesis nula entonces puedo quedarme con la hipótesis alterna y hacer una interpretación:

Interpretación:

• Hay evidencia de que existe una alta (porque era 0.95) correlación lineal positiva entre la respuesta al tratamiento medida
con ambos métodos para medir la presión sanguínea.

EL COEFICIENTE DE DETERMINACIÓN
Una forma de evaluar la eficiencia de la ecuación de regresión es comparar la disperción de los puntos en torno a la recta de
regresión.

El coeficiente de determinación
• Al construir un modelo de regresión, se define que “el valor Y depende de X”.

Y = f (X) → (Y es una función de X)

Siempre y cuando la relación sea lineal con esta fórmula: Y = a + bX

• Pero en la práctica Y depende también de “otros factores” diferentes a X; esos otros factores van a hacer que yo tenga
errores y que yo no pueda decir exactamente que le va a pasar a Y conociendo solamente los valores de X.

Y = a + bX + e

• Parte de los cambios en Y pueden explicarse por X, a esto se llama variación explicada.

• Pero hay cambios en Y que no pueden explicarse por X, a lo que se llama variación no explicada.

• Hay otros factores que están determinando esta variación en este caso lo llamamos “un error”

Valor observado y valor estimado de Y


X Observado Y Estimado

1.0 8.0 9.055

1.5 10.0 9.843


• El valor observado (Yi) se refiere al nivel efectivo u observado de la variable Y (peso del
niño), mientras que el valor estimado ( ), es el nivel estimado de la variable (peso
2.0 9.0 10.630
esperado), obtenido utilizando la ecuación de regresión.

2.5 12.0 11.418

3.0 14.0 12.206

3.5 13.0 12.994

4.0 15.0 13.782

4.5 17.0 14.570

5.0 14.0 15.358

5.5 14.0 16.146


VARIACION TOTAL = VARIACION EXPLICADA + VARIACION NO EXPLICADA

( Yi – Y ) (Y – Y) ( Yi – Y )
Si Y llegara o fuera determinada solamente por X, entonces estaría el valor justo encima de la recta, pero no está encima de la recta,
entonces esta es la diferencia.

• El coeficiente de determinación se puede calcular del modo siguiente:

2
r

r = 0.95

R2 = 0.9025 → 90%

Interpretación:

90% de las variaciones Y, pueden explicarse por X. El resto, el 10% de las variaciones de Y estarán explicados por otros factores, en el
caso del estudio serán considerados un error.

➔ Cuanto mayor sea r2, más cerca están todos los puntos a la recta.
PRUEBA CHI2 Y SUS APLICACIONES •H1 (hipótesis alterna): Las muestras no
provienen de poblaciones homogéneas según
PRUEBA DE HOMOGENEIDAD – PARTE C
la presencia de hipertensión arterial.
1.PRUEBA DE INDEPENDENCIA: se usan dos variables 2. NIVEL DE SIGNIFICACIÓN:
en una sola muestra
p < 0.05
2.PRUEBA DE HOMOGENIDAD: vemos una sola
PRUEBA DE HOMOGENEIDAD
variable en una, dos o más muestras
Frecuencias esperadas y cálculo de 2:
PRUEBA DE HOMOGENEIDAD
recuerdo mi tabla de contingencia y obtengo mis
Se aplica cuando se desea conocer si dos o más
observaciones esperadas, por que estas son las
muestras provienen de poblaciones homogéneas
observaciones reales y yo quiero encontrar ahora lo
con respecto a algún criterio de clasificación, (o de
esperado, y es esperado cuando la hipótesis nula es
la misma población).
verdadera , nos da las frecuencias esperadas , si la
o El criterio de clasificación se refiere a una
hipótesis nula fuera verdadero y para cada observación
sola variable
le toca una esperada:
Tiene mayor posibilidad de uso cuando se
desarrollan estudios de tipo experimental.
La hipótesis nula establece que las muestras se
extraen de la misma población.

EJEMPLO:

Evaluar la presencia de hipertensión arterial en


pacientes provenientes de tres distritos de la ciudad
de Talara (Diciembre del 2006).

Por último, calculamos el chi-cuadrado con la sgte


formula y obtengo un chi-cuadrado calculado de 59.34
170 x90 170 x70
La variable 1 o única variable que voy a estudiar es E11 = = 63.75 E12 = = 49.58
hipertensión, será el criterio que estoy estudiando y lo 240 240
170 x80 70 x90
voy a estudiar en 3 distritos diferentes por lo tanto E13 = = 56.67 E21 = = 26.25
son tres muestras diferentes. 240 240
70 x70 70 x80
¿En esta tabla de contingencia cuantos grados de E22 = = 20.42 E23 = = 23.34
240 240
libertad tendremos?

( 75 − 63.75) ( 25 − 49.58 ) (10 − 23.34 )


2 2 2
• Tenemos una y dos filas, y tenemos tres
 =
2
c + + ... +
columnas, entonces será filas menos uno será 63.75 49.58 23.34
iguala a uno , por columnas menos uno será  = 59.34
2
c
dos , entonces tenemos 2 grados de libertad.

1. PLANTEAMIENTO DE LA HIPÓTESIS
• Ho (hipótesis nula) : Las muestras
provienen de poblaciones homogéneas según
la presencia de hipertensión arterial.
En este gráfico, recordar que debemos de buscar en la
tabla de chi-cuadrado para dos grados de libertad mi
valor critico, en la tabla dice que mi valor critico es
5.9915 a la derecha del 5.99 todo lo pintado será área
de rechazo y yo encontré un valor calculado de 59.34 ,
cae en la zona de rechazo y por lo tanto mi decisión es
que rechazo la hipótesis nula.

5. VALOR DE P.

Consultando la tabla de 2 = 59.34

con g.l.= 2 se observa p = ? :

Normalmente en el examen te van a pedir el valor de p


, sabiendo esto el chi-cuadrado es 59.34 con dos grados
de libertad , entonces donde se encuentra p.

Veo todos los valores en la fila amarilla y vemos que al


59.34 y vemos que el valor de p será menos que 0.001
, entonces mi valor de p es menor que 0.05 .

El 5.9915 salio del valor critico que tenemos en la tabla.

6. DECISIÓN Y CONCLUSIÓN:

Decisión: Siendo p  0.05 H0 → ?

se rechaza la
hipótesis nula.

• Conclusión: las muestras no provienen de


poblaciones homogéneas.
• Es decir, la presencia de hipertensión arterial es
distinta en los tres distritos de la ciudad.
PRUEBA CHI2 Y SUS APLICACIONES
Parte D
EJEMPLO 1
En un estudio se busca si hay relación En la tabla de contingencia ubicamos las
entre consumo de tabaco y cáncer frecuencias esperadas, porque tenemos
pulmonar en n=60 las frecuencias observadas, recuerda su
fórmula:
• Tenemos que buscar si es un chi-
cuadrado de independencia o
homogeneidad
• Independencia de criterios, es decir
independencia de variables u
homogeneidad de poblaciones
Tenemos los datos ubicados

¿Cuántos grados de libertad tenemos


que usar? En una tabla de 2x2 siempre es
un grado de libertad

¿CUÁL CASO ES?


1. Independencia es con 1 muestra, 2
variables
2. Homogeneidad es con 2 muestras

Nosotros tenemos 60 personas a estas


personas se les pregunto si tienen cáncer
pulmonar y sobre su consumo de tabaco
si consumen o no, y por lo tanto tenemos
una sola muestra, es un grupo de 60
personas a las que se les ubico en cáncer
positivo o negativo y consumo de tabaco
positivo o negativo.

Entonces nos fijaremos en la fila


amarilla, y tenemos que ubicar el valor
crítico, el valor de tabla y el valor de
tabla es 1 nivel de confianza de 95% y
me quedo con 0.05 por lo tanto mi
nivel de tabla o chi de tabla es 3.8415.
Tenemos las frecuencias observadas y
esperadas, y ahora tengo que usar la
formula de chi-cuadrado para
encontrar el valor calculado, CALCULADO Y COMPARADO CON LA
recordando que si tengo 4 celas TABLA
tendré 4 cosas que sumar y tendré que
llegar a un valor calculado de chi- Chi2 calculado = 8.078 Vs. Chi2 tabla =
cuadrado que sale 8.078. 3.841
Este 8.078 lo tengo que ubicar y Se cumple el valor de p:
comparar con el chi de tabla que era
3,8415, también se puede hacer con el 0.0025 < p < 0.005
grafico abre si cae o no en la zona de
rechazo. Y Rechazo Ho (hipótesis nula)
Lo siguiente es ubicar donde cae el H0: V1 y V2 no están relacionadas
chi-cuadrado calculado dentro de mi
tabla de grados de libertad 1, para Al rechazarla la hipótesis nula puedo
poder ubicar entre que valores se esta decir, si hay una relación entre el
manejando el p de mi estudio. Y el consumo de tabaco y la presencia de
8078 estará entre 7.87 y 9.14, por lo cáncer pulmonar.
tanto, mi p esta entre 0.005 y 0.0025.
EJEMPLO 2
Evaluar si el estado nutricional y el
desempeño académico están asociados
en 500 niños de un colegio primaria.

Tenemos una tabla de 2x2 donde


veremos el estado de nutrición si es pobre
o bueno, y el desempeño académico si es
malo o satisfactorio.
¿CUÁL CASO ES?
Tenemos las curvas de chi-cuadrado y el 1. Independencia es cuando 1 muestra, 2
grado de libertad que usaremos es 1 variables
grado de libertad, entonces nos fijamos: 2. Homogeneidad es cuando 2 muestras
Estamos en independencia, tenemos una
• En la curva amarilla, tenemos un chi-
sola muestra, un grupo de niños de 500
cuadrado de tabla de 3.841 y nos
ubicamos en el 3.841 y dibujamos niños que se evalúa su estado nutricional,
nuestra línea, y a la derecha de la línea y el colegio brindo su desempeño
esta la parte pintada que es la zona de académico. A estos 500 niños los
rechazo, y donde cae 8.074 entonces ubicamos en alguna de estas celdas y
rechazo la hipótesis nula y concluyo estos son valores observados.
que si existe relación entre el consumo
de tabaco y cáncer pulmonar.
Conclusión: El desempeño académico
está asociado al estado nutricional.
PRUEBA DE INDEPENDENCIA
1. Planteamiento de la hipótesis
Ho (hipótesis nula): El desempeño
académico es independiente del estado
nutricional.
EJEMPLO 3
H1 (hipótesis alterna): El desempeño
Evaluar el grado de consumo de
académico está asociado al estado
fármacos en 4to y 5to año de un colegio
nutricional.
secundaria
2. Nivel de significación:
p < 0.05
3.Frecuencias esperadas
E1: 44.4 E2: 75.6
E3: 140.6 E4: 239.4
Estas son las frecuencias esperadas, que
Prueba de homogeneidad
son cuando la hipótesis nula es verdadera
o que la hipótesis nula fuera verdadera. 1. Planteamiento de la hipótesis
Ho: Las muestras provienen de
4. cálculo de chi-cuadrado X2: con la
poblaciones homogéneas según el grado
formula
de consumo de FÁRMACOS
H1: Las muestras no provienen de
poblaciones homogéneas según el grado
de consumo de FARMACOS.
172.746
2. Nivel de significación:
Ahora tenemos la tabla de 2x2 y p < 0.05
podremos usar, la fila de un grado de
libertad y tengo que escoger mi valor 3. Frecuencias esperadas
critico de la tabla. E1: 56.4 E2: 37.1 E3: 31.5
5. Valor de p. E4: 45.6 E5: 29.9 E6: 25.5
Consultando la tabla de chi-2 = 172.75, 4.cálculo de X2:
donde consultaría este dato
con g.l.= 1
se observa p = ? : p < 0.001
DECISIÓN Y CONCLUSIÓN:
Decisión: Siendo p menor 0.05
H0 =?
se rechaza la hipótesis nula.
5. Valor de p.

Consultando la tabla de chi-cuadrado =


7.837, con grados de libertad = 2
Con la fila 2 tengo que ubicar mi valor
critico de la tabla que ahora es 5.995.
Donde encontramos p, vemos el 7.837 lo
ubicamos en la tabla que vemos, y nos
damos cuenta que:
se observa p = ? :
0.01 < p < 0.025
Decisión y conclusión:
Decisión: Siendo p es menor que 0.05
H0 = ?
se rechaza la hipótesis nula.
Conclusión: las muestras no provienen de
poblaciones homogéneas con respecto
al grado de uso de fármacos.
ESTADÍSTICA NO PARAMÉTRICA

Tener en cuenta que ya se ha visto la prueba Ejemplos: Prueba signo rango de wilcoxon,
de T Student, Correlación de Pearson y son prueba suma de rangos de wilcoxon,
consideradas pruebas paramétricas porque prueba x2 de mc nemar, etc.
se deben considerar una serie de supuestas,
En la revisión de textos de estadística no
especialmente, la presencia de normalidad
paramétrica vamos a poder encontrar 21
en los datos, y que la muestra provenga de
pruebas, pero a continuación
una selección aleatoria, pero hay situaciones
desarrollaremos dos pruebas no
en medicina en las que no se puede cumplir
paramétricas (equivalente a la prueba de
estos supuestos de la normalidad o se trabaja
t student) muy utilizadas en medicina que
con muestras pequeñas, para estas
son:
situaciones se recomienda la estadística no
paramétrica. Prueba signo - rango de Wilcoxon y
prueba de mann whitney
Se hablará a lo largo de la clase sobre 2
pruebas de estadística no paramétrica con el 1. Prueba signo - rango de wilcoxon
objetivo de aplicarlo en el curso de
metodología de la investigación y Función:
farmacología. Para comparar dos muestras
DEFINICIÓN: relacionadas; es decir, para analizar datos
obtenidos mediante el diseño antes-
Son pruebas que no están relacionadas con después (cuando cada sujeto sirve como
parámetros su propio control).
Debemos recordar que en las pruebas de Ejemplo:
hipótesis, especialmente en T Student, se
hacía una contrastación de parámetros Se quiere hacer una intervención
poblacionales, lo que NO se da en este tipos educativa para mejorar conocimientos
de pruebas. sobre prevención de COVID19, entonces
tomo una medición basal, un antes, para
Las pruebas de significación estadística ver cómo está los conocimientos, y luego
pueden clasificarse en: hago una intervención, y vuelvo a tomar
el instrumento para medir el conocimiento
- Paramétricas:
y se realiza una comparación para ver si
Contrastan hipótesis sobre parámetros.
hubo cambio significativo antes y después
Ejemplos: Pruebas t, z y anova de la intervención.

- No paramétricas: El diseño pareado (cuando el investigador


Contrastan hipótesis que no son selecciona pares de sujetos y uno de cada
afirmaciones sobre parámetros y no par, en forma aleatoria, es asignado a uno
dependen de la forma de la de dos tratamientos). Pueden existir
distribución poblacional; por este además otras formas de obtener dos
hecho, se denominan también muestras relacionadas
pruebas de distribución libre.
Problema:
Del diseño pareado es necesario lo que se trabaja con el valor absoluta,
homogenizar según la edad, género y por lo que nuestro único negativo (-10)
tiempo de enfermedad lo que hace que se convierte en positivo,
sea muy complejo. En el curso se está temporalmente ¿Para qué se hace?
trabajo con el modelo de “antes” y Asignación de Rangos.
“después”, es decir, esta prueba se usa 4. Se empieza a asignar rango desde la
cuando la variable es: DIFERENCIA MINIMA ENCONTRADA,
que es 5, por lo que le corresponde el
- Cuantitativa medida en escala ordinal:
RANGO 1.
Puntajes de un instrumento donde las
5. Luego de 5 viene 10, y se repite dos
respuestas son ordinales.
veces, así que se saca un promedio de
- Cuantitativa medida en escala de
los rangos, siendo el rango 2.5 para
intervalo o de razón, pero las
cada uno.
diferencias (di) de los pares de datos
no se distribuyen normalmente En este
caso, se usa en lugar de la prueba t de
Student para dos muestras
relacionadas o “t pareada”.

Ejemplo:

Los datos corresponden a una muestra de


8 pacientes varones de 45 a 55 años de
edad. Son lecturas de colesterol total
tomadas tras 12 horas de ayuno y repetida NOTA: Si se repiten los datos entonces se
una hora después de comer ¿Hubo un saca el promedio para cada uno.
incremento significativo de los niveles de
colesterol después de la comida?. 6. A 15 le corresponde el RANGO 4, y así
sucesivamente.
Ojo: 7. Luego se procede a calcular la ∑ de
Nos está dando una dirección rangos (+) y (-), y está en relación a la
“incremento” ya que no menciona diferencia que se encontró
“diferencia significativa” ya que si lo inicialmente, pero teniendo en cuenta
hiciera estuviéramos en un caso bilateral, la cantidad de positivos y negativos, en
pero cuando se menciona “incremento” o nuestro caso solo teníamos un negativo
“decremento” sería unilateral. que era del sujeto 5 con -10.
8. Entonces, el rango 1 que corresponde
Tenemos una tabla de datos, enumerados al paciente 1, su diferencia inicial
los pacientes con sus valores de ayunas y positiva así que va al lado positivo, y así
después. sucesivamente.
Procedimiento: Ojo:
Si estuviese en el caso de la prueba de T No se coloca ningún signo en el lugar de
relacionadas, se realiza: la ∑ de rangos (+) y (-).
1. Calculo de las diferencias, ya sea 9. Luego de la separación de rangos por
Antes menos Después o Después las diferencias encontradas, se
menos Antes, pero en el caso de la procede a sumar los rangos siendo 33.5
prueba de wilcoxon la diferencia es (lado positivo) y 2.5 (lado negativo) El
Después menos Antes valor T calculado de WILCOXON
2. Se resta para cada uno de los puede ser 33.5 o 2.5, se puede trabajar
pacientes siendo 8 diferencias y una con cualquiera de los dos valores
negativa (observar la tabla).
3. Por un momento se trabaja todas las NOTA:
diferencias como si fueran positivas por
El doctor, recomienda trabaja con el valor
del lado negativo, pero al final se obtiene
el mismo resultado

SOLUCIÓN

Como toda prueba estadística se debe


plantear hipótesis
Nota:
a. Hipótesis o H0 (negación): No hubo
Si el valor de Z es positivo y se calcula
incremento significativo de colesterol
la probabilidad, se resta 1 menos el
total después de la comida. o H1
valor que salió de la tabla, porque las
(afirmación del investigador): Hubo
probabilidades están en las colas de la
incremento significativo de colesterol
distribución normal
total después de la comida.
p = 1 – 0,9850
b. Cálculo del contraste T: En base a la ∑
p = 0,015
de rangos T = 33,5 (ó T = 2,5).
c. Cálculo de zT La característica de las
e. Decisión y Conclusión:
pruebas NO paramétricas, como al
final debemos calcular la probabilidad Decisión:
de significancia estadística, se debe
Siendo p = 0,015 (< 0,05), dado que es
ajustar el valor calculado a un valor Z
menor, se rechaza H0.
ya que los valores Z dan
probabilidades así que se hace la Conclusión: Hubo incremento,
estadísticamente significativo, de los
valores de colesterol después de la
comida (p = 0,015).

2. PRUEBA DE MANN WHITNEY

Se usa:
siguiente operación con:
Observamos que se calcula la media • Para comparar dos poblaciones
(μ) y la desviación estándar (σ) de T de independientes.
WILCOXON, y luego teniendo la media Cuando la variable es:
y desviación de estándar se calcula la
Zt de WILCOXON. • Cuantitativa medida en escala ordinal
• Cuantitativa medida en escala de
Reemplazando con los valores del intervalo o de razón, pero la variable
ejemplo: en una o en las dos poblaciones no
tiene distribución normal. En este caso,
se usa en lugar de la prueba t Student
para dos muestras independientes.

EJEMPLO:

Se tomó una muestra de 10 universitarias y


d. Valor de p: Entonces nos dirigimos a la otra de 10 universitarios para determinar si
tabla que es acumulado y buscamos las mujeres tenían actitud más positiva que
2.17, que sería 0.98500. los varones frente a la Iglesia católica. Los
puntajes en un cuestionario de actitudes
fueron:
En otros términos, bajo el modelo
latinoamericano:

- H0:
Las mujeres no tienen actitudes más
positivas que los varones frente a la
Iglesia Católica.
- H1:
Las mujeres tienen actitudes más
positivas que los varones frente a la
Iglesia Católica.

b. Suma de rangos (W)

W = suma de rangos (puede ser el menor o


Como es una prueba NO paramétrica se mayor, pero se recomienda el menor)
procede a:
W = 74,5
1. Asignar rangos que se hacen de
FORMA GENERAL y NO en GRUPOS y si c. Cálculo de zW
hay valores empatados, nuevamente Observamos que se calcula la media (μ) y
se saca un promedio de rangos. la desviación estándar (σ) de W de
2. El puntaje mínimo es 11 así que el rango WHITNEY, y luego teniendo la media y
es 1, el que sigue es 12 así que rango 2, desviación de estándar se calcula la Zw
y así sucesivamente, pero el 19, se de WHITNEY.
repite así que se saca el promedio y
corresponde a 8.5 a cada uno.
3. En el caso del “20” vemos que se
repiten 3 veces, entonces sacamos
promedio, ya que le corresponde de
rango 10, y al que le sigue, 11 y 12,
sacamos el promedio de los 3 siendo
11, por lo que le tocaría a cada 20, un
11 de rango.

NOTA: Los valores empatados, pueden ser


2, 3 o más y siempre es necesario sacar el
promedio.

4. Se procede a la ∑ de rangos y se
A veces se puede trabajar con tamaño de
recomienda el uso del menor valor
las muestras pueden ser diferentes,
SOLUCIÓN: entonces n1 siempre será con el tamaño
menor, pero en el curso solo se trabaja con
a. Hipótesis:
el mismo tamaño de muestra.
Aquí hay dos hipótesis y bajo el modelo
d. Valor de p Nos dirigimos a la tabla y
europeo se plantea de la siguiente forma:
ubicamos el valor que necesitamos
- H0: que sería - 2,31, siendo su valor p de
Es la mediana de puntajes de las 0.1044.
mujeres £ mediana de varones.
Siendo la prueba unilateral:
- H1:
Es la mediana de puntajes de las p = 0,0104
mujeres > mediana de varones.
NOTA: Es negativo el valor que se busca en
la tabla por lo que no es tenemos que
restarlo.

e. Decisión y Conclusión:

DECISIÓN:

Siendo p = 0,0104 (< 0,05), se rechaza la


hipótesis nula.

CONCLUSIÓN:

Las mujeres tienen actitudes más positivas


que los varones frente a la Iglesia Católica
(p = 0,0104).

También podría gustarte