Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MUESTREO ESTADISTICO
MUESTREO (SAMPLING)
Muestreo probabilístico:
Muestreo no probabilístico:
Donde:
• No conocemos la probabilidad de que un
individuo sea elegido. • Zα/2 = coeficiente o nivel de confianza
• Pueden conducir a sesgo de selección. = 1,96; para un nivel de confianza del
• En principio no se pueden extrapolar los 95%.
resultados a la población.
• Aquí solo nos quedamos con los resultados Se puede trabajar un nivel de confianza:
provenientes de la muestra
o El nivel de confianza al 90% es 1,64
o El nivel de confianza al 95% es 1,96 • 86.4 como se conoce la población
o El nivel de confianza al 99% es 2,57 realizamos un ajuste
• s2e = varianza esperada, representa el • Al final siempre se hace un redondeo por
grado de variabilidad de los elementos exceso en este caso será 76.
de la población de estudio. Se obtiene Interpretación.
de:
El número mínimo de pacientes para
o Revisión bibliográfica
realizar el estudio es 76, si se desea estimar
o Estudio piloto el nivel promedio de colesterol total en la
• E = error absoluto de muestreo o población de estudio, con una precisión o
precisión con la que se desea estimar error de 3,5 mg/dL y un nivel de
la media poblacional. confianza de 95%.
• E = debe ser asumido por el
2.ESTIMACION UNA PORPORCION
investigador
POBLACIONAL
• E = representa ( -x)
• N = tamaño de la población Aquí en vez de varianza se trabaja con p
• n (n estimado) = tamaño de muestra para y q.
población infinita Entonces:
• n = tamaño de muestra final después
que se hace ajuste de acuerdo al 1. n estimado será igual, Zα/2 (al nivel de
tamaño de la población (si se conoce confianza al cuadrado) por la pe
N) (proporción estimada) por su
complemento que es q, entre el error
• El error relativo se define como: Er = E
absoluto al cuadrado.
/xe (error relativo, será igual al error absoluto sobre la
2. Si conocemos N, se realiza un ajuste y el n
media, no siempre)
final será igual al n estimado sobre 1 más n
• E= (representa la diferencia entre
estimado sobre el N total de la población
parámetro y estadístico)
Seguimos la fórmula:
• Pe: proporción esperada de sujetos con las características • Si no nos dan error se asume 5%.
de interés en la población de estudio. Se puede obtener: • Si no te dan la prevalencia, no te dan
o revisión bibliográfica
el valor p se asume 50%.
o • En caso de estimación de la
estudio piloto
o pe= qe=0,5=50% (Si no te dan ninguno de los anteriores se proporción Muchas veces de los
asume que es 0,5), Como el lanzamiento de la moneda, cara o estudios de prevalencia no se conoce
sello 50 % para cada uno.
la población y hay termina el cálculo
• qe= 1 - pe = proporción esperada de sujetos sin la característica
de interés en la población. estadístico.
• E= error absoluto de muestreo
Interpretación: Para estimar la prevalencia
• E= representa (π – p), debe ser asumido por el investigador
y, para este caso E es mas o menos 5% o 0,05. poblacional, con 95% de confianza y una
• El error relativo se define, Er= E/ pe precisión de 5%, se debe evaluar a 323
pacientes.
Muchas veces se coloca 5% porque es un
complemento de nivel de confianza de C. PROCEDIMIENTO DE SELECCIÓN
95%, si en el ejercicio no aparece ¿Como hago para que la selección se
información bibliográfica, estudio piloto aleatoria, probabilística?
no digan que falta datos se asume que p
y q serán 0.5. Para esto utilizó muestreo aleatorio simple
se expresa como (+), este muestreo
Si no te dan nivel de confianza asumen aleatorio simple se trabaja con la
automáticamente 95% población.
Ejemplo. Para seleccionar una MAS:
En la población de mujeres mayores de 40 • La población debe ser homogénea y,
años que acude al servicio de • Debe disponerse del marco muestral.
reumatología de un hospital nacional, se • El marco muestral debe estar
desea estimar la prevalencia de actualizado.
osteoporosis. En la revisión bibliográfica se
encontró una prevalencia de 30%, si se Esto funcionara perfecto cuando la
asume un error absoluto de muestreo E = población homogénea y se conoce
5%, calcular el tamaño de muestra, n. exactamente el total de la población y se
enumera del 1 hasta el n, para poder
Solución. seleccionar la muestra y para eso. Se
Datos: utiliza tabla de números aleatorios. (abre
las tablas que están en el aula virtual se
• Zα/2 = 1,96 usara para el sgte ejercicio)
• pe = 0,3 Para identificar el número de cada
• qe = 0,7 elemento poblacional que será parte de
la muestra, puede utilizarse la tabla de
• E = 0,05 números aleatorios, una calculadora
científica o una computadora.
• Se define como un proceso por medio del cuál se • La estimación de parámetro puede adoptar la forma
elaboran conclusiones probabilísticas en relación a de un solo “punto” o un intervalo.
una población, valiéndose de la información
proporcionada por una muestra extraída de esa DATOS CONTINUOS
población.
Cuando se tienen datos cuantitativos continuos, se puede
• Siendo las poblaciones descritas por medidas obtener una serie de medidas, por ejemplo en la población y
numéricas descriptivas llamadas parámetros, la muestra se pueden obtener:
inferencia acerca de una población es posible POBLACIÓN MUESTRA
haciendo inferencias acerca de sus parámetros : Media poblacional x : Media muestral
usando los estadísticos. 2 : varianza poblacional s2 : Varianza muestral
: desviación poblacional s : Desviación muestral
POBLACIÓN OBJETIVO EE = / n EE = S / n
Hay que tener presente que ahí el error estándar (EE) aparece
tanto en la población como en la muestra donde se divide la
desviación estándar sobre la población en el caso de la
población y en el caso de muestra la desviación estándar
sobre el tamaño de la muestra.
DATOS DICOTÓMICOS
POBLACIÓN MUESTRA
Para empezar tenemos la población objetivo. A través del
P p
muestreo se va a seleccionar una muestra representativa y
luego del resultado de la muestra vamos a hacer una Proporción poblacional Proporción muestral
inferencia a la población, esto viene a ser inferencia
estadística, entonces se cumple todo el ciclo de la
investigación estadística.
En variables cualitativas calculamos siempre la proporción
Hay que tener presente en que todo proceso o toda actividad
poblacional expresadas con una P mayúscula o Φ y en la
dentro de inferencia estadística es probabilística, aquí
muestra una p minúscula para la proporción muestral.
intervienen mucho las probabilidades para tomar decisiones.
1.1Tipo de estimación de parámetros
ÁREAS DE LA INFERENCIA ESTADÍSTICA
a) La estimación por punto de parámetros
Estimación de parámetros
• El parámetro se obtiene directamente de los datos
Resuelve situaciones en las que se busca conocer un
muestrales, como un único valor. Específicamente, los
dato o medida descriptiva de determinada
estadísticos son introducidos en la fórmula
población (parámetro) a partir de datos o medida
establecida como estimador para obtener el
descriptiva de una muestra (estadístico)
parámetro:
representativa.
• n: # de muestra
Prueba de hipótesis
• z: desviación normal (según el grado de
Sirve para decidir si se rechaza o no una hipótesis
confianza)
estadística establecida basándose en la información
de una muestra. Se realiza una contrastación de Entonces yo puedo decir he encontrado una muestra que la
información entre la hipótesis estadística existente y proporción de asma es igual a 15%, entonces concluyo que en
los resultados obtenidos de la muestra, para una la población, también la proporción poblacional es 15%;
corroboración. Oseas se conocen los valores entonces lo que hago es igualar un valor muestral con el valor
poblacionales, entonces lo que se hace es en base al poblacional, eso viene a ser la estimación puntual.; cosa que
resultado a la muestra contrastar si es verdadero o si eso casi no se va a dar porque hay que tener presente que hay
es falso las afirmaciones de los valores poblacionales. mucha variabilidad en los datos, por eso la estimación puntual
Por ejemplo yo puedo decir que la prevalencia de queda más como una información descriptiva o académica.
asma en Lima es de 18% o se sabe que la prevalencia
es 18%, aparece un investigador y me dice que no
que eso es falso, que la prevalencia es mayor al 18%,
entonces lo que se hace es recabar la investigación
Ejemplo 1:
• Los extremos superior e inferior de un intervalo de Caso 2: Intervalo De Confianza De Una Sola Muestra En Caso
confianza se llaman límites de confianza superior e De Variable Cuantitativa en muestras pequeñas (n≤30)
inferior respectivamente
Intervalos De Confianza
La amplitud del intervalo de confianza basado en el valor
muestral depende de:
Donde:
- del error estándar de ese valor y EE = / n EE = S / n
X = media muestral
- del grado de confianza que queremos asociar con el
t = Valor de t a un determinado nivel de confianza
intervalo resultante.
90% - 95% - 99%
s = desviación estándar
g.l=n-1=29 error estándar y para hallar el límite superior (L2) se suma el error
estándar.
➔ ESTA ES LA TABLA
Donde:
p = proporción muestral
n = tamaño de muestra
Por consiguiente, los límites del intervalo se obtienen sumando Por lo tanto, la proporción de niños menores de 5 años
o restando el error estándar al valor de la proporción muestral desnutridos en dicha comunidad está entre 0.352 y 0.548, con
(p). Específicamente, para hallar el límite inferior (L1) se resta el un intervalo de confianza del 95%.
error estándar y para hallar el límite superior (L2) se suma el error
estándar.
2. PRUEBA DE HIPÓTESIS no se puede establecer de manera directa, se hace de forma
indirecta.
Ho: A - B= 0. La afirmación de esta hipótesis es que el Para evitarlo, se considera el valor , que fue planteado
tratamiento A no difiere del tratamiento B. anteriormente:
OJO:
estudiar la población completa y por lo tanto
No Decisión acertada Error tipo II
tomamos muestras, lo que nosotros
rechazar
1-a b encontramos en las muestras probablemente
H0
pueda suceder en la población siempre y
cuando las muestras sean representativas y
Decisión
para ver si que lo encontrado en las muestras
Error tipo I acertada
es real tenemos que hacer este tipo
Rechazar
a 1-b de hipótesis y este tipo de
H0
pruebas estadísticas, entonces como les
(Potencia de
decía estos son los tipos de errores que
Prueba)
podemos cometer en estadística.
Aquí quiero que encuentren y que vean ya
que es súper importante, “ Alfa” es
Los tipos de errores se basan en que igual a “P” o probabilidad del “error tipo 1” y
una hipótesis se rechaza o no en base a eso es igual a “P” o probabilidad de
los resultados de una muestra y siempre rechazar la hipótesis nula dado
existe la posibilidad de no decidir de que la hipótesis nula es
manera acertada cometiendo entonces un verdadera, recuerden esto porque siempre
error, estos son los tipos de errores que nos basamos en las probabilidades
cometemos, si la decisión estadística fue y “beta “es “P” o probabilidad del error
de no rechazar la hipótesis nula pero en tipo 2 qué es igual a “P” o probabilidad de
realidad la hipótesis nula es falsa entonces no rechazar la hipótesis nula dado que
estamos cometiendo el error tipo “2 o beta”, la hipótesis nula es falsa recordando siempre
si la hipótesis nula en ese caso era que lo que está a la derecha del paréntesis
verdadera entonces estamos tomando una es lo que sucede primero.
decisión acertada esa decisión acertada
será de “1- Alfa”. Si la OJO:
decisión estadística que nosotros tomamos
Podemos rechazar H0, PERO NUNCA
era de rechazar la hipótesis nula, pero en
podemos afirmar lo contrario:
realidad la hipótesis nula era verdadera
entonces estamos cometiendo el error” tipo NO SE PUEDE Aceptar la H0
1” a eso se le llama “Alfa”. La realidad
H0 solo es falsable, nunca podemos afirmar
podría también haber sido
que sea cierta.
que la hipótesis nula si era falsa y la
rechazamos, entonces tomamos una 3) ESTADÍSTICO DE PRUEBA
decisión acertada y eso es “1-Beta” y a
Vamos a centrarnos en la diferencia de 2
ese “1-Beta” se le llama “potencia de la
medias y pueden ser:
prueba”. Hay que recordar un poquito
que es esto de tomar muestras y obtener Diferencia de dos medias independientes
cosas con las muestras y si es o no factible
Se una: Prueba t independencia
para la población, desde la primera clase
hemos visto sobre los métodos estadísticos,
los métodos científicos y recuerden que es
imposible para nosotros como investigadores
Diferencia de dos medias relacionadas Por otro lado, cuando la hipótesis alterna no
(pareadas indica una diferencia específica es decir
puede ser simplemente diferente entonces
Se usa: Prueba t pareada
se requiere de una prueba bilateral.
Las muestras independientes normalmente se
Entonces recordemos: cuando los signos son
obtienen cuando tengo 2 grupos diferentes
mayor o menor debe usarse una prueba
de personas a las que a una se le da un
unilateral, en cambio cuando los signos son
medicamento y a la otra un placebo, por ej.
diferentes se usa la prueba bilateral porque si
Mientras que la diferencia de 2 medias
es diferente puede que sea mayor o menor,
relacionadas o pareadas suele suceder
no importa lo único que nosotros decimos en
cuando se le da a un mismo grupo de
la hipótesis alterna en que sea diferente.
personas una medición, luego a ese mismo
grupo de personas le doy un medicamento y Zona de rechazo
un tiempo después vuelvo a medir lo mismo
que medí hace unas semanas. Entonces es
la misma cantidad, es la misma persona, son
los mismos sujetos en la muestra con un antes
y un después.
4) DETERMINACIÓN DE LA
REGIÓN DE RECHAZO DE LA
HIPÓTESIS NULA 🡪 Ho:
La localización de esta región de rechazo va Y aquí tenemos las figuras de las campanas
a depender de la hipótesis alterna, es decir de gauss o de la distribución de la población
de lo que diga el investigador. donde vemos arriba a la derecha que la
hipótesis alterna dice que un promedio es
Entonces nosotros tenemos que haber
mayor que el promedio de la hipótesis sub
planteado nuestra hipótesis y según ese O. Cuando es mayor entonces voy a tener
planteamiento vamos a poder decidir la que la zona de rechazo está a la derecha, es
dirección de la diferencia. la cola derecha eso sería entonces
unilateral, en el dibujo de abajo podemos
• Si indica la dirección de la diferencia
ver una prueba bilateral porque puede ser
(H1:m1 > m2 ó H1: m1 < m2) menor o puede ser mayor por lo tanto
la zona de rechazo serán las dos colas, la
si la hipótesis alterna dice que la muestra 1
cola a la izquierda es negativo y la
tiene un mayor valor que la muestra 2 o que cola derecha un partitivo. Ojo que eso
la muestra 1 tiene un menor valor que la significa lo pintado en rojo del gráfico de
muestra 2 entonces tenemos que usar una arriba a la derecha tiene dentro de él el 5%
prueba unilateral. del área bajo la curva porque mi Alfa
escogida es 0.05 o 5%s en cambio en
• Si no indica la dirección de la
el gráfico de abajo ambos triángulos ambas
diferencia,
colas deben medir 0.05 es
(H1: m1 = m2) decir deben tener el 5% del área bajo la
curva pero está dividido en
2 triángulos por lo tanto
cada triángulo mide la mitad de 5% es decir
cada área bajo la curva de la cola izquierda
de la cola derecha cada 1 individualmente
tienen 0.025 del área bajo la curva.
Este tercer gráfico de la parte superior
es el gráfico donde se ve una hipótesis
unilateral donde el triángulo es a
la izquierda por lo tanto es unilateral y voy a
tener la zona de rechazo en la
cola izquierda
¿Cómo decido entonces la zona de
rechazo? Hay que recordar que se En este caso la hipótesis nula es bilateral, la
determina por lo que dice el investigador en región de rechazo está a ambos lados, las
la hipótesis alterna o alternativa. colas deben tener un área de 0.025, al
medio queda entonces 0.95 del área total
Hipótesis nula unilateral a derecha bajo la curva.
DIFERENCIA ESTADÍSTICA NO
SIGNIFICATIVA
PREGUNTA DE EXAMEN:
Vamos a ver ahora si: Luego vamos a la tabla y ubicamos con 0.05
2 colas y 19 grados de libertad y vamos a
¿HAY DIFERENCIA ENTRE LAS MEDIAS DE LAS encontrar que el valor de la t de tabla es
CONCENTRACIONES DE PLASMA IGF-I EN LOS 2.093.
DOS GRUPOS A LOS 12 MESES?
Entonces dibujamos el grafico en 2.093 en
Copio los datos de los valores a los 12 meses positivo y negativo, voy a dibujar mi línea
del grupo 1 y 2, mi hipótesis nuevamente será perpendicular y las colas las pintare como
bilateral porque no me dice si es mayor o zona de rechazo. ¿Dónde cae 5.17? Cae a la
menor solo me indica si “hay diferencia”, por derecha de la T de tabla por lo tanto esta en
tanto, mi hipótesis alternativa dirá que son la zona de rechazo así que se rechaza la
diferentes y mi hipótesis nula dirá que son hipótesis nula y como conclusión seria que
iguales, luego tengo que escoger mi nivel de hay diferencias significativas en las medias (p
significación, si no dice nada mi pregunta hay < 0.05)
que recordar que es escoge 5%
Por lo tanto, decimos que:
El tratamiento con HGH ha tenido influencia
sobre la concentración de plasma IGF-I.
ANÁLISIS DE REGRESIÓN • Es un gráfico que permite detectar la
existencia de una relación entre dos
REGRESIÓN variables (X e Y). Esto se dara por
medio de puntos.
• El análisis de regresión es útil para
averiguar la forma probable de las • Visualmente se puede buscar
relaciones entre las variables. patrones que indiquen el tipo de
• El objetivo final del análisis de relación que se da entre las variables
regresión es predecir o estimar el
valor de una variable cuando
conocemos el valor de otra
variable que esta relacionda
CORRELACIÓN
El análisis de correlación se refiere a la
medición de la intensidad de la relación
entre variables
VARIABLES X e Y
• X= variable independiente, bajo el RELACIONES POSIBLES ENTRE X E Y VISTOS
control del investigador. EN DIAGRAMAS DE DISPERSION
o Los valores de X son
Las siguientes imagenes nos muestra las
seleccionados previamente por
posibles relaciones , pero nos centraremos
el investigador, de modo que en
en las que esta resaltadas ; una relacion
la recolección de datos estos no
positive lineal o una relacion negrativa
pueden variar , y solo
lineal.
recolectaremos los valoes de Y
• Y= variable dependiente , cambian al
azar dependiendo al sujeto en el que
estemos estudiando
• Normalmente se habla de regresión
de Y sobre X.
Ecuación de regresión
▪ Lo que el investigador desea es
encontrar una línea que pueda
predecir lo que le sucede a Y con
cada cambio de X.
▪ Esta ecuación describe la relación real
entre las variables X e Y. • La relacion positiva se suele llamar
directa
▪ Como es una relación lineal, dicha • La relacion negativa se suele llamar
ecuación será la ecuación de una inversa
recta:
APLICACIÓN
Y= a +bX
• Los datos siguientes muestran el
• Es la ecuación de la recta tiempo (en horas por semana) y la
disminución de peso de niños con
EL DIAGRAMA DE DISPERSION
signos de obesidad. De acuerdo a la 2do Paso:
cantidad de ejercicio que hacen el
• Encuentre los valores mínimos y
horas/semana.
máximos para X e Y. para poder
dibujar el eje X y eje Y , esto nos dará
las escalas de los ejes.
• Elija las escalas que se usarán en los
ejes horizontal y vertical, de manera
que ambas longitudes sean
aproximadamente iguales, facilitando
la lectura del diagrama.
Para cada valor de X que tengo voy a En los gráficos podemos ver que todos los
calcular un valor de Y, y también puntos no caen exactamente sobre la
calculare cuanto cambio Y por un recta y eso es porque existen errores entre
cambio de un punto en X, vemos que el la recta y valores reales observados.
resultado es 1.5 , lo encontramos en la
ecuación al costado de X , y ese será el
TIPO DE RELACIONES GRÁFICA DE UNA ECUACIÓN DE PRIMER
GRADO
• Cuando cambios en X provoca
cambios en Y en igual sentido Ejemplo: Y = 3 + 1,5X
(aumentos o disminuciones), las
variables están directamente
relacionadas. Se observa el signo +
• Cuando X aumenta en 1 e Ytambien • Los cinco pares de valores se
aumenta vamos a observar vamos diagraman de la forma siguiente.
observar un valor positivo en la
ecuación , y los puntos dibujados en el
diagrama de dispersión sera de esa
forma , es decir iran hacia arriba.
PASOS
Para determinar los valores de la
ecuación debo tener encuenta estas dos
formulas, y recordar que debo encontrar
los valores de a y b.
EJEMPLO
• Los valores constantes de la ecuación
son a y b. • Una compañía farmacéutica
conduce un estudio piloto para
• El primer paso para determinar la
evaluar la relación entre tres dosis en
ecuación es hallar b con la fórmula: y
un nuevo agente hipnótico (pastilla
después encontrar el valor de a ,
para dormir) y tiempo de sueño. Los
porque dentro de la formula de a esta
resultados de este estudio son
el valor de b
presentados de la siguiente manera.
Objetivo:
Aplica conocimientos de inferencia estadística para determinar la asociación o relación entre dos variables cuantitativas.
El análisis de correlación
El análisis de correlación es la técnica estadística que permite describir el grado hasta el cual una variable está linealmente relacionada
con otra.
▪ El coeficiente de determinación:
▪ El coeficiente de correlación: estadístico r, parámetro ρ (con este haremos la prueba de hipótesis y porsiacaso usaremos la tabla t).
•Por ejemplo, si se quiere conocer la relación entre los datos de peso y talla de 30 individuos que se presentan a continuación:
Talla (cm) 162 154 180 158 171 169 166 176 163 ...X30
Peso (kg)
61 60 78 62 60 60 54 84 68 ...Y30
•Los datos pueden ser representados en un diagrama de dispersión, en el cual cada individuo es un punto que se ubica en el espacio
según los valores de sus variables talla (X) y peso (Y).
¿Será una relación positiva o negativa? ¿Por dónde se ajusta la línea? Maso menos será donde está la línea amarilla
•Con este diagrama se puede suponer, por observación, que existe una relación directa entre ambas variables. Sin embargo, se
requiere de un análisis de correlación para comprobar y validar la suposición.
Talla (cm) 162 154 180 158 171 169 166 176 163 ...X30
Peso (kg)
61 60 78 62 60 60 54 84 68 ...Y30
•Cuando se aplica a un conjunto de datos es recomendable ordenar la información de la siguiente forma e incluyendo los siguientes
cálculos:
*Son 30 datos y se deben poner en la tabla que estudiamos con las 3 columnas extras (morado que están ahí)
*La parte amarilla es la parte más importante porque son los valores que vienen en mi fórmula para encontrar el r o el coeficiente de
correlación de Pearson
•De esta forma, se obtienen ordenadamente los datos que se requieren para hallar, por el método clásico, el coeficiente de
correlación de Pearson (r).
A) SENTIDO
Relación directa
El valor del coeficiente r es positivo.
Se cumple que:
• a los valores de X mayores que la media le corresponden valores de Y también mayores que la media.
• a los valores de X menores que la media le corresponden valores de Y también menores que la media.
EN RESUMEN: cuando X aumenta, Y también aumenta y vamos a tener una línea maso menos de esta forma.
Relación inversa
El valor del coeficiente r es negativo.
•a los valores de X mayores que la media le corresponden valores de Y menores que la media.
• a los valores de X menores que la media le corresponden valores de Y mayores que la media.
EN RESUMEN: cuando X aumenta, Y disminuye y vamos a tener una línea maso menos de esta forma.
B) INTENSIDAD
CORRELACIÓN POSITIVA PERFECTA
Cuando r=+1.
Hay un valor que no hemos visto, ¿Qué pasa cuando r es exactamente igual a 0? Pues no existe
correlación y eso es importante!!
Esta es la fórmula que vamos a utilizar; los valores los encontramos en la tabla que hicimos con las 3 columnas extras que pusimos.
DATO: en el examen viene esta definición, es importante. Nos pueden dar uno de los valores presentados aquí y nosotros debemos
indicar que tipo de correlación existe (positiva, negativa y que tan intensa es).
INCORRELACIÓN
• En el caso de que el coeficiente de correlación sea cero (r=0) → NO EXISTE RELACIÓN ENTRE VARIABLES.
• Es decir, para valores de X por encima de la media se tienen valores de Y por encima y por debajo en proporciones
similares.
• Sólo toma valores en [-1,1] // Si sale r menor a -1 o mayor de 1 algo nos equivocamos en la fórmula y debemos repetirla.
• Relación lineal perfecta entre dos variables → r=+1 o r=-1 (positiva o negativa)
• *Se excluyen los casos de puntos alineados horizontal o verticalmente.
• La hipótesis nula (Ho) establece que no existe una relación, es decir, que el coeficiente de correlación (ρ) es igual a 0.
• La hipótesis alterna (H1) propone que sí existe una relación significativa por lo que ρ debe ser diferente a 0. Debemos
recordar que se usa 2 colas porque es igual o diferente, no importa si es mayor o menor la cosa es que sea diferente;
entonces en la tabla T usaremos 2 colas.
Ho: ρ = 0
H1: ρ¹ 0
• El estadístico de prueba, (es un estadístico T y el estadístico T siempre se mide con grados de libertad que son n-2), que
revela si la hipótesis nula (Ho) es o no verdadera es el siguiente:
EJEMPLO:
• 2 métodos distintos para la medición de la presión sistólica de 25 pacientes con hipertensión,
• ¿se puede establecer que existe una relación lineal significativa entre ambos métodos?
∑X ∑Y ∑ X2 ∑ Y2 ∑ XY
Solución
• Primero se debe hallar el coeficiente de correlación de Peason (r)
• r= 0.95
H1: ρ ≠ 0
➔ Mi t calculado es de 14,59
Decisión y Conclusión
Para determinar si se rechaza o no la hipótesis nula (Ho), se compara el valor de tcalculado con el valor hallado en la tabla (t n-2 ) según el
nivel de significancia y el grado de libertad.
TABLA t
Para dos colas se utiliza 0.05 que es mi nivel de confianza del 95%
Grados de libertad: 23
tt = t n-2 → t23
Decisión y Conclusión
• Para determinar si se rechaza o no la hipótesis nula (Ho), se compara el valor de tcalculado con el valor hallado en la tabla (t n-2 )
según el nivel de significancia y el grado de libertad
tc = 14.59 vs tt = 2.07
• Debido a que el valor de tc es mayor al valor hallado en la tabla (t 23), se debe rechazar la hipótesis nula (Ho); al rechazar la
hipótesis nula entonces puedo quedarme con la hipótesis alterna y hacer una interpretación:
Interpretación:
• Hay evidencia de que existe una alta (porque era 0.95) correlación lineal positiva entre la respuesta al tratamiento medida
con ambos métodos para medir la presión sanguínea.
EL COEFICIENTE DE DETERMINACIÓN
Una forma de evaluar la eficiencia de la ecuación de regresión es comparar la disperción de los puntos en torno a la recta de
regresión.
El coeficiente de determinación
• Al construir un modelo de regresión, se define que “el valor Y depende de X”.
• Pero en la práctica Y depende también de “otros factores” diferentes a X; esos otros factores van a hacer que yo tenga
errores y que yo no pueda decir exactamente que le va a pasar a Y conociendo solamente los valores de X.
Y = a + bX + e
• Parte de los cambios en Y pueden explicarse por X, a esto se llama variación explicada.
• Pero hay cambios en Y que no pueden explicarse por X, a lo que se llama variación no explicada.
• Hay otros factores que están determinando esta variación en este caso lo llamamos “un error”
( Yi – Y ) (Y – Y) ( Yi – Y )
Si Y llegara o fuera determinada solamente por X, entonces estaría el valor justo encima de la recta, pero no está encima de la recta,
entonces esta es la diferencia.
2
r
r = 0.95
R2 = 0.9025 → 90%
Interpretación:
90% de las variaciones Y, pueden explicarse por X. El resto, el 10% de las variaciones de Y estarán explicados por otros factores, en el
caso del estudio serán considerados un error.
➔ Cuanto mayor sea r2, más cerca están todos los puntos a la recta.
PRUEBA CHI2 Y SUS APLICACIONES •H1 (hipótesis alterna): Las muestras no
provienen de poblaciones homogéneas según
PRUEBA DE HOMOGENEIDAD – PARTE C
la presencia de hipertensión arterial.
1.PRUEBA DE INDEPENDENCIA: se usan dos variables 2. NIVEL DE SIGNIFICACIÓN:
en una sola muestra
p < 0.05
2.PRUEBA DE HOMOGENIDAD: vemos una sola
PRUEBA DE HOMOGENEIDAD
variable en una, dos o más muestras
Frecuencias esperadas y cálculo de 2:
PRUEBA DE HOMOGENEIDAD
recuerdo mi tabla de contingencia y obtengo mis
Se aplica cuando se desea conocer si dos o más
observaciones esperadas, por que estas son las
muestras provienen de poblaciones homogéneas
observaciones reales y yo quiero encontrar ahora lo
con respecto a algún criterio de clasificación, (o de
esperado, y es esperado cuando la hipótesis nula es
la misma población).
verdadera , nos da las frecuencias esperadas , si la
o El criterio de clasificación se refiere a una
hipótesis nula fuera verdadero y para cada observación
sola variable
le toca una esperada:
Tiene mayor posibilidad de uso cuando se
desarrollan estudios de tipo experimental.
La hipótesis nula establece que las muestras se
extraen de la misma población.
EJEMPLO:
1. PLANTEAMIENTO DE LA HIPÓTESIS
• Ho (hipótesis nula) : Las muestras
provienen de poblaciones homogéneas según
la presencia de hipertensión arterial.
En este gráfico, recordar que debemos de buscar en la
tabla de chi-cuadrado para dos grados de libertad mi
valor critico, en la tabla dice que mi valor critico es
5.9915 a la derecha del 5.99 todo lo pintado será área
de rechazo y yo encontré un valor calculado de 59.34 ,
cae en la zona de rechazo y por lo tanto mi decisión es
que rechazo la hipótesis nula.
5. VALOR DE P.
6. DECISIÓN Y CONCLUSIÓN:
se rechaza la
hipótesis nula.
Tener en cuenta que ya se ha visto la prueba Ejemplos: Prueba signo rango de wilcoxon,
de T Student, Correlación de Pearson y son prueba suma de rangos de wilcoxon,
consideradas pruebas paramétricas porque prueba x2 de mc nemar, etc.
se deben considerar una serie de supuestas,
En la revisión de textos de estadística no
especialmente, la presencia de normalidad
paramétrica vamos a poder encontrar 21
en los datos, y que la muestra provenga de
pruebas, pero a continuación
una selección aleatoria, pero hay situaciones
desarrollaremos dos pruebas no
en medicina en las que no se puede cumplir
paramétricas (equivalente a la prueba de
estos supuestos de la normalidad o se trabaja
t student) muy utilizadas en medicina que
con muestras pequeñas, para estas
son:
situaciones se recomienda la estadística no
paramétrica. Prueba signo - rango de Wilcoxon y
prueba de mann whitney
Se hablará a lo largo de la clase sobre 2
pruebas de estadística no paramétrica con el 1. Prueba signo - rango de wilcoxon
objetivo de aplicarlo en el curso de
metodología de la investigación y Función:
farmacología. Para comparar dos muestras
DEFINICIÓN: relacionadas; es decir, para analizar datos
obtenidos mediante el diseño antes-
Son pruebas que no están relacionadas con después (cuando cada sujeto sirve como
parámetros su propio control).
Debemos recordar que en las pruebas de Ejemplo:
hipótesis, especialmente en T Student, se
hacía una contrastación de parámetros Se quiere hacer una intervención
poblacionales, lo que NO se da en este tipos educativa para mejorar conocimientos
de pruebas. sobre prevención de COVID19, entonces
tomo una medición basal, un antes, para
Las pruebas de significación estadística ver cómo está los conocimientos, y luego
pueden clasificarse en: hago una intervención, y vuelvo a tomar
el instrumento para medir el conocimiento
- Paramétricas:
y se realiza una comparación para ver si
Contrastan hipótesis sobre parámetros.
hubo cambio significativo antes y después
Ejemplos: Pruebas t, z y anova de la intervención.
Ejemplo:
SOLUCIÓN
Se usa:
siguiente operación con:
Observamos que se calcula la media • Para comparar dos poblaciones
(μ) y la desviación estándar (σ) de T de independientes.
WILCOXON, y luego teniendo la media Cuando la variable es:
y desviación de estándar se calcula la
Zt de WILCOXON. • Cuantitativa medida en escala ordinal
• Cuantitativa medida en escala de
Reemplazando con los valores del intervalo o de razón, pero la variable
ejemplo: en una o en las dos poblaciones no
tiene distribución normal. En este caso,
se usa en lugar de la prueba t Student
para dos muestras independientes.
EJEMPLO:
- H0:
Las mujeres no tienen actitudes más
positivas que los varones frente a la
Iglesia Católica.
- H1:
Las mujeres tienen actitudes más
positivas que los varones frente a la
Iglesia Católica.
4. Se procede a la ∑ de rangos y se
A veces se puede trabajar con tamaño de
recomienda el uso del menor valor
las muestras pueden ser diferentes,
SOLUCIÓN: entonces n1 siempre será con el tamaño
menor, pero en el curso solo se trabaja con
a. Hipótesis:
el mismo tamaño de muestra.
Aquí hay dos hipótesis y bajo el modelo
d. Valor de p Nos dirigimos a la tabla y
europeo se plantea de la siguiente forma:
ubicamos el valor que necesitamos
- H0: que sería - 2,31, siendo su valor p de
Es la mediana de puntajes de las 0.1044.
mujeres £ mediana de varones.
Siendo la prueba unilateral:
- H1:
Es la mediana de puntajes de las p = 0,0104
mujeres > mediana de varones.
NOTA: Es negativo el valor que se busca en
la tabla por lo que no es tenemos que
restarlo.
e. Decisión y Conclusión:
DECISIÓN:
CONCLUSIÓN: