Está en la página 1de 33

Estadística

inferencial
El error muestral se refiere a la variación natural existente entre muestras tomadas de la
misma población.

El sesgo muestral se refiere a una tendencia sistemática inherente a un método de


muestreo que da estimaciones de un parámetro que son, en promedio, menores (sesgo
negativo), o mayores (sesgo positivo) que el parámetro real. Ejemplo: la longitud del dedo
índice de personas de la misma edad y sexo.

Distribución Muestral de Medias


Prueba del valor Z de la distribución normal
Formación de la curva de probabilidad estándar normal (forma de campana)
Se ubican tres medidas de tendencia central
Define la desviación estándar.

Parámetros de estimación
• Media
• Desviación estándar

El significado del valor Z en la curva normal de frecuencias: es el número de desviaciones


estándar que se desvían con respecto al promedio o media aritmética.
Ejercicio 1: En una muestra aleatoria de 100 estudiantes observamos que el tiempo medio
que tardan en realizar este examen es de 90 minutos, siendo la desviación típica
poblacional de 12 minutos. ¿Entre qué valores se encontrará el tiempo medio de realización
del examen de todos los alumnos presentados, con una probabilidad del 95%?
Ejercicio 2: Una variable se distribuye normalmente en la población con desviación 5.
Hemos extraído una muestra de 25 elementos y la media muestral vale 15. ¿Cuál es el
intervalo de confianza para la media poblacional con 0.005?
Teorema central del límite
Dada una muestra suficientemente grande de la población, la distribución de las medias
muestrales seguirá una distribución normal.

Si el tamaño de la muestra es suficientemente grande, la distribución de las medias


muestrales seguirá aproximadamente una distribución normal.
La media poblacional y la media muestral serán iguales.
La varianza de la distribución de las medias muestrales será σ²/n. Que es la varianza de
la población dividido entre el tamaño de la muestra.

Varianza: Es la media de las diferencias con la media elevadas al cuadrado.

Desviación Estándar mide cuánto se separan los datos.Su símbolo es σ. Es la raíz cuadrada
de la Varianza.
Prueba de hipótesis para la media

Es un procedimiento para probar estadísticamente una afirmación respecto de una


propiedad que pertenece a una población.

Una hipótesis es una declaración relativa a una población sujeta a verificación , es una
afirmación de algo que se puede o no probar.

Ejemplo: La media de los estudiantes de psicología en el semestre 2016-2 es superior a 15.

“La rapidez promedio sí es de 50 cm/s” Ho: μ = 50


“La rapidez promedio no es de 50 cm/s “ H1 μ ≠ 50

Hipótesis nula (H0): Es el enunciado relativo al valor de un parámetro de la población


(por ejemplo, una proporción, media o desviación estándar) es igual a un valor
determinado.

Hipótesis alternativa (H1): Es la afirmación que se acepta si los datos de la muestra


ofrecen evidencia suficiente para rechazar la hipótesis nula.
Ejemplo: Suponga que un grupo de psicólogos organizacionales (PO) es solicitado por una
institución hospitalaria para conocer o determinar en qué medida los niveles de estrés
afectaban interferían en el trabajo del personal que laboraba en la institución. De inicio, el
equipo de PO decidió enfocar el problema a partir del modelo teórico de estrés-
afrontamiento de Lazarus y Folkman (1991), quienes afirman que los episodios estresantes
(cuando la gente se estresa) se presentan cuando los individuos perciben que sus
capacidades de afrontamiento son rebasadas ante alguna exigencia del medio; mientras
que el afrontamiento se refiere a las estrategias cognitivas o conductas con las que el
individuo cuenta para responder a las exigencias cambiantes del medio.

A mayor estrés laboral menores estrategias de afrontamiento.


A mayor fatiga laboral mayor estrés.
A menores estrategias de afrontamiento mayor fatiga laboral.
En los grupos de más responsabilidad laboral el estrés será mayor.
En los grupos de más responsabilidad laboral el cansancio será mayor.
El siguiente paso es establecer las hipótesis estadísticas, el nivel de significación y los grados de
libertad. Entonces, la hipótesis nula postula que no hay diferencia del nivel de estrés entre los
diferentes estratos de trabajadores del hospital

Ho: Médicos (M) = Enfermeras (E) = Administrativos (A) = Intendentes (I).


Ho: M = E = A = I

Por el contrario, la hipótesis alterna sostiene que sí hay diferencias entre los grupos de trabajo del
hospital,

Hi: M ≠ E ≠ A ≠ I.

EJEMPLO 2:Se desea contrastar con un nivel de significancia del 5 % la hipotesis de que la talla
media de los hombres de 18 o mas años de un pa´ıs es igual a 180. Suponiendo que la desviacion
tipica de las tallas en la poblaci´on vale 4, contraste dicha hipotesis frente a la alternativa de que es
distinta.
Planteamiento de hipótesis
Error tipo I y II

Cualquiera sea la decisión tomada a partir de una prueba de hipótesis, ya sea de aceptación de la Ho o
de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hipótesis nula Ho es rechazada cuando es verdadera y debía ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa α.

Un error tipo II, se denota con la letra griega β se presenta si la hipótesis nula es aceptada cuando de
hecho es falsa y debía ser rechazada.En cualquiera de los dos casos se comete un error al tomar una
decisión equivocada.En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y
las consecuencias posibles.
NIVEL DE SIGNIFICANCIA
Probabilidad de rechazar la hipótesis nula cuando es verdadera. Se le denota mediante la
letra griega α, tambiιn es denominada como nivel de riesgo, este termino es mas adecuado
ya que se corre el riesgo de rechazar la hipótesis nula, cuando en realidad es verdadera.
Este nivel esta bajo el control de la persona que realiza la prueba.Si suponemos que la
hipótesis planteada es verdadera, entonces, el nivel de significación indicará la probabilidad
de no aceptarla, es decir, estén fuera de área de aceptación. El nivel de confianza (1-α),
indica la probabilidad de aceptar la hipótesis planteada, cuando es verdadera en la
población.
Ejemplo:Como parte de un estudio de tiempos y movimientos conducido en un centro de
Salud psicológica, una muestra de 100 pacientes pasó en promedio 23 min en la sala de
espera entre su registro y su atención por un miembro del grupo psicológico. La desviación
estándar muestral fue de 10 min. ¿Proporcionan estos datos evidencia suficiente como para
indicar que el tiempo de permanencia en la sala de espera es mayor a 20 min? Sea 𝛼𝛼 = 0,05

Paso1: Se establecen las hipótesis nula y alterna:


𝐇𝟎: 𝛍 = 𝟐0 min (El tiempo promedio de espera es de 20 min)
𝐇𝟏: 𝛍 > 𝟐0 min (El tiempo promedio de espera es mayor a 20 min)

Paso 2: Se selecciona un nivel de significancia: 𝛼 = 0,05 (Indica la


probabilidad de sentenciar erróneamente que el tiempo promedio de
espera es mayor a 20 min es 0,05)
Paso 3: Identificamos el estadístico de prueba:

(Nota importante: Se utiliza el presente estadístico de prueba cuando la desviación


poblacional es desconocida o el tamaño de la muestra es de 30 a más)

Paso 4: Se formula una regla para tomar decisiones.

Paso 5: Conclusión.
Existe suficiente evidencia
estadística para afirmar con un
nivel de confianza del 95% que
el tiempo de permanencia en la
sala de espera es mayor a 20
min.
Pruebas Paramétricas
• Se busca estimar los parámetros de una población en base a una muestra.
• Se conoce el modelo de distribución de la población, presenta variables cuantitativas continuas
medibles).
• Mientras más grande sea la muestra más exacta será la estimación, mientras más pequeña, más
distorsionada será la media de las muestras.

Ventajas de las Pruebas Paramétricas


• Tienen más poder de eficiencia
• Más sensibles a los rasgos de los datos recolectados
• Menos posibilidad de errores
• Dan estimaciones probabilísticas bastante exactas

Desventajas de las Pruebas Paramétricas


• Más complicadas de calcular
• Limitaciones en los tipos de datos que se pueden evaluar
Prueba Chi Cuadrado

La prueba chi-cuadrado es una de las más conocidas y utilizadas para analizar variables nominales o
cualitativas, es decir, para determinar la existencia o no de independencia entre dos variables. Con el
estudio de la independencia, se origina también un método para verificar si las frecuencias observadas en
cada categoría son compatibles con la independencia entre ambas variables.

Para evaluar la independencia entre las variables, se calculan los valores que indicarían la independencia
absoluta, lo que se denomina “frecuencias esperadas”, comparándolos con las frecuencias de la muestra.

La hipótesis nula (H0) indica que ambas variables son independientes


La hipótesis alternativa (H1) indica que las variables tienen algún grado de asociación o relación.
Ejemplo: Doscientos niños de la escuela elemental se clasificaron en forma cruzada de acuerdo con el
nivel socioeconómico y la presencia o ausencia de cierto defecto de pronunciación. Los resultados fueron
los siguientes:

¿Son compatibles estos datos con la hipótesis de que el defecto de pronunciación no


está relacionado con el Nivel Socioeconómico?

HIPOTESIS NULA: Las variables son independientes. El defecto de pronunciación no está


relacionado con el grupo socioeconómico al que pertenece.

HIPOTESIS ALTERNATIVA: Las variables no son independientes. El defecto de pronunciación


está relacionado con el grupo socioeconómico al que pertenece.
El estadístico de prueba tiene distribución Chi-cuadrado, gl = (2-1).(3-1) gl= 2gl.
El valor observado del estadístico de prueba es 10,29 y le corresponde un valor-p= 0,0058. O sea que
con un nivel de significación del 5% o aún bastante menor, se rechaza la hipótesis de independencia de
las variables.
Conclusión: Con un nivel de significación del 5% se puede concluir que los datos no son compatibles
con la hipótesis de que el defecto de pronunciación no está relacionado con el grupo socioeconómico.
Son ‘demasiados’ los niños de nivel socioeconómico bajo en los que el defecto de pronunciación está
presente y ‘demasiados’ los niños de nivel socioeconómico alto en los que el defecto está ausente
(demasiado para que pueda sostenerse la hipótesis de independencia).
Prueba T de Student

las pruebas de la familia de pruebas t comparan diferencias en las puntuaciones medias de los datos
distribuidos normalmente de nivel continuo (intervalo o relación).

La prueba t de una muestra funciona con una sola puntuación media. La prueba t de una muestra
compara la media de una sola muestra con un valor predeterminado para determinar si la media de la
muestra es significativamente mayor o menor que ese valor.

Por ejemplo, un investigador puede querer determinar si la edad promedio de jubilación en


una determinada población es de 65 años. El investigador tomaría una muestra
representativa de personas que ingresan a la jubilación y preguntaría a qué edad se
jubilaron. Luego, se podría realizar una prueba t de una muestra para comparar la edad
media obtenida en la muestra (por ejemplo, 63) con el valor de prueba hipotético de 65. La
prueba t determina si la diferencia que encontramos en nuestra muestra es mayor que
esperaría ver por casualidad.
T Student muestras independientes; la situación en la que hay dos muestras completamente separadas
que se toman independientemente de dos poblaciones diferentes. En cada muestra se utilizan diferentes
sujetos y no se corresponden de ninguna manera entre sí. No es necesario que haya el mismo número de
sujetos en cada muestra (es decir, los tamaños de las muestras pueden ser diferentes).Esta situación es
probablemente el diseño experimental más común en Psicología. Estos diseños a veces se denominan
diseños entre sujetos o entre grupos .

Ejemplo: Un equipo de estudiosos sostiene que el entrenamiento basado en la resolución


creativa de problemas favorece el rendimiento. Se asignaron al azar nueve adolescentes a
cada uno de dos grupos. Un grupo fue entrenado en la resolución creativa de problemas y el
otro no. Luego se les dio una serie de problemas para resolver. El número de problemas para
los cuales cada adolescente presentó una
solución posible fue:

Grupo entrenado: 12 16 19 8 10 13 9 15 14
Grupo no entrenado: 15 5 11 8 9 5 6 11 10

Suponga que la "cantidad de problemas resueltos por un adolescente" se distribuye


normalmente con igual varianza para ambos casos. Formule las hipótesis convenientes.
Contrástelas al nivel de significación 𝛼= 0,05. ¿Al 1% cuál sería la decisión?
Solución:

Nombrar las variables

X1: Cantidad de problemas resueltos por un adolescente entrenado.


X2: Cantidad de problemas resueltos por un adolescente no entrenado.

La variable X1 alude a la población hipotética de todos los adolescentes entrenados.


La variable X2 alude a la población real de adolescentes.

Las dos poblaciones de observaciones involucradas son hipotéticas. La media de X1 es µ1 y la media de X2


es µ2. Según el enunciado las variables X1 y X2 se distribuyen normalmente con igual varianza.

2. Plantear las hipótesis: Hipótesis nula e Hipótesis alternativa

𝑯𝟎 : µ1 = µ2 o sea 𝑯𝟎 : µ1 - µ2 = 0
la hipótesis nula afirma que la cantidad media problemas resueltos por los adolescentes entrenados es igual a
la de los adolescentes no entrenados, o sea sostiene que el entrenamiento no es eficaz.

𝑯𝟏 : µ1 > µ2 o sea 𝑯𝟏 : µ1 - µ2 > 0


la hipótesis alternativa conveniente es que la cantidad media problemas resueltos por los adolescentes
entrenados es mayor que la de los adolescentes no entrenados, o sea sostiene que el entrenamiento es eficaz
3. Indicar el nivel de significación:
α = 0,05

4. Especificar el estadístico de prueba y su distribución bajo Ho

El estadístico de prueba para las hipótesis y las condiciones dadas (igual varianza de las dos poblaciones
independientes normalmente distribuidas), se distribuye t de Student con n1+n2-2= 9+9-2=16 grados de
libertad.

5. Establecer la Regla de Decisión y formular la Decisión en base a la información muestral


Regla de Decisión: se rechaza Ho si valor p < 0,05 y no se rechaza Ho en caso contrario.
Decisión: Como el valor p = 0,0124 < 0,05 se rechaza Ho
.
Conclusión: No se rechaza Ho. Con un nivel del 1%, se concluye que la cantidad media de
problemas resueltos de los entrenados no es significativamente mayor que la 85 de los no
entrenados, esto es que el entrenamiento no es eficaz. Al 1%, la diferencia de medias de la
cantidad de problemas resueltos no puede ser atribuida al entrenamiento y solo es atribuible a
fuentes fortuitas de variación.
T Student para muestras relacionadas

En un estudio experimental de medidas repetidas.


Cada individuo se mide en un tratamiento, y luego el mismo individuo se mide nuevamente en el
segundo tratamiento.
En un estudio experimental de sujetos emparejados
cada individuo de una muestra se empareja con un sujeto de otra muestra. El emparejamiento se hace
para que los dos individuos sean lo más equivalentes posible con respecto a una variable (o variables)
específica que el investigador quisiera controlar.
ANOVA Análisis de varianza ó análisis factorial

La hipótesis nula: Es que la media de la variable estudiada es la misma en los diferentes grupos.
La hipótesis alternativa: Al menos dos medias difieren de forma significativa.

ANOVA permite comparar múltiples medias, pero lo hace mediante el estudio de las varianzas
El estadístico estudiado en el ANOVA, conocido como F-ratio, es el razon entre la varianza de las medias de
los grupos y el promedio de la varianza dentro de los grupos. Este estadístico sigue una distribución
conocida como “F de Fisher-Snedecor”. Si se cumple la hipótesis nula, el estadístico F adquiere el valor de 1
ya que la intervarianza será igual a la intravarianza.

Se puede demostrar que si la hipótesis nula es cierta y no existen diferencias entre las (desconocidas)
medias poblacionales, MSB y MSW serán muy similares. Por otro lado, si los medios (desconocidos) son
diferentes, MS B será mayor que MS W (esto tiene sentido intuitivode manera directa: si las medias de la
población son muy diferentes, esperaríamos que las medias de la muestra fueran bastante separados y,
por lo tanto, la variabilidad entre grupos será grande).

EJEMPLO: Se diseña un experimento con el fin


de comprobar si el uso de tres métodos de
enseñanza produce resultados diferentes que
son estadísticamente significativos en el
rendimiento de una cierta asignatura. Sean tres
grupos de estudiantes seleccionados al azar, con
las puntuaciones obtenidas después de que
cada uno de ellos fue enseñado por el método
que se índica.
Pasos para la prueba de significación:

1.Hipótesis nula. H0: No hay diferencia en los tres métodos de enseñanza.


Hipótesis alternativa: Existe diferencia estadísticamente significativa entre las medias de los tres grupos
de enseñanza.
2. Nivel de significación. Se utiliza un nivel de significación de 0,05, con prueba de una cola.
3. Distribución de muestreo. Se emplea la distribución F.
4. Cálculo del estadístico F.
Se contrasta con la F calculada, esta última debe ser mayor o igual a la F critica:

Interpretación. “Existen diferencias significativas entre los medios aritméticos de los tres grupos
experimentales y podemos atribuirlas a las distintas eficacias de los métodos de enseñanza empleados”.
Variable independiente (dos niveles)
Utilizaríamos una prueba t para estos diseños, porque solo tienen dos niveles.
Hora del día (mañana versus tarde): ¿Los estudiantes obtienen mejores resultados en los exámenes
cuando los toman por la mañana que por la tarde?
Cafeína (algo de cafeína versus nada de cafeína): ¿Los estudiantes obtienen mejores resultados en las
pruebas cuando beben cafeína en comparación con no beben cafeína?

Variable independiente (tres niveles):


Utilizaríamos un ANOVA para estos diseños porque tienen más de dos niveles
Hora del día (mañana, tarde, noche): ¿Los estudiantes obtienen mejores resultados en los exámenes
cuando los toman por la mañana, por la tarde o por la noche?
Cafeína (1 café, 2 cafés, 3 cafés): ¿Los estudiantes obtienen mejores resultados en las pruebas cuando
beben 1 café, 2 cafés o tres cafés?

ANOVA factorial
Hora del día: mañana o tarde
Cafeína: algo de cafeína frente a no cafeína
¿Cómo influye la hora del día y el consumo de cafeína en las calificaciones de los estudiantes?
Hicimos que los estudiantes tomaran exámenes por la mañana o por la tarde, con o sin cafeína.

Los diseños factoriales permiten a los investigadores manipular más de una cosa a la vez.

También podría gustarte