Está en la página 1de 65

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

UNIVERSIDAD DEL PERÚ. DECANA DE AMÉRICA


FACULTAD DE CIENCIAS MATEMÁTICAS
UNIDAD DE POSGRADO
MAESTRÍA EN ESTADÍSTICA MATEMÁTICA

ASIGNATURA: SEMINARIO DE ESTADÍSTICA


COMPUTACIONAL
Mg. María Estela Ponce Aruneri
31 DE OCTUBRE 2023

SEMESTRE 2023- II
INTRODUCCIÓN
Estadísticamente una hipótesis es cualquier
afirmación acerca de una población y/o sus
parámetros, es una conjetura o supuesto basado en el
criterio profesional o en estudios pasados.

Una prueba de hipótesis consiste en contrastar dos


hipótesis estadísticas, basándose en los resultados de
la muestra .

Tal contraste involucra la toma de decisión acerca de


las hipótesis. La decisión consiste en rechazar o no
una hipótesis en favor de la otra.
El valor del parámetro de la población especificado en
la hipótesis puede determinarse:

1º Como resultados de la experiencia o conocimiento


pasado del proceso, o incluso de experimentación
previa. El objetivo de la prueba de hipótesis es
determinar si la situación experimental ha cambiado.
2º Puede determinarse a partir de alguna teoría o
modelo con respecto al objeto que se estudia. Aquí
el objetivo de la prueba de hipótesis es verificar la
teoría o modelo.

3º Surge cuando el valor del parámetro de la


población es resultado de consideraciones
experimentales, tales como especificaciones de
diseño o ingeniería, o de obligaciones contractuales.
En esta situación, el objetivo de la prueba de
hipótesis es la prueba de conformidad.
Ejemplos

✓ El tiempo medio de reconocimiento visual de


palabras monosilábicas reales (no
pseudopalabras) está por debajo de los 230
msg.

✓ La proporción de sujetos con ideas suicidas


en la población de personas con depresión es
superior a 0,40.

✓ La incidencia del fracaso escolar es diferente


en las zonas rurales con respecto a las
urbanas.
DEFINICIONES
Hipótesis Estadísticas: Conjetura o supuesto que
el investigador plantea para el parámetro(s) que
puede o no ser verdadera, relativa a una o más
poblaciones.

Hipótesis Nula (Ho): Supuesto que indica que el


valor del parámetro(s), es constante que no ha
sufrido cambios, es nula. Se plantea generalmente
con la intención de rechazarla.

Hipótesis Alternativa (H1): Supuesto que se


relaciona con la teoría a demostrarse, enunciado
alternativo a la hipótesis nula.
Pruebas de una cola y doble cola la hipótesis
alternativa “H1”, indica si la prueba es de una o doble
cola.
Errores, como las pruebas de hipótesis se basan en los
datos que proporcionan una muestra aleatoria, es
posible que se cometan errores, estos pueden ser:

1)Error de tipo I : que se comete al rechazar la


hipótesis nula cuando ésta es verdadera.

2) Error de tipo II : que se comete al ni rechazar a


hipótesis nula siendo esta falsa.
Estado real Ho es verdadera Ho es falsa
Decisión
Rechazar Ho 1- 
Error de tipo I ()
No rechazar Ho 1- 
Error de tipo II ()
Riesgos de decisiones incorrectas:

 = P (rechazar la hipótesis nula, cuando es verdadera)


 = P (aceptar la hipótesis nula, cuando es falsa).

Ejemplo
La proporción de sujetos con ideas suicidas en la
población de personas con depresión es superior a 0,40.
Ho: p  0.40
H1: p > 0.40
Estado real
Ho :p  0.40 (V) Ho: p  0.40 (F)
Decisión
Rechazar Ho: p  0.40
Error de tipo I () 1- 
No rechazar Ho:p  0.40
1-  Error de tipo II () 9
Nivel de significación de la prueba la probabilidad
“”, de cometer el error de tipo I, se le llama nivel de
significación de la prueba. Los valores más usuales de
“” son 0.05 y 0.01

El “p-value” llamado el nivel de significación


observado, es el valor de “” al cual se rechazaría la
hipótesis nula si se usa el valor calculado de la prueba
estadística.

En la práctica un “p-value” cercano a 0 indica un


rechazo de la hipótesis nula. Por ejemplo, un “p-value”
menor que = 0.05 indicará que se rechaza la hipótesis
nula.
PASOS A SEGUIR PARA FORMULAR
HIPÓTESIS

1° Formular las hipótesis, considerando como


hipótesis alternativa aquella que se desea probar.

2° Elegir el valor del nivel de significación “”


adecuado, de tal forma que sea lo más pequeño
posible.

3° Si no existe suficiente información en la


muestra como para aceptar la hipótesis alternativa,
es preferible indicar que la hipótesis nula no
puede ser rechazada en lugar de aceptarla.
ESTADÍSTICOS DE PRUEBA Y REGIÓN DE
RECHAZO

✓ Indicadas las hipótesis, es necesario establecer un


procedimiento que permita decidir si se rechaza la
hipótesis nula o no.

✓ El procedimiento consiste en tomar una muestra y a


partir de la información que ella proporcione, se
tome una decisión.

✓ Esta información generalmente aparece en


expresiones denominadas “estadísticos de prueba” e
indican de alguna manera, el grado de discrepancia
entre la hipótesis nula y los datos observados.
✓ Cuando el grado de discrepancia es
grande se rechazará la hipótesis nula, de
otra manera no se rechazará.

✓ El conjunto de valores del estadístico de


prueba para los cuales la hipótesis nula es
rechazada se llama región de rechazo o
región crítica.
PRUEBAS DE HIPÓTESIS PARAMÉTRICAS
Pruebas de Hipótesis acerca de la
media de una población
Caso 1:
Pruebas de Hipótesis respecto a la media de una
población, muestra grande “n  30”
En este caso la población de donde se extrae la muestra
puede tener distribución normal o no; si la varianza
poblacional no es conocida, se estima en base a los
datos de la muestra:
( x − x )
n 2

i i

ˆ = S = i =1

n −1
Ejemplo 1

Una muestra de 42 sujetos infractores, seleccionada


de una población de sujetos privados de libertad,
obtuvo una media de 42 con una desviación típica
de 9, en una prueba de razonamiento abstracto. En
los últimos 5 años, los resultados obtenidos
indicaban una media de 48. ¿De acuerdo a estos
resultados se puede concluir que el promedio de la
población de infractores ha disminuido en
comparación de los últimos cinco años?
Ejemplo 2

Un estudio desarrollado en una muestra de 75


personas que residen en una comunidad sub urbana
indicó que el promedio de ingreso familiar fue de
S/.735.00 mensuales, con una desviación típica de
S/.25.00. Verifique la hipótesis de que el promedio
salarial en ésta comunidad es diferente a S/./790.00.
Caso 2: Pruebas de Hipótesis respecto a la media
de una población, muestras pequeñas “n < 30”

Si los datos de la muestra provienen de una


población que tiene distribución normal, pero el
tamaño de la muestra es pequeño y no se conoce la
varianza de la población, se estima en base a los
datos de la muestra.
Los grados de libertad de la
distribución t-student son (n-1)
Ejemplo 1:

El cociente intelectual, CI, se distribuye N(100;


152) en la población general.
Un investigador toma una m.a.s. de 9 niños
autistas de dicha población y desea comprobar si
la media es distinta en esta población. Encuentra
que la media de la muestra es 115. ¿Cuál será su
conclusión con a = 0,05?
Ejemplo 2:

Un equipo de psicólogos sociales está estudiando


si los niños que ven habitualmente películas
violentas presentan un mayor grado de
agresividad. Se sabe que la agresividad de los
niños de esa edad, a nivel poblacional, se
distribuye
N(15; 25). Si el equipo selecciona una m.a.s. de
25 niños que habitualmente ven películas
violentas y encuentra que la media en agresividad
es 17, ¿a qué conclusión llegará con a = 0,01?
Pruebas de Hipótesis acerca de la Media de dos
poblaciones: Muestras independientes

Caso 1: Muestras grandes

Presentaremos los procedimientos para probar


hipótesis acerca de la diferencia entre las medias
de dos poblaciones. En este caso las muestras son
de tamaño mayor a 30. Si no se conocen las
varianzas poblacionales se estiman.

Las poblaciones pueden o no proceder de una


población con distribución normal.
Ejemplo 1:

Se realizó una encuesta entre los ancianos de un


distrito para comparar los niveles de amor propio
entre los que viven y los que no viven(solo o con
parientes) en casas de reposo. A cada uno de ellos se
le proporcionó una prueba para medir su amor propio.
Los resultados fueron los siguientes:
Tamaño Media Varianza de la
Estadísticas de la Muestral muestra
Ancianos muestra
Que viven en casas de reposo
50 65 100
Que no viven en casa de reposo
30 88 90
Estos datos proporcionan suficiente evidencia
como para deducir que los ancianos que no
viven en casas de reposo tienen un puntaje
promedio superior de amor propio con respecto
a los que viven en casa de reposo.
Considere un nivel de significación del 1%.
Ejemplo 2:

Se llevó a cabo un estudio para evaluar los efectos


de hacinamiento sobre el aprendizaje entre los
niños de nivel inicial. A una muestra aleatoria de
50 niños se le enseñó una destreza determinada en
condiciones de hacinamiento y a otra de 45 años
se le enseñó la misma destreza con los mismos
profesores pero sin hacinamiento. Al terminar el
experimento se le administró a cada niño una
prueba para determinar el nivel de dominio de la
habilidad, obteniéndose los siguientes resultados:
Estadísticas Media Varianza de la
Muestral muestra
Condiciones
Hacinamiento 70 100

No hacinamiento
80 90

¿ Proporcionan estos datos suficiente


evidencia estadística como para concluir
que la enseñanza es menos efectiva bajo las
condiciones de hacinamiento? Considere un
nivel de significación del 5%.
Caso 2: muestras pequeñas

En este caso cada una de las muestras es de tamaño


menor a 30. Las muestras proceden de poblaciones con
distribución normal, las varianzas poblacionales no se
conocen pero son iguales.

La varianza se estima :

Sp =
( 1 ) 1 ( 2 ) 2
n − 1 S 2
+ n − 1 S 2
1 1 
 + 
n1 + n2 − 2  n1 n2 

Los grados de libertad de la distribución t-student en


este caso es (n1+n2 -2)
Ejemplo 1:
Un terapeuta ocupacional realizó un estudio para evaluar
los méritos relativos de dos aparatos prostéticos ideados
para facilitar la destreza manual. El terapeuta le entregó a
21 pacientes con idénticas dificultades uno de los dos
aparatos para que lo usaran mientras realizaban
determinada tarea. Once pacientes utilizaron el aparato A y
diez el B. El investigador registró el tiempo que utilizó
cada paciente para realizar la tarea, obteniendo los
siguientes resultados:
x A = 65 segundos sA2 = 81
xB = 75 segundos sB2 = 64
¿Proporcionan estos datos evidencia suficiente como para
concluir que el aparato A es tan efectivo como el aparato B?
Considere  =0.05.
Ejemplo 2:

Como parte de un proyecto de investigación, un


psicólogo selecciona una muestra aleatoria de 12
chicos y 9 chicas. Luego les pide a cada uno de
ellos que dibuje una figura masculina. El tiempo
promedio que utilizaron las chicas fue de 8
minutos con una varianza de 18; mientras que los
chicos utilizaron un tiempo promedio de 13
minutos y una varianza de 22.5.
¿Indican estos resultados que los chicos en
promedio utilizan más tiempo para dibujar una
figura masculina que las chicas? Considere 
=0.05
Pruebas de Hipótesis acerca de la Media de dos
poblaciones: Muestras Relacionadas (pareadas,
dependientes)
La característica distintiva de las muestras
apareadas es que para cada observación del primer
grupo, hay una observación relacionada en el
segundo grupo.

Las muestras apareadas se obtienen cuando se


realizan comparaciones sobre una misma unidad
experimental.
(d −d )
n n n

 d  (x
2
i 1i − x2i ) i
d= i =1
= i =1
Sd = i =1

n n n −1
Los grados de libertad en este caso: (n-1)
Ejemplo 1:

La siguiente tabla muestra los puntajes de CI de 12


niños a quienes se les diagnosticó inhabilidad para el
aprendizaje, antes y después de 9 meses de la
iniciación de un programa remedial:

¿Proporcionan estos datos evidencia suficiente como


para concluir que el programa remedial es más efectivo
para aumentar los puntajes de CI en este tipo de niños?.
Considere  =0.05.
Ejemplo 2:

Un psicólogo seleccionó al azar 15 señoras de un distrito


urbano con sus respectivos esposos y les solicitó que
completaran un cuestionario para medir el nivel de
satisfacción respecto del distrito donde viven. La siguiente
tabla muestra los resultados de la encuesta:

¿Proporcionan estos datos evidencia de que los esposos


(maridos) están más satisfechos que las esposas de
residir en dicho distrito?. Considere  =0.05.
ANOVA DE UN FACTOR
Se ha presentado cómo contrastar la igualdad de
medias en dos poblaciones normales e
independientes. Pero en ocasiones necesitamos
contrastar la igualdad de medias de un número
mayor de poblaciones para detectar posibles
diferencias significativas entre ellas en cuanto a una
variable:
H o : 1 = 2 = 3 = ........ = k
H 1 : i   j para algún par i  j
El análisis de la varianza (ANOVA) es un método
estadístico creado por Fisher en 1925 para descomponer
la variabilidad de un experimento en componentes
independientes que puedan asignarse a causas distintas.

El problema general que vamos a estudiar es el


siguiente: disponemos de n elementos que se diferencian
en un factor: por ejemplo, alumnos de distintas clases
(factor: clase), individuos según nivel de tratamiento que
se le aplico 5 niveles de tratamiento(factor tratamiento),
etc. En cada elemento o unidad de análisis observamos
una característica cauntitativa continua (X) que varía
aleatoriamente de un individuo a otro: notas de
Estadística de los alumnos, respuesta al tratamiento de
los individuos,
A esta característica se le llama variable respuesta.
Nuestro objetivo será conocer si existe o no relación
entre la variable respuesta y el factor: ¿habrá
diferencias en las notas de los distintos grupos de
Estadística?, ¿tendrán los mismos resultados los
diferentes niveles de tratamiento?,

UNA VARIABLE UNA VARIABLE


INDEPENDIENTE DEPENDIENTE MÉTRICA:
NO MÉTRICA: FACTOR VARIABLE DE RESPUESTA
OBJETIVO
Comparar las medias de las K muestras o grupos,
para determinar si existen diferencias significativas.

SUPUESTOS BÁSICOS

1º Independencia entre observaciones.


2º Normalidad de la variable dependiente
3º Igualdad de varianza entre los grupos,
(homocedasticidad)
4º Los tamaños de muestra por grupo no deben ser
muy diferentes.
5° Errores incorrelacionados.
MODELO

El modelo para comparar las medias de k


poblaciones, se representa por :
yij =  + i +  ij = i +  ij
i=1,2,…..,k j = 1,2,…., ni
con   N (0, 2)
 : media general
i es el efecto del nivel i del factor (variable
independiente no métrica)
 ij : error experimental
Estimadores de los parámetros del modelo

Utilizando el método de máxima verosimilitud


obtenemos lo siguiente:
ni

y
j =1
ij

ˆ i = yi. = i = 1, 2,...., k
ni

( )
k ni 2 k
  yij − yi .  ( ni −1) Si
2

i =1 j =1
ˆ =
2 i =1 2
= =S
n−k n−k p

ˆij = yij − ˆ i
Estadístico para la prueba de hipótesis ANOVA

VT = VE + VNE

Donde:

VT: variabilidad total


VE: variabilidad explicada por el modelo, variabilidad
entre grupos.
VNE:variabilidad no explicada por el modelo o
variabilidad residual o variabilidad dentro de los
grupos
ni 2 2

VT =  ( yij − y.. )
k k
VE =  ni ( yi. − y.. )
i =1 j =1 i =1
k ni 2

n y VNE =  ( yij − yi. )


k
i i. k
y.. = i =1
n =  ni i =1 j =1
n i =1

Tabla ANOVA

Fuente de Suma de Grados de Cuadrados


Variación cuadrados libertad medios
Entre grupos VE k-1 CMEG =VE / k-1
Dentro de los
VNE n-k CME = VNE / n-k
grupos
Variabilidad Total VT n-1 VT / n-1
H o : 1 = 2 = 3 = ........ = k
H 1 : i   j para algún par i  j
CMEG
Fc = Fk −1,n −k
CME
Decisión:
Rechazar la hipótesis nula a un nivel de
significación , si:
Fc  F1− ;k −1,n−k
Ejemplo 1
En una muestra aleatoria de 30 ejecutivos se identificó a
cada uno de ellos como arriesgado, prudente y neutral en
cuanto a los riesgos. A cada ejecutivo se le administró
una prueba para medir su nivel de ansiedad, los
resultados son los siguientes:

A un nivel de significación del 5%, ¿qué conclusiones


puede obtener?
Ejemplo 2
¿Son todos los medicamentos antidepresivos igualmente
eficaces? Para probar esta hipótesis, un psiquiatra asigna
aleatoriamente uno de cinco diferentes antidepresivos para
cada uno de los 15 pacientes deprimidos. Al final del
experimento, el nivel de depresión de cada paciente es
medido. Porque algunos pacientes no tomaron su medicación
o abandonó el experimento o por otras razones, las muestras
finales son de diferente tamaño. Las estadísticas son las
siguientes:
y1 = 23 s1 = 6.5 n1 = 12
y2 = 30 s2 = 7.2 n2 = 15
y3 = 34 s3 = 7 n3 = 14
y4 = 29 s4 = 5.8 n4 = 12
y5 = 26 s5 = 6 n5 = 15
A un nivel de significación del 5%, ¿qué
conclusiones puede obtener?
Pruebas de Hipótesis sobre la Proporción
poblacional
Caso 1: Pruebas de Hipótesis sobre la Proporción de
una población.

Emplearemos el símbolo “p” para indicar la


proporción poblacional y “po” para representar
determinado valor supuesto de dicha proporción.

La proporción se refiere a los elementos de la


población que tienen cierto atributo.
Ejemplo 1:

Se estima que menos del 10% de estudiantes de


una universidad, utiliza transporte público para
trasladarse a su centro de estudios. En una
muestra aleatoria de 225 estudiantes, 20 dijeron
que utilizaban el transporte público. Ante esta
evidencia será real la estimación.
Considere un nivel de significación del 5%.
Ejemplo 2:

En una muestra aleatoria de 255 personas adultas


de una región, 25 dijeron que, en su concepto la
mayoría de las enfermedades mentales eran
hereditarias.
¿Serán útiles estos datos para probar la hipótesis
de que menos del 15% de las personas adultas de
la región opinan de esta manera?. Considere un
nivel de significación del 5%.
Caso 2: Pruebas de hipótesis acerca de la
diferencia entre las proporciones de dos
poblaciones

Las poblaciones son independientes, de cada una


de ellas se selecciona aleatoriamente una muestra.

El estimador de la proporción poblacional:

n1 pˆ1 + n2 pˆ 2
pˆ =
n1 + n2
Ejemplo 1:

Se realiza una encuesta sobre el acoso escolar preguntando


a padres y madres sobre si sus hijos han sido víctimas de
acoso escolar. Los padres y madres se eligieron
aleatoriamente y no están pareados. Los resultados muestran
en la siguiente tabla:
Acoso Madres Padres
Escolar
Sí 61 34
No 61 52

¿Existe una diferencia significativa, entre la opinión de


padres y madres sobre el acoso escolar a sus hijos?
Considere  = 0.05.
Ejemplo 2:
Un investigador que trabaja con un departamento
correccional cree que, entre los jóvenes encarcelados por
actos de violencia, el porcentaje de ellos que fue educado
en hogares hacinados está muy por encima del 10%
respecto del porcentaje de personas encarceladas por
otros crímenes que se educaron en hogares hacinados.
Para obtener evidencia que apoye esta teoría, el
investigador tomo muestras aleatorias independientes de
los registros de los últimos 5 años de los jóvenes
encarcelados según su tipo de delito, obteniendo los
siguientes resultados:
BIBLIOGRAFÍA

✓Rizzo, M. 2008. Statistical Computing With R.


Chapman & Hall/CRC. USA.
✓Trosset, M.(2009). An Introduction to Statistical
Inference and its Applications with R. Chapman &
Hall/crc is an imprint of Taylor & Francis group.
✓Paolella, M. 2018. Fundamental Statistical Inference
a Computational Approach. John Wiley & Sons LTD.
USA.
✓ Panik.,m. (2012).-Statistical Inference_ A
Short Course-Wiley.

✓ Guillard,J. (2020). A First Course in Statistical


Inference. Springer Nature Switzerland AG

✓ Almudevar,A.(2022). Theory of Statistical


Inference. CRC Press is an imprint of Taylor &
Francis Group, LLC.

También podría gustarte