Está en la página 1de 19

CUADERNO DE EJERCICIOS

ASIGNATURA: PROBABILIDAD Y ESTADÍSTICA APLICADA AL CAMPO


PETROLERO
INGRID NINEL VELAZQUEZ HERNANDEZ
Introducción

Una prueba de hipótesis es una herramienta de análisis estadístico utilizada para


determinar la validez de una hipótesis, es decir, de una afirmación o pensamiento
que se desea probar. La prueba de hipótesis proporciona a los investigadores una
forma sistemática y estructurada para evaluar si una determinada hipótesis resulta
verdadera o no.
Las pruebas de hipótesis se usan en todas las áreas del conocimiento, desde la
psicología hasta el marketing, pasando por la economía y la física. Estas pruebas
permiten a los investigadores formular conjeturas y contrastarlas con los datos para
comprender mejor su campo de estudio.
A continuación, se presentará una descripción paso a paso de la ejecución de una
prueba de hipótesis. Se incluirán los puntos claves que necesitan ser considerados
al crear e implementar una prueba de hipótesis.

Página 1 de 18
Pasos para la prueba de hipótesis

1. Plantear la hipótesis.
La prueba de hipótesis formula dos hipótesis estadísticas que deben anunciarse
explícitamente: hipótesis nula y alternativa. La primera, se designa por el símbolo
H0. Esta hipótesis se conoce también como la hipótesis de no diferencia, ya que es
una proposición de conformidad con (o sin diferencia respecto a) Características
que se suponen ciertas en la población de interés. Esta hipótesis siempre se opone
a la hipótesis del investigador.
La segunda, identificada mediante el símbolo H1, es una proposición que se creerá
cierta si los datos de la muestra siguieren que llevan al rechazo de la H 0 es falsa.
Por lo general, la H1 y la hipótesis de investigación son la misma y, de hecho; se
utilizan los dos términos indistintamente.
En general H0, esta se establece con el propósito expreso de ser rechazada. Si no
se rechaza, esto no necesariamente significa que es verdadera, se dirá que los
datos sobre los cuales se basa la prueba no proporcionan evidencia suficiente que
cause el rechazo. Por el contrario, si se rechaza se concluye que los datos
disponibles no son compatibles con la H0, pero sirven como apoyo a alguna otra
hipótesis. Rechazarla entonces, sugiere que la hipótesis alternativa puede ser
verdadera.
Aspectos importantes sobre H0 y H1
• H0 y H1 son mutuamente exclusivas y colectivamente exhaustivas, es decir;
son complementarias.
• H0 siempre se presume ser cierta y es la que debe ser comprobada.
• H1 es la conclusión a la que se desea o espera llegar como resultado de la
En consecuencia, el complemento de la conclusión se convierte en el
enunciado de la H0.
• Se utiliza una muestra aleatoria (n) para “rechazar H0”.
• Siempre, la igualdad es parte de H0 (“=”, “≥”, “≤”).
• Mientras que “≠” “<” y “>” siempre es parte de H1.

2. Establecer un nivel de significancia


Se ha señalado que la clave para la inferencia estadística es la distribución muestral.
Es necesario recordar esto, en los casos en que sea necesario especificar la
Página 2 de 18
distribución de probabilidad de la estadística de prueba. Por ejemplo, la distribución
de la estadística de prueba por lo general; sigue una distribución normal estándar
(ver unidad anterior) si la H0 es verdadera y si satisface las suposiciones. Todos los
valores posibles que la estadística de prueba puede asumir son puntos sobre el eje
horizontal de la gráfica de la distribución para esta estadística y se dividen en dos
grupos: uno de ellos constituye lo que se conoce como región de rechazo y el otro,
forma la región de no rechazo (figura 1).

Diagrama 1. Partes de una distribución en pruebas de hipótesis


Los valores de la estadística de prueba que forman la región de rechazo son
aquellos que tienen la menor probabilidad de ocurrir, mientras que los que forman
la región de no rechazo tienen la mayor probabilidad de ocurrencia, si la H0 es
verdadera para ambas regiones.
La decisión en cuanto a que valores van hacia qué región se toma con base en
el nivel de significancia deseado, designado por α. El nivel de significancia α,
designa el área bajo la curva de la distribución de la de prueba que está por encima
de los valores, sobre el eje horizontal; que constituyen la región de rechazo. Y un
valor calculado para la estadística de prueba que cae dentro de la región de rechazo
se dice que es significativo.
Ejemplo, si tuviéramos un nivel o grado de confianza del 95% (0.95) entonces el
nivel de significancia sería del 5% (0.05) donde:
Nivel de confianza = (1- α)
Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de
significancia sería del 10%.

Página 3 de 18
Dado que rechazar una H0 verdadera sería un error, parece razonable que se deba
hacer pequeña la probabilidad de cometerlo y, de hecho; esto es lo que se hace. Se
elige un valor pequeño de α para hacer que la probabilidad de rechazo para una
H0 sea pequeña. Los valores que se encuentran con más frecuencia son: 0.01, 0.05
y 0.10. La probabilidad de equivocarse al no rechazar un H 0 verdadera
generalmente es de 95%, puede ser 90 y 99%, esto se conoce como el nivel de
confianza.

Diagrama 2. Partes de una distribución en pruebas de hipótesis.


Por lo tanto, la probabilidad de no equivocarse al rechazar una H 0 falsa
generalmente es de 80%, esto es el valor o grado predictivo cuyo valor de β más
comúnmente usado es 0.2. (figura 2).

Tipos de errores
El error que se comete cuando se rechaza una H0 verdadera se conoce como error
del tipo I (α). EI error del tipo II (β) se comete cuando no se rechaza una H0 falsa.
Siempre que se rechaza una H0 se tiene el riesgo de cometer un error del tipo I, al
rechazar una H0 verdadera; y siempre que no se rechaza, existe el riesgo de no
rechazar una H0 falsa. En general, aunque se dé un valor pequeño a α no se ejerce
control sobre β, aunque se sabe que en la mayoría de las situaciones practicas es
mayor que α. Es decir:
El error tipo I (error alfa) se comete cuando:
• Se concluye que hay diferencias cuando realmente no las hay.
• Se detecta significancia estadística p< 0.05 y se rechaza la H0 cuando en
realidad es verdadera.

Página 4 de 18
La probabilidad de cometer este error es lo que mide el valor de p (P-Value)
El error tipo II (error beta) se comete cuando:
• Los resultados NO son significativos (p>0.05) y se concluye que no hay
diferencias, cuando realmente SI las hay y se acepta la H0 cuando en
realidad es falsa.
Nunca se sabe si se ha cometido o no uno de estos errores cuando se rechaza o
no una H0, ya que se desconoce el verdadero estado de las cosas. Si el
procedimiento de prueba conduce al rechazo de la H0, puede ser un consuelo el
hecho de que al dar un valor pequeño a α la probabilidad de cometer un error del
tipo I también lo es. Si no se rechaza la H0, no se conoce el riesgo concurrente de
cometer un error del tipo II, ya que por lo común se desconoce; pero como se ha
señalado, en la mayoría de situaciones prácticas se sabe que es mayor que α.
El cuadro 1 muestra las posibles acciones que el investigador puede emprender
para varias condiciones de una prueba de hipótesis, así como las condiciones en
las que se produce cada uno de los dos tipos de error.

Tabla 1. Condiciones en la que es posible cometer un error de tipo I o de tipo II


Fuente: Modificado de Daniel, Wayne W. (2002).
En resumen:
• Error Tipo I: es el nivel de significancia, denotado por la letra griega “a”, se
define como la probabilidad de “rechazar” la H0 cuando esta es
• Error Tipo II: es el valor predictivo, denotado por la letra griega “β”, se define
como probabilidad de “aceptar” la H0 cuando ésta es falsa. El procedimiento
busca fijar la probabilidad de cometer error Tipo I, α, y minimizar la
probabilidad de cometer error Tipo II, β.
Recomendaciones para disminuir el error tipo I, α:
• Disponer de una teoría que guíe la investigación, evitando el “salir de pesca”
con la computadora buscando asociaciones entre variables.
• Disminuir el número de pruebas estadísticas llevados a cabo en el estudio.
• Depurar la base de datos para evitar errores de valores extremos que puedan
producir hallazgos signicativos.

Página 5 de 18
• Utilizar valores de alfa más reducidos (0.01 o 0.001).
• Reproducir el estudio. Si al reproducir el estudio se obtienen resultados
similares, estaremos más seguros de no estar cometiendo el error de tipo I.
Recomendaciones para disminuir el error tipo II, β:
• Incrementar el tamaño de la muestra.
• Estimar el poder estadístico del estudio (1 – β).
• Incrementar el tamaño del efecto a detectar.
• Incrementar el valor de alfa.
• Utilizar pruebas paramétricas (más potentes) en lugar de pruebas no
paramétricas en la medida de lo posible.

3. Seleccionar el estadístico de prueba a aplicar


Es necesario comprender la naturaleza de los datos que forman la base de los
procedimientos de prueba, ya que esto determina la prueba particular que se ha de
utilizar. Se debe determinar, por ejemplo, si los datos constan de conteos o medidas.
A partir de los datos contenidos en la muestra, se calcula un valor de la estadística
de prueba y se compara contra las regiones de no rechazo y rechazo que ya fueron
especificadas. Luego entonces, aplicar el estadístico de prueba, previa
comprobación los supuestos (restricciones) estas incluyen, entre otras;
suposiciones respecto a la normalidad de la distribución de la población, igualdad
de varianzas e independencia de las muestras. Esto es importante ya que determina
si se usan pruebas paramétricas (para datos que siguen la distribución normal) o
pruebas no paramétricas (para datos cuya distribución es diferente a la normal). Hay
que tener en cuenta que un procedimiento general se modifica según las
suposiciones. Los estadísticos de prueba más comunes los veremos más adelante.

4. Establecer una regla de decisión


Esta señala que se debe ser rechazada H0 si el valor de la estadística de prueba
que se calcula a partir de la muestra es uno de los valores de la región de rechazo,
y que no se debe rechazar si el valor calculado es uno de los valores de la región
de no rechazo.

Valor de p en pruebas de hipótesis

Página 6 de 18
Un aspecto, aquí importante es el valor de p (P-Value) que es el valor del estadístico
de prueba que se aplique. Indica que tan significante son los resultados de la
muestra, considerando que la H0 sea verdadera.
Los valores de p son comúnmente utilizados para probar (y descartar) una H 0, que
por lo general indica que no existe una diferencia entre dos grupos, o que no hay
ninguna correlación entre un par de características; por lo tanto, ofrece la
justificación para dudar de la certeza de la H0, si esta es verdadera.
Cuanto menor sea el valor de p, menor es la probabilidad de que un conjunto de
valores observados ocurra por casualidad. Un valor p de 0.05 o menos suele
entenderse en el sentido de que las observaciones son estadísticamente
significativas y justifica los resultados de un estudio. Pero eso no es necesariamente
cierto, la distancia entre la significación estadística y la relevancia clínica se debe
analizar con cuidado por parte de los investigadores por lo que hay que evitar sacar
conclusiones científicas o tomar decisiones basadas solo en los valores de p.
Un valor p de 0.05, no significa que hay una posibilidad del 95% que una
determinada hipótesis es correcta. Más bien, significa que, si la H0 es verdadera, y
todas las demás suposiciones hechas son válidas, hay una probabilidad del 5 % de
obtener un resultado al menos tan extremo como el observado. Y un valor de p no
puede indicar la importancia de un hallazgo; por ejemplo, un medicamento puede
tener un efecto estadísticamente significativo en los niveles de glucosa en la sangre
del paciente sin tener un efecto terapéutico, en este caso hay relevancia estadística
pero el hallazgo clínico también es importante dado que dicho medicamento no es
eficaz en el tratamiento de la diabetes, por ejemplo.
Por lo tanto, el valor de p es la probabilidad de observar un valor muestral tan
extremo como, o más extremo que, el valor observado, dado que la H0 es verdadera.
En prueba de hipótesis, podemos también comparar el valor de p con el nivel de
significancia α. Si el valor de p < α, H0 se rechaza, de otro modo H0 no se rechaza.
Pero ¿qué significa esto? veamos lo que puede ocurrir, si:
p = 0.10, tenemos alguna evidencia que H0 no es verdadera.
p = 0.05, tenemos fuerte evidencia que H0 no es verdadera.
p = 0.01, tenemos muy fuerte evidencia que H0 no es verdadera.
p = 0.001, tenemos una extremadamente fuerte evidencia que H0 no es verdadera.

5. Tomar una decisión o conclusión


Esto no es otra cosa que decidir si H0 se rechaza, entonces se concluye que H1 es
verdadera. Si H0 no se rechaza, se concluye que H0 puede ser verdadera. Es
importante aclarar que cuando la H0 no es rechazada, tampoco se puede decir que
se acepta. Se debe decir que «no se rechaza «. Se evita el uso de la palabra

Página 7 de 18
«aceptar» en este caso porque pudiera haberse cometido el error de tipo II. Dado
que, frecuentemente; la probabilidad de cometer un error de tipo II puede ser
realmente alta, no se pretende cometerlo al aceptar la H0.
Finalmente, la interpretación está en función de la pregunta de investigación y tiene
relación con la H1, pero la interpretación no necesariamente es igual a dicha
hipótesis.

3.3 Propósito de la prueba de hipótesis


Uno de los propósitos de la prueba de hipótesis es ayudar en la toma de decisiones.
En general, la decisión práctica (la razón por la cual se hizo la prueba) depende de
la decisión estadística. Si se rechaza H0, la decisión práctica generalmente refleja
el hecho de que la H1 es compatible. Se cumple lo opuesto si no se rechaza la H0.
Sin embargo, en la práctica esto puede tener otras alternativas, como la decisión de
reunir más datos.
Sin embargo, en este punto es necesario destacar que el resultado de la estadística
de prueba sólo es una parte de la evidencia que influye sobre la decisión final, es
decir; la decisión práctica. La decisión estadística no debe interpretarse como
definitiva, sino considerarse junto con toda la demás información importante de que
disponga el experimentador. Con base en estos comentarios se estudian a
continuación pruebas de hipótesis especificas más comunes.

3.4 Prueba de hipótesis para una media


A este respecto, pueden darse 3 casos a saber:
1. Cuando el muestreo se realiza a partir de una población de valores que
siguen una distribución normal con varianza conocida;
2. Cuando el muestreo se realiza a partir de una población con distribución
normal y con varianza desconocida, y
3. Cuando el muestreo se realiza a partir de una población que no presenta una
distribución normal (no la veremos, por ahora).
Aunque la teoría para las condiciones 1 y 2 depende de poblaciones con distribución
normal, es una práctica común aplicar la teoría cuando las poblaciones importantes
solo están distribuidas en forma aproximadamente normal. Esto es satisfactorio
siempre que la desviación de la normalidad es moderada.

Página 8 de 18
Diagrama 3. Planteamiento de una hipótesis para probar una media (µ).
Cuando la desviación estándar (σ) es desconocida, se utiliza la desviación estándar
muestral (s) en su lugar. Y la distribución de t de Student se utiliza como estadístico
de prueba.
Vea la figura:

Diagrama 4. Estadísticos de prueba según la varianza, cuando esta es conocida se


usa la distribución z, cuando no lo es; se usa la distribución t de Student.
Gráficamente tenemos:

Página 9 de 18
Diagrama 5. Prueba de una cola y prueba de dos colas.
¿Pruebas de cola izquierda o de cola izquierda?
La dirección de la prueba involucra proposiciones que comprenden las palabras “ha
mejorado”, “es mejor que”, y el cómo dependerá sobre la variable que esté siendo
medida. Por ejemplo, si la variable involucra tiempo para que un cierto medicamento
haga efecto, las palabras “mejor” “mejore” “o más efectivo” se traducen como “<”
(menos que, i.e. alivio menos rápido). Por otro lado, si la variable se refiere a un
resultado de una prueba, entonces las palabras “mejor” “se mejora” o “más efectiva”
se traducen como “>” (más grande que, i.e. resultados del examen más altos).
3.4.1 Prueba para una Media de una Población con una Desviación Estándar
Ejemplo:

Página 10 de 18
Los servicios coordinados de salud de un municipio de alta marginación reportan en
la época de verano (cuando hace más calor), un número promedio de 200 niños,
menores de cinco años, con problemas de deshidratación por diarrea. Supongamos
que la incidencia de niños deshidratados sigue la distribución de probabilidad normal
con una media de 200 y una desviación estándar de 16. Recientemente, se realizó
una campaña de información sobre hábitos de higiene, que duró 50 semanas. Se
quiere investigar si ha habido un cambio en la incidencia de casos de deshidratación
infantil semanal en el municipio de alta marginación.
Solución:
Paso 1: Establezca la hipótesis nula y la hipótesis alternativa.

Paso 2: Seleccione el nivel de significancia.


α = 0.01 en este caso
Paso 3: Seleccione el estadístico de prueba.
Use la distribución de Z en virtud de que σ es conocida (recuerde que en la unidad
anterior esta la tabla de z en anexos, úsela para este ejemplo).
Paso 4: Formule la regla de decisión.
Rechace H0 si |Z| > Zα/2
Cálculos:

Diagrama 6. Haga una decisión e interprete el resultado.

Página 11 de 18
Debido a que 1.98 no cae en la región de rechazo, H0: μ = 200 no se rechaza.
Concluimos que la media poblacional no es diferente de 200. Así que reportaríamos
que la incidencia de deshidratación por diarrea, en niños menores de cinco años,
en el municipio de alta marginación no ha cambiado con una campaña de salud e
higiene en las últimas 50 semanas.
Recuérdese contrastar esto con el valor de p:

Concluimos: No se rechaza H0
3.4.2 Prueba para una Media de una Población con una Desviación Estándar
Ejemplo:
El Departamento de Reclamaciones de Seguros Médicos de MetLife reporta que el
costo medio para procesar una reclamación es de $60 pesos. Una encuesta mostró
que esta cantidad es más grande que cualquier otra compañía de seguros, así que
la aseguradora instituyó medidas para reducir costos. Para evaluar el efecto de las
medidas de reducción de costos, el supervisor del Departamento seleccionó una
muestra aleatoria de 26 reclamaciones procesadas el último mes. La información
muestral se reporta en el recuadro inferior. ¿Con un nivel de significancia de p=0?01,
es razonable afirmar que el costo de una reclamación es actualmente menor de
$60?
Paso 1: Establezca las hipótesis nula y alternativa.

Paso 2: Seleccione el nivel de significancia.


α = 0.01 como se estableció en el problema
Paso 3: Seleccione el estadístico de prueba.
Use la distribución t de Student en virtud de que σ es desconocido

Página 12 de 18
Tabla 2. Porción de una tabla t de Student (vea la tabla completa en el anexo de
esta unidad).

Paso 4: Formule la regla de decisión.


Rechace H0 si t < -tα, n-1
Cálculos:

Diagrama 7. Haga una decisión e interprete el resultado.

Página 13 de 18
Debido a que -1.818 no cae en la zona de rechazo, no se rechaza H0 al nivel de
significancia de p=0.01. No hemos demostrado que las medidas para reducir el
costo medio por reclamación de un seguro de gastos médicos de MetLife sean
menos de $60.
La diferencia de $3.58 ($56.42 – $60) entre la media muestral y la media poblacional
podría deberse a error de muestreo.
3.5 Prueba de hipótesis para proporciones
Una proporción es la fracción o porcentaje que indica la parte de la población o
muestra que presenta una característica particular o de interés. La proporción
muestral se denota por p y se determina por x/n.
Supuestos en la prueba de una proporción poblacional utilizando la distribución de
z
• De una población se selecciona una muestra
• Se supone que se cumplen los supuestos de la distribución binomial:
• los datos obtenidos son el resultado de conteos;
• los eventos de un experimento se clasifican en una de dos categorías
mutuamente exclusivas: un “éxito” o un “fracaso”;
• la probabilidad de un éxito es la misma en cada ensayo; y
• los ensayos son independientes.
• El procedimiento de prueba es apropiado cuando ambos nπ y n (1- π) son al
menos de 5.
• Cuando las condiciones anteriores se cumplen, la distribución normal se
puede utilizar como una aproximación a la distribución
Estadístico de prueba para probar una proporción poblacional:

Donde:
z = porcentaje de individuos
p = proporción muestral
π = proporción poblacional hipotética

Página 14 de 18
n = tamaño de la muestra

Diagrama 8. Planteamiento de una hipótesis para probar proporciones (π).


Nota: los casos son similares a los expuestos para medias
De igual modo, gráficamente se puede representar como la figura 5. Prueba de
Hipótesis para la Proporción de una Población.
Ejemplo:
Supóngase que antes de una elección en cierto estado es necesario para ser
elegido como candidato a gobernador contar al menos con el 80% del voto en la
sección del norte del estado. Un prospecto a candidato a gobernador está
interesado en evaluar su posibilidad de llegar a competir y planea realizar un
muestreo en 2,000 votantes registrados en la sección norte del estado. De estos
entrevistados 1,550 apoyan la candidatura del prospecto a candidato. Utilizando el
procedimiento de pruebas de hipótesis, evalué la posibilidad del precandidato a
gobernador a ser postulado.
Paso 1: Establezca la hipótesis nula y la alternativa.

Paso 2: Seleccione el nivel de significancia.


α = 0.01 como se estableció en el problema
Paso 3: Seleccione el estadístico de prueba.
Utilice la distribución de Z en virtud de que se cumplen los supuestos y nπ y n(1-π)

Página 15 de 18
5.
Paso 4: Formule la regla de decisión.
Rechace H0 si Z < – Z α
Cálculos:

Diagrama 9. Haga una decisión e interprete el resultado.


El valor calculado de z (-2.80) está en la región de rechazo, así que la hipótesis nula
se rechaza al nivel de significancia de p=0.05. La diferencia de 2.5 puntos
porcentuales entre el porcentaje muestral (77.5 %) y el porcentaje de la hipótesis de
la población (80%) es estadísticamente significativo. La evidencia en este punto no
soporta la afirmación que el candidato a gobernador sea postulado para elección.

Página 16 de 18
Conclusión
En las pruebas de hipótesis, es importante seguir una serie de pasos para garantizar
que los resultados sean lo más precisos posible. En primer lugar, el investigador
debe identificar la hipótesis a probar. Esta hipótesis debe ser planteada de forma
clara y precisa, para que permita su verificación. Una vez que se establezca una
hipótesis, el investigador debe recopilar un conjunto de datos objetivos relevantes
para evaluar dicha hipótesis. Estos datos deben ser recopilados tomando en cuenta
las variables pertinentes, teniendo en cuenta las limitaciones de los datos
existentes.
Una vez que se recolectan los datos necesarios, el investigador debe establecer
una estadística y comparar los resultados con la distribución de referencia. Esta
comparación se realiza para evaluar si los resultados obtenidos son
significativamente diferentes de la distribución de referencia. Con esta información,
el investigador puede decidir si se rechaza o acepta la hipótesis planteada.
Por supuesto, el proceso presentado requiere mucho cuidado. Las decisiones
deben ser hechas con cuidado, teniendo en cuenta los datos recopilados. El
investigador debe recordar que el resultado de una prueba estadística no debe ser
interpretado por sí mismo. Esto requiere un análisis profundo para comprender las
implicaciones de los resultados.
Además, las pruebas de hipótesis también deben aplicarse de manera apropiada.
No se debe asumir ninguna hipótesis y debe obedecerse el principio de no
malgastar recursos. Esto significa que los resultados de una prueba no se deben
usar para tratar de aprender acerca de un fenómeno específico en primer lugar.
Finalmente, es importante que los investigadores aseguren que sus pruebas
estadísticas se basan en métodos estadísticos y pruebas confiables. Esto
garantizará resultados precisos y evitará errores estadísticos. Al seguir estas
pautas, los investigadores pueden estar seguros de obtener resultados seguros y
confiables.

Página 17 de 18
Bibliografía

López Sánchez, A. (2014). Teoría y práctica del análisis de datos. Grupo Editorial
Universitario.
Armstrong, J. & Saksena, K. (2015). Análisis de datos: teoría y práctica. Guía
Práctica para Curso de Investigación. Editorial Digital Network.
Álvarez, M. & Gómez, E. (2013). Estadística y análisis de datos. Guía para
Ingenieros. Editorial Universidad de Málaga.
Gonçalves, M. (2016). Estadística para análisis de datos: herramientas, métodos y
técnicas. Editorial Rio de Janeiro.
Everitt, B. & Hothorn, T. (2011). Análisis de pruebas de hipótesis: utilizando R. Packt
Publishing.

Página 18 de 18

También podría gustarte