Prueba de Hipotesis 11

Trabajo de pruebas de hipótesis
Daniel David Jiménez Barbosa

Laura Juliana sierra
Estudiantes de Ingeniería de Petróleos
Carlos Alfonso Mantilla Duarte

Economista, Especialista en Estadística - Universidad Industrial de Santander
M.Sc. en Estadística Aplicada, Ph. D. (c) en Estadística Matemática y Aplicada - Universidad de Granada
Universidad Industrial de Santander
Facultades Fisicoquímicas
Estadística
Bucaramanga
2020
Índice
Introducción……………………………………………………………………………(1)
▪ Objetivos
▪ Resultados que se esperan obtener
Marco de referencia ………………………………………………………………(2)
Resultados y discusiones……………………………………………………….(3)
Conclusión………………………………………………………………………………..(4)
Introducción
La industria petrolera cada día está en busca exhaustiva de ingenieros con habilidades de
programación, de estadística y de optimización de problemas presentes en cualquier área.
Es importante hablar primeramente acerca de la teoría básica del muestreo, que es la base
de este proyecto, en donde se tendrá en cuenta dar resultados concisos y con el menor
margen de error posible.
De manera simple la podemos definir como la relación que hay entre una población y las
muestras tomadas de ella.
Si vamos más allá de lo que consiste este proyecto, podemos entender con gran veracidad
que la teoría del muestreo también es útil en muchos campos. Uno de los campos en donde
podemos usarla ampliamente es en la industria de Hidrocarburos ya que en esta se maneja
información muy valiosa, como, por ejemplo:
I. Propiedades petrofísicas de un determinado yacimiento petrolífero

II. Propiedades geológicas
III. Análisis de datos acumulados de las propiedades obtenidas de un proceso de
corazonamiento.
IV. Análisis de registros
En este proyecto (prueba de hipótesis) específicamente se buscarán las herramientas

estadísticas necesarias para hacer de cada uno de los objetivos planteados un éxito, en el
cual mediante tablas de datos, que de alguna manera son la mejor opción para la entrega
de resultados. De igual forma la estética toma parte importante en la presentación de los
mismos. Para eso debemos tener muy presente en nuestro camino el concepto de muestra
y lo que esta nos puede proporcionar. Teniendo un pequeño cuadro de información
poblacional, la muestra nos puede proporcionar la información necesaria para establecer
los lineamientos que requiere una empresa, un país, un proyecto de investigación a un
costo que básicamente seria económico.
De manera que, la teoría del muestreo la usamos o se usa para estimar cantidades no
conocidas de una población, tales como la media, la varianza o también llamadas
parámetros de la población y, en general un estudio de las inferencias realizadas sobre una
población a partir de muestras de la misma, con indicación de la precisión de tales
inferencias, se llama inferencia estadística. En este proyecto esperamos comparar
determinados resultados de determinadas pruebas con los departamentos que se tomaron
como objeto de estudio.
En base a esto, surge el teorema del límite central de una población. Este teorema nos dice
que, si seleccionamos una muestra de un determinado tamaño, la distribución muestral de
las medias de muestras es aproximadamente una distribución normal. ”no debemos
confundir muestra con población, son términos totalmente diferentes”
Usando un software como (RSTUDIO, R -PROJECT- MATLAB) nos facilitamos un 100% de

tiempo en entregar resultados. Es indispensable comprender las siguientes incógnitas que
tuvimos muy en cuenta en este proyecto de prueba de hipótesis y que teniendo claro su
definición e importancia en la estadística se destaca el por qué la usamos en el mismo:
I. ¿Por qué hacemos inferencia?

R: Porque nos puede ahorrar tiempo y dinero en base a una idea que relativamente
esta oculta.
II. ¿Qué necesitamos para hacer inferencia?

R: debemos tener datos de una muestra y principalmente tener claro que es lo que
se quiere obtener.
III. ¿Cuándo hacer inferencia?

R: se debe hacer inferencia cuando necesitamos comprobar una hipótesis
IV. ¿Cuál es la utilidad de hacer inferencia?

R: el hacer inferencia nos genera mas ahorro. Esta busca reducir al máximo posible
costos y agilizar los resultados
V. ¿Por qué hacemos muestreo?

R: Hacemos muestreo porque los resultados son los más adecuados posibles
básicamente.
Y hago énfasis en que:

Teniendo una población, y si se usa un poco la lógica, concluiremos que el mejor
camino es hacer muestreo. Organizar y seleccionar la información que
verdaderamente necesitamos para dar en detalle las respectivas comparaciones y
cambios que hubo entre los objetos tomados de la muestra.
Objetivos
• Objetivos generales
i. Debemos verificar o constatar mediante pruebas de hipótesis si los promedios de

cada prueba son iguales o diferentes entre los departamentos que decidimos
seleccionar (en este caso tomamos cinco departamentos)
ii. Confirmar por medio de las pruebas de hipótesis si los promedios de cada prueba
son iguales o diferentes entre tipo de IES.
iii. Diseñar una prueba de bondad de ajuste y una prueba de independencia para los
datos suministrados.
• Objetivos específicos
i. Utilizar el software, que en este caso usamos Rstudio e insertar los códigos
correctos para no tener errores en el procedimiento.
ii. En cada dato obtenido se va guardando y organizando en tablas

iii. Tener un orden en el procedimiento para poder tener una secuencia ordenada de
resultados
Resultados esperados
i. Se espera tener un muestreo adecuado, basado en los datos que queríamos sacar
de la población
ii. Se espera tener el dato de la media y la varianza
iii. Como parte final esperamos principalmente cumplir con los objetivos generales de
forma concisa y precisa.
Marco de referencia
Inferencia Estadística:
Esta hace referencia directa a las estimaciones que, sobre una población se hacen a partir
de una muestra. Y para esto recurrimos a las pruebas de hipótesis
Dentro de las pruebas de hipótesis tenemos:
A. La distribución muestral
B. Estimación por intervalo
C. Prueba de una media
D. Prueba de una proporción
E. Prueba de diferencia de dos medias
F. Prueba de diferencia de dos proporciones
G. Pruebas de independencia
H. Prueba de bondad y ajuste
Muestreo
Es la técnica de selección de una muestra teniendo una población. En base a esto existen
varios tipos de muestreos que se mencionaran a continuación:
a. Muestreo aleatorio simple

b. Muestreo aleatorio sistemático
c. Muestreo aleatorio estratificado
d. Muestreo por conglomerados
Error muestral
Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor

de la población. Y en base a esto se observa cómo calcularlo
Fuente: https://slideplayer.es/slide/2840032/10/images/15/C%C3%A1lculo+del+Error+Muestral.jpg
Varianza poblacional
Cuando una población es más homogénea la varianza es menor. Generalmente es un valor

desconocido y hay que estimarlo a partir de datos de estudios previos. Esta es muy
importante al momento de realizar un muestreo ya que determina o describe
cualitativamente la población.
Fuente: https://www.wikihow.com/images_en/thumb/4/4f/Calculate_Variance_Step_10-ES.jpg/728px-
Calculate_Variance_Step_10-ES.jpg
Pruebas de hipótesis
Estas se definen como cualquier afirmación acerca de una población y sus parámetros.
cabe mencionar que una prueba de hipótesis consiste en contrastar dos hipótesis
estadísticas. esto involucra tomar alguna decisión acerca de las hipótesis. Ésta decisión
consiste en rechazar o no una hipótesis en favor de la otra.
Ho: hipótesis nula

H1: hipótesis alternativa
Partes de una hipótesis
1-La hipótesis nula “Ho”

2-La hipótesis alternativa “H1”
3-El estadístico de prueba
4-Errores tipo I y II
5-La región de rechazo (crítica)
6-La toma de decisión
La Media
Representa el reparto equitativo, el equilibrio, la equidad. Es el valor que tendrían los

datos, si todos ellos fueran iguales. O, también, el valor que correspondería a cada uno de
los datos de la distribución si su suma total se repartiera por igual.
En la gráfica se representa la posición de la media como caso especial
Resultados
Solucionario primer punto (comprobación mediante pruebas de hipótesis)

Análisis entre departamentos vs puntaje de ingles(el guion de calculo est
a al final)
Caldas comparado con los demás departamentos
Welch Two Sample t-test
data: caldas_ingles and atlant_ingles

t = -7.9623, df = 27339, p-value = 1.754e-15
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.984421 -1.805339
sample estimates:
mean of x mean of y
149.2279 151.6228
data: caldas_ingles and antio_ingles

t = -21.629, df = 20502, p-value < 2.2e-16
-6.512352 -5.430112
sample estimates:
mean of x mean of y
149.2279 155.1992
data: caldas_ingles and cundi_ingles

t = 4.3993, df = 24535, p-value = 1.091e-05
0.7103838 1.8520692
sample estimates:
mean of x mean of y
149.2279 147.9467
data: caldas_ingles and valle_ingles

t = -3.179, df = 23215, p-value = 0.00148
-1.4688086 -0.3483886
sample estimates:
mean of x mean of y
149.2279 150.1365
Atlántico comparado con los demás departamentos
data: atlant_ingles and antio_ingles

t = -17.849, df = 80878, p-value < 2.2e-16
-3.969062 -3.183642
sample estimates:
mean of x mean of y
151.6228 155.1992
data: atlant_ingles and cundi_ingles

t = 16.65, df = 79674, p-value < 2.2e-16
3.243353 4.108860
sample estimates:
mean of x mean of y
151.6228 147.9467
data: atlant_ingles and valle_ingles

t = 6.9587, df = 86540, p-value = 3.458e-12
1.067655 1.904908
sample estimates:
mean of x mean of y
151.6228 150.1365
Antioquia comparado con los departamentos

data: antio_ingles and cundi_ingles

t = 39.048, df = 86370, p-value < 2.2e-16
6.888423 7.616494
sample estimates:
mean of x mean of y
155.1992 147.9467
data: antio_ingles and valle_ingles

t = 28.586, df = 123014, p-value < 2.2e-16
4.715511 5.409756
sample estimates:
mean of x mean of y
155.1992 150.1365
data: cundi_ingles and valle_ingles

t = -10.953, df = 89258, p-value < 2.2e-16
-2.581678 -1.797972
sample estimates:
mean of x mean of y
147.9467 150.1365
Comparación entre departamentos vs lectura critica

Caldas comparado con los demás departamentos
data: caldas_lectura and atlant_lectura

t = 15.037, df = 25518, p-value < 2.2e-16
3.867892 5.027386
sample estimates:
mean of x mean of y
151.9601 147.5124
data: caldas_lectura and antio_lectura

t = -14.606, df = 19732, p-value < 2.2e-16
-4.547813 -3.471617
sample estimates:
mean of x mean of y
151.9601 155.9698
data: caldas_lectura and cundi_lectura

t = 9.2879, df = 24435, p-value < 2.2e-16
2.140826 3.286094
sample estimates:
mean of x mean of y
151.9601 149.2466
data: caldas_lectura and valle_lectura

t = 5.0524, df = 22503, p-value = 4.398e-07
0.8801051 1.9958293
sample estimates:
mean of x mean of y
151.9601 150.5221
Atlántico comparado con los demás departamentos
data: atlant_lectura and antio_lectura

t = -45.072, df = 81780, p-value < 2.2e-16
-8.825127 -8.089582
sample estimates:
mean of x mean of y
147.5124 155.9698
data: atlant_lectura and cundi_lectura

t = -8.1573, df = 80307, p-value = 3.475e-16
-2.150858 -1.317500
sample estimates:
mean of x mean of y
147.5124 149.2466
data: atlant_lectura and valle_lectura

t = -14.891, df = 88329, p-value < 2.2e-16
-3.405802 -2.613541
sample estimates:
mean of x mean of y
147.5124 150.5221
Antioquia comparado con los demás departamentos
data: antio_lectura and cundi_lectura

t = 36.968, df = 81886, p-value < 2.2e-16
6.366721 7.079629
sample estimates:
mean of x mean of y
155.9698 149.2466
data: antio_lectura and valle_lectura

t = 32.141, df = 121107, p-value < 2.2e-16
5.115482 5.779883
sample estimates:
mean of x mean of y
155.9698 150.5221
Cundinamarca comparado con el valle
data: cundi_lectura and valle_lectura

t = -6.4825, df = 87693, p-value = 9.068e-11
-1.6611382 -0.8898476
sample estimates:
mean of x mean of y
149.2466 150.5221
Resolución para el punto dos que consta de: comprobar mediante

pruebas de hipótesis si los promedios de cada prueba son iguales o
diferente entre tipo de IES.
Código para sacar muestra de las universidades
Nota:
se calculo el tamaño de la muestra, pero se genero un error muy
grande al momento de generar graficas y al momento de hacer las
pruebas de hipótesis.
library(samplingbook)
universidades<-sp161718[,c(6,14,9)]
head(universidades)
library(samplingbook)
tamaño<-sample.size.prop(e=0.05, P = 0.5, N =
length(universidades$inst_nombre_institucion), level = 0.95)$n #
Vamos a usar P = 0.5
muestra2<-sample(1:length(universidades$inst_nombre_institucion),
size = tamaño, replace = FALSE)
mas.universidades<-universidades[muestra2,] # Tenemos la muestra2
head(mas.universidades)
ulb<-sp161718[sp161718$inst_nombre_institucion=="UNIVERSIDAD LIBRE-
BARRANQUILLA",]
> library(samplingbook)
> sample.size.prop(e=0.005, P = 0.4, N = nrow(ulb), level = 0.95)
sample.size.prop object: Sample size for proportion estimate
With finite population correction: N=2517, precision e=0.005 and
expected proportion P=0.4
Sample size needed: 2357
> muestra2<-sample(1:nrow(ulb), size = 381, replace = FALSE)
> m.ulb<-ulb[muestra1,]
> uam<-sp161718[sp161718$inst_nombre_institucion=="UNIVERSIDAD DE
ANTIOQUIA-MEDELLIN",]
>
> sample.size.prop(e=0.05, P = 0.5, N = nrow(uam), level = 0.95)

> muestra2<-sample(1:nrow(uam), size = 374, replace = FALSE)

> m.uam<-uam[muestra1,]
>
> uncm<-sp161718[sp161718$inst_nombre_institucion=="UNIVERSIDAD
NACIONAL DE COLOMBIA-MANIZALES",]
>
> sample.size.prop(e=0.05, P = 0.5, N = nrow(uncm), level = 0.95)

> muestra2<-sample(1:nrow(uncm), size = 324, replace = FALSE)

> m.uncm<-uncm[muestra2,]
> usc<-sp161718[sp161718$inst_nombre_institucion=="UNIVERSIDAD DE
LA SABANA-CHIA",]
>sample.size.prop(e=0.05, P = 0.5, N = nrow(usc), level = 0.95)

> muestra2<-sample(1:nrow(usc), size = 324, replace = FALSE)
Conclusión
1. Este trabajo o proyecto nos mostro que la programar es una manera muy
rápida y sencilla si se tiene todos los conocimientos previos .
2. La sensibilidad del programa es fuerte. Concluimos que en Rstudio en
lenguaje de programación deber ser perfecto.
3. En el proyecto no se generaron los resultados esperados , por ende se

concluye que hubo fallas técnicas como también el RSTUDIO que maneja un
lenguaje un poco difícil .

Prueba de Hipotesis 11

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Prueba de Hipotesis 11

Cargado por

Copyright:

Formatos disponibles

Trabajo de pruebas de hipótesis

Daniel David Jiménez Barbosa

Carlos Alfonso Mantilla Duarte

Universidad Industrial de Santander

Marco de referencia ………………………………………………………………(2)

I. Propiedades petrofísicas de un determinado yacimiento petrolífero

En este proyecto (prueba de hipótesis) específicamente se buscarán las herramientas

Usando un software como (RSTUDIO, R -PROJECT- MATLAB) nos facilitamos un 100% de

I. ¿Por qué hacemos inferencia?

II. ¿Qué necesitamos para hacer inferencia?

III. ¿Cuándo hacer inferencia?

IV. ¿Cuál es la utilidad de hacer inferencia?

V. ¿Por qué hacemos muestreo?

Y hago énfasis en que:

i. Debemos verificar o constatar mediante pruebas de hipótesis si los promedios de

ii. En cada dato obtenido se va guardando y organizando en tablas

ii. Se espera tener el dato de la media y la varianza

Dentro de las pruebas de hipótesis tenemos:

a. Muestreo aleatorio simple

Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor

Cuando una población es más homogénea la varianza es menor. Generalmente es un valor

Ho: hipótesis nula

Partes de una hipótesis

1-La hipótesis nula “Ho”

Representa el reparto equitativo, el equilibrio, la equidad. Es el valor que tendrían los

Solucionario primer punto (comprobación mediante pruebas de hipótesis)

Caldas comparado con los demás departamentos

Welch Two Sample t-test

data: caldas_ingles and atlant_ingles

Welch Two Sample t-test

data: caldas_ingles and antio_ingles

Welch Two Sample t-test

data: caldas_ingles and cundi_ingles

Welch Two Sample t-test

data: caldas_ingles and valle_ingles

Welch Two Sample t-test

data: atlant_ingles and antio_ingles

Welch Two Sample t-test

data: atlant_ingles and cundi_ingles

Welch Two Sample t-test

data: atlant_ingles and valle_ingles

Antioquia comparado con los departamentos

data: antio_ingles and cundi_ingles

Welch Two Sample t-test

data: antio_ingles and valle_ingles

Welch Two Sample t-test

data: cundi_ingles and valle_ingles

Comparación entre departamentos vs lectura critica

Welch Two Sample t-test

data: caldas_lectura and atlant_lectura

Welch Two Sample t-test

data: caldas_lectura and antio_lectura

Welch Two Sample t-test

data: caldas_lectura and cundi_lectura

Welch Two Sample t-test

data: caldas_lectura and valle_lectura

Atlántico comparado con los demás departamentos

Welch Two Sample t-test

data: atlant_lectura and antio_lectura

Welch Two Sample t-test

data: atlant_lectura and cundi_lectura

Welch Two Sample t-test