Está en la página 1de 19

Trabajo de pruebas de hipótesis

Daniel David Jiménez Barbosa


Laura Juliana sierra
Estudiantes de Ingeniería de Petróleos

Carlos Alfonso Mantilla Duarte


Economista, Especialista en Estadística - Universidad Industrial de Santander

M.Sc. en Estadística Aplicada, Ph. D. (c) en Estadística Matemática y Aplicada - Universidad de Granada

Universidad Industrial de Santander

Facultades Fisicoquímicas

Estadística

Bucaramanga

2020
Índice

Introducción……………………………………………………………………………(1)
▪ Objetivos
▪ Resultados que se esperan obtener

Marco de referencia ………………………………………………………………(2)

Resultados y discusiones……………………………………………………….(3)

Conclusión………………………………………………………………………………..(4)
Introducción

La industria petrolera cada día está en busca exhaustiva de ingenieros con habilidades de
programación, de estadística y de optimización de problemas presentes en cualquier área.

Es importante hablar primeramente acerca de la teoría básica del muestreo, que es la base
de este proyecto, en donde se tendrá en cuenta dar resultados concisos y con el menor
margen de error posible.

De manera simple la podemos definir como la relación que hay entre una población y las
muestras tomadas de ella.

Si vamos más allá de lo que consiste este proyecto, podemos entender con gran veracidad
que la teoría del muestreo también es útil en muchos campos. Uno de los campos en donde
podemos usarla ampliamente es en la industria de Hidrocarburos ya que en esta se maneja
información muy valiosa, como, por ejemplo:

I. Propiedades petrofísicas de un determinado yacimiento petrolífero


II. Propiedades geológicas
III. Análisis de datos acumulados de las propiedades obtenidas de un proceso de
corazonamiento.
IV. Análisis de registros

En este proyecto (prueba de hipótesis) específicamente se buscarán las herramientas


estadísticas necesarias para hacer de cada uno de los objetivos planteados un éxito, en el
cual mediante tablas de datos, que de alguna manera son la mejor opción para la entrega
de resultados. De igual forma la estética toma parte importante en la presentación de los
mismos. Para eso debemos tener muy presente en nuestro camino el concepto de muestra
y lo que esta nos puede proporcionar. Teniendo un pequeño cuadro de información
poblacional, la muestra nos puede proporcionar la información necesaria para establecer
los lineamientos que requiere una empresa, un país, un proyecto de investigación a un
costo que básicamente seria económico.
De manera que, la teoría del muestreo la usamos o se usa para estimar cantidades no
conocidas de una población, tales como la media, la varianza o también llamadas
parámetros de la población y, en general un estudio de las inferencias realizadas sobre una
población a partir de muestras de la misma, con indicación de la precisión de tales
inferencias, se llama inferencia estadística. En este proyecto esperamos comparar
determinados resultados de determinadas pruebas con los departamentos que se tomaron
como objeto de estudio.

En base a esto, surge el teorema del límite central de una población. Este teorema nos dice
que, si seleccionamos una muestra de un determinado tamaño, la distribución muestral de
las medias de muestras es aproximadamente una distribución normal. ”no debemos
confundir muestra con población, son términos totalmente diferentes”

Usando un software como (RSTUDIO, R -PROJECT- MATLAB) nos facilitamos un 100% de


tiempo en entregar resultados. Es indispensable comprender las siguientes incógnitas que
tuvimos muy en cuenta en este proyecto de prueba de hipótesis y que teniendo claro su
definición e importancia en la estadística se destaca el por qué la usamos en el mismo:

I. ¿Por qué hacemos inferencia?


R: Porque nos puede ahorrar tiempo y dinero en base a una idea que relativamente
esta oculta.

II. ¿Qué necesitamos para hacer inferencia?


R: debemos tener datos de una muestra y principalmente tener claro que es lo que
se quiere obtener.

III. ¿Cuándo hacer inferencia?


R: se debe hacer inferencia cuando necesitamos comprobar una hipótesis

IV. ¿Cuál es la utilidad de hacer inferencia?


R: el hacer inferencia nos genera mas ahorro. Esta busca reducir al máximo posible
costos y agilizar los resultados

V. ¿Por qué hacemos muestreo?


R: Hacemos muestreo porque los resultados son los más adecuados posibles
básicamente.

Y hago énfasis en que:


Teniendo una población, y si se usa un poco la lógica, concluiremos que el mejor
camino es hacer muestreo. Organizar y seleccionar la información que
verdaderamente necesitamos para dar en detalle las respectivas comparaciones y
cambios que hubo entre los objetos tomados de la muestra.

Objetivos

• Objetivos generales

i. Debemos verificar o constatar mediante pruebas de hipótesis si los promedios de


cada prueba son iguales o diferentes entre los departamentos que decidimos
seleccionar (en este caso tomamos cinco departamentos)

ii. Confirmar por medio de las pruebas de hipótesis si los promedios de cada prueba
son iguales o diferentes entre tipo de IES.

iii. Diseñar una prueba de bondad de ajuste y una prueba de independencia para los
datos suministrados.
• Objetivos específicos

i. Utilizar el software, que en este caso usamos Rstudio e insertar los códigos
correctos para no tener errores en el procedimiento.

ii. En cada dato obtenido se va guardando y organizando en tablas


iii. Tener un orden en el procedimiento para poder tener una secuencia ordenada de
resultados

Resultados esperados

i. Se espera tener un muestreo adecuado, basado en los datos que queríamos sacar
de la población

ii. Se espera tener el dato de la media y la varianza

iii. Como parte final esperamos principalmente cumplir con los objetivos generales de
forma concisa y precisa.
Marco de referencia

Inferencia Estadística:

Esta hace referencia directa a las estimaciones que, sobre una población se hacen a partir
de una muestra. Y para esto recurrimos a las pruebas de hipótesis

Dentro de las pruebas de hipótesis tenemos:

A. La distribución muestral
B. Estimación por intervalo
C. Prueba de una media
D. Prueba de una proporción
E. Prueba de diferencia de dos medias
F. Prueba de diferencia de dos proporciones
G. Pruebas de independencia
H. Prueba de bondad y ajuste

Muestreo

Es la técnica de selección de una muestra teniendo una población. En base a esto existen
varios tipos de muestreos que se mencionaran a continuación:

a. Muestreo aleatorio simple


b. Muestreo aleatorio sistemático
c. Muestreo aleatorio estratificado
d. Muestreo por conglomerados

Error muestral

Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor


de la población. Y en base a esto se observa cómo calcularlo

Fuente: https://slideplayer.es/slide/2840032/10/images/15/C%C3%A1lculo+del+Error+Muestral.jpg
Varianza poblacional

Cuando una población es más homogénea la varianza es menor. Generalmente es un valor


desconocido y hay que estimarlo a partir de datos de estudios previos. Esta es muy
importante al momento de realizar un muestreo ya que determina o describe
cualitativamente la población.

Fuente: https://www.wikihow.com/images_en/thumb/4/4f/Calculate_Variance_Step_10-ES.jpg/728px-

Calculate_Variance_Step_10-ES.jpg
Pruebas de hipótesis

Estas se definen como cualquier afirmación acerca de una población y sus parámetros.
cabe mencionar que una prueba de hipótesis consiste en contrastar dos hipótesis
estadísticas. esto involucra tomar alguna decisión acerca de las hipótesis. Ésta decisión
consiste en rechazar o no una hipótesis en favor de la otra.

Ho: hipótesis nula


H1: hipótesis alternativa

Partes de una hipótesis

1-La hipótesis nula “Ho”


2-La hipótesis alternativa “H1”
3-El estadístico de prueba
4-Errores tipo I y II
5-La región de rechazo (crítica)
6-La toma de decisión

La Media

Representa el reparto equitativo, el equilibrio, la equidad. Es el valor que tendrían los


datos, si todos ellos fueran iguales. O, también, el valor que correspondería a cada uno de
los datos de la distribución si su suma total se repartiera por igual.
En la gráfica se representa la posición de la media como caso especial
Resultados

Solucionario primer punto (comprobación mediante pruebas de hipótesis)


Análisis entre departamentos vs puntaje de ingles(el guion de calculo est
a al final)

Caldas comparado con los demás departamentos

Welch Two Sample t-test

data: caldas_ingles and atlant_ingles


t = -7.9623, df = 27339, p-value = 1.754e-15
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.984421 -1.805339
sample estimates:
mean of x mean of y
149.2279 151.6228

Welch Two Sample t-test

data: caldas_ingles and antio_ingles


t = -21.629, df = 20502, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-6.512352 -5.430112
sample estimates:
mean of x mean of y
149.2279 155.1992

Welch Two Sample t-test

data: caldas_ingles and cundi_ingles


t = 4.3993, df = 24535, p-value = 1.091e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.7103838 1.8520692
sample estimates:
mean of x mean of y
149.2279 147.9467

Welch Two Sample t-test

data: caldas_ingles and valle_ingles


t = -3.179, df = 23215, p-value = 0.00148
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.4688086 -0.3483886
sample estimates:
mean of x mean of y
149.2279 150.1365
Atlántico comparado con los demás departamentos

Welch Two Sample t-test

data: atlant_ingles and antio_ingles


t = -17.849, df = 80878, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.969062 -3.183642
sample estimates:
mean of x mean of y
151.6228 155.1992

Welch Two Sample t-test

data: atlant_ingles and cundi_ingles


t = 16.65, df = 79674, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
3.243353 4.108860
sample estimates:
mean of x mean of y
151.6228 147.9467

Welch Two Sample t-test

data: atlant_ingles and valle_ingles


t = 6.9587, df = 86540, p-value = 3.458e-12
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
1.067655 1.904908
sample estimates:
mean of x mean of y
151.6228 150.1365

Antioquia comparado con los departamentos


Welch Two Sample t-test

data: antio_ingles and cundi_ingles


t = 39.048, df = 86370, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
6.888423 7.616494
sample estimates:
mean of x mean of y
155.1992 147.9467

Welch Two Sample t-test

data: antio_ingles and valle_ingles


t = 28.586, df = 123014, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
4.715511 5.409756
sample estimates:
mean of x mean of y
155.1992 150.1365

Welch Two Sample t-test

data: cundi_ingles and valle_ingles


t = -10.953, df = 89258, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.581678 -1.797972
sample estimates:
mean of x mean of y
147.9467 150.1365

Comparación entre departamentos vs lectura critica


Caldas comparado con los demás departamentos

Welch Two Sample t-test

data: caldas_lectura and atlant_lectura


t = 15.037, df = 25518, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
3.867892 5.027386
sample estimates:
mean of x mean of y
151.9601 147.5124

Welch Two Sample t-test

data: caldas_lectura and antio_lectura


t = -14.606, df = 19732, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-4.547813 -3.471617
sample estimates:
mean of x mean of y
151.9601 155.9698

Welch Two Sample t-test

data: caldas_lectura and cundi_lectura


t = 9.2879, df = 24435, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
2.140826 3.286094
sample estimates:
mean of x mean of y
151.9601 149.2466

Welch Two Sample t-test

data: caldas_lectura and valle_lectura


t = 5.0524, df = 22503, p-value = 4.398e-07
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.8801051 1.9958293
sample estimates:
mean of x mean of y
151.9601 150.5221

Atlántico comparado con los demás departamentos

Welch Two Sample t-test

data: atlant_lectura and antio_lectura


t = -45.072, df = 81780, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-8.825127 -8.089582
sample estimates:
mean of x mean of y
147.5124 155.9698

Welch Two Sample t-test

data: atlant_lectura and cundi_lectura


t = -8.1573, df = 80307, p-value = 3.475e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2.150858 -1.317500
sample estimates:
mean of x mean of y
147.5124 149.2466

Welch Two Sample t-test

data: atlant_lectura and valle_lectura


t = -14.891, df = 88329, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.405802 -2.613541
sample estimates:
mean of x mean of y
147.5124 150.5221

Antioquia comparado con los demás departamentos

Welch Two Sample t-test

data: antio_lectura and cundi_lectura


t = 36.968, df = 81886, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
6.366721 7.079629
sample estimates:
mean of x mean of y
155.9698 149.2466

Welch Two Sample t-test

data: antio_lectura and valle_lectura


t = 32.141, df = 121107, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
5.115482 5.779883
sample estimates:
mean of x mean of y
155.9698 150.5221

Cundinamarca comparado con el valle

Welch Two Sample t-test

data: cundi_lectura and valle_lectura


t = -6.4825, df = 87693, p-value = 9.068e-11
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-1.6611382 -0.8898476
sample estimates:
mean of x mean of y
149.2466 150.5221

Resolución para el punto dos que consta de: comprobar mediante


pruebas de hipótesis si los promedios de cada prueba son iguales o
diferente entre tipo de IES.

Código para sacar muestra de las universidades

Nota:
se calculo el tamaño de la muestra, pero se genero un error muy
grande al momento de generar graficas y al momento de hacer las
pruebas de hipótesis.

library(samplingbook)
universidades<-sp161718[,c(6,14,9)]
head(universidades)
library(samplingbook)
tamaño<-sample.size.prop(e=0.05, P = 0.5, N =
length(universidades$inst_nombre_institucion), level = 0.95)$n #
Vamos a usar P = 0.5
muestra2<-sample(1:length(universidades$inst_nombre_institucion),
size = tamaño, replace = FALSE)
mas.universidades<-universidades[muestra2,] # Tenemos la muestra2
head(mas.universidades)

ulb<-sp161718[sp161718$inst_nombre_institucion=="UNIVERSIDAD LIBRE-
BARRANQUILLA",]
> library(samplingbook)
> sample.size.prop(e=0.005, P = 0.4, N = nrow(ulb), level = 0.95)
sample.size.prop object: Sample size for proportion estimate
With finite population correction: N=2517, precision e=0.005 and
expected proportion P=0.4
Sample size needed: 2357
> muestra2<-sample(1:nrow(ulb), size = 381, replace = FALSE)
> m.ulb<-ulb[muestra1,]

> uam<-sp161718[sp161718$inst_nombre_institucion=="UNIVERSIDAD DE
ANTIOQUIA-MEDELLIN",]
>
> library(samplingbook)
> sample.size.prop(e=0.05, P = 0.5, N = nrow(uam), level = 0.95)

sample.size.prop object: Sample size for proportion estimate


With finite population correction: N=13134, precision e=0.05 and
expected proportion P=0.5

Sample size needed: 374

> muestra2<-sample(1:nrow(uam), size = 374, replace = FALSE)


> m.uam<-uam[muestra1,]
>
> uncm<-sp161718[sp161718$inst_nombre_institucion=="UNIVERSIDAD
NACIONAL DE COLOMBIA-MANIZALES",]
>
> library(samplingbook)
> sample.size.prop(e=0.05, P = 0.5, N = nrow(uncm), level = 0.95)

sample.size.prop object: Sample size for proportion estimate


With finite population correction: N=2044, precision e=0.05 and
expected proportion P=0.5
Sample size needed: 324

> muestra2<-sample(1:nrow(uncm), size = 324, replace = FALSE)


> m.uncm<-uncm[muestra2,]
> usc<-sp161718[sp161718$inst_nombre_institucion=="UNIVERSIDAD DE
LA SABANA-CHIA",]
> library(samplingbook)
>sample.size.prop(e=0.05, P = 0.5, N = nrow(usc), level = 0.95)

sample.size.prop object: Sample size for proportion estimate


With finite population correction: N=4009, precision e=0.05 and
expected proportion P=0.5

Sample size needed: 351

> muestra2<-sample(1:nrow(usc), size = 324, replace = FALSE)

Conclusión

1. Este trabajo o proyecto nos mostro que la programar es una manera muy
rápida y sencilla si se tiene todos los conocimientos previos .
2. La sensibilidad del programa es fuerte. Concluimos que en Rstudio en
lenguaje de programación deber ser perfecto.

3. En el proyecto no se generaron los resultados esperados , por ende se


concluye que hubo fallas técnicas como también el RSTUDIO que maneja un
lenguaje un poco difícil .

También podría gustarte