Informe de Análisis Estadístico

1. INTRODUCCIÓN.
En el siguiente informe se encontrará la descripción de un estudio estadístico hecho a tres municipios,

análisis el cual tiene como fin encontrar información acerca de modelos de regresión que mejor describan a
la población de un municipio en función del tiempo. Así mismo, se demostrará por qué los modelos
escogidos son los más adecuados para poder describir a la población en función del tiempo de cada
municipio, también la metodología empleada para el análisis a y también se mostrarán resultados de la
población en cada municipio en futuros años con sus debidos gráficos.
2. METODOLOGÍA Y ACLARACIONES.
La metodología que se usó para poder hacer este estudio estadístico fue hacer un modelo lineal, un modelo
polinomial en este caso cuadrático debido a la poca cantidad de datos que se brindaron, un modelo
logarítmico y, por último, un modelo exponencial. Se hicieron estos cuatro modelos para cada población con
el fin de poder comparar cada uno de ellos para así seleccionar el modelo que mejor describa la población
de cada municipio en función del tiempo.
Antes de hacer los análisis para cada uno de los municipios es importante aclarar dos temas. El primero es
que para el estudio estadístico hecho solo se tuvieron en cuenta cuatro datos, lo que índica que al tener tan
pocos datos acerca de la población de los municipios el estudio no es muy bueno. Como segundo tema, se
va a dejar claro ciertos conceptos estadísticos y a su vez las funciones empleadas en el programa “R” para
poder saber que modelo es el que mejor se ajusta y sus justificaciones.
3. CONCEPTOS.
3.1. Coeficiente de determinación.

El coeficiente de determinación o como se le conoce comúnmente R2 es un estadístico usado en
modelos de regresión con el propósito de conocer el porcentaje de varianza que es explicada por el
modelo, es decir, que tan bien el modelo se ajusta a los datos reales. La fórmula para el cálculo de
n n
SSE
este estadístico es R2=1− 2
, donde SSE=∑ ( y i− ^y i )2 y SST =∑ ( y i− ý i ) . En R para
SST 1 i=1
poder saber el estadístico R2 se emplea la función “summary” la cual hace el procedimiento
matemático antes mencionado.
3.2. Intervalos de confianza.

Los intervalos de confianza son estimadores por intervalos cuyo objetivo es poder aportar
información acerca de que tan cerca se encuentra una estimación obtenida de una muestra del
parámetro poblacional, en pocas palabras nos da información acerca del valor poblacional de los
parámetros por medio de intervalos que en este caso los parámetros son coeficientes de regresión.
Para poder calcular los intervalos de confianza se usó en el programa R la función “confint” la cual
calcula los intervalos de confianza de la siguiente forma .
I . C=coeficiente ± t α × error estándar , donde el error estándar de cada coeficiente lo da la
2
función “summary”
3.3. Error estándar de estimación.

El error estándar de dispersión es una medida la cual nos ayuda a saber la cantidad de dispersión
que hay alrededor de una curva de regresión, en pocas palabras, es una desviación estándar que ya
no se mira a través de la media de un variable si no a partir de un modelo. Esto nos es útil ya que un
buen modelo debe contra un bajo error estándar ya que esto significaría poco error al predecir una
población. En el programa R la función “summary” nos muestra los resultados del error
n
estándar de dispersión aplicando la fórmula
3.4. Función lm en R.
s=
√ ∑ ( y i− ^yi ) 2 .
i=1
n−2
Es importante saber que procedimiento utiliza el programa R para poder calcular los coeficientes de
cada uno de los modelos regresión. Para esto, el programa tiene una función llamada “lm” la cual
aplica el método de mínimos cuadrados para modelos lineales. Los modelos logarítmicos,
exponenciales y potenciales al poder linealizarse, R podrá calcular sus coeficientes sin problema
alguno. Es importante tener en cuenta que se tiene que ingresar los datos en la función “lm” de forma
lineal.
Ya aclarando los conceptos se procederá hacer el análisis estadístico para cada uno de los municipios.
4. ANAPOIMA.
Inicialmente, se hizo un gráfico de dispersión para dar la idea de lo que podría suceder con la población
de Anapoima en función del tiempo. El gráfico se muestra a continuación.
Con el gráfico de dispersión podemos observar que los datos tienen una tendencia lineal, por lo cual, no
damos una idea de que uno de los modelos que mejor se ajuste para el municipio de Anapoima sea un
modelo lineal o logarítmico.
Para poder definir que modelo es mejor, se aplica la metodología mencionada anteriormente y la
información la adjuntamos en unas tabas. Las tablas de resultados de todos los modelos se
muestran a continuación.
MODELO LINEAL
COEFICIENTE VALOR COEFICIENTE PRUEBA DE HIPÓTESIS INTERVALO DE CONFIANZA

β0 2235,65 0,020 (853,095 ; 3618,202)
β1 115,15 0,019 (44,988 ; 185,320)
MODELO LINEAL
COEFICIENTE DE DETERMINACIÓN ERROR ESTÁNDAR DE ESTIMACIÓN

0,9614 407
MODELO LOGARÍTMICO

β0
-1748796 0,0191 (-2804267,02 ; -693325,5)
β1 230599 0,0190 (91740,14 ; 369458,7)

MODELO LOGARÍTMICO

0,9623 402,4
MODELO EXPONENCIAL

β0
2262,018 0,000444 (1122,76 ; 4557,27)
β1
0,0319 0,06 (-0,00364 ; 0,0674)
MODELO EXPONENCIAL

0,8817 762,08
Al ver los resultados en las tablas, lo que se había dicho por el gráfico de dispersión era cierto. Se puede
observar que los modelo con mejores resultados son el logarítmico y el lineal, también ambos modelos
cuentan con el error estándar de estimación más bajos y que sus coeficientes de determinación son los más
altos son, es decir, con menos error y con una explicación de varianza más alto. Pero para poder elegir uno,
nos fijamos en las más mínimas diferencias y es que el modelo logarítmico cuenta por muy poco con
mejores características, por lo tanto, el modelo que mejor describe a la población de Anapoima en función
del tiempo es el modelo logarítmico. A continuación, se mostrará una tabla de como están definidos todos
los modelos.
MODELOS ANAPOIMA
MODELO LINEAL Y =2235,65+ 115,15 x

Y =−1748796+230599 ln x
MODELO LOGARÍTMICO
Y =2262,018× e 0,0319x
MODELO EXPONENCIAL
Como último, para el análisis del municipio de Anapoima se presentará un gráfico del modelo que mejor se
ajusta a describir la población del municipio de Anapoima comparado con los datos de la población en
función del tiempo. Esto con el fin de poder tener claridad en que tanto se acerca el modelo a los datos
reales. A continuación, se mostrará el gráfico del modelo logarítmico del municipio de Anapoima.
Observando el gráfico del modelo logarítmico comparado con los datos reales de la población, se puede
observar que el modelo logarítmico es un modelo que explica de buena manera a la población en función
del tiempo del municipio de Anapoima. El modelo puede tener sus errores a comparación de los datos reales
pero estos errores no son muy altos.
5. Ricaurte.
Al igual que en municipio de Anapoima para Ricaurte se hará un gráfico de dispersión, este con el fin de
poder darnos una idea de que tipo de tendencia podría llevar. A continuación, se presentará el grafico
de dispersión del municipio de Ricaurte.
En este gráfico de dispersión de la población del municipio de Ricaurte en el tiempo muestra que hay cierta
curvatura, lo cual significa que de momento la idea que se puede dar es que el modelo que mejor se adapte
sea el exponencial. Para poder dar un veredicto se mostrarán las tablas con los resultados de cada modelo.
MODELO LINEAL
βCOEFICIENTE
0
VALOR COEFICIENTE PRUEBA DE HIPÓTESIS INTERVALO DE CONFIANZA

914,10 0,135 (-701,22 ; 2529,41)
β1

143,39 0,0172 (61,40 ; 225,36)
MODELO LINEAL

0,9659 475,5
MODELO LOGARÍTMICO
COEFICIENTE
β VALOR COEFICIENTE PRUEBA DE HIPÓTESIS INTERVALO DE CONFIANZA
0

-2177491 0,0177 (-3440068 ; -914914,1)
β1

286882 0,0176 (120775,5 ; 452988,4)
MODELO LOGARÍTMICO

0,965 481,3
MODELO EXPONENCIAL
β0

1263,478 4,05E-05 (1039,012 ; 1536,431)
β1

0,04739 0,0023 (0,0374 ; 0,0573)
MODELO EXPONENCIAL

0,9953 141,82
Al analizar los resultados contenidos en la tabla se observa que los mejores resultados están en el modelo
exponencial, ya que su coeficiente de determinación es de 0,9953, esto quiere decir que el modelo
exponencial explica un 99,53% de la varianza a comparación de otros como el lineal y el logarítmico que no
pasan del 96%. Otros puntos a favor del modelo exponencial es que la desviación estándar de los residuales
es muy baja a comparación de los otros dos modelos, esto quiere decir que en promedio hay menos error de
predicción y sus coeficientes de determinación son significativos, esto se comprobó con prueba de hipótesis
e intervalos de confianza. Como conclusión se llega que el modelo que mejor explica a la población de
Ricaurte en función del tiempo es el modelo exponencial. A continuación, se muestra la tabla con todos los
modelos.
MODELOS RICAURTE
Y =914,10+143,39
MODELOx LINEAL
Y =−2177491+
MODELO286882 ln x
LOGARÍTMICO
× e0,04739
MODELO
Y =1263,478 x
EXPONENCIAL
Al igual que con el municipio de Anapoima, como último se procederá a mostrar el gráfico del modelo que
mejor se ajusta a los datos reales comparado con los datos reales, esto con el fin de poder justificar que es
un buen modelo y que tanto se acerca a los datos reales. A continuación, se mostrará el gráfico.
Como se dijo anteriormente, el modelo que mejor se ajustaba a los datos reales era el modelo exponencial,
en este punto se logra observar una muy buena precisión ya que este modelo se acerca mucho a los puntos,
los cuales representan los datos reales. Con esto podemos aclarar y justificar que el modelo exponencial es
un buen modelo para describir a la población de Ricaurte en función de los años.
6. La mesa.
Al igual que con los dos municipios anteriores, haremos un gráfico de dispersión con el fin de saber con
anticipación o poder darnos una idea de que tipo de tendencia sigue la población del municipio de la Mesa
en función del tiempo. A continuación, se mostrará el gráfico de dispersión.
Al observar el gráfico de dispersión del municipio de La Mesa, observamos cierta similitud con el gráfico del
municipio de Anapoima, esto quiere decir que de momento se espera que existan dos modelos que
describan bien la población en función del tiempo de este municipio sean el lineal y el logarítmico. A
continuación, se mostrarán las tablas con los resultados de cada modelo.
MODELO LINEAL
β 0COEFICIENTE VALOR COEFICIENTE PRUEBA DE HIPÓTESIS INTERVALO DE CONFIANZA

6252,41 0,0144 (2993,99 ; 9510,81)
β1

335,96 0,0128 (170,58 ; 501,32)
MODELO LINEAL
0,9745 959,1
MODELO LOGARÍTMICO
βCOEFICIENTE
0
VALOR COEFICIENTE PRUEBA DE HIPÓTESIS INTERVALO DE CONFIANZA

-5100859 0,0127 (-7600650 ; -2601067)
β1

672573 0,0127 (343697 ; 1001449)
MODELO LOGARÍTMICO
COEFICIENTE DE DETERMINACIÓN ERROR ESTÁNDAR DE ESTIMCIÓN

0,9748 952,9
MODELO EXPONENCIAL
COEFICIENTE
β VALOR COEFICIENTE PRUEBA DE HIPÓTESIS INTERVALO DE CONFIANZA
0

6594,162059 1,00E-04 (4425,18 ; 9826,25)
β1

0,030838 0,022 (0,010 ; 0,051)
MODELO EXPONENCIAL

0,955 1635,2
Con los resultados mostrados en las tablas se observa una situación similar con la población de Anapoima y
es que los modelos que más resaltan son el lineal y el logarítmico. Para poder seleccionar uno de los dos
modelos nos fijamos en tres aspectos. El primer aspecto es aquel modelo que tenga un mayor coeficiente de
determinación, es decir, aquel que explica mayor varianza. Acá podemos observar que ambos modelos
cuentan muy buen coeficiente de determinación, pero al final el modelo logarítmico tiene uno mejor ya
sea por muy poco. Como segundo aspecto nos fijamos en el modelo con menos desviación estándar
de los residuales, es decir, el modelo que menos error tenga y en este caso el modelo logarítmico es aquel
que tiene menos desviación estándar de los residuales. Como último aspecto se tuvo en cuenta que los
coeficientes del modelo fueran significativos, esto es con el fin para que el modelo no tenga dificultades al
emplearlo con futuros años, con el resultado que se obtiene de la prueba de hipótesis se tiene que los
coeficientes de regresión para el modelo lineal y logarítmico son significativos. Como conclusión se tiene que
el mejor modelo para describir la población de La Mesa es el modelo logarítmico. A continuación, se
mostrará como quedan definidos los tres modelos hechos.
MODELOS LA MESA
Y =6252,41+335,96 x
MODELO LINEAL
Y =−5100859+ 672573 ln x
MODELO
LOGARÍTMICO
MODELO EXPONENCIAL Y =6594,162059× e0,030838 x
Al igual que con los dos anteriores municipios, como último se mostrará un gráfico el cual representa como
se comporta el modelo que mejor se ajusta a describir la población de La Mesa que en este caso es el
modelo logarítmico, comparado con los datos reales. Esto con el fin de poder justificar de que es un buen
modelo y que tanto se acerca a los datos reales. A continuación, se mostrará el gráfico.
Analizando en gráfico se logra observar que no hay errores tan grandes entre los datos reales comparado
con los del modelo, esto ratifica que el modelo logarítmico tiene un coeficiente de determinación alto y un
error de estimación estándar bajo. Con este gráfico, podemos justificar que el modelo logarítmico es un
buen modelo para poder describir a la población del municipio de La Mesa en función del tiempo.

Informe de Análisis Estadístico

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Informe de Análisis Estadístico

Cargado por

Copyright:

Formatos disponibles

1. INTRODUCCIÓN.

En el siguiente informe se encontrará la descripción de un estudio estadístico hecho a tres municipios,

3.1. Coeficiente de determinación.

3.2. Intervalos de confianza.

3.3. Error estándar de estimación.

estándar de dispersión aplicando la fórmula

COEFICIENTE VALOR COEFICIENTE PRUEBA DE HIPÓTESIS INTERVALO DE CONFIANZA

β1 115,15 0,019 (44,988 ; 185,320)

COEFICIENTE DE DETERMINACIÓN ERROR ESTÁNDAR DE ESTIMACIÓN

COEFICIENTE VALOR COEFICIENTE PRUEBA DE HIPÓTESIS INTERVALO DE CONFIANZA

β1 230599 0,0190 (91740,14 ; 369458,7)

COEFICIENTE DE DETERMINACIÓN ERROR ESTÁNDAR DE ESTIMACIÓN

COEFICIENTE VALOR COEFICIENTE PRUEBA DE HIPÓTESIS INTERVALO DE CONFIANZA

COEFICIENTE DE DETERMINACIÓN ERROR ESTÁNDAR DE ESTIMACIÓN

MODELO LINEAL Y =2235,65+ 115,15 x

COEFICIENTE DE DETERMINACIÓN ERROR ESTÁNDAR DE ESTIMACIÓN

COEFICIENTE DE DETERMINACIÓN ERROR ESTÁNDAR DE ESTIMACIÓN

COEFICIENTE DE DETERMINACIÓN ERROR ESTÁNDAR DE ESTIMACIÓN

β 0COEFICIENTE VALOR COEFICIENTE PRUEBA DE HIPÓTESIS INTERVALO DE CONFIANZA

COEFICIENTE DE DETERMINACIÓN ERROR ESTÁNDAR DE ESTIMCIÓN

COEFICIENTE DE DETERMINACIÓN ERROR ESTÁNDAR DE ESTIMACIÓN

También podría gustarte