Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Resumen:
Por medio del uso del software RStudio se realiza el análisis descriptivo y la modelación de los datos de
una variable aleatoria continua, encontrándose que su comportamiento es atípico y que es dificil
aproximar una distribución que se ajuste a su comportamiento.
2. Introducción:
Una variable aleatoria continua tiene una distribución continua, puesto que la probabilidad de adoptar
exactamente cualquiera de sus valores es cero. Entre las diferentes funciones de distribución continua se
encuentran las siguientes:
Normal
Gamma
Exponencial
Weibull
Cauchy Donde:
x: valor de la magnitud aleatoria
a: parámetro de distribución media
b: parámetro de distribución escala
Las cuales ayudan al análisis del comportamiento de una variable aleatoria continua, con el uso de la
estadística descriptiva a partir de medidas como la media aritmética, mediana, varianza o curtosis y
mediante gráficos estadísticos como el histograma que representa de forma horizontal los valores que
toma la variable aleatoria y del boxplot el cual permite graficar este conjunto de datos a partir de sus
cuartiles.
De esta manera se puede realizar medidas descriptivas del comportamiento de los datos, obteniéndose la
aproximación de estos a alguna de las distribuciones, lo anterior es posible realizarlo mediante el uso del
software estadístico Rstudio realizando la estimación de parámetros con el uso de métodos como el de
máxima verosimilitud que consiste en encontrar cuando la función de densidad conjunta se hace máxima.
El método de momentos que consiste en igualar ciertas características muestrales con las correspondientes
características poblacionales y el método de mínimos cuadrados que busca el mejor ajuste, determina la
curva dada la distribución que más se ajuste a la función de distribución de probabilidad (Walpole, 2012).
Además, las pruebas de bondad permiten medir el grado de concordancia entre la distribución de un
conjunto de datos y una distribución teórica especificada. La prueba de Kolmogorov-Smirnov tiene como
objetivo señalar si los datos provienen de una población que tiene la distribución teórica especificada, es
decir, contrasta si las observaciones podrían razonablemente proceder de la distribución especificada,
calcula la máxima distancia entre la distribución acumulativa de los datos y la distribución normal
acumulativa del ajuste teórico de los datos (2004, Gallo). La prueba Anderson- Darling se utiliza para
probar si una muestra de los datos procede de una distribución absolutamente continua con vector de
parámetros Ɵ (Lorenzo, 2011).
3. Metodología:
La metodología consiste en el análisis de la base de datos gastos salud.xlsx con estadística descriptiva a
partir del uso de medidas de tendencia central, las gráficas como el histograma y boxplot. A la par se
observa el comportamiento de los datos con el fin de determinar una posible distribución.
4. Resultados:
Procedimiento 1:.
Histogram of datos
8e-07
D ensity
4e-07
0e+00
datos
Las gráficas 1 y 2 muestran el comportamiento de los datos de “ingresos mensuales de una persona” de la
base de datos “gasto salud”, dando cuenta de la dispersión de los valores que toma la variable aleatoria.
Se presentan bastantes datos atípicos que dificultan el ajuste de un boxplot simulado de otras
distribuciones teóricas.
Procedimiento 2: según la forma las gráficas obtenidas del comportamiento de la variable aleatoria
“ingresos mensuales de una persona”, es difícil poder ajustar una distribución teórica convencional que
permita modelar el comportamiento de los datos.
Procedimiento 3:
Histogram of datos
0 e + 0 04 e -0 78 e -0 7
D e n s i ty
datos
4 e -0 7
0e+00
datos
Procedimiento 4: La grafica 5 muestra el poco ajuste de los datos a los cuantiles teóricos, dando
cuenta que no es posible ajustar la distribución normal al comportamiento de los datos de forma
que se permita modelar su comportamiento.
4e+06
0e+00
-4 -2 0 2 4
Theoretical Quantiles
Encontrándose que se rechaza que la variable aleatoria dada por los ingresos mensuales siga una
distribución normal de parámetros = 1498957.130, 2180499.725.
7. Conclusiones:
Se tiene que la variable aleatoria ingresos mensuales de una persona presenta un comportamiento de los
valores que toma demasiado atípicos, los cuales requieren de métodos más avanzados que permitan
modelar su comportamiento.
8. Bibliografía:
Walpole, R., Myers, R., Myers, S. and Ye, K., n.d. Probability & Statistics For Engineers &
Scientists.Nist/sematech (2012)
Lorenzo G. (2011) Modelación de los retornos del índice de precios y cotizaciones de México con la
distribución Pareto y censura de tipo II. UNAM. México D. F.