Está en la página 1de 6

Ajuste de una distribución continua a una variable aleatoria con el uso de R- Studio

Danna Garzón (dangarzonpo@unal.edu.co)

1. Resumen:

Por medio del uso del software RStudio se realiza el análisis descriptivo y la modelación de los datos de
una variable aleatoria continua, encontrándose que su comportamiento es atípico y que es dificil
aproximar una distribución que se ajuste a su comportamiento.

2. Introducción:

Una variable aleatoria continua tiene una distribución continua, puesto que la probabilidad de adoptar
exactamente cualquiera de sus valores es cero. Entre las diferentes funciones de distribución continua se
encuentran las siguientes:

Distribució Fórmula Gráfica


n

Normal

Gamma

Exponencial
Weibull

Cauchy Donde:
x: valor de la magnitud aleatoria
a: parámetro de distribución media
b: parámetro de distribución escala

Tabla 1. Distribuciones continuas. Fuente: (Walpole, 2012) & (NIST, 2012)

Las cuales ayudan al análisis del comportamiento de una variable aleatoria continua, con el uso de la
estadística descriptiva a partir de medidas como la media aritmética, mediana, varianza o curtosis y
mediante gráficos estadísticos como el histograma que representa de forma horizontal los valores que
toma la variable aleatoria y del boxplot el cual permite graficar este conjunto de datos a partir de sus
cuartiles.

De esta manera se puede realizar medidas descriptivas del comportamiento de los datos, obteniéndose la
aproximación de estos a alguna de las distribuciones, lo anterior es posible realizarlo mediante el uso del
software estadístico Rstudio realizando la estimación de parámetros con el uso de métodos como el de
máxima verosimilitud que consiste en encontrar cuando la función de densidad conjunta se hace máxima.

El método de momentos que consiste en igualar ciertas características muestrales con las correspondientes
características poblacionales y el método de mínimos cuadrados que busca el mejor ajuste, determina la
curva dada la distribución que más se ajuste a la función de distribución de probabilidad (Walpole, 2012).

Además, las pruebas de bondad permiten medir el grado de concordancia entre la distribución de un
conjunto de datos y una distribución teórica especificada. La prueba de Kolmogorov-Smirnov tiene como
objetivo señalar si los datos provienen de una población que tiene la distribución teórica especificada, es
decir, contrasta si las observaciones podrían razonablemente proceder de la distribución especificada,
calcula la máxima distancia entre la distribución acumulativa de los datos y la distribución normal
acumulativa del ajuste teórico de los datos (2004, Gallo). La prueba Anderson- Darling se utiliza para
probar si una muestra de los datos procede de una distribución absolutamente continua con vector de
parámetros Ɵ (Lorenzo, 2011).
3. Metodología:

La metodología consiste en el análisis de la base de datos gastos salud.xlsx con estadística descriptiva a
partir del uso de medidas de tendencia central, las gráficas como el histograma y boxplot. A la par se
observa el comportamiento de los datos con el fin de determinar una posible distribución.

Con la función fitdistr. se pretende ajustar descriptivamente diferentes distribuciones continuas al


conjunto de datos, posterior a ello se realizan pruebas de bondad para comprobar el análisis realizado
previamente, se utilizan las pruebas Kolmogrov - Smirnov y Anderson- Darling.

4. Resultados:

Procedimiento 1:.

Histogram of datos
8e-07
D ensity

4e-07
0e+00

0e+00 1e+06 2e+06 3e+06 4e+06 5e+06

datos

Gráfica 1. Histograma de los datos. Fuente: Autora


8e+06
4e+06
0e+00

Gráfica 2. Boxplot de los datos. Fuente: Autora

Las gráficas 1 y 2 muestran el comportamiento de los datos de “ingresos mensuales de una persona” de la
base de datos “gasto salud”, dando cuenta de la dispersión de los valores que toma la variable aleatoria.
Se presentan bastantes datos atípicos que dificultan el ajuste de un boxplot simulado de otras
distribuciones teóricas.
Procedimiento 2: según la forma las gráficas obtenidas del comportamiento de la variable aleatoria
“ingresos mensuales de una persona”, es difícil poder ajustar una distribución teórica convencional que
permita modelar el comportamiento de los datos.

Procedimiento 3:

Histogram of datos
0 e + 0 04 e -0 78 e -0 7
D e n s i ty

0e+00 1e+06 2e+06 3e+06 4e+06 5e+06

datos

Gráfica 3. Ajuste distribución normal y gamma. Fuente: Autora


Histogram of datos
8 e -0 7
D e n s ity

4 e -0 7
0e+00

0e+00 1e+06 2e+06 3e+06 4e+06 5e+06

datos

Gráfica 4. Ajuste función density. Fuente: Autora


Según las gráficas 3 y 4 tenemos que no se puede aproximar una distribución que se ajuste al
comportamiento de los datos de la variable aleatoria, se tienen demasiados datos atípicos y una
variabilidad importante en los valores de los ingresos mensuales de una persona.

Procedimiento 4: La grafica 5 muestra el poco ajuste de los datos a los cuantiles teóricos, dando
cuenta que no es posible ajustar la distribución normal al comportamiento de los datos de forma
que se permita modelar su comportamiento.

Normal Q-Q Plot


8e+06
Sample Quantiles

4e+06
0e+00

-4 -2 0 2 4

Theoretical Quantiles

Gráfica 5. Quantiles teóricos distribución normal. Fuente: Autora


Procedimiento 5:

Se plantean las hipótesis:

H0= X sigue una distribución normal con parametros (1498957.130, 2180499.725)


Ha= X no sigue una distribución normal con parametros (1498957.130, 2180499.725)

Teniendo en cuenta que :

- Valor p > nivel de significancia (0.05): No rechazamos la hipotesis nula


- Valor p < nivel de significancia (0.05): rechazamos la hipotesis nula

Resultados prueba Kolmogorov-Smirnov


D = 0.15499, p-value < 2.2e-16

Resultados prueba Anderson-Darling normality


A = 2714, p-value < 2.2e-16

Encontrándose que se rechaza que la variable aleatoria dada por los ingresos mensuales siga una
distribución normal de parámetros = 1498957.130, 2180499.725.
7. Conclusiones:

Se tiene que la variable aleatoria ingresos mensuales de una persona presenta un comportamiento de los
valores que toma demasiado atípicos, los cuales requieren de métodos más avanzados que permitan
modelar su comportamiento.

8. Bibliografía:

Walpole, R., Myers, R., Myers, S. and Ye, K., n.d. Probability & Statistics For Engineers &
Scientists.Nist/sematech (2012)

Itl.nist.gov. 2020. NIST/SEMATECH E-Handbook Of Statistical Methods. [online] Available at:


<http://www.itl.nist.gov/div898/handbook/> [Accessed 30 November 2020].

Virtual.uptc.edu.co. 2020. Programa Universidad Virtual. [online] Available at:


<Https://virtual.uptc.edu.co/ova/estadistica/docs/libros/h_men_est_basi/index.html> [Accessed 30
November 2020].

Lorenzo G. (2011) Modelación de los retornos del índice de precios y cotizaciones de México con la
distribución Pareto y censura de tipo II. UNAM. México D. F.

También podría gustarte