Está en la página 1de 5

PROYECTO FINAL, DICIEMBRE DE 2021 1

TRABAJO FINAL DE ESTADÍSTICA Y


PROBABILIDAD
ANÁLISIS ESTADÍSTICO A LOS
ESTUDIANTES INGRESADOS EN EL 2019
DESDE PRIMARIA HASTA BACHILLERATO
Profesor: Cristian Alfonso Jimenez Castaño

Brayner Osorio - 1004627572, Sebastián López - 1193519435, Sara Marı́a Perdomo - 1088350476
Facultad de Ingenierı́as
Programa de Ingenierı́a Eléctrica
Universidad Tecnológica de Pereira

Resumen—En este informe se hará un análisis estadı́stico a En el momento que se tenga la base de datos se procede al
la base de datos de los estudiantes que ingresaron de manera análisis estadı́stico el cual permite extraer la información que
gratuita y no gratuita en el año 2019 desde primero hasta once. requiere el observador [3].
A esta base de datos se le calcularán estimadores como la media,
la desviación estándar, el coeficiente de asimetrı́a de Fisher y
coeficiente de homogeneidad. Además, se hará una prueba de II. D ESCRIPCI ÓN DE LA BASE DE DATOS
independencia mediante el método de Chi cuadrado, esta prueba En este caso se hará el análisis estadı́stico de la base de
se implementará a las dos variables de la base de datos, es
decir, los estudiantes que ingresaron pagando (variable 1) y datos de los estudiantes con matriculas oficiales (estudiantes
estudiantes que ingresaron gratis (variable 2). Por último, a estas que pagan la matricula) y no oficiales (estudiantes que no
dos variables se les calculará una probabilidad conjunta, una pagan la matricula) que ingresaron en el 2019 desde primero
condicional, una marginal y se aplicará el teorema de Bayes. hasta once, esta base de datos se obtuvo del Ministerio de Edu-
Palabras clave—Análisis estadı́stico, Coeficiente de asimetrı́a cación (link: http://bi.mineducacion.gov.co:8380/eportal/web/
de Fisher, Chi cuadrado, Teorema de Bayes. planeacion-basica/grado1).
Abstract—In this report, a statistical analysis will be made of Para este análisis estadı́stico solo se tendrá en cuenta la
the database of students who entered for free and not free in información de primaria y secundaria, es decir, los datos desde
2019 from first to eleven. Estimators such as the mean, standard primero hasta once, la otra información para esta práctica será
deviation, Fisher’s coefficient of skewness will be calculated
from this database and homogeneity coefficient. In addition, an irrelevante. La base de datos de las dos variables se pueden
independence test will be done using the Chi square method, this observar en las Figuras 1 y 2, siendo la Figura 1 los datos de
test will be implemented to the two variables of the database, las Matriculas oficiales y la Figura 2 los datos de las Matriculas
that is, the students who entered free (variable 1) and students no oficiales.
who entered paying (variable 2). Finally, a joint probability, a
joint probability, a marginal one will be calculated for these two
variables, Bayes theorem will be applied and the histograms will III. P ROCEDIMIENTO
be displayed. A. Análisis estadı́stico.
Index Terms—Statistical analysis, Fisher’s coefficient of skew- El análisis estadı́stico que se hará en está base de datos
ness, Chi square, Bayes theorem. es el siguiente: se hallará la media, la desviación estándar,
el coeficiente de asimetrı́a de Fisher y el coeficiente de
I. M ARCO TE ÓRICO homogeneidad.
Para poder realizar el análisis estadı́stico se necesita tener 1) La Media: Indica el valor promedio de los datos y
una base de datos, es decir, un conjunto de información (un es el valor con mayor concentración de probabilidad, la
conjunto de datos) relacionada que se encuentra agrupada o media también se conoce con el nombre del primer momento
estructurada [1]. Las bases de datos surgieron principalmente estadı́stico y está dada por:
por la dificultad en el acceso a los datos, es decir, era difı́cil
que el usuario encontrara rápidamente un dato en especial [2]. N
1 X
x̄ = xi
ESTADÍSTICA Y PROBABILIDAD, UTP N i=1
PROYECTO FINAL, DICIEMBRE DE 2021 2

xi : Valor de la variable
x̄ : Valor de la media

El resultado obtenido de la desviación estándar de las dos


variables de esta base de datos se puede observar en el Cuadro
II.

Cuadro II
VALOR DE LA DESVIACI ÓN EST ÁNDAR DE LAS DOS VARIABLES .

VARIANZA MUESTRAL
MATRICULAS MATRICULAS NO
OFICIALES OFICIALES
12.321.390.349 435.526.267

Nótese que en el Cuadro II, se puede ver que la desviación


estándar de las matriculas oficiales dio un resultado muy
Figura 1. Matriculas no oficiales con su media muestral.
grande (12321390349) con respecto a la media (633916),
esto quiere decir que las muestras están muy alejadas de
la media y esto se puede observar en la Figura 2 donde
se ve que los datos son muy dispersos. Por otro lado,
la desviación estándar de las matriculas no oficiales dio
un resultado más pequeño (435526267) con respecto a
la media (128646), esto quiere decir que las muestras
no están tan alejadas de la media y esto se puede observar
en la Figura 1 donde se ve que los datos no son muy dispersos.

3) Coeficiente de asimetrı́a de Fisher: Indica la simetrı́a


de la distribución respecto a la media muestral, es decir,
denota si la mayorı́a de los datos están por encima o por
debajo de media y, está dada por:

N
1 X
Figura 2. Matriculas oficiales con su media muestral. CAF = (xi − x̄)3
N σ̂ 3 i=1

Donde:
Donde: N : Cantidad de datos de la base en este caso N = 11
N : Cantidad de datos de la base en este caso N = 11 xi : Valor de la variable
xi : Valor de la variable x̄ : Valor de la media
σ : Valor de la desviación tı́pica muestral
El resultado obtenido de la media de las dos variables de
esta base de datos se puede observar en el Cuadro I. El resultado obtenido del coeficiente de asimetrı́a de Fisher
de las dos variables de esta base de datos se puede detallar en
Cuadro I el Cuadro III.
VALOR DE LA MEDIA DE LAS DOS VARIABLES DE LA BASE DE DATOS .
Cuadro III
PROMEDIO MATRICULAS PROMEDIO MATRICULAS VALOR DEL COEFICIENTE DE ASIMETR ÍA DE F ISHER DE LAS DOS
OFICIALES NO OFICIALES VARIABLES .
633.916 128.646
COEFICIENTE DE ASIMETRÍA
MATRICULAS MATRICULAS NO
2) La desviación estándar: Indica la distancia promedio OFICIALES OFICIALES
entre las muestras y la media y está dada por: -0,897243452 -0,342467237

N En el Cuadro III se observa que el coeficiente de asimetrı́a


2 1 X de Fisher de las matriculas oficiales dio un resultado negativo
σ̂ = (xi − x̄)2
N − 1 i=1 y cercano a -1 (-0.8972), esto quiere decir que las muestras
están muy alejadas con respecto a la media y en su gran
Donde: mayorı́a los datos están por debajo de ella, esto se puede
N : Cantidad de datos de la base en este caso N = 11 observar en la Figura 2 donde se ve que los datos son muy
PROYECTO FINAL, DICIEMBRE DE 2021 3

dispersos y en gran parte por debajo de la media. Por otro B. Prueba de independencia.
lado, el coeficiente de asimetrı́a de Fisher de las matriculas
no oficiales dio un resultado negativo pero cercano a cero Esta prueba de independencia se aplica sobre las dos
(-0.3424), lo que significa que las muestras no están tan variables de la base de datos, matriculas oficiales y no
alejadas con respecto al valor de la media y los datos por oficiales (variable 1) y nivel educativo (variable 2). Esto se
debajo de ella son los más alejados, esto se puede detallar en hace con el fin de saber si estas dos variables son dependientes
la Figura 1 donde se ve que los datos no son muy dispersos o no, según el test. Para saber esto se utiliza el método de
(cercanos a la media) y están más alejados por debajo del Chi cuadrado.
valor de la media muestral.
1) Chi cuadrado: Sirve para determinar la independencia
4) Homogeneidad: Mide cuán achatada está la curva o o dependencia entre dos variables.
distribución, es decir, indica la cantidad de datos que hay En este caso para determinar la dependencia o independen-
cercanos a la media y está dada por: cia entre la variable de matricula oficiales y no oficiales y,
el nivel educativo que son dos grupos. El grupo 1 se llama
PN primaria y es la información desde primero hasta quinto, y el
1 i=1 (xi − x̄)4 grupo 2 se llama secundaria y son los datos desde sexto hasta
CH = K − 1 = −1
N −1 σ̂ 4 once, en el Cuadro V y VI se puede observar esto mucho
mejor.
Donde: Nótese que en el Cuadro VII tiene dos columnas que
N : Cantidad de datos de la base en este caso N = 11 son matriculas oficiales esperadas y matriculas no oficiales
xi : Valor de la variable esperadas y estas se calcularon de la siguiente manera:
x̄ : Valor de la media
σ : Valor de la desviación tı́pica muestral

Cabe aclarar que si k > 7 ó ≈ 7 existen atı́picos (outliers), 4156964 ∗ 6973078


e1,1 = = 3455673, 343
es decir, valores que no concuerdan con la medición, si la 8388187
media se mueve por un dato erróneo de medición, también se
mueve la varianza, esto crea un desplazamiento en la gráfica, si
hablamos de una distribución normal existen 3 tipos de gráficas
como lo son la leptocúrtica (σ1 ), mesocúrtica (σ2 ), platicúrtica 4156964 ∗ 1415109
e1,2 = = 701290, 6566
(σ3 ). 8388187

σ1 < σ2 < σ3
Con esto también podemos afirmar que: 4231223 ∗ 6973078
e2,1 = = 3517404, 657
k1 < k2 < k3 8388187

Entre mas pequeño sigma mas pequeño sera los valores


atı́picos y esto da mas confiabilidad en los datos tomados.
4231223 ∗ 1415109
El resultado obtenido de la homogeneidad de las dos va- e2,2 = = 713818, 3434
8388187
riables de esta base de datos se puede detallar en el Cuadro
IV.

Cuadro IV
VALOR DE LA HOMOGENEIDAD DE LAS DOS VARIABLES .
Cuadro V
HOMOGENEIDAD I NFORMACI ÓN DE LA BASE DE DATOS
MATRICULAS MATRICULAS NO
OFICIALES OFICIALES GRADO MATRICULAS OFICIALES MATRICULAS NO OFICIALES
0 -1 ONCE 396.770 95.640
DÉCIMO 480.746 97.194
NOVENO 544.628 108.847
En el Cuadro IV se puede observar que CH = 0, por lo OCTAVO 624.205 116.305
tanto k =1, esto significa que para los estudiantes con matricula SÉPTIMO 712.693 123.977
oficiales los datos no tienen valores atı́picos, esto da confianza SEXTO 801.625 128.593
QUINTO 678.220 143.907
en los datos obtenidos por la base de datos, lo mismo se puede CUARTO 670.403 145.423
decir de los estudiantes con matricula no oficiales que el CH TERCERO 669.865 147.953
= -1 por lo tanto k = 0 son datos que se acercan mucho a su SEGUNDO 675.733 151.395
media y con muy baja probabilidad de un dato erróneo. PRIMERO 718.190 155.875
PROYECTO FINAL, DICIEMBRE DE 2021 4

Cuadro VI Cuadro VIII


INFORMACI ÓN DE LA BASE DE DATOS DE LAS DOS C UADRO DE PROBABILIDADES .
VARIABLES DESDE PRIMERO HASTA ONCE DIVIDIDA EN DOS
GRUPOS. PROBABILIDAD PROBABILIDAD
GRADO CONJUNTA CONJUNTA
MATRICULAS MATRICULAS TOTAL OFICIALES NO OFICIALES
OFICIALES NO OFICIALES FILAS ONCE 0,0473 0,0114
PRIMARIA 3.412.411 744.553 4.156.964 DÉCIMO 0,0573 0,0116
SECUNDARIA 3.560.667 670.556 4.231.223 NOVENO 0,0649 0,0130
TOTAL OCTAVO 0,0744 0,0139
6.973.078 1.415.109 8.388.187
COLUMNAS SÉPTIMO 0,0850 0,0148
SEXTO 0,0956 0,0153
QUINTO 0,0809 0,0172
CUARTO 0,0799 0,0173
Cuadro VII TERCERO 0,0799 0,0176
VALORES ESPERADOS DE LAS 2 VARIABLES ANTERIORES . SEGUNDO 0,0806 0,0180
PRIMERO 0,0856 0,0186
MATRICULAS MATRICULAS
OFICIALES NO OFICIALES
ESPERADAS ESPERADAS 2) Probabilidad conjunta: Es la probabilidad sobre el
3455673,343 701290,66 experimento total.
3517404,657 713818,34
En el Cuadro VIII, se observa las dos columnas de pro-
Luego, con estos datos se calcula el coeficiente Chi cuadra- babilidades conjuntas, una de los estudiantes con matricula
do (x2 ), ası́: oficial y la otra con matricula no oficial. Esto se calcula
con base a los estudiantes totales que son 8388187. Por
X X (oij − eij )2 ejemplo, la probabilidad conjunta de matriculas oficiales para
x2 = los estudiantes de once se calcula ası́:
i j
eij
396770
P = = 0, 047
Donde: 8388187
oij : Son los valores observados, es decir, los valores de las Y ası́ sucesivamente con los otros datos. De esta manera
columnas de las matriculas oficiales y no oficiales y de las se obtiene la probabilidad conjunta en este experimento.
filas de primaria y secundaria
3) Probabilidad marginal: Es la probabilidad sobre un
2 evento en particular de alguno de los sub-experimentos.
Por ende, el x = 6364, 5514

Y los grados de libertad (v) en esta prueba son:


Cuadro IX
C UADRO DE PROBABILIDAD MARGINAL .

v = (def ilas − 1)(decolumnas − 1) = (2 − 1)(2 − 1) GRADO PROBABILIDAD MARGINAL


ONCE 0,0587
v=1 DÉCIMO 0,0689
NOVENO 0,0779
OCTAVO 0,0883
En esta prueba se quiere un 99,5 % de confianza, por lo SÉPTIMO 0,0997
tanto, PV alue = 0,5 % = 0, 005. SEXTO 0,1109
QUINTO 0,0980
CUARTO 0,0973
De la tabla estadı́stica se obtiene que para P = 0,5 % TERCERO 0,0975
de inconfiabilidad y un grado de libertad (v = 1), el SEGUNDO 0,0986
PRIMERO 0,1042
xcrı́tico2 =7,8794 (link de la tabla: http://labrad.fisica.edu.uy/
docs/tabla chi cuadrado.pdf)
Si x2 > xcrı́tico2 las sos variables son independientes, ya Nuevamente en el Cuadro IX, se puede observar, las
que se rechaza HO . Entonces: probabilidades sobre un evento en particular. Por ejemplo, la
probabilidad de las matriculas oficiales y no oficiales en grado
once es del 0, 0587 ya que es la suma de la probabilidad
6364, 5514 > 7,8794 conjunta de las matriculas oficiales y no oficiales en grado
once. La probabilidad marginal en el grado noveno es del
Dado que sı́ es mayor, el HO se rechaza y se puede 0, 0779 y ası́ sucesivamente para cualquier otro evento.
afirmar que las variables son independientes con un 99,5 % de
confiabilidad, es decir, para que un estudiante tenga matricula 4) Probabilidad condicional: Indica la probabilidad de
oficial o no oficial no va depender del nivel educativo en el ocurrencia de un evento B ∈ S2 que depende de la ocurrencia
que esté. del evento relacionado A ∈ S1 y se define como:
PROYECTO FINAL, DICIEMBRE DE 2021 5

Cuadro XI
P (AB) P (B ∩ A) T EOREMA DE BAYES .
P (B|A) = =
P (A) P (A)
TEOREMA DE BAYES
0,8069
Donde:
A : Evento de estar en un grado. IV. C ONCLUSIONES
B : Evento de pertenecer a las matriculas oficiales. • Se logró hacer un análisis estadı́stico detallado a la base
de datos de los estudiantes que ingresaron con matricula oficial
y no oficial en el año 2019 desde grado primero hasta once, en
Cuadro X
C UADRO DE PROBABILIDAD CONDICIONAL .
donde se calcularon estimadores como la media, la desviación
estándar, el coeficiente de asimetrı́a de Fisher, el cual indicó
PROBABILIDAD PROBABILIDAD que los datos son asimétricos a la derecha, es decir, que los
GRADO CONDICIONAL CONDICIONAL
OFICIALES NO OFICIALES datos en su gran mayorı́a están por debajo de la media en
ONCE 0,057 0,068 las matriculas oficiales y no oficiales, además, se calculó el
DÉCIMO 0,069 0,069 coeficiente de homogeneidad en donde se comprobó que la
NOVENO 0,078 0,077 base de datos no tiene valores atı́picos.
OCTAVO 0,090 0,082
SÉPTIMO 0,102 0,088
• Se implementó la prueba de independencia mediante el
SEXTO 0,115 0,091 método de Chi cuadrado, en donde se puedo afirmar que las
QUINTO 0,097 0,102 variables son independientes con un 99,5 % de confiabilidad,
CUARTO 0,096 0,103 es decir, se demostró que para que un estudiante tenga matri-
TERCERO 0,096 0,105
SEGUNDO 0,097 0,107 cula oficial o no oficial no dependerá del nivel educativo en
PRIMERO 0,103 0,110 el que esté.
• Se calcularon las probabilidades conjuntas, las
Por ejemplo, la probabilidad condicional de que esté en condicionales y las marginales de las matriculas oficiales y no
grado 11 dado que pertenece a las matriculas oficiales, en oficiales y, se aplicó el teorema de Bayes donde se demostró
donde las matriculas oficiales totales son 6937078. que la probabilidad de pertenecer a las matriculas oficiales
dado que está en grado 11 es más alta que la probabilidad de
396770 pertenecer a las matriculas no oficiales.
P (A|B) = = 0,057
6973078
Las otras probabilidades condicionales se pueden observar
en el Cuadro X. R EFERENCIAS
[1] Córdova Alarcón, M. A., Escobar Erazo, T. E., Haro Haro, E. R., Mena
Campaña, R. E., Merino Castillo, V. M. Estadı́stica básica I.
5) Teorema de Bayes: Sirve para calcular la probabilidad [2] de Datos, B. (2012). Bases de datos. Gestión, 6(7), 9.
de un suceso anterior, condicionado a un suceso posterior y [3] Ya-Lun, C. (1977). Análisis estadı́stico. Copyright Under The Interna-
se define como: tional Copyright Union.
[4] Planeación básica de estudiantes oficiales y no oficiales. (2019). Base
de datos. Ministerio de Educación
P (B|A)P (A)
P (A|B) =
P (B)
Por ejemplo, la probabilidad de pertenecer a las matriculas
oficiales dado que está en grado 11 es:

P (A|B):Es la probabilidad condicional de que esté en


grado 11 dado que pertenece a las matriculas oficiales (0, 057)

P (B): Es la sumatoria de las probabilidades conjuntas de


las matriculas oficiales, es decir, la probabilidad marginal de
las matriculas oficiales (0,831)

P (A): Es la sumatoria de las probabilidades conjuntas de


la fila de grado once con matricula oficial y no oficia, es
decir, la probabilidad marginal del grado 11 (0,0473+0,0114)

Entonces:

(0,057)(0,831)
P (B|A) = = 0,8069
0,0473 + 0,0114

También podría gustarte