Proyecto Final de Estadística

PROYECTO FINAL, DICIEMBRE DE 2021 1
TRABAJO FINAL DE ESTADÍSTICA Y

PROBABILIDAD
ANÁLISIS ESTADÍSTICO A LOS
ESTUDIANTES INGRESADOS EN EL 2019
DESDE PRIMARIA HASTA BACHILLERATO
Profesor: Cristian Alfonso Jimenez Castaño
Brayner Osorio - 1004627572, Sebastián López - 1193519435, Sara Marı́a Perdomo - 1088350476
Facultad de Ingenierı́as
Programa de Ingenierı́a Eléctrica
Universidad Tecnológica de Pereira
Resumen—En este informe se hará un análisis estadı́stico a En el momento que se tenga la base de datos se procede al
la base de datos de los estudiantes que ingresaron de manera análisis estadı́stico el cual permite extraer la información que
gratuita y no gratuita en el año 2019 desde primero hasta once. requiere el observador [3].
A esta base de datos se le calcularán estimadores como la media,
la desviación estándar, el coeficiente de asimetrı́a de Fisher y
coeficiente de homogeneidad. Además, se hará una prueba de II. D ESCRIPCI ÓN DE LA BASE DE DATOS
independencia mediante el método de Chi cuadrado, esta prueba En este caso se hará el análisis estadı́stico de la base de
se implementará a las dos variables de la base de datos, es
decir, los estudiantes que ingresaron pagando (variable 1) y datos de los estudiantes con matriculas oficiales (estudiantes
estudiantes que ingresaron gratis (variable 2). Por último, a estas que pagan la matricula) y no oficiales (estudiantes que no
dos variables se les calculará una probabilidad conjunta, una pagan la matricula) que ingresaron en el 2019 desde primero
condicional, una marginal y se aplicará el teorema de Bayes. hasta once, esta base de datos se obtuvo del Ministerio de Edu-
Palabras clave—Análisis estadı́stico, Coeficiente de asimetrı́a cación (link: http://bi.mineducacion.gov.co:8380/eportal/web/
de Fisher, Chi cuadrado, Teorema de Bayes. planeacion-basica/grado1).
Abstract—In this report, a statistical analysis will be made of Para este análisis estadı́stico solo se tendrá en cuenta la
the database of students who entered for free and not free in información de primaria y secundaria, es decir, los datos desde
2019 from first to eleven. Estimators such as the mean, standard primero hasta once, la otra información para esta práctica será
deviation, Fisher’s coefficient of skewness will be calculated
from this database and homogeneity coefficient. In addition, an irrelevante. La base de datos de las dos variables se pueden
independence test will be done using the Chi square method, this observar en las Figuras 1 y 2, siendo la Figura 1 los datos de
test will be implemented to the two variables of the database, las Matriculas oficiales y la Figura 2 los datos de las Matriculas
that is, the students who entered free (variable 1) and students no oficiales.
who entered paying (variable 2). Finally, a joint probability, a
joint probability, a marginal one will be calculated for these two
variables, Bayes theorem will be applied and the histograms will III. P ROCEDIMIENTO
be displayed. A. Análisis estadı́stico.
Index Terms—Statistical analysis, Fisher’s coefficient of skew- El análisis estadı́stico que se hará en está base de datos
ness, Chi square, Bayes theorem. es el siguiente: se hallará la media, la desviación estándar,
el coeficiente de asimetrı́a de Fisher y el coeficiente de
I. M ARCO TE ÓRICO homogeneidad.
Para poder realizar el análisis estadı́stico se necesita tener 1) La Media: Indica el valor promedio de los datos y
una base de datos, es decir, un conjunto de información (un es el valor con mayor concentración de probabilidad, la
conjunto de datos) relacionada que se encuentra agrupada o media también se conoce con el nombre del primer momento
estructurada [1]. Las bases de datos surgieron principalmente estadı́stico y está dada por:
por la dificultad en el acceso a los datos, es decir, era difı́cil
que el usuario encontrara rápidamente un dato en especial [2]. N
1 X
x̄ = xi
ESTADÍSTICA Y PROBABILIDAD, UTP N i=1
xi : Valor de la variable
x̄ : Valor de la media
El resultado obtenido de la desviación estándar de las dos

variables de esta base de datos se puede observar en el Cuadro
II.
Cuadro II
VALOR DE LA DESVIACI ÓN EST ÁNDAR DE LAS DOS VARIABLES .
VARIANZA MUESTRAL
MATRICULAS MATRICULAS NO
OFICIALES OFICIALES
12.321.390.349 435.526.267
Nótese que en el Cuadro II, se puede ver que la desviación

estándar de las matriculas oficiales dio un resultado muy
Figura 1. Matriculas no oficiales con su media muestral.
grande (12321390349) con respecto a la media (633916),
esto quiere decir que las muestras están muy alejadas de
la media y esto se puede observar en la Figura 2 donde
se ve que los datos son muy dispersos. Por otro lado,
la desviación estándar de las matriculas no oficiales dio
un resultado más pequeño (435526267) con respecto a
la media (128646), esto quiere decir que las muestras
no están tan alejadas de la media y esto se puede observar
en la Figura 1 donde se ve que los datos no son muy dispersos.
3) Coeficiente de asimetrı́a de Fisher: Indica la simetrı́a

de la distribución respecto a la media muestral, es decir,
denota si la mayorı́a de los datos están por encima o por
debajo de media y, está dada por:
N
1 X
Figura 2. Matriculas oficiales con su media muestral. CAF = (xi − x̄)3
N σ̂ 3 i=1
Donde:
Donde: N : Cantidad de datos de la base en este caso N = 11
N : Cantidad de datos de la base en este caso N = 11 xi : Valor de la variable
xi : Valor de la variable x̄ : Valor de la media
σ : Valor de la desviación tı́pica muestral
El resultado obtenido de la media de las dos variables de
esta base de datos se puede observar en el Cuadro I. El resultado obtenido del coeficiente de asimetrı́a de Fisher
de las dos variables de esta base de datos se puede detallar en
Cuadro I el Cuadro III.
VALOR DE LA MEDIA DE LAS DOS VARIABLES DE LA BASE DE DATOS .
Cuadro III
PROMEDIO MATRICULAS PROMEDIO MATRICULAS VALOR DEL COEFICIENTE DE ASIMETR ÍA DE F ISHER DE LAS DOS
OFICIALES NO OFICIALES VARIABLES .
633.916 128.646
COEFICIENTE DE ASIMETRÍA
2) La desviación estándar: Indica la distancia promedio OFICIALES OFICIALES
entre las muestras y la media y está dada por: -0,897243452 -0,342467237
N En el Cuadro III se observa que el coeficiente de asimetrı́a

2 1 X de Fisher de las matriculas oficiales dio un resultado negativo
σ̂ = (xi − x̄)2
N − 1 i=1 y cercano a -1 (-0.8972), esto quiere decir que las muestras
están muy alejadas con respecto a la media y en su gran
Donde: mayorı́a los datos están por debajo de ella, esto se puede
N : Cantidad de datos de la base en este caso N = 11 observar en la Figura 2 donde se ve que los datos son muy
dispersos y en gran parte por debajo de la media. Por otro B. Prueba de independencia.
lado, el coeficiente de asimetrı́a de Fisher de las matriculas
no oficiales dio un resultado negativo pero cercano a cero Esta prueba de independencia se aplica sobre las dos
(-0.3424), lo que significa que las muestras no están tan variables de la base de datos, matriculas oficiales y no
alejadas con respecto al valor de la media y los datos por oficiales (variable 1) y nivel educativo (variable 2). Esto se
debajo de ella son los más alejados, esto se puede detallar en hace con el fin de saber si estas dos variables son dependientes
la Figura 1 donde se ve que los datos no son muy dispersos o no, según el test. Para saber esto se utiliza el método de
(cercanos a la media) y están más alejados por debajo del Chi cuadrado.
valor de la media muestral.
1) Chi cuadrado: Sirve para determinar la independencia
4) Homogeneidad: Mide cuán achatada está la curva o o dependencia entre dos variables.
distribución, es decir, indica la cantidad de datos que hay En este caso para determinar la dependencia o independen-
cercanos a la media y está dada por: cia entre la variable de matricula oficiales y no oficiales y,
el nivel educativo que son dos grupos. El grupo 1 se llama
PN primaria y es la información desde primero hasta quinto, y el
1 i=1 (xi − x̄)4 grupo 2 se llama secundaria y son los datos desde sexto hasta
CH = K − 1 = −1
N −1 σ̂ 4 once, en el Cuadro V y VI se puede observar esto mucho
mejor.
Donde: Nótese que en el Cuadro VII tiene dos columnas que
N : Cantidad de datos de la base en este caso N = 11 son matriculas oficiales esperadas y matriculas no oficiales
xi : Valor de la variable esperadas y estas se calcularon de la siguiente manera:
x̄ : Valor de la media
σ : Valor de la desviación tı́pica muestral
Cabe aclarar que si k > 7 ó ≈ 7 existen atı́picos (outliers), 4156964 ∗ 6973078

e1,1 = = 3455673, 343
es decir, valores que no concuerdan con la medición, si la 8388187
media se mueve por un dato erróneo de medición, también se
mueve la varianza, esto crea un desplazamiento en la gráfica, si
hablamos de una distribución normal existen 3 tipos de gráficas
como lo son la leptocúrtica (σ1 ), mesocúrtica (σ2 ), platicúrtica 4156964 ∗ 1415109
e1,2 = = 701290, 6566
(σ3 ). 8388187
σ1 < σ2 < σ3
Con esto también podemos afirmar que: 4231223 ∗ 6973078
e2,1 = = 3517404, 657
k1 < k2 < k3 8388187
Entre mas pequeño sigma mas pequeño sera los valores

atı́picos y esto da mas confiabilidad en los datos tomados.
4231223 ∗ 1415109
El resultado obtenido de la homogeneidad de las dos va- e2,2 = = 713818, 3434
8388187
riables de esta base de datos se puede detallar en el Cuadro
IV.
Cuadro IV
VALOR DE LA HOMOGENEIDAD DE LAS DOS VARIABLES .
Cuadro V
HOMOGENEIDAD I NFORMACI ÓN DE LA BASE DE DATOS
OFICIALES OFICIALES GRADO MATRICULAS OFICIALES MATRICULAS NO OFICIALES
0 -1 ONCE 396.770 95.640
DÉCIMO 480.746 97.194
NOVENO 544.628 108.847
En el Cuadro IV se puede observar que CH = 0, por lo OCTAVO 624.205 116.305
tanto k =1, esto significa que para los estudiantes con matricula SÉPTIMO 712.693 123.977
oficiales los datos no tienen valores atı́picos, esto da confianza SEXTO 801.625 128.593
QUINTO 678.220 143.907
en los datos obtenidos por la base de datos, lo mismo se puede CUARTO 670.403 145.423
decir de los estudiantes con matricula no oficiales que el CH TERCERO 669.865 147.953
= -1 por lo tanto k = 0 son datos que se acercan mucho a su SEGUNDO 675.733 151.395
media y con muy baja probabilidad de un dato erróneo. PRIMERO 718.190 155.875
Cuadro VI Cuadro VIII

INFORMACI ÓN DE LA BASE DE DATOS DE LAS DOS C UADRO DE PROBABILIDADES .
VARIABLES DESDE PRIMERO HASTA ONCE DIVIDIDA EN DOS
GRUPOS. PROBABILIDAD PROBABILIDAD
GRADO CONJUNTA CONJUNTA
MATRICULAS MATRICULAS TOTAL OFICIALES NO OFICIALES
OFICIALES NO OFICIALES FILAS ONCE 0,0473 0,0114
PRIMARIA 3.412.411 744.553 4.156.964 DÉCIMO 0,0573 0,0116
SECUNDARIA 3.560.667 670.556 4.231.223 NOVENO 0,0649 0,0130
TOTAL OCTAVO 0,0744 0,0139
6.973.078 1.415.109 8.388.187
COLUMNAS SÉPTIMO 0,0850 0,0148
SEXTO 0,0956 0,0153
QUINTO 0,0809 0,0172
CUARTO 0,0799 0,0173
Cuadro VII TERCERO 0,0799 0,0176
VALORES ESPERADOS DE LAS 2 VARIABLES ANTERIORES . SEGUNDO 0,0806 0,0180
PRIMERO 0,0856 0,0186
MATRICULAS MATRICULAS
OFICIALES NO OFICIALES
ESPERADAS ESPERADAS 2) Probabilidad conjunta: Es la probabilidad sobre el
3455673,343 701290,66 experimento total.
3517404,657 713818,34
En el Cuadro VIII, se observa las dos columnas de pro-
Luego, con estos datos se calcula el coeficiente Chi cuadra- babilidades conjuntas, una de los estudiantes con matricula
do (x2 ), ası́: oficial y la otra con matricula no oficial. Esto se calcula
con base a los estudiantes totales que son 8388187. Por
X X (oij − eij )2 ejemplo, la probabilidad conjunta de matriculas oficiales para
x2 = los estudiantes de once se calcula ası́:
i j
eij
396770
P = = 0, 047
Donde: 8388187
oij : Son los valores observados, es decir, los valores de las Y ası́ sucesivamente con los otros datos. De esta manera
columnas de las matriculas oficiales y no oficiales y de las se obtiene la probabilidad conjunta en este experimento.
filas de primaria y secundaria
3) Probabilidad marginal: Es la probabilidad sobre un
2 evento en particular de alguno de los sub-experimentos.
Por ende, el x = 6364, 5514
Y los grados de libertad (v) en esta prueba son:

Cuadro IX
C UADRO DE PROBABILIDAD MARGINAL .
v = (def ilas − 1)(decolumnas − 1) = (2 − 1)(2 − 1) GRADO PROBABILIDAD MARGINAL

ONCE 0,0587
v=1 DÉCIMO 0,0689
NOVENO 0,0779
OCTAVO 0,0883
En esta prueba se quiere un 99,5 % de confianza, por lo SÉPTIMO 0,0997
tanto, PV alue = 0,5 % = 0, 005. SEXTO 0,1109
QUINTO 0,0980
CUARTO 0,0973
De la tabla estadı́stica se obtiene que para P = 0,5 % TERCERO 0,0975
de inconfiabilidad y un grado de libertad (v = 1), el SEGUNDO 0,0986
PRIMERO 0,1042
xcrı́tico2 =7,8794 (link de la tabla: http://labrad.fisica.edu.uy/
docs/tabla chi cuadrado.pdf)
Si x2 > xcrı́tico2 las sos variables son independientes, ya Nuevamente en el Cuadro IX, se puede observar, las
que se rechaza HO . Entonces: probabilidades sobre un evento en particular. Por ejemplo, la
probabilidad de las matriculas oficiales y no oficiales en grado
once es del 0, 0587 ya que es la suma de la probabilidad
6364, 5514 > 7,8794 conjunta de las matriculas oficiales y no oficiales en grado
once. La probabilidad marginal en el grado noveno es del
Dado que sı́ es mayor, el HO se rechaza y se puede 0, 0779 y ası́ sucesivamente para cualquier otro evento.
afirmar que las variables son independientes con un 99,5 % de
confiabilidad, es decir, para que un estudiante tenga matricula 4) Probabilidad condicional: Indica la probabilidad de
oficial o no oficial no va depender del nivel educativo en el ocurrencia de un evento B ∈ S2 que depende de la ocurrencia
que esté. del evento relacionado A ∈ S1 y se define como:
Cuadro XI
P (AB) P (B ∩ A) T EOREMA DE BAYES .
P (B|A) = =
P (A) P (A)
TEOREMA DE BAYES
0,8069
Donde:
A : Evento de estar en un grado. IV. C ONCLUSIONES
B : Evento de pertenecer a las matriculas oficiales. • Se logró hacer un análisis estadı́stico detallado a la base
de datos de los estudiantes que ingresaron con matricula oficial
y no oficial en el año 2019 desde grado primero hasta once, en
Cuadro X
C UADRO DE PROBABILIDAD CONDICIONAL .
donde se calcularon estimadores como la media, la desviación
estándar, el coeficiente de asimetrı́a de Fisher, el cual indicó
PROBABILIDAD PROBABILIDAD que los datos son asimétricos a la derecha, es decir, que los
GRADO CONDICIONAL CONDICIONAL
OFICIALES NO OFICIALES datos en su gran mayorı́a están por debajo de la media en
ONCE 0,057 0,068 las matriculas oficiales y no oficiales, además, se calculó el
DÉCIMO 0,069 0,069 coeficiente de homogeneidad en donde se comprobó que la
NOVENO 0,078 0,077 base de datos no tiene valores atı́picos.
OCTAVO 0,090 0,082
SÉPTIMO 0,102 0,088
• Se implementó la prueba de independencia mediante el
SEXTO 0,115 0,091 método de Chi cuadrado, en donde se puedo afirmar que las
QUINTO 0,097 0,102 variables son independientes con un 99,5 % de confiabilidad,
CUARTO 0,096 0,103 es decir, se demostró que para que un estudiante tenga matri-
TERCERO 0,096 0,105
SEGUNDO 0,097 0,107 cula oficial o no oficial no dependerá del nivel educativo en
PRIMERO 0,103 0,110 el que esté.
• Se calcularon las probabilidades conjuntas, las
Por ejemplo, la probabilidad condicional de que esté en condicionales y las marginales de las matriculas oficiales y no
grado 11 dado que pertenece a las matriculas oficiales, en oficiales y, se aplicó el teorema de Bayes donde se demostró
donde las matriculas oficiales totales son 6937078. que la probabilidad de pertenecer a las matriculas oficiales
dado que está en grado 11 es más alta que la probabilidad de
396770 pertenecer a las matriculas no oficiales.
P (A|B) = = 0,057
6973078
Las otras probabilidades condicionales se pueden observar
en el Cuadro X. R EFERENCIAS
[1] Córdova Alarcón, M. A., Escobar Erazo, T. E., Haro Haro, E. R., Mena
Campaña, R. E., Merino Castillo, V. M. Estadı́stica básica I.
5) Teorema de Bayes: Sirve para calcular la probabilidad [2] de Datos, B. (2012). Bases de datos. Gestión, 6(7), 9.
de un suceso anterior, condicionado a un suceso posterior y [3] Ya-Lun, C. (1977). Análisis estadı́stico. Copyright Under The Interna-
se define como: tional Copyright Union.
[4] Planeación básica de estudiantes oficiales y no oficiales. (2019). Base
de datos. Ministerio de Educación
P (B|A)P (A)
P (A|B) =
P (B)
Por ejemplo, la probabilidad de pertenecer a las matriculas
oficiales dado que está en grado 11 es:
P (A|B):Es la probabilidad condicional de que esté en

grado 11 dado que pertenece a las matriculas oficiales (0, 057)
P (B): Es la sumatoria de las probabilidades conjuntas de

las matriculas oficiales, es decir, la probabilidad marginal de
las matriculas oficiales (0,831)
P (A): Es la sumatoria de las probabilidades conjuntas de

la fila de grado once con matricula oficial y no oficia, es
decir, la probabilidad marginal del grado 11 (0,0473+0,0114)
Entonces:
(0,057)(0,831)
P (B|A) = = 0,8069
0,0473 + 0,0114

Proyecto Final de Estadística

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Proyecto Final de Estadística

Cargado por

Copyright:

Formatos disponibles

PROYECTO FINAL, DICIEMBRE DE 2021 1

TRABAJO FINAL DE ESTADÍSTICA Y

El resultado obtenido de la desviación estándar de las dos

Nótese que en el Cuadro II, se puede ver que la desviación

3) Coeficiente de asimetrı́a de Fisher: Indica la simetrı́a

N En el Cuadro III se observa que el coeficiente de asimetrı́a

Cabe aclarar que si k > 7 ó ≈ 7 existen atı́picos (outliers), 4156964 ∗ 6973078

Entre mas pequeño sigma mas pequeño sera los valores

Cuadro VI Cuadro VIII

Y los grados de libertad (v) en esta prueba son:

v = (def ilas − 1)(decolumnas − 1) = (2 − 1)(2 − 1) GRADO PROBABILIDAD MARGINAL

P (A|B):Es la probabilidad condicional de que esté en

P (B): Es la sumatoria de las probabilidades conjuntas de

P (A): Es la sumatoria de las probabilidades conjuntas de

También podría gustarte