Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Brayner Osorio - 1004627572, Sebastián López - 1193519435, Sara Marı́a Perdomo - 1088350476
Facultad de Ingenierı́as
Programa de Ingenierı́a Eléctrica
Universidad Tecnológica de Pereira
Resumen—En este informe se hará un análisis estadı́stico a En el momento que se tenga la base de datos se procede al
la base de datos de los estudiantes que ingresaron de manera análisis estadı́stico el cual permite extraer la información que
gratuita y no gratuita en el año 2019 desde primero hasta once. requiere el observador [3].
A esta base de datos se le calcularán estimadores como la media,
la desviación estándar, el coeficiente de asimetrı́a de Fisher y
coeficiente de homogeneidad. Además, se hará una prueba de II. D ESCRIPCI ÓN DE LA BASE DE DATOS
independencia mediante el método de Chi cuadrado, esta prueba En este caso se hará el análisis estadı́stico de la base de
se implementará a las dos variables de la base de datos, es
decir, los estudiantes que ingresaron pagando (variable 1) y datos de los estudiantes con matriculas oficiales (estudiantes
estudiantes que ingresaron gratis (variable 2). Por último, a estas que pagan la matricula) y no oficiales (estudiantes que no
dos variables se les calculará una probabilidad conjunta, una pagan la matricula) que ingresaron en el 2019 desde primero
condicional, una marginal y se aplicará el teorema de Bayes. hasta once, esta base de datos se obtuvo del Ministerio de Edu-
Palabras clave—Análisis estadı́stico, Coeficiente de asimetrı́a cación (link: http://bi.mineducacion.gov.co:8380/eportal/web/
de Fisher, Chi cuadrado, Teorema de Bayes. planeacion-basica/grado1).
Abstract—In this report, a statistical analysis will be made of Para este análisis estadı́stico solo se tendrá en cuenta la
the database of students who entered for free and not free in información de primaria y secundaria, es decir, los datos desde
2019 from first to eleven. Estimators such as the mean, standard primero hasta once, la otra información para esta práctica será
deviation, Fisher’s coefficient of skewness will be calculated
from this database and homogeneity coefficient. In addition, an irrelevante. La base de datos de las dos variables se pueden
independence test will be done using the Chi square method, this observar en las Figuras 1 y 2, siendo la Figura 1 los datos de
test will be implemented to the two variables of the database, las Matriculas oficiales y la Figura 2 los datos de las Matriculas
that is, the students who entered free (variable 1) and students no oficiales.
who entered paying (variable 2). Finally, a joint probability, a
joint probability, a marginal one will be calculated for these two
variables, Bayes theorem will be applied and the histograms will III. P ROCEDIMIENTO
be displayed. A. Análisis estadı́stico.
Index Terms—Statistical analysis, Fisher’s coefficient of skew- El análisis estadı́stico que se hará en está base de datos
ness, Chi square, Bayes theorem. es el siguiente: se hallará la media, la desviación estándar,
el coeficiente de asimetrı́a de Fisher y el coeficiente de
I. M ARCO TE ÓRICO homogeneidad.
Para poder realizar el análisis estadı́stico se necesita tener 1) La Media: Indica el valor promedio de los datos y
una base de datos, es decir, un conjunto de información (un es el valor con mayor concentración de probabilidad, la
conjunto de datos) relacionada que se encuentra agrupada o media también se conoce con el nombre del primer momento
estructurada [1]. Las bases de datos surgieron principalmente estadı́stico y está dada por:
por la dificultad en el acceso a los datos, es decir, era difı́cil
que el usuario encontrara rápidamente un dato en especial [2]. N
1 X
x̄ = xi
ESTADÍSTICA Y PROBABILIDAD, UTP N i=1
PROYECTO FINAL, DICIEMBRE DE 2021 2
xi : Valor de la variable
x̄ : Valor de la media
Cuadro II
VALOR DE LA DESVIACI ÓN EST ÁNDAR DE LAS DOS VARIABLES .
VARIANZA MUESTRAL
MATRICULAS MATRICULAS NO
OFICIALES OFICIALES
12.321.390.349 435.526.267
N
1 X
Figura 2. Matriculas oficiales con su media muestral. CAF = (xi − x̄)3
N σ̂ 3 i=1
Donde:
Donde: N : Cantidad de datos de la base en este caso N = 11
N : Cantidad de datos de la base en este caso N = 11 xi : Valor de la variable
xi : Valor de la variable x̄ : Valor de la media
σ : Valor de la desviación tı́pica muestral
El resultado obtenido de la media de las dos variables de
esta base de datos se puede observar en el Cuadro I. El resultado obtenido del coeficiente de asimetrı́a de Fisher
de las dos variables de esta base de datos se puede detallar en
Cuadro I el Cuadro III.
VALOR DE LA MEDIA DE LAS DOS VARIABLES DE LA BASE DE DATOS .
Cuadro III
PROMEDIO MATRICULAS PROMEDIO MATRICULAS VALOR DEL COEFICIENTE DE ASIMETR ÍA DE F ISHER DE LAS DOS
OFICIALES NO OFICIALES VARIABLES .
633.916 128.646
COEFICIENTE DE ASIMETRÍA
MATRICULAS MATRICULAS NO
2) La desviación estándar: Indica la distancia promedio OFICIALES OFICIALES
entre las muestras y la media y está dada por: -0,897243452 -0,342467237
dispersos y en gran parte por debajo de la media. Por otro B. Prueba de independencia.
lado, el coeficiente de asimetrı́a de Fisher de las matriculas
no oficiales dio un resultado negativo pero cercano a cero Esta prueba de independencia se aplica sobre las dos
(-0.3424), lo que significa que las muestras no están tan variables de la base de datos, matriculas oficiales y no
alejadas con respecto al valor de la media y los datos por oficiales (variable 1) y nivel educativo (variable 2). Esto se
debajo de ella son los más alejados, esto se puede detallar en hace con el fin de saber si estas dos variables son dependientes
la Figura 1 donde se ve que los datos no son muy dispersos o no, según el test. Para saber esto se utiliza el método de
(cercanos a la media) y están más alejados por debajo del Chi cuadrado.
valor de la media muestral.
1) Chi cuadrado: Sirve para determinar la independencia
4) Homogeneidad: Mide cuán achatada está la curva o o dependencia entre dos variables.
distribución, es decir, indica la cantidad de datos que hay En este caso para determinar la dependencia o independen-
cercanos a la media y está dada por: cia entre la variable de matricula oficiales y no oficiales y,
el nivel educativo que son dos grupos. El grupo 1 se llama
PN primaria y es la información desde primero hasta quinto, y el
1 i=1 (xi − x̄)4 grupo 2 se llama secundaria y son los datos desde sexto hasta
CH = K − 1 = −1
N −1 σ̂ 4 once, en el Cuadro V y VI se puede observar esto mucho
mejor.
Donde: Nótese que en el Cuadro VII tiene dos columnas que
N : Cantidad de datos de la base en este caso N = 11 son matriculas oficiales esperadas y matriculas no oficiales
xi : Valor de la variable esperadas y estas se calcularon de la siguiente manera:
x̄ : Valor de la media
σ : Valor de la desviación tı́pica muestral
σ1 < σ2 < σ3
Con esto también podemos afirmar que: 4231223 ∗ 6973078
e2,1 = = 3517404, 657
k1 < k2 < k3 8388187
Cuadro IV
VALOR DE LA HOMOGENEIDAD DE LAS DOS VARIABLES .
Cuadro V
HOMOGENEIDAD I NFORMACI ÓN DE LA BASE DE DATOS
MATRICULAS MATRICULAS NO
OFICIALES OFICIALES GRADO MATRICULAS OFICIALES MATRICULAS NO OFICIALES
0 -1 ONCE 396.770 95.640
DÉCIMO 480.746 97.194
NOVENO 544.628 108.847
En el Cuadro IV se puede observar que CH = 0, por lo OCTAVO 624.205 116.305
tanto k =1, esto significa que para los estudiantes con matricula SÉPTIMO 712.693 123.977
oficiales los datos no tienen valores atı́picos, esto da confianza SEXTO 801.625 128.593
QUINTO 678.220 143.907
en los datos obtenidos por la base de datos, lo mismo se puede CUARTO 670.403 145.423
decir de los estudiantes con matricula no oficiales que el CH TERCERO 669.865 147.953
= -1 por lo tanto k = 0 son datos que se acercan mucho a su SEGUNDO 675.733 151.395
media y con muy baja probabilidad de un dato erróneo. PRIMERO 718.190 155.875
PROYECTO FINAL, DICIEMBRE DE 2021 4
Cuadro XI
P (AB) P (B ∩ A) T EOREMA DE BAYES .
P (B|A) = =
P (A) P (A)
TEOREMA DE BAYES
0,8069
Donde:
A : Evento de estar en un grado. IV. C ONCLUSIONES
B : Evento de pertenecer a las matriculas oficiales. • Se logró hacer un análisis estadı́stico detallado a la base
de datos de los estudiantes que ingresaron con matricula oficial
y no oficial en el año 2019 desde grado primero hasta once, en
Cuadro X
C UADRO DE PROBABILIDAD CONDICIONAL .
donde se calcularon estimadores como la media, la desviación
estándar, el coeficiente de asimetrı́a de Fisher, el cual indicó
PROBABILIDAD PROBABILIDAD que los datos son asimétricos a la derecha, es decir, que los
GRADO CONDICIONAL CONDICIONAL
OFICIALES NO OFICIALES datos en su gran mayorı́a están por debajo de la media en
ONCE 0,057 0,068 las matriculas oficiales y no oficiales, además, se calculó el
DÉCIMO 0,069 0,069 coeficiente de homogeneidad en donde se comprobó que la
NOVENO 0,078 0,077 base de datos no tiene valores atı́picos.
OCTAVO 0,090 0,082
SÉPTIMO 0,102 0,088
• Se implementó la prueba de independencia mediante el
SEXTO 0,115 0,091 método de Chi cuadrado, en donde se puedo afirmar que las
QUINTO 0,097 0,102 variables son independientes con un 99,5 % de confiabilidad,
CUARTO 0,096 0,103 es decir, se demostró que para que un estudiante tenga matri-
TERCERO 0,096 0,105
SEGUNDO 0,097 0,107 cula oficial o no oficial no dependerá del nivel educativo en
PRIMERO 0,103 0,110 el que esté.
• Se calcularon las probabilidades conjuntas, las
Por ejemplo, la probabilidad condicional de que esté en condicionales y las marginales de las matriculas oficiales y no
grado 11 dado que pertenece a las matriculas oficiales, en oficiales y, se aplicó el teorema de Bayes donde se demostró
donde las matriculas oficiales totales son 6937078. que la probabilidad de pertenecer a las matriculas oficiales
dado que está en grado 11 es más alta que la probabilidad de
396770 pertenecer a las matriculas no oficiales.
P (A|B) = = 0,057
6973078
Las otras probabilidades condicionales se pueden observar
en el Cuadro X. R EFERENCIAS
[1] Córdova Alarcón, M. A., Escobar Erazo, T. E., Haro Haro, E. R., Mena
Campaña, R. E., Merino Castillo, V. M. Estadı́stica básica I.
5) Teorema de Bayes: Sirve para calcular la probabilidad [2] de Datos, B. (2012). Bases de datos. Gestión, 6(7), 9.
de un suceso anterior, condicionado a un suceso posterior y [3] Ya-Lun, C. (1977). Análisis estadı́stico. Copyright Under The Interna-
se define como: tional Copyright Union.
[4] Planeación básica de estudiantes oficiales y no oficiales. (2019). Base
de datos. Ministerio de Educación
P (B|A)P (A)
P (A|B) =
P (B)
Por ejemplo, la probabilidad de pertenecer a las matriculas
oficiales dado que está en grado 11 es:
Entonces:
(0,057)(0,831)
P (B|A) = = 0,8069
0,0473 + 0,0114