Documentos de Académico
Documentos de Profesional
Documentos de Cultura
FACULTAD DE INGENIERÍA
ANÁLISIS ESTADÍSTICO
DOCENTE
PRESENTADO POR
Bogotá DC
2019
CONTENIDO
Pág.
1. Introducció n 3
2. Resumen: 3
Palabras clave: 4
Abstract: 4
3. Objetivos 4
Objetivo general. 4
Objetivos específicos. 4
4. MARCO TEÓ RICO 4
Métodos estadísticos: 5
Aplicaciones de la Estadística 5
5. RESULTADOS 5
6. ANÁ LISIS DE RESULTADOS 7
Aná lisis de los datos género 8
Aná lisis de los datos edad 9
Aná lisis de los datos RH 11
Aná lisis de los datos localidad 12
Aná lisis de los datos peso 14
Aná lisis de los datos ingreso semanal 15
Aná lisis de los datos tiempo que gasta en una actividad 18
Aná lisis de los datos índice de satisfacció n 20
7. CONCLUSIONES 22
8. BIBLIOGRAFÍA 22
1. INTRODUCCIÓN
2. RESUMEN
En este trabajo vamos a utilizar algunas nociones teó ricas desarrolladas en clase
de estadística y probabilidad y estadística inferencial, que nos van a resultar de
utilidad para analizar las grá ficas y demá s datos arrojados acerca de una muestra
de 284 personas sacada de una població n de un total de 1080 personas, con datos
como facultad, peso, edad, sexo, etc. Ademá s, estos datos obtenidos van a ser de
gran ayuda a la hora de analizar y describir el comportamiento de cada variable,
para una vez tener todos los cá lculos, dar predicciones y posibles soluciones.
Abstract: In this paper we will use some theoretical notions developed in statistics
and probability class and inferential statistics, which will be useful to analyze the
graphs and other data thrown about a sample of 284 people taken from a
population of a total of 1080 people, with data such as faculty, weight, age, sex, etc.
In addition, these data obtained will be of great help when analyzing and
describing the behavior of each variable, for once having all the calculations, giving
predictions and possible solutions.
In our work, we will talk about all the calculations made in Excel and we propose
predictions and conclusions whose purpose is to decide the optimal size of the
sample, estimate the confidence interval, and thus obtain the results of the sample
to estimate the values of the entire population more easily. Our interest focuses on
the practice of us as students to solve, first the mathematical problem that is based
on performing all the necessary calculations, and then the analysis or
interpretation that can be given to said sample, and specifically in its preparation
and interpretation of graphics for the seizure taking.
Keywords: Statistical analysis, variables, sample, population, graphics,
interpretation, prediction, solution, calculations.
3. OBJETIVOS
Objetivo general:
● Realizar el aná lisis de una base de datos, con ayuda de una muestra de 284
personas, sacada con ayuda de la fó rmula de tamañ o ó ptimo, por medio de
todo lo visto en clase sobre comprensió n de grá ficas estadísticas, datos
arrojados por las fó rmulas, tamañ o ó ptimo de la muestra e intervalos de
confianza para al finalizar dar algunas conclusiones acerca del
comportamiento de toda la població n.
Objetivos específicos:
● Escoger de una població n de 1080 personas una muestra de 284 personas
para realizar las estimaciones correspondientes, este tamañ o se obtuvo,
escogiendo el mayor valor de los tamañ os ó ptimos de cada variable.
● Recordar có mo hacer un aná lisis estadístico en Excel.
● Recoger algunos grá ficos elaborados y analizarlos para ver en
comportamiento de cada variable.
● Observar las relaciones que existen entre las variables.
● Realizar conclusiones sobre el comportamiento de la base de datos.
4. MARCO TEÓRICO
Tamaño muestral:
El tamañ o muestral juega el mismo papel en estadística que el aumento de la lente
en microscopía: si no se ve una bacteria al microscopio, puede ocurrir que:
- La preparació n no la contenga
- El aumento de la lente sea insuficiente.
Para decidir el aumento adecuado hay que tener una idea del tamañ o del objeto.
Del mismo modo, para decidir el tamañ o muestral:
i) En un problema de estimació n hay que tener una idea de la magnitud a estimar y
del error aceptable.
ii) En un contraste de hipó tesis hay que saber el tamañ o del efecto que se quiere
ver.
Estimación de parámetros
En general, de las variables experimentales u observacionales no conocemos la fpd.
Podemos conocer la familia (normal, binomial,) pero no los pará metros.
Para calcularlos necesitaríamos tener todos los posibles valores de la variable, lo
que no es posible.
La inferencia estadística trata de có mo obtener informació n (inferir) sobre los
pará metros a partir de subconjuntos de valores (muestras) de la variable.
Estadístico: variable aleatoria que só lo depende de la muestra aleatoria elegida
para calcularla.
Estimación: Proceso por el que se trata de averiguar un pará metro de la població n
representado, en general, por q a partir del valor de un estadístico llamado
estimador y representado por
El problema se resuelve en base al conocimiento de la "distribució n muestral" del
estadístico que se use.
¿Qué es esto? Concretemos, p.e. en la media (m). Si para cada muestra posible
calculamos la media muestral ( ) obtenemos un valor distinto ( es un
estadístico: es una variable aleatoria y só lo depende de la muestra), habrá por
tanto una fpd para , llamada distribució n muestral de medias. La desviació n
típica de esta distribució n se denomina error típico de la media. Evidentemente,
habrá una distribució n muestral para cada estadístico, no só lo para la media, y en
consecuencia un error típico para cada estadístico.
Si la distribució n muestral de un estadístico estuviera relacionada con algú n
pará metro de interés, ese estadístico podría ser un estimador del pará metro.[1]
Aplicaciones de la Estadística
Son muchas las predicciones de tipo soció logo, o econó mico, que pueden hacerse a
partir de la aplicació n exclusiva de razonamientos probabilísticos a conjuntos de
datos objetivos como son, por ejemplo, los de naturaleza demográ fica.
5. RESULTADOS
A continuació n se presentan los resultados obtenidos con cada una de las variables
Tabla 3
Resultados Facultad
Administració 36,267605
n 103 6
32,042253
Ingeniería 91 5
31,690140 Resultados Libros leídos
Derecho 90 8
n 284
Tabla 1
Resultados genero
Hombre 165 58,10%
Mujer 119 41,90%
n 284
Tabla 2
Resultados Hermanos
Tabla 4
Resultados Calificaciones
Tabla 8
Tabla 5
Resultados trabajo Resultados estatura
Trabajan Cantidad
Si 104 36,6197183
No 180 63,3802817
n= 284
Tabla 6
Resultados Calificaciones Icfes
Tabla 9
Resultados peso en Kg
Tabla 7
Resultados edad
Tabla 10
6. ANÁLISIS DE RESULTADOS
● Diagrama de barras
Diagrama 1
● Diagrama de sectores
Diagrama 2
La variable del género que poseen las personas encuestadas, es una variable de
tipo cualitativa, se observa que la mayoría de las personas inscritas en esta
universidad son hombres, seguido de mujeres. Como se muestra a continuació n en
los diagramas 3, y 4.
● Diagrama de barras
Diagrama 3
● Diagrama de sectores
Diagrama 4
Con lo que respecta a la variable de nú mero de hermanos que posee cada una de
las personas de la muestra encuestada, se puede observar que la mayoría de las
personas no tiene ningú n hermano, el aná lisis de la moda nos indica que de las 284
personas encuestadas; 76 no posee ningú n hermano. El pertinente aná lisis nos
indica que los datos recolectados son heterogéneos puesto que el coeficiente de
variació n tiene un valor del 71,51%.
En esta distribució n existen muy pocos valores altos respecto a los demá s, puesto
que la media es mayor que mediana y la mediana mayor que la moda por
consiguiente se infiere que existe una asimetría positiva o distribució n con sesgo
positivo.
Como el valor obtenido en la curtosis es de -0.662 (véase tabla 3) entonces se
infiere que la distribució n es apuntada o leptocú rtica o existe una alta
concentració n de los datos.
En la tabla 3 se observa que la desviació n está ndar es de 3.770700 por lo tanto los
puntos está n lejos de la media.
Diagrama 5
El diagrama de caja y bigotes indica que no se encontraron valores atípicos de las
personas encuestadas, también muestra que el número mínimo de hermanos que
tienen las personas encuestadas es ninguno, y el máximo es de 12
● Diagrama de barras
Diagrama 6
En el diagrama de barras se evidencia que la mayoría de personas encuestadas
de la muestra no tiene ningú n numero de hermanos, por esto se dice que la
moda de la muestra es no tener hermanos con un valor de 76 personas, sin
embargo se encuentra también que varias de las personas tienen también 2 y 6
hermanos con 52 y 29 personas respectivamente, mientras que 7 y 12 hermanos
tienen la menos parte de los encuestados con un total de 2 y 1 persona.
● Diagrama de sectores
Diagrama 7
Con ayuda del diagrama de sectores se puede observar que el 26,76% de las
personas encuestadas de la muestra no tiene ningú n hermano, siendo el má s
comú n, seguido de esto el 18,3% de las personas que poseen dos hermanos, y
luego el 13,73% de las personas que tienen 3 hermanos, también se observa que
no existen personas encuestadas con 9, 11 o má s de doce hermanos.
Intervalo de confianza
Imagen 1.
Los limites inferior y superior del intervalo de confianza del 95% son 5,246741
y 5,2987504, respectivamente. Este resultado se interpreta como que los
intervalos obtenidos con este método al 95% contendrá n el verdadero valor
esperado de la media poblacional en la variable nú mero de hermanos.
4. Análisis de los datos número de libros leídos
Junto con esto se observa que existe una alta concentració n de los datos, puesto
que el valor de la curtosis es menor a 0, como se evidencia en la tabla 4. Aparte de
esto el coeficiente de variació n nos indica con un valor de 99,40% que los datos
son heterogéneos.
En la tabla 4 se muestra que la desviació n está ndar tiene un valor de 3,9571 por lo
tanto los puntos está n cercanos de la media, aparte de esto se observa un nivel de
confianza que muestra que el 2,5142 de la misma població n producirá n intervalos
de confianza que incluirá n el pará metro de població n.
Diagrama 8
El diagrama de caja y bigotes para la variable de libros leídos, muestra que existe
una asimetría a la derecha donde se evidencia que la mayoría de las personas lee
pocos libro, y el diagrama no muestra valores atípicos.
● Diagrama de barras
Diagrama 9
● Diagrama de sectores
Diagrama 10
El diagrama de sectores nos muestra los porcentajes de las personas que leen
cierto nú mero de libros, se evidencia que el 27,11% de las personas lee dos libros
al añ o, mientras que el 20,42% lee 6 libros, y el menor porcentaje es del 1,05% que
corresponde a solo 3 personas de las 284 encuestadas que leen 11 libros al añ o.
Intervalo de confianza
Imagen 2.
Los limites inferior y superior del intervalo de confianza del 95% son
5,72269004 y 5,77730996, respectivamente. Este resultado se interpreta como
que los intervalos obtenidos con este método al 95% contendrá n el verdadero
valor esperado de la media poblacional en la variable libros.
En los datos del promedio de calificació n de matemá ticas obtenida por los
encuestados, se observa que cumple una distribució n con sesgo positivo puesto
que existe una asimetría positiva porque los valores hallados para la media son
mayores que la mediana y la moda, como se puede observar en la tabla 5.
Ademá s de esto la distribució n tiene baja concentració n de datos es decir que es
platicú rtica porque su valor del coeficiente de variació n es de 0,28344897(mayor a
0).
Como se observa en el tabla 5, la desviació n está ndar posee un valor de 0,957326
al ser un valor pequeñ o los puntos de la variable se encuentran cerca de la media.
Los datos analizados son heterogéneos puesto que su coeficiente de variació n es
mayor a 25% y se acerca a la unidad como se observa en la tabla de aná lisis de
datos para dicha variable, por otro lado se puede observar que existe para esta
variable un nivel de confianza que muestra que el 3.33% de la misma població n
producirá n intervalos de confianza que incluirá n el pará metro de població n.
Diagrama 11
En el siguiente diagrama de caja y bigotes indica que el valor mínimo obtenido
por los encuetados e matemá ticas es de 1,6, y el má ximo es de 5 (el má s grande
posible), también se muestra que no hay valores atípicos. El rango intercuartil
de 1,55 deja ver que hay una buena distribució n de los datos.
Junto con esto se infiere que el 25% de los datos son menores o iguales a 2,6 y el
75% de los datos tienen valores iguales o menores a 4,15.
● Diagrama de barras
Diagrama 12
● Diagrama de sectores
Diagrama 13
Intervalo de confianza
Imagen 3
Los limites inferior y superior del intervalo de confianza del 95% son
3,37081246 y 3,38402625, respectivamente. Este resultado se interpreta como
que los intervalos obtenidos con este método al 95% contendrá n el verdadero
valor esperado de la media poblacional en la variable calificaciones matemá ticas.
● Diagrama de barras
Diagrama 14
El diagrama de barras no indica que de las 284 personas encuestadas de la
muestra la mayoría de ellas no cuenta con un trabajo actualmente con una
cantidad de 180 personas, mientras que el resto de las personas (104) si lo posee
actualmente.
● Diagrama de sectores
Diagrama 17
Diagrama 15
Para la variable de los datos obtenidos en la calificació n Icfes de cada una de las
personas encuestadas, se tomaron en cuanta los valores obtenidos en la tabla 7
mediante el respectivo calculo por la herramienta de Excel.
Se observa que existe una distribució n con muy pocos valores altos respecto a los
demá s, entonces la asimetría es a la derecha o asimetría positiva o distribució n con
sesgo positivo. En éstas condiciones: X>Me>Mo. Como se puede observar en el
diagrama 20.
El coeficiente de variació n muestra que los datos analizados son homogéneos
puesto que su valor es menor al 25% como se puede observar en la tabla nú mero 7
con un valor del 14%
Con respecto a la desviació n está ndar podemos observar que los puntos se
encuentran lejos de la media puesto que el valor que se observa en la tabla 7 es de
44,91
Existe un nivel de confianza del 5.24% que indica que este valor de la misma
població n producirá n intervalos de confianza que incluirá n el pará metro de
població n.
Diagrama 16
El diagrama de caja y bigotes del diagrama 19, indica los valores mínimos y máximos
obtenidos por las personas encuestadas en el examen Icfes, donde el menor puntaje
obtenido es de 240 puntos y el más alto es de 420 puntos, no se encuentran valores
atípicos en los datos obtenidos mediante las encuestas, el 25% y 75% de los datos se
encuentran en valores menores o iguales a 281,25 puntos y 367,5 puntos
respectivamente.
También se observa que los datos se encuentran con una buena distribución puesto
que el valor del rango intercuartil es de 86,25 puntos (un valor grande para el rango
de datos)
● Diagrama de barras
Diagrama 17
El diagrama de barras muestra que de las 284 personas encuestadas, la mayoría
de ellas tuvo un puntaje de 320 con 40 personas, por ende como se muestra en la
tabla 7 la moda es de 320, el puntaje menos comú n obtenido por los encuestados
es de 335 con un total de 2 personas, en el diagrama de barras observamos el
tipo de distribució n señ alado en la introducció n del aná lisis a esta variable.
Gráfica de sectores
Diagrama 18
Intervalo de confianza
Imagen 4
Los limites inferior y superior del intervalo de confianza del 95% son 318,31676
y 318,93677, respectivamente. Este resultado se interpreta como que los
intervalos obtenidos con este método al 95% contendrá n el verdadero valor
esperado de la media poblacional en la variable icfes.
Junto con esto se obtuvo que el valor de la curtosis es 0,14, por lo tanto la
distribució n es leptocú rtica y existe una alta concentració n de los datos.
Con respecto al coeficiente de variació n encontrado, se puede inferir que los datos
analizados son homogéneos puesto que se obtuvo un valor del 14,12% menor al
requerido (25%) para asegurar que lo son.
La desviació n está ndar al tener un valor pequeñ o; muestra que los datos está n
agrupados cerca de la media.
● Diagrama de barras
Diagrama 20
El diagrama de barras muestra que de las 284 personas encuestadas, 52
personas tienen 20 añ os (siendo este dato la moda de la variable edad), y la edad
menos comú n entre las personas encuestadas es de 25 añ os con 3 personas que
reportan esta edad, gracias al diagrama de barras se puede observar la
distribució n de los datos.
● Diagrama de sectores
Diagrama 21
El diagrama de sectores muestra el mayor porcentaje de los encuestados tiene
20 añ os, mientras que el resto de datos se encuentra distribuidos de manera
simétrica alrededor de la moda.
Intervalo de confianza
Imagen 5
Los limites inferior y superior del intervalo de confianza del 95% son
20,5813258 y 20,6369841, respectivamente. Este resultado se interpreta como
que los intervalos obtenidos con este método al 95% contendrá n el verdadero
valor esperado de la media poblacional en la variable edad.
Con lo que respecta a la variable de Estatura, se puede observar que existen muy
pocos valores bajos respecto a los demá s, entonces, la distribució n tiene sesgo
negativo. Puesto que cumple las condiciones donde la media es menor que la
mediana y esta menor que la moda, como se observa en los valores de la tabla 9
de los resultados.
Con respecto a la desviació n está ndar que tiene un valor de 7.5497 y al ser
pequeñ o indica que los puntos se encuentran agrupados cerca de la media de los
datos.
El 25% de los datos es menor o igual a 155,75 cm, y el 75% de los datos
obtenidos se encuentra en el rango de menor o igual a 172,5, el rango
intercuartil obtenido tiene un valor de 16,85 y este nos indica una buena
dispersió n de los datos.
Diagrama de barras
Diagrama 23
En el diagrama de barras podemos observar que existen dos estaturas que son
las má s comunes entre las personas encuestas, por ende las variable de estatura
es bimodal, siendo esta 168 cm y 165 con 28 personas cada una, también se
puede observar en el diagrama de barras la distribució n con sesgo negativo, y se
observa que las estaturas menos comunes entre las 284 personas encuestadas
son de 140, 183, 190.
Diagrama de sectores
Diagrama 24
Intervalo de confianza
Imagen 6
Los limites inferior y superior del intervalo de confianza del 95% son
166,233112 y 166,337311, respectivamente. Este resultado se interpreta como
que los intervalos obtenidos con este método al 95% contendrá n el verdadero
valor esperado de la media poblacional en la variable estatura.
Diagrama de barras
Diagrama 26
Diagrama de sectores
Diagrama 37
Intervalo de confianza
Imagen 7
Los limites inferior y superior del intervalo de confianza del 95% son
66,0601779 y 66,1863009, respectivamente. Este resultado se interpreta como
que los intervalos obtenidos con este método al 95% contendrá n el verdadero
valor esperado de la media poblacional en la variable peso.
Tabla 11
Según la tabla 11 podemos interpretar que las mujeres tienen un peso promedio
mayor que el de los hombres, con una diferencia de 10.4333588 kg, además de esto
podemos decir que el peso mínimo de hombres y mujeres es igual y por último que el
peso máximo que se evidencia en la muestra lo tiene una mujer con 88 kg.
Tabla 12
Según la tabla 12 que muestra la relación entre facultad y libros leídos podemos
concluir que en la muestra arroja que el mayor promedio de libros leídos se encuentra
en la facultad de derecho, seguido de la facultad de administración. Además, se
evidencia que en administración hay personas de la muestra que no leen libros y que
el máximo de libros leídos en todas las facultades es de 12.
Tabla 13
Tabla 14
Según la tabla 14 en promedio las mujeres son mas altas que los hombres con una
diferencia de 1,939, a la vez observamos que los hombres tienen un rango de estatura
mas alto que el de las mujeres, esto se debe a la dispersión de los datos, y para
finalizar observamos que la persona mas baja es una mujer con 140 cm y la persona
mas alta es un hombre con 190 cm.
Tabla 15
Según la tabla 15 la mínima calificación ICFES obtenida en la muestra es de 240 la
misma para todas las facultades y la máxima de 420 con el mismo comportamiento.
Según l tabla el promedio de calificaciones ICFES más alto se encuentra en la faculta
de derecho y el mas bajo es el de la facultad de ingeniería con una diferencia de
3.5169.
Tabla 16
Tabla 17
Tabla 18
Según la tabla 18 los hombres son los que mayor cantidad de personas que
actualmente trabajan con 165 personas, seguido de las mujeres con 119 personas.
Tabla 19
Según la tabla 18 en promedio las mujeres leen mas libros que los hombres con una
diferencia de 0,0861, sin embargo se observa que tanto los hombres como las mujeres
leen un máximo de 12 libros, y por ultimo se concluye que la persona que menos lee
libros es una mujer.
Tabla 20
Según la tabla 20 el promedio de edad en todas las facultades es muy cercano siendo
el mayor promedio de edad en la facultad de derecho y el menor en la facultad de
administración, con una diferencia de 0,4006. La edad mínima es de 15 y en todas las
facultades se encuentran personas de 15 años, además la máxima edad es de 32.
Tabla 21
Tabla 22
Según la tabla 22 el mayor promedio de edad es el de los hombres con una diferencia
de 0,203, tanto los hombres como las mujeres tienen un mínimo de edad de 15 años y
un máximo de 32 años.
7. CONCLUSIONES
Como se pudo observar en el presente trabajo, los datos conseguidos nos dan como
conclusió n lo siguiente:
Por otro lado, se concluye que el nivel de confianza utilizado, en este caso 95%
indica que si extraemos un numero determinado de muestras, con el 95% de los
intervalos de confianza encontrados a partir de esas muestras, se encontrará el
valor del pará metro que buscamos y el 5% restante no lo tendrá .
En las variables facultad, genero y trabajo fue necesario realizar una funció n de
condició n en el programa utilizado, ya que la opció n de la encuesta eran atributos
que no se podían analizar de la misma forma que las demá s.
En la mayoría de ítem a evaluar la desviació n está ndar es grande, esto quiere decir
que la població n se encuentra bastante dispersa.
Los datos obtenidos en cada variable son independientes de los demá s, pues no se
tiene un patró n a seguir, sin embargo las relaciones entre algunas variables
encontradas por método de tablas diná micas en Excel, permiten realizar
conclusiones acerca del comportamiento de la muestra .
8. BIBLIOGRAFÍA
http://www.monografias.com/trabajos91/acerca-estadistica/acerca-
estadistica.shtml
[2] Aná lisis de grá ficos estadísticos elaborados en un proyecto de aná lisis de datos
Recuperado de internet el 18 de mayo de 2018, de:
http://www.ugr.es/~batanero/pages/ARTICULOS/trabajomasterPedro.pdf
https://www.uv.es/friasnav/SPSSanalisisdescriptivo.pdf
Normas apa sexta edició n Documento pdf del centro de estudios Javeriano