Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Universidad
Autónoma del caribe
Departamento
ciencias básicas
Facultad
Ingeniería Industrial
Integrantes:
Paula Mejía Obregón(V2)
Keren Jiménez Palacio (V1)
Natalia Escorcia Franco(V2)
Francisco Ramírez(V2)
Sebastián Ramírez (V2)
Profesor
Cesar Brango
Fecha
Febrero 24 – Marzo 3
2
Índice
Contenido 1.
1.INTRODUCCIÓN........................................................................................................3
1.1 Abstract .................................................................................................................4
2. OBJETIVO..................................................................................................................5
2.1. Objetivos especificos.................................................................................................5
3. MARCO TEORICO...................................................................................................6
4. ANEXOS......................................................................................................................22
5. CONCLUSIÓN...........................................................................................................24
6. REFERENCIAS .........................................................................................................25
3
Introducción
Hoy en día, la estadística es un principio clave para la toma de decisiones en campos que
van desde la investigación hasta la gestión empresarial. Los datos se generan más rápido y
en mayores cantidades, por eso es tan importante contar con las herramientas para analizar
los datos y sacar las conclusiones correctas. En este contexto, este artículo se centrará en
los diversos conceptos estadísticos necesarios para describir y analizar un conjunto de
datos. Los temas incluyen coeficientes de simetría y asimetría, que describen la forma de
una distribución de datos, y el coeficiente de Fisher, que mide la forma de una distribución
según su curtosis. Además, se explorarán las medidas de centralidad, como la media, la
mediana y la moda, así como las medidas de posición, como los cuartiles, los decimales y
los percentiles, lo que le permite determinar la posición relativa de un valor en relación con
el resto de los datos.
En definitiva, este trabajo pretende ofrecer una visión completa y detallada de varios
conceptos estadísticos fundamentales para el análisis y descripción de conjuntos de datos.
Es fundamental contar con herramientas y métodos para analizar los datos de manera
efectiva y sacar conclusiones precisas.
4
Abstract
Today, statistics is a key principle for decision-making in fields ranging from research to
business management. Data is generated faster and in greater quantities, which is why it is
so important to have the tools to analyze the data and draw the right conclusions. In this
context, this article will focus on the various statistical concepts needed to describe and
analyze a dataset. Topics include symmetry and asymmetry coefficients, which describe the
shape of a data distribution, and Fisher's coefficient, which measures the shape of a
distribution according to its kurtosis.
In addition, measures of centrality, such as mean, median, and mode, as well as measures of
position, such as quartiles, decimals, and percentiles, will be explored, allowing you to
determine the relative position of a value relative to the rest of the data.
On the other hand, measures of variability such as variance, range and standard deviation
will be considered, which will allow quantifying the variability of the data. The coefficient
of variation, a measure of variation that relates the standard deviation to the mean, will also
be included. Alternative measures of the centrality of the arithmetic mean, such as the
geometric mean and the harmonic mean, which are used in some special cases, will also be
explored. Tchebychev's rule would be another tool to explore, allowing him to estimate
how much data lies within certain standard deviations from the mean.
In short, this work aims to offer a complete and detailed view of several fundamental
statistical concepts for the analysis and description of data sets. It is critical to have tools
and methods to analyze data effectively and draw accurate conclusions.
5
Objetivos
General
Especifico
Investigar:
Coeficiente de simetría
Cuando representamos una distribución podemos analizar su nivel de simetría: una distribución es
simétrica si en relación a un valor central la distribución se distribuye un 50% a la derecha y otro
50% a la izquierda, presentando una forma similar a ambos lados del valor central.
Si por el contrario la distribución presenta una forma más escorada hacia la izquierda hablamos de
asimetría positiva; y si es más hacia la derecha, de asimetría negativa.
Se utilizan diversos parámetros para medir el nivel de simetría de una distribución. Los más
utilizados son el coeficiente de asimetría de Pearson y el coeficiente de asimetría de Fisher. [ 1 ]
7
Coeficiente de asimetría
Al analizar la distribución de los datos es posible que exista una tendencia de estos hacia uno de los
extremos (derecho o izquierdo). Esta tendencia se denomina sesgo y permite mostrar la inclinación
de los datos hacia los extremos (Pierdant y Rodríguez, 2006). Para describir el sesgo o la forma de
la distribución de los datos, se comparan la media aritmética, la mediana y la moda. Si estas
medidas son exactamente iguales, se considera que la distribución de los datos es insesgada o
simétrica (con sesgo cero). En otro caso, cuando la media aritmética es superior a la mediana, la
distribución de los datos estará sesgada a la derecha (o con sesgo positivo) y si la media aritmética
es inferior a la mediana, los datos tendrán sesgo a la izquierda (o con sesgo negativo) (Spiegel,
2013), tal como se muestra en la gráfica 12.
El sesgo mantiene relación directa con la media aritmética, es decir, si la media se afecta por
valores extremos, esto se verá reflejado en el sesgo. Si no hay valores extremos (muy pequeños o
muy grandes) la distribución se comporta de forma simétrica, en tal forma existe una compensación
entre los valores grandes y los pequeños (Martínez, 2000). .[ 1 ]
Coeficiente de Fisher
El coeficiente de Fisher está basado en las desviaciones que presentan los datos con respecto a la
media. Es el coeficiente más usado para determinar la asimetría de un conjunto de datos, debido a
que no es afectado por valores extremos y sólo vincula la media aritmética y la desviación (Suárez y
Tapia, 2012). La fórmula para su cálculo es la siguiente: ; para datos sin agrupar. ; para datos
agrupados en frecuencias. Es importante resaltar que para determinar el sesgo se sugiere utilizar el
coeficiente de asimetría de Fisher, el cual es más confiable para analizar la similitud de la
distribución de los datos con la Distribución Normal; además el valor obtenido es muy similar con
el estimado por el Excel. Debe tenerse en cuenta que el análisis del sesgo se realiza a partir del
signo que arroja cualquiera de los coeficientes mencionados y, particularmente para el coeficiente
8
de Fisher, mientras más se aleje de cero, mayor es el sesgo de la distribución de los datos, tanto a la
derecha como a la izquierda. En síntesis:
Por ejemplo, el sesgo para la puntuación de la evaluación de desempeño de siete empleados del
área de mercadeo de una empresa (ver tabla 34), con media aritmética de 3,6 y desviación de 0,66,
calculado mediante el coeficiente de asimetría de Fisher, será:
Figura 4. Sesgo para la puntuación de la evaluación de desempeño de siete empleados del área de mercado de una
empresa
Relaciona la diferencia entre media aritmética y la moda con la desviación. Pese a que este
coeficiente es fácil de calcular, no se utiliza con frecuencia en la práctica, ya que la distribución de
los datos debe ser unimodal y moderada o ligeramente asimétrica, condiciones que no se observan
de forma directa en la distribución, por lo que resultan muy exigentes (Suárez y Tapia, 2012). El
Coeficiente de Pearson varía entre -3 y 3 y la fórmula es: [ 1 ]
9
La media geométrica
La media geométrica (MG), de un conjunto de números positivos se define como la n-
del producto de los números. Por tanto, la fórmula para la media geométrica es dada por
Ejemplo
Supóngase que las utilidades obtenidas por una compañía constructora en cuatro proyectos fueron
de 3, 2, 4 y 6%, respectivamente. ¿ Cuál es la media geométrica de las ganancias?.
Media armónica
Ejemplo
Supóngase que una familia realiza un viaje en automóvil a un ciudad y cubre los primeros 100 km a
60 km/h, los siguientes 100 km a 70 km/h y los últimos 100 km a 80 km/h. Calcular, en esas
condiciones, la velocidad media realizada.[ 3 ]
El teorema de Chebyshev nos dice la probabilidad de que una variable aleatoria con varianza finita,
se sitúe a una cierta distancia de su esperanza matemática o de su media. Dado que el Z es igual
o mayor que 1
X = valor estimado
Z = nº de desviaciones típica
σ = desviación típica
Ejemplo:
1) Z=2
2) Z=4
1) Cuando Z=2, sustituyendo el valor de Z
Esto quiere decir que para cualquier distribución, lo probable de este intervalo es al menos del 75%
2) cuando Z=3
Esto quiere decir que para cualquier distribución, lo probable de este intervalo es al menos del
89%Como los dos ejemplos anteriores, podemos observar que cuando el valor Z sea mayor, mayor
sea la probabilidad de que la variable aleatoria se encuentra dentro del intervalo También es
11
interesante saber las otras dos reglas (distribución de Poisson y distribución exponencial)
Distribución de Poisson (probabilidad discreta)
La distribución de Poisson nos dice la probabilidad de que ocurra un determinado número de
eventos durante cierto período de tiempo. Concretamente, se especializa en la probabilidad de
ocurrencia de sucesos con probabilidades muy pequeñas.
Distribución exponencial (probabilidad continua)
La distribución exponencial es un modelo adecuado para la distribución de probabilidad del tiempo
de espera entre dos hechos que sigan un proceso de Poisson. De hecho la distribución exponencial
puede derivarse de un proceso experimental de Poisson con las mismas características que las que
enunciábamos al estudiar la distribución de Poisson, pero tomando como variable aleatoria, en este
caso, el tiempo que tarda en producirse un hecho. Mientras que la distribución de Poisson describe
las llegadas por unidad de tiempo, la distribución exponencial estudia el tiempo entre cada una de
estas llegadas. Si las llegadas son de Poisson el tiempo entre estas llegadas es exponencial. Mientras
que la distribución de Poisson es discreta la distribución exponencial es continua porque el tiempo
entre llegadas no tiene que ser un número entero. Esta distribución se utiliza mucho para describir el
tiempo entre eventos. Más específicamente la variable aleatoria que representa al tiempo necesario
para servir a la llegada.[ 4 ]
4. Definir con ejemplos Moda, media, mediana. Cuartil, decil, percentil. Varianza, rango,
desviación estándar, coeficiente de variación.
Moda
En la vida cotidiana se escucha la expresión “está de moda” cuando algo se observa o se presenta
repetidamente. En estadística, el concepto de la moda no se aleja de esta apreciación y,
efectivamente, se denomina moda de un conjunto de datos al valor que más se presenta, es decir, el
atributo o el valor de mayor frecuencia. La moda se representa por Mo y puede ser aplicada a las
variables cualitativas y cuantitativas discretas o continuas. Medidas de tendencia central 81 Para
obtener la moda de un conjunto de datos que están sin agrupar, se construyen las frecuencias y se
ubica el valor o la característica que corresponde a la frecuencia mayor. Por ejemplo, los siguientes
son los resultados obtenidos al indagar a varias personas por el color de preferencia: blanco, azul,
rosado, azul, negro, azul, morado, azul, negro y blanco; al construir las frecuencias en la preferencia
de las personas, se tiene (ver tabla 30):
En la tabla 30 se observa que el color con mayor frecuencia es el azul, por tanto, la moda en el
color de preferencia de las personas es el azul. En el ejemplo anterior se presenta una sola moda,
razón por la cual se denomina a este conjunto de datos como una distribución unimodal. Cuando
12
Al retomar el ejemplo mencionado anteriormente en la tabla 12, sobre el tiempo que tarda un grupo
de personas en realizar una actividad, se toma la siguiente información para el cálculo de la moda
(ver tabla 31):
Figura 7. Moda para el ejemplo del tiempo (en minutos) requerido por un grupo de personas para realizar una actividad.
13
Media
Para calcular la media aritmética es necesario realizar la suma del número de valores de los que
queremos conocer su media. Por ejemplo, si queremos repartir caramelos entre los alumnos de una
clase de forma equitativa, en primer lugar calcularemos cuantos caramelos tenemos en total.
Posteriormente, debemos de saber entre cuantos alumnos se van a repartir, para poder calcular la
media aritmética. El número de caramelos lo dividiremos entre el número de alumnos y
obtendremos cuántos caramelos tendremos que darle a cada uno de ellos para que se repartan de
forma igualitaria. La fórmula de la media aritmética es la siguiente: .[ 5 ]
Mediana
La mediana de un conjunto de números es el número medio en el conjunto (después que los
números han sido arreglados del menor al mayor) -- o, si hay un número par de datos, la mediana es
el promedio de los dos números medios. .[ 5 ]
Ejemplo
Las alturas (en centímetros) de los 10 alumnos de una clase son 178, 163, 155, 159, 171, 155, 172,
170, 159 y 163.
Ordenamos los datos: 155, 155, 159, 159, 163, 163, 170, 171, 172 y 178.
Como hay un número par de datos, la mediana es la media de los datos de la posición 5 y 6:
Observad que hay el mismo número de datos a uno y otro lado de la mediana (4 datos en cada lado).
Cuartiles:
Los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes
porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3: El primer cuartil Q1,
es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable
que supera 25% de las observaciones y es superado por el 75% de las observaciones El segundo
cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor
que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el
15
50% son menores. El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los
datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las
observaciones.
Ejemplo
Calcular el cuartil 1 (Q1) de las siguientes muestras de notas en matemáticas de un aula (notas de 0
a 20): 16, 10, 12, 8, 9, 15, 18, 20, 9, 11, 1, 13, 17, 9, 10, 14
Ordenamos de menor a mayor: 1, 8, 9, 9, 9, 10, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20
x = (N · i) / 4 = (16 · 1) / 4 = 4
Como x = 4 es un número sin decimales, entonces el cuartil 1 es el valor de la muestra que ocupa la
posición 4
Q1 (cuartil 1) = 9
Deciles:
Los deciles son ciertos números que dividen la sucesión de datos ordenados en diez partes
porcentualmente iguales. Son los nueve valores que dividen al conjunto de datos ordenados en diez
partes iguales, son también un caso particular de los percentiles, ya que podemos definir Decil
como“percentil cuyo valor que indica su proporción es un múltiplo de diez. Percentil 10 es el
primer decil, percentil 20 el segundo decil, etc”. El primer decil D1: indica que sólo existe un 10%
de probabilidad de que el valor de la variable esté por debajo de esa cifra. Quinto decil D5 o
denominado también “Caso Base”: indica que existe igualmente un 50% de probabilidad de que el
valor esté por encima como por debajo de esa cifra. Representa la Mediana de la distribución.
Ejemplo:
Dados los siguientes datos ordenados de menor a mayor, halla el primer, el tercer y el octavo decil
de la muestra.
Los datos de este ejercicio ya están ordenados así que no es necesario cambiarlos de orden, de lo
contrario, primero tendríamos que ordenar los datos de menor a mayor.
16
Tal y como se explica arriba, la fórmula que nos permite encontrar las posiciones de los deciles es
la siguiente:
El resultado de la fórmula es un 3, por lo que el primer decil estará en la tercera posición de la lista
ordenada, y ese valor corresponde a 85.
Ahora volvemos a aplicar el mismo procedimiento pero con el tercer decil. Usamos la fórmula
sustituyendo la k por un 3:
De manera que el tercer decil será el elemento en la novena posición, esto es, el 97.
Por último, hacemos el mismo proceso pero poniendo un 8 en la fórmula para determinar el octavo
decil:
El octavo decil será el número en la posición 24 de la lista ordenada de los datos, por lo que el
octavo decil es el 131.
17
Percentiles o centiles:
Los percentiles son, tal vez, las medidas más utilizadas para propósitos de ubicación o clasificación
de las personas cuando atienden características tales como peso, estatura, etc. Los percentiles son
ciertos números que dividen la sucesión de datos ordenados en cien partes porcentualmente iguales.
Estos son los 99 valores que dividen en cien partes iguales el conjunto de datos ordenados.
Sencillamente Percentil es el valor del recorrido de una variable, bajo el cual se encuentra una
proporción determinada de la población. Los percentiles (P1, P2,... P99), leídos primer percentil,...,
percentil 99, muestran la variable que deja detrás una frecuencia acumulada igual al valor del
percentil: Primer percentil, que supera al uno por ciento de los valores y es superado por el noventa
y nueve por ciento restante. El 60 percentil, es aquel valor de la variable que supera al 60% de las
observaciones y es superado por el 40% de las observaciones. El percentil 99 supera 99% de los
datos y es superado a su vez por el 1% restante.
Ejemplo
Calcular el percentil 40 (P40) de las siguientes muestras de notas en matemáticas de un aula (notas
de 0 a 20): 16, 10, 12, 8, 15, 18, 20, 9, 11, 1, 13, 17, 9, 10, 14
Ordenamos de menor a mayor: 1, 8, 9, 9, 10, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20
Rango:
Mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor más elevado
y el valor más bajo.
ℜ=xmax – xmin
Ejemplo
El valor único de 3616 hace que el rango sea grande, pero la mayoría de los valores están alrededor
de 10.
Varianza:
Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de
las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se
ha repetido cada valor. El resultado obtenido se divide por el tamaño de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
Concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor
sea la varianza, más dispersos están.
Ejemplo
Número de valores: 6
Calculamos la Varianza:
Desviación Estándar:
Ejemplo
Solución 1:
Grupo 1:
Grupo 2:
Coeficiente de variación
Su cálculo se obtiene de dividir la desviación típica entre el valor absoluto de la media del conjunto
y por lo general se expresa en porcentaje para su mejor comprensión.
El coeficiente de variación se puede ver expresado con las letras CV o r, dependiendo del manual o
la fuente utilizada.
Ejemplo
Una población de alumnos tiene una estatura media de 160 cm con una desviación estándar de 16
cm. Estos mismos alumnos, tienen un peso medio de 70 kg con una desviación estándar de 14 kg.
¿Cuál de las 2 variables presenta mayor variabilidad relativa?
Anexo
23
24
Conclusión o análisis
Bibliografía
[4] CANEVOS, GEORGE, (1992) Probabilidad y Estadística Aplicaciones yEconomía Edit. Mc-Graw
Hill. México.