Está en la página 1de 8

UNIVERSIDAD AUTÓNOMA DE EL ESTADO DE

QUINTANA ROO(UQROO)

DIVISIÓN DE CIENCIAS POLITICAS


Y ECONOMICAS(DCPE)
INTRODUCCIÓN A LA ESTADÍSTICA

CONTROL DE LECTURA
Tema 2. Medidas de tendencia central

Carrera:

Economía y Finanzas

Alumna

Erika Itzel Hernandez May

Matricula

23-34164

PROFESOR

Doctor Isael Fierros Gonzales

Campus Chetumal, Quintana Roo, 2023


Resumen del Capítulo 3 - "Estadística para Negocios y Economía" por
Anderson, Sweeney y Williams
El capitulo 3 del libro “Estadística para negocios y economía” nos explica de manera
detallada el análisis de datos que se hacen con las medidas de tendencia central como
se aplican las fórmulas de cada una, de igual manera, nos traen un apartado donde nos
enseñan distintas aplicaciones en la vida real. En el presente capítulo, se ve cómo la
estadística puede ayudar a las empresas a enfrentar diferentes desafíos y
oportunidades. Ya sea para descubrir tendencias en el mercado o tomar decisiones
sobre dinero, la estadística se convierte en una herramienta clave para tomar
decisiones que se basen en hechos y pruebas.
En este capítulo, se exploran conceptos esenciales, tales como la mediana, la varianza
y la desviación estándar, junto con la Regla Empírica y el Teorema de Chebyshev.
Además, se aborda el proceso de identificación de valores inusuales y se analiza la
manera de interpretar los resultados. A medida que avanzamos en esta guía,
profundizaremos en el emocionante mundo de la aplicación de la estadística en el
ámbito de los negocios y la economía, resaltando su importancia y capacidad para
influir en el éxito y la eficiencia de las organizaciones en la era actual.
Medidas de posición o localización
• Media
La media, también conocida como promedio, es posiblemente la medida de
ubicación más importante, ya que ofrece una representación de la ubicación central
de los datos. Si estamos trabajando con datos de una muestra, se suele representar la
media como "𝑥̅ "; si se trata de una población, se utiliza la letra griega "μ". En fórmulas
estadísticas, es común referirse al valor de la primera observación de la variable "x"
como "x1", el valor de la segunda observación como "x2" y así sucesivamente. En
general, el valor de la i-ésima observación de la variable "x" se denota como "xi".
Cuando se tiene una muestra con "n" observaciones, la fórmula para calcular la media
muestral es la siguiente:
∑ 𝑥𝑖
𝑥̅ =
𝑛
La notación de la media poblacional es distinta pero la fórmula es la misma se tiene
“N” para el numero de observaciones:
∑ 𝑥𝑖
𝜇=
𝑁
• Mediana
La mediana representa otra medida de ubicación central. Se refiere al valor que
ocupa la posición central cuando los datos se encuentran ordenados en forma
ascendente, es decir, del valor más bajo al más alto. Si tenemos un número impar de
observaciones, la mediana es simplemente el valor que se encuentra en medio de la
distribución. Sin embargo, en el caso de un número par de observaciones, no existe
un único valor central. En esta situación, se sigue una convención que define la
mediana como el promedio de los dos valores que se encuentran en el centro de la
distribución.
• Moda
La moda es el valor que más se repite de la secuencia. Si en los datos hay dos o más
valores que son los que más se repiten, entonces hay más de una moda. Si hay
exactamente dos modas, decimos que los datos son "bimodales". Si hay más de dos
modas, los datos se consideran "multimodales", si no hay un valor que se repita se
dice que no hay una moda o es “amodal”. Sin embargo, en los casos donde hay más
de dos modas, generalmente no es útil mencionar todas porque resulta complicado
describir la distribución de los datos de manera efectiva.
• Percentiles
Un percentil ofrece información acerca de cómo se distribuyen los datos en un rango
que va desde el valor más bajo al valor más alto. En el caso de datos que no contienen
muchas repeticiones de valores, el percentil de orden "p" divide esta distribución en
dos partes. Aproximadamente, alrededor del "p" por ciento de las observaciones
posee valores inferiores al percentil de orden "p", y aproximadamente el "100 - p" por
ciento de las observaciones posee valores superiores al percentil de orden "p". La
fórmula es:
𝑝
𝑖=( )𝑛
100

• Cuartiles
Usualmente, se recomienda dividir los datos en cuatro partes iguales, cada una de las
cuales contiene aproximadamente el 25% de las observaciones. Esto es útil para
comprender cómo se distribuyen los datos. Los puntos en los que se realiza esta
división se conocen como cuartiles y se definen de la siguiente manera:

o Q1, el primer cuartil, es equivalente al percentil 25. Esto significa que


el 25% de las observaciones tienen valores iguales o menores que Q1.

o Q2, el segundo cuartil, es igual al percentil 50, que es también la


mediana. El 50% de las observaciones tienen valores iguales o
menores que Q2.

o Q3, el tercer cuartil, equivale al percentil 75. Esto implica que el 75%
de las observaciones tienen valores iguales o menores que Q3.

Medidas de variabilidad
• Rango
El rango se puede denominar de la siguiente manera, “la diferencia entre el valor
máximo y el valor mínimo en un conjunto de datos”. Matemáticamente se
determina como:
𝑅𝑎𝑛𝑔𝑜 = 𝑣𝑎𝑙𝑜𝑟 𝑚𝑎𝑦𝑜𝑟 − 𝑣𝑎𝑙𝑜𝑟 𝑚𝑒𝑛𝑜𝑟
El rango proporciona una medida simple de la dispersión o variabilidad en un
conjunto de datos. Cuanto mayor sea el rango, mayor será la variabilidad entre los
valores en el conjunto de datos. Por otro lado, un rango pequeño indica que los valores
están más agrupados o tienen menos variabilidad entre ellos. El rango es una de las
medidas más básicas para evaluar la dispersión de datos, pero no proporciona
información sobre la distribución de los valores dentro del rango.
• Rango intercuartílico
El rango intercuartílico (RIC) es una forma de medir cuánto varían los datos en un
conjunto sin verse afectado por valores extremos. Se calcula tomando la diferencia
entre el tercer cuartil (Q3) y el primer cuartil (Q1) de los datos. Para entenderlo más
sencillamente, imagina que tienes una lista de números. Primero, encuentras el valor
que está en el medio del 25% de los números más bajos (Q1), y luego el valor que
está en el medio del 25% de los números más altos (Q3). El rango intercuartílico es
la diferencia entre estos dos valores. Mide cuánto varía la mitad central de tus datos,
sin importar los valores extremos que puedan estar muy arriba o muy abajo en la lista.
𝑅𝐼𝐶 = 𝑄3 − 𝑄1
• Varianza
La varianza es una forma de medir cuánto varían los datos en un conjunto. Se hace
comparando cada valor en los datos con la media. La diferencia entre cada valor
denominado xi y la media se llama "desviación respecto de la media". Cuando
calculamos la varianza, elevamos al cuadrado estas desviaciones.
Varianza poblacional:
2
∑(𝑥𝑖 − 𝜇)2
𝜎 =
𝑁
Varianza muestral:
∑(𝑥𝑖 − 𝑥̅ )2
𝑠2 =
𝑛−1

• Desviación estándar
La desviación estándar es la raíz cuadrada positiva de la varianza. Utilizando la
notación que se estableció para las varianzas, se emplea "s" para representar la
desviación estándar de una muestra y "σ" para la desviación estándar de una
población. La desviación estándar se obtiene a partir de la varianza de la siguiente
manera:
Desviación estándar poblacional:
𝜎 = √𝜎 2
Desviación estándar muestral:
𝑠 = √𝑠 2
• Coeficiente de variación
En ciertas ocasiones, queremos saber cuánto varían los datos en relación con su valor
promedio. Para medir esto, utilizamos algo llamado el "coeficiente de variación". Se
suele expresar como un porcentaje y nos muestra cuánta variabilidad existe en
comparación con la media. Se termina como:
𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟
( ∗ 100) %
𝑚𝑒𝑑𝑖𝑎
Imagina que tienes dos conjuntos de datos: uno tiene una media de 100 y una
desviación estándar de 10, y el otro tiene una media de 50 y una desviación estándar
de 5. A simple vista, ambos conjuntos tienen la misma cantidad de variabilidad (la
desviación estándar), pero si calculamos el coeficiente de variación, veríamos que el
primero tiene un coeficiente de variación del 10% (10 sobre 100), mientras que el
segundo tiene un coeficiente de variación del 10% (5 sobre 50). Esto nos ayuda a
comparar la variabilidad relativa entre conjuntos de datos con diferentes escalas. En
resumen, el coeficiente de variación es una medida que nos permite comprender
cuánto varían los datos en relación con su promedio, expresado como un porcentaje.

Medidas de la forma de la distribución, de posición relativa y detección de


observaciones atípicas.
Además de las medidas vistas anteriormente, de igual manera existen medidas que
explican la forma de distribución de los datos

• Forma de distribución.
Cuando los datos están sesgados se nota en la forma de distribución de los datos
representados en histogramas con la información estando mas de un lado que
de otro, para calcular el sesgo se utiliza las siguiente formula:
𝑛 𝑥𝑖 − 𝑥̅ 3
𝑆𝑒𝑠𝑔𝑜 = ∑( )
(𝑛 − 1)(𝑛 − 2) 𝑠
• Valor Z
Además de las formas en que describimos nuestros datos, también es
importante entender cómo se ubican los valores dentro de un conjunto de datos.
Las medidas de posición relativa nos ayudan a saber cuán lejos está un valor
en particular de la media del conjunto.
𝑥𝑖 − 𝑥̅
𝑧𝑖 =
𝑠

Imagina que tienes una lista de números, y quieres saber cuán lejos está un
número específico de la media y en qué dirección. Para hacerlo, usamos dos
números especiales: la media y la desviación estándar (nos dice cuán dispersos
o agrupados están los números alrededor de la media).

Ahora, para cada número en la lista, calculamos algo llamado "valor z" Este
valor z nos muestra cuán lejos está ese número de la media en términos de la
desviación estándar. En otras palabras, nos ayuda a entender si un número está
por encima o por debajo de la media y cuántas desviaciones estándar lo separan
de ella.
• Teorema de Chebyshev
El teorema de Chebyshev nos dice cuántos de nuestros datos deben estar dentro
de un cierto rango alrededor de la media. En otras palabras, nos ayuda a
entender cuántos datos se agrupan cerca del valor promedio y cuántos pueden
estar más lejos de ese valor. Esto es útil para comprender la dispersión de los
datos en un conjunto, sin importar si siguen una distribución específica.
Cuantas más desviaciones estándar consideremos, más amplio será el rango en
el que se encuentran la mayoría de los datos.

“Por lo menos (1 − 1/𝑧 2 ) de los valores de datos debe estar dentro de z


desviaciones estándar de la media, donde z es cualquier valor mayor que 1.”
• Regla Empírica
la Regla Empírica sugiere que en una distribución de datos que se asemeje a
una curva normal, la mayoría de los datos estarán cerca de la media y se
volverán más raros a medida que nos alejamos de ella. Esta regla es útil para
comprender la dispersión de los datos y para identificar valores atípicos o
inusuales.
• Detección de observaciones atípicas
A veces, en un conjunto de datos, podemos encontrar valores que son
significativamente más grandes o pequeños de lo normal. Estos valores
excepcionales se llaman "observaciones atípicas". Los expertos en estadística
suelen buscar estas observaciones y las examinan cuidadosamente. Una
observación atípica generalmente se debe a una de estas tres razones:

1. Error de registro: Puede ser que se haya cometido un error al registrar


el valor de datos, en cuyo caso se corrige antes de realizar un análisis
más detallado.
2. Inclusión incorrecta: La observación podría haber sido incluida de
manera incorrecta en el conjunto de datos. En este caso, se elimina del
análisis.
3. Valor inusual pero válido: A veces, una observación atípica es un valor
de datos que es inusual pero válido y legítimo en el contexto del
conjunto de datos. En este caso, se conserva y se considera como una
parte genuina de la información.

Identificar y tratar las observaciones atípicas es importante para asegurarse de


que los análisis estadísticos reflejen con precisión la información y no se vean
afectados por datos incorrectos o inusuales que puedan distorsionar los
resultados.
Análisis exploratorio de datos
• Resumen de 5 números
Para poder resumir los datos se utilizan 5 números, los cuales son:
1. Valor menor
2. Primer cuartil (Q1)
3. Mediana (Q2)
4. Tercer cuartil (Q3)
5. Valor mayor
La forma más sencilla de crear este resumen es ordenar los datos en orden
ascendente. Una vez que los datos están ordenados, resulta fácil identificar el
valor más bajo, los tres cuartiles y el valor más alto. Esto nos proporciona un
resumen eficaz de los datos y ayuda a comprender su distribución.
• Diagrama de caja
Un diagrama de caja es una representación visual de los datos que se basa en
cinco valores clave. Para crear este diagrama, necesitas calcular la mediana y
los cuartiles Q1 y Q3. También utilizamos algo llamado "rango intercuartílico"
(RIC), que se calcula restando Q1 de Q3.

Los pasos para hacer un diagrama de caja son los siguientes:


1. Dibuja una caja con líneas en sus extremos que estén en los valores de
Q1 y Q3. La caja contiene la mitad (50%) de los datos.
2. Dibuja una línea vertical en la caja que marque la ubicación de la
mediana.
3. Calcula los límites utilizando el RIC. Estos límites se encuentran a 1.5
veces el RIC por debajo de Q1 y por encima de Q3. Los datos que estén
fuera de estos límites se consideran valores atípicos.
4. Traza líneas punteadas desde los extremos de la caja hasta los valores
más bajos y altos dentro de los límites calculados en el paso 3. Estas
líneas se llaman "bigotes" y terminan en los valores específicos dentro
de los límites.
5. Finalmente, coloca un asterisco (*) en el lugar donde se encuentre cada
valor atípico para señalarlo.

Entonces entendemos que un diagrama de caja es una forma de mostrar la


distribución de los datos, resaltando la mediana, los cuartiles y los valores
atípicos si los hubiera. Ayuda a comprender mejor cómo se agrupan o dispersan
los datos.
Medidas de asociación entre dos variables

• Covarianza
La covarianza es una medida estadística que nos dice cómo dos conjuntos de
datos diferentes cambian juntos. En otras palabras, nos ayuda a entender si
cuando uno de los conjuntos de datos aumenta, el otro también aumenta
(covarianza positiva), disminuye (covarianza negativa) o no muestra un patrón
claro de cambio (covarianza cercana a cero).
Muestral:
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)
𝑠𝑥𝑦 =
𝑛−1
Poblacional:
∑(𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑥 )
𝑠𝑥𝑦 =
𝑁

• Coeficiente de correlación
El coeficiente de correlación de Pearson muestral se calcula como la
covarianza muestral dividida por el producto de las desviaciones estándar
muestrales de x e y.
𝑠𝑥𝑦
𝑟𝑥𝑦 =
𝑠𝑥 𝑠𝑦

Media ponderada y trabajo con datos agrupados

• Media ponderada
La media ponderada es un promedio en el que algunos valores tienen más
"peso" o importancia que otros. En otras palabras, no todos los valores se
consideran igualmente en el cálculo. Los valores más importantes influyen más
en el resultado final.
∑ 𝑤𝑖 𝑥𝑖
𝑥̅ =
𝑤𝑖
Para concluir obtenemos que las herramientas y conceptos estadísticos presentados
en este capítulo proporcionan a las organizaciones las capacidades necesarias para
tomar decisiones informadas y respaldadas por datos. Algunas de las ideas clave que
se han discutido incluyen la mediana, la varianza, la desviación estándar, la Regla
Empírica y el Teorema de Chebyshev, así como la identificación y el manejo de
valores atípicos.
La relevancia de la estadística en este contexto se hace evidente al comprender cómo
esta disciplina puede ayudar a las empresas a comprender patrones, tomar decisiones
de mercado, evaluar el rendimiento financiero y mucho más. La estadística se
convierte en una herramienta poderosa para el éxito y la eficiencia de las
organizaciones en el siglo XXI.
Bibliografía

Anderson, D. R., Sweeney, D. J., William, T. A., Camm, J. D., & Cochran, J. J.
(2012). Estadística para negocios y economía. Onceava edición. Ciudad de México:
Cengage Learning. Páginas 85-147.

También podría gustarte