Está en la página 1de 21

MEDIDAS DE LOCALIZACIÓN, TENDENCIA

CENTRAL, DISPERSIÓN Y RELACIÓN

ÍNDICE
1. Introducción
2. Organiza tus ideas: Conceptos clave
3. Profundiza tus conocimientos: Medidas de tendencia central
4. Fortalece tus conocimientos: Medidas de localización
5. Visualiza: Medidas de dispersión
6. Activa tus aprendizajes: Covarianza y correlación
7. Conclusiones
INTRODUCCIÓN
¡Bienvenido a las medidas de localización, tendencia central, dispersión y
relación!

Aquí vamos a aprender a calcular y utilizar diversas medidas que nos van a
permitir obtener información valiosa de nuestros datos.

Al cumplir con el desarrollo de la presente unidad estarás en capacidad de:

Identificar las principales medidas de localización, tendencia central, dispersión y


relación.
Entender en que escenarios se deben utilizar las diferentes medidas estadísticas.

¡Acompáñame!

Organiza tus ideas: Conceptos clave


A continuación, se presentan algunos conceptos importantes en el área de la
estadística.

• Estadística: Es la ciencia que se encarga de recolectar, organizar,


analizar e interpretar datos.

• Estadísticas: Son números obtenidos de un conjunto o colección de


datos.

• Estadística descriptiva: Es la rama de la estadística que comprende


todos los métodos y técnicas usados para organizar y describir
información.

• Estadística inferencial: Es la rama de la estadística que comprende


todos los métodos y técnicas usados para hacer inferencias,
estimaciones o predicciones sobre poblaciones a partir de una muestra.

• Dato: Es una porción de información.

• Datos: Sinónimo de muestra.

• Población: Es el conjunto de todos los elementos de interés para un


investigador.
• Muestra: Es cualquier subconjunto de la población.

• Parámetro: Cualquier característica numérica de una población.

• Estadístico: Cualquier característica numérica de una muestra.

• Big Data: Termino utilizado para describir conjuntos de datos tan


grandes que los tradicionales y típicos procesos de almacenamiento,
gestión, búsqueda, análisis, entre otros han convertido en un reto
debido a su tamaño.

• Datos cualitativos: Información categórica.

• Datos cuantitativos: Información numérica. Se puede clasificar en


continuos y discretos.

• Datos cuantitativos discretos: Son obtenidos de un proceso de


conteo. Números naturales, enteros o racionales.

• Medida: Es un valor representativo de un conjunto de datos.

¡Ahora que conoces algunos conceptos, iniciemos viajando a las medidas


de tendencia central!

¡Vamos!

Profundiza tus conocimientos:


Medidas de tendencia central
¡Quieres conocer cuáles son las Medidas de tendencia central?

¡Vamos a descubrirlo!

Las medidas de tendencia central de un conjunto de datos proporcionan el valor


central (o centro) del conjunto de datos.

Las medidas de tendencia central tienen como propósito:

• Resumen el conjunto de datos de manera que se pueda tener un


panorama general.
• Sirven como representante de la información que hay en el conjunto de
datos.

Existen muchas medidas de tendencia central, aquí solo trataremos las más
comunes que son:

• La media aritmética.
• La mediana.
• La moda.
• Rango medio.

La media aritmética:

En el caso que el conjunto de datos cuantitativos sea una población con N datos,
tenemos que la media poblacional se nota por μ (se lee “mu” que es una letra del
alfabeto griego) y se define mediante la formula

En el caso que el conjunto de datos cuantitativos sea una muestra con n datos,
tenemos que la media muestral se nota por x (se lee “x barra”) y se define
mediante la formula

Ejemplo [Media muestral]

Se tienen los pesos (en kilogramos) de 10 estudiantes hombres de un curso de


estadística probabilística
68, 71, 75, 65, 67, 79, 73, 82, 77, 72.

Para hallar la media muestral se identifica el número de datos

n=10

y se suman los valores, es decir

Luego

La desventaja de la media es que se ve afectada por los valores extremos; esto


es, si en el ejemplo anterior agregamos el peso 150 kilogramos, tenemos que

n=11

y esto implica que

Que no representa el centro del conjunto de datos.

La mediana

La mediana de un conjunto de n datos cuantitativos es el puntaje medio de los


datos ordenados y se suele notar por x (se lee “x tilde”).

El procedimiento para calcular la mediana es el siguiente:

1. Ordenar los datos.


2. Si n es impar, entonces la mediana será el puntaje en el centro. Por el
contrario, si n es par, entonces la mediana es la media aritmética de los
dos valores que ocupan las posiciones centrales.
Ejemplo [Mediana]

1. Sean los datos


6, 10, 12, 12, 13, 16, 19, 21

En este caso n=8, es decir n es par, entonces

2. Ahora sean los datos

2, 3, 5, 9, 15, 21, 24

En este caso n=7, esto es n es impar, por tanto

La desventaja de la mediana es que es muy difícil calcularla a mano para


conjuntos de datos de gran tamaño.

La ventaja es que no se ve afectada por valores extremos.

La moda

La moda de un conjunto de datos es el puntaje con mayor frecuencia y suele


notarse con Mo.

No siempre existe moda, pues puede existir la posibilidad que no haya un puntaje
con mayor frecuencia que los demás, en este sentido se tiene:
• Si hay dos puntajes con la frecuencia más alta, entonces el conjunto de
datos es bimodal.
• Si hay más de dos puntajes con la frecuencia más alta, entonces el
conjunto de datos es multimodal.

Ejemplo [Moda]

Sean los datos que corresponden a la profesión de N=7 personas

Ingeniero, Abogado, Abogado, Ingeniero, Ingeniero, Matemático, Medico.

Entonces la moda del conjunto de datos es


Mo=Ingeniero

porque su frecuencia es 3, que es la más alta de todos los puntajes como se


puede ver en la siguiente tabla de frecuencias.

La desventaja de la moda es que no siempre existe.

*La ventaja es que no se ve afectada por valores extremos.

Rango medio o mitad del intervalo

El rango medio (o mitad del intervalo) de un conjunto de datos se nota por Rm y


es la media aritmética de los puntajes mayor (U) y menor (L).

Ejemplo [Media muestral]

Sean los datos

6, 10, 12, 12, 13, 16, 19, 21

Aquí el menor puntaje es

L=6

y el mayor puntaje es

U=21.

Entonces el rango medio es

La desventaja del rango medio es que se ve afectada por valores extremos.


¿Excelente! ¿Verdad? No olvides que la ventaja de la moda es que no se ve
afectada por valores extremos.
¡Vamos al siguiente recurso con las medidas de localización!

Fortalece tus conocimientos: Medidas


de localización
Una medida de localización (o de posición) para una distribución de datos es el
valor para el cual un porcentaje especifico de la distribución queda en o debajo de
ese valor.

Percentiles

El n-ésimo percentil se nota por Pn y se define como el valor para el cual el n%


de la distribución de los datos está en o por debajo de Pn y al menos el (100-n)%
de los datos está por arriba de Pn.

• Los valores

Reciben el nombre de cuartiles y dividen el conjunto de datos ordenados en


cuatro partes que contienen cada una el 25% de los datos aproximadamente.
Como nos podemos dar cuenta este tema es súper interesante, como quiera que
apunta a la mejora continua de cualquier organización, pero también lo puedes
aplicar en tu vida…

• Los valores

Reciben el nombre de deciles y dividen el conjunto de datos en 10 partes que


contienen cada una el 10% de los datos aproximadamente.
Ejemplo [Cuartiles]

Se tienen los siguientes N=12 datos ordenados

23.1 23.7 24.7 25.6 26.9 27.2 27.5 27.7 27.9 28.1 28.2 28.6

Para Q1 se multiplica

N×25%=12×0.25=3
y
N×(100-25)%=N×75%=12×0.75=9

Entonces 3 puntajes deben quedar en o antes de Q1 y 9 deben quedar después


de Q1 . Los valores que satisfacen estas dos condiciones son

Luego

Análogamente para los otros dos cuartiles se tiene:

Para Q2 se multiplica

N×50%=12×0.5=6

Entonces 6 puntajes deben quedar en o antes de


Q2 y 6 deben quedar después de Q2. Los valores que satisfacen estas dos
condiciones son

Luego
Para Q3 se multiplica

N×75%=12×0.75=9
y
N×(100-75)%=N×25%=12×0.25=3

Entonces 9 puntajes deben quedar en o antes de Q3 y 2 deben quedar después


de Q3. Los valores que satisfacen estas dos condiciones son

Luego

• Se observa que el procedimiento para encontrar los cuartiles es similar al


usado para encontrar la mediana.
• El procedimiento para encontrar los percentiles y deciles es similar.

¡Y bien! ¿Ahora quieres conocer acerca de las medidas de dispersión?

¡Vamos a descubrirlo!

Visualiza: Medidas de dispersión


Las medidas de variación miden la cantidad en que los puntajes varían entre sí,
en el sentido que si los puntajes están relativamente juntos tienen bajas medidas
de variación y si están muy separados las medidas de variación serán altas.

Existen muchas medidas de variación, pero aquí sólo estudiaremos las tres más
usadas:
• Varianza.
• Desviación estándar.
• Rango intercuartil.

Varianza:

En el caso que el conjunto de datos cuantitativos sea una población con N datos,
tenemos que la varianza poblacional se nota por σ^2 (se lee “sigma al cuadrado”)
y se define mediante la fórmula

En el caso que el conjunto de datos cuantitativos sea una muestra con n datos,
tenemos que la varianza muestral se nota por s^2 (se lee “s al cuadrado”) y se
define mediante la fórmula
donde SS recibe el nombre de suma de cuadrados y está definido como:
• Para el caso poblacional

● Para el caso muestral

Ejemplo [Varianza]

Sean los pesos (en kilogramos) de 10 estudiantes hombres de un curso de


estadística probabilística

68,71,75,65,67,79,73,82,77,72.

Entonces se tiene que


Luego, la suma de cuadrados es

Por tanto, la varianza es

Desviación estándar:

• La desviación estándar poblacional se nota por σ y se define como


σ=√(σ^2 ),

donde σ^2 es la varianza poblacional.

• La desviación estándar muestral se nota por s y se define como


s=√(s^2 ),

donde s^2 es la varianza muestral.

Ejemplo [Desviación estándar]

Para el ejemplo anterior la desviación estándar es

s=√(s^2 )≈√29.7≈5.4 kilogramos

Se realizan las siguientes observaciones:


• De los dos ejemplos anteriores encontramos que las unidades de la
varianza están elevados al cuadrado y los de la desviación estándar
no. En ese sentido se recomienda acompañar la media aritmética de la
desviación estándar porque ambos tienen las mismas unidades.
• La varianza y la desviación estándar se ven afectadas por los valores
extremos como herencia de la media en la definición de la varianza.

Rango intercuartil

El rango intercuartil se nota por IQR y se define como


IQR=Q3-Q1
Ejemplo [Rango intercuartil]

En un ejemplo anterior se tenían los siguientes N=12 datos ordenados

23.1 23.7 24.7 25.6 26.9 27.2 27.5 27.7 27.9 28.1 28.2 28.6

y se obtuvieron los siguientes cuartiles

Q1=25.2
y

Q3=28.0
Luego

IQR=Q3-Q1=28.0-25.2=2.8

Se realizan las siguientes observaciones:


• El rango intercuartil no se ve afectado por los valores extremos.
• Entre los valores Q1 y Q3 se encuentra el 50% de los datos

No olvides tener en cuenta los rangos y las desviaciones estándar en las


medidas de dispersión

¡Avancemos!

Activa tus aprendizajes: Covarianza y


correlación
Covarianza

La covarianza en una medida que mide la relación lineal entre dos variables.

● Si la covarianza es positiva, entonces indica que existe una relación lineal


positiva.
● Si la covarianza es negativa, entonces indica que existe una relación lineal
negativa.

● Si la covarianza es cero, entonces indica no existe una relación lineal.

La covarianza poblacional se nota por σ_xy y se define como


y la covarianza muestral se nota por sxy y se define como

dondeSSxy recibe el nombre de suma de productos cruzados y está definido


como

• Para el caso poblacional

• Para el caso muestral

Ejemplo [Covarianza]

Se tienen los siguientes datos


Entonces

Así pues

Coeficiente de correlación de Pearson:

El coeficiente de correlación lineal de Pearson mide la fuerza de la relación lineal


entre las dos variables cuantitativas y este dado por:

● Para el caso poblacional

● Para el caso muestral

Se observa que el coeficiente de correlación de Pearson varia entre -1 y 1.

• Si el coeficiente esta cercano a -1, entonces los puntos estarán cerca


de una recta decreciente.

• Si el coeficiente esta cercano a 1, entonces los puntos estarán cerca de


una recta creciente.

• Si el coeficiente esta cercano a 0, entonces no hay relación lineal.

• Si r=-1
• Si r=-0.94

• Si r=-0.47
• Si r=0.58

• Si r=1

Ejemplo [Coeficiente de correlación de Pearson]

Para los datos del ejemplo anterior se tiene que

sxy=-121.9
sx=6.2
sy=19.9
Luego

Y bien! No olvides repasar la covarianza y la correlación en este recurso

¡Continuemos activando nuestro aprendizaje!

Conclusiones

De la temática vista hasta el momento podemos sacar las siguientes


conclusiones:
• Las medidas de tendencia central (o centros) nos sirven como
representantes del conjunto de datos.
• Las medidas de localización nos sirven como puntos de posición, en los
cuales podemos identificar una porción especifica de la distribución de
los datos.
• Las medidas de dispersión nos dan información de como varían los
datos entre si.
• La covarianza y el coeficiente de correlación de Pearson me miden la
relación lineal entre dos variables cuantitativas.

Hemos llegado al final de esta temática, recuerda realizar todas las


actividades que encuentras en la plataforma.
Nos vemos en la siguiente unidad para continuar aprendiendo más

¡Hasta pronto!
Bibliografía o Referencias
• Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2008). Estadística
para administración y economía, Cengace Learning Editores, S.A.
https://periodicooficial.jalisco.gob.mx/sites/periodicooficial.jalisco.
gob.mx/files/estadistica-para-administracion-y-economia_anderson_
sweeney_y_williams.pdf
• Newbold, P., & Muñoz, M. E. (1996). Estad{\’\i}stica para los negocios
y la econom{\’\i}a. Prentice Hall. https://books.google.com.co/
books?id=cfY-QgAACAAJ
• Weimer, R. C. (1993). Statistics. Wm. C. Brown Publishers. https://
books.google.com.co/books?id=%5C_O4JAQAAMAAJ

También podría gustarte