Está en la página 1de 72

Estadística Descriptiva

Actualizado: Luis Fernando Torres Quitora


Fecha de actualización: 15/12/2020

1
TABLA DE CONTENIDO

1. Unidad temática 1 Distribuciones de frecuencias y gráficas estadísticas ..................................... 3


1.1 Introducción ........................................................................................................................................... 3
1.2 Marco conceptual.................................................................................................................................. 3
1.2.1 ¿Qué es la estadística? ....................................................................................................................... 3
1.2.2 ¿Qué son las variables estadísticas? ............................................................................................ 4
1.2.2.3 ¿Cuál es la clasificación de las variables estadísticas? ..................................................... 4
1.2.2.4 ¿Qué son las distribuciones de frecuencias? ........................................................................ 5
1.2.2.5 ¿Qué elementos contienen las distribuciones de frecuencias? ..................................... 6
1.2.2.6 ¿Cómo se puede representar gráficamente las distribuciones de frecuencia? ...... 6
1.3 Ejemplos: ¿Cómo realizar tablas de frecuencias o gráficas en Excel? ............................. 7
Ejemplo 1.3.1. (Latidos del corazón) ...................................................................................................... 7
Ejemplo 1.3.2 (Estado civil) .................................................................................................................... 24
1.4 Ejercicios de reflexión...................................................................................................................... 30
1.5 Conclusiones ........................................................................................................................................ 30
1.6 Material de estudio ........................................................................................................................... 31
2. Unidad temática 2 Medidas descriptivas ......................................................................................... 31
2.1. Introducción............................................................................................................................................... 31
2.2. Marco conceptual............................................................................................................................... 32
2.2.1 ¿Cuáles son las medidas de tendencia central? ................................................................... 32
2.2.2 ¿Cuáles son las medidas de variabilidad? .............................................................................. 33
2.2.3 ¿Cuáles son las medidas de posición? ...................................................................................... 34
2.2.4 ¿Cuáles son las Medidas de forma? ........................................................................................... 36
2.2.5. ¿Cuáles son las medidas de relación entre dos variables? ............................................. 39
2.2.6 ¿Qué es regresión lineal simple? ................................................................................................ 44
2.3. Ejemplos: ¿Cómo realizar el análisis de los estadísticos con Excel? ................................... 53
Ejemplo 2.3.1. (Gaseosas) ........................................................................................................................ 53
Ejemplo 2.3.2. (Latidos del corazón) ................................................................................................... 64
2.4. Ejercicios de reflexión ............................................................................................................................ 70
2.5. Conclusiones .............................................................................................................................................. 71
2.6. Material de estudio ................................................................................................................................. 71
REFERENCIAS BIBLIOGRÁFICAS UTILIZADAS EN EL MÓDULO N°1 ................................................... 72

2
INTRODUCCIÓN

La importancia del tema de este módulo “estadística descriptiva”, radica en el análisis de los
datos mediante recursos como los gráficos, estadísticos y modelos de regresión simple,
utilizado para resolver problemáticas de carácter investigativo.
La finalidad de esta temática es que el estudiante, logre adquirir las competencias básicas
resumidas en la recolección, organización y análisis de los datos usando los recursos
proporcionados por los contenidos temáticos y que estos puedan ser nuevas herramientas para
su desarrollo profesional y académico.
Además, en la unidad temática se hace énfasis en el uso del programa Excel en todos los temas
de estadística descriptiva, siendo muy práctico para el estudiante y enriquecedor en
competencias relacionadas con TIC. Para hacer este aprendizaje acerca de Excel más interactivo
y didáctico para el estudiante, estarán disponibles los archivos .XLS de todos los ejemplos del
módulo, con el objetivo de promover su práctica en tiempo real, utilizando las indicaciones paso
a paso dadas en cada uno de los ejemplos del módulo.

1. Unidad temática 1 Distribuciones de frecuencias y gráficas estadísticas

1.1 Introducción

Durante el desarrollo de procesos investigativos de enfoque cuantitativo se utilizan diferentes


instrumentos para la recolección de datos a partir de una muestra determinada, por lo tanto, es
necesario la utilización de técnicas estadísticas que permitan realizar el análisis de los mismos.
En esta unidad temática se profundizará en las herramientas para presentar datos de forma
organizada a través de tablas de frecuencias y la representación gráfica, que así mismo,
permitan describir y representar los datos.

La representación de los datos depende del tipo de información con el que se cuente, en esta
unidad temática se verá la clasificación de los datos según los tipos de variables.

Es importante tener claro que el objetivo principal de la unidad temática no es simplemente


obtener una tabla o una gráfica que represente los datos si no entender lo que indican en una
situación problema. Cómo herramienta de ayuda para la realización de las tablas y gráficos, se
utiliza el programa Excel.

1.2 Marco conceptual

1.2.1 ¿Qué es la estadística?

La estadística es la ciencia que determina los procedimientos para la recolección, organización,


interpretación, modelación y análisis de un conjunto de datos obtenidos de una población o
muestra, acerca de un fenómeno determinado, para tomar decisiones frente a una situación
determinada. Dentro de la misma estadística existen dos ramas:

3
1. Estadística descriptiva: permite describir las características que se presentan en una
población o muestra.
2. Estadística inferencial: a partir del estudio de una muestra extraída de la población
permite obtener conclusiones válidas acerca de la población.

1.2.2 ¿Qué son las variables estadísticas?

Las variables estadísticas son las características o factores que tienen los elementos analizados
de un conjunto de datos. Las variables pueden ser, por ejemplo: en un conjunto de hombres y
mujeres su estado civil, en una empresa comercializadora el número de ventas realizadas, en una
ciudad el número de personas afectados por la inseguridad en el último mes.

1.2.2.3 ¿Cuál es la clasificación de las variables estadísticas?

Las variables estadísticas se clasifican en dos tipos:

1. Variables cuantitativas: son aquellas variables en la que sus posibles resultados siempre son
representados por un valor numérico. Por ejemplo, la estatura de los estudiantes de aula de
estadística sus posibles resultados podrían ser 1,65 cm, 1,84 cm, 1,75 cm, entre otros,
“valores numéricos”; otra variable cuantitativa sería el número de llegadas tarde al lugar de
trabajo en un mes, los posibles resultados podrían ser 0, 1, 2..., “valores numéricos”. Dentro
de las variables cuantitativas existen dos clasificaciones:

a. Variables cuantitativas discretas: son aquellas variables cuantitativas en las que sus
posibles resultados son representados por el conjunto de los números enteros. Por
ejemplo, el número de compras hechas por una familia, sus posibles resultados son
0, 1, 2, … solamente lo representan valores enteros, otra variable cuantitativa
discreta es cuantos días a la semana realizan actividad física los empleados de una
empresa, sus posibles resultados son 0, 1, 2, 3, 4, 5, 6 y 7.

b. Variables cuantitativas continuas: son aquellas variables cuantitativas en las que sus
posibles resultados son representados por el conjunto de los números decimales.
Por ejemplo, en una carrera de atletismo el tiempo registrado por cada uno de los
competidores en segundos, sus posibles resultados podrían ser 6.25, 4.2, 8.4, …, 10.0
y como se observa los valores son decimales, otra variable cuantitativa continua es
la temperatura marcada en grados centígrados (°C) de las 6 am en Bogotá durante
un mes, sus posibles resultados son -2.8, 0, 4.5, 10.0, 7.2, 15.0, 13.7, entre otros.

2. Variables cualitativas: son aquellas variables en la que sus posibles resultados siempre son
representados por atributos observables no numéricos. Por ejemplo, tomando como
muestra los estudiantes del aula de estadística, una variable cualitativa seria los gustos
musicales de los estudiantes, sus posibles resultados podrían ser rock, salsa y reguetón;
otra variable cualitativa sería el nivel de satisfacción de los estudiantes con los contenidos

4
de la asignatura pues los posibles resultados serían: alta, estándar o baja. Dentro de las
variables cualitativas hay dos clasificaciones que se verán a continuación.

Variables cualitativas ordinales: son aquellas variables cualitativas en las que sus
posibles resultados posee un orden natural o jerárquico. Por ejemplo, las medallas
conseguidas en diez competencias de BMX, los posibles resultados son oro, plata y
bronce; estás categorías poseen un orden natural primer lugar (oro), segundo lugar
(plata) y tercer lugar (bronce), otra variable cualitativa ordinal sería la nota de una
prueba expresada como atributo, los posibles resultados son excelente,
sobresaliente, aceptable, insuficiente y deficiente como se puede observar existe
una jerarquía u orden natural.

Es importante notar que las variables cualitativas ordinales pueden ser


representadas por valores numéricos por su posicionamiento, en el ejemplo de la
competencia de BMX se puede colocar 1= “oro”, 2=” plata” y 3= “bronce”, en algunos
casos hace más práctico los análisis estadísticos, pero hay que tener cuidado en no
confundirlas con variables cuantitativas.

Variables cualitativas nominales: son aquellas variables cualitativas en las que sus
posibles resultados no poseen un criterio de orden natural o jerarquía. Por ejemplo,
el sexo de una persona los posibles resultados son hombre o mujer, estos no tienen
un criterio de orden natural o jerarquía, otra variable cualitativa nominal sería el
color preferido de los estudiantes del aula de estadística, los posibles resultados
serían rojo, azul, negro, blanco, entre otros; pueden ser ordenadas aleatoriamente,
pero no de manera natural.

El siguiente mapa conceptual describe la clasificación de las variables estadística:

Fuente: Creación propia

1.2.2.4 ¿Qué son las distribuciones de frecuencias?

“Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas


categorías” (Hernández Sampieri, Fernández Collado, & Baptista Lucio, 2010, p. 287).

5
Ejemplo1.2.2.4.1. En un proceso de investigación se realizó la siguiente consulta ¿Cuál es su
nivel máximo de formación académica?, a los docentes de una institución universitaria, en la
siguiente tabla se pueden evidenciar las respuestas obtenidas

Categoría Código Frecuencia


Pregrado 1 12
Especialización 2 25
Maestría 3 44
Doctorado 4 31
Post - doctorado 5 5
Total 117

1.2.2.5 ¿Qué elementos contienen las distribuciones de frecuencias?

Las distribuciones de frecuencias pueden ser complementadas utilizando las frecuencias


acumuladas y los porcentajes o frecuencia relativa. En esta sección se darán las definiciones
de los tipos de frecuencias.

La frecuencia absoluta es la frecuencia que se ha ido trabajando anteriormente, es decir el


número de veces que se repite la categoría seleccionado en el conjunto total de datos.

La frecuencia relativa es la razón de cada uno de las categorías entre la frecuencia absoluta y
el total de los datos.

𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 =
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠

Se puede representar el frecuencia relativa como un porcentaje, conocida como la


𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑝𝑟𝑜𝑐𝑒𝑛𝑡𝑢𝑎𝑙. (Triola, 2013).

𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎
𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑝𝑟𝑜𝑐𝑒𝑛𝑡𝑎𝑗𝑒 = ∗ 100%
𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠

La frecuencia absoluta acumulada de una categoría es la suma de las frecuencias absolutas de


todas las anteriores categorías.

La frecuencia relativa acumulada de una categoría es la suma de las frecuencias relativas de


todas las anteriores categorías.

Para comprender mejor los tipos de frecuencia dirigirse al ejemplo 1.3.1 de la sección 1.3.

1.2.2.6 ¿Cómo se puede representar gráficamente las distribuciones de frecuencia?

Las frecuencias absolutas y relativas generalmente se representan mediante histogramas y


gráficas circulares. A continuación, se muestra las representaciones gráficas e interpretaciones
en un ejemplo.

6
Ejemplo 1.2.26.1. Las siguientes son gráficas que representan distribuciones de frecuencias.

Fuente: Hernández Sampieri, Fernández Collado, & Baptista Lucio


(2006).

1.3 Ejemplos: ¿Cómo realizar tablas de frecuencias o gráficas en Excel?

Ejemplo 1.3.1. (Latidos del corazón)

Supóngase que un centro de salud se tomó el número de latidos del corazón por minuto a una
muestra de 30 pacientes y se tabuló en Excel:

7
Se necesita realizar la distribución de frecuencias de los datos y un gráfico apropiado para
realizar los análisis estadísticos. Para realizar esta tarea se usarán tablas dinámicas así:

1- Se selecciona toda la tabla e ir al menú insertar y seleccionar tablas dinámicas:

2- En el menú crear tablas dinámicas verificar


que aparecen señaladas con las celdas
correctas:

3- Del menú crear tabla dinámica, debajo de


“Elija donde desea colocar el informe de
tabla dinámica”, señalar la hoja de cálculo
existente y seleccionar las celdas que se
desee al lado de la tabla original. Dar
aceptar:

4- En la parte superior derecha de la hoja de calcula seleccionar “latidos del corazón por minutos”
y arrastrar hasta parte inferior derecha en el menú FILAS
8
5- En la parte superior derecha de la hoja de cálculo, seleccionar “Paciente” y arrastrar hasta parte
inferior derecha en el menú VALORES:

6- Finalmente, para realizar la frecuencia absoluta se va a VALORES, luego en “Suma de Paciente”,


se hace clic izquierdo y configuración de campo:

9
7- En el menú configuración de campos se selecciona cuenta y aceptar

10
8- Ahí se tiene la tabla de frecuencias:

Como puede observarse esta tabla de frecuencia tiene 23 categorías lo que haría muy
complicados los análisis estadísticos como por ejemplo las representaciones gráficas, entonces
es necesario para este ejemplo agrupar los datos como sigue:

1- Hay que Calcular el valor mínimo de los datos, el valor máximo de los datos y el rango, para
ello se seleccionan los datos así y se usa la función MIN (valor mínimo):

Valor máximo de los datos se usa la función “Max” y se seleccionan los datos así:

11
El rango se calcula como la diferencia entre el valores máximo y mínimo:

2- Calcular el número de intervalos y su amplitud

12
Para calcula el número de intervalo se debe aplicar la fórmula de Surges: k = 1 +
3,3log (n), donde k es el número de intervalos grupos o clases en las que se van a dividir
los datos y n es el número total de datos. Luego se tiene que k = 1 + 3,3 log(30) = 5,9, que
se aproxima a 6 intervalos, en Excel se hace así:

El criterio # Muestra celda I6, es el número de datos en este caso 30.

Para calcular la amplitud del intervalo se debe efectuar la fórmula A = rango/k, se divide
66
el rango entre los k – intervalos, es decir A = 6
= 11, entonces:

La función ENTERO es para aproximar el valor a su entero más cercano.


3- Calcular los limites inferiores y superiores de cada uno de los k – intervalos:

13
El primer intervalo está compuesto por el valor mínimo (límite inferior), para calcular su
límite superior sólo se debe sumar la amplitud al límite inferior:

Los signos de dólar $$ alrededor indican que la celda I8 se tomará como una celda fija al
replican la fórmula.

Para calcular el límite inferior del segundo intervalo se debe copiar la celda del intervalo
superior del primer intervalo, así:

Como se puede ver se copia la celda k11 en la I12

Para terminar los límites inferiores de todos los intervalos, se arrastra o copia la fórmula de la
celda I12 (límite inferior del segundo intervalo), hasta el sexto intervalo, (recuerde que k=6):

14
Y para terminar los límites superiores se arrastra o copia la fórmula de la celda K11 (primer
límite superior) hasta el sexto límite superior:

Finalmente se podrá calcular las distribuciones de frecuencias:

1- Se calcula la frecuencia absoluta acumulada, utilizando la función FRECUENCIA que tiene


dos partes, la primera es los datos, ahí se colocan los 30 datos (C3:C32) de la tabla y la otra
es grupo en esta se indica a los seis limites superiores (K11:K16), así:

15
Nótese que en los datos se anclan usando los dólares $$ para que no se modifique que se
cuenta la frecuencia sobre estos datos, pero en la parte de los grupos no se ancla para ir
disminuyendo las opciones cuando se copie la fórmula y entonces queda:

Y como puede verificarse que se calcula la frecuencia absoluta acumulada, en la última


celda el total es 30.

2- Se calcula la frecuencia absoluta a partir de la frecuencia absoluta acumulada.


Primero se calcula la primera frecuencia del primer intervalo, para esto se copia la celda
“M11”, la primera frecuencia absoluta acumulada, estas siempre coinciden:

16
Para calcular la segunda frecuencia absoluta se hace la diferencia entre, la frecuencia
absoluta acumulada correspondiente (M12) y la frecuencia absoluta acumulada anterior
(M11) y se replica la fórmula hasta el sexto intervalo, así:

Debajo de todas las frecuencias absolutas se hizo la suma de las frecuencias que dio igual
a 30 verificando que estén correctas las frecuencias.

3- Para terminar, se va a calcular las frecuencias relativas y relativas acumuladas. Para la


primera se hace la razón entre cada una de las frecuencias absolutas y el número de la
muestra y se copia la formula hasta el sexto intervalo, así:

17
Esto extrae que porcentaje representa cada uno de los intervalos.
Para el segundo, en el primer intervalo se calcula la frecuencia relativa acumulada
copiando la primera frecuencia relativa, que siempre coinciden:

Luego se calcula la segunda frecuencia relativa acumulada sumando la anterior frecuencia


relativa acumulada (O11) con la correspondiente frecuencia relativa (N11) y se copia hasta
el sexto intervalo, así:

18
Nótese que la última celda O16 da igual a 1, que es lo correspondiente al 100%.

Para terminar y representar las frecuencias como porcentajes cambiamos el formato de


número a porcentaje en las columnas que corresponde a frecuencia relativa y frecuencia
relativa acumulada, de la siguiente manera:

Seleccionar las celdas a las que se les desee cambiar el formato:

Clic derecho y seleccionar formato de celdas:


19
Seleccionar porcentaje y dar aceptar

Y finalmente quedaría lista la distribución de frecuencias:

20
Los gráficos más indicados para los datos agrupados son el histograma y el polígono de
frecuencias, en este caso se va a realizar el histograma, para consultar la realización en
Excel del polígono de frecuencias consulte el libro Gráficas y tablas estadísticas en Excel
2013 paso a paso, citado en el material de estudio al final de esta unidad temática.

1- Se debe insertar en la tabla una columna que reciba el nombre de clases y se colocan
los intervalos. Se hace haciendo clic derecho en la columna frecuencia absoluta, buscar
insertar y seleccionar desplazar hacia la derecha, dar aceptar:

Frecuencia Frecuencia
Límite Límite Frecuencia Frecuencia
Clases Absoluta Relativa
Inferior Superior Absoluta Relativa
Acumulada Acumulada
56 67 56-67 4 4 13,33% 13,33%
67 78 67-78 3 7 10,00% 23,33%
78 89 78-89 4 11 13,33% 36,67%
89 100 89-100 8 19 26,67% 63,33%
100 111 100-111 5 24 16,67% 80,00%
111 122 111-122 6 30 20,00% 100,00%

2- Selecciona las columnas clases y frecuencia absoluta, ir al menú insertar, seleccionar


gráfico de barras o columnas señalado en rojo y seleccionar el primer logotipo
señalado en negro y dar aceptar:

Y se produce este gráfico:

21
Frecuencia Absoluta
10

0
56-67 67-78 78-89 89-100 100-111 111-122

3- Seleccionar en el título del gráfico para colocarle el nombre que se desee:

4- Para unir las barras como corresponde en un histograma se da clic derecho en las
barras azules, se selecciona dar formato a serie de datos:

Al lado derecho en la opción Ancho del intervalo colocar 0%:

22
Y se obtiene:

5- Para crear las líneas que separen el gráfico se hace clic en el botón de la cruz, se
seleccionar ejes y luego en la flecha desplegable más opciones:

Al costado derecho aparece los símbolos de relleno, pentágono y barras, seleccionar


relleno y señala línea sólida y debajo seleccionar el color que se desee:

23
Y se obtendrá el histograma completo:

Látidos del corazón Vs Edad


9
8
7
6
5
4
3
2
1
0
56-67 67-78 78-89 89-100 100-111 111-122

Ejemplo 1.3.2 (Estado civil)

Se requiere realizar la distribución de frecuencias y una gráfica de los siguientes datos:

24
1- Se realiza una tabla dinámica siguiendo las indicaciones del anterior ejemplo, colocando en
FILA estado civil y en VALORES individuo configurando con “cuenta”: (Se le sugiere al
estudiante realizar el ejercicio de generar la tabla dinámica)

Ahora se selecciona pega la tabla en otra celda, para esto se selecciona la tabla se da control+c,
luego se da clic derecho y por último da clic en la opción pegado especial, sólo valores, así:

25
Y el resultado es este:

26
Por último, se borra la parte que dice etiquetas de fila y en donde dice cuenta de individuo se
coloca frecuencia absoluta:

Para calcular la frecuencia absoluta acumulada se copia la frecuencia absoluta en la primera


categoría “casado” y para la segunda categoría” divorciado” se suma entre la frecuencia
absoluta correspondiente (E12) y con la frecuencia absoluta acumulada anterior (F11) y se
duplica esta última fórmula en las demás categorías (soltero y viudo):

Para calcular el resto de frecuencias seguir las indicaciones del ejemplo anterior y finalmente
se llega a la distribución de frecuencias:

27
Cómo la variable es cualitativa uno de los gráficos más apropiados es el diagrama circular o de
sectores, para realizarlo se selecciona la variable y la frecuencia absoluta, se va al menú insertar
y se busca el logotipo con el diagrama circular y se da clic en el que se desee realizar:

Se cambiar el título del gráfico a “Estado civil” como se hizo en el ejemplo anterior:

Estado Civil

Casado Divorciado Soltero Viudo Total general

28
Este diagrama representa mejor los datos utilizando porcentajes o frecuencias relativas para
hacerlo se selecciona la torta, se selecciona la cruz, se toma etiquetas de datos y allí la fecha
despegable:

Y en el menú desplegable de la derecha señalar porcentaje y dejar de señalar valor:

Y da como resultado el diagrama circular:

29
Estado Civil

12%
12%
50%
22%
4%

Casado Divorciado Soltero Viudo Total general

1.4 Ejercicios de reflexión

Ejercicio 1.4.1 Observe esta base de datos:

Recuperado de https://exceltotal.com/tabla-de-frecuencias-en-excel/

Ejercicio 1.4.1. Con la anterior base datos realizar las distribuciones de frecuencias de las
variables: (copiar manualmente la base de datos en Excel)
a) País
b) Ventas

Ejercicio 1.4.2. Realizar los gráficos correspondientes de las dos variables anteriores

Ejercicio 1.4.3. Interpretar brevemente los resultados de los datos anteriores utilizando las
distribuciones de frecuencias y las gráficas. (Use porcentajes para el análisis estadístico de las
variables)

1.5 Conclusiones

30
Esta unidad temática permite adquirir los recursos para recolectar, organizar y representar los
datos mediante las tablas de distribuciones de frecuencias y gráficos estadístico y por ende
poder analizar correctamente los resultados en las investigaciones de índole académicas o
empresariales.

1.6 Material de estudio

Temas que Ubicación (el link web o la


Referencia bibliográfica (APA)
abordan base de datos)
Conceptos Mario, F. (2013). Estadística (pp. 4 -36). Disponible en la base de
básicos de la datos de la UMB Virtual
estadística Biblioteca virtual de
Pearson
Distribuciones Mario, F. (2013). Estadística (pp. 46 -55). Disponible en la base de
de frecuencias datos de la UMB Virtual
Biblioteca virtual de
Pearson
Gráficas y Lerma, D & Murillo, P. (2015). Gráficas y Disponible en la base de
tablas tablas estadísticas en Excel 2013 paso a datos de la UMB Virtual
estadísticas en paso. UMBuscador.
Excel 2013

2. Unidad temática 2 Medidas descriptivas

2.1. Introducción

En la anterior unidad temática se mostró el uso de las distribuciones de frecuencias


como un método para ordenar y representar los datos. En esta unidad temática se
mostrará las medidas descriptivas para resumir los datos, clasificadas en cinco
características principales:

- Centralización
- Variabilidad o dispersión
- Posición o localización
- Forma
- Correlación

Se verán descriptivos tales como:

- Centro: media, mediana y moda


- Variabilidad: varianza, desviación estándar y coeficiente de variación

31
- Posición: mínimo, cuartiles y máximo
- Forma: curtorsis y asimetría de Fisher
- Correlación: covarianza, coeficiente de correlación de Pearson y regresión lineal
simple

El objetivo principal de la unidad temática es que el estudiante, calcule las medidas


descriptivas utilizando Excel e interprete lo que significan estos valores en una
situación problema.

Nota: es importante tener presente que las medidas descriptivas solamente tienen sentidos
para las variables cuantitativas.

2.2. Marco conceptual

2.2.1 ¿Cuáles son las medidas de tendencia central?

Las medidas de tendencia central son indicadores que permiten comprender las
características principales del centro de los datos. En esta sección se van estudiar las
definiciones de la media, mediana y moda.

La media aritmética de un conjunto de datos es el valor que se calcula al sumar los datos
y dividir el total en el número de datos. (Triola, 2013)

∑ 𝑥𝑖
𝑚𝑒𝑑𝑖𝑎 =
𝑁

𝐷𝑜𝑛𝑑𝑒 𝑥𝑖 𝑒𝑠 𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑑𝑎𝑡𝑜 𝑦 𝑁 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠

La mediana de un conjunto de datos, es el valor intermedio cuando los datos se ordenan


en forma ascendente. (Triola, Mario, 2013, p.85).

También es una medida de posición llamada cuartil 2, que se revisará en la siguiente


sección.

La moda en un conjunto de datos “es el valor que se presenta con mayor frecuencia”.
(Triola, Mario, 2013, p.87).

Ejemplo 2.2.1.1. Se tienen las edades promedias de un curso de estudiantes de


estadística: 22, 30, 31, 54, 23, responder:

a. ¿Cuál es la edad promedio?


b. ¿Cuál es la mediada de las edades?
c. ¿Cuál es la moda de las edades?

32
Para resolver el ítem a, se ordena de forma ascendente los datos:

𝑥1 = 22, 𝑥2 = 23, 𝑥3 = 30, 𝑥4 = 31, 𝑥5 = 54

∑ 𝑥𝑖 22 + 23 + 30 + 31 + 54 160
𝑚𝑒𝑑𝑖𝑎 = = = = 40
𝑁 5 5

Se tiene una edad promedio de 40 años.

Para responder el ítem b, se toman los datos ordenados de forma ascendente


22 23 30 31 54

y se elimina el último con el primero, penúltimo con el segundo y así sucesivamente


hasta que queda uno o dos datos en el centro, en este caso quedó un dato y entonces la
mediana corresponde a 30.

En los datos no hay ningún dato que se repita con mayor frecuencia por lo tanto no
existe la moda.

2.2.2 ¿Cuáles son las medidas de variabilidad?

La variabilidad en un conjunto de datos mide que tan dispersos están los datos con
respecto a la media aritmética. Las principales medidas de variabilidad o dispersión son
la varianza, desviación estándar y coeficiente de variación. En esta sección se dará una
breve definición de estas medidas, para revisar su fórmula y aplicación dirigirse al
ejemplo 2.3.1 de la sección 2.3, allí se explica las fórmulas en Excel.

La desviación estándar de un conjunto de valores muéstrales (extraídos de una muestra


se denota con 𝑠) o poblacionales (extraídos de una población 𝜎) “es la medida de
variación de los datos con respecto a la media”. (Triola, Mario, 2013, p. 100).

∑(𝑥𝑖 − 𝑥)2
𝑠=√
𝑛−1

∑(𝑥𝑖 − 𝑥)2
𝜎=√
𝑛

La varianza es la desviación estándar al cuadrado, existe varianza muestral denotada


cómo 𝑠 2 y varianza poblacional denotada por 𝜎 2 .

∑(𝑥𝑖 − 𝑥)2
𝑠2 =
𝑛−1

33
∑(𝑥𝑖 − 𝑥)2
𝜎2 =
𝑛

El coeficiente de variación mide el porcentaje de dispersión de los datos con respecto a


la media.

𝑠
𝑐𝑣𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = ∗ 100%
𝑚𝑒𝑑𝑖𝑎

𝜎
𝑐𝑣𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙 = ∗ 100%
𝑚𝑒𝑑𝑖𝑎

2.2.3 ¿Cuáles son las medidas de posición?

Las medidas de posición se encargan de dividir la distribución de los datos (ordenada de forma
ascendente) en “n” parte iguales. Las principales medidas de posición son el mínimo, los
cuartiles y el máximo.

Los cuartiles dividen la distribución de los datos ordenada en cuatro partes iguales comenzando
utilizando los tres valores siguientes:

El primer cuartil (Q1 ) determina el valor correspondiente al 25% de los datos.


El segundo cuartil (Q 2 ) determina el valor correspondiente al 50% de los datos, coincide con la
mediana.
El tercer cuartil (Q 3 ): determina el valor correspondiente al 75% de los datos.

Para poder calcular el valor de los cuartiles se debe primero calcular la posición que ocupan los
datos y tomar el dato que ocupa la k-ésima posición.

Sea 𝑖 el número de cuartil que se quiere calcular y 𝑘 se calcula utilizando 𝑖. Puede suceder que
las posiciones resulten ser un número entero o decimal, por lo tanto, se diferencian dos casos:

1. Si k es entero se elige la posición correspondiente al valor k, la fórmula queda:


N
Qk = i ( )
4

Donde i = 1, 2, 3

2. Si k es decimal se hace:
(X [k] + X [k]+1 )
Qi =
2

Donde i = 1,2, 3
[k] indica la parte entera del decimal que se toma con el entero menor .

34
En el caso del primer cuartil se hace k=N/4, el segundo cuartil k=N/2 y en el tercer cuartil se
hace k=3N/4, donde N es el número total de los datos.

Las fórmulas se aplican, como se muestra en el siguiente ejemplo.

Ejemplo 2.2.3.1 Dado el siguiente conjunto de datos: 2; 5; 9; 3; 13; 10; 11; 6 ;7. ¿Cuál es el valor
de los cuartiles?

1° ordenamos los datos de menor a mayor:

2; 3; 5; 6; 7; 9; 10; 11; 13
X1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9

n= 9

2° Se determina la posición que ocupa el primer cuartil (i=1) mediante la fórmula: k=


1(N/4)=9/4=2,25, cómo la posición es decimal se hace [k] = [2,25]=2 y [k] + 1 = 2 + 1 =
3 y se halla las posiciones X2 = 3 y X 3 = 5, luego :

(X [k] + X [k]+1 ) (X 2 + X 3 ) (3 + 5) 8
Q1 = = = = =4
2 2 2 2

3° Se determina la posición que ocupa el segundo cuartil (i=2) mediante la fórmula: k=2
(N/4)=2(9/4)=4,5, cómo la posición es decimal se hace [k] = [4,5]=4 y [k] + 1 = 4 + 1 =
5 y se halla las posiciones X4 = 6 y X 5 = 7, luego :

(X [k] + X [k]+1 ) (X 4 + X 5 ) (6 + 7) 13
Q2 = = = = = 6,5
2 2 2 2
3° Se determina la posición que ocupa el tercer cuartil (i=3) mediante la fórmula: k=3
(N/4)=3(9/4)=6,75, cómo la posición es decimal se hace [k] = [6,75]=6 y [k] + 1 = 6 + 1 =
7 y se halla las posiciones X6 = 6 y X 7 = 7, luego :

(X [k] + X [k]+1 ) (X 6 + X 7 ) (9 + 10) 13


Q2 = = = = = 9,5
2 2 2 2

Por último, se extrae el resumen de los cinco números:

Mínimo (el dato con menor valor) 0% 2


Primer Cuartil 25% 4
Segundo cuartil - mediana 50% 6,5
Tercer Cuartil 75% 9,5

35
Máximo (el dato con el mayor valor) 100% 13

En el libro estadística para la administración y la economía, Newbold, P & Carson W & Thorne,
B. (2013) define al resumen de los cinco números, así “el resumen de los cinco números se
refiere a las cinco medidas descriptivas: mínimo, primer cuartil, mediana, tercer cuartil y
máximo” p.49.

𝐦𝐢𝐧𝐢𝐦𝐨 < 𝐐𝟏 < 𝐦𝐞𝐝𝐢𝐚𝐧𝐚 < 𝐐𝟑 < 𝐦á𝐱𝐢𝐦𝐨

“En la práctica, rara vez se calcula estos valores para una muestra tan pequeña cómo n=9, los
cuartiles se utilizan generalmente para describir grandes volúmenes de datos”, (Newbold, P&
Carson W & Thorne, B., 2013, p49); sin embargo, el ejemplo anterior se hizo con el fin de
explicar cómo se utilizan las fórmulas de los cuartiles.

Antes de continuar es importante mencionar que si k es igual a un número entero por ejemplo
si se toma los datos ya ordenados en forma ascendente:

60, 63, 65, 66, 70, 72, 75, 78, 81, 84, 88, 90 el número de datos es n= 12

• Al calcular el primer cuartil sería, k=12/4=3, entonces se encuentra en x3 para


calcular el primer cuartil directamente y se tiene Q1 = x3 =65.
• Se deja al lector como ejercicio hallar el segundo y tercer cuartil.

2.2.4 ¿Cuáles son las Medidas de forma?

Las medidas de forma son valores numéricos que permiten saber la forma gráfica que toma la
distribución de frecuencias de los datos sin necesidad de realizar el grafico. En este módulo se
van trabajar dos medidas de forma, la asimetría y la curtorsis, pero antes se va a definir el
concepto de simetría en una distribución de frecuencias.

Una distribución de frecuencias es simétrica si todas las frecuencias de derecha a izquierda


tienden al centro de los datos como se muestra en la gráfica o si la media, la mediana y la moda
son iguales.

36
Recuperado de https://goo.gl/MgGZ7D
.
Una distribución de frecuencias es asimétrica si las frecuencias descienden más lentamente
hacia la derecha o la izquierda. La asimetría se puede medir como un valor numérico llamado
coeficiente de asimetría de Fisher 𝐠 𝟏 .

En este punto se debe mencionar dos clases de asimetrías:

Asimetría positiva o a la derecha: se presenta si las distribuciones de frecuencias tienden a


descender más lentamente por la derecha. El valor del coeficiente de asimetría es positivo, es
decir g1 > 0.

Recuperado de https://goo.gl/MgGZ7D

37
Asimetría negativa o a la izquierda: se presenta si las distribuciones de frecuencias tienden
a descender más lentamente por la izquierda. El valor del coeficiente de asimetría es negativo,
es decir g1 < 0.

Recuperado de https://goo.gl/MgGZ7D

Cuando se tienen que la distribución de frecuencia es simétrica el valor que toma el coeficiente
de asimetría es 0, es decir g1 = 0. En resumen se tiene de la asimetría que:

Recuperado de https://goo.gl/HtZ2B4

Como se observa en las gráficas la asimetría describe la distribución de la gráfica observada de


forma horizontal, faltaría de forma vertical. Para este fin se definirá la curtorsis.

38
Curtorsis: mide que grado de apuntamiento hacia arriba y hacia abajo, tiene la distribución de
frecuencias con respecto a las medidas de tendencia central de los datos. Se simboliza con la
letra K.

Se definen tres distribuciones según su grado de curtorsis:

Distribución leptocúrtica: es una distribución de frecuencia que presenta un alto grado de


concentración alrededor de los datos centrales. K>0

Distribución mesocútica: es una distribución de frecuencias que presenta un grado de


concentración medio alrededor de los datos centrales. K=0

Distribución platicúrtica: es una distribución de frecuencias que presenta un reducido grado


de concentración alrededor de los datos centrales. K<0

Recuperado de https://goo.gl/MgGZ7D

El coeficiente de asimetría de Fisher y la curtorsis tienen formulas muy complejas y cómo este
curso se relaciona con la aplicabilidad del programa Excel en análisis estadístico se usará
directamente el programa en los ejemplos de la sesión 2.3.

2.2.5. ¿Cuáles son las medidas de relación entre dos variables?

La idea de este apartado es introducir el concepto de relación lineal entre dos variables. Para
medir el nivel de relación lineal entre dos variables se utiliza la covarianza y el coeficiente de
correlación lineal de Pearson o simplemente coeficiente de correlación.

Covarianza: es una medida de varianza entre dos variables. Sea X, Y dos variables distintas la
covarianza poblacional y muestral se define como:

Covarianza poblacional – cuando se toma la población

∑ni=1(xi − μx ) (yi − μy )
σxy =
N
39
Donde xi es los datos de la variable X, yi es los datos de la variable Y, μx es la media poblacional
de la variable X y μy es la media poblacional de la variable Y. “N” es el tamaño de la población.

Covarianza muestral – cuando se toma una muestra de la población

∑ni=1(xi − x̅) (yi − y̅)


sxy =
n−1

Donde xi es los datos de la variable X, yi es los datos de la variable Y, x̅ es la media muestral de


la variable X y y̅ es la media muestral de la variable Y. La letra “n” es el tamaño de la muestra.

Cuando la covarianza es positiva, esto indica que la relación entre las variables X e Y es creciente
o directamente proporcional, pero si la covarianza es negativa indica que la relación lineal entre
las variables X e Y es decreciente o inversamente proporcional.

De la covarianza se deriva el coeficiente de correlación r, que posee la propiedad de que siempre


r es un valor entre -1 y 1, es decir −1 ≤ r ≤ 1.

Coeficiente de correlación: es el cociente entre la covarianza y el producto de las desviaciones


estándares de cada uno de las variables X e Y.

Coeficiente de correlación poblacional – cuando se toma toda la población

σxy
ρ=
σx σ y

Donde σxy es la covarianza poblacional entre X e Y, σx es la desviación estándar poblacional de


la variable X y σy es la desviación estándar poblacional de la variable Y.

Coeficiente de correlación muestral – cuando se toma una muestra de la población

sxy
r=
sx sy

Donde sxy es la covarianza muestral entre X e Y, sx es la desviación estándar muestral de la


variable X y sy es la desviación estándar muestral de la variable Y.

Cuanto más cercano esté el coeficiente de correlación a 1, los puntos tienden a graficarse como
una recta ascendente, en cambio cuanto más cercano esté el coeficiente de correlación lineal a
-1 los puntos tienden a una recta descendente. Si r = 0 o “tiende a 0” indica que no existe ninguna
relación lineal entre X e Y.

40
en las siguientes gráficas se presentan distintos ejemplos con algunos valores de r indicado en
la parte superior derecha de las gráficas:

Fuente: Newbold, P, Carson W, Thorne, B. (2013). Estadística para administración y economía.


Pearson educación, Madrid.

Ejemplo 2.2.5.1. En una muestra de 20 universitarios se quiere saber la relación entre el número
de consumo diario de cigarrillos y la cantidad de veces que han sentido taquicardia en el último
mes, para analizar el riesgo del tabaquismo en la salud. Para el análisis estadístico se requiere
utilizar las medidas de relación entre ambas variables, usando Excel.

1° Se tabulan los datos en un archivo de Excel

¿Cuántos ¿Cuántas veces ha


cigarrillos sentidos
N° consume usted taquicardia o fatiga
Estudiante al día? X este último mes? Y
1 6,5 3
2 6,5 3
3 14,5 3
4 2,5 0
5 2,5 0
6 6,5 0
7 10,5 2
8 10,5 1

41
9 2,5 0
10 6,5 0
11 14,5 2
12 2,5 0
13 14,5 2
14 10,5 3
15 2,5 0
16 14,5 1
17 2,5 0
18 2,5 0
19 2,5 1
20 14,5 2

• Se usarán las fórmulas muéstrales de la covarianza y coeficiente de correlación porque se


trata de una muestra no de toda la población.

2° Para calcular el coeficiente de correlación primero se calcula las desviaciones estándares


de las variables X e Y respectivamente y la covarianza de ambas variables. Para una muestra
se usa la función DESVEST.M (DESVEST: desviación estándar y M: muestra), para una
población se usa DESVEST.P.

Luego sx = 5,005

42
Luego Sy = 1,225 y la covarianza muestral de X e Y se calcula con la función covarianza.M:

3° Ya se calculó las varianzas y la covarianza de las variables luego usando la fórmula de


coeficiente de correlación muestral:
sxy
r=
sx sy

Entonces el coeficiente de correlación es 0,6605, lo que indica una correlación lineal


directamente proporcional y media alta entre las variables cantidad de cigarrillos al días y
cantidad de veces que sintió taquicardia en el último mes.

43
2.2.6 ¿Qué es regresión lineal simple?

La regresión lineal simple es una función lineal en donde se relacionan dos variables, una
variable independiente x y una variable dependiente y. En el caso particular de un conjunto de
datos lo que se querría verificar es la dependencia lineal de una variable Y con respecto a una
variable independiente X, explicada mediante la función lineal:

𝒀 = 𝒂 + 𝒃𝑿

Es importante recordar que una función lineal es representada por una recta que en este caso
𝒂 describe la “y-intercepción” (que es el punto de corte con el eje “y”) y 𝒃 “la pendiente de la
recta” que indica la inclinación de la recta.

En el ejemplo siguiente se mostrará cómo se pueden hallar 𝒂 y 𝒃 de forma sencilla con el uso
de Excel y cómo se utiliza la regresión lineal como una función pronóstico.

Ejemplo 2.2.6.1. Retomando el ejemplo 2.25.1. de la sección anterior con las variables “cantidad
de cigarrillos diarios consumidos” y “cantidad de veces que se sufre de taquicardia en el último
mes”, se requiere calcular la recta de regresión lineal para pronosticar, que sucede si:
a) Se consumen 5 cigarrillos, ¿Cuántas veces se sentirá taquicardia por cada uno de los
valores?
b) Un paquete cigarrillos (20 cigarrillos), ¿Cuántas veces se sentirá taquicardia por cada
uno de los valores?
Adicional para un mejor análisis estadístico se va a realizar la gráfica de la recta de regresión.

Para dar solución al problema, la idea es calcular una ecuación de la forma 𝑌 = 𝑎 + 𝑏𝑋, donde
“X” es la variable independiente (cigarrillos, porque el valor 5 cigarrillos se toma
aleatoriamente) y “Y” la variable dependiente (taquicardia, que depende de los valores de la
cantidad de cigarrillos consumidos diariamente). Para encontrar a y b en la ecuación se va a
utilizar el menú análisis de datos de Excel, pero antes se debe activar:

1° Archivo>opciones (seguir el color azul)

44
2° Archivo>opciones>complementos>herramientas para análisis>complementos de Excel> ir
(guiarse del color de las letras)

3° Seleccionar herramientas para el análisis y dar aceptar

45
4°El menú “análisis de datos”, se puede ver activo en datos<análisis de datos:

5° Al dar clic en “análisis de datos” aparece el menú y se selecciona hasta abajo Regresión y se
da aceptar:

6° Aparece el menú regresión, entonces en rango Y de entrada selecciona la variable Y:


taquicardia.

46
7° En rango X de entrada seleccionar la variable X: cigarrillos.

8° en opciones de salida seleccionar cualquier celda que esté en la misma hoja y aceptar.

9° sale el siguiente reporte:

10° El parámetro a se encuentra en donde dice intercepción y coeficientes:

47
Entonces a= -0,063 y a la pendiente es el coeficiente que está debajo de b.

Entonces b= 0,161 y la ecuación de la recta es:

Y = −0,063 + 0,161X

a) Cuando X=5 cigarrillos entonces Y=−0,063 + 0,161(5) = 0,74


b) Cuando X=20 entonces Y=−0,063 + 0,161(20) = 3,157
Por lo tanto, cuando se consumen 5 cigarrillos diarios la cantidad de veces que se sufre de
taquicardia al mes es 0,74 y al consumir un paquete de cigarrillos al día la cantidad de veces
que se sufre de taquicardia al mes es de 3,157.

Para realizar la gráfica de la recta de regresión lineal de las variables se sigue los siguientes
pasos:

1° Selecciona las celdas C1: C21 (variable X) y D1:D21 (variable Y)

48
2° Menú: insertar>Gráfico>Gráfico de dispersión

El resultado es este gráfico:

49
¿Cuántas veces ha sentidos taquicardia o fatiga este
último mes? Y
3,5
3
2,5
2
1,5
1
0,5
0
0 2 4 6 8 10 12 14 16

3° colocar el cursor sobre los puntos azules, dar clic derecho y seleccionar agrega línea de
tendencia.

4° La recta de regresión es graficada, para cambiar de color a rojo se va formato de línea de


tendencia, se elige el logotipo de pintura y en color se selecciona rojo:

50
5° Para hacer que aparezca la ecuación de la recta, en formato de línea de tendencia se elige el
logotipo de barras y en la parte inferior señalar “presentar ecuación de la gráfica”:

Se cambia el título del gráfico y se tiene:

51
Recta de regresión lineal X,Y
3,5

2,5
y = 0,1618x - 0,0632
2

1,5

0,5

0
0 2 4 6 8 10 12 14 16

6° Por último se va a colocar la etiqueta de los datos: se coloca sobre los puntos azules el cursor
se da clic derecho y se elige “agregar etiquetas de los datos<agregar llamadas de datos”.

Y resulta finalmente,

52
Recta de regresión lineal X,Y
3,5

3 6,5; 3 10,5; 3 14,5; 3

2,5

2 10,5; 2 14,5; 2
y = 0,1618x - 0,0632
1,5

1 2,5; 1 10,5; 1 14,5; 1

0,5

0 2,5; 0 6,5; 0
0 2 4 6 8 10 12 14 16

Interpretaciones
1. La gráfica representa en el eje horizontal x: cantidad de cigarrillos diario y en el eje
vertical Y: cantidad de taquicardia en el último mes, cada uno de los puntos de la tabla
están graficados por ejemplo cuanto X= 2.5 se ve que Y=0, otro punto es X= 10,5 y Y= 3.
Se trabaja como un producto cartesiano.
2. La recta reafirma lo descrito por el coeficiente de correlación 0,6605 que es positiva y
creciente, lo que indica que la relación entre la cantidad de cigarrillos consumidos al día
y la cantidad de taquicardia en el último mes es directamente proporcional.
3. Gráficamente se ve que la recta es un buen modelo para los datos dimensiones X, Y
confirmado lo expresado por r=0,6605.

2.3. Ejemplos: ¿Cómo realizar el análisis de los estadísticos con Excel?

Ejemplo 2.3.1. (Gaseosas)

El número de unidades de gaseosas Postobón vendidas en un almacén en el último año,


local está descripto en la siguiente tabla:

Mes Unidades
1 60
2 84
3 65
4 67
5 75
6 72
7 80

53
8 85
9 63
10 82
11 70
12 75
Si se toma como población el último año, calcular e interpretar los estadísticos de
tendencia central, variabilidad, posición y forma.

1° Primero se calcula la medida para esto se Suma todos los elementos de las unidades
suma (C5:C16) en la celda c17 y colocar le número de muestras N=12 en la celda C18.

Y la media se calcula en la celda D23 es el cociente entre la suma de las unidades y el número
de elementos, es decir
𝛍 = 𝐂𝟏𝟕/𝐂𝟏𝟖

54
2° Para calcular las demás medidas de tendencia central, la mediana se va a calcular con las
medidas de posición más adelante y la moda se calcula con la función MODA y se toma las celdas
C6 a C15 así:

3° Para calcular las medidas de variabilidad se calcula primero la varianza poblacional con la
fórmula:

σ2 = (∑(xi − μ)2 ) /N
i=1

Se calcula xi − μ en la columna D4 a D16 ( es la diferencia entre las unidades x y la media que


está en la celda D23) se ancla con $D$23 para cada una de las celdas :

55
Ahora para hacer (𝐱𝐢 − 𝛍)𝟐 se eleva al cuadrado la columna
xi − μ en cada una de sus celdas:

56
Se suma la columna en la celda E17 de la fila Total:

57
Ahora ya se tienen todos los datos de la fórmula (la sumatoria y N=12) luego se hace el cociente
entre E17 y C18:

Y ahora se calcula fácilmente la desviación estándar y coeficiente de variación con las fórmulas:

σ = √σ2 ; desviación estándar


C. V = σ/μ coeficiente de variación

Entonces se hace para la desviación estándar raíz(D27), D27 es la varianza y el coeficiente de


variación D28/D23, D28 desviación estándar y D23 media así:

58
4° Para calcular las medidas de posición se van a utilizar las funciones, MIN (número1;
número2; …), CUARTIL.EXC (matriz, cuartil) y MAX (número1, número2; ...). Para la función
CUARTIL.EXC, en el argumento “matriz” se colocan las celdas a las cuales se les desea realizar
el calcula y en el argumento “cuartil” se colocar el número de 1,2 o 3, según sea el cuartil que se
desee calcular. Las funciones MIN y MAX calculan los valores mínimo y máximo del rango de
números seleccionados.

El resultado es:

5° Para calcular las medidas de forma, obsérvese las fórmulas respectivas:

Coeficiente de Asimetría de Fisher:


59
∑N
i=1(xi − μ)
3
g1 =
Nσ3

Curtorsis:
∑N
i=1(xi − μ)
4
g2 = −3
Nσ4

Entonces se hará algo parecido a lo que se hizo con la varianza aprovechando que ya se tiene la
columna xi − μ, se eleve a la 3 y a la 4, así:

Y se hacen las sumas totales de las filas (xi − μ)3 "F17" y (xi − μ)4 “F18”:

60
Ya se tienen ∑N N
i=1(xi − μ) en E17 y ∑i=1(xi − μ) en G17 luego:
3 4

61
Luego la tabla general queda:

Unidades
Mes X 𝐱𝐢 − 𝛍 (𝐱𝐢 − 𝛍)𝟐 (𝐱𝐢 − 𝛍)𝟑 (𝐱𝐢 − 𝛍)𝟒
1 60 -13,17 173,36 -2282,59 30054,07
2 84 10,83 117,36 1271,41 13773,63
3 65 -8,17 66,69 -544,67 4448,15
4 67 -6,17 38,03 -234,50 1446,11
5 75 1,83 3,36 6,16 11,30
6 72 -1,17 1,36 -1,59 1,85
7 80 6,83 46,69 319,08 2180,37
8 85 11,83 140,03 1657,00 19607,78
9 63 -10,17 103,36 -1050,84 10683,52
10 82 8,83 78,03 689,25 6088,33
11 70 -3,17 10,03 -31,75 100,56
12 75 1,83 3,36 6,16 11,30
Total 878 0,00 781,67 -196,89 88406,97
N 12

Y va quedando la tabla de medidas descriptivas o estadísticos así:

62
Medidas de tendencia
central Símbolo Valor
Media μ 73,17
Mediana Me 73,50
Moda Mo 75,00
Medidas de variabilidad
Varianza σ2 65,14
Desviación estándar σ 8,07
Coeficiente de variación CV 0,11
Medidas de posición
Mínimo Min 60,00
Primer cuartil Q1 65,50
Mediana Q2 73,50
Tercer cuartil Q3 81,50
Máximo Max 85,00
Medidas de forma
Coeficiente de asimetría g1 -0,03
Curtorsis k -1,26

6° Solamente falta la interpretación de los estadísticos:

Medidas de
tendencia central Símbolo Valor Interpretación
El promedio de ventas de gaseosa
Media μ 73,17 Postobón es 73,17 unidades.
El 50% de las unidades vendidas de
gaseosa Postobón está por debajo de
Mediana Me 73,50 73,5.
La tendencia en ventas de gaseosa
Moda Mo 75,00 Postobón es de 75 unidades.
Medidas de
variabilidad
Varianza σ2 65,14 La varianza es 65,14
La dispersión de los datos es de 8,07
Desviación estándar σ 8,07 unidades
El porcentaje de dispersión de los
datos es del 11% indica un nivel de
Coeficiente de dispersión bajo y da una credibilidad
variación CV 0,11 al estadístico de la media.
Medidas de
posición
El valor más bajo es de 60 unidades
Mínimo Min 60,00 vendidas

63
El 25% de las unidades vendidas está
Primer cuartil Q1 65,50 por debajo de 65,50 unidades.
El 50% de las unidades vendida está
Mediana Q2 73,50 por debajo de 73,5
El 75% de las unidades vendidas está
Tercer cuartil Q3 81,50 por debajo de 81,5.
El valor más alto es de 85 unidades
Máximo Max 85,00 vendidas
Medidas de forma
La forma de la distribución de
frecuencia es asimétrica a la
Coeficiente de izquierda, es decir sus frecuencias
asimetría g1 -0,03 tiende a descender a la izquierda.
La distribución de frecuencias es
platicúrtica, presenta un reducido
grado de concentración alrededor de
Curtorsis k -1,26 los datos centrales.

Ejemplo 2.3.2. (Latidos del corazón)

Retomando el ejemplo 1.3.2 se va calcular los estadísticos de los datos, se tiene la tabla:

Límite Límite
Clases
Inferior Superior

56 67 56-67
67 78 67-78
78 89 78-89
89 100 89-100
100 111 100-111
111 122 111-122

Para realizar los cálculos que se explicaron en el ejemplo anterior se debe calcular una columna
llamada “Marca de clase” que es el promedio entre los límites inferiores y superiores:

64
1° Para calcular la media en los datos agrupados o tablas de frecuencias se debe usar la fórmula:
N x f
i i
μ=∑
i=1 𝑁

donde fi es la frecuencia en la clase i ó i − ésimo dato


Esta media recibe el nombre de media ponderada
Por tanto se creará la columna donde se multiplique xi fi

Y luego se suma todas las celdas de la columna xi fi ∶

65
Luego se tiene que la media es el cociente entre la celda N17 (2780) y N=30 localizado en la
celda M17:

En promedio los pacientes tienes 92,67 latidos por minuto.

2° Ahora se calculan las medidas de variabilidad, para ello se usa la fórmula de la varianza para
datos agrupados o en tablas de frecuencias:
∑N 2
i=1(xi − μ) fi
σ2 =
N
donde μ es la media
Se va a calcular la Columna (xi − μ) de la misma manera que se hizo en el ejemplo anterior:

66
Se calcula (xi − μ)2 :

Se calcula (xi − μ)2 fi

67
Se calcula ∑N 2
i=1(xi − μ) fi

∑N 2
i=1(xi −μ) fi
Y finalmente la varianza σ2 = N

68
Falta calcular la desviación estándar y el coeficiente de variación.

Desviación estándar: σ = √σ2

σ
Coeficiente de variación: C.V= μ

69
Y se han hallado los estadísticos:

Medidas de tendencia central Símbolo Valor


Media 92,67
Medidas de variabilidad
Varianza 28064,83
Desviación estándar 167,53
coeficiente de variación 180,78%
2.4. Ejercicios de reflexión

Ejercicio 2.3.1. La siguiente tabla describe el número de ventas de un producto en los últimos
12 trimestre o 3 años. (Copiar en Excel los valores)

a) Determinar e interpretar el coeficiente de correlación de las variables “trimestre” y


“ventas”.
b) Determinar la ecuación de la recta de regresión lineal tomando como variable dependiente
las ventas.

70
c) Pronosticar las ventas para los próximos 4 trimestres (para los trimestres 13, 14, 15 y 16,
use la recta de regresión lineal simple).

2.5. Conclusiones

Esta unidad temática el estudiante ha adquirido los recursos para realizar mediciones en una
investigación, utilizando las medidas descriptivas para resumir y analizar, el comportamiento
de los datos y sus distintas características.

2.6. Material de estudio

Ubicación
(el link
Temas que abordan Referencia bibliográfica (APA) web o la
base de
datos)
Tipos de datos Mario, F. (2013). Introducción a la estadística. Bases de
Pearson. Estadística (pp. 11 -15). Ciudad : datos de la
Ciudad de México. UMB
Distribuciones de Mario, F. (2013). Resumen y gráfica de datos. Bases de
frecuencias Pearson. Estadística (pp. 46 -55). Ciudad: datos de la
Ciudad de México. UMB
Histogramas Mario, F. (2013). Resumen y gráfica de datos. Bases de
Pearson. Estadística (pp. 55-59). Ciudad : datos de la
Ciudad de México. UMB
Graficas estadísticas Mario, F. (2013). Resumen y gráfica de datos. Bases de
Pearson. Estadística (pp. 59 - 75). Ciudad: datos de la
Ciudad de México. UMB
Medidas de Tendencia Mario, F. (2013). Estadísticos para describir, Bases de
Central explorar y comparar datos. Pearson. Estadística datos de la
(pp. 46 -55). Ciudad: Ciudad de México. UMB
Medidas de variación o Mario, F. (2013). Estadísticos para describir, Bases de
dispersión explorar y comparar datos. Pearson. Estadística datos de la
(pp. 99 -113). Ciudad : Ciudad de México. UMB
Medidas de posición Mario, F. (2013). Estadísticos para describir, Bases de
relativas y gráfico de cajas explorar y comparar datos. Pearson. Estadística datos de la
(pp. 114 - 134). Ciudad : Ciudad de México. UMB
Forma de una distribución Newbold, P, Carson W, Thorne, B. (2013).
Estadística para administración y economía (pp.
46 - 47). USA.

71
Medidas de relación entre Newbold, P, Carson W, Thorne, B. (2013). La Bases de
dos variables utilización de medidas numéricas para describir datos de la
datos. Pearson. Estadística para administración UMB
y economía (pp. 46 - 47). USA.
Regresión Lineal Simple Newbold, P, Carson W, Thorne, B. (2013). La Bases de
(dos variables) utilización de medidas numéricas para describir datos de la
datos. Pearson. Estadística para administración UMB
y economía (pp. 46 - 47). USA.

REFERENCIAS BIBLIOGRÁFICAS UTILIZADAS EN EL MÓDULO N°1

Origen del
Referencia APA para su uso
material
Bases de datos Mario, F. (2013). Probabilidad. Estadística. México: Pearson
UMB Newbold, P, Carson W, Thorne, B. (2013). Estadística para administración y
economía. México: Pearson
Sitios web Hernández, R., Fernandez, C., & Baptista L., P. (2010). Metodología de la
libres investigación. México: McGraw-Hill.

72

También podría gustarte