Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lectura Fundamental
Aplicaciones de la estadística
descriptiva II
Contenido
1 Asimetría y curtosis
2 Medidas de dispersión
Cómo mejorar...
Las fórmulas y procedimientos estadísticos que se revisan en cada una de las
Unidades se realizan de forma “manual” para una mayor comprensión de los
temas, sin embargo, es importante tener en cuenta que los programas como
Microsoft Excel y algunos más específicos como SPSS facilitan este proceso y
nos brindan resultados inmediatos.
1. Asimetrías y curtosis
De acuerdo con Cazau (2006):
Las medidas de asimetría y curtosis se refieren a la “forma” de la distribución y, aunque no son tan
importantes como las medidas de posición y dispersión y son muy poco utilizadas, aportan también
información sobre la distribución de los valores de una muestra o población. (s. p.)
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 2
Media Moda Moda Media
Figura 1. Asimetría negativa y positiva
Fuente: elaboración propia
Lo cual corresponde a la diferencia entre la media (x) y la mediana (md) tres veces, sobre la
desviación estándar (s), de esta manera el resultado del coeficiente de asimetría se relaciona con
cada uno de los estados de la asimetría de la siguiente manera: cuando la asimetría es negativa,
el coeficiente de asimetría de Pearson es mayor que cero, debido a que la media de los datos es
mayor que la mediana; en caso de que no se presente asimetría, la media y la mediana serían iguales,
mientras que para la asimetría positiva se representa por un coeficiente menor a cero, debido a que la
media de los datos es menor que la mediana.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 3
Es importante recordar que cuando se trabaja con medidas de forma, las medidas de tendencia
central tienen una relación directa en las distintas asimetrías.
• Cuando se habla de distribución asimétrica positiva, es porque existe una gran cantidad de datos
atípicos altos en el conjunto de datos, en este sentido la media se dirige hacia los datos atípicos,
en este caso la media es mayor que la mediana y la moda.
• Cuando la distribución de datos es simétrica, las medidas de tendencia central son iguales o
aproximadamente iguales.
• En el caso de la simetría negativa, se presentan valores atípicos bajos, lo que hace que la tendencia de
la media vaya en dirección de estos datos, siendo así menor que la mediana y que la moda.
De la misma manera, dentro de las medidas de forma se encuentra la curtosis, la cual hace
referencia a la forma en que la curva de los datos adquiere apuntamiento, lo que correspondería a
la aglomeración de los datos hacia el centro de la distribución de estos. Al igual que la asimetría, la
curtosis representada en la curva de los datos también presenta unos estados de apuntamiento o
variantes específicas asociadas a su forma, las cuales son leptocúrtica, mesocúrtica y platicúrtica.
La curtosis de un grupo de datos se calcula por medio de su coeficiente, el cual se expresa mediante
(Ck) y se representa bajo la siguiente fórmula:
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 4
Donde:
x = Media
s = Desviación típica
La interpretación del coeficiente curtosis con relación a los estados de apuntamiento es la siguiente:
• Para las leptocúrticas el Ck= >0, lo cual indica que hay una alta concentración de datos respecto
a la media.
• Para las mesocúrticas el Ck= 0, lo cual nos dice que hay una concentración normal de los datos
respecto a su media.
• Para las platicúrticas el Ck = < 0, lo cual nos dice que hay una baja concentración de datos
respecto a la media.
De acuerdo con lo anterior, las medidas de forma permiten caracterizar los datos en cuanto a su
uniformidad y grado de concentración en la región central de la distribución de los datos. En este
sentido la simetría de los datos se relaciona de manera estrecha con las medidas de tendencia central
en las variables cuantitativas.
Como ejemplo de curtosis pensemos en el siguiente grupo de datos que corresponde a la distribución
de frecuencias de la variable ansiedad, medida mediante una prueba aplicada a 30 sujetos.
1 13 25 37 49
3 15 27 39 51
5 17 29 41 53
7 19 31 43 55
9 21 33 45 57
11 23 35 47 59
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 5
Cómo mejorar...
Es importante reconocer que el cálculo de la curtosis de un conjunto de datos se
puede hacer de manera rápida y sencilla por medio de Microsoft Excel utilizando
la función “CURTOSIS”.
A partir del conjunto de datos que se presenta, y aplicando la función de Microsoft Excel,
encontramos que el coeficiente de asimetría para este conjunto de datos es -1,2. Teniendo en cuenta
los valores de referencia, esto nos indicaría que la curtosis de los datos es de tipo platicúrtica teniendo
en cuenta que el Ck = < 0, lo cual nos dice que hay una baja concentración de datos respecto a la
media. Comprobemos esta información con el gráfico de la campana de Gauss.
0,02
0,015
0,01
0,005
0
0 10 20 30 40 50 60 70
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 6
Cómo mejorar...
Desarrollar una campana de Gauss de forma manual puede ser un ejercicio
bastante dispendioso, por tal motivo este proceso se realiza mediante programas
informáticos; la función “DISTRIBUCIÓN NORMAL” facilita este proceso
en Microsoft Excel. Para tal fin se debe calcular con antelación la media, la
desviación estándar y reconocer los xi.
2. Medidas de dispersión
Antes de analizar las medidas de dispersión (o variabilidad), es prudente comprender este concepto;
de acuerdo con González Betanzos et al. (2017):
De acuerdo con lo anterior, las medidas de dispersión o variabilidad por su parte nos indican la forma
en que el conjunto de datos se comporta respecto a las medidas de tendencia central, en especial la
media. Según Hernández Sampieri et al. (2014), “Las medidas de variabilidad indican la dispersión de
los datos en la escala de medición de la variable considerada y responden a la pregunta: ¿dónde están
diseminadas las puntuaciones o los valores obtenidos?” (p. 239).
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 7
Grupo 1
1 2 3 4 5
Grupo 2
1 2 3 4 5
Como se puede evidenciar, los datos de los dos grupos arrojan una media de 3.0, así mismo la
mediana en los dos grupos es 3.0, sin embargo, en el grupo 1, los datos estuvieron más alejados de
la media (representada por la línea roja), mientras que en el grupo 2, los datos se acercaron más a
la media, por tal motivo se puede argumentar que los datos del grupo 1 tienen una mayor dispersión
respecto a la media. Este sería el principio fundamental de este tipo de medidas. En otros términos, se
podría decir que las medidas de dispersión permiten reconocer la homogeneidad o heterogeneidad de
un conjunto de datos.
En general, se pueden clasificar las medidas de dispersión en absolutas y relativas. Las medidas de dispersión
absolutas son aquellas que vienen expresadas en las mismas unidades que los datos. Las medidas de dispersión
relativas no vienen expresadas en las unidades de los datos sino en porcentaje. (s. p.)
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 8
2.1. Rango
El rango o amplitud es una medida que permite identificar la distribución de los valores dentro de
una serie de datos, la amplitud en el rango indica que los valores están dispersos, mientras que si el
rango es bajo se entiende que no hay mucha dispersión en los datos. El rango es calculado mediante
una sencilla operación aritmética que consiste en restar al valor más alto de la serie de datos el
valor más bajo de la misma serie. Se representa bajo la siguiente fórmula (es necesario anotar que la
presentación de la fórmula tiene variaciones en los textos de estadística, sin embargo, siempre está
representada por el valor mayor y el menor de una serie de datos):
R=máx(x)-min(x)
Si se quisiera analizar el rango de la siguiente serie de datos: 26, 28, 29, 30 ,31, 32, 33, 34, 37; se
determinaría considerando los dos valores extremos, en este caso 26 y 37.
R= 37 - 26
R= 11
Si se toma como referencia otro conjunto de datos: 26, 37, 48, 59, 60, 72, 81, 94; el rango se
ampliaría y, por ende, se determinaría una mayor dispersión.
R= 94 - 26
R= 68
Por último, si los datos correspondieran a edades de personas, se podría determinar una mayor
homogeneidad en términos generacionales en el primer grupo. Algunos autores coinciden en que
la mayor dificultad que presenta el rango es que solo considera los valores externos de la serie, sin
brindar comprensiones acerca de los demás datos. Según Salazar y Del Castillo (2018) “su utilización
está más ligada al control estadístico de procesos y no es muy utilizada como medida de dispersión, ya
que se ve muy influenciada por la presencia de los valores extremos tanto inicial como final” (p. 67).
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 9
2.2. Varianza
La varianza es una medida de dispersión que posibilita identificar la organización de los datos respecto
a la media aritmética de estos, la varianza está denotada por (S2), el cálculo de la varianza de una serie
o conjunto de datos se obtiene mediante la siguiente fórmula:
Donde,
La fórmula anterior se podría interpretar diciendo que la varianza es el promedio de los cuadrados de las
desviaciones con respecto a la media aritmética, el resultado se interpreta teniendo en cuenta que mientras
más alejados se encuentren los datos de su media, la varianza se incrementará; mientras que si los datos
convergen hacia la media, la varianza disminuirá; de la misma manera se entiende que la varianza nunca será
negativa, su valor mínimo será cero cuando todos los datos de una serie sean idénticos.
Observemos los siguientes ejemplos donde se toman dos series de datos. La primera serie muestra
datos diferentes; mientras que la segunda presenta datos idénticos tal y como se representa a
continuación, podemos suponer que estos datos corresponden a los puntajes obtenidos por dos
grupos de personas en una prueba de habilidad mental en una escala de 1.0 a 5.0.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 10
En la serie de datos anterior se identifica que la varianza calculada para la muestra es de 4,2, lo cual indicaría
que los datos varían de forma moderada respecto a la media que es 3.0. Como se puede observar, la mitad
de los datos está por debajo de este valor mientras que la otra mitad está por encima.
En la serie de datos idénticos, la varianza es igual a 0, esto indica que los datos no varían entre sí, ni
respecto a la media.
La desviación estándar podría entenderse como el promedio de las desviaciones individuales de cada
dato respecto a la media de una distribución, es la medida de dispersión de más uso en estadística
descriptiva, al igual que las demás medidas de dispersión expresa los valores de un conjunto de datos
respecto a la media, la diferencia de esta con la varianza radica en que los valores de la desviación
estándar no están expresados en cuadrados, dicho de otra forma, se podría decir que la desviación
estándar es la raíz cuadrada de la varianza. La fórmula mediante la cual se obtiene es la siguiente:
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 11
Tabla 2. Ejemplo de datos desviación estándar
DATOS X S2
20 21 22 22 23 24 22 1,3
19 20 20 23 24 26 22 2,5
18 19 20 22 25 28 22 3,5
22 22 22 22 22 22 22 0,0
Límites máximos: s2 + X
Límites mínimos: X- s2
Los límites máximos y los límites mínimos indican los parámetros bajo los cuales se distribuyen los
datos, por tanto, la mayoría de los datos se encuentran dentro de estos límites. Para el caso del grupo
1 los límites serían 23,3 y 20,7 y en un gráfico de dispersión se representarían de la siguiente forma:
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 12
2.4. Desviación media
La desviación media es una medida de dispersión que se entiende como el promedio de las
desviaciones de todos los datos de un conjunto. Para calcular la desviación media de un conjunto de
datos ordenados se debe trabajar sobre la siguiente fórmula:
De acuerdo con lo anterior, la desviación media del conjunto de datos del segundo grupo del ejemplo
anterior se calcularía de la siguiente forma:
Cálculo de la media:
Una desviación media elevada implica variabilidad de los datos, si el resultado de la desviación media se
acerca a cero, denota homogeneidad de los datos.
2.5. Percentiles
Los percentiles son aquellos valores que dividen a los datos ordenados de forma creciente, en cien
partes iguales. Existen noventa y nueve percentiles que se denotan por P1, P2, ..., P99. Entre dos
percentiles consecutivos se encuentra el 1 % de los datos. Así, por ejemplo, entre los percentiles P10 y
P20 se encuentran 10 % de los datos. (p. 71)
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 13
De acuerdo con lo anterior, podríamos decir que de la misma manera que la mediana divide el
conjunto de datos en dos partes iguales, los percentiles lo hacen en cien partes iguales. Así mismo
existen los cuartiles y deciles que dividen los datos en cuatro y diez partes iguales, respectivamente.
Durante este apartado se hará énfasis en los percentiles, la forma de calcular los percentiles al interior
de un conjunto de datos es la siguiente:
Inicialmente se parte de un conjunto de datos que debe ser ordenado de menor a mayor, podrían
ser datos correspondientes a estaturas expresadas en centímetros, como los que se presentan en la
siguiente tabla:
Supóngase que se desea encontrar la posición del percentil “85” (recordemos que dentro de cada
conjunto de datos existen 99 percentiles). A continuación, se debe establecer un índice de referencia
para el cálculo, dicho índice se obtiene mediante la siguiente fórmula:
Donde:
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 14
Al despejar la ecuación encontramos que:
Como el resultado contiene decimales, por regla general se aproxima al número entero inmediato,
que en este caso sería 12, por tanto:
Una vez se tiene claro el índice, el paso siguiente es dirigirse al conjunto de datos y ubicarlo en el lugar
correspondiente, para tal fin se asigna una posición a cada dato partiendo del 1, como se presenta en
la Figura 7 (es importante recordar que los datos deben estar ubicados de menor a mayor).
En este sentido, la interpretación del proceso nos indica que el percentil 85 se encuentra ubicado en
el valor 180, por tanto, el 85 % de los datos de este conjunto es menor o igual a 180, mientras que el
15 % de los datos son mayores.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 15
2.6. Coeficiente de variación
Es la medida de dispersión que indica el tamaño relativo de la desviación estándar respecto a la media,
según Cazau (2006) “Permite comparar la dispersión de dos o más muestras con diferentes medias
aritméticas: a mayor coeficiente de variación, mayor dispersión. No se expresa en unidades como la
variable en estudio (por ejemplo, para edad, no se expresa en años)” (s. p.).
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 16
De acuerdo con lo anterior, determinaríamos que el coeficiente de variación es más alto para la
variable “días de servicio” que para la variable “estatura”, por lo tanto, los datos de la segunda variable
presentan mayor dispersión o variabilidad.
En la actualidad y desde hace varios años los software han contribuido desde su desarrollo a la
comprensión de la estadística descriptiva e inferencial, algunos de los más conocidos son SPSS®
y Microsoft Excel®, ambos simplifican las fórmulas estadísticas mediante el uso de comandos
específicos que facilitan la organización y tratamiento de datos.
Microsoft® hace uso de Internet para contribuir al aprendizaje y acercamiento a sus productos
de manera gratuita; por medio del siguiente sitio web https://support.office.com/ se puede acceder
a tutoriales y cursos sencillos que facilitan el aprendizaje de Excel®. Microsoft Excel tiene gran
receptividad en las comunidades académicas debido a la accesibilidad de la herramienta y la
instauración que este ha tenido en la cultura informática de los hogares y empresas.
De la misma manera, la compañía IBM pone a disposición de sus usuarios el software SPSS®
mediante modos de accesibilidad de prueba, que facilitan el acercamiento a los beneficios de esta
herramienta mediante el sitio web https://www.ibm.com/co-es/products/spss-statistics. SPSS también
es un programa que goza de aceptación en la comunidad académica, especialmente en el personal
dedicado a procesos investigativos.
Aunque SPSS® y Excel son dos de los programas más reconocidos, existen otros software y aplicaciones
que también contribuyen al análisis de datos desde la estadística inferencial y descriptiva. Algunos de estos
son: S-PLUS®, Miminitab®, STATGRAPHICS.NET®, PSPP®, STATA, entre otros.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 17
Tabla 5. Programas estadísticos
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 18
Programa Utilidad Obtención Generalidades
Minitab® De acuerdo con Velázquez Perea (2017), La información sobre La herramienta presenta un
“es un programa de computadora diseñado la adquisición de este amplio portafolio de funciones
para ejecutar funciones estadísticas programa puede ser estadísticas considerando su
básicas y avanzadas. Combina lo amigable consultada en: especificidad en esta área,
de Microsoft Excel con la capacidad de que contrasta con otras
www.minitab.com
ejecución de análisis estadísticos” (p. 18). herramientas como Microsoft
Excel. Sin embargo, es
Algunas de sus características se presentan
un programa que durante
a continuación (la lista completa de las
los últimos 40 años se ha
características del programa la puede
caracterizado por un uso más
encontrar en https://www.minitab.com/es-
empresarial. Aunque también
mx/products/minitab/features-list/
se enfoca a instituciones
• Análisis de regresión académicas, su uso no es
• Graficas frecuente en los programas de
• Análisis de varianza psicología, siendo sobrepasado
• Estadísticas básicas por SPSS.
• Regresión
• Análisis multivariado
• No paramétricos
• Tablas
Statgraphics Es una herramienta de análisis de datos con Versión de prueba o Constituye una herramienta
alta disponibilidad de gráficos y procesos suscripción disponible en: fundamental a nivel descriptivo
analíticos, dentro de sus características se considerando la superioridad de la
encuentran: representación gráfica respecto a
https://www.ibm.com/ otros programas.
• Estadística básica y Análisis exploratorio co-es/products/spss-
de datos Gran disponibilidad de recursos
statistics
educativos abiertos para
• Análisis de la varianza y Regresión
perfeccionar el uso de esta
• Control estadístico de procesos herramienta.
(Análisis de la capacidad, Gráficos
de control, Análisis de sistemas de
medición)
• Diseño de experimentos
• Métodos multivariantes y no
paramétricos
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 19
Programa Utilidad Obtención Generalidades
STATA® Es un paquete estadístico con alta Suscripción disponible • Posee alta calidad gráfica.
variabilidad de funciones a nivel descriptivo en: www.stata.com • Posee actualización
e inferencial. Dentro de la función de constante.
No posee versión gratis o
estadística básica presenta:
• Resúmenes
de muestra. • Una desventaja respecto
a otros programas es que
• Tabulaciones cruzadas no se pueden descargar
• Correlaciones demostraciones, por lo
• Pruebas t cual el perfil de uso de
• Pruebas de igualdad de varianza estudiantes e investigadores
• Pruebas de proporciones autofinanciados es reducido.
• Intervalos de confianza
• Variables de factor
Google Es la herramienta mediante la cual Acceso gratis mediante Si bien es cierto que no posee
Spreadsheet® Google permite el tratamiento de hojas la vinculación con cuenta todas las funciones de Microsoft
de cálculo. Algunas de las características de Google. Excel, es importante anotar
que tiene esta herramienta son: que sí posee los elementos
• Análisis de datos fundamentales que un estudiante
• Gráficos de pregrado en Psicología requiere
• Media a nivel estadístico, con la ventaja
• Mediana de realizar cambios compartidos
• Moda en una hoja de cálculo.
• Rango
• Desviación estándar
• Desviación típica
• Percentiles
• Cuartiles
• Varianza
• Curtosis
• Coeficiente de correlación
• Pruebas de hipótesis
• Distribución normal
• Función estadística descriptiva
Fuente: elaboración propia
Por último, es necesario anotar que la implementación de estos programas facilita los procesos de
análisis estadístico de manera significativa y abre nuevas posibilidades a los profesionales en psicología
que muestran resistencia hacia este tipo de procesos. Por tal motivo, y a manera de conclusión, un
reto del profesional en Psicología actual es alcanzar la capacidad de análisis e interpretación de los es-
tadísticos, así como su funcionalidad, permitiéndose ampliar el margen de observación hacia campos
de aplicación que requieren el aporte de nuestra profesión.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 20
Referencias
Hernández Sampieri, R., Fernández Collado, C. y Baptista Lucio, P. (2014). Metodología de la
Investigación (6.a ed.). Mc Graw Hill.
González Betanzos, F., Escoto Ponce de León, M. C. y Chávez López, J. K. (2017). Estadística
aplicada en Psicología y Ciencias de la salud. Manual Moderno.
Zúñiga Cisneros, J., Lezcano, H. y Ortega Paz, L. (2018). Programas Estadísticos para Registrar y
Analizar Datos. En P. Vigil-De Gracia, Metodología de la Investigación Clínica: Las 5 Herramientas del
Investigador. The Little French eBookstore.
Salazar, C. y Del Castillo, S. (2018). Fundamentos básicos de estadística. http://www. dspace. uce. edu.
ec/handle/25000/13720
Velázquez Perea, L. E. (2017). Estadística Descriptiva y Probabilidad con Excel. Luis Enrique Velázquez
Perea.
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 21
INFORMACIÓN TÉCNICA
Módulo: Estadística
Unidad 2: Estadística descriptiva
Escenario 4: Aplicaciones de la estadística descriptiva
POLITÉCNICO
POLITÉCNICO GRANCOLOMBIANO
GRANCOLOMBIANO 22