Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase 3
Introducción
Hola a todos y todas,
En la clase de esta semana vamos a avanzar con análisis univariado incorporando
medidas resumen además de las tablas de frecuencias y gráficos trabajadas la clase
anterior que nos permitían ver la distribución con mayor detalle.
Es importante que tengamos en cuenta que no todas ellas vamos a poder usarlas
para todo tipo de variables, sino que tendremos que tener en cuenta su nivel de
medición.
Objetivos de la clase
Al finalizar esta clase, esperamos que logren:
- Identificar las medidas de tendencia central, de posición y dispersión.
- Definir sus características principales y limitaciones en el uso.
- Calcular cada una de ellas.
- Interpretar los resultados obtenidos conjuntamente
- Reconocer las diferentes formas de una distribución, clasificando los diferentes
tipos de simetría.
- Utilizar adecuadamente el coeficiente de variación para comparar variabilidad.
Desarrollo de la Clase
Como ya vimos en la clase 2, cualquier variable puede ser presentada en tablas de
frecuencia y ser representada gráficamente, siempre teniendo en cuenta el tipo de
gráfico apropiado para cada nivel de medición de variables –u teniendo en cuenta
también otras características como la cantidad de categorías de la variable-. Para
variables cualitativas (Nominales u Ordinales) son habituales los gráficos de barras
de sectores o tortas entre otros, mientras que para variables cuantitativas suelen
utilizarse diagrama de bastones o de puntos, gráficos escalonados, histograma,
polígonos de frecuencias y ojiva.
En cuanto a las tablas de distribuciones de frecuencias (absolutas, relativas y
aculadas para las ordinales y numéricas), recordemos también que los datos pueden
construirse con distintos niveles de desagregación en función del análisis y claridad
en la presentación. En el caso de las cuantitativas, al agrupar los valores se habla de
intervalos de clase.
Las tablas de frecuencias y los gráficos nos permiten presentar y analizar la
información de manera más detallada y analítica, incluso cuando reagrupamos
categorías, perdemos algo de detalle, pero seguimos teniendo información con cierto
nivel de desagregación. Además de estas formas contamos también con
herramientas, medidas sintéticas que resumen en un solo valor características de la
distribución de la variable analizada. Estas medidas tienen un alto poder de síntesis,
pero una gran pérdida de detalle, por lo cual suelen interpretarse conjuntamente
para poder tener una idea más acabada del comportamiento del fenómeno.
Ejemplos:
La media aritmética (𝒙 )
Se calcula como la suma de todos los valores de una distribución dividida por el
número de casos. Sólo puede utilizarse en variables de nivel de medición cuantitativa.
Entre sus características podemos mencionar que su cálculo incluye a todos los
valores y casos. Requiere necesariamente que sea de nivel de medición numérico.
Es sensible a valores extremos no compensados. Es decir que ante la presencia de
algún valor que se aleja del resto de los casos en un sentido, la media se ve afectada
por el mismo –creciendo o decreciendo según corresponda-. Esto hace que en
muchos casos no resulte útil como medida, por lo cual hay que siempre leerla
conjuntamente con el resto de las medidas de tendencia central (luego de presentar
la mediana volveremos sobre este punto)
Si los datos están agrupados en una tabla de frecuencias, se debe multiplicar el valor
por la cantidad de veces que se repite –datos presentados en columna auxiliar “f.x”.
Ejemplo:
Si los datos están agrupados en intervalos de clase, se considera el punto medio del
mismo para el cálculo de la media.
1
Si las distribuciones tienen cantidad de casos pares por lo cual no “cae” exactamente en un caso sino
entre dos de ellos, por tanto, toma ambos como “medianas”. Suele formalizarse en dos expresiones: Md(o)
= n/2 y n/2 + 1. Mientras que el n es impar, el orden de la mediana puede encontrarse a partir de la
ecuación (n+1) / 2.
categoría en que la Fac de la distribución supera (acumula) la barrera del 50% -mitad
de la distribución-, prescindiendo del número de caso en absolutos.
Ejemplo:
Cabe aclarar que cuando se dice que dividen en partes iguales, nos estamos refiriendo
siempre a la proporción o cantidad de casos, frecuencias, que quedan incluidas en
cada grupo. Es importante diferenciar que no es la misma cantidad de
valores/categorías.
Las medidas de posición no refieren a cada uno de los grupos, sino que definen el
valor del caso que se encuentra delimitando dichos grupos (como lo vimos con la
mediana). En el habla común es habitual utilizar la palabra para referir
indistintamente al grupo conformado como a la medida que lo delimita. Es decir, se
habla que hay diez “deciles” pero el decil como medida de posición son nueve: son
los valores de los casos que delimitan cada una de esas porciones, al igual que la
mediana que la medida es una, pero divide en dos mitades. Ene l siguiente esquema
se grafican los grupos y la posición donde se encontraría cada una de las medidas.
Por ejemplo, podemos tener dos grupos de estudiantes para los cuales la variable
nota se haya comportado del mismo modo si sólo tenemos en cuenta las medidas de
tendencia central y posición. En ambos casos, Media, Mediana y Moda fue de 7
puntos, conformando distribuciones simétricas e iguales entre sí en tanto esas
medidas. Si sólo nos quedamos con esa información podríamos creer que la
distribución de la variable nota en ambos grupos se comportó de forma idéntica, sin
embargo, al obtener alguna medida de dispersión, nos puede relevar algún otro
aspecto del fenómeno.
Es decir, la nota puede ser un 7 de promedio, pero está claro que puede haber
diversas formas de llegar a ese 7 a partir de las notas individuales. Podrían ser todas
7, y dar 7 de promedio; podrían en general orbitar alrededor del 7 sin alejarse mucho
y dar 7 de promedio, o podrían estar muy “repartidas” alrededor del 7 y también dar
7 de promedio. Es decir, la media es una medida síntesis que homogeniza las
diferencias en su cálculo. Las medidas de dispersión nos permitirán poner en juego
cómo se comportó el fenómeno teniendo en cuenta su variabilidad. Mayores valores
en estas medidas, nos indican mayor variabilidad, heterogeneidad y viceversa.
Si bien tanto el programa Excel como las calculadoras permiten calcular la varianza
y la desviación estándar,2 es importante que podamos también realizar los cálculos
“manualmente”. Para ello, podemos hacerlos a partir de una tabla de distribución de
frecuencias utilizando columnas auxiliares.
1er paso: La primera columna contiene la diferencia individual de ese valor con
respecto a la media.
2do paso. En una segunda columna auxiliar, se eleva al cuadrado dicho valor.
3er paso: En la última columna auxiliar se multiplica por la frecuencia absoluta.
4to paso: Finalmente se realiza la sumatoria de los valores de esta última columna y
se dividen por la cantidad de casos.3 Aquí se obtiene la varianza.
5º paso: Sólo para obtener el desvío estándar, se aplica la raíz cuadrada al resultado
obtenido en el paso 4.
2
Pueden consultarse estos tutoriales para Excel https://www.youtube.com/watch?v=hEsQTQKVkso y
para calculadora científica https://www.youtube.com/watch?v=qguhqq0xvM0
3
En el caso de ser una distribución correspondiente a una población (Censo) se divide por el total de
casos, si corresponden a una muestra, se divide por la cantidad de casos menos uno.
Cierre
4
Se recomienda la lectura de las páginas 92-93 del capítulo 4 del libro de la Universidad de Misiones que
brinda ejemplos muy claros para ilustrar el uso e interpretación del coeficiente de variación.
Actividad práctica
Bibliografía
Material Obligatorio:
Aguirre, Niño, Simonetti E. Estadística aplicada en las Ciencias Sociales Y Humanas.
Estadística I. Editorial Universitaria de Misiones, 2005. Capítulo 3 y 4.
Bibliografía Complementaria:
Berenson y D.M. Levine. (2001). Estadística para Administración y Economía.
Editorial Prentice Hall. 2º edición. México.2001. Cap.4: “Resumen y descripción de
datos numéricos”