Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TEÓRICO-PRÁCTICAS
ESTADÍSTICA DESCRIPTIVA
La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en ellos regularidades en el comportamiento,
que sirven para describir el conjunto y para efectuar predicciones.
A menudo recibimos información numérica tal como:
El costo de vida se incrementó frente al año pasado en dos puntos porcentuales.
El recuento de votos de una elección: Nuevo Espacio gano la elección del Centro de Estudiantes por el 55% de los votos, en las pasadas
elecciones.
El 72% de los habitantes de una ciudad reclaman mejoras en los servicios de limpieza a la Municipalidad.
La información estadística se emplea en forma continua para la toma de decisiones tanto en economía, en negocios, en ciencias políticas y en
todo tipo de investigación.
“La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas,
procesos, etc. A través de la cuantificación y el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que
resulta una herramienta de suma utilidad para la toma de decisiones”
Población o Universo:
En cualquier trabajo en el que se aplique, la estadística debe hacer referencia a un conjunto de entidades, conocido como población.
Es el total del conjunto de elementos u objetos de los cuales se quiere obtener información. Aquí el término población tiene un significado mucho
más amplio que el usual, ya que puede referirse a personas, objetos, actos, áreas geográficas e incluso al tiempo.
La población debe estar perfectamente definida en el tiempo y en el espacio, de modo que ante la presencia de un potencial integrante de la
misma, se pueda decidir si forma parte o no de la población bajo estudio. Por lo tanto, al definir una población, se debe cuidar que el conjunto de
elementos que la integran quede perfectamente delimitado. Si, por ejemplo, estamos analizando las facultades de Ciencias Económicas, debemos
especificar cuáles y cuándo: facultades de Ciencias Económicas de Universidades Nacionales y Privadas de la Capital Federal, año 2015.
El tamaño de una población viene dado por la cantidad de elementos que la componen.
Población ⇒ total de sujetos o unidades de análisis de interés en el estudio
Unidad de análisis:
Es el objeto del cual se desea obtener información. Muchas veces nos referimos a las unidades de análisis con el nombre de elementos. En
estadística, un elemento o unidad de análisis puede ser algo con existencia real, como un automóvil o una casa, o algo más abstracto como la
temperatura o un intervalo de tiempo. Dada esta definición, puede redefinirse población como el conjunto de unidades de análisis.
Es un subconjunto de unidades de análisis de una población dada, destinado a suministrar información sobre
la población. Para que este subconjunto de unidades de análisis sea de utilidad estadística, deben reunirse
ciertos requisitos en la selección de los elementos.
Las causas por la cual se seleccionan muestras son muchas:
Puede ocurrir que la población que se defina tenga tamaño infinito, y en consecuencia, no fuera
posible observar a todos sus elementos.
La observación de los elementos puede ser destructiva. Por ejemplo, si quisiéramos hacer
un estudio de la calidad de una partida de fósforos, no podríamos probarlos a todos pues
los destruiríamos.
La muestra debe ser representativa, en el sentido de que las conclusiones obtenidas deben
servir para el total de la población.
Muestra ⇒ cualquier subconjunto de los sujetos o unidades de análisis de la población,
Es aquella en la cual los sujetos de la muestra se seleccionan Es aquella en la cual los sujetos de la muestra son seleccionados en
con base en probabilidades conocidas base a un criterio personal del investigador; por lo tanto no hay
Por lo que la probabilidad de selección de cada unidad es forma de determinar cuan representativa es la muestra de la
población total. No se la puede emplear para la inferencia
conocida de antemano.
estadística
La modalidad más elemental de muestra probabilística es la
muestra aleatoria simple, en la que todos los componentes o Ejemplos de éstas muestras son la muestra accesible (que está
unidades de la población tienen la misma oportunidad de ser conformada por personas de fácil acceso para el investigador como
ser colegas o alumnos de su clase.) y la muestra voluntaria (donde
seleccionados.
los sujetos de la muestra no han sido seleccionados
Otro procedimiento similar es el llamado muestreo aleatorio matemáticamente)
sistemático en el cual se escoge uno de cada k componentes
del listado de la población. El investigador selecciona al azar un
punto de partida y un intervalo muestral. Así si el punto de
partida fuera el 11 y el intervalo el 6 se elegirían el 11, 16, 21,16
hasta completar la lista.
Siempre que se desee adecuar la representación de diferentes
subconjuntos hay que recurrir a una muestra estratificada. Las
características de las submuestras (estratos o segmentos)
pueden contemplar casi cualquier tipo de variables: edad,
sexo, religión, nivel de ingresos, etc. Los estratos pueden así
definirse mediante un número prácticamente ilimitado de
características.
Es la cualidad o cantidad medible que se estudia de las unidades de análisis y que varían de una unidad a otra. Por ejemplo: edad, ingreso de
un individuo, sexo, cantidad de lluvia caída, etc.
Las variables pueden ser medidas con mayor o menor grado de precisión según la escala de medida utilizada para su observación. Podemos
distinguir los siguientes niveles de medición de una variable:
Nominal: sólo permite clasificar a las unidades de análisis en categorías. No existe orden obvio entre las categorías. Por ejemplo: sexo –
varón y mujer -.
Ordinal: además de clasificar a los elementos en distintas categorías, permite establecer una relación de orden de las mismas. Existe
un orden natural entre las categorías. Por ejemplo: clase social –baja, media y alta. Severidad de la patología: Ausente / leve / moderado /
severo.
Intervalar: permite clasificar, ordenar y medir la distancia entre las diferentes categorías. Por ejemplo: edad.
Se refiere a la recolección, presentación, descripción, análisis e interpretación de una colección de datos, esencialmente consiste en resumir
éstos con uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad de los mismos. La estadística Descriptiva
es el método que permite obtener de un conjunto de datos conclusiones sobre sí mismos y no sobrepasan el conocimiento proporcionado por
éstos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una población o de una muestra.
El análisis exploratorio de datos ofrece modos de presentar y evaluar las características principales de los datos a través de tablas, gráficos y
medidas resúmenes. Presentaremos formas simples de resumir y representar gráficamente conjuntos de datos. El objetivo de construir
gráficos es poder apreciar los datos como un todo e identificar sus características sobresalientes. El tipo de gráfico a seleccionar depende del
tipo de variable que nos interese representar por esa razón distinguiremos en la presentación gráficos para variables categóricas y para
variables numéricas.
Estadística Inferencial:
Se refiere al proceso de lograr generalizaciones acerca de las propiedades del todo, población, partiendo de lo específico, muestra. Para que
éstas generalizaciones sean válidas la muestra deben ser representativa de la población y la calidad de la información debe ser controlada,
además puesto que las conclusiones así extraídas están sujetas a errores, se tendrá que especificar el riesgo o probabilidad que con que se
pueden cometer esos errores. La estadística Inferencial es el conjunto de técnicas que se utiliza para obtener conclusiones que sobrepasan los
límites del conocimiento aportado por los datos, busca obtener información de un colectivo mediante un metódico procedimiento del manejo
de datos de la muestra.
El análisis estadístico es todo el proceso de organización, procesamiento, reducción e interpretación de datos para realizar inferencias.
Etapas de un estudio estadístico
En esta etapa se define el objetivo
de la investigación y se precisa el
universo o población de la misma y
se planean los métodos con los que
Planteamiento
se recogerán los datos.
del problema:
Relevamiento de
Mediante técnicas que permitan luego aplicar la información
criterios para codificar esos datos. Los cuales deben expresarse de forma que su lectura sea
sencilla. Existen 3 formas de presentación: con palabras –
Presentación de
los datos para pocos datos-, mediante tablas estadísticas y mediante
gráficos estadísticos.
Análisis
descriptivo
Cálculo de medidas de los
descriptivas datos
En los casos en los que se trabaja
Inferencia con muestras.
estadística
Explicar el sentido de
Interpretación
todos los datos
obtenidos.
Describiremos brevemente cada una de las áreas en que puede dividirse la estadística:
I. Diseño: Planeamiento y desarrollo de investigaciones.
II. Descripción: Resumen y exploración de datos.
III. Inferencia: Hacer predicciones o generalizaciones acerca de características de una población en base a la información de una muestra
de la población.
I. Diseño Es una actividad crucial. Consiste en definir como se desarrollará la investigación para dar respuesta a las preguntas que motivaron la
misma. La recolección de los datos requiere en general de un gran esfuerzo, por lo que, dedicar especial cuidado a la etapa de planificación de la
investigación ahorra trabajo en las siguientes etapas. Un estudio bien diseñado resulta simple de analizar y las conclusiones suelen ser obvias. Un
experimento pobremente diseñado o con datos inapropiadamente recolectados o registrados puede ser incapaz de dar respuesta a las preguntas
que motivaron la investigación, más allá de lo sofisticado que sea el análisis estadístico. Aún en los casos en que se estudian datos ya registrados,
en que estamos restringidos a la información existente, los principios del buen diseño de experimentos, pueden ser útiles para ayudar a seleccionar
un conjunto razonable de datos que esté relacionado con el problema de interés.
II. Descripción Los métodos de la Estadística Descriptiva o Análisis Exploratorio de Datos ayudan a presentar los datos de modo tal que sobresalga
su estructura. Hay varias formas simples e interesantes de organizar los datos en gráficos que permiten detectar tanto las características
sobresalientes como las características inesperadas. El otro modo de describir los datos es resumirlos en uno o dos números que pretenden
caracterizar el conjunto con la menor distorsión o pérdida de información posible.
Explorar los datos, debe ser la primera etapa de todo análisis de datos.
III. Inferencia: Inferencia Estadística hace referencia a un conjunto de métodos que permiten hacer predicciones acerca de características de un
fenómeno sobre la base de información parcial acerca del mismo. Los métodos de la inferencia nos permiten proponer el valor de una cantidad
desconocida (estimación) o decidir entre dos teorías contrapuestas cuál de ellas explica mejor los datos observados (test de hipótesis).
La forma de obtener la información original de las unidades de análisis que componen el universo por investigar puede ser efectuada a través de
un censo, una encuesta o un registro administrativo.
Censo
Es un método de recolección de datos mediante el cual la información se obtiene relevando la totalidad de los elementos que componen la
población o universo bajo estudio. Un censo debe cumplir las condiciones de universalidad (censar a todos los elementos de la población) y
simultaneidad (realizarse en un momento determinado). Un censo es equivalente a una fotografía de la población bajo estudio.
El término censo no sólo se aplica a aquellos relevamientos que comprenden todas las unidades de todo un país y que se realizan con una frecuencia
de recolección quinquenal o decenal, como es el caso de los censos de población, económicos, agropecuarios, etc., sino también a todo
relevamiento, cualquiera sea su cobertura geográfica, número de unidades de información, o frecuencia de su recolección, siempre que incluya
todas las unidades que componen el universo que se investiga.
Encuesta
Es un método de recolección mediante el cual la información se obtiene relevando sólo un subconjunto o muestra de elementos del universo en
estudio, que permite obtener información sobre el mismo.
Para que la información obtenida con la encuesta sea generalizable a la población, la muestra utilizada debe ser representativa de la población de
la que proviene. Para lograrlo, se utilizan métodos de selección de unidades especialmente diseñados con este fin.
Su uso ha ido en rápido aumento, en la medida en que las instituciones productoras de información disponen de personal capacitado para efectuar
su organización, diseño y análisis, debido a su menor costo y a que en determinadas circunstancias la información resulta más exacta debido a que
Registro administrativo
Existen oficinas públicas que llevan registros administrativos para sus propios fines. Por ejemplo, los Registros Civiles que registran los nacimientos,
los casamientos, las defunciones, etc.; los Ministerios de Educación que llevan registros de matriculación de alumnos, deserción escolar, etc.; la
Aduana que registra las importaciones y exportaciones, etc.
Esta información puede ser utilizada con fines estadísticos y se obtiene tal como está disponible. Los fines administrativos no siempre coinciden
totalmente con los fines estadísticos.
Por ejemplo, para un estudio sobre determinada enfermedad se puede recurrir a los registros disponibles en hospitales, sanatorios, etc. Estos
registros habrán sido diseñados para dar respuesta a ciertos requerimientos administrativos y seguramente la información que contienen no
coincidirá exactamente con los requerimientos estadísticos.
Los registros constituyen la forma más económica de obtener información estadística de una población.
Los datos son colecciones de un número cualquiera de observaciones relacionadas entre sí, para que sean útiles se deben organizar de manera
que faciliten su análisis, se puedan seleccionar tendencias, describir relaciones, determinar causas y efectos y permitan llegar a conclusiones
lógicas y tomar decisiones bien fundamentadas; por esa razón es necesario conocer lo métodos de Organización y Representación, la finalidad
de éstos métodos es permitir ver rápidamente todas las características posibles de los datos que se han recolectado.
Cuando se trata de variables cualitativas donde las categorías están determinadas, lo único que hay que hacer es contabilizar el número de
casos pertenecientes a cada categoría y normalizar en relación al número total de casos, calculando una proporción, un porcentaje o una
razón.
Los datos categóricos se organizan en Tablas de frecuencias.
Frecuencia:
Tabla de frecuencias:
Una forma de presentar ordenadamente un grupo de observaciones, es a través de tablas de distribución de frecuencias. La estructura de
estas tablas depende de la cantidad y tipo de variables que se están analizando, siendo las más simples las que se refieren a una variable.
El modo más simple de presentar datos categóricos es por medio de una tabla de frecuencias. Esta tabla indica el número de unidades de análisis
que caen en cada una de las clases de la variable cualitativa
Categorías o Frecuencias
Recorrido de la variable Observadas
TOTAL n
Ejemplo
El gerente del Sector de Personal de una empresa desea sondear el estado civil de los empleados de su empresa para ello toma una muestra
de 20 empleados
La variable “estado civil de los empleados de la empresa A”, es en este caso una variable cualitativa, las categorías de la variable son: soltero,
casado, viudo y divorciado
Los datos obtenidos se vuelcan en la tabla de frecuencias
Gráfica de Barras
En general la representación gráfica de una tabla de frecuencias permite percibir con mayor claridad algunas características de la masa de datos que se
investiga. Por ello, a través de gráficos, resulta bastante más fácil transmitir conclusiones a personas no habituadas a la interpretación de tablas de
frecuencias.
Este gráfico es útil para representar datos categóricos nominales u ordinales. A cada categoría o clase de la variable se le asocia una barra cuya altura
representa la frecuencia o la frecuencia relativa de esa clase. Las barras difieren sólo en altura, no en ancho.
La escala en el eje horizontal es arbitraria y en general, las barras se dibujan equiespaciadas, por esta razón este tipo de gráfico sólo debe usarse para
variables categóricas.
Para representar gráficamente una distribución de frecuencias se utiliza un par de ejes de coordenadas. En el eje de las abscisas se representará la variable
estudiada y en el eje de las ordenadas, las correspondientes frecuencias.
El siguiente es un gráfico de frecuencias confeccionado con los datos del ejemplo anterior.
DIVORCIADO 3
8
VIUDO 8
5
CASADO 5 4
3
SOLTERO 4
SOLTERO CASADO VIUDO DIVORCIADO
0 2 4 6 8 10
En este gráfico, ampliamente utilizado, se representa la frecuencia relativa de cada categoría como una porción de un círculo, en la que el ángulo se
corresponde con la frecuencia relativa correspondiente. Como en todo gráfico es importante indicar el número total de sujetos.
Esta representación gráfica es muy simple y permite comparar la distribución de una variable categórica en 2 o más grupos.
15% 20%
40% 25%
La información que brindan los dos tipos de gráficos es equivalente, sin embargo, el gráfico de barras resulta más natural para comparar las distribuciones
de dos grupos, debido a que nuestro ojo percibe mejor diferencias en longitudes que en ángulos.
Por otra parte, en el gráfico de barras todas las barras comienzan al mismo nivel, lo que facilita la comparación.
Cuando se trata de variables cuantitativas, el resumen de los datos consiste en organizar tablas que sintetizan los datos originales y se
denominan distribuciones de frecuencia.
Aquí habría que considerar si la variable cuantitativa es discreta o continua.
k
n fi
i 1
f
ri i
n
Comenzaremos desarrollando el caso de que la variable sea discreta. Las clases de una tabla de frecuencias deben ser mutuamente excluyentes
y exhaustivas, es decir, cada dato debe caer en una y sólo una clase y todos los datos deben tener una clase a la cual pertenecen.
Ejemplo
Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X, obteniéndose los siguientes resultados:
En primer lugar observamos que la variable X es cuantitativa discreta, “número de caras al arrojar al aire tres monedas en 8 ocasiones”
Interpretación de la tabla:
El porcentaje de veces que se da ese valor de variable 1 cara
xi fa fr Fa
respecto del total es 3/8 (frecuencia relativa del valor de
La tercer fila debe interpretarse: en la 0 1 1/8 1
experiencia 2 caras se observaron 3 variable x=2)
veces (frecuencia absoluta del valor de
1 3 3/8 4
variable x=2). 2 3 3/8 7
3 1 1/8 8
Representación gráfica:
Para representar gráficamente una distribución de frecuencias absolutas se utiliza un par de ejes de coordenadas. En el eje de las abscisas se
representará la variable estudiada y en el eje de las ordenadas, las correspondientes frecuencias.
En el caso que la variable cuantitativa sea continua, es decir que toma infinitos valores en un intervalo considerado, ya no es conveniente
presentarla en una tabla de frecuencias como en el caso anterior dado que en principio sería imposible enlistar cada valor de variable , de
igual modo ocurre cuando se dispone de un gran número de valores discretos.
Es la diferencia entre los límites de una clase Amplitud Lim sup Lim inf .
Número de clases:
Es el número total de grupos en que se clasifica la información, se recomienda que no sea menor que 5 ni mayor que 15
Frecuencia:
Frecuencia Acumulada:
Indica cuantos casos hay por debajo o arriba de un determinado valor o límite de clase.
Frecuencia Relativa:
Indica la proporción que representa la frecuencia de cada intervalo de clase en relación al total, es útil para comparar varias distribuciones con
parámetros de referencia uniformes.
Indica la proporción de datos que se encuentra por arriba o debajo de cierto valor o límite de clase.
Los gráficos son útiles porque ponen en relieve y aclaran las tendencias que no se captan fácilmente en la tabla
Histograma
Está formado por rectángulos cuya base es la amplitud del intervalo y tiene la característica que la superficie que corresponde a las barras es
representativa de la cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases que tienen el mismo tamaño o
diferente (intervalo variable). En el eje horizontal se representan los valores de la variable y en el eje vertical una medida de frecuencia
(frecuencia absoluta, frecuencia relativa o frecuencia relativa porcentual. Indicamos en el eje horizontal los límites de los intervalos de clase.
Asociamos a cada clase una columna cuya base cubre el intervalo de clase y cuya altura indica la frecuencia del intervalo El gráfico se construye
sin dejar espacio horizontal entre categorías, a menos que una clase esté vacía (es decir tenga altura cero).
Polígono de Frecuencias
Se puede obtener uniendo cada punto medio (marca de clase) de los rectángulos del histograma con líneas rectas, teniendo cuidado de agregar
al inicio y al final marcas de clase adicionales, con el objeto de asegurar la igualdad del áreas.
Curvas de frecuencia
No es más que la curva suavizada que se traza sobre el polígono y representa la asimetría y la curtosis que tiene la distribución, permite
visualizar un esquema más claro del patrón de datos.
Ojivas
La ojiva representa gráficamente la forma en que se acumulan los datos y permiten ver cuantas observaciones se hallan por arriba o debajo
de ciertos valores.
POLÍGONO DE
FRECUENCIAS: Obtenido
enlazando los puntos medios 60
de los extremos superiores de
las franjas. 50
40
30
20
10
0
45 55 65 75 85 95
HISTOGRAMA
El gráfico de barras representa el porcentaje en la altura de la barra. Mientras que en un histograma el porcentaje se representa en el
área de la barra.
En el gráfico de barras, las barras se representan separadas para indicar que no hay continuidad entre las categorías.
En un histograma barras adyacentes deben estar en contacto indicando que la variable es continua.
¿Cómo construimos el histograma teniendo en cuenta que los intervalos de clase son de distinta longitud?
La barra debe tener una altura tal que el área (base x altura) sea igual a la frecuencia (o a la frecuencia relativa).
frecuencia intervalo
Es decir, Altura de la barra
longitud del intervalo
De este modo el área de la barra coincide con la frecuencia en el intervalo:
frecuencia intervalo
área base . altura longutud del intervalo frecuencia
longitud del intervalo
La altura de la barra definida de este modo se denomina escala densidad porque indica el número de datos por unidad de la variable.
Las distribuciones de frecuencia y los histogramas de una variable se aplican tanto a datos de una muestra como a datos de toda la población.
En el primer caso hablamos de distribución muestral y en el segundo caso de distribución poblacional. En algún sentido la distribución muestral
es una fotografía borrosa de la distribución poblacional. A medida que el tamaño de muestra aumenta la proporción de casos que cae en cada
intervalo se parece más y más a la proporción poblacional. La fotografía se torna más y más definida y la distribución muestral luce similar a
la distribución poblacional. Si la población contiene una gran cantidad de unidades de observación y la variable es continua es posible elegir
intervalos tan delgados como deseemos para construir el histograma y además hacer crecer el tamaño de muestra indefinidamente. En este
caso, la forma del histograma se aproximará a una curva suave denomina distribución de la variable en la población.
Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de observaciones de una variable y describir con ellas ciertas
características de los conjuntos, logrando una comparación más precisa de los datos que la que se puede conseguir con tablas y gráficas.
Considerar que las medidas descriptivas pueden calcularse sobre datos poblacionales en cuyo caso reciben el nombre de parámetros o sobre
datos muestrales recibiendo el nombre de estadísticos.
Existen tres tipos de medidas descriptivas:
I) MEDIDAS DE POSICIÓN
Los promedios son una medida de posición que dan una descripción compacta de cómo están centrados los datos y una visualización más
clara del nivel que alcanza la variable, pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor facilidad para
efectuar comparaciones.
El promedio como punto típico de los datos es el valor alrededor del cual se agrupan los demás valores de la variable.
Media aritmética:
Es el promedio del conjunto de datos. Es el número que se obtiene al dividir la suma de todas las observaciones por la cantidad total de ellas.
x
x. ( Datos muestrales )
x ( Datos poblacionales )
n N
Para datos agrupados por tablas de frecuencias agrupar, la formula correspondiente es:
Aclaración
x
x i fi .
( Datos muestrales )
x .f i i
( Datos poblacionales )
fi frecuencia de la variable
n N
x x . f
x’i marca de clase de cada intervalo
fi . fi frecuencia del intervalo
x ( Datos muestrales )
i i i
( Datos poblacionales )
n N
Intervalos de fi x i x i f i
clase
45-55 6 50 300 El nivel de productividad promedio
55-65 10 60 600 durante el mes de marzo del 2015
65-75 19 70 1330
x
xi fi .
3470
69,4
fue de $69,4 millones de pesos.
75-85 11 80 880 n 50
85-95 4 90 360
n 50 3470
Características de la Media:
1. En su cálculo están todos los valores del conjunto de datos por lo que cada uno afecta la media.
2. La suma algebraica de las desviaciones de los valores individuales respecto a la media es cero.
3. Actúa como punto de equilibrio del conjunto de datos, las observaciones mayores y menores se compensan alrededor de ellas.
Podemos imaginar a los datos como un sistema físico, en el que cada dato tiene una “masa” unitaria y lo ubicamos sobre una barra en la
posición correspondiente a su valor. La media representa la posición en que deberíamos ubicar el punto de apoyo para que el sistema esté
en equilibrio.
4. Aunque es confiable porque refleja todos los valores del conjunto de datos puede ser afectada por los valores extremos, y de esa forma
llegar a ser una medida menos representativa, por lo que si la distribución es asimétrica, la media aritmética no constituye un valor típico.
Es el valor de la variable que más veces se repite, o sea, el valor que presenta mayor frecuencia.
Es útil como medida de tendencia central, sólo en aquellos casos en que un valor de la variable es mucho más frecuente que el resto. Se basa
en la idea del “comportamiento de la mayoría” para tomar a cierto valor como representativo del comportamiento de los datos.
El modo puede no existir o no ser único, las distribuciones que presentan dos o más máximos relativos se designan de modo general como
bimodales o multimodales.
Para datos sin agrupar o agrupados por tablas de frecuencias agrupar, el modo es el valor de variable de mayor frecuencia
d1
M 0 Li a
d1 d 2
Características de la Moda.
Es el valor de la observación que ocupa la posición central de un conjunto de datos ordenados según su magnitud. La mediana es un valor de
la variable que deja por debajo de él un número de casos igual al que deja por arriba.
Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeños con respecto a los demás, entonces la media
aritmética se puede distorsionar y perder su carácter representativo, en esos casos es conveniente utilizar la mediana como medida de
tendencia central.
Para datos sin agrupar, la mediana es el valor de variable que se ubica en el centro de un conjunto de datos ordenados si el número de
observaciones es impar o la mediana es el promedio de los datos centrales en caso de que el número de observaciones sea par.
Para datos agrupados por tablas de frecuencias agrupar, la mediana es el valor de variable hasta donde se acumula el 50% de las
observaciones.
Es un promedio de posición no afectado por valores extremos sino por el número de observaciones.
La mediana es una medida de posición robusta. No se afecta por la presencia de datos atípicos, salvo que modifiquemos casi el 50% de
los datos menores o mayores de la muestra (la proporción de datos que debemos modificar para modificar la mediana depende del
número de datos de la muestra).
Ejemplo
Volviendo al ejemplo:
Para calcular la mediana primero hay que determinar el 50% de las observaciones:
VENTAJAS Usa toda la información que proveen los datos. Representa el centro de la distribución
Es de manejo algebraico simple. Útil para datos ordinales
DESVENTAJAS Muy sensible a la presencia de datos atípicos. Usa muy poca información de los datos
Cuantiles
Percentiles
Para datos agrupados con intervalos de clase, la formula correspondiente al percentil k es:
La forma de calcular estas medidas es muy similar a la del cálculo de la mediana. De hecho ésta coincide con el P50 (percentil 50) el D5 (quinto
decil) y el Q2 (cuartil 2)
Ejemplo
Veamos el cálculo de algunas de estas medidas en el ejemplo que estamos estudiando.
Intervalos de clase fi Fi
45-55 6 6 Cálculo de Q1: Buscamos en la columna de las frecuencias Acumuladas el valor que no supere al
55-65 10 16
25% de n = 50, corresponde al 2º intervalo.(50/4=12.5)
65-75 19 35
75-85 11 46 50
85-95 4 50 4 6
Q1 55 10 • 61, 5
n 50 10
Cálculo de Q3: Buscamos ahora en la misma columna el correspondiente al 75 % de n que en este caso es el 4º intervalo (3.50/4=37.5)
3.50
Intervalos de clase fi Fi 4 35
45-55 6 6 Q3 75 10 • 77, 27
19
55-65 10 16
65-75 19 35
75-85 11 46 El nivel de productividad que no es superado, en millones de pesos del 75% de las empresas que
85-95 4 50
menos producen es de $77,27.
n 50
30.50
100 6
D3 55 10 • 64
10
El nivel de productividad en millones de pesos del 30% de las empresas que menos producen es de $64
Cálculo de P35: Buscamos en la columna de las frecuencias Acumuladas el valor que no supere al 35% de n = 50, corresponde al 2º
intervalo.(50/4=12.5)
Intervalos de clase fi Fi
45-55 6 6 0 , 35.50 16
55-65 10 16
P30 65 10 65 , 79
19
65-75 19 35
75-85 11 46 El nivel de productividad en millones de pesos del 35% de las empresas que menos producen es de
85-95 4 50 $65,79
n 50
RANGO
RANCGO INTERCUARTILICO
VARIANZA
DESVÍO ESTÁNDAR
COEFICIENTE DE VARIACIÓN
Un rasgo principal de los datos es su dispersión o amplitud, que se refiere a su variabilidad, a la evaluación de cuán separados o extendidos
están estos datos o bien cuanto difieren unos de otros.
Variación: es el grado en que los datos numéricos tienden a extenderse alrededor de un valor, generalmente el valor medio
1. Al menudo una medida de posición de un conjunto de datos se vincula con la indicación de cuán típico o representativo es para la
población y para ello es necesario contar con la información que proporcionan las mediadas de variación. Solo el conocimiento de un
estadístico de tendencia central no aclara o define toda la distribución, además que no existe un valor de tendencia central ideal, por lo
que es significativo tener una idea de la dispersión de los valores y determinar si es mucha o poca alrededor de la media, pues si la variación
es muy grande entonces esta medida de tendencia central no es buena selección como valor típico.
2. La medida de tendencia central no indica la relación de un dato con los otros, es necesario para ello las medidas de variabilidad o
dispersión.
3. Al tratar problemas con datos dispersos se requiere conocer que problemas puede esto traer, hasta que punto la dispersión tiene un
riesgo aceptable o inaceptable en la toma de decisiones.
4. Al comparar dos distribuciones por lo general centramos la atención en la posición y en la dispersión.
Rango
Mide la dispersión de la totalidad de los datos. Es la más obvia de las medidas ya que es la distancia entre los valores máximo y mínimo.
El rango o recorrido da alguna idea del grado de variación que ocurre en la población, o en la muestra, pero con frecuencia los resultados
pueden ser engañosos, pues este depende de los valores extremos e ignora la variación de las demás observaciones. Está afectado por
ocurrencias raras o extraordinarias.
Cuando aumenta la dispersión de una distribución de frecuencias, se amplía la distancia entre los cuartiles, por lo que esta distancia puede
usarse como base de una medida de variabilidad
El rango Intercuartilico, es el recorrido entre el cuartil 3 y el cuartil 1. Es el intervalo en el cual está comprendido el 50% de los datos
centrales.
Varianza
Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central (Media ).
Este promedio es calculado, elevando cada una de las diferencias al cuadrado (Con el fin de eliminar los signos negativos), y calculando su
promedio o media. Si la varianza es calculada a una población (Total de componentes de un conjunto), la ecuación es:
Donde ( ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la media poblacional y (N) es el número de
observaciones ó tamaño de la población. En el caso que estemos trabajando con una muestra la ecuación que se debe emplear es:
Para datos agrupados por tablas de frecuencias agrupar, la formula correspondiente es:
x x x
2 2
. fi . fi
s 2
( Datos muestrales ) 2
( Datos poblacionales )
n1 N
x . f
2
x f
2 i i
i
s 2 n Datos muestrales
n1
Desviación Estándar
Cuando se utiliza la varianza como medida de dispersión, para salvar el problema de trabajar con distintas dimensiones en la media y en
la medida de variabilidad es necesario definir la Desviación estándar como la raíz cuadrada de la varianza.
La Desviación Estándar es útil para describir cuanto se apartan de la media de la distribución los elementos individuales.
1. Es afectada por el valor de cada observación, s es una medida de dispersión muy sensible a la presencia de datos outliers.
2. Como consecuencia de considerar desviaciones cuadráticas pone mayor énfasis en las desviaciones extremas que en las demás
desviaciones.
3. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de ella la desviación estándar no hay pérdida de
información por lo que la desviación para los datos observados es igual que para los datos tabulados.
4. s = 0 solamente cuando todos los datos son iguales, de otro modo s > 0.
En la construcción de una tabla de una variable continua hay pérdida de información por el agrupamiento de los valores en intervalos y
se traduce en la discrepancia entre el valor de la desviación observada y tabulada.
Cuando se necesita comparar dos o más series de datos a veces no es posible hacerlo con las medidas absolutas, ya sea porque las unidades
son diferentes o porque tienen diferente media, en éstos casos deben utilizarse cantidades relativas.
Es coeficiente de variación es la medida de dispersión relativa más usada y se define como el cociente de la desviación estándar entre el
promedio aritmético, expresado en porcentaje y es adimensional
CV
s
Datos muestrales
x
CV Datos poblacionales
x x
2
x i xi x 2 . fi 6082
Intervalos de x i f i
2
fi fi s 2
124,12$ 2
clase n1 49
45-55 6 50 2258,16 15000
55-65 10 60 883,6 36000
65-75 19 70 6,84 93100
75-85 11 80 1235,96 70400 s s 2 124,12$2 11,141$
85-95 4 90 1697,44 32400
n 50 6082 246900
Empleando la fórmula de trabajo llegamos al mismo resultado pero de una manera más conveniente en relación a los cálculos.
x . f 3470
2 2
x f 246900
2 i i
i
s
2 n 50 124,12
n1 49
s 11,141
CV 100 100 0,16 100 16% como CV está comprendido entre el el 5% y el 20%
x 69, 4
entonces la media es representativa del conjunto de datos
En las distribuciones que no toman la forma de una curva acampanada Normal, interesa muchas veces obtener dos medias adicionales, las
de asimetría y curtosis
III.1) MEDIDAS DE SESGO O ASIMETRÍA
Las medidas de asimetría muestran si en la distribución hay concentración de datos en un extremo, superior o inferior, y se denomina Sesgo
positivo o a la derecha si la concentración es en el extremo inferior y Sesgo Negativo o a la izquierda si la concentración es en el superior.
Para determinar qué tipo de asimetría presenta el conjunto de datos se pueden emplear distintos procesos, nosotros vamos a determinar
la asimetría comparando la media aritmética con la mediana de la distribución.
Si x Me La Distribución es simétrica
Si x Me La Distribución es asimétrica por Derecha Sesgo positivo
Si x Me La Distribución es asimétrica por Izquierda Sesgo negativo
Para calcular la asimetría, una posibilidad, es utilizar el llamado coeficiente de FISHER que representaremos como g1 y responderá a la
siguiente expresión matemática:
g1
( x i x )3 f i
ns 3
Según sea el valor de g1, diremos que la distribución es asimétrica a derechas o positiva, a izquierdas o negativa, o simétrica, o sea:
Si g1 0 la distribución será asimétrica positiva o a derechas (desplazada hacia la derecha).
Si g1 0 la distribución será asimétrica negativa o a izquierdas (desplazada hacia la izquierda).
Si g1 0 la distribución será simétrica.
Coeficiente de Pearson
Otra posibilidad de calcular la asimetría, es por medio del coeficiente de PEARSON (Ap), el cual responde a la siguiente expresión.
Aunque en la práctica este coeficiente sería más fácil de calcular que el anterior, casi no lo utilizaremos ya que
X Mo solo es cierto cuando la distribución tiene las siguientes condiciones:
Ap Unimodal
S
Campaniforme
Moderada o ligeramente asimétrica.
Al comparar cuán aguda es una distribución en relación con la Distribución Normal, se pueden presentar diferentes grados de
apuntalamiento.
1. Mesocúrtica, Normal
2. Plarticúrtica, Menor apuntalamiento
3. Leptocúrtica, Mayor apuntalamiento
Una medida del apuntalamiento o Curtosis de la distribución está basada en los cuartiles y percentiles, y está dada por el coeficiente de
Curtosis Percentílico
1 Q3 Q1
K
2 P90 P10
Cr
( x
i x )4 f i
3
ns 4
Para determinar qué tipo de asimetría presenta el conjunto de datos recurrimos a la regla definida, comparando la media aritmética con la
mediana.
Si x Me La Distribución es simétrica
Si x Me La Distribución es asimétrica por Derecha Sesgo positivo
Si x Me La Distribución es asimétrica por Izquierda Sesgo negativo
Ejemplo
Por último nos queda analizar la curtosis, si tenemos en cuenta la regla correspondiente al coeficiente de Curtosis Percentílico vemos que para
calcularla necesitamos los percentiles P90 y P10 ya que los cuartiles Q3 y Q1 ya los hemos calculado:
Ejemplo 1
Se lanzan dos dados 200 veces anotando cada vez la suma de sus puntos los que se registran en la siguiente tabla
Suma 2 3 4 5 6 7 8 9 10 11 12
f 6 10 15 22 31 33 30 24 16 9 4
F 6 16 31 53 84 117 147 171 187 196 200
GRÁFICO DE BARRAS
33
31
30
24
22
16
15
10
9
6
4
2 3 4 5 6 7 8 9 10 11 12
x
x f i i
1392
6, 96
n 200
M0 7
n 200
Me
2
2
100 Me 7
Ejemplo 2
Los resultados de un test de 49 preguntas realizado a 500 personas han dado los siguientes resultados:
RESPUESTAS FRECUENCIA
CORRECTAS
0-10 45
10-20 123
20-30 206
30-40 804
40-50 42
HISTOGRAMA Y
POLÍGONO DE
FRECUENCIAS
d1 84
M o Li a . 20 10. 24,08 respuestas correctas
d1 d 2 84 122
x
xi fi .
12050
24,1 respuestas correctas
n 500
Ya conoce la tabla de clasificación del Campeonato 2015 tras la 9ª jornada ( 10 al 13/04/15) , publicada página web de la AFA, donde figura
los partidos jugados (PJ), los ganados (PG), los empatados (PE), los perdidos (PP), los goles a favor (GF), los goles en contra (GC) y los puntos
(Pt). Comparemos la variable goles a favor (GF,) y la variable puntos conseguidos (Pt).
a) Construya la tabla de distribución de frecuencias de la variable Puntos conseguidos (Pt)
b) Calcule y compare el número medio de goles a favor y el número medio de puntos conseguidos
c) ¿En cuál de las dos distribuciones existe mayor dispersión?
d) ¿Cuál de las dos distribuciones tiene una mayor asimetría?
e) ¿Dónde hay una distribución más homogénea de equipos, en los goles a favor o en los puntos conseguidos?
x
x . f
i i
356
11,87 puntos obtenidos
n 30
Variable goles a favor x 10,6 goles a favor Me 11 goles a favor Asimetría negativa
Variable puntos ganados x 11,87 puntos ganados Me 11 puntos ganados Asimetría positiva
s 3,85 s 5,14
CVGoles a favor 0, 3632.100 36, 32% CVPuntos Obtenidos 0,433.100 43, 30%
x 10,6 x 11,87
A continuación se presenta una tabla que muestra la distribución de frecuencias de los salarios de una determinada fábrica A Cantidad
a) Calcular el sueldo mínimo del 35% de las personas que más cobran. Salario de
personas
b) ¿La distribución de los salarios es una distribución simétrica?
0- 500 12
154000
x 1184, 61$
130
2
Mo 1000 500 1142, 86$
2 5
x Me Asimetría Negativa
a) En caso que el puntaje del 40% de los empleados con menores notas sea inferior a 35 puntos deberá implementar cursos de capacitación.
¿Qué decisión deberá tomar la empresa?
Puntuación 0-20 20-40 40-60 60-80 80-100
N° de trabajadores 94 140 160 98 8
x’ 10 30 50 70 90
F(x) 94 234 394 492 500
200 94
P40 0, 40 500 200 P40 20 20 35,14 puntos No deberá la empresa iniciar el curso de capacitación.
140
b) Sabiendo que la varianza es de 444,51 puntos2, determine si el conjunto de datos es homogéneo. Justifique.
20720
x 41, 44 puntos
500
s 21, 08
CV 0, 5 No son datos hom ogéneos CV 0, 20
x 41, 44
Lic. Andrea Gache 56
Bibliografía Consultada:
Ed. Alfaomega
www.indec.mecon.ar.