Estadística Descriptiva - Estadística

NOTAS DE ESTADÍSTICA
TEÓRICO-PRÁCTICAS
ESTADÍSTICA DESCRIPTIVA
LIC. ANDREA GACHE

¿Qué es la Estadística?
La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en ellos regularidades en el comportamiento,
que sirven para describir el conjunto y para efectuar predicciones.
A menudo recibimos información numérica tal como:
 El costo de vida se incrementó frente al año pasado en dos puntos porcentuales.
 El recuento de votos de una elección: Nuevo Espacio gano la elección del Centro de Estudiantes por el 55% de los votos, en las pasadas
elecciones.
 El 72% de los habitantes de una ciudad reclaman mejoras en los servicios de limpieza a la Municipalidad.
La información estadística se emplea en forma continua para la toma de decisiones tanto en economía, en negocios, en ciencias políticas y en
todo tipo de investigación.
“La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas,
procesos, etc. A través de la cuantificación y el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que
resulta una herramienta de suma utilidad para la toma de decisiones”
Lic. Andrea Gache 1

1. Conceptos básicos
 Población o Universo:
En cualquier trabajo en el que se aplique, la estadística debe hacer referencia a un conjunto de entidades, conocido como población.
Es el total del conjunto de elementos u objetos de los cuales se quiere obtener información. Aquí el término población tiene un significado mucho
más amplio que el usual, ya que puede referirse a personas, objetos, actos, áreas geográficas e incluso al tiempo.
La población debe estar perfectamente definida en el tiempo y en el espacio, de modo que ante la presencia de un potencial integrante de la
misma, se pueda decidir si forma parte o no de la población bajo estudio. Por lo tanto, al definir una población, se debe cuidar que el conjunto de
elementos que la integran quede perfectamente delimitado. Si, por ejemplo, estamos analizando las facultades de Ciencias Económicas, debemos
especificar cuáles y cuándo: facultades de Ciencias Económicas de Universidades Nacionales y Privadas de la Capital Federal, año 2015.
El tamaño de una población viene dado por la cantidad de elementos que la componen.
Población ⇒ total de sujetos o unidades de análisis de interés en el estudio
Parámetro ⇒ una medida resumen calculada sobre la población
 Unidad de análisis:
Es el objeto del cual se desea obtener información. Muchas veces nos referimos a las unidades de análisis con el nombre de elementos. En
estadística, un elemento o unidad de análisis puede ser algo con existencia real, como un automóvil o una casa, o algo más abstracto como la
temperatura o un intervalo de tiempo. Dada esta definición, puede redefinirse población como el conjunto de unidades de análisis.
Lic. Andrea Gache 2

Muestra:
Es un subconjunto de unidades de análisis de una población dada, destinado a suministrar información sobre
la población. Para que este subconjunto de unidades de análisis sea de utilidad estadística, deben reunirse
ciertos requisitos en la selección de los elementos.
Las causas por la cual se seleccionan muestras son muchas:
 Puede ocurrir que la población que se defina tenga tamaño infinito, y en consecuencia, no fuera
posible observar a todos sus elementos.
 En otras ocasiones, el costo de la observación

exhaustiva puede ser muy elevado.
 El tiempo de recolección de la información muy extenso.
 La observación de los elementos puede ser destructiva. Por ejemplo, si quisiéramos hacer
un estudio de la calidad de una partida de fósforos, no podríamos probarlos a todos pues
los destruiríamos.
La muestra debe ser representativa, en el sentido de que las conclusiones obtenidas deben
servir para el total de la población.
Muestra ⇒ cualquier subconjunto de los sujetos o unidades de análisis de la población,
en el cual se recolectarán los datos

Estadístico ⇒ una medida resumen calculada sobre la muestra
Lic. Andrea Gache 3

Tipos de muestras
Las muestras pueden ser probabilísticas o no probabilísticas.
Muestra probabilística Muestra no probabilística
Es aquella en la cual los sujetos de la muestra se seleccionan Es aquella en la cual los sujetos de la muestra son seleccionados en
con base en probabilidades conocidas base a un criterio personal del investigador; por lo tanto no hay
Por lo que la probabilidad de selección de cada unidad es forma de determinar cuan representativa es la muestra de la
población total. No se la puede emplear para la inferencia
conocida de antemano.
estadística
La modalidad más elemental de muestra probabilística es la
muestra aleatoria simple, en la que todos los componentes o Ejemplos de éstas muestras son la muestra accesible (que está
unidades de la población tienen la misma oportunidad de ser conformada por personas de fácil acceso para el investigador como
ser colegas o alumnos de su clase.) y la muestra voluntaria (donde
seleccionados.
los sujetos de la muestra no han sido seleccionados
Otro procedimiento similar es el llamado muestreo aleatorio matemáticamente)
sistemático en el cual se escoge uno de cada k componentes
del listado de la población. El investigador selecciona al azar un
punto de partida y un intervalo muestral. Así si el punto de
partida fuera el 11 y el intervalo el 6 se elegirían el 11, 16, 21,16
hasta completar la lista.
Siempre que se desee adecuar la representación de diferentes
subconjuntos hay que recurrir a una muestra estratificada. Las
características de las submuestras (estratos o segmentos)
pueden contemplar casi cualquier tipo de variables: edad,
sexo, religión, nivel de ingresos, etc. Los estratos pueden así
definirse mediante un número prácticamente ilimitado de
características.
Lic. Andrea Gache 4

Variable:
Es la cualidad o cantidad medible que se estudia de las unidades de análisis y que varían de una unidad a otra. Por ejemplo: edad, ingreso de
un individuo, sexo, cantidad de lluvia caída, etc.
Las categorías de una variable

cualitativa deben ser definidas
claramente durante la etapa de diseño
de la investigación y deben ser
mutuamente excluyentes y
exhaustivas. Esto significa que cada
unidad de observación debe ser
clasificada sin ambigüedad en una y
solo una de las categorías posibles y
que existe una categoría para clasificar
a todo individuo.
En este sentido, es importante
contemplar todas las posibilidades
cuando se construyen variables
categóricas, incluyendo una categoría
tal como No sabe / No contesta, o No
registrado u Otras, que asegura que
todos los individuos observados serán
clasificados con el criterio que define la
variable. Los datos categóricos se
clasifican en dicotómicos, nominales y
ordinales.
Lic. Andrea Gache 5

Nivel de medición:
Las variables pueden ser medidas con mayor o menor grado de precisión según la escala de medida utilizada para su observación. Podemos
distinguir los siguientes niveles de medición de una variable:
 Nominal: sólo permite clasificar a las unidades de análisis en categorías. No existe orden obvio entre las categorías. Por ejemplo: sexo –
varón y mujer -.
 Ordinal: además de clasificar a los elementos en distintas categorías, permite establecer una relación de orden de las mismas. Existe
un orden natural entre las categorías. Por ejemplo: clase social –baja, media y alta. Severidad de la patología: Ausente / leve / moderado /
severo.
 Intervalar: permite clasificar, ordenar y medir la distancia entre las diferentes categorías. Por ejemplo: edad.
Lic. Andrea Gache 6

Tipos de Estadística
Existen dos tipos de Estadística: la Descriptiva y la Inferencial:

Estadística Descriptiva:
Se refiere a la recolección, presentación, descripción, análisis e interpretación de una colección de datos, esencialmente consiste en resumir
éstos con uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad de los mismos. La estadística Descriptiva
es el método que permite obtener de un conjunto de datos conclusiones sobre sí mismos y no sobrepasan el conocimiento proporcionado por
éstos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una población o de una muestra.
El análisis exploratorio de datos ofrece modos de presentar y evaluar las características principales de los datos a través de tablas, gráficos y
medidas resúmenes. Presentaremos formas simples de resumir y representar gráficamente conjuntos de datos. El objetivo de construir
gráficos es poder apreciar los datos como un todo e identificar sus características sobresalientes. El tipo de gráfico a seleccionar depende del
tipo de variable que nos interese representar por esa razón distinguiremos en la presentación gráficos para variables categóricas y para
variables numéricas.
Estadística Inferencial:
Se refiere al proceso de lograr generalizaciones acerca de las propiedades del todo, población, partiendo de lo específico, muestra. Para que
éstas generalizaciones sean válidas la muestra deben ser representativa de la población y la calidad de la información debe ser controlada,
además puesto que las conclusiones así extraídas están sujetas a errores, se tendrá que especificar el riesgo o probabilidad que con que se
pueden cometer esos errores. La estadística Inferencial es el conjunto de técnicas que se utiliza para obtener conclusiones que sobrepasan los
límites del conocimiento aportado por los datos, busca obtener información de un colectivo mediante un metódico procedimiento del manejo
de datos de la muestra.
Lic. Andrea Gache 7

Análisis Estadístico
El análisis estadístico es todo el proceso de organización, procesamiento, reducción e interpretación de datos para realizar inferencias.
Etapas de un estudio estadístico
En esta etapa se define el objetivo
de la investigación y se precisa el
universo o población de la misma y
se planean los métodos con los que
Planteamiento
se recogerán los datos.
del problema:
Relevamiento de
Mediante técnicas que permitan luego aplicar la información
criterios para codificar esos datos. Los cuales deben expresarse de forma que su lectura sea
sencilla. Existen 3 formas de presentación: con palabras –
Presentación de
los datos para pocos datos-, mediante tablas estadísticas y mediante
gráficos estadísticos.
Análisis
descriptivo
Cálculo de medidas de los
descriptivas datos
En los casos en los que se trabaja
Inferencia con muestras.
estadística
Explicar el sentido de
Interpretación
todos los datos
obtenidos.
Lic. Andrea Gache 8

Áreas de la estadística
Describiremos brevemente cada una de las áreas en que puede dividirse la estadística:
I. Diseño: Planeamiento y desarrollo de investigaciones.
II. Descripción: Resumen y exploración de datos.
III. Inferencia: Hacer predicciones o generalizaciones acerca de características de una población en base a la información de una muestra
de la población.
I. Diseño Es una actividad crucial. Consiste en definir como se desarrollará la investigación para dar respuesta a las preguntas que motivaron la
misma. La recolección de los datos requiere en general de un gran esfuerzo, por lo que, dedicar especial cuidado a la etapa de planificación de la
investigación ahorra trabajo en las siguientes etapas. Un estudio bien diseñado resulta simple de analizar y las conclusiones suelen ser obvias. Un
experimento pobremente diseñado o con datos inapropiadamente recolectados o registrados puede ser incapaz de dar respuesta a las preguntas
que motivaron la investigación, más allá de lo sofisticado que sea el análisis estadístico. Aún en los casos en que se estudian datos ya registrados,
en que estamos restringidos a la información existente, los principios del buen diseño de experimentos, pueden ser útiles para ayudar a seleccionar
un conjunto razonable de datos que esté relacionado con el problema de interés.
II. Descripción Los métodos de la Estadística Descriptiva o Análisis Exploratorio de Datos ayudan a presentar los datos de modo tal que sobresalga
su estructura. Hay varias formas simples e interesantes de organizar los datos en gráficos que permiten detectar tanto las características
sobresalientes como las características inesperadas. El otro modo de describir los datos es resumirlos en uno o dos números que pretenden
caracterizar el conjunto con la menor distorsión o pérdida de información posible.
Explorar los datos, debe ser la primera etapa de todo análisis de datos.
III. Inferencia: Inferencia Estadística hace referencia a un conjunto de métodos que permiten hacer predicciones acerca de características de un
fenómeno sobre la base de información parcial acerca del mismo. Los métodos de la inferencia nos permiten proponer el valor de una cantidad
desconocida (estimación) o decidir entre dos teorías contrapuestas cuál de ellas explica mejor los datos observados (test de hipótesis).
Lic. Andrea Gache 9

Relevamiento de la información. Métodos de recolección de datos
La forma de obtener la información original de las unidades de análisis que componen el universo por investigar puede ser efectuada a través de
un censo, una encuesta o un registro administrativo.
 Censo
Es un método de recolección de datos mediante el cual la información se obtiene relevando la totalidad de los elementos que componen la
población o universo bajo estudio. Un censo debe cumplir las condiciones de universalidad (censar a todos los elementos de la población) y
simultaneidad (realizarse en un momento determinado). Un censo es equivalente a una fotografía de la población bajo estudio.
El término censo no sólo se aplica a aquellos relevamientos que comprenden todas las unidades de todo un país y que se realizan con una frecuencia
de recolección quinquenal o decenal, como es el caso de los censos de población, económicos, agropecuarios, etc., sino también a todo
relevamiento, cualquiera sea su cobertura geográfica, número de unidades de información, o frecuencia de su recolección, siempre que incluya
todas las unidades que componen el universo que se investiga.
 Encuesta
Es un método de recolección mediante el cual la información se obtiene relevando sólo un subconjunto o muestra de elementos del universo en
estudio, que permite obtener información sobre el mismo.
Para que la información obtenida con la encuesta sea generalizable a la población, la muestra utilizada debe ser representativa de la población de
la que proviene. Para lograrlo, se utilizan métodos de selección de unidades especialmente diseñados con este fin.
Su uso ha ido en rápido aumento, en la medida en que las instituciones productoras de información disponen de personal capacitado para efectuar
su organización, diseño y análisis, debido a su menor costo y a que en determinadas circunstancias la información resulta más exacta debido a que
Lic. Andrea Gache 10

los errores ajenos al muestreo (errores en la recolección y en el procesamiento) pueden ser reducidos a través de una mejor capacitación de los
empadronadores y la utilización de métodos de captación de información más objetivos.
 Registro administrativo
Existen oficinas públicas que llevan registros administrativos para sus propios fines. Por ejemplo, los Registros Civiles que registran los nacimientos,
los casamientos, las defunciones, etc.; los Ministerios de Educación que llevan registros de matriculación de alumnos, deserción escolar, etc.; la
Aduana que registra las importaciones y exportaciones, etc.
Esta información puede ser utilizada con fines estadísticos y se obtiene tal como está disponible. Los fines administrativos no siempre coinciden
totalmente con los fines estadísticos.
Por ejemplo, para un estudio sobre determinada enfermedad se puede recurrir a los registros disponibles en hospitales, sanatorios, etc. Estos
registros habrán sido diseñados para dar respuesta a ciertos requerimientos administrativos y seguramente la información que contienen no
coincidirá exactamente con los requerimientos estadísticos.
Los registros constituyen la forma más económica de obtener información estadística de una población.

 Presentación de los datos
Los datos son colecciones de un número cualquiera de observaciones relacionadas entre sí, para que sean útiles se deben organizar de manera
que faciliten su análisis, se puedan seleccionar tendencias, describir relaciones, determinar causas y efectos y permitan llegar a conclusiones
lógicas y tomar decisiones bien fundamentadas; por esa razón es necesario conocer lo métodos de Organización y Representación, la finalidad
de éstos métodos es permitir ver rápidamente todas las características posibles de los datos que se han recolectado.
I) Variable Cualitativa: Datos Categóricos.
Cuando se trata de variables cualitativas donde las categorías están determinadas, lo único que hay que hacer es contabilizar el número de
casos pertenecientes a cada categoría y normalizar en relación al número total de casos, calculando una proporción, un porcentaje o una
razón.
Los datos categóricos se organizan en Tablas de frecuencias.
 Frecuencia:
Es el número de veces que se presenta cada categoría de la variable.
 Tabla de frecuencias:
Una forma de presentar ordenadamente un grupo de observaciones, es a través de tablas de distribución de frecuencias. La estructura de
estas tablas depende de la cantidad y tipo de variables que se están analizando, siendo las más simples las que se refieren a una variable.
El modo más simple de presentar datos categóricos es por medio de una tabla de frecuencias. Esta tabla indica el número de unidades de análisis
que caen en cada una de las clases de la variable cualitativa

Nombre de la variable Frecuencia
Categorías o Frecuencias
Recorrido de la variable Observadas
TOTAL n
Ejemplo
El gerente del Sector de Personal de una empresa desea sondear el estado civil de los empleados de su empresa para ello toma una muestra
de 20 empleados
La variable “estado civil de los empleados de la empresa A”, es en este caso una variable cualitativa, las categorías de la variable son: soltero,
casado, viudo y divorciado
Los datos obtenidos se vuelcan en la tabla de frecuencias
Categorías de la variable Frecuencia

En la columna (2) se ha colocado
(1) (2) la cantidad de empleados que
corresponden a cada categoría.
En la columna (1) se Soltero 4
observan los valores Si sumamos esta columna
que toma la variable Casado 5 obtenemos la cantidad total de
“estado civil” empleados bajo estudio.
Viudo 8
Divorciado 3

 Representación gráfica:
Gráfica de Barras
En general la representación gráfica de una tabla de frecuencias permite percibir con mayor claridad algunas características de la masa de datos que se
investiga. Por ello, a través de gráficos, resulta bastante más fácil transmitir conclusiones a personas no habituadas a la interpretación de tablas de
frecuencias.
Este gráfico es útil para representar datos categóricos nominales u ordinales. A cada categoría o clase de la variable se le asocia una barra cuya altura
representa la frecuencia o la frecuencia relativa de esa clase. Las barras difieren sólo en altura, no en ancho.
La escala en el eje horizontal es arbitraria y en general, las barras se dibujan equiespaciadas, por esta razón este tipo de gráfico sólo debe usarse para
variables categóricas.
Para representar gráficamente una distribución de frecuencias se utiliza un par de ejes de coordenadas. En el eje de las abscisas se representará la variable
estudiada y en el eje de las ordenadas, las correspondientes frecuencias.
El siguiente es un gráfico de frecuencias confeccionado con los datos del ejemplo anterior.
Estado Civil Estado Civil
DIVORCIADO 3
8
VIUDO 8
5
CASADO 5 4
3
SOLTERO 4
SOLTERO CASADO VIUDO DIVORCIADO
0 2 4 6 8 10

Gráfico de tortas
En este gráfico, ampliamente utilizado, se representa la frecuencia relativa de cada categoría como una porción de un círculo, en la que el ángulo se
corresponde con la frecuencia relativa correspondiente. Como en todo gráfico es importante indicar el número total de sujetos.
Esta representación gráfica es muy simple y permite comparar la distribución de una variable categórica en 2 o más grupos.
Grafico de Torta: Estado Civil
15% 20%
40% 25%
soltero casado viudo divorciado
¿Gráfico de barras o de tortas?
La información que brindan los dos tipos de gráficos es equivalente, sin embargo, el gráfico de barras resulta más natural para comparar las distribuciones
de dos grupos, debido a que nuestro ojo percibe mejor diferencias en longitudes que en ángulos.
Por otra parte, en el gráfico de barras todas las barras comienzan al mismo nivel, lo que facilita la comparación.

 Variable Cuantitativa: Datos Numéricos
Cuando se trata de variables cuantitativas, el resumen de los datos consiste en organizar tablas que sintetizan los datos originales y se
denominan distribuciones de frecuencia.
Aquí habría que considerar si la variable cuantitativa es discreta o continua.
k
n   fi
i 1
f
ri  i
n

a) Datos agrupados por distribución de frecuencias
Comenzaremos desarrollando el caso de que la variable sea discreta. Las clases de una tabla de frecuencias deben ser mutuamente excluyentes
y exhaustivas, es decir, cada dato debe caer en una y sólo una clase y todos los datos deben tener una clase a la cual pertenecen.
Ejemplo
Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X, obteniéndose los siguientes resultados:
En primer lugar observamos que la variable X es cuantitativa discreta, “número de caras al arrojar al aire tres monedas en 8 ocasiones”
Interpretación de la tabla:
El porcentaje de veces que se da ese valor de variable 1 cara
xi fa fr Fa
respecto del total es 3/8 (frecuencia relativa del valor de
La tercer fila debe interpretarse: en la 0 1 1/8 1
experiencia 2 caras se observaron 3 variable x=2)
veces (frecuencia absoluta del valor de
1 3 3/8 4
variable x=2). 2 3 3/8 7
3 1 1/8 8
n=8 1 El número de veces que se obtuvo hasta 2 caras es de

7(frecuencia absoluta acumulada del valor de variable x=2)
Representación gráfica:
Para representar gráficamente una distribución de frecuencias absolutas se utiliza un par de ejes de coordenadas. En el eje de las abscisas se
representará la variable estudiada y en el eje de las ordenadas, las correspondientes frecuencias.

Para representar gráficamente una distribución de frecuencias absolutas acumulada se utiliza un par de ejes de coordenadas. En el eje de las
abscisas se representará la variable estudiada y en el eje de las ordenadas, las correspondientes frecuencias acumuladas, empleando un gráfico
escalonado.
El siguiente es un gráfico de frecuencias confeccionado con los datos del ejemplo anterior.
Por cada valor de la variable se grafica

un bastón con altura igual a la
frecuencia de ese valor de variable

b) Datos agrupados por Intervalos de clase.
En el caso que la variable cuantitativa sea continua, es decir que toma infinitos valores en un intervalo considerado, ya no es conveniente
presentarla en una tabla de frecuencias como en el caso anterior dado que en principio sería imposible enlistar cada valor de variable , de
igual modo ocurre cuando se dispone de un gran número de valores discretos.
 Clases o intervalos de clase: Li ; L s 

Grupo de valores que describen una característica. Deben incluir todas las observaciones de la variable dentro de sus límites, por convención
se incluye el límite inferior y se excluye el superior, es decir cada intervalo de clase corresponde a un intervalo semiabierto por derecha. Cada
uno de los intervalos deben ser mutuamente excluyentes
 Anchura o tamaño del intervalo:
Es la diferencia entre los límites de una clase Amplitud  Lim sup Lim inf .
 Número de clases:
Es el número total de grupos en que se clasifica la información, se recomienda que no sea menor que 5 ni mayor que 15
 ¿Cuántas clases usar?

Existen distintas fórmulas que permiten calcular el número máximo de clases apropiado para un conjunto de datos, en base al rango de datos
y al número de datos.
Muchos intervalos harán que caigan muy pocas observaciones en cada clase, por lo que las alturas de las barras variarán irregularmente. Muy
pocas clases producen una gráfica más regular, pero demasiado agrupamiento puede hacer que se pierdan las características principales.

 Marca de Clase:
Lim sup  Lim inf .

Es el punto medio del intervalo de clase. x 
2
 Frecuencia:
Es el número de veces que aparece un valor
 Frecuencia Acumulada:
Indica cuantos casos hay por debajo o arriba de un determinado valor o límite de clase.
 Frecuencia Relativa:
Indica la proporción que representa la frecuencia de cada intervalo de clase en relación al total, es útil para comparar varias distribuciones con
parámetros de referencia uniformes.
 Frecuencia Acumulada Relativa:
Indica la proporción de datos que se encuentra por arriba o debajo de cierto valor o límite de clase.

 Gráficos de una Distribución de Frecuencias:
Los gráficos son útiles porque ponen en relieve y aclaran las tendencias que no se captan fácilmente en la tabla
Histograma
Está formado por rectángulos cuya base es la amplitud del intervalo y tiene la característica que la superficie que corresponde a las barras es
representativa de la cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases que tienen el mismo tamaño o
diferente (intervalo variable). En el eje horizontal se representan los valores de la variable y en el eje vertical una medida de frecuencia
(frecuencia absoluta, frecuencia relativa o frecuencia relativa porcentual. Indicamos en el eje horizontal los límites de los intervalos de clase.
Asociamos a cada clase una columna cuya base cubre el intervalo de clase y cuya altura indica la frecuencia del intervalo El gráfico se construye
sin dejar espacio horizontal entre categorías, a menos que una clase esté vacía (es decir tenga altura cero).
 Polígono de Frecuencias
Se puede obtener uniendo cada punto medio (marca de clase) de los rectángulos del histograma con líneas rectas, teniendo cuidado de agregar
al inicio y al final marcas de clase adicionales, con el objeto de asegurar la igualdad del áreas.
 Curvas de frecuencia
No es más que la curva suavizada que se traza sobre el polígono y representa la asimetría y la curtosis que tiene la distribución, permite
visualizar un esquema más claro del patrón de datos.
 Ojivas
La ojiva representa gráficamente la forma en que se acumulan los datos y permiten ver cuantas observaciones se hallan por arriba o debajo
de ciertos valores.

Ejemplo Tomemos por ejemplo la siguiente distribución por intervalos de clase correspondiente al nivel de productividad en
millones de pesos , de 50 empresas en el mes de marzo del año 2015.
Interpretación de la tabla:
Intervalos de fi
clase Hay 6 empresas cuyo nivel de productividad en
45-55 6 marzo del 2012 está entre 45,0 y 55,0 millones

55-65 10 de pesos, hay 16 empresas que tienen un nivel
65-75 19 de productividad hasta 65,0 millones de pesos.
75-85 11
85-95 4
n 50 OJIVA: La ojiva es el grafico que se utiliza
para representar las frecuencias acumuladas
 Gráficos de una Distribución de Frecuencias:
POLÍGONO DE
FRECUENCIAS: Obtenido
enlazando los puntos medios 60
de los extremos superiores de
las franjas. 50
40
30
20
10
0
45 55 65 75 85 95
HISTOGRAMA

¿En qué difieren un gráfico de barras y un histograma?
 El gráfico de barras no tiene en cuenta el hecho de que los intervalos de clase (grupos de edad) tienen distinta longitud.
 El gráfico de barras representa el porcentaje en la altura de la barra. Mientras que en un histograma el porcentaje se representa en el
área de la barra.
 En el gráfico de barras, las barras se representan separadas para indicar que no hay continuidad entre las categorías.
 En un histograma barras adyacentes deben estar en contacto indicando que la variable es continua.
¿Cómo construimos el histograma teniendo en cuenta que los intervalos de clase son de distinta longitud?
La barra debe tener una altura tal que el área (base x altura) sea igual a la frecuencia (o a la frecuencia relativa).
frecuencia intervalo
Es decir, Altura de la barra 
longitud del intervalo
De este modo el área de la barra coincide con la frecuencia en el intervalo:
frecuencia intervalo
área  base . altura  longutud del intervalo   frecuencia
longitud del intervalo
La altura de la barra definida de este modo se denomina escala densidad porque indica el número de datos por unidad de la variable.

Distribución Muestral y Poblacional.
Las distribuciones de frecuencia y los histogramas de una variable se aplican tanto a datos de una muestra como a datos de toda la población.
En el primer caso hablamos de distribución muestral y en el segundo caso de distribución poblacional. En algún sentido la distribución muestral
es una fotografía borrosa de la distribución poblacional. A medida que el tamaño de muestra aumenta la proporción de casos que cae en cada
intervalo se parece más y más a la proporción poblacional. La fotografía se torna más y más definida y la distribución muestral luce similar a
la distribución poblacional. Si la población contiene una gran cantidad de unidades de observación y la variable es continua es posible elegir
intervalos tan delgados como deseemos para construir el histograma y además hacer crecer el tamaño de muestra indefinidamente. En este
caso, la forma del histograma se aproximará a una curva suave denomina distribución de la variable en la población.
Histogramas para variables continuas.

Análisis descriptivo de los datos: Medidas de resumen
Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de observaciones de una variable y describir con ellas ciertas
características de los conjuntos, logrando una comparación más precisa de los datos que la que se puede conseguir con tablas y gráficas.
Considerar que las medidas descriptivas pueden calcularse sobre datos poblacionales en cuyo caso reciben el nombre de parámetros o sobre
datos muestrales recibiendo el nombre de estadísticos.
Existen tres tipos de medidas descriptivas:
I) MEDIDAS DE POSICIÓN

I.1) MEDIDAS DE TENDENCIA CENTRAL
Los promedios son una medida de posición que dan una descripción compacta de cómo están centrados los datos y una visualización más
clara del nivel que alcanza la variable, pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor facilidad para
efectuar comparaciones.
El promedio como punto típico de los datos es el valor alrededor del cual se agrupan los demás valores de la variable.
 Media aritmética:
Es el promedio del conjunto de datos. Es el número que se obtiene al dividir la suma de todas las observaciones por la cantidad total de ellas.
 Para datos sin agrupar, la formula correspondiente es:
x
 x. ( Datos muestrales ) 
x ( Datos poblacionales )
n N
 Para datos agrupados por tablas de frecuencias agrupar, la formula correspondiente es:
Aclaración
x
x i fi .
( Datos muestrales ) 
 x .f i i
( Datos poblacionales )
fi frecuencia de la variable
n N
 Para datos agrupados con intervalos de clase, la formula correspondiente es:

Aclaración:
 x  x . f
x’i marca de clase de cada intervalo
fi . fi frecuencia del intervalo
x ( Datos muestrales )  
i i i
( Datos poblacionales )
n N

Ejemplo Calculemos la media aritmética para el caso definido anteriormente
Intervalos de fi x i x i  f i
clase
45-55 6 50 300 El nivel de productividad promedio
55-65 10 60 600 durante el mes de marzo del 2015
65-75 19 70 1330
x
 xi fi .

3470
 69,4
fue de $69,4 millones de pesos.
75-85 11 80 880 n 50
85-95 4 90 360
n 50 3470
 Características de la Media:
1. En su cálculo están todos los valores del conjunto de datos por lo que cada uno afecta la media.
2. La suma algebraica de las desviaciones de los valores individuales respecto a la media es cero.
3. Actúa como punto de equilibrio del conjunto de datos, las observaciones mayores y menores se compensan alrededor de ellas.
Podemos imaginar a los datos como un sistema físico, en el que cada dato tiene una “masa” unitaria y lo ubicamos sobre una barra en la
posición correspondiente a su valor. La media representa la posición en que deberíamos ubicar el punto de apoyo para que el sistema esté
en equilibrio.
4. Aunque es confiable porque refleja todos los valores del conjunto de datos puede ser afectada por los valores extremos, y de esa forma
llegar a ser una medida menos representativa, por lo que si la distribución es asimétrica, la media aritmética no constituye un valor típico.

 Moda o modo:
Es el valor de la variable que más veces se repite, o sea, el valor que presenta mayor frecuencia.
Es útil como medida de tendencia central, sólo en aquellos casos en que un valor de la variable es mucho más frecuente que el resto. Se basa
en la idea del “comportamiento de la mayoría” para tomar a cierto valor como representativo del comportamiento de los datos.
El modo puede no existir o no ser único, las distribuciones que presentan dos o más máximos relativos se designan de modo general como
bimodales o multimodales.
 Para datos sin agrupar o agrupados por tablas de frecuencias agrupar, el modo es el valor de variable de mayor frecuencia
 Para datos agrupados con intervalos de clase

a es el ancho del intervalo
Li es el límite inferior del intervalo de
mayor frecuencia.(intervalo modal)
 d1 
M 0  Li  a  
 d1  d 2 
d2 es la diferencia entre la frecuencia

absoluta del intervalo modal y la
frecuencia absoluta del intervalo
d1 es la diferencia entre la frecuencia absoluta del intervalo

modal y la frecuencia absoluta del intervalo anterior

Ejemplo
Con relación al
El nivel de productividad en
Intervalos de clase fi Fi millones pesos durante el mes de
marzo del 2015 de mayor
45-55 6 6 frecuencia fue $70,29
55-65 10 16
65-75 19 35
75-85 11 46  d1   9 
M o  Li  a.    65  10.   70, 29
85-95 4 50  d1  d 2   9  8 
n 50
 Características de la Moda.
1. Puede usarse para datos cuantitativos como cualitativos.
2. La moda como estadístico, varía mucho de una muestra a otra.
3. Cuando se tienen dos o más modas es difícil su interpretación.

 Mediana
Es el valor de la observación que ocupa la posición central de un conjunto de datos ordenados según su magnitud. La mediana es un valor de
la variable que deja por debajo de él un número de casos igual al que deja por arriba.
Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeños con respecto a los demás, entonces la media
aritmética se puede distorsionar y perder su carácter representativo, en esos casos es conveniente utilizar la mediana como medida de
tendencia central.
 Para datos sin agrupar, la mediana es el valor de variable que se ubica en el centro de un conjunto de datos ordenados si el número de
observaciones es impar o la mediana es el promedio de los datos centrales en caso de que el número de observaciones sea par.
 Para datos agrupados por tablas de frecuencias agrupar, la mediana es el valor de variable hasta donde se acumula el 50% de las
observaciones.
 Para datos agrupados con intervalos de clase

 Li es el límite inferior del intervalo que contiene al 50% de las observaciones
n   a es el ancho del intervalo

  Fant   Fant es la frecuencia acumulada del intervalo anterior al que contiene el 50%
Me  Li  a  2  de las observaciones.
 f  
  f es la frecuencia absoluta del intervalo que contiene al 50% de las
observaciones.

 Características de la mediana
Es un promedio de posición no afectado por valores extremos sino por el número de observaciones.
La mediana es una medida de posición robusta. No se afecta por la presencia de datos atípicos, salvo que modifiquemos casi el 50% de
los datos menores o mayores de la muestra (la proporción de datos que debemos modificar para modificar la mediana depende del
número de datos de la muestra).
Ejemplo
Volviendo al ejemplo:
Para calcular la mediana primero hay que determinar el 50% de las observaciones:
Intervalos de clase fi Fi 50% de n Entonces: 50% de 50 = 25

45-55 6 6
55-65 10 16
65-75 19 35 n   50 
75-85 11 46  2  Fant   2  16 
Me  Li  a    65  10    69, 74
85-95 4 50  f   19 
n 50    
Comparación de la media y la mediana

.
MEDIA MEDIANA
VENTAJAS Usa toda la información que proveen los datos. Representa el centro de la distribución
Es de manejo algebraico simple. Útil para datos ordinales
DESVENTAJAS Muy sensible a la presencia de datos atípicos. Usa muy poca información de los datos

I.2) MEDIDAS DE TENDENCIA NO CENTRAL
 Cuantiles
Son valores que dividen a la distribución en n partes iguales

Cuartiles, cuatro partes iguales: Q1, Q2, Q3
Deciles, diez pares iguales: D1, D2..........D9
Percentiles, cien partes iguales: P1, P2.....P99
Los cuantiles permiten hacer un análisis minucioso de la distribución, se utilizan generalmente cuando se quiere ubicar un dato dentro
del conjunto. Por ejemplo. Pertenece el dato x al 50% superior?, al 10% inferior? , al 50 % central?, etc.
 Percentiles
 Para datos agrupados con intervalos de clase, la formula correspondiente al percentil k es:
 Donde Li es el límite inferior del intervalo que contiene al k% de las

 k .n 
 100  Fant  observaciones
Pk  Li  a    a es el ancho del intervalo
 f 
   Fant es la frecuencia acumulada del intervalo anterior al que contiene al k%
de las observaciones.
 f es la frecuencia absoluta del intervalo que contiene al k% de las
observaciones.

 Medidas de Tendencia No Central
La forma de calcular estas medidas es muy similar a la del cálculo de la mediana. De hecho ésta coincide con el P50 (percentil 50) el D5 (quinto
decil) y el Q2 (cuartil 2)
Ejemplo
Veamos el cálculo de algunas de estas medidas en el ejemplo que estamos estudiando.
Intervalos de clase fi Fi
45-55 6 6 Cálculo de Q1: Buscamos en la columna de las frecuencias Acumuladas el valor que no supere al
55-65 10 16
25% de n = 50, corresponde al 2º intervalo.(50/4=12.5)
65-75 19 35
75-85 11 46  50 
85-95 4 50  4  6
Q1  55  10 •    61, 5
n 50  10 
 
Cálculo de Q3: Buscamos ahora en la misma columna el correspondiente al 75 % de n que en este caso es el 4º intervalo (3.50/4=37.5)
 3.50 
Intervalos de clase fi Fi  4  35 
45-55 6 6 Q3  75  10 •    77, 27
 19 
55-65 10 16  
65-75 19 35
75-85 11 46 El nivel de productividad que no es superado, en millones de pesos del 75% de las empresas que
85-95 4 50
menos producen es de $77,27.
n 50

Cálculo de D3: El decil 3º. (Corresponde al 30 % 0,3. 50 = 15) se ubica en el 2º intervalo.
 30.50 
 100  6 
D3  55  10 •    64
 10 
 
El nivel de productividad en millones de pesos del 30% de las empresas que menos producen es de $64
Cálculo de P35: Buscamos en la columna de las frecuencias Acumuladas el valor que no supere al 35% de n = 50, corresponde al 2º
intervalo.(50/4=12.5)
Intervalos de clase fi Fi
45-55 6 6  0 , 35.50  16 
55-65 10 16
P30  65  10     65 , 79
 19 
65-75 19 35
75-85 11 46 El nivel de productividad en millones de pesos del 35% de las empresas que menos producen es de
85-95 4 50 $65,79
n 50

II) MEDIDAS DE DISPERSIÓN
RANGO
RANCGO INTERCUARTILICO
VARIANZA
DESVÍO ESTÁNDAR
COEFICIENTE DE VARIACIÓN
Un rasgo principal de los datos es su dispersión o amplitud, que se refiere a su variabilidad, a la evaluación de cuán separados o extendidos
están estos datos o bien cuanto difieren unos de otros.
Variación: es el grado en que los datos numéricos tienden a extenderse alrededor de un valor, generalmente el valor medio

¿Por qué es importante la variación?
1. Al menudo una medida de posición de un conjunto de datos se vincula con la indicación de cuán típico o representativo es para la
población y para ello es necesario contar con la información que proporcionan las mediadas de variación. Solo el conocimiento de un
estadístico de tendencia central no aclara o define toda la distribución, además que no existe un valor de tendencia central ideal, por lo
que es significativo tener una idea de la dispersión de los valores y determinar si es mucha o poca alrededor de la media, pues si la variación
es muy grande entonces esta medida de tendencia central no es buena selección como valor típico.
2. La medida de tendencia central no indica la relación de un dato con los otros, es necesario para ello las medidas de variabilidad o
dispersión.
3. Al tratar problemas con datos dispersos se requiere conocer que problemas puede esto traer, hasta que punto la dispersión tiene un
riesgo aceptable o inaceptable en la toma de decisiones.
4. Al comparar dos distribuciones por lo general centramos la atención en la posición y en la dispersión.
 Rango
Mide la dispersión de la totalidad de los datos. Es la más obvia de las medidas ya que es la distancia entre los valores máximo y mínimo.
El rango o recorrido da alguna idea del grado de variación que ocurre en la población, o en la muestra, pero con frecuencia los resultados
pueden ser engañosos, pues este depende de los valores extremos e ignora la variación de las demás observaciones. Está afectado por
ocurrencias raras o extraordinarias.

 Rango Intercuartilico :
Cuando aumenta la dispersión de una distribución de frecuencias, se amplía la distancia entre los cuartiles, por lo que esta distancia puede
usarse como base de una medida de variabilidad
El rango Intercuartilico, es el recorrido entre el cuartil 3 y el cuartil 1. Es el intervalo en el cual está comprendido el 50% de los datos
centrales.
 Varianza
Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central (Media ).
Este promedio es calculado, elevando cada una de las diferencias al cuadrado (Con el fin de eliminar los signos negativos), y calculando su
promedio o media. Si la varianza es calculada a una población (Total de componentes de un conjunto), la ecuación es:
Donde ( ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la media poblacional y (N) es el número de
observaciones ó tamaño de la población. En el caso que estemos trabajando con una muestra la ecuación que se debe emplear es:

Donde (S2) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la media de la muestra y (n) es el número de
observaciones o tamaño de la muestra. Si nos fijamos en la ecuación, notaremos que se le resta uno al tamaño de la muestra; esto se hace
con el objetivo de aplicar una pequeña medida de corrección a la varianza, intentando hacerla más representativa para la población. Es
necesario resaltar que la varianza nos da como resultado el promedio de la desviación, pero este valor se encuentra elevado al cuadrado.
 Para datos agrupados por tablas de frecuencias agrupar, la formula correspondiente es:
 x  x  x  
2 2
. fi . fi
s 2
 ( Datos muestrales )  2
 ( Datos poblacionales )
n1 N
 Para datos agrupados con intervalos de clase, la formula correspondiente es:
  x . f 
2
 x f
2 i i
i
s  2 n  Datos muestrales 
n1
 Desviación Estándar
Cuando se utiliza la varianza como medida de dispersión, para salvar el problema de trabajar con distintas dimensiones en la media y en
la medida de variabilidad es necesario definir la Desviación estándar como la raíz cuadrada de la varianza.
La Desviación Estándar es útil para describir cuanto se apartan de la media de la distribución los elementos individuales.

s   s 2 Datos Muestrales    2  Datos poblacionales 
 Característica de la Desviación Estándar:
1. Es afectada por el valor de cada observación, s es una medida de dispersión muy sensible a la presencia de datos outliers.
2. Como consecuencia de considerar desviaciones cuadráticas pone mayor énfasis en las desviaciones extremas que en las demás
desviaciones.
3. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de ella la desviación estándar no hay pérdida de
información por lo que la desviación para los datos observados es igual que para los datos tabulados.
4. s = 0 solamente cuando todos los datos son iguales, de otro modo s > 0.

 Coeficiente de variación
En la construcción de una tabla de una variable continua hay pérdida de información por el agrupamiento de los valores en intervalos y
se traduce en la discrepancia entre el valor de la desviación observada y tabulada.
Cuando se necesita comparar dos o más series de datos a veces no es posible hacerlo con las medidas absolutas, ya sea porque las unidades
son diferentes o porque tienen diferente media, en éstos casos deben utilizarse cantidades relativas.
Es coeficiente de variación es la medida de dispersión relativa más usada y se define como el cociente de la desviación estándar entre el
promedio aritmético, expresado en porcentaje y es adimensional
CV 
s
Datos muestrales
x

CV  Datos poblacionales

Permite analizar la representatividad de la media, adoptándose la siguiente regla:
Si 0%  CV  5%  la media es muy representativa del conjunto de datos
Si 5%  CV  20%  la media es representativa del conjunto de datos
Si CV  20%  la media no es representativa del conjunto de datos

Medidas de Dispersión
Ejemplo Para el cálculo de la varianza y el desvío estándar procederemos de la siguiente forma:
 x  x
2
x i xi  x 2  . fi 6082
Intervalos de x i  f i
2
fi fi s 2
   124,12$ 2
clase n1 49
45-55 6 50 2258,16 15000
55-65 10 60 883,6 36000
65-75 19 70 6,84 93100
75-85 11 80 1235,96 70400 s   s 2   124,12$2  11,141$
85-95 4 90 1697,44 32400
n 50 6082 246900
Empleando la fórmula de trabajo llegamos al mismo resultado pero de una manera más conveniente en relación a los cálculos.
  x . f   3470
2 2
 x f 246900 
2 i i
i
s 
2 n  50  124,12
n1 49
Para calcular el coeficiente de variación, simplemente utilizamos su definición.
s 11,141
CV   100   100  0,16  100  16% como CV está comprendido entre el el 5% y el 20%
x 69, 4
entonces la media es representativa del conjunto de datos

III) MEDIDAS DE FORMA: (ASIMETRÍA Y CURTOSIS)
En las distribuciones que no toman la forma de una curva acampanada Normal, interesa muchas veces obtener dos medias adicionales, las
de asimetría y curtosis
III.1) MEDIDAS DE SESGO O ASIMETRÍA
Las medidas de asimetría muestran si en la distribución hay concentración de datos en un extremo, superior o inferior, y se denomina Sesgo
positivo o a la derecha si la concentración es en el extremo inferior y Sesgo Negativo o a la izquierda si la concentración es en el superior.
Para determinar qué tipo de asimetría presenta el conjunto de datos se pueden emplear distintos procesos, nosotros vamos a determinar
la asimetría comparando la media aritmética con la mediana de la distribución.
Si x  Me  La Distribución es simétrica
Si x  Me  La Distribución es asimétrica por Derecha  Sesgo positivo 
Si x  Me  La Distribución es asimétrica por Izquierda  Sesgo negativo 

Coeficiente de Fisher
Para calcular la asimetría, una posibilidad, es utilizar el llamado coeficiente de FISHER que representaremos como g1 y responderá a la
siguiente expresión matemática:
g1 
( x i  x )3 f i
ns 3
Según sea el valor de g1, diremos que la distribución es asimétrica a derechas o positiva, a izquierdas o negativa, o simétrica, o sea:
Si g1  0  la distribución será asimétrica positiva o a derechas (desplazada hacia la derecha).
Si g1  0  la distribución será asimétrica negativa o a izquierdas (desplazada hacia la izquierda).
Si g1  0  la distribución será simétrica.
Coeficiente de Pearson
Otra posibilidad de calcular la asimetría, es por medio del coeficiente de PEARSON (Ap), el cual responde a la siguiente expresión.
Aunque en la práctica este coeficiente sería más fácil de calcular que el anterior, casi no lo utilizaremos ya que
X  Mo solo es cierto cuando la distribución tiene las siguientes condiciones:
Ap   Unimodal
S
 Campaniforme
 Moderada o ligeramente asimétrica.
Si Ap  0  la distribución será asimétrica positiva o a derechas (desplazada hacia la derecha).

Si Ap  0  la distribución será asimétrica negativa o a izquierdas (desplazada hacia la izquierda).
Si Ap  0  la distribución será simétrica.

III.2) MEDIDAS DE CURTOSIS
Al comparar cuán aguda es una distribución en relación con la Distribución Normal, se pueden presentar diferentes grados de
apuntalamiento.
1. Mesocúrtica, Normal
2. Plarticúrtica, Menor apuntalamiento
3. Leptocúrtica, Mayor apuntalamiento
 Coeficiente de Curtosis Percentílico
Una medida del apuntalamiento o Curtosis de la distribución está basada en los cuartiles y percentiles, y está dada por el coeficiente de
Curtosis Percentílico
1 Q3  Q1 
K
2 P90  P10 
 Si K > 0,263 Y la distribución es Leptocúrtica

 Si K = 0,263 Y la distribución es Mesocúrtica (normal)
 Si K < 0,263 Y la distribución es Plarticúrtica

 Coeficiente de Curtosis
Cr 
( x
i  x )4 f i
3
ns 4
 Si Cr  0  la distribución es Leptocúrtica (A)

 Si Cr  0  la distribución es Mesocúrtica (normal) (B)
 Si Cr  0  la distribución es Plarticúrtica (C)

 Medidas de Forma
Para determinar qué tipo de asimetría presenta el conjunto de datos recurrimos a la regla definida, comparando la media aritmética con la
mediana.
Si x  Me  La Distribución es simétrica
Si x  Me  La Distribución es asimétrica por Derecha  Sesgo positivo 
Si x  Me  La Distribución es asimétrica por Izquierda  Sesgo negativo 
x  69,4 Me  69,74  x  Me  Asimetría por Izquierda(sesgo negativo)
Ejemplo
Por último nos queda analizar la curtosis, si tenemos en cuenta la regla correspondiente al coeficiente de Curtosis Percentílico vemos que para
calcularla necesitamos los percentiles P90 y P10 ya que los cuartiles Q3 y Q1 ya los hemos calculado:
1 Q3  Q1  1 77,27  61,5

K   0,256  0,263  Platicúrtica
2 P90  P10  2 84,09  53,34

Ejercicios de Revisión
Ejemplo 1
Se lanzan dos dados 200 veces anotando cada vez la suma de sus puntos los que se registran en la siguiente tabla
Suma 2 3 4 5 6 7 8 9 10 11 12
f 6 10 15 22 31 33 30 24 16 9 4
F 6 16 31 53 84 117 147 171 187 196 200
a) Representar la variable X: “Suma de los puntos de los dados”
GRÁFICO DE BARRAS
33
31
30
24
22
16
15
10
9
6
4
2 3 4 5 6 7 8 9 10 11 12

b) Calcular las medidas de tendencia central
x
x  f i i

1392
 6, 96
n 200
M0  7
n 200
 Me  
2

2
 100  Me  7
Ejemplo 2
Los resultados de un test de 49 preguntas realizado a 500 personas han dado los siguientes resultados:
RESPUESTAS FRECUENCIA
CORRECTAS
0-10 45
10-20 123
20-30 206
30-40 804
40-50 42

a) Representar la variable X: Número de respuestas correctas
HISTOGRAMA Y
POLÍGONO DE
FRECUENCIAS

b) Calcular las medidas de tendencia central
 d1   84 
M o  Li  a .    20  10.    24,08 respuestas correctas
 d1  d 2   84  122 
x
 xi fi .

12050
 24,1 respuestas correctas
n 500
RESPUESTAS FRECUENCIA FRECUENCIA 500

CORRECTAS ACUMULADA  Me  
2
 250
0-10 45 45
10-20 123 168 n 
20-30 206 374  2  Fant   250  168 
Me  Li  a    20  10    23, 98 respuestas correctas
30-40 84 458 f  206 
 
40-50 42 500  

Ejemplo 3
Ya conoce la tabla de clasificación del Campeonato 2015 tras la 9ª jornada ( 10 al 13/04/15) , publicada página web de la AFA, donde figura
los partidos jugados (PJ), los ganados (PG), los empatados (PE), los perdidos (PP), los goles a favor (GF), los goles en contra (GC) y los puntos
(Pt). Comparemos la variable goles a favor (GF,) y la variable puntos conseguidos (Pt).
a) Construya la tabla de distribución de frecuencias de la variable Puntos conseguidos (Pt)
b) Calcule y compare el número medio de goles a favor y el número medio de puntos conseguidos
c) ¿En cuál de las dos distribuciones existe mayor dispersión?
d) ¿Cuál de las dos distribuciones tiene una mayor asimetría?
e) ¿Dónde hay una distribución más homogénea de equipos, en los goles a favor o en los puntos conseguidos?

a) X: puntos obtenidos X: goles a favor
Goles a f Puntos Obtenidos 4 5 6 7 8 9 10 11 12 13 14 15 16 19 21

favor f 1 2 2 2 0 5 2 2 2 2 1 2 2 1 4
2 1
5 1
6 3
7 1
8 3
9 2
10 3
11 6
12 1
13 2
14 1
15 4
16 1
20 1

x
 x . f
i i

318
 10,6 goles a favor
n 30
x
 x . f
i i

356
 11,87 puntos obtenidos
n 30
 Me   30.0,5  15  Me  11 goles a favor

Existe mayor
asimetría en la
 Me   30.0,5  15  Me  11 puntos ganados variable puntos
ganados
Variable goles a favor x  10,6 goles a favor Me  11 goles a favor  Asimetría negativa
Variable puntos ganados x  11,87 puntos ganados Me  11 puntos ganados  Asimetría positiva
Hay mayor dispersión en la variable

puntos obtenidos, ya que es mayor el
sGoles a favor  3,85 goles a favor s Puntos Obtenidos  5,14 puntos Obtenidos
coeficiente de variación.
s 3,85 s 5,14
CVGoles a favor    0, 3632.100  36, 32% CVPuntos Obtenidos    0,433.100  43, 30%
x 10,6 x 11,87

Ejemplo 4
A continuación se presenta una tabla que muestra la distribución de frecuencias de los salarios de una determinada fábrica A Cantidad
a) Calcular el sueldo mínimo del 35% de las personas que más cobran. Salario de
personas
b) ¿La distribución de los salarios es una distribución simétrica?
0- 500 12
Salario Cantidad 500- 1000 38

de personas x’ F(X)
1000- 1500 40
0- 500 12 250 12
a)
1500- 2000 35
500- 1000 38 750 50
 84, 5  50 
1000- 1500 40 1250 90  P65   0, 65  130  84, 5  P65  1000  500    1431, 25$
2000- 2500 5
 40 
1500- 2000 35 1750 125 b)
2000- 2500 5 2250 130
 65  50 
 Me   0, 5  130  65  Me  1000  500    1187, 5$
 40 
154000
x  1184, 61$
130
 2 
Mo  1000  500    1142, 86$
2  5
x  Me  Asimetría Negativa

Ejemplo 5
Una empresa decide ajustar la categoría de sus empleados según los resultados de un test al que se los somete y que arrojó los resultados
presentados en la tabla.
Puntuación 0-20 20-40 40-60 60-80 80-100
N° de trabajadores 94 140 160 98 8
a) En caso que el puntaje del 40% de los empleados con menores notas sea inferior a 35 puntos deberá implementar cursos de capacitación.
¿Qué decisión deberá tomar la empresa?
Puntuación 0-20 20-40 40-60 60-80 80-100
N° de trabajadores 94 140 160 98 8
x’ 10 30 50 70 90
F(x) 94 234 394 492 500
 200  94 
 P40   0, 40  500  200  P40  20  20    35,14 puntos No deberá la empresa iniciar el curso de capacitación.
 140 
b) Sabiendo que la varianza es de 444,51 puntos2, determine si el conjunto de datos es homogéneo. Justifique.
20720
x  41, 44 puntos
500
Si s 2  444, 51 puntos 2  s  21, 08 puntos
s 21, 08
CV    0, 5  No son datos hom ogéneos CV  0, 20
x 41, 44
Bibliografía Consultada:
 “Estadística para Administración y Economía” de Lind – Marchal – Mason.
Ed. Alfaomega
 www.indec.mecon.ar.

Estadística Descriptiva - Estadística

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística Descriptiva - Estadística

Cargado por

Copyright:

Formatos disponibles

NOTAS DE ESTADÍSTICA

LIC. ANDREA GACHE

Lic. Andrea Gache 1

Parámetro ⇒ una medida resumen calculada sobre la población

Lic. Andrea Gache 2

 En otras ocasiones, el costo de la observación

 El tiempo de recolección de la información muy extenso.

en el cual se recolectarán los datos

Lic. Andrea Gache 3

Las muestras pueden ser probabilísticas o no probabilísticas.

Muestra probabilística Muestra no probabilística

Lic. Andrea Gache 4

Las categorías de una variable

Lic. Andrea Gache 5

Lic. Andrea Gache 6

Existen dos tipos de Estadística: la Descriptiva y la Inferencial:

Lic. Andrea Gache 7

Lic. Andrea Gache 8

Lic. Andrea Gache 9

Lic. Andrea Gache 10

Lic. Andrea Gache 11

I) Variable Cualitativa: Datos Categóricos.

Es el número de veces que se presenta cada categoría de la variable.

Lic. Andrea Gache 12

Categorías de la variable Frecuencia

Lic. Andrea Gache 13

Estado Civil Estado Civil

Lic. Andrea Gache 14

Grafico de Torta: Estado Civil

soltero casado viudo divorciado

¿Gráfico de barras o de tortas?

Lic. Andrea Gache 15

Lic. Andrea Gache 16

n=8 1 El número de veces que se obtuvo hasta 2 caras es de

Lic. Andrea Gache 17

Por cada valor de la variable se grafica

Lic. Andrea Gache 18

 Clases o intervalos de clase: Li ; L s 

 Anchura o tamaño del intervalo:

 ¿Cuántas clases usar?

Lic. Andrea Gache 19

Lim sup  Lim inf .

Es el número de veces que aparece un valor

 Frecuencia Acumulada Relativa:

Lic. Andrea Gache 20

Lic. Andrea Gache 21

45-55 6 marzo del 2012 está entre 45,0 y 55,0 millones

Lic. Andrea Gache 22

Lic. Andrea Gache 23

Histogramas para variables continuas.

Lic. Andrea Gache 24

Lic. Andrea Gache 25

 Para datos sin agrupar, la formula correspondiente es:

 Para datos agrupados con intervalos de clase, la formula correspondiente es:

Lic. Andrea Gache 26

Lic. Andrea Gache 27

 Para datos agrupados con intervalos de clase

d2 es la diferencia entre la frecuencia

d1 es la diferencia entre la frecuencia absoluta del intervalo

Lic. Andrea Gache 28

1. Puede usarse para datos cuantitativos como cualitativos.

2. La moda como estadístico, varía mucho de una muestra a otra.

3. Cuando se tienen dos o más modas es difícil su interpretación.

Lic. Andrea Gache 29