Está en la página 1de 47

Análisis Cuantitativo

Guía de estudio de la
Unidad 2

Estadística descriptiva

0
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

1. Introducción
La estadística es el lenguaje universal de la ciencia. Como usuarios potenciales de la estadística, es
necesario dominar la "ciencia" y el "arte" de utilizar correctamente su metodología. El empleo
cuidadoso de los métodos estadísticos permite obtener información precisa de los datos. Estos
métodos incluyen: 1) definir cuidadosamente la situación, 2) recolectar datos, 3) resumir con
precisión los datos y 4) obtener y comunicar las conclusiones importantes.
La estadística implica información, números y gráficas para resumir esta información, y su
interpretación. El término estadística posee varios significados para persona de diversos entornos e
intereses. Para algunos, se trata de un medio para recolectar y representar grandes cantidades de
información. Para otros, se trata de un medio para "tomar decisiones de frente a la incertidumbre".
En la perspectiva idónea, cada uno de estos puntos de vista es correcto.
El terreno de la estadística puede dividirse a grandes rasgos en dos áreas: estadística descriptiva y
estadística inferencial. La estadística descriptiva es en lo que piensa la mayoría de las personas al
escuchar la palabra estadística ya que incluye la recolección, presentación y descripción de datos
muestrales. El término estadística inferencial se refiere a la técnica de interpretación de los valores
resultantes de las técnicas descriptivas y a la toma de decisiones y obtención de conclusiones sobre
la población.
La estadística es más que sólo números: son los datos, lo que se hace con los datos, lo que se
aprende de los datos y las conclusiones resultantes.

2. Objetivos

a) Representar y analizar cuadros y gráficos de datos estadísticos.

b) Conocer las características, empleo, ventajas y desventajas de las medidas de tendencia


central, de dispersión y de forma

3.Contenidos

3.1- Método científico. Estadística: definición. Estadística descriptiva e inferencial. Población y


muestra. Importancia y aplicaciones
3.3 - Análisis estadístico. Datos. Variables y escalas de medición. Definición operativa
3.3 - Recopilación de datos estadísticos. Teoría elemental del muestreo. Muestreos
probabilísticos y no probabilísticos: características y procedimientos técnicos de selección.
3.4- Organización y resumen de datos categóricos: tablas de frecuencias. Gráfico de barras. Gráficos
de pastel. Tablas de contingencia. Gráficos comparativos.
3.5- Organización de datos cuantitativos: diagrama de tallos y hojas, tablas de frecuencias.
Histogramas. Polígonos. Ojivas
3.6- Medidas descriptivas de forma: curtosis y asimetría
3.7- Medidas de tendencia central: media, mediana y moda
3.8- Medidas de dispersión: rango, varianza y desviación estándar. Coeficiente de
variación

ESTADÍSTICA DESCRIPTIVA 1
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Estadística:
Cuerpo de conceptos y métodos utilizados para recolectar e interpretar datos referentes a un área
particular de investigación y extraer conclusiones en situaciones en que la incertidumbre y la
variación están presentes. También se puede entender como la ciencia que transforma datos en
información

Clasificación:
 Estadística descriptiva: se encarga de recoger y resumir las características de una población
o muestra, deduciendo de esta descripción conclusiones sobre su estructura, además de las
relaciones existentes entre otras poblaciones o muestras con las que se compara.

 Estadística inferencial: comprende aquellas técnicas por medio de las cuales, basándose
en los resultados del análisis de una muestra de la población, induce (infiere) o estima las leyes
generales de comportamiento de la población.

Componentes de una investigación estadística:


 Población: Conjunto de todos los elementos que cumplen ciertas propiedades y entre los
cuales se desea estudiar un determinado fenómeno
Las poblaciones pueden ser:
 finita: es aquella población que se puede listar
 infinita : es aquella oblación que en la práctica no puede ser listada
 Individuo, unidad de observación o unidad experimental: Es cada uno de los elementos de
la población o de la muestra. No tienen que ser necesariamente personas, pueden ser
hospitales, empresas, viviendas, etc.
 Censo es un conjunto de datos de cada unidad de observación de una población.
 Muestra: Es un subconjunto de la población que es estudiado y a partir de la cual se sacan
conclusiones acerca de las características de la población. Es deseable que la muestra sea
representativa, es decir, que su composición sea lo suficientemente parecida a la población de
la que se extrae, de manera que las observaciones de cierta característica se puedan
generalizar.
 Variable: es una característica de los individuos o unidades experimentales que son objeto del
estudio estadístico. Así, por ejemplo, si consideramos a una persona, podemos distinguir en
ella las siguientes variables: Sexo, Edad, Nivel de estudios, Profesión, Peso, Altura, Ingresos,
etc.
Las variables se clasifican en:
 Variables Cualitativas, Categóricas o Atributos.
Los atributos, cualidades o categorías son aquellas variables que para su definición precisan de
palabras, es decir, no le podemos asignar un número. Por ejemplo: Sexo, Profesión, Estado Civil,
Nacionalidad, etc.
A su vez las podemos clasificar en:
 Ordinales: Aquellas que sugieren una ordenación, por ejemplo graduación militar, nivel de
estudios, etc.
 Nominales: Aquellas que sólo admiten una mera ordenación alfabética, pero no establece
orden por su naturaleza, por ejemplo el color de pelo, sexo, estado civil, etc.

 Variables Cuantitativas.
Las variables cuantitativas son las que se describen por medio de números, como por ejemplo el
Peso, Altura, Edad, Número de alumnos por curso , etc

ESTADÍSTICA DESCRIPTIVA 2
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

A su vez, este tipo de variables se puede dividir en dos subclases:


 Cuantitativas discretas. Aquellas a las que se les puede asociar un número entero, es decir,
aquellas que por su naturaleza no admiten un fraccionamiento de la unidad, por ejemplo
número de hermanos, páginas de un libro, etc.

 Cuantitativas continuas: Aquellas que no se pueden expresar mediante un número entero,


es decir, aquellas que por su naturaleza admiten que entre dos valores cualesquiera la
variable pueda tomar cualquier valor intermedio, por ejemplo peso, tiempo. etc.
En muchos casos el tratamiento estadístico hace que a variables discretas las trabajemos como si fuesen
continuas y viceversa.

 Dato: es el valor correspondiente a cierta variable medido en una unidad de observación.


Ejemplo:

Población: VIVIENDAS DE LA PROVINCIA DE MENDOZA

Unidad de observación VIVIENDAS

Variables Tipo Dato

Material de construcción Cualitativa nominal Ladrillo


Metros cuadrados cubiertos Cuantitativa continua 150 m2
Servicios (gas natural, cloacas, etc). Cualitativa nominal gas natural
Habitantes por vivienda Cuantitativa discreta 5 personas
Antigüedad (en años) Cuantitativa discreta 10 años
Avalúo Cuantitativa continua $ 75.000
Estilo arquitectónico Cualitativa nominal clásico
Calefacción Cualitativa nominal no tiene
Impuestos anuales (en pesos) Cuantitativa continua $ 3.540

ESCALAS DE MEDIDAS

Para llevar a cabo una medición necesitamos:


a) Un instrumento de medición:
Un instrumento de medición es un artificio usado para medir . Puede ser una balanza para
medir el peso de un individuo, un test para medir personalidad, inteligencia o aptitud, un
cuestionario para medir conocimientos, etc. Para que el instrumento sea eficaz debe reunir 2
requisitos: confiabilidad y validez .
La confiabilidad significa estabilidad o constancia de los resultados obtenidos al aplicar el
instrumento, o sea que al aplicarlo más de una vez dé resultados muy parecidos (que presente
variaciones poco significativas).
La validez se refiere a que el instrumento mida lo que efectivamente pretenda medir. Esto
parece una redundancia, pero no es tal si nos damos cuenta de los casos en que se quiere medir

ESTADÍSTICA DESCRIPTIVA 3
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

una característica y se mide otra. Por ejemplo queremos medir aptitud para un empleo y lo que
realmente medimos es conocimiento.
b) Un sistema de medición (o escala)
Vamos a considerar la definición de medición usada por Stevens que dice “medición es la
asignación de números a objetos o hechos de acuerdo a ciertas reglas” . De acuerdo con esto
podemos dividir los niveles de medición en cuatro escalas fundamentales: nominal, ordinal, de
intervalos y de razón. Cada uno de estos niveles requiere la utilización de un determinado conjunto
de instrumentos estadísticos.
Cualquiera de estos procedimientos de medición debe ser exhaustivo, es decir que debe tener
la cantidad suficiente de categorías en las que puedan clasificarse cada uno de los casos
considerados. Estas clases o categorías deben ser mutuamente excluyentes, es decir que debe ser
posible clasificar cada caso individual tan solo en una categoría.

 Escalas nominales o de clasificación: Se realiza cuando la propiedad estudiada solo


puede agruparse en categorías lógicamente exhaustivas y mutuamente excluyentes, de modo que
puedan establecerse equivalencias o diferencias. Con esta escala de medición se realiza la
operación más simple y básica de toda la ciencia que es la clasificación.
A cada categoría se le asignan nombres o números. Si se asignan números, sólo se pueden
interpretar como que son categorías diferentes entre sí, sin que se pueda afirmar que uno es
superior a otro y, por lo tanto, sin que se puedan ordenar.

Ejemplos:
a) Partidos políticos
b) País de origen
c) Nº de las líneas de ómnibus

 Escalas ordinales o por orden jerárquico: Además de incluir las propiedades de las
medidas nominales, se incluye la propiedad de que las categorías pueden ser ordenadas en el
sentido de "menor que" o "mayor que". Este tipo de medición no ofrece ningún tipo de
información acerca de la magnitud de las diferencias entre las categorías.
Ejemplos:
a) Nivel salarial (alto, medio, bajo)
b) Rango docente (profesor titular, asociado, adjunto, jefe de trabajos prácticos,
ayudante)
c) Valores de los naipes en una partida de truco

 Escalas de intervalo o de unidades iguales: Incluye las propiedades lógicas de las


escalas nominales y ordinales y además sus categorías se definen en términos de una unidad de
medición estándar (años de antigüedad, pesos de ingresos, grados de temperatura, etc). Distancias
numéricamente iguales representan distancias iguales empíricas en las variables que miden. En
estas escalas el origen y la unidad de medida son arbitrarios

 Escalas de razones o cocientes: Cuando una medición tiene todas las características
de una medida de intervalo y, además, se le puede asignar un punto de origen de verdadero valor
cero (escala con cero absoluto), se tiene una medida de razón. Esto quiere decir que el 0 de la
escala debe coincidir con la “nada” de la variable
Ejemplos:
a) Temperatura máxima de una ciudad en grados centígrados (Intervalo)
b) Cantidad de alumnos por curso (intervalo y razón)
c) Rendimiento académico medido en una escala de 0 a 7 (Intervalo)
d) Tiempo de reacción ante un estímulo (intervalo y razón)

ESTADÍSTICA DESCRIPTIVA 4
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Resumen:

RECOPILACIÓN DE DATOS ESTADÍSTICOS

La teoría del muestreo es el estudio de las relaciones existentes entre una población y las
muestras extraídas de ellas.

Las muestras tienen que ser representativas porque los datos que obtengamos de ellas, los
generalizamos a la población. La falta de representatividad anula por completo la generalización.

El diseño de la muestra comprende el establecimiento de un plan de muestreo (o sea los pasos a


seguir para obtener la muestra) y la elección del estimador (que depende del objetivo del muestreo
y da la precisión de la estimación)

PASOS A SEGUIR PARA DISEÑAR UNA MUESTRA:

1- Definir la población:
La población debe estar perfectamente definida en cuanto a las unidades que la componen
(unidad de muestreo: personas, empresas, cultivos, etc.) y a su posible distribución. También se
debe establecer la extensión, o sea el lugar físico donde se va a llevar a cabo el muestreo, y el
tiempo asignada a la recolección de la información.

2- Identificar el marco de muestreo


El marco de muestreo es un listado de los elementos que son de interés en nuestra investigación.
Debe tenerse mucho cuidado de evitar repeticiones y de no excluir a ningún grupo de elemento que
puedan aportar información.

3- Determinar el tamaño de la muestra


Tener una muestra representativa de la población no es suficiente. Necesitamos que esa muestra
tenga un cierto tamaño para que quede libre de esos errores que pueden ocurrir por azar y
anularían la representatividad de la muestra.
La determinación del tamaño de la muestra se realiza por procedimientos estadístico, alguno

ESTADÍSTICA DESCRIPTIVA 5
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

de los cuales veremos más adelante.

Básicamente, el tamaño de la muestra depende de:


a) el tamaño de la población
b) el estadístico con el que estemos midiendo
c) la variabilidad de la medida
d) los márgenes de nuestras predicciones
e) el nivel de seguridad que deseamos que tenga el procedimiento.

4- Seleccionar una técnica de muestreo


Los procedimientos que nos aseguran que los individuos seleccionados representan a su
población se denominan técnicas de muestreo.

Cuando cada muestra tiene una probabilidad conocida de ser elegida, los muestreos se
denominan probabilísticos. Este tipo de muestreo permite medir la precisión de las estimaciones de
las características de la población realizadas y nos permite describir matemáticamente qué tan
objetivas son esas estimaciones.

Algunos de las técnicas más importantes de muestreo probabilístico son:

A) Muestreo aleatorio simple

El muestreo aleatorio simple selecciona muestras mediante métodos que permiten que
cada posible muestra tenga igual oportunidad de ser elegida y que cada elemento de la población
total tenga una oportunidad igual de ser incluido en la muestra.

Un ejemplo sencillo sería el siguiente:

Suponga que una agencia de viajes regala un pasaje para 4 alumnos de 1º año (muestra)
para que asistan a un Congreso de Administración Pública. La población son todos los alumnos de
1º año, que aparecen en el listado de la Facultad y a quienes le asignamos un número. Luego por
medio de una tabla de números aleatorios (puede ser la que trae incorporada las calculadoras), o
utilizando un bolillero, o cualquier otro procedimiento similar, que asegure la igualdad de
oportunidades, se seleccionan los 4 ganadores.

B) Muestreo sistemático

En el muestreo sistemático, los elementos son seleccionados de la población dentro de un


intervalo uniforme que se mide respecto al tiempo, al orden o al espacio. Si quisiéramos entrevistar
a cada vigésimo estudiante de la Facultad, elegiríamos un punto de inicio aleatorio entre los
primeros veinte nombres del listado de todos los estudiantes de la Facultad y luego
seleccionaríamos cada veinteavo nombre de allí en adelante.

En el muestreo sistemático cada elemento tiene igual oportunidad de ser seleccionado, pero
cada muestra no tiene una posibilidad igual de ser seleccionada. En el ejemplo que vimos, los
estudiantes numerados 4, 5, 6 y 7 no hubieran tenido ninguna oportunidad de haber sido
seleccionados juntos.

En este tipo de muestreo existe el problema de introducir errores ya que puede haber factores
periódicos que nos afecten los resultados (al incluirlos o excluirlos siempre). La ventaja es que
requiere menos tiempo y a veces menos costo que el muestreo aleatorio simple.

ESTADÍSTICA DESCRIPTIVA 6
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

C) Muestreo aleatorio estratificado

Para utilizar el muestreo estratificado dividimos la población en grupos relativamente


homogéneos, llamados estratos . Suponemos que cada grupo tiene una pequeña variación dentro
de sí mismo, pero hay una amplia variación entre los grupos.

Después utilizamos uno de los siguientes procedimientos:

a) seleccionamos aleatoriamente de cada estrato un número específico de elementos


correspondientes a la fracción de ese estrato en la población
b) seleccionamos el mismo número de elementos en todos los estratos y damos peso a
los resultados de acuerdo con la poción del estrato con respecto a la población total.

Con cualquiera de los planteamientos se garantiza que todos los elementos de la población tenga
oportunidad de ser seleccionados

Por ejemplo se desea seleccionar una muestra de 50 alumnos para recabar información acerca
de un nuevo Plan de Estudios, y queremos que estén representados todos los cursos, de 1º a 5º.
Cada curso corresponde a un estrato (los alumnos pueden estar incluidos en un solo curso, por lo
que al dar la definición operativa de alumno se debe preveer en qué categoría entra un alumno que
recurse alguna materia).
La forma de hacer el muestreo aleatorio sería la siguiente:

Nº de alumnos de cada curso Proporción con respecto al total Tamaño de muestra


primero 650 (650/2400) = 0,271 650 . 0,271 = 14
segundo 550 0,229 12
tercero 450 0,187 9
cuarto 400 0,167 8
quinto 350 0,146 7
Total 2 400

Luego por muestreo aleatorio simple seleccionamos ese número de alumnos por curso

D) Muestreo por conglomerados

Se divide la población en grupos o conglomerados y luego se selecciona una muestra aleatoria


de esos grupos. Suponemos que esos grupos son representativos de la población como un todo. Es
decir que dentro de cada grupo hay una gran variación, pero los grupos son esencialmente similares
entre sí.
Por ejemplo no asignamos un número a cada uno de los habitantes de Mendoza y luego
sacamos al azar los números que han de componer la muestra, sino muestramos conglomerados de
individuos, como por ejemplo, los departamentos. Si queremos tener una muestra de 500 personas
seleccionamos, aleatoriamente, 10 departamentos de forma que cada uno aporte 50 personas.

Un muestreo por conglomerados puede producir una muestra a un costo considerablemente


menor que con los otros muestreos aleatorios.

En general estas técnicas de muestreo se utilizan combinadas.

ESTADÍSTICA DESCRIPTIVA 7
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

En el desarrollo de la estadística inferencial, vamos a suponer que el muestreo es el aleatorio


simple. Conociendo los principios, su extensión a otros tipos de muestreo es simple
conceptualmente, pero algo elaborado matemáticamente.

Si la elección de las unidades que integran la muestra se efectúa a través del conocimiento (de un
experto, por ejemplo) o de la opinión personal del investigador acerca de quiénes integrarán la
muestra, se efectúa un muestreo no probabilístico, donde no se conoce la posibilidad de que una
muestra sea seleccionada y no se puede medir el error de muestreo. Estos muestreos se utilizan en
etapas tempranas de la investigación (al plantear las hipótesis, por ejemplo).

Algunas técnicas de muestreo no probabilístico son:

a) Muestreo accidental

En un programa de televisión (Hora Clave) se dan números de teléfono para que la gente se
pronuncie a favor de ciertos eventos: "Si está a favor de la re-reelección disque el número
......, si está en contra disque el número ........" . Al final del programa se presenta el
recuento de llamadas.

La muestra de las personas que llamaron es accidental, porque es un subconjuto de las


personas que están viendo televisión en ese momento y no podemos asegurar que
representen a todos los argentinos (o a todos los porteños), porque están excluidas las
personas que no le gustan los programas de índole política, las personas que a esa hora
están trabajando, las que no reciben la señal del canal (o reciben el programa en forma
diferida), las que no están de acuerdo con la conducción del programa, etc.

Otro ejemplo muy común es cuando una emisora de radio, que selecciona un determinado
tipo de música porque cree que es la que tiene mejor acogida entre su público, realiza una
vez a la semana una encuesta para determinar las mejores canciones. Lógicamente, sólo
llaman sus oyentes, porque a los que no les gusta esa selección musical, están en otro punto
de la sintonía, y, si accidentalmente están escuchando, no votarían , ya que sus temas
preferidos no estarían entre los que se pueden votar. El reparo surge cuando la emisora diga
cosas como "éstos son los temas preferidos por la juventud", "aquí están los temas
preferido por los radioyentes"

b) Muestreo a propósito:

 Muestreo por conveniencia

Selecciona los elementos de la población de acuerdo a la conveniencia del


investigador. Por ejemplo buscar voluntarios para una prueba psicológica; entrevistar a las
personas que están en las colas de las cajas de un supermercado para conocer su opinión
acerca de determinado producto

 Muestreo por juicio

Consiste en seleccionar elementos de la población en base a lo que cree algún


experto respecto a las unidades que darán respuesta a determinado problema. Por ejemplo,;
si queremos construir un test que va a medir el grado de desarrollo en la escritura en niños,
necesitamos una muestra donde estén representados los distintos niveles de desarrollo. Una
forma de seleccionar es pedir a maestros de distintos colegios y de distintos entornos que

ESTADÍSTICA DESCRIPTIVA 8
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

nos proporciones 2 de los mejores, 2 de los peores y 2 medios. Los "expertos" (maestros)
nos proporcionan la muestra

 Muestreo por cuotas

Se establecen pasos para obtener una muestra que sea similar a la


población especificada ejerciendo ciertos "controles" sobre algunas características
de sus elementos. Se estiman los tamaños de subconjutos de la población en base a
datos y se calculan proporcionalmente "cuotas" o número de observaciones
muestrales con respecto a esos subconjutos. Por ejemplo se seleccionan 30
personas que padecen cierta enfermedad y 30 que no la padecen ("controles")
Ver en página virtual en contenidos auxiliares

ORGANIZACIÓN Y RESUMEN DE DATOS CATEGÓRICOS

Distribuciones unidimensionales de frecuencias

Una parte importante del planeamiento de la información administrativa, consiste en resumir y


presentar los datos de modo que se pueda obtener información de manera rápida y sencilla
La información obtenida antes de ser organizada y analizada, se conoce como datos sin procesar.
Ejemplo:
La dirección de Estadísticas e Investigaciones Económicas de la Provincia de Mendoza realiza desde
diciembre del 2002 la “Encuesta de Caracterización del Turista que visita la Provincia”. Los días 5, 6
y 7 de Marzo de 2009, se realizó la onda número 60 y coincide con la fiesta provincial de la
Vendimia. Metodológicamente, el estudio consiste en la aplicación de un cuestionario estructurado
a través del cual se indagan personas residentes en el país y en el exterior que, al momento de la
investigación, se encuentran visitando la Ciudad de Mendoza. El relevamiento se realizó en cuatro
puntos muestrales del microcentro de la Ciudad de Mendoza.

Los datos siguientes muestran la participación relativa del tipo de alojamiento elegido por
los turistas chilenos que visitaron Mendoza en la onda 60. La codificación respectiva es:
1-Hotel o Petit Hotel 2-Apart Hotel 3-Casas, departamentos o habitaciones de alquiler
temporario. 4- Casas de familiares o amigos 5- Otros: Bed & Breakfast, Hostel o Albergue Turístico,
Motel ,Hostería o Posada.

Participación relativa del tipo de alojamiento elegido por los turistas chilenos que visitan Mendoza.
Mendoza. Marzo 2009 - Sexagésima Onda

1 1 2 4 4 3 2 1 4 2
4 2 4 1 4 1 3 4 2 1
2 4 4 4 1 4 5 4 5 1
1 4 4 4 3 1 4 4 4 4
1 1 5 4 3 1 3 3 3 4
4 4 3 4 4 3

Fuente: Dirección de Estadísticas e Investigaciones Económicas. Encuesta de caracterización del turista


que visita Mendoza. Mayo 2009

La variable es tipo de alojamiento elegido por los turistas chilenos que visitan Mendoza.
La escala de medición es nominal.

ESTADÍSTICA DESCRIPTIVA 9
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Una primera organización de estos datos sería contar cuántos datos tenemos en cada categoría.
Esto se llama distribución de frecuencias absolutas:

1 :    13


2 :   6
3 :   9
4 :      25
5 :  4

Trabajar con proporciones o porcentajes, en muchas ocasiones nos brinda mayor información,
por lo que la tabla de distribución de frecuencias la vamos a completar con la frecuencia relativa,
que se obtiene dividiendo la frecuencia absoluta por el número total de observaciones, y la
frecuencia porcentual que es la frecuencia relativa multiplicada por 100%.

Frecuencia absoluta: nº de observaciones en cada categoría fi


fi
Frecuencia relativa: fr 
n
f
Frecuencia relativa porcentual fr%  i .100%
n

Muy importante:

Ahora estamos en condiciones de elaborar una tabla de frecuencias. En estas tablas hay que
poner en el encabezamiento el título (lo que responda a ¿qué?, ¿cuándo?, ¿dónde?) de manera que
la persona que lea el cuadro se ubique sobre el tema. Al final de la tabla de colocan la fuente
(quién obtuvo los datos, en qué fecha, en qué lugar a ser posible) y todas las explicaciones
adicionales o comentarios.

1. Tabla de frecuencias

La tabla formada por las distintas categorías de las variables y por las frecuencias absolutas,
relativas y porcentuales recibe el nombre de distribución de frecuencias .
La tabla, debe constar de:
Título adecuado: el cual debe ser claro y conciso, que responda a las preguntas: qué
relaciona, cuándo y dónde se hicieron las observaciones.
El cuerpo: o tabla en sí, donde van las categorías y las frecuencias, generalmente se
utilizan la frecuencia absoluta y el público a quien va dirigido y el diseño artístico del gráfico.
 Notas al pie: en caso que se haga necesario dar explicaciones adicionales o comentarios.
 Fuente: donde se indica donde se obtuvieron los datos, quién los obtuvo los datos, en qué
fecha, en qué lugar, a ser posible

ESTADÍSTICA DESCRIPTIVA 10
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

En nuestro ejemplo sería:

Participación relativa del tipo de alojamiento elegido por los turistas chilenos que visitan Mendoza.
Mendoza. Marzo 2009 - Sexagésima Onda

Alojamiento fi f ri f ri %
1-Hotel o Petit Hotel 13 0.23 23%
2-Apart Hotel 6 0.11 11%
3-Casas, departamentos o habitaciones de alquiler temporario 9 0.16 16%
4-Casas de familiares o amigos 25 0.45 45%
5-Otros 3 0.05 5%
Total 56 1 100%
Fuente: Dirección de Estadísticas e Investigaciones Económicas. Encuesta de caracterización del turista que visita Mendoza. Mayo 2009

Vamos a leer la categoría 4-Casas de familiares o amigos: "De las 56 personas de origen chileno
entrevistadas, 25 se alojaron en casas de familiares o amigos y corresponde a una proporción de
0,45 que representa el 45% de las personas entrevistadas"

 Para calcular la f ri se posiciona en la celda se coloca el signo igual se marca la celda 13 / 56


y se dá enter.
 Para calcular f ri % se copian las celdas de las f ri y se va a formato-celda-porcentaje y enter

Vemos que la información está expresada de manera más resumida.


 Muchas veces en estas tablas se representan la frecuencia absoluta y los porcentajes
únicamente.

2. Gráficos de barra
 Las barras separadas se diseñan en forma horizontal o vertical
 Todas las barras deben tener el mismo ancho
 Los espacios entre barras van desde la mitad del ancho de una barra hasta el ancho
 total
 Se deben incluir escalas y algunas indicaciones que ayuden a la lectura de las gráficas
 Los ejes se deben identificar en forma clara
 Dentro del cuerpo de la gráfica se deben incluir todo tipo de claves
 El título se coloca, preferentemente encima del cuerpo
 Las notas de pie de página y las fuentes se colocan debajo de la gráfica

ESTADÍSTICA DESCRIPTIVA 11
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Tipo de alojamiento elejido por turistas chilenos que visitan Mendoza. Onda 60

5-Otros 3

4-Casas de familiares o amigos 25


Tipo de alojamiento

3-Casas, departamentos o habitaciones de alquiler temporario 9

2-Apart Hotel 6

1-Hotel o Petit Hotel 13

0 5 10 15 20 25 30
frecuencia absoluta

Fuente: Dirección de Estadísticas e Investigaciones Económicas. Encuesta de caracterización del turista que visita Mendoza. Mayo 2009.

Tipo de alojamiento elegido por turistas chilenos que visitan Mendoza. Onda 60.

30
25
25
frecuencia absoluta

20

15 13

9
10
6
5 3

0
1-Hotel o Petit Hotel 2-Apart Hotel 3-Casas, departamentos 4-Casas de familiares o 5-Otros
o habitaciones de alquiler amigos
temporario

Fuente: Dirección de Estadísticas e Investigaciones Económicas. Encuesta de caracterización del turista que visita Mendoza. Mayo 2009.

 Se marca las celdas de las categorías y las de frecuencias, en el menú se hace clic en
Asistente para gráficos. Bajo Tipo de gráficos se selecciona columnas, y bajo Subtipo de
gráficos seleccione en la esquina superior izquierda el tipo de barras que quiere se
representen.
 Luego marque siguiente en título coloque el título correspondiente a la variable en estudio
teniendo en cuenta que esté territoriada y la fecha. En eje de categorías (X) escriba “Tipo
de alojamiento” y en eje (Y) escriba el tipo de frecuencia que representó puede ser
cualesquiera de las tres.
 Pase a la parte superior a la pestaña Leyenda, y quite si no quiere ver la leyenda la palomita
que dice Mostrar leyenda. Si quiere rotular los datos se va a la pestaña Rótulos de datos y
elige en el contenido del rótulo lo que quiere mostrar ( valores, porcentajes, etc.). Si quiere

ESTADÍSTICA DESCRIPTIVA 12
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

que muestre la tabla, se va a la pestaña Tabla de datos y le pone la palomita a mostrar


tabla de datos . Luego marca finalizar.
 Si quiere cambiar los colores del gráfico cómo así las tramas, las fuentes, etc. se debe
posicionar en el gráfico y ahí le van apareciendo las opciones.

Gráfica de pastel

Se dibuja un círculo y se divide en sectores.


Para calcular los grados de ángulo que le corresponde a cada sector se multiplica la frecuencia
relativa f r por 360º.
Son válidas todas las sugerencias sobre escalas, títulos, fuentes e información que se
coloca en el cuerpo del gráfico

Tipo de alojamiento elegido por turistas chilenos que visitan


Mendoza. Onda 60

5-Otros
5% 1-Hotel o Petit Hotel
23%

4-Cas as de
familiares o amigos 2-Apart Hotel
45% 11%

3-Cas as,
departamentos o
habitaciones de
alquiler temporario
16%

Fuente: Dirección de Estadísticas e Investigaciones Económicas. Encuesta de caracterización del turista que visita Mendoza. Mayo 2009.

Realizamos el gráfico de pastel


> pie(x,alojamiento)

Poniendo título
>pie(x,alojamiento,main="Tipo de alojamiento elegido por los turistas chilenos que visitan
Mendoza.Onda 60. Marzo 2009")
Tipo de alojamiento elegido por los turistas chilenos que visitan Mendoza.Onda 60. Marzo 2009

Apart Hotel

Hotel o Petit Hotel

Casas,departamentos o habitaciones de alquiler temporario

Otros

Casas de familias o amigos

Fuente: Dirección de Estadísticas e Investigaciones Económicas. Encuesta de caracterización del turista que visita Mendoza. Mayo 2009.

ESTADÍSTICA DESCRIPTIVA 13
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

2. Tablas estadísticas de doble entrada o tablas de contingencia

Consideramos una población de n individuos, donde cada uno de ellos presenta dos caracteres que
representamos mediante las variables X e Y, La variable X presenta k categorías, y la variable Y p
categorías ,

Por ejemplo:
Una empresa automotriz inició un estudio acerca del tipo de automóvil utilizado por los empleados
administrativos de una organización pública, Los datos obtenidos se muestran en la siguiente tabla
de contingencia:
Participación relativa del tipo de alojamiento elegido por los turistas chilenos que visitan Mendoza, marzo 2009.

Tipo de Alojamiento Onda 47-2008 Onda 60 - 2009


1-Hotel o Petit Hotel 13 45
2-Apart Hotel 6 20
3-Casas, departamentos o habitaciones de alquiler temporario 9 9
4-Casas de familiares o amigos 25 13
5-Otros 3 13
Fuente: Dirección de Estadísticas e Investigaciones Económicas, Encuesta de caracterización del turista que visita Mendoza, Mayo 2009,

 Se marca las celdas de las categorías y las de frecuencias, en el menú se hace clic en
Asistente para gráficos, Bajo Tipo de gráficos se selecciona columnas, y bajo Subtipo de
gráficos seleccione en la esquina superior izquierda el tipo de barras que quiere se
representen,
 Luego marque siguiente en título coloque el título correspondiente a la variable en estudio
teniendo en cuenta que esté territoriada y la fecha, En eje de categorías (X) escriba “Tipo
de alojamiento” y en eje (Y) escriba el tipo de frecuencia que representó puede ser
cualesquiera de las tres,
 Pase a la parte superior a la pestaña Leyenda, y quite si no quiere ver la leyenda la palomita
que dice Mostrar leyenda, Si quiere rotular los datos se va a la pestaña Rótulos de datos y
elige en el contenido del rótulo lo que quiere mostrar ( valores, porcentajes, etc,), Si quiere
que muestre la tabla, se va a la pestaña Tabla de datos y le pone la palomita a mostrar
tabla de datos , Luego marca finalizar,
 Si quiere cambiar los colores del gráfico cómo así las tramas, las fuentes, etc, se debe
posicionar en el gráfico y ahí le van apareciendo las opciones,

ESTADÍSTICA DESCRIPTIVA 14
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Fuente: Dirección de Estadísticas e Investigaciones Económicas, Encuesta de caracterización del turista que visita Mendoza, Mayo 2009,

X es tipo alojamiento elegido por turistas chilenos en 2008 (onda 47) e Y es la variable es tipo
alojamiento elegido por turistas chilenos en 2009 (onda 60)

También se puede utilizar un gráfico de barras apiladas

Fuente:
Dirección de Estadísticas e Investigaciones Económicas, Encuesta de caracterización del turista que visita Mendoza, Mayo 2009,

Con la intención de reunir en una sola estructura toda la información disponible, creamos una
tabla de contingencia formada por k x p casillas, en nuestro ejemplo 5 x 2 organizadas de forma
que se tengan k (en nuestro caso 5) filas y p (en nuestro caso 2) columnas. Cada celda de la tabla
representa la frecuencia bivariante de las características correspondientes a su fila y columna

Por ejemplo, (xi=2 , yj=1) representa a turistas que seleccionaaron Apart Hotel en 2008

Con estas tablas se puede obtener una descripción cuantitativa de las distintas cualidades
bivariantes de la muestra, en forma de frecuencias y porcentajes, Estos últimos pueden ser relativos
al total de la muestra, al total de una fila o al total de una columna,,
Llamamos:

 frecuencia bivariante total al número de datos n,


 frecuencia absoluta conjunta fij al número de datos que presentan simultáneamente
las características xi de la primera variable e yj de la segunda variable ,

ESTADÍSTICA DESCRIPTIVA 15
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

La suma de los datos de todas las casillas nos da el total de datos n


f ij
 frecuencia relativa conjunta es el cociente f rij  ,
n
La suma de los datos de todas las casillas nos da 1
f ij
 frecuencia relativa porcentual es el cociente frij% = ,100%,
n
La suma de los datos de todas las casillas nos da 100%

a) Utilizando la frecuencia absoluta conjunta:

Participación relativa del tipo de alojamiento elegido por los turistas chilenos que visitan
Mendoza, marzo 2009.
Tipo de Alojamiento Onda 47-2008 Onda 60 - 2009
1-Hotel o Petit Hotel 13 45
2-Apart Hotel 6 20
3-Casas, departamentos o habitaciones de alquiler temporario 9 9
4-Casas de familiares o amigos 25 13
5-Otros 3 13
Fuente: Dirección de Estadísticas e Investigaciones Económicas, Encuesta de caracterización del turista que visita Mendoza, Mayo 2009,

 Observamos que respondieron que elegían casas de familiares o amigos 25 turistas chilenos
en 2008 y 13 en 2009

b) Utilizando la frecuencia absoluta porcentual


Participación relativa del tipo de alojamiento elegido por los turistas chilenos que visitan
Mendoza, marzo 2009.
Tipo de Alojamiento Onda 47-2008 Onda 60 - 2009 Total
1-Hotel o Petit Hotel 8% 29% 37%
2-Apart Hotel 4% 13% 17%
3-Casas, departamentos o habitaciones de
alquiler temporario 6% 6% 12%
4-Casas de familiares o amigos 16% 8% 24%
5-Otros 2% 8% 10%
Total 36% 64% 100%
Fuente: Dirección de Estadísticas e Investigaciones Económicas, Encuesta de caracterización del turista que visita Mendoza, Mayo 2009,

 Observamos que respondieron que elegían casas de familiares o amigos el 16% de los
turistas chilenos en 2008 y el 8% en 2009

a) Usando los porcentajes por fila

ESTADÍSTICA DESCRIPTIVA 16
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Participación relativa del tipo de alojamiento elegido por los turistas chilenos que visitan
Mendoza, marzo 2009.
Tipo de Alojamiento Onda 47-2008 Onda 60 - 2009 Total
1-Hotel o Petit Hotel 22% 78% 100%
2-Apart Hotel 23% 77% 100%
3-Casas, departamentos o habitaciones de alquiler
temporario 50% 50% 100%
4-Casas de familiares o amigos 66% 34% 100%
5-Otros 19% 81% 100%
Fuente: Dirección de Estadísticas e Investigaciones Económicas, Encuesta de caracterización del turista que visita Mendoza, Mayo
2009,
 Dentro del grupo que eligió Hotel o Petit hotel, observamos que el 22% lo eligió en 2008 y el
78% en 2009

Fuente: Dirección de Estadísticas e Investigaciones Económicas, Encuesta de caracterización del turista que visita Mendoza, Mayo2009

b) Usando los totales por columna


Participación relativa del tipo de alojamiento elegido por los turistas chilenos que visitan
Mendoza, marzo 2009.
Tipo de Alojamiento Onda 47-2008 Onda 60 - 2009
1-Hotel o Petit Hotel 23% 45%
2-Apart Hotel 11% 20%
3-Casas, departamentos o habitaciones de alquiler temporario 16% 9%
4-Casas de familiares o amigos 45% 13%
5-Otros 5% 13%
Total 100% 100%
Fuente: Dirección de Estadísticas e Investigaciones Económicas, Encuesta de caracterización del turista que visita Mendoza, Mayo2009,

 Observamos que entre los turistas chilenos que nos visitaron en el 2008, el 23%se alojó en Hoteles o
Petit Hotel, el 11% en apart Hotel, el 16% en casa, departamentos o habitaciones de alquiler
temporario, el 45% en casas de familiares o amigos el 5% restante en otros establecimientos.

ESTADÍSTICA DESCRIPTIVA 17
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Fuente: Dirección de Estadísticas e Investigaciones Económicas, Encuesta de caracterización del turista que visita Mendoza, Mayo2009

ORGANIZACIÓN Y RESUMEN DE DATOS CUANTITATIVOS

 Diagrama de tallos y hojas:

Si tenemos un conjunto de datos x1 , x 2 ,..., x n donde cada número está formado al menos por
2 dígitos, el diagrama de tallos y hojas es una buena presentación visual informativa del
conjunto de datos y nos permite una manera relativamente fácil de ordenarlos

Los siguientes datos son las edades de una muestra aleatoria de 50 personas jubiladas
entrevistadas durante el mes noviembre de 2008.

71 65 66 61 54 93 60 86 70 70
73 73 55 63 56 62 76 54 82 79
76 68 53 58 80 85 56 61 61 64
65 62 90 69 76 79 77 54 64 74
65 65 61 56 63 80 56 71 79 84

Consideraremos como tallos a las decenas y como hojas a las unidades:

TALLO HOJAS FRECUENCIA


fi

5 4 5 6 4 3 8 6 4 6 6 10
6 5 6 1 0 3 2 8 1 1 4 5 2 9 4 5 51 3 18
7 1 0 0 3 3 6 9 6 6 9 7 4 1 9 14
8 6 2 0 5 0 4 6
9 3 0 2

ESTADÍSTICA DESCRIPTIVA 18
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Si ordenamos las hojas, los datos nos quedan ordenados de menor a mayor

5 3 4 4 4 5 6 6 6 6 8
6 0 1 1 1 1 2 2 3 3 4 4 5 5 5 5 6 8 9
7 0 0 1 1 3 3 4 6 6 6 7 9 9 9
8 0 0 2 4 5 6
9 0 3

Actividad con R

> edad1<-c(71,65,66,61,54,93,60,86,70,70,73,73,55,63,56,62,76,54,82,79,76,68,53,58,80,85,
56,61,61,64,62,90,69,76,79,77,54,64,74,65,65,61,56,63,80,56,71,79,84)
> stem(edad1)

5 | 3444
5 | 566668
6 | 01111223344
6 | 555689
7 | 0011334
7 | 6667999
8 | 0024
8 | 56
9 | 03

El diagrama de tallos y hojas tiene dos ventajas fundamentales:


1. El diagrama de tallos y hojas es más fácil de construir a mano
2. En cada intervalote clase proporciona más información que un histograma debido a que el
tallo y la hoja proporcionan el dato.

Una manera de graficar los datos sencilla es el Diagrama de puntos.

con R
Se pide en R

> edad1<-c(71,65,66,61,54,93,60,86,70,70,73,73,55,63,56,62,76,54,82,79,76,68,53,58,80,85,
56,61,61,64,62,90,69,76,79,77,54,64,74,65,65,61,56,63,80,56,71,79,84)

> stripchart(edad1,method="stack", offset=1, at=0)

ESTADÍSTICA DESCRIPTIVA 19
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Edad de los jubilados encuestados en Mendoza nov/2008

frecuencia

60 70 80 90

edad

Fte: elaboración propia.Nov 2008

 Tablas de frecuencias

Una tabla de frecuencias para variables numéricas es una tabla que asocia a cada valor de
la variable con

i) la cantidad de veces que aparece frecuencia absoluta fi


fi
ii) la proporción de veces que aparece frecuencia relativa fr 
n
fi
iii) el porcentaje de aparición frecuencia relativa porcentual f r %  .100%
n

Otras frecuencias importantes para describir datos cuantitativos son las frecuencias absolutas,
relativas y porcentuales acumuladas.

La frecuencia acumulada para un valor dado de la variable es la suma de las frecuencias (


absolutas, relativas o porcentuales) de los valores menores o iguales al valor que se está
considerando

Frecuencia acumulada absoluta : Fi


Fi
Frecuencia acumulada relativa Fr 
n
F
Frecuencia relativa porcentual Fr %  i .100%
n

Una manera de obtener una mejor idea de la forma de la distribución de los datos sin aumentar el
tamaño de la muestra es agrupando los datos en intervalos de igual tamaño.

ESTADÍSTICA DESCRIPTIVA 20
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

denominados intervalos de clase

En algunas ocasiones, se usa un intervalo abierto del tipo "menos de..." o "mayores que...", en
el caso de que haya pocos casos muy abajo o muy arriba de la gran mayoría de los casos.

Construcción de una distribución de frecuencias:

1) Determinar el rango de los datos.

El rango es la diferencia entre la máxima y la mínima observación

En el ejemplo de las edades el rango es: R  93  53  40

2) Determinar la cantidad de intervalos de clases (k)

El número de intervalos depende de la cantidad de datos y del rango. En general se utilizan


entre 5 y 20 clases en función de la cantidad de datos.

Una regla práctica que vamos a utilizar para determinar el número de intervalos es:

Cantidad de intervalos de clase = k  n

Elegimos el número entero menor entre los que está comprendida la raíz.
Por ejemplo si tenemos 40 datos, k  40  6

En el ejemplo de las edades, k 7

 Esta cantidad de intervalos, en realidad depende de las unidades en que medimos


las variables. En muchas ocasiones es más adecuado utilizar múltiplos de 5.
 No conviene dejar intervalos vacíos, o sea con frecuencia cero.

R
Determinar el ancho o amplitud de los intervalos de clase (h) h
k
Elegimos un número un poquito mayor que el cociente para que todos los datos queden en
alguna de las clases.

40
En el ejemplo: h   5,71  6
7

Los intervalos serán: [53, 59) ; [59, 65) ; [65, 71) ; [71, 77) ;
[77, 83) ; [83, 89) ; [89, 95)

Si hubiéramos decidido tomar menos intervalos, por ejemplo 6 intervalos,

40
h  8  10
5

ESTADÍSTICA DESCRIPTIVA 21
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Los intervalos serán: [50, 60) ; [60, 70) ; [70,80) ; [80, 90) ; [90, 100)

Como la variable es edad es bastante adecuado medirla cada 10 años. Además no queda ningún
intervalo con frecuencia 0

4) Determinar las frecuencias en cada intervalo

EDADES DE LAS PERSONAS JUBILADAS

EDAD mi fi f ri f ri % Fi Fri Fri %


[50,60) 55 10 0,20 20 10 0,20 20
[60, 70) 65 18 0,36 36 28 0,56 56
[70, 80) 75 14 0,28 28 42 0,84 84
[80, 90) 85 6 0,12 12 48 0,96 96
[90,100) 95 2 0,04 4 50 1 100

Leeremos un intervalo : Entre 60 y menos de 70 años, se entrevistaron 18 personas, que


corresponden al 36% de los entrevistados. De menos de 70 años fueron entrevistadas 28 personas
que corresponden a un 56% del total.

 Observe que cada dato entra en un única clase. Si nos quedan clases con
frecuencia 0, se trata de distribuir los datos en menos cantidad de
intervalos.

 La cantidad y el ancho de los intervalos de clase queda, en general, a


criterio del investigador. Algunos paquetes de sofware tienen estos valores
como sugeridos y otros le solicitan que usted ingrese los valores.

REPRESENTACIÓN GRÁFICA DE DATOS NUMÉRICOS

 HISTOGRAMAS

 La variable de interés se representa a lo largo del eje horizontal. El eje vertical


representa el número, proporción o porcentaje de observaciones por intervalo de clase.
 Los histogramas son gráficas de barras verticales, en los cuales se construyen las barras
rectangulares en las fronteras de cada clase.
 No se pueden utilizar histogramas para comparar distintos grupos de datos, porque la
superposición de las barras verticales dificultaría la interpretación.

HISTOGRAMA DE FRECUENCIA ABSOLUTA PORCENTUAL

ESTADÍSTICA DESCRIPTIVA 22
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Edad de los jubilados encuestados en Mendoza.Nov


2008

20

Frecuencia absoluta 15

10

0
55 65 75 85 95
marca de clase

Fte: elaboración propia.Nov 2008

Para realizar este gráfico en Excel se siguen los siguientes pasos:

Paso 1: En la barra de menú se hace clic en asistente para gráficos y se selecciona en Tipos de
gráficos - Subtipo de gráfico – columna luego abajo se hace clic en siguiente.

Paso 2: En la parte superior se selecciona Serie abajo en Rótulos de ejes de categorías (x) se
seleccionan las celdas de la marca de clase.

Paso3: Luego en siguiente se va a títulos y se escriben los títulos correspondientes. Luego finalizar

Paso4: Hasta ahora el gráfico tiene las barras separadas lo cuál es un error ya que el tipo de variable
es cuantitativa. Para lograr que las barras se junten hay que pararse en las barras hacer doble clic
aparece formato en serie de datos - Opciones ancho de rango -0

Paso 5: Observando el gráfico hay otro error que larga Excel por defecto y es la amplitud en el eje x
de los intervalos, este no debe tomarse como eje de abcisas ya que entre el cero absoluto y la
primera marca de clase hay una distancia mayor al resto de los intervalos. Para solucionar esto se
anexan dos intervalos uno antes del primer intervalo y otro después del último con frecuencia 0.
Entonces se hace una doble ralla entre el 0 del eje y el 45 para mostrar que la distancia es diferente.

ESTADÍSTICA DESCRIPTIVA 23
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Fte: elaboración propia.Nov 2008

Actividad con R

Paso1: Se cargan los datos

> edad1<-c(71,65,66,61,54,93,60,86,70,70,73,73,55,63,56,62,76,54,82,79,76,68,53,58,80,85,
56,61,61,64,62,90,69,76,79,77,54,64,74,65,65,61,56,63,80,56,71,79,84)

Paso 2: Se pide el Histograma


>hist(edad1)

Si se quiere ponerle título y nombrar los ejes


>hist(edad1,ylab="frecuencia",main="Edad de los jubilados encuestados en Mendoza
nov/2008")

Si se quiere dar color se coloca col=”green”

>hist(edad1,ylab="frecuencia",main="Edad de los jubilados encuestados en Mendoza


nov/2008",col=”green”)

ESTADÍSTICA DESCRIPTIVA 24
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Fte: elaboración propia.Nov 2008

HISTOGRAMA PORCENTUAL ACUMULADO

Edad de las personas jubiladas

60
Frecuencias acumuladas

50

40

30
20
10

0
55 65 75 85 95
Edad

Fte: elaboración propia.Nov 2008

HISTOGRAMA PORCENTUAL ACUMULADO

ESTADÍSTICA DESCRIPTIVA 25
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

 POLÍGONOS

 La variable de interés se representa a lo largo del eje horizontal. En el eje vertical se


representa el número, proporción o porcentaje de observaciones por intervalo de clase.
 La marca de clase, o sea el punto medio del intervalo de clase, representa los datos de
esa clase. En estos puntos se marca la frecuencia (absoluta, relativa o porcentual) y luego se
unen con líneas rectas.
 El polígono es una representación de la forma de distribución de los datos. En el caso de
que no se utilicen las frecuencias acumuladas, y dado que el área debajo de la curva debe
corresponder al 100% , es necesario conectar el primero y el último puntos medios con el eje
horizontal. Esto se logra conectando el primer punto medio con el punto medio de una clase
“precedente ficticia” que tenga 0 (o 0%) de observaciones y de manera similar en el último
punto medio observado, se conecta con una clase “sucesiva ficticia” con 0 (o 0%) de
observaciones.
 Cuando se construyen polígonos, el eje vertical debe mostrar el cero real (origen) a fin
de no deformar o representar en forma incorrecta el carácter de los datos. El eje horizontal no
necesita especificar el punto cero para la variable de interés. (Se suele indicar una
interrupción //)
 El polígono de frecuencia acumulada se llama OJIVA. La ojiva no se une con el eje
horizontal.
 Hay ojivas “menores que” e “igual o mayor que”. Son muy interesantes las lecturas
sobre las ojivas.

Edad de los jubilados encuestados en Mendoza.


Nov 2008

20
frecuencia absoluta

15

10

0
45 55 65 75 85 95 105
marca de clase

Fte: elaboración propia.Nov 2008

ESTADÍSTICA DESCRIPTIVA 26
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Paso: Al gráfico del Histograma se le agrega una serie igual a la anterior van a aparecer dos
barras de distinto color se hace doble clic en ellas y se elige la opción de cambiar el gráfico
por el tipo líneas y aparece el polígono de frecuencias.

Histograma y Polígono de frecuencia acumulado


 El polígono de frecuencia acumulada se llama OJIVA. La ojiva no se une con el eje
horizontal.
HISTOGRAMA ACUMULADO Y OJIVA

Edad de los jubilados encuestados en


Mendoza. Nov 2008
120%
100%
80%
60%
40%
20%
0%
55 65 75 85 95

HISTOGRAMA ACUMULADO Y OJIVA “MENOR QUE”

Vamos a hacer algunas lecturas en la ojiva “menor que”:

ESTADÍSTICA DESCRIPTIVA 27
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

La línea punteada la trazamos desde el 50% hasta que corta a la ojiva. Desde allí bajamos y lo
leemos de la siguiente manera:
El 50% de las personas entrevistadas tiene 68 años o menos y el otro 50% tiene 68 años o más

PROBLEMAS SOBRE LA PRESENTACIÓN DE DATOS

1- SUBJETIVIDAD EN LA SELECCIÓN DEL NÚMERO Y TAMAÑO DE LOS INTERVALOS DE CLASES

Para conjuntos de datos que no son muy grandes, la selección particular de un número
determinado de clases o determinados límites en relación a otros, podría presentar una imagen
totalmente distinta al lector, ya que se pueden ocasionar desplazamientos en la concentración de
los datos. Afortunadamente, cuando se aumenta el número de datos, estas alteraciones afectan
cada vez menos la concentración de datos.

2- COMPARACIONES DE DATOS SOBRE UNA BASE RELATIVA

El uso de frecuencias absolutas en los gráficos comparativos, en general, sería engañosa. Para
estos gráficos se utilizan las frecuencias relativas o porcentuales.

3- DISTRIBUCIONES CON INTERVALOS DE CLASE ABIERTAS

Las clases abiertas presentan dificultad para formar la gráfica y para calcular las medidas de
resumen descriptivas que son útiles para analizar los datos

Ejemplo:
SALARIOS INICIALES ESPERADOS PARA GRADUADOS

SALARIO (EN $) N° DE GRADUADOS


Menos de 300$ 1
[300, 600) 16
[600, 900) 20
[900, 1200) 9
1200 ó más 4

ESTADÍSTICA DESCRIPTIVA 28
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

3) FRONTERAS DE CLASE

En la bibliografía se utiliza a veces distintas maneras de expresar los límites de clase

Por ejemplo el intervalo [300, 600) se puede hallar como


300-599
300 a menos de 600

Lo importante es que cada dato entre en una sola clase y no haya ninguna duda.

MEDIDAS DE TENDENCIA CENTRAL Y DE VARIABILIDAD

Al trabajar con histogramas y polígonos de frecuencias, vimos que las distribución de los datos
puede adoptar varias formas. En algunas distribuciones los datos tienden a agruparse más en una
parte de la distribución que en otra. Comenzaremos a analizar las distribuciones con el objeto de
obtener medidas descriptivas numéricas llamadas estadísticas, que nos ayuden en el análisis de las
características de los datos.

Dos de estas características son de particular importancia para los responsables de tomar
decisiones: la tendencia central y la dispersión

Tendencia central : La tendencia central se refiere al punto medio de una distribución. Las
medidas de tendencia central se denominan medidas de posición.

Dispersión: La dispersión se refiere a la extensión de los datos, es decir al grado en que las
observaciones se distribuyen (o se separan).

Existen otras dos características de los conjuntos de datos que proporcionan información útil: el
sesgo y la curtosis.

Sesgo (skewness) : Las curvas que representan un conjunto de datos pueden ser simétricas o
sesgadas. Las curvas simétricas tienen una forma tal que una línea vertical que pase por el punto
más alto de la curva, divide al área de ésta en dos partes iguales. Si los valores se concentran en un
extremo se dice sesgada. Una curva tiene sesgo positivo cuando los valores van disminuyendo
lentamente hacia el extremo derecho de la escala y sesgo negativo en caso contrario.

 El sesgo es una medida de la asimetría de la curva. En general es un valor que va de -3 a 3.


Una curva simétrica toma el valor 0.

SESGO POSITIVO

SIMÉTRICA (Sesgo 0) SESGO NEGATIVO

ESTADÍSTICA DESCRIPTIVA 29
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Curtosis (Kurtosis) : Nos da una idea de la agudeza (o lo plano) de la distribución de frecuencias.


Una curva normal (es el patrón con el que se compara la curtosis de otras curvas) tiene curtosis 0.
Esta curva se llama mesocúrtica. Si la curtosis es mayor que 0, la curva es más empinada que la
anterior y se denomina leptocúrtica (Lepto, del griego, "empinado" o "estrecho"). Si la curtosis es
menor que 0, es relativamente plana y se denomina platicúrtica ( "plano", "ancho")

(En el gráfico la curva punteada es la curva normal (mesocúrtica))

MEDIDAS DE TENDENCIA CENTRAL: Moda, mediana y media

Moda:
es el valor que más se repite en un conjunto de datos.

Ejemplo 1: Los siguientes datos representan la cantidad de pedidos diarios


recibidos en un período de 20 días, ordenados en orden ascendente

0 0 1 1 2 2 4 4 5 5
6 6 7 7 8 12 15 15 15 19

Mo = 15 La cantidad de pedidos diarios que más se repite es 15

Ejemplo 2: La cantidad de errores de facturación por día en un período de 20 días,


ordenados en orden ascendente es

0 0 1 1 1 2 4 4 4 5

ESTADÍSTICA DESCRIPTIVA 30
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

6 6 7 8 8 9 9 10 12 12

Esta distribución tiene 2 modas. Se la llama distribución bimodal .


Mo = 1 y Mo = 4

Cálculo de la moda para datos agrupados

Si los datos están agrupados en una distribución de frecuencias, se selecciona el intervalo de


clase que tiene mayor frecuencia llamado clase modal.
Para determinar un solo valor de este intervalo para la moda utilizamos la siguiente ecuación:

 d1 
Mo  LMo   .h
 d1  d 2 

Mo Moda
LMo Límite inferior de la clase modal
d1 frecuencia de la clase modal menos la frecuencia de la clase
anterior a ella ( d 1  f i  f i 1 )
d2 frecuencia de la clase modal menos la frecuencia de la clase
posterior a ella ( d 2  f i  f i 1 )
h amplitud del intervalo de clase

Ejemplo 3: La edad de los residentes en un complejo de viviendas tiene la siguiente


distribución:

Edad de los residentes del Complejo XX, Buenos Aires, 1988


Edad fi fri f% Fi Fri F%
[47, 52) 4 0,029 2.9 4 0,029 2.9
[52, 57) 9 0,066 6.6 13 0,095 9.5
[57, 62) 13 0,096 9.6 26 0,191 19.1
[62, 67) 42 0,309 30.9 68 0,500 50
[67, 72) 39 0,287 27.8 107 0,787 78.7
[72, 77) 20 0,147 14.7 127 0,934 93.4
[77, 82) 9 0,066 6.6 136 1 1

ESTADÍSTICA DESCRIPTIVA 31
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

La clase modal es [62, 67) , ya que es la que presenta la mayor frecuencia

LMo  62 f i  42 f i 1  13 f i 1  39 h5

d 1  42  13  29 d 2  42  39  3

 29 
Mo  62   .5  66,53
 29  3 

 La edad que más se repite es 66,53 años

VENTAJAS Y DESVENTAJAS DE LA MODA

 Se puede utilizar para datos cualitativos nominales u ordinales y para datos


cuantitativos

 No se ve afectada por los valores extremos

 Se puede utilizar cuando la distribución de frecuencias tenga clases abiertas

 Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, se dice que no
tiene moda

 Si un conjunto de datos contiene 2 puntuaciones adyacentes con la misma frecuencia


común (mayor que cualquier otra), la moda es el promedio de las 2 puntuaciones
adyacentes Ej. (0,1,1,2,2,2,3,3,3,4,5) tiene Mo=2,5

ESTADÍSTICA DESCRIPTIVA 32
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

 Si en un conjunto de datos hay dos que no son adyacentes con la misma frecuencia
mayor que las demás, es una distribución bimodal. Conjuntos muy numerosos se
denominan bimodales cuando presentan un polígono de frecuencias con 2 lomos, aún
cuando las frecuencias en los 2 picos no sean exactamente iguales. Estas ligeras
distorsiones de la definición están permitidas porque el término bimodal es muy
conveniente y en último término es descriptivo. Una distinción conveniente puede
hacerse entre la moda mayor y la moda menor. Por ejemplo en el gráfico siguiente, la
moda mayor es 6 y las menores son 3,5 y 10



Mediana:
es el valor que divide al conjunto ordenado de datos, en dos subconjuntos
con la misma cantidad de elementos. La mitad de los datos son menores que la
mediana y la otra mitad son mayores

En general, vamos a representar un conjunto de n datos como x1 , x 2 , x3 , ... , x n


Si los datos están ordenados, los indicaremos x( 1 ) , x( 2 ) , x( 3 ) , ... , x( n )
donde el subíndice encerrado entre paréntesis indica el orden o ubicación en el conjunto
ordenado

Se presentan dos situaciones:


n 1
 Número impar de datos: La mediana es el dato que está en la posición
2

~~
Me  m x  x  n 1 
 
 2 

Sea el conjunto ordenado de datos:

2 3 5 6 8
x( 1 ) x( 2 ) x( 3 ) x( 4 ) x( 5 )

Me  x n 1   x 5 1   x( 3 )  5
   
 2   2 

ESTADÍSTICA DESCRIPTIVA 33
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

 La mitad de las observaciones son menores o iguales que 5 y la otra mitad son mayores
o iguales que 5.

 Número par de datos: Es el promedio entre los dos datos centrales.

x  n   x n 
   1 
~~
Me  m x 2 2 

2
2 3 5 6 8 9
x( 1 ) x( 2 ) x( 3 ) x( 4 ) x( 5 ) x 6 

x 6   x 6 
 
2
 1 
2 
x( 3 )  x31 x  3   x 4  56
Me      5 ,5
2 2 2 2

 La mitad de las observaciones son menores o iguales que 5,5 y la otra mitad son
mayores o iguales que 5,5.

Cálculo de la mediana para datos agrupados

Si los datos están agrupados en una distribución de frecuencias, se selecciona el intervalo de


clase que contiene a la mediana llamado clase mediana. Para ello, debemos determinar la
n1
frecuencia acumulada absoluta que contenga al elemento número . El valor de este intervalo
2
para la mediana se calcula utilizando la siguiente ecuación:

 n1 
  Fi 1 
~ ~
Me  m  x  Lm   2 .h
 fi 
 
 

Me Mediana
Lm Límite inferior de la clase mediana
n cantidad de datos
Fi-1 frecuencia acumulada absoluta de la clase anterior al
intervalo mediana
fi frecuencia absoluta de la clase mediana
h amplitud del intervalo de clase

Ejemplo (Continuación): La edad de los residentes en un complejo de viviendas tiene la


siguiente distribución:

Edad de los residentes del complejo XX

ESTADÍSTICA DESCRIPTIVA 34
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Edad fi fri f% Fi Fri F%


[47, 52) 4 0,029 2.9 4 0,029 2.9
[52, 57) 9 0,066 6.6 13 0,095 9.5
[57, 62) 13 0,096 9.6 26 0,191 19.1
[62, 67) 42 0,309 30.9 68 0,500 50
[67, 72) 39 0,287 27.8 107 0,787 78.7
[72, 77) 20 0,147 14.7 127 0,934 93.4
[77, 82) 9 0,066 6.6 136 1 1

136  1
La clase mediana es la que contenga el elemento en la posición , es
2
decir 68,5 , (promedio entre los elementos números 68 y 69). Buscamos en la
frecuencia acumulada Fi y vemos que se halla en el intervalo [67, 72)
LMe  67 Fi 1  68 f i  39 h5

 68,5  68 
Me  67   .5  67,06
 39 

INTERPRETE: ...............................................................................

VENTAJAS Y DESVENTAJAS DE LA MEDIANA

 Se puede utilizar para datos cualitativos ordinales y para datos cuantitativos

 No se ve afectada por los valores extremos. Esta es la propiedad más importante que
tiene.

 Se puede utilizar cuando la distribución de frecuencias tiene clases abiertas, a menos


que la mediana caiga en una de las clases abiertas

 Si hay un gran número de datos, el tener que ordenarlos para hallar la mediana insume
esfuerzo y tiempo.

Media o media aritmética:


Es el promedio de los datos

 Una muestra con n (minúscula) observaciones, tiene una media x (que se denomina
estadística)
 Una población con N (mayúscula) elementos tiene una media  (que se denomina
parámetro)

ESTADÍSTICA DESCRIPTIVA 35
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Cálculo de la media para datos no agrupados


x x
x
N n

Vemos que es la suma de las observaciones divididas el total de datos. Cuando calculamos la
media de la población, dividimos por la cantidad de datos de la población N y cuando se calcula la
media muestral por n

Ejemplo: El Departamento de Acción Social ofrece un estímulo especial a aquellas


agrupaciones en las que la edad promedio de los niños que asisten está
por debajo de 9 años. Si los siguientes datos corresponden a las edades
de los niños que acuden de manera regular al Centro ¿calificará éste
para el estímulo?

8 5 9 10 9 12 7 12 13 7 8

x
 x  8  5  9  10  9  12  7  12  13  7  8  9,09
n 11

Interpretación: ...........................................................................................................
..................................................................................................................................

Cálculo de la media para datos agrupados


Para calcular la media para datos agrupados, primero calculamos el punto medio de cada clase
(marca de clase mi ). Después multiplicamos cada punto medio por la frecuencia absoluta de cada
intervalo

x
 mi . f i
n

VENTAJAS Y DESVENTAJAS DE LA MEDIA

 Se trata de un concepto familiar e intuitivamente claro

 Cada conjunto de datos tiene una media y es única

 Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias


de varios conjuntos de datos. En estadística inferencial es la medida de tendencia
central que tiene mejores propiedades

 Aunque la media es confiable en el sentido de que toma en cuenta todos los valores del
conjunto de datos, puede verse afectada por valores extremos que no son
representativos del resto de los datos. La media puede malinterpretarse si los datos no
forman un conjunto homogéneo.

ESTADÍSTICA DESCRIPTIVA 36
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

 No se puede calcular la media si la distribución de frecuencias tiene clases abiertas

COMPARACIÓN ENTRE LA MEDIA, LA MEDIANA Y LA MODA

 Las distribuciones simétricas tienen el mismo valor para la media, la mediana y la moda.

 En una distribución con sesgo positivo, la moda se halla en el punto más alto de la
distribución, la mediana está hacia la derecha de la moda y la media más a la derecha.
Es decir Mo < Me < x

 En una distribución con sesgo negativo, la moda es el punto más alto, la mediana está a
la izquierda de la moda y la media está a la izquierda de la mediana. Es decir, x < Me <
Mo

 Cuando la población tiene una distribución sesgada, con frecuencia la mediana resulta
ser la mejor medida de posición, debido a que está siempre entre la media y la moda. La
mediana no se ve altamente influida por la frecuencia de aparición de un solo valor
como es el caso de la moda, ni se distorsiona con la presencia de valores extremos como
la media.

 La selección de la media, la mediana o la moda, depende de la aplicación. Por ejemplo,


se habla del salario promedio (media); el precio mediano de una casa nueva puede ser
una estadística más útil para personas que se mudan a un nuevo vecindario (si hay una
o dos crestas que distorsionan la media). Y mientras que la familia promedio conste de
1,7 niños, tiene más sentido para los diseñadores de automóviles pensar en la familia
modal, con dos niños.

MEDIDAS DE DISPERSIÓN

Las medidas de dispersión son útiles porque:

Nos proporcionan información adicional que nos permite juzgar la confiabilidad de nuestra
medida de tendencia central. Si los datos están muy dispersos la posición central es menos
representativa de los datos, como un todo, que cuando estos se agrupan más estrechamente
alrededor de la media.

Ya que existen problemas característicos de distribuciones muy dispersas, debemos ser capaces
de distinguir que presentan esa dispersión antes de abordar los problemas

Nos permiten comparar varias muestras con promedios parecidos

Los analistas financieros están preocupados por la dispersión de las ganancias de una empresa
que van desde valores muy grandes a valores negativos. Esto indica un riesgo mayor para los
accionistas y para los acreedores. De manera similar los expertos en control de calidad, analizan los
niveles de calidad de un producto

RANGO:

ESTADÍSTICA DESCRIPTIVA 37
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Es la diferencia entre el mayor y el menor de los valores


Observados

R  x( n )  x( 1 )
Siendo x( n ) la observación mayor y x( 1 ) la observación
Menor

 El rango es fácil de entender y de encontrar, pero su utilidad como medida de dispersión


es limitada. Como sólo toma en cuenta el valor más alto y el valor más bajo ignora la
naturaleza de la variación entre todas las demás observaciones, y se ve muy influido por
los valores extremos.

 Debido a que considera sólo dos valores tiene muchas posibilidades de cambiar
drásticamente de una muestra a otra en una población dada.

 Las distribuciones de extremo abierto no tienen rango.

VARIANZA Y DESVIACIÓN ESTÁNDAR

Las descripciones más comprensibles de la dispersión son aquellas que tratan con la desviación
promedio con respecto a alguna medida de tendencia central. Veremos dos medidas que nos dan
una distancia promedio con respecto a la media de la distribución: varianza y desviación estándar.

VARIANZA DE LA POBLACIÓN:
Es el promedio de las distancias al cuadrado que van de las observaciones a la media

 x     x2
2

 2
   2
N N

 2 : Varianza de la población
x : Elemento u observación
 : Media de la población
N : Número total de elementos de la población

DESVIACIÓN ESTÁNDAR DE LA POBLACIÓN:

Es la raíz cuadrada de la varianza

 x     x2
2

   2
N N

Para calcular la varianza de la población, dividimos la suma de las distancias al cuadrado entre la
media y cada elemento de la población. Al elevar al cuadrado cada una de las distancias, logramos
que todos los números que aparecen sean positivos y, al mismo tiempo asignamos más peso a las

ESTADÍSTICA DESCRIPTIVA 38
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

desviaciones más grandes. Las unidades de la varianza están elevadas al cuadrado (pesos al
cuadrado, unidades al cuadradro, etc.) lo que hace que no sean claras o fáciles de interpretar.

La desviación estándar, que es la raíz positiva de la varianza, se mide en la misma unidad que la
variable, y su interpretación es " en promedio los valores se alejan de la media en ..... unidades"

Aplicación de la desviación estándar poblacional

La desviación estándar nos permite determinar, con un buen grado de precisión, dónde están
localizados los valores de una distribución de frecuencias con relación a la media.

Para curvas cualesquiera, el teorema de Chebyshev asegura que al menos el 75% de los valores
caen dentro de  2 (2 desviaciones estándar) a partir de la media  , y al menos el 89% de los
valores caen dentro de  3 .

Se puede medir con más precisión el porcentaje de observaciones que caen dentro de un rango
específico de curvas simétricas con forma de campana (regla empírica):

1. Aproximadamente 68% de las observaciones cae dentro de  1


2. Aproximadamente 95% de las observaciones cae dentro de  2
3. Aproximadamente 99% de las observaciones cae dentro de  3

En el gráfico interpretamos el 0 como  , y los números como unidades de  . Por ejemplo, 1


es    ; -1 es    ; 2 es   2 ; etc.

Cálculo de la varianza y la desviación estándar utilizando datos agrupados

 2

 ( mi   ). f i  mi2 . f i
  2
N N

ESTADÍSTICA DESCRIPTIVA 39
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

  2 
 ( mi   ). f i 
 mi2 . f i  2
N N

 2 : Varianza de la población
 : Desviación estándar de la población
f i : frecuencia absoluta de la clase i
mi : marca de clase de la clase i
 : media de la población
N : tamaño de la población

VARIANZA Y DESVIACIÓN ESTÁNDAR MUESTRAL

Para calcular la varianza y la desviación estándar muestral se utilizan las mismas fórmulas que las
poblacionales, sustituyendo  con x y N con n  1 .

La utilización de n  1 en lugar de n se verá con más detalle más adelante.

Las expresiones para el cálculo de la varianza y desviación estándar muestral son:

DATOS SIN AGRUPAR

VARIANZA MUESTRAL:

 x  x 
2
 x 2  n.x
2

s 2
 
n 1 n 1 n 1

s2 : Varianza de la muestra
x : Elemento u observación
x: Media de la muestra
n: Número de elementos de la muestra

DESVIACIÓN ESTÁNDAR MUESTRAL:

 x  x 
2
 x 2  n.x
2

s s  2

n1 n 1 n 1

DATOS AGRUPADOS

VARIANZA MUESTRAL:

ESTADÍSTICA DESCRIPTIVA 40
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

s2 
 ( mi  x ). f i
n 1

DESVIACIÓN ESTÁNDAR MUESTRAL:

s
 ( mi  x ). f i
n 1
2
s : Varianza de la muestra
s : Desviación estándar de la muestra
f i : frecuencia absoluta de la clase i
mi : marca de clase de la clase i
x : media de la muestra
n : tamaño de la muestra

COEFICIENTE DE VARIACIÓN:

La desviación estándar es una medida absoluta de la dispersión que expresa la variación en las
mismas unidades que los datos originales. Pero no puede ser la única base para la comparación de
dos distribuciones. Por ejemplo si tenemos una desviación estándar de 10 y una media de 5, los
valores varían en una cantidad que es el doble de la media. Si por otro lado tenemos una desviación
estándar de 10 con una media de 5000, la variación respecto a la media es insignificante.
Lo que necesitamos es una medida relativa que nos proporcione una estimación de la magnitud
de la desviación respecto de la magnitud de la media.

El coeficiente de variación es una medida relativa de dispersión que expresa a la desviación


estándar como un porcentaje de la media

 s
CV  .100% en la población CV  .100% en la muestra
 x

Se lo utiliza en la comparación de variación de dos o más grupos.

Ejemplo: Se pretende comparar el desempeño en ventas de 3 vendedores. Los resultados


siguientes dan los promedios de puntajes obtenidos en los cinco años pasados por la concreción de
los objetivos
A 88 68 89 92 103
B 76 88 90 86 79
C 104 88 118 88 123
12 ,67
x A  88 s A  12 ,67 CV  .100%  14 ,4%
88
6 ,02
x B  83 ,8 s B  6 ,02 CV  .100%  7 ,18%
83 ,8
16 ,35
x C  104 ,2 sC  16 ,35 CV  .100%  15 ,69%
104 ,2

ESTADÍSTICA DESCRIPTIVA 41
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Vemos que el vendedor C tiene la mayor variabilidad, mientras que el B tiene la menor. El
desempeño de C parece ser mejor si analizamos la media, pero hay que tener en cuenta que
también tiene la mayor variabilidad en la concreción de los objetivos.

PREGUNTAS DE COMPRENSIÓN:

1- Responda "Verdadero" o “Falso”


a- La media de una muestra siempre divide los datos en dos mitades iguales (la mitad mayor y la
mitad menor en valor que ella misma).
b - La suma de los cuadrados de las desviaciones de la media, ( x — xi)2 , algunas veces es
negativa.
c- En general se debe elaborar una distribución de frecuencias de manera que haya al menos 20
clases.
d- La marca de clase se obtiene sumando los límites inferior y superior y dividiendo la suma entre 2
e- Para una distribución acampanada, el rango es aproximadamente igual a seis desviaciones
estándar.

Bibliografía de consulta:

Johnson & Kuby- ESTADÍSTICA ELEMENTAL. Lo esencial. Ed. Thomson – 2004


Levin & Rubin- ESTADÍSTICA PARA ADMINISTRADORES- Ed. Prentice Hall – 1996
Mason y Lind – ESTADÍSTICA PARA ADMINISTRACIÓN Y ECONOMÍA- Ed. Alfaomega – 1998
Spiegel –ESTADÍSTICA – Ed. McGraw Hill – 1991

El programa R es de distribución gratuita. Tiene una amplia gama de paquetes estadísticos que
hacen que cada vez más a nivel mundial se utilice y recomiende el mismo.
http://www.r-project.org se baja el programa en la forma Windows, y en CRAN se elige el país
desde el que se quiere bajar. Además se pueden obtener manuales en varios idiomas, incluyendo
castellano. Una introducción al uso de R en castellano (version power-point) se puede ver en:
http://www.etsu.edu/math/seier/R.htm
Manuales en castellano en http://www.R-project.org
• R Para Principiantes traducida por Jorge A. Ahumada (PDF).
• “Introducción a R” por Andrés González y Silvia González (PDF )
• “Gráficos Estadísticos con R” por Juan Carlos Correa y Nelfi González (PDF).
• “Cartas sobre Estadística de la Revista Argentina de Bioingeniería” Marcelo R. Risk (PDF).
• “Introducción al uso y programación del sistema estadístico R” por Ramón Díaz-Uriarte.

ESTADÍSTICA DESCRIPTIVA 42
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Trabajo Práctico n° 2 : Estadística Descriptiva

Ejercicio n°1:
Un investigador preguntó a un grupo de personas su opinión acerca de la privatización de cierta
empresa. Los resultados fueron los siguientes:

Indeciso- muy en desacuerdo – indeciso – muy de acuerdo – indeciso – de acuerdo –


en desacuerdo – en desacuerdo - de acuerdo – de acuerdo – indeciso – de acuerdo -
en desacuerdo – de acuerdo - en desacuerdo - en desacuerdo - en desacuerdo – indeciso-
de acuerdo – muy de acuerdo – indeciso - muy en desacuerdo - indeciso – de acuerdo de acuerdo

a) Indique la variable en estudio y la escala de medición


b) Elabore una tabla de frecuencias. Lea una categoría. Haga un comentario de apreciación.
c) Elabore un gráfico de barras
d) Elabore un gráfico de pastel

Ejercicio n°2:
El 13 de setiembre de 2017 se votó en la Honorable Cámara de Diputados de la Nación la ley
relacionada a los Honorarios profesionales de abogados, procuradores y auxiliares de la justicia
nacional y federal. 121 diputados votaron afirmativamente, 110 estuvieron ausentes y 25 se
abstuvieron. A continuación se muestra una tabla teniendo en cuenta la agrupación política y el tipo
de voto, según lo que se observa enhttp://votaciones.lanacion.com.ar/diputados/leyes#ley=1325.

Tipo de voto en la HCD de la ley relacionada a honorarios profesionales de abogados, procuradores y auxiliares de la
justicia nacional y federal. 13 de setiembre de 2017.

Tipo de voto

Afirmativo Ausente Abstención

Cambiemos 67 13 5
Massismo y aliados 22 12 4

Kirchnerismo y aliados 13 55 7
Agrupaciones políticas
PJ 13 21 1

Izquierda 0 1 3

Otros 6 8 5
Fuente: Cámara de Diputados de la Nación y Cámara de Senadores de la Nación (sesiones ordinarias)

i) ¿Cuáles son las variables en estudio?


ii) ¿De qué tipo son? ¿En qué escala se miden?
i) Realizar una tabla de porcentajes totales y hacer alguna lectura
ii) Hacer una gráfico de barras agrupadas y uno de barras apiladas
iii) Realizar una tabla de porcentajes por fila y hacer alguna lectura
iv) Hacer un gráfico adecuado al ítem iii)
v) Realizar una tabla de porcentajes por columna y hacer alguna lectura
vi) Hacer un gráfico adecuado a v)
vii) Extraiga alguna conclusión

ESTADÍSTICA DESCRIPTIVA 43
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Ejercicio n°3:
A fin de decidir cuántos mostradores de servicio se necesitarán en tiendas que serán construidas en
lo futuro, una cadena de supermercados quiso obtener información acerca del tiempo (en minutos)
requerido para atender a los clientes. Con objeto de obtener la información acerca de la
distribución, de los tiempos de servicio para los clientes, se registraron 1000 tiempos de servicio
como una muestra. Se dan 60 de ellos en la tabulación siguiente.

3.6 1.9 2.1 0.3 0.8 0.2


1.0 1.4 1.8 1.6 1.1 1.8
0.3 1.1 0.5 1.2 0.6 1.1
0.8 1.7 1.4 0.2 1.3 3.1
0.4 2.3 1.8 4.5 0.9 0.7
0.6 2.8 2.5 1.1 0.4 1.2
0.4 1.3 0.8 1.3 1.1 1.2
0.8 1.0 0.9 0.7 3.1 1.7
1.1 2.2 1.6 1.9 5.2 0.5
1.8 0.3 1.1 0.6 0.7 ' 0.6

a) Ordenar los datos con un diagrama de tallos y hojas


b) Elabore una tabla de frecuencias con los datos. Lea una línea

Ejercicio n°4:
SALDOS PROMEDIO MENSUALES DE 600 CUENTAS BANCARIAS
INTERVALOS ($) FRECUENCIAS
[ 0, 50) 78
[ 50, 100) 123
[100, 150) 187
[150, 200) 82
[200, 250) 51
[250, 300) 47
[300, 350) 13
[350, 400) 9
[400, 450) 6
a) Identificar la variable en estudio
b) ¿En qué escala se mide? ¿Cuál es el tamaño de la muestra?
c) ¿Cuál es el valor máximo y el valor mínimo?
d) Halle el rango e interprete
e) Ordene los datos mediante un diagrama de tallos y hojas
f) Con los datos sin agrupar halle la media, la mediana y la moda e interprete.
g) Con los datos sin agrupar halle la varianza y la desviación estándar y el coeficiente de
variación e interprete.
h) Agrupar los datos en una distribución de frecuencias, y realizar la lectura de una fila
cualquiera
i) Representar los datos de la tabla en un histograma de frecuencia porcentual. Graficar el
polígono de frecuencias correspondiente.
j) Representar un histograma de frecuencias acumuladas. Graficar una ojiva. Hacer algunas
lecturas en la ojiva
k) Calcule las medidas de tendencia central y de dispersión con los datos agrupados y
compare con los valores obtenidos de los datos sin agrupar

ESTADÍSTICA DESCRIPTIVA 44
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

l) ¿Es la distribución de frecuencias simétrica o asimétrica? Si es asimétrica, ¿qué tipo de


asimetría presenta?

Ejercicio n°6 :

Los siguientes datos representan una muestra de la cantidad de pedidos diarios entregados :

17 25 28 27 16 21 20 22 18 23

a) Hallar el rango, la varianza y la desviación estándar e interpretar.


b) Hallar el porcentaje de observaciones que están alrededor de la media a una distancia de
2 desviaciones estándar. Comparar con el teorema de Chebyshev y con la regla empírica

Ejercicio n° 7:
A una empresa le preocupa mucho el ausentismo de sus empleados. Las relaciones entre el
sindicato y la empresa están tensas porque no logran ponerse de acuerdo en un límite de faltas a
partir del cual se colocarán sanciones. Se toman las planillas del último mes y se cuenta cada día la
cantidad de ausentes. Los datos son:
12 10 10 9 9 8 8 8 12 10 10 10 9 12 9
8 8 8 6 10 12 10 10 9 9 9 6 9 10 10
a) Calcular e interpretar los valores de media, mediana y moda.
b) Si usted fuera el empresario, ¿cuál de las medidas calculadas en a) emplearía como límite a
partir del cual colocar sanciones?
c) Si usted fuera el delegado gremial, ¿cuál de las medidas calculadas en a) emplearía como límite a
partir del cual colocar sanciones?
d) Justificar las respuestas dadas en los puntos anteriores.

Ejercicio n° 8:

En la siguiente tabla se presentan las muestras A y B. observe que las dos muestras son iguales ,
excepto que el 8 en A se ha sustituido por un 9 en B. ¿Cuál es el efecto de cambiar el 8 por 9 sobre
cada una de las siguientes estadísticas? Justifique
a) media b) mediana c) moda d) rango e) varianza f) desviación estándar
g) coeficiente de variación

A: 2 4 5 5 7 8
B: 2 4 5 5 7 9

Ejercicio n° 9:
Se toma una muestra de 30 mesas del departamento de Godoy Cruz y se observan la cantidad de
votos en blancos registrados en las elecciones del 22 de octubre de 2017.

Número de Mesa 299 308 320 334 337 340 348 355 362 373
Votos en blanco 3 2 5 2 5 4 1 4 2 1
Número de Mesa 378 388 393 423 435 441 507 514 525 530
Votos en blanco 1 4 5 5 3 3 2 4 0 4

ESTADÍSTICA DESCRIPTIVA 45
ANÁLISIS CUANTITATIVO 2018 UNIDAD 2

Número de Mesa 620 629 634 639 650 654 723 727 733 742
Votos en blanco 3 1 3 1 2 4 2 5 2 2
Fuente: Aplicación Legislativas Argentina 2017 – Godoy Cruz.

a) Identifique la variable en estudio y clasifíquela


b) Indique la escala de medición de la variable estudiada.
c) Indique los valores máximo y mínimo observados.
d) Construir una tabla de frecuencias adecuada.
e) Interpretar una fila de la tabla construida.
f) ¿Qué gráfico utilizaría para representar la variable? Construirlo.
g) Calcular e interpretar las medidas de posición central.
h) Calcular e interpretar el cuartil de orden 1, el decil de orden 4 y el percentil de orden 90.
i) Calcular e interpretar el rango, el desvío estándar y el coeficiente de variación.

ESTADÍSTICA DESCRIPTIVA 46

También podría gustarte