Está en la página 1de 56

Estadística Aplicada

UNIDAD 1: ESTADÍSTICA DESCRIPTIVA


Y ANÁLISIS EXPLORATORIO DE

DATOS.

UNIDAD 1:
INTRODUCCIÓN A LA ESTADÍSTICA Y
AL ANÁLISIS DE DATOS

Lic. Eliana Arcoraci


Contenido
0
I. Introducción 2
II. Concepto de Estadística 2
a. Estadística descriptiva 3
b. Estadística inferencial 3
III. Población y Muestra 3
a. Población 4
b. Muestra 5
IV. Variables Estadísticas 6
a. Variables cualitativas 7
b. Variables cuantitativas 7
V. Datos Estadísticos 8
a. Clasificación de los datos 8
b. Fuentes de datos Estadísticos 9
c. Método para la recolección de datos 10
d. Instrumentos para la recolección de datos 12
e. Del dato a la Información 13
VI. El análisis estadístico y el Ordenamiento de Datos 14
a. Datos Desordenados: Datos Crudos 14
b. Datos Ordenados: Arreglo Y Distribución De Frecuencias 15
VII. Representación gráfica de los datos 19
a. Diagrama de puntos dispersos 19
b. Tablas cruzadas 20
c. Histogramas y ojivas 21
VIII. Análisis Estadístico 23
a. Medidas de Tendencia Central 24
1. Media Aritmética(𝑋) 24
2. La Mediana ( 𝑋) 29
3. La Moda (Mo) 34
b. Medidas De Dispersión 37
1. Recorrido o Rango (R) 38
2. Desviación Media (DM) 39
3. Desviación Standar 43
c. Medidas de Posición. Los Cuantiles 47
1. Cuartiles (Cr) 48
2. Quintiles (Qr) 49
3. Deciles (Dr) 50
4. Percentiles(Pr) 51

Estadística | Unidad 1 | Página 1 de 56


I. INTRODUCCIÓN
En este módulo trabajaremos los temas de la Unidad 1
“Introducción a la Estadística y al Análisis de Datos”
conoceremos las definiciones básicas introductorias de
Estadística.

La información numérica está en todas partes: en los


diarios, revistas de noticias, de negocios, revistas de interés general, del hogar,
deportivas, en televisión, radio,etc.,se encuentra gran información numérica. Para ser
consumidores educados en esta información, es necesario poder interpretar esta
información. La Estadística se utiliza para tomar decisiones que afectan nuestra vida
diaria, que afectan nuestro bienestar personal y el conocimiento de los métodos
estadísticos ayudará a entender cómo se toman las decisiones y a comprender de qué
manera nos afectan.

II. CONCEPTO DE ESTADÍSTICA


La estadística es una ciencia que estudia las características de un conjunto de casos
para hallar en ellos regularidades en el comportamiento, que sirven para describir el
conjunto y para efectuar predicciones1.

La estadística tiene por objeto recolectar, organizar, resumir,


presentar y analizar datos relativos a un conjunto de objetos,
personas, procesos, etc. A través de la cuantificación y el
ordenamiento de los datos intenta explicar los fenómenos
observados, por lo que resulta una herramienta de suma utilidad para la toma de
decisiones.

La estadística se divide en dos ramas:

1
Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para Administración y Economía.
Pearson Educación S.A., Madrid – Cap.1

Estadística | Unidad 1 | Página 2 de 56


a. Estadística descriptiva
Nos indica una situación, describe e informa de modo que permite describir y
resumir las observaciones que se hagan sobre un asunto, fenómeno o problema
de investigación. Se calcula a partir de los datos de una muestra o de una población.

La estadística descriptiva utiliza métodos de recolección, descripción, visualización y


resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden
ser resumidos numérica o gráficamente.

Ejemplos básicos de descriptores numéricos son la media y la desviación estándar,


conceptos que analizaremos en la Unidad 2 de la materia

b. Estadística inferencial
Se utiliza cuando de los datos estadísticos obtenidos de una muestra se infiere o
se deduce una observación la cuál se generaliza sobre la población en total. Para
determinar la confiabilidad de la inferencia de los datos estadísticos de una muestra, se
hace necesario comprobar la misma para poder asegurar que lo que se observa en una
muestra se observará también en la población. Por lo tanto, esto requiere utilizar
técnicas, cómputos y análisis estadísticos más avanzados con los datos estadísticos
obtenidos de la muestra para así confirmar la veracidad de las inferencias que se haga
sobre la respectiva población a que corresponde la muestra. Generalmente el análisis
estadístico inferencial se lleva cabo para mostrar relaciones de causa y efecto, así como
para probar hipótesis y teorías científicas. Estas inferencias pueden tomar la forma de
respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características
numéricas (estimación), pronósticos de futuras observaciones, descripciones de
asociación (correlación) o modelamiento de relaciones entre variables (análisis de
regresión).

III. POBLACIÓN Y MUESTRA


Las estadísticas de por sí no tienen sentido si no se
consideran o se relacionan dentro del contexto con que
se trabajan. Por lo tanto es necesario entender los
conceptos de población y de muestra para lograr
comprender mejor su significado en la investigación
educativa o social que se lleva a cabo.

Estadística | Unidad 1 | Página 3 de 56


a. Población2
Es el conjunto total de individuos, objetos o medidas que poseen algunas características
comunes observables en un lugar y en un momento determinado. Cuando se vaya a
llevar a cabo alguna investigación debe de tenerse en cuenta algunas características
esenciales al seleccionarse la población bajo estudio.

Entre éstas tenemos:

1. Homogeneidad: que todos los miembros de la


población tengan las mismas características según
las variables que se vayan a considerar en el estudio
o investigación.
Si se fuera a investigar la incidencia de la drogadicción
entre jóvenes mujeres adolescentes, entonces hay que
definir claramente las edades que comprenden la
adolescencia y cuando se seleccione la población asegurarse de que todas las personas
entrevistadas sean de la edad determinada y del sexo femenino. (La
adolescencia se define operacionalmente como el periodo comprendido
de edad que fluctúa entre 12 y 21 años.)
2. Tiempo: se refiere al período de tiempo donde se ubicaría la
población de interés. Determinar si el estudio es del momento
presente o si se va a estudiar a una población de cinco años atrás
o si se van a entrevistar personas de diferentes generaciones.

Si quisiéramos estudiar la evolución de los cultivos en una determinada zona,


deberíamos hacer relevar la misma información durante un periodo determinado de
tiempo

3. Espacio: se refiere al lugar donde se ubica la población de interés. Un estudio


no puede ser muy abarcador, para optimizar tiempo y recursos hay que limitarlo
a un área o comunidad en específico.

2
Ibidem

Estadística | Unidad 1 | Página 4 de 56


La caracterización de los clientes de una
determinada empresa, sería un ejemplo de esto

4. Cantidad: se refiere al tamaño de la población. El


tamaño de la población es sumamente importante
porque ello determina o afecta al tamaño de la
muestra que se vaya a seleccionar. Es fundamental
determinar la extensión de la población que se vaya a investigar.

La plantilla 150 de proveedores de una empresa, podría ser la población bajo análisis
por ejemplo.

b. Muestra
La muestra es un subconjunto fielmente representativo de la población. Hay diferentes
tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán
representativo se quiera sea el estudio de la población.3

● Aleatoria: cuando se selecciona al azar y cada


miembro tiene igual oportunidad de ser incluido.

Ejemplo: Se elige encuestar a 20 clientes de un supermercado.

● Estratificada: cuando se subdivide en estratos o subgrupos según las variables


o características que se pretenden investigar. Cada estrato debe corresponder
proporcionalmente a la población.

Ejemplo: Se realizan una encuesta de gastos mensuales y se divide a los encuestados


según su nivel de ingresos

3
Ibidem

Estadística | Unidad 1 | Página 5 de 56


● Sistemática: cuando se establece un patrón o
criterio al seleccionar la muestra.

Ejemplo: se entrevistará una familia por cada diez que se detecten.


El muestreo es indispensable para el investigador, ya que es imposible entrevistar a
todos los miembros de una población debido a problemas de tiempo, recursos y
esfuerzo. Al seleccionar una muestra lo que se hace es estudiar una parte o un
subconjunto de la población, pero que la misma sea lo suficientemente representativa
de ésta para que luego pueda generalizarse con seguridad de ellas a la población.

IV. VARIABLES ESTADÍSTICAS4


Las variables estadísticas son las características observables de un objeto, problema o
evento que se puede describir según un esquema de medición bien definido.

Cada rasgo o aspecto de una población constituye una variable. La edad de unas
personas, su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de
ansiedad, el número de nacimientos, número de matrimonios, frecuencia de suicidios,
estatura, peso, niveles de inteligencia, actitudes, entre muchas otras son ejemplos de
variables estadísticas.

Podemos clasificar las variables según la escala de medición o la influencia


que asignemos a unas variables sobre otras:

4
Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para Administración y Economía.
Pearson Educación S.A., Madrid – Capitulo 2

Estadística | Unidad 1 | Página 6 de 56


a. Variables cualitativas
Son las variables que expresan distintas cualidades,
características o modalidad. Cada modalidad que se presenta
se denomina atributo o categoría y la medición consiste en una
clasificación de dichos atributos. Las variables cualitativas
pueden ser ordinales y nominales. Además pueden
distinguirse en dicotómicas, cuando sólo pueden tomar dos
valores posibles (como sí y no, hombre y mujer), o politómicas cuando pueden adquirir
tres o más valores. (frio templado y caliente, por ejemplo)

Dentro de ellas podemos distinguir:

● Variable cualitativa ordinal: La variable puede tomar distintos valores


ordenados siguiendo una escala establecida, aunque no es necesario que el
intervalo entre ediciones sea uniforme.

Ejemplo: leve, moderado, grave

● Variable cualitativa nominal: En esta variable los valores no pueden ser


sometidos a un criterio de orden.

Ejemplo: los colores o el lugar de residencia.

b. Variables cuantitativas
Son las variables que se expresan mediante cantidades
numéricas. Las variables cuantitativas además pueden ser:

● Variable discreta: Es la variable que presenta separaciones o interrupciones en


la escala de valores que puede tomar. Estas separaciones o interrupciones
indican la ausencia de valores entre los distintos valores específicos que la
variable pueda asumir.

Ejemplo: número de hijos.

● Variable continua: Es la variable que puede adquirir cualquier valor dentro de


un intervalo especificado de valores.

Estadística | Unidad 1 | Página 7 de 56


Ejemplo: el peso o la altura, que solamente está limitado por la precisión del aparato
medidor, en teoría permiten que siempre existe un valor entre dos cualesquiera.

V. DATOS ESTADÍSTICOS

Los datos estadísticos no son otra cosa que el producto


de las observaciones efectuadas en las personas y
objetos en los cuales se produce el fenómeno que
queremos estudiar.

Dicho en otras palabras, son los antecedentes (en cifras)


necesarios para llegar al conocimiento de un hecho o
para reducir las consecuencias de este.

Los datos estadísticos se pueden encontrar de forma no ordenada, por lo que es muy
difícil en general, obtener conclusiones de los datos presentados de esta manera. Para
poder obtener una precisa y rápida información con propósitos de descripción o análisis,
estos deben organizarse de una manera sistemática; es decir, se requiere que los datos
sean clasificados. Esta clasificación u organización puede muy bien hacerse antes de la
recopilación de los datos.

Ejemplo: Si se quiere conocer las características de los estudiantes una Institución


Educativa que utilizan los libros de la biblioteca, la recolección de la información debe
clasificar a cada estudiante sobre la base de: Carrera que estudia, edad, semestre de
estudios, etc. Vemos entonces, que la clasificación marca la pauta de la clase de datos
que debe ser obtenido.

a. Clasificación de los datos


Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos,
cronológicos y geográficos.

Datos Cualitativos: cuando los datos son cuantitativos, la diferencia


entre ellos es de clase y no de cantidad.

Si deseamos clasificar los estudiantes que cursan la materia de


Estadística por su estado civil, observamos que pueden existir
solteros, concubinos, casados, divorciados, viudos, etc.

Estadística | Unidad 1 | Página 8 de 56


Datos cuantitativos: cuando los valores de los datos representan
diferentes magnitudes, decimos que son datos cuantitativos.

Se clasifican los estudiantes de acuerdo a sus notas, observamos


que los valores (nota) representan diferentes magnitudes.
Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o
períodos de tiempo, los datos son reconocidos como cronológicos.

Al registrar los promedios de notas de los Alumnos en los diferentes semestres.

Datos geográficos: cuando los datos están referidos a una localidad geográfica se
dicen que son datos geográficos.

El número de estudiantes de nivel superior en las distintas regiones del


país.

b. Fuentes de datos Estadísticos


Los datos estadísticos necesarios para la
comprensión de los hechos pueden obtenerse a
través de fuentes primarias y fuentes secundarias.

Fuentes de datos primarias: es la persona o institución que ha recolectado


directamente los datos.

Fuentes secundarias: son las publicaciones y trabajos hechos por personas o


entidades que no han recolectado directamente la información.

Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales
encargadas de tal fin.

En la práctica, es aconsejable utilizar fuentes de datos primarias y, en última instancia


cuando estas no existan, usar estadísticas de fuentes secundarias. Con este último tipo,
no debemos pasar por alto que la calidad de las conclusiones estadísticas depende
directamente de la exactitud de los datos que se recaben. De nada serviría usar técnicas
estadísticas precisas y refinadas para llegar a conclusiones valederas, si estas técnicas
no son aplicadas a datos adecuados o confiables.

Estadística | Unidad 1 | Página 9 de 56


Ejemplo: Si un investigador quiere conocer el PBI, clasificado por ciclos, para los
últimos diez años, el investigador puede usar una fuente primaria como el INDEC o
el Ministerio de Economía de la Nación.

c. Método para la recolección de datos


En estadística se emplean una variedad de métodos distintos para
obtener información de los que se desea investigar. Discutiremos
aquí los métodos más importantes, incluyendo las ventajas y
limitaciones de estos.

La entrevista personal:

Los datos estadísticos necesarios para una investigación, se reúnen


frecuentemente mediante un proceso que consiste en enviar un
entrevistador o agente, directamente a la persona investigada. El
investigador efectuará a esta persona una serie de preguntas
previamente escritas en un cuestionario o boleta, donde anotará las
respuestas correspondientes.

Ventajas:

Este procedimiento permite obtener una información más veraz y completa que la que
proporcionan otros métodos, debido a que, al tener contacto directo con la persona
entrevistada, el entrevistador podrá aclarar cualquier duda que se presente sobre el
cuestionario o investigación.

La posibilidad que tienen los entrevistadores de adaptar el lenguaje de las preguntas al


nivel intelectual de las personas entrevistadas.

Desventajas:

Si el entrevistador no obra de buena fé o no tiene un entrenamiento adecuado, puede


alterar las respuestas por las personas entrevistadas.

Alto costo, ya que resulta bastante oneroso el entrenamiento de los agentes o


entrenadores y los supervisores de estos, sobre todo si se trata de una investigación
extensa.

Estadística | Unidad 1 | Página 10 de 56


Cuestionarios por correo electrónico o pagina Web

Consiste en enviar por mail el cuestionario acompañado por el instructivo


necesario, dando en este no solo las instrucciones pertinentes para cada
una de las preguntas, sino también una breve explicación del objeto de la
encuesta con el fin de evitar interpretaciones erróneas.

Ventajas:

Tienen un costo muy inferior al anterior procedimiento, puesto que no hay que incluir
gastos de entrenamiento de personal, el único gasto sería el de franqueo postal.

Desventajas:

Solo un porcentaje bastante bajo de estos es devuelto, en algunos casos no podemos


estar seguros de que los formularios hayan sido recibidos por sus destinatarios y que
hayan sido respondido por ellos mismos. Lo que trae como consecuencia que la
información se obtenga con una serie de errores difíciles de precisar por el investigador.

Entrevista por teléfono

Como lo indica su nombre, este método consiste en


telefonear a la persona a entrevistar y hacerle una serie de
preguntas.

Ventajas:

Este método es bastante simple y económico, ya que el entrenamiento y supervisión de


las personas encargadas de efectuar las preguntas es siempre fácil.

Desventajas:

El número de preguntas que pueden formularse es relativamente limitado; además las


investigaciones efectuadas por este método tienen un carácter selectivo, debido a que
muchas de las personas que potencialmente podrían ser investigadas no posee servicio
telefónico, por lo que quedan sin la posibilidad de ser entrevistados.

Estadística | Unidad 1 | Página 11 de 56


d. Instrumentos para la recolección de
datos

Para recolectar la información hay que tener presente:

● Seleccionar un instrumento de medición el cual debe ser


válido y confiable para poder aceptar los resultados
● Aplicar dicho instrumento de medición
● Organizar las mediciones obtenidas, para poder analizarlos.

1. Observación: Es el registro visual de lo ocurre es una situacional real,


clasificando y consignando los acontecimientos pertinentes de
acuerdo con algún esquema previsto y según el problema que
se estudia. Previamente a la ejecución de la observación el
investigador debe definir los objetivos que persigue, determinar
su unidad de observación, las condiciones en que asumirá la observación y las
conductas que deberán registrarse.

2. La encuesta: Este método consiste en obtener información de los


sujetos de estudio, proporcionada por ellos mismos, sobre
opiniones, actitudes o sugerencias. Hay dos maneras de obtener
información con este método: la entrevista y el cuestionario.

a. La entrevista: Es la comunicación
establecida entre el investigador y el sujeto
de estudiado a fin de obtener respuestas
verbales a las interrogantes planteadas
sobre el problema propuesto.

Estadística | Unidad 1 | Página 12 de 56


b. Cuestionario: Es el método que utiliza un
instrumento o formulario impreso, destinado a
obtener repuestas sobre el problema en estudio y
que el investido o consultado llena por sí mismo.
El cuestionario puede aplicarse a grupos o individuos estando presente
el investigador o el responsable del recoger la información, o puede
enviarse por correo a los destinatarios seleccionados en la muestra.

e. Del dato a la Información


Una vez finalizada la recolección, necesitamos transformar el conjunto
de datos en información útil. Las tareas que deben llevarse adelante
para transformar los datos en información son:

1. Organizar y clasificar los datos: Este procedimiento difiere según se trate de


investigaciones cuantitativas o cualitativas.

Por ejemplo, en caso de las cuantitativas, se puede incorporar una tabla que permita
clasificar los datos extraídos de los cuestionarios a fin de clasificarlos en “Hombres”
y “Mujeres”. Este procedimiento permite determinar qué porcentaje de resultados
corresponden a cada género, y, a su vez, compararlo con alguna otra variable como
pueden ser las edades de los encuestados.
Para el caso de las cualitativas, se puede determinar si los encuestados responden
negativamente a preguntas abiertas sobre un tema en particular, agrupar dichas
respuestas como “Respuestas Negativas”.

2. Analizar, elaborar e interpretar los datos: Esta tarea


consiste en encontrar una significación a las relaciones
que existen entre los datos. Pretendemos responder
mediante esta tarea los interrogantes que nos
planteamos durante el transcurso de nuestra
investigación. Es el momento de determinar si los datos
recolectados satisfacen realmente necesidades
planificadas anteriormente.

Es en esta etapa donde se calculan los indicadores estadísticos Este procedimiento permite
establecer los resultados del análisis

Estadística | Unidad 1 | Página 13 de 56


3. Redactar el informe: La tarea final consiste en la redacción de un
informe que exprese las conclusiones a las que hemos llegado. Por lo tanto,
debe expresar los resultados de nuestra investigación y los datos en que se
apoya.

Es absolutamente necesario no pasar por alto este paso ya que, de lo contrario, el


trabajo habrá sido en vano. Si los datos no se traducen en información, esta no podrá
ser comunicada y por lo tanto nadie podrá utilizarla.

Toda decisión significa un conocimiento previo y general del fenómeno que se pretende
encarar. El valor de la información es fundamental como sustento básico de toda
decisión. Para ser oportuna y fundamentada requiere de un buen sistema de análisis.
No debe ser mera acumulación de datos, es necesaria la apreciación, la evaluación y
su correcto ordenamiento.

VI. EL ANÁLISIS ESTADÍSTICO Y EL ORDENAMIENTO DE DATOS


El análisis estadístico es todo el proceso de organización, procesamiento, reducción e
interpretación de datos para realizar inferencias. Recordemos que los datos se
transformarán en información útil para la toma de decisiones, por lo tanto, a la hora de
recopilarlos, debemos ordenarlos de manera tal que nos permitan trabajar con ellos para
obtener la información requerida.

Los datos son medidas o valores de las características susceptibles de observar


y contar, se originan por la observación de una o más variables de un grupo de
elementos o unidades, para que sean útiles se deben organizar de manera que faciliten
su análisis, se puedan seleccionar tendencias, describir relaciones, determinar causas
y efectos y permitan llegar a conclusiones lógicas y tomar decisiones bien
fundamentadas. Por esa razón, es necesario conocer lo métodos de Organización y
Representación, nos permite ver rápidamente todas las características posibles de los
datos que se han recolectado.

a. Datos Desordenados: Datos Crudos


Se denomina así a los datos tomados directamente del experimento, investigación o
trabajo que se realiza o se ha realizado, pero que no están arreglados u ordenados.

Estadística | Unidad 1 | Página 14 de 56


Son los datos desordenados, que se muestran en el orden en que se recolectaron, el
total de los datos (n) se calcula como la suma de los valores observados:

n = número de datos observados

Ejemplo: Recaudación anual del impuesto a los Ingresos Brutos, Ingresos mensuales
de una empresa, Gastos trimestrales, Exportaciones anuales, etc.

b. Datos Ordenados: Arreglo Y Distribución De Frecuencias


Cuando ordenamos y/o agrupamos los datos, estos pueden repetirse, por lo tanto, al
ordenar tendremos en cuenta estas repeticiones.

Definiremos como frecuencia de un dato el número de veces que este se repite:


Consecuentemente, si una variable estadística toma x valores, cada uno de los cuales
puede repetirse un cierto número de veces, podríamos decir que el número de datos
representado por la variable serían n, siendo n la suma de las respectivas frecuencias
de cada dato. Este valor n será denominado como frecuencia total, mientras que la
frecuencia de cada dato recibirá el nombre de frecuencia absoluta o simplemente
frecuencia (fi). En símbolos:

La frecuencia absoluta nos habla del número de veces que un dato aparece
más ello no nos dice demasiado en orden al establecimiento de comparaciones sobre
la importancia de este dato. Para obtener una idea de la importancia que un dato posee
en una muestra, se utiliza el concepto frecuencia relativa.

Para efectos prácticos, asumimos las siguientes definiciones de frecuencias:

● Frecuencias absolutas (fi): es el número de veces que aparece en la


muestra dicho valor de la variable.

● Frecuencias relativas (fr): es el cociente entre la frecuencia absoluta y el


tamaño de la muestra. Matemáticamente podemos mostrarla como:

Estadística | Unidad 1 | Página 15 de 56


● Frecuencia acumulada (fa): para poder calcular este tipo de frecuencias
hay que tener en cuenta que la variable estadística ha de ser cuantitativa
o cualitativa ordenable. Es la suma sistemática de las frecuencias
absolutas y se anota el resultado en el valor o clase respectiva a la
acumulación. (según estemos trabajando con arreglo o distribución de
frecuencias).

● Frecuencia relativa acumulada (fra.): al igual que en el caso anterior se


calcula como el cociente entre la frecuencia acumulada dividida por el
tamaño de la muestra.

Arreglo De Frecuencias

Se ordenan los datos de forma ascendente o descendente en columnas (xi) y se


determina el número de veces que se repiten esos datos, esto es lo que se denomina
frecuencia (fi) para poder trabajar mejor los datos

Ejemplo: Ventas realizadas por día de una bodega durante 2 meses


Datos�13,7,8,8,8,5,5,8,21,21,21,13,21,7,7,7,5,5,5,5,8,8,21,8,7,7,7,5,5,5,13,
21,21,21,13,7,5,5,8,8,7,5,8,7,8,8,5,5,5,13

Construimos entonces una tabla de frecuencia donde observamos las variables analizadas y sus
correspondientes frecuencias

Cuadro1- Tabla de Frecuencia:


xi fi fa fr fra
5 15 15 0,2830 0,2830
7 10 25 0,1887 0,4717
8 12 37 0,2264 0,6981
13 15 51 0,2642 0,9623
21 8 53 0,0377 1
60 1

Distribución De Frecuencias

Estadística | Unidad 1 | Página 16 de 56


La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las
variables toman un número grande de valores o la variable es continua. Se agrupan los
valores en intervalos que tengan la misma amplitud denominados clases. A cada clase
se le asigna su frecuencia correspondiente

Cuando se reúne gran cantidad de datos primarios es útil distribuirlos en clases y


categorías y determinar las frecuencias de las clases, o sea, el número de elementos
que pertenecen a una clase.

El ordenamiento tabular de los datos por clases conjuntamente con las frecuencias de
clases se denomina distribución de frecuencias

Es una forma de sintetizar los datos y consiste en valerse de una tabla para clasificar
los datos según su magnitud, en ella se señala el número de veces que aparece cada
uno de los valores. Cuando se dispone de un gran número de variables, tiene sentido
formar una tabla que presente la distribución de frecuencias de los datos agrupados en
intervalos o clases, de igual tamaño si es posible, sin embargo, una tabla de este tipo
supone una concentración de datos que produce pérdida de información.

Elementos de una distribución de frecuencias:

● Clases o intervalos de clase: Grupo de valores que describen una


característica. Deben incluir todas las observaciones y ser excluyentes. Los
intervalos contienen los límites de clase que son los puntos extremos del
intervalo.

Están compuestos por:

✔ Límite inferior: punto mínimo de cada clase

✔ Límite Superior: punto máximo de cada clase

● Intervalo (i): es la diferencia entre los límites de una clase

● Número de clases: depende del total de observaciones. Si el número de


observaciones es muy pequeño el número de clases será cercano a 5 y
generalmente no menor de este valor, si el número de observaciones es
grande se utilizaran 8 o 12, pero no más de 15 clases.

Estadística | Unidad 1 | Página 17 de 56


● Marca de Clase o Punto Medio: Es el punto medio del intervalo de clase,
se calcula de la siguiente forma:

Una buena práctica es la creación de clases de igual longitud. Esto se obtiene tomando
la diferencia entre los dos valores extremos del conjunto de datos y dividiéndola‚ entre
el número de clases. El resultado será aproximadamente la longitud del intervalo de
cada clase.

En general:

1°) Primero debemos determinar la cantidad de datos y a eso sacarle la raíz


cuadrada:

k = √𝑛

donde k = n° de clases

2°) Determinamos el Rango o Recorrido o amplitud muestral :

R= xmax - xmin

3°) La longitud de cada intervalo de clase es:

i= R / k

Ejemplo. Recolectamos el número de visitantes a una muestra de pintura según su


edad:
12,16,58,68,84,75,15,17,18,65,24,53,82,15,47,42,24,23,28,29,65,56,25,4
5,42,48,14,18,23,25,57,55,26,32,38,51,48,35,39,41,59,58,74,58,62,11,22
,55,25,24,28,66,58,44,46,48,25,23,22,65,28,67,13,18,33,49,51,41,55,40,
36,29,33,19,41
Procedemos a completar los pasos para formar nuestra distribución de frecuencias:
1°) n= 75 →√75 =8.66→ k= 9 clases
2°) R= 84-11= 73
3°) i = 73/9= 8,11

Estadística | Unidad 1 | Página 18 de 56


Entonces formamos la Tabla de distribución en base al intervalo de clase y nos fijamos cuantas
variables están comprendidas en cada clase:

Cuadro 2- Tabla de Distribución


Clase fi xi fa fr fra
[11;19,11) 12 15,06 12 0,16 0,16
[19,11;27,22) 13 23,17 25 0,17 0,33
[27,22;35,33) 9 31,28 34 0,12 0,45
[35,33;43,44) 8 39,39 42 0,11 0,56
[43,44;51,55) 11 47,5 53 0,15 0,71
[51,55;59,66) 11 55,61 64 0,15 0,85
[59,66;67,77) 6 63,72 70 0,08 0,93
[67,77;75,88) 3 71,83 73 0,04 0,97
[75,88;84] 2 79,94 75 0,03 1,00
75 1

VII. REPRESENTACIÓN GRÁFICA DE LOS DATOS5

a. DIAGRAMA DE PUNTOS DISPERSOS6


Podemos trazar un diagrama de puntos dispersos localizando un punto por cada par de
dos variables que representan una observación del conjunto de datos.

El diagrama de puntos dispersos es una representación de los datos, que comprende lo


siguiente:

1) El rango de cada variable.


2) La pauta de valores existente dentro del rango.
3) Una sugerencia sobre la posible relación entre las dos variables.
4) Una indicación de los casos atípicos (puntos extremos).

Ejemplo: Las notas de los exámenes de Matemáticas y las calificaciones


medias de estudiantes de una universidad. Por ello recolectamos los datos tal que:

5
Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para Administración y
Economía. Pearson Educación S.A., Madrid – Capitulo 2

6
Ibidem Pág-32

Estadística | Unidad 1 | Página 19 de 56


Cuadro 3 -Datos relevados
Notas del Examen 5 6 5 7 6 7
Promedio de Calificaciones 5 7 4 6 5 7
Si esto lo llevamos a un gráfico, donde en el eje y denotamos notas del examen y
en el eje x el promedio de calificaciones de los alumnos:

Gráfico 1- Diagrama de Dispersión

b. TABLAS

CRUZADAS7
Una tabla cruzada, llamada a veces tabla de contingencia, enumera el número de
observaciones correspondiente a cada combinación de valores de dos variables
categóricas u ordinales. La combinación de todos los intervalos posibles de las dos
variables define las casillas en una tabla. Una tabla cruzada de r filas y c columnas se
denomina tabla cruzada de dimensión rxc

Ejemplo: Una empresa de materiales de construcción ha estado estudiando un plan


para abrir locales en nuevos lugares dentro de su programa de expansión regional.
En una ciudad propuesta para la expansión hay tres lugares posibles: norte, este y
oeste. La empresa sabe por experiencia que las tres fuentes principales de ingresos
son: herramientas, madera y pintura. Para seleccionar un lugar, son importantes las
pautas de demanda de las diferentes partes de la ciudad. Ha pedido, pues, ayuda al
departamento de estudios de mercado para obtener y analizar los datos relevantes
y obtuvo los siguientes resultados:

7
Ididem – Pág.33

Estadística | Unidad 1 | Página 20 de 56


Cuadro 4 – Tabla Cruzada
Producto
Zona Herramientas Madera Pinturas Ninguna Total

Este 100 50 50 50 250

Norte 50 95 45 60 250

Oeste 65 70 75 40 250

215 215 170 150 750


Si el cuadro lo trasladamos a un grafico de barras donde en el eje y representa el la
cantidad de ventas estimadas y el eje x las zonas:
Grafico 2- Grafico de barras

c. HISTOGRAMAS Y OJIVAS
Histogramas

Está formado por rectángulos cuya base es la amplitud del intervalo y tiene la
característica que la superficie que corresponde a las barras es representativa de la
cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases
que tienen el mismo tamaño o diferente (intervalo variable).

La utilización de los intervalos de amplitud variable se recomienda cuando en alguno de


los intervalos, de amplitud constante, se presente la frecuencia cero o la frecuencia de
alguno o algunos de los intervalos sea mucho mayor que la de los demás, logrando así
que las observaciones se hallen mejor repartidas dentro del intervalo.

Estadística | Unidad 1 | Página 21 de 56


Si utilizamos el Ejemplo de Distribución de frecuencias de los visitantes a una muestra de pintura
donde los datos los observamos en el Cuadro 2 y construimos un gráfico de barras donde en los
ejes vinculamos los intervalos de clases y las frecuencias absolutas tal que:

Gráfico 3- Histograma

El grafico nos muestra la tendencia de los datos y su comportamiento

Ojiva

Una ojiva, llamada a veces gráfico de frecuencias acumuladas, es una línea que conecta
puntos que son el porcentaje acumulado de observaciones situadas por debajo del límite
superior de cada intervalo en una distribución de frecuencias acumuladas.

En el caso del ejemplo de los visitantes a la muestra de pintura, es la línea naranja del Gráfico 3
que vincula la fa con los intervalos de clase:

Gráfico 3-Ojiva

En esta unidad hemos comenzado a analizar los primeros conceptos de Estadística.


Hemos analizado su definición, en que ramas se divide. A que llamamos variables y que
tipo de variables podemos estudiar. También mostramos las distintas formas de
recolectar los datos y procesarlos para transformarlos en información. Por último, hemos

Estadística | Unidad 1 | Página 22 de 56


examinado las tablas y gráficos que pueden ayudarnos a presentar los datos que
estamos estudiando

VIII. ANÁLISIS ESTADÍSTICO


El análisis estadístico es el análisis que emplea
técnicas estadísticas para interpretar datos, ya sea
para ayudar en la toma de decisiones o para explicar
los condicionantes que determinan la ocurrencia de
algún fenómeno.

Este análisis que emplea técnicas estadísticas para interpretar datos. En esta unidad se
definirán los conceptos fundamentales. El tipo de análisis a realizar dependerá del
objetivo del proyecto que se analice

El análisis estadístico es todo el proceso de organización, procesamiento,


reducción e interpretación de datos para realizar inferencias. Recordemos que los
datos se transformarán en información útil para la toma de decisiones, por lo tanto a la
hora de recopilarlos, debemos ordenarlos de manera tal que nos permitan trabajar con
ellos para obtener la información requerida

Los datos son medidas o valores de las características susceptibles de observar y


contar, se originan por la observación de una o más variables de un grupo de elementos
o unidades, para que sean útiles se deben organizar de manera que faciliten su análisis,
se puedan seleccionar tendencias, describir relaciones, determinar causas y efectos y
permitan llegar a conclusiones lógicas y tomar decisiones bien fundamentadas; por esa
razón es necesario reconocer como están presentados los datos para poder relizar el
análisis estadístico correspondiente

© Universidad de Congreso
Sistema Institucional de Educación a Distancia
Año 2019
Mendoza- Argentina

© Universidad de Congreso
Sistema Institucional de Educación a Distancia Estadística | Unidad 1 | Página 23 de 56
Año 2019
Mendoza- Argentina
a. MEDIDAS DE TENDENCIA
CENTRAL

Con estas medidas se persigue reducir en pocas


cifras significativas el conjunto de observaciones
de una variable y describir con ellas ciertas
características de los conjuntos, logrando una
comparación más precisa de los datos que la que
se puede conseguir con tablas y gráficas.

Se emplean para:

a) Representar a un conjunto mediante un solo valor y a través del se puede


establecer el comportamiento del conjunto.

Ejemplo: salario promedio de los habitantes de una ciudad, gasto promedio de una
familia, etc.
b) Efectuar comparaciones entre diferentes conjuntos estadísticos

Ejemplo: Comparar el promedio de edad de estudiantes de distintos cursos, compara


promedio de ventas mensuales entre dos o más empresas, etc.

Los promedios son una medida de posición que dan una descripción compacta de cómo
están centrados los datos y una visualización más clara del nivel que alcanza la variable,
pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor
facilidad para efectuar comparaciones.

Es importante poner en relieve que la notación de promedio lleva implícita la idea de


variación y que este número promedio debe cumplir con la condición de ser
representativo de conjunto de datos.

El promedio como punto típico de los datos es el valor al rededor del cual se agrupan
los demás valores de la variable.

1. Media Aritmética(𝑿)
Es una medida matemática, un número individual que representa razonablemente el
comportamiento de todos los datos

Estadística | Unidad 1 | Página 24 de 56


Para calcularla debemos distinguir si estamos trabajando con datos crudos o si
los datos están bajo arreglo o distribución de frecuencia.

̅:
Calculo de 𝑋

 Datos crudos:

x1  x 2  x3  .......  x n
X 
n
n

x i
X  i 1

donde n=cantidad de datos

 Arreglo y distribución de frecuencias:

f1 x1  f 2 x 2  f 3 x3  .......  f n x n
X 
f1  f 2  f 3  .......  f n
n

( f x ) i i
X  i 1

n
n
donde f i 1
i  n  cantidad de datos

Estadística | Unidad 1 | Página 25 de 56


Características de la Media:

1. En su cálculo están todos los valores del conjunto de datos por lo que cada uno
afecta la media.

2. La fuerte presencia de valores pequeños dentro del conjunto ocasiona que X


tienda hacia ellos. Cuando hay una fuerte presencia de valores grandes se
tiene el mismo efecto, por lo tanto la representatividad de la media aritmética
puede ser cuestionada

3. Una vez calculada X , la suma de las diferencias entre los valores del conjunto

y X es igual a 0; esto no se cumple en la distribución de frecuencia ya que se


está trabajando con valores medios

 x 
n

i  X 0 PARA DATOS CRUDOS


i 1

 f x 
n

i i  X 0 PARA ARREGLO DE FRECUENCIA


i 1

4. La suma de las diferencias al cuadrado entre los datos del conjunto y X es


menor o igual a la suma de las diferencias al cuadrado de los datos del conjunto
y un valor arbitrario A :

 x 
n 2 n 2

i  X  xi  A
i 1 i 1

5. Aunque es confiable porque refleja todos los valores del conjunto de datos
puede ser afectada por los valores extremos, y de esa forma llegar a ser una
medida menos representativa, por lo que si la distribución es asimétrica, la
media aritmética no constituye un valor típico.

6. Cada uno de los datos del conjunto puede ser sustituido por la media aritmética

( X ) sin que se altere el valor de esta, ni la suma de los valores de los conjuntos

Estadística | Unidad 1 | Página 26 de 56


Ejemplo práctico:

 DATOS CRUDOS: El siguiente conjunto de datos que indica la recaudación anual de


impuestos de Mendoza, en millones de pesos, entre 1999-2007.
Año Recaudación (millones de pesos)
1 378,23
2 380,27
3 392,27
4 371,51
5 548,85
6 662,89
7 831,94
8 1083,27
9 1275,56
∑xi → 5924,79
n

x
i 1
i
X 
n
5924.79
X=
9
X =658.31 (en millones):

LA RECAUDACIÓN PROMEDIO ANUAL DE LA PROVINCIA DE MENDOZA ES DE $658.310.000

 ARREGLO DE FRECUENCIA: Una empresa de conservas desea conocer su producción


promedio de botellas de salsa , para lo cual observo la producción durante 25
días, que se detalla a continuación:

60 63 124 80 100
85 60 160 85 124
99 132 65 124 99
100 124 71 75 100
80 145 124 132 124

Estadística | Unidad 1 | Página 27 de 56


xi fi fixi
60 2 120
63 1 63
65 1 65
71 1 71
75 1 75
80 2 160
85 2 170
99 2 198
100 3 300
124 5 620
132 2 264
145 2 290
160 1 160
25 2556
n

fx i i
2556
X  =
i 1

n 25
X =102.24LA PRODUCCIÓN PROMEDIO DE LA EMPRESA DE CONSERVAS ES DE 102 LATAS

 DISTRIBUCIÓN DE FRECUENCIAS: La siguiente tabla muestra el número de


turistas, clasificados según su edad, que se hospedaron en un hotel tres estrellas.

Edad Nº de turistas
[1-15) 127
[15-29) 324
[29-43) 455
[43-57) 165
[57-71) 75
[71-84] 97
1243

Estadística | Unidad 1 | Página 28 de 56


Nº de
Edad xi fa fixi Clase real
turistas
[1-15) 127 8 127 1016 0,5 14,5
[15-29) 324 22 451 7128 14,5 28,5
[29-43) 455 36 906 16380 28,5 42,5
[43-57) 165 50 1071 8250 42,5 56,5
[57-71) 75 64 1146 4800 56,5 70,5
[71-84] 97 78 1243 7566 70,5 84,5
1.243 44.518,5
n

fx i i
X  i 1

n
44.518,5.5
X=
1243
X =35.82

EL PROMEDIO DE EDAD DE LOS TURISTAS HOSPEDADOS EN EL HOTEL ES DE 36 AÑOS

2. La Mediana ( 𝑿)

Es la medida de tendencia central que por su ubicación dentro del conjunto de


datos lo divide exactamente a la mitad. Geométricamente la mediana es el valor
de la variable que corresponde a la vertical que divide al histograma en dos áreas
iguales.

Cuando determinados valores de un conjunto de observaciones son muy grandes o


pequeños con respecto a los demás, entonces la media aritmética se puede distorsionar
y perder su carácter representativo, en esos casos es conveniente utilizar la mediana
como medida de tendencia central.

Una Vez más a la hora de calcular la mediana debemos distinguir como se presentan
los datos

 Datos crudos y Arreglo de frecuencias:

Debemos tener en cuenta si los datos son pares o impares:

Estadística | Unidad 1 | Página 29 de 56


 ̌ pertenece al conjunto de datos
Impares: la 𝑋

 ̌ es un valor agregado determinado por la semisuma de los datos


Pares: la 𝑋
centrales

Procedimiento:

1º) Se listan los datos de forma ascendente y/o descendente de los datos

2º) ̌:
Se determina la ubicación de la 𝑋

n n
1
 Pares 2 ^ 2

n
 0 .5
 Impares 2

3º) ̌
Se determina el valor de la 𝑋

 Distribución de frecuencias:
𝒏
(𝟐 − 𝒇𝒂𝒂 )
𝑿 = 𝑳𝒊 + .𝒊
𝒇𝒊

donde:
Li=Límite Inferior de la clase donde está ubicada la
mediana
n
= ubicación de la mediana
2
fai= frecuencia acumulada de la clase anterior a la ubicación de
mediana
fi= frecuencia absoluta de la clase donde está ubicada la
mediana
i= intervalo de clase

Características de la mediana

Estadística | Unidad 1 | Página 30 de 56


1. Es un promedio de posición no afectado por los valores extremos.

2. No está definida algebraicamente

3. Cuando la localización del elemento central puede ser determinada y los límites
de clase mediana son conocidos, la mediana para la distribución de frecuencias
puede ser calculada por interpolación, no importando que ésta contenga intervalos
abiertos, cerrados, iguales o diferentes.

4. La suma en valor absoluto de las diferencias entre los datos y la Me es menor o


igual a la suma en valor absoluto de la diferencia entre los valores del conjunto y
un valor arbitrario A:

n n


i 1
x i  M e  x i  A
i 1

5. La mediana en caso de una distribución asimétrica, no resulta desplazado del


punto de tendencia central.

6. Si la mediana se calcula por interpolación y hay lagunas en los valores de la clase


mediana o los datos son irregulares, esta medida no es buena ya que su ubicación
puede resultar falsa.

7. Si se desea ubicar las condiciones de un elemento en una clase, la mediana


resulta ser indicada, ya que por comparación pone en evidencia si un elemento
está en la mitad superior a ella o en la inferior.

Ejemplo practico

 DATOS CRUDOS. Si seguimos con el ejemplo de la recaudación provincial,

observamos que tenemos 9 años, por lo tanto 9 datos, es decir , los datos son

impares por lo tanto:

n
 0 .5
2

9
 0.5  5 El dato que ocupa la posición 5 es la Me,
2

Estadística | Unidad 1 | Página 31 de 56


El 50% de la recaudación de la provincia es inferior a $548.85 (en millones
de pesos) y el 50% de la recaudación es superior a ese monto.

 ARREGLO DE FRECUENCIA. Si continuamos con el ejemplo de la fábrica de

conservas:

xi fi fa
60 2 2
63 1 3
65 1 4
71 1 5
75 1 6
80 2 8
85 2 10
99 2 12
100 3 15
124 5 20
132 2 22
145 2 24
160 1 25
25

Los datos en este cado también son impares por lo tanto:

n
 0 .5
2
25
 0.5  14
2
En este caso se busca el número que contiene a la ubicación 14 en la f a y esa
es la Me, (en este caso el número que contiene a la 14 es el 15, por lo tanto
el valor que corresponde es 100)

El 50% de la producción de la fábrica es inferior a 100 botellas y el 50%


restante es superior a ese valor

Estadística | Unidad 1 | Página 32 de 56


 DISTRIBUCIÓN DE FRECUENCIAS. En este caso se aplica la fórmula :

Nº de
Edad xi fa fixi Clase real
turistas
[1-15) 127 8 127 1016 0,5 14,5
[15-29) 324 22 451 7128 14,5 28,5
[29-43) 455 36 906 16380 28,5 42,5
[43-57) 165 50 1071 8250 42,5 56,5
[57-71) 75 64 1146 4800 56,5 70,5
[71-84] 97 78 1243 7566 70,5 84,5
1243 44518,5

Lo primero que debemos hacer es ubicar la Me:

n 1243
  621.5
2 2
Esta es la ubicación de la Me, lo que hacemos en buscar en la fa, empezamos a restar
sistemáticamente y el primer valor que nos da negativo es donde está ubicada la Me,
en este caso cuando restamos621.5 a 906 nos da negativo, entonces en esa clase
está ubicada la Me. Lo que hacemos a continuación es aplicar la fórmula:

n 
  f aa 
M e  Li  
2  i = 28   621.5  451 14 =33.25
fi  455 

El 50% de los turistas tienen 33 años o menos de y/o el 50% tienen 33 años o

más de esa edad.

Estadística | Unidad 1 | Página 33 de 56


3. La Moda (Mo)
Es el valor de un conjunto de datos que ocurre más frecuentemente, se considera como
el valor más típico de una serie de datos.

La moda puede no ser única, las distribuciones que presentan dos o más máximos
relativos se designan de modo general como bimodales o multimodales.

¿Cómo se calcula la Moda?

 Arreglo de frecuencia: en este caso la moda se determina por observación de los


datos

Ejemplo: Para la fábrica de conservas vemos que el valor que más se repite es
124, es decir, que la mayoría de las veces se fabrican 124 botellas

 Distribución de frecuencias: hay dos métodos para el cálculo, el método algebraico


y el método grafico

 Método Algebraico

1. Moda cruda(MoC): es la semisuma de los límites de la clase modal, es decir la clase

donde está ubicada la Mo

LS cMo  LI cmo
M oC 
2

donde:

Lscmo= Limite Superior de la clase donde está ubicada

la Mo

LIcmo= Límite Inferior de la clase donde está ubicada la

Mo

Ejemplo: Para el caso de los turistas 455 es el valor que más se repite, por lo tanto:

42  29
MoC=:  35.5
2

Estadística | Unidad 1 | Página 34 de 56


La mayoría de los turistas tienen 35 años

2. Moda por interpolación(Mo):

 d1 
M o  Licmo   i
 d1  d 2 

donde:

d1=ficmo-fia

d2=ficmo-fip

Licmo= límite inferior de la clase modal

ficmo=frecuencia absoluta de la clase modal

fia= frecuencia absoluta de la clase anterior a la clase


modal

fip=frecuencia absoluta de la clase posterior a la clase


modal

i= intervalo de clase

Ejemplo:

d1=455-324=131

d2=455-165=290

 131   131 
Mo= 28. 14  28   14  32.35
 131  290   421 

la mayoría de los turistas tienen aproximadamente 32 años

 Método Grafico

Se utiliza el histograma de frecuencia. En el cual se realiza el siguiente procedimiento

1. Obtenemos el histograma

2. Obtenemos los limites verdaderos de la o las clases modales

3. Se identifica el Ls de la clase anterior a la que está ubicada la Mo el Li de la clase

posterior donde está ubicada la Mo:

Estadística | Unidad 1 | Página 35 de 56


4. Se une el Li de la clase modal con el Li de la clase posterior a la clase modal

5. Se une el Ls de la clase modal con el Ls de la clase anterior a la clase modal

6. El punto donde se interceptan las curvas se proyecta en forma perpendicular el eje

horizontal, y es en este punto donde está ubicada la Mo:

Cantidad

de turistas
LIcmo LScmo

LSVcmo
455

LVcpcmo

324

1 15 29 43 57 71 84
Edad (Clase Real)

La mayoría tiene los 32 años

Características de la Moda.

1. Representa más elementos que cualquier otro valor

2. No está afectada por los valores extremos pero para datos continuos es dudoso
su cálculo.

3. La moda para una distribución de frecuencias de datos agrupados no puede


ser calculada exactamente, el valor de la moda puede ser afectado por el método
de agrupación de los intervalos de clase.

4. La moda no permite conocer la mayor parte de los datos

5. Algunas veces el azar interviene de manera importante y hace que un valor no


representativo se repita frecuentemente.

Estadística | Unidad 1 | Página 36 de 56


6. Puede usarse para datos cuantitativos como cualitativos

7. La moda como estadístico, varía mucho de una muestra a otra

8. Cuando se tienen dos o más modas es difícil su interpretación

9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no


la distorsionan, pero no se presta para un tratamiento matemático.

b. Medidas De Dispersión

Permiten determinar el grado de esparcimiento de los


datos de un conjunto con respecto a la medida de
tendencia central elegida, es decir, cuanto se desvían
los datos del promedio.

¿Por qué es importante medir la desviación?

 Al menudo una medida de posición de un conjunto


de datos se vincula con la indicación de cuán típico o representativo es
para la población y para ello es necesario contar con la información que
proporcionan las medidas de dispersión. Solo el conocimiento de un
estadístico de tendencia central no aclara o define toda la distribución,
además que no existe un valor de tendencia central ideal, por lo que es
significativo tener una idea de la dispersión de los valores y determinar si
es mucha o poca alrededor de la media, pues si la variación es muy grande
entonces esta medida de tendencia central no es buena selección como
valor típico.

 La medida de tendencia central no indica la relación de un dato con los


otros, es necesario para ello las medidas de variabilidad o dispersión.

 Al tratar problemas con datos dispersos se requiere conocer que


problemas puede esto traer, hasta qué punto la dispersión tiene un riesgo
aceptable o inaceptable en la toma de decisiones.

Estadística | Unidad 1 | Página 37 de 56


1. Recorrido o Rango (R)

Mide la dispersión de la totalidad de los datos. Es la más obvia de las medidas ya que
es la distancia entre los valores máximo y mínimo.

R  x n  x1
donde:

xn=dato de mayor valor del conjunto

x1= dato de menor valor del conjunto

Cuando estamos trabajando con distribución de frecuencia xn está dado por el Ls de

la última clase y x1esta determinado por el Li de la primera clase. Es un elemento

esencial cuando determinamos las clases en una distribución de frecuencia.

Ejemplo:

 DATOS CRUDOS

En el caso de la recaudación provincial:

R  1275.56  378.23  897.33 esto quiere decir que entre la primera y la

última recaudación observada pasaron $897.33 millones de pesos

 ARREGLO DE FRECUENCIA

En el caso de la producción de botellas de salsa:

Observamos que entre el primer valor y el ultimo hay una diferencia de 100

botellas: R=160-60=100

 DISTRIBUCIÓN DE FRECUENCIAS

En el caso de la edad de los turistas:

Observamos que el rango de variación de edades oscila los 83 años:

Estadística | Unidad 1 | Página 38 de 56


R= 84-1= 83

Características de R

1. E la medida de dispersión más simple, ya determina las unidades


comprendidas el menor y el mayor valor del conjunto

2. Su valor está influido por datos extremos, por lo cual no es una medida
adecuada para medir el grado de dispersión

3. El rango o recorrido da alguna idea del grado de variación que ocurre en


la población, pero con frecuencia los resultados pueden ser engañosos,
pues este depende de los valores extremos e ignora la variación de las
demás observaciones. Está afectado por ocurrencias raras o
extraordinarias.

Coeficiente de R

x n  x1
R
x n  x1
2

2. Desviación Media (DM)

La desviación Media o Desviación absoluta promedio, es la media aritmética de las


desviaciones absolutas de cada una de las observaciones con respecto a su valor
central, la media aritmética, o la mediana

Cuanto mayor es su valor, mayor es la dispersión de los datos

El cálculo de la desviación Media dependerá en primer lugar de cómo están


presentados los datos y en segundo lugar de si se haga respecto a la media
artimetica o a la mediana

 Datos crudos:

Estadística | Unidad 1 | Página 39 de 56


n

x
i 1
i X
 Con respecto a X : DM X 
n
n

x
i 1
i  Me
 Con respecto a Me: DM Me 
n

 Arreglo y distribución de frecuencias:

f i xi  X
 Con respecto a X : DM X  i 1

n
n

f i xi  M e
 Con respecto a Me: DM Me  i 1

Características de la DM

1. Su valor depende del valor de cada observación.

2. Se puede calcular alrededor de la media o de la mediana.

3. La desviación promedio respecto a la mediana es un mínimo

4. Mide la desviación de una observación sin notar si está por encima o por
debajo del promedio.

Coeficiente de la DM

DM X
 Respecto de X : CDM X 
X
DM Me
 Respecto de la Me: CDM M e 
Me

Estadística | Unidad 1 | Página 40 de 56


Ejemplo:

 DATOS CRUDOS

En el caso de la recaudación debemos tener en cuenta la media y la mediana


calculada:

Año Recaudación (millones de pesos) xi  X xi  M e


1 378,23 280,08 170,62
2 380,27 278,04 168,58
3 392,27 266,04 156,58
4 371,51 286,8 177,34
5 548,85 109,46 0
6 662,89 4,58 114,04
7 831,94 173,63 283,09
8 1083,27 424,96 534,42
9 1275,56 617,25 726,71
5924,79 2440,84 2331,38
n n

 xi  X
2440.84
x i  Me
= =
i 1 i 1
DM X   271.2 DM Me 
n 9 n
2331.38
 259.04
9
DM X 271.21 DM Me 259.04
CDM X  =  0.41 CDM M e  =  0.47
X 658.31 Me 548.85
Hay una dispersión de $271.200 respecto del promedio y de $259.040 respecto de
la Mediana, lo que presenta un error de41% respecto de la Media y del 47% respecto
de la Mediana

Estadística | Unidad 1 | Página 41 de 56


 ARREGLO DE FRECUENCIA:

xi fi f i xi f i xi  X f i xi  M e
60 2 120 84,48 80
63 1 63 39,24 37
65 1 65 37,24 35
71 1 71 31,24 29
75 1 75 27,24 25
80 2 160 44,48 40
85 2 170 34,48 30
99 2 198 6,48 2
100 3 300 6,72 0
124 5 620 108,8 120
132 2 264 59,52 64
145 2 290 85,52 90
160 1 160 57,76 60
25 2556 623,2 612
n

f i xi  X
623.2 DM X
DM X  = =
i 1
 24.93 CDM X 
n 25 X
24.93
 0.24
102.24
n

f i xi  M e
612 DM Me
DM Me  = CDM M e  =
i 1
 24.48
n 25 Me
24.48
 0.24
100

Hay una dispersión de 25 latas respecto del promedio y de 25 latas respecto de la


Mediana, lo que presenta un error de 24% respecto de la Media y del 24% respecto
de la Mediana

Estadística | Unidad 1 | Página 42 de 56


 DISTRIBUCIÓN DE FRECUENCIAS:

Edad Nº de turistas xi fixi f i xi  X f i xi  M e


[1-15) 127 7,5 952,5 3596,05149 3333,75
[15-29) 324 21,5 6966 4638,1786 3969
[29-43) 455 35,5 16152,5 143,491553 796,25
[43-57) 165 49,5 8167,5 2257,9646 2598,75
[57-71) 75 63,5 4762,5 2076,34755 2231,25
[71-84] 97 77,5 7517,5 4043,40949 4243,75
1243 44518,5 16755,4433 17172,75

f i xi  X
16755.44 DM X
DM X  = =
i 1
 13.48 CDM X 
n 1243 X
13.48
 0.38
35.81
n

f i xi  M e
17172.75 DM Me
DM Me  = CDM M e  =
i 1
 13.81
n 1243 Me
13.81
 0.41
33.75
Hay una dispersión de 13 años respecto de la edad promedio y de 14 años respecto
de la Mediana, lo que presenta un error del 38% respecto de la Media y del 41%
respecto de la Mediana

3. Desviación Standar

VARIANZA (  2 )

Es la más importante de las medidas de variación porque tiene la ventaja de no


prescindir de los signos de las desviaciones, pero al igual que la desviación media, los
valores extremos pueden distorsionarla

La varianza pretende descubrir cuanto varían los datos alrededor de la media


poblacional.

Estadística | Unidad 1 | Página 43 de 56


Calculo de la varianza

 x 
n
2
i X
 Datos crudos:  2  i 1

 f x 
n
2
i i X
 Arreglo y distribución de frecuencia:  2  i 1

DESVIACIÓN ESTÁNDAR

Cuando se utiliza la varianza como medida de dispersión, para salvar el problema de


trabajar con distintas dimensiones en la media y en la medida de variabilidad es
necesario definir la Desviación Estándar como la raíz cuadrada de la varianza:

  2

La Desviación Estándar es útil para describir cuanto se apartan de la media de la


distribución los elementos individuales. Una medida de ello se denomina puntuación
estándar número de desviaciones a las que determinada observación se encuentra con
respecto a la media.

Característica de la Varianza y Desviación Estándar

1. El cálculo de estas medidas está basado en todos los datos del conjunto

2. Son medidas totalmente lógicas ya que consideran tanto los signos positivos
como los negativos para el calculo

3. Establecen la desviación de los datos respecto de la media aritmética y no con


respecto a otros valores

4. No se ven afectadas por la suma de las cantidades constantes a los datos del
conjunto, pero si están afectadas si los datos son multiplicados o divididos por
cantidades constantes, variando estas en la misma proporción, se toma para su
cálculo el principio de los mínimos cuadrados

Estadística | Unidad 1 | Página 44 de 56


5. Como consecuencia de considerar desviaciones cuadráticas pone mayor énfasis
en las desviaciones extremas que en las demás desviaciones.

6. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de


ella la desviación estándar no hay pérdida de información por lo que la
desviación para los datos observados es igual que para los datos tabulados.

7. En la construcción de una tabla de una variable continua hay pérdida de


información por el agrupamiento de los valores en intervalos y se traduce en la
discrepancia entre el valor de la desviación observada y tabulada.

Coeficiente de desviación (CV)


CV 
X

Ejemplo:

 DATOS CRUDOS:

Año Recaudación (millones de pesos) x i X 


2

1 378,23 78444,8064
2 380,27 77306,2416
3 392,27 70777,2816
4 371,51 82254,24
5 548,85 11981,4916
6 662,89 20,9764
7 831,94 30147,3769
8 1083,27 180591,002
9 1275,56 380997,563
5924,79 912520,979

 x 
n
2
i X
912520.979
2  i 1
=  101391.22
n 9
 318.42
  2 = 101391.22  318.42 CV  =  0.48
X 658.31
Hay una dispersión de $318.420 respecto la recaudación promedio, lo que presenta
un error del 48%

Estadística | Unidad 1 | Página 45 de 56


 ARREGLO FRECUENCIAS

xi fi f i xi c
60 2 120 3568,4352
63 1 63 1539,7776
65 1 65 1386,8176
71 1 71 975,9376
75 1 75 742,0176
80 2 160 989,2352
85 2 170 594,4352
99 2 198 20,9952
100 3 300 15,0528
124 5 620 2367,488
132 2 264 1771,3152
145 2 290 3656,8352
160 1 160 3336,2176

25 2556 20964,56

 f x 
n
2
i i X
20964.56
2  i 1
=  838.58
n 25
 28.96
  2 = 838.58  28.96 CV  =  0.28
X 102.24
Hay una dispersión de 29 latas respecto de la producción promedio , lo que presenta
un error del 28%

Estadística | Unidad 1 | Página 46 de 56


 DISTRIBUCIÓN DE FRECUENCIAS:

Edad Nº de turistas xi fi x i 
f i xi  X 
2

[1-15) 127 7,5 952,5 101823,514


[15-29) 324 21,5 6966 66397,2245
[29-43) 455 35,5 16152,5 45,2523642
[43-57) 165 49,5 8167,5 30899,419
[57-71) 75 63,5 4762,5 57482,9218
[71-84] 97 77,5 7517,5 168548,045
1243 44518,5 425196,377

 f x 
n
2
i i X
425196.377
2  i 1
=  342.07
n 1243
 18.49
  2 = 342.07  18.49 CV  =  0.52
X 35.81
Hay una dispersión de 18 años respecto de la edad promedio, lo que presenta un
error del 52%

c. Medidas de Posición. Los

Cuantiles
Los cuantiles son medidas de posición que se
determinan mediante un método que determina la
ubicación de los valores que dividen un conjunto de
observaciones en partes iguales.

Los más usados son los cuartiles, cuando dividen los datos en cuatro partes iguales; los
quintiles que dividen el conjunto de datos en cinco partes iguales, los deciles, cuando
dividen los datos en diez partes y los centiles o percentiles, cuando dividen los datos en
cien partes. Los cuantiles en cierta forma una extensión de la mediana.

Estadística | Unidad 1 | Página 47 de 56


1. Cuartiles (Cr)

Dividen al conjunto en cuatro partes mutuamente excluyentes e iguale, donde cada parte
representa el 25% de total. Se pueden determinar tres cuantiles donde el C2 coincide
con la Mediana

25% 25% 25% 25%

C1 C2 C3 C4

 Datos crudos y arreglo de frecuencia

Se determina la ubicación del cuartil en el conjunto de los datos

𝒓∗(𝒏+𝟏)
𝑪𝒓 =
𝟒

donde:

r=cuartil a determinar

n=cantidad de datos

 Distribución de frecuencias

 r * n 
  4  f aa  
Cr  LI cr     i
 f ir 
 
 

donde:

LIcr=Límite Inferior Verdadero de la clase

cuartilica

r*n
4 = ubicación del cuartil

Estadística | Unidad 1 | Página 48 de 56


2. Quintiles (Qr)

Dividen al conjunto es 5 partes mutuamente excluyentes e iguales, donde cada parte


representa el 20% de total. Se pueden determinar cuatro quintiles

20% 20% 20% 20% 20%

Q1 Q2 Q3 Q4 Q5

Q5
 Datos crudos y arreglo de frecuencia

Se determina la ubicación del cuartil en el conjunto de los datos

𝒓∗(𝒏+𝟏)
𝑸𝒓 =
𝟓

donde:
r=cuartil a
determinar

n=cantidad de datos

 Distribución de frecuencias

 r * n 
  4  f aa  
Qr  LI qr     i
 f ir 
 
 

donde:

LIcr=Límite Inferior de la clase quintilica

r*n
5 = ubicación del quintil

faa= frecuencia acumulada anterior a la clase


quintilica fir= frecuencia absoluta de la clase
quintilica

Estadística | Unidad 1 | Página 49 de 56


3. Deciles (Dr)

Dividen al conjunto en diez pares iguales mutuamente excluyentes e iguales, donde


cada parte representa el 10% de total. Se pueden determinar 9 deciles

10% 10% ...............................................................................................10%

D1 D2 D3……………...................................................……………………………….…. D9 D10

 Datos crudos y arreglo de frecuencia

Se determina la ubicación del cuartil en el conjunto de los datos

𝒓∗(𝒏+𝟏)
𝑫𝒓 =
𝟏𝟎

donde:
r=decil a
determinar

n=cantidad de datos

 Distribución de frecuencias

 r * n 
  10  f aa  
Dr  LI dr     i
 f ir 
 
 

donde:

LIcr=Límite Inferior de la clase decilica

r*n
10 = ubicación del decil

Estadística | Unidad 1 | Página 50 de 56


faa= frecuencia acumulada anterior a la clase

decilica fir= frecuencia absoluta de la clase

decilica

4. Percentiles(Pr)

Dividen al conjunto en cien partes mutuamente excluyentes e iguales, donde cada parte
representa el 1% de total. Se pueden determinar 99 percentiles

1% 1% ......................................................................................................1%

1%
P1 P2 P3 P4……….........................................……………………………………………………………..………. P98 P99 P100

 Datos crudos y arreglo de frecuencia

Se determina la ubicación del cuartil en el conjunto de los datos

𝒓∗(𝒏+𝟏)
𝑷𝒓 =
𝟏𝟎𝟎

donde:
r=percentil a
determinar

n=cantidad de datos

 Distribución de frecuencias

 r * n 
  100  f aa  
Pr  LI pr     i
 f ir 
 
 

donde:

LIcr=Límite Inferior de la clase


percentilica

Estadística | Unidad 1 | Página 51 de 56


r*n
100 = ubicación del percentil

faa= frecuencia acumulada anterior a la clase


percentilica fir= frecuencia absoluta de la clase
percentilica

Ejemplo:

 DATOS CRUDOS: Si continuamos analizando la recaudación provincial, si

queremos determinar el cuartil 3, entonces lo que primero debemos hacer es

ordenar los datos de menor a mayor para poder ubicar el cuantil

Ubicacion Año Recaudación (millones de pesos)

1º 4 371,51

2º 1 378,23

3º 2 380,27

4º 3 392,27

5º 5 548,85

6º 6 662,89

7º 7 831,94

8º 8 1083,27

∑xi → 5924,79

= =
𝟑∗(𝟗+𝟏) 𝟑∗(𝟏𝟎)
𝑪𝟑 = 7.5
𝟒 𝟒

Estadística | Unidad 1 | Página 52 de 56


este número esta más cerca del 8, entonces el dato que ocupa la posición 8

representa el 75% de los datos. Para el caso de la recaudación de Mendoza

El 75% de la veces se recaudan $ 1083.27millones o menos

 ARREGLO DE FRECUENCIA: Para el caso de las latas si queremos determinar

el C3, debemos ubicar el cuartil, lo que hacemos en buscar en la f a, empezamos

a restar sistemáticamente y el primer valor que nos da negativo o cero es

donde está ubicado el cuartil ya que es el que contiene la ubicación que

buscamos

xi fi fa
60 2 2
63 1 3
65 1 4
71 1 5
75 1 6
80 2 8
85 2 10
99 2 12
100 3 15
124 5 20
132 2 22
145 2 24
160 1 25
25

= =
𝟑∗(𝟐𝟓+𝟏) 𝟑∗(𝟐𝟔)
𝑪𝟑 = 19,5
𝟒 𝟒

En este caso cuando restamos 19,5 a 20 nos da negativo, entonces el valor que le

corresponde a esta ubicación es 124, es decir,

El 75% de las veces se producen 124 botellas. botellas o menos

Estadística | Unidad 1 | Página 53 de 56


 DISTRIBUCIÓN DE FRECUENCIA: para el caso de los turistas alojados

en el hotel, si queremos determinar el C 3, lo primero que debemos hacer es

ubicar el cuartil:

Nº de
Edad xi fa fixi Clase real
turistas
[1-15) 127 8 127 1016 0,5 14,5
[15-29) 324 22 451 7128 14,5 28,5
[29-43) 455 36 906 16380 28,5 42,5
[43-57) 165 50 1071 8250 42,5 56,5
[57-71) 75 64 1146 4800 56,5 70,5
[71-84] 97 78 1243 7566 70,5 84,5
1.243 44.518,5

r * n 3 *1243
  932.25
4 4

Esta es la ubicación, lo que hacemos en buscar en la fa, empezamos a restar

sistemáticamente y el primer valor que nos da negativo o 0 es donde está ubicado

el cuartil, en este caso cuando restamos 932.25 a 1071 nos da negativo, entonces

en esa clase está ubicado. Lo que hacemos a continuación es aplicar la fórmula:

 932.25 - 906  
C 3  42.5   14  44.73
 165 

El 75% de los turistas alojados en el hotel tienen una edad de 45 años o menos.

Otra forma de explicar esto es diciendo que el 25% de los turistas alojados en el hotel

tienen 45 años o mas

Estadística | Unidad 1 | Página 54 de 56


La bibliografía de la materia estará basada en los siguientes libros:
- Walpole Ronald E. y otros (2012) Probabilidad y estadística para ingeniería
y ciencias. Novena edición. Pearson Educación. Capítulo 3
Mendenhall, W.; Reinmuth, J. E. (1996) Estadística para administración y
economía. Grupo Editorial Iberoamérica, México. Capítulo 3
- Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para
Administración y Economía. Pearson Educación S.A., Madrid Capítulo 3
- Levin, R.; Rubin, D. (1996) Estadística para Administradores. Prentice –
Hall Hispanoamericana, México. Capítulo 3

Esta bibliografía fue seleccionada para acompañar al alumno en el proceso


de aprendizaje de la materia.

Estadística | Unidad 1 | Página 55 de 56

También podría gustarte