Estadística - Unidad 1 - Estadística Descriptiva

Estadística Aplicada
UNIDAD 1: ESTADÍSTICA DESCRIPTIVA

Y ANÁLISIS EXPLORATORIO DE
DATOS.
UNIDAD 1:
INTRODUCCIÓN A LA ESTADÍSTICA Y
AL ANÁLISIS DE DATOS
Lic. Eliana Arcoraci

Contenido
0
I. Introducción 2
II. Concepto de Estadística 2
a. Estadística descriptiva 3
b. Estadística inferencial 3
III. Población y Muestra 3
a. Población 4
b. Muestra 5
IV. Variables Estadísticas 6
a. Variables cualitativas 7
b. Variables cuantitativas 7
V. Datos Estadísticos 8
a. Clasificación de los datos 8
b. Fuentes de datos Estadísticos 9
c. Método para la recolección de datos 10
d. Instrumentos para la recolección de datos 12
e. Del dato a la Información 13
VI. El análisis estadístico y el Ordenamiento de Datos 14
a. Datos Desordenados: Datos Crudos 14
b. Datos Ordenados: Arreglo Y Distribución De Frecuencias 15
VII. Representación gráfica de los datos 19
a. Diagrama de puntos dispersos 19
b. Tablas cruzadas 20
c. Histogramas y ojivas 21
VIII. Análisis Estadístico 23
a. Medidas de Tendencia Central 24
1. Media Aritmética(𝑋) 24
2. La Mediana ( 𝑋) 29
3. La Moda (Mo) 34
b. Medidas De Dispersión 37
1. Recorrido o Rango (R) 38
2. Desviación Media (DM) 39
3. Desviación Standar 43
c. Medidas de Posición. Los Cuantiles 47
1. Cuartiles (Cr) 48
2. Quintiles (Qr) 49
3. Deciles (Dr) 50
4. Percentiles(Pr) 51
Estadística | Unidad 1 | Página 1 de 56

I. INTRODUCCIÓN
En este módulo trabajaremos los temas de la Unidad 1
“Introducción a la Estadística y al Análisis de Datos”
conoceremos las definiciones básicas introductorias de
Estadística.
La información numérica está en todas partes: en los

diarios, revistas de noticias, de negocios, revistas de interés general, del hogar,
deportivas, en televisión, radio,etc.,se encuentra gran información numérica. Para ser
consumidores educados en esta información, es necesario poder interpretar esta
información. La Estadística se utiliza para tomar decisiones que afectan nuestra vida
diaria, que afectan nuestro bienestar personal y el conocimiento de los métodos
estadísticos ayudará a entender cómo se toman las decisiones y a comprender de qué
manera nos afectan.
II. CONCEPTO DE ESTADÍSTICA

La estadística es una ciencia que estudia las características de un conjunto de casos
para hallar en ellos regularidades en el comportamiento, que sirven para describir el
conjunto y para efectuar predicciones1.
La estadística tiene por objeto recolectar, organizar, resumir,

presentar y analizar datos relativos a un conjunto de objetos,
personas, procesos, etc. A través de la cuantificación y el
ordenamiento de los datos intenta explicar los fenómenos
observados, por lo que resulta una herramienta de suma utilidad para la toma de
decisiones.
La estadística se divide en dos ramas:
1
Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para Administración y Economía.
Pearson Educación S.A., Madrid – Cap.1

a. Estadística descriptiva
Nos indica una situación, describe e informa de modo que permite describir y
resumir las observaciones que se hagan sobre un asunto, fenómeno o problema
de investigación. Se calcula a partir de los datos de una muestra o de una población.
La estadística descriptiva utiliza métodos de recolección, descripción, visualización y

resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden
ser resumidos numérica o gráficamente.
Ejemplos básicos de descriptores numéricos son la media y la desviación estándar,

conceptos que analizaremos en la Unidad 2 de la materia
b. Estadística inferencial
Se utiliza cuando de los datos estadísticos obtenidos de una muestra se infiere o
se deduce una observación la cuál se generaliza sobre la población en total. Para
determinar la confiabilidad de la inferencia de los datos estadísticos de una muestra, se
hace necesario comprobar la misma para poder asegurar que lo que se observa en una
muestra se observará también en la población. Por lo tanto, esto requiere utilizar
técnicas, cómputos y análisis estadísticos más avanzados con los datos estadísticos
obtenidos de la muestra para así confirmar la veracidad de las inferencias que se haga
sobre la respectiva población a que corresponde la muestra. Generalmente el análisis
estadístico inferencial se lleva cabo para mostrar relaciones de causa y efecto, así como
para probar hipótesis y teorías científicas. Estas inferencias pueden tomar la forma de
respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características
numéricas (estimación), pronósticos de futuras observaciones, descripciones de
asociación (correlación) o modelamiento de relaciones entre variables (análisis de
regresión).
III. POBLACIÓN Y MUESTRA

Las estadísticas de por sí no tienen sentido si no se
consideran o se relacionan dentro del contexto con que
se trabajan. Por lo tanto es necesario entender los
conceptos de población y de muestra para lograr
comprender mejor su significado en la investigación
educativa o social que se lleva a cabo.

a. Población2
Es el conjunto total de individuos, objetos o medidas que poseen algunas características
comunes observables en un lugar y en un momento determinado. Cuando se vaya a
llevar a cabo alguna investigación debe de tenerse en cuenta algunas características
esenciales al seleccionarse la población bajo estudio.
Entre éstas tenemos:
1. Homogeneidad: que todos los miembros de la

población tengan las mismas características según
las variables que se vayan a considerar en el estudio
o investigación.
Si se fuera a investigar la incidencia de la drogadicción
entre jóvenes mujeres adolescentes, entonces hay que
definir claramente las edades que comprenden la
adolescencia y cuando se seleccione la población asegurarse de que todas las personas
entrevistadas sean de la edad determinada y del sexo femenino. (La
adolescencia se define operacionalmente como el periodo comprendido
de edad que fluctúa entre 12 y 21 años.)
2. Tiempo: se refiere al período de tiempo donde se ubicaría la
población de interés. Determinar si el estudio es del momento
presente o si se va a estudiar a una población de cinco años atrás
o si se van a entrevistar personas de diferentes generaciones.
Si quisiéramos estudiar la evolución de los cultivos en una determinada zona,

deberíamos hacer relevar la misma información durante un periodo determinado de
tiempo
3. Espacio: se refiere al lugar donde se ubica la población de interés. Un estudio

no puede ser muy abarcador, para optimizar tiempo y recursos hay que limitarlo
a un área o comunidad en específico.
2
Ibidem

La caracterización de los clientes de una
determinada empresa, sería un ejemplo de esto
4. Cantidad: se refiere al tamaño de la población. El

tamaño de la población es sumamente importante
porque ello determina o afecta al tamaño de la
muestra que se vaya a seleccionar. Es fundamental
determinar la extensión de la población que se vaya a investigar.
La plantilla 150 de proveedores de una empresa, podría ser la población bajo análisis
por ejemplo.
b. Muestra
La muestra es un subconjunto fielmente representativo de la población. Hay diferentes
tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán
representativo se quiera sea el estudio de la población.3
● Aleatoria: cuando se selecciona al azar y cada

miembro tiene igual oportunidad de ser incluido.
Ejemplo: Se elige encuestar a 20 clientes de un supermercado.
● Estratificada: cuando se subdivide en estratos o subgrupos según las variables

o características que se pretenden investigar. Cada estrato debe corresponder
proporcionalmente a la población.
Ejemplo: Se realizan una encuesta de gastos mensuales y se divide a los encuestados

según su nivel de ingresos
3
Ibidem

● Sistemática: cuando se establece un patrón o
criterio al seleccionar la muestra.
Ejemplo: se entrevistará una familia por cada diez que se detecten.

El muestreo es indispensable para el investigador, ya que es imposible entrevistar a
todos los miembros de una población debido a problemas de tiempo, recursos y
esfuerzo. Al seleccionar una muestra lo que se hace es estudiar una parte o un
subconjunto de la población, pero que la misma sea lo suficientemente representativa
de ésta para que luego pueda generalizarse con seguridad de ellas a la población.
IV. VARIABLES ESTADÍSTICAS4

Las variables estadísticas son las características observables de un objeto, problema o
evento que se puede describir según un esquema de medición bien definido.
Cada rasgo o aspecto de una población constituye una variable. La edad de unas
personas, su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de
ansiedad, el número de nacimientos, número de matrimonios, frecuencia de suicidios,
estatura, peso, niveles de inteligencia, actitudes, entre muchas otras son ejemplos de
variables estadísticas.
Podemos clasificar las variables según la escala de medición o la influencia

que asignemos a unas variables sobre otras:
4
Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para Administración y Economía.
Pearson Educación S.A., Madrid – Capitulo 2

a. Variables cualitativas
Son las variables que expresan distintas cualidades,
características o modalidad. Cada modalidad que se presenta
se denomina atributo o categoría y la medición consiste en una
clasificación de dichos atributos. Las variables cualitativas
pueden ser ordinales y nominales. Además pueden
distinguirse en dicotómicas, cuando sólo pueden tomar dos
valores posibles (como sí y no, hombre y mujer), o politómicas cuando pueden adquirir
tres o más valores. (frio templado y caliente, por ejemplo)
Dentro de ellas podemos distinguir:
● Variable cualitativa ordinal: La variable puede tomar distintos valores

ordenados siguiendo una escala establecida, aunque no es necesario que el
intervalo entre ediciones sea uniforme.
Ejemplo: leve, moderado, grave
● Variable cualitativa nominal: En esta variable los valores no pueden ser

sometidos a un criterio de orden.
Ejemplo: los colores o el lugar de residencia.
b. Variables cuantitativas
Son las variables que se expresan mediante cantidades
numéricas. Las variables cuantitativas además pueden ser:
● Variable discreta: Es la variable que presenta separaciones o interrupciones en

la escala de valores que puede tomar. Estas separaciones o interrupciones
indican la ausencia de valores entre los distintos valores específicos que la
variable pueda asumir.
Ejemplo: número de hijos.
● Variable continua: Es la variable que puede adquirir cualquier valor dentro de

un intervalo especificado de valores.

Ejemplo: el peso o la altura, que solamente está limitado por la precisión del aparato
medidor, en teoría permiten que siempre existe un valor entre dos cualesquiera.
V. DATOS ESTADÍSTICOS
Los datos estadísticos no son otra cosa que el producto

de las observaciones efectuadas en las personas y
objetos en los cuales se produce el fenómeno que
queremos estudiar.
Dicho en otras palabras, son los antecedentes (en cifras)

necesarios para llegar al conocimiento de un hecho o
para reducir las consecuencias de este.
Los datos estadísticos se pueden encontrar de forma no ordenada, por lo que es muy
difícil en general, obtener conclusiones de los datos presentados de esta manera. Para
poder obtener una precisa y rápida información con propósitos de descripción o análisis,
estos deben organizarse de una manera sistemática; es decir, se requiere que los datos
sean clasificados. Esta clasificación u organización puede muy bien hacerse antes de la
recopilación de los datos.
Ejemplo: Si se quiere conocer las características de los estudiantes una Institución

Educativa que utilizan los libros de la biblioteca, la recolección de la información debe
clasificar a cada estudiante sobre la base de: Carrera que estudia, edad, semestre de
estudios, etc. Vemos entonces, que la clasificación marca la pauta de la clase de datos
que debe ser obtenido.
a. Clasificación de los datos

Los datos estadísticos pueden ser clasificados en cualitativos, cuantitativos,
cronológicos y geográficos.
Datos Cualitativos: cuando los datos son cuantitativos, la diferencia

entre ellos es de clase y no de cantidad.
Si deseamos clasificar los estudiantes que cursan la materia de

Estadística por su estado civil, observamos que pueden existir
solteros, concubinos, casados, divorciados, viudos, etc.

Datos cuantitativos: cuando los valores de los datos representan
diferentes magnitudes, decimos que son datos cuantitativos.
Se clasifican los estudiantes de acuerdo a sus notas, observamos

que los valores (nota) representan diferentes magnitudes.
Datos cronológicos: cuando los valores de los datos varían en diferentes instantes o
períodos de tiempo, los datos son reconocidos como cronológicos.
Al registrar los promedios de notas de los Alumnos en los diferentes semestres.
Datos geográficos: cuando los datos están referidos a una localidad geográfica se
dicen que son datos geográficos.
El número de estudiantes de nivel superior en las distintas regiones del

país.
b. Fuentes de datos Estadísticos

Los datos estadísticos necesarios para la
comprensión de los hechos pueden obtenerse a
través de fuentes primarias y fuentes secundarias.
Fuentes de datos primarias: es la persona o institución que ha recolectado

directamente los datos.
Fuentes secundarias: son las publicaciones y trabajos hechos por personas o

entidades que no han recolectado directamente la información.
Las fuentes primarias más confiables, son las efectuadas por oficinas gubernamentales
encargadas de tal fin.
En la práctica, es aconsejable utilizar fuentes de datos primarias y, en última instancia

cuando estas no existan, usar estadísticas de fuentes secundarias. Con este último tipo,
no debemos pasar por alto que la calidad de las conclusiones estadísticas depende
directamente de la exactitud de los datos que se recaben. De nada serviría usar técnicas
estadísticas precisas y refinadas para llegar a conclusiones valederas, si estas técnicas
no son aplicadas a datos adecuados o confiables.

Ejemplo: Si un investigador quiere conocer el PBI, clasificado por ciclos, para los
últimos diez años, el investigador puede usar una fuente primaria como el INDEC o
el Ministerio de Economía de la Nación.
c. Método para la recolección de datos

En estadística se emplean una variedad de métodos distintos para
obtener información de los que se desea investigar. Discutiremos
aquí los métodos más importantes, incluyendo las ventajas y
limitaciones de estos.
La entrevista personal:
Los datos estadísticos necesarios para una investigación, se reúnen

frecuentemente mediante un proceso que consiste en enviar un
entrevistador o agente, directamente a la persona investigada. El
investigador efectuará a esta persona una serie de preguntas
previamente escritas en un cuestionario o boleta, donde anotará las
respuestas correspondientes.
Ventajas:
Este procedimiento permite obtener una información más veraz y completa que la que
proporcionan otros métodos, debido a que, al tener contacto directo con la persona
entrevistada, el entrevistador podrá aclarar cualquier duda que se presente sobre el
cuestionario o investigación.
La posibilidad que tienen los entrevistadores de adaptar el lenguaje de las preguntas al

nivel intelectual de las personas entrevistadas.
Desventajas:
Si el entrevistador no obra de buena fé o no tiene un entrenamiento adecuado, puede

alterar las respuestas por las personas entrevistadas.
Alto costo, ya que resulta bastante oneroso el entrenamiento de los agentes o

entrenadores y los supervisores de estos, sobre todo si se trata de una investigación
extensa.

Cuestionarios por correo electrónico o pagina Web
Consiste en enviar por mail el cuestionario acompañado por el instructivo

necesario, dando en este no solo las instrucciones pertinentes para cada
una de las preguntas, sino también una breve explicación del objeto de la
encuesta con el fin de evitar interpretaciones erróneas.
Ventajas:
Tienen un costo muy inferior al anterior procedimiento, puesto que no hay que incluir
gastos de entrenamiento de personal, el único gasto sería el de franqueo postal.
Desventajas:
Solo un porcentaje bastante bajo de estos es devuelto, en algunos casos no podemos

estar seguros de que los formularios hayan sido recibidos por sus destinatarios y que
hayan sido respondido por ellos mismos. Lo que trae como consecuencia que la
información se obtenga con una serie de errores difíciles de precisar por el investigador.
Entrevista por teléfono
Como lo indica su nombre, este método consiste en

telefonear a la persona a entrevistar y hacerle una serie de
preguntas.
Ventajas:
Este método es bastante simple y económico, ya que el entrenamiento y supervisión de

las personas encargadas de efectuar las preguntas es siempre fácil.
Desventajas:
El número de preguntas que pueden formularse es relativamente limitado; además las

investigaciones efectuadas por este método tienen un carácter selectivo, debido a que
muchas de las personas que potencialmente podrían ser investigadas no posee servicio
telefónico, por lo que quedan sin la posibilidad de ser entrevistados.

d. Instrumentos para la recolección de
datos
Para recolectar la información hay que tener presente:
● Seleccionar un instrumento de medición el cual debe ser

válido y confiable para poder aceptar los resultados
● Aplicar dicho instrumento de medición
● Organizar las mediciones obtenidas, para poder analizarlos.
1. Observación: Es el registro visual de lo ocurre es una situacional real,

clasificando y consignando los acontecimientos pertinentes de
acuerdo con algún esquema previsto y según el problema que
se estudia. Previamente a la ejecución de la observación el
investigador debe definir los objetivos que persigue, determinar
su unidad de observación, las condiciones en que asumirá la observación y las
conductas que deberán registrarse.
2. La encuesta: Este método consiste en obtener información de los

sujetos de estudio, proporcionada por ellos mismos, sobre
opiniones, actitudes o sugerencias. Hay dos maneras de obtener
información con este método: la entrevista y el cuestionario.
a. La entrevista: Es la comunicación
establecida entre el investigador y el sujeto
de estudiado a fin de obtener respuestas
verbales a las interrogantes planteadas
sobre el problema propuesto.

b. Cuestionario: Es el método que utiliza un
instrumento o formulario impreso, destinado a
obtener repuestas sobre el problema en estudio y
que el investido o consultado llena por sí mismo.
El cuestionario puede aplicarse a grupos o individuos estando presente
el investigador o el responsable del recoger la información, o puede
enviarse por correo a los destinatarios seleccionados en la muestra.
e. Del dato a la Información

Una vez finalizada la recolección, necesitamos transformar el conjunto
de datos en información útil. Las tareas que deben llevarse adelante
para transformar los datos en información son:
1. Organizar y clasificar los datos: Este procedimiento difiere según se trate de

investigaciones cuantitativas o cualitativas.
Por ejemplo, en caso de las cuantitativas, se puede incorporar una tabla que permita
clasificar los datos extraídos de los cuestionarios a fin de clasificarlos en “Hombres”
y “Mujeres”. Este procedimiento permite determinar qué porcentaje de resultados
corresponden a cada género, y, a su vez, compararlo con alguna otra variable como
pueden ser las edades de los encuestados.
Para el caso de las cualitativas, se puede determinar si los encuestados responden
negativamente a preguntas abiertas sobre un tema en particular, agrupar dichas
respuestas como “Respuestas Negativas”.
2. Analizar, elaborar e interpretar los datos: Esta tarea

consiste en encontrar una significación a las relaciones
que existen entre los datos. Pretendemos responder
mediante esta tarea los interrogantes que nos
planteamos durante el transcurso de nuestra
investigación. Es el momento de determinar si los datos
recolectados satisfacen realmente necesidades
planificadas anteriormente.
Es en esta etapa donde se calculan los indicadores estadísticos Este procedimiento permite
establecer los resultados del análisis

3. Redactar el informe: La tarea final consiste en la redacción de un
informe que exprese las conclusiones a las que hemos llegado. Por lo tanto,
debe expresar los resultados de nuestra investigación y los datos en que se
apoya.
Es absolutamente necesario no pasar por alto este paso ya que, de lo contrario, el

trabajo habrá sido en vano. Si los datos no se traducen en información, esta no podrá
ser comunicada y por lo tanto nadie podrá utilizarla.
Toda decisión significa un conocimiento previo y general del fenómeno que se pretende
encarar. El valor de la información es fundamental como sustento básico de toda
decisión. Para ser oportuna y fundamentada requiere de un buen sistema de análisis.
No debe ser mera acumulación de datos, es necesaria la apreciación, la evaluación y
su correcto ordenamiento.
VI. EL ANÁLISIS ESTADÍSTICO Y EL ORDENAMIENTO DE DATOS

El análisis estadístico es todo el proceso de organización, procesamiento, reducción e
interpretación de datos para realizar inferencias. Recordemos que los datos se
transformarán en información útil para la toma de decisiones, por lo tanto, a la hora de
recopilarlos, debemos ordenarlos de manera tal que nos permitan trabajar con ellos para
obtener la información requerida.
Los datos son medidas o valores de las características susceptibles de observar

y contar, se originan por la observación de una o más variables de un grupo de
elementos o unidades, para que sean útiles se deben organizar de manera que faciliten
su análisis, se puedan seleccionar tendencias, describir relaciones, determinar causas
y efectos y permitan llegar a conclusiones lógicas y tomar decisiones bien
fundamentadas. Por esa razón, es necesario conocer lo métodos de Organización y
Representación, nos permite ver rápidamente todas las características posibles de los
datos que se han recolectado.
a. Datos Desordenados: Datos Crudos

Se denomina así a los datos tomados directamente del experimento, investigación o
trabajo que se realiza o se ha realizado, pero que no están arreglados u ordenados.

Son los datos desordenados, que se muestran en el orden en que se recolectaron, el
total de los datos (n) se calcula como la suma de los valores observados:
n = número de datos observados
Ejemplo: Recaudación anual del impuesto a los Ingresos Brutos, Ingresos mensuales
de una empresa, Gastos trimestrales, Exportaciones anuales, etc.
b. Datos Ordenados: Arreglo Y Distribución De Frecuencias

Cuando ordenamos y/o agrupamos los datos, estos pueden repetirse, por lo tanto, al
ordenar tendremos en cuenta estas repeticiones.
Definiremos como frecuencia de un dato el número de veces que este se repite:

Consecuentemente, si una variable estadística toma x valores, cada uno de los cuales
puede repetirse un cierto número de veces, podríamos decir que el número de datos
representado por la variable serían n, siendo n la suma de las respectivas frecuencias
de cada dato. Este valor n será denominado como frecuencia total, mientras que la
frecuencia de cada dato recibirá el nombre de frecuencia absoluta o simplemente
frecuencia (fi). En símbolos:
La frecuencia absoluta nos habla del número de veces que un dato aparece
más ello no nos dice demasiado en orden al establecimiento de comparaciones sobre
la importancia de este dato. Para obtener una idea de la importancia que un dato posee
en una muestra, se utiliza el concepto frecuencia relativa.
Para efectos prácticos, asumimos las siguientes definiciones de frecuencias:
● Frecuencias absolutas (fi): es el número de veces que aparece en la

muestra dicho valor de la variable.
● Frecuencias relativas (fr): es el cociente entre la frecuencia absoluta y el

tamaño de la muestra. Matemáticamente podemos mostrarla como:

● Frecuencia acumulada (fa): para poder calcular este tipo de frecuencias
hay que tener en cuenta que la variable estadística ha de ser cuantitativa
o cualitativa ordenable. Es la suma sistemática de las frecuencias
absolutas y se anota el resultado en el valor o clase respectiva a la
acumulación. (según estemos trabajando con arreglo o distribución de
frecuencias).
● Frecuencia relativa acumulada (fra.): al igual que en el caso anterior se

calcula como el cociente entre la frecuencia acumulada dividida por el
tamaño de la muestra.
Arreglo De Frecuencias
Se ordenan los datos de forma ascendente o descendente en columnas (xi) y se

determina el número de veces que se repiten esos datos, esto es lo que se denomina
frecuencia (fi) para poder trabajar mejor los datos
Ejemplo: Ventas realizadas por día de una bodega durante 2 meses

Datos�13,7,8,8,8,5,5,8,21,21,21,13,21,7,7,7,5,5,5,5,8,8,21,8,7,7,7,5,5,5,13,
21,21,21,13,7,5,5,8,8,7,5,8,7,8,8,5,5,5,13
Construimos entonces una tabla de frecuencia donde observamos las variables analizadas y sus
correspondientes frecuencias
Cuadro1- Tabla de Frecuencia:

xi fi fa fr fra
5 15 15 0,2830 0,2830
7 10 25 0,1887 0,4717
8 12 37 0,2264 0,6981
13 15 51 0,2642 0,9623
21 8 53 0,0377 1
60 1
Distribución De Frecuencias

La distribución de frecuencias agrupadas o tabla con datos agrupados se emplea si las
variables toman un número grande de valores o la variable es continua. Se agrupan los
valores en intervalos que tengan la misma amplitud denominados clases. A cada clase
se le asigna su frecuencia correspondiente
Cuando se reúne gran cantidad de datos primarios es útil distribuirlos en clases y

categorías y determinar las frecuencias de las clases, o sea, el número de elementos
que pertenecen a una clase.
El ordenamiento tabular de los datos por clases conjuntamente con las frecuencias de
clases se denomina distribución de frecuencias
Es una forma de sintetizar los datos y consiste en valerse de una tabla para clasificar
los datos según su magnitud, en ella se señala el número de veces que aparece cada
uno de los valores. Cuando se dispone de un gran número de variables, tiene sentido
formar una tabla que presente la distribución de frecuencias de los datos agrupados en
intervalos o clases, de igual tamaño si es posible, sin embargo, una tabla de este tipo
supone una concentración de datos que produce pérdida de información.
Elementos de una distribución de frecuencias:
● Clases o intervalos de clase: Grupo de valores que describen una

característica. Deben incluir todas las observaciones y ser excluyentes. Los
intervalos contienen los límites de clase que son los puntos extremos del
intervalo.
Están compuestos por:
✔ Límite inferior: punto mínimo de cada clase
✔ Límite Superior: punto máximo de cada clase
● Intervalo (i): es la diferencia entre los límites de una clase
● Número de clases: depende del total de observaciones. Si el número de

observaciones es muy pequeño el número de clases será cercano a 5 y
generalmente no menor de este valor, si el número de observaciones es
grande se utilizaran 8 o 12, pero no más de 15 clases.

● Marca de Clase o Punto Medio: Es el punto medio del intervalo de clase,
se calcula de la siguiente forma:
Una buena práctica es la creación de clases de igual longitud. Esto se obtiene tomando
la diferencia entre los dos valores extremos del conjunto de datos y dividiéndola‚ entre
el número de clases. El resultado será aproximadamente la longitud del intervalo de
cada clase.
En general:
1°) Primero debemos determinar la cantidad de datos y a eso sacarle la raíz

cuadrada:
k = √𝑛
donde k = n° de clases
2°) Determinamos el Rango o Recorrido o amplitud muestral :
R= xmax - xmin
3°) La longitud de cada intervalo de clase es:
i= R / k
Ejemplo. Recolectamos el número de visitantes a una muestra de pintura según su

edad:
12,16,58,68,84,75,15,17,18,65,24,53,82,15,47,42,24,23,28,29,65,56,25,4
5,42,48,14,18,23,25,57,55,26,32,38,51,48,35,39,41,59,58,74,58,62,11,22
,55,25,24,28,66,58,44,46,48,25,23,22,65,28,67,13,18,33,49,51,41,55,40,
36,29,33,19,41
Procedemos a completar los pasos para formar nuestra distribución de frecuencias:
1°) n= 75 →√75 =8.66→ k= 9 clases
2°) R= 84-11= 73
3°) i = 73/9= 8,11

Entonces formamos la Tabla de distribución en base al intervalo de clase y nos fijamos cuantas
variables están comprendidas en cada clase:
Cuadro 2- Tabla de Distribución

Clase fi xi fa fr fra
[11;19,11) 12 15,06 12 0,16 0,16
[19,11;27,22) 13 23,17 25 0,17 0,33
[27,22;35,33) 9 31,28 34 0,12 0,45
[35,33;43,44) 8 39,39 42 0,11 0,56
[43,44;51,55) 11 47,5 53 0,15 0,71
[51,55;59,66) 11 55,61 64 0,15 0,85
[59,66;67,77) 6 63,72 70 0,08 0,93
[67,77;75,88) 3 71,83 73 0,04 0,97
[75,88;84] 2 79,94 75 0,03 1,00
75 1
VII. REPRESENTACIÓN GRÁFICA DE LOS DATOS5
a. DIAGRAMA DE PUNTOS DISPERSOS6

Podemos trazar un diagrama de puntos dispersos localizando un punto por cada par de
dos variables que representan una observación del conjunto de datos.
El diagrama de puntos dispersos es una representación de los datos, que comprende lo

siguiente:
1) El rango de cada variable.

2) La pauta de valores existente dentro del rango.
3) Una sugerencia sobre la posible relación entre las dos variables.
4) Una indicación de los casos atípicos (puntos extremos).
Ejemplo: Las notas de los exámenes de Matemáticas y las calificaciones

medias de estudiantes de una universidad. Por ello recolectamos los datos tal que:
5
Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para Administración y
Economía. Pearson Educación S.A., Madrid – Capitulo 2
6
Ibidem Pág-32

Cuadro 3 -Datos relevados
Notas del Examen 5 6 5 7 6 7
Promedio de Calificaciones 5 7 4 6 5 7
Si esto lo llevamos a un gráfico, donde en el eje y denotamos notas del examen y
en el eje x el promedio de calificaciones de los alumnos:
Gráfico 1- Diagrama de Dispersión
b. TABLAS
CRUZADAS7
Una tabla cruzada, llamada a veces tabla de contingencia, enumera el número de
observaciones correspondiente a cada combinación de valores de dos variables
categóricas u ordinales. La combinación de todos los intervalos posibles de las dos
variables define las casillas en una tabla. Una tabla cruzada de r filas y c columnas se
denomina tabla cruzada de dimensión rxc
Ejemplo: Una empresa de materiales de construcción ha estado estudiando un plan

para abrir locales en nuevos lugares dentro de su programa de expansión regional.
En una ciudad propuesta para la expansión hay tres lugares posibles: norte, este y
oeste. La empresa sabe por experiencia que las tres fuentes principales de ingresos
son: herramientas, madera y pintura. Para seleccionar un lugar, son importantes las
pautas de demanda de las diferentes partes de la ciudad. Ha pedido, pues, ayuda al
departamento de estudios de mercado para obtener y analizar los datos relevantes
y obtuvo los siguientes resultados:
7
Ididem – Pág.33

Cuadro 4 – Tabla Cruzada
Producto
Zona Herramientas Madera Pinturas Ninguna Total
Este 100 50 50 50 250
Norte 50 95 45 60 250
Oeste 65 70 75 40 250
215 215 170 150 750

Si el cuadro lo trasladamos a un grafico de barras donde en el eje y representa el la
cantidad de ventas estimadas y el eje x las zonas:
Grafico 2- Grafico de barras
c. HISTOGRAMAS Y OJIVAS
Histogramas
Está formado por rectángulos cuya base es la amplitud del intervalo y tiene la
característica que la superficie que corresponde a las barras es representativa de la
cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases
que tienen el mismo tamaño o diferente (intervalo variable).
La utilización de los intervalos de amplitud variable se recomienda cuando en alguno de

los intervalos, de amplitud constante, se presente la frecuencia cero o la frecuencia de
alguno o algunos de los intervalos sea mucho mayor que la de los demás, logrando así
que las observaciones se hallen mejor repartidas dentro del intervalo.

Si utilizamos el Ejemplo de Distribución de frecuencias de los visitantes a una muestra de pintura
donde los datos los observamos en el Cuadro 2 y construimos un gráfico de barras donde en los
ejes vinculamos los intervalos de clases y las frecuencias absolutas tal que:
Gráfico 3- Histograma
El grafico nos muestra la tendencia de los datos y su comportamiento
Ojiva
Una ojiva, llamada a veces gráfico de frecuencias acumuladas, es una línea que conecta
puntos que son el porcentaje acumulado de observaciones situadas por debajo del límite
superior de cada intervalo en una distribución de frecuencias acumuladas.
En el caso del ejemplo de los visitantes a la muestra de pintura, es la línea naranja del Gráfico 3
que vincula la fa con los intervalos de clase:
Gráfico 3-Ojiva
En esta unidad hemos comenzado a analizar los primeros conceptos de Estadística.

Hemos analizado su definición, en que ramas se divide. A que llamamos variables y que
tipo de variables podemos estudiar. También mostramos las distintas formas de
recolectar los datos y procesarlos para transformarlos en información. Por último, hemos

examinado las tablas y gráficos que pueden ayudarnos a presentar los datos que
estamos estudiando
VIII. ANÁLISIS ESTADÍSTICO

El análisis estadístico es el análisis que emplea
técnicas estadísticas para interpretar datos, ya sea
para ayudar en la toma de decisiones o para explicar
los condicionantes que determinan la ocurrencia de
algún fenómeno.
Este análisis que emplea técnicas estadísticas para interpretar datos. En esta unidad se
definirán los conceptos fundamentales. El tipo de análisis a realizar dependerá del
objetivo del proyecto que se analice
El análisis estadístico es todo el proceso de organización, procesamiento,

reducción e interpretación de datos para realizar inferencias. Recordemos que los
datos se transformarán en información útil para la toma de decisiones, por lo tanto a la
hora de recopilarlos, debemos ordenarlos de manera tal que nos permitan trabajar con
ellos para obtener la información requerida
Los datos son medidas o valores de las características susceptibles de observar y

contar, se originan por la observación de una o más variables de un grupo de elementos
o unidades, para que sean útiles se deben organizar de manera que faciliten su análisis,
se puedan seleccionar tendencias, describir relaciones, determinar causas y efectos y
permitan llegar a conclusiones lógicas y tomar decisiones bien fundamentadas; por esa
razón es necesario reconocer como están presentados los datos para poder relizar el
análisis estadístico correspondiente
© Universidad de Congreso
Sistema Institucional de Educación a Distancia
Año 2019
Mendoza- Argentina
© Universidad de Congreso
Sistema Institucional de Educación a Distancia Estadística | Unidad 1 | Página 23 de 56
Año 2019
Mendoza- Argentina
a. MEDIDAS DE TENDENCIA
CENTRAL
Con estas medidas se persigue reducir en pocas

cifras significativas el conjunto de observaciones
de una variable y describir con ellas ciertas
características de los conjuntos, logrando una
comparación más precisa de los datos que la que
se puede conseguir con tablas y gráficas.
Se emplean para:
a) Representar a un conjunto mediante un solo valor y a través del se puede

establecer el comportamiento del conjunto.
Ejemplo: salario promedio de los habitantes de una ciudad, gasto promedio de una
familia, etc.
b) Efectuar comparaciones entre diferentes conjuntos estadísticos
Ejemplo: Comparar el promedio de edad de estudiantes de distintos cursos, compara

promedio de ventas mensuales entre dos o más empresas, etc.
Los promedios son una medida de posición que dan una descripción compacta de cómo
están centrados los datos y una visualización más clara del nivel que alcanza la variable,
pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor
facilidad para efectuar comparaciones.
Es importante poner en relieve que la notación de promedio lleva implícita la idea de

variación y que este número promedio debe cumplir con la condición de ser
representativo de conjunto de datos.
El promedio como punto típico de los datos es el valor al rededor del cual se agrupan
los demás valores de la variable.
1. Media Aritmética(𝑿)
Es una medida matemática, un número individual que representa razonablemente el
comportamiento de todos los datos

Para calcularla debemos distinguir si estamos trabajando con datos crudos o si
los datos están bajo arreglo o distribución de frecuencia.
̅:
Calculo de 𝑋
 Datos crudos:
x1  x 2  x3  .......  x n
X 
n
n
x i
X  i 1
donde n=cantidad de datos
 Arreglo y distribución de frecuencias:
f1 x1  f 2 x 2  f 3 x3  .......  f n x n
X 
f1  f 2  f 3  .......  f n
n
( f x ) i i
X  i 1
n
n
donde f i 1
i  n  cantidad de datos

Características de la Media:
1. En su cálculo están todos los valores del conjunto de datos por lo que cada uno
afecta la media.
2. La fuerte presencia de valores pequeños dentro del conjunto ocasiona que X

tienda hacia ellos. Cuando hay una fuerte presencia de valores grandes se
tiene el mismo efecto, por lo tanto la representatividad de la media aritmética
puede ser cuestionada
3. Una vez calculada X , la suma de las diferencias entre los valores del conjunto
y X es igual a 0; esto no se cumple en la distribución de frecuencia ya que se

está trabajando con valores medios
 x 
n
i  X 0 PARA DATOS CRUDOS

i 1
 f x 
n
i i  X 0 PARA ARREGLO DE FRECUENCIA

i 1
4. La suma de las diferencias al cuadrado entre los datos del conjunto y X es

menor o igual a la suma de las diferencias al cuadrado de los datos del conjunto
y un valor arbitrario A :
 x 
n 2 n 2
i  X  xi  A
i 1 i 1
5. Aunque es confiable porque refleja todos los valores del conjunto de datos
puede ser afectada por los valores extremos, y de esa forma llegar a ser una
medida menos representativa, por lo que si la distribución es asimétrica, la
media aritmética no constituye un valor típico.
6. Cada uno de los datos del conjunto puede ser sustituido por la media aritmética
( X ) sin que se altere el valor de esta, ni la suma de los valores de los conjuntos

Ejemplo práctico:
 DATOS CRUDOS: El siguiente conjunto de datos que indica la recaudación anual de

impuestos de Mendoza, en millones de pesos, entre 1999-2007.
Año Recaudación (millones de pesos)
1 378,23
2 380,27
3 392,27
4 371,51
5 548,85
6 662,89
7 831,94
8 1083,27
9 1275,56
∑xi → 5924,79
n
x
i 1
i
X 
n
5924.79
X=
9
X =658.31 (en millones):
LA RECAUDACIÓN PROMEDIO ANUAL DE LA PROVINCIA DE MENDOZA ES DE $658.310.000
 ARREGLO DE FRECUENCIA: Una empresa de conservas desea conocer su producción

promedio de botellas de salsa , para lo cual observo la producción durante 25
días, que se detalla a continuación:
60 63 124 80 100
85 60 160 85 124
99 132 65 124 99
100 124 71 75 100
80 145 124 132 124

xi fi fixi
60 2 120
63 1 63
65 1 65
71 1 71
75 1 75
80 2 160
85 2 170
99 2 198
100 3 300
124 5 620
132 2 264
145 2 290
160 1 160
25 2556
n
fx i i
2556
X  =
i 1
n 25
X =102.24LA PRODUCCIÓN PROMEDIO DE LA EMPRESA DE CONSERVAS ES DE 102 LATAS
 DISTRIBUCIÓN DE FRECUENCIAS: La siguiente tabla muestra el número de

turistas, clasificados según su edad, que se hospedaron en un hotel tres estrellas.
Edad Nº de turistas
[1-15) 127
[15-29) 324
[29-43) 455
[43-57) 165
[57-71) 75
[71-84] 97
1243

Nº de
Edad xi fa fixi Clase real
turistas
[1-15) 127 8 127 1016 0,5 14,5
[15-29) 324 22 451 7128 14,5 28,5
[29-43) 455 36 906 16380 28,5 42,5
[43-57) 165 50 1071 8250 42,5 56,5
[57-71) 75 64 1146 4800 56,5 70,5
[71-84] 97 78 1243 7566 70,5 84,5
1.243 44.518,5
n
fx i i
X  i 1
n
44.518,5.5
X=
1243
X =35.82
EL PROMEDIO DE EDAD DE LOS TURISTAS HOSPEDADOS EN EL HOTEL ES DE 36 AÑOS
2. La Mediana ( 𝑿)
Es la medida de tendencia central que por su ubicación dentro del conjunto de

datos lo divide exactamente a la mitad. Geométricamente la mediana es el valor
de la variable que corresponde a la vertical que divide al histograma en dos áreas
iguales.
Cuando determinados valores de un conjunto de observaciones son muy grandes o

pequeños con respecto a los demás, entonces la media aritmética se puede distorsionar
y perder su carácter representativo, en esos casos es conveniente utilizar la mediana
como medida de tendencia central.
Una Vez más a la hora de calcular la mediana debemos distinguir como se presentan
los datos
 Datos crudos y Arreglo de frecuencias:
Debemos tener en cuenta si los datos son pares o impares:

 ̌ pertenece al conjunto de datos
Impares: la 𝑋
 ̌ es un valor agregado determinado por la semisuma de los datos

Pares: la 𝑋
centrales
Procedimiento:
1º) Se listan los datos de forma ascendente y/o descendente de los datos
2º) ̌:
Se determina la ubicación de la 𝑋
n n
1
 Pares 2 ^ 2
n
 0 .5
 Impares 2
3º) ̌
Se determina el valor de la 𝑋
 Distribución de frecuencias:
𝒏
(𝟐 − 𝒇𝒂𝒂 )
𝑿 = 𝑳𝒊 + .𝒊
𝒇𝒊
donde:
Li=Límite Inferior de la clase donde está ubicada la
mediana
n
= ubicación de la mediana
2
fai= frecuencia acumulada de la clase anterior a la ubicación de
mediana
fi= frecuencia absoluta de la clase donde está ubicada la
mediana
i= intervalo de clase
Características de la mediana

1. Es un promedio de posición no afectado por los valores extremos.
2. No está definida algebraicamente
3. Cuando la localización del elemento central puede ser determinada y los límites
de clase mediana son conocidos, la mediana para la distribución de frecuencias
puede ser calculada por interpolación, no importando que ésta contenga intervalos
abiertos, cerrados, iguales o diferentes.
4. La suma en valor absoluto de las diferencias entre los datos y la Me es menor o

igual a la suma en valor absoluto de la diferencia entre los valores del conjunto y
un valor arbitrario A:
n n

i 1
x i  M e  x i  A
i 1
5. La mediana en caso de una distribución asimétrica, no resulta desplazado del

punto de tendencia central.
6. Si la mediana se calcula por interpolación y hay lagunas en los valores de la clase

mediana o los datos son irregulares, esta medida no es buena ya que su ubicación
puede resultar falsa.
7. Si se desea ubicar las condiciones de un elemento en una clase, la mediana

resulta ser indicada, ya que por comparación pone en evidencia si un elemento
está en la mitad superior a ella o en la inferior.
Ejemplo practico
 DATOS CRUDOS. Si seguimos con el ejemplo de la recaudación provincial,
observamos que tenemos 9 años, por lo tanto 9 datos, es decir , los datos son
impares por lo tanto:
n
 0 .5
2
9
 0.5  5 El dato que ocupa la posición 5 es la Me,
2

El 50% de la recaudación de la provincia es inferior a $548.85 (en millones
de pesos) y el 50% de la recaudación es superior a ese monto.
 ARREGLO DE FRECUENCIA. Si continuamos con el ejemplo de la fábrica de
conservas:
xi fi fa
60 2 2
63 1 3
65 1 4
71 1 5
75 1 6
80 2 8
85 2 10
99 2 12
100 3 15
124 5 20
132 2 22
145 2 24
160 1 25
25
Los datos en este cado también son impares por lo tanto:
n
 0 .5
2
25
 0.5  14
2
En este caso se busca el número que contiene a la ubicación 14 en la f a y esa
es la Me, (en este caso el número que contiene a la 14 es el 15, por lo tanto
el valor que corresponde es 100)
El 50% de la producción de la fábrica es inferior a 100 botellas y el 50%

restante es superior a ese valor

 DISTRIBUCIÓN DE FRECUENCIAS. En este caso se aplica la fórmula :
Nº de
turistas
[1-15) 127 8 127 1016 0,5 14,5
[15-29) 324 22 451 7128 14,5 28,5
[29-43) 455 36 906 16380 28,5 42,5
[43-57) 165 50 1071 8250 42,5 56,5
[57-71) 75 64 1146 4800 56,5 70,5
[71-84] 97 78 1243 7566 70,5 84,5
1243 44518,5
Lo primero que debemos hacer es ubicar la Me:
n 1243
  621.5
2 2
Esta es la ubicación de la Me, lo que hacemos en buscar en la fa, empezamos a restar
sistemáticamente y el primer valor que nos da negativo es donde está ubicada la Me,
en este caso cuando restamos621.5 a 906 nos da negativo, entonces en esa clase
está ubicada la Me. Lo que hacemos a continuación es aplicar la fórmula:
n 
  f aa 
M e  Li  
2  i = 28   621.5  451 14 =33.25
fi  455 
El 50% de los turistas tienen 33 años o menos de y/o el 50% tienen 33 años o
más de esa edad.

3. La Moda (Mo)
Es el valor de un conjunto de datos que ocurre más frecuentemente, se considera como
el valor más típico de una serie de datos.
La moda puede no ser única, las distribuciones que presentan dos o más máximos
relativos se designan de modo general como bimodales o multimodales.
¿Cómo se calcula la Moda?
 Arreglo de frecuencia: en este caso la moda se determina por observación de los

datos
Ejemplo: Para la fábrica de conservas vemos que el valor que más se repite es
124, es decir, que la mayoría de las veces se fabrican 124 botellas
 Distribución de frecuencias: hay dos métodos para el cálculo, el método algebraico

y el método grafico
 Método Algebraico
1. Moda cruda(MoC): es la semisuma de los límites de la clase modal, es decir la clase
donde está ubicada la Mo
LS cMo  LI cmo
M oC 
2
donde:
Lscmo= Limite Superior de la clase donde está ubicada
la Mo
LIcmo= Límite Inferior de la clase donde está ubicada la
Mo
Ejemplo: Para el caso de los turistas 455 es el valor que más se repite, por lo tanto:
42  29
MoC=:  35.5
2

La mayoría de los turistas tienen 35 años
2. Moda por interpolación(Mo):
 d1 
M o  Licmo   i
 d1  d 2 
donde:
d1=ficmo-fia
d2=ficmo-fip
Licmo= límite inferior de la clase modal
ficmo=frecuencia absoluta de la clase modal
fia= frecuencia absoluta de la clase anterior a la clase

modal
fip=frecuencia absoluta de la clase posterior a la clase

modal
i= intervalo de clase
Ejemplo:
d1=455-324=131
d2=455-165=290
 131   131 
Mo= 28. 14  28   14  32.35
 131  290   421 
la mayoría de los turistas tienen aproximadamente 32 años
 Método Grafico
Se utiliza el histograma de frecuencia. En el cual se realiza el siguiente procedimiento
1. Obtenemos el histograma
2. Obtenemos los limites verdaderos de la o las clases modales
3. Se identifica el Ls de la clase anterior a la que está ubicada la Mo el Li de la clase
posterior donde está ubicada la Mo:

4. Se une el Li de la clase modal con el Li de la clase posterior a la clase modal
5. Se une el Ls de la clase modal con el Ls de la clase anterior a la clase modal
6. El punto donde se interceptan las curvas se proyecta en forma perpendicular el eje
horizontal, y es en este punto donde está ubicada la Mo:
Cantidad
de turistas
LIcmo LScmo
LSVcmo
455
LVcpcmo
324
1 15 29 43 57 71 84
Edad (Clase Real)
La mayoría tiene los 32 años
Características de la Moda.
1. Representa más elementos que cualquier otro valor
2. No está afectada por los valores extremos pero para datos continuos es dudoso
su cálculo.
3. La moda para una distribución de frecuencias de datos agrupados no puede

ser calculada exactamente, el valor de la moda puede ser afectado por el método
de agrupación de los intervalos de clase.
4. La moda no permite conocer la mayor parte de los datos
5. Algunas veces el azar interviene de manera importante y hace que un valor no

representativo se repita frecuentemente.

6. Puede usarse para datos cuantitativos como cualitativos
7. La moda como estadístico, varía mucho de una muestra a otra
8. Cuando se tienen dos o más modas es difícil su interpretación
9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no

la distorsionan, pero no se presta para un tratamiento matemático.
b. Medidas De Dispersión
Permiten determinar el grado de esparcimiento de los

datos de un conjunto con respecto a la medida de
tendencia central elegida, es decir, cuanto se desvían
los datos del promedio.
¿Por qué es importante medir la desviación?
 Al menudo una medida de posición de un conjunto

de datos se vincula con la indicación de cuán típico o representativo es
para la población y para ello es necesario contar con la información que
proporcionan las medidas de dispersión. Solo el conocimiento de un
estadístico de tendencia central no aclara o define toda la distribución,
además que no existe un valor de tendencia central ideal, por lo que es
significativo tener una idea de la dispersión de los valores y determinar si
es mucha o poca alrededor de la media, pues si la variación es muy grande
entonces esta medida de tendencia central no es buena selección como
valor típico.
 La medida de tendencia central no indica la relación de un dato con los

otros, es necesario para ello las medidas de variabilidad o dispersión.
 Al tratar problemas con datos dispersos se requiere conocer que

problemas puede esto traer, hasta qué punto la dispersión tiene un riesgo
aceptable o inaceptable en la toma de decisiones.

1. Recorrido o Rango (R)
Mide la dispersión de la totalidad de los datos. Es la más obvia de las medidas ya que
es la distancia entre los valores máximo y mínimo.
R  x n  x1
donde:
xn=dato de mayor valor del conjunto
x1= dato de menor valor del conjunto
Cuando estamos trabajando con distribución de frecuencia xn está dado por el Ls de
la última clase y x1esta determinado por el Li de la primera clase. Es un elemento
esencial cuando determinamos las clases en una distribución de frecuencia.
Ejemplo:
 DATOS CRUDOS
En el caso de la recaudación provincial:
R  1275.56  378.23  897.33 esto quiere decir que entre la primera y la
última recaudación observada pasaron $897.33 millones de pesos
 ARREGLO DE FRECUENCIA
En el caso de la producción de botellas de salsa:
Observamos que entre el primer valor y el ultimo hay una diferencia de 100
botellas: R=160-60=100
 DISTRIBUCIÓN DE FRECUENCIAS
En el caso de la edad de los turistas:
Observamos que el rango de variación de edades oscila los 83 años:

R= 84-1= 83
Características de R
1. E la medida de dispersión más simple, ya determina las unidades

comprendidas el menor y el mayor valor del conjunto
2. Su valor está influido por datos extremos, por lo cual no es una medida
adecuada para medir el grado de dispersión
3. El rango o recorrido da alguna idea del grado de variación que ocurre en

la población, pero con frecuencia los resultados pueden ser engañosos,
pues este depende de los valores extremos e ignora la variación de las
demás observaciones. Está afectado por ocurrencias raras o
extraordinarias.
Coeficiente de R
x n  x1
R
x n  x1
2
2. Desviación Media (DM)
La desviación Media o Desviación absoluta promedio, es la media aritmética de las

desviaciones absolutas de cada una de las observaciones con respecto a su valor
central, la media aritmética, o la mediana
Cuanto mayor es su valor, mayor es la dispersión de los datos
El cálculo de la desviación Media dependerá en primer lugar de cómo están

presentados los datos y en segundo lugar de si se haga respecto a la media
artimetica o a la mediana
 Datos crudos:

n
x
i 1
i X
 Con respecto a X : DM X 
n
n
x
i 1
i  Me
 Con respecto a Me: DM Me 
n
 Arreglo y distribución de frecuencias:
f i xi  X
 Con respecto a X : DM X  i 1
n
n
f i xi  M e
 Con respecto a Me: DM Me  i 1
Características de la DM
1. Su valor depende del valor de cada observación.
2. Se puede calcular alrededor de la media o de la mediana.
3. La desviación promedio respecto a la mediana es un mínimo
4. Mide la desviación de una observación sin notar si está por encima o por
debajo del promedio.
Coeficiente de la DM
DM X
 Respecto de X : CDM X 
X
DM Me
 Respecto de la Me: CDM M e 
Me

Ejemplo:
 DATOS CRUDOS
En el caso de la recaudación debemos tener en cuenta la media y la mediana

calculada:
Año Recaudación (millones de pesos) xi  X xi  M e

1 378,23 280,08 170,62
2 380,27 278,04 168,58
3 392,27 266,04 156,58
4 371,51 286,8 177,34
5 548,85 109,46 0
6 662,89 4,58 114,04
7 831,94 173,63 283,09
8 1083,27 424,96 534,42
9 1275,56 617,25 726,71
5924,79 2440,84 2331,38
n n
 xi  X
2440.84
x i  Me
= =
i 1 i 1
DM X   271.2 DM Me 
n 9 n
2331.38
 259.04
9
DM X 271.21 DM Me 259.04
CDM X  =  0.41 CDM M e  =  0.47
X 658.31 Me 548.85
Hay una dispersión de $271.200 respecto del promedio y de $259.040 respecto de
la Mediana, lo que presenta un error de41% respecto de la Media y del 47% respecto
de la Mediana

 ARREGLO DE FRECUENCIA:
xi fi f i xi f i xi  X f i xi  M e
60 2 120 84,48 80
63 1 63 39,24 37
65 1 65 37,24 35
71 1 71 31,24 29
75 1 75 27,24 25
80 2 160 44,48 40
85 2 170 34,48 30
99 2 198 6,48 2
100 3 300 6,72 0
124 5 620 108,8 120
132 2 264 59,52 64
145 2 290 85,52 90
160 1 160 57,76 60
25 2556 623,2 612
n
f i xi  X
623.2 DM X
DM X  = =
i 1
 24.93 CDM X 
n 25 X
24.93
 0.24
102.24
n
f i xi  M e
612 DM Me
DM Me  = CDM M e  =
i 1
 24.48
n 25 Me
24.48
 0.24
100
Hay una dispersión de 25 latas respecto del promedio y de 25 latas respecto de la

Mediana, lo que presenta un error de 24% respecto de la Media y del 24% respecto
de la Mediana

 DISTRIBUCIÓN DE FRECUENCIAS:
Edad Nº de turistas xi fixi f i xi  X f i xi  M e

[1-15) 127 7,5 952,5 3596,05149 3333,75
[15-29) 324 21,5 6966 4638,1786 3969
[29-43) 455 35,5 16152,5 143,491553 796,25
[43-57) 165 49,5 8167,5 2257,9646 2598,75
[57-71) 75 63,5 4762,5 2076,34755 2231,25
[71-84] 97 77,5 7517,5 4043,40949 4243,75
1243 44518,5 16755,4433 17172,75
f i xi  X
16755.44 DM X
DM X  = =
i 1
 13.48 CDM X 
n 1243 X
13.48
 0.38
35.81
n
f i xi  M e
17172.75 DM Me
DM Me  = CDM M e  =
i 1
 13.81
n 1243 Me
13.81
 0.41
33.75
Hay una dispersión de 13 años respecto de la edad promedio y de 14 años respecto
de la Mediana, lo que presenta un error del 38% respecto de la Media y del 41%
respecto de la Mediana
3. Desviación Standar
VARIANZA (  2 )
Es la más importante de las medidas de variación porque tiene la ventaja de no

prescindir de los signos de las desviaciones, pero al igual que la desviación media, los
valores extremos pueden distorsionarla
La varianza pretende descubrir cuanto varían los datos alrededor de la media

poblacional.

Calculo de la varianza
 x 
n
2
i X
 Datos crudos:  2  i 1
 f x 
n
2
i i X
 Arreglo y distribución de frecuencia:  2  i 1
DESVIACIÓN ESTÁNDAR
Cuando se utiliza la varianza como medida de dispersión, para salvar el problema de

trabajar con distintas dimensiones en la media y en la medida de variabilidad es
necesario definir la Desviación Estándar como la raíz cuadrada de la varianza:
  2
La Desviación Estándar es útil para describir cuanto se apartan de la media de la

distribución los elementos individuales. Una medida de ello se denomina puntuación
estándar número de desviaciones a las que determinada observación se encuentra con
respecto a la media.
Característica de la Varianza y Desviación Estándar
1. El cálculo de estas medidas está basado en todos los datos del conjunto
2. Son medidas totalmente lógicas ya que consideran tanto los signos positivos
como los negativos para el calculo
3. Establecen la desviación de los datos respecto de la media aritmética y no con

respecto a otros valores
4. No se ven afectadas por la suma de las cantidades constantes a los datos del
conjunto, pero si están afectadas si los datos son multiplicados o divididos por
cantidades constantes, variando estas en la misma proporción, se toma para su
cálculo el principio de los mínimos cuadrados

5. Como consecuencia de considerar desviaciones cuadráticas pone mayor énfasis
en las desviaciones extremas que en las demás desviaciones.
6. Al construir la tabla de frecuencias de una variable discreta y calcular a partir de

ella la desviación estándar no hay pérdida de información por lo que la
desviación para los datos observados es igual que para los datos tabulados.
7. En la construcción de una tabla de una variable continua hay pérdida de

información por el agrupamiento de los valores en intervalos y se traduce en la
discrepancia entre el valor de la desviación observada y tabulada.
Coeficiente de desviación (CV)

CV 
X
Ejemplo:
 DATOS CRUDOS:
Año Recaudación (millones de pesos) x i X 

2
1 378,23 78444,8064
2 380,27 77306,2416
3 392,27 70777,2816
4 371,51 82254,24
5 548,85 11981,4916
6 662,89 20,9764
7 831,94 30147,3769
8 1083,27 180591,002
9 1275,56 380997,563
5924,79 912520,979
 x 
n
2
i X
912520.979
2  i 1
=  101391.22
n 9
 318.42
  2 = 101391.22  318.42 CV  =  0.48
X 658.31
Hay una dispersión de $318.420 respecto la recaudación promedio, lo que presenta
un error del 48%

 ARREGLO FRECUENCIAS
xi fi f i xi c
60 2 120 3568,4352
63 1 63 1539,7776
65 1 65 1386,8176
71 1 71 975,9376
75 1 75 742,0176
80 2 160 989,2352
85 2 170 594,4352
99 2 198 20,9952
100 3 300 15,0528
124 5 620 2367,488
132 2 264 1771,3152
145 2 290 3656,8352
160 1 160 3336,2176
25 2556 20964,56
 f x 
n
2
i i X
20964.56
2  i 1
=  838.58
n 25
 28.96
  2 = 838.58  28.96 CV  =  0.28
X 102.24
Hay una dispersión de 29 latas respecto de la producción promedio , lo que presenta
un error del 28%

 DISTRIBUCIÓN DE FRECUENCIAS:
Edad Nº de turistas xi fi x i 
f i xi  X 
2
[1-15) 127 7,5 952,5 101823,514

[15-29) 324 21,5 6966 66397,2245
[29-43) 455 35,5 16152,5 45,2523642
[43-57) 165 49,5 8167,5 30899,419
[57-71) 75 63,5 4762,5 57482,9218
[71-84] 97 77,5 7517,5 168548,045
1243 44518,5 425196,377
 f x 
n
2
i i X
425196.377
2  i 1
=  342.07
n 1243
 18.49
  2 = 342.07  18.49 CV  =  0.52
X 35.81
Hay una dispersión de 18 años respecto de la edad promedio, lo que presenta un
error del 52%
c. Medidas de Posición. Los
Cuantiles
Los cuantiles son medidas de posición que se
determinan mediante un método que determina la
ubicación de los valores que dividen un conjunto de
observaciones en partes iguales.
Los más usados son los cuartiles, cuando dividen los datos en cuatro partes iguales; los
quintiles que dividen el conjunto de datos en cinco partes iguales, los deciles, cuando
dividen los datos en diez partes y los centiles o percentiles, cuando dividen los datos en
cien partes. Los cuantiles en cierta forma una extensión de la mediana.

1. Cuartiles (Cr)
Dividen al conjunto en cuatro partes mutuamente excluyentes e iguale, donde cada parte
representa el 25% de total. Se pueden determinar tres cuantiles donde el C2 coincide
con la Mediana
25% 25% 25% 25%
C1 C2 C3 C4
 Datos crudos y arreglo de frecuencia
Se determina la ubicación del cuartil en el conjunto de los datos
𝒓∗(𝒏+𝟏)
𝑪𝒓 =
𝟒
donde:
r=cuartil a determinar
n=cantidad de datos
 Distribución de frecuencias
 r * n 
  4  f aa  
Cr  LI cr     i
 f ir 
 
 
donde:
LIcr=Límite Inferior Verdadero de la clase
cuartilica
r*n
4 = ubicación del cuartil

2. Quintiles (Qr)
Dividen al conjunto es 5 partes mutuamente excluyentes e iguales, donde cada parte

representa el 20% de total. Se pueden determinar cuatro quintiles
20% 20% 20% 20% 20%
Q1 Q2 Q3 Q4 Q5
Q5
𝒓∗(𝒏+𝟏)
𝑸𝒓 =
𝟓
donde:
r=cuartil a
determinar
n=cantidad de datos
 r * n 
  4  f aa  
Qr  LI qr     i
 f ir 
 
 
donde:
LIcr=Límite Inferior de la clase quintilica
r*n
5 = ubicación del quintil
faa= frecuencia acumulada anterior a la clase

quintilica fir= frecuencia absoluta de la clase
quintilica

3. Deciles (Dr)
Dividen al conjunto en diez pares iguales mutuamente excluyentes e iguales, donde

cada parte representa el 10% de total. Se pueden determinar 9 deciles
10% 10% ...............................................................................................10%
D1 D2 D3……………...................................................……………………………….…. D9 D10
𝒓∗(𝒏+𝟏)
𝑫𝒓 =
𝟏𝟎
donde:
r=decil a
determinar
n=cantidad de datos
 r * n 
  10  f aa  
Dr  LI dr     i
 f ir 
 
 
donde:
LIcr=Límite Inferior de la clase decilica
r*n
10 = ubicación del decil

decilica fir= frecuencia absoluta de la clase
decilica
4. Percentiles(Pr)
Dividen al conjunto en cien partes mutuamente excluyentes e iguales, donde cada parte
representa el 1% de total. Se pueden determinar 99 percentiles
1% 1% ......................................................................................................1%
1%
P1 P2 P3 P4……….........................................……………………………………………………………..………. P98 P99 P100
𝒓∗(𝒏+𝟏)
𝑷𝒓 =
𝟏𝟎𝟎
donde:
r=percentil a
determinar
n=cantidad de datos
 r * n 
  100  f aa  
Pr  LI pr     i
 f ir 
 
 
donde:
LIcr=Límite Inferior de la clase

percentilica

r*n
100 = ubicación del percentil

percentilica fir= frecuencia absoluta de la clase
percentilica
Ejemplo:
 DATOS CRUDOS: Si continuamos analizando la recaudación provincial, si
queremos determinar el cuartil 3, entonces lo que primero debemos hacer es
ordenar los datos de menor a mayor para poder ubicar el cuantil
Ubicacion Año Recaudación (millones de pesos)
1º 4 371,51
2º 1 378,23
3º 2 380,27
4º 3 392,27
5º 5 548,85
6º 6 662,89
7º 7 831,94
8º 8 1083,27
∑xi → 5924,79
= =
𝟑∗(𝟗+𝟏) 𝟑∗(𝟏𝟎)
𝑪𝟑 = 7.5
𝟒 𝟒

este número esta más cerca del 8, entonces el dato que ocupa la posición 8
representa el 75% de los datos. Para el caso de la recaudación de Mendoza
El 75% de la veces se recaudan $ 1083.27millones o menos
 ARREGLO DE FRECUENCIA: Para el caso de las latas si queremos determinar
el C3, debemos ubicar el cuartil, lo que hacemos en buscar en la f a, empezamos
a restar sistemáticamente y el primer valor que nos da negativo o cero es
donde está ubicado el cuartil ya que es el que contiene la ubicación que
buscamos
xi fi fa
60 2 2
63 1 3
65 1 4
71 1 5
75 1 6
80 2 8
85 2 10
99 2 12
100 3 15
124 5 20
132 2 22
145 2 24
160 1 25
25
= =
𝟑∗(𝟐𝟓+𝟏) 𝟑∗(𝟐𝟔)
𝑪𝟑 = 19,5
𝟒 𝟒
En este caso cuando restamos 19,5 a 20 nos da negativo, entonces el valor que le
corresponde a esta ubicación es 124, es decir,
El 75% de las veces se producen 124 botellas. botellas o menos

 DISTRIBUCIÓN DE FRECUENCIA: para el caso de los turistas alojados
en el hotel, si queremos determinar el C 3, lo primero que debemos hacer es
ubicar el cuartil:
Nº de
turistas
[1-15) 127 8 127 1016 0,5 14,5
[15-29) 324 22 451 7128 14,5 28,5
[29-43) 455 36 906 16380 28,5 42,5
[43-57) 165 50 1071 8250 42,5 56,5
[57-71) 75 64 1146 4800 56,5 70,5
[71-84] 97 78 1243 7566 70,5 84,5
1.243 44.518,5
r * n 3 *1243
  932.25
4 4
Esta es la ubicación, lo que hacemos en buscar en la fa, empezamos a restar
sistemáticamente y el primer valor que nos da negativo o 0 es donde está ubicado
el cuartil, en este caso cuando restamos 932.25 a 1071 nos da negativo, entonces
en esa clase está ubicado. Lo que hacemos a continuación es aplicar la fórmula:
 932.25 - 906  
C 3  42.5   14  44.73
 165 
El 75% de los turistas alojados en el hotel tienen una edad de 45 años o menos.
Otra forma de explicar esto es diciendo que el 25% de los turistas alojados en el hotel
tienen 45 años o mas

La bibliografía de la materia estará basada en los siguientes libros:
- Walpole Ronald E. y otros (2012) Probabilidad y estadística para ingeniería
y ciencias. Novena edición. Pearson Educación. Capítulo 3
Mendenhall, W.; Reinmuth, J. E. (1996) Estadística para administración y
economía. Grupo Editorial Iberoamérica, México. Capítulo 3
- Newbold, P.; Carlson, W.; Thorne, B. (2008) Estadística para
Administración y Economía. Pearson Educación S.A., Madrid Capítulo 3
- Levin, R.; Rubin, D. (1996) Estadística para Administradores. Prentice –
Hall Hispanoamericana, México. Capítulo 3
Esta bibliografía fue seleccionada para acompañar al alumno en el proceso

de aprendizaje de la materia.

Estadística - Unidad 1 - Estadística Descriptiva

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística - Unidad 1 - Estadística Descriptiva

Cargado por

Copyright:

Formatos disponibles

Estadística Aplicada

UNIDAD 1: ESTADÍSTICA DESCRIPTIVA

Lic. Eliana Arcoraci

Estadística | Unidad 1 | Página 1 de 56

La información numérica está en todas partes: en los

II. CONCEPTO DE ESTADÍSTICA

La estadística tiene por objeto recolectar, organizar, resumir,

La estadística se divide en dos ramas:

Estadística | Unidad 1 | Página 2 de 56

La estadística descriptiva utiliza métodos de recolección, descripción, visualización y

Ejemplos básicos de descriptores numéricos son la media y la desviación estándar,

III. POBLACIÓN Y MUESTRA

Estadística | Unidad 1 | Página 3 de 56

Entre éstas tenemos:

1. Homogeneidad: que todos los miembros de la

Si quisiéramos estudiar la evolución de los cultivos en una determinada zona,

3. Espacio: se refiere al lugar donde se ubica la población de interés. Un estudio

Estadística | Unidad 1 | Página 4 de 56

4. Cantidad: se refiere al tamaño de la población. El

● Aleatoria: cuando se selecciona al azar y cada

Ejemplo: Se elige encuestar a 20 clientes de un supermercado.

● Estratificada: cuando se subdivide en estratos o subgrupos según las variables

Ejemplo: Se realizan una encuesta de gastos mensuales y se divide a los encuestados

Estadística | Unidad 1 | Página 5 de 56

Ejemplo: se entrevistará una familia por cada diez que se detecten.

IV. VARIABLES ESTADÍSTICAS4

Podemos clasificar las variables según la escala de medición o la influencia

Estadística | Unidad 1 | Página 6 de 56

Dentro de ellas podemos distinguir:

● Variable cualitativa ordinal: La variable puede tomar distintos valores

Ejemplo: leve, moderado, grave

● Variable cualitativa nominal: En esta variable los valores no pueden ser

Ejemplo: los colores o el lugar de residencia.

● Variable discreta: Es la variable que presenta separaciones o interrupciones en

Ejemplo: número de hijos.

● Variable continua: Es la variable que puede adquirir cualquier valor dentro de

Estadística | Unidad 1 | Página 7 de 56

Los datos estadísticos no son otra cosa que el producto

Dicho en otras palabras, son los antecedentes (en cifras)

Ejemplo: Si se quiere conocer las características de los estudiantes una Institución

a. Clasificación de los datos

Datos Cualitativos: cuando los datos son cuantitativos, la diferencia

Si deseamos clasificar los estudiantes que cursan la materia de

Estadística | Unidad 1 | Página 8 de 56

Se clasifican los estudiantes de acuerdo a sus notas, observamos

Al registrar los promedios de notas de los Alumnos en los diferentes semestres.

El número de estudiantes de nivel superior en las distintas regiones del

b. Fuentes de datos Estadísticos

Fuentes de datos primarias: es la persona o institución que ha recolectado

Fuentes secundarias: son las publicaciones y trabajos hechos por personas o

En la práctica, es aconsejable utilizar fuentes de datos primarias y, en última instancia

Estadística | Unidad 1 | Página 9 de 56

c. Método para la recolección de datos

Los datos estadísticos necesarios para una investigación, se reúnen

La posibilidad que tienen los entrevistadores de adaptar el lenguaje de las preguntas al

Si el entrevistador no obra de buena fé o no tiene un entrenamiento adecuado, puede

Alto costo, ya que resulta bastante oneroso el entrenamiento de los agentes o

Estadística | Unidad 1 | Página 10 de 56

Consiste en enviar por mail el cuestionario acompañado por el instructivo

Solo un porcentaje bastante bajo de estos es devuelto, en algunos casos no podemos

Entrevista por teléfono

Como lo indica su nombre, este método consiste en

Este método es bastante simple y económico, ya que el entrenamiento y supervisión de