Está en la página 1de 15

MATERIA HERRAMIENTAS MATEMATICAS III – ESTADISTICAS I

MODULO 1 LECTURA 1
TITULO TEXTO LA ESTADISTICA
AÑO 2023 BIMESTRE 2
LA ESTADISTICA
Conceptos básicos
Historia
Origen de la palabra: statistik proviene de la palabra italiana statista (“estadista”). Se utilizó por primera vez por Achenwal (1719-
1772) un profesor de Marlborough. Zimmerman introdujo en término statistics a Inglaterra. Se popularizo por John Sinclair en su obra
Statistical Account of Scotland 1791-1799. Sin embargo, antes del S XVIII ya se utilizaba y registraban datos.
El viejo testamento ya contenía datos de censos. En la edad media, los gobernantes registraban la propiedad de la tierra. A principios
del S IX terminó la enumeración estadística de los siervos que habitaban los feudos.
En el año 1806, Guillermo el Conquistador ordeno la inscripción del Domesday Book, un registro de propiedad de las tierras de
Inglaterra, este es el primer resumen estadístico de Inglaterra.

Estadística actual
 Cálculo de probabilidades
 Estadística, como ciencia del Estado – datos censo poblacional (egipcios, griegos y mesopotámicos)
¿Qué es la Estadística?
Una ciencia que analiza las diferentes maneras de procesar, ordenar y sistematizar los datos; además brinda instrucciones y medios
para recogerlos y analizarlos de forma apropiada para nuestros fines.

Subdivisión – Berenson, Levine y Krehbiel


Estadística descriptiva – Conjunto de métodos que incluyen la recolección, presentación y caracterización de un conjunto de datos
con el fin de describir apropiadamente sus características.

Estadística inferencial – Conjunto de métodos y técnicas que permiten determinar, de una muestra representativa de una población,
los valores estadísticos, a fin de inferir sobre los parámetros poblacionales con un cierto grado de bondad.
Conjunto de métodos que hacen posible la estimación de una característica de la población o la toma de una decisión referente a una
población basándose solo en los resultados de una muestra.

Relaciones entre conceptos importantes


Centro vs muestreo

Censo: Trabajar con toda la población.


Muestreo: Se trabaja con una muestra.

Población (de estudio): Conjunto de las unidades de estudio con las características a observar, pueden ser personas, animales, cosas o
hechos. Se pueden medir o contar.

Unidad de estudio, unidad estadística o individuo: determinada por los elementos de una determinada población de estudio. Otro
nombre es unidad de observación.

Muestra: porción de la población; subconjunto de ella. Esta debe ser representativa de la población.

Muestra representativa: No todo subconjunto se constituye en muestra representativa. En la representatividad influyen: el tamaño de
la muestra mediante fórmulas y el método de muestreo.

Unidad de relevamiento: unidad que aporta la info que se busca. Muchas veces coincide con la Unidad estadística o de estudio, en
otros casos no. Por ej el estudio se realiza sobre un grupo de trabajo, la unidad estadística es el grupo de trabajo, la unidad de
relevamiento es cada empleado del grupo.

Variable en estudio: característica en estudio que se observa en c/u de los elementos de la población y que varía de un elemento
respecto a otro. Ej Unidad de estudio empleado de la industria, podría interesar si es casado, soltero, viudo, etc.

Dato: cada respuesta que se obtiene de las características en estudio. Ej soltero, o cantidad de horas que trabaja, 8 hs (dato).

Inferencia: proceso que se realiza una vez relevada la info de la muestra. Permite extraer conclusiones sobre la info de la población
basada en la muestra, con cierto grado de confianza (inferencia estadística). Esta requiere el estudio de probabilidades.

1
ETAPAS DE UN ANALISIS ESTADISTICO

Planteamiento del problema – a que se quiere dar respuesta? Que se quiere investigar? ¿Porque se debe investigar?

Fijación de objetivos – debe ser claro y preciso, definir metas en el corto, mediano y largo plazo.

Formulación de hipótesis – proposición para responder posiblemente a un problema, respuesta al paso anterior. Va a ser puesta a
prueba en cuanto a su validez.

Definición de la unidad de observación y la unidad de medida – se debe definir previamente y las características establecidas.
Pueden ser uno o varios objetos de observación. Se debe comunicar al equipo de trabajo la unidad de medida y que sistema de medición
se utilizara.

Determinación de la población y muestra – la población puede tomar valores finitos o infinitos. En cambio, la muestra, solo puede
tomar valores finitos. Tomada al azar y representativa para garantizar la objetividad.

Recolección de datos
 Observación directa
 Encuestas
 Fuentes externas confiables
 Encuestas online
 Publicaciones de renombre científico
Acá se establece el tipo de preguntas, criterios, según el o los aspectos que se busque relevar.

Análisis, selección y clasificación de la información – se descarta la info confusa, viciada o sin valor. Se clasifica la info que se
utilizará, se ordena, se pueden aplicar diferentes modelos de tabulación.

Tabulación – expresar los resultados en una tabla que resume la info recolectada. Debe tener un título claro y legible, subtítulos (si es
necesario), unidades de medida de las observaciones según cada variable analizada y nota al pie que ayude a la lectura e interpretación
de la info.

Análisis de la info – luego de determinar la confiabilidad, la info puede ser utilizada para estimaciones e inferencias respecto de la
población total y confirmar o rechazar las hipótesis para las conclusiones correctas.

Publicación – los resultados deben presentarse adecuadamente para que cumplan con los objetivos prefijados. La presentación puede
ser en auditorio, conferencia de prensa o ámbitos privados o informes personalizados.

VARIABLE EN ESTUDIO: CLASIFICACIÓN

Esta adopta valores que pueden


Atributos o propiedades no
clasificarse en categorías, sin
numéricas (sexo, E Civil o
orden jerárquico (e civil; grupo
grado de satisfacción de un
sanguíneo internados, etc)
producto, etc

Cualitativa jerarquizada – ordinal –


(clasif. Población por su nivel de
instrucción; niveles de glucemia en
grupo de pacientes.

Resultante de un conteo solo toma


valores enteros (numero de conejos
en una caula, casos de dente en una
ciudad)

Puede tomar infinitos valores dentro


de cierto intervalo. Se utilizan
Se expresan mediante números, instrumentos de medición (altura de
cantidades que se pueden contar los brotes de una oleaginosa en un
o medir y realizar operaciones almácigo, pesajes de deportistas de
cierta especialidad, volumen de
líquido escurrido en ensayo de
permeabilidad)

2
Importancia de la clasificación de la variable en estudio
Por ej si la variable es cualitativa el análisis estadístico es bastante limitado. Se resume a contar número de observaciones o calculando
la proporción en cada categoría.

Hay más alternativas para el análisis estadístico cuando se tienen datos cuantitativos.

Datos esperados
Son los que el investigador espera si la hipótesis que se planteó al inicio fuera cierta.
Datos observados
Son los que se encuentran en la muestra sujeta a análisis y reciben el nombre de estadísticos de la muestra.

VALORES ESTADISTICOS Y PARAMETROS

Valores estadísticos – son los que en los estudios sobre una muestra determinan los valores “estimadores”, a través de los que se podrá
efectuar una correcta estimación sobre los valores de la población.

Parámetros - los valores que, en estudio, se denominan “estadísticos”, en la población se denominan “parámetros”.

Por ej. Para determinar el salario de los docentes del país, se tomaría una muestra constituida por docentes de distintas escuelas,
provincias y niveles. El salario promedio obtenido en la muestra seria “estadístico”, mientras que el salario promedio de toda la
población sería el “parámetro”.

Bondad – es el margen de seguridad con que se realiza la inferencia de acuerdo al estudio realizado sobre la o las muestras.

PRESENTACION DE DATOS: TABLAS Y GRÁFICOS (Lectura 2 Canvas)

Tabla de frecuencias y gráficos para datos cuantitativos sin agrupar

Arreglo ordenado
También llamado serie simple o series estadísticas a los datos observados sin procesar.

Un arreglo ordenado es una secuencia de datos ordenados del menor al mayor valor.

Ej: de la tabla de registro de ausencias, el arreglo ordenado seria:

0 0 1 1 2 2 2 2 3 4

Se denomina “n” al tamaño de la muestra, el ej es de 10.

Frecuencia absoluta
Este es el que aparece un número de veces repetido un mismo valor de la variable, o bien repeticiones de
la misma modalidad de un atributo. Se llama frecuencia absoluta o simplemente frecuencia.

Tabulación – procedimiento mediante el cual se realiza el conteo, para determinar el número de


veces que cada dato se repite.

f frecuencia absoluta
i (subíndice) refiere una posición determinada.
Tabla de distribución de frecuencias para datos sin agrupar
Ejemplo para la tabla anterior
Xi. cantidad de ausencias
Fi. cantidad de días que se repita la variable

La variable en estudio no está expresada como un intervalo de ausencias. Este tipo de tabla de
frecuencias se la denomina tabla de frecuencias para datos sin agrupar.

3
Clasificación de las frecuencias
Frecuencia absoluta – cantidad de veces que se repite la variable
Notación fi
En el ejemplo – para la variable 2 – fi=4, se registran 4 días con 2 ausencias.

Frecuencia relativa – es el cociente entre su


frecuencia absoluta y la suma de todas las frecuencias
absolutas – esta última coincide con el número de
observaciones.
Esta expresa la proporción, el peso que un valor de la
variable tiene en el total de obs.
Cuanto mayor sea la cantidad de repeticiones del
valor de la variable en las obs. Mayor será la
frecuencia relativa.

Frecuencia porcentual – es igual a la frecuencia


relativa multiplicada por 100. El % de que el valor de
una variable tiene en el total de observaciones.

Frecuencia absoluta acumulada – de una variable se


obtiene sumando todas las frecuencias absolutas de las
variables que le anteceden más la frecuencia absoluta de
dicha variable.

Frecuencia relativa acumulada – de una variable se obtiene


sumando todas las frecuencias de las variables que la anteceden
más la frecuencia relativa de dicha variable.

Frecuencia porcentual acumulada – de una variable se


obtiene sumando todas las frecuencias porcentuales de las
variables que la anteceden más la frecuencia porcentual de
dicha variable.

Frecuencia desacumulada – de una variable es igual al


número total de observaciones menos su frecuencia acumulada.

4
GRAFICOS
Estos sirven para una lectura rápida de la distribución de datos y sacar conclusiones inmediatas.
Para cada tipo de datos existen gráficos diferentes:
 Datos cuantitativos sin agrupar en clases: bastones, circulares
 Datos cuantitativos agrupados en clases: histogramas y polígonos
 Datos categóricos: diagramas circulares y de barras
 Gráficos circulares o de torta pueden utilizarse para cualquier tipo de variable con las referencias correspondientes.
Gráficos para datos sin agrupar
Para datos discretos y con pocos valores de la variable: diagramas de bastones
Los gráficos para variables cuantitativos, por lo general, tienen un eje horizontal en que se presentan los valores de la variable en estudio
y un eje vertical en que se marcan a escala las frecuencias que se quieren representar.

Diagramas circulares o de sectores


En este tipo de gráfico, se considera que los 360° representan el 100% de los datos relevados. Cada una de las clases estará dada por un
sector cuyo ángulo central será proporcional a su frecuencia porcentual.

TABLA DE FRECUENCIAS Y GRAFICOS PARA DATOS AGRUPADOS

Intervalos de clase
Cuando los valores que adopta una variable son demasiados (15 o más), resulta más útil agrupar los datos en intervalos de clase. Esto
sucede frecuentemente con las variables cuantitativas continuas.

Condiciones para construir una tabla con intervalos


1.º. ¿Qué cantidad de intervalos conviene hacer?
Cantidad de intervalos (k) está relacionada con la cantidad de datos que tenemos (n)

Algunos técnicos definen

Otros se inclinan por el método Sturges:

En un plano más general se puede definir el valor de k teniendo en cuenta:

Es decir, el número de intervalos debe estar comprendido entre 5 y 15.

La más UTILIZADA es la raíz cuadrada del número de observaciones.

La cantidad de intervalos debe ser un número natural.

2.º. ¿Cómo calcular la amplitud de cada intervalo?

LA FORMULA EN EXCEL ES (DATO MAYOR-DATO MENOR) /K

3.º. Debe tratarse que no existan intervalos con frecuencia cero, si esto pasa, habría que modificar la cantidad de intervalos o la
amplitud de cada uno. Siempre depende del tipo de investigación que se esté llevando a cabo.
4.º. Al fijar los extremos de los intervalos, debe atenderse a la posibilidad de que uno de ellos pueda ser cerrado y el otro abierto.
En general se toman cerrados por izquierda y abiertos por derecha: [Li, Ls) Corchete – paréntesis- el límite inferior del
intervalo se considera dentro y el superior corresponde al intervalo siguiente.
5.º. Todos los intervalos deben tener el mismo tamaño, cuando esto no sea posible, los intervalos de diferente amplitud deben
ubicarse en los extremos.
6.º. Hay que tratar de evitar que las observaciones coincidan con los extremos de cada intervalo, así desaparece la duda en cuanto
a la pertenencia de una observación a un intervalo o a su adyacente.
Delimitar los límites de cada clase. Se suma al límite inferior de cada intervalo, el tamaño del intervalo.

5
Marca de clase
Este es un concepto muy importante para la tabla de datos agrupados. Es el punto medio de cada intervalo. El promedio entre los límites
de la clase.
Se la denomina

Xmi

Li: límite inferior del intervalo


Ls: límite superior del intervalo

GRAFICOS PARA DATOS AGRUPADOS


Los más utilizados para este tipo de datos son los histogramas y los polígonos. También los circulares o de sectores.

Histogramas: son rectángulos pegados uno al lado del otro, porque son variables continuas, el extremo inferior de un intervalo coincide
con el extremo superior del intervalo siguiente.

 En los histogramas y polígonos, lo importante es hacer un corte en el eje horizontal, mostrando que la escala no siempre comienza
en cero. Lo importante es, a partir de un punto, tomar segmentos iguales sobre dicho eje que representen los intervalos con igual
longitud.
 Los histogramas de frecuencias relativas y porcentuales tienen la misma forma que los de frecuencias absolutas, solo cambian las
escalas en el eje vertical. Esto era de esperar, ya que se guardan las proporciones entre estas tres frecuencias.
 Los polígonos de frecuencias absolutas, relativas y porcentuales deben cerrase sobre el eje horizontal, suponiendo una clase anterior
y una posterior con frecuencia cero.
 Si, en un mismo gráfico, superponemos el histograma y el polígono de frecuencias, observamos que el área encerrada por el
polígono de frecuencias es igual al área encerrada por el histograma de frecuencias, ya que, en cada rectángulo, se compensan entre
sí áreas en exceso con áreas en defecto.

Histograma y polígono de frecuencias absolutas

6
Histograma y polígono de frecuencias relativas

LA diferencia con el histograma y el polígono de


frecuencias absolutas esta en las escalas del eje
vertical.

 Cuando el número de intervalos tiende a infinito y la


longitud de cada clase tiende a cero, se suaviza la
forma del polígono y nos queda una curva de
frecuencias.

Curva de frecuencias
En el grafico se muestra como queda un polígono si se aumenta indefinidamente la cantidad de intervalo y se disminuye la amplitud de
estos a un punto. Esto muestra un caso extremo en que cada punto de la variable en estudio le corresponde a una frecuencia
determinada. Sería imposible graficarlo punto por punto.

GRAFICOS DE FRECUENCIAS ACUMULADAS


Estas frecuencias son el resultado de una acumulación de frecuencias de clases anteriores, sus gráficos tienen características particulares.
Polígono de frecuencias absolutas acumuladas

este grafico se llama ojiva – es un polígono de frecuencias acumuladas.


Es una poligonal cuyos puntos están formados por la marca de clase y la frecuencia
absoluta correspondiente. Queda abierto por derecha. Por izquierda supone una clase
anterior imaginaria con frecuencia cero para poder cerrarlo.
También pueden construirse histogramas de frecuencias acumuladas.

La frecuencia acumulada (Fi) de una clase indica la cantidad de valores menores o iguales
a la variable de esa clase.

7
TABLA DE FRECUENCIAS Y GRAFICOS PARA DATOS CATEGORICOS
Tabla de frecuencias para datos categóricos

Estos datos se tratan de forma mas sencilla.


Por ej. En la tabla de turismo, elegimos la variable “Empresa”, identificamos las
distintas modalidades de la variable: TAM, ALITALIA, AA, IBERIA, AIREUROPA,
DELTA Y TAP AIR PORTUGAL. Son 7 empresas, la info se puede resumir asi:

Se muestran las empresas, cantidad de solicitudes y el porcentaje del total que


representan.
Para estos casos no hacen falta mas frecuencias.
En estos casos no se podria calcular un promedio, sino la moda.

Graficos para datos categóricos


El mas comun es del diagrama de barras y el circular

Diagrama de barras
Estos proporcionan info en un gráfico de dos dimensiones. En el eje horizontal se
muestran los valores de la variable, ej las calificaciones de una evaluacion o los
diferentes deportes practicados en un club social. En el vertical se señalan las
frecuencias de las clases mostradas en el eje horizontal. La altura de las barras mide el
numero de observaciones que hay en cada clase señalada en el horizontal.

MEDIDAS DE POSICIÓN (Lectura 3 Canvas)


Medidas de posición para datos sin agrupar

¿Qué es una medida de posición?


Es la medida que describe cómo todos los valores de los datos se agrupan en torno a un valor central. (Berenson, levine y Krehbiel)

Se estudian valores característicos de una distribución de datos.


Medidas de posición mas importantes

Media aritmética o promedio – es el cociente entre las sumas de todas las observaciones y el numero total de ellas.
Mediana – es el valor que divide en partes iguales a los datos ordenados de una distribución. Es una distribución ordenada. Se calcula
de dos maneras, según si el numero de observaciones es par o impar.

Si el numero es impar es el valor central al ordenar la distribución, por ej:


La mediana no es 3, sino el valor que ocupa el
lugar 3 del arreglo ordenado.
Interpretacion de la mediana: el 50% de las
personas tiene una edad menor o igual a 25
años, y el otro 50%, una edad mayor o igual a
25 años.

8
En cambio, si el numero es par
Interpretacion de la mediana:
El 50% de las personas tiene una edad menor a
38,5 años y el otro 50%, una edad mayor a 38,5
años.

La mediana no es sensible a valores extremos – Notese el extremo de 83 años, si se calcula un promedio, el valor seria mayor. Por
ello en este caso, la mas representativa es la mediana.

Moda – es el valor que mas se repite en una distribución.

¿Cómo calcular las medidas de posición cuando los datos están en una tabla sin agrupar?

Media - Multiplicar los datos por su frecuencia, sumar todos y dividirlo por la cantidad de observaciones.

Mediana – conviene fijarse en la columna de frecuencias acumuladas. Para sacar la mediana hay que ORDENAR LOS DATOS.

Moda – ver los datos que se repiten mas veces. Puede que sea bimodal.

Medidas de posición para datos agrupados


Datos agrupados en INTERVALOS – las medidas de posición se calculan con otras formulas.

Determinación de la media
Para esta medida toma importancia LA MARCA DE CLASE (xmi), que es el valor representativo de la clase. Teniendo en cuenta que
los valores de cada intervalo estan uniformemente distribuidos. La suma de todos ellos estara dada por el producto entre la marca de
clase y la frecuencia de ese intervalo.

Determinación de la mediana para datos agrupados


Para calcular la mediana en una tabla con intervalos, se realiza en dos pasos:
 Primer paso: se calcula la clase mediana o medial. Esta es la primera clase cuya frecuencia acumulada es mayor a n/2.
 Segundo paso: a la clase mediana le aplicamos la siguiente fórmula:

9
¿Cómo se construye la formula de la mediana para datos agrupados?
La mediana esta ubicada en la primera clase cuya frecuencia acumulada es mayor a n/2 – sea par o impar. Si el numero de observaciones
es impar, se tendria un solo termino central, la mediana caería en una sola clase y no habria problemas en identificarla.

Determinacion de la moda para datos agrupados


Se realiza en dos pasos:
Primer paso: calculamos la clase modal; es la que tiene mayor frecuencia. Podemos tener una o mas clases modales (o ninguna, si
todas las frecuencias son iguales)
Segundo paso: a cada clase modalle aplicamos la siguiente formula:

OTRAS MEDIDAS DE POSICIÓN


Son otras medidas que complementan la info de la media, la mediana y la moda. Las medidas que dividen a un conjunto de datos en
partes iguales son los cuartiles y los percentiles. Tambien estan los deciles. Para calcularlos, los datos deben estar ordenados de menor a
mayor.

Los cuartiles son 3 valores


Q1, Q2, que dividen a la distribución en 4 partes iguales. Q2 coincide con la mediana.
Cada parte contiene una cuarta parte o un 25% de las observaciones.

Los percentiles son los 99 valores de la variable que dividen el arreglo ordenado de datos en 100 partes iguales.
El percentil 50 coincide con la mediana.

10
MEDIDAS DE FORMA. RELACION ENTRE LA MEDIA, LA MEDIANA Y LA MODA
Medidas de forma
Son indicadores estadísticos que nos permiten analizar la distribución de frecuencias de los datos, es decir, la forma de la distribución.

Grafico de una curva simétrica


Al trazar una linea vertical, que pase por el punto mas alto, esta línea divide la
curva en dos partes iguales.

Comparacion de dos curvas sesgadas


Hay valores concentrados en el extremo inferior (en la curva A) y en
el extremo superior (en la curva B).
Las curvas sesgadas dejan una cola hacia uno de los lados de la
distribución de frecuencias.

La curva A esta sesgada (positivamente), va disminuyendo poco a


poco hacia el extremo derecho de la escala.
La curva B esta sesgada (negativamente), disminuye poco a poco si
se la recorre hacia el extremo inferior de la escala.

Relacion de la media, la mediana y la moda con las formas de las


curvas

 Si la curva es simetrica coinciden las 3 medidas de posición.


 En el ejemplo de la curva A, tiene sesgo a la derecha (+), la moda es la menor de las 3 medidas de posición, esta mas cerca del
cero en una escala tomada sobre el eje horizontal.
 La curva B, tiene sesgo a la izquierda (-), la moda adopta el mayor valor en la escala de la variable.

11
VALORES DE DISPERSIÓN PARA DATOS NO AGRUPADOS

Amplitud o rango

Rg

Es la diferencia entre el valor más grande y el más pequeño del conjunto de datos.

Rg= xM – xm

El rango no toma en cuenta como se distribuyen los datos entre el valor más grande y el más pequeño.

Desvío medio

DM

Es el promedio de las desviaciones tomadas en valor absoluto.

Una desviación es la diferencia entre un dato y la media aritmética de la distribución.

 Primero: se calcula la media de la muestra

 Segundo: se calcula cada desviación, es la diferencia de cada dato con la media

 Tercero: se calcula el promedio de las desviaciones

 Si los datos están en una tabla de frecuencias, se multiplica cada desviación por la frecuencia respectiva, ya que el dato está
desviado de la media tantas veces como lo indique la frecuencia. Después se hace el promedio de todas las desviaciones y la
formula queda:

Varianza

Es el promedio de los cuadrados de las desviaciones

 Esta medida es parecida en su composición al desvío medio, pero con el fin de evitar las diferencias con resultados negativos,
elevamos las desviaciones al cuadrado en lugar de aplicar el valor absoluto. Ahora si, cuando se trata de una muestra, al
divisor se le quita una unidad como factor de corrección.
 Ej:

12
 Si los datos están en una tabla de frecuencias, se multiplica cada
cuadrado de cada desviación por la frecuencia respectiva, ya que el
dato esta desviado de la media tantas veces como lo indique la
frecuencia. Después se hace el promedio de todas las desviaciones y
la formula queda:

Desviación estandar

Es la raiz cuadrada de la varianza

 Para el ej 1 que es una muestra queda:


 La ventaja es que permite trabajar con magnitudes lineales y no al cuadrado, tendria
sentido para la varianza hablar de centimetros cuadrados pero no de hombres o autos
al cuadrado.
 Si los datos estan en una tabla de frecuencias, se multiplica cada cuadrado de cda desviación por la frecuencia respectiva, ya
que el dato esta desviado de la media tantas veces como lo indique la frecuencia. Despues se hace el promedio de todas las
desviaciones y la formula queda:

Coeficiente de variación
Notación CV

Es el coeficiente que se obtiene dividiendo la desviación estándar y la media de una misma distribución.

 Es una medida relativa de dispersión, indica cuantas veces está contenida la desviación estándar dentro de la media.
 Es mas significativa que la desviación estandar, ya que, si la multiplicamos por 100, podremos ver el porcentaje de viariabilidad
que tiene la muestra o la población para una variable determinada.
 Su formula es:

En el ejemplo comprueba:

En este caso, la dispersión es pequeña, representa un 4%.

Consideraciones de importancia
o El desvío medio se utiliza muy poco, lo superan en exactitud y adaptabilidad la varianza y la desviación estándar.
o La desviación estándar es levemente superior al desvío medio para una misma distribución. Probablemente por eso sea que
mide con mas perfección la variablidad.

13
Sobre el coeficiente de variación:
 Es muy útil. Interpreta mejor la dispersión de los datos, es una medida de dispersión relativa.
 La media no puede ser 0, no existe la división por cero. Tampoco puede ser negativa. En estos casos, existen otros
coeficientes para medir la variabilidad (se verán más adelante).
 A mayor coeficiente de variación, mayor será la variabilidad de los datos; inversamente, a menor CV, menor variabilidad.
 La desviación estándar sola dice poco, pero si se la pondera en la media, es más objetiva. De allí la aplicabilidad del
coeficiente de variación para comparar distintas distribuciones y ver el grado de variabilidad de cada una.
 El coeficiente de variación es muy utilizado en los procesos industriales, en los que la variabilidad de un producto en algún
proceso de su fabricación puede quedar fuera de los limites especificados de antemano y, así, ocasionar perdidas a las
empresas.
 Algunos autores concluyen con que, si el coeficiente de variación es menor a 0,20, la distribución tiene datos homogéneos;
caso contrario, los datos son más heterogéneos. Pero en esto influye el criterio del investigador y el tipo de datos que se
maneje.
Aunque el CV es un poco más complejo que el cociente del ejemplo, el concepto es el mismo, se usa para
comparar la cantidad de variación en grupos de datos que tienen medias diferentes.
Advertencia: no compare la dispersión en los conjuntos de datos usando las desviaciones estándar, a menos
que las medias sean parecidas.

VALORES DE DISPERSIÓN PARA DATOS AGRUPADOS


Para calcular las medidas de dispersión de datos agrupados, es necesario calcular la marca de clase, ya que es el representante de cada
clase.
Cada desviación se multiplica por la frecuencia.

Formula desvío medio Formula varianza Formula desviación estándar

Amplitud o rango Coeficiente de variación

Consejos para recordar las fórmulas de la estadística descriptiva


 Conviene aprender la formula para datos agrupados y luego cambiarla en funcion si se trata de una serie simple, de una tabla
de frecuencias sin agrupar o de frecuencias agrupadas.

La media aritmetica
 u: la media poblacional, si se utiliza una muestra es
 Xmi: es marca de clase para datos agrupados, si se trata de datos sin
agrupar es xi.
 fi: es frecuencia absoluta, si se trata de datos distintos, fi vale 1 y no hace falta
que figure la fórmula.
 N: cantidad de elementos de una población. Si se trata de una muestra es n.

Desviación estándar
 o: es desviacion estandar poblacional, si se trata de una muestra es s.
 Xmi: marca de clase para datos agrupados. Para datos sin agrupar es xi.
 U: es la media aritmética para población, si se trata de muestra
 fi: es frecuencia absoluta, si se trata de datos distintos, fi vale 1 y no
hace falta que figure la fórmula.
 N: cantidad de elementos de una
población. Si se trata de una muestra es
n-1.

14
REGLA EMPIRICA
¿A qué se llama distribución normal?
La regla empírica es una aplicación práctica de la distribución normal, que relaciona la media y a la desviación estándar de una
población.

Distribución normal o
campana de Gauss
Se observa la forma
acampanada y simétrica que
tiene la distribución normal.
La media, la mediana y la
moda coinciden. El eje
vertical mide la frecuencia
relativa de cada punto del eje
horizontal. El área bajo la
curva representa a todos los
valores de la población.

¿Qué dice la regla


empírica?
Cuando se cree que los datos
tienen aprox esta distribución, se puede emplear la regla empírica para determinar el porcentaje de los valores de los datos que deben
encontrarse dentro de un determinado número de desviaciones
estándar de la media.

También aplica para observaciones en una muestra.

Se muestran los porcentajes que ocupan las áreas bajo la curva para la media ±1, ±2 y
±3 desviaciones estándar.

Esta regla puede ser útil por ej.


Los envases con detergente líquido se llenan de forma automática en una línea de
producción. Los pesos de llenado suelen tener una distribución en forma de campana.
Si el peso medio de llenado es de 500 ml y la desviación estándar es de 0,03 ml, la
regla empírica es aplicada para sacar las siguientes conclusiones:

 El 68 % de la línea de producción tiene un pesaje aproximado que está entre


499,97 ml y 500,03 ml.
 El 95,5 % de la línea de producción tiene un pesaje aproximado que está entre
499,94 ml y 500,06 ml.
 El 99,7 % de la línea de producción tiene un pesaje aproximado que está entre
499,91 ml y 500,09 ml.

Si, por ejemplo, la empresa tiene rechazos internos y externos cuando el pesaje del
líquido de llenado es menor a 499 ml, entonces con esta regla empírica la empresa
puede concluir con que no tendrá ningún rechazo por ese motivo.

Para calcular cualquier magnitud que se quiera, en ejemplos concretos, es útil calcular las áreas de cada sector para poder responder a
las posibles preguntas que se puedan realizar en algún problema. Estos porcentajes son siempre iguales, cualquiera sea la situación que
haya que resolver, siempre que la distribución sea normal.

15

También podría gustarte