Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MODULO 1 LECTURA 1
TITULO TEXTO LA ESTADISTICA
AÑO 2023 BIMESTRE 2
LA ESTADISTICA
Conceptos básicos
Historia
Origen de la palabra: statistik proviene de la palabra italiana statista (“estadista”). Se utilizó por primera vez por Achenwal (1719-
1772) un profesor de Marlborough. Zimmerman introdujo en término statistics a Inglaterra. Se popularizo por John Sinclair en su obra
Statistical Account of Scotland 1791-1799. Sin embargo, antes del S XVIII ya se utilizaba y registraban datos.
El viejo testamento ya contenía datos de censos. En la edad media, los gobernantes registraban la propiedad de la tierra. A principios
del S IX terminó la enumeración estadística de los siervos que habitaban los feudos.
En el año 1806, Guillermo el Conquistador ordeno la inscripción del Domesday Book, un registro de propiedad de las tierras de
Inglaterra, este es el primer resumen estadístico de Inglaterra.
Estadística actual
Cálculo de probabilidades
Estadística, como ciencia del Estado – datos censo poblacional (egipcios, griegos y mesopotámicos)
¿Qué es la Estadística?
Una ciencia que analiza las diferentes maneras de procesar, ordenar y sistematizar los datos; además brinda instrucciones y medios
para recogerlos y analizarlos de forma apropiada para nuestros fines.
Estadística inferencial – Conjunto de métodos y técnicas que permiten determinar, de una muestra representativa de una población,
los valores estadísticos, a fin de inferir sobre los parámetros poblacionales con un cierto grado de bondad.
Conjunto de métodos que hacen posible la estimación de una característica de la población o la toma de una decisión referente a una
población basándose solo en los resultados de una muestra.
Población (de estudio): Conjunto de las unidades de estudio con las características a observar, pueden ser personas, animales, cosas o
hechos. Se pueden medir o contar.
Unidad de estudio, unidad estadística o individuo: determinada por los elementos de una determinada población de estudio. Otro
nombre es unidad de observación.
Muestra: porción de la población; subconjunto de ella. Esta debe ser representativa de la población.
Muestra representativa: No todo subconjunto se constituye en muestra representativa. En la representatividad influyen: el tamaño de
la muestra mediante fórmulas y el método de muestreo.
Unidad de relevamiento: unidad que aporta la info que se busca. Muchas veces coincide con la Unidad estadística o de estudio, en
otros casos no. Por ej el estudio se realiza sobre un grupo de trabajo, la unidad estadística es el grupo de trabajo, la unidad de
relevamiento es cada empleado del grupo.
Variable en estudio: característica en estudio que se observa en c/u de los elementos de la población y que varía de un elemento
respecto a otro. Ej Unidad de estudio empleado de la industria, podría interesar si es casado, soltero, viudo, etc.
Dato: cada respuesta que se obtiene de las características en estudio. Ej soltero, o cantidad de horas que trabaja, 8 hs (dato).
Inferencia: proceso que se realiza una vez relevada la info de la muestra. Permite extraer conclusiones sobre la info de la población
basada en la muestra, con cierto grado de confianza (inferencia estadística). Esta requiere el estudio de probabilidades.
1
ETAPAS DE UN ANALISIS ESTADISTICO
Planteamiento del problema – a que se quiere dar respuesta? Que se quiere investigar? ¿Porque se debe investigar?
Fijación de objetivos – debe ser claro y preciso, definir metas en el corto, mediano y largo plazo.
Formulación de hipótesis – proposición para responder posiblemente a un problema, respuesta al paso anterior. Va a ser puesta a
prueba en cuanto a su validez.
Definición de la unidad de observación y la unidad de medida – se debe definir previamente y las características establecidas.
Pueden ser uno o varios objetos de observación. Se debe comunicar al equipo de trabajo la unidad de medida y que sistema de medición
se utilizara.
Determinación de la población y muestra – la población puede tomar valores finitos o infinitos. En cambio, la muestra, solo puede
tomar valores finitos. Tomada al azar y representativa para garantizar la objetividad.
Recolección de datos
Observación directa
Encuestas
Fuentes externas confiables
Encuestas online
Publicaciones de renombre científico
Acá se establece el tipo de preguntas, criterios, según el o los aspectos que se busque relevar.
Análisis, selección y clasificación de la información – se descarta la info confusa, viciada o sin valor. Se clasifica la info que se
utilizará, se ordena, se pueden aplicar diferentes modelos de tabulación.
Tabulación – expresar los resultados en una tabla que resume la info recolectada. Debe tener un título claro y legible, subtítulos (si es
necesario), unidades de medida de las observaciones según cada variable analizada y nota al pie que ayude a la lectura e interpretación
de la info.
Análisis de la info – luego de determinar la confiabilidad, la info puede ser utilizada para estimaciones e inferencias respecto de la
población total y confirmar o rechazar las hipótesis para las conclusiones correctas.
Publicación – los resultados deben presentarse adecuadamente para que cumplan con los objetivos prefijados. La presentación puede
ser en auditorio, conferencia de prensa o ámbitos privados o informes personalizados.
2
Importancia de la clasificación de la variable en estudio
Por ej si la variable es cualitativa el análisis estadístico es bastante limitado. Se resume a contar número de observaciones o calculando
la proporción en cada categoría.
Hay más alternativas para el análisis estadístico cuando se tienen datos cuantitativos.
Datos esperados
Son los que el investigador espera si la hipótesis que se planteó al inicio fuera cierta.
Datos observados
Son los que se encuentran en la muestra sujeta a análisis y reciben el nombre de estadísticos de la muestra.
Valores estadísticos – son los que en los estudios sobre una muestra determinan los valores “estimadores”, a través de los que se podrá
efectuar una correcta estimación sobre los valores de la población.
Parámetros - los valores que, en estudio, se denominan “estadísticos”, en la población se denominan “parámetros”.
Por ej. Para determinar el salario de los docentes del país, se tomaría una muestra constituida por docentes de distintas escuelas,
provincias y niveles. El salario promedio obtenido en la muestra seria “estadístico”, mientras que el salario promedio de toda la
población sería el “parámetro”.
Bondad – es el margen de seguridad con que se realiza la inferencia de acuerdo al estudio realizado sobre la o las muestras.
Arreglo ordenado
También llamado serie simple o series estadísticas a los datos observados sin procesar.
Un arreglo ordenado es una secuencia de datos ordenados del menor al mayor valor.
0 0 1 1 2 2 2 2 3 4
Frecuencia absoluta
Este es el que aparece un número de veces repetido un mismo valor de la variable, o bien repeticiones de
la misma modalidad de un atributo. Se llama frecuencia absoluta o simplemente frecuencia.
f frecuencia absoluta
i (subíndice) refiere una posición determinada.
Tabla de distribución de frecuencias para datos sin agrupar
Ejemplo para la tabla anterior
Xi. cantidad de ausencias
Fi. cantidad de días que se repita la variable
La variable en estudio no está expresada como un intervalo de ausencias. Este tipo de tabla de
frecuencias se la denomina tabla de frecuencias para datos sin agrupar.
3
Clasificación de las frecuencias
Frecuencia absoluta – cantidad de veces que se repite la variable
Notación fi
En el ejemplo – para la variable 2 – fi=4, se registran 4 días con 2 ausencias.
4
GRAFICOS
Estos sirven para una lectura rápida de la distribución de datos y sacar conclusiones inmediatas.
Para cada tipo de datos existen gráficos diferentes:
Datos cuantitativos sin agrupar en clases: bastones, circulares
Datos cuantitativos agrupados en clases: histogramas y polígonos
Datos categóricos: diagramas circulares y de barras
Gráficos circulares o de torta pueden utilizarse para cualquier tipo de variable con las referencias correspondientes.
Gráficos para datos sin agrupar
Para datos discretos y con pocos valores de la variable: diagramas de bastones
Los gráficos para variables cuantitativos, por lo general, tienen un eje horizontal en que se presentan los valores de la variable en estudio
y un eje vertical en que se marcan a escala las frecuencias que se quieren representar.
Intervalos de clase
Cuando los valores que adopta una variable son demasiados (15 o más), resulta más útil agrupar los datos en intervalos de clase. Esto
sucede frecuentemente con las variables cuantitativas continuas.
3.º. Debe tratarse que no existan intervalos con frecuencia cero, si esto pasa, habría que modificar la cantidad de intervalos o la
amplitud de cada uno. Siempre depende del tipo de investigación que se esté llevando a cabo.
4.º. Al fijar los extremos de los intervalos, debe atenderse a la posibilidad de que uno de ellos pueda ser cerrado y el otro abierto.
En general se toman cerrados por izquierda y abiertos por derecha: [Li, Ls) Corchete – paréntesis- el límite inferior del
intervalo se considera dentro y el superior corresponde al intervalo siguiente.
5.º. Todos los intervalos deben tener el mismo tamaño, cuando esto no sea posible, los intervalos de diferente amplitud deben
ubicarse en los extremos.
6.º. Hay que tratar de evitar que las observaciones coincidan con los extremos de cada intervalo, así desaparece la duda en cuanto
a la pertenencia de una observación a un intervalo o a su adyacente.
Delimitar los límites de cada clase. Se suma al límite inferior de cada intervalo, el tamaño del intervalo.
5
Marca de clase
Este es un concepto muy importante para la tabla de datos agrupados. Es el punto medio de cada intervalo. El promedio entre los límites
de la clase.
Se la denomina
Xmi
Histogramas: son rectángulos pegados uno al lado del otro, porque son variables continuas, el extremo inferior de un intervalo coincide
con el extremo superior del intervalo siguiente.
En los histogramas y polígonos, lo importante es hacer un corte en el eje horizontal, mostrando que la escala no siempre comienza
en cero. Lo importante es, a partir de un punto, tomar segmentos iguales sobre dicho eje que representen los intervalos con igual
longitud.
Los histogramas de frecuencias relativas y porcentuales tienen la misma forma que los de frecuencias absolutas, solo cambian las
escalas en el eje vertical. Esto era de esperar, ya que se guardan las proporciones entre estas tres frecuencias.
Los polígonos de frecuencias absolutas, relativas y porcentuales deben cerrase sobre el eje horizontal, suponiendo una clase anterior
y una posterior con frecuencia cero.
Si, en un mismo gráfico, superponemos el histograma y el polígono de frecuencias, observamos que el área encerrada por el
polígono de frecuencias es igual al área encerrada por el histograma de frecuencias, ya que, en cada rectángulo, se compensan entre
sí áreas en exceso con áreas en defecto.
6
Histograma y polígono de frecuencias relativas
Curva de frecuencias
En el grafico se muestra como queda un polígono si se aumenta indefinidamente la cantidad de intervalo y se disminuye la amplitud de
estos a un punto. Esto muestra un caso extremo en que cada punto de la variable en estudio le corresponde a una frecuencia
determinada. Sería imposible graficarlo punto por punto.
La frecuencia acumulada (Fi) de una clase indica la cantidad de valores menores o iguales
a la variable de esa clase.
7
TABLA DE FRECUENCIAS Y GRAFICOS PARA DATOS CATEGORICOS
Tabla de frecuencias para datos categóricos
Diagrama de barras
Estos proporcionan info en un gráfico de dos dimensiones. En el eje horizontal se
muestran los valores de la variable, ej las calificaciones de una evaluacion o los
diferentes deportes practicados en un club social. En el vertical se señalan las
frecuencias de las clases mostradas en el eje horizontal. La altura de las barras mide el
numero de observaciones que hay en cada clase señalada en el horizontal.
Media aritmética o promedio – es el cociente entre las sumas de todas las observaciones y el numero total de ellas.
Mediana – es el valor que divide en partes iguales a los datos ordenados de una distribución. Es una distribución ordenada. Se calcula
de dos maneras, según si el numero de observaciones es par o impar.
8
En cambio, si el numero es par
Interpretacion de la mediana:
El 50% de las personas tiene una edad menor a
38,5 años y el otro 50%, una edad mayor a 38,5
años.
La mediana no es sensible a valores extremos – Notese el extremo de 83 años, si se calcula un promedio, el valor seria mayor. Por
ello en este caso, la mas representativa es la mediana.
¿Cómo calcular las medidas de posición cuando los datos están en una tabla sin agrupar?
Media - Multiplicar los datos por su frecuencia, sumar todos y dividirlo por la cantidad de observaciones.
Mediana – conviene fijarse en la columna de frecuencias acumuladas. Para sacar la mediana hay que ORDENAR LOS DATOS.
Moda – ver los datos que se repiten mas veces. Puede que sea bimodal.
Determinación de la media
Para esta medida toma importancia LA MARCA DE CLASE (xmi), que es el valor representativo de la clase. Teniendo en cuenta que
los valores de cada intervalo estan uniformemente distribuidos. La suma de todos ellos estara dada por el producto entre la marca de
clase y la frecuencia de ese intervalo.
9
¿Cómo se construye la formula de la mediana para datos agrupados?
La mediana esta ubicada en la primera clase cuya frecuencia acumulada es mayor a n/2 – sea par o impar. Si el numero de observaciones
es impar, se tendria un solo termino central, la mediana caería en una sola clase y no habria problemas en identificarla.
Los percentiles son los 99 valores de la variable que dividen el arreglo ordenado de datos en 100 partes iguales.
El percentil 50 coincide con la mediana.
10
MEDIDAS DE FORMA. RELACION ENTRE LA MEDIA, LA MEDIANA Y LA MODA
Medidas de forma
Son indicadores estadísticos que nos permiten analizar la distribución de frecuencias de los datos, es decir, la forma de la distribución.
11
VALORES DE DISPERSIÓN PARA DATOS NO AGRUPADOS
Amplitud o rango
Rg
Es la diferencia entre el valor más grande y el más pequeño del conjunto de datos.
Rg= xM – xm
El rango no toma en cuenta como se distribuyen los datos entre el valor más grande y el más pequeño.
Desvío medio
DM
Si los datos están en una tabla de frecuencias, se multiplica cada desviación por la frecuencia respectiva, ya que el dato está
desviado de la media tantas veces como lo indique la frecuencia. Después se hace el promedio de todas las desviaciones y la
formula queda:
Varianza
Esta medida es parecida en su composición al desvío medio, pero con el fin de evitar las diferencias con resultados negativos,
elevamos las desviaciones al cuadrado en lugar de aplicar el valor absoluto. Ahora si, cuando se trata de una muestra, al
divisor se le quita una unidad como factor de corrección.
Ej:
12
Si los datos están en una tabla de frecuencias, se multiplica cada
cuadrado de cada desviación por la frecuencia respectiva, ya que el
dato esta desviado de la media tantas veces como lo indique la
frecuencia. Después se hace el promedio de todas las desviaciones y
la formula queda:
Desviación estandar
Coeficiente de variación
Notación CV
Es el coeficiente que se obtiene dividiendo la desviación estándar y la media de una misma distribución.
Es una medida relativa de dispersión, indica cuantas veces está contenida la desviación estándar dentro de la media.
Es mas significativa que la desviación estandar, ya que, si la multiplicamos por 100, podremos ver el porcentaje de viariabilidad
que tiene la muestra o la población para una variable determinada.
Su formula es:
En el ejemplo comprueba:
Consideraciones de importancia
o El desvío medio se utiliza muy poco, lo superan en exactitud y adaptabilidad la varianza y la desviación estándar.
o La desviación estándar es levemente superior al desvío medio para una misma distribución. Probablemente por eso sea que
mide con mas perfección la variablidad.
13
Sobre el coeficiente de variación:
Es muy útil. Interpreta mejor la dispersión de los datos, es una medida de dispersión relativa.
La media no puede ser 0, no existe la división por cero. Tampoco puede ser negativa. En estos casos, existen otros
coeficientes para medir la variabilidad (se verán más adelante).
A mayor coeficiente de variación, mayor será la variabilidad de los datos; inversamente, a menor CV, menor variabilidad.
La desviación estándar sola dice poco, pero si se la pondera en la media, es más objetiva. De allí la aplicabilidad del
coeficiente de variación para comparar distintas distribuciones y ver el grado de variabilidad de cada una.
El coeficiente de variación es muy utilizado en los procesos industriales, en los que la variabilidad de un producto en algún
proceso de su fabricación puede quedar fuera de los limites especificados de antemano y, así, ocasionar perdidas a las
empresas.
Algunos autores concluyen con que, si el coeficiente de variación es menor a 0,20, la distribución tiene datos homogéneos;
caso contrario, los datos son más heterogéneos. Pero en esto influye el criterio del investigador y el tipo de datos que se
maneje.
Aunque el CV es un poco más complejo que el cociente del ejemplo, el concepto es el mismo, se usa para
comparar la cantidad de variación en grupos de datos que tienen medias diferentes.
Advertencia: no compare la dispersión en los conjuntos de datos usando las desviaciones estándar, a menos
que las medias sean parecidas.
La media aritmetica
u: la media poblacional, si se utiliza una muestra es
Xmi: es marca de clase para datos agrupados, si se trata de datos sin
agrupar es xi.
fi: es frecuencia absoluta, si se trata de datos distintos, fi vale 1 y no hace falta
que figure la fórmula.
N: cantidad de elementos de una población. Si se trata de una muestra es n.
Desviación estándar
o: es desviacion estandar poblacional, si se trata de una muestra es s.
Xmi: marca de clase para datos agrupados. Para datos sin agrupar es xi.
U: es la media aritmética para población, si se trata de muestra
fi: es frecuencia absoluta, si se trata de datos distintos, fi vale 1 y no
hace falta que figure la fórmula.
N: cantidad de elementos de una
población. Si se trata de una muestra es
n-1.
14
REGLA EMPIRICA
¿A qué se llama distribución normal?
La regla empírica es una aplicación práctica de la distribución normal, que relaciona la media y a la desviación estándar de una
población.
Distribución normal o
campana de Gauss
Se observa la forma
acampanada y simétrica que
tiene la distribución normal.
La media, la mediana y la
moda coinciden. El eje
vertical mide la frecuencia
relativa de cada punto del eje
horizontal. El área bajo la
curva representa a todos los
valores de la población.
Se muestran los porcentajes que ocupan las áreas bajo la curva para la media ±1, ±2 y
±3 desviaciones estándar.
Si, por ejemplo, la empresa tiene rechazos internos y externos cuando el pesaje del
líquido de llenado es menor a 499 ml, entonces con esta regla empírica la empresa
puede concluir con que no tendrá ningún rechazo por ese motivo.
Para calcular cualquier magnitud que se quiera, en ejemplos concretos, es útil calcular las áreas de cada sector para poder responder a
las posibles preguntas que se puedan realizar en algún problema. Estos porcentajes son siempre iguales, cualquiera sea la situación que
haya que resolver, siempre que la distribución sea normal.
15