Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introduccion A La Estadistica I
Introduccion A La Estadistica I
Introducción a la Estadística
Para quién es la estadística?
Para el científico?,
el investigador? o para el ingeniero?
TEMA II
Distribución de Frecuencias
Cuando la información que se tiene es un gran volumen, resulta muy conveniente
ordenar y agrupar los datos para manejarlos de acuerdo a la distribución de
frecuencias la cual consiste en agrupar los datos en clases o categorías que estarán
definidas por un límite mínimo y uno máximo de variación, mostrando en cada clase
el número de elementos que contiene o sea la frecuencia.
Ejemplo :
Límites
Peso de racimos por palma producidos en un lote de clase
comercial
30-35
32 42 47 52 60 Rango: 35-40
74-32=42
35 43 47 53 60 40-45
36 43 48 53 62 Intérvalo: 45-50
42/8 =
37 44 49 54 66 5.25 50-55
40 45 49 55 67 =5 55-60
40 45 50 56 68 60-65
41 46 51 57 70 65-70
41 46 51 59 74 70-75
Las clases así construidas tienden a crear cierta ambigüedad ya que no haber la
posibilidad de que ningún dato se quede sin incluir ni que se incluya mas de una vez.
Por lo consiguiente, se hace necesario a definir los límites reales de las clases. Estos
se obtienen fraccionando las unidades.
Distribución.
29.5 - 34.5 / 1
34.5 - 39.5 /// 3
39.5 - 44.5 //////// 8
44.5 - 49.5 ///////// 9
49.5 - 54.5 /////// 7
54.5 - 59.5 //// 4
59.5 - 64.5 /// 3
64.5 - 69.5 /// 3
69.5 - 74.5 // 2
Para establecer los límites reales de las clases es necesario conocer el método de
redondeo empleado ya que de éste dependerán los límites.
Hay tres formas de redondeo a saber:
Método
Clase Hacia arriba Hacia abajo
usual
29.5 - 34.5 30 - 34 Más de 29 a 34 30 a menos de 35
34.5 - 39.5 34 - 40 Más de 34 a 39 35 a menos de 40
39.5 - 44.5 40 - 44 Más de 39 a 44 40 a menos de 45
44.5 - 49.5 44 - 50 Más de 44 a 49 45 a menos de 50
49.5 - 54.5 50 - 54 Más de 49 a 54 50 a menos de 55
54.5 - 59.5 54 - 60 Más de 54 a 59 55 a menos de 60
59.5 - 64.5 60 - 64 Más de 59 a 64 60 a menos de 65
64.5 - 69.5 64 - 70 Más de 64 a 69 65 a menos de 70
69.5 - 74.5 70 - 74 Más de 69 a 74 70 a menos de 75
Representación Gráfica
El patrón de variación de los datos puede apreciarse mejor representando
gráficamente la información contenida en el cuadro.
Generalmente los gráficos empleados para representar distribuciones de frecuencias
son : los polígonos de frecuencias, gráficos de barras, histogramas, ojivas y gráficos
de bastones
Histograma
Son gráficos construidos de barras verticales
sin separaciones entre sí.
Para construir un histograma, se define una
escala horizontal apropiada y en ella se
marcan los límites reales de todas las clases
de la distribución que se quiere representar.
La escala no necesita comenzar en cero, pero
si un intervalo de clase antes del límite
inferior de la clase más baja.
Las frecuencias se representan en la escala
vertical, la cual si debe comenzar en cero, no tener cortes o interrupciones y ser lo
suficientemente amplia para incluir la mayor de las frecuencias.
Definidas las escalas, se procede a trazar el gráfico como en el ejemplo.
Polígono de frecuencias
El polígono consiste en marcar sobre cada clase un
punto, tomando como occisa el punto medio de la
clase y como ordenada la frecuencia. Esos puntos se
unen luego con secciones de rectas y la figura
resultante es el polígono.
Las Ojivas
Estas son en
realidad polígonos que utilizan las
frecuencias acumuladas con la salvedad de
que las ordenadas no se levanten sobre
el punto medio de la clase, sino sobre el límite
inferior o superior según se haya
acumulado (ascendente o descendente). Esto se hace porque debido al procedimiento
de acumulación, la frecuencia "menos", para un cierta clase, incluye todas las
frecuencias menores que el límite superior de esa clase; y la acumulada "mas de",
todas las frecuencias mayores que el límite inferior de la clase.
Gráficos de bastones
El gráfico de bastones son simples líneas
gruesas verticales separadas, de altura
proporcional a la frecuencia de la clase.
Gráficos de barras
Es similar al histograma, excepto que se usa
para escalas cualitativas. Las categorías que
aparecen en el eje horizontal no tienen que
llevar un orden específico, sino colocadas en
orden alfabético. se exceptúan de esto las
escalas ordinales, por ejemplo la posición de los equipos. Es preferible que haya
separación de las barras y éstas deben ser del mismo ancho.
TEMA III
Medidas tendencia central: Media Mediana
Este tipo de medidas nos permiten identificar y ubicar el punto (valor) alrededor del cual se
tienden ha reunir los datos (“Punto central”). Estas medidas aplicadas a las características
de las unidades de una muestra se les denomina estimadores o estadígrafos; mientras que
aplicadas a poblaciones se les denomina parámetros o valores estadísticos de la
población. Los principales métodos utilizados para ubicar el punto central son la media, la
mediana y la moda.
1. MEDIA
Es la medida de posición central más utilizada, la más conocida y la más sencilla de
calcular, debido principalmente a que sus ecuaciones se prestan para el manejo
algebraico, lo cual la hace de gran utilidad. Su principal desventaja radica en su
sensibilidad al cambio de uno de sus valores o a los valores extremos demasiado grandes
o pequeños. La media se define como la suma de todos los valores observados, dividido
por el número total de observaciones.
Ecuación 5-1
Cuando los valores representan una población la ecuación se define como:
Ecuación 5- 2
Donde (m) representa la media, (N) representa el tamaño de la población y (Xi) representa
cada uno de los valores de la población. Ya que en la mayoría de los casos se trabajan
con muestras de la población todas las ecuaciones que se presenten a continuación serán
representativas para las muestras. La media aritmética para una muestra esta determinada
como
Ecuación 5-3
Donde (X) representa la Media para la muestra, (n) el tamaño de la muestra y (Xi)
representa cada uno de los valores observados. Esta fórmula únicamente es aplicable si
los datos se encuentran desagrupados; en caso contrario debemos calcular la media
mediante la multiplicación de los diferentes valores por la frecuencia con que se
encuentren dentro de la información; es decir,
Ecuación 5-4
Donde (Yi) representa el punto medio de cada observación, (ni) es la frecuencia o número
de observaciones en cada clase y (n) es el tamaño de la muestra siendo igual a la suma
de las frecuencias de cada clase.
Para entender mejor este concepto vamos a suponer que hemos tomado la edad de 5
personas al azar cuyos resultados fueron (22, 33, 35, 38 y 41). Para facilitar su
interpretación se han generado tres rangos de edad los cuales se han establecido de 21 a
30 años, de 31 a 40 años y de 41 a 50 años. Si nos fijamos en estos rangos notaremos
que los puntos medios son 25, 35 y 45 respectivamente. Los resultados de la organización
de estos datos se representan en la tabla [5-1].
Figura 5-1
Si aplicamos la fórmula para valores agrupados obtendríamos que la media es igual a
Lo que nos indicaría que el promedio de edad de los encuestados es de 35 años. Si ha
estos mismos resultados le aplicamos la ecuación para datos desagrupados (Ecuación 5-
3), tomando como referencia cada uno de los valores individuales, obtendríamos que la
media es igual a
Lo que nos indicaría que el promedio de edad para los datos desagrupados es de 34 años
aproximadamente. Esta diferencia se debe a que al agrupar los datos se pierde
parcialmente la exactitud de los cálculos, principalmente al aumentar el número de datos.
Para evitar estos inconvenientes, SPSS nos permite calcular las Medias, como si se
trataran de valores desagrupados, aunque tiene algunos procedimientos para valores
agrupados.
Es importante resaltar que existe una gran variedad de medias como la Media geométrica,
la Media ponderada, la Media cuadrática, etc. Por el momento sólo hacemos énfasis en la
media aritmética ya que es la más utilizada, aunque se recomienda a los lectores
profundizar en estos temas.
2. MEDIANA
Con esta medida podemos identificar el valor que se encuentra en el centro de los datos,
es decir, nos permite conocer el valor que se encuentra exactamente en la mitad del
conjunto de datos después que las observaciones se han ubicado en serie ordenada. Esta
medida nos indica que la mitad de los datos se encuentran por debajo de este valor y la
otra mitad por encima del mismo. Para determinar la posición de la mediana se utiliza la
fórmula
Ecuación 5-5
Para comprender este concepto vamos a suponer que tenemos la serie ordenada de
valores (2, 5, 8, 10 y 13), la posición de la mediana sería:
Lo que nos indica que el valor de la mediana corresponde a la tercera posición de la serie,
que equivale al número (8). Si por el contrario contamos con un conjunto de datos que
contiene un número par de observaciones, es necesario promediar los dos valores medios
de la serie. Si en el ejemplo anterior le anexamos el valor 15, tendríamos la serie ordenada
(2, 5, 8, 10, 13 y 15) y la posición de la mediana sería,
Es decir, la posición tres y medio. Dado que es imposible destacar la posición tres y medio,
es necesario promediar los dos valores de la posiciones tercera y cuarta para producir una
mediana equivalente, que para el caso corresponden a (8 + 10)/2 =9. Lo que nos indicaría
que la mitad de los valores se encuentra por debajo del valor 9 y la otra mitad se encuentra
por encima de este valor.
En conclusión la mediana nos indica el valor que separa los datos en dos fracciones
iguales con el cincuenta porciento de los datos cada una. Para las muestras que cuentan
con un número impar de observaciones o datos, la mediana dará como resultado una de
las posiciones de la serie ordenada; mientras que para las muestras con un número par de
observaciones se debe promediar los valores de las dos posiciones centrales.
3. MODA
La medida modal nos indica el valor que más veces se repite dentro de los datos; es decir,
si tenemos la serie ordenada (2, 2, 5 y 7), el valor que más veces se repite es el número 2
quien seria la moda de los datos. Es posible que en algunas ocasiones se presente dos
valores con la mayor frecuencia, lo cual se denomina Bimodal o en otros casos más de
dos valores, lo que se conoce como multimodal.
En conclusión las Medidas de tendencia central, nos permiten identificar los valores más
representativos de los datos, de acuerdo a la manera como se tienden a concentrar. La
Media nos indica el promedio de los datos; es decir, nos informa el valor que obtendría
cada uno de los individuos si se distribuyeran los valores en partes iguales. La Mediana
por el contrario nos informa el valor que separa los datos en dos partes iguales, cada una
de las cuales cuenta con el cincuenta porciento de los datos. Por último la Moda nos indica
el valor que más se repite dentro de los datos
Media ponderada.
w x i i
xw i 1
n
w
i 1
i
donde
Ejemplo:
observe que diferencia existe con la media aritmética. La media para los datos es
igual a
8 5 8 10 8
x 7 .8
5
Número Valor
1 56
2 62
3 63
4 65
5 65
6 65
7 65
8 68
9 70
10 72
b) Moda = 65
c) Mediana = 65
La media Geométrica
La media geométrica (MG) de un conjunto de n números positivos se define como la raíz n-
ésima del producto de los n valores. Su fórmula es:
La media geométrica se usa para encontrar el promedio de porcentajes, razones, índices o
tasas de crecimiento.
Ejemplo
Las tasas de interés de tres bonos son 5%, 7% y 4%.
Ejemplo
El número total de mujeres inscritas en colegios americanos aumentó de 755 000 en 1986 a
835 000 en 1995.
Aquí n = 10, así (n - 1) = 9.
TEMA IV
Medidas de Dispersión - Varianza y
Desviación
Así como las medidas de tendencia central nos permiten identificar el punto central de los
datos, las Medidas de dispersión nos permiten reconocer que tanto se dispersan los datos
alrededor del punto central; es decir, nos indican cuanto se desvían las observaciones
alrededor de su promedio aritmético (Media). Este tipo de medidas son parámetros
informativos que nos permiten conocer como los valores de los datos se reparten a través
de eje X, mediante un valor numérico que representa el promedio de dispersión de los
datos. Las medidas de dispersión más importantes y las más utilizadas son la Varianza y
la Desviación estándar (o Típica).
1. VARIANZA
Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los
valores respecto a su punto central (Media ). Este promedio es calculado, elevando cada
una de las diferencias al cuadrado (Con el fin de eliminar los signos negativos), y
calculando su promedio o media; es decir, sumado todos los cuadrados de las diferencias
de cada valor respecto a la media y dividiendo este resultado por el número de
observaciones que se tengan. Si la varianza es calculada a una población (Total de
componentes de un conjunto), la ecuación sería:
Ecuación 5-6
Donde ( ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa
la media poblacional y (N) es el número de observaciones ó tamaño de la población. En el
caso que estemos trabajando con una muestra la ecuación que se debe emplear es:
Ecuación 5-7
Donde (S2) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa
la media de la muestra y (n) es el número de observaciones ó tamaño de la muestra. Si
nos fijamos en la ecuación, notaremos que se le resta uno al tamaño de la muestra; esto
se hace con el objetivo de aplicar una pequeña medida de corrección a la varianza,
intentando hacerla más representativa para la población. Es necesario resaltar que la
varianza nos da como resultado el promedio de la desviación, pero este valor se encuentra
elevado al cuadrado.
Ecuación 5-8
Para comprender el concepto de las medidas de distribución vamos a suponer que el
gerente de una empresa de alimentos desea saber que tanto varían los pesos de los
empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar
cinco unidades de ellos para pesarlos. Los productos tienen los siguientes pesos (490,
500, 510, 515 y 520) gramos respectivamente.
Por lo que su media es:
La varianza sería:
Por lo tanto la desviación estándar sería:
Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con
una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta
información le permite al gerente determinar cuanto es el promedio de perdidas causado
por el exceso de peso en los empaques y le da las bases para tomar los correctivos
necesarios en el proceso de empacado.
Figura 5-1
El Coeficiente de asimetría, se representa mediante la ecuación matemática,
Ecuación 5-9
Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, (
) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta
ecuación se interpretan:
(g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe
aproximadamente la misma cantidad de valores a los dos lados de la
media. Este valor es difícil de conseguir por lo que se tiende a tomar los
valores que son cercanos ya sean positivos o negativos (± 0.5).
(g1 > 0): La curva es asimétricamente positiva por lo que los valores se
tienden a reunir más en la parte izquierda que en la derecha de la media.
(g1 < 0): La curva es asimétricamente negativa por lo que los valores
se tienden a reunir más en la parte derecha de la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que
separa la aglomeración de los valores con respecto a la media.
2. CURTOSIS
Esta medida determina el grado de concentración que presentan los valores en la región
central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentración de valores (Leptocúrtica), una concentración normal
(Mesocúrtica) ó una baja concentración (Platicúrtica).
Figura 5-2
Para calcular el coeficiente de Curtosis se utiliza la ecuación:
Ecuacion 5-10
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la
media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se
interpretan:
(g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es
bastante difícil encontrar un coeficiente de Curtosis de cero (0), por lo que
se suelen aceptar los valores cercanos (± 0.5 aprox.).
(g2 > 0) la distribución es Leptocúrtica
(g2 < 0) la distribución es Platicúrtica
Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un
coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de
suma importancia ya que para la mayoría de los procedimientos de la estadística de
inferencia se requiere que los datos se distribuyan normalmente.
La principal ventaja de la distribución normal radica en el supuesto que el 95% de los
valores se encuentra dentro de una distancia de dos desviaciones estándar de la media
aritmética (Fig.5-3); es decir, si tomamos la media y le sumamos dos veces la desviación y
después le restamos a la media dos desviaciones, el 95% de los casos se encontraría
dentro del rango que compongan estos valores.
Figura 5-3
Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las
principales medidas de Estadística Descriptiva; es de gran importancia que los lectores
profundicen en estos temas ya que la principal dificultad del paquete SPSS radica en el
desconocimiento de los conceptos estadísticos.
Las definiciones plasmadas en este capítulo han sido extraídas de los libros Estadística
para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro
Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe editores (Octava edición).
No necesariamente tienes que guiarte por estos libros ya que en las librerías encontraras
una gran variedad de textos que pueden ser de bastante utilidad en la introducción a esta
ciencia.
Escalas de Medida
Para realizar un correcto análisis de los datos es fundamental conocer de antemano el tipo
de medida de la variable, ya que para cada una de ellas se utiliza diferentes estadísticos.
La clasificación más convencional de las escalas de medida las divide en cuatro grupos
denominados Nominal, Ordinal, Intervalo y Razón.
1. NOMINAL
Son variables numéricas cuyos valores representan una categoría o identifican un grupo
de pertenencia. Este tipo de variables sólo nos permite establecer relaciones de
igualdad/desigualdad entre los elementos de la variable. La asignación de los valores se
realiza en forma aleatoria por lo que NO cuenta con un orden lógico. Un ejemplo de este
tipo de variables es el Género ya que nosotros podemos asignarle un valor a los hombres
y otro diferente a las mujeres y por más machistas o feministas que seamos no podríamos
establecer que uno es mayor que el otro.
2. ORDINAL
Son variables numéricas cuyos valores representan una categoría o identifican un grupo
de pertenencia contando con un orden lógico. Este tipo de variables nos permite
establecer relaciones de igualdad/desigualdad y a su vez, podemos identificar si una
categoría es mayor o menor que otra. Un ejemplo de variable ordinal es el nivel de
educación, ya que se puede establecer que una persona con título de Postgrado tiene un
nivel de educación superior al de una persona con título de bachiller. En las variables
ordinales no se puede determinar la distancia entre sus categorías, ya que no es
cuantificable o medible.
3. INTERVALO
Son variables numéricas cuyos valores representan magnitudes y la distancia entre los
números de su escala es igual. Con este tipo de variables podemos realizar
comparaciones de igualdad/desigualdad, establecer un orden dentro de sus valores y
medir la distancia existente entre cada valor de la escala. Las variables de intervalo
carecen de un cero absoluto, por lo que operaciones como la multiplicación y la división no
son realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos
decir que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y 17
grados. Lo que no podemos establecer es que una temperatura de 10 grados equivale a la
mitad de una temperatura de 20 grados.
4. RAZÓN
Las variables de razón poseen las mismas características de las variables de intervalo, con
la diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la
ausencia total de medida, por lo que se puede realizar cualquier operación Aritmética
(Suma, Resta, Multiplicación y División) y Lógica (Comparación y ordenamiento). Este tipo
de variables permiten el nivel más alto de medición. Las variables altura, peso, distancia o
el salario, son algunos ejemplos de este tipo de escala de medida.
Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha
reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala. Las
variables de escala son para SPSS todas aquellas variables cuyos valores representan
magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo esto en cuenta
discutiremos a continuación los diferentes procedimientos estadísticos que se pueden
utilizar de acuerdo al tipo de medida de cada variable.
Tabla 5-2
Si nos fijamos en la tabla 5-2, notaremos que los niveles Nominal y Ordinal cuentan con
los mismos procedimientos de análisis, por lo que se agrupan como variables categóricas.
A partir de este punto cuando nos refiramos a las variables categóricas debemos recordar
que se alude a las variables de tipo Nominal y Ordinal.
Es importante resaltar que para los análisis descriptivos no hay una gran diferencia entre
estos dos tipos de variables, pero si existe diferencia en los análisis de Inferencia. Antes
de conocer como se efectúan estos procedimientos en SPSS, es necesario exponer las
razones por las que ciertos procedimientos no son de utilidad en algunos de los niveles de
medida.