Documentos de Académico
Documentos de Profesional
Documentos de Cultura
10 12 13 13 13 13 13 14 15 15 16 16 17 17 18 18 18 20 20 20
Edad..........Frecuencia
10..................1
11..................0
12..................1
13..................5
14..................1
15..................2
16..................2
17..................2
18..................3
19..................0
20..................3
Total............20
Es decir, tenemos menos de 20 elementos en la muestra, entonces estos datos son
analizados sin necesidad de formar clases con ellos y a esto es a lo que se le llama
tratamiento de datos no agrupados. Cuando la muestra consta de 20 o más datos, lo
aconsejable es agrupar los datos en clases y a partir de estas determinar las
características de la muestra y por consiguiente las de la población de donde fue tomada.
Distribución de frecuencia para datos no Agrupados (n20): Es aquella distribución en la
que la disposición tabular de los datos estadísticos se encuentran ordenados en clases y
con la frecuencia de cada clase; es decir, los datos originales de varios valores
adyacentes del conjunto se combinan para formar un intervalo de clase. No existen
normas establecidas para determinar cuándo es apropiado utilizar datos agrupados o
datos no agrupados; sin embargo, se sugiere que cuando el número total de datos (N) es
igual o superior 20, se utilizará la distribución de frecuencia para datos agrupados,
también se utilizará este tipo de distribución cuando se requiera elaborar gráficos lineales
como el histograma, el polígono de frecuencia o la ojiva. La razón fundamental para
utilizar la distribución de frecuencia de clases es proporcionar mejor comunicación acerca
del patrón establecido en los datos y facilitar la manipulación de los mismos. Los datos se
agrupan en clases con el fin de sintetizar, resumir, condensar o hacer que la información
obtenida de una investigación sea manejable con mayor facilidad.
DATOS
Los datos son los valores de la muestra recogida en el estudio estadístico
FRECUENCIA ABSOLUTA
La frecuencia absoluta (ni) es el número de veces que aparece un determinado valor en un
estudio estadístico. Número de veces que se repite el í-esimo valor de la variable. La suma
de las frecuencias absolutas es igual al número total de datos, que se representa por n
N1 = n1
FRECUENCIA RELATIVA
La frecuencia relativa (fi) es la proporción de veces que se repite un determinado dato.
fi = ni/n
F1 = fl
Fk = 1
Total 40 1.000
Media ( x ).
k
x*f i i ( 6.075 )( 2 ) ( 6.295 )( 5 ) ... ( 7.175 12.15 31.475 ... 43.05
)( 6 )
x i1
n 40 40
268.52
= 6.713 pu lg adas
40
Donde:
k = número de clases
xi = marca de clase i
fi = frecuencia de la clase i
k n = i1
f i
número de datos
en la muestra
Mediana.
Mediana (Xmed).
n / 2 Fme 1 40 / 2
14 Li
Xmed A 6.625
6.7265
fme ( 0.22 )
13
Donde:
A = LRS-LRI
Moda.
Moda (Xmod).
d1 6
X mod Li A 6.625
6.735 pu lg adas
d1 d 2 6 6 ( 0.22 )
Donde:
fmo fmo 1 13 7 6
d1 = =
d2 = fmo fmo 1 = 13 7 6
A = LRS – LRI
Ejemplo
Consideramos una tabla estadística relativa a una variable continua, de la que nos
dan los intervalos, las marcas de clase ci, y las frecuencias absolutas, ni.
Intervalos ci ni
0 -- 2 1 2
2 -- 4 3 1
4 -- 6 5 4
6 -- 8 7 3
8 - 10 9 2
Para calcular la media podemos añadir una columna con las cantidades . La
suma de los términos de esa columna dividida por n=12 es la media:
Intervalos ci ni Ni
0 -- 2 1 2 2 2
2 -- 4 3 1 3 3
4 -- 6 5 4 7 20
6 -- 8 7 3 10 21
8 - 10 9 2 12 18
12 64
La mediana es el valor de la variable que deja por debajo de sí a la mitad de
las n observaciones, es decir 6. Construimos la tabla de las frecuencias
absolutas acumuladas, Ni, y vemos que eso ocurre en la modalidad tercera,
es decir,
MEDIA ARITMÉTICA
MEDIA PONDERADA
En algunas series estadísticas, no todos los valores tienen la misma importancia.
Entonces, para calcular la media se ponderan dichos valores según su peso, con lo
que se obtiene una media ponderada.
Si se tiene una variable con valores x 1, x2, ..., xn, a los que se asigna un peso
mediante valores numéricos p1, p2, ..., pn, la media ponderada se calculará como
sigue:
MEDIANA
MODA
1.1) PROPIEDADES
Guarda las mismas dimensiones que las observaciones. La suma
de valores absolutos es relativamente sencilla de calcular, pero esta
simplicidad tiene un inconveniente: Desde el punto de vista geométrico, la
distancia que induce la desviación media en el espacio de observaciones no
es la natural (no permite definir ángulos entre dos conjuntos de
observaciones). Esto hace que sea muy engorroso trabajar con ella a la hora
de hacer inferencia a la población.
Cuando mayor sea el valor de la desviación media, mayor es la dispersión
de los datos. Sin embargo, no proporciona una relación matemática precisa
entre su magnitud y la posición de un dato dentro de una distribución.
La desviación media al tomar los valores absolutos mide una observación
sin mostrar si la misma está por encima o por debajo de la media aritmética.
Serán las mismas que las planteadas anteriormente al hablar de datos no agrupados.
Amplitud
Coeficiente de variación
Desviación estandar
Rango
Valor Z
Varianza
Medidas de dispersión. Parámetros estadísticos que indican como se alejan los datos
respecto de la media aritmética. Sirven como indicador de la variabilidad de los
datos. Las medidas de dispersión más utilizadas son el rango, la desviación estándar
y la varianza.
RANGO
Indica la dispersión entre los valores extremos de una variable. se calcula como la
diferencia entre el mayor y el menor valor de la variable. Se denota como R.
R = x(n) - x(1)
DESVIACIÓN MEDIA
xi:valores de la variable.
DESVIACIÓN ESTÁNDAR
Mientras menor sea la desviación estándar, los datos son más homogéneos, es decir
existe menor dispersión, el incremento de los valores de la desviación estándar
indica ina mayor variabilidad de los datos.
VARIANZA
Es otro parámetro utilizado para medir la dispersión de los valores de una variable
respecto a la media. Corresponde a la media aritmética de los cuadrados de las
desviaciones respecto a la media. Su expresión matemática es:
COEFICIENTE DE VARIACIÓN
DISTRIBUCIÓN ASIMÉTRICA
RELACIÓN ENTRE LA MEDIA, MEDIANA Y MODA
X = Me = Mo
Mo < Me < X
Mo > Me > X
COEFICIENTE DE ASIMETRÍA
CALCULO DE LA CURTOSIS
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (Media aritmética). La asimetría presenta tres estados
diferentes, cada uno de los cuales define de forma concisa como están
distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es
positiva cuando la mayoría de los datos se encuentran por encima del valor de la
media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la
misma cantidad de valores en ambos lados de la media y se conoce como
asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores
menores que la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la
distancia que separa la aglomeración de los valores con respecto a la media.
6. CURTOSIS
Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción
a las principales medidas de Estadística Descriptiva; es de gran importancia que
los lectores profundicen en estos temas ya que la principal dificultad del
paquete SPSS radica en el desconocimiento de los conceptos estadísticos.
Las definiciones plasmadas en este capítulo han sido extraídas de los libros
Estadística para administradores escrito por Alan Wester de la editorial McGraw-
Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe editores
(Octava edición). No necesariamente tienes que guiarte por estos libros ya que en
las librerías encontraras una gran variedad de textos que pueden ser de bastante
utilidad en la introducción a esta ciencia.
Diagramas de barras:
Gráficos estadísticos
Los gráficos son medios popularizados y a menudo los más convenientes para presentar datos, se emplean
para tener una representación visual de la totalidad de laࠩ
nformación. Los gráficos estadísticos presentan
los datos en forma de dibujo de tal modo que se pueda percibir fácilmente los hechos esenciales y
compararlos con otros.
1 La siguiente tabla dos muestra la variación del precio de las patatas, según el
número de kilogramos que compremos.
Kg de patatas 1 2 3 4 5
Precio en € 2 4 6 8 10
En esa gráfica podemos observar que a medida que compramos más kilos de
patatas el precio se va incrementando.
2 La siguiente tabla nos indica el número de alumnos que consiguen una
determinada nota en un examen.
Nota 0 1 2 3 4 5 6 7 8 9 10
Nº de alumnos 1 1 2 3 6 11 12 7 4 2 1
En esta gráfica observamos que la mayor parte de los alumnos obtienen una nota
comprendida entre 4 y 7.
1.3.1 DIAGRAMA DE DISPERSION
Un diagrama de dispersión es un tipo de diagrama matemático que
utiliza las coordenadas cartesianas para mostrar los valores de dos
variables para un conjunto de datos.
Los datos se muestran como un conjunto de puntos, cada uno con el valor
de una variable que determina la posición en el eje horizontal y el valor de
la otra variable determinado por la posición en el eje vertical. 1 Un diagrama
de dispersión se llama también gráfico de dispersión.
Los Diagramas de Dispersión o Gráficos de Correlación permiten estudiar la
relación entre 2 variables. Dadas 2 variables X e Y, se dice que existe una
correlación entre ambas si cada vez que aumenta el valor de X aumenta
proporcionalmente el valor de Y (Correlación positiva) o si cada vez que
aumenta el valor de X disminuye en igual proporción el valor de Y (Correlación
negativa).
En un gráfico de correlación representamos cada par X, Y como un punto
donde se cortan las coordenadas de X e Y:
Veamos un ejemplo. Supongamos que tenemos un grupo de personas adultas
de sexo masculino. Para cada persona se mide la altura en metros (Variable X)
y el peso en kilogramos (Variable Y). Es decir, para cada persona tendremos
un par de valores X, Y que son la altura y el peso de dicha persona:
Qué nos muestra este gráfico? En primer lugar podemos observar que las
personas de mayor altura tienen mayor peso, es decir parece haber una
correlación positiva entre altura y peso. Pero un hombre bajito y gordo puede
pesar más que otro alto y flaco. Esto es así porque no hay una correlación total
y absoluta entre las variables altura y peso. Para cada altura hay personas de
distinto peso:
Sin embargo podemos afirmar que existe cierto grado de correlación entre la
altura y el peso de las personas.
Cuando se trata de dos variables cualesquiera, puede no haber ninguna
correlación o puede existir alguna correlación en mayor o menor grado, como
podemos ver en los gráficos siguientes:
Por ejemplo, en el siguiente gráfico podemos ver la relación entre el contenido
de Humedad de hilos de algodón y su estiramiento:
El Diagrama de Dispersión tiene el propósito de controlar mejor el proceso y
mejorarlo, resulta indispensable conocer como se comportan algunas variables o
características de calidad entre si, esto es, descubrir si el comportamiento de unas
depende del comportamiento de otras, o no, y en qué grado.
El estudio puede ampliarse para incluir una medida cuantitativa de tal relación.
Paso 1.- Recolectar n parejas de datos de la forma (Xi, Yi), con i = 1, 2, 3,…n
donde Xi y Yi representan los valores respectivos de las dos variables. Los datos
se suelen representar en una tabla.
Paso 2.- Diseñar las escalas apropiadas para los ejes X y Y.
Paso 3.- Graficar las parejas de datos. Si hay puntos repetidos, se mostrarán como
círculos concéntricos.
Paso 4.- Documentar el diagrama.
La lectura se hace en base al tipo de relación entre los datos; lo fuerte o débil de la
relación, la forma de la relación y la posible presencia de punto anómalos.
dd1
Pero se ganará conocimiento de este último al estudiar las causas por las que se
presentaron los puntos.
donde:
39
n es el número de parejas de datos. El término S(xy) se llama covarianza.
|r| = < 1
dd2
Ejemplo
dd3
dd4
40
Y=a+bX
a = (ƩYi – bƩXi)v/ n
Y = a + b X Y = 1.15 + 0.0025 X
41
La desigualdad de Chebyshev es un resultado estadístico que ofrece una cota
inferior a la probabilidad de que el valor de una variable aleatoria con varianza finita
esté a una cierta distancia de su esperanza matemática o de su media;
equivalentemente, el teorema proporciona una cota superior a la probabilidad de
que los valores caigan fuera de esa distancia respecto de la media. El teorema es
aplicable incluso en distribuciones que no tienen forma de "curva de campana" y
acota la cantidad de datos que están o no "en medio".Teorema: Sea X una variable
aleatoria de media µ y varianza finita s². Entonces, para todo número real k > 0,Sólo
los casos con k > 1 proporcionan información útil. Para ilustrar este resultado,
supongamos que los artículos de Wikipedia tienen una extensión media de 1000
caracteres y una desviación típica de 200 caracteres. Dela desigualdad de
Chebyshev se deduce que al menos el 75% de los artículos tendrán una extensión
comprendida entre 600 y 1400 caracteres (k = 2).Otra consecuencia del teorema es
que para cada distribución de media
· Los datos están en unidades diferentes (como U$S y días de asistencia).· Los
datos están en las mismas unidades, pero las medias muy distantes(ingresos de
superiores e ingresos de empleados).o Coeficiente de variación: es la razón
(cociente) de la desviación estándar a la media aritmética, expresada como un
porcentaje:sCV = (100)XKarl Pearson desarrolló también una medida para evaluar
el grado de orientación al sesgo, denominada coeficiente de asimetría (CA):3 (media
- mediana)CA =Desviación Estándar· Otras medidas de dispersión:Un método es
determinar la ubicación de los valores que dividen un conjunto de observaciones en
42
partes iguales. Estas medidas son:o Los cuartiles, que dividen un conjunto de
observaciones en 4 partes iguales(conjuntos ordenados de menor a mayor). El
primer cuartil (Q1) es el valor abajo del cual se encuentra el 25% de las
observaciones, y, el tercer cuartil (Q3)es el valor por abajo del cual se encuentra el
75% de las observaciones. Q2 es la mediana.o Los deciles dividen un conjunto de
observaciones en 10 partes iguales.o Los centiles se utilizan para reportar
resultados acerca de ciertas pruebas nacionales estandarizadas, empleado para
calificar la admisión a programas.· Cuartiles, Deciles y Centiles ( o Porcentiles):Para
formalizar el procedimiento, sea Lp la ubicación del centil deseado.Ej: porcentil 33
L33. El número de observaciones es n. Entonces se aplica: (n +1)/2
Se indican dos asteriscos (**) . Uno indica n dato “impropio”. Un dato incongruente
es un valor inconsciente con el resto de los datos. Es como aquel valor que más de
1,5 veces el valor de la amplitud intercuartílica, mayor que Q3 o bien, menor que
Q1.Dato incongruente = Q1 - 1,5 (Q3 - Q1)La desigualdad de Chébyshev es muy
importante, ya que permite determinar los límites de las probabilidades de variables
aleatorias discretas o continuas sin tener que especificar sus funciones de
probabilidad. Este teorema asegura que la probabilidad de que una variable
aleatoria se aleje de la media no más de desviaciones estándar, es menor o igual a
1/k2 para algún valor de k >1. Aunque la garantía no siempre es muy precisa, la
ventaja sobre este teorema es su gran generalidad por cuanto es aplicable a
cualquier variable aleatoria con cualquier distribución de probabilidad, ya sea
discreta o continua.
43
En un conjunto de datos que se distribuye, o se encuentra en forma de curva
de campana, este posee unas ciertas características interesantes que vale la
pena resaltar. Uno de ellos se ocupa de la propagación de los datos, cuando
se encuentra en relación con el número de la desviación estándar de la media.
Cuando sucede una distribución normal, se sabe que al menos un 68% de los
datos es una desviación estándar de la media. Por otro lado, el 95% son dos
desviaciones están de la media, y el 99% aproximadamente se encuentra
dentro de las tres desviaciones estándar de la media.
Cuando sucede una distribución normal, se sabe que al menos un 68% de los
datos es una desviación estándar de la media. Por otro lado, el 95% son dos
desviaciones están de la media, y el 99% aproximadamente se encuentra
dentro de las tres desviaciones estándar de la media.
Cuando sucede una distribución normal, se sabe que al menos un 68% de los datos
es una desviación estándar de la media. Por otro lado, el 95% son dos desviaciones
están de la media, y el 99% aproximadamente se encuentra dentro de las tres
desviaciones estándar de la media.
46
Sin embargo, si el conjunto de estos datos no se logra distribuir adecuadamente,
en forma de curva de campana, entonces la cantidad diferente podría encontrarse
dentro de una desviación estándar. El Teorema de Chebyshev es el encargado de
explicar una manera de saber qué fracción de datos se encuentra dentro de las
desviaciones estándar K de la media para cualquier conjunto de datos en específico.
Cuando se muestrea los datos del teorema, es útil saber cuán dispensables o
dispersas son las mediciones en este rango. Por ejemplo, suponga que ha estado
rastreando sus gastos de desayuno y, en promedio, gasta unos 10$ por día antes y
durante el trabajo. Probablemente le interesaría saber si gastó constantemente esa
cantidad o si tuvo unos gastos muy grandes que sesgaron el promedio general.
47
Por lo que vemos, es una excelente manera de ver estadísticamente cuántos
gastos hemos hecho de acuerdo a la probabilidad estándar del Teorema de
Chebyshev. Si bien esta ecuación a menudo da como resultado un rango
relativamente amplio de valores, es útil porque solo requiere el conocimiento de la
media y la desviación estándar, que se calculan fácilmente a partir de cualquier
muestra o población de datos. El teorema también proporciona lo que podría
llamarse una mirada en el peor de los casos de la dispersión de datos, como se
mencionó anteriormente.
Para poder investigar este teorema, primero es necesario comparar los cálculos con
la regla general 68-95-99.7 para distribuciones normales. Dado que esos números
representan los datos que se encuentran dentro de los límites, se utiliza la
desigualdad de Chebysgev para los datos dentro de los límites. Esta fórmula es la
siguiente.
Probabilidad = 1 – (1 / k 2 )
Esto es menos preciso que los 95% y 99.7% que se pueden usar para una
distribución normal conocida; sin embargo el Teorema de Chebyshev es cierta para
todas las distribuciones de los datos, no solo para una distribución normal.
48
Ejemplo del Teorema de Chebyshev
Lo anterior solo nos dice que el 75% de los perros tienen un peso de 14 libras a 26
libras. Este es un ejemplo bastante práctico de cómo funciona el Teorema de
Chebyshev o al menos cómo se puede emplear en un ejemplo de la vida real. La
estadística se encuentra siempre al tanto.
49
Límites del teorema
Variables estandarizadas
Semivarianzas
50