Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1427518895.U1-Estadística Descriptiva - Resumen de Contenidos
1427518895.U1-Estadística Descriptiva - Resumen de Contenidos
CONCEPTOS GENERALES
Si bien no hay una definicin de estadstica exacta, se puede decir que la
"estadstica es el estudio de los mtodos y procedimientos para recoger, clasificar,
resumir y analizar datos y para hacer inferencias cientficas partiendo de tales datos".
Esta definicin cubre gran parte de la actividad del cientfico. Es importante
observar que el objeto del que realiza el anlisis estadstico son los datos y las
observaciones cientficas por s mismos, mas que el material que interviene en el
estudio.
La estadstica se puede dividir en 2 categoras, la "estadstica descriptiva" y la
"inferencia estadstica".
La estadstica descriptiva implica la abstraccin de varias propiedades de
conjuntos de observaciones, mediante el empleo de mtodos grficos, tabulares
numricos. Entre estas propiedades, estn la frecuencia con que se dan varios valores
en la observacin, la nocin de un valor tpico o usual, la cantidad de variabilidad en un
conjunto de datos observados y la medida de relaciones entre 2 mas variables.
El campo de la estadstica descriptiva no tiene que ver con las implicaciones o
conclusiones que se puedan deducir de conjuntos de datos. La estadstica descriptiva
sirve como mtodo para organizar datos y poner de manifiesto sus caractersticas
esenciales con el propsito de llegar a conclusiones.
La inferencia estadstica se basa en las conclusiones a la que se llega por la
ciencia experimental basndose en informacin incompleta.
Por ejemplo, Mendel al estudiar la manera como diferan entre s las plantas de
guisantes en altura, color de las semillas, color de las vainas y color de las flores, tuvo
que hacer sus conclusiones necesariamente basndose en un grupo de plantas
relativamente poco numeroso comparado con toda la poblacin de plantas de
guisantes de un tipo particular.
Al hacer un enunciado, como por ejemplo, sobre el color de las flores, las
conclusiones de Mendel dependan de la muestra particular de plantas disponibles para
este estudio.
En la terminologa estadstica, el procedimiento inductivo implica el hacer
inferencias acerca de una poblacin adecuada universo a la luz de lo averiguado en
un subconjunto aparte o muestra.
La inferencia estadstica se refiere a los procedimientos mediante los cuales se
pueden hacer tales generalizaciones inducciones.
Bibliografa consultada:
Spiegel M. R y Stephens L. J. (2001): Estadstica. McGraw-Hill. Mxico.
Lind D. A, Marachal W. G. y Mason R. D. (2004): Estadstica para Administracin y Economa. Ed. Alfaomega.
Mxico.
De la Horra Navarro J. (2003): Estadstica Aplicada. Ediciones Daz de Santos. Espaa.
Moore D. S. ( 2000): Estadstica Aplicada Bsica. Antoni Bosch Editor S.A. Espaa.
Navidi William (2006): Estadstica para Ingenieros y Cientficos. Ed. McGraw-Hil.
2.1-
Tipos de variables:
Los tipos de variables fundamentales, por lo menos para este tema, sern los
siguientes:
a. Variables Cuantitativas o Cardinales: susceptibles de medicin cuantitativa; o
sea son las que se describen por medio de nmeros y las que a su vez
comprenden:
i. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de valores es a
lo sumo numerable. Sus valores pueden representarse siempre por X 1, X2, ,
Xn.; y slo se pueden asociar a un nmero entero, es decir, aquellas que por su
naturaleza no admiten un fraccionamiento de la unidad
Ejemplos:
o Nmero de hijos en el hogar
o .Pginas de un libro
ii. Variable Cuantitativa Continua: son aquellas que pueden tomar todos los
valores de un intervalo de nmeros reales, o sea que no se pueden expresar
mediante un nmero entero, es decir, aquellas que por su naturaleza admiten
que entre dos valores cualesquiera la variable puede tomar cualquier valor
intermedio.
Ejemplos:
o variable temperatura en grados Celsius (escala de intervalos).
o variable longitud en cm. (escala de razn).
o variable peso.
o variable tiempo
b. Variables Cualitativas (Atributos) o Ordinales: susceptibles de ordenacin,
pero no de medicin cuantitativa, reflejan generalmente los atributos del
fenmeno. Los atributos son aquellos caracteres que para su definicin precisan
de palabras, es decir, no le podemos asignar un nmero, y a su vez las podemos
clasificar en:
i. Ordenables: aquellas que sugieren una ordenacin, por ejemplo la graduacin
militar, el nivel de estudios, etc.
ii. No Ordenables: aquellas que slo admiten un ordenamiento alfabtico, pero
no establece orden por su naturaleza,, por ejemplo el color del cabello, sexo,
estado civil, etc.
Nota: en muchos casos el tratamiento estadstico hace que a variables discretas
las trabajemos como si fuesen continua y viceversa (por ejemplo la edad de las
personas variable continua- se trabaja en aos cumplidos variable discreta-. En
otros casos las variables cualitativas (atributos) se trabajan como variables
cuantitativas, por ejemplo en los concursos de belleza se recurre a un sistema de
calificacin por puntos.
2.2-
Escalas de medicin:
a. Escala Nominal:
Es una escala en que se establece un nmero determinado de clases o
categoras de tal modo que cada elemento de la poblacin pertenece a una y slo
3
b. Escala Ordinal:
Es una escala nominal entre cuyas clases est definido un orden, de
modo que cualquiera que sean dos de ellas, una ser mayor o superior, en algn
sentido, que la otra.
Por ejemplo:
o Evaluaciones en un examen: 5, 4, 3 y 2.
o Grado de satisfaccin de una necesidad: alto, medio, bajo
o Conocimiento de un idioma: excelente, bien, regular, mal
c. Escala de Intervalos:
No es ms que una escala ordinal con una distancia, una unidad de
medida entre sus clases de modo tal que, dado dos puntajes cualesquiera, se puede
saber cuan distante est uno del otro. La unidad de medida es arbitraria, pero comn
y el punto de inicio (cero) es tambin arbitrario.
Cuando se tiene una escala de intervalo se pueden realizar las operaciones de
adicin y sustraccin, pero no necesariamente la multiplicacin y divisin dentro de la
escala.
Por ejemplo:
o La temperatura del aire. (caluroso, fresco, agradable, etc.)
d. Escala de Razones:
Es una escala de intervalos donde existe un cero absoluto que marca la
ausencia total del atributo en estudio.
La proporcin entre los atributos de dos
individuos cualesquiera es independiente de la escala de medida utilizada. En ella la
razn entre dos clases (puntajes) cualesquiera permanece invariable ante toda la
transformacin de la escala de razn, o sea ante toda transformacin del tipo y=(x).
De aqu que siempre el cero de la escala transformada coincide con el cero de la
escala original.
En las escalas de razones es posible realizar todas las operaciones aritmticas
con los puntajes.
Por ejemplo:
o Estatura de los alumnos: la estatura en metros es proporcional a la
estatura en pulgadas.
o Peso de los alumnos: (en libras o kilogramos)
4
2.3-
Valores de la variable
Xi
(datos)
X1
X2
Xn
fn
f1/N
f2/N
fn/N
Intervalos
(C)
X1-X2
X2-X3
Xn-1-Xn
Xn
fn
Donde
X X
Xmi = ------------- = Marca de clases
2
N = fi = Nmero de observaciones
C = X X = Amplitud del intervalo
Caracterstica Z
fZ
2.4-
La forma de cmo agrupar los datos muchas veces depende del objeto de
estudio para el cual se realiza el anlisis de los datos, con lo cual, no hay una nica
manera de presentar los datos en intervalos de clase.
Sin embargo, si a priori no se sabe como agruparlos, existe una tcnica que sirve
para determinar la forma en que podramos presentar dichos datos de manera
agrupada (o en clases).
Dicha tcnica es la siguiente:
Una vez ello, se puede obtener la amplitud de cada intervalo de clase, que lo
llamamos h. En el caso que se busquen amplitudes regulares, entonces la
amplitud de cada intervalo se obtiene de la siguiente manera:
h
w
k
1
) . Por lo
Por ltimo, debe definirse el lmite inferior de la primear clase ( l inf
general se toma el valor mnimo observado, aunque ello tambin depender de
la conveniencia, ya que tal vez sea mejor recurrir a otro valor. Por ejemplo, si
tenemos un mnimo de 1,503 m, tal vez convenga empezar con 1,5m.
Nota aclaratoria: como los valores verdaderos a utilizar de k, h y l 1 inf no siempre son
exactamente los valores que surgen de las relaciones antes planteadas (ya sea por
temas de redondeo en el caso de k o por aproximacin, segn conveniencia, en los
casos de h o l 1 inf ), entonces para garantizar que los intervalos cubran todo el rango
de variacin de los datos observados, necesariamente debe cumplirse que:
k*h+
Ejemplo:
La tienda CANTORAS Y ASOC. estaba interesada en efectuar un anlisis de
sus cuentas por comprar. Uno de los factores que ms interesaba a la administracin
de la tienda era el de los saldos de las cuentas de crdito. Se escogi al azar una
muestra aleatoria de 30 cuentas y se anot el saldo de cada cuenta (en unidades
monetarias) como sigue:
77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99
43.66 29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97
32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68
Solucin:
1- Efectuar el arreglo ordenado de la poblacin o muestra:
A= ( 7.42, 8.15, , , , 90.99, 93.91 )
donde: X1 = valor mnimo = 7.42
Xn= valor mximo = 93.91
2 - Encontrar el rengo o recorrido de los datos: w
w = valor mayor valor menor = Xn X1 = 93.91 7.42 = 86.49
3- Encontrar en nmero de clases k, segn la frmula del logaritmo, dado que
n<100. :
k=1+3.322(log N)
Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra:
K = 1 + 3.322 (log 30)
= 1 + 3.322 (1.477) el log fue obtenido segn calculadora
= 1+ 4.9069
= 5.9069 ~6 aproximado al siguiente entero
4- Determinar la amplitud de la clase: h
w
86.49
h = -------- = ---------- = 14.415
k
6
Clases
7.420 21.835
21.835
36.250
36.250
50.665
50.665
65.080
65.080
79.495
79.495
93.910
Total
fa
fa
fra
14.628 10 0.33
29.043 4 0.13
10
14
30
20
0.33 1.00
0.46 0.67
43.458
0.17
19
16
0.63 0.54
57.873
0.10
22
11
0.73 0.37
72.288
0.10
25
0.83 0.27
86.703
0.17
30
1.00 0.17
X mi
XXX
fi
fr
fra
Nota: obsrvese que se va a trabajar con una cifra significativa ms cmoda, o sea
como los datos estn dados en centsimos, se calculo C hasta los milsimos para
evitar que algn dato coincida con el lmite de clases
Simbologa utilizada:
X mi = Punto medio o marca de clases
fi
= frecuencia absoluta
fr
= frecuencia relativa
fa = frecuencia absoluta acumulada descendente
fa = frecuencia absoluta acumulada ascendente
fra = frecuencia relativa acumulada descendente
fra = frecuencia relativa acumulada ascendente
Nota:
iObsrvese que el lmite inferior de la primera clase es el valor mnimo
( X1=7.42 ) y el lmite superior es el resultado de X 1+h = 7.42+14.415 =
21.835.
iiEl lmite inferior de la siguiente clase es igual al lmite superior de la
clase anterior y el lmite superior es el resultado de adicionarle
nuevamente la amplitud de la clase (h ).
iiiObsrvese que el lmite superior de la ltima clase es igual al valor
mayor
( Xn=93.91 )
3. TABLA DE DISTRIBUCIN DE FRECUENCIAS.
Una de los primeros pasos que se realizan en cualquier estudio estadstico es la
tabulacin de resultados, es decir, recoger la informacin de la muestra resumida en
una tabla, que denominaremos distribucin de frecuencias, en la que cada valor de la
variable se le asocian determinados nmeros que representan el nmero de veces que
ha aparecido, su proporcin con respecto a otros valores de la variable, etc.
Por tanto, llamaremos distribucin de frecuencias a un agrupamiento de datos
en clases acompaada de sus frecuencias: frecuencias absolutas, frecuencias relativa
o frecuencia porcentuales. En caso de que las variables estn al menos en escala
ordinal aparecen opcionalmente las frecuencias acumuladas absolutas, y frecuencias
acumuladas porcentuales. Las distribuciones de frecuencias varan en dependencia si
corresponden a una variable discreta o a una variable continua.
3.1-
- Polgono de frecuencias:
El polgono de frecuencias es un grfico formado por lneas quebradas, que
tiene los centros de las clases representadas en un eje horizontal (eje de las X) y las
frecuencias de las clases en un eje vertical (eje de las Y).
La frecuencia
correspondiente a cada centro de clase se seala mediante un punto y luego los puntos
consecutivos se unen por lneas rectas. Del correspondiente histograma se puede
lograr el polgono de frecuencia uniendo los puntos medios de las bases superiores de
cada rectngulo mediante lneas rectas.
11
-Ojivas:
Las ojivas se refieren a los grficos que se construyen utilizando una distribucin
acumulativa de frecuencias, el orden de acumulacin se aplica al cuadro de distribucin
de frecuencia y puede ser descendente (fa, fra) o ascendente (fa, fra). La figura
que se forma al unir los puntos del polgono de frecuencias acumulativas es lo contrario
del orden anunciado (por ejemplo si se utiliz el orden descendente en la acumulacin
de los datos en el cuadro, la ojiva resulta ser ascendente).
12
X
i 1
x max x min
2
logaritmos de la variable:
N
i 1
La media geomtrica, a diferencia de la media aritmtica no est influenciada por
valores extremos grandes, pero s se ve afectada por valores extremos chicos y no
puede calcularse para valores de la variable negativos. Suele utilizarse en la
construccin de nmeros ndices.
Media armnica: Es el inverso de la media aritmtica de los inversos de las
observaciones.
H
n
n
x
i 1
13
xw
w x
i 1
n
w
i 1
Pi x
100
2
Qi x
sumatoria de valor absoluto de las diferencias de todos los valores con respecto de la
media. Luego se divide por el nmero de observaciones.
Una medida como sta tiene la ventaja de que utiliza cada observacin y corrige
la variacin en el nmero de observaciones al hacer la divisin final. Y por ltimo
tambin se expresa en las mismas unidades que las observaciones mismas.
DM x
i 1
( xi x ) * f i
n
2
x
Varianza Poblacional: x2
i 1
( xi x ) 2 * f i
n 1
i 1
( xi x ) 2 * f i
N
Esta frmula tiene una desventaja, y es que sus unidades no son las mismas
que las de las observaciones, ya que son unidades cuadradas.
Esta dificultad se soluciona, tomando la raz cuadrada de la ecuacin anterior,
que es la desviacin tpica.
La diferencia entre la varianza muestral y poblacional es que se divide a la
sumatoria de las diferencias al cuadrado por el total de la poblacin (N) y para las
muestras por (n-1), que es el numero de observaciones de la muestra menos uno. Ello,
por desgracia ahora no podemos analizarlo, ni dar una respuesta entendible, tema que
se analizar en la unidad correspondiente a estimadores.
Desviacin tpica: Es la raz cuadrada de la varianza.
Desvo muestral: S S 2
x
x
i 1
Desvo poblacional:
x
2
x
( xi m x ) 2 * f i
n 1
n
i 1
( xi x ) 2 * f i
N
Media muestral:
x
i 1
mi
* fi
Donde:
k = cantidad de intervalos; n= n de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
k
Media Poblacional:
x
i 1
* fi
mi
Donde:
k = cantidad de intervalos; n= n de observaciones;
xmi = valor medio del intervalo i; fi = frecuencia absoluta del intervalo i
k
Varianza muestral:
(x
i 1
mi
x) 2 * f i
(n 1)
Donde:
k = cantidad de intervalos; n= nmero de observaciones;
xmi = valor medio del intervalo i
x = media muestral para datos agrupados
k
Varianza poblacional:
(x
i 1
mi
mx ) 2 * f i
n
Donde:
k = cantidad de intervalos; n= nmero de observaciones.
xmi = valor medio del intervalo i.
m x media poblacional.
n
( f an ) * I
Mediana: L 2
=
i
fa
Donde: fan = Frecuencia acumulada del intervalo anterior al que contiene la mediana.
I = longitud del intervalo o clase que contiene la median.
Li = lmite inferior del intervalo que contiene la mediana.
fa = frecuencia absoluta del intervalo que contiene la mediana.
16
Modo: Li (
d1
)*I =
d1 d 2
Qi Linf
i*n
Fant )
[ 4
]* I
fa
;
Di Linf
i*n
Fant )
[ 10
]* I ;
fa
Qi Linf
i*n
Fant )
[ 100
]* I
fa
(
Donde:
Qi= cuartil i ; Di = decil i ; Pi = percentil i;i = numero de cuartil / decil / percentil; n= total
de observaciones.
Linf Lmite exactamente inferior del intervalo que contiene el cuartil / decil/ percentil.
Fant frecuencia acumulada simple del intervalo anterior al que contiene el cuartil /
decil / percentil.
f a frecuencia absoluta del intervalo que contiene el cuartel /decil / percentil.
s R
As=
u3
3
n
i 1
( Xi X ) 3 * fi
n
i 1 ( xi x) 2 * fi
Resultados posibles:
m me
, donde si Cam - me
s
3 * ( m me )
,
s
En este caso el rango de variacin es (-3;3), donde:
CA2 0 La distribucin es simtrica
CA1 0 La distribucin presenta asimetra positiva.
CA1 0 La distribucin presenta asimetra negativa.
Paquetes estadsticos:
CA3
n
( xi x) 3
[ (
) ],
(n 1) * (n 2)
s
i 1
4
3
4
( xi x) 4 * fi
n
n
i 1
( xi x) * fi
)4
Resultados posibles:
K = 0 la distribucin es MESOCTICA (posee la misma altura que una distribucin
normal estndar).
K > 0 la distribucin es LEPTOCRTICA (posee MAYOR altura que una distribucin
normal estndar).
18
n( n 1)
xi x 4
3( n 1) 2
n
(
)
}
( n 1)(n 2)(n 3) i 1
s
(n. 2)(n 3)
(x m
) * ( y my )
o alternativamente:
n
Cov( x; y )
( xi * y i )
i 1
xi
i 1
y
i 1
Es una medida que sirve para diagnosticas si dos variables son independientes.
En este sentido, se entiende que la variable X es independiente de Y, si no existe
relacin entre los valores que toma la variable X con respecto a los valores que toma la
variable Y (asociar con eventos independientes en probabilidad).
De este modo, la covarianza da idea del grado de asociacin lineal entre
variables. Es como una medida de intensidad de asociacin lineal. Si Cov(X;Y) = 0,
entonces se entiende que no existe asociacin lineal entre las variables lo cual indica
que son independientes.
19
Cov(X;Y) > 0, nos indica una asociacin lineal positiva, es decir, que si los valores
de X crecen, por lo general tambin lo harn los valores de la variable Y.
Cov(X;Y) < 0, nos indica una asociacin lineal negativa, es decir, que si los valores
de X crecen respecto a su media, por lo general los valores de Y caern respecto de
su media.
La Covarianza posee la caracterstica que posee unidades, las cuales est dada
por la multiplicacin de las unidades de la variable X e Y. Ello en la prctica genera
algunas desventajas dado que a los efectos de comparar covarianzas para variables
diferentes, no es posible determinar cual de los dos pares de variables aleatorias est
mas relacionado, dado que las dos covarianzas presentan unidades diferentes.
Para ello, se utiliza el concepto de correlacin, que no posee unidades.
Correlacin: ( x;Y )
Cov ( X ; Y )
x y
Cov ( X ; Y )
=0, lo cual indica
x y
20