Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. 1. Definicin de Estadstica
2. 2. Conceptos generales
3. 3. Tratamiento de la informacin
4. 4. Representacin de los datos
5. 5. Medidas de centralizacin
6. 6. Medidas de dispersin
7. 7. Estadstica bidimensional
8. 8. Correlacin
9. 9. Regresin
Definicin de Estadstica : la palabra estadstica procede del vocablo "estado" pues era funcin principal de
los gobiernos de los estados establecer registros de poblacin , nacimientos , defunciones , etc . Hoy en da la
mayora de las personas entienden por estadstica al conjunto de datos , tablas , grficos , que se suelen
publicar en los periodicos . En la actualidad se entiende por estadstica como un mtodo para tomar decisiones
, de ah que se emplee en multitud de estudios cientficos . La estadstica se puede dividir en dos partes :
-Estadstica descriptiva o deductiva , que trata del recuento , ordenacin y clasificacin de los datos
obtenidos por las observaciones . Se construyen tablas y se representan grficos , se calculan parmetros
-Estadstica inferencial o inductiva , que establece previsiones y conclusiones sobre una poblacin a partir
de los resultados obtenidos de una muestra . Se apoya fuertemente en el clculo de probabilidades .
Poblacin : es el conjunto de todos los elementos que cumplen una determinada caracterstica . Ejemplo :
alumnos matriculados en COU en toda Espaa .
Carcter estadstico : es la propiedad que permite clasificar a los individuos , puede haber de dos
tipos : -Cuantitativos : son aquellos que se pueden medir . Ejemplo : n de hijos , altura ,
temperatura . -Cualitativos : son aquellos que no se pueden medir . Ejemplo : profesin , color de
ojos , estado civil .
Variable estadstica : es el conjunto de valores que puede tomar el carcter estadstico cuantitativo ( pues el
cualitativo tiene "modalidades'' ) . Puede ser de dos tipos : -Discreta : si puede tomar un nmero finito de
valores . Ejemplo : n de hijos -Continua : si puede tomar todos los valores posibles dentro de un intervalo .
Ejmplo : temperatura , altura .
Frecuencia absoluta fi : ( de un determinado valor xi ) al nmero de veces que se repite dicho valor .
Frecuencia relativa acumulada Hi : es el cociente Fi/N Si las frecuencias relativas las multiplicamos por 100
obtenemos los % .
Tratamiento de la informacin : se deben de seguir los siguientes pasos : -recogida de datos -ordenacin de
los datos -recuento de frecuencias -agrupacin de los datos , en caso de que sea una variable aleatoria
continua o bien discreta pero con un nmero
de datos muy grande se agrupan en clases .
N de clases = N
Representaciones grficas : para hacer ms clara y evidente la informacin que nos dan las tablas se utilizan
los grficos , que pueden ser :
% Diagramas de barras ( datos cualitativos y cuantitativos de tipo discreto ) . En el eje y se
pueden representar frecuencias absolutas o relativas .
% Histogramas ( datos cuantitativos de tipo continuo o discreto con un gran nmero de
datos ) . El histograma
consiste en levantar sobre cada intervalo un rectngulo cuyo rea sea igual a su frecuencia absoluta
rea = base altura fi = xi n
i
luego la altura de cada rectngulo vendr dada por ni que se llama funcin de densidad . Si por ejemplo
un intervalo es doble de ancho que los dems su altura ni debe ser la mitad de la frecuencia absoluta y as
no se puede inducir a errores . Normalmente la amplitud de los intervalos es cte por lo que ni ser
proporcional a fi y por tanto podemos tomar fi como la altura ni ya que la forma del grfico ser la
misma , aunque ahora el rea del rectngulo ya no sea exactamente la frecuencia absoluta ( a no ser que
la amplitud del intervalo sea igual a 1 ) .
Polgono de frecuencias
% Diagrama de sectores
% Cartogramas
% Pirmides de poblacin
% Diagramas lineales
% Pictogramas
CLCULO DE PARMETROS :
Medidas de centralizacin :
Media aritmtica :
x=
x1 + x2 + .....
=
xi
si son pocos datos
NN
12 i
x=
f x 1 + f x 2 + .....
=
f x i si son muchos valores pero se repiten mucho
f1 + f2 + ...... N En el caso de que los datos estn agrupados en clases
, se tomar la marca de clase como xi . No siempre se puede calcular la
media aritmtica como por ejemplo cuando los datos son cualitativos o
los datos estn agrupados en clases abiertas . Ejemplo : hacer los clculos
para el ejercicio de las notas
Moda : es el valor de la variable que presenta mayor frecuencia absoluta . Puede haber ms de una .
Cuando los datos estn agrupados en clases se puede tomar la marca de clase o utilizar la frmula :
d1
M0 = Linf + donde : Linf = lmite inferior de la clase modal , =amplitud
d1 + d2
Mediana : es el valor de la variable tal que el nmero de observaciones menores que l es igual al
nmero de observaciones mayores que l . Si el nmero de datos es par , se puede tomar la media
aritmtica de los dos valores centrales . Cuando los datos estn agrupados la mediana viene dada por el
primer valor de la variable cuya Fi excede a la mitad del nmero de datos . Si la mitad del nmero de
datos coincide con Fi se tomar la semisuma ente este valor y el siguiente . Cuando los datos estn
agrupados en clases se puede utilizar reglas de tres o la frmula :
N
F1 i M = Linf + 2
fi Grficamente se hace a partir del
polgono de frecuencias acumuladas .
Ejemplo : En el caso de las notas podras
ordenar de menor a mayor los datos y
obtendramos : 0 0 1 1 1 2 3 4 5 5 5 6 6 7 7
777888888899999
) luego la mediana sera 7 Tambin se podra observar las Fi y ver que en el 7 se excede a la mitad del n de
datos , es decir , sobrepasa el 15 .
Cuantiles : son parmetros que dividen la distribucin en partes iguales , as por ejemplo la mediana los
divide en dos partes iguales , los cuartiles son tres valores que dividen a la serie de datos en cuatro partes
iguales , los quintiles son cuatro valores que lo dividen en 5 partes , los deciles en 10 y los percentiles
en 100 . Se calculan de la misma manera que la mediana .
N
n
F1 i Tambin se puede utilizar la frmula : Cn = Linf +
100 donde n es el valor que deja el n% de fi valores por
debajo de l .
Medidas de dispersin :
0 Rango o recorrido : es la diferencia entre el mayor valor y el menor . Depende mucho de
los valores extremos por que se suele utilizar el rango intercuartlico = Q3 - Q1 o el rango entre
percentiles = P90 - P10
1 Ejemplo : Para el caso de las notas sera 9 - 0 = 9
% 2
Varianza s : es la media aritmtica de los cuadrados de las desviaciones respecto a la
media ( desviacin respecto a la media d = xi -x).
22 2
21 2
=
s=
NN
22 2
22
s=
f1 + f2 + .... N
Al igual que la media en el caso de que los datos estn agrupados en clases , se tomar la marca de clase
como
xi .
2
Otra forma de calcular s es :
22 22
fi (x x)fi (x + x x x 2 )x f 2= x f i
2
2
+x x2
2 i iiii i
2
s= = = x NNN N Se llama desviacin tpica s a la raz cuadrada de la
varianza . Es ms til que la varianza ya que tiene las mismas
dimensiones que la media Ejemplo : Hacer los clculos para el
ejercicio de las notas
-Coeficiente de variacin : es el cociente entre la desviacin tpica y la media aritmtica . Valores muy
bajos indican muestras muy concentradas .
C.V. =x
DISTRIBUCIONES BIDIMENSIONALES :
Tipos de tablas :
-Tabla de dos columnas xi , yi ( pocos datos )
-Tabla de tres columnas xi , yi , fi ( muchos datos y pocos valores posibles )
-Tablas de doble entrada ( muchos datos y muchos valores posibles )
x1 x2 ...... xn f*j
y1 f11 f21 ...... fn1 f*1
y2 f12 f22 ...... fn2 f*2
..... ..... ...... ...... ...... ......
ym f1m f2m ...... fnm f*m
fi* f1* f2* ...... fn* f**=N
Diagramas de dispersin :
Si hay pocos datos ( tabla de dos columnas ), se representan las variables en los ejes x e y . Si hay muchos
datos pero muy agrupados ( tabla de tres columnas y tablas de doble entrada ), se hace igual pero con los
puntos ms gordos segn la fi ,o se pintan muchos puntos juntos , o se pinta en tres dimensiones x , y , fi , con
lo que obtendramos un diagrama de barras en tres dimensiones . Si hay muchos datos y muchos valores
posibles , se pueden agrupar en clases , y se utilizan los estereogramas ( 3 dimensiones ) en los que el
volumen de cada prisma es proporcional a la frecuencia . Tambin se puede tomar la marca de clase de los
intervalos y tratar la variable continua como si fuese discreta .
Clculo de parmetros :
-Cuando hay pocos datos o estn muy agrupados ( tablas de 2 o 3 columnas )
22
f x i f y fi (x x)fi (y y)
i ii2i 2i
x = y = s = sy =
x
ii ii
s==xy
xy
f ( x x) = f (x x)
=x f i x
*i ij
s=
x ij
N
N
2
2jijj 2
f (y y)2 = f (y y)
=y f j y
*j
2
s=
y ij
N
N
fij (x x)(y y) y x f
xy
i j ijij
s==
xy
NN
Correlacin o dependencia : es la teora que trata de estudiar la relacin o dependencia entre las dos
variables que
intervienen en una distribucin bidimensional , segn sean los diagramas de dispersin podemos establecer
los
siguientes casos :
-Independencia funcional o correlacin nula : cuando no existe ninguna relacin entre las variables .( r =
0)
-Dependencia funcional o correlacin funcional : cuando existe una funcin tal que todos los valores de la
Ejemplo : a 12 alumnos de COU se les toma las notas de los ltimos exmenes de Matemticas , Fsica y
Filosofa :
Matemticas Fsica Filosofa
2 1 2
3 3 5
4 2 7
4 4 8
5 4 5
6 4 3
6 6 4
7 4 6
7 6 7
8 7 5
10 9 5
10 10 9
Coeficiente de correlacin lineal : es una forma de cuantificar de forma ms precisa el ttipo de correlacin
que hay entre las dos variables .
s
x
y
r=
s
x
y
Pgina
6 de 7
Regresin : consiste en ajustar lo ms posible la nube de puntos de un diagrama de dispersin a una curva .
Cuando esta es una recta obtenemos la recta de regresin lineal , cuando es una parbola , regresin
parablica , cuando es una exponencial , regresin exponencial , etc . ( logicamente r debe ser distinto de 0 en
todos los casos ) .
s
xy
s
x
valores yj obtenidos experimentalmente y los valores tericos de y.
xy
sA valor se le llama coeficiente de regresin de y sobre x ( nos da la pendiente de la recta de
regresin ).
2
s
x
s
xy
s
y
valores xi obtenidos experimentalmente y los valores teoricos de x.
xy
sA valor se le llama coeficiente de regresin de x sobre y ( su inversa nos da la otra pendiente ) .
2
s
y