Está en la página 1de 10

Tema 2 Estadística descriptiva 1

1. Conceptos y objetivos de la estadística descriptiva

ESTADÍSTICA: Conjunto de técnicas y métodos para:


• Clasificar, organizar, representar y resumir (en suma hacer
entendible) la información obtenida de las variables observadas
sobre una muestra representativa.
• Inferir (def.: inducir una cosa de otra) conclusiones para toda una
población a partir de la información obtenida en la muestra.
• Construir Modelos Matemáticos que expresen relaciones entre
conjuntos de variables.
• Estructurar la recogida de información (datos) de modo que la
inferencia se realice de forma óptima dentro de las restricciones
existentes (de capacidad de experimentación u observación, de
tiempo, económicas, ...)
TIPOS DE POBLACIONES DE ESTUDIO:
• POR TAMAÑO: Finitas (Alumnos matriculados en laFacultad
este curso) o infinitas (puntos de una superficie o de un
volumen)
• POR ACCESIBILIDAD: Reales (Turistas que han visitado la
isla durante el año 2001) o virtuales (Turistas que visitarán la
isla durante el año 2003)

POBLACIÓN es un conjunto de objetos (o sujetos) de una misma


naturaleza, sobre los que se pretende realizar alguna clase de estudio:
• Evaluar una o varias características de los objetos.
• Evaluar las posibles relaciones existentes entre estas características.
• Verificar la validez de alguna hipótesis previa.

Ejemplos:
Habitantes de Gran Canaria; ballenas del Mar del Norte; algas de una
especie determinada.

MUESTRA: Subconjunto de la población

MUESTRA REPRESENTATIVA: muestra cuyas características


generales coinciden con las de la población de la que se ha extraido.
Motivos importantes para utilizar muestras representativas en lugar de
la Población:
• Imposibilidad de acceder a toda la población,
• falta de tiempo para disponer de información de la población,
• costes elevados en la medición y disposición de las variables de
la población, ...
VARIABLE: característica definida sobre los elementos de un conjunto
(POBLACIÓN O MUESTRA) susceptible de tomar diferentes valores sobre
cada uno de los elementos de dicho conjunto. (Ej.: peso, edad,
temperatura,...)

Tablas y gráficas para datos de tipo continuo

Para la construcción de una tabla de distribución de


frecuencias para datos de tipo continuo seguiremos los siguientes
pasos :
1) Dividir la recta real en intervalos de la forma,

I j = [ x0 + ( j − 1)h, x0 + jh) j ∈ Z ,
donde h es un número real positivo y x0 es un valor
arbitrario de la recta real. Al número h se le conoce como
amplitud del intervalo y al valor x0 se le conoce como
origen de la tabla de frecuencias.

2) Contar el número de datos f j que caen en cada intervalo


Ij.
3) Construir a partir de la información la tabla de
frecuencias. Por lo general aparecen cuatro columnas:
en la primera se disponen por filas y en orden creciente
los intervalos que contienen algún elemento, en la
segunda columna la marca de clase (semiamplitud de los
intervalos de la columna anterior, en la tercera la
frecuencia absoluta y en la cuarta la frecuencia
acumulada.

Nota : El valor x0 no presenta ningún problema pues es una valor


arbitrario, sin embargo la amplitud debe elegirse con cierto
cuidado para resumir de una forma óptima toda la información de
la muestra. Respecto a su elección suelen aplicarse una las
siguientes criterios:

max − min
a) h = (Regla de Sturges )
log 2 n + 1
1

b) h = 3.5 s n donde s es la desviación típica de los datos.
3

(Regla de Scott)
1

c) h = 2 IQ n 3
donde IQ es el rango intercuartílico de los datos.
(Regla de Freedman-Diaconis)
La tabla de frecuencias se puede representar gráficamente de
la siguiente manera. A partir de un diagrama cartesiano se
construye para cada uno de los intervalos I j anteriores un
rectángulo que tenga por base a dicho intervalo y una altura
proporcional a la frecuencia, es decir, la altura es k × f j . Desde
luego podemos tomar como alturas las frecuencias absolutas, es
decir, k =1. Esta representación gráfica recibe el nombre de
histograma. Es costumbre tomar como valor de k, el valor
1
k= . De esta manera la suma de las áreas de todos los
n×h
rectángulos es igual a 1. Obsérvese que si nos dan un histograma
de esta manera y queremos calcular la proporción de valores que
cae en un intervalo concreto I j debemos multiplicar la altura de
dicho intervalo por la amplitud de dicho intervalo, es decir,

Proporción de medidas ∈ I j = a j × h

donde a j representa la altura del rectángulo de base I j .

Ejemplo: Construir una tabla de frecuencias para los siguientes


30 datos. A continuación pintar el histograma correspondiente.

14.4, 12.8, 12.8, 11.2, 11.4, 11.8, 7.83, 15.9, 8.1, 9.83, 2.59, 6.61,
5.76, 11.6, 11.6, 11.9, 5.46, 14.3, 6.78, 10.3, 13.5, 9.15, 11, 7.54,
10.7, 9.92, 7.95, 8.59, 12.8, 11.2

En primer lugar construimos los intervalos I j . Para ello,


elegimos x0 = 9 (Recuérdese que es un valor arbitrario). Otro
valor que debemos determinar es h. Adoptaremos el criterio de
1

Scott h = 3.5 s n . Para nuestros datos h = 3.38.
3

I1 = [9 + 3.28 x (1-1), 9 + 3.28 x 1 ) = [9, 12.38)


I 2 = [9 + 3.38 x (2-1), 9 + 3.38 x 2) = [12.38, 15.76)
I 3 = [15.76 - 3.38, 15.76 + 3.38) = [15.76, 19.14). Este intervalo
va a ser el intervalo más a la derecha pues no existe ningún dato
en la muestra superior a 19.14
I 0 = [9 + 3.38 x (0 -1), 9 + 3.38 x 0) = [5.62, 9)
I −1 = [5.62-3.38, 9-3.38) = [2.24, 5.62). Este intervalo va a ser el
intervalo más a la izquierda pues no existe ningún dato en la
muestra inferior a 2.24.

La tabla de frecuencias queda de la siguiente manera :

Marca f F fr Fr
[2.24, 5.62) 3.93 2 2 2/30 2/30
[5.62, 9.00) 7.31 8 10 8/30 10/30
[9.00, 12.38) 10.69 13 23 13/30 23/30
[12.38, 15.76) 14.07 6 29 6/30 29/30
[15.76, 19.14) 17.45 1 30 1/30 1

Si representamos esta tabla de forma gráfica obtenemos un


histograma para nuestros datos. Elegimos como factor de
proporción a k = 1/ (30 x 3.38), es decir, las frecuencias relativas
divididas por la amplitud de los intervalos h.
En el histograma anterior las alturas de los intervalos son (
de izquierda a derecha ) : 0.0197 ; 0.078 ; 0.128 ; 0.059 ;
0.009 . Recuerda que estos valores son proporcionales a las
frecuencias relativas (no son las frecuencias relativas).

Ejercicio : Construir una tabla de frecuencias para los


siguientes 30 datos. A continuación pintar el histograma
correspondiente.

14.8, 11.7, 4.42, 9.46, 10.5, 7.11, 10.7, 10.7, 13.7, 9.02, 3.67,
13.8, 5.29, 9.03, 10.6, 8.99, 9.25, 10.8, 17, 17.9, 9.28, 10.7, 6.78,
12.8, 5.06, 8.06, 6.51, 9.63, 9.11, 11.6
Otra gráfica muy común en estadística para datos de tipo
continuo es el polígono de frecuencias. Es muy fácil de obtener:
a partir de un histograma se unen a través de una recta los puntos
medios del lado superior de los rectángulos. Para los datos del
ejemplo anterior el polígono de frecuencias es el siguiente.

Aparte del polígono de frecuencias, también suele hablarse


del polígono de frecuencias acumuladas. Es también muy fácil
de hacer: A partir de un diagrama cartesiano se pinta para cada
intervalo I i los ( x0 + (i − 1)h, Fr ( i −1) ) y ( x0 + ih, Fr (i ) ) donde
Fr (i ) denota la frecuencia relativa correspondiente al intervalo i
y Fr ( i −1) la frecuencia relativa del intervalo anterior al I i . En
caso de que esta última frecuencia no exista en la tabla se tomará
como cero. Para el ejemplo anterior el valor el polígono de
frecuencias acumuladas es el siguiente.

Nota : El histograma, el polígono de frecuencias y el polígono de


frecuencias acumuladas son gráficas que se construyen a partir de
la tabla de frecuencias correspondiente.

__________________________________________

Para datos de tipo continuo, aparte de las gráficas, tablas y


funciones anteriormente explicadas, existe otra función usual de
cierta importancia: la función de distribución empírica. Esta
función se define a partir de los datos iniciales y no precisa de
cálculos intermedios como los anteriores. Es decir, no hay que
agrupar por intervalos ni nada por el estilo
Dado un muestra de datos x1 , x2 ,..., xn se llama función de
distribución empírica a,

nº de datos ≤ x 1
Fn ( x) = = × ∑ Ind ( xi ≤ x)
n n i =1

Mostramos a continuación la función de distribución empírica


para el ejemplo anterior.

Obsérvese que esta función es una función discontinua y tiene


forma escalonada. Estas dos características las va a tener siempre.

También podría gustarte