Está en la página 1de 75

INTRODUCCIÓN A LA

ESTADÍSTICA
¿QUÉ ES ESTADÍSTICA?

El origen de la palabra “estadística” desde el punto de vista


etimológico no parece estar nada claro

Primera vez que se acuña la palabra estadística:

Godofredo Achenwall (s. XVIII), que extrajo del término italiano


statista (estadista).
¿QUÉ ES ESTADÍSTICA?

Según la RAE

Estadística procede del término “estadista”, que a su vez procede del


término “estado” (del latín status).

1. f. Estudio de los datos cuantitativos de la población, de los recursos


naturales e industriales, del tráfico o de cualquier otra manifestación de las
sociedades humanas.
2. f. Conjunto de estos datos.
3. f. Rama de la matemática que utiliza grandes conjuntos de datos
numéricos
para obtener inferencias basadas en el cálculo de probabilidades.
ANTECEDENTES

Pentateuco: engloba los 5 primeros libros del antiguo testamento.


En el 4º libro “Números”, los primeros capítulos se referían al censo
o numeración de las tribus israelitas.

Censo del emperador Yao (China, 2238 a. de J.C.). Primeras


evidencias de recuentos.

Documentos asirios, egipcios y griegos. La preocupación por la


actividad censal de los individuos y bienes del estado tenía una clara
finalidad tributaria y militar.

Por mucho tiempo, la palabra estadística se refería a información numérica sobre los
estados o territorios políticos. Las estadísticas como las conocemos hoy día tardaron
en desarrollarse varios siglos.
ANTECEDENTES

Los eruditos del siglo XVII demostraron especial interés por la


Estadística Demográfica como resultado de la especulación sobre si
la población aumentaba, decrecía o permanecía estática. Se efectúan
las primeras predicciones sobre el nº de personas que morían por
enfermedad.
Gaspar Neumann (1691). Se propuso destruir antigua creencia popular:
“los años terminados en siete muere
más gente que en los restantes”

(tablas de mortalidad de las compañías de seguros)


ÁMBITOS DE LA ESTADÍSTICA

Economía y sociedad
Política y sociología
Salud pública
Demografía
Física
Psicología

ÁMBITOS DE LA ESTADÍSTICA

Éstadística en la Ingeniería

Control estadístico de calidad


Estudios sobre la fiabilidad de productos y/o sistemas
Simulación y generación de números aleatorios
Comparación de modelos
Optimización de recursos
Predicciones sobre la producción
Planificación de la producción
ESTADÍSTICA

La Estadístca es la Ciencia de la

• Sistematiaciin, recogida, ordenaciin y presentaciin de los datos


tivareferentes a un fenimeno que presenta variabilidad o incertdumbre
rip
sc
D e para su estudio metidico, con objeto de

ad
ilid
ba • deducir las leyes que rigen esos fenimenos,
o b
Pr
c ia
ren• y poder de esa forma hacer previsiones sobre los mismos, tomar
n fe
I decisiones u obtener conclusiones.
Vamos a plantear un caso práctco

Una importante empresa desarrolladora de una red social quiere


hacer un estudio sobre el perfl de usuarios que accede a su
página Web, desde tres países de interés. Para ello, cada vei que
un usuario visita su página, se le hace una pequeña encuesta al
fnaliiar la sesiin, además de registrarse algunos otros datos del
usuario.

9
Vamos a plantear un caso práctco

La informaciin recopilada, de 78 individuos seleccionados al


aiar, es:

• Sexo del usuario.


• Edad.
• País de origen de la conexiin (Estados Unidos, España o
China)
• Número de conexiones semanales que realiia.
• Tiempo medio de las conexiones semanales, en minutos.

10
Datos recopilados de 78 individuos
Vamos a plantear un caso práctco

o Analisis del tempo de conexiin según el sexo ¿Se


conectan el mismo tempo hombres que mujeres?
it ova¿Existe relacion entre el tempo de conexiin y la edad?
r ip
esc ¿cuánto tempo estará conectada una persona de 25
D años? ¿Y si es mujer?

ad
ilid
a b
o b o ¿Cuál es la probabilidad de que una persona esté
Pr conectada menos de 30 minutos? ¿Y si es chino?

12
Vamos a plantear un caso práctco

o ¿Podemos afrmar que el número medio de conexiones


semanales es superior a 5, al 95% de confania?
o ¿Entre que valores se encuentra el tempo medio de
c ia conexiin al 90% de confania?
e n
fer o ¿Podemos afrmar que el número medio de conexiones a
In la semana es el mismo en España que en China al 90% de
confania?
o ¿Es el tempo medio de conexiin mayor en hombres que
en mujeres, con un 1% de signifcaciin?

13
ELEMENTOS BÁSICOS

La población o colectivo estudiado: conjunto de personas


u objetos que se desea investigar.

Razones para tomar muestras:


tiempo, dinero, accesibilidad, …

La muestra: subconjunto representativo de la población


(muestra aleatoria simple)

Dependiendo del tamaño de la población y del


tipo de estudio se trabajará con una muestra o
con toda la población
ELEMENTOS BÁSICOS

Variables cualitativas o atributos

 Son cualidades o atributos de los individuos. No son un número,


no podemos operar con sus valores.

Ejemplo:
Sexo (hombre, mujer), tiempo (soleado,lluvioso), nacionalidad
(española, francesa, inglesa), tipo de material (duro, blando)

 A veces se asigna un número a cada una de las cualidades.

Ejemplo:
Sexo, se puede asignar a los hombres el 0 y a las mujeres el 1.
ELEMENTOS BÁSICOS

Variables cuantitativas

 Miden características cuantificables en cada individuo. Toman


valores numéricos.
Variable Discreta: Si la variable sólo puede tomar una cantidad
finita (o numerable) de valores (entre dos valores consecutivos
no toma valores intermedios).
Ej. Nº de piezas defectuosas, nº de hijos, nº aciertos test

Variable Continua: si la variable puede tomar una cantidad


infinita (no numerable) de valores (toma cualquier valor en un
intervalo)
Ej. Peso, tensión, longitud, grosor….
VARIABLES

La edad, al ser una


medida de tiempo,
puede ser considerada
como un variable
continua. Si bien es
cierto, cuándo a alguien
INDIVIDUOS
DATOS // INDIVIDUOS

se le pregunta ¿qué
edad tiene?, la respuesta
suele venir dada por un
número entero, lo que
DATOS

le confiere un
tratamiento como
variable discreta.
Por lo tanto, pueda ser
considerada como una
variable discreta o
continua.
DISCRETAS CONTINUAS
CUALITATIVAS CUANTITATIVAS
BLOQUE 1
ESTADISTICA DESCRIPTIVA
ESTADISTICA DESCRIPTIVA

OBJETIVOS:
EST. DESCRIPTIVA UNIVARIANTE

 Resumir y describir conjuntos de datos a través de


distintos tipos de tablas, gráficos y medidas
estadísticas.

 Estudiar relaciones entre las variables.


Realizar predicciones.
EST. DESCRIPTIVA BIVARIANTE
ESTADÍSTICA DESCRIPTIVA UNIVARIANTE

1. Organización de los datos. Tablas de Frecuencias.


 Variables Cualitativas
 Variables Cuantitativas
2. Representaciones Gráficas.
 Variables Cualitativas
 Variables Cuantitativas
3. Medidas de Síntesis.
 Medidas de Tendencia Central
 Medidas de posición
 Medidas de dispersión
 Medidas de Forma
4. Análisis Exploratorio de datos.
1. ORGANIZACIÓN DE LOS DATOS

Variables Cualitatvas

Supongamos que tenemos una variable cualitativa, que toma una serie de
posibles valores (categorías).
Ej. Sexo
Dos categorías (k=2): Hombre,
Mujer
Total: n=78
SEXO F.A. F.R. PORCENT.
HOMBRE 42 0.538 53.8
MUJER 36 0.462 46.2
TOTAL 78 1 100

Frecuencia Absoluta (F.A.): Frecuencia Relativa (F.R.): es el


es el número de sujetos que se número de sujetos que se encuentran
encuentran dentro de cada dentro de cada categoría con
categoría respecto al total de individuos
1. ORGANIZACIÓN DE LOS DATOS

Variables Cualitatvas

Supongamos que tenemos una variable cualitativa, que toma una serie de
posibles valores (categorías).

F.A. F.R.
%
Xi ni fi=ni/n
x1 n1 f1 100*f1
x2 n2 f2 100*f2
... ...
...

...

xk nk fk 100*fk
PAÍS ORIGEN F.A. F.R. PORCENT.
USA 27 0.346 34.6
ESPAÑA 30 0.385 38.5
CHINA 21 0.269 26.9
TOTAL 78 1 100
1. ORGANIZACIÓN DE LOS DATOS

Variables Cuanttatvas DISCRETAS

Ej. Nº Conexiones semanales


Valores: 1,2,3,4,5,6,7
Total: n=78
Conex.
F.A. F.R. F.A.A. F.R.A %
Semanales
1 6 0,08 6 0,08 8
2 10 0,13 16=6+10 0,21=0,13+0,08=16/78 13
0,43=0,22+0,13+0,08=33/7
3 17 0,22 33=17+10+6 22
8
4 14 0,18 47=14+17+…+6 0,61=0,18+…+0,08=47/78 18
5 12 0,15 59=12+14+…+6 0,76=0,15+…+0,08=59/78 15
6 10 0,13 69=10+12+…+6 0,89=0,13+…+0,08=69/78 13
7 9 0,11 78=9+10+…+6 1=0,11+…+0,08=78/78 11
TOTAL 78 1 100

Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada


(F.A.A.): es la frecuencia absoluta de (F.R.A.): es la frecuencia relativa
cada característica de la variable más de cada característica de la
la suma de las frecuencias absolutas de variable más la suma de las
las categorías anteriores frecuencias relativas de las
categorías anteriores
1. ORGANIZACIÓN DE LOS DATOS

Variables Cuanttatvas DISCRETAS

Conex. F.A. F.R. F.A.A. F.R.A %


Semanales
1 6 0,08 6 0,08 8
2 10 0,13 16=6+10 0,21=0,13+0,08=16/78 13
0,43=0,22+0,13+0,08=33/7
3 17 0,22 33=17+10+6 22
8
4 14 0,18 47=14+17+…+6 0,61=0,18+…+0,08=47/78 18
5 12 0,15 59=12+14+…+6 0,76=0,15+…+0,08=59/78 15
6 10 0,13 69=10+12+…+6 0,89=0,13+…+0,08=69/78 13
7 9 0,11 78=9+10+…+6 1=0,11+…+0,08=78/78 11
TOTAL 78 1 100

F.A. F.R. F.A.A. F.R.A.


Xi ni fi=ni/n Ni=n1+...+ni Fi=f1+...+fi %
x1 n1 f1 N1 F1 100*f1
x2 n2 f2 N2 F2 100*f2
... ...
...

...

...

...
xk nk fk Nk=n Fk=1 100*fk
1. ORGANIZACIÓN DE LOS DATOS

Variables Cuanttatvas CONTINUAS

Muchos datos muy distintos: agrupamos en intervalos

 Supone pérdida de información pero se gana en manejabilidad


 El número de intervalos y las amplitudes deben ser escogidos
convenientemente k n
• ¿Cuántos Intervalos? Regla de Sturges o
• ¿Amplitud o Longitud intervalos? En la práctica, es frecuente elegir
intervalos de longitud constante
(facilita los cálculos).
• ¿Cómo se determinan los intervalos?
Intervalos disjuntos.
1. ORGANIZACIÓN DE LOS DATOS

Variables Cuanttatvas CONTINUAS

Muchos datos muy distintos: agrupamos en intervalos


Tiempo
M.C. F.A. F.R. F.A.A. F.R.A. %
Conexión
[25,35] 30 3 0.04 3 0.04 4
(35,45] 40 8 0.10 11 0.14 10
(45,55] 50 19 0.24 30 0.38 24
(55,65] 60 22 0.28 52 0.66 28
(65,75] 70 11 0.14 63 0.80 14
(75,85] 80 10 0.13 73 0.93 13
(85,95] 90 5 0.07 78 1 7
TOTAL 78 1 100

Marca de Clase (M.C.): es


el valor central de cada
intervalo
1. ORGANIZACIÓN DE LOS DATOS

Variables Cuanttatvas CONTINUAS

Muchos datos muy distintos: agrupamos en intervalos


Tiempo
M.C. F.A. F.R. F.A.A. F.R.A. %
Conexión
Marca de Clase (M.C.): es
[25,35] 30 3 0.04 3 0.04 4
el valor central de cada
(35,45] 40 8 0.10 11 0.14 10
intervalo: Xi=(li-1+li )/2
(45,55] 50 19 0.24 30 0.38 24
(55,65] 60 22 0.28 52 0.66 28
(65,75] 70 11 0.14 63 0.80 M.C.
14 F.A. F.R. F.A.A. F.R.A.
INTERVALO %
(75,85] 80 10 0.13 73 0.93 Xi 13 ni fi=ni/n Ni=n1+...+ni Fi=f1+...+fi

(85,95] 90 5 0.07 78 1 100*f


[l 0,l1)
x1 7 n1 f1 N1 F1
1
TOTAL 78 1 100
100*f
[l1,l2) x2 n2 f2 N2 F2
2

Amplitud del ...


... ... ... ... ...

...
intervalo
ci=li-li-1 100*f
[lk-1,lk) xk nk fk Nk=n Fk=1
k
2. REPRESENTACIONES GRÁFICAS

 Su fnalidad consiste en presentar, a golpe de vista, el


comportamiento de la distribuciin.

 Se usan, por tanto, como complemento del trabajo


estadístco, y a veces, como punto de partda para el
posterior análisis estadístco
2. REPRESENTACIONES GRÁFICAS

Variables Cualitatvas

A partir de la tabla de frecuencias… Gráfico de Sectores

SEXO F.A. F.R. PORCENT.


HOMBRE 42 0.538 53.8
MUJER 36 0.462 46.2
TOTAL 78 1 100

Diagrama de
Barras
PAÍS ORIGEN F.A. F.R. PORCENT.
ESTADOS 27 0.346 34.6
UNIDOS
ESPAÑA 30 0.385 38.5
CHINA 21 0.269 26.9
TOTAL 78 1 100
2. REPRESENTACIONES GRÁFICAS

Variables Cuanttatvas DISCRETAS

A partir de la tabla de frecuencias…


Conex. F.A. F.R. F.A.A. F.R.A %
Semanales
Diagrama de
1 6 0,08 6 0,08 8
Barras 2 10 0,13 16 0,21 13
3 17 0,22 33 0,43 22
4 14 0,18 47 0,61 18
5 12 0,15 59 0,76 15
6 10 0,13 69 0,89 13
7 9 0,11 78 1 11
TOTAL 78 1 100

Gráfico de Sectores
2. REPRESENTACIONES GRÁFICAS

Variables Cuanttatvas CONTINUAS

A partir de la tabla de frecuencias… Histograma


Tiempo
M.C. F.A. F.R. F.A.A. F.R.A. %
Conexión
[25,35] 30 3 0.04 3 0.04 4
(35,45] 40 8 0.10 11 0.14 10
(45,55] 50 19 0.24 30 0.38 24
(55,65] 60 22 0.28 52 0.66 28
(65,75] 70 11 0.14 63 0.80 14
(75,85] 80 10 0.13 73 0.93 13
(85,95] 90 5 0.07 78 1 7
TOTAL 78 1 100

• Como norma general, se toman como alturas de los rectángulos las densidades de frecuencias hi: hi
=ni/ci, o bien las densidades de frecuencias relativas tomando fi en vez de ni: hi =fi/ci.
• Cuando los intervalos tienen la misma longitud, se simplifica tomando como altura las frecuencias ni
o fi.
A partir de este gráfico se puede obtener el polígono de frecuencias.
3. MEDIDAS DE SÍNTESIS

3.1. Medidas de Tendencia central: Indican valores con respecto a


los cuales parecen agruparse los datos
3.2. Medidas de Posición: Una vei que los datos han sido ordenados,
agrupan éstos en conjuntos con el mismo número de individuos
3.3. Medidas de Dispersión: Indican la concentraciin de los datos con
respecto a las medidas de centraliiaciin
3.4. Medidas de Forma: Muestran la forma de la distribuciin
3.1. MEDIDAS DE TENDENCIA CENTRAL

Media (aritmétca)
k

x n  x n   xk nk xn i i k
x 1 1 2 2  i 1
  xi f i
n n i 1

Característcas:
Para obtenerla es necesario utliiar todos los valores. min(xi )  x  max(xi )
• Es sensible a valores extremos, por ello no se suele utliiar como medida
central de distribuciones muy asimétricas.
• Se expresa en la misma unidad que los datos.
• No se ve afectada por el orden en el que vengan los datos.
• Centro de gravedad de los datos (la suma de las desviaciones de los valores
k
de la distribuciin respecto a la media es igual a cero) ( x  x)  0

i 1
i
3.1. MEDIDAS DE TENDENCIA CENTRAL

Media (aritmétca)
k

x n  x n   xk nk xn i i k
x 1 1 2 2  i 1
  xi f i
n n i 1

Característcas:
• Si a cada dato de la variable X se le suma una constante, se
obtene una nueva variable Y con media igual a la anterior más la constante.
• Si cada dato de una variable X se multplica por una constante, la media de
la nueva variable resultante queda multplicada por dicha constante.

yi  a  bxi  y  a  b x

Otras Medias: armónica, geométrica….


3.1. MEDIDAS DE TENDENCIA CENTRAL

Mediana

La Mediana es un valor tal que, ordenados los valores de la distribuciin


de menor a mayor, separa a los mismos en dos partes que contenen
aproximadamente el mismo número de datos.

Ocupa el lugar central respecto a los datos ordenados (primer valor que
deja por debajo de sí al menos 50% de los datos).

Característcas:
• No se ve afectada por observaciones extremas.
• No depende de los valores que toma la variable sino del orden.
• La media y la mediana tendrán valores similares, salvo cuando existan
valores atpicos o cuando el histograma de los datos sea muy asimétrico.
3.1. MEDIDAS DE TENDENCIA CENTRAL

Mediana. Ejemplo 1
Conex. F.A. F.R. F.A.A. F.R.A
Semanales
1 6 0,08 6 0,08
2 10 0,13 16 0,21
3 17 0,22 33 0,43
4 14 0,18 47 0,61 Me = 4
5 12 0,15 59 0,76
6 10 0,13 69 0,89
7 9 0,11 78 1
TOTAL 78 1
3.1. MEDIDAS DE TENDENCIA CENTRAL

Moda

La Moda es el valor de la variable que más se repite (el que tene


mayor frecuencia absoluta o relatva).

• Puede que no sea única


3.1. MEDIDAS DE TENDENCIA CENTRAL

Moda

La Moda es el valor de la variable que más se repite (el que tene


mayor frecuencia absoluta o relatva).
• Si la variable es contnua o discreta con muchos valores, puede que los
datos apenas se repitan. En ese caso, se debe agrupar por intervalos y
se habla de intervalo modal: aquél con mayor frecuencia asociada.

• Dentro del intervalo modal, (Li-1,Li] la moda se calcula como el


representante de la marca de clase.
3.1. MEDIDAS DE TENDENCIA CENTRAL

Moda. Ejemplo 1

Conex. F.A. F.R. F.A.A. F.R.A


Semanales
1 6 0,08 6 0,08
2 10 0,13 16 0,21
3 17 0,22 33 0,43
4 14 0,18 47 0,61 Mo = 3
5 12 0,15 59 0,76
6 10 0,13 69 0,89
7 9 0,11 78 1
TOTAL 78 1
3.1. MEDIDAS DE TENDENCIA CENTRAL

Moda. Ejemplo 2

Tiempo M.C. F.A. F.R. F.A.A. F.R.A. %


Conexiin
[25,35] 30 3 0.04 3 0.04 4
(35,45] 40 8 0.10 11 0.14 10
(45,55] 50 19 0.24 30 0.38 24
(55,65] 60 22 0.28 52 0.66 28
(65,75] 70 11 0.14 63 0.80 14
(75,85] 80 10 0.13 73 0.93 13
(85,95] 90 5 0.07 78 1 7
TOTAL 78 1 100

Mo = 60 <-- La marca de clase del intervalo (55, 65]


3.1. MEDIDAS DE TENDENCIA CENTRAL

Comparación de las medidas de tendencia central

Se consideran las distribuciones correspondientes a las


“califcaciones en cierta asignatura”, de 20 alumnos que
pertenecen a los grupos A y B, respectvamente. Ambas
tenen una media aritmétca igual igual a 5. Observemos el
distnto comportamiento de estas distribuciones.
3.2. MEDIDAS DE POSICIÓN

Cuantles

Se trata de valorar de forma relatva cimo es un dato respecto del


conjunto global de todos los datos.

Si, por ejemplo, un niño de 4 años pesa 13 kilos, ¿está desnutrido? ¿está
sano? Depende:
Por ejemplo, en Estados Unidos los niños son en general más grandes
que, por ejemplo, en Japin.

Quiiá más que el peso nos interese saber qué posiciin relatva tene el
peso del niño dentro de la poblaciin de la que forma parte.

Por ejemplo, si nos dicen que el niño está entre el 1% de los niños que
menos pesan, probablemente tene un problema de crecimiento.
3.2. MEDIDAS DE POSICIÓN

Cuantles

Los cuantles son valores que, una vei ordenados de menor a


mayor los datos, dividen en partes iguales, es decir, en
intervalos que comprenden aproximadamente el mismo número
de valores.
Pueden ser de varios tpos:

Cuartles.
Son tres valores que, una vei ordenada de menor a mayor la
distribuciin, la dividen en cuatro partes iguales. Es decir, en cuatro
intervalos dentro de cada uno de los cuales está contenido un 25% de
los valores. Los representaremos por Q1, Q2 y Q3.
3.2. MEDIDAS DE POSICIÓN

Cuantles

Los cuantles son valores que, una vei ordenada de menor a


mayor la distribuciin, la dividen en partes iguales, es decir, en
intervalos que comprenden el mismo número de valores.

Pueden ser de varios tpos:


Deciles.
Los deciles dividen a los datos ordenados en 10 partes iguales, por
tanto, hay 9 y se defnen como: Di = P10i i = 1,…,9
3.2. MEDIDAS DE POSICIÓN

Cuantles

Los cuantles son valores que, una vei ordenada de menor a


mayor la distribuciin, la dividen en partes iguales, es decir, en
intervalos que comprenden el mismo número de valores.

Pueden ser de varios tpos:


Percentles.
se llama percentl de orden k (Pk) a la observaciin que deja por debajo
de sí al k% de la poblaciin. Los percentles dividen a los datos
ordenados en 100 partes.

Q1 = P25
Q2 = P50 = Me
Q3 = P75
3.2. MEDIDAS DE POSICIÓN

Cálculo del Percentl de orden k

 Ordenamos los datos de menor a mayor.

 El percentl Pk es el valor más pequeño de la muestra cuya frecuencia


absoluta acumulada iguala o supera el valor k%n.

 O dicho de otra forma, el percentl Pk es el valor más pequeño de la


muestra cuya frecuencia relatva iguala o supera el k%.
3.2. MEDIDAS DE POSICIÓN

Cuantles. Percentles. Ejemplo 1

Conex. F.A. F.R. F.A.A. F.R.A %


Semanales

1 6 0,08 6 0,08 8
P30 = D3 = 3 2 10 0,13 16 0,21 13
P60 = 4 3 17 0,22 33 0,43 22
P75 = Q3 = 5 4 14 0,18 47 0,61 18
5 12 0,15 59 0,76 15
6 10 0,13 69 0,89 13
7 9 0,11 78 1 11
TOTAL 78 1 100
3.3. MEDIDAS DE DISPERSIÓN

 Las medidas de posiciin son insufcientes para resumir una


muestra.

La media es un valor más o menos representatvo de la


muestra dependiendo de la dispersiin de los datos.

Si los datos están agrupados cerca de la media, ésta será muy
representatva. Por el contrario, si los datos están muy
dispersos, la media no será un buen representante de las
observaciones.
3.3. MEDIDAS DE DISPERSIÓN

Las medidas de dispersiin pretenden cuantfcar cimo de


concentrados o dispersos están los datos respecto a las
medidas de tendencia central (nos centramos en la media)

La idea de estas medidas es valorar en qué medida los datos


están agrupados en torno a la media.

Esta cuestin es uno de los motvos más absurdos de la mala


prensa que tene la Estadístca en la sociedad. La gente no se
fía de lo que ellos llaman la Estadístca entre otros motvos,
porque parece que todo el mundo cree que una media tene
que ser un valor válido para todos, y eso es materialmente
imposible.
3.3. MEDIDAS DE DISPERSIÓN

Ejemplo 1
La media del salario de los españoles en 2005 fue de 18.750
euros al año. Ahora bien, esa media incluye tanto a las regiones
más desarrolladas como a las más desfavorecidas y,
evidentemente, la cifra generará mucho malestar en gran parte
de la poblaciin (con toda seguridad, más del 50 %), cuyo salario
está por debajo.

Ejemplo2
Existe una frase muy conocida que dice que la Estadístca es el
arte por el cuál si un español se come un pollo y otro no se come
ninguno, se ha comido medio pollo cada uno.
Esa frase se usa en muchas ocasiones para ridiculiiar a la
Estadístca, cuando en realidad debería servir para desacreditar a
quien la dice, por su ignorancia.
Debemos proporcionar cada media junto con
alguna medida de dispersión
3.3. MEDIDAS DE DISPERSIÓN

Se llama dispersión o variabilidad, a la menor o mayor separación


de los valores respecto a otro que se pretende sea la síntesis.

Surgen diferentes medidas de dispersión. Pueden definirse


teniendo en cuenta:

(a) La diferencia entre determinados valores de la variable.


(b) Promedios de las diferencias entre cada valor de la variable y
una medida de posición (Media, Mediana, por ejemplo).
(c) La idea de que no dependa de las unidades de medida de los
valores.
3.3. MEDIDAS DE DISPERSIÓN

Rango

Se defne el rango, R, como la diferencia entre el mayor y el menor de los


valores de la distribuciin.
R  Valormax  Valormin

Característcas:
• Es fácil de calcular.
•Tiene la misma unidad de medida que la variable.
•No utliia todas las observaciones.
•Se puede ver afectado por observaciones extremas.
•Es útl en situaciones en las que se requiera medir la dispersiin con
mucha frecuencia y sobre pocos valores.
3.3. MEDIDAS DE DISPERSIÓN

Recorrido Intercuartlico

Nos indica la amplitud del intervalo donde están comprendidos el 50%


central de los valores, y se calcula:
RI = Q3 − Q1

Característcas:
• Presenta como ventaja respecto al recorrido, la eliminaciin del
posible efecto que pudieran tener algunos valores extremos.
3.3. MEDIDAS DE DISPERSIÓN

Varianza y Desviación tpica o estándar

La variania, S2, se defne como la media de las diferencias cuadrátcas de


n puntuaciones con respecto a la media.
1 k 1 k 2 
s   ( xi  x ) ni    xi ni   x 2
2 2
s 2 ≥ 0
n i 1  n i 1 
Su unidad de medida queda elevada al cuadrado, por lo que se defne la
desviaciin tpica, s, como la raíi cuadrada positva de la variania:
s  s2
Característcas:
* Si se suma una constante a una variable, la variania de la nueva variable
no cambia.
* Si se multplica una variable por una constante, la variania de la nueva
variable queda multplicada por la constante al cuadrado.
3.3. MEDIDAS DE DISPERSIÓN

Varianza y Desviación tpica o estándar


• Cuanto mayor sea la variania de unos datos, más dispersos,
heterogéneos o variables son esos datos.

• Cuanto más pequeña sea una variania de unos datos, más agrupados
u homogéneos son dichos datos.

2 1 k 2 1 k 2 n 2 Cuasivarianza
s 
c  ( xi  x ) ni   xi ni  x
n  1 i 1 n  1 i 1 n 1

Observa que: 2 n 2
s 
c S
n 1
3.3. MEDIDAS DE DISPERSIÓN

Varianza y Desviación tpica o estándar

Las siguientes muestras representan los tempos de conexiin a


internet de 10 usuarios españoles en minutos y de 10 usuarios
americanos en segundos:

Españoles
8.180881, 10.503650, 8.210198, 13.096271, 9.259044
15.540982, 7.854185, 12.010111, 8.725924, 11.712810

Americanos
5100.636, 4987.702, 5035.441, 5321.591, 5502.833
4737.402, 4537.105, 4731.434, 4742.981, 4444.282

¿Qué muestra presenta mayor dispersiin (en torno a la media)?


3.3. MEDIDAS DE DISPERSIÓN

Coefciente de Variación

Una forma de valorar en términos relatvos cimo es de dispersa


una variable es proporcionar el cociente entre la desviaciin tpica
y la media (en valor absoluto).
S
C.V . 
x

Característcas:
• Es una medida adimensional.
• Da informaciin sobre la representatvidad de la media. Cuanto más
priximo a 0, mas representatva será la media (dudaremos de la
representatvidad si CV>0.5)
• Permite comparar la dispersiin de varias distribuciones.
• Es invariante frente a cambios de escala.
• El C.V. pierde signifcado cuando la media se aproxima a 0.
3.3. MEDIDAS DE DISPERSIÓN

Coefciente de Variación

Las siguientes muestras representan los tempos de conexiin a


internet de 10 usuarios españoles en minutos y de 10 usuarios
americanos en segundos:

Españoles
8.180881, 10.503650, 8.210198, 13.096271, 9.259044
15.540982, 7.854185, 12.010111, 8.725924, 11.712810

Americanos
5100.636, 4987.702, 5035.441, 5321.591, 5502.833
4737.402, 4537.105, 4731.434, 4742.981, 4444.282

¿Qué muestra presenta mayor dispersiin (en torno a la media)?

CVx  0.229 CVy  0.065


3.3. MEDIDAS DE DISPERSIÓN

Coefciente de Variación. Ejemplo 1

Conex. F.A. F.R. F.A.A. F.R.A %


Semanales
1 6 0,08 6 0,08 8
2 10 0,13 16 0,21 13
3 17 0,22 33 0,43 22
x  4,05 Rango  6 4 14 0,18 47 0,61 18
5 12 0,15 59 0,76 15
6 10 0,13 69 0,89 13
7 9 0,11 78 1 11
TOTAL 78 1 100

2 12  6  2 2  10   7 2  9
s   4.052  3.13
78
1,77
S  3,13  1,77 C.V .   0,44
4,05
TIPIFICACIÓN

Ejemplo. Los alumnos de primero de GITI ha obtenido en estadística una nota media de
6.5 con desviación típica 2.3, y en matemáticas una media de 7.1 con desviación típica
3.4. Si un alumno ha obtenido un 6.8 en estadística y un 7.2 en matemáticas, ¿en cuál de
ellas ha obtenido mejor puntuación?

Tipifcar una variable cualquiera X consiste en realiiar un cambio de origen y


escala de dicha variable con el fn de obtener una nueva variable Z que tendrá
media 0 y desviaciin tpica 1 y a la que denominaremos variable tpiicada.

El procedimiento de tpifcaciin consiste en restar la media y dividir por la


desviaciin tpica de la variable X a un valor cualquiera de la variable:

xx
Z
s
6.8  6.5 7.2  7.1
Z estadística   0.1304 Z matemáticas   0.0294
2.3 3.4
EJERCICIO 1

Se ha medido el tempo de respuesta (segundos) de una


máquina en ocho ocasiones, cuyos resultados fueron los
siguientes:
9.7, 10.2, 7.1, 8.8, 10.5, 8.6, 10.2, 9.0
(a) Calcula la media, mediana, moda y variania.
(b) ¿A partr de qué valor se encuentran el 25% de los
tempos de respuesta más pequeños? ¿Y el 10% de los
tempos más altos?
(c) Debido a un error en las medidas, a los datos anteriores
hay que sumarles 0.5 segundos. ¿Como afecta dicho error a
las medidas obtenidas en el apartado (a)?

Sol: (a) media = 9.26, Me = 9, Mo = 10.2, S^2 = 1.11; (b) P25 = 8.6 y P90 = 10.5,
respectvamente; (c) nueva media = 9.76, Me = 9.5, Mo = 10.7, S^2 = 1.11.
3.4. MEDIDAS DE FORMA

Las medidas de forma comparan la forma que tene el


histograma o el diagrama de barras de la distribuciin, con
una situaciin ideal en la que los datos se reparten en igual
medida a la derecha y a la iiquierda de la media.

Asimetría
Kurtosis o apuntamiento
3.4. MEDIDAS DE FORMA

Coefciente de Asimetría

• Cuando los datos están repartdos de igual forma a uno y otro lado de
la media se conoce como SIMETRÍA y se dice en ese caso que la
distribuciin de los datos es SIMÉTRICA.

Cuando eso ocurre, coinciden la media y la mediana. Si la distribuciin


tene además forma de campana, ambas son iguales a la moda.

• Por contra, se dice que una distribuciin es ASIMÉTRICA A LA


DERECHA si las frecuencias (absolutas o relatvas) descienden más
lentamente por la derecha que por la iiquierda.

• Si las frecuencias descienden más lentamente por la iiquierda que


por la derecha diremos que la distribuciin es ASIMÉTRICA A LA
IZQUIERDA.
3.4. MEDIDAS DE FORMA

Coefciente de Asimetría

Indican si la distribuciin es simétrica y, en caso


de no serlo, el tamaño y la tendencia de su
simetría.
n k
3
 (x i  X)  (x i  X )3 ni k
3
i 1 i 1 (
 ix  X ) fi
1  n  n  i 1
S3 S3 S3
• Si el coefciente es igual a 0, la distribuciin es simétrica.
• Si es < 0, la distribuciin es asimétrica por la iiquierda.
• Si es > 0, la distribuciin es asimétrica por la derecha.
3.4. MEDIDAS DE FORMA

Coefciente de Asimetría

1  0

1  0

1  0
3.4. MEDIDAS DE FORMA

Coefciente de Curtosis o Apuntamiento

Trata de estudiar la mayor o menor concentraciin de frecuencias


alrededor de la media y ver así si la distribuciin es más o menos
apuntada.
Característcas:
• Las medidas de curtosis deben aplicarse silo a distribuciones
unimodales y simétricas, o con ligera asimetría.
• Es necesario tener una distribuciin de referencia, la distribuciin
Normal.
• La curva Normal es simétrica respecto a su media, campaniforme y se
utliia como patrin de comparaciin para el estudio del apuntamiento
de una distribuciin.
3.4. MEDIDAS DE FORMA

Coefciente de Curtosis o Apuntamiento


n k
4 4
 (x  X )
i  (x  X ) n
i i k
4
i 1
n
i 1
n
 (x  X )
i 1
i fi
2  3  3 3
S4 S4 S4
• Si el coeficiente es igual a 0, la distribución es mesocúrtica.
• Si es < 0, la distribución es platicúrtica.
• Si es > 0, la distribución es leptocúrtica.
Curtosis>0
(leptocúrtica)
Curtosis<0 Curtosis=0
(platicúrtica) (mesocúrtica)
3.4. MEDIDAS DE FORMA

Ejemplo 1.

Conex. F.A. F.R. F.A.A. F.R.A %


Semanales

1 6 0,08 6 0,08 8
2 10 0,13 16 0,21 13
3 17 0,22 33 0,43 22
4 14 0,18 47 0,61 18
5 12 0,15 59 0,76 15
6 10 0,13 69 0,89 13
7 9 0,11 78 1 11
TOTAL 78 1 100

x  4,05 s  1,77
 1  Asimetría  0.09
 2  Curtosis  0.95
4. ANÁLISIS EXPLORATORIO DE DATOS

El objetvo principal de la Estadístca es la obtenciin de informaciin


relevante y útl a partr de los datos.

Es imprescindible que los datos tengan la mayor precisiin y


fabilidad posibles.

Hay ocasiones en que un conjunto de datos contene una o más


observaciones inconsistentes en algún sentdo.

Estos valores son atribuibles, por lo general, a una de las siguientes


causas:
• El valor ha sido introducido en la base de datos incorrectamente.
• El valor proviene de una poblaciin distnta a la que estamos
estudiando.
• El valor es correcto pero representa un suceso muy poco común.

Depuración de los datos


4. ANÁLISIS EXPLORATORIO DE DATOS

Gráfco de Caja y Bigotes


• Se trata de una síntesis gráfca de una distribuciin en la que intervienen:
mediana, cuartles primero y tercero, y los valores máximo y mínimo.
• Se consigue una impresiin rápida de ciertas característcas básicas de un
conjunto de datos: posiciin, dispersiin y simetría o asimetría.
• La caja del diagrama contene la mitad central de los datos. A medida
que la mediana esté más centrada en la caja, y cuanto más similares sean
las distancias de la caja hasta los valores mínimo y máximo, menos
asimétrica es la distribuciin.

min  28 , Q1  51
min  91 , Me  58
x  60,17 , Q3  70
Q3

Q1
Mediana Media
4. ANÁLISIS EXPLORATORIO DE DATOS

Gráfco de Caja y Bigotes

18 17 18
16
16 16 15 15
14
14 14
12
12 12
10 10 10
10 9 10 9
8
8 8
6
6 6 5

4 4
2 2
0 0
1 2 3 4 5 6 7 1 2 3 4 5 6 7
4. ANÁLISIS EXPLORATORIO DE DATOS

Valores Outliers o anómalos

Se llamará OUTLIER a aquella observaciin que siendo atpica


y/o errinea, tene un comportamiento muy diferente
respecto al resto de los datos, en relaciin al análisis que se
desea realiiar sobre las observaciones.

En general, una observaciin que es inusualmente grande o


pequeña en relaciin con los demás valores de un conjunto de
datos se denomina dato atpico o fuera de rango.
4. ANÁLISIS EXPLORATORIO DE DATOS

Valores Outliers o anómalos

Método para detectar valores atpicos


Rango Intercuartlico:
Sabemos que el intervalo (Q1,Q3) contene el 50% central de las
observaciones.

Se defne el inicio del bigote iiquierdo como:

f1 = Q1 − 1,5RI;

Se defne el fnal del bigote derecho como:

f2 = Q3 + 1,5RI
Toda observaciin que quede fuera de los bigotes conceptúa
como valor animalo que debería ser estudiado.
4. ANÁLISIS EXPLORATORIO DE DATOS

Valores Outliers o anómalos


Valor
atípico

Fin
Bigote
Dcho

Q3
Inicio
Bigote
Q1
Izdo Mediana Media
EJERCICIO 2

Diei análisis repetdos de la concentraciin de mercurio en


una muestra de condensado de gas comercial proporcionaron
los siguientes resultados:
23,3; 22,5; 45,0; 21,5; 19,9; 21,3; 21,7; 23,8; 22,6; 24,7
ng/ml.

Calcula la concentraciin media de mercurio. ¿Es


representatva dicha media? ¿Existe algún valor animalo?

Sol. media = 24.63, CV = 0.28, Q1 = 21.5, Q3 = 23.8; Q1-1.5 RI = 18.05;


Q3 +1.5 RI =27.25.

También podría gustarte