Introducción A La Estadística

INTRODUCCIÓN A LA
ESTADÍSTICA
¿QUÉ ES ESTADÍSTICA?
El origen de la palabra “estadística” desde el punto de vista

etimológico no parece estar nada claro
Primera vez que se acuña la palabra estadística:
Godofredo Achenwall (s. XVIII), que extrajo del término italiano

statista (estadista).
¿QUÉ ES ESTADÍSTICA?
Según la RAE
Estadística procede del término “estadista”, que a su vez procede del

término “estado” (del latín status).
1. f. Estudio de los datos cuantitativos de la población, de los recursos

naturales e industriales, del tráfico o de cualquier otra manifestación de las
sociedades humanas.
2. f. Conjunto de estos datos.
3. f. Rama de la matemática que utiliza grandes conjuntos de datos
numéricos
para obtener inferencias basadas en el cálculo de probabilidades.
ANTECEDENTES
Pentateuco: engloba los 5 primeros libros del antiguo testamento.

En el 4º libro “Números”, los primeros capítulos se referían al censo
o numeración de las tribus israelitas.
Censo del emperador Yao (China, 2238 a. de J.C.). Primeras

evidencias de recuentos.
Documentos asirios, egipcios y griegos. La preocupación por la

actividad censal de los individuos y bienes del estado tenía una clara
finalidad tributaria y militar.
Por mucho tiempo, la palabra estadística se refería a información numérica sobre los
estados o territorios políticos. Las estadísticas como las conocemos hoy día tardaron
en desarrollarse varios siglos.
ANTECEDENTES
Los eruditos del siglo XVII demostraron especial interés por la

Estadística Demográfica como resultado de la especulación sobre si
la población aumentaba, decrecía o permanecía estática. Se efectúan
las primeras predicciones sobre el nº de personas que morían por
enfermedad.
Gaspar Neumann (1691). Se propuso destruir antigua creencia popular:
“los años terminados en siete muere
más gente que en los restantes”
(tablas de mortalidad de las compañías de seguros)

ÁMBITOS DE LA ESTADÍSTICA
Economía y sociedad
Política y sociología
Salud pública
Demografía
Física
Psicología
…
ÁMBITOS DE LA ESTADÍSTICA
Éstadística en la Ingeniería
Control estadístico de calidad

Estudios sobre la fiabilidad de productos y/o sistemas
Simulación y generación de números aleatorios
Comparación de modelos
Optimización de recursos
Predicciones sobre la producción
Planificación de la producción
ESTADÍSTICA
La Estadístca es la Ciencia de la
• Sistematiaciin, recogida, ordenaciin y presentaciin de los datos

tivareferentes a un fenimeno que presenta variabilidad o incertdumbre
rip
sc
D e para su estudio metidico, con objeto de
ad
ilid
ba • deducir las leyes que rigen esos fenimenos,
o b
Pr
c ia
ren• y poder de esa forma hacer previsiones sobre los mismos, tomar
n fe
I decisiones u obtener conclusiones.
Vamos a plantear un caso práctco
Una importante empresa desarrolladora de una red social quiere

hacer un estudio sobre el perfl de usuarios que accede a su
página Web, desde tres países de interés. Para ello, cada vei que
un usuario visita su página, se le hace una pequeña encuesta al
fnaliiar la sesiin, además de registrarse algunos otros datos del
usuario.
9
La informaciin recopilada, de 78 individuos seleccionados al

aiar, es:
• Sexo del usuario.

• Edad.
• País de origen de la conexiin (Estados Unidos, España o
China)
• Número de conexiones semanales que realiia.
• Tiempo medio de las conexiones semanales, en minutos.
10
Datos recopilados de 78 individuos
o Analisis del tempo de conexiin según el sexo ¿Se

conectan el mismo tempo hombres que mujeres?
it ova¿Existe relacion entre el tempo de conexiin y la edad?
r ip
esc ¿cuánto tempo estará conectada una persona de 25
D años? ¿Y si es mujer?
ad
ilid
a b
o b o ¿Cuál es la probabilidad de que una persona esté
Pr conectada menos de 30 minutos? ¿Y si es chino?
12
o ¿Podemos afrmar que el número medio de conexiones

semanales es superior a 5, al 95% de confania?
o ¿Entre que valores se encuentra el tempo medio de
c ia conexiin al 90% de confania?
e n
fer o ¿Podemos afrmar que el número medio de conexiones a
In la semana es el mismo en España que en China al 90% de
confania?
o ¿Es el tempo medio de conexiin mayor en hombres que
en mujeres, con un 1% de signifcaciin?
13
ELEMENTOS BÁSICOS
La población o colectivo estudiado: conjunto de personas

u objetos que se desea investigar.
Razones para tomar muestras:

tiempo, dinero, accesibilidad, …
La muestra: subconjunto representativo de la población

(muestra aleatoria simple)
Dependiendo del tamaño de la población y del

tipo de estudio se trabajará con una muestra o
con toda la población
ELEMENTOS BÁSICOS
Variables cualitativas o atributos
 Son cualidades o atributos de los individuos. No son un número,

no podemos operar con sus valores.
Ejemplo:
Sexo (hombre, mujer), tiempo (soleado,lluvioso), nacionalidad
(española, francesa, inglesa), tipo de material (duro, blando)
 A veces se asigna un número a cada una de las cualidades.
Ejemplo:
Sexo, se puede asignar a los hombres el 0 y a las mujeres el 1.
ELEMENTOS BÁSICOS
Variables cuantitativas
 Miden características cuantificables en cada individuo. Toman

valores numéricos.
Variable Discreta: Si la variable sólo puede tomar una cantidad
finita (o numerable) de valores (entre dos valores consecutivos
no toma valores intermedios).
Ej. Nº de piezas defectuosas, nº de hijos, nº aciertos test
Variable Continua: si la variable puede tomar una cantidad

infinita (no numerable) de valores (toma cualquier valor en un
intervalo)
Ej. Peso, tensión, longitud, grosor….
VARIABLES
La edad, al ser una

medida de tiempo,
puede ser considerada
como un variable
continua. Si bien es
cierto, cuándo a alguien
INDIVIDUOS
DATOS // INDIVIDUOS
se le pregunta ¿qué
edad tiene?, la respuesta
suele venir dada por un
número entero, lo que
DATOS
le confiere un
tratamiento como
variable discreta.
Por lo tanto, pueda ser
considerada como una
variable discreta o
continua.
DISCRETAS CONTINUAS
CUALITATIVAS CUANTITATIVAS
BLOQUE 1
ESTADISTICA DESCRIPTIVA
ESTADISTICA DESCRIPTIVA
OBJETIVOS:
EST. DESCRIPTIVA UNIVARIANTE
 Resumir y describir conjuntos de datos a través de

distintos tipos de tablas, gráficos y medidas
estadísticas.
 Estudiar relaciones entre las variables.

Realizar predicciones.
EST. DESCRIPTIVA BIVARIANTE
ESTADÍSTICA DESCRIPTIVA UNIVARIANTE
1. Organización de los datos. Tablas de Frecuencias.

 Variables Cualitativas
 Variables Cuantitativas
2. Representaciones Gráficas.
 Variables Cualitativas
 Variables Cuantitativas
3. Medidas de Síntesis.
 Medidas de Tendencia Central
 Medidas de posición
 Medidas de dispersión
 Medidas de Forma
4. Análisis Exploratorio de datos.
1. ORGANIZACIÓN DE LOS DATOS
Variables Cualitatvas
Supongamos que tenemos una variable cualitativa, que toma una serie de
posibles valores (categorías).
Ej. Sexo
Dos categorías (k=2): Hombre,
Mujer
Total: n=78
SEXO F.A. F.R. PORCENT.
HOMBRE 42 0.538 53.8
MUJER 36 0.462 46.2
TOTAL 78 1 100
Frecuencia Absoluta (F.A.): Frecuencia Relativa (F.R.): es el

es el número de sujetos que se número de sujetos que se encuentran
encuentran dentro de cada dentro de cada categoría con
categoría respecto al total de individuos
Supongamos que tenemos una variable cualitativa, que toma una serie de
posibles valores (categorías).
F.A. F.R.
%
Xi ni fi=ni/n
x1 n1 f1 100*f1
x2 n2 f2 100*f2
... ...
...
...
xk nk fk 100*fk
PAÍS ORIGEN F.A. F.R. PORCENT.
USA 27 0.346 34.6
ESPAÑA 30 0.385 38.5
CHINA 21 0.269 26.9
TOTAL 78 1 100
Variables Cuanttatvas DISCRETAS
Ej. Nº Conexiones semanales

Valores: 1,2,3,4,5,6,7
Total: n=78
Conex.
F.A. F.R. F.A.A. F.R.A %
Semanales
1 6 0,08 6 0,08 8
2 10 0,13 16=6+10 0,21=0,13+0,08=16/78 13
0,43=0,22+0,13+0,08=33/7
3 17 0,22 33=17+10+6 22
8
4 14 0,18 47=14+17+…+6 0,61=0,18+…+0,08=47/78 18
5 12 0,15 59=12+14+…+6 0,76=0,15+…+0,08=59/78 15
6 10 0,13 69=10+12+…+6 0,89=0,13+…+0,08=69/78 13
7 9 0,11 78=9+10+…+6 1=0,11+…+0,08=78/78 11
TOTAL 78 1 100
Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada

(F.A.A.): es la frecuencia absoluta de (F.R.A.): es la frecuencia relativa
cada característica de la variable más de cada característica de la
la suma de las frecuencias absolutas de variable más la suma de las
las categorías anteriores frecuencias relativas de las
categorías anteriores
Conex. F.A. F.R. F.A.A. F.R.A %

Semanales
1 6 0,08 6 0,08 8
2 10 0,13 16=6+10 0,21=0,13+0,08=16/78 13
0,43=0,22+0,13+0,08=33/7
3 17 0,22 33=17+10+6 22
8
4 14 0,18 47=14+17+…+6 0,61=0,18+…+0,08=47/78 18
5 12 0,15 59=12+14+…+6 0,76=0,15+…+0,08=59/78 15
6 10 0,13 69=10+12+…+6 0,89=0,13+…+0,08=69/78 13
7 9 0,11 78=9+10+…+6 1=0,11+…+0,08=78/78 11
TOTAL 78 1 100
F.A. F.R. F.A.A. F.R.A.

Xi ni fi=ni/n Ni=n1+...+ni Fi=f1+...+fi %
x1 n1 f1 N1 F1 100*f1
x2 n2 f2 N2 F2 100*f2
... ...
...
...
...
...
xk nk fk Nk=n Fk=1 100*fk
Variables Cuanttatvas CONTINUAS
Muchos datos muy distintos: agrupamos en intervalos
 Supone pérdida de información pero se gana en manejabilidad

 El número de intervalos y las amplitudes deben ser escogidos
convenientemente k n
• ¿Cuántos Intervalos? Regla de Sturges o
• ¿Amplitud o Longitud intervalos? En la práctica, es frecuente elegir
intervalos de longitud constante
(facilita los cálculos).
• ¿Cómo se determinan los intervalos?
Intervalos disjuntos.

Tiempo
M.C. F.A. F.R. F.A.A. F.R.A. %
Conexión
[25,35] 30 3 0.04 3 0.04 4
(35,45] 40 8 0.10 11 0.14 10
(45,55] 50 19 0.24 30 0.38 24
(55,65] 60 22 0.28 52 0.66 28
(65,75] 70 11 0.14 63 0.80 14
(75,85] 80 10 0.13 73 0.93 13
(85,95] 90 5 0.07 78 1 7
TOTAL 78 1 100
Marca de Clase (M.C.): es

el valor central de cada
intervalo

Tiempo
Conexión
Marca de Clase (M.C.): es
[25,35] 30 3 0.04 3 0.04 4
el valor central de cada
(35,45] 40 8 0.10 11 0.14 10
intervalo: Xi=(li-1+li )/2
(45,55] 50 19 0.24 30 0.38 24
(55,65] 60 22 0.28 52 0.66 28
(65,75] 70 11 0.14 63 0.80 M.C.
14 F.A. F.R. F.A.A. F.R.A.
INTERVALO %
(75,85] 80 10 0.13 73 0.93 Xi 13 ni fi=ni/n Ni=n1+...+ni Fi=f1+...+fi
(85,95] 90 5 0.07 78 1 100*f

[l 0,l1)
x1 7 n1 f1 N1 F1
1
TOTAL 78 1 100
100*f
[l1,l2) x2 n2 f2 N2 F2
2
Amplitud del ...

... ... ... ... ...
...
intervalo
ci=li-li-1 100*f
[lk-1,lk) xk nk fk Nk=n Fk=1
k
2. REPRESENTACIONES GRÁFICAS
 Su fnalidad consiste en presentar, a golpe de vista, el

comportamiento de la distribuciin.
 Se usan, por tanto, como complemento del trabajo

estadístco, y a veces, como punto de partda para el
posterior análisis estadístco
A partir de la tabla de frecuencias… Gráfico de Sectores
SEXO F.A. F.R. PORCENT.

HOMBRE 42 0.538 53.8
MUJER 36 0.462 46.2
TOTAL 78 1 100
Diagrama de
Barras
PAÍS ORIGEN F.A. F.R. PORCENT.
ESTADOS 27 0.346 34.6
UNIDOS
ESPAÑA 30 0.385 38.5
CHINA 21 0.269 26.9
TOTAL 78 1 100
A partir de la tabla de frecuencias…

Semanales
Diagrama de
1 6 0,08 6 0,08 8
Barras 2 10 0,13 16 0,21 13
3 17 0,22 33 0,43 22
4 14 0,18 47 0,61 18
5 12 0,15 59 0,76 15
6 10 0,13 69 0,89 13
7 9 0,11 78 1 11
TOTAL 78 1 100
Gráfico de Sectores
A partir de la tabla de frecuencias… Histograma

Tiempo
Conexión
[25,35] 30 3 0.04 3 0.04 4
(35,45] 40 8 0.10 11 0.14 10
(45,55] 50 19 0.24 30 0.38 24
(55,65] 60 22 0.28 52 0.66 28
(65,75] 70 11 0.14 63 0.80 14
(75,85] 80 10 0.13 73 0.93 13
(85,95] 90 5 0.07 78 1 7
TOTAL 78 1 100
• Como norma general, se toman como alturas de los rectángulos las densidades de frecuencias hi: hi
=ni/ci, o bien las densidades de frecuencias relativas tomando fi en vez de ni: hi =fi/ci.
• Cuando los intervalos tienen la misma longitud, se simplifica tomando como altura las frecuencias ni
o fi.
A partir de este gráfico se puede obtener el polígono de frecuencias.
3. MEDIDAS DE SÍNTESIS
3.1. Medidas de Tendencia central: Indican valores con respecto a

los cuales parecen agruparse los datos
3.2. Medidas de Posición: Una vei que los datos han sido ordenados,
agrupan éstos en conjuntos con el mismo número de individuos
3.3. Medidas de Dispersión: Indican la concentraciin de los datos con
respecto a las medidas de centraliiaciin
3.4. Medidas de Forma: Muestran la forma de la distribuciin
3.1. MEDIDAS DE TENDENCIA CENTRAL
Media (aritmétca)
k
x n  x n   xk nk xn i i k
x 1 1 2 2  i 1
  xi f i
n n i 1
Característcas:
Para obtenerla es necesario utliiar todos los valores. min(xi )  x  max(xi )
• Es sensible a valores extremos, por ello no se suele utliiar como medida
central de distribuciones muy asimétricas.
• Se expresa en la misma unidad que los datos.
• No se ve afectada por el orden en el que vengan los datos.
• Centro de gravedad de los datos (la suma de las desviaciones de los valores
k
de la distribuciin respecto a la media es igual a cero) ( x  x)  0

i 1
i
Media (aritmétca)
k
x n  x n   xk nk xn i i k
x 1 1 2 2  i 1
  xi f i
n n i 1
Característcas:
• Si a cada dato de la variable X se le suma una constante, se
obtene una nueva variable Y con media igual a la anterior más la constante.
• Si cada dato de una variable X se multplica por una constante, la media de
la nueva variable resultante queda multplicada por dicha constante.
yi  a  bxi  y  a  b x
Otras Medias: armónica, geométrica….

Mediana
La Mediana es un valor tal que, ordenados los valores de la distribuciin

de menor a mayor, separa a los mismos en dos partes que contenen
aproximadamente el mismo número de datos.
Ocupa el lugar central respecto a los datos ordenados (primer valor que
deja por debajo de sí al menos 50% de los datos).
Característcas:
• No se ve afectada por observaciones extremas.
• No depende de los valores que toma la variable sino del orden.
• La media y la mediana tendrán valores similares, salvo cuando existan
valores atpicos o cuando el histograma de los datos sea muy asimétrico.
Mediana. Ejemplo 1
Conex. F.A. F.R. F.A.A. F.R.A
Semanales
1 6 0,08 6 0,08
2 10 0,13 16 0,21
3 17 0,22 33 0,43
4 14 0,18 47 0,61 Me = 4
5 12 0,15 59 0,76
6 10 0,13 69 0,89
7 9 0,11 78 1
TOTAL 78 1
Moda
La Moda es el valor de la variable que más se repite (el que tene

mayor frecuencia absoluta o relatva).
• Puede que no sea única

Moda
La Moda es el valor de la variable que más se repite (el que tene

mayor frecuencia absoluta o relatva).
• Si la variable es contnua o discreta con muchos valores, puede que los
datos apenas se repitan. En ese caso, se debe agrupar por intervalos y
se habla de intervalo modal: aquél con mayor frecuencia asociada.
• Dentro del intervalo modal, (Li-1,Li] la moda se calcula como el

representante de la marca de clase.
Moda. Ejemplo 1
Conex. F.A. F.R. F.A.A. F.R.A

Semanales
1 6 0,08 6 0,08
2 10 0,13 16 0,21
3 17 0,22 33 0,43
4 14 0,18 47 0,61 Mo = 3
5 12 0,15 59 0,76
6 10 0,13 69 0,89
7 9 0,11 78 1
TOTAL 78 1
Moda. Ejemplo 2
Tiempo M.C. F.A. F.R. F.A.A. F.R.A. %

Conexiin
[25,35] 30 3 0.04 3 0.04 4
(35,45] 40 8 0.10 11 0.14 10
(45,55] 50 19 0.24 30 0.38 24
(55,65] 60 22 0.28 52 0.66 28
(65,75] 70 11 0.14 63 0.80 14
(75,85] 80 10 0.13 73 0.93 13
(85,95] 90 5 0.07 78 1 7
TOTAL 78 1 100
Mo = 60 <-- La marca de clase del intervalo (55, 65]

Comparación de las medidas de tendencia central
Se consideran las distribuciones correspondientes a las

“califcaciones en cierta asignatura”, de 20 alumnos que
pertenecen a los grupos A y B, respectvamente. Ambas
tenen una media aritmétca igual igual a 5. Observemos el
distnto comportamiento de estas distribuciones.
3.2. MEDIDAS DE POSICIÓN
Cuantles
Se trata de valorar de forma relatva cimo es un dato respecto del

conjunto global de todos los datos.
Si, por ejemplo, un niño de 4 años pesa 13 kilos, ¿está desnutrido? ¿está
sano? Depende:
Por ejemplo, en Estados Unidos los niños son en general más grandes
que, por ejemplo, en Japin.
Quiiá más que el peso nos interese saber qué posiciin relatva tene el
peso del niño dentro de la poblaciin de la que forma parte.
Por ejemplo, si nos dicen que el niño está entre el 1% de los niños que
menos pesan, probablemente tene un problema de crecimiento.
Cuantles
Los cuantles son valores que, una vei ordenados de menor a

mayor los datos, dividen en partes iguales, es decir, en
intervalos que comprenden aproximadamente el mismo número
de valores.
Pueden ser de varios tpos:
Cuartles.
Son tres valores que, una vei ordenada de menor a mayor la
distribuciin, la dividen en cuatro partes iguales. Es decir, en cuatro
intervalos dentro de cada uno de los cuales está contenido un 25% de
los valores. Los representaremos por Q1, Q2 y Q3.
Cuantles
Los cuantles son valores que, una vei ordenada de menor a

mayor la distribuciin, la dividen en partes iguales, es decir, en
intervalos que comprenden el mismo número de valores.

Deciles.
Los deciles dividen a los datos ordenados en 10 partes iguales, por
tanto, hay 9 y se defnen como: Di = P10i i = 1,…,9
Cuantles
Los cuantles son valores que, una vei ordenada de menor a

mayor la distribuciin, la dividen en partes iguales, es decir, en
intervalos que comprenden el mismo número de valores.

Percentles.
se llama percentl de orden k (Pk) a la observaciin que deja por debajo
de sí al k% de la poblaciin. Los percentles dividen a los datos
ordenados en 100 partes.
Q1 = P25
Q2 = P50 = Me
Q3 = P75
Cálculo del Percentl de orden k
 Ordenamos los datos de menor a mayor.
 El percentl Pk es el valor más pequeño de la muestra cuya frecuencia

absoluta acumulada iguala o supera el valor k%n.
 O dicho de otra forma, el percentl Pk es el valor más pequeño de la

muestra cuya frecuencia relatva iguala o supera el k%.
Cuantles. Percentles. Ejemplo 1

Semanales
1 6 0,08 6 0,08 8
P30 = D3 = 3 2 10 0,13 16 0,21 13
P60 = 4 3 17 0,22 33 0,43 22
P75 = Q3 = 5 4 14 0,18 47 0,61 18
5 12 0,15 59 0,76 15
6 10 0,13 69 0,89 13
7 9 0,11 78 1 11
TOTAL 78 1 100
3.3. MEDIDAS DE DISPERSIÓN
 Las medidas de posiciin son insufcientes para resumir una

muestra.
La media es un valor más o menos representatvo de la

muestra dependiendo de la dispersiin de los datos.
Si los datos están agrupados cerca de la media, ésta será muy
representatva. Por el contrario, si los datos están muy
dispersos, la media no será un buen representante de las
observaciones.
Las medidas de dispersiin pretenden cuantfcar cimo de

concentrados o dispersos están los datos respecto a las
medidas de tendencia central (nos centramos en la media)
La idea de estas medidas es valorar en qué medida los datos

están agrupados en torno a la media.
Esta cuestin es uno de los motvos más absurdos de la mala

prensa que tene la Estadístca en la sociedad. La gente no se
fía de lo que ellos llaman la Estadístca entre otros motvos,
porque parece que todo el mundo cree que una media tene
que ser un valor válido para todos, y eso es materialmente
imposible.
Ejemplo 1
La media del salario de los españoles en 2005 fue de 18.750
euros al año. Ahora bien, esa media incluye tanto a las regiones
más desarrolladas como a las más desfavorecidas y,
evidentemente, la cifra generará mucho malestar en gran parte
de la poblaciin (con toda seguridad, más del 50 %), cuyo salario
está por debajo.
Ejemplo2
Existe una frase muy conocida que dice que la Estadístca es el
arte por el cuál si un español se come un pollo y otro no se come
ninguno, se ha comido medio pollo cada uno.
Esa frase se usa en muchas ocasiones para ridiculiiar a la
Estadístca, cuando en realidad debería servir para desacreditar a
quien la dice, por su ignorancia.
Debemos proporcionar cada media junto con
alguna medida de dispersión
Se llama dispersión o variabilidad, a la menor o mayor separación

de los valores respecto a otro que se pretende sea la síntesis.
Surgen diferentes medidas de dispersión. Pueden definirse

teniendo en cuenta:
(a) La diferencia entre determinados valores de la variable.

(b) Promedios de las diferencias entre cada valor de la variable y
una medida de posición (Media, Mediana, por ejemplo).
(c) La idea de que no dependa de las unidades de medida de los
valores.
Rango
Se defne el rango, R, como la diferencia entre el mayor y el menor de los

valores de la distribuciin.
R  Valormax  Valormin
Característcas:
• Es fácil de calcular.
•Tiene la misma unidad de medida que la variable.
•No utliia todas las observaciones.
•Se puede ver afectado por observaciones extremas.
•Es útl en situaciones en las que se requiera medir la dispersiin con
mucha frecuencia y sobre pocos valores.
Recorrido Intercuartlico
Nos indica la amplitud del intervalo donde están comprendidos el 50%

central de los valores, y se calcula:
RI = Q3 − Q1
Característcas:
• Presenta como ventaja respecto al recorrido, la eliminaciin del
posible efecto que pudieran tener algunos valores extremos.
Varianza y Desviación tpica o estándar
La variania, S2, se defne como la media de las diferencias cuadrátcas de

n puntuaciones con respecto a la media.
1 k 1 k 2 
s   ( xi  x ) ni    xi ni   x 2
2 2
s 2 ≥ 0
n i 1  n i 1 
Su unidad de medida queda elevada al cuadrado, por lo que se defne la
desviaciin tpica, s, como la raíi cuadrada positva de la variania:
s  s2
Característcas:
* Si se suma una constante a una variable, la variania de la nueva variable
no cambia.
* Si se multplica una variable por una constante, la variania de la nueva
variable queda multplicada por la constante al cuadrado.

• Cuanto mayor sea la variania de unos datos, más dispersos,
heterogéneos o variables son esos datos.
• Cuanto más pequeña sea una variania de unos datos, más agrupados
u homogéneos son dichos datos.
2 1 k 2 1 k 2 n 2 Cuasivarianza
s 
c  ( xi  x ) ni   xi ni  x
n  1 i 1 n  1 i 1 n 1
Observa que: 2 n 2
s 
c S
n 1
Las siguientes muestras representan los tempos de conexiin a

internet de 10 usuarios españoles en minutos y de 10 usuarios
americanos en segundos:
Españoles
8.180881, 10.503650, 8.210198, 13.096271, 9.259044
15.540982, 7.854185, 12.010111, 8.725924, 11.712810
Americanos
5100.636, 4987.702, 5035.441, 5321.591, 5502.833
4737.402, 4537.105, 4731.434, 4742.981, 4444.282
¿Qué muestra presenta mayor dispersiin (en torno a la media)?

Coefciente de Variación
Una forma de valorar en términos relatvos cimo es de dispersa

una variable es proporcionar el cociente entre la desviaciin tpica
y la media (en valor absoluto).
S
C.V . 
x
Característcas:
• Es una medida adimensional.
• Da informaciin sobre la representatvidad de la media. Cuanto más
priximo a 0, mas representatva será la media (dudaremos de la
representatvidad si CV>0.5)
• Permite comparar la dispersiin de varias distribuciones.
• Es invariante frente a cambios de escala.
• El C.V. pierde signifcado cuando la media se aproxima a 0.
Coefciente de Variación
Las siguientes muestras representan los tempos de conexiin a

internet de 10 usuarios españoles en minutos y de 10 usuarios
americanos en segundos:
Españoles
8.180881, 10.503650, 8.210198, 13.096271, 9.259044
15.540982, 7.854185, 12.010111, 8.725924, 11.712810
Americanos
5100.636, 4987.702, 5035.441, 5321.591, 5502.833
4737.402, 4537.105, 4731.434, 4742.981, 4444.282
¿Qué muestra presenta mayor dispersiin (en torno a la media)?
CVx  0.229 CVy  0.065

Coefciente de Variación. Ejemplo 1

Semanales
1 6 0,08 6 0,08 8
2 10 0,13 16 0,21 13
3 17 0,22 33 0,43 22
x  4,05 Rango  6 4 14 0,18 47 0,61 18
5 12 0,15 59 0,76 15
6 10 0,13 69 0,89 13
7 9 0,11 78 1 11
TOTAL 78 1 100
2 12  6  2 2  10   7 2  9
s   4.052  3.13
78
1,77
S  3,13  1,77 C.V .   0,44
4,05
TIPIFICACIÓN
Ejemplo. Los alumnos de primero de GITI ha obtenido en estadística una nota media de
6.5 con desviación típica 2.3, y en matemáticas una media de 7.1 con desviación típica
3.4. Si un alumno ha obtenido un 6.8 en estadística y un 7.2 en matemáticas, ¿en cuál de
ellas ha obtenido mejor puntuación?
Tipifcar una variable cualquiera X consiste en realiiar un cambio de origen y

escala de dicha variable con el fn de obtener una nueva variable Z que tendrá
media 0 y desviaciin tpica 1 y a la que denominaremos variable tpiicada.
El procedimiento de tpifcaciin consiste en restar la media y dividir por la

desviaciin tpica de la variable X a un valor cualquiera de la variable:
xx
Z
s
6.8  6.5 7.2  7.1
Z estadística   0.1304 Z matemáticas   0.0294
2.3 3.4
EJERCICIO 1
Se ha medido el tempo de respuesta (segundos) de una

máquina en ocho ocasiones, cuyos resultados fueron los
siguientes:
9.7, 10.2, 7.1, 8.8, 10.5, 8.6, 10.2, 9.0
(a) Calcula la media, mediana, moda y variania.
(b) ¿A partr de qué valor se encuentran el 25% de los
tempos de respuesta más pequeños? ¿Y el 10% de los
tempos más altos?
(c) Debido a un error en las medidas, a los datos anteriores
hay que sumarles 0.5 segundos. ¿Como afecta dicho error a
las medidas obtenidas en el apartado (a)?
Sol: (a) media = 9.26, Me = 9, Mo = 10.2, S^2 = 1.11; (b) P25 = 8.6 y P90 = 10.5,
respectvamente; (c) nueva media = 9.76, Me = 9.5, Mo = 10.7, S^2 = 1.11.
3.4. MEDIDAS DE FORMA
Las medidas de forma comparan la forma que tene el

histograma o el diagrama de barras de la distribuciin, con
una situaciin ideal en la que los datos se reparten en igual
medida a la derecha y a la iiquierda de la media.
Asimetría
Kurtosis o apuntamiento
Coefciente de Asimetría
• Cuando los datos están repartdos de igual forma a uno y otro lado de
la media se conoce como SIMETRÍA y se dice en ese caso que la
distribuciin de los datos es SIMÉTRICA.
Cuando eso ocurre, coinciden la media y la mediana. Si la distribuciin

tene además forma de campana, ambas son iguales a la moda.
• Por contra, se dice que una distribuciin es ASIMÉTRICA A LA

DERECHA si las frecuencias (absolutas o relatvas) descienden más
lentamente por la derecha que por la iiquierda.
• Si las frecuencias descienden más lentamente por la iiquierda que

por la derecha diremos que la distribuciin es ASIMÉTRICA A LA
IZQUIERDA.
Indican si la distribuciin es simétrica y, en caso

de no serlo, el tamaño y la tendencia de su
simetría.
n k
3
 (x i  X)  (x i  X )3 ni k
3
i 1 i 1 (
 ix  X ) fi
1  n  n  i 1
S3 S3 S3
• Si el coefciente es igual a 0, la distribuciin es simétrica.
• Si es < 0, la distribuciin es asimétrica por la iiquierda.
• Si es > 0, la distribuciin es asimétrica por la derecha.
1  0
1  0
1  0
Coefciente de Curtosis o Apuntamiento
Trata de estudiar la mayor o menor concentraciin de frecuencias

alrededor de la media y ver así si la distribuciin es más o menos
apuntada.
Característcas:
• Las medidas de curtosis deben aplicarse silo a distribuciones
unimodales y simétricas, o con ligera asimetría.
• Es necesario tener una distribuciin de referencia, la distribuciin
Normal.
• La curva Normal es simétrica respecto a su media, campaniforme y se
utliia como patrin de comparaciin para el estudio del apuntamiento
de una distribuciin.
Coefciente de Curtosis o Apuntamiento

n k
4 4
 (x  X )
i  (x  X ) n
i i k
4
i 1
n
i 1
n
 (x  X )
i 1
i fi
2  3  3 3
S4 S4 S4
• Si el coeficiente es igual a 0, la distribución es mesocúrtica.
• Si es < 0, la distribución es platicúrtica.
• Si es > 0, la distribución es leptocúrtica.
Curtosis>0
(leptocúrtica)
Curtosis<0 Curtosis=0
(platicúrtica) (mesocúrtica)
Ejemplo 1.

Semanales
1 6 0,08 6 0,08 8
2 10 0,13 16 0,21 13
3 17 0,22 33 0,43 22
4 14 0,18 47 0,61 18
5 12 0,15 59 0,76 15
6 10 0,13 69 0,89 13
7 9 0,11 78 1 11
TOTAL 78 1 100
x  4,05 s  1,77
 1  Asimetría  0.09
 2  Curtosis  0.95
4. ANÁLISIS EXPLORATORIO DE DATOS
El objetvo principal de la Estadístca es la obtenciin de informaciin

relevante y útl a partr de los datos.
Es imprescindible que los datos tengan la mayor precisiin y

fabilidad posibles.
Hay ocasiones en que un conjunto de datos contene una o más

observaciones inconsistentes en algún sentdo.
Estos valores son atribuibles, por lo general, a una de las siguientes

causas:
• El valor ha sido introducido en la base de datos incorrectamente.
• El valor proviene de una poblaciin distnta a la que estamos
estudiando.
• El valor es correcto pero representa un suceso muy poco común.
Depuración de los datos

Gráfco de Caja y Bigotes

• Se trata de una síntesis gráfca de una distribuciin en la que intervienen:
mediana, cuartles primero y tercero, y los valores máximo y mínimo.
• Se consigue una impresiin rápida de ciertas característcas básicas de un
conjunto de datos: posiciin, dispersiin y simetría o asimetría.
• La caja del diagrama contene la mitad central de los datos. A medida
que la mediana esté más centrada en la caja, y cuanto más similares sean
las distancias de la caja hasta los valores mínimo y máximo, menos
asimétrica es la distribuciin.
min  28 , Q1  51
min  91 , Me  58
x  60,17 , Q3  70
Q3
Q1
Mediana Media
Gráfco de Caja y Bigotes
18 17 18
16
16 16 15 15
14
14 14
12
12 12
10 10 10
10 9 10 9
8
8 8
6
6 6 5
4 4
2 2
0 0
1 2 3 4 5 6 7 1 2 3 4 5 6 7
Valores Outliers o anómalos
Se llamará OUTLIER a aquella observaciin que siendo atpica

y/o errinea, tene un comportamiento muy diferente
respecto al resto de los datos, en relaciin al análisis que se
desea realiiar sobre las observaciones.
En general, una observaciin que es inusualmente grande o

pequeña en relaciin con los demás valores de un conjunto de
datos se denomina dato atpico o fuera de rango.
Método para detectar valores atpicos

Rango Intercuartlico:
Sabemos que el intervalo (Q1,Q3) contene el 50% central de las
observaciones.
Se defne el inicio del bigote iiquierdo como:
f1 = Q1 − 1,5RI;
Se defne el fnal del bigote derecho como:
f2 = Q3 + 1,5RI
Toda observaciin que quede fuera de los bigotes conceptúa
como valor animalo que debería ser estudiado.

Valor
atípico
Fin
Bigote
Dcho
Q3
Inicio
Bigote
Q1
Izdo Mediana Media
EJERCICIO 2
Diei análisis repetdos de la concentraciin de mercurio en

una muestra de condensado de gas comercial proporcionaron
los siguientes resultados:
23,3; 22,5; 45,0; 21,5; 19,9; 21,3; 21,7; 23,8; 22,6; 24,7
ng/ml.
Calcula la concentraciin media de mercurio. ¿Es

representatva dicha media? ¿Existe algún valor animalo?
Sol. media = 24.63, CV = 0.28, Q1 = 21.5, Q3 = 23.8; Q1-1.5 RI = 18.05;

Q3 +1.5 RI =27.25.

Introducción A La Estadística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción A La Estadística

Cargado por

Copyright:

Formatos disponibles

INTRODUCCIÓN A LA

El origen de la palabra “estadística” desde el punto de vista

Primera vez que se acuña la palabra estadística:

Godofredo Achenwall (s. XVIII), que extrajo del término italiano

Estadística procede del término “estadista”, que a su vez procede del

1. f. Estudio de los datos cuantitativos de la población, de los recursos

Pentateuco: engloba los 5 primeros libros del antiguo testamento.

Censo del emperador Yao (China, 2238 a. de J.C.). Primeras

Documentos asirios, egipcios y griegos. La preocupación por la

Los eruditos del siglo XVII demostraron especial interés por la

(tablas de mortalidad de las compañías de seguros)

Control estadístico de calidad

• Sistematiaciin, recogida, ordenaciin y presentaciin de los datos

Una importante empresa desarrolladora de una red social quiere

La informaciin recopilada, de 78 individuos seleccionados al

• Sexo del usuario.

o Analisis del tempo de conexiin según el sexo ¿Se

o ¿Podemos afrmar que el número medio de conexiones

La población o colectivo estudiado: conjunto de personas

Razones para tomar muestras:

La muestra: subconjunto representativo de la población

Dependiendo del tamaño de la población y del

Variables cualitativas o atributos

 Son cualidades o atributos de los individuos. No son un número,

 A veces se asigna un número a cada una de las cualidades.

 Miden características cuantificables en cada individuo. Toman

Variable Continua: si la variable puede tomar una cantidad

La edad, al ser una

 Resumir y describir conjuntos de datos a través de

 Estudiar relaciones entre las variables.

1. Organización de los datos. Tablas de Frecuencias.

Frecuencia Absoluta (F.A.): Frecuencia Relativa (F.R.): es el

Variables Cuanttatvas DISCRETAS

Ej. Nº Conexiones semanales

Frecuencia Absoluta Acumulada Frecuencia Relativa Acumulada

Variables Cuanttatvas DISCRETAS

Conex. F.A. F.R. F.A.A. F.R.A %

F.A. F.R. F.A.A. F.R.A.

Variables Cuanttatvas CONTINUAS

Muchos datos muy distintos: agrupamos en intervalos

 Supone pérdida de información pero se gana en manejabilidad

Variables Cuanttatvas CONTINUAS

Muchos datos muy distintos: agrupamos en intervalos

Marca de Clase (M.C.): es

Variables Cuanttatvas CONTINUAS

Muchos datos muy distintos: agrupamos en intervalos

(85,95] 90 5 0.07 78 1 100*f

Amplitud del ...

 Su fnalidad consiste en presentar, a golpe de vista, el

 Se usan, por tanto, como complemento del trabajo

A partir de la tabla de frecuencias… Gráfico de Sectores

SEXO F.A. F.R. PORCENT.

Variables Cuanttatvas DISCRETAS

A partir de la tabla de frecuencias…

Variables Cuanttatvas CONTINUAS

A partir de la tabla de frecuencias… Histograma

3.1. Medidas de Tendencia central: Indican valores con respecto a

Otras Medias: armónica, geométrica….

La Mediana es un valor tal que, ordenados los valores de la distribuciin

La Moda es el valor de la variable que más se repite (el que tene

• Puede que no sea única

La Moda es el valor de la variable que más se repite (el que tene

• Dentro del intervalo modal, (Li-1,Li] la moda se calcula como el