Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUCCIN A LA ESTADSTICA
Estadstica. La estadstica estudia los mtodos cientficos para recoger, organizar, resumir y analizar datos,
as como para sacar conclusiones vlidas y tomar decisiones razonables basadas en tal anlisis.
Estadstica descriptiva. Ciencia que estudia las tcnicas mediante las cuales se recopilan, coleccionan, y
organizan datos e informacin los cuales pueden representarse grficamente.
Estadstica Inferencial. Ciencia que auxilindose en la recoleccin de datos y grficas de la estadstica
descriptiva y las leyes de la probabilidad nos ayuda a tomar decisiones razonadas.
La industria, la salud, la agricultura, la ciencia poltica, la mercadotecnia y principalmente el control de calidad,
son algunas de las muchas aplicaciones de la estadstica con sus dos ramas.
Probabilidad. Ciencia que estudia la posibilidad de que suceda un evento de inters, llamado experimento,
por ejemplo:
1. El lanzamiento de un par de dados y sus posibles resultados.
2. El lanzamiento de una moneda honrada.
3. La adquisicin de un boleto para un determinado sorteo.
La encuesta es una de muchas herramientas disponibles para recolectar datos. Una meta comn de las
encuestas es reunir datos de una pequea parte de un grupo ms grande para aprender algo acerca de este
ltimo. Una meta comn e importante de la estadstica es aprender acerca de un grupo examinando los datos
de algunos de sus miembros. En dicho contexto los trminos muestra y poblacin adquieren importancia.
Datos son las observaciones recolectadas (como mediciones, gneros, respuestas de encuesta).
Poblacin es la coleccin completa de todos los elementos (puntuaciones, personas, mediciones, etctera) a
estudiar. Se dice que la coleccin es completa, pues incluye a todos los sujetos que se estudiarn. Puede ser
finita si sus elementos se pueden contar, Ej. Nmeros de estudiantes de un curso, e infinitas si no se pueden
contar.
Censo es la coleccin de datos de cada uno de los miembros de la poblacin.
Muestra es un subconjunto de miembros seleccionados de una poblacin.
Tipos de datos
Parmetro es una medicin numrica que describe algunas caractersticas de una poblacin.
Estadstico es una medicin numrica que describe algunas caractersticas de una muestra.
Datos cuantitativos consisten en nmeros que representan conteos o mediciones.
Datos cualitativos (o categricos o de atributo) se dividen en diferentes categoras que se distinguen por
alguna caracterstica no numrica. Tiene dos caractersticas exhaustivos que pueda clasificar toda la
poblacin y mutuamente excluyente es decir un elemento no puede pertenecer a dos o ms categoras. Ej.
Sexo de una persona.
Datos discretos resultan cuando el nmero de posibles valores es un nmero finito, o bien, un nmero que
puede contarse. (Es decir, el nmero de posibles valores es 0, 1, 2, etctera).
Datos continuos (numricos) resultan de un infinito de posibles valores que pueden asociarse a puntos de
alguna escala continua, cubriendo un rango de valores sin huecos ni interrupciones.
Nivel de medicin nominal son los datos consistentes exclusivamente en nombres, etiquetas o categoras
que no pueden acomodarse segn un esquema de orden (por ejemplo, de bajo a alto).
Los datos estn en el nivel de medicin ordinal cuando pueden acomodarse en algn orden, aunque no es
posible determinar diferencias entre los valores de los datos o tales diferencias carecen de significado.
Nivel de medicin de intervalo se parece al nivel ordinal, pero con la propiedad adicional de que la
diferencia entre dos valores de datos cualesquiera tiene un significado. Sin embargo, los datos en este nivel
no tienen un punto de partida un cero inherente (donde cero indica que nada de la cantidad est presente)
Nivel de medicin de razn se parece al nivel de intervalo, aunque tiene la propiedad adicional de que s
tiene un punto de partida o cero inherente (donde cero indica que nada de la cantidad est presente). Para
valores en este nivel, tanto las diferencias como las proporciones tienen significado.
Muestra de respuesta voluntaria (o muestra autoseleccionada) es aquella donde los sujetos deciden ser
incluidos por s mismos.
Diseo de experimentos
Existen dos puntos principales que son bastante sencillos. Es necesario entender que el mtodo usado para
reunir los datos es extremadamente importante, y debemos reconocer que la aleatoriedad resulta importante
en particular.
*Si los datos mustrales no se renen de manera adecuada, stos podran resultar intiles por
completo, de tal forma que ninguna cantidad de tortura estadstica los salvara.
*La aleatoriedad por lo general juega un papel crucial para determinar cules son los datos a reunir.
Los mtodos estadsticos se rigen por los datos. Por lo regular obtenemos datos de dos fuentes distintas: los
estudios observacionales y los experimentos.
En un estudio observacional, observamos y medimos caractersticas especficas, aunque no intentamos
manipular a los sujetos que estamos estudiando.
En un experimento aplicamos algn tratamiento y luego procedemos a observar sus efectos sobre los
sujetos.
Hay diferentes tipos de estudios observacionales:
Estudio transeccional, los datos se observan, miden y renen en un solo momento.
Estudio retrospectivo (o de control de caso), los datos se toman del pasado (a travs del examen de
registros, entrevistas y otros medios).
Estudio prospectivo (o longitudinal o cohorte), los datos se renen en el futuro y se toman de grupos
(llamados cohortes) que comparten factores comunes.
Los resultados de los experimentos algunas veces se empobrecen a causa de la confusin.
La confusin ocurre en un experimento cuando el experimentador no es capaz de distinguir entre los efectos
de diferentes factores.
Ahora definiremos algunos de los mtodos de muestreo ms comunes.
Muestra aleatoria los miembros de una poblacin se seleccionan de manera que cada miembro individual
tiene la misma posibilidad de ser elegido.
Muestra aleatoria simple del tamao de n sujetos, se selecciona de manera que cada posible muestra del
mismo tamao n tenga la misma posibilidad de ser elegida.
Adems del muestreo aleatorio, hay otras tcnicas de muestreo en uso, y las ms comunes se describen
aqu:
Muestreo sistemtico, elegimos algn punto de partida y luego seleccionamos cada k-simo (por ejemplo
cada quincuagsimo) elemento en la poblacin.
Muestreo de conveniencia, simplemente se utilizan resultados que sean muy fciles de obtener.
Muestreo estratificado, subdividimos la poblacin en al menos dos diferentes subgrupos (o estratos) que
comparten las mismas caractersticas (por ejemplo, el gnero o la categora de edad) y despus realizamos
un muestreo de cada subgrupo (o estrato).
Muestreo por racimos, primero dividimos el rea de la poblacin en secciones (o racimos), despus
seleccionamos aleatoriamente algunos de estos racimos, y luego elegimos a todos los miembros de los
racimos seleccionados.
Errores de muestreo
Por muy bien que usted planee y ejecute el proceso de recoleccin de muestras, es probable que ocurra algn
error en los resultados:
Error de muestreo es la diferencia entre el resultado de una muestra y el verdadero resultado de la
poblacin; tal error es consecuencia de las posibles fluctuaciones de las muestras.
Error no de muestreo ocurre cuando los datos de una muestra se obtienen, registran o analizan de forma
incorrecta (como cuando se selecciona una muestra sesgada o predispuesta, cuando se usa un instrumento
de medicin defectuoso o cuando se cometen errores al copiar los datos).
Caractersticas importantes de los datos
1. Centro: Valor representativo o promedio que indica la localizacin de la mitad del conjunto de los datos.
2. Variacin: Medida de la cantidad en que los valores de los datos varan entre s.
3. Distribucin: Naturaleza o forma de la distribucin de los datos (tales como normales, uniformes o
sesgadas).
4. Datos distantes: Valores mustrales que estn muy alejados de la vasta mayora de los dems valores de
la muestra.
5. Tiempo: Caractersticas cambiantes de los datos a travs del tiempo.
Distribucin de Frecuencias: Una distribucin de frecuencias es una tabla en la cual se agrupa en clases los
valores posibles para una variable y se registra el nmero de valores observados que corresponde a cada
clase. Los datos organizados en una distribucin de frecuencias se denominan datos agrupados; por el
contrario, para los datos no agrupados, se enumeran todos los valores observados de la variable aleatoria.
Tomas o Filas de Datos: Una toma o fila de datos consiste en datos obtenido que no han sido organizados
numricamente, por ejemplo los pesos de los estudiantes de quinto semestre de la especialidad electrnica
del plantel compuertas.
Ordenacin: Una ordenacin es un conjunto de datos numricos en orden creciente o decreciente. La
deferencia entre el mayor y el menor se llama rango de ese conjunto de datos.
Nmero de clase: El nmero de clase, es la divisin en la cual podemos ordenar la toma de datos obtenidos
en campo. Una frmula de aproximacin para calcular el nmero de clases es la llamada Regla de Sturges, la
cual matemticamente se define como:
N0 = 1 + 3, 22 log N
donde:
N0 = total de numero de clases
N= total de datos obtenidos en campo.
log = logaritmo de Briggs.
Amplitud de clase. Es el valor que se le aumenta a la cantidad menor de los datos o valores obtenidos, para
as elaborar las distribuciones de frecuencia, matemticamente se expresa:
A
V max Vnin
1 3,22 log N
donde:
Vmax = valor mximo de los datos obtenidos en campo.
Vmin = valor mnimo.
N0= nmero de clases= 1 + 3, 22 log N
El resultado final de la amplitud de clase debe estrictamente obtenerse en nmero entero; en caso contrario
deber redondearse, si el decimal es mayor a 0.5 se aumentara una unidad al resultado obtenido.
Intervalos de clase. Indica el rango de los valores incluidos dentro de una clase y puede ser determinada
restando el lmite exacto inferior de clase de su lmite exacto superior.
Los lmites de clase inferiores son las cifras ms pequeas que pueden pertenecer a las diferentes clases.
(Los lmites de clase inferiores de la tabla son 0, 100, 200, 300 y 400).
Los lmites de clase superiores son las cifras ms grandes que pueden pertenecer a las diferentes clases.
(Los lmites de clase superiores de la tabla son 99, 199, 299, 399 y 499).
Las fronteras de clase son las cifras utilizadas para separar las clases, aunque sin los espacios creados por
los lmites de clase. Se obtienen de la siguiente manera: se determina el tamao del espacio entre el lmite de
clase superior de una clase y el lmite de clase inferior de la siguiente. Se suma la mitad de esa cantidad a
cada lmite de clase superior, para obtener las fronteras de clase superiores; se resta la mitad de esa cantidad
de cada lmite de clase inferior, para obtener las fronteras de clase inferiores. (Los espacios de la tabla son
exactamente de una unidad, de modo que a los lmites de clase superiores se les suma 0.5 y a los lmites de
clase inferiores se les resta
- 0.5. Las fronteras de la primera clase son - 0.5 y 99.5, en tanto que las de la
segunda clase son 99.5 y 199.5, y as
sucesivamente. La lista completa de fronteras utilizadas para todas las clases es la siguiente: 0.5, 99.5, 199.5,
299.5, 399.5 y 499.5.)
Marcas de clase son los puntos medios de las clases. (Las marcas de clase de la tabla son 49.5, 149.5,
249.5, 349.5 y 449.5). Cada marca de clase se calcula sumando el lmite de clase inferior con el lmite de
clase superior y dividiendo la suma entre dos. Se representa por x
Anchura de clase es la diferencia entre dos lmites de clase inferiores consecutivos o dos fronteras de clase
inferiores consecutivas. (La anchura de clase que se utiliza en la tabla es igual a 100).
Tabla 2-2
Tabla: Distribucin de frecuencias de los niveles de cotinina de los fumadores
Cotinina Frecuencia
099
11
100199
12
200299
14
300399
1
400499
2
Frecuencia. Se define como el nmero de veces en que se repite un suceso y se representa por
la letra f
Histograma. Un Histograma o Histograma de frecuencias, consiste en un conjunto de
rectngulos, que pueden ser:
(a) Con bases en el eje x horizontal, centros en las marcas de clase y longitudes iguales a los
tamaos de los intervalos de clase.
(b) reas proporcionales a las frecuencias de clase.
Polgono de Frecuencias. Es un grfico de trozos de la frecuencia de clase con relacin a la
marca de clase. Puede obtenerse conectando los puntos medios de las partes superiores de los
rectngulos del Histograma.
Distribuciones de Frecuencias Relativas. La frecuencia relativa de una clase es su
frecuencia dividida por la frecuencia total de todas las clases y se expresa generalmente como
un porcentaje, por lo tanto la suma de las frecuencias relativas de todas las clases es 100. Si se
acumulan las frecuencias relativas de varias clases, a la tabla obtenida, se le llama tabla de
frecuencia relativas.
Distribuciones de Frecuencias Acumuladas. La frecuencia total de todos los valores
menores que la frontera de clase superior de un intervalo de clase dado se llama frecuencia
acumulada hasta ese intervalo de clase. Una tabla que presenta varias frecuencias acumuladas
se llama tabla de frecuencias acumuladas A las distribuciones de frecuencias acumuladas
tambin se les conoce como ojivas.
Curvas de Frecuencia
Los datos obtenidos pueden considerarse usualmente como pertenecientes a una muestra de
una poblacin grande. Ya que son posibles muchas observaciones sobre esa poblacin, siendo
posible escoger intervalos de clase muy pequeas y tener todava nmeros razonables en cada
clase.
ORGANIZACIN DE UNA DISTRIBUCIN DE FRECUENCIA
1.- Determinar el intervalo total.
2.- Determinar el intervalo de clase o amplitud de clase y en consecuencia el numero de clase.
200
205
202
209
214
210
20
PM
200
206
210
214
218
220
204
201
211
216
210
203
209
214
217
208
202
213
219
204
204
214
216
217
207
203
218
214
218
216
200
218
213
213
217
f
9
8
9
13
15
54
fa
9
17
26
39
54
hi
0.17
0.15
0.17
0.24
0.27
1.00
hip
17%
15%
17%
24%
27%
100%
x1 x2 xn
f1 x1 f 2 x 2 f k x k
f1 f 2 f k
fx
f
i
1
4
1
3
3
5
5
1
2
Numero de
Personas
1
2
3
4
5
6
Total
2
4
4
2
4
1
Frecuencia
8
14
7
12
3
1
45
2
2
3
1
4
2
4
4
4
2
2
4
6
2
2
2
3
5
4
1
1
3
4
3
1
2
4
Frecuencia
acumulada
8
22
29
41
44
45
x 2,8
8 14 7 12 3 1
45
7 11 11 8 12 7 6 68
x 8,5
8
8
n
n
~
Mediana x
Es el valor medio de los datos de una serie.
~
x =
5 1 6
3
2
2
~
x =16 valor que ocupa el puesto 3
8 8
( 1)
45 9
2 2
4,5
2
2
2
~
x =9 valor que esta entre 8 y 10 el puesto 4 y 5
Serie B, n = 8
23 ~
x 3 el vigsimo tercer valor
2
2
n= 45,
La
8,5
5 x 25.000 72x30.000 23 x 40.2
000 153.000 608.000
x
38.000$
16
16
25.000, 25.000, 25.000, 25.000, 25.000, 30.000, 30.000, 30.000, 30.000, 30.000, 30.000,
30.000, 40.000, 40.000, 40.000, 150.000
~
x = 30.000 $ (esta entre los puestos 8 y 9)
(b) El nuevo salario medio es
x
43.000$
16
16
( x x ) 2 ( x2 x ) 2 .............. ( xi x )
s 1
n 1
2
(x
xi x
llama
de si x i ,
x)
n 1
12 10 9 9 10 50
x 10
5
5
s 2 1,5
5 1
4
4
2
1,5 s 1,22
Serie B:
x
s2
5 10 16 15 4 50
x 10
5
5
s 2 30,5
5 1
4
4
30,5 s 5,22
Observe que B, manifiesta mayor dispersin que A, tiene una varianza y desviacin tpica
mucho mayor que A.
Otra formula de la varianza muestral:
2
i
( xi ) 2 / n
n 1
a) La media muestral
Xi
X i2
x
n
s2
3
9
i
x , b) la varianza muestral S2
5
25
8
64
9
81
10
100
12
144
13
169
15
225
20
400
95
1217
95
x 10,56
9
s 2 26,78
9 1
8
Varianza de la poblacin:
( x ) 2 ( x 2 ) 2 .......... ( x n ) 2
1
n
2
(x
)2
( f 1 f 2 ............... f k ) 1
( f i ) 1
( f i ) 1
Trecientos estudiantes de selectividad hacen un examen de matemticas consistente en 75
preguntas tipo test. Supongamos que la distribucin de las puntuaciones del examen siguiente:
S2
Puntuacion
es del Test
Nmeros
de
Estudiante
s
5 - 14
15 - 24
25 - 34
35 - 44
45 - 54
55 - 64
65 -75
36
110
78
66
Limites de
clases
5 - 14
15 - 24
25 - 34
35 - 44
45 - 54
55 - 64
65 - 75
Numero de
clases
xi
9.50
19.5
29.50
39.50
49.50
59.50
70,00
TOTAL
Frecuencia
fi
2
0
8
36
110
78
66
300
fixi
19
0
236
1422
5445
4641
4620
16383
16.383 50
x 54,61
300
15
Xi2
90,25
380,25
870,25
1.560,25
2.450,25
3.540,25
4.900,00
fi Xi2
180,50
0
6.962,00
56.169,00
269.527,50
276.139,50
323.400,00
932.378,50
s2
s 2 126,10
300 1
299
s
126,10 s 11, 23
1.( n 1)
cuando n es impar.
4
Para el tercer cuartil ser:
3.n
cuando n es par.
4
3.( n 1)
cuando n es impar.
4
A.( n 1)
A.n
o
, donde A representa el numero de los sextiles.
6
6
A.(n 1)
A.n
o
, siendo A el numero del decil y para los porcentiles
10
10
A.( n 1)
A.n
o
100
100
2.- Se determina la posicin del trmino cuyo valor se pretende calcular, en caso de ser el primer
1.
f
95. f i
Cuartil ser i , si fuera el 95 centil
, .., etc.
4
100
3.- Se verifica cual es la clase que lo contiene, para ello se utiliza la columna de las frecuencias
acumuladas.
4.- Se hace la diferencia entre el numero que representa el orden de posicin cuyo valor se
pretende calcular y la frecuencia acumulada de la clase anterior a la que lo contiene.
5.- Se calcula la medida solicitada de acuerdo a la siguiente formula:
P li
p Fa 1
.ic
fi
N de
Empleados
(f)
85
90
120
70
62
36
fa
85
175
295
365
427
463
PRIMER CUARTIL
Posicin (p)
463
115,75
4
Li = 300
Fa-1 = 85
F1 = 90
Ic = 100
Q1 300
CUARTO SEXTIL
Posicin (p)
115,75 85
x100 300 34,17 Q1 334,17
90
4( 463)
308,66
4
Li = 500
Fi = 295
Fa-1 = 70
Ic = 100
4 S 500
308,66 295
x100 500 19,51 4 S 519,51
70
SPTIMO DECIL
7(463)
324,10
10
Posicin (p)
Li = 500
Fi = 295
Fa-1 = 70
Ic = 100
7 D 500
324,10 295
x100 500 41,57 7 D 541,57
70
30 PORCENTIL
Posicin (p)
30( 463)
138,90
100
Li = 300
Fi = 85
Fa-1 = 90
Ic = 100
30 P 300
138,90 85
x100 300 37 30 P 359,88
90
EL MODO O MODA: Valor ms alto de la serie, el que mas se repite, el valor mas tpico. En una
distribucin de frecuencia, es el valor alrededor del cual los trminos tiendes a concentrarse mas
densamente.
La moda puede no existir, por ejemplo cada valor puede aparecer una vez, y si existe, puedes no
ser nico.
Datos Clasificados
M O li
d1
.ic
d1 d 2
M O li
f2
.ic
f1 f 2
Calificaciones
0 4,9
5 9,9
10 14,9
15 - 20
MO=?
li = 5
d1 = 40 20 = 20
d2 = 40 30 = 10
ic = 5
MO 5
MO=?
li = 5
f1 = 20
f2 = 30
ic = 5
N de Estudiantes
20
(40)
30
10
100
20
100
.5 5
M O 8,30
20 10
30
MO 5
30
150
.5 5
MO 8
20 30
50
C.V
S
.100
X
C.V
.100
Ejemplo: Supongamos que medimos un objeto con un medidor mtrico A de media 3,25 mm y
desviacin tpica de 0,01 mm, y supongamos que medimos otro objeto con un medidor ingles B
de media 0,80 pulgadas y desviacin tpica de 0,02 pulgadas. Que medidor es relativamente
ms preciso?
MEDIDOR MTRICO A
x = 3,25 mm
S = 0,01 mm
C.V A
MEDIDOR MTRICO B
x = 0,80 plg.
S = 0,02 plg.
0,01
.100 0,31%
3,25
C.V B
0,02
.100 0,25%
0,80