Está en la página 1de 15

Captulo 1: Introduccin a la estadstica y al anlisis de datos.

Empleo de datos cientficos:


Para comenzar el captulo es primordial saber cul es la diferencia entre el acopio
de informacin cientfica y la estadstica inferencial. La informacin cientfica son
datos que se recopilan siguiendo un mtodo cientfico, pero que si son analizados
tal cual son recibidos no proporcionaran relaciones reales. La estadstica
inferencial ha agregado muchas herramientas al anlisis en mtodos estadsticos
debido a que esta toma los datos cientficos recopilados y los analiza. Lo
anterior est orientado a tener un mejor panorama del comportamiento de una
variable.
La variabilidad en los datos cientficos son las cercanas que tiene un dato
extrado de una muestra con respecto a los estndares para una poblacin.
Qu quiere decir esto?
Supongamos que una empresa productora de placas de metal decide analizar el
grosor con el que salen las placas y deciden tomar una muestra de las mismas. En
este caso la poblacin es el total de placas que se producen. Al tomarse la
muestra se determina que tienen 5 cm de grosor en promedio las placas. Sin
embargo hay placas que tienen de grosor 10 cm y 2 cm dentro de esa muestra. A
esa diferencia que se tiene entre unidades de la muestra con, en este caso, la
media de la muestra es a lo que se le llama variabilidad y es lo que los ingenieros
en calidad intentan evitar.
As que en esta unidad veremos en concreto:

Recolectar datos
Localizar la media y la mediana de una muestra
Rango y desviacin estndar de una muestra
Diagramas simples para el anlisis de muestras

Recoleccin de datos.
Uno de los mtodos ms utilizados en la estadstica para la seleccin de una
muestra a analizar es el muestreo aleatorio simple, que significa que cierta
muestra tiene la misma probabilidad de ser seleccionada que otra muestra del
mismo tamao. Esto quiere decir, si tengo dulces de colores en una bolsa y saco
5, todos los grupos de 5 dulces que pueda sacar de la bolsa tienen la misma
probabilidad de aparecer en la muestra. La cantidad de unidades en una muestra
se le denomina tamao muestral. El muestreo aleatorio simple nos ayuda a
mantener aleatorizados los resultados que obtengamos en un experimento o
anlisis, por lo cual los resultados reflejan mejor el comportamiento de la

poblacin. Por ejemplo, regresando a la fbrica de placas de metal, supongamos


que el supervisor decidi llevar a cabo el anlisis de las placas de metal en el
turno de 3 pm a 11pm nicamente en un mdulo de trabajo; sin embargo en la
fbrica existen otros 3 turnos de trabajo y otros 8 mdulos en cada turno y
justamente en ese tiempo que el supervisor decidi analizar las placas estaba
trabajando en el mdulo el operador con menor rendimiento. Es claro que la
muestra que tom el supervisor no reflejara realmente el comportamiento de la
poblacin total.
Sin embargo el muestreo aleatorio simple no es siempre la mejor opcin.
Supongamos que una comunidad religiosa quiere analizar las opiniones de los
catlicos con respecto a un tema en una ciudad as que, utilizando un muestreo
aleatorio simple, escogen casas al azar. Ellos hacen la encuesta a las personas
pero no se dieron cuenta que muchas de las casas seleccionadas al azar no eran
catlicas sino cristianas y testigos de jehov. Es claro que los datos recopilados no
le servirn para el anlisis pese a que utilizaron un muestreo aleatorio simple. El
problema anterior sucede cuando dentro de una poblacin, en este caso la ciudad,
existen diferentes unidades que no son iguales a las que se le llaman estratos, en
este caso representados por los cristianos, catlicos y testigos de jehov. Para
analizar este tipo de poblaciones donde se utiliza un muestreo aleatorio
estratificado, que quiere decir que dentro de una poblacin se eligen
aleatoriamente a las unidades que cumplan con cierto criterio.
En el caso de la fbrica de placas de metal no aplica este mtodo porque se
infiere que todas las placas de metal producidas deben de ser iguales.
Medidas de localizacin: la media y la mediana de una muestra.
Las medidas de localizacin estn diseadas para observar la ubicacin central de
una muestra. Una de las medidas ms sencillas y obvias es la media de la
muestra que es un promedio numrico.
La frmula para calcular la media de una muestra es la siguiente:

Donde:
n = nmero de datos en la muestra
Xi = Nmero correspondiente a cada lugar.

Un ejemplo rpido:
Un alumno tiene las calificaciones siguientes:
9.8 8.5 9.7 9.6 9.5 9.9 100
Tenemos en este caso que n=7
Calcular la media de esta muestra quedara de la siguiente manera:
6

x =
i=1

Xi 9.8+ 8.5+9.7+ 9.6+9.5+9.9+ 10 67


=
= =9.57
6
7
7

Entonces sabemos que la media de calificaciones del estudiante es de 9.57. Ya


podemos analizar que la calificacin de 8.5 est muy lejos de la media muestral
por lo cual el alumno debera de ver que problemas tiene en esa materia.
Otra de las medidas de localizacin de la ubicacin central es encontrar la
mediana de la muestra, para lo cual es necesario ordenar los datos de mayor a
menor y se selecciona el dato que se encuentra exactamente a la mitad. Sin
embargo si hay dos datos en el medio, estos se suman y se dividen entre dos.
Siguiendo con el ejemplo del estudiante, los datos ordenados de manera
descendente quedan de la siguiente manera:
10 9.9 9.8 9.7 9.6 9.5 8.5
En este caso se observa que el dato 9.7 se encuentra en el medio por lo cual se
determina que esta es la mediana. Sin embargo el alumno decide agregar la
calificacin de la materia de idiomas y sus calificaciones quedan entonces as:
10 9.9 9.8 9.7 9.6 9.6 9.5 8.5
En este caso 9.7 y 9.6 quedaron en medio del resto de los datos, por lo cual se
suman y se dividen entre dos, dndonos un resultado de 97.5. Se sigue
observando que la calificacin de 8.5 se encuentra muy alejada de la medida
central.
Otra medida para la localizacin del centro de una muestra es la media
recortada en la cual se eliminan los datos extremos de una muestra para tener
una muestra ms centralizada.
*Las medias recortadas se expresan en porcentajes, es decir, si se te pide calcular
la media recortada al 10% de una muestra de 10 datos, el 10% de 10 es 1 por lo
cual se eliminar un dato superior y uno inferior. Por ejemplo
50 26 26 27 24 27 24 26 25 26 12
Si calculamos la media de esos datos el resultado es de 29.3, sin embargo si
calculamos la media recortada al 10% tenemos lo siguiente:

x rec(10)=

26+ 26+27+24 +27+24 +26+25+26


=28.87
8

Como se observa el resultado vario y ahora se acerca ms a un punto central.


De igual manera existe un mtodo grafico rpido para la proyeccin de los datos,
que es el grafico de puntos. Este grafico consiste en la localizacin de puntos en
una lnea. Para ejemplificar esto volveremos a las calificaciones del estudiante
quedando graficadas del siguiente modo:
10 9.9 9.8 9.7 9.6 9.5 8.5

En este caso de nuevo es fcil de observar que la calificacin de 8.5 se encuentra


muy lejos de las otras calificaciones.

Para complementar lo aprendido se resolver un problema de la seccin de


ejercicios del captulo 1 del libro Probabilidad y estadstica para ingeniera y
ciencias en su novena edicin por Walpole Myers Myers.
1.6 La resistencia a la tensin del caucho de silicio se considera una funcin de la
temperatura de vulcanizado. Se llev a cabo un estudio en el que se prepararon
muestras de 12 especmenes del caucho utilizando temperaturas de vulcanizado
de 20C y 45C. Los siguientes datos presentan los valores de resistencia a la
tensin en megapascales.

a) Elabore una grfica de puntos con los datos, tanto de los valores de resistencia
a la tensin a temperatura alta como los de a temperatura baja.
b) Calcule la resistencia a la tensin media muestral para ambas muestras.
c) Al observar la grfica, le parece que la temperatura de vulcanizado influye en
la resistencia a la tensin?
Explique su respuesta.
d) En qu otra cosa, al parecer, influye el incremento en la temperatura de
vulcanizado? Explique su respuesta.
Lo primero que se tiene que hacer, para facilitar los procedimientos, es el ordenar
los datos de mayor a menor.
*Nota: se recomienda ampliamente utilizar una hoja de clculo para ordenar
rpidamente los datos.
Los datos que se nos dan, ya ordenados de mayor a menor quedan de la siguiente
manera:
20C =
45C =
Se procede a realizar una grfica de puntos acumulados que quedara de la
siguiente manera:

*Consultar al profesor para el uso de software de anlisis estadstico en la


realizacin de la grfica.
Calculamos ahora la media de ambas muestras como lo indica el inciso b)
12

x =
i=1

Xi 2.22+2.21+2.18+2.14 +2.14+2.11+ 2.09+2.07+2.05+2.03+2.03+ 2.02 25.29


=
=
=2.107 5
6
12
12

Para el vulcanizado a 20C

Y:
12

x =
i=1

Xi 2.52+2.49+2.42+2.42+2.37+2.29+ 2.15+2.08+2.05+2.03+2.01+1.99 26.82


=
=
=2.235
6
12
12

El inciso c) nos cuestiona si la temperatura del vulcanizado parece influir en


la resistencia. Observando entonces la grfica podemos determinar que la
temperatura mayor (45C) arroja resultados ms altos en resistencia a la tensin, por
lo cual se concluye que la temperatura de vulcanizado si influye en la resistencia.
El inciso d) nos cuestiona sobre qu otra cosa parece causar la temperatura
alta (45C). Por la grfica podemos observar que los puntos azules (resistencias a
20C) estn juntos mientras que los puntos rojos (45C) se encuentran dispersos en la
grfica, por lo cual podemos concluir que la temperatura tambin afecta a la
variabilidad.

Medidas de variabilidad:

En el problema 1.6 resuelto en el apartado pasado, se observ que la temperatura


de 45C distribua las resistencias a lo largo de la grfica de puntos mientras que
la temperatura de 20C presentaba sus resistencias juntas. A esto es a lo que se le
determina la variabilidad. Cuanta mayor sea la diferencia que hay entre los valores
se dice que mayor es su variabilidad y esto no es bueno en una compaa
productora. Lo que se busca siempre es que se tenga la menor variabilidad
posible pero para disminuir la misma primero se tiene que encontrar una medida
de ella.
Una medida de variabilidad es la desviacin estndar y la varianza:

Utilizando entonces los datos del ejercicio 1.6, recordando que las medias son
2.1075 y 2.235 para 20C y 45C respectivamente, observaremos la varianza con
la siguiente tabla:

Xi

x ix

2.22

0.1125

2.21

0.1025

2.18

0.0725

2.14

0.0325

2.14

0.0325

2.11

0.0025

2.09

-0.0175

2.07
2.05

-0.0375
-0.0575

(x i x )2
0.012656
25
0.010506
25
0.005256
25
0.001056
25
0.001056
25
0.000006
25
0.000306
25
0.001406
25
0.003306

SUMAS:

2.03

-0.0775

2.03

-0.0775

2.02
25.29

-0.0875
0.00

25
0.006006
25
0.006006
25
0.007656
25
0.055225

La suma de la columna 3 la dividimos entre n-1 (12-1 = 11) y nos da una varianza
de 0.005 para los datos de 20C

SUMAS:

Xi

x ix

(x i x )2

2.52

0.285

0.081225

2.49

0.255

0.065025

2.42

0.185

0.034225

2.42

0.185

0.034225

2.37

0.135

0.018225

2.29

0.055

0.003025

2.15

-0.085

0.007225

2.08

-0.155

0.024025

2.05

-0.185

0.034225

2.03

-0.205

0.042025

2.01

-0.225

0.050625

1.99

-0.245

0.060025

26.82

0.00

0.4541

La suma de la columna 3 la dividimos entre n-1 (12-1 = 11) y nos da una varianza
de 0.041para los datos de 45C.
Comparamos entonces las dos varianzas obtenidas
S

2
20 C

=0.005

S 245 C =0.041

Es claro entonces que la varianza en la temperatura 45C es mucho mayor que en


la temperatura de 20C.

Diagramas simples para el anlisis de muestras.


Los diagramas y grficos ayudan a observar el comportamiento de los datos de
una manera ms sencilla, al igual que permiten encontrar de una manera rpida
datos que buscamos y ayudan a la presentacin de resultados obtenidos.
Diagrama de tallo y hojas.
El diagrama de tallo y hojas tiene como objetivo el separar en categoras los datos
y con esto encontrar la mediana y la media aproximada.
Para explicar y ejemplificar de manera clara el funcionamiento de un diagrama de
tallo y hojas se analizara el inciso a del problema 1.19 del captulo 1 del libro
Probabilidad y estadstica para ingeniera y ciencias en su novena edicin por
Walpole Myers Myers.
1.19 Los siguientes datos representan la duracin de vida, en aos, medida al entero ms
cercano, de 30 bombas de combustible similares.

2.0
0.2
1.5
4.5
1.0

3.0
6.0
4.0
0.3
6.0

0.3
5.5
5.9
1.5
5.6

3.3
6.5
1.8
0.5
6.0

1.3
0.2
4.7
2.5
1.2

0.4
2.3
0.7
5.0
0.2

a) Construya un diagrama de tallo y hojas para la vida, en aos, de las bombas de


combustible, utilizando el dgito a la izquierda del punto decimal como el tallo para cada
observacin.
Lo primero y ms importante en un diagrama de tallo y hojas es ordenar los nmeros de
menor a mayor a manera de columna como se muestra a continuacin:

0.2
0.2
0.2
0.3
0.3

3.0
3.3

4.0
4.5
4.7

0.4
0.5
0.7
1.0
1.2
1.3
1.5
1.5
1.8
2.0
2.3
2.5

5.0
5.5
5.6
5.9
6.0
6.0
6.0
6.5

Lo siguiente que se tiene que hacer es seleccionar los tallos, esos se seleccionan por la
cantidad de nmeros a la izquierda. En este caso es fcil ver una separacin dada por los
puntos decimales, sin embargo en algunos casos se pueden elegir nmeros aunque no
haya puntos entre ellos. Una vez ordenados los nmeros de esta manera, se encierran los
nmeros iguales.
0.2
0.2
0.2
0.3
0.3
0.4
0.5
0.7
1.0
1.2
1.3
1.5
1.5
1.8
2.0
2.3
2.5

3.0
3.3

4.0
4.5
4.7
5.0
5.5
5.6
5.9
6.0
6.0
6.0
6.5

El siguiente paso es comenzar tabular las hojas con respecto a los tallos, para esto se
tiene que determinar que por cada tallo (0,1, 2, etc.) abra dos separaciones. En este caso
el signo -significaran las hojas que se encuentren por debajo de 5 y el signo *
significaran las hojas del tallo que sean iguales o mayores a 5. La tabla se muestra a
continuacin:
TALLO
00*
11*
22*
33*

HOJAS
2,2,2,3,3,
4
5,7
0,2,3
5,5,8
0,3
5
0,3

44*
55*
66*

0
5,7
0
5,6,9
0,0,0
5

Una vez hecho esto se contabilizaran las hojas de arriba hacia abajo en la columna de la
izquierda. Cuando se llegue a un nmero que sea mayor a la mitad del total de datos se
detendr la contabilizacin:

6
8
11
14
16

TALLO
00*
11*
22*
33*
44*
55*
66*

HOJAS
2,2,2,3,3,
4
5,7
0,2,3
5,5,8
0,3
5
0,3

En la fila uno se tiene 6 hojas, por lo


que en la primera columna se escribe 6
En la segunda fila se tienen 2 datos,
esa cantidad se suma a los 6 que ya se
Se tienen 30 datos, por lo que 15 es la
mitad. En esta fila la suma llega a 16
por lo cual nos detendremos y
borraremos ese nmero a
continuacin.

0
5,7
0
5,6,9
0,0,0
5

Una vez que nos topamos con un nmero que exceda la mitad de los datos comenzamos
a contabilizar desde abajo
6
8
11
14
14
13
11
11
10
8

TALLO
00*
11*
22*
33*
44*
5-

HOJAS
2,2,2,3,3,
4
5,7
0,2,3
5,5,8
0,3
5
0,3
0
5,7
0

7
4
1

5*
66*

5,6,9
0,0,0
5

Ntese que se borr el 16 que sobrepasaba la mitad. Ahora la fila que queda en el lmite
que sobrepasa la mitad de los datos. En esta fila se colocara netamente el nmero de
hojas que hay en esta fila. Despus se seala el nmero de esta fila con parntesis y los
nmeros de arriba y abajo encerrados en un cuadrado.

TALLO
0-

8
11
14
(2)
14
13
11
11
10
8
7
4
1

0*
11*
22*
33*
44*
55*
66*

HOJAS
2,2,2,3,3,
4
5,7
0,2,3
5,5,8
0,3
5
0,3
0
5,7
0
5,6,9
0,0,0
5

Y nuestro diagrama de tallo y hojas est terminado. En este diagrama podemos encontrar
rpidamente la mediana de los datos, simplemente nos dirigimos a la fila donde se
encuentra el nmero encerrado en parntesis y escogemos la mitad de los datos de esas
hojas. En este caso tenemos dos hojas, por lo cual sumamos 2.0 + 2.3 y lo dividimos
entre dos, resultando en 2.15 que es la mediana de los datos.

Histograma de frecuencias
Un histograma de frecuencias relativas es una herramienta para observar el
comportamiento de la distribucin de los datos de una muestra. Se dice que si un
histograma de frecuencias relativas puede dividirse por un eje imaginario por el centro y
se puede doblar entonces el histograma es simtrico; pero si se encuentra que la curva
que se crea esta inclinada a la derecha o a la izquierda entonces la distribucin es
sesgada.
Para crear un histograma de frecuencias lo primero que tenemos que definir es el nmero
de clases. A lo cual llamaremos k.

2k <n
Donde n es el nmero de datos de la muestra.
Lo que se buscar es un nmero al que se eleve 2 de menor al nmero de datos.
Siguiendo con el problema 1.19 tenemos que

2k <30 2 4 <30=16< 30
Si hubiramos escogido que k valiera 5 en lugar de 4, entonces resultara 32 < 30, que no
cumple con los requisitos. Por lo cual queda definido que k = 4
Lo siguiente que necesitamos hacer es calcular los rangos de cada clase (k) y eso se
calcula de la siguiente manera:

H L
k

Donde i es el rango, H es el dato con mayor valor, L es el dato con menor valor y k es el
nmero de clases. Entonces con el problema 1.19 tenemos

6.50.2
=1.572
4

i=2
En este caso, i tiene que ser mayor o igual al resultado de la operacin, se eligi dos
porque es un nmero entero que nos permite realizar las operaciones de manera fija.
Ahora se construye la tabla de frecuencias:
Clase
1
2
3
4

Lmite
Inferior
0
2.1
4.1
6.1

Lmite
Superior
2
4
6
8

Frecuencia

Frecuencia
Relativa

Frecuencia
Absoluta

El nmero de clases es 4. La columna Limite inferior se refiere al lmite inferior


correspondiente a esa clase. Ntese que siempre no siempre se iniciara desde 0, el
analista decidir con que numero empezar.
Recordemos los datos que ya tenamos
0.2
0.2
0.2
0.3
0.3
0.4
0.5
0.7
1.0
1.2
1.3
1.5
1.5
1.8
2.0
2.3
2.5

3.0
3.3

4.0
4.5
4.7
5.0
5.5
5.6
5.9
6.0
6.0
6.0
6.5

En la columna de frecuencia escribimos el nmero de datos que se encuentran en los


lmites establecidos. Por ejemplo, de 0 a 2 encontramos los datos: 0.2, 0.2, 0.2, 0.3,
0.3,0.4, 0.5, 0.7, 1.0, 1.2, 1.3, 1.5, 1.5, 1.8 y 2.0. Si contamos los datos tenemos 14 datos
por lo cual la tabla quedara
Clase
1
2
3
4

Lmite
Inferior
0
2.1
4.1
6.1

Lmite
Superior
2
4
6
8

Frecuencia

Frecuencia
Relativa

Frecuencia
Absoluta

Frecuencia
Relativa

Frecuencia
Absoluta

15

Y rellenamos con los dems datos:


Clase
1
2
3
4

Lmite
Inferior
0
2.1
4.1
6.1

Lmite
Superior
2
4
6
8

Frecuencia
15
5
9
1

En la columna de frecuencia relativa se calcula el porcentaje que representa la frecuencia


con respecto al total de datos, por ejemplo:

Frecuencia relativa de laclase 1=

15
x 100=50
30

Frecuencia relativa de la clase 2=

5
x 100=16.6
30

Y as se calculan el resto de las frecuencias quedando:


Clase
1
2
3
4

Lmite
Inferior
0
2.1
4.1
6.1

Lmite
Superior
2
4
6
8

Frecuencia
15
5
9
1

Frecuencia
Relativa
50%
16.6%
30%
3.4%

Frecuencia
Absoluta

La frecuencia absoluta es la sumatoria de las frecuencias de las clases:


Clase
1
2
3
4

Lmite
Inferior
0
2.1
4.1
6.1

Lmite
Superior
2
4
6
8

Frecuencia
15
5
9
1

Frecuencia
Relativa
50%
16.6%
30%
3.4%

Frecuencia
Absoluta
15
20
29
30

Por ltimo se realiza el histograma de frecuencias relativas (con la columna de


porcentajes)
50

25

Es fcil ver en la grfica que se encuentra ms cargada hacia el lado izquierdo, con lo
cual concluimos que no es una distribucin simtrica sino ms bien sesgada a la
izquierda.