Está en la página 1de 99

Introduccin a la Probabilidad

Cada vez que realizamos un clculo matemtico para resolver un


problema, lo que estamos haciendo es aplicar un modelo matemtico a
un fenmeno de la realidad.

Este fenmeno puede ser, por ejemplo, la cada de un objeto desde


cierta altura, y en este caso utilizamos un modelo que es la Ley de
Gravedad.
Qu es un modelo?.
Al enfrentar un problema de fsica, qumica, ingeniera o de algn
otro tipo, estamos analizando e investigando una parte o aspecto de
la realidad material que nos rodea. Para resolver el problema,
necesitamos modelar esa realidad, es decir, construir una
representacin en la mente de cmo ocurren los hechos, junto con
ecuaciones matemticas que permitan calcular los efectos de los
mismos.

El modelo de fuerza gravitatoria o leyes de la gravedad permite


estudiar la cada de un cuerpo en el vaco. Cuando aplicamos este
modelo a la cada real de un cuerpo, estamos dejando de lado la
influencia del aire, cuyo rozamiento en el cuerpo disminuye su
velocidad, pero lo hacemos a sabiendas que este rozamiento es muy
pequeo y por lo tanto no va a afectar demasiado nuestros clculos.
En ningn caso se debe confundir modelo con realidad. Un modelo es
slo una representacin de la realidad, utilizado para estudiar y
analizar dicha realidad.

Los modelos matemticos que mencionamos hasta ahora, despus de


efectuar los clculos nos dan un resultado numrico preciso, por
ejemplo, que la velocidad de un automvil es de 75,5 Km/Hora.

Tambin podemos calcular la corriente elctrica que circula por un


cable con la Ley de Ohm y obtenemos, por ejemplo, un resultado como
5,7 Amperes:

Este tipo de modelos matemticos se denominan Determinsticos. Hay


fenmenos que necesitan otro tipo de modelos matemticos, que se
denominan no determinsticos, probabilsticos o estocsticos.
Por ejemplo, supongamos que un agricultor necesita saber cuanta
lluvia va a caer en los prximos meses, antes de decidir si le
conviene sembrar o no esta temporada. El agricultor se inform en la
oficina de meteorologa acerca de la presin baromtrica, la
temperatura, velocidad del viento y otros datos meteorolgicos de la
zona en que vive.

Sin embargo, no hay una ecuacin que con todos esos datos le permita
calcular los milmetros de lluvia que van a caer en un mes en forma
precisa.

De la misma manera, ningn operador puede calcular cuanto va a subir


la Bolsa, ni siquiera si va a subir o bajar, an cuando tenga a su
alcance todas las variables econmicas disponibles para el pas. Este
tipo de fenmenos No admiten un modelo determinstico, sino un modelo
probabilstico, que como resultado nos dice la probabilidad de que
llueva una cierta cantidad, o la probabilidad de que la Bolsa suba un
cierto porcentaje. El resultado no es un valor determinado, sino la
probabilidad de un valor.

Veamos algunos ejemplos de fenmenos o experimentos para los cuales


es apropiado o conveniente utilizar un modelo probabilstico:
Experimento 1:
Se lanza un dado y se anota el nmero que aparece en la cara
superior.

Experimento 2:
Se arroja una moneda cuatro veces y se cuenta el nmero total de
caras obtenidas.

Experimento 3:
Se arroja una moneda cuatro veces y se anota la sucesin de caras y
cecas obtenidas.

Experimento 4:
Se fabrican artculos en una lnea de produccin y se cuenta el
nmero de artculos defectuosos producidos en 24 horas.

En todos estos casos, el resultado del experimento no se puede


predecir con absoluta certeza. Hay varios resultados posibles cada
vez que se realiza la experiencia.
Para cada experimento del tipo que estamos considerando, se define el
Espacio Muestral como el conjunto de todos los resultados posibles
que pueden producirse al realizar el experimento.
Experimento 1:
Se lanza un dado y se anota el nmero que aparece en la cara
superior:

Experimento 2:
Se arroja una moneda cuatro veces y se cuenta el nmero total de
caras obtenidas:

Experimento 3:
Se arroja una moneda cuatro veces y se anota la sucesin de caras (C)
y cecas (X) obtenidas:

Experimento 4:
Se fabrican artculos en una lnea de produccin y se cuenta el
nmero de artculos defectuosos producidos en 24 horas.

donde N es el nmero mximo que pudo ser producido en 24 horas.


Un Suceso, respecto a un espacio muestral S asociado con determinado
experimento, es un subconjunto de resultados del espacio muestral.

Entonces, el subconjunto formado por un solo elemento del espacio


muestral es un suceso.

El conjunto formado por todos los elementos del espacio muestral


tambin es un suceso:

Y tambin lo es el conjunto vaco.


Hemos visto que dado un experimento cualquiera, hay un espacio
muestral asociado cuyos elementos son todos los resultados que se
pueden obtener de la experiencia. Un subgrupo o subconjunto de
resultados es un suceso. Ahora, cmo podemos saber si la posibilidad
de que ocurra un suceso es grande o pequea? Por ejemplo, si
arrojamos un dado, cmo podemos calcular la probabilidad de que salga
un 2 ?. Para esto necesitamos un nmero asociado con cada suceso, al
cual se lo denomina probabilidad del suceso. Entonces, la
probabilidad P de un suceso es un nmero entre 0 y 1, que nos dice en
que medida es posible que ocurra el suceso. Si la probabilidad es 1
significa que el suceso ocurrir con toda certeza. Si la probabilidad
es 0,5 significa que un suceso puede ocurrir o puede no ocurrir con
la misma probabilidad. Probabilidad 0 quiere decir que el suceso es
imposible que ocurra. Cmo podemos calcular la Probabilidad de un
suceso?

La respuesta a esta pregunta no siempre es sencilla y depende del


experimento y de su espacio muestral asociado. Hay casos simples en
los que el clculo es relativamente sencillo. En primer trmino,
supondremos que se trata de un experimento cuyo espacio muestral es
finito y tiene un nmero pequeo de resultados posibles. En segundo
trmino, supondremos que todos los resultados que integran el espacio
muestral (sucesos elementales) tienen la misma probabilidad de
ocurrir.
Con estas dos hiptesis, la frmula para calcular la probabilidad es
muy sencilla. Supongamos que se trata de un experimento cualquiera
cuyo espacio muestral S tiene N elementos (N resultados posibles).
Deseamos calcular la probabilidad de un suceso H (Un subconjunto H
del espacio muestral S) que tiene m elementos. De acuerdo a lo dicho
previamente, el nmero N tiene que ser pequeo y la probabilidad de
cada suceso elemental tiene que ser la misma:

Entonces la probabilidad P de que ocurra el suceso H es:

Veamos algunos ejemplos. Supongamos que se arroja un dado sobre una


mesa y apostamos a que salga un nmero igual o menor que 4. Sabemos
que son igualmente posibles los nmeros: {1, 2, 3, 4, 5 y 6} (Espacio
muestral con 6 elementos).
Pero los nmeros favorables a nuestra apuesta son: {1, 2, 3 y 4}
(Suceso con 4 elementos). Entonces, la probabilidad de que ganemos
es:

Es decir que tenemos a nuestro favor una probabilidad de 0,666.. (o


sea aproximadamente del 67 %). Si apostamos a un slo nmero, por
ejemplo a que sale un as, la probabilidad de ganar sera:

Repitiendo, la probabilidad es un nmero entre 0 y 1, que nos dice en


que medida es posible que ocurra un suceso.

Conceptos Estadsticos Fundamentales

Hasta ahora hemos visto el caso de fenmenos o experimentos cuyo


espacio muestral asociado tiene un nmero pequeo de elementos. Esto
nos sirvi para introducir la nocin de probabilidad.
Pero en muchos casos es necesario trabajar con experiencias o
procesos que generan un nmero muy grande de datos o resultados
numricos, es decir, espacios muestrales con un nmero infinito o muy
grande de elementos. Cuando tenemos un conjunto muy grande de datos
numricos para analizar decimos que tenemos un Universo o Poblacin
de observaciones.

Cada dato numrico es un elemento de la poblacin o universo. Una


Muestra es un subconjunto pequeo de observaciones extradas de un
universo o poblacin:

La Estadstica trabaja con poblaciones de datos y con muestras


extradas de las mismas. Los conceptos de poblacin y muestra a veces
resultan ambiguos en su aplicacin prctica. Por ejemplo, supongamos
que en una ciudad de 5000 habitantes se realiza un censo mdico en el
cual se mide el peso, la altura y se relevan otros datos de todos los
habitantes de la ciudad.

Alguien podra referirse al universo o poblacin censada teniendo in


mente el conjunto de los habitantes de la ciudad. Pero cuando
hablamos en trminos estadsticos, nos referimos a poblaciones o
universos de datos.
Por ejemplo, el conjunto de todas las mediciones de altura (De los
habitantes de la ciudad) es un conjunto de datos y por lo tanto
constituye un universo o poblacin de datos desde el punto de vista
estadstico. Otro universo o poblacin de datos son los pesos medidos
(De los habitantes de la ciudad). Pero la poblacin de habitantes, es
decir, las personas que habitan la ciudad no son la poblacin a la
que nos estamos refiriendo desde el punto de vista estadstico.

Supongamos que en una empresa se fabrica un lote muy grande, digamos


10 toneladas de un producto qumico, y un tcnico debe controlar la
calidad del mismo.

El tcnico toma una pequea porcin, por ejemplo, 100 gramos y dir
que tom una muestra del producto para analizar en el laboratorio.
Hasta el momento, la muestra no fue analizada y por lo tanto no
tenemos ningn dato numrico.

Cuando el laboratorio efecta algn ensayo en la muestra y obtiene un


resultado numrico, recin ah tenemos un dato que puede ser
analizado desde el punto de vista estadstico.

Vamos a suponer hipotticamente que el tcnico contina sacando otras


muestras del producto, hasta agotar el lote y cada una es ensayada en
el laboratorio, el cual nos da los resultados. Como tenamos 10 ton.
de producto y las muestras son aproximadamente de 100 gr., el tcnico
seguramente extraer alrededor de 100000 muestras y el laboratorio
nos entregar alrededor de 100000 resultados. Este conjunto de datos
numricos es nuestro universo o poblacin de datos.
Si nosotros tomamos al azar 10 de esos resultados, podemos decir que
tenemos una muestra de 10 elementos de ese universo o poblacin. No
debemos confundir esta muestra (Desde el punto de vista estadstico)
con la muestra de material que extrajo el tcnico para ser analizada
en laboratorio.
Ahora bien, nuestro universo o poblacin de datos a veces no existe
en la realidad, sino que es un concepto o abstraccin que utilizamos

para referirnos al universo o poblacin que hipotticamente podra


existir.
Veamos el ejemplo anterior. Supongamos que el tcnico toma solamente
5 muestras y las enva para analizar al laboratorio. El laboratorio
nos enviar slo 5 resultados, y nosotros diremos que tenemos una
muestra de datos extrada del universo o poblacin de datos total. Y
estamos pensando en el universo o poblacin que tendramos si se
hubieran extrado y analizado las 100000 muestras de material.
Muchas veces resulta difcil imaginarse cual es el universo del cual
extrajimos los datos. Supongamos que tenemos una mquina que produce
piezas de plstico en serie y un tcnico toma 5 piezas sucesivas y
les mide la altura con un calibre. Tenemos, entonces, 5 resultados,
es decir una muestra de 5 elementos. Cul es el universo al cual
pertenece esa muestra de datos?.
Debemos imaginar lo siguiente: Si la mquina continuara trabajando en
las mismas condiciones (Es decir, a la misma velocidad, con las
mismas materias primas, a la misma temperatura, manejada por el mismo
operario, etc.) ...y a cada pieza que produce se le mide la altura
tendramos un conjunto muy grande de resultados numricos. Ese
conjunto muy grande de resultados numricos que no existe, pero que
podra obtenerse en esas condiciones es el universo o poblacin del
cual extrajimos la muestra de 5 observaciones.
Veamos otro ejemplo. Supongamos que el sindicato de la industria
textil desea saber cual es el sueldo promedio que gana un operario en
esa industria. Entonces, encarga una encuesta a una empresa
especializada, que entrevista a 20 operarios de la industria textil y
averigua sus salarios.

Estos datos son una muestra de 20 observaciones del universo o


poblacin formado por los salarios de todos los operarios de la
industria textil del pas. Aunque el encuestador no disponga de esos
datos, sabemos que existen miles de operarios que ganan un salario
determinado y por lo tanto podemos hablar de un universo o poblacin
cuyos elementos son los salarios de los operarios de la industria
textil en el pas. Adems, esa poblacin de datos es seguramente
diferente de la poblacin de salarios de los operarios de la
industria textil chilena o brasilea (Usando una misma moneda de
referencia).
Qu representa una Poblacin de datos? El anlisis estadstico de una
poblacin o universo de datos tiene como objetivo final descubrir las

caractersticas y propiedades de aquello que gener los datos. Por


ejemplo, se tiene una poblacin de escolares (Poblacin fsica,
poblacin humana) y se les mide la altura. El conjunto de datos de
altura constituye una poblacin o universo estadstico. El anlisis
de estos datos de altura (Universo estadstico) sirve para
caracterizar y estudiar a la poblacin de estudiantes (Que no es una
Poblacin estadstica).
Supongamos que un instituto dedicado a estudios econmicos ha
realizado una encuesta de ingresos en el pas. El universo de datos
generados por la encuesta sirve a los fines de caracterizar a la
poblacin fsica, a la poblacin real del pas, desde un punto de
vista econmico.

Un ingeniero controla un proceso industrial, que genera a diario


muchos lotes de un producto (Poblacin de lotes). Para cada lote se
mide una caracterstica de calidad, obtenindose una gran cantidad de
resultados numricos (Poblacin de datos).

El ingeniero realiza esta tarea no porque est interesado en jugar


con nmeros, sino porque a travs de los datos numricos obtenidos se
puede evaluar el comportamiento del proceso, que es lo que realmente
le interesa.
Entonces, es importante destacar que detrs de un universo o
poblacin de datos se encuentra una poblacin fsica subyacente,
formada por elementos de la realidad que nos rodea, de la cual, a
travs de algn tipo de medicin, se obtuvieron los datos numricos.
Es esa poblacin fsica subyacente (Elementos de la realidad, seres
humanos, lotes de material, etc.) la que deseamos estudiar y
caracterizar por medio del anlisis estadstico de los datos
obtenidos. La poblacin estadstica est representando, entonces, una
poblacin fsica o natural formada por elementos de la realidad, con
respecto a una caracterstica o propiedad de esa poblacin fsica.
Es muy importante, al utilizar mtodos estadsticos, no confundir la
poblacin fsica, formada por elementos de la realidad que estamos
estudiando, con la poblacin o universo de datos generados a partir
de la primera. De aqu en adelante, cuando utilicemos los trminos
poblacin o universo sin otro aditamento nos estaremos refiriendo a
poblacin o universo de datos numricos (Tambin llamados
observaciones o mediciones o valores).
La Distribucin de Frecuencias
Vimos que una Poblacin o Universo de datos es un conjunto muy grande
de nmeros. Estos nmeros pueden estar en un gran listado o puede ser
un conjunto hipottico, es decir, podemos imaginar los nmeros pero
no los tenemos realmente. Una gran tabla de nmeros ordenados al azar
prcticamente no nos muestra informacin acerca de la poblacin de
datos. Suponiendo que disponemos de los datos del universo, cmo
podemos clasificar y ordenar los nmeros para obtener ms informacin
acerca de ese universo de datos?

Una forma sera escribir los nmeros desde el menor hasta el mayor y
colocar encima de cada uno tantas cruces o cuadraditos como veces que
figure repetido en la poblacin:

El nmero de veces que aparece repetido cada dato es la frecuencia de


dicho valor. La representacin grfica que hemos visto se denomina
Distribucin de Frecuencias de la poblacin.
La representacin grfica nos permite ver informacin que antes no
apareca tan evidente. Por ejemplo, sin hacer ningn clculo nos
damos cuenta donde est aproximadamente el promedio de la poblacin:

Tambin nos muestra cuales son los valores mximo y mnimo de la


poblacin, es decir, el rango:

En el caso anterior, los datos de la poblacin son nmeros enteros.


Cuando los nmeros no son enteros o cuando tenemos un nmero muy
grande de datos, se divide el rango total en subintervalos y se
cuenta el nmero de valores que cae dentro de cada subintervalo.
Vamos a suponer, ahora, que tenemos una cierta poblacin de N = 500
datos, por ejemplo el peso de varones adultos de 40 aos. Una manera
de caracterizar esta poblacin es construir una distribucin de
frecuencias o grfico de frecuencias. Para ello seguimos los pasos
siguientes:
1) Tomamos nota del valor mximo y el valor mnimo de la serie de
datos que estamos considerando.
2)Subdividimos el intervalo entre el mximo y el mnimo en algn
nmero de intervalos (15 20) mas pequeos iguales entre s.
3) Contamos el nmero de datos que encontramos dentro de cada
intervalo (Frecuencia). Por ejemplo, supongamos que en el intervalo i
hay ni observaciones (S ni = N).
4)Para construir el grfico, colocamos en el eje de abcisas
(Horizontal) los intervalos y levantamos en cada intervalo un
rectngulo de altura proporcional al nmero ni de datos dentro del
mismo.
Si hacemos el rea del rectngulo levantado sobre el intervalo isimo igual a la frecuencia relativa ni/N, el rea total bajo el
histograma ser igual a la unidad:

Obtenemos as una representacin grfica (Llamada tambin histograma)


que nos muestra la distribucin de frecuencias de la poblacin:

Esta distribucin de frecuencias nos muestra las caractersticas de


una poblacin, por ejemplo, si hay resultados que son mas frecuentes
que otros. Nos muestra si los valores estn ubicados alrededor de un
valor central, si estn muy dispersos o poco dispersos. Podemos
observar que fraccin de todas las mediciones cae por ejemplo, entre
70 y 80 Kg. (Zona rayada en el grfico):

Si elegimos una persona del grupo y la pesamos, el resultado es un


dato que pertenece a la poblacin de datos representada en el
grfico. Decimos, entonces, que estamos extrayendo un dato de la
poblacin de datos. Pero hay distintas maneras de elegir la persona,
es decir, distintas maneras de realizar la extraccin del dato.
Si nos paramos frente al grupo y elegimos una persona, estaremos
seleccionando al ms gordo, al ms flaco o al ms alto (y por lo
tanto pesa ms que otros), de acuerdo a criterios subjetivos que no
podemos evitar.

En cambio, si escribimos los nombres de todas las personas en una


etiqueta, metemos todas las etiquetas en una caja y luego le pedimos
a alguien que retire una etiqueta, la seleccin no estar influda
por nuestra subjetividad. En este caso, decimos que la extraccin es
aleatoria.

Una extraccin aleatoria es aquella en que cada miembro de la


poblacin tiene la misma posibilidad de ser elegido. Supongamos que
realizamos una extraccin aleatoria de la poblacin antedicha y
obtenemos el valor y.
Entonces:
1) La probabilidad P(y<70) de que y sea menor que 70 Kg. es igual al
rea del histograma a la izquierda de 70 Kg.
2) La probabilidad P(y>70) de que y sea mayor que 70 Kg. es igual al
rea del histograma a la derecha de 70 Kg.
3) La probabilidad P(y>70, y<80) de que y sea mayor que 70 Kg. pero
menor que 80 Kg. es igual al rea del histograma entre 70 y 80 Kg.

Medidas de Tendencia Central


Medidas de Tendencia Central
Una caracterstica importante de cualquier poblacin es su posicin,
es decir, donde est situada con respecto al eje de abscisas (Eje
horizontal). En nuestro caso, es importante saber si los datos se
agrupan alrededor de 60 Kg. o de 90 Kg. o alrededor de 12 Kg. Una
manera de obtener un dato numrico que nos d idea de la posicin de
nuestra poblacin es calcular el Promedio o Media de todas las
observaciones:

Este importante parmetro nos permite efectuar comparaciones entre


distintas poblaciones. Por ejemplo, si tuviramos una poblacin
formada por mediciones del peso de mujeres de 30 aos, otra de peso
de varones de 40 aos y una tercera de peso de nios de 8 aos, es
indudable que los promedios van a ser diferentes. El promedio,
entonces, nos est diciendo que las tres poblaciones son diferentes y
tambin en que medida difieren.
Ahora, si tuviramos una poblacin de varones con peso promedio 70
Kg. y otra poblacin de varones con el mismo promedio, se puede
afirmar que ambas poblaciones son equivalentes? Para responder esta
pregunta necesitamos tener medidas de la dispersin de la poblacin
de datos.
Medidas de Dispersin
La otra caracterstica muy importante de una poblacin es el grado de
dispersin de las observaciones. No es lo mismo si en nuestra
poblacin encontramos que todos los valores estn entre 75 y 90 Kg.
que si estn entre 60 y 105 Kg., aunque el promedio sea el mismo. Si
llegara a la tierra un marciano y le dijramos que el peso promedio
de los seres humanos adultos es de 70 Kg., puede llegar a creer que
existen hombres de 350 Kg., o de 5 Kg.

Es necesario agregar alguna idea de la dispersin de los valores. Una


manera es a travs del Rango de las observaciones, es decir, el valor
Mximo y el valor Mnimo de los datos de la poblacin. Entonces, una
descripcin mas realista acerca de los seres humanos sera decir que

pesan en promedio 70 Kg. y que el rango es de 40 a 120 Kg. (Estos


valores son supuestos).
Una manera mas precisa de dar idea de la dispersin de valores de una
poblacin es a travs de la Varianza o su raz cuadrada, que es la
Desviacin Standard. Vamos a calcular la varianza y la desviacin
standard de un nmero pequeo de datos (Una muestra) para ilustrar el
clculo. Supongamos que se midi la altura de 10 personas adultas y
de sexo femenino,

y se obtuvieron los valores siguientes:


165 cm.
163 cm.
171 cm.
156 cm.
162 cm.
159 cm.
162 cm.
168 cm.
159 cm.
167 cm.
El promedio de estas observaciones es:

Si a cada una de las observaciones le restamos el promedio, obtenemos


los Residuos:

165

1,8

163

-0,2

171

7,8

156

-7,2

162

-1,2

159

-4,2

162

-1,2

168

4,8

159

-4,2

167

3,8

Los residuos tambin nos dan una idea de la dispersin de las


observaciones individuales alrededor del promedio. Si el valor
absoluto (El valor numrico sin el signo) de los residuos es grande,
es porque los valores estn muy dispersos. Si el valor absoluto de
los residuos es pequeo, significa que las observaciones individuales
estn muy cerca del promedio, y por lo tanto, hay poca dispersin.
Pero nosotros necesitamos un slo nmero que nos provea informacin
acerca de la dispersin de los valores. Si sumamos los residuos, como
algunos son positivos y otros negativos, se cancelaran entre s, con
lo cual perdemos la informacin acerca de la dispersin. Entonces,
los elevamos al cuadrado:

165

1,8

3,24

163

-0,2

0,04

171

7,8

60,84

156

-7,2

51,84

162

-1,2

1,44

159

-4,2

17,64

162

-1,2

1,44

168

4,8

23,04

159

-4,2

17,64

167

3,8

14,44

Si ahora sumamos los residuos elevados al cuadrado, tenemos un nmero


donde se condensa toda la informacin de la dispersin de la
poblacin:

Este nmero, la suma de cuadrados, es dependiente del nmero de datos


N, y por lo tanto no nos sirve para comparar poblaciones con distinto
nmero de observaciones.
Pero si dividimos la suma de cuadrados por N, tenemos un nmero que
es independiente del nmero de observaciones, que se denomina
Varianza:

En nuestro caso:

Las frmulas anteriores son las que se aplican al clculo de la


varianza y desviacin standard de una poblacin de datos. Mas
adelante veremos que las frmulas a aplicar en el caso de una muestra
son ligeramente diferentes. La varianza es un nmero que nos permite
comparar poblaciones. Cuando la dispersin de las observaciones es
grande (Datos que se alejan mucho por encima y por debajo del
promedio), el valor de los residuos (distancia entre cada dato y el
promedio) ser grande. Entonces aumenta la suma de cuadrados de los
residuos y por lo tanto la varianza.
Tambin se utiliza la raz cuadrada de la varianza:

Por lo tanto:

La desviacin standard o desviacin tpica tiene las mismas unidades


que la variable con la que estamos trabajando, en nuestro caso el
centmetro. Tanto la varianza como la desviacin standard nos
permiten comparar el grado de dispersin de distintas poblaciones.
Media y Varianza de una Muestra
Hasta ahora hemos visto como se calcula la media o promedio de una
poblacin y tambin como se calcula la varianza y la desviacin
standard de una poblacin o universo de observaciones. Cuando tenemos
una muestra (Subconjunto de algunos datos extrados de una
poblacin), tambin podemos calcular su media, su varianza y su
desviacin standard. Es muy importante distinguir entre la media,
varianza y desviacin standard poblacional, de la media, varianza y
desviacin standard muestral.
La media, varianza y desviacin standard de una poblacin o universo
se denominan parmetros de la poblacin y en general se designan con
letras griegas: m para la Media, s2 para la Varianza y s para la
Desviacin Standard poblacionales. En el caso de una muestra, la
media, varianza y desviacin standard se denominan estadsticos y se
utilizan letras de nuestro alfabeto:

para la Media
s2
s

para la Varianza
para la Desviacin Standard muestral

El clculo de la varianza y la desviacin standard de una muestra de


n observaciones se realiza con una frmula levemente diferente que la
ya vista para la varianza y desviacin standard de una poblacin:

En lugar de dividir por n,


muestra, dividimos por n Libertad de la muestra. En
observaciones, se dice que

el nmero total de observaciones en la


1. Este valor, n - 1, son los Grados de
general, cuando tenemos una muestra de n
la misma tiene n - 1 grados de libertad.

La media, varianza y desviacin standard de una muestra, en general,


no van a coincidir con los mismos parmetros de la poblacin de la

cual se extrajo la muestra (Aunque usemos la misma frmula para


calcular la varianza muestral y poblacional). Si extraemos n muestras
de una poblacin, vamos a obtener n promedios muestrales distintos
del promedio de la poblacin y n varianzas muestrales distintas de la
varianza de la poblacin. Esto se debe a que una poblacin o universo
tienen un nmero muy grande de datos, mientras que una muestra son
slo algunos pocos datos extrados de ese universo. Cuando sacamos
una segunda, tercera, ... etc. muestras, los datos extrados no
tienen por que ser los mismos que en la primer muestra. Por lo tanto,
el promedio y la varianza de las muestras van a ser distintos para
las distintas muestras, y distintos de la media y la varianza de la
poblacin de la cual se extrajeron las muestras.
Muestreo Aleatorio
En general, no es posible disponer de todas las observaciones de un
universo o poblacin, ya sea porque es un universo hipottico o
porque el relevamiento de todos los datos resulta una tarea excesiva
para nuestras posibilidades. Normalmente se dispone de una muestra de
datos extrados de un universo, y lo que se pretende es estimar
(Conocer de manera aproximada) los parmetros del universo por medio
de clculos realizados sobre la muestra. En este sentido decimos que
la media muestral es una estimacin de la media del universo, y que
la varianza y desviacin standard muestrales son estimaciones de la
varianza y desviacin standard poblacionales respectivamente.
Veamos algunos ejemplos. Supongamos que un partido poltico necesita
averiguar la cantidad de personas que estn dispuestas a votar por su
candidato. Entonces, encarga a una empresa la realizacin de una
encuesta el da previo a las elecciones. El encargado de la encuesta
podra pensar en consultar la intencin de voto de toda la poblacin
de votantes (Mas de 18 millones en la Argentina). Esto, obviamente,
es una tarea excesiva que por distintas razones no se puede realizar.
Entonces, el camino que resta es tomar una muestra representativa de
esa poblacin de personas y consultar la intencin de voto en esa
muestra. Los resultados que se obtengan son solamente una estimacin
del resultado que se hubiera obtenido si la consulta se hubiera
efectuado sobre toda la poblacin de votantes.
Ahora bien, cmo se obtiene una muestra representativa?
Para tratar de entenderlo, vamos a trabajar con una poblacin de muy
pocos datos. Supongamos que nuestra poblacin son 10 bolillas con los
siguientes nmeros:

Si ordenamos las bolillas de menor a mayor:

Inmediatamente comprobamos que nuestra poblacin consta de 6 dos, 2


cincos y 2 nueves:
Dato

Frecuencia

El promedio de la poblacin es 4. Supongamos que queremos obtener una


muestra de 5 elementos de esa poblacin. Hay varias maneras de
hacerlo.
Supongamos que puedo ver los nmeros y elijo 2, 2, 2, 2 y 5 porque me
gustan esos nmeros. El promedio de estos 5 nmeros extrados de la
poblacin es 2,6 que difiere sustancialmente del promedio de la
poblacin.

Es evidente que dicha muestra no es representativa de la poblacin de


la que fue extrada. No se mantiene la misma proporcin de cada
nmero que existe en la poblacin. Una muestra de 5 elementos en la
que hay la misma proporcin de cada dgito debera tener 3 dos, 1
cinco y 1 nueve, y su promedio es 4, el mismo de la poblacin:

En una poblacin de muchos datos, no es posible obtener una muestra


eligiendo cada elemento para que figure en la misma proporcin que en
la poblacin, porque para ello deberamos disponer de todos los datos
de la misma, y en ese caso no sera necesario sacar una muestra. Si a
cada elemento de la poblacin se le da la misma oportunidad de ser
elegido, entonces se supone que cada nmero estar en la muestra en
un nmero proporcional a la cantidad de veces que est en la
poblacin. Por ejemplo, el 2 va a estar en la muestra mas veces que
el 5, porque en la poblacin hay 6 dos y slo 2 cincos. Si metemos
las diez bolillas en una bolsa y las mezclamos suficientemente, la
probabilidad que tiene una bolilla individual de ser extrada es la
misma para cualquiera de las bolillas. En esas condiciones, si
sacamos cinco bolillas sucesivas, mezclndolas previamente en cada
oportunidad, es razonable pensar que vamos a extraer el 2 en mas

oportunidades que el 5 el 9. Esta forma de obtener la muestra es lo


que se conoce como Muestreo Aleatorio.
El muestreo aleatorio no garantiza que la muestra va a ser
representativa de la poblacin, pero al eliminar toda influencia
externa en el acto de extraer un elemento de la poblacin, la
proporcin de cada uno estar influda slo por la cantidad de veces
que est presente en la poblacin de la cual se extrae la muestra.

Entonces, realizando el muestreo en forma aleatoria (al azar), la


probabilidad de obtener una muestra representativa de la poblacin es
mayor que si en la eleccin de los elementos de la muestra interviene
la voluntad del que efecta la operacin o algn otro factor de
influencia.

Funciones de Distribucin de Probabilidades

Hemos visto como se construye un grfico de frecuencias con datos


extrados de una poblacin. A medida que aumentamos la cantidad de
observaciones que tomamos de la poblacin, podemos construir nuestro
grfico con un nmero mayor de intervalos, aunque de menor amplitud
(El rango total cubierto por la poblacin es el mismo).

Si continuamos este proceso, con intervalos cada vez mas estrechos y


numerosos, los altibajos en el grfico de la distribucin de
frecuencias tienden a desaparecer:

En el lmite, el ancho del intervalo tiende a cero y la poblacin


puede representarse por una distribucin de probabilidad continua.
Cuando, para representar esta distribucin de probabilidad continua
se utiliza una funcin matemtica, esta se denomina Funcin de
Densidad de Probabilidad. La forma de la curva en el grfico de la
funcin de distribucin es caracterstica de la poblacin de
observaciones asociada con la misma, y depende de variables internas
del proceso que gener los datos de la poblacin.
Existen distintas funciones de distribucin tericas, cada una de las
cuales est basada en un modelo de comportamiento del proceso que
gener el universo de observaciones. La aplicacin de una de estas

distribuciones tericas a una poblacin particular est justificada


si las hiptesis (suposiciones) del modelo de comportamiento del
proceso que gener la poblacin se cumplen. Dicho de otro modo, si
conocemos el proceso, es decir, el conjunto de fenmenos que dieron
lugar a nuestra poblacin de mediciones u observaciones, y adems
estamos seguros de que el mismo se ajusta a un modelo de
comportamiento determinado, entonces podemos decir que la
distribucin de probabilidades de nuestra poblacin es la que
corresponde al modelo.
En la prctica, se sabe que ciertos procesos y fenmenos generan
resultados numricos cuya distribucin de probabilidades se puede
ajustar a determinados modelos tericos. Por ejemplo, el nmero de
partculas alfa emitidas por un material radiactivo sigue una
distribucin de Poisson.
Existen muchas otras distribuciones tericas, como la Binomial, la
Exponencial, la de Weisbull, etc. Cada una de ellas tiene su propio
campo de aplicacin, que se sostiene en un determinado comportamiento
de los fenmenos, y al aplicarla se est haciendo en forma implcita
la suposicin de que se cumplen las suposiciones del modelo
subyacente.
La Distribucin Normal
Una importante distribucin terica es la Distribucin Normal o de
Gauss. La ecuacin matemtica de la funcin de Gauss es la siguiente:

La distribucin normal es una curva con forma de campana, con eje de


simetra en el punto correspondiente al promedio del universo m. La
distancia entre el eje de simetra de la campana y el punto de
inflexin de la curva es igual a s, la desviacin standard de la
poblacin:

El rea total debajo de la curva es igual a 1. El rea debajo de la


curva comprendida entre m-s y m+s es aproximadamente igual a 0,68 del
rea total; entre m-2s y m+2s es aproximadamente igual a 0,95 del
rea total:

Es importante ver que los nicos parmetros necesarios para dibujar


el grfico de la distribucin normal son m y s (Media y desviacin
standard de la poblacin). Con estos dos parmetros sabemos donde
situar la campana de Gauss (En el punto correspondiente a la media) y
cual es su ancho (Determinado por la desviacin standard).
Cuando nos encontramos con una poblacin de observaciones, si podemos
afirmar que la distribucin correspondiente es normal, slo hace
falta estimar la media y la desviacin standard para tener toda la
informacin necesaria acerca de dicha poblacin.
La Distribucin Normal Standard
Podemos escribir la frmula de la distribucin normal de la siguiente
manera:

Si llamamos Z a la cantidad
la funcin queda as:

Esta es la frmula de la Distribucin Normal Standard o Tipificada.


Como podemos observar, en ella hay un slo parmetro, Z, que incluye
al promedio y la desviacin standard de la poblacin. Esta funcin
est tabulada, y para ingresar en la tabla es necesario calcular Z,
para lo cual necesitamos la media y la desviacin standard de la
poblacin.
Al calcular Z, lo que estamos haciendo, en realidad, es un cambio de
variable por el cual movemos la campana de Gauss centrndola en el 0
del eje X, y modificamos el ancho para que la desviacin standard sea
1:

De esta manera tenemos tabulada una funcin de Gauss que no depende


de cual sea el promedio y la desviacin standard de nuestra poblacin
real. El cambio de variable hace que se conserve la forma de la
funcin y que sirva para cualquier poblacin, siempre y cuando esa
poblacin tenga una distribucin normal.
Cuando queremos calcular las probabilidades para una poblacin real,
calculamos Z y entramos en la tabla de la funcin normal standard:

La Distribucin T de Student

En la generalidad de los casos, no disponemos de la desviacin


standard de la poblacin, sino de una estimacin calculada a partir
de una muestra extrada de la misma y por lo tanto no podemos
calcular Z. En estos casos calculamos el estadstico T:

donde S es la desviacin standard muestral, calculada con n-1 grados


de libertad:

Notar que utilizamos S, la Desviacin Standard de una Muestra, en


lugar de s, la Desviacin Standard de la Poblacin:

El estadstico T tiene una distribucin que se denomina distribucin


T de Student, que est tabulada para 1, 2, 3, ... etc. grados de
libertad de la muestra con la cual se calcul la desviacin standard.
La distribucin T tiene en cuenta la incertidumbre en la estimacin
de la desviacin standard de la poblacin, porque en realidad la
tabla de T contiene las distribuciones de probabilidades para
distintos grados de libertad:

Para un nmero de grados de libertad pequeo, es mas ancha que la


distribucin normal tipificada. Cuando los grados de libertad tienden
a infinito, la distribucin T tiende a coincidir con la distribucin
normal standard. Es decir, en la medida que aumentemos el nmero de
observaciones de la muestra, la desviacin standard calculada estar
mas prxima a la desviacin standard de la poblacin y entonces la
distribucin T correspondiente se acerca a la distribucin normal
standard. El uso de la distribucin T presupone que la poblacin con
que estamos trabajando tiene una distribucin normal.
Distribucin de Promedios Muestrales
Para comprender que significa distribucin de promedios muestrales,
vamos a suponer que realizamos un experimento con bolilleros como los
usados en la lotera. Colocamos un nmero muy grande de bolillas
blancas en un bolillero blanco, en cada una de las cuales figura un
dato X. Este bolillero representa la poblacin de observaciones X, y
tiene media m y varianza s2. Supongamos que a continuacin hacemos
los siguiente:
1) Tomamos una muestra de n=10 bolillas blancas.
2)Calculamos la media

y la anotamos en una bolilla azul.

3) Colocamos la bolilla azul en un segundo bolillero de color azul.


4) Devolvemos las bolillas blancas a su bolillero y le damos vueltas.

5)Repetimos toda la operacin muchas veces hasta que el bolillero


azul est lleno de bolillas.
Entonces, los nmeros del bolillero azul forman una poblacin de
promedios muestrales. Esta es una poblacin derivada de la anterior,
y tiene la misma media o promedio que la distribucin original, pero
su varianza es un ensimo de la varianza de la distribucin original:

En el caso del bolillero azul, si denominamos:


a la varianza
a la media
tenemos:

La distribucin de medias muestrales est situada en el mismo lugar


(alrededor de la misma media) que la distribucin original, pero es
mucho mas angosta, porque su varianza es la dcima parte de la
varianza original. La distribucin original de observaciones
representada por el bolillero blanco se denomina comnmente
distribucin madre o base. Al construir la poblacin de promedios
muestrales, realizbamos extracciones de 10 bolillas blancas despus
de dar vueltas al bolillero. Es decir, que estbamos realizando un
muestreo aleatorio de la poblacin madre, porque cada una de las
bolillas blancas tena la misma posibilidad de ser elegida para
integrar la muestra. Aunque la poblacin original no sea de
distribucin normal, si el muestreo es aleatorio, la poblacin de
promedios muestrales se aproximar a la normalidad, es decir, ser
casi de distribucin normal. Este efecto se debe a un teorema de
estadstica matemtica denominado Teorema Central del Lmite. En
resumen, si se cumple la hiptesis de muestreo aleatorio, tenemos:

Distrib. de x

Media

Varianza

s2

Desv. Standard

Forma de la curva

cualquiera

Distrib. de

ms cerca de la
Normal

En general, en los problemas que se presentan habitualmente, existe


una poblacin de observaciones cualesquiera, de la cual tomamos una
muestra aleatoria, por medio de la cual intentamos conocer todo lo
que sea posible acerca de la poblacin de la cual fue extrada. El
promedio de la muestra de n elementos pertenece a la distribucin de
promedios muestrales de la poblacin original. Es decir, que el
promedio de la muestra que obtuvimos es uno de los muchos promedios
muestrales que se distribuyen alrededor de m con desviacin standard:
Por lo tanto, si la muestra es mas grande (n mayor), estaremos en una
distribucin de promedios con desviacin standard mas pequea, por lo
cual, el promedio de la muestra estar mas cerca del promedio del
universo. Es por esto que es razonable pensar que el promedio de la
muestra es una estimacin del promedio del universo.

Test de Hiptesis

El contraste de hiptesis o test de hiptesis es una herramienta muy


importante y ampliamente utilizada para comparar mediciones y tomar
decisiones basadas en una probabilidad. Vamos a explicarlo con un
ejemplo. Supongamos que en una huerta se cultivan tomates en un
terreno donde hay sembradas 300 plantas de tomates, utilizando un
determinado tipo de fertilizante.

El agricultor desea probar un nuevo fertilizante, basndose en la


propaganda de una revista de horticultura.

Con este fin, en la siguiente cosecha utiliza el nuevo fertilizante


en una de las plantas, en la que obtiene 12,5 Kg. de tomates. Cmo
saber si el rendimiento en esta planta fue mejor porque se utiliz un
nuevo fertilizante? Indudablemente necesitamos comparar este valor
con el rendimiento de las otras plantas en las que se us el
fertilizante habitual. Los rendimientos de distintas plantas
seguramente fluctan al azar:

...Etc.

Es decir, no tenemos un nico resultado con el fertilizante anterior


sino muchos resultados que varan aleatoriamente, y es posible que
algunos de esos resultados superen los 12,5 Kg. Se necesita,
entonces, un criterio para decidir si el nuevo fertilizante produce
una mejora en el rendimiento.
Para resolver el problema, necesitamos hacer algunas suposiciones.
Primero: El conjunto de resultados de muchas plantas de tomate con el
primer fertilizante constituye un universo conceptual de
observaciones de distribucin normal. Hablamos de universo conceptual
o hipottico porque es el universo o poblacin de resultados que
tendramos con un nmero enormemente grande de plantas, con el mismo
fertilizante y en las mismas condiciones.

Segundo: Aunque el promedio y la desviacin standard de una poblacin


hipottica, en general, no se conoce, el promedio y la desviacin
standard calculados con el rendimiento de las 299 plantas restantes,
utilizando el fertilizante habitual, constituyen una buena estimacin
de la media y desviacin standard del universo.
Vamos a suponer, entonces, que conocemos la media y desviacin
standard del universo y son los siguientes:
m = 10,7 Kg.
s = 0,8 Kg.
(Estimados con los rendimientos de 299 Plantas)

El nico resultado obtenido con el nuevo fertilizante es 12,5 Kg., lo


cual supera el promedio del universo de resultados obtenidos con el
fertilizante anterior.

Si bien el promedio es 10,7 Kg., en la poblacin hay resultados ms


altos, y tal vez algunos iguales o mayores que 12,5 Kg. Se puede
decir, entonces, que el nuevo fertilizante produce mejores
resultados? Para tomar la decisin, conviene razonar de la siguiente
manera:
Si en la poblacin hipottica de resultados obtenidos con el primer
fertilizante es comn encontrar valores iguales o mayores que 12,5

Kg., entonces el resultado obtenido con el nuevo fertilizante no


tiene nada de excepcional. Afirmamos, entonces, que el nuevo
fertilizante es igual que el anterior (No hay diferencia), y que el
resultado obtenido se debi solamente a la fluctuacin al azar de los
resultados que obtendramos con cualquier fertilizante.
Por otro lado, si en la poblacin hipottica de resultados obtenidos
con el primer fertilizante es poco comn encontrar un valor como 12,5
Kg., quiere decir que el resultado del nuevo fertilizante s es
excepcional (es significativo) y por lo tanto tenemos razones para
afirmar que es mejor que el anterior.
Esas son las dos hiptesis de valor opuesto que se plantean, una de
las cuales es rechazada y la otra aceptada sobre la base de las
probabilidades derivadas de la comparacin con la distribucin
normal. Formalmente, stas hiptesis son las siguientes:
Hiptesis Nula: No hay diferencia entre los fertilizantes (Las
diferencias son nulas). El valor obtenido con el nuevo fertilizante
se debe slo a la fluctuacin aleatoria de los rendimientos de las
plantas.
Hiptesis Alternativa: El nuevo fertilizante es mejor que el anterior
y por eso el rendimiento de la planta en la que se lo us fue mas
alto.

Para decidir entre ambas hiptesis, se calcula el estadstico Z, y se


obtiene de la distribucin normal standard la probabilidad de un
valor (del estadstico Z) mayor o igual al calculado. Si la
probabilidad de un valor igual o mayor que el calculado es mayor que
0,05 se acepta la hiptesis nula a un nivel de significacin de 0,05.
Esto quiere decir que hay una probabilidad mayor que 0,05 (mayor que

5 %) de obtener por casualidad (Fluctuacin aleatoria) un valor de Z


tan grande como el calculado.
Si la probabilidad de un valor igual o mayor que el calculado es
menor que 0,05 se rechaza la hiptesis nula a un nivel de
significacin de 0,05. Es decir, la probabilidad de obtener en forma
aleatoria un valor tan grande de Z es menor que 0,5 (menor que 5 %).
En este caso se dice que el resultado obtenido con el nuevo
fertilizante es significativo.
En nuestro ejemplo:

Entrando en la tabla de la distribucin normal standard, obtenemos


que la probabilidad de un Z igual o mayor que 2,25 es P = 0,0122
(1,22 %). Quiere decir, entonces, que es muy poco probable obtener un
rendimiento de 12,5 Kg. de tomates con el fertilizante habitual.
Rechazamos, entonces, la Hiptesis Nula (Y aceptamos la Hiptesis
Alternativa) a un nivel de significacin de 0,05.
Ahora bien, para estar totalmente seguro y antes de invertir dinero
en comprar una cantidad importante del fertilizante, el agricultor
decide hacer una nueva prueba, y en la cosecha siguiente utiliza el
nuevo producto en 10 plantas de tomate, con lo cual la prueba es mas
segura. Las hiptesis a contrastar son las mismas, pero el clculo es
algo diferente.
Ahora tenemos 10 resultados, cuyo promedio vamos a suponer que sea
11,5 Kg. Estos 10 resultados constituyen una muestra del universo de
rendimientos individuales de las plantas. Pero el promedio 11,5 Kg.
es un elemento del universo de promedios muestrales (Promedios de 10
resultados) derivado del universo anterior, con el mismo promedio que
este y con desviacin standard:

como ya hemos visto. El estadstico Z es, entonces:

En la tabla de la distribucin normal standard, la probabilidad de un


Z igual o mayor que 3,16 es P = 0,0008 (0,08 %) aproximadamente. La
probabilidad, entonces, de obtener un rendimiento promedio en 10

plantas de 11,5 Kg. de tomates con el fertilizante habitual es


prcticamente nula.
Rechazamos, entonces la Hiptesis Nula (Y aceptamos la Hiptesis
Alternativa) a un nivel de significacin de 0,0008. El nivel de
confianza en las bondades del nuevo fertilizante, ahora, es mayor.

La Distribucin Binomial

Una persona arroja 1 dado apostando con otro a que saca un as. La
probabilidad de sacar el as es igual a:

Es decir que la probabilidad que tiene de acertar es 17 %


aproximadamente. Ahora, supongamos que la persona arroja 5 dados
iguales a la vez. Cul es la probabilidad de que saque 0, 1, 2, 3...
ases?.

Cuando realizamos una experiencia individual donde el resultado debe


ser slo uno de dos posibles: acierto/fallo, cara/ceca, etc. decimos
que es un ensayo de Bernouilli. Es tan probable sacar 1 2 ases como
sacar 5 ases?. A priori parecera que no. En nuestro caso, cada vez
que arrojamos un dado podemos definir nuestro experimento registrando
slo dos resultados posibles:

Cada acto individual de arrojar un dado es independiente de los otros


y la probabilidad de obtener un as es:

Y la probabilidad de obtener cualquier otro resultado que no sea un


as es:

Entonces, cuando arrojamos 5 dados, la probabilidad de obtener 5 ases


es:

La probabilidad de no tener ningn as (0 ases) tambin podemos


calcularla, porque al arrojar un slo dado, la probabilidad de que no
salga un as es:

Y la probabilidad de no obtener ningn As en los 5 dados arrojados


es:

Nos falta calcular las probabilidades intermedias, es decir la


probabilidad de obtener 1, 2, 3...ases. Es posible calcular todas
estas probabilidades con una frmula binomial. Cul es la
probabilidad de sacar 1 As al arrojar 5 dados? Por ejemplo, una forma
es que salga un As en el primer dado:

La probabilidad de sacar 1 As en el primer dado y no sacar As en los


otros cuatro es:

Pero hay 5 formas diferentes de obtener 1 As en cinco dados


arrojados:

Por lo tanto, la probabilidad de sacar 1 As al arrojar 5 dados es:

Para calcular la probabilidad de obtener 1 As en cinco dados


arrojados debemos calcular:
1-La probabilidad de que en cinco dados arrojados uno de ellos sea un
As y los otros cuatro no sean As.
2-El nmero de combinaciones diferentes en que se puede dar esa
situacin: un As en cinco dados.
Hemos visto como hacer lo primero:

Y sabemos que hay cinco maneras diferentes de obtener un As en cinco


dados arrojados:

Cmo podemos generalizar el clculo de las distintas formas de


obtener 1 As, 2 Ases, etc. en cinco dados arrojados? La respuesta la
dan los nmeros combinatorios:

donde

son el factorial de m y de n respectivamente. La expresin representa


el nmero de combinaciones de m elementos tomados de a n (agrupados
de a n).
Por ejemplo, si tenemos las 5 letras A, B, C, D y E, y queremos saber
cuantas son todas las combinaciones posibles agrupndolas de a tres
en cualquier orden: ABC, ADC, ...etc., hacemos el clculo siguiente:

Supongamos que se realizan n ensayos de Bernoulli, con probabilidad p


de tener un acierto (Probabilidad 1-p de tener un fallo). Entonces,
la probabilidad de obtener y aciertos en n ensayos de Bernouilli es:

Esta probabilidad es un trmino del binomio siguiente:

donde

Los trminos de la suma son las probabilidades P(y), que determinan


la distribucin de probabilidades de la variable aleatoria y, la cual
es una variable discreta (toma los valores 0, 1, 2, ...etc.).
Aplicando la frmula al caso de 5 dados:

La probabilidad de no sacar ningn As es:

La probabilidad de obtener 1 As:

La probabilidad de obtener 2 Ases:

La probabilidad de obtener 3 Ases:

La probabilidad de obtener 4 Ases:

Y la probabilidad de obtener 5 Ases:

Resumiendo en una tabla:

Cul es el promedio de la variable aleatoria Y ? La media de la


variable aleatoria Y es:

La varianza de Y es:

Y entonces la desviacin standard resulta:

En la experiencia de arrojar 5 dados:

Cmo interpretamos este resultado? Si bien el promedio resulta un


valor fraccionario, nos est diciendo que al arrojar los cinco dados
estaremos ms cerca de sacar 1 As que de sacar 2 o ms ases. De una
manera ms rigurosa, ese valor nos dice que si se repitiera la
experiencia muchas veces, el promedio del nmero de ases que se
obtendra en todos los experimentos sera igual a 0.83
La varianza de Y resulta:

Y la desviacin standard:

Volvamos, ahora a nuestro apostador. Supongamos que arroja 5 dados y


apuesta a que va a sacar 3 o ms ases. Cul es la probabilidad que
tiene de ganar?
Esta probabilidad es la suma de los trminos del binomio para 3, 4 y
5 aciertos (ases), es decir:

Quiere decir que la probabilidad de ganar es aproximadamente del 3,5


%.

Grficos de Control

Los grficos de control o cartas de control son una importante


herramienta utilizada en control de calidad de procesos. Bsicamente,
una Carta de Control es un grfico en el cual se representan los
valores de algn tipo de medicin realizada durante el funcionamiento
de un proceso contnuo, y que sirve para controlar dicho proceso.

Vamos a tratar de entenderlo con un ejemplo.


Supongamos que tenemos una mquina inyectora que produce piezas de
plstico, por ejemplo de PVC. Una caracterstica de calidad
importante es el peso de la pieza de plstico, porque indica la
cantidad de PVC que la mquina inyect en la matriz. Si la cantidad
de PVC es poca la pieza de plstico ser deficiente; si la cantidad
es excesiva, la produccin se encarece porque se consume ms materia
prima.

Entonces, en el lugar de salida de las piezas, hay un operario que


cada 30 minutos toma una, la pesa en una balanza y registra la
observacin:

etc...
Supongamos que estos datos se registran en un grfico de lneas en
funcin del tiempo:

Observamos una lnea quebrada irregular, que nos muestra las


fluctuaciones del peso de las piezas a lo largo del tiempo. Esta es
la fluctuacin esperable y natural del proceso. Los valores se mueven
alrededor de un valor central (El promedio de los datos), la mayor
parte del tiempo cerca del mismo. Pero en algn momento puede ocurrir
que aparezca uno o ms valores demasiado alejados del promedio.
Cmo podemos distinguir si esto se produce por la fluctuacin natural
del proceso o porque el mismo ya no est funcionando bien?
Esta es la respuesta que provee el control estadstico de procesos, y
a continuacin veremos como lo hace.
Todo proceso de fabricacin funciona bajo ciertas condiciones o
variables que son establecidas por las personas que lo manejan para
lograr una produccin satisfactoria.

Cada uno de estos factores est sujeto a variaciones que realizan


aportes ms o menos significativos a la fluctuacin de las
caractersticas del producto, durante el proceso de fabricacin. Los
responsables del funcionamiento del proceso de fabricacin fijan los
valores de algunas de estas variables, que se denominan variables
controlables. Por ejemplo, en el caso de la inyectora se fija la
temperatura de fusin del plstico, la velocidad de trabajo, la
presin del pistn, la materia prima que se utiliza (Proveedor del
plstico), etc.
Pero un proceso de fabricacin es una suma compleja de eventos
grandes y pequeos. Hay una gran cantidad de variables que sera
imposible o muy difcil controlar. Estas se denominan variables no
controlables. Por ejemplo, pequeas variaciones de calidad del
plstico, pequeos cambios en la velocidad del pistn, ligeras
fluctuaciones de la corriente elctrica que alimenta la mquina, etc.
Los efectos que producen las variables no controlables son
aleatorios. Adems, la contribucin de cada una de las variables no
controlables a la variabilidad total es cuantitativamente pequea.
Son las variables no controlables las responsables de la variabilidad
de las caractersticas de calidad del producto.
Los cambios en las variables controlables se denominan Causas
Asignables de variacin del proceso, porque es posible
identificarlas. Las fluctuaciones al azar de la variables no
controlables se denominan Causas No Asignables de variacin del
proceso, porque no son pasibles de ser identificadas. Causas
Asignables: Son causas que pueden ser identificadas y que conviene
descubrir y eliminar, por ejemplo, una falla de la mquina por
desgaste de una pieza, un cambio muy notorio en la calidad del
plstico, etc. Estas causas provocan que el proceso no funcione como
se desea y por lo tanto es necesario eliminar la causa, y retornar el
proceso a un funcionamiento correcto.
Causas No Asignables: Son una multitud de causas no identificadas, ya
sea por falta de medios tcnicos o porque no es econmico hacerlo,

cada una de las cuales ejerce un pequeo efecto en la variacin


total. Son inherentes al proceso mismo y no pueden ser reducidas o
eliminadas a menos que se modifique el proceso.
Cuando el proceso trabaja afectado solamente por un sistema constante
de variables aleatorias no controlables (Causas no asignables) se
dice que est funcionando bajo Control Estadstico. Cuando, adems de
las causas no asignables, aparece una o varias causas asignables, se
dice que el proceso est fuera de control.
El uso del control estadstico de procesos lleva implcitas algunas
hiptesis que describiremos a continuacin:
1)Una vez que el proceso est en funcionamiento bajo condiciones
establecidas, se supone que la variabilidad de los resultados en la
medicin de una caracterstica de calidad del producto se debe slo a
un sistema de causas aleatorias, que es inherente a cada proceso en
particular.
2) El sistema de causas aleatorias que acta sobre el proceso genera
un universo hipottico de observaciones (mediciones) que tiene una
Distribucin Normal.
3) Cuando aparece alguna causa asignable provocando desviaciones
adicionales en los resultados del proceso, se dice que el proceso
est fuera de control.
La funcin del control estadstico de procesos es comprobar en forma
permanente si los resultados que van surgiendo de las mediciones
estn de acuerdo con las dos primeras hiptesis. Si aparecen uno o
varios resultados que contradicen o se oponen a las mismas, es
necesario detener el proceso, encontrar las causas por las cuales el
proceso se apart de su funcionamiento habitual y corregirlas.
Control Estadstico...Cmo ponerlo en marcha?
La puesta en marcha de un programa de control estadstico para un
proceso en particular implica dos etapas:

Antes de pasar a la segunda etapa, se verifica si el proceso est


ajustado. En caso contrario, se retorna a la primera etapa:

En la 1a etapa se recogen unas 100-200 mediciones, con las cuales se


calcula el promedio y la desviacin standard:

Luego se calculan los Lmites de Control de la siguiente manera:

Estos lmites surgen de la hiptesis de que la distribucin de las


observaciones es normal. En general se utilizan lmites de 2 sigmas
de 3 sigmas alrededor del promedio. En la distribucin normal, el
intervalo de 3,09 sigmas alrededor del promedio corresponde a una
probabilidad de 0,998.

Entonces, se construye un grfico de prueba y se traza una lnea


recta a lo largo del eje de ordenadas (Eje Y), a la altura del
promedio (Valor central de las observaciones) y otras dos lneas
rectas a la altura de los lmites de control:

En este grfico se representan los puntos correspondientes a las


observaciones con las que se calcularon los lmites de control:

Este grfico de prueba se analiza detenidamente para verificar si


est de acuerdo con la hiptesis de que la variabilidad del proceso
se debe slo a un sistema de causas aleatorias o si, por el
contrario, existen causas asignables de variacin. Esto se puede
establecer porque cuando la fluctuacin de las mediciones se debe a
un sistema constante de causas aleatorias la distribucin de las
observaciones es normal:

Cuando las observaciones sucesivas tienen una distribucin normal, la


mayor parte de los puntos se sita muy cerca del promedio, algunos
pocos se alejan algo ms y prcticamente no hay ninguno en las zonas
ms alejadas:

Es difcil decir como es el grfico de un conjunto de puntos que


siguen un patrn aleatorio de distribucin normal, pero s es fcil
darse cuenta cuando no lo es. Veamos algunos ejemplos de patrones No
Aleatorios:
Una sucesin de puntos por encima ...

... o por debajo de la lnea central.

Una serie creciente de 6 7 observaciones...

.. o una serie decreciente.

Si no se descubren causas asignables entonces se adoptan los lmites


de control calculados como definitivos, y se construyen cartas de
control con esos lmites:

Si slo hay pocos puntos fuera de control (2 3), estos se eliminan,


se recalculan la media, desviacin standard y lmites de control con
los restantes, y se construye un nuevo grfico de prueba. Cuando las
observaciones no siguen un patrn aleatorio, indicando la existencia
de causas asignables, se hace necesario investigar para descubrirlas
y eliminarlas. Una vez hecho esto, se debern recoger nuevas
observaciones y calcular nuevos lmites de control de prueba,
comenzando otra vez con la primera etapa.
En la 2a etapa, las nuevas observaciones que van surgiendo del
proceso se representan en el grfico, y se controlan verificando que
estn dentro de los lmites, y que no se produzcan patrones no
aleatorios:

Como hemos visto, el 99,8 % de las observaciones deben estar dentro


de los lmites de 3,09 sigmas alrededor de la media. Esto significa
que slo 1 observacin en 500 puede estar por causas aleatorias fuera
de los lmites de control. Entonces, cuando se encuentra ms de 1
punto en 500 fuera de los lmites de control, esto indica que el
sistema de causas aleatorias que provocaba la variabilidad habitual
de las observaciones ha sido alterado por la aparicin de una causa
asignable que es necesario descubrir y eliminar.

En ese caso, el supervisor del proceso debe detener la marcha del


mismo e investigar con los que operan el proceso hasta descubrir la o
las causas que desviaron al proceso de su comportamiento habitual.
Una vez eliminadas las causas del problema, se puede continuar con la
produccin normal.

Grficos X-R

Los grficos X-R se utilizan cuando la caracterstica de calidad que


se desea controlar es una variable continua.

Para entender los grficos X-R, es necesario conocer el concepto de


Subgrupos (o Subgrupos racionales). Trabajar con subgrupos significa
agrupar las mediciones que se obtienen de un proceso, de acuerdo a
algn criterio. Los subgrupos se realizan agrupando las mediciones de
tal modo que haya la mxima variabilidad entre subgrupos y la mnima
variabilidad dentro de cada subgrupo. Por ejemplo, si hay cuatro
turnos de trabajo en un da, las mediciones de cada turno podran
constituir un subgrupo.
Supongamos una fbrica que produce piezas cilndricas para la
industria automotriz. La caracterstica de calidad que se desea
controlar es el dimetro de las piezas.

Hay dos maneras de obtener los subgrupos. Una de ellas es retirar


varias piezas juntas a intervalos regulares, por ejemplo cada hora:

La otra forma es retirar piezas individuales a lo largo del intervalo


de tiempo correspondiente al subgrupo:

.....Etc.
Por cualquiera de los dos caminos, obtenemos grupos de igual nmero
de mediciones. Para cada subgrupo calculamos el Promedio y el Rango
(Diferencia entre el valor mximo y el valor mnimo).

Como ya se ha visto, para calcular los Lmites de Control es


necesario obtener un gran nmero de mediciones, divididas en
subgrupos. En nuestro ejemplo, podramos obtener 30 subgrupos de 6
datos cada uno:

Despus de calcular el Promedio y el Rango de cada subgrupo,


tendramos una tabla como la siguiente:

A partir de esta tabla, se calculan el promedio general de promedios


de subgrupo y el promedio de rangos de subgrupo:

Promedio de Subgrupo
N

Nmero de Subgrupos

o tambin:

Mediciones individuales
N

Nmero de Subgrupos

Nmero de mediciones dentro del Subgrupo

Rango del Subgrupo


La desviacin standard del proceso se puede calcular a partir del
rango promedio, utilizando el coeficiente d2, que depende del nmero
de mediciones en el subgrupo:

Con esto podemos calcular los Lmites de Control para el grfico de


X:

La desviacin standard del rango se puede calcular utilizando el


coeficiente d3, que tambin depende del nmero de mediciones en el
subgrupo:

Y as podemos calcular los Lmites de Control para el Grfico de R:

La tabla siguiente muestra los coeficientes d2 y d3 para subgrupos de


hasta 10 mediciones:

Construmos entonces un Grfico X de prueba y representamos los


promedios de los subgrupos:

Y un Grfico R de prueba, donde representamos los rangos de los


subgrupos:

Si no hay puntos fuera de los lmites de control y no se encuentran


patrones no aleatorios, se adoptan los lmites calculados para
controlar la produccin futura.

Grficos np

Muchas caractersticas de calidad se evalan dando resultados como:


conforme o disconforme, defectuoso o no defectuoso. Estas
caractersticas de calidad se conocen como atributos. Supongamos un
proceso que fabrica tornillos. Una manera de ensayar cada tornillo
sera probarlo con una rosca calibrada.

El resultado de este ensayo slo tiene dos posibles resultados:


Defectuoso-No Defectuoso ( Conforme-Disconforme ).

Si el tornillo no entra en la rosca, se lo considera defectuoso o


disconforme.

Para controlar este proceso, se puede tomar una muestra de tornillos


y contar el nmero de defectuosos presentes en la muestra.

La variable aleatoria nmero de defectuosos es una variable aleatoria


discreta, porque puede tomar un nmero finito de valores, o infinito
numerable. Los grficos np se utilizan para controlar el nmero de
defectuosos en una muestra.
Entonces, para controlar este proceso, un inspector se coloca al
final de la lnea de produccin y cada hora retira una muestra de
n=50 tornillos (por ejemplo), comprueba cada uno con la rosca y anota
el nmero de defectuosos.

Este resultado se anota en un grfico hora por hora y se denomina


grfico np.
Si se tomara del proceso un slo tornillo Cul es la probabilidad de
que sea defectuoso? Imaginando la poblacin de tornillos que podra
fabricar el proceso trabajando siempre en las mismas condiciones, una
cierta proporcin p de estos seran defectuosos. Entonces, la
probabilidad de tomar un tornillo y que sea defectuoso es p.
En una muestra de n tornillos, la probabilidad de encontrar:

0 defectuosos
1 defectuoso
2 defectuosos
...
n defectuosos

est dada por una distribucin binomial con parmetros n y p.


Como sabemos, el promedio de la poblacin es p y la varianza es
n.p.(1-p).
Para construir los grficos de control np, en una primera etapa se
toman N muestras (ms de 20 25) a intervalos regulares, cada una
con n tornillos. Se cuenta en cada muestra el Nmero de Defectuosos y
se registra. Se obtendra una Tabla como la siguiente:

Muestra

N
Defectuosos

En cada muestra, la fraccin de defectuosos es:

N Defectuosos en muestra i
n

N elementos en la muestra

Entonces, a partir de la tabla podemos calcular p como promedio de


las fracciones de defectuosos en las muestras:

N muestras

y luego la Desviacin Standard s:

Con esto podemos calcular los Lmites de Control para el grfico np:

Construmos entonces un Grfico np de prueba y representamos el


nmero de defectuosos en las muestras:

Si no hay puntos fuera de los lmites de control y no se encuentran


patrones no aleatorios, se adoptan los lmites calculados para
controlar la produccin futura.

La Distribucin de Poisson
Para entender la Distribucin de Poisson, vamos analizar un
ejemplo detenidamente. Supongamos que se tiene una tabla
rectangular de madera, de 1 metro por 1 metro, pintada con un
recubrimiento sobre cuya superficie se presentan
aleatoriamente pequeos defectos. Estos defectos podran ser
por ejemplo partculas muy pequeas de pigmento que no fueron
bien molidas al fabricar la pintura. Se desea calcular la
probabilidad de que aparezcan estos defectos:

Podramos subdividir la superficie en zonas rectangulares mas


pequeas y de igual tamao:

Ahora tenemos la superficie dividida en 4 zonas rectangulares


de igual tamao. Observamos que en algunas zonas aparece un
defecto superficial y en otras no. Vamos a hacer las
siguientes suposiciones:
1) En cada zona slo puede aparecer 1 defecto.

2) Si la probabilidad de que aparezca un defecto en todo el


rea es p, la probabilidad de que aparezca un defecto en una
zona es p/4.
Entonces, utilizando la Distribucin Binomial podemos
calcular la probabilidad de que en nuestra superficie
aparezcan 0, 1, 2, 3, 4 defectos:

El promedio de defectos en la superficie total ser:

Pero sabemos que en realidad en cada zona podran aparecer


ms de 1 defecto. Esto hace inexacto nuestro clculo.

Podramos hacer el clculo ms exacto si subdividimos las


zonas:

Dividimos cada zona en 4 y ahora tenemos 16 zonas. La


probabilidad de tener 1 defecto en una zona es:

Podemos entonces calcular la probabilidad de tener 0, 1, 2,


3, ...., 16 defectos en el rea total:

Y el promedio de defectos en la superficie resulta ser el


mismo que antes:

An as podran aparecer ms defectos por zona:

Si dividimos nuevamente cada zona en 4 tendramos 64 zonas y


ahora la probabilidad de tener 1 defecto en una zona sera:

La probabilidad de tener 0, 1, 2, 3, ....., 64 defectos en la


superficie total sera:

Y nuevamente el promedio de defectos en la superficie


resulta:

Lo que estamos haciendo es ir aumentando n al mismo tiempo


que disminuye p en igual proporcin. Por lo tanto el promedio
de defectos en la superficie total n.p se mantiene constante.
Como vimos, al suponer que en cada subzona slo puede haber 1
defecto o ningn defecto estamos cometiendo un error. Este

error se hace cada vez menor, porque a medida que


subdividimos el area total se hace menos probable que en una
subzona aparezca mas de un defecto. Si continuamos
subdividiendo el rea indefinidamente, la frmula binomial
nos dar la probabilidad de obtener 0, 1, 2, 3, ... n
defectos, con n tendiendo a infinito.
En el lmite, la frmula binomial tiende a la frmula de
Poisson:

El producto de n por p, en el lmite, es igual al parmetro


de la distribucin:

El nmero de defectos x en la superficie total es una


variable aleatoria discreta que puede tomar valores 0, 1, 2,
3, 4, ... y cuya distribucin de probabilidades se conoce
como Distribucin de Poisson.

Se puede observar que la curva de la funcin de Poisson es


asimtrica, como la binomial. El promedio de esta variable
aleatoria es igual al parmetro de la distribucin:

Y la varianza tambin es igual al parmetro de la


distribucin:

Por lo tanto, la desviacin standard es:

La distribucin de Poisson tiene una propiedad cuyas


consecuencias son muy importantes para el Control Estadstico
de Procesos. Supongamos que se tienen m variables aleatorias
de Poisson:

Si w es una combinacin lineal de tales variables:

Entonces w es una variable aleatoria de Poisson con


parmetro:

Esto es muy importante porque podemos imaginar el producto


fabricado por un proceso (Una licuadora, una computadora, un
televisor, etc.) como una superficie en la que se pueden
producir mltiples defectos, y donde el nmero de cada tipo
de defecto es una variable aleatoria de Poisson. Entonces, la
propiedad mencionada nos permite tratar la suma de todos los
tipos de defectos como una variable aleatoria de Poisson.
Esto se utiliza para el control del Nmero de Defectos en un
producto (Grficos C).
Supongamos ahora que tenemos un gran lote de artefactos, por
ejemplo licuadoras. Tomamos una muestra de m = 5 unidades y
medimos el nmero total de defectos en las 5 unidades. Si
obtuvimos x1, x2, x3, ... xm defectos en cada unidad, el nmero
total de defectos ser:

El nmero promedio de defectos por unidad ser:

y es una variable aleatoria discreta que puede tomar valores


0, 1/m, 2/m, 3/m, ... etc. Cul es la varianza de y?

La varianza de xi es
cualquiera que sea el subindice i,
porque todas las xi tienen la misma distribucin:

Por lo tanto:

Este es un importante resultado que se utilizar para


calcular la varianza en los Grficos U.

Grficos C y U

En algunos procesos interesa medir la cantidad de defectos


que presentan las unidades de producto que se estn
fabricando. Por ejemplo, se fabrican telfonos celulares y
entonces se toma uno de ellos y se cuenta el nmero total de
defectos. Estos podran ser:

Rayaduras en la superficie.
Rajaduras en el plstico
Antena defectuosa
Botn defectuoso.
Etc.

Los defectos pueden ser de diferentes tipos y se cuenta el


total de todos estos defectos en la unidad inspeccionada.
Obtenemos un resultado que es el Nmero de Defectos por
unidad de inspeccin.

A medida que el proceso genera las unidades (Telfonos


celulares), retiramos una unidad a intervalos regulares y
contamos el nmero total de defectos. En cada unidad podemos
encontrar:

0 defectos
1 defecto

2 defectos
3 defectos
...
n defectos

Los resultados que obtenemos al contar el Nmero de Defectos


en unidades de inspeccin retiradas a intervalos regulares
constituyen una variable aleatoria discreta, porque puede
tomar valores 0, 1, 2, 3, ... n.
Esta variable aleatoria tiene una distribucin de Poisson:

Los grficos C se utilizan para controlar el nmero de


defectos en una muestra del producto o unidad de inspeccin.
Entonces, para controlar este proceso, un inspector se coloca
al final de la lnea de produccin y cada hora retira una
unidad de inspeccin (En este caso un telfono celular),
verifica y anota el nmero total de defectos.

Este resultado se anota en un grfico hora por hora y se


denomina grfico C. De acuerdo a la Distribucin de Poisson,
si denominamos C al parmetro de la funcin de distribucin,
el promedio de la poblacin es C y la varianza tambin es C.
Para construir los grficos de control C, en una primera
etapa se toman N unidades de inspeccin (ms de 25 30) a
intervalos regulares. Se cuenta en cada unidad de inspeccin
el Nmero de Defectos y se registra. Se obtendra una Tabla
como la siguiente:
Unidad de Nm.
Inspeccin Defectos
1

Entonces, a partir de la tabla podemos calcular C como


promedio del Nmero de Defectos en las muestras (Unidades de
Inspeccin):

ni Cantidad de Defectos por Unidad de Inspeccin


N Nmero de Unidades de Inspeccin
y luego la Desviacin Standard:

Con esto podemos calcular los Lmites de Control para el


grfico C:

En caso de que el Lmite Inferior de Control resulte


negativo, se le asigna valor cero. Construmos entonces un
Grfico C de prueba y representamos el nmero de defectos en
las muestras:

Si no hay puntos fuera de los lmites de control y no se


encuentran patrones no aleatorios, se adoptan los lmites
calculados para controlar la produccin futura.
Otro ejemplo sera controlar el nmero de defectos a la
salida de una lnea de ensamblado de licuadoras. De igual
manera podra ser una lnea de ensamblado de computadoras
personales, cafeteras automticas, televisores, etc.
Cuando se fabrican pinturas y barnices, un ensayo muy comn
es hacer un extendido sobre una placa de vidrio, dejar secar
el producto y luego inspeccionar los defectos en la
superficie. Se pueden aplicar los grficos C para controlar
este tipo de procesos, contando el nmero de defectos sobre
la superficie del recubrimiento.
En la industria textil tambin es necesario controlar
defectos superficiales en las telas. Se pueden aplicar los
grficos C para controlar el nmero de defectos sobre la
superficie de un rea rectangular de tela.
Muchas veces ocurre que las unidades que produce el proceso
presentan una tasa de defectos muy baja. Por ejemplo,
supongamos un proceso automatizado que fabrica tarjetas de
sonido. A la salida del mismo se inspecciona una tarjeta a

intervalos de media hora y se cuenta el nmero de defectos.


El resultado seguramente ser algo como esto:
Tarjeta

Nm.
Defectos

etc

Esto se debe a que la fabricacin se realiza por medio de un


proceso totalmente automatizado donde ocurren pocos errores.
Por lo tanto, el promedio de defectos ser cercano a cero y
el Lmite Inferior de Control seguramente ser negativo. Para
evitar esto, es conveniente redefinir la Unidad de
Inspeccin. Por ejemplo, se puede tomar como unidad de
inspeccin la cantidad de 100 tarjetas de sonido. Es decir,
cada media hora se retiran del proceso 100 tarjetas y se
cuentan los defectos del total de las mismas. De esta manera
la cantidad de defectos promedio por unidad de inspeccin
ser mas alta. Y es posible tambin que el LIC sea mayor que
cero.
Supongamos que se est controlando el nmero de defectos en
un proceso de ensamblado de licuadoras y se define una unidad
de inspeccin de 5 licuadoras. En este caso es posible
trabajar con un grfico C, como ya hemos visto. Pero tal vez
se desea controlar el promedio de defectos por cada licuadora
(unidad de produccin) en lugar de el total de defectos para
las 5 licuadoras (unidad de inspeccin):

ni Cantidad de Defectos por Unidad de Inspeccin


m Nm. de Unidades de Produccin en la Unidad de Inspeccin

En nuestro ejemplo, si encontramos ni defectos en la unidad de


inspeccin (5 licuadoras), la cantidad promedio de defectos
por licuadora ser:

Se debe tener en cuenta que x es una nueva variable aleatoria


discreta que toma valores 0, 1/m, 2/m, 3/m, 4/m, .....etc., y
cuya distribucin de probabilidades se puede calcular a
partir de la Distribucin de Poisson.
Como en el caso de los grficos C, en una primera etapa se
toman N unidades de inspeccin (ms de 25 30) a intervalos
regulares. Se cuenta en cada unidad de inspeccin el Nmero
de Defectos y se registra. Luego se divide el Nmero de
Defectos de cada unidad de inspeccin por m (Nmero de
unidades de produccin en cada unidad de inspeccin).
En nuestro ejemplo (m = 5) la Tabla quedara as:
Unidad de
Nm.
Nm.
Inspeccin Defectos Defectos por
Licuadora
1

1.0

1.6

1.2

10

2.0

1.0

15

3.0

12

2.4

1.0

Entonces, a partir de la tabla podemos calcular el parmetro


U como promedio del Nmero de Defectos por licuadora:

ni Cantidad de Defectos por Unidad de Inspeccin


m Nm. de Unid. de Produccin en la Unidad de Inspeccin
N Nmero de Unidades de Inspeccin
y luego la Desviacin Standard:

Con esto podemos calcular los Lmites de Control para el


grfico U:

Capacidad de Proceso

Un proceso de fabricacin es un conjunto de equipos,


materiales, personas y mtodos de trabajo que genera un
producto fabricado.

Para analizar el comportamiento del proceso, se toman


muestras de producto fabricado y se realizan ensayos para
determinar el valor de una caracterstica de calidad
seleccionada previamente. Desde el punto de vista del control
estadstico, es conveniente incluir la etapa de muestreo y
ensayo dentro del proceso mismo.

Cualquier modificacin en las condiciones del proceso


(Modificacin en el equipo, cambio de materias primas, etc.)
conceptualmente debe considerarse como que se trata de otro
proceso, diferente del anterior.

El primer paso para aplicar una tcnica estadstica es


definir la caracterstica de calidad que se va a medir en el
producto fabricado. Desde el punto de vista estadstico, esta
caracterstica de calidad constituye una variable aleatoria,
porque an despus de realizar una serie de mediciones, el
valor que se obtendra en la siguiente medicin no puede
predecirse por clculo.
El conjunto de todos los resultados de mediciones que pueden
obtenerse es nuestro universo o poblacin. Cualquier
subconjunto de mediciones extrado del universo constituye
una muestra. Con respecto al concepto de universo o
poblacin, cuando se aplica a resultados de mediciones en un
proceso, es necesario puntualizar lo siguiente: La poblacin
o universo de resultados es el conjunto de datos que se
obtuvieron hasta ese momento mas aquellos que se obtendran
si el proceso continuara funcionando siempre bajo las mismas
condiciones. Esto se conoce como Universo Hipottico de
mediciones de la caracterstica de calidad.
Antes de aplicar cualquier tcnica estadstica, es necesario
establecer algunas hiptesis bajo las cuales se va a
desarrollar el anlisis. En primer lugar, vamos a suponer que
la caracterstica de calidad (Variable aleatoria) es continua
y de distribucin normal. En segundo lugar, consideraremos
que el proceso est bajo control estadstico, es decir que la
variabilidad se debe solamente a un sistema constante de
causas aleatorias (No intervienen causas asignables).
Al realizar una sucesin de mediciones de la caracterstica
de calidad sobre muestras del producto fabricado, encontramos
que los valores fluctan alrededor de un valor central. Esto
es lo que llamamos la fluctuacin natural y esperable del
proceso. Esta variacin de la caracterstica de calidad
medida se debe a un conjunto muy grande de causas que afectan
el proceso, cuyo efecto individual es pequeo y que actan en
forma aleatoria (Sistema constante de causas aleatorias). La
fluctuacin natural del proceso es inherente al mismo y no
puede eliminarse, slo puede reducirse realizando
modificaciones al proceso mismo, lo cual significa, como ya
hemos dicho, trabajar con otro proceso. La fluctuacin
natural de un proceso puede cuantificarse a travs de la
desviacin standard del mismo, con la cual podemos calcular
Lmites de Tolerancia Natural del proceso. Se debe insistir
en que estos lmites no pueden fijarse voluntariamente,
dependen del proceso y de las variables no controlables del
mismo. Generalmente se toma un rango para la fluctuacin
natural de 6 sigmas.

Los Lmites de Especificacin de un producto son fijados


voluntariamente por el cliente, por el fabricante o por
alguna norma. Estos lmites constituyen un requisito a
cumplir por el producto y no deben confundirse en ningn caso
con los Lmites de Control o con los Lmites de Tolerancia
Natural del proceso.
La Capacidad de un proceso es la aptitud para generar un
producto que cumpla con determinadas especificaciones. En el
mejor de los casos, es conveniente que los Lmites de
Tolerancia Natural del proceso se encuentren dentro de los
Lmites de Especificacin del producto. De esta manera nos
aseguramos que toda la produccin cumplir con las
especificaciones.
Para analizar la capacidad del proceso se puede utilizar un
histograma de frecuencias. Si se dispusiera de todos los
datos del universo para la caracterstica de calidad medida y
se hiciera un histograma este permitira tener una idea
exacta de la fluctuacin natural del proceso. Como esto es
imposible, es necesario tomar un cierto nmero de mediciones
(Mnimo 100-200) y efectuar con ellas un histograma de
frecuencias.

Este es el histograma de una muestra y por lo tanto es slo


una estimacin del verdadero histograma del universo. Si
representamos en las abscisas los Lmites de Especificacin
del producto, podemos ver grficamente si el proceso tiene
aptitud (Capacidad) para fabricar dicho producto.

Para cuantificar la Capacidad de Proceso se utilizan


coeficientes que permiten comparar el rango de
especificaciones con la fluctuacin natural del proceso. Uno
de ellos es Cp:

donde
LSE es el Lmite Superior de Especificacin
y
LIE es el Lmite Inferior de Especificacin
Si el proceso tiene capacidad para fabricar el producto,
entonces Cp > 1. En general se exige Cp > 1.30 para mayor
seguridad.

Este coeficiente tiene el inconveniente de que para poder


aplicarlo el centro de gravedad del rango de especificaciones
debe coincidir con la tendencia central de las mediciones del
proceso. Cuando esto no ocurre se emplea el Cpk:

Donde:

En el grfico podemos observar que una buena parte del


producto est por encima del Lmite Superior de
Especificacin (LSE). An as resulta Cp > 1, indicando
errneamente que el proceso tiene capacidad suficiente. En
este caso se debe usar el segundo coeficiente que muestra
claramente que el proceso no tiene capacidad suficiente (Cpk
< 1), tal como se puede observar en el grfico.
El uso de un histograma para analizar la capacidad de un
proceso tiene la ventaja de que se puede apreciar la forma de
la distribucin, con lo cual se puede confirmar o rechazar la
hiptesis de que la misma es normal. Pero el problema es que
no se puede detectar la presencia de patrones no aleatorios,
con lo cual no es posible confirmar o rechazar la hiptesis
de que el proceso est bajo control estadstico. Si el
proceso no est bajo control estadstico los resultados del
anlisis de la capacidad de proceso no sern vlidos y pueden
llevar a conclusiones equivocadas.
Otra manera de analizar la capacidad de un proceso es por
medio de los grficos de control. La implementacin de
grficos de control exige necesariamente colocar al proceso
bajo control estadstico. En consecuencia, se puede utilizar
la desviacin standard utilizada para calcular los Lmites de
Control para calcular los coeficientes de capacidad de
proceso Cp o Cpk. Si este es el caso, se debe hacer una
aclaracin muy importante. Cuando se utilizan grficos X-R,
en el grfico de X se representan los promedios de subgrupos,
es decir, promedios muestrales. No se debe confundir la

desviacin standard del proceso con la desviacin standard de


los promedios muestrales. Si la desviacin standard del
proceso es s y cada subgrupo tiene m mediciones, la
desviacin standard entre subgrupos es:

Si se utiliza por error la desviacin standard entre


subgrupos para calcular los coeficientes de capacidad del
proceso, se obtendrn valores ms altos que los que
corresponden a la verdadera capacidad del proceso.

También podría gustarte