Está en la página 1de 99

Introduccin a la Probabilidad

Cada vez que realizamos un clculo matemtico para resolver un problema, lo que estamos haciendo es aplicar un modelo matemtico a un fenmeno de la realidad.

Este fenmeno puede ser, por ejemplo, la cada de un objeto desde cierta altura, y en este caso utilizamos un modelo que es la Ley de Gravedad. Qu es un modelo?. Al enfrentar un problema de fsica, qumica, ingeniera o de algn otro tipo, estamos analizando e investigando una parte o aspecto de la realidad material que nos rodea. Para resolver el problema, necesitamos modelar esa realidad, es decir, construir una representacin en la mente de cmo ocurren los hechos, junto con ecuaciones matemticas que permitan calcular los efectos de los mismos.

El modelo de fuerza gravitatoria o leyes de la gravedad permite estudiar la cada de un cuerpo en el vaco. Cuando aplicamos este modelo a la cada real de un cuerpo, estamos dejando de lado la influencia del aire, cuyo rozamiento en el cuerpo disminuye su velocidad, pero lo hacemos a sabiendas que este rozamiento es muy pequeo y por lo tanto no va a afectar demasiado nuestros clculos. En ningn caso se debe confundir modelo con realidad. Un modelo es slo una representacin de la realidad, utilizado para estudiar y analizar dicha realidad.

Los modelos matemticos que mencionamos hasta ahora, despus de efectuar los clculos nos dan un resultado numrico preciso, por ejemplo, que la velocidad de un automvil es de 75,5 Km/Hora.

Tambin podemos calcular la corriente elctrica que circula por un cable con la Ley de Ohm y obtenemos, por ejemplo, un resultado como 5,7 Amperes:

Este tipo de modelos matemticos se denominan Determinsticos. Hay fenmenos que necesitan otro tipo de modelos matemticos, que se denominan no determinsticos, probabilsticos o estocsticos. Por ejemplo, supongamos que un agricultor necesita saber cuanta lluvia va a caer en los prximos meses, antes de decidir si le conviene sembrar o no esta temporada. El agricultor se inform en la oficina de meteorologa acerca de la presin baromtrica, la temperatura, velocidad del viento y otros datos meteorolgicos de la zona en que vive.

Sin embargo, no hay una ecuacin que con todos esos datos le permita calcular los milmetros de lluvia que van a caer en un mes en forma precisa.

De la misma manera, ningn operador puede calcular cuanto va a subir la Bolsa, ni siquiera si va a subir o bajar, an cuando tenga a su alcance todas las variables econmicas disponibles para el pas. Este tipo de fenmenos No admiten un modelo determinstico, sino un modelo probabilstico, que como resultado nos dice la probabilidad de que llueva una cierta cantidad, o la probabilidad de que la Bolsa suba un cierto porcentaje. El resultado no es un valor determinado, sino la probabilidad de un valor.

Veamos algunos ejemplos de fenmenos o experimentos para los cuales es apropiado o conveniente utilizar un modelo probabilstico: Experimento 1: Se lanza un dado y se anota el nmero que aparece en la cara superior.

Experimento 2: Se arroja una moneda cuatro veces y se cuenta el nmero total de caras obtenidas.

Experimento 3: Se arroja una moneda cuatro veces y se anota la sucesin de caras y cecas obtenidas.

Experimento 4: Se fabrican artculos en una lnea de produccin y se cuenta el nmero de artculos defectuosos producidos en 24 horas.

En todos estos casos, el resultado del experimento no se puede predecir con absoluta certeza. Hay varios resultados posibles cada vez que se realiza la experiencia. Para cada experimento del tipo que estamos considerando, se define el Espacio Muestral como el conjunto de todos los resultados posibles que pueden producirse al realizar el experimento. Experimento 1: Se lanza un dado y se anota el nmero que aparece en la cara superior:

Experimento 2: Se arroja una moneda cuatro veces y se cuenta el nmero total de caras obtenidas:

Experimento 3: Se arroja una moneda cuatro veces y se anota la sucesin de caras (C) y cecas (X) obtenidas:

Experimento 4: Se fabrican artculos en una lnea de produccin y se cuenta el nmero de artculos defectuosos producidos en 24 horas.

donde N es el nmero mximo que pudo ser producido en 24 horas. Un Suceso, respecto a un espacio muestral S asociado con determinado experimento, es un subconjunto de resultados del espacio muestral.

Entonces, el subconjunto formado por un solo elemento del espacio muestral es un suceso.

El conjunto formado por todos los elementos del espacio muestral tambin es un suceso:

Y tambin lo es el conjunto vaco. Hemos visto que dado un experimento cualquiera, hay un espacio muestral asociado cuyos elementos son todos los resultados que se pueden obtener de la experiencia. Un subgrupo o subconjunto de resultados es un suceso. Ahora, cmo podemos saber si la posibilidad de que ocurra un suceso es grande o pequea? Por ejemplo, si arrojamos un dado, cmo podemos calcular la probabilidad de que salga un 2 ?. Para esto necesitamos un nmero asociado con cada suceso, al cual se lo denomina probabilidad del suceso. Entonces, la probabilidad P de un suceso es un nmero entre 0 y 1, que nos dice en que medida es posible que ocurra el suceso. Si la probabilidad es 1 significa que el suceso ocurrir con toda certeza. Si la probabilidad es 0,5 significa que un suceso puede ocurrir o puede no ocurrir con la misma probabilidad. Probabilidad 0 quiere decir que el suceso es imposible que ocurra. Cmo podemos calcular la Probabilidad de un suceso?

La respuesta a esta pregunta no siempre es sencilla y depende del experimento y de su espacio muestral asociado. Hay casos simples en los que el clculo es relativamente sencillo. En primer trmino, supondremos que se trata de un experimento cuyo espacio muestral es finito y tiene un nmero pequeo de resultados posibles. En segundo trmino, supondremos que todos los resultados que integran el espacio muestral (sucesos elementales) tienen la misma probabilidad de ocurrir. Con estas dos hiptesis, la frmula para calcular la probabilidad es muy sencilla. Supongamos que se trata de un experimento cualquiera cuyo espacio muestral S tiene N elementos (N resultados posibles). Deseamos calcular la probabilidad de un suceso H (Un subconjunto H del espacio muestral S) que tiene m elementos. De acuerdo a lo dicho previamente, el nmero N tiene que ser pequeo y la probabilidad de cada suceso elemental tiene que ser la misma:

Entonces la probabilidad P de que ocurra el suceso H es:

Veamos algunos ejemplos. Supongamos que se arroja un dado sobre una mesa y apostamos a que salga un nmero igual o menor que 4. Sabemos que son igualmente posibles los nmeros: {1, 2, 3, 4, 5 y 6} (Espacio muestral con 6 elementos). Pero los nmeros favorables a nuestra apuesta son: {1, 2, 3 y 4} (Suceso con 4 elementos). Entonces, la probabilidad de que ganemos es:

Es decir que tenemos a nuestro favor una probabilidad de 0,666.. (o sea aproximadamente del 67 %). Si apostamos a un slo nmero, por ejemplo a que sale un as, la probabilidad de ganar sera:

Repitiendo, la probabilidad es un nmero entre 0 y 1, que nos dice en que medida es posible que ocurra un suceso.

Conceptos Estadsticos Fundamentales

Hasta ahora hemos visto el caso de fenmenos o experimentos cuyo espacio muestral asociado tiene un nmero pequeo de elementos. Esto nos sirvi para introducir la nocin de probabilidad. Pero en muchos casos es necesario trabajar con experiencias o procesos que generan un nmero muy grande de datos o resultados numricos, es decir, espacios muestrales con un nmero infinito o muy grande de elementos. Cuando tenemos un conjunto muy grande de datos numricos para analizar decimos que tenemos un Universo o Poblacin de observaciones.

Cada dato numrico es un elemento de la poblacin o universo. Una Muestra es un subconjunto pequeo de observaciones extradas de un universo o poblacin:

La Estadstica trabaja con poblaciones de datos y con muestras extradas de las mismas. Los conceptos de poblacin y muestra a veces resultan ambiguos en su aplicacin prctica. Por ejemplo, supongamos que en una ciudad de 5000 habitantes se realiza un censo mdico en el cual se mide el peso, la altura y se relevan otros datos de todos los habitantes de la ciudad.

Alguien podra referirse al universo o poblacin censada teniendo in mente el conjunto de los habitantes de la ciudad. Pero cuando hablamos en trminos estadsticos, nos referimos a poblaciones o universos de datos. Por ejemplo, el conjunto de todas las mediciones de altura (De los habitantes de la ciudad) es un conjunto de datos y por lo tanto constituye un universo o poblacin de datos desde el punto de vista estadstico. Otro universo o poblacin de datos son los pesos medidos (De los habitantes de la ciudad). Pero la poblacin de habitantes, es decir, las personas que habitan la ciudad no son la poblacin a la que nos estamos refiriendo desde el punto de vista estadstico.

Supongamos que en una empresa se fabrica un lote muy grande, digamos 10 toneladas de un producto qumico, y un tcnico debe controlar la calidad del mismo.

El tcnico toma una pequea porcin, por ejemplo, 100 gramos y dir que tom una muestra del producto para analizar en el laboratorio. Hasta el momento, la muestra no fue analizada y por lo tanto no tenemos ningn dato numrico.

Cuando el laboratorio efecta algn ensayo en la muestra y obtiene un resultado numrico, recin ah tenemos un dato que puede ser analizado desde el punto de vista estadstico.

Vamos a suponer hipotticamente que el tcnico contina sacando otras muestras del producto, hasta agotar el lote y cada una es ensayada en el laboratorio, el cual nos da los resultados. Como tenamos 10 ton. de producto y las muestras son aproximadamente de 100 gr., el tcnico seguramente extraer alrededor de 100000 muestras y el laboratorio nos entregar alrededor de 100000 resultados. Este conjunto de datos numricos es nuestro universo o poblacin de datos. Si nosotros tomamos al azar 10 de esos resultados, podemos decir que tenemos una muestra de 10 elementos de ese universo o poblacin. No debemos confundir esta muestra (Desde el punto de vista estadstico) con la muestra de material que extrajo el tcnico para ser analizada en laboratorio. Ahora bien, nuestro universo o poblacin de datos a veces no existe en la realidad, sino que es un concepto o abstraccin que utilizamos

para referirnos al universo o poblacin que hipotticamente podra existir. Veamos el ejemplo anterior. Supongamos que el tcnico toma solamente 5 muestras y las enva para analizar al laboratorio. El laboratorio nos enviar slo 5 resultados, y nosotros diremos que tenemos una muestra de datos extrada del universo o poblacin de datos total. Y estamos pensando en el universo o poblacin que tendramos si se hubieran extrado y analizado las 100000 muestras de material. Muchas veces resulta difcil imaginarse cual es el universo del cual extrajimos los datos. Supongamos que tenemos una mquina que produce piezas de plstico en serie y un tcnico toma 5 piezas sucesivas y les mide la altura con un calibre. Tenemos, entonces, 5 resultados, es decir una muestra de 5 elementos. Cul es el universo al cual pertenece esa muestra de datos?. Debemos imaginar lo siguiente: Si la mquina continuara trabajando en las mismas condiciones (Es decir, a la misma velocidad, con las mismas materias primas, a la misma temperatura, manejada por el mismo operario, etc.) ...y a cada pieza que produce se le mide la altura tendramos un conjunto muy grande de resultados numricos. Ese conjunto muy grande de resultados numricos que no existe, pero que podra obtenerse en esas condiciones es el universo o poblacin del cual extrajimos la muestra de 5 observaciones. Veamos otro ejemplo. Supongamos que el sindicato de la industria textil desea saber cual es el sueldo promedio que gana un operario en esa industria. Entonces, encarga una encuesta a una empresa especializada, que entrevista a 20 operarios de la industria textil y averigua sus salarios.

Estos datos son una muestra de 20 observaciones del universo o poblacin formado por los salarios de todos los operarios de la industria textil del pas. Aunque el encuestador no disponga de esos datos, sabemos que existen miles de operarios que ganan un salario determinado y por lo tanto podemos hablar de un universo o poblacin cuyos elementos son los salarios de los operarios de la industria textil en el pas. Adems, esa poblacin de datos es seguramente diferente de la poblacin de salarios de los operarios de la industria textil chilena o brasilea (Usando una misma moneda de referencia). Qu representa una Poblacin de datos? El anlisis estadstico de una poblacin o universo de datos tiene como objetivo final descubrir las

caractersticas y propiedades de aquello que gener los datos. Por ejemplo, se tiene una poblacin de escolares (Poblacin fsica, poblacin humana) y se les mide la altura. El conjunto de datos de altura constituye una poblacin o universo estadstico. El anlisis de estos datos de altura (Universo estadstico) sirve para caracterizar y estudiar a la poblacin de estudiantes (Que no es una Poblacin estadstica). Supongamos que un instituto dedicado a estudios econmicos ha realizado una encuesta de ingresos en el pas. El universo de datos generados por la encuesta sirve a los fines de caracterizar a la poblacin fsica, a la poblacin real del pas, desde un punto de vista econmico.

Un ingeniero controla un proceso industrial, que genera a diario muchos lotes de un producto (Poblacin de lotes). Para cada lote se mide una caracterstica de calidad, obtenindose una gran cantidad de resultados numricos (Poblacin de datos).

El ingeniero realiza esta tarea no porque est interesado en jugar con nmeros, sino porque a travs de los datos numricos obtenidos se puede evaluar el comportamiento del proceso, que es lo que realmente le interesa. Entonces, es importante destacar que detrs de un universo o poblacin de datos se encuentra una poblacin fsica subyacente, formada por elementos de la realidad que nos rodea, de la cual, a travs de algn tipo de medicin, se obtuvieron los datos numricos. Es esa poblacin fsica subyacente (Elementos de la realidad, seres humanos, lotes de material, etc.) la que deseamos estudiar y caracterizar por medio del anlisis estadstico de los datos obtenidos. La poblacin estadstica est representando, entonces, una poblacin fsica o natural formada por elementos de la realidad, con respecto a una caracterstica o propiedad de esa poblacin fsica. Es muy importante, al utilizar mtodos estadsticos, no confundir la poblacin fsica, formada por elementos de la realidad que estamos estudiando, con la poblacin o universo de datos generados a partir de la primera. De aqu en adelante, cuando utilicemos los trminos poblacin o universo sin otro aditamento nos estaremos refiriendo a poblacin o universo de datos numricos (Tambin llamados observaciones o mediciones o valores). La Distribucin de Frecuencias Vimos que una Poblacin o Universo de datos es un conjunto muy grande de nmeros. Estos nmeros pueden estar en un gran listado o puede ser un conjunto hipottico, es decir, podemos imaginar los nmeros pero no los tenemos realmente. Una gran tabla de nmeros ordenados al azar prcticamente no nos muestra informacin acerca de la poblacin de datos. Suponiendo que disponemos de los datos del universo, cmo podemos clasificar y ordenar los nmeros para obtener ms informacin acerca de ese universo de datos?

Una forma sera escribir los nmeros desde el menor hasta el mayor y colocar encima de cada uno tantas cruces o cuadraditos como veces que figure repetido en la poblacin:

El nmero de veces que aparece repetido cada dato es la frecuencia de dicho valor. La representacin grfica que hemos visto se denomina Distribucin de Frecuencias de la poblacin. La representacin grfica nos permite ver informacin que antes no apareca tan evidente. Por ejemplo, sin hacer ningn clculo nos damos cuenta donde est aproximadamente el promedio de la poblacin:

Tambin nos muestra cuales son los valores mximo y mnimo de la poblacin, es decir, el rango:

En el caso anterior, los datos de la poblacin son nmeros enteros. Cuando los nmeros no son enteros o cuando tenemos un nmero muy grande de datos, se divide el rango total en subintervalos y se cuenta el nmero de valores que cae dentro de cada subintervalo. Vamos a suponer, ahora, que tenemos una cierta poblacin de N = 500 datos, por ejemplo el peso de varones adultos de 40 aos. Una manera de caracterizar esta poblacin es construir una distribucin de frecuencias o grfico de frecuencias. Para ello seguimos los pasos siguientes: 1) Tomamos nota del valor mximo y el valor mnimo de la serie de datos que estamos considerando. 2)Subdividimos el intervalo entre el mximo y el mnimo en algn nmero de intervalos (15 20) mas pequeos iguales entre s. 3) Contamos el nmero de datos que encontramos dentro de cada intervalo (Frecuencia). Por ejemplo, supongamos que en el intervalo i hay ni observaciones (S ni = N). 4)Para construir el grfico, colocamos en el eje de abcisas (Horizontal) los intervalos y levantamos en cada intervalo un rectngulo de altura proporcional al nmero ni de datos dentro del mismo. Si hacemos el rea del rectngulo levantado sobre el intervalo isimo igual a la frecuencia relativa ni/N, el rea total bajo el histograma ser igual a la unidad:

Obtenemos as una representacin grfica (Llamada tambin histograma) que nos muestra la distribucin de frecuencias de la poblacin:

Esta distribucin de frecuencias nos muestra las caractersticas de una poblacin, por ejemplo, si hay resultados que son mas frecuentes que otros. Nos muestra si los valores estn ubicados alrededor de un valor central, si estn muy dispersos o poco dispersos. Podemos observar que fraccin de todas las mediciones cae por ejemplo, entre 70 y 80 Kg. (Zona rayada en el grfico):

Si elegimos una persona del grupo y la pesamos, el resultado es un dato que pertenece a la poblacin de datos representada en el grfico. Decimos, entonces, que estamos extrayendo un dato de la poblacin de datos. Pero hay distintas maneras de elegir la persona, es decir, distintas maneras de realizar la extraccin del dato. Si nos paramos frente al grupo y elegimos una persona, estaremos seleccionando al ms gordo, al ms flaco o al ms alto (y por lo tanto pesa ms que otros), de acuerdo a criterios subjetivos que no podemos evitar.

En cambio, si escribimos los nombres de todas las personas en una etiqueta, metemos todas las etiquetas en una caja y luego le pedimos a alguien que retire una etiqueta, la seleccin no estar influda por nuestra subjetividad. En este caso, decimos que la extraccin es aleatoria.

Una extraccin aleatoria es aquella en que cada miembro de la poblacin tiene la misma posibilidad de ser elegido. Supongamos que realizamos una extraccin aleatoria de la poblacin antedicha y obtenemos el valor y. Entonces: 1) La probabilidad P(y<70) de que y sea menor que 70 Kg. es igual al rea del histograma a la izquierda de 70 Kg. 2) La probabilidad P(y>70) de que y sea mayor que 70 Kg. es igual al rea del histograma a la derecha de 70 Kg. 3) La probabilidad P(y>70, y<80) de que y sea mayor que 70 Kg. pero menor que 80 Kg. es igual al rea del histograma entre 70 y 80 Kg.

Medidas de Tendencia Central


Medidas de Tendencia Central Una caracterstica importante de cualquier poblacin es su posicin, es decir, donde est situada con respecto al eje de abscisas (Eje horizontal). En nuestro caso, es importante saber si los datos se agrupan alrededor de 60 Kg. o de 90 Kg. o alrededor de 12 Kg. Una manera de obtener un dato numrico que nos d idea de la posicin de nuestra poblacin es calcular el Promedio o Media de todas las observaciones:

Este importante parmetro nos permite efectuar comparaciones entre distintas poblaciones. Por ejemplo, si tuviramos una poblacin formada por mediciones del peso de mujeres de 30 aos, otra de peso de varones de 40 aos y una tercera de peso de nios de 8 aos, es indudable que los promedios van a ser diferentes. El promedio, entonces, nos est diciendo que las tres poblaciones son diferentes y tambin en que medida difieren. Ahora, si tuviramos una poblacin de varones con peso promedio 70 Kg. y otra poblacin de varones con el mismo promedio, se puede afirmar que ambas poblaciones son equivalentes? Para responder esta pregunta necesitamos tener medidas de la dispersin de la poblacin de datos. Medidas de Dispersin La otra caracterstica muy importante de una poblacin es el grado de dispersin de las observaciones. No es lo mismo si en nuestra poblacin encontramos que todos los valores estn entre 75 y 90 Kg. que si estn entre 60 y 105 Kg., aunque el promedio sea el mismo. Si llegara a la tierra un marciano y le dijramos que el peso promedio de los seres humanos adultos es de 70 Kg., puede llegar a creer que existen hombres de 350 Kg., o de 5 Kg.

Es necesario agregar alguna idea de la dispersin de los valores. Una manera es a travs del Rango de las observaciones, es decir, el valor Mximo y el valor Mnimo de los datos de la poblacin. Entonces, una descripcin mas realista acerca de los seres humanos sera decir que

pesan en promedio 70 Kg. y que el rango es de 40 a 120 Kg. (Estos valores son supuestos). Una manera mas precisa de dar idea de la dispersin de valores de una poblacin es a travs de la Varianza o su raz cuadrada, que es la Desviacin Standard. Vamos a calcular la varianza y la desviacin standard de un nmero pequeo de datos (Una muestra) para ilustrar el clculo. Supongamos que se midi la altura de 10 personas adultas y de sexo femenino,

y se obtuvieron los valores siguientes: 165 cm. 163 cm. 171 cm. 156 cm. 162 cm. 159 cm. 162 cm. 168 cm. 159 cm. 167 cm. El promedio de estas observaciones es:

Si a cada una de las observaciones le restamos el promedio, obtenemos los Residuos:

165 163 171 156 162 159 162 168 159 167

1,8 -0,2 7,8 -7,2 -1,2 -4,2 -1,2 4,8 -4,2 3,8

Los residuos tambin nos dan una idea de la dispersin de las observaciones individuales alrededor del promedio. Si el valor absoluto (El valor numrico sin el signo) de los residuos es grande, es porque los valores estn muy dispersos. Si el valor absoluto de los residuos es pequeo, significa que las observaciones individuales estn muy cerca del promedio, y por lo tanto, hay poca dispersin. Pero nosotros necesitamos un slo nmero que nos provea informacin acerca de la dispersin de los valores. Si sumamos los residuos, como algunos son positivos y otros negativos, se cancelaran entre s, con lo cual perdemos la informacin acerca de la dispersin. Entonces, los elevamos al cuadrado:

165 163 171 156 162 159 162 168

1,8 -0,2 7,8 -7,2 -1,2 -4,2 -1,2 4,8

3,24 0,04 60,84 51,84 1,44 17,64 1,44 23,04

159 167

-4,2 3,8

17,64 14,44

Si ahora sumamos los residuos elevados al cuadrado, tenemos un nmero donde se condensa toda la informacin de la dispersin de la poblacin:

Este nmero, la suma de cuadrados, es dependiente del nmero de datos N, y por lo tanto no nos sirve para comparar poblaciones con distinto nmero de observaciones. Pero si dividimos la suma de cuadrados por N, tenemos un nmero que es independiente del nmero de observaciones, que se denomina Varianza:

En nuestro caso:

Las frmulas anteriores son las que se aplican al clculo de la varianza y desviacin standard de una poblacin de datos. Mas adelante veremos que las frmulas a aplicar en el caso de una muestra son ligeramente diferentes. La varianza es un nmero que nos permite comparar poblaciones. Cuando la dispersin de las observaciones es grande (Datos que se alejan mucho por encima y por debajo del promedio), el valor de los residuos (distancia entre cada dato y el promedio) ser grande. Entonces aumenta la suma de cuadrados de los residuos y por lo tanto la varianza. Tambin se utiliza la raz cuadrada de la varianza:

Por lo tanto:

La desviacin standard o desviacin tpica tiene las mismas unidades que la variable con la que estamos trabajando, en nuestro caso el centmetro. Tanto la varianza como la desviacin standard nos permiten comparar el grado de dispersin de distintas poblaciones. Media y Varianza de una Muestra Hasta ahora hemos visto como se calcula la media o promedio de una poblacin y tambin como se calcula la varianza y la desviacin standard de una poblacin o universo de observaciones. Cuando tenemos una muestra (Subconjunto de algunos datos extrados de una poblacin), tambin podemos calcular su media, su varianza y su desviacin standard. Es muy importante distinguir entre la media, varianza y desviacin standard poblacional, de la media, varianza y desviacin standard muestral. La media, varianza y desviacin standard de una poblacin o universo se denominan parmetros de la poblacin y en general se designan con letras griegas: m para la Media, s2 para la Varianza y s para la Desviacin Standard poblacionales. En el caso de una muestra, la media, varianza y desviacin standard se denominan estadsticos y se utilizan letras de nuestro alfabeto:

para la Media s2 s para la Varianza para la Desviacin Standard muestral

El clculo de la varianza y la desviacin standard de una muestra de n observaciones se realiza con una frmula levemente diferente que la ya vista para la varianza y desviacin standard de una poblacin:

En lugar de dividir por n, muestra, dividimos por n Libertad de la muestra. En observaciones, se dice que

el nmero total de observaciones en la 1. Este valor, n - 1, son los Grados de general, cuando tenemos una muestra de n la misma tiene n - 1 grados de libertad.

La media, varianza y desviacin standard de una muestra, en general, no van a coincidir con los mismos parmetros de la poblacin de la

cual se extrajo la muestra (Aunque usemos la misma frmula para calcular la varianza muestral y poblacional). Si extraemos n muestras de una poblacin, vamos a obtener n promedios muestrales distintos del promedio de la poblacin y n varianzas muestrales distintas de la varianza de la poblacin. Esto se debe a que una poblacin o universo tienen un nmero muy grande de datos, mientras que una muestra son slo algunos pocos datos extrados de ese universo. Cuando sacamos una segunda, tercera, ... etc. muestras, los datos extrados no tienen por que ser los mismos que en la primer muestra. Por lo tanto, el promedio y la varianza de las muestras van a ser distintos para las distintas muestras, y distintos de la media y la varianza de la poblacin de la cual se extrajeron las muestras. Muestreo Aleatorio En general, no es posible disponer de todas las observaciones de un universo o poblacin, ya sea porque es un universo hipottico o porque el relevamiento de todos los datos resulta una tarea excesiva para nuestras posibilidades. Normalmente se dispone de una muestra de datos extrados de un universo, y lo que se pretende es estimar (Conocer de manera aproximada) los parmetros del universo por medio de clculos realizados sobre la muestra. En este sentido decimos que la media muestral es una estimacin de la media del universo, y que la varianza y desviacin standard muestrales son estimaciones de la varianza y desviacin standard poblacionales respectivamente. Veamos algunos ejemplos. Supongamos que un partido poltico necesita averiguar la cantidad de personas que estn dispuestas a votar por su candidato. Entonces, encarga a una empresa la realizacin de una encuesta el da previo a las elecciones. El encargado de la encuesta podra pensar en consultar la intencin de voto de toda la poblacin de votantes (Mas de 18 millones en la Argentina). Esto, obviamente, es una tarea excesiva que por distintas razones no se puede realizar. Entonces, el camino que resta es tomar una muestra representativa de esa poblacin de personas y consultar la intencin de voto en esa muestra. Los resultados que se obtengan son solamente una estimacin del resultado que se hubiera obtenido si la consulta se hubiera efectuado sobre toda la poblacin de votantes. Ahora bien, cmo se obtiene una muestra representativa? Para tratar de entenderlo, vamos a trabajar con una poblacin de muy pocos datos. Supongamos que nuestra poblacin son 10 bolillas con los siguientes nmeros:

Si ordenamos las bolillas de menor a mayor:

Inmediatamente comprobamos que nuestra poblacin consta de 6 dos, 2 cincos y 2 nueves: Dato 2 5 9 Frecuencia 6 2 2

El promedio de la poblacin es 4. Supongamos que queremos obtener una muestra de 5 elementos de esa poblacin. Hay varias maneras de hacerlo. Supongamos que puedo ver los nmeros y elijo 2, 2, 2, 2 y 5 porque me gustan esos nmeros. El promedio de estos 5 nmeros extrados de la poblacin es 2,6 que difiere sustancialmente del promedio de la poblacin.

Es evidente que dicha muestra no es representativa de la poblacin de la que fue extrada. No se mantiene la misma proporcin de cada nmero que existe en la poblacin. Una muestra de 5 elementos en la que hay la misma proporcin de cada dgito debera tener 3 dos, 1 cinco y 1 nueve, y su promedio es 4, el mismo de la poblacin:

En una poblacin de muchos datos, no es posible obtener una muestra eligiendo cada elemento para que figure en la misma proporcin que en la poblacin, porque para ello deberamos disponer de todos los datos de la misma, y en ese caso no sera necesario sacar una muestra. Si a cada elemento de la poblacin se le da la misma oportunidad de ser elegido, entonces se supone que cada nmero estar en la muestra en un nmero proporcional a la cantidad de veces que est en la poblacin. Por ejemplo, el 2 va a estar en la muestra mas veces que el 5, porque en la poblacin hay 6 dos y slo 2 cincos. Si metemos las diez bolillas en una bolsa y las mezclamos suficientemente, la probabilidad que tiene una bolilla individual de ser extrada es la misma para cualquiera de las bolillas. En esas condiciones, si sacamos cinco bolillas sucesivas, mezclndolas previamente en cada oportunidad, es razonable pensar que vamos a extraer el 2 en mas

oportunidades que el 5 el 9. Esta forma de obtener la muestra es lo que se conoce como Muestreo Aleatorio. El muestreo aleatorio no garantiza que la muestra va a ser representativa de la poblacin, pero al eliminar toda influencia externa en el acto de extraer un elemento de la poblacin, la proporcin de cada uno estar influda slo por la cantidad de veces que est presente en la poblacin de la cual se extrae la muestra.

Entonces, realizando el muestreo en forma aleatoria (al azar), la probabilidad de obtener una muestra representativa de la poblacin es mayor que si en la eleccin de los elementos de la muestra interviene la voluntad del que efecta la operacin o algn otro factor de influencia.

Funciones de Distribucin de Probabilidades

Hemos visto como se construye un grfico de frecuencias con datos extrados de una poblacin. A medida que aumentamos la cantidad de observaciones que tomamos de la poblacin, podemos construir nuestro grfico con un nmero mayor de intervalos, aunque de menor amplitud (El rango total cubierto por la poblacin es el mismo).

Si continuamos este proceso, con intervalos cada vez mas estrechos y numerosos, los altibajos en el grfico de la distribucin de frecuencias tienden a desaparecer:

En el lmite, el ancho del intervalo tiende a cero y la poblacin puede representarse por una distribucin de probabilidad continua. Cuando, para representar esta distribucin de probabilidad continua se utiliza una funcin matemtica, esta se denomina Funcin de Densidad de Probabilidad. La forma de la curva en el grfico de la funcin de distribucin es caracterstica de la poblacin de observaciones asociada con la misma, y depende de variables internas del proceso que gener los datos de la poblacin. Existen distintas funciones de distribucin tericas, cada una de las cuales est basada en un modelo de comportamiento del proceso que gener el universo de observaciones. La aplicacin de una de estas

distribuciones tericas a una poblacin particular est justificada si las hiptesis (suposiciones) del modelo de comportamiento del proceso que gener la poblacin se cumplen. Dicho de otro modo, si conocemos el proceso, es decir, el conjunto de fenmenos que dieron lugar a nuestra poblacin de mediciones u observaciones, y adems estamos seguros de que el mismo se ajusta a un modelo de comportamiento determinado, entonces podemos decir que la distribucin de probabilidades de nuestra poblacin es la que corresponde al modelo. En la prctica, se sabe que ciertos procesos y fenmenos generan resultados numricos cuya distribucin de probabilidades se puede ajustar a determinados modelos tericos. Por ejemplo, el nmero de partculas alfa emitidas por un material radiactivo sigue una distribucin de Poisson. Existen muchas otras distribuciones tericas, como la Binomial, la Exponencial, la de Weisbull, etc. Cada una de ellas tiene su propio campo de aplicacin, que se sostiene en un determinado comportamiento de los fenmenos, y al aplicarla se est haciendo en forma implcita la suposicin de que se cumplen las suposiciones del modelo subyacente. La Distribucin Normal Una importante distribucin terica es la Distribucin Normal o de Gauss. La ecuacin matemtica de la funcin de Gauss es la siguiente:

La distribucin normal es una curva con forma de campana, con eje de simetra en el punto correspondiente al promedio del universo m. La distancia entre el eje de simetra de la campana y el punto de inflexin de la curva es igual a s, la desviacin standard de la poblacin:

El rea total debajo de la curva es igual a 1. El rea debajo de la curva comprendida entre m-s y m+s es aproximadamente igual a 0,68 del rea total; entre m-2s y m+2s es aproximadamente igual a 0,95 del rea total:

Es importante ver que los nicos parmetros necesarios para dibujar el grfico de la distribucin normal son m y s (Media y desviacin standard de la poblacin). Con estos dos parmetros sabemos donde situar la campana de Gauss (En el punto correspondiente a la media) y cual es su ancho (Determinado por la desviacin standard). Cuando nos encontramos con una poblacin de observaciones, si podemos afirmar que la distribucin correspondiente es normal, slo hace falta estimar la media y la desviacin standard para tener toda la informacin necesaria acerca de dicha poblacin. La Distribucin Normal Standard Podemos escribir la frmula de la distribucin normal de la siguiente manera:

Si llamamos Z a la cantidad la funcin queda as:

Esta es la frmula de la Distribucin Normal Standard o Tipificada. Como podemos observar, en ella hay un slo parmetro, Z, que incluye al promedio y la desviacin standard de la poblacin. Esta funcin est tabulada, y para ingresar en la tabla es necesario calcular Z, para lo cual necesitamos la media y la desviacin standard de la poblacin. Al calcular Z, lo que estamos haciendo, en realidad, es un cambio de variable por el cual movemos la campana de Gauss centrndola en el 0 del eje X, y modificamos el ancho para que la desviacin standard sea 1:

De esta manera tenemos tabulada una funcin de Gauss que no depende de cual sea el promedio y la desviacin standard de nuestra poblacin real. El cambio de variable hace que se conserve la forma de la funcin y que sirva para cualquier poblacin, siempre y cuando esa poblacin tenga una distribucin normal. Cuando queremos calcular las probabilidades para una poblacin real, calculamos Z y entramos en la tabla de la funcin normal standard:

La Distribucin T de Student

En la generalidad de los casos, no disponemos de la desviacin standard de la poblacin, sino de una estimacin calculada a partir de una muestra extrada de la misma y por lo tanto no podemos calcular Z. En estos casos calculamos el estadstico T:

donde S es la desviacin standard muestral, calculada con n-1 grados de libertad:

Notar que utilizamos S, la Desviacin Standard de una Muestra, en lugar de s, la Desviacin Standard de la Poblacin:

El estadstico T tiene una distribucin que se denomina distribucin T de Student, que est tabulada para 1, 2, 3, ... etc. grados de libertad de la muestra con la cual se calcul la desviacin standard. La distribucin T tiene en cuenta la incertidumbre en la estimacin de la desviacin standard de la poblacin, porque en realidad la tabla de T contiene las distribuciones de probabilidades para distintos grados de libertad:

Para un nmero de grados de libertad pequeo, es mas ancha que la distribucin normal tipificada. Cuando los grados de libertad tienden a infinito, la distribucin T tiende a coincidir con la distribucin normal standard. Es decir, en la medida que aumentemos el nmero de observaciones de la muestra, la desviacin standard calculada estar mas prxima a la desviacin standard de la poblacin y entonces la distribucin T correspondiente se acerca a la distribucin normal standard. El uso de la distribucin T presupone que la poblacin con que estamos trabajando tiene una distribucin normal. Distribucin de Promedios Muestrales Para comprender que significa distribucin de promedios muestrales, vamos a suponer que realizamos un experimento con bolilleros como los usados en la lotera. Colocamos un nmero muy grande de bolillas blancas en un bolillero blanco, en cada una de las cuales figura un dato X. Este bolillero representa la poblacin de observaciones X, y tiene media m y varianza s2. Supongamos que a continuacin hacemos los siguiente: 1) Tomamos una muestra de n=10 bolillas blancas. 2)Calculamos la media y la anotamos en una bolilla azul.

3) Colocamos la bolilla azul en un segundo bolillero de color azul. 4) Devolvemos las bolillas blancas a su bolillero y le damos vueltas.

5)Repetimos toda la operacin muchas veces hasta que el bolillero azul est lleno de bolillas. Entonces, los nmeros del bolillero azul forman una poblacin de promedios muestrales. Esta es una poblacin derivada de la anterior, y tiene la misma media o promedio que la distribucin original, pero su varianza es un ensimo de la varianza de la distribucin original:

En el caso del bolillero azul, si denominamos: a la varianza a la media tenemos:

La distribucin de medias muestrales est situada en el mismo lugar (alrededor de la misma media) que la distribucin original, pero es mucho mas angosta, porque su varianza es la dcima parte de la varianza original. La distribucin original de observaciones representada por el bolillero blanco se denomina comnmente distribucin madre o base. Al construir la poblacin de promedios muestrales, realizbamos extracciones de 10 bolillas blancas despus de dar vueltas al bolillero. Es decir, que estbamos realizando un muestreo aleatorio de la poblacin madre, porque cada una de las bolillas blancas tena la misma posibilidad de ser elegida para integrar la muestra. Aunque la poblacin original no sea de distribucin normal, si el muestreo es aleatorio, la poblacin de promedios muestrales se aproximar a la normalidad, es decir, ser casi de distribucin normal. Este efecto se debe a un teorema de estadstica matemtica denominado Teorema Central del Lmite. En resumen, si se cumple la hiptesis de muestreo aleatorio, tenemos:

Distrib. de x

Distrib. de

Media

Varianza

s2

Desv. Standard Forma de la curva

s cualquiera ms cerca de la Normal

En general, en los problemas que se presentan habitualmente, existe una poblacin de observaciones cualesquiera, de la cual tomamos una muestra aleatoria, por medio de la cual intentamos conocer todo lo que sea posible acerca de la poblacin de la cual fue extrada. El promedio de la muestra de n elementos pertenece a la distribucin de promedios muestrales de la poblacin original. Es decir, que el promedio de la muestra que obtuvimos es uno de los muchos promedios muestrales que se distribuyen alrededor de m con desviacin standard: Por lo tanto, si la muestra es mas grande (n mayor), estaremos en una distribucin de promedios con desviacin standard mas pequea, por lo cual, el promedio de la muestra estar mas cerca del promedio del universo. Es por esto que es razonable pensar que el promedio de la muestra es una estimacin del promedio del universo.

Test de Hiptesis

El contraste de hiptesis o test de hiptesis es una herramienta muy importante y ampliamente utilizada para comparar mediciones y tomar decisiones basadas en una probabilidad. Vamos a explicarlo con un ejemplo. Supongamos que en una huerta se cultivan tomates en un terreno donde hay sembradas 300 plantas de tomates, utilizando un determinado tipo de fertilizante.

El agricultor desea probar un nuevo fertilizante, basndose en la propaganda de una revista de horticultura.

Con este fin, en la siguiente cosecha utiliza el nuevo fertilizante en una de las plantas, en la que obtiene 12,5 Kg. de tomates. Cmo saber si el rendimiento en esta planta fue mejor porque se utiliz un nuevo fertilizante? Indudablemente necesitamos comparar este valor con el rendimiento de las otras plantas en las que se us el fertilizante habitual. Los rendimientos de distintas plantas seguramente fluctan al azar:

...Etc.

Es decir, no tenemos un nico resultado con el fertilizante anterior sino muchos resultados que varan aleatoriamente, y es posible que algunos de esos resultados superen los 12,5 Kg. Se necesita, entonces, un criterio para decidir si el nuevo fertilizante produce una mejora en el rendimiento. Para resolver el problema, necesitamos hacer algunas suposiciones. Primero: El conjunto de resultados de muchas plantas de tomate con el primer fertilizante constituye un universo conceptual de observaciones de distribucin normal. Hablamos de universo conceptual o hipottico porque es el universo o poblacin de resultados que tendramos con un nmero enormemente grande de plantas, con el mismo fertilizante y en las mismas condiciones.

Segundo: Aunque el promedio y la desviacin standard de una poblacin hipottica, en general, no se conoce, el promedio y la desviacin standard calculados con el rendimiento de las 299 plantas restantes, utilizando el fertilizante habitual, constituyen una buena estimacin de la media y desviacin standard del universo. Vamos a suponer, entonces, que conocemos la media y desviacin standard del universo y son los siguientes: m = 10,7 Kg. s = 0,8 Kg. (Estimados con los rendimientos de 299 Plantas)

El nico resultado obtenido con el nuevo fertilizante es 12,5 Kg., lo cual supera el promedio del universo de resultados obtenidos con el fertilizante anterior.

Si bien el promedio es 10,7 Kg., en la poblacin hay resultados ms altos, y tal vez algunos iguales o mayores que 12,5 Kg. Se puede decir, entonces, que el nuevo fertilizante produce mejores resultados? Para tomar la decisin, conviene razonar de la siguiente manera: Si en la poblacin hipottica de resultados obtenidos con el primer fertilizante es comn encontrar valores iguales o mayores que 12,5

Kg., entonces el resultado obtenido con el nuevo fertilizante no tiene nada de excepcional. Afirmamos, entonces, que el nuevo fertilizante es igual que el anterior (No hay diferencia), y que el resultado obtenido se debi solamente a la fluctuacin al azar de los resultados que obtendramos con cualquier fertilizante. Por otro lado, si en la poblacin hipottica de resultados obtenidos con el primer fertilizante es poco comn encontrar un valor como 12,5 Kg., quiere decir que el resultado del nuevo fertilizante s es excepcional (es significativo) y por lo tanto tenemos razones para afirmar que es mejor que el anterior. Esas son las dos hiptesis de valor opuesto que se plantean, una de las cuales es rechazada y la otra aceptada sobre la base de las probabilidades derivadas de la comparacin con la distribucin normal. Formalmente, stas hiptesis son las siguientes: Hiptesis Nula: No hay diferencia entre los fertilizantes (Las diferencias son nulas). El valor obtenido con el nuevo fertilizante se debe slo a la fluctuacin aleatoria de los rendimientos de las plantas. Hiptesis Alternativa: El nuevo fertilizante es mejor que el anterior y por eso el rendimiento de la planta en la que se lo us fue mas alto.

Para decidir entre ambas hiptesis, se calcula el estadstico Z, y se obtiene de la distribucin normal standard la probabilidad de un valor (del estadstico Z) mayor o igual al calculado. Si la probabilidad de un valor igual o mayor que el calculado es mayor que 0,05 se acepta la hiptesis nula a un nivel de significacin de 0,05. Esto quiere decir que hay una probabilidad mayor que 0,05 (mayor que

5 %) de obtener por casualidad (Fluctuacin aleatoria) un valor de Z tan grande como el calculado. Si la probabilidad de un valor igual o mayor que el calculado es menor que 0,05 se rechaza la hiptesis nula a un nivel de significacin de 0,05. Es decir, la probabilidad de obtener en forma aleatoria un valor tan grande de Z es menor que 0,5 (menor que 5 %). En este caso se dice que el resultado obtenido con el nuevo fertilizante es significativo. En nuestro ejemplo:

Entrando en la tabla de la distribucin normal standard, obtenemos que la probabilidad de un Z igual o mayor que 2,25 es P = 0,0122 (1,22 %). Quiere decir, entonces, que es muy poco probable obtener un rendimiento de 12,5 Kg. de tomates con el fertilizante habitual. Rechazamos, entonces, la Hiptesis Nula (Y aceptamos la Hiptesis Alternativa) a un nivel de significacin de 0,05. Ahora bien, para estar totalmente seguro y antes de invertir dinero en comprar una cantidad importante del fertilizante, el agricultor decide hacer una nueva prueba, y en la cosecha siguiente utiliza el nuevo producto en 10 plantas de tomate, con lo cual la prueba es mas segura. Las hiptesis a contrastar son las mismas, pero el clculo es algo diferente. Ahora tenemos 10 resultados, cuyo promedio vamos a suponer que sea 11,5 Kg. Estos 10 resultados constituyen una muestra del universo de rendimientos individuales de las plantas. Pero el promedio 11,5 Kg. es un elemento del universo de promedios muestrales (Promedios de 10 resultados) derivado del universo anterior, con el mismo promedio que este y con desviacin standard:

como ya hemos visto. El estadstico Z es, entonces:

En la tabla de la distribucin normal standard, la probabilidad de un Z igual o mayor que 3,16 es P = 0,0008 (0,08 %) aproximadamente. La probabilidad, entonces, de obtener un rendimiento promedio en 10

plantas de 11,5 Kg. de tomates con el fertilizante habitual es prcticamente nula. Rechazamos, entonces la Hiptesis Nula (Y aceptamos la Hiptesis Alternativa) a un nivel de significacin de 0,0008. El nivel de confianza en las bondades del nuevo fertilizante, ahora, es mayor.

La Distribucin Binomial

Una persona arroja 1 dado apostando con otro a que saca un as. La probabilidad de sacar el as es igual a:

Es decir que la probabilidad que tiene de acertar es 17 % aproximadamente. Ahora, supongamos que la persona arroja 5 dados iguales a la vez. Cul es la probabilidad de que saque 0, 1, 2, 3... ases?.

Cuando realizamos una experiencia individual donde el resultado debe ser slo uno de dos posibles: acierto/fallo, cara/ceca, etc. decimos que es un ensayo de Bernouilli. Es tan probable sacar 1 2 ases como sacar 5 ases?. A priori parecera que no. En nuestro caso, cada vez que arrojamos un dado podemos definir nuestro experimento registrando slo dos resultados posibles:

Cada acto individual de arrojar un dado es independiente de los otros y la probabilidad de obtener un as es:

Y la probabilidad de obtener cualquier otro resultado que no sea un as es:

Entonces, cuando arrojamos 5 dados, la probabilidad de obtener 5 ases es:

La probabilidad de no tener ningn as (0 ases) tambin podemos calcularla, porque al arrojar un slo dado, la probabilidad de que no salga un as es:

Y la probabilidad de no obtener ningn As en los 5 dados arrojados es:

Nos falta calcular las probabilidades intermedias, es decir la probabilidad de obtener 1, 2, 3...ases. Es posible calcular todas estas probabilidades con una frmula binomial. Cul es la probabilidad de sacar 1 As al arrojar 5 dados? Por ejemplo, una forma es que salga un As en el primer dado:

La probabilidad de sacar 1 As en el primer dado y no sacar As en los otros cuatro es:

Pero hay 5 formas diferentes de obtener 1 As en cinco dados arrojados:

Por lo tanto, la probabilidad de sacar 1 As al arrojar 5 dados es:

Para calcular la probabilidad de obtener 1 As en cinco dados arrojados debemos calcular: 1-La probabilidad de que en cinco dados arrojados uno de ellos sea un As y los otros cuatro no sean As. 2-El nmero de combinaciones diferentes en que se puede dar esa situacin: un As en cinco dados. Hemos visto como hacer lo primero:

Y sabemos que hay cinco maneras diferentes de obtener un As en cinco dados arrojados:

Cmo podemos generalizar el clculo de las distintas formas de obtener 1 As, 2 Ases, etc. en cinco dados arrojados? La respuesta la dan los nmeros combinatorios:

donde

son el factorial de m y de n respectivamente. La expresin representa el nmero de combinaciones de m elementos tomados de a n (agrupados de a n). Por ejemplo, si tenemos las 5 letras A, B, C, D y E, y queremos saber cuantas son todas las combinaciones posibles agrupndolas de a tres en cualquier orden: ABC, ADC, ...etc., hacemos el clculo siguiente:

Supongamos que se realizan n ensayos de Bernoulli, con probabilidad p de tener un acierto (Probabilidad 1-p de tener un fallo). Entonces, la probabilidad de obtener y aciertos en n ensayos de Bernouilli es:

Esta probabilidad es un trmino del binomio siguiente:

donde

Los trminos de la suma son las probabilidades P(y), que determinan la distribucin de probabilidades de la variable aleatoria y, la cual es una variable discreta (toma los valores 0, 1, 2, ...etc.). Aplicando la frmula al caso de 5 dados:

La probabilidad de no sacar ningn As es:

La probabilidad de obtener 1 As:

La probabilidad de obtener 2 Ases:

La probabilidad de obtener 3 Ases:

La probabilidad de obtener 4 Ases:

Y la probabilidad de obtener 5 Ases:

Resumiendo en una tabla:

Cul es el promedio de la variable aleatoria Y ? La media de la variable aleatoria Y es:

La varianza de Y es:

Y entonces la desviacin standard resulta:

En la experiencia de arrojar 5 dados:

Cmo interpretamos este resultado? Si bien el promedio resulta un valor fraccionario, nos est diciendo que al arrojar los cinco dados estaremos ms cerca de sacar 1 As que de sacar 2 o ms ases. De una manera ms rigurosa, ese valor nos dice que si se repitiera la experiencia muchas veces, el promedio del nmero de ases que se obtendra en todos los experimentos sera igual a 0.83 La varianza de Y resulta:

Y la desviacin standard:

Volvamos, ahora a nuestro apostador. Supongamos que arroja 5 dados y apuesta a que va a sacar 3 o ms ases. Cul es la probabilidad que tiene de ganar? Esta probabilidad es la suma de los trminos del binomio para 3, 4 y 5 aciertos (ases), es decir:

Quiere decir que la probabilidad de ganar es aproximadamente del 3,5 %.

Grficos de Control

Los grficos de control o cartas de control son una importante herramienta utilizada en control de calidad de procesos. Bsicamente, una Carta de Control es un grfico en el cual se representan los valores de algn tipo de medicin realizada durante el funcionamiento de un proceso contnuo, y que sirve para controlar dicho proceso.

Vamos a tratar de entenderlo con un ejemplo. Supongamos que tenemos una mquina inyectora que produce piezas de plstico, por ejemplo de PVC. Una caracterstica de calidad importante es el peso de la pieza de plstico, porque indica la cantidad de PVC que la mquina inyect en la matriz. Si la cantidad de PVC es poca la pieza de plstico ser deficiente; si la cantidad es excesiva, la produccin se encarece porque se consume ms materia prima.

Entonces, en el lugar de salida de las piezas, hay un operario que cada 30 minutos toma una, la pesa en una balanza y registra la observacin:

etc... Supongamos que estos datos se registran en un grfico de lneas en funcin del tiempo:

Observamos una lnea quebrada irregular, que nos muestra las fluctuaciones del peso de las piezas a lo largo del tiempo. Esta es la fluctuacin esperable y natural del proceso. Los valores se mueven alrededor de un valor central (El promedio de los datos), la mayor parte del tiempo cerca del mismo. Pero en algn momento puede ocurrir que aparezca uno o ms valores demasiado alejados del promedio. Cmo podemos distinguir si esto se produce por la fluctuacin natural del proceso o porque el mismo ya no est funcionando bien? Esta es la respuesta que provee el control estadstico de procesos, y a continuacin veremos como lo hace. Todo proceso de fabricacin funciona bajo ciertas condiciones o variables que son establecidas por las personas que lo manejan para lograr una produccin satisfactoria.

Cada uno de estos factores est sujeto a variaciones que realizan aportes ms o menos significativos a la fluctuacin de las caractersticas del producto, durante el proceso de fabricacin. Los responsables del funcionamiento del proceso de fabricacin fijan los valores de algunas de estas variables, que se denominan variables controlables. Por ejemplo, en el caso de la inyectora se fija la temperatura de fusin del plstico, la velocidad de trabajo, la presin del pistn, la materia prima que se utiliza (Proveedor del plstico), etc. Pero un proceso de fabricacin es una suma compleja de eventos grandes y pequeos. Hay una gran cantidad de variables que sera imposible o muy difcil controlar. Estas se denominan variables no controlables. Por ejemplo, pequeas variaciones de calidad del plstico, pequeos cambios en la velocidad del pistn, ligeras fluctuaciones de la corriente elctrica que alimenta la mquina, etc. Los efectos que producen las variables no controlables son aleatorios. Adems, la contribucin de cada una de las variables no controlables a la variabilidad total es cuantitativamente pequea. Son las variables no controlables las responsables de la variabilidad de las caractersticas de calidad del producto. Los cambios en las variables controlables se denominan Causas Asignables de variacin del proceso, porque es posible identificarlas. Las fluctuaciones al azar de la variables no controlables se denominan Causas No Asignables de variacin del proceso, porque no son pasibles de ser identificadas. Causas Asignables: Son causas que pueden ser identificadas y que conviene descubrir y eliminar, por ejemplo, una falla de la mquina por desgaste de una pieza, un cambio muy notorio en la calidad del plstico, etc. Estas causas provocan que el proceso no funcione como se desea y por lo tanto es necesario eliminar la causa, y retornar el proceso a un funcionamiento correcto. Causas No Asignables: Son una multitud de causas no identificadas, ya sea por falta de medios tcnicos o porque no es econmico hacerlo,

cada una de las cuales ejerce un pequeo efecto en la variacin total. Son inherentes al proceso mismo y no pueden ser reducidas o eliminadas a menos que se modifique el proceso. Cuando el proceso trabaja afectado solamente por un sistema constante de variables aleatorias no controlables (Causas no asignables) se dice que est funcionando bajo Control Estadstico. Cuando, adems de las causas no asignables, aparece una o varias causas asignables, se dice que el proceso est fuera de control. El uso del control estadstico de procesos lleva implcitas algunas hiptesis que describiremos a continuacin: 1)Una vez que el proceso est en funcionamiento bajo condiciones establecidas, se supone que la variabilidad de los resultados en la medicin de una caracterstica de calidad del producto se debe slo a un sistema de causas aleatorias, que es inherente a cada proceso en particular. 2) El sistema de causas aleatorias que acta sobre el proceso genera un universo hipottico de observaciones (mediciones) que tiene una Distribucin Normal. 3) Cuando aparece alguna causa asignable provocando desviaciones adicionales en los resultados del proceso, se dice que el proceso est fuera de control. La funcin del control estadstico de procesos es comprobar en forma permanente si los resultados que van surgiendo de las mediciones estn de acuerdo con las dos primeras hiptesis. Si aparecen uno o varios resultados que contradicen o se oponen a las mismas, es necesario detener el proceso, encontrar las causas por las cuales el proceso se apart de su funcionamiento habitual y corregirlas. Control Estadstico...Cmo ponerlo en marcha? La puesta en marcha de un programa de control estadstico para un proceso en particular implica dos etapas:

Antes de pasar a la segunda etapa, se verifica si el proceso est ajustado. En caso contrario, se retorna a la primera etapa:

En la 1a etapa se recogen unas 100-200 mediciones, con las cuales se calcula el promedio y la desviacin standard:

Luego se calculan los Lmites de Control de la siguiente manera:

Estos lmites surgen de la hiptesis de que la distribucin de las observaciones es normal. En general se utilizan lmites de 2 sigmas de 3 sigmas alrededor del promedio. En la distribucin normal, el intervalo de 3,09 sigmas alrededor del promedio corresponde a una probabilidad de 0,998.

Entonces, se construye un grfico de prueba y se traza una lnea recta a lo largo del eje de ordenadas (Eje Y), a la altura del promedio (Valor central de las observaciones) y otras dos lneas rectas a la altura de los lmites de control:

En este grfico se representan los puntos correspondientes a las observaciones con las que se calcularon los lmites de control:

Este grfico de prueba se analiza detenidamente para verificar si est de acuerdo con la hiptesis de que la variabilidad del proceso se debe slo a un sistema de causas aleatorias o si, por el contrario, existen causas asignables de variacin. Esto se puede establecer porque cuando la fluctuacin de las mediciones se debe a un sistema constante de causas aleatorias la distribucin de las observaciones es normal:

Cuando las observaciones sucesivas tienen una distribucin normal, la mayor parte de los puntos se sita muy cerca del promedio, algunos pocos se alejan algo ms y prcticamente no hay ninguno en las zonas ms alejadas:

Es difcil decir como es el grfico de un conjunto de puntos que siguen un patrn aleatorio de distribucin normal, pero s es fcil darse cuenta cuando no lo es. Veamos algunos ejemplos de patrones No Aleatorios: Una sucesin de puntos por encima ...

... o por debajo de la lnea central.

Una serie creciente de 6 7 observaciones...

.. o una serie decreciente.

Si no se descubren causas asignables entonces se adoptan los lmites de control calculados como definitivos, y se construyen cartas de control con esos lmites:

Si slo hay pocos puntos fuera de control (2 3), estos se eliminan, se recalculan la media, desviacin standard y lmites de control con los restantes, y se construye un nuevo grfico de prueba. Cuando las observaciones no siguen un patrn aleatorio, indicando la existencia de causas asignables, se hace necesario investigar para descubrirlas y eliminarlas. Una vez hecho esto, se debern recoger nuevas observaciones y calcular nuevos lmites de control de prueba, comenzando otra vez con la primera etapa. En la 2a etapa, las nuevas observaciones que van surgiendo del proceso se representan en el grfico, y se controlan verificando que estn dentro de los lmites, y que no se produzcan patrones no aleatorios:

Como hemos visto, el 99,8 % de las observaciones deben estar dentro de los lmites de 3,09 sigmas alrededor de la media. Esto significa que slo 1 observacin en 500 puede estar por causas aleatorias fuera de los lmites de control. Entonces, cuando se encuentra ms de 1 punto en 500 fuera de los lmites de control, esto indica que el sistema de causas aleatorias que provocaba la variabilidad habitual de las observaciones ha sido alterado por la aparicin de una causa asignable que es necesario descubrir y eliminar.

En ese caso, el supervisor del proceso debe detener la marcha del mismo e investigar con los que operan el proceso hasta descubrir la o las causas que desviaron al proceso de su comportamiento habitual. Una vez eliminadas las causas del problema, se puede continuar con la produccin normal.

Grficos X-R

Los grficos X-R se utilizan cuando la caracterstica de calidad que se desea controlar es una variable continua.

Para entender los grficos X-R, es necesario conocer el concepto de Subgrupos (o Subgrupos racionales). Trabajar con subgrupos significa agrupar las mediciones que se obtienen de un proceso, de acuerdo a algn criterio. Los subgrupos se realizan agrupando las mediciones de tal modo que haya la mxima variabilidad entre subgrupos y la mnima variabilidad dentro de cada subgrupo. Por ejemplo, si hay cuatro turnos de trabajo en un da, las mediciones de cada turno podran constituir un subgrupo. Supongamos una fbrica que produce piezas cilndricas para la industria automotriz. La caracterstica de calidad que se desea controlar es el dimetro de las piezas.

Hay dos maneras de obtener los subgrupos. Una de ellas es retirar varias piezas juntas a intervalos regulares, por ejemplo cada hora:

La otra forma es retirar piezas individuales a lo largo del intervalo de tiempo correspondiente al subgrupo:

.....Etc. Por cualquiera de los dos caminos, obtenemos grupos de igual nmero de mediciones. Para cada subgrupo calculamos el Promedio y el Rango (Diferencia entre el valor mximo y el valor mnimo).

Como ya se ha visto, para calcular los Lmites de Control es necesario obtener un gran nmero de mediciones, divididas en subgrupos. En nuestro ejemplo, podramos obtener 30 subgrupos de 6 datos cada uno:

Despus de calcular el Promedio y el Rango de cada subgrupo, tendramos una tabla como la siguiente:

A partir de esta tabla, se calculan el promedio general de promedios de subgrupo y el promedio de rangos de subgrupo:

Promedio de Subgrupo N Nmero de Subgrupos

o tambin:

Mediciones individuales N n Nmero de Subgrupos Nmero de mediciones dentro del Subgrupo

Rango del Subgrupo La desviacin standard del proceso se puede calcular a partir del rango promedio, utilizando el coeficiente d2, que depende del nmero de mediciones en el subgrupo:

Con esto podemos calcular los Lmites de Control para el grfico de X:

La desviacin standard del rango se puede calcular utilizando el coeficiente d3, que tambin depende del nmero de mediciones en el subgrupo:

Y as podemos calcular los Lmites de Control para el Grfico de R:

La tabla siguiente muestra los coeficientes d2 y d3 para subgrupos de hasta 10 mediciones:

Construmos entonces un Grfico X de prueba y representamos los promedios de los subgrupos:

Y un Grfico R de prueba, donde representamos los rangos de los subgrupos:

Si no hay puntos fuera de los lmites de control y no se encuentran patrones no aleatorios, se adoptan los lmites calculados para controlar la produccin futura.

Grficos np

Muchas caractersticas de calidad se evalan dando resultados como: conforme o disconforme, defectuoso o no defectuoso. Estas caractersticas de calidad se conocen como atributos. Supongamos un proceso que fabrica tornillos. Una manera de ensayar cada tornillo sera probarlo con una rosca calibrada.

El resultado de este ensayo slo tiene dos posibles resultados: Defectuoso-No Defectuoso ( Conforme-Disconforme ).

Si el tornillo no entra en la rosca, se lo considera defectuoso o disconforme.

Para controlar este proceso, se puede tomar una muestra de tornillos y contar el nmero de defectuosos presentes en la muestra.

La variable aleatoria nmero de defectuosos es una variable aleatoria discreta, porque puede tomar un nmero finito de valores, o infinito numerable. Los grficos np se utilizan para controlar el nmero de defectuosos en una muestra. Entonces, para controlar este proceso, un inspector se coloca al final de la lnea de produccin y cada hora retira una muestra de n=50 tornillos (por ejemplo), comprueba cada uno con la rosca y anota el nmero de defectuosos.

Este resultado se anota en un grfico hora por hora y se denomina grfico np. Si se tomara del proceso un slo tornillo Cul es la probabilidad de que sea defectuoso? Imaginando la poblacin de tornillos que podra fabricar el proceso trabajando siempre en las mismas condiciones, una cierta proporcin p de estos seran defectuosos. Entonces, la probabilidad de tomar un tornillo y que sea defectuoso es p. En una muestra de n tornillos, la probabilidad de encontrar: 0 defectuosos 1 defectuoso 2 defectuosos ... n defectuosos

est dada por una distribucin binomial con parmetros n y p. Como sabemos, el promedio de la poblacin es p y la varianza es n.p.(1-p). Para construir los grficos de control np, en una primera etapa se toman N muestras (ms de 20 25) a intervalos regulares, cada una con n tornillos. Se cuenta en cada muestra el Nmero de Defectuosos y se registra. Se obtendra una Tabla como la siguiente: N Defectuosos 3 2 4 3 4 2 5 -

Muestra 1 2 3 4 5 6 7 -

En cada muestra, la fraccin de defectuosos es:

N Defectuosos en muestra i n N elementos en la muestra

Entonces, a partir de la tabla podemos calcular p como promedio de las fracciones de defectuosos en las muestras:

N muestras

y luego la Desviacin Standard s:

Con esto podemos calcular los Lmites de Control para el grfico np:

Construmos entonces un Grfico np de prueba y representamos el nmero de defectuosos en las muestras:

Si no hay puntos fuera de los lmites de control y no se encuentran patrones no aleatorios, se adoptan los lmites calculados para controlar la produccin futura.

La Distribucin de Poisson Para entender la Distribucin de Poisson, vamos analizar un ejemplo detenidamente. Supongamos que se tiene una tabla rectangular de madera, de 1 metro por 1 metro, pintada con un recubrimiento sobre cuya superficie se presentan aleatoriamente pequeos defectos. Estos defectos podran ser por ejemplo partculas muy pequeas de pigmento que no fueron bien molidas al fabricar la pintura. Se desea calcular la probabilidad de que aparezcan estos defectos:

Podramos subdividir la superficie en zonas rectangulares mas pequeas y de igual tamao:

Ahora tenemos la superficie dividida en 4 zonas rectangulares de igual tamao. Observamos que en algunas zonas aparece un defecto superficial y en otras no. Vamos a hacer las siguientes suposiciones: 1) En cada zona slo puede aparecer 1 defecto.

2) Si la probabilidad de que aparezca un defecto en todo el rea es p, la probabilidad de que aparezca un defecto en una zona es p/4. Entonces, utilizando la Distribucin Binomial podemos calcular la probabilidad de que en nuestra superficie aparezcan 0, 1, 2, 3, 4 defectos:

El promedio de defectos en la superficie total ser:

Pero sabemos que en realidad en cada zona podran aparecer ms de 1 defecto. Esto hace inexacto nuestro clculo.

Podramos hacer el clculo ms exacto si subdividimos las zonas:

Dividimos cada zona en 4 y ahora tenemos 16 zonas. La probabilidad de tener 1 defecto en una zona es:

Podemos entonces calcular la probabilidad de tener 0, 1, 2, 3, ...., 16 defectos en el rea total:

Y el promedio de defectos en la superficie resulta ser el mismo que antes:

An as podran aparecer ms defectos por zona:

Si dividimos nuevamente cada zona en 4 tendramos 64 zonas y ahora la probabilidad de tener 1 defecto en una zona sera:

La probabilidad de tener 0, 1, 2, 3, ....., 64 defectos en la superficie total sera:

Y nuevamente el promedio de defectos en la superficie resulta:

Lo que estamos haciendo es ir aumentando n al mismo tiempo que disminuye p en igual proporcin. Por lo tanto el promedio de defectos en la superficie total n.p se mantiene constante. Como vimos, al suponer que en cada subzona slo puede haber 1 defecto o ningn defecto estamos cometiendo un error. Este

error se hace cada vez menor, porque a medida que subdividimos el area total se hace menos probable que en una subzona aparezca mas de un defecto. Si continuamos subdividiendo el rea indefinidamente, la frmula binomial nos dar la probabilidad de obtener 0, 1, 2, 3, ... n defectos, con n tendiendo a infinito. En el lmite, la frmula binomial tiende a la frmula de Poisson:

El producto de n por p, en el lmite, es igual al parmetro de la distribucin:

El nmero de defectos x en la superficie total es una variable aleatoria discreta que puede tomar valores 0, 1, 2, 3, 4, ... y cuya distribucin de probabilidades se conoce como Distribucin de Poisson.

Se puede observar que la curva de la funcin de Poisson es asimtrica, como la binomial. El promedio de esta variable aleatoria es igual al parmetro de la distribucin:

Y la varianza tambin es igual al parmetro de la distribucin:

Por lo tanto, la desviacin standard es:

La distribucin de Poisson tiene una propiedad cuyas consecuencias son muy importantes para el Control Estadstico de Procesos. Supongamos que se tienen m variables aleatorias de Poisson:

Si w es una combinacin lineal de tales variables:

Entonces w es una variable aleatoria de Poisson con parmetro:

Esto es muy importante porque podemos imaginar el producto fabricado por un proceso (Una licuadora, una computadora, un televisor, etc.) como una superficie en la que se pueden producir mltiples defectos, y donde el nmero de cada tipo de defecto es una variable aleatoria de Poisson. Entonces, la propiedad mencionada nos permite tratar la suma de todos los tipos de defectos como una variable aleatoria de Poisson. Esto se utiliza para el control del Nmero de Defectos en un producto (Grficos C). Supongamos ahora que tenemos un gran lote de artefactos, por ejemplo licuadoras. Tomamos una muestra de m = 5 unidades y medimos el nmero total de defectos en las 5 unidades. Si obtuvimos x1, x2, x3, ... xm defectos en cada unidad, el nmero total de defectos ser:

El nmero promedio de defectos por unidad ser:

y es una variable aleatoria discreta que puede tomar valores 0, 1/m, 2/m, 3/m, ... etc. Cul es la varianza de y?

La varianza de xi es cualquiera que sea el subindice i, porque todas las xi tienen la misma distribucin:

Por lo tanto:

Este es un importante resultado que se utilizar para calcular la varianza en los Grficos U.

Grficos C y U

En algunos procesos interesa medir la cantidad de defectos que presentan las unidades de producto que se estn fabricando. Por ejemplo, se fabrican telfonos celulares y entonces se toma uno de ellos y se cuenta el nmero total de defectos. Estos podran ser:

Rayaduras en la superficie. Rajaduras en el plstico Antena defectuosa Botn defectuoso. Etc.

Los defectos pueden ser de diferentes tipos y se cuenta el total de todos estos defectos en la unidad inspeccionada. Obtenemos un resultado que es el Nmero de Defectos por unidad de inspeccin.

A medida que el proceso genera las unidades (Telfonos celulares), retiramos una unidad a intervalos regulares y contamos el nmero total de defectos. En cada unidad podemos encontrar: 0 defectos 1 defecto

2 defectos 3 defectos ... n defectos

Los resultados que obtenemos al contar el Nmero de Defectos en unidades de inspeccin retiradas a intervalos regulares constituyen una variable aleatoria discreta, porque puede tomar valores 0, 1, 2, 3, ... n. Esta variable aleatoria tiene una distribucin de Poisson:

Los grficos C se utilizan para controlar el nmero de defectos en una muestra del producto o unidad de inspeccin. Entonces, para controlar este proceso, un inspector se coloca al final de la lnea de produccin y cada hora retira una unidad de inspeccin (En este caso un telfono celular), verifica y anota el nmero total de defectos.

Este resultado se anota en un grfico hora por hora y se denomina grfico C. De acuerdo a la Distribucin de Poisson, si denominamos C al parmetro de la funcin de distribucin, el promedio de la poblacin es C y la varianza tambin es C. Para construir los grficos de control C, en una primera etapa se toman N unidades de inspeccin (ms de 25 30) a intervalos regulares. Se cuenta en cada unidad de inspeccin el Nmero de Defectos y se registra. Se obtendra una Tabla como la siguiente:
Unidad de Nm. Inspeccin Defectos 1 2 3 4 5 6 7 8 3 2 4 0 1 1 5 2

Entonces, a partir de la tabla podemos calcular C como promedio del Nmero de Defectos en las muestras (Unidades de Inspeccin):

ni Cantidad de Defectos por Unidad de Inspeccin N Nmero de Unidades de Inspeccin y luego la Desviacin Standard:

Con esto podemos calcular los Lmites de Control para el grfico C:

En caso de que el Lmite Inferior de Control resulte negativo, se le asigna valor cero. Construmos entonces un Grfico C de prueba y representamos el nmero de defectos en las muestras:

Si no hay puntos fuera de los lmites de control y no se encuentran patrones no aleatorios, se adoptan los lmites calculados para controlar la produccin futura. Otro ejemplo sera controlar el nmero de defectos a la salida de una lnea de ensamblado de licuadoras. De igual manera podra ser una lnea de ensamblado de computadoras personales, cafeteras automticas, televisores, etc. Cuando se fabrican pinturas y barnices, un ensayo muy comn es hacer un extendido sobre una placa de vidrio, dejar secar el producto y luego inspeccionar los defectos en la superficie. Se pueden aplicar los grficos C para controlar este tipo de procesos, contando el nmero de defectos sobre la superficie del recubrimiento. En la industria textil tambin es necesario controlar defectos superficiales en las telas. Se pueden aplicar los grficos C para controlar el nmero de defectos sobre la superficie de un rea rectangular de tela. Muchas veces ocurre que las unidades que produce el proceso presentan una tasa de defectos muy baja. Por ejemplo, supongamos un proceso automatizado que fabrica tarjetas de sonido. A la salida del mismo se inspecciona una tarjeta a

intervalos de media hora y se cuenta el nmero de defectos. El resultado seguramente ser algo como esto:
Tarjeta 1 2 3 4 5 6 7 8 etc Nm. Defectos 0 0 0 0 0 1 0 0 -

Esto se debe a que la fabricacin se realiza por medio de un proceso totalmente automatizado donde ocurren pocos errores. Por lo tanto, el promedio de defectos ser cercano a cero y el Lmite Inferior de Control seguramente ser negativo. Para evitar esto, es conveniente redefinir la Unidad de Inspeccin. Por ejemplo, se puede tomar como unidad de inspeccin la cantidad de 100 tarjetas de sonido. Es decir, cada media hora se retiran del proceso 100 tarjetas y se cuentan los defectos del total de las mismas. De esta manera la cantidad de defectos promedio por unidad de inspeccin ser mas alta. Y es posible tambin que el LIC sea mayor que cero. Supongamos que se est controlando el nmero de defectos en un proceso de ensamblado de licuadoras y se define una unidad de inspeccin de 5 licuadoras. En este caso es posible trabajar con un grfico C, como ya hemos visto. Pero tal vez se desea controlar el promedio de defectos por cada licuadora (unidad de produccin) en lugar de el total de defectos para las 5 licuadoras (unidad de inspeccin):

ni Cantidad de Defectos por Unidad de Inspeccin m Nm. de Unidades de Produccin en la Unidad de Inspeccin

En nuestro ejemplo, si encontramos ni defectos en la unidad de inspeccin (5 licuadoras), la cantidad promedio de defectos por licuadora ser:

Se debe tener en cuenta que x es una nueva variable aleatoria discreta que toma valores 0, 1/m, 2/m, 3/m, 4/m, .....etc., y cuya distribucin de probabilidades se puede calcular a partir de la Distribucin de Poisson. Como en el caso de los grficos C, en una primera etapa se toman N unidades de inspeccin (ms de 25 30) a intervalos regulares. Se cuenta en cada unidad de inspeccin el Nmero de Defectos y se registra. Luego se divide el Nmero de Defectos de cada unidad de inspeccin por m (Nmero de unidades de produccin en cada unidad de inspeccin). En nuestro ejemplo (m = 5) la Tabla quedara as:
Unidad de Nm. Nm. Inspeccin Defectos Defectos por Licuadora 1 2 3 4 5 6 7 8 5 8 6 10 5 15 12 5 1.0 1.6 1.2 2.0 1.0 3.0 2.4 1.0 -

Entonces, a partir de la tabla podemos calcular el parmetro U como promedio del Nmero de Defectos por licuadora:

ni Cantidad de Defectos por Unidad de Inspeccin m Nm. de Unid. de Produccin en la Unidad de Inspeccin N Nmero de Unidades de Inspeccin y luego la Desviacin Standard:

Con esto podemos calcular los Lmites de Control para el grfico U:

Capacidad de Proceso

Un proceso de fabricacin es un conjunto de equipos, materiales, personas y mtodos de trabajo que genera un producto fabricado.

Para analizar el comportamiento del proceso, se toman muestras de producto fabricado y se realizan ensayos para determinar el valor de una caracterstica de calidad seleccionada previamente. Desde el punto de vista del control estadstico, es conveniente incluir la etapa de muestreo y ensayo dentro del proceso mismo.

Cualquier modificacin en las condiciones del proceso (Modificacin en el equipo, cambio de materias primas, etc.) conceptualmente debe considerarse como que se trata de otro proceso, diferente del anterior.

El primer paso para aplicar una tcnica estadstica es definir la caracterstica de calidad que se va a medir en el producto fabricado. Desde el punto de vista estadstico, esta caracterstica de calidad constituye una variable aleatoria, porque an despus de realizar una serie de mediciones, el valor que se obtendra en la siguiente medicin no puede predecirse por clculo. El conjunto de todos los resultados de mediciones que pueden obtenerse es nuestro universo o poblacin. Cualquier subconjunto de mediciones extrado del universo constituye una muestra. Con respecto al concepto de universo o poblacin, cuando se aplica a resultados de mediciones en un proceso, es necesario puntualizar lo siguiente: La poblacin o universo de resultados es el conjunto de datos que se obtuvieron hasta ese momento mas aquellos que se obtendran si el proceso continuara funcionando siempre bajo las mismas condiciones. Esto se conoce como Universo Hipottico de mediciones de la caracterstica de calidad. Antes de aplicar cualquier tcnica estadstica, es necesario establecer algunas hiptesis bajo las cuales se va a desarrollar el anlisis. En primer lugar, vamos a suponer que la caracterstica de calidad (Variable aleatoria) es continua y de distribucin normal. En segundo lugar, consideraremos que el proceso est bajo control estadstico, es decir que la variabilidad se debe solamente a un sistema constante de causas aleatorias (No intervienen causas asignables). Al realizar una sucesin de mediciones de la caracterstica de calidad sobre muestras del producto fabricado, encontramos que los valores fluctan alrededor de un valor central. Esto es lo que llamamos la fluctuacin natural y esperable del proceso. Esta variacin de la caracterstica de calidad medida se debe a un conjunto muy grande de causas que afectan el proceso, cuyo efecto individual es pequeo y que actan en forma aleatoria (Sistema constante de causas aleatorias). La fluctuacin natural del proceso es inherente al mismo y no puede eliminarse, slo puede reducirse realizando modificaciones al proceso mismo, lo cual significa, como ya hemos dicho, trabajar con otro proceso. La fluctuacin natural de un proceso puede cuantificarse a travs de la desviacin standard del mismo, con la cual podemos calcular Lmites de Tolerancia Natural del proceso. Se debe insistir en que estos lmites no pueden fijarse voluntariamente, dependen del proceso y de las variables no controlables del mismo. Generalmente se toma un rango para la fluctuacin natural de 6 sigmas.

Los Lmites de Especificacin de un producto son fijados voluntariamente por el cliente, por el fabricante o por alguna norma. Estos lmites constituyen un requisito a cumplir por el producto y no deben confundirse en ningn caso con los Lmites de Control o con los Lmites de Tolerancia Natural del proceso. La Capacidad de un proceso es la aptitud para generar un producto que cumpla con determinadas especificaciones. En el mejor de los casos, es conveniente que los Lmites de Tolerancia Natural del proceso se encuentren dentro de los Lmites de Especificacin del producto. De esta manera nos aseguramos que toda la produccin cumplir con las especificaciones. Para analizar la capacidad del proceso se puede utilizar un histograma de frecuencias. Si se dispusiera de todos los datos del universo para la caracterstica de calidad medida y se hiciera un histograma este permitira tener una idea exacta de la fluctuacin natural del proceso. Como esto es imposible, es necesario tomar un cierto nmero de mediciones (Mnimo 100-200) y efectuar con ellas un histograma de frecuencias.

Este es el histograma de una muestra y por lo tanto es slo una estimacin del verdadero histograma del universo. Si representamos en las abscisas los Lmites de Especificacin del producto, podemos ver grficamente si el proceso tiene aptitud (Capacidad) para fabricar dicho producto.

Para cuantificar la Capacidad de Proceso se utilizan coeficientes que permiten comparar el rango de especificaciones con la fluctuacin natural del proceso. Uno de ellos es Cp:

donde LSE es el Lmite Superior de Especificacin y LIE es el Lmite Inferior de Especificacin Si el proceso tiene capacidad para fabricar el producto, entonces Cp > 1. En general se exige Cp > 1.30 para mayor seguridad.

Este coeficiente tiene el inconveniente de que para poder aplicarlo el centro de gravedad del rango de especificaciones debe coincidir con la tendencia central de las mediciones del proceso. Cuando esto no ocurre se emplea el Cpk:

Donde:

En el grfico podemos observar que una buena parte del producto est por encima del Lmite Superior de Especificacin (LSE). An as resulta Cp > 1, indicando errneamente que el proceso tiene capacidad suficiente. En este caso se debe usar el segundo coeficiente que muestra claramente que el proceso no tiene capacidad suficiente (Cpk < 1), tal como se puede observar en el grfico. El uso de un histograma para analizar la capacidad de un proceso tiene la ventaja de que se puede apreciar la forma de la distribucin, con lo cual se puede confirmar o rechazar la hiptesis de que la misma es normal. Pero el problema es que no se puede detectar la presencia de patrones no aleatorios, con lo cual no es posible confirmar o rechazar la hiptesis de que el proceso est bajo control estadstico. Si el proceso no est bajo control estadstico los resultados del anlisis de la capacidad de proceso no sern vlidos y pueden llevar a conclusiones equivocadas. Otra manera de analizar la capacidad de un proceso es por medio de los grficos de control. La implementacin de grficos de control exige necesariamente colocar al proceso bajo control estadstico. En consecuencia, se puede utilizar la desviacin standard utilizada para calcular los Lmites de Control para calcular los coeficientes de capacidad de proceso Cp o Cpk. Si este es el caso, se debe hacer una aclaracin muy importante. Cuando se utilizan grficos X-R, en el grfico de X se representan los promedios de subgrupos, es decir, promedios muestrales. No se debe confundir la

desviacin standard del proceso con la desviacin standard de los promedios muestrales. Si la desviacin standard del proceso es s y cada subgrupo tiene m mediciones, la desviacin standard entre subgrupos es:

Si se utiliza por error la desviacin standard entre subgrupos para calcular los coeficientes de capacidad del proceso, se obtendrn valores ms altos que los que corresponden a la verdadera capacidad del proceso.

También podría gustarte