Está en la página 1de 7

CAPTULO 09

ELEMENTOS BSICOS PARA LA INFERENCIA ESTADSTICA


Los elementos bsicos para trabajar con Inferencia Estadstica son dos: Conjunto de Muestras Posibles provenientes de una Poblacin y Probabilidades definidas asociadas al Conjunto de Muestras Posibles (probabilidad de seleccionar una muestra o subconjunto de muestras posibles)
1

El conjunto de muestras posibles es el conjunto de observaciones posibles a base de las cuales se realizar la inferencia inductiva, y la probabilidad asociada a ellas nos permitir controlar el error inherente a la referida inferencia inductiva. La mayor parte de las inferencias inductivas que se realizan cotidianamente no son inferencias estadsticas por cuanto generalmente se basan en una nica muestra y por lo tanto las nicas observaciones posibles no tienen efectivamente asociada una probabilidad. Por ejemplo, la hora en que partiremos maana a nuestras respectivas actividades, est basada en observaciones de las horas en que partimos otros das (muestra), aunque normalmente no manejamos una distribucin de probabilidad sobre dichas horas. De esta manera, nuestra decisin de partir, por ejemplo, a las 07:00 horas es una inferencia inductiva, pero NO es una inferencia estadstica y por lo tanto no ser posible controlar la posibilidad de cometer el error inferencial. La mayor parte de los estudios de mercado; de las encuestas de opinin y de los pronsticos del tiempo, se basan en una particular muestra pero no consideran en su anlisis la posibilidad de haber obtenido otras muestras. En tal caso, las inferencias inductivas basadas en dicha muestra no son inferencias estadsticas y por lo tanto NO es posible controlar el error inferencia. Sin embargo seguramente por desconocimiento, algunas de estas encuestas informan de margen de error, cuando en la realidad carecen de elementos para calcularlo. Un ejemplo de Inferencia Estadstica lo constituyen las Encuestas de Hogares que generalmente son conducidas por los Institutos Nacionales de Estadstica de los pases. En este caso se establece un diseo muestral, que define todas las muestras de hogares que podran ser obtenidas as como la probabilidad de obtener una de ellas. De esta forma para las inferencias inductivas que resulten de una particular muestra observada (por ejemplo la muestra considerada para un trimestre especfico) ser posible indicar el margen de error asociado a dicha inferencia. Por ejemplo si la desocupacin, a base de una particular muestra, se estima en 8% se podr establecer, con cierto grado de confianza, un margen de error, (por ejemplo del 5% con confianza 95%), y estimar que la desocupacin podra variar entre 7,6% y 8,4% con una confianza del 95%. Otro ejemplo de Inferencia Estadstica son los planes de muestreo para aceptacin de lotes (cajas) de artculos. En estos casos, se selecciona una muestra de artculos mediante un procedimiento bajo el cual es posible determinar: todas las muestras posibles y la probabilidad asociada a estas muestras. En tal caso podemos controlar el error inferencial. Por ejemplo para una regla definida de rechazo, podemos conocer la probabilidad de aceptar un lote cuando debamos rechazarlo o bien la de rechazar un lote cuando deba ser aceptado. En resumen: slo con probabilidades asociadas a un conjunto de muestras posibles se puede controlar el error inherente a toda inferencia inductiva y por lo tanto slo a travs de estos elementos ser posible realizar inferencia estadstica.

Pueden depender de parmetros y, en tal caso, no necesariamente son conocidas.

Observacin Importante: se hace notar que si el usuario NO tiene inters en conocer el inevitable riesgo que corre cuando acepta (o rechaza) el resultado de una particular inferencia inductiva, entonces NO requiere inferencia estadstica.

Construccin del Conjunto de Muestras Posibles y Probabilidades asociadas


Sabemos que poblacin es el conjunto de elementos que nos interesa estudiar y muestra es un subconjunto de esa poblacin. Pero cmo se construye el conjunto de muestras posibles y sus correspondientes probabilidades para poder trabajar con Inferencia Estadstica? La respuesta consiste en definir la seleccin la muestra mediante un experimento aleatorio tal que los resultados del experimento aleatorio sern todas las posibles muestras y las probabilidades respectivas estarn definidas por el procedimiento o regla de aleatorizacin. Una muestra obtenida mediante este procedimiento se dice que es una muestra aleatoria (m.a). Distinguiremos dos situaciones respecto de la poblacin: 1) 2) Los elementos de la poblacin son unidades que presentan valores de caractersticas de estudio (individuos, hogares, das, para estudiar edad, o ingreso, o ventas etc. ) La poblacin es una variable aleatoria (o un conjunto de variables aleatorias).

Caso 1) Para este caso, se define un procedimiento aleatorio para seleccionar una parte de las unidades de la poblacin (la muestra). Segn sea el procedimiento aleatorio se tendrn diferentes conjuntos de muestras posibles y probabilidades asociadas a las mismas. Ejemplo 1.1: Supongamos que la poblacin est constituida solamente por 6 unidades (por ejemplo hogares) y que las caracterstica bajo estudio son X (por ejemplo n de hijos) e Y (por ejemplo n de dormitorios) y que los valores en la poblacin (que se suponen desconocidos) ests datos por la tabla siguiente: Unidades (hogar) Valores de X (hijos) Valores de Y (dormitorios) 1 0 1 2 1 3 3 4 3 4 2 4 5 3 3 6 2 4

Experimento aleatorio para la seleccin de la muestra: para seleccionar una muestra de tamao 2 (dos unidades en la muestra), se procede de la siguiente manera: a) b) Se selecciona al azar una unidad de la poblacin A continuacin, se selecciona, tambin al azar, una unidad dentro de las restantes (5 unidades)

Se observa que este procedimiento de seleccin determina el conjunto de muestras posibles (de tamao 2) as como las probabilidades asociadas a dichas muestras. En efecto: Conjunto de Muestras Posibles y Probabilidades Asociadas: El conjunto de muestras posibles est dado
6

por

(las combinaciones de 6 tomadas de 2) y est formado por las siguientes 15 muestras posibles:

{(1, 2);(1,3); (1, 4);(1,5); (1, 6); (2,3);(2, 4);(2,5);(2, 6); (3, 4);(3,5);(3, 6);(4,5);(4, 6); (5, 6)}
La probabilidad de seleccionar la unidad i en la primera seleccin y la unidadj (j i) en la segunda seleccin ser:

P({(i, j )}) = P ( i en 1a j en 2a ) + P( j en1a i en 2a =

1 1 1 1 1 = P(i en1a ) P ( j en 2ai en 1a ) + P ( j en 1a ) P(i en 2a j en1a ) = + = 6 5 6 5 15


El resultado puede ser resumido en la siguiente tabla: Muestras posibles Probabilidad c/muestra Ejemplo 1.2 Para la misma poblacin del ejemplo 1.1 supongamos ahora que el procedimiento de seleccin de la muestra se cambia por el siguiente: Experimento aleatorio para la seleccin de la muestra: se selecciona aleatoriamente un nmero del 1 al 3. Si sale el nmero k, la muestra est conformada por las unidades k y k+3. Bajo este criterio, el conjunto de muestras posibles ser: {(1, 4); (2, 5); (3, 6)} y la probabilidad asociada a cualquier par es la probabilidad de elegir el primer componente del para es decir: 1/3. La tabla resumen sera: Muestras posibles (1,4) (2,5) (3,6) Probabilidad muestra 1/3 1/3 1/3 (1,2) 1/15 (1,3) 1/15 (1,4) 1/15 (1,5) 1/15 (1,6) 1/15 (2,3) 1/15 (2,4) 1/15 (2,5) 1/15 (2,6) 1/15 (3,4) 1/15 (3,5) 1/15 (3,6) 1/15 (4,5) 1/15 (4,6) 1/15 (5,6) 1/15

Ejercicio: Obtenga el conjunto de muestras posible y sus respectivas probabilidades para la misma poblacin y procedimiento de seleccin del ejemplo 1.1, pero considerando muestras de tamao 3. (Se selecciona una al azar; luego de las 5 restantes se selecciona al azar y en forma independiente, otra y por ltimo, de las cuatro restantes se selecciona, al azar e independiente de las dos anteriores, la tercera unidad). Caso 2) La poblacin es una variable aleatoria (X) y los valores de la poblacin son los valores de dicha variable aleatoria. Una muestra de tamao n estar conformada por n valores de la variable aleatoria. Experimento aleatorio frecuentemente usado para la seleccin de la muestra: Para una muestra de tamao 2 n, se observan en forma independiente n valores de X (poblacin) . Entonces el conjunto de muestras posibles est dado por:

{(x , x ,...., x )x esunresultadode X i = 1,2,..., n}


1 2 n i

Por la hiptesis de independencia se tiene que: Ejemplo 2.1 Supongamos que un proceso de fabricacin tiene una probabilidad p (0<p<1) de producir un artculo defectuoso y que se observan, en forma independiente, tres artculos (muestra de tamao 3). Entonces si X representa la v.a. asociada a la observacin de un artculo, se tiene que X~b(1,p). Las muestras posibles estn conformadas por las distintas formas de obtener los tres resultados independientes de esta Bernoulli, vale decir:

{(0, 0, 0); (0, 0,1);;(0,1, 0);(0,1,1);(1, 0, 0);(1, 0,1); (1,1, 0);(1,1,1)}


Recordando que P(X = 0) = (1-p) y que P(X = 1) =p y que las observaciones son independientes el conjunto de muestras posibles y sus respectivas probabilidades se resumen en la siguiente tabla:
2

En estos casos la muestra aleatoria suele representarse por X1, X2, , Xn y se dice que Xi i =1,2, ,n son variables aleatorias independientes, con idntica distribucin (i.i.d)

Muestras Posibles Probabilidades c/muestra Ejemplo 2.2

(0,0,0) (1-p)
3

(0,0,1) p(1-p)
2

(0,1,0) p(1-p)
2

(0,1,1) p (1-p)
2

(1,0,0) p(1-p)
2

(1,0,1) p (1-p)
2

(1,1,0) p (1-p)
2

(1,1,1) p
3

Supongamos ahora que el resultado de un cierto test o prueba docente puede ser aproximado por una 2 2 distribucin normal con media y varianza (X ~ N( , ) ) y que se consideran tres resultados 2 independientes de este test, cada uno de ellos representados por Xi ~ N( , ) donde i= 1,2,3. Estos tres resultados constituirn entonces una muestra de tamao 3. El conjunto de muestras posibles ser:

{(x , x , x )x esun posibleresultadodel test i = 1,2,3}


1 2 3 i
i

La probabilidad asociada a una particular muestra cumple entre otras propiedades que:

P ( X 1 x1 X 2 x 2 X 3 x 3 ) =

P( X
i =1

xi ) =

P
1 =1

xi

donde Z

N (0,1)

Observacin: Excepto en el Caso 1, la distribucin de probabilidad asociada a las muestras posibles depende explcitamente de parmetros de la variable aleatoria poblacin. En el ejemplo 2.1 depende de p 2 y en el ejemplo 2.2 depende de y .

PARMETROS POBLACIONALES
Se llaman parmetros a constantes indeterminadas, vale decir, valores fijos aunque desconocidos. Por ejemplo, en la ecuacin de la recta y = ax + b, x e y son variables, en cambio a y b son parmetros. En Inferencia Estadstica los parmetros poblacionales son valores constantes indeterminados que generalmente se refieren a caractersticas de inters de la Poblacin. A manera de ejemplo: en el Caso 1), la Media

( X ) , la Varianza (Var ( X ) ) , la Mediana, la Covarianza ( C o v ( X , Y ) ) (entre dos variables, etc), el Coeficiente de Correlacin ( ) , la proporcin de unidades
X ,Y

que pertenecen a una clase etc., son parmetros poblacionales. En el Caso 2, los parmetros poblacionales son parmetros de la distribucin de probabilidad de la v.a. X. 2 Tal es el caso de p en el ejemplo 2.1 y de y en el ejemplo 2.

PROCEDIMIENTO BSICO PARA LA INFERENCIA ESTADSTICA


Para llevar a cabo una inferencia estadstica se seleccionar una particular muestra del conjunto de muestras posibles siguiendo el experimento aleatorio determinado por la distribucin de probabilidad asociada a dicho conjunto de muestras posibles. A base de esta muestra se realizar el tipo de inferencias de inters sobre la poblacin. La situacin se resume en el siguiente grfico:
ELEMENTOS PARA LA INFERENCIA ESTADSTICA MUESTRA ALEATORIA

Poblacin
Valores

Conjunto de Muestras Posibles

Probabilidades
p1 p2 p3 p4 p5 p6 Muestra Seleccionada A base de esta particular muestra se llevar a cabo la inferencia inductiva sobre la poblacin

ps

TIPOS DE INFERENCIA ESTADSTICA


Las inferencias estadsticas de uso frecuente pueden ser clasificadas en dos tipos: Estimacin de Parmetros o simplemente Estimacin, que a su vez puede ser subdividido en: Estimacin Puntual y Estimacin por Intervalos. Dcimas o Test de Hiptesis, que pueden ser Paramtricas y No Paramtricas

En la estimacin puntual el problema consiste en, a base de una muestra seleccionada del conjunto de muestras posibles, adjudicar un valor numrico a un parmetro poblacional con indicador del riesgo de error. En la estimacin por intervalo el problema consiste en, a base de la muestra seleccionada, adjudicar un rango (intervalo) de posibles valores del parmetro con una confianza determinada. En las inferencias estadsticas llamadas Dcimas de Hiptesis o Test de Hiptesis Paramtricas, se plantea una hiptesis sobre el valor de uno o ms parmetros de la Poblacin o bien sobre independencia de factores y, a base de una particular muestra obtenida, se desea aceptar o rechazar esta hiptesis. Por ejemplo, estimaciones anteriores sobre el porcentaje de pobreza en un pas indican que el nivel de pobreza es del 28%. Algunos investigadores opinan que este porcentaje ha disminuido en el correr de los dos ltimos aos (p < 0,28). A base de una muestra particular tomada al azar e independiente se tiene que la proporcin de personas en situacin de pobreza en la muestra es 26%. A base de esta informacin, la dcima de hiptesis indicar si se acepta o no se acepta la opinin de los investigadores con indicacin, para cada caso, de la probabilidad de cometer un error en la inferencia estadstica. Es decir, con la probabilidad de afirmar que efectivamente ha disminuido, cuando no es cierto; as como con la probabilidad de afirmar que no ha disminuido, cuando en realidad el porcentaje de pobreza ha bajado. Supongamos ahora que la dcima o test de hiptesis indica que efectivamente el nivel de pobreza ha disminuido. Queda entonces el problema de estimar el nuevo nivel de pobreza. Este es el tipo de inferencias estadsticas llamadas de Estimacin que consistir entonces en adjudicar un valor (estimacin puntual) o un rango (estimacin por intervalos) al indicador de la nueva situacin de pobreza, con indicacin del riesgo de cometer error en la estimacin propuesta. Se observa que las dcimas y la estimacin son instrumentos que se complementan para el mejor conocimiento de caractersticas de una poblacin. La dinmica es la siguiente: Si se parte de un desconocimiento respecto de la caracterstica bajo estudio se recurre a la estimacin. Una vez estimado, si en el correr del tiempo se sospecha que la situacin ha cambiado, se recurre a la dcima o test de hiptesis. Si la dcima o test de hiptesis indica que nada ha cambiado, se mantiene la estimacin original, en otro caso se procede a realizar una nueva estimacin.

Este proceso se puede mantener en forma indefinida. En los dos captulos siguientes se examinarn los conceptos bsicos estos de estos tipos de inferencias estadsticas as como algunas aplicaciones de uso frecuente.

LA PELIGROSA FALSEDAD DE LAS MUESTRAS REPRESENTATIVAS A veces por desconocimiento, o bien con la intencin de simplificar, la Inferencia Estadstica es presentada como una disciplina que estudia mtodos que permiten tomar muestras representativas en el sentido de que seran muestras en las cuales si se replica en ella el estudio que se desea realizar en la poblacin, se obtiene resultados iguales o muy parecidos a los que se obtendra en la poblacin. As, por ejemplo, para conocer la opinin pblica sobre un particular tema, se tomara una muestra representativa de 400 personas, a estas personas se les consultan sus opiniones sobre el tema y se supone que estas opiniones reflejan la opinin de toda la ciudadana porque la muestra es representativa.

Por supuesto que las muestras representativas de caractersticas desconocidas de una poblacin no slo NO EXISTEN sino que la hiptesis de su existencia puede comprometer gravemente la seriedad y eficiencia de los estudios que se lleven a cabo a base de tal hiptesis. En efecto, en primer lugar la expresin muestra representativa carece de lgica porque si realmente se desconocen las caractersticas de la poblacin que se desea estudiar (en otro caso no sera necesaria la inferencia), tambin se desconocer si tales caractersticas estarn bien representadas en un particular subconjunto de esta poblacin (muestra). Asimismo este supuesto atributo de representatividad de una muestra compromete la objetividad del estudio por cuanto otorga a la persona responsable por su seleccin, la posibilidad de manipular la muestra hasta que la misma cumpla lo que esta persona entiende por representativa, con grave prdida de la objetividad a la que debe aspirar el todo mtodo cientfico. Por ejemplo, si el investigador piensa que el candidato A tiene mayora de votos en la ciudadana debe considerar slo aquellas muestras en que el candidato A tiene mayora porque las dems no son representativas? Pero adems esta propuesta de existencia de muestras representativas lleva implcito el principio de rplica que se traducira de la siguiente manera: dada una muestra representativa, los procedimientos y clculos que se deban realizar en la poblacin para conocer una caracterstica de la misma, se trasladan (replican) a la muestra. Este principio en el que parece estar basado el concepto de representatividad es falso. Acaso para estimar el valor total de una caracterstica en la poblacin se debera tomar el valor total en la muestra? Para concluir argumentacin, es fcil comprobar que muestras no representativas pueden ser mejores que muestras representativas. Consideremos en primer lugar un ejemplo de laboratorio: supongamos una poblacin particionada en dos categoras: A y B y supongamos que: A = {ai ai = 1 para todo i = 1, 2, , 90} B = {10, 40, 80, 100, 50, 30, 20, 60, 70,} Supongamos ahora que se desea tomar una muestra de tamao 10 de AUB y que para ello se decide tomar una muestra en A y otra en B de tal manera que el tamao total (ambas muestras) sea 10. Dado que hay 90 unidades en A y slo 9 unidades en B, una respuesta representativa sera tomar 9 unidades en A y 1 en B (aproximarse lo ms posible en la muestra a la proporcionalidad en la poblacin). Sin embargo, dado que con una sola unidad de A se conocen los valores de todas sus unidades, es fcil comprobar que la muestra que considera 1 unidad en A y las 9 unidades de B ofrece la misma informacin que un censo en AUB y por lo tanto es mucho mejor que una muestra representativa de igual tamao. Lo anterior es slo un ejemplo de laboratorio, pero en la realidad se presentan situaciones parecidas. En efecto, supongamos que para estudiar el presupuesto familiar (ingresos y gastos del hogar) en un pas latinoamericano, se toma una muestra que est compuesta por 30% de hogares con ingresos bajos; 50% con ingresos medios y 20% con ingresos altos. A simple vista esta muestra no refleja la real distribucin del ingreso en un pas latinoamericano y por lo tanto no sera una muestra representativa para ese pas. Sin embargo considerando que en los hogares de ingresos bajos la composicin de sus gastos es prcticamente la misma, basta con observar pocos de estos hogares para tener un muy confiable conocimiento del comportamiento de todos los numerosos hogares en esta categora. Esta situacin cambia cuando consideramos la muestra de los menos numerosos hogares de ingresos medios y sobre todo en la muestra de los pocos hogares de ingresos altos los cuales presentan mayor capacidad de diferenciarse en el consumo, por lo que en estos sectores se

deberan tomar mayores observaciones para asegurar un mejor conocimiento de la mayor diversidad (variabilidad) que presentan los destinos de sus respectivos consumos. Por lo tanto la no representativa muestra del 30% para ingresos bajos; 50% para ingresos medias y 20% para ingresos altos, resultar mucho ms eficiente que cualquier muestra representativa. Claro est que al la muestra no representativa, no se le aplicar el llamado principio de rplica. Incidentalmente no se debera confundir la bsqueda de muestras representativas con el propsito que persigue la estratificacin de una poblacin. El propsito de la estratificacin es eliminar la posibilidad de tomar muestras malas, pero no dice, ni podra decirlo, que una vez estratificada la poblacin, las muestras posibles son representativas. En resumen las muestras representativas no existen, y suponer su existencia: lleva a una contradiccin lgica; facilita la influencia de aspectos subjetivos en la seleccin de la muestra (manipulacin); los principios de rplica en los que parece estar basado su uso, no son verdaderos y muestras que se dicen representativas pueden tener un comportamiento mucho ms ineficiente que otras no representativas.

Parece que son motivos suficientes para recomendar que se abandone el uso del trmino muestra representativa en las actividades de docencia, investigacin o consultora en materia estadstica.

También podría gustarte