clase del curso Introducción a los modelos de demanda de transporte. Hoy
continuaremos hablando del tema de muestreo. En la última clase hemos hablado sobre muestreo aleatorio. Hoy vamos a introducir dos tipos de muestreo adicionales el muestreo estratificado y el muestreo basado en la elección, muy utilizado en transporte. Empecemos a hablar de muestreo estratificado. ¿Por qué puede ser importante realizar un muestreo estratificado? Consideremos una población donde hay dos tipos de hogares. Hogares tipo A y hogares tipo B. Supongamos que los hogares tipo A son bastante similares en su comportamiento. Por el contrario, los hogares tipo B son mucho más visibles en su comportamiento. En este caso, claramente lo que tendremos es que la varianza de las variables de interés para los hogares de tipo A va ser bastante menor que la varianza de la variable de interés para los hogares tipo B. Por lo tanto, en este caso suena bastante sensato, suena bastante lógico, encuestar más hogares de tipo B, y encuestar menos hogares de tipo A, ésa es la idea de muestreo estratificado. Lo importante es tener presente lo siguiente. En un muestreo estratificado nosotros establecemos cuota de cuántos hogares o cuántos individuos vamos a encuestar en cada estrato, pero al interior del estrato la muestra es aleatoria. ¿Qué significa que la muestra es aleatoria? Recordemos lo que vimos en la clase anterior. Significa que cada hogar o cada miembro de ese estrato tiene la misma probabilidad de ser elegido que cualquier otro miembro o cualquier otra unidad. Bien, con respecto al muestro estratificado, no siempre funciona tan bien como uno quisiera, desde el punto de vista de los costos, y veamos lo siguiente. Consideremos una población en la cual tenemos ubicados cuatro estratos de hogares. En el ejemplo que estamos viendo en va pantalla, lo que nosotros observamos es dos variables que categorizan a los hogares. Una variable es el tamaño del hogar y la otra variable es la posición vehicular. Si el hogar tiene vehículo o no tiene vehículo, la variable tamaño del hogar lo que nos dice es si el hogar está compuesto por cuatro menos individuos, o si el hogar está compuesto por más de cuatro individuos. Hacemos un cruce entre estas dos variables y tenemos cuatro estratos o cuatro categorías de hogares. Y lo que observamos es que hogares para, hogares en los cuales hay más de cuatro personas, y no hay posesión de vehículo, representan el 50% de la población. Hogares en los cuales no hay autos y hay cuatro o menos personas, representan el 25% de la población, y así sucesivamente con las otras dos categorías de hogares. ¿Qué pasa en este caso? Supongamos que queremos hacer una muestra y nosotros de alguna manera you tenemos determinado que al interior de cada estrato de hogar, el tamaño de nuestra muestra tiene que ser N. Quiere decir que en total tenemos que encuestar cuatro por N hogares. Supongamos que nosotros no tenemos ninguna caracterización previa de los hogares. ¿Qué es lo que va a ocurrir en tal sentido? Lo que va a suceder es que nosotros vamos a tener que encuestar al menos 11,5 por n hogares, a los efectos de poder cumplir con la cuota de n hogares por estrato de hogares. ¿Y por qué digo que en lugar de tener que visitar 4 por n hogares, tenemos que visitar 11,1 por n hogares? Por la siguiente y sencilla razón. Los hogares que están compuestos por 4 o menos personas, y que tienen acceso al vehículo, representan el 9% de la población. Por lo tanto, si nosotros no tenemos caracterizados los hogares previamente y queremos dar con n hogares que pertenezcan a este estrato, no nos va a quedar más alternativa que visitar a 100 dividido 9 por n hogares. 100 dividido 9 es 11,1 hogares. En otras palabras, la muestra estratificada, lo que nos dice es que tenemos que encuestar a n hogares por estrato, pero para poder encuestar a estos 4 por n hogares hemos tenido que visitar previamente 11,1 por n hogares. Y claramente vamos aplicando un filtro, y en muchos hogares lo que va a ocurrir es que la cuota que corresponde a ese estrato you está cubierta, y a ese hogar simplemente no se le encuesta. Pero sí tenemos que visitarlo porque recordemos que el problema aquí está con el estrato de menor tamaño. Por el contrario, si nosotros tuviésemos información que nos permitiese caracterizar a los hogares según al estrato al que pertenecen, claramente tendríamos que visitar en este caso 4 por n hogares y aquí sí el muestreo estratificado termina siendo muy conveniente. Resumiendo, ¿cuáles son vas ventajas del muestreo estratificado? El muestreo estratificado nos permite abaratar costos por un lado o alternativamente, si tenemos un presupuesto fijo, lo que podemos lograr es, entonces, trabajar con un mayor nivel de confianza y un menor margen de error. Pasemos ahora al muestreo basado en elección, un muestreo muy utilizado en transporte. El muestreo basado en la elección significa establecer cuotas de individuos a encuestar según el modo que viajan. Por ejemplo, si tenemos en nuestra población que se usa en tres modos supongamos, transporte privado, transporte público, y caminata. Supongamos que el transporte público es una, cada uno de estos modos de transporte representa un porcentaje del total de los viajes. Y lo que nosotros decimos es, en nuestra encuesta vamos a encuestar, por ejemplo, usuarios de los tres modos de transporte y en qué proporción, los vamos a encuestar en una proporción, por ejemplo un tercio, un tercio, un tercio. Más allá de que los viajes reales no necesariamente estén dados en esa proporción. ¿Por qué es útil este tipo de encuesteo? ¿Por qué es útil este tipo de muestreo? Muchas veces ocurre lo siguiente, hay determinados modos de transporte que son utilizados por muy pocas personas. Por ejemplo, algún modo podría ser la bicicleta o alguna combinación particular de modos de transporte. En un muestreo aleatorio o en un muestreo estratificado, es muy probable que no demos con ningunos de estos individuos, que no podamos ubicar en ningún individuo que hace uso de estos modos con tan baja partición modal. Si nos queremos asegurar individuos que sean usuarios de estos modos, una mejor estrategia entonces es, por decirlo alguna forma, ir a los modos de transporte y seleccionar los individuos al interior de los modos de transporte. En este caso, una vez más, asignamos cuotas a los distintos modos de transporte. Pero al interior de cada modo de transporte, la selección de los individuos tienen que ser aleatoria. Es decir, cada individuo que sea usuario de cada modo de transporte, debería tener la misma probabilidad de ser elegido que otros individuos que hacen uso del mismo modo. Las encuestas basadas en elección son bastante común en encuestas de transporte, ejemplo de ello son las encuestas a la vera del camino, donde se detienen a los vehículos para hacer encuestas muy breve sobre el origen, destino de viaje, el propósito de viaje, la frecuencia del viaje, etc. También solemos hacer este tipo de encuestas a usuarios de buses o de ferrocarril, y también solemos hacer este tipo de encuestas a usuarios de bicicleta, peatones, etc. Bien, lo que vamos a hacer ahora es dar algunos ejemplos para entender la diferencia que hay entre muestreo aleatorio, muestreo certificado, y muestreo basado en la elección. Supongamos que partimos con un muestreo aleatorio. Recordemos que la muestra aleatoria tiene la gracia de que nos ayuda a reproducir los parámetros poblacionales, en la medida que el tamaño de la muestra es suficientemente grande. Tomamos una muestra aleatoria y observamos los siguientes resultados. Tenemos una población de las personas, las categorizamos según su ingreso y según el modo de transporte que utilizan para su viaje al trabajo. El 60% de los usuarios utiliza el modo bus, y el 40% de los usuarios utiliza el modo auto. Y la población también se divide en personas de ingreso bajo, el 65% de la población, y personas de ingreso alto, el restante 35% de la población. En la pantalla ustedes pueden ver una matriz, y cada celda de la matriz representa la proporción de personas que tienen determinado tipo de ingreso, y hacen uso de determinado tipo de modo de transporte. Por ejemplo, el 45% de las personas son de ingreso bajo, y usan el bus para sus viajes. El 20% de las personas son de ingreso bajo y utilizan el auto para viajar, el 15% de las personas que tienen ingreso alto y son usuarios de buses. Y el restante 20% de las personas son individuos de ingreso alto que hacen uso del auto. Y de esta manera cubrimos el 100% del universo. Las proporciones o las probabilidades poblacionales son las mismas que vamos a encontrar en un muestreo aleatorio, dejando de lado el margen de error. ¿Qué ocurre si hacemos un muestreo estratificado? Supongamos que nuestro muestreo estratificado consiste en encuestar 75 personas de ingreso bajo, y 25 personas de ingreso alto. En este caso, calculemos cuál es la probabilidad de que una persona de ingreso bajo haga uso del bus. Nosotros sabemos que al interior del estrato, la selección de individuos es aleatoria, por lo tanto, condicionada que una persona es de ingreso bajo, cuál es la probabilidad de que esta persona viaje en bus. Esto lo vemos de la tabla que vimos en la transparencia anterior, y lo que tenemos que hacer es calcular la probabilidad de que una persona sea usuaria del bus. Y, a su vez, tenga un ingreso bajo, y dividimos esta probabilidad por la suma de dos probabilidades, la probabilidad de que la persona viaje en bus y sea de ingreso bajo, más la probabilidad que la persona viaje en auto y sea de ingreso bajo. Hacemos esta división, y lo que tenemos en el numerador es 45% ó 0,45 y en el denominador tenemos 0,45 más 0,2, es decir, 0,65. Hacemos este cociente y el resultado es que la probabilidad de que una persona de ingreso bajo utilice el bus es igual a 69,2% ó 0,692. Entonces, ¿cuál es la probabilidad ahora de que una persona en nuestra muestra estratificada sea de ingreso bajo, y además utilice el bus? you calculamos la probabilidad de que una persona condicionado en que tiene ingreso bajo sea usuario de bus. Ahora nos falta calcular la probabilidad de que una persona sea de ingreso bajo y, como es una muestra estratificada, el 75% de los individuos encuestados van a ser de ingreso bajo. Por lo tanto, la probabilidad de que una persona de nuestra muestra tenga ingreso bajo obviamente es 75%. Multiplicamos 0,75 por 0,692 y arroja un valor de 0,519. ¿Qué significa ello? Que el 51,9% de las personas encuestadas en nuestra muestra estratificada son usuarios de bajos ingresos que hacen uso del modo bus. Procedemos de manera análoga con las otras tres celdas de la matriz y vamos a completar entonces la celda que aparece en la pantalla en este momento. Noten que obviamente el 75% de las personas tiene ingreso bajo, y el 25% de las personas tiene ingreso alto, y esto tiene que ser así porque recuerden que esto es una muestra estratificada. Veamos ahora qué es lo que pasa con un muestreo basado en elección. En un muestro basado en la elección vamos a decidir, por ejemplo, encuestar a 75% de las personas que son usuarios de bus y al restante 25% de va personas que son usuarios del automóvil. Entonces ahora hagamos el siguiente ejercicio. Dado que una persona viaje en bus, ¿cuál es la probabilidad de que esta persona sea de ingreso bajo? Recuerden que la muestra una vez más, al interior del modo de transporte, es aleatoria. Por lo tanto, nosotros sabemos que la probabilidad de que una persona viaje en bus en la población es del 60%. Y la probabilidad de que una persona que viaje en bus tenga ingreso bajo es igual a la probabilidad de que una persona viaje en bus. Y si es de ingreso bajo en la población, dividido la suma de dos probabilidades, que son la probabilidad de que en la población una persona viaje en bus y tenga ingreso bajo, más la probabilidad de que una persona viaje en bus y tenga ingreso alto. Por lo tanto, ahora nos queda el siguiente cociente, 0,45 dividido 0,60, y you arroja el valor de 0,75. Por otro lado, como el 75% de las encuestas que estamos, como el 75% de las personas que estamos encuestando viajan en el bus. Nos queda, finalmente, multiplicar va probabilidad condicional de que una persona tenga ingreso bajo dado a que viaja en bus, multiplicado por la probabilidad de que esta persona viaje en bus. Ambas probabilidades son de 75%, por lo tanto el resultado final es que perdón, el 56,3% de las personas encuestadas en nuestra muestra basada en la elección son personas que viajan en bus y tienen ingreso bajo. Como podemos ver en esta tabla, la primer celda que corresponde a ingreso bajo y usuarios de bus, tenemos el valor de 0,563, de manera análoga completamos las restantes tres celdas. Bien, vamos a ver ahora otro ejemplo, y este ejemplo se va a referir a inferencia de probabilidades de interés a nivel poblacional. Estamos una vez más con va tabla que representa las probabilidades poblacionales o las probabilidades en un muestreo aleatorio. Recuerden, 60% de las personas viajan en bus, 40% de las personas viajan en auto, 65% de vas personas son de ingreso bajo, 35% de las personas son de ingreso alto. Calculemos, en una muestra aleatoria, cuál es la probabilidad de que un individuo de ingreso bajo sea usuario de bus. Este cálculo es bien simple, vemos esta tabla, y lo que tenemos que hacer es, nos centramos en la columna donde dice ingreso bajo, y en el numerador colocamos el valor que corresponde a ingreso bajo usuario de bus. Y en el denominador es la suma de la celda ingreso bajo usuario de bus más la celda ingreso bajo usuario de bus. Tenemos 0,45 dividido 0,65 y el resultado que obtenemos es que el 69,2% de las personas de ingreso bajo son usuarios del bus. Bien, veamos qué ocurre en el muestreo estratificado. En el muestreo estratificado, you vimos cómo se elaboraba la tabla que estamos presentando en esta diapositiva. Calculemos entonces ahora cuál es la probabilidad de que una persona de ingreso bajo sea usuaria del bus. Bien, procedemos de manera análoga a lo que vimos en el caso anterior, y ahora lo que tenemos que dividir entonces es 0,519 dividido la suma de 0,519 más 0,231. ¿Qué resultado obtenemos? Que 69,2% de las personas de ingreso bajo son usuarios del bus. El mismo resultado que obtendríamos en el muestreo aleatorio, y esto está bien porque recuerden, al interior del estrato, el muestro es aleatorio, por lo tanto al interior de cada estrato podemos reproducir probabilidades poblacionales. Veamos qué ocurre ahora con el muestreo basado en la elección. En un muestreo basado en la elección habíamos elaborado la tabla que tenemos a continuación. you explicamos cómo se calculaba cada valor que corresponde a cada celda de la matriz. Y entonces calculemos la probabilidad de que una persona de ingreso bajo sea usuario de bus. Y este resultado es 0,818, es decir, casi el 82% de las personas de ingreso bajo son usuarios del bus en nuestra muestra basada en la elección. Claramente acá estamos haciendo una mala inferencia, no estamos reproduciendo el verdadero valor poblacional, que era 62,9%. ¿Qué es lo que debe hacerse entonces para poder recuperar el verdadero valor poblacional? Tenemos que proceder de la siguiente manera. Cada probabilidad asociada a cada modo de transporte tiene que multiplicarse por un factor y este factor ¿cómo se compone? Es un cociente y en el numerador tenemos que escribir la probabilidad de elegir el modo en la población. Y en el denominador tenemos que escribir la probabilidad de elegir el modo en la muestra basada en la elección. Calculemos el factor de corrección que corresponde al bus. Recuerden que en la población, el 60% de las personas viajan en bus, que es el valor que está en el numerador de este cociente. En la muestra basada en la elección, recuerden que el 75% de las personas viajaba en bus. Ese valor corresponde a la suma de los dos valores que están en el denominador. Hacemos este cociente y el resultado que obtenemos es 0,8. Calculamos el mismo factor para el automóvil y este factor de corrección es igual a 1,6. Por lo tanto, si nosotros queremos calcular cuál es la probabilidad de que una persona de bajo ingreso sea usuario del bus, lo que tenemos que hacer es lo siguiente. El cálculo que les mostré anteriormente es incorrecto porque dijimos que obteníamos el valor 81,8, y ello es erróneo. Lo que tenemos que hacer es multiplicar 0,563 por 0,8, el factor que corresponde al bus, y en el denominador una vez más 0,563 lo multiplicamos por 0,8. Y el valor que corresponde al vehículo privado, que es 0,125, lo multiplicamos por 1,6. De esta manera, fíjense que ahora al dividir numerador por denominador, obtenemos el valor de 0,692.