EL USO DE LA ESTADSTICA PARA LA TOMA DE DECISIONES EN
LA ADMINISTRACIN PBLICA
Autora: Alfonsina Szpeiner 1
Introduccin
La evaluacin es un proceso de indagacin que genera conocimiento. El sector pblico se sirve de esta tcnica para desarrollar informacin sobre el desempeo o performance de las instituciones, en sentido amplio. En otras palabras, el objetivo de este tipo de evaluacin es obtener el rendimiento (eficiencia, eficacia) con la finalidad de dar cuenta de lo realizado (Ballart 1997). En la gestin por resultados, la evaluacin surge como una herramienta para la obtencin de una valoracin rigurosa e independiente, de actividades finalizadas o en curso, que ayuda a determinar el logro de los objetivos estipulados. Sin embargo, la evaluacin es el ltimo eslabn de una cadena que comienza con la produccin de informacin 2 . La base de toda evaluacin con sentido y til a la toma de decisiones es la elaboracin de informacin confiable y objetiva a partir de datos y de los conocimientos que se deriven de esta informacin.
1 Este trabajo es una elaboracin de una profesional que se desempea en el mbito de la Direccin y Planificacin Institucional dentro de la Gerencia de Evaluacin y Planificacin del CONICET. De ninguna manera las opiniones que aqu se vierten reflejan posicin oficial alguna. 2 Segn Hintze (2000) la informacin es el primer nivel de anlisis de las organizaciones. El control, segundo nivel de anlisis, es el proceso de contrastar la informacin con patrones de referencia teorices mientras la evaluacin, tercer y ultimo nivel de anlisis, incorpora los juicios de valor explcitos o implcitos al anlisis.
2 Aunque es comprensible que en la administracin publica, a diferencia de la investigacin social aplicada, exista una mayor sensibilidad por la implicacin de los usuarios de la evaluacin en su desarrollo y por el entorno poltico que por el rigor de los anlisis, muchas veces la excesiva simplificacin de los indicadores y de los anlisis de datos no cubren las necesidades de informacin de los directivos pblicos. Contrariamente a lo que comnmente se cree, el correcto procesamiento de la informacin puede ser de fundamental importancia a niveles directivos al dar un sustento difcilmente rebatible sobre la importancia de abordar determinados temas prioritarios o lneas estratgicas de inters. Con la seleccin apropiada del anlisis de datos se logran criterios claros y ampliamente aceptados para emprender actividades en las instituciones polticas- administrativas. En este sentido, el desafo actual, del CONICET como de gran parte de la administracin pblica, es pasar de un nfasis en la recoleccin de datos a un nfasis en la utilizacin de los mismos como fuente de aprendizaje y como gua para la toma de decisiones. Es en este punto, donde la utilizacin de la estadstica como de nuevas tcticas, procesos y factores tecnolgicos de capacitacin as como conocimientos de disciplinas no tradicionalmente relacionadas a ella pueden hacer la diferencia entre una evaluacin o planificacin estratgica con sentido y til a la toma de decisiones y otra destinada a pasar inadvertida. El objetivo principal de esta ponencia es exponer una serie de herramientas para el anlisis descriptivo y visualizacin de datos que permitan enriquecer la informacin a partir de datos cuantitativos que generalmente son pobre y/o incorrectamente analizados.
3 Algunos conceptos de estadstica bsica
1) Tipo de variables El primer paso del anlisis de datos es determinar el tipo de variables con las que se va a trabajar ya que, a partir de ello, se determina el tipo de procesamiento que podremos llevar a cabo. Las variables son propiedades, caractersticas o atributos que se dan en grados o modalidades diferentes en los objetos de estudio (personas) y, por derivacin de ellas, en los grupos o categoras sociales (Briones, 1996). Estas variables se pueden clasificar segn distintos criterios siendo uno de los ms tiles, para la seleccin de la correcta tcnica de anlisis, la distincin entre cuantitativas (continuas o discretas) y categricas (ordinales o nominales). Las variables cuantitativas son aquellas que pueden contarse mientras que, las variables categricas son aquellas que, aunque se expresan en nmeros, representan caractersticas no numricas de los objetos de estudio (ej. sexo, provincia) (DRienzo y otros, 2001). Las variables cuantitativas son discretas cuando se registran en nmeros enteros (ej. nmero de personas) y continuas cuando se registran en nmeros decimales (ej. montos de sueldos). Por otra parte, las variables categricas son nominales cuando los nmeros slo se utilizan para distinguir entre categoras de individuos pero sin establecer jerarqua (ej. sexo: 1= mujeres, 2= hombres). Por ltimo, las variables categricas son ordinales cuando son propiedades con diferentes grados jerrquicos indicando relaciones del tipo mayor o menor que (ej. grado de desnutricin: 1= severo, 2= moderado y 3= leve). En trminos generales, las variables cuantitativas son susceptibles a una mayor cantidad de anlisis estadsticos ya que son las ms comnmente usadas 4 en las ciencias duras pero cabe destacar que en los ltimos aos las ciencias sociales han avanzado en las tcnicas para el anlisis de variables categricas.
2) Tipos de anlisis
- Anlisis descriptivos vs. Anlisis inferenciales Generalmente la informacin registrada en un proceso de observacin, en un primer momento, es tratada con el objetivo de describir y resumir sus caractersticas ms sobresalientes. Esto se conoce como anlisis descriptivo de la informacin y generalmente se basa en el uso de tablas o grficos y en la obtencin de medidas resumen (DRienzo y otros, 2001). Este es el tipo de anlisis ms comn aunque muchas veces no se proveen las medidas resumen. Como se explica ms adelante 3 , la obtencin de las medidas resumen en los anlisis es potencialmente de gran utilidad. Las medidas resumen sirven para describir en forma sinttica un conjunto de datos que constituyen una muestra tomada de alguna poblacin. Existen cuatro clases de medidas de resumen: las medidas de centro, las medidas de posicin, (las de centro son casos especiales de estas ltimas), las medidas de dispersin y las medidas de forma o distribuciones de frecuencia. La estadstica inferencial, va ms all de la recoleccin, clasificacin y presentacin de datos que realiza la estadstica descriptiva. La estadstica inferencial agrupa las tcnicas de anlisis dirigido a las pruebas de hiptesis en las que, con base a los resultados, se hacen generalizaciones acerca de toda la poblacin, a partir de una muestra (Hernndez G, 1989). El detalle de este tipo
3 Ver el apartado Herramientas para el anlisis descriptivo de los datos en la Administracin Pblica. 5 de anlisis, aunque sumamente interesantes y de gran utilidad potencial en el mbito de la administracin pblica, escapan a los lmites de esta ponencia 4 .
- Anlisis uni, bi o trivariados vs. Anlisis multivariados El anlisis univariado es un anlisis basado en una sola variable y en el caso de que se hayan tomado varias variables, analiza a cada una por separado. En el anlisis divariado, el inters es disear tablas con tabulaciones cruzadas, es decir, las categoras de una variable se cruzan con las categoras de una segunda variable. Al incluir una tercera variable que generalmente se utiliza como variable control, el anlisis se vuelve trivariado. Este ltimo anlisis permite analizar la asociacin entre las dos variables, controlando el efecto de una tercer variable mediante la observacin de las dos primeras sobre cada condicin que presenta la tercera. Estos tres tipos de anlisis (uni, bi o trivariado) son los ms comnmente usados en diversas disciplinas. Dependiendo del nmero de variables, el tipo de variables y el tipo de distribucin de frecuencias de esas variables son varias las pruebas estadsticas inferenciales que pueden ser utilizadas. Entre las ms comunes se encuentran: Test de Chi cuadrado, Test T, y Anlisis de la Varianza (Hernandez Sampieri y otros, 2006). Las tcnicas multivariadas, aunque son de poco uso comn, tienen un enorme potencial informativo. El punto crucial en estas tcnicas es que son capaces de describir y analizar observaciones multidimensionales obtenidas al relevar informacin sobre varias variables para cada una de las unidades o casos en estudio. Un ejemplo podran ser las distintas variables econmicas y sociales que pueden registrarse para la poblacin de una provincia. Existen varios
4 Alguna bibliografa para consultar: Hernndez Sampieri y otros (2006), Di Rienzo y otros (2001), Sokal y Rohlf (1995). 6 mtodos multivariados 5 no slo descriptivos (ej. anlisis de componentes principales, anlisis de correspondencia, anlisis de conglomerados o clusters) sino tambin inferenciales (ej. anlisis de discriminantes, anlisis de correlaciones cannicas) pero en esta ponencia, por una cuestin de espacio, slo me abocar, y en forma resumida, al desarrollo de uno de estos anlisis: el anlisis de componentes principales.
Herramientas para el anlisis descriptivo de datos en la administracin pblica
Como ya he mencionado, en muchos casos, el anlisis de datos aun cuando slo es descriptivo es adems pobre y/o incorrecto. En esta seccin mostrar como a travs de la incorporacin de algunas herramientas estadsticas y/o tecnolgicas poco utilizadas en algunos casos (medias resumen, sistemas de informacin geogrfica y anlisis multivariados) es posible obtener importantes ventajas a la hora de realizar el anlisis descriptivo de los datos y la produccin de informacin til para la toma de decisiones por parte de los directivos.
1) Obtencin de las Medidas resumen El anlisis descriptivo de los datos, primer paso en la generacin de la informacin, no slo se resume a la elaboracin de tablas o cuadros que muestren, en valores absolutos o porcentajes, los valores que adquieren distintas variables para cada unidad de estudio. Para una correcta interpretacin de estos datos, las tablas deberan mostrar tambin los valores de las medidas resumen que, segn sea el caso, podrn sern medidas de posicin, de dispersin o
5 Para mayor detalle, un libro base es Manly (2005). 7 ambas. Entre las medidas de posicin (o tendencia central) las ms usadas son: la media muestral (x), los cuantiles (p), la mediana muestral (me) y el modo muestral (mo). Mientras que, para describir la dispersin o variabilidad de los elementos de una muestra, las medidas que se encuentran con mayor frecuencia en la literatura tcnica son el rango muestral, el rango intercuartlico, la varianza, el desvo estndar o desviacin estndar muestral y el coeficiente de variacin muestral. En el ejemplo 1 se toman datos relacionados al mbito de la Ciencia y Tcnica (porcentajes del Producto Bruto Interno utilizados en gastos en Investigacin y Desarrollo por distintos pases) para realizar un anlisis descriptivo con medidas resumen e ilustrar las ventajas de su uso como fuente de informacin til a la toma de decisiones.
2) Uso de Sistemas de informacin geogrfica (SIG) para la visualizacin de la informacin En la administracin pblica es comn la elaboracin de tablas con muchas columnas y filas. Una herramienta de gran utilidad, para facilitar tanto la lectura como la interpretacin de los datos, es la elaboracin de mapas a travs de sistemas de informacin geogrfica. Un Sistema de Informacin Geogrfica (SIG o GIS, por su nombre en ingls) es una integracin organizada de hardware, software, datos geogrficos y personal, diseada para capturar, almacenar, manejar, analizar, modelar y representar en todas sus formas la informacin geogrficamente referenciada con el fin de resolver problemas complejos de planificacin y gestin. Tambin puede definirse como un modelo de una parte de la realidad referido a un sistema de coordenadas terrestre y construido para satisfacer unas necesidades concretas de informacin. Estos sistemas permiten 8 separar la informacin en diferentes capas temticas y almacenarlas independientemente, permitiendo trabajar con ellas de manera rpida y sencilla, y facilitando al profesional la posibilidad de relacionar la informacin existente y producir mapas que resuman esta informacin. En el ejemplo 2 se presenta, a modo ilustrativo, un mapa GIS 6 basado en informacin ficticia que simula variables comnmente usadas en organismos de Ciencia y Tcnica (i.e. CONICET) como son el nmero de investigadores y el nmero de becarios por provincia as como una breve explicacin del potencial uso de este tipo de mapas en la administracin pblica.
3) Anlisis Multivariado Como ya se ha mencionado, la enorme ventaja de los anlisis multivariados es que permiten observar el conjunto total de casos y variables en forma simultnea (no una a una) y determinar patrones de agrupamiento de los casos o variables. Uno de los mtodos multivariados ms utilizados es el anlisis de componentes principales (por sus siglas en ingls, CPA). Este anlisis, como primer paso, evala todos los datos y variables y realiza ndices a partir de combinaciones de las variables. Posteriormente, selecciona los ndices (o combinaciones de variables) que permiten explicar la mayor variabilidad posible del conjunto de la informacin y, finalmente, reordena los casos segn estos ndices. En el ejemplo 3, a partir de datos reales tomados de una base de datos internacional (ISI web of knowledge) sobre distintas categoras de revistas en el
6 Se agradece a Regina Vidosa y a Damin La Sala por el desarrollo del mapa SIG que figura en este ejemplo.
9 rea de ciencias biolgicas, se realiza un anlisis de componente principales y se describen las potenciales ventajas del uso de este tipo de anlisis en la administracin pblica.
Algunas reflexiones finales
A lo largo de este trabajo, he tratado de aportar reflexiones y herramientas en vistas a la mejora de la produccin de informacin, base de la evaluacin de polticas, instituciones y programas, en el mbito de la administracin pblica, con nfasis en los organismos de ciencia y tcnica. Pese al enfoque limitado de esta ponencia, en relacin a la enorme variedad de herramientas disponibles para el anlisis de la informacin, creo haber aportado argumentos suficientes de la utilidad del uso de la estadstica as como de otras disciplinas y/o tecnologas para facilitar el anlisis y visualizacin de la informacin y ayudar a la toma las decisiones. Indudablemente, una de las principales limitaciones para la incorporacin de algunas de estas herramientas de anlisis en la administracin pblica es la falta de capacidades institucionales con las cuales enfrentar nuevas tcnicas en el manejo de datos. Sin embargo, al menos hasta la generacin de capacidades institucionales que sean capaces de abordar este tipo de problemas, esto puede revertirse fcilmente con la simple consulta a especialistas. Lo ms importante, en este como en muchos otros casos, es la conviccin de la necesidad de un cambio en la cultura de la administracin que promueva una administracin moderna y eficiente no slo mirando a la sociedad sino tambin en constante autocrtica. 10
Ejemplo 1: Porcentaje del Producto Bruto interno (PBI) utilizado en gastos en Investigacin y Desarrollo (I & D) en pases seleccionados desde el ao 2002 hasta el ao 2005. La Tabla 1 muestra el porcentaje (%) del PBI gastado en I &D de 11 pases seleccionados desde 2002 a 2005. Como puede verse en la tabla, no se reportan medidas resumen. Tabla 1. Ejemplo de una tabla de uso comn en el procesamiento de datos en la administracin pblica. Los datos son slo a modo de ejemplo.
A continuacin, se muestran las medidas resumen surgidas de la tabla 1 (Tabla 2): Tabla 2. Ejemplo de una tabla de medidas resumen. Los datos de origen son los de la tabla 1.
Ejemplo 1 (continuacin) La pregunta bsica que surge de la comparacin de las tablas 1 y 2 es, que informacin pueden proveer las medidas resumen? En que mejora obtener y reportar estos datos? Como puede verse, la tabla 2 enriquece ampliamente la informacin de la tabla 1. En la columna n puede verse que pas/pases tiene datos faltantes mientras en la columna media, se observan los valores promedio de PBI utilizados en I & D entre 2002 y 2005. Pero el dato mas importante que se incorpora con la tabla 2 (y muchas veces ausente en las tablas) es el desvo estndar (D. E.). El desvo estndar es un estimador de la variabilidad de los datos. En el ejemplo, este dato muestra que Chile sera el pas con menos cambios en su % del PBI asignado a I &D entre 2002 y 2005, mientras China, es el pas con mayor variabilidad. Adems, pueden resultar sumamente tiles los valores mnimos y mximos de los gastos en I & D para cada pas de la tabla 2. En el caso de la mediana, que expresa donde esta la mitad de los datos, si su valor es igual a la media indica que los cambios en la variable son normales y caso contrario que los cambios estn sesgados (ej. existe una fuerte tendencia a disminuir o aumentar). Por ltimo, Q1 expresa el primer cuartil (valor igual o mayor al 25% de los datos) mientras Q4 expresa el cuarto cuartil (valor igual o mayor al 75 % de los datos) que pueden ser utilizados para categorizar los pases segn su gasto en I & D. Finalmente, cabe aclarar que, el principal aporte de las medidas resumen es ms visible cuando se manejan grandes volmenes de datos, y no los pocos datos que se muestran en este ejemplo donde la mayor 12 parte de la informacin provistas por estas medidas podra ser deducible con la observacin de la tabla 1.
Ejemplo 2: Nmero de becarios por cada investigador en las distintas provincias de la Argentina.
Se utiliz un sistema de informacin geogrfica (GIS) para optimizar la visualizacin del nmero de becarios por investigador en cada provincia de la Argentina. La informacin base consisti en tres columnas: provincia, nmero de becarios, nmero de investigadores y nmero de becarios por investigador. En vez de generar una tabla con varias columnas y filas, estos datos fueron utilizados como una de las capas de informacin que proces un software libre de GIS (Quatum GIS version Tethys 1.5.0) para la elaboracin de un mapa (Figura 1). Por otra parte, se utilizaron como capa las coordenadas (latitud y longitud) de cada capital provincial. El programa permiti agrupar capas y sintetizar toda la informacin mostrando en gama de colores distinta (clidos o fros) provincias con distinto nmero de investigadores (ej. ms o menos 50 investigadores) y dentro de cada gama, mayor o menor nmero de becarios por investigador en cada provincia. Como puede verse en la Figura 1, la visualizacin de la informacin es sustancialmente mejor que una tabla con muchas columnas y filas, con las implicancias que esto potencialmente tiene para la interpretacin de la informacin a la hora de la toma de decisiones.
13
Ejemplo 2 (continuacin)
Error!
Figura 1: Mapa generado con un sistema de informacin geogrfica. Los datos son slo a modo de ejemplo y no tienen correlacin con la realidad.
14
Ejemplo 3: Tcnicas de Agrupamiento Multivariado utilizando las categoras ms importantes de revistas internacionales, segn ISI, en el rea de ciencias biolgicas. Se seleccionaron de la base ISI web of knowledge, las 30 categoras de revistas con mayor ndice de impacto en ciencias biolgicas y de la salud. Para cada una de estas categoras de revistas, se registr el factor de impacto promedio (F. de I), el nmero de citas por ao y el nmero de revistas incluidas en la categora. La tabla 3 muestra los datos crudos obtenidos en esta base internacional. Tabla 3. Principales 30 Categoras de revistas en el rea de Ciencias Biolgicas y de la Salud segn el factor de impacto en ISI. Caso Categora Total Citas anual F. de I. # Revistas 1 Biologa Celular 1372367 3,25 161 2 Ingeniera Celular y de Tejidos 25772 3,16 11 3 Neurociencias 1447440 2,79 230 4 Ciencias de la conducta 211740 2,75 49 5 Biologa Evolutiva 236745 2,75 44 6 Inmunologa 895947 2,74 128 7 Biologa del Desarrollo 230156 2,73 35 8 Biofsica 452015 2,63 74 9 Endocrinologa y Metabolismo 607774 2,63 105 10 Bioqumica y Biologa Molecular 2658327 2,58 283 11 Virologa 223580 2,52 30 12 Enfermedades infecciosas 313661 2,45 57 13 Reumatologa 143420 2,45 26 14 Hematologa 564453 2,41 61 15 Oncologa 1079109 2,41 165 16 Medicina de Cuidados Crticos 151900 2,38 22 17 Microbiologa 659242 2,36 94 19 Bioqumica mtodos de investigacin 423660 2,35 65 19 Farmacologa y Farmacia 921501 2,34 236 20 El abuso de sustancias 50287 2,29 11 21 Trasplantes 119926 2,25 24 22 Sistema respiratorio 262921 2,24 43 23 Biologa Reproductiva 132776 2,24 26 24 Neurologa clnica 743579 2,2 167 25 Psiquiatra 502613 2,2 117 26 Fisiologa 434137 2,16 75 27 Toxicologa 233474 2,13 77 28 Infecciosas y Microbiologa Clnica 367271 2,09 65 15 29 Enfermedad vascular perifrica 477509 2,03 60 30 Medicina, investigacin y experimentacin 454074 2,02 92
Ejemplo 3 (continuacin)
Con el fin de agrupar las categoras de las revistas que figuran en la tabla 3, se utiliz una aproximacin multivariada: el anlisis de componentes principales (CPA). La Figura 2 muestra como se ordenan las categoras de revistas segn la combinacin de las variables nmero de citas, nmero de revistas y factor de impacto en un CPA. El eje 1 bsicamente representa el nmero de citas y revistas para cada categora y el eje 2 el factor de impacto. Cuanto mayor es el nmero de citas o revistas que tenga la categora de revistas, la categora se ubicar ms a la derecha en el eje 1, mientras que, cuanto mayor ndice de impacto tenga la categora de revista, la categora se ubicar mas arriba en el eje 2.
Figura 2: Anlisis de Componentes Principales basado en las 30 principales categoras de revistas en ciencias biolgicas y de la salud segn ISI. 16
Ejemplo 3 (continuacin) Aunque el ordenamiento no mostr grupos bien diferenciados, el cruce de los ejes (coordenadas 0,0) fue tomado como criterio para agrupar los datos. En base a esto, se agruparon las categoras de revistas en 4 grupos: Grupo 1 (cuadro rojo) con categoras con valores positivos en eje 2 y negativos en el eje 1, Grupo 2 (cuadro azul) con categoras con valores negativos en ambos ejes, Grupo 3 (cuadro verde) con categoras positivas en ambos ejes y Grupo 4 (cuadro negro) con categoras positivas en el eje 1 y negativas en el eje 2. En la tabla 4 se muestran las categoras que entraran dentro de cada grupo. Si seguimos con este ejemplo, los resultados de este anlisis multivariado (o similares pero con mas variables de inters) podran servir para proponer cambios en el puntaje que se le asigna a las publicaciones de los investigadores en las evaluaciones, que generalmente son calificadas slo en funcin de una variable de las revistas (generalmente factor de impacto). Lo importante, y generalizando, es que la utilizacin de un anlisis multivariado permiti agrupar casos similares y obtener grupos diferenciales, que, en cualquier mbito de la administracin pblica, podran ser informacin clave para designar prioridades en la asignacin de recursos o un tratamiento diferencial en trminos de medidas de promocin para distintos grupos de personas o entidades.
17
Tabla 4. Grupos obtenidos a travs del PCA Principales Categoras de revistas en el rea de Cs Biolgicas y de la Salud segn el factor de impacto en ISI.
- Ballart, Xavier (1997).Gestin pblica, anlisis y evaluacin de polticas. Revista de estudios polticos (Nueva poca) (97) 223-247. - Briones, Guillermo. 1996. Metodologa de la investigacin cuantitativa en las ciencias sociales. En: Especializacin en teora, mtodos y tcnicas de investigacin social. 1-209. - Di Rienzo, J y otros. 2001 Estadstica para las Ciencias Agropecuarias. 306pp. - Hernndez G. J. 1989. Aplicacin de la estadstica inferencial a la investigacin administrativa. Acta mexicana de ciencia y tecnologa Vol. VI (21-24) 87-94. - Hernndez Sampieri, R y otros (2006). Metodologa de la investigacin (4 edicin). McGraw-Hill, Mxico. 850 pp. - Hintze, Jorge. (2000) Control y evaluacin de gestin y resultados. Revista Documentos y aportes en Administracin publica y gestin estatal (1). Universidad Nacional del Litoral, Santa Fe. - Manly, B. (2005). Multivariate Statistical Methods A Primer. Third ed. Chapman and Hall/ CRC, Coca Raton, Fl, 214 pp. - Sokal, R. y Rohlf, F. Biometry, 3rd Edition. W. H. Freeman & co. edition, New York, 887 pp.