Está en la página 1de 25

Programa Interdisciplinario de Anlisis de Datos Universidad Nacional de Rosario- IRICE-CONICET Maip 1065 Of.

203 2000 Rosario Argentina

MANUAL DE APLICACIN DE UN TRATAMIENTO TEXTUAL BSICO MEDIANTE EL SOFTWARE SPAD

Nora Moscoloni
moscoloni@irice-conicet.gov.ar

ANLISIS DE DATOS TEXTUALES EN SPAD Grabacin de datos textuales


Para grabar mediante el SPAD se procede de la misma manera que para datos numricos, agregando una variable textual para cada respuesta abierta. Otra opcin, (a menudo la ms prctica para encuestas) es grabar las respuestas abiertas con un determinado formato en un documento de Word, luego importar este archivo y proceder a yuxtaponer los archivos numrico y textual.

Importacin de datos textuales


Los datos textuales corresponden a textos de longitud ilimitada (ejemplo: las respuestas a respuestas abiertas en las encuestas) que son importados en SPAD como variable textual. Para analizar datos textuales, deben siempre asociarse a datos numricos que se importan como variables nominales (cualitativas) y variables continuas (cuantitativas). Se distinguen cuatro casos para la importacin. 1. Los datos numricos y textuales estn en el mismo fichero Se utilizan las herramientas de importacin normales siguiendo la secuencia: Men Base - importar - Importacin fichero ASCII - para importar todo fichero alfanumrico delimitado o fijo. Men Base - importar - Importacin ODBC - para importar toda tabla de una base de datos. En estos interfaces de importacin se dispone del tipo Variable textual para calificar un dato textual. 2. Los datos numricos y los datos textuales estn en ficheros separados Se importan los datos numricos con las herramientas de importacin normales, incluidas las conexiones SAS y SPSS para crear la base de los datos numricos. Se importan los datos textuales con las mismas herramientas (excepto SAS y SPSS) para crear la base de los datos textuales. Se yuxtaponen a continuacin las dos bases utilizando el men Outil Juxtaposition para crear la base final. 3. Los datos textuales estn en un formato especfico (caso habitual en el procesamiento de encuestas) Se trata de una importacin reservada a datos textuales registrados en un fichero texto segn un formato dado. (Para los usuarios de la versin DOS 1.5, este formato es el descrito en el procedimiento ARTEX). Al utilizar esta importacin, se crea una base slo conteniendo variables textuales que pueden a continuacin yuxtaponerse (men Outil Juxtaposition) con la base de los datos numricos asociados. El orden de los individuos en las dos bases debe ser idntico. Este formato especfico es tambin muy til si los textos son muy largos ya que no tienen lmite de tamao. Formato especfico del archivo: Los datos textuales se presentan en forma de N respuestas para cada uno de los individuos (Ejemplo: Respuestas a N preguntas abiertas en una encuesta). Ejemplo (encuesta con 5 preguntas abiertas): ----1V lo que el beb ingiere pasa por el esfago hasta el estmago, los intestinos todo el tracto
2

digestivo la parte encargada de la absorcin de los nutrientes & la leche en calcio, oxgeno, protenas, etc., pasarn a la sangre la cual alimentar el oxgeno, a las clulas para todo, msculos, pulmones, nervios, etc. ++++ se desequilibrar la cadena alimenticia tanto carnvora como herbvora, el agua y lo que habita en ella estarn inaccesibles para otro ser vivo. ++++ no aumenta debido al proceso de & el cual deshace el 70% de las hojas y las transforma en tierra. ++++ la piel no se rompe porque la piel crece con el cuerpo es elstica y est viva, es decir, funciona al mismo nivel de crecimiento del resto del cuerpo. ++++ si el vaso se revuelve una parte se disuelve, y si no, toda se deposita al fondo debido a la diferencia molecular entre la sacarosa como el azcar y una sustancia oxigenada como el agua. H2O. ----2V por la alimentacin del beb, al ingerir la leche de la madre, su alimento ofrece calcio y dems nutrientes para un buen desarrollo e inmunidad. ++++ los dems animales de la cadena trfica morirn o tendrn que adaptarse a otro tipo de alimentacin por la ausencia de los herbvoros. ++++ la capa no aumenta porque se va descomponiendo y usando como materia orgnica (abono) y continuamente se est aprovechando. ++++ no se rompe porque est en continuo crecimiento y desarrollo, se genera rpidamente. ++++ se disuelve, si se pone mucha azcar se satura la solucin. ----3V . ----130CE durante dicho perodo de tiempo, la leche (alimento que contiene una amplia variedad de nutrientes esenciales para el crecimiento del beb) que incorpor el nio le permitieron desarrollar sus distintos aparatos o sistemas. ++++ en el lago al derramarse el veneno, las plantas presentes absorben dicha sustancia, por ende los animales herbvoros comern estos vegetales, incorporando de esta manera el txico, por ende se envenenarn y morirn. ++++ porque estas hojas empiezan a descomponerse y forman parte del humus (abono) del suelo. ++++ porque la piel contiene distintos componentes, entre ellos queratina (protena) que le confiere su capacidad elstica. ++++ se solubiliza, es decir se obtiene una solucin. causas del fenmeno: las molculas de agua reaccionan con el soluto, formando la solucin. ====

Para cada individuo, cada respuesta es separada de la siguiente por un registro conteniendo los caracteres ++++ en columnas 1 a 4 (separador de respuestas). Cada nuevo individuo es introducido por un registro especial que contiene los caracteres ---en columnas 1 a 4. Tras estos 4 caracteres especiales figura de manera obligatoria el identificador del individuo. Este identificador servir de indicador de comparacin en la yuxtaposicin de la base de los datos textuales y de la base de los datos numricos. En las dos bases y en consecuencia en los dos ficheros iniciales, los identificadores de individuos deben ser idnticos y los individuos deben ser registrados en el mismo orden. En SPAD el identificador de los individuos se limita a 60 caracteres. Una respuesta vaca se materializa por un registro que contiene al menos un blanco. El final del fichero se caracteriza por un registro especial que contiene los caracteres ==== en columnas 1 a 4. Excepto los registros especiales (separadores de individuos y respuestas), los registros conteniendo las respuestas se limitan a 4000 caracteres ilimitados sobre el nmero de registros para una respuesta. Es preferible limitar la longitud de estos registros a un centenar de caracteres y pasar al registro siguiente. Si se utiliza un tratamiento de texto de tipo Word, es necesario poner control de carro al final de cada registro y salvarlo en formato texto. Hay que tener en cuenta que el programa reconoce y cuenta formas grficas idnticas, por lo tanto ser conveniente grabar el texto todo en maysculas o todo en minsculas. En este ltimo caso los inicios de oracin van asimismo en minsculas. Ejecucin de la importacin Active el Men - Base - importar - Importacin datos textuales. Un mensaje les recuerda que se trata de una importacin de datos textuales segn un formato especfico. Este mensaje puede suprimirse previa peticin. 1. Seleccione el fichero texto que debe importarse 2. En la ventana Importacin del fichero de los datos textuales especificar el nmero de preguntas abiertas. Se puede dar un nombre diferente a cada pregunta (opcional). Presionar Executer. El procedimiento de importacin se realiza a continuacin.

Resultados de la importacin La importacin se desarroll sin error Despus de la importacin, las redacciones de las variables textuales de la base se indican en la lista Variables de la base y se puede disponer inmediatamente las estadsticas bsicas sobre las variables. Se puede consultar el fichero de resultados (botn "diter rsultats") y el fichero acta (botn "diter compte rendu"). El fichero compte rendu indica todos los problemas encontrados en la importacin (cdigos inesperados, variables transformadas.). Se aconseja su consulta aunque la importacin se haya desarrollado sin errores fatales. La importacin tiene errores. Si en la ventana se muestra el mensaje La base n'a pas t gnre. Presione el botn Il y a des erreurs que edita el fichero compte rendu y los errores encontrados. Efecte las correcciones necesarias en su fichero de datos o en la parametrizacin de la importacin y ejecute de nuevo. Para dejar esta ventana, presione el botn Ok. En caso de error, presione OK, corrija el error y reactive la ejecucin. Si el mensaje de error hace referencia a una lnea del archivo de texto, se puede editar el documento mediante Word, se numera el documento en Configurar pgina, Diseo, Nmeros de lnea, Continua. Y luego se busca la lnea del error. Men Outil-Juxtaposition Una vez importados los archivos numrico y textual se accede al men OutilJuxtaposition para unir ambos archivos. Para ello no es necesario construir nueva

hilera, el programa la crea a partir de la seleccin del men:

Se ejecuta la hilera construida y se obtiene la base numrica y textual con el nombre y ubicacin previamente dados.

TRATAMIENTO TEXTUAL BSICO Presentacin del corpus ejemplo


La aplicacin de los mtodos se realiza en base al ejemplo de una encuesta realizada en una ciudad de la provincia de Santa Fe, Argentina. Se trataba de indagar la opinin de los ciudadanos acerca de la gestin gubernativa municipal. El cuestionario constaba de una serie de preguntas cerradas relativas al tema, entre ellas en una se preguntaba Qu imagen tiene Ud. del Concejo Municipal? y luego mediante una pregunta abierta se indagaba el por qu. En primer lugar al recibir el corpus, es necesario saber qu dicen globalmente los entrevistados. Contestaron a esta encuesta 295 individuos. El corpus tiene una longitud total de 3108 ocurrencias y est formado por 735 formas distintas. Generalmente no se trabaja a partir de todas las formas, sino nicamente de las formas repetidas un cierto nmero de veces; en este ejemplo hemos elegido el umbral de frecuencia igual a 2, es decir conservar las formas empleadas al menos 3 veces por los entrevistados. Se comparan los individuos, a partir de lo que tienen en comn, las formas empleadas una nica vez no permiten comparacin ninguna. Si se conservan las formas pronunciadas al menos 3 veces se reduce mucho el glosario de palabras. En nuestro caso, nos quedamos con 102 suprimiendo adems las formas herramientas, es decir

ciertas formas gramaticales, como los artculos, las proposiciones o conjunciones que tienen una frecuencia muy alta pero que en realidad no aportan significado comparativo.

Procedimientos para la construccin del vocabulario


Se construye la hilera de la manera usual seleccionando como hileras predefinidas los anlisis textuales. Ello habilita la seleccin del procedimiento de construccin del vocabulario.

La hilera se presenta de la siguiente manera luego de haber activado las etapas Mots, donde se selecciona la respuesta abierta a analizar y Segme que en general se deja con los parmetros por defecto; y de haber ejecutado la hilera. A partir de esta salida se puede iniciar la seleccin de palabras y segmentos que se conservarn en los anlisis ulteriores. Hay que tener en cuenta que las palabras eliminadas en la etapa Mots no darn origen a los segmentos correspondientes en la etapa Segme. Por ejemplo si en la etapa Mots se elimina la palabra problemas no aparecern en el listado de segmentos: los problemas de la gente, los problemas de la ciudad, etc.

Glosarios
El cuadro siguiente seala resultados habituales. Las formas ms frecuentes aqu son: no, que, de, la, se, que tienen una frecuencia superior o casi igual a 80 ocurrencias: son palabras herramientas. Luego viene gente y otras palabras que tienen un cierto contenido semntico: intendente, concejo, son palabras que refieren a la pregunta anterior. Es un efecto habitual que los entrevistados recojan las propias palabras del cuestionario para contestar. Tambin llama la atencin la alta frecuencia de la negacin.

Cuando uno trabaja sobre un tema es necesario leer la lista de palabras, el glosario, reordenadas por frecuencia, como es el caso aqu, o bien ordenadas alfabticamente. En la tabla siguiente se han suprimido a los efectos de aligerar el listado gran cantidad de palabras con distintas frecuencias. Estos mtodos operan mediante una especie de deconstruccin del texto y ste es el primer resultado; pero es una deconstruccin que permite poner en evidencia signos totalmente transparentes al investigador cuando recorre el texto en su propia lengua. Su utilidad reside en una primera aproximacin al texto y si el corpus no es demasiado extenso sirve tambin de control. Evidentemente falta aqu el contexto en el cual se emplean las palabras. Las palabras pueden cambiar totalmente de significado segn el contexto.

10

Lista de palabras segn frecuencia Palabras empleadas no que de concejo problemas con conozco todo un tienen obras del trabajan est estn al creo esta concejales ellos yo s punto mejor eso deberan quien tratan cosa personal televisin quiere 24 22 22 16 14 14 14 14 13 13 12 11 11 10 10 10 9 9 9 6 6 4 4 3 3 2 2 1 1 7 9 3 7 4 2 6 5 3 8 4 5 2 4 4 10 5 2 2 5 5 3 8 5 6 4 8 10 6 Frecuencias 252 114 102 N de letras 2 3 2

11

Segmentos repetidos
Una primera manera de acercarse al contexto es mediante el glosario de los segmentos repetidos, es decir sucesiones idnticas de palabras repetidas en el cuerpo.

He extrado algunos de los que sistemticamente se pueden obtener de la lista de todos los segmentos repetidos con una cierta frecuencia dentro del corpus. Aqu se ve un poco mejor el contexto de las palabras, el sentido que pueden tener en este corpus. Hay que tener en cuenta que la pregunta abierta por qu? fue contestada tanto por los que respondieron que tenan una imagen positiva del Concejo Municipal como por los que no lo tenan, por lo tanto las respuestas se referirn a ideas a favor tanto como a ideas en contra de la labor del Concejo Municipal. Entre las primeras pueden citarse por ejemplo: se ocupan de la gente, hacen cosas, hacen lo que pueden, nunca tuve problemas, entre las segundas no hacen nada, no se ocupan, no tienen capacidad. Claro que todava con estos elementos no podemos evaluar el peso real de unas frases y otras y sus relaciones, aunque se podra ir observando que las segundas son ms frecuentes. Para volver sobre el problema del sentido de las palabras, hay un segmento que aqu no est que es por ejemplo son muy eficientes. Es comprensible dado el contexto general de crisis del pas en el momento en el cual fue realizada la encuesta, se da entonces que las respuestas ms positivas tienen que ver con un desempeo de la autoridad municipal en realidad mediocre Es curioso ver como las palabras cambian enormemente de sentido y tambin est claro que cuando leemos un texto aportamos a la lectura todo un conocimiento exterior al texto que nos permite interpretarlo. Es una forma de subrayar los problemas que se

12

plantean en la comprensin del lenguaje natural, a partir del tratamiento de forma automtica realizado por los programas computacionales.
Lista de segmentos repetidos por orden de frecuencia Frecuencia Texto del segmento 33 no hacen 31 no se 28 porque no 23 no hacen nada 10 de la gente 7 el concejo no 7 no se ocupan 7 no los conozco 5 no se puede 4 hacen lo que 4 no trabajan 3 trabajan bien 3 la desocupacin 3 nunca tuve problemas 3 los polticos no 3 porque no hacen nada 2 piensan en sus bolsillos 2 no cumplen su funcin 2 porque son muchos 2 hacen lo que pueden

Concordancias
Otra herramienta muy til para entender mejor el sentido de las palabras son las concordancias. En SPAD esta funcin se realiza mediante la etapa CORDA (Edition des contextes des mots) La forma concejo forma parte del tema de la pregunta y es interesante observar entonces su contexto. En la tabla siguiente se consignan las concordancias encontradas.
Concordancias de la palabra concejo el concejo el concejo el concejo el concejo con la gente y resuelve concejo personalmente los problemas el el concejo el concejo el concejo el concejo el concejo en el concejo del concejo el concejo el concejo fue declarado ciudad con el slo fin concejo de crear este famoso considera que tiene una funcin concejo

est integrado por malas personas podra trabajar mejor hace poltica y no soluciona problemas no presta atencin a la gente no responde trabaja mucho en la cultura del municipio no trabaja para la gente no busca en el pueblo los problemas a solucionar en las sesiones se pelea por cuestiones polticas y no es desordenado el inters particular es mayor que el traban a concejales y los dems no trabajan algunos concejales no trabaja demasiado para el pueblo no se ocupa de la gente

13

corporativa y no de la imagen de un no hacen nada el el el adentro del me gusta el desempeo del sueldos muy altos para estar calentando una silla en el que s yo punto no se mucho del

concejo concejo concejo concejo concejo concejo concejo concejo

que no hace nada no existe tratara de que la ciudad volviera a ser la que fue antes trabaja poco algunos hacen algo bien otros lo hacen por poltica y otros si tuvieran ms presupuesto haran ms cosas

punto bueno no es

Pero tambin puede ser interesante encontrar las concordancias de otras palabras que pueden aadir significado por oposicin, en este caso por ejemplo, era importante examinar las de la palabra intendente, ya que se tena la impresin de una diferencia en la percepcin de la gente con respecto a la labor de los dos rganos gubernamentales: el ejecutivo y el legislativo. Concordancias de la palabra: intendente
el el al el el hay nepotismo por parte del el estoy vinculado al el el intendente pago deudas del anterior el el el el el al el el el no hubo claridad en la reeleccin del el creo que al estar este al intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente intendente se ocupa de la gente le consigue trabajo a los conocidos no se lo ve en la calle es de perfil bajo recorre el pueblo es humilde se se relaciona con la gente y resuelve personalmente los trabaja pero no tiene los medios necesarios pago deudas del anterior intendente a los empleados a los empleados municipales y trabajan bien S es buena persona pero rodeado de mala tendra que recorrer ms la ciudad y ver personalmente los pone muchas condiciones para espectculos pblicos y se trata de bajar la desocupacin le busca trabajo a la gente le falta decisin no se hace conocer no recorre la ciudad tiene buenas intenciones pero no hay gente que lo acompae no se compromete con la gente s lo hace sus colaboradores son buenos se le fue la mano el control

Comparando ambos grupos de concordancias se ve que las opiniones negativas con respecto al Concejo son prcticamente el doble de las expresadas sobre el intendente. Sera interesante profundizar en el sentido de la cultura poltica de una comunidad,

14

dando cuenta de la opinin diferencial de la gente en vista a la actuacin de una figura poltica visible, con sus posibles connotaciones demaggicas, y un cuerpo de gobierno del cual no se conoce mucho la funcin. Otra forma de explorar estos glosarios, es por ejemplo escoger un aspecto particular o palabras que se correspondan, o ciertas categoras importantes, como por ejemplo elegir verbos y los segmentos que los contienen.

Reagrupamiento de las respuestas en textos artificiales


Una opcin de las ms interesantes es particionar el corpus en textos artificiales 1 , construidos a partir de grupos de respuestas. Estos grupos pueden referirse a categoras de una variable nominal o a combinaciones de ellas. Opcin TALEX En SPAD esta funcin se realiza mediante el procedimiento TALEX (tableau lexicale de contingence) que construye una tabla de contingencia de palabras o segmentos en fila, por categoras de una variable nominal en columna.

En el men de la etapa TALEX se selecciona/n la/s variable/s a cruzar con el listado de palabras y se define el nombre y ubicacin del archivo en el cual se grabar esta nueva tabla o matriz de datos. Ejecutando la etapa TALEX obtendremos los indicadores del vocabulario para cada modalidad de la variable elegida. Por ejemplo, si decidimos reagrupar a las respuestas segn la edad y el sexo de los entrevistados, obtenemos 8 grupos de respuestas a las que tradicionalmente llamamos textos.

Se llaman textos artificiales porque no estn as construidos en el corpus, sino que son segmentados a partir de las categoras de una variable 15

Reagrupamiento segn: Sexo * Edad


Etiqueta del grupo Femenino * Menor 20 Femenino * 2030 Femenino * 3050 Femenino * >50 Masculin * Menor 20 Masculin * 2030 Masculin * 3050 Masculin * >50 Total N de individuos 9 19 59 59 8 30 61 50 295 N de respuestas 9 19 59 59 8 30 61 50 295

Al reagrupar los individuos y las respuestas segn una variable cerrada podemos crear tablas de frecuencia, tablas de contingencias, que sern las tablas sometidas a los mtodos estadsticos. Este tipo de tabla cuenta la frecuencia con la cual se emplea cada forma conservada en cada uno de los textos o categoras de individuos. Despus veremos que, sin reagrupar, tambin puede ser interesante hacer el tratamiento y analizar la tabla de contingencia de los individuos, las respuestas individuales, cruzados con las formas. Es decir la tabla que contiene la frecuencia con la cual cada individuo emplea cada una de las formas. Distribucin de las formas (Palabras/Segmentos) en los grupos
Etiqueta del grupo Femenino * Menor 20 Femenino * 2030 Femenino * 3050 Femenino * >50 Masculin * Menor 20 Masculin * 2030 Masculin * 3050 Masculin * >50 Total N de formas 216 314 882 755 95 364 991 735 4352 % del total 5 7 20 17 2 8 23 17 100 Media por respuesta 24 17 15 13 12 12 16 15 15 N de formas distintas 25 27 69 75 12 44 68 65 % N de Formas formas del conservadas grupo 11.570 29 8.600 31 7.820 119 9.930 110 12.630 15 12.090 65 6.860 120 8.840 109 598

Las mujeres jvenes seran las que expresan respuestas ms largas, sin embargo, en el caso de nuestro ejemplo la variable nominal ms interesante para tener en cuenta, ser evidentemente la que hace referencia a la imagen positiva o negativa acerca del Concejo Municipal, pero aqu las palabras por respuesta son parejas en las distintas categoras.

16

Reagrupamiento segn: Qu imagen tiene del Concejo Municipal?


Etiqueta del grupo CMun.mala CMun.regular CMun.buena CMun.no sabe Total N de individuos 67 99 47 82 295 N de respuestas 67 99 47 82 295

Distribucin de las formas (Palabras/Segmentos) en los grupos


Etiqueta del grupo CMun.mala CMun.regular CMun.buena CMun.no sabe Total N de formas 1202 1668 886 596 4352 % del total 28 38 20 14 100 Media por respuesta 18 17 19 7 15 N de formas distintas 87.00 94.00 50.00 38.00 % N de Formas formas del conservadas grupo 7.240 204 5.640 214 5.640 86 6.380 94 598

Anlisis factorial de correspondencias


A continuacin del procedimiento TALEX podemos realizar un anlisis factorial de correspondencias de la nueva tabla de contingencia construida. Para ello deberemos construir una nueva hilera, a partir de la nueva base que cruza las palabras del vocabulario reducido por las modalidades de la/s variable/s seleccionada/s, incluyendo las etapas del anlisis factorial y clasificacin numrica clsicos. Tal como sera con una tabla de contingencia que cruzara dos variables nominales cualesquiera 2 .

Ver: Bcue, M. Manual de introduccin a los mtodos factoriales y clasificacin con SPAD, Servei dEstadstica, Universitat Autnoma de Barcelona. Disponible en: http://www.uab.es/s-estadistica/ 17

De ese anlisis de correspondencias binario de la tabla contingencia obtenemos el siguiente grfico factorial. Proyeccin de palabras y segmentos en los ejes factoriales 1 y 2

Podemos decir que es la mejor representacin plana del contenido de la tabla formascategoras. La interpretacin es que dos categoras prximas en el grfico emplean ms o menos las mismas palabras. A la inversa dos palabras prximas son usadas por las mismas categoras de individuos. Por el contrario dos categoras alejadas emplean un vocabulario muy distinto y dos palabras alejadas vienen empleadas por categoras muy distintas. En el centro de gravedad encontramos las palabras pronunciadas ms o menos con la misma frecuencia por todos los grupos, palabras no diferenciadoras. En la periferia a la inversa, encontramos palabras que diferencian a los grupos de individuos. De la misma forma, las categoras que estn en el centro de gravedad tienen un vocabulario medio, y las categoras ms extremas tienen un vocabulario ms especfico. Se observa en primer lugar que el eje 1 opone el vocabulario correspondiente a los indiferentes que responden no saber o no conocer acerca de la actividad del Concejo Municipal, pero a la vez entre los que est presente la preocupacin por el trabajo y la desocupacin, contra los que s responden con una opinin que se ubica jerrquicamente a lo largo del eje 2 (vertical) buena hacia arriba y regular o mala hacia abajo. Estas dos ltimas estn casi confundidas y llama la atencin que an los que responden con una imagen buena, sus opiniones no son elogiosas sino a lo sumo se limitan en todo caso a disculpar el hecho de que hacen lo que pueden. Es importante destacar aqu la utilidad de la respuesta abierta porque de otro modo hubiramos podido captar el descontento generalizado con la actuacin de la clase poltica y tal vez hubiramos interpretado que una proporcin de la muestra posea en realidad una buena imagen del Concejo Municipal.

18

Opcin TEXNU Existe la posibilidad de construir otra tabla de contingencia y su correspondiente anlisis de correspondencias binario: es la tabla que cruza los individuos en fila con las palabras, segmentos y/o variables nominales en columna. Ello se realiza mediante el procedimiento TEXNU, que crea una nueva base de datos la cual deber luego utilizarse en una nueva hilera. La hilera puede ser la de anlisis factorial y clasificacin que luego nos permitir obtener por ejemplo una clasificacin de individuos caracterizados por su vocabulario comn, en sntesis un grfico factorial como el que sigue:

Palabras y segmentos caractersticos


Se considera una forma caracterstica de un texto cuando la misma viene sobreampliada en este texto de modo significativo, teniendo en cuenta el modelo hipergeomtrico que supone una seleccin al azar de las palabras. Si se extrajeran las palabras al azar la hiptesis nula podra ser que cada categora emplea ms o menos la misma palabra con la misma frecuencia. La hiptesis alternativa sera que hay una seleccin segn las caractersticas del individuo y por lo tanto la frecuencia con la cual se observa la palabra en un grupo y en la totalidad de la muestra son totalmente distintas, significativamente distintas. Segn el modelo hipergeomtrico a un nivel de significacin se asocia una probabilidad. El nivel de significacin que se presenta en las tablas es en realidad una novedad del programa SPAD para evitar tener que leer probabilidades, pues transforma esta probabilidad en el valor que corresponde de una normal central y reducida. En sntesis, veremos que la diferencia entre las frecuencias es significativa cuando el valor t es mayor que 2 o menor que -2; y tambin hay que insistir en que esto no es una inferencia, es simplemente una ordenacin de valores test a los efectos de individualizar las palabras o segmentos ms caractersticos 3 .
3

Para una exposicin ms detallada sobre el tema ver: Lebart L. Salem A. (1994) Statistique Textuelle, Dunod, Pars, pg.172 y sgtes.

19

La etapa que realiza este procedimiento en SPAD es la VOSPEC y debe ser insertada luego de realizada la construccin del vocabulario. En ella se selecciona la variable nominal a travs de la cual se construyen los textos artificiales 4 . Asimismo puede considerarse como una variable nominal las categoras originadas en las clases de una clasificacin por un procedimiento anterior y agregadas a la base de datos original. En el caso de nuestro ejemplo las personas que respondieron a la respuesta cerrada con una imagen buena, nombraron preferentemente las palabras y/o segmentos: sabe, no sabe, se puede. Vemos que el porcentaje de aparicin de no sabe en este grupo es de 2.02 mientras que su porcentaje global en el total del corpus es de 1.09 Estos valores tienen sus correspondientes frecuencias y valores test segn el criterio probabilstico que ya expresamos. Por el contrario las palabras o segmentos menos representativos del grupo de imagen buena, sern los que tengan valores test negativos, siendo el mayor de ellos el trmino nada, el cual evidentemente est caracterizando a otro grupo. Presento a continuacin las 10 palabras o segmentos ms y menos caractersticos de cada grupo.
Grupo de individuos: Cl 1/5-Img.buena Palabras o Porcentaje Porcentaje Frecuencia segmentos interno global interna caractersticos este 0.59 0.16 5 no sabe 2.02 1.09 17 tengo 0.71 0.26 6 algo 0.71 0.26 6 sabe 2.02 1.19 17 ac 0.71 0.29 6 se puede 0.59 0.23 5 bastante 0.36 0.10 3 quejas 0.36 0.10 3 tampoco 0.36 0.10 3 muchas no hacen nada trabajan para porque de la gente no hacen la de la nada 0.00 0.36 0.12 0.71 0.95 0.00 0.48 1.90 0.24 0.48 0.23 0.74 0.42 1.22 1.54 0.32 1.06 2.83 0.80 1.42 0 3 1 6 8 0 4 16 2 4

Frecuencia global 5 34 8 8 37 9 7 3 3 3 7 23 13 38 48 10 33 88 25 44

ValorTest 2.981 2.662 2.488 2.488 2.320 2.173 2.086 2.059 2.059 2.059 -1.229 -1.305 -1.306 -1.424 -1.506 -1.718 -1.811 -1.827 -2.059 -2.748

Probabilidad 0.001 0.004 0.006 0.006 0.010 0.015 0.019 0.020 0.020 0.020 0.110 0.096 0.096 0.077 0.066 0.043 0.035 0.034 0.020 0.003

Ver p. 13 20

Grupo de individuos: Cl 2/5-Muy buena imagen Palabras o Porcentaje Porcentaje Frecuencia segmentos interno global interno caractersticos trabajan 1.34 0.42 8 se ocupan de la 0.50 0.10 3 gente el 3.85 2.38 23 no trabajan 0.50 0.13 3 para el 0.50 0.13 3 intendente 1.51 0.77 9 de la gente 0.84 0.32 5 el concejo no 0.67 0.23 4 se ocupan de 0.67 0.23 4 la gente 1.67 0.90 10 creo que creo como lo que ms Y que ciudad todos la ciudad porque 0.00 0.00 0.17 0.17 0.17 1.00 2.34 0.17 0.00 0.00 0.50 0.32 0.32 0.58 0.61 0.64 1.87 3.67 0.84 0.55 0.58 1.54 0 0 1 1 1 6 14 1 0 0 3

Frecuencia global 13 3 74 4 4 24 10 7 7 28 10 10 18 19 20 58 114 26 17 18 48

ValorTest 3.113 2.448 2.352 1.968 1.968 1.907 1.905 1.889 1.889 1.859 -1.182 -1.187 -1.215 -1.304 -1.408 -1.631 -1.864 -1.921 -1.940 -2.021 -2.311

Probabilidad 0.001 0.007 0.009 0.025 0.025 0.028 0.028 0.029 0.029 0.032 0.119 0.118 0.112 0.096 0.080 0.051 0.031 0.027 0.026 0.022 0.010

Grupo de individuos: Cl 3/5- No sabe Palabras o Porcentaje Porcentaje Frecuencia segmentos interno global interno caractersticos contesta 0.99 0.06 2 en algunas 0.99 0.06 2 no contesta 0.99 0.06 2 lo que se ve 0.99 0.06 2 punto 1.49 0.19 3 la ciudad 2.48 0.58 5 ciudad 2.97 0.84 6 de la ciudad 1.49 0.23 3 que se ve 0.99 0.10 2 s 1.49 0.29 3 las conozco hacer y problemas porque la gente hay gente 0.50 0.00 0.00 0.99 0.00 0.50 0.00 0.00 0.00 1.09 0.51 0.51 1.87 0.71 1.54 0.90 1.06 1.13 1 0 0 2 0 1 0 0 0

Frecuencia global 2 2 2 2 6 18 26 7 3 9 34 16 16 58 22 48 28 33 35

ValorTest 2.635 2.629 2.629 2.629 2.599 2.569 2.551 2.406 2.248 2.121 -0.410 -0.412 -0.412 -0.640 -0.749 -0.956 -1.021 -1.240 -1.317

Probabilidad 0.004 0.004 0.004 0.004 0.005 0.005 0.005 0.008 0.012 0.017 0.341 0.340 0.340 0.261 0.227 0.169 0.154 0.108 0.094

21

Grupo de individuos: Cl 4/5- Img regular Palabras o Porcentaje Porcentaje Frecuencia segmentos interno global interno caractersticos muchos 0.96 0.23 6 porque 3.03 1.54 19 hace nada 0.48 0.10 3 son muchos 0.48 0.10 3 pocos 0.48 0.13 3 regular 0.48 0.13 3 la poltica 0.48 0.13 3 porque son 0.48 0.13 3 bla 0.32 0.06 2 otra 0.32 0.06 2 mismo 0.32 0.06 2 puede tengo no sabe el ac estn concejo intendente el intendente el concejo 0.00 0.00 0.64 1.75 0.00 0.00 0.16 0.16 0.00 0.00 0.26 0.26 1.09 2.38 0.29 0.35 0.77 0.77 0.51 0.55 0 0 4 11 0 0 1 1 0 0

Frecuencia global 7 48 3 3 4 4 4 4 2 2 2 8 8 34 74 9 11 24 24 16 17

ValorTest 3.362 2.968 2.395 2.395 1.912 1.912 1.908 1.908 1.742 1.742 1.742 -0.978 -0.978 -1.009 -1.014 -1.123 -1.384 -1.867 -1.867 -1.922 -2.018

Probabilidad 0.000 0.001 0.008 0.008 0.028 0.028 0.028 0.028 0.041 0.041 0.041 0.164 0.164 0.157 0.155 0.131 0.083 0.031 0.031 0.027 0.022

Grupo de individuos: Cl 5/5- Img mala Palabras o Porcentaje Porcentaje Frecuencia segmentos interno global interno caractersticos son todos unos 0.48 0.13 4 nada 2.38 1.42 20 pblicos 0.36 0.10 3 de nada 0.36 0.10 3 como la gente 0.36 0.10 3 poltica y 0.36 0.10 3 no les importa 0.36 0.10 3 trabajo 0.48 0.16 4 son todos 0.48 0.16 4 y 2.62 1.87 22 mucho tengo yo s con lo que que sabe 0.24 0.00 0.00 0.00 0.24 0.12 2.50 0.48 0.58 0.26 0.29 0.29 0.71 0.61 3.67 1.19 2 0 0 0 2 1 21 4

Frecuencia global 4 44 3 3 3 3 3 5 5 58 18 8 9 9 22 19 114 37

ValorTest 2.552 2.501 2.062 2.058 2.058 2.058 2.058 2.039 2.034 1.709 -1.290 -1.402 -1.566 -1.566 -1.755 -2.041 -2.049 -2.176

Probabilidad 0.005 0.006 0.020 0.020 0.020 0.020 0.020 0.021 0.021 0.044 0.098 0.080 0.059 0.059 0.040 0.021 0.020 0.015

22

me no sabe

0.12 0.36

0.68 1.09

1 3

21 34

-2.269 -2.358

0.012 0.009

Respuestas caractersticas
A partir de la seleccin de palabras se puede determinar que algunas respuestas son caractersticas de cada grupo. Se hace de la forma siguiente. Para cada una de las respuestas de un grupo o texto, se calcula el valor t medio para una palabra de ese texto: cada palabra tiene un valor t, se suman los valores test de las palabras de cada respuesta, se divide por el nmero de palabras y se obtiene as el valor tmedio. A posteriori se reordenan las respuestas desde la que tiene valor t ms alto, a la respuesta con el valor t ms bajo, y as se obtienen las respuestas originales ms caractersticas. Esto es un retorno al texto que permite entender o precisar de qu forma los individuos hablan en cada grupo. Evidentemente no se trata de decir que la respuesta que est en primer lugar es la respuesta caracterstica, sino que es una forma de reordenar las respuestas del grupo y ver en las primeras respuestas cmo se expresan los individuos de este grupo. Para complementar la interpretacin avanzamos con el clculo de las 10 respuestas ms caractersticas correspondientes a cada categora y que se derivan de las especificidades de palabras o segmentos. Ellas corresponden a respuestas originales y se presentan a continuacin.
Grupo de individuos: CMun.mala Critre de Numro Libell de la rponse classement porque cobran demasiado por lo poco que hacen, que esa plata la 0.745 1 inviertan en otra cosa. se tendran que ocupar ms de la gente con escasos recursos. el intendente tendra que recorrer ms la ciudad y ver personalmente los problemas. el intendente pone muchas 0.780 2 condiciones para espectculos pblicos y se hace difcil hacerlos. el sector de obras pblicas es el que mejor trabaja. los dems trabajan bien tambin. ocupan cargos sin hacer nada, ac las cosas estn siempre 0.784 3 iguales, y ellos se llevan la plata. son muchos y demasiados sueldos. que esa plata la usen para 0.788 4 otra cosa. 0.789 5 no tendran que existir, se llevan toda la plata, y no hacen nada. al intendente le falta decisin. el concejo es desordenado, el 0.809 6 inters particular es mayor que el inters por la gente. 0.844 7 no tienen capacidad, viven de la poltica y del pueblo seis concejales no hacen falta. que pongan los sueldos para 0.845 8 dispensarios. no saben hacer nada, la gente tiene que hacer los trabajos que 0.860 9 deberan hacer los polticos, no hacen los deberes que para eso el pueblo los eligi 0.882 10 no les importa la ciudad, todo es inters personal. Grupo de individuos: CMun.regular Critre de Numro Libell de la rponse classement 0.700 1 tiran proyectos que no cumplen. siempre hablan pavadas.

23

0.723 0.815 0.817 0.854 0.854 0.854 0.864 0.864 0.865

2 3 4 5 6 7 8 9 10

porque no cumplen su funcin correctamente y cobran sueldos sin hacer mucho. en zona cntrica se ven todas las mejoras, pero fuera de ella se lucha por una mejora del barrio, y sin respuesta. ya tienen una respuesta: regular. y regular, ni buena ni mala, hacen cosas pero hay muchas ms para hacer no s, regular, es decir hay cosas que podran estar mejor por lo que se ve, regular. tendra que decir actan y gobiernan bien, si tanto en la zona cntrica, como en la periferia, se vieron igual de mejoras. solo tiran agua para su propio molino, se llenan los bolsillos y se acomodan ellos. hay personas que no estn capacitadas para distintos cargos, hay personas de la municipalidad que no trabajan. el concejo no se ocupa de la gente.

Grupo de individuos: CMun.buena Critre de Numro Libell de la rponse classement no estoy de acuerdo con embolsar las ramas para que las lleven. no hay maquinarias para arreglar las calles. la gente no ayuda al gobierno para la limpieza. el intendente trabaja pero no tiene los 0.784 1 medios necesarios. el concejo trabaja mucho en la cultura del municipio. 0.797 2 siempre atendieron las quejas. 0.797 3 no tengo quejas, a m me han atendido siempre muy bien. 0.797 4 no tiene quejas. yo soy jubilada y con eso te digo que no me alcanza con lo que ganamos, pero el gobierno de ac, de esta ciudad, siempre que 0.808 5 precis algo me ayud, yo personalmente tengo una buena imagen ac despacio, pero nos dan soluciones y tratan de que la ciudad 0.839 6 est cada vez mejor 0.841 7 el concejo trabaja poco. 0.875 8 trabajan muy bien, en forma ordenada. nunca tuve problemas. 0.875 9 no hacen las obras necesarias pero en general trabajan bien. trabajan, punto, algunos no, punto, como en todos lados pero 0.875 10 hacen cosas Grupo de individuos: CMun.no sabe Critre de Numro Libell de la rponse classement no me interesa la poltica en s. esta ciudad carece de muchas 0.600 1 cosas 0.704 2 no me interesa. 0.704 3 no me interesa 0.704 4 no tengo tiempo y tampoco me interesa. el intendente trata de bajar la desocupacin, le busca trabajo a la 0.774 5 gente personalmente. 0.836 6 no me soluciona el problema de la desocupacin. hace un ao que vivo en esta ciudad, todava no tengo opinin al 0.881 7 respecto

24

0.881 0.910 0.950

8 9 10

no me integr nunca al tema porque en 40 aos que vivo aqu nunca vi integracin entre ellos. he estado ausente por trabajo, no puedo opinar. no los conozco y no entiendo de poltica.

A travs de la lectura de un grupo reducido de respuestas se puede evaluar el sentido general del conjunto del corpus dividido segn las categoras de la pregunta anterior.

25

También podría gustarte