Está en la página 1de 34

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/315696508

Tutorial para el análisis de textos con el software IRAMUTEQ

Working Paper · March 2017

CITATIONS READS

37 10,298

1 author:

Josué Molina Neira


Generalitat de Catalunya
26 PUBLICATIONS   100 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

1. Desarrollo de la formación sociopolítica para una ciudadanía democrática: diseño e implementación de materiales didácticos en Ciencias Sociales. (EDU2015-65621-
C3-3-R). View project

Desarrollo de la formación sociopolítica para una ciudadanía democrática: Diseño e implementación de materiales didácticos en ciencias sociales. View project

All content following this page was uploaded by Josué Molina Neira on 05 April 2017.

The user has requested enhancement of the downloaded file.


TUTORIAL PARA EL ANÁLISIS DE TEXTOS CON EL SOFTWARE IRAMUTEQ1

Josué Molina Neira. PhD


josuemolina@ub.edu
Grupo de Investigación DHIGECS
(Didáctica de la Historia, la Geografía y otras Ciencias Sociales)
Universidad de Barcelona
Marzo de 2017. Versión 1.1

1 Introducción. ¿Qué es Iramuteq? ......................................................................................... 3


2 Conceptos básicos ................................................................................................................. 3
2.1 Corpus ........................................................................................................................... 3
2.2 Textos ............................................................................................................................ 3
3 Funcionalidad del software: tipos de análisis ....................................................................... 4
3.1 Estadísticas de los textos o lexicografía básica ............................................................. 4
3.2 Análisis de Especifidades. .............................................................................................. 4
3.3 Método Reinert: Método de Clasificación Jerárquica Descendiente (CDH) ................. 4
3.4 Análisis de similitud (ADS) ............................................................................................. 5
3.5 Nube de palabras .......................................................................................................... 6
4 Instalación del Software ........................................................................................................ 6
5 Dar formato a los textos........................................................................................................ 7
5.1 Extensión del archivo de texto ...................................................................................... 7
5.2 Creación de subcorpus por metadatos ......................................................................... 7
5.3 Creación de subcorpus por temáticas ........................................................................... 9
5.4 Consejos a la hora de dar formato a los textos ........................................................... 10
6 Abrir un corpus de texto ..................................................................................................... 10
7 Ejecución e interpretación de los análisis ........................................................................... 13
7.1 Estadísticas .................................................................................................................. 15
7.2 Análisis de especificidades .......................................................................................... 17
7.3 Clasificación Jerárquica Descendiente ........................................................................ 19
7.3.1 Primera pestaña: CDH ......................................................................................... 21
7.3.2 Segunda pestaña: perfiles ................................................................................... 22
7.3.3 AFC....................................................................................................................... 25

1
El objetivo de este material es facilitar el uso del software y la interpretación de los análisis por parte
de sus usuarios. Este tutorial se ha realizado teniendo en cuenta el compendio de guías disponibles en la
web en diversos idiomas (Baril & Garnier, 2015; Brigido Vizeu Camargo & Justo, 2016; Brígido Vizeu
Camargo & Justo, 2013; Moreno & Ratinaud, 2015) y el manual de uso de la versión 0.6 alpha 1 (Loubère
& Ratinaud, 2014) disponible en la web www. http://iramuteq.org. También se ha incorporado
bibliografía propia y añadido explicaciones que se han considerado pertinentes, teniendo en cuenta las
dudas surgidas durante la utilización del software.

1
7.4 Análisis de similitud ..................................................................................................... 25
8 Nubes de palabras ............................................................................................................... 27
8.1 Subcorpus por metadatos ........................................................................................... 29
8.2 Subcorpus por temática .............................................................................................. 29
9 Diccionario........................................................................................................................... 30
10 Bibliografía ...................................................................................................................... 30

2
1 Introducción. ¿Qué es Iramuteq?

IRAMUTEQ (Interfaz de R para el Análisis Multidimensional de los Textos y Cuestionarios) es un


software libre, desarrollado por Pierre Ratinaud, en el seno del laboratorio LERASS, de la
Universidad de Tolouse. El software permite realizar análisis multidimensional de textos de
diferente naturaleza, como textos oficiales, páginas web, noticias, leyes preguntas de
respuesta abierta de cuestionarios, etc. Especialmente útil para trabajos de investigación con
un volumen de información difícil de trabajar de manera manual, este software facilita y
ahorra tiempo en la interpretación de textos.

En suma, es un programa desarrollado para satisfacer las necesidades de las investigaciones


sociales donde deben de analizarse materiales lingüísticos. Debido a su concepción
epistemológica, resulta especialmente adecuado para el estudio de Representaciones Sociales.

2 Conceptos básicos

2.1 Corpus

El corpus es el conjunto de datos o textos científicos, literarios, etc., que pueden servir de base
a una investigación. Éste corpus lo construye el/la investigador/a, en base al objeto de estudio.
Ejemplos de corpus podrían ser: el conjunto de transcripciones de entrevistas realizadas en
una investigación; noticias aparecidos en diferentes diarios sobre una misma temática, o las
respuestas abiertas registradas en cuestionarios sobre una misma temática, realizados a
estudiantes de diferentes asignaturas.

Para que el análisis que vayamos a realizar tenga sentido, es necesario que el conjunto textual
esté centrado en un tema. En definitiva, usando como recursos los diferentes textos, el análisis
lo realizaremos sobre una temática en concreto, que será el objeto conceptual principal de la
investigación.

2.2 Textos

El corpus de texto está constituido por un conjunto de textos. La definición de cada uno de
estas unidades dependerá de la naturaleza de la investigación. Retomando los ejemplos
anteriores sobre el corpus de textos, encontraríamos que:

- En un estudio documental sobre noticias, cada una de ellas corresponderá a un texto.


- En un estudio con entrevistas, la transcripción de cada una de las entrevistas realizadas
a diferentes sujetos de investigación correspondería a un texto. Ghiglione y Matalon
(1995) recomiendan entre 20 y 30 textos, siendo 20 textos para cada grupo si se
plantean estudios comparativos (Brígido Vizeu Camargo & Justo, 2013).
- En un estudio realizado a partir de respuestas en cuestionarios, el número de textos
será igual al número de sujetos que han respondido. Si los sujetos han respondido a
más de una pregunta, se deberá de analizar cada una de ellas por separado. Si las

3
respuestas presentan un promedio de 3 a 5 líneas, sería necesario un mínimo de un
centenar de textos (Brígido Vizeu Camargo & Justo, 2013)

3 Funcionalidad del software: tipos de análisis

El software permite la realización de los tipos de análisis que se presentan a continuación.

3.1 Estadísticas de los textos o lexicografía básica

- Identifica las Unidades de Contexto Iniciales (UCI) en Unidades de Contexto


Elementares (UCE):
- Identifica la cantidad de palabras, la frecuencia de cada una de ellas y el número de
veces que aparecen palabras con frecuencia 1 (llamadas hápax).
- Permite la realización de un proceso de reducción de las palabras en base a sus raíces,
llamado “lematización”, a partir del cual se le quita el género, el número y la
conjugación de palabras, de tal forma que los resultados.
- Permite visualizar las formas (o palabras lematizadas) asociadas a una forma específica
- Crea un diccionario de formas reducidas e identifica las formas activas y
suplementarias. El programa considera por defecto que las formas activas son los
verbos, los nombres comunes, los adjetivos, los adverbios y las formas no reconocidas.
El programa permite cambiar qué se considera forma activa y suplementaria. Las
formas activas son las que el programa considerará en los análisis multidimensionales.

3.2 Análisis de Especifidades.

Asocia los textos del corpus a variables descriptivas de sus productores, previamente definidos
por el investigador/a y muestra una comparativa del uso de formas específicas. Por ejemplo,
se puede comparar la producción textual aparecidos en medios de comunicación diversos, o
por partidos políticos, entre hombres y mujeres, personas de diferentes generaciones, etc. El
programa permite realizar un análisis factorial cruzando las formas activas con las variables.

3.3 Método Reinert: Método de Clasificación Jerárquica Descendiente (CDH)

Este método parte de la premisa de que las palabras no son independientes unas de otras, sino
que reflejan temas subyacentes. La tesis principal de Reinert (1987, 1998, 2003) es que todo
discurso se expresa a partir de un conjunto de palabras que constituyen unidades de
significado de manera independiente a su construcción sintáctica. Estas unidades de
significado evocan una forma de pensar sobre el objeto del que se habla, un campo de
pensamiento, pues es a partir de ellas que os enunciados adquieren sentido.

La redundancia de sucesiones de palabras, o la concatenación de palabras que componen un


discurso determinado, permite localizar los “mundos lexicales” evocados por los enunciadores.

4
Es por ello que el análisis estadístico de los discursos cobra su sentido, pues permite localizar
repeticiones frecuentes de léxicos, que tienen una organización habitual, para referirse a un
mismo objeto. En concreto, se analiza la organización y la distribución de las palabras
principales co-ocurrentes en los enunciados simples de un texto, es decir, la presencia
simultánea de varias palabras funcionales (sustantivos, adjetivos y verbos) en un mismo
enunciado. Al utilizar un utilizar un vocabulario determinado, el locutor «convoca un “lugar”
de enunciación, el cual se define por oposición a otros lugares; de suerte que un mundo lexical
no se define en sí mismo, sino en relación con otros.» (Alba, 2004) En el proceso de análisis se
descubren categorías estables de términos que están asociadas máximamente en el interior, a
la vez que están mínimamente asociadas a otras categorías. Para ello, el programa

«construye una matriz que cruza todos los enunciados –denominados unidades
elementales de contexto (elementary context units, ECU) – y todas las palabras, y cuyas
celdas indican la presencia o ausencia de esa palabra en el enunciado, de manera parecida
a una matriz de término-documento, pero con una unidad más pequeña de análisis
textual. Las celdas indican la ausencia o presencia de esa palabra en el enunciado,
representada por un 0 o un 1, respectivamente» (Bholat, Hansen, Santos, & Schonhardt-
Bailey, 2016)

3.4 Análisis de similitud (ADS)

El ADS contempla el corpus de una manera completamente diferente a la CDH. El enfoque se


basa en las propiedades de conexión del corpus completo, sin tener en cuenta las Unidades de
Contexto Específicas, ni los sujetos. Este tipo de análisis considera que a mayor número de
sujetos trate dos elementos de la misma manera, éstos serán más próximos en la estructura
representacional sobre el objeto al que se refieren (Latorre, 2005). Para ello, identifica las
coocurrencias entre las palabras según sus conexiones en el texto, ayudando a identificar la
estructura del contenido del corpus textual gracias a su visualización en forma de gráfico, que
ilustra el contenido de la representación social del objeto estudiado y su organización interna,
sus partes comunes y especificidades (Marchand & Ratinaud, 2012).

Por tanto, el análisis permite definir la identidad de los núcleos representacionales de los
sujetos, ya que el programa identifica núcleos semánticos detectados por coocurrencias de
palabras (Brígido V. Camargo & Justo, 2013). Esta línea analítica nos permite trabajar bajo el
paraguas del enfoque estructural de las Representaciones Sociales, incluso habiendo obtenido
los datos a partir de entrevistas y no de técnicas propias de la investigación experimental
(Abric, 2001; Breakwell, 2011; Jodelet, 1985; Moliner, 2007; Santana, 2013), ya que el
potencial analítico del software permite una profundidad de análisis que no sería posible
alcanzar sin el apoyo informático.

El análisis de similitud presenta un resumen de la estructura contenida en una representación,


a partir de un gráfico con forma de árbol que representa las formas máximas y las afines,
donde los nodos son las formas y se ponen de manifiesto las comunidades lexicales (Ormeño,
2017), visibilizando «las clases constituidas y la intensidad de los vínculos entre los elementos
que componen una representación sobre un objeto» (Latorre, 2005).

5
3.5 Nube de palabras

Agrupa las palabras y las organiza gráficamente en función de su frecuencia. Es un análisis


lexical más simple, pero interesante a nivel gráfico.

4 Instalación del Software

Pasos para la instalación:

1. Software R: Al tratarse de una interfaz del software R, es indispensable descargarse


éste para que el programa pueda funcionar correctamente, por lo tanto:
Descargar e instalar el software R (http://www.r-project.org). La última versión 0.7
alpha 2 ha sido probada con R 3.3.3 en Windows XP / Windows 7 y en Mac OS X y la
versión R 2.15.1 en Ubuntu 14.10.

2. Software Iramuteq (http://sourceforge.net/projects/iramuteq/)


La primera vez que se inicia el programa nos aparecerá un aviso en francés diciendo
que es necesario que se actualicen las bibliotecas.

Ilustración 1: ventana de instalación incompleta que aparece la primera vez que se abre el programa

Si le damos a “aceptar”, se instalarán automáticamente. Este proceso puede tardar varios


minutos.

Es posible verificar que la instalación hay sido completada correctamente. Para ello ha de
abrirse el software, dirigirse a la pestaña de “Edición”  preferencias  Verificar (verifica la
instalación del paquete R). Después de unos segundos o minutos, si la instalación del programa
es correcta, aparecerá una ventana que indica “installation OK”.

En la misma ventana es posible cambiar el idioma de la interfaz del programa.

6
Aquí se puede cambiar el idioma

Para verificar si la instalación es correcta

Ilustración 2: ventana de parámetros generales del programa

5 Dar formato a los textos

Para que el software Iramuteq pueda procesar los datos, debe tener un formato determinado,
tanto en lo que a la extensión del archivo se refiere, como el cuerpo del texto.

El programa permite contemplar diferencias en los textos teniendo en cuenta variables


categoriales. Estas variables pueden ser de dos tipos: variables que caractericen los subcorpus
por metadatos, o variables que caractericen los subcorpus de textos según temáticas.

5.1 Extensión del archivo de texto

El texto que queramos trabajar con Iramuteq debe tener un formato compatible con Iramuteq.
Tenemos dos opciones:

- Guardarlo con formato “R programming language” si lo guardamos con Notepad++


- Guardarlo en Libreoffice u Openoffice con formato UTF8, escogiendo la opción “texto
codificado”. Se guardará con extensión *.txt y luego deberemos de elegir como “juego
de caracteres, el “Unicode (UTF-8).

5.2 Creación de subcorpus por metadatos

El programa permite dividir un corpus de texto en diferentes subcorpus definidos por variables
categóricas, consideradas metadatos. Las variables categóricas son conjuntos de datos que
pueden clasificarse en un número limitado de valores o categorías distintas (por ejemplo, sexo
o religión), definidos sobre la base de alguna característica cualitativa. Por ejemplo, la variable
“año” puede adquirir diferentes valores, como 2016, 2017, etc. La variable “edad” podría
definirse como “16-20”, “21-25”, “adolescente”. La elección de estas etiquetas dependerá de
los intereses y el objeto de quien investiga, e implica una selección de textos en base a este

7
tipo de variables, por la voluntad de estudiar las configuraciones textuales de las diferentes
categorías que la definen, sobre una misma temática de estudio.

Lo que en estadística se conoce como ‘valor’ de la variable, el software Iramuteq


lo llama ‘modalidad’

Los textos tienen que estar introducidos por cuatro asteriscos (****) o por cuatro cifras
(identificando el sujeto de investigación de un cuestionario). En todo caso, si se opta por una
opción o por otra, todos los textos deben de estar codificados de la misma manera. Luego se
introducen las variables precedidas de un asterisco, seguido del código utilizado para
identificar la variable, seguido de un guion bajo (_) y la especificación del valor de la variable.
Se pueden introducir nuevas variables añadiendo un espacio y repitiendo la secuencia:
asterisco, código de identificación de la variable, guion bajo y código del valor de la variable.
Sólo se pueden utilizar caracteres alfanuméricos, pero no signos especiales, como acentos,
signos de puntuación, etc., a excepción del guion bajo, utilizado para separar el código de la
variable y el del valor.

Siempre tiene que haber como mínimo un variable en nuestro texto para que
el programa procese la información. Esta variable encabezaría el texto y no es
necesario que se definan diferentes valores.

Ejemplo de creación de subcorpus por metadatos:

En un estudio en el que trabajamos con texto extraído de entrevistas realizadas centros


escolares a adolescentes consideramos que la variable sexo (*sex), la titularidad del centro
(*tit), el nivel socioeconómico y cultural (*ISEC), pueden ser variables que condicionen el tipo
de discurso empleado. Como variables para sexo contemplamos a hombre (hb) y mujer (mj);
para titularidad de centro público (pb) y privado (pv), y como nivel socioeconómico y cultural ,
contemplamos las variables ‘muy bajo’ (MB), ‘bajo’ (B), ‘alto’ (A) o ‘muy alto’ (MA),
considerado bajo teniendo en cuenta el baremo establecido por un índice creado dentro del
mismo estudio2.

El siguiente fragmento está compuesto de dos textos que predecirían a las respuestas de dos
adolescentes. El primero texto es el de una chica que asiste a un centro de titularidad privada,
con un nivel socioeconómico y cultural. El segundo texto correspondería al de un chico que
asiste a un centro escolar de titularidad pública y con un nivel sociocultural ‘muy alto’. Después
de cada una de las entradas, aparecería el texto, quedando finalmente de esta manera:

2
Para más información sobre la construcción del índice, consúltese a Prats, et. al (2017)

8
**** *sex_mj *tit_pv *ISEC_B

Texto, texto, texto texto texto texto texto texto texto texto texto texto texto texto texto texto
texto. Texto texto texto texto texto, texto texto texto texto texto, texto texto texto texto texto
texto texto texto texto texto; texto texto texto texto texto, texto texto texto texto y texto.

**** *sex_hb *tit_pb *ISEC_MA

Texto, texto, texto texto texto texto texto texto texto texto texto texto texto texto texto texto
texto. Texto texto texto texto texto, texto texto texto texto texto, texto texto texto texto texto
texto texto texto texto texto; texto texto texto texto texto, texto texto texto texto y texto.

En el caso que se decida desde el principio no tener en cuenta diferentes variables, como se ha
dicho anteriormente, debe tenerse en cuenta que para que el programa pueda procesar la
información, el corpus de texto debe estar precedido como mínimo por una variable, por lo
que podría quedar, por ejemplo, con esta forma:

**** *VAR_A

Texto, texto, texto texto texto texto texto texto texto texto texto texto texto texto texto texto
texto. Texto texto texto texto texto, texto texto texto texto texto, texto texto texto texto texto
texto texto texto texto texto; texto texto texto texto texto, texto texto texto texto y texto.

5.3 Creación de subcorpus por temáticas

Iramuteq permite introducir temáticas dentro de las variables. Esto puede resultar muy útil si
interesa identificar, dentro de un mismo subcorpus de texto, diferentes temáticas que lo
caracterizan.

Para introducir una temática, se introduce un guion, seguido de un asterisco, seguido del
vocablo ‘them’, seguido de guion bajo (barra baja) y, finalmente, la etiqueta que defina la
variable.

Es preferible que entre la variable y la temática esté separado por un solo espacio simple, para
que sea posible analizar los subcorpus por temática.

Cuando se ha decidido trabajar con temáticas, es imprescindible que


aparezca en todos los subcorpus, como mínimo, una temática.

Ejemplo:

**** *VAR_A

Texto, texto, texto texto texto texto texto texto texto texto texto texto texto texto texto texto
texto. Texto texto texto texto texto, texto texto texto texto texto, texto texto texto texto texto
texto texto texto texto texto; texto texto texto texto texto, texto texto texto texto y texto.

-*them_temáticaA

9
Texto, texto, texto texto texto texto texto texto texto texto texto texto texto texto texto texto
texto. Texto texto texto texto texto, texto texto texto texto texto, texto texto texto texto texto
texto texto texto texto texto; texto texto texto texto texto, texto texto texto texto y texto.

-*them_temáticaB

Texto, texto, texto texto texto texto texto texto texto texto texto texto texto texto texto texto
texto. Texto texto texto texto texto, texto texto texto texto texto, texto texto texto texto texto
texto texto texto texto texto; texto texto texto texto texto, texto texto texto texto y texto.

5.4 Consejos a la hora de dar formato a los textos

- Revísese el corpus antes de cargar el archivo al programa para verificar que no existen
errores tipográficos.
- Suprímase el material textual producido por el investigador, como por ejemplo las
preguntas realizadas en el marco de una entrevista.
- No justificar el texto
- No resaltar ninguna palabra con negritas, cursiva, subrayado o similar.
- En caso de utilizar siglas, utilícense siempre las mismas para referirse a un mismo
objeto.
- Utilícese el formato numérico para los números.
- No utilizar caracteres especiales, como comillas, apóstrofes, símbolos y asteriscos
dentro del texto. Pueden generar errores.
-

6 Abrir un corpus de texto

PRIMER PASO. Archivo  Abrir un Corpus de texto.

Ilustración 3: Modo de abrir un corpus de texto nuevo

SEGUNDO PASO. Buscamos nuestro archivo en nuestro ordenador, dentro de la carpeta donde
lo hayamos guardado. En el desplegable ‘tipo’ debemos de tener marcado “tous les fichiers”
para poder visualizarlo. Una vez tengamos seleccionado el archivo hacemos clic en «abrir».

10
Ilustración 4: ventana para elegir un archivo nuevo y cargar un nuevo corpus de texto

TERCER PASO. Inmediatamente se nos abrirá una pestaña para elegir nuestras preferencias de
configuración del análisis. La primera ventana que aparece permite la visualización de la
pestaña que hace referencia a las características “Generales” del corpus. En esta pestaña
podemos elegir diferentes opciones sobre cómo Iramuteq trabajará con el texto a partir de ese
momento.

Ilustración 5: ventana de configuración de parámetros de un corpus de datos

Codificación: Es imprescindible seleccionar la opción «UTF8 all languages».

Idioma: es la lengua en la que está escrito el texto que vamos a introducir en Iramuteq. El
programa sólo permite trabajar con un idioma simultáneamente, por lo que, si nuestro corpus

11
está conformado por diferentes subcorpus de distintos idiomas, deberemos traducir todos los
textos a un mismo idioma.

Carpeta de salida: es donde el programa guardará toda la información que genere el


programa. Por defecto, el programa guarda toda la información en la misma carpeta donde
había sido guardado el texto que vamos a trabajar. A pesar de ello, es posible seleccionar una
nueva ubicación.

Marcador de texto: El software nos requiere en esta opción si hemos codificado los segmentos
de texto con asteriscos (****) o con codificación numérica si hemos decidido marcar las
unidades de análisis con código numérico de cuatro caracteres (0000).

Utilizar el diccionario de expresiones: Si marcamos la casilla, todas las expresiones que hayan
sido registradas en el diccionario de Iramuteq se reconocerán como una palabra única, como
por ejemplo: Tasa de Natalidad. Si queremos realizar modificaciones al diccionario de una
lengua, como añadir expresiones nuevas, por ejemplo, deberemos acceder a la carpeta
C:\Users\”nombre de usuario” \.iramuteq\dictionnaires, escoger el que nos interesa modificar
e introducir los cambios oportunos.

Hacer segmentos del texto: esta casilla nos permite seleccionar escoger si queremos dividir el
texto en segmentos. Los segmentos de texto son considerados como el “ambiente de las
palabras”. Segmentar el texto puede resultar útil si trabajamos con textos largos, como
entrevistas o leyes, pues el programa dividirá los textos en unidades más pequeñas
(segmentos de texto).

Método de construcción de segmentos: aquí se elige como queremos que el programa forme
el segmento. Esta división se puede basar en un número de ocurrencias o unidades lingüísticas
(opción seleccionada por defecto), una serie de caracteres o párrafos. Si seleccionamos la
opción de ocurrencias, el programa busca la mejor relación entre tamaño y signos de
puntuación con el objetivo de tener segmentos de tamaños homogéneos, respetando el
máximo posible la estructura del texto. En caso de trabajar con respuestas a cuestionarios, es
preferible con la opción ‘párrafos’. En caso textos más largos, se aconseja utilizar la opción que
aparece en el programa por defecto.

Tamaño de segmentos de texto: aquí se define el número de unidades contenidas en el


segmento de texto.

CUARTO PASO. La segunda ventana


corresponde a ‘Limpieza’. Allí es posible optar
por una serie de parámetros que indican a
Iramuteq cómo limpiar el texto. Esto hay que
tenerlo en cuenta para hacer una
interpretación correcta de los resultados.
Considérese que el resultado del impacto del
proceso de limpieza puede variar mucho de
unos idiomas a otros.
Ilustración 6: Ventana de opciones de limpieza de un
corpus

En el caso de elegir la opción “conservar la puntuación”, téngase en cuenta que es necesario


verificar la ausencia del punto y coma en el corpus. En caso de no hacerlo, el software no
podrá abrir el corpus de texto debido a un error interno.

12
En el caso de elegir la opción “sin espacio entre las formas”, el software solo tendrá en cuenta
el espacio como separación de las formas o unidades léxica. Entiéndase por unidad léxica todo
elemento situado entre dos espacios de la cadena escrita, o entre un espacio y un signo de
puntuación. No se recomienda escoger esta opción.

QUINTO PASO. Después de haber configurado todos los parámetros según nuestras
preferencias y las características del texto, si se presiona sobre el ‘OK’ se cargará el texto. Este
proceso puede durar desde unos segundos a unos minutos, en función de las características
del corpus.

En la parte izquierda de la pantalla principal del programa, aparece a la vista el historial de


corpus con los que hemos trabajado. El nombre con el que se guarda corresponde al nombre
del archivo, seguido de una barra baja, seguido de la palabra ‘corpus’ y del número de vez que
hemos abierto el corpus en el programa. Es decir, si abrimos un mismo texto llamado ‘noticias’
dos veces, encontraremos dos referencias, ‘noticias_Corpus 1’ y ‘noticias_Corpus2’.

En el mismo momento en que abrimos el archivo, en la carpeta donde dijimos que se


guardaran los resultados, aparecerá una carpeta con el mismo nombre que el que aparece en
el historial.

Es posible eliminar un corpus de texto del historial pulsando el botón derecho del ratón
encima de su nombre. En ese caso, el archivo no se visualizará en el historial, pero los
resultados de los análisis permanecerán en la carpeta de destino que se había escogido.

7 Ejecución e interpretación de los análisis

Como hemos indicado anteriormente, es posible realizar diferentes tipos de análisis. Para
realizarlos podemos optar por seleccionar el tipo de análisis deseado apretando el botón
derecho sobre el nombre del archivo; sobre la barra de tareas o en la pestaña ‘análisis de
texto’ en el mismo

Ilustración 7: formas de ejecutar los análisis

13
Cuando seleccionemos cualquiera de las
opciones, antes de procesar el análisis, el
programa abrirá una nueva ventana llamada
‘Parámetros’, en la que deberemos escoger las
últimas preferencias sobre el tipo de análisis.

Ilustración 8: ventana de opciones que aparece antes


de ejecutar cualquier tipo de análisis

Lemmatization: Si escogemos esta opción, el programa lematizará el corpus de datos. Este


proceso reduce las palabras principales a sus raíces, deviniendo así “morfemas lexicales”.

«El morfema lexical es la raíz de la palabra que remite a la familia de la cual


proviene, opuesto a los morfemas derivativos que son las terminaciones que
indican un matiz semático o los morfemas flexivos que indican el género o la
cantidad. Así, en la palabra “niño”, el morfema lexical es niñ; sus terminaciones o,
os, a, as, son los morfemas flexivos, mientras que terminaciones como ito, ita, ote,
ota, corresponden a los morfemas derivativos. Alceste sólo toma en cuenta los
morfemas lexicales para el análisis y elimina los morfemas flexivos o derivativos,
aunque indica en un análisis suplementario todas las terminaciones de cada
morfema lexical o raíz analizada.» (Alba, 2004)

Este proceso permite facilitar la interpretación de las resultados, puesto que los verbos se
presentan en infinitivo, los adjetivos en masculino y los nombres en singular. Se recomienda
lematizar el corpus.

Keys properties. Si apretamos encima de la opción ‘properties’ se abrirá una nueva ventana
donde podremos escoger qué tipo de formas consideramos relevantes para nuestro análisis
(formas activas = 1) y las que no aportan valor al mismo (formas suplementarias = 2). Por
defecto, como formas activas se consideran los adjetivos, los adverbios, los verbos y las formas
no reconocidas3.

3
En el manual en ingles (Brigido Vizeu Camargo & Justo, 2016) se presenta, en la página 15, una
sugerencia de ajustes para estudios en el ámbito de psicología.

14
Ilustración 9: ventana de propiedades clave del análisis. Aquí se elige qué tipo importancia se le quiere dar a las
diferentes categorías gramaticales del corpus

Una vez que seleccionemos OK en la ventana ‘Parámetros’, se realizarán los análisis que se
hayan escogido. Este proceso puede durar unos minutos en función del tipo de análisis y las
características del corpus de texto.

7.1 Estadísticas

Esta opción de análisis presenta frecuencia de


textos, segmentos de textos, ocurrencias,
frecuencia media de palabras, frecuencia total de
cada forma y de su clasificación gramatical,
teniendo en cuenta el diccionario y las
propiedades de las formas escogidos. En suma,
resulta una descripción estadística del análisis del
corpus.

En la primera pestaña (RESUMEN) aparece el


resumen de los análisis. Podemos observar: el
total de textos de nuestro corpus; el total de
ocurrencias; el total de formas, el total de hápax
(palabras con frecuencia =1) y la media de
ocurrencias por texto.

El gráfico presenta los logaritmos de rangos en el


eje de abscisas y los logaritmos de frecuencias en
el eje de ordenadas.

Ilustración 10: Pestaña de resumen descriptivo del


análisis estadístico

15
Podemos observar la frecuencia de
las formas activas, de las formas
suplementarias, del total de las
formas y de las formas con
frecuencia=1 (Hápax) en la
segunda, tercera, cuarta y quinta
pestañas. En cada una de ellas
podemos ver: la “forma” o unidad
lexical exacta presente en el texto,
la frecuencia de cada forma y su
tipo o categoría gramatical.

Ilustración 11: resumen de las formas activas encontradas

Si nos situamos encima de una forma y apretamos el botón derecho del más, el programa nos
ofrece dos opciones. Por un lado, podemos ver las ‘formas asociadas’, es decir, las diferentes
palabras que el programa ha interpretado con una misma forma.

Por otro lado, si elegimos la opción ‘concordancia’, el programa nos muestra los segmentos de
textos donde aparece esa forma en concreto. Es decir, si seleccionamos la forma
‘característica’ el programa nos mostrará los segmentos de texto donde aparece esa forma. A
pesar de que el software no está pensado para ello, esta opción de análisis puede resultar muy
útil, pues podemos recurrir a los segmentos específicos del texto para realizar análisis de tipo
más cualitativo, después de tener en cuenta otras opciones de análisis que ofrece el programa
más sofisticadas, como el Análisis Jerárquico Descendiente. De esta manera podremos utilizar
el programa como punto de partida para hacer un análisis mixto, y analizar los datos con dos
perspectivas que se complementan entre sí, posibilitando un acercamiento más rico en
matices (Bericat, 1998; Castañer, Camerino, & Anguera, 2013; Creswell & Plano, 2011; Morse
& Niehaus, 2009).

Si situamos el cursor sobre la


totalidad del análisis estadístico que
aparece en el historial, podemos
acceder directamente al directorio
donde se han guardado los
resultados. También hay otras
opciones, como eliminar del historial
el análisis en cuestión.

Ilustración 12: opciones a realizar sobre la totalidad del análisis


realizado

16
En el directorio donde se han
guardado los resultados del análisis
encontramos en diferentes hojas de
cálculo.

Ilustración 13: carpeta del directorio

7.2 Análisis de especificidades

Como se ha explicado anteriormente, este análisis hace una comparativa sobre el uso de
formas o unidades léxicas específicas, considerando las variables previamente definidas.

Cuando se ejecuta el análisis, el software solicita que escojamos si queremos realizar el análisis
por variables o por modalidades.

Ilustración 14: ventana de selección de variables Ilustración 15 ventana de elección de valores de la


variable

Si seleccionamos la opción por variables, téngase en cuenta que sólo se puede elegir una
variable a la vez (la que se selecciona primero). Al realizar una selección según modalidades, es
posible hacer una selección de los valores de interés a la vez, dejando de lado algunos valores
o modalidades, por ejemplo, los poco frecuentes (que se dan en pocos individuos).

- Índice: Es posible realizar los cálculos teniendo en cuenta el Chi2 o la ley


hipergeométrica.
- Frecuencia mínima: sólo se visualizarán las formas cuyo número de ocurrencias en
todo el corpus sea superior al umbral indicado.

Es obligatoria la selección de, al menos, una variable para poder realizar los análisis. Además,
esta variable debe tener como mínimo dos modalidades o valores.

17
IRaMuTeQ no hará el AFC con una variable que tiene pocos términos

El resultado del análisis nos presenta la siguiente ventana con diferentes pesatañas: formas,
tipos; frecuencias absolutas y relativas de formas y de tipos y la de Análisis Factorial de
Correspondencias (AFC).

En cada una de las pestañas el programa muestra la relación entre la forma o unidad léxica
específica y la variable tenida en consideración. A mayor sea el valor asociado a una forma,
más específica resulta de la modalidad. El signo + significa que la forma se menciona más en
ese grupo que los otros. Del mismo modo, el signo negativo, implica que esa forma la utiliza
más ese grupo que el otro.

Las pestañas de FORMAS, FORMAS BANALES (SUPLEMENTARIAS) y TIPOS: presentan la lista


de formas, categorías gramaticales y los resultados por modalidad.

Ilustración 16: resultados estadísticos de formas

Las pestañas de FRECUENCIAS: presenta la frecuencia de cada forma en los textos con la
modalidad de la variable:

Ilustración 17: resultados estadísticos de frecuencias de tipos

Las pestañas de FRECUENCIAS RELATIVAS: presentan las frecuencias relativas de las formas o
los tipos, expresados en tanto por mil:

Ilustración 18: resultados estadísticos de frecuencia relativa de tipos

18
La pestaña AFC: Presenta un dendograma del Análisis Factorial de Correspondencias,
posibilitando el análisis para variables hasta de tres niveles.

Si se presiona sobre este símbolo es posible realizar una reedición del AFC y del gráfico.

No se han encontrado explicaciones sobre la forma correcta de interpretar este gráfico. El


programa no permite una correcta interpretación de qué representan los factores.

7.3 Clasificación Jerárquica Descendiente

Realiza una clasificación jerarquizada descendente siguiendo el método propuesto por Reinert
(1983), definido por un análisis clúster, que permite clasificar los datos en grupos (Kaufman &
Rousseeuw, 2009), en base a las semejanzas y desemejanzas en el uso de las formas que se da
entre los diferentes componentes de dicha población.

PRIMER PASO: seleccionar los parámetros del análisis

Ilustración 19: ventana de opciones del método de Clasificación Jerárquica Descendiente

En esta ventana se nos plantean diferentes opciones para la aplicación del método de CHD:

Clasificación doble en RST: reagrupa los segmentos de textos más próximos. Realiza dos veces
el análisis. No se recomienda su uso por el bajo aprovechamiento del corpus.

Clasificación simple sobre segmentos de texto: La clasificación se centrará en los segmentos


de texto. Es el análisis estándar, recomendada para respuestas largas.

Clasificación simple en el texto: Con esta opción los textos se mantienen en su totalidad, sin
dividirlos en segmentos de texto. Es la opción recomendada para las respuestas cortas.

El resto de parámetros no requieren modificación. Esto son:

Tamaño del rst1 y rst2: estas opciones sirven cuando se realiza una clasificación en RST.
Permiten cambiar el tamaño de la reagrupación de segmentos de texto. Las unidades
representan el número de formas activas reagrupadas por línea.

19
Número de clases terminales de la fase 1: determina el número de clases de la primera parte
de la clasificación. Por defecto viene definida por 10, pero podemos cambiarlo en función de la
heterogeneidad del corpus. Aumentar el valor, aumentaría el número de clases.

Frecuencia mínima de segmentos de texto por clase: determina el nivel mínimo bajo el que
los segmentos no serán tenidos en cuenta.

Frecuencia mínima de una forma analizada: no diponible.

Número máximo de formas analizadas: hace referencia al número máximo de formas a


analizar. Por defecto vienen definido para las 3000 formas activas y suplementarias más
frecuentes, pero es posible modificarlo si el tamaño del corpus lo justifica. Téngase en cuenta
que una forma debe de aparecer un mínimo de tres veces para ser tenida en cuenta en el
análisis.

Método svd: permite la elección del algoritmo utilizado para las descomposiciones.

Método patata: si elegimos esta opción, no se realiza la segunda fase de cada partición. El
análisis es más rápido, pero menos preciso.

SEGUNDO PASO: Una vez seleccionados los parámetros del análisis, apretamos el OK y
esperamos a que se realice el análisis. Este proceso puede durar minutos e incluso horas,
dependiendo del tamaño del texto.

Una vez que se realice el análisis, aparecerá una ventana con tres pestañas:

- CDH: donde aparecen los resultados del análisis clúster.


- PERFILES: donde se presenta el léxico incluido en cada clase. Esto nos permitirá
orientar la temática que rodea a la clase o grupo, ya que los perfiles se crean por las
coocurrencias, por lo que se agrupan por la proximidad lexical entre las formas
incluidas.
- AFC: muestra el análisis factorial que corresponde a la contingencia creciente de
formas y lemas, que son mostrados según colores que corresponden a los de la clase a
la que pertenecen.

20
7.3.1 Primera pestaña: CDH

Ilustración 20: primera ventana de resultados del CDH

En primer lugar, en la esquina izquierda aparece una descripción de los resultados y las
principales características del análisis.

Posteriormente, aparece el dendograma muestra la distribución de clases considerando la


relación entre ellas.

Si pulsamos estas opciones, el dendograma mostrará, además, las formas específicas


de las clases para tenerlas en consideración en la interpretación. Al mostrar estas
formas características, permite al usuario la interpretación del “mundo léxico” de
cada clase. Una vez interpretadas las diferencias entre las clases, se aconseja
identificarlas con una etiqueta significativa del mundo representacional del que da
cuenta.

Ilustración 21: Dendograma a partir de CDH correspondiente a una pregunta de entrevista donde se preguntaba por
la opinión sobre una noticia de diario titulada: "Protestar sí sirve. La idea de que lo maduro es no protestar es
errónea. En una democracia lo maduro es reivindicar" (González, 2014)

21
En el análisis de estos dendogramas es conveniente tener en cuenta diferentes aspectos:

- Relaciones entre clases: en el ejemplo, observamos que el corpus, en la pimera


partición del itinerario, se divide en dos subcorpus: por un lado, el subcorpus formado
por la clase 5, y por el otro, el resto de clases. En una segunda partición del itinerario,
el subcorpus fue nuevamente divido en otros dos subcorpus, a partir del cual se
obtiene la parte 5. En una tercera partición se origina la clase 4 y, finalmente, la última
partición da lugar a las clases 1 y 2. El Análisis Jerárquico Descendiente paró, al
obtener 5 clases estables, es decir, compuestas de unidades de segmentos de texto
con vocabulario semejante.
- Porcentaje de las clases: El software indicación el tamaño de las clases, expresado
como un porcentaje del corpus presentado.
- Las formas: las unidades léxicas presentadas sirven de orientación para hacer una
primera valoración sobre el contenido lexical de cada clase. El tamaño de cada una de
las formas orienta sobre la significatividad estadística de la forma dentro de ese
mundo léxico. Sin embargo, para un análisis más detallado sobre esta cuestión, es
necesario acudir a la segunda pestaña, denominada “perfiles”.
-

7.3.2 Segunda pestaña: perfiles

En esta pestaña encontramos los datos referentes a su contenido.

Ilustración 22: ventana de perfiles del CDH

N: número que ordena las formas en la tabla.


Eff. St.: número de segmentos de texto que contienen la palabra de la clase.
Eff. Total: número de segmentos de texto que contienen la forma, con independencia de la
clase.
Porcentaje: porcentaje de ocurrencia de la palabra en los segmentos de texto de esa clase, en
relación con su ocurrencia en el corpus.
Chi2: valor de Χ2 de la asociación de la forma con la clase.
Type: identifica la clase gramatical en la que la forma fue identificada en el diccionario.
Forme: identifica la unidad lexica en cuestión.
P: identifica el nivel de significación de asociación de la palabra con la clase.

Para profundizar en el análisis de los perfiles, es posible acceder a un menú de funciones


apretando el botón derecho del ratón encima de cada una de las formas.

22
Ilustración 23: menú suplementario de perfiles

Las opciones que parecen más interesantes son:

Formas asociadas: muestra las palabras reagrupadas en un lema/forma de la clase.

Chi2 por clase: crea un gráfico que presenta la asociación de la forma a cada una de las clases.
Pueden seleccionarse varias formas al mismo tiempo, teniendo presionado el botón de CTRL.

Chi2 por clase en dendograma: presenta el mismo grafico que el de la opción anterior pero
proyectado sobre un dendograma.

Gráfico de palabra: realizara un gráfico de similitud


representando los enlaces de la forma seleccionada
con las otras formas de la clase.

Concordancia: propone hacer la concordancia de las


formas y lemas seleccionados. Está disponible también
para los segmentos de texto de la clase, así como para
todas las clases del corpus.

Segmentos de texto característicos: Interesante


Ilustración 24:: Gráfico de la palabra 'estudio" opción de análisis que permite profundizar en un
estudio cualitativo posterior. Hace una lista de los
segmentos de textos característicos de la clase. Propone dos medidas, ambas igual de útiles. La
opción ’absoluto, en la que los segmentos de textos son clasificados en función de la suma de
los Chi2 y la relación a la clase de las formas activas que contien. En la opción “Relativo”, los
segmentos de texto son clasificados en función de la media de los Chi2 y el enlace a la clase de
formas activas que contiene.

23
Gráfico de la clase: se trata de un análisis de similitud llevado a una tabla de ausencia y
presencia (0/1) que cruza las unidades elegidas en la línea y las formas activas de la clase en
una columna. La matriz de similitud está construida en columnas. o Segmentos repetidos:
mostrará los efectivos y tamaños de los
segmentos repetidos de la clase.

Exportar: exporta todos los segmentos de


texto presentes en la clase, puede incluso
constituir un nuevo corpus.

Ilustración 25: Gráfico de similitud de una clase

Nube de palabras por clase: permite realizar una


nube con el léxico que seleccionemos dentro
Ilustración 26: Nube de palabras de una clase
de cada clase.

Por otro lado, es posible acceder a más opciones de análisis si clicamos el botón derecho
encima del “nombre del archivo_alceste_1”, situado en la parte izquierda de la interface (en el
historial). Allí podemos acceder a algunos resultados del análisis. Los que nos parecen más
interesantes son:

- Corpus en color: el programa abrirá una


ventana de navegador en la que se puede visualizar
los segmentos de texto característicos de cada clase,
que se identifican por los colores de éstas según se
Ilustración 27: imagen del historial han representado en el dendograma.
- Rapport: generará un documento *.txt
denominado Rapport, que contiene la descripción lexical de cada una de las clases
formadas por el CHD, una especie de resumen simplificado del análisis.

En caso tener muchas formas y querer buscar una en concreto, es posible


hacer una búsqueda en el perfil concreto de la clase pulsando Ctrl+F.

24
7.3.3 AFC
Muestra un análisis factorial que corresponden a la contingencia de formas y lemas. No se han
encontrado explicaciones sobre la forma correcta de interpretar este gráfico. El programa no
permite una correcta interpretación de qué representan los factores. Resulta, por tanto,
aconsejable interpretar el CDH, dejando de lado el AFC.

7.4 Análisis de similitud

Este análisis utiliza los conceptos de la teoría de grafos utilizados en Análisis de Datos
Relacional.

PRIMER PASO: elección de los parámetros.

Ilustración 28: ventana de parámetros de ejecución del análisis de similitud

Selección de variables

A la izquierda de la ventana es posible seleccionar las variables que se quieren incluir en el


análisis. Si el corpus es muy amplio, el gráfico que generará el software será ilegible. Se
recomienda en esos casos hacer una selección de las formas teniendo en cuenta sus
frecuencias de aparición (eff.). Por defecto aparecen todas seleccionadas. Hágase un doble clic
encima de ellas para borrar la selección. Con el Ctrl apretado se pueden hacer la selección de
más de una forma a la vez.

25
Parámetros

Pueden resultar interesante plantearse la modificación de los parámetros que salen por
defecto en los siguientes casos:

- Comunidades: Aproxima los conjuntos léxicos más próximos por bloques (núcleos
representacionales). Es una solución de la teoría de grafos para identificar grupos
léxicos por bloques. Las formas con niveles de co-ocurrencia alta se encuentran dentro
de la misma comunidad y se conectan débilmente con otras comunidades. Desde la
teoría de representaciones sociales, nos serviría para identificar núcleos
representacionales. Si marcamos la opción, el software nos diferenciará los bloques
presentando las formas con colores. Por la claridad visual del gráfico, se recomienda la
presentación de los resultados de este análisis marcando esta opción.
- Halo: representa las comunidades por una agrupación de color, mostrando mejor las
interconexiones entre los grupos. Esta opción sólo dará resultado si también tenemos
marcado la opción de comunidades. Por la claridad visual del gráfico, se recomienda la
presentación de los resultados de este análisis marcando esta opción.
- Seleccionar una variable: permite identificar las formas más características de una de
las variables de nuestro corpus. Por ejemplo, si hemos incorporado la variable sexo,
nos mostraría las palabras que son específicas de hombres, mujeres y resto de valores
que pueden haberse asociado a la variable. Esta identificación la hace por colores. En
este caso, el tamaño de las palabras no variará según su frecuencia. Nos puede
resultar útil para profundizar en el análisis.

SEGUNDO PASO: lanzar el gráfico apretando OK e interpretarlo.

Ilustración 29: Gráfico de similitud con comunidades y halo, realizado a partir de las opiniones sobre el editorial
periodístico titulado: «Protestar sí sirve. La idea de que lo maduro es no protestar es errónea. En una democracia lo
maduro es reivindicar».

26
Por defecto, las formas se encuentran en los nodos de la gráfica y los aristas/enlaces
representan la co-ocurrencia entre ellos. A mayor frecuencia de las palabras, mayor tamaño de
las mismas en el gráfico. A mayor co-ocurrencia entre palabras, más grueso se representa el
enlace entre ellas.

Cabe tener en cuenta que, a pesar de que el software realiza un análisis cuantitativo sobre un
corpus de datos cualitativo, pero que el resultado del análisis se interpreta necesariamente
desde un punto de vista meramente cualitativo. Es conveniente exponer los resultados
convirtiendo la imagen en una narrativa condicionada por un análisis cualitativo realizado
previamente. Por otro lado, contémplese que no sólo interesa interpretar lo que se
representa, sino también lo que no se les representa a los sujetos de estudio sobre el objeto
por el que se pregunta. Es por ello que quien lo analiza debe de dominar el marco teórico
sobre el objeto representacional que se está analizando, e incluso complementar el análisis
con una aproximación cualitativa al corpus.

La interpretación del gráfico anterior se podría hacer la siguiente manera:

“En el gráfico podemos observar que los adolescentes entrevistados asocian el hecho
de protestar con la Democracia. Les resulta una evidencia (está claro para ellos) que
protestar es una manera de intentar cambiar las cosas, expresando la opinión e ideas, la
manera de pensar. Creen que puede servir de algo mostrar desacuerdo, pero que
depende de la cantidad de gente, de ciudadanos que «salgan» a protestar. Vemos que
protestar se asocia con el hecho de reivindicar a partir de hacer una manifestación, de
no quedarse en casa, de salir a la calle para decir lo que se quiere conseguir, para que
el gobierno escuche e intentar que «haga caso». La protesta, asociada a hacer
manifestaciones, se representa como algo que «pasa» siempre y cuando se tengan en
cuenta los derechos de las personas, pero no se relaciona necesariamente con la
madurez de un sistema democrático. Algunos sujetos, asociando también la protesta
con las manifestaciones, consideran que el problema de éstas son las acciones
radicales, como la quema de containers. Este tipo de acciones se les representa como
algo incívico, que invisibiliza y hace daño, en el sentido que no sirve para el cometido
de la protesta. Sólo en un caso, excepcional en relación al resto, la entrevistada veía la
quema de containers como un mecanismo que algunos grupos, vinculados a
juventudes de partidos de izquierda, utilizan para asegurarse de que la manifestación
tenga mayor repercusión mediática, porque sino, quizás, los medios de comunicación
ni siquiera considerarían como noticia el acto reivindicativo.” (Molina-Neira, Barriga-
Ubed, & Gámez, 2017)

8 Nubes de palabras

Esta opción de análisis muestra el léxico en un gráfico que presenta las formas según su
frecuencia de aparición. Las formas más citadas aparecen más céntricas y con mayor tamaño.

Es una de los análisis más simples del programa. Posiblemente, esta opción sea interesante
aplicarla, especialmente, en estudios realizados a partir de asociación libre de palabras o
cuestionarios de respuesta corta.

27
No es preciso editar los parámetros del gráfico. En todo caso, no es necesario explicar las
diferentes opciones que ofrece el programa, pues los parámetros están bien definidos por sus
etiquetas.

Ilustración 30: ventana de preferencias de nubes de


palabras

Ilustración 31: ventana de elección de formas a


incorporar a la nube de palabras (ordenada por
frecuencia de aparción)

Una vez clicamos en el OK, nos aparecerá una segunda pantalla donde podemos elegir las
formas que queremos que aparezcan en la imagen que generará el gráfico. Clicando OK en esa
pantalla el gráfico se genera automáticamente.

Ilustración 32: Ejemplo de resultado de Nube de palabras

28
8.1 Subcorpus por metadatos

Esta opción nos permite generar un nuevo corpus de texto a partir de los resultados
identificados por una sola de las variables o modalidades de estudio. Puede resultar muy
práctico para trabajar en estudios comparativos.

Para realizar esta operación hay que clicar sobre la opción ‘subcorpus por metadatos’ y,
posteriormente, seleccionar la variable a partir de la cual queremos generar el subcorpus.

Ilustración 33: interface sobre el proceso de generación de un subcorpus por metadatos

Ilustración 34: ventana de elección de las modalidades para la generación de subcorpus

8.2 Subcorpus por temática

También podemos generar un subcorpus por temática siguiendo los mismos pasos que en la
opción anterior, pero seleccionando la opción en cuestión.

29
9 Diccionario

Corpus Conjunto de textos que se han introducido al programa, siguiendo una


serie de criterios y con un fin determinado. Véase el apartado 2.1, página
3.
Forma Unidad léxica. Palabra con la que trabaja el software en caso de optar por
lematizar el corpus.
Hápax Formas que cuya frecuencia de aparición en el texto es igual a uno.
Lematizar Reducir las palabras principales a sus raíces, deviniendo así “morfemas
lexicales”.
«El morfema lexical es la raíz de la palabra que remite a la familia de la cual
proviene, opuesto a los morfemas derivativos que son las terminaciones que
indican un matiz semático o los morfemas flexivos que indican el género o la
cantidad. Así, en la palabra “niño”, el morfema lexical es niñ; sus
terminaciones o, os, a, as, son los morfemas flexivos, mientras que
terminaciones como ito, ita, ote, ota, corresponden a los morfemas
derivativos. Alceste sólo toma en cuenta los morfemas lexicales para el
análisis y elimina los morfemas flexivos o derivativos, aunque indica en un
análisis suplementario todas las terminaciones de cada morfema lexical o raíz
analizada.» (Alba, 2004)
Para facilitar la interpretación de las resultados, los verbos se presentan
en infinitivo, los adjetivos en masculino y los nombres en singular.
Unidad de Contexto Lo que conocemos en Iramuteq por ‘segmento de texto’, se conoce como
Elemental (UCE) Unidad de Contexto Inicial en el software ALCESTE.
Unidad de Contexto Lo que conocemos en Iramuteq por ‘texto’, se conoce como Unidad de
Inicial (UCI) Contexto Inicial en el software ALCESTE.

10 Bibliografía

Abric, J.-C. (2001). A structural approach to social representations. En K. Deaux & G. Philog

(Eds.), Representations of the social: Bridging theoretical traditions (pp. 42-47).

Malden: Blackwell Publishing.

Alba, M. de. (2004). El método Alceste y su aplicación al estudio de las representaciones

sociales del espacio urbano: el caso de la ciudad de México. Papers on social

representations, 13(1), 01–20.

Baril, E., & Garnier, B. (2015). IRaMuTeQ 0.7 : Interface de R pour les Analyses

Multidimensionnelles de Textes et de Questionnaires (Version 0.7 alpha 2).

Recuperado a partir de

30
http://iramuteq.org/documentation/fichiers/Pas%20a%20Pas%20IRAMUTEQ_0.7alph

a2.pdf/at_download/file

Bericat, E. (1998). La Integración de los métodos cuantitativo y cualitativo en la investigación

social: significado y medida. Barcelona: Ariel.

Bholat, D., Hansen, S., Santos, P., & Schonhardt-Bailey, C. (2016). Minería de textos para

bancos centrales. Centro de Estudios Monetarios Latinoamericanos, 215.

Breakwell, G. M. (2011). Empirical approaches to social representations and identity processes:

20 years on. Papers on Social Representations-Special Issue, 20, 17–1.

Camargo, B. V., & Justo, A. M. (2013). IRAMUTEQ: Um software gratuito para análise de dados

textuais. Temas em Psicologia, 21(2), 513-518. https://doi.org/10.9788/TP2013.2-16

Camargo, B. V., & Justo, A. M. (2013). Tutorial para uso do software de análise textual

IRAMUTEQ.

Camargo, B. V., & Justo, A. M. (2016). Iramuteq Tutorial. (T. Forte, Trad.). Recuperado a partir

de

http://www.iramuteq.org/documentation/fichiers/IRaMuTeQ%20Tutorial%20translat

ed%20to%20English_17.03.2016.pdf

Castañer, M., Camerino, O., & Anguera, M. T. (2013). Métodos mixtos en la investigación de las

ciencias de la actividad física y el deporte. Apunts Educación Física y Deportes, (112),

31-36. https://doi.org/10.5672/apunts.2014-0983.es.(2013/2).112.01

Creswell, J. W., & Plano, V. L. (2011). Designing and conducting mixed methods research.

Thousand Oaks, CA: Sage.

Ghiglione, R., Matalon, B., Pires, C. L., & de Saint-Maurice, A. (1995). O inquérito: teoria e

prática.

González, B. (2014, junio 24). Protestar sí sirve | Sociedad | EL PAÍS. Recuperado 7 de octubre

de 2016, a partir de

31
http://sociedad.elpais.com/sociedad/2014/01/27/actualidad/1390852000_687999.ht

ml

Jodelet, D. (1985). La representación social: fenómenos, conceptos y teoría. En J.-C. Abric & S.

Moscovici (Eds.), Psicología social (pp. 469-494). Barcelona [etc.]: Paidós.

Kaufman, L., & Rousseeuw, P. J. (2009). Finding groups in data: an introduction to cluster

analysis (Vol. 344). John Wiley & Sons. Recuperado a partir de

https://books.google.es/books?hl=es&lr=&id=YeFQHiikNo0C&oi=fnd&pg=PR11&dq=cl

uster+analysis&ots=5zw8E8MFtz&sig=3gNybN-reikERK77CeH8oL-Y1vM

Latorre, M. L. (2005). ¿Cuáles son las características de las prácticas pedagógicas de profesores

chilenos en ejercicio? Recuperado a partir de

http://www.ceppe.cl/images/stories/recursos/publicaciones/Marisol%20Latorre/Cual

es-son-las-caracteristicas-de-las-practicas-pedagogicas-de-profesores-chilenos-en-

ejercicio.pdf

Loubère, L., & Ratinaud, P. (2014). Documentation IRaMuTeQ, 0.6 alpha 3, versión 1.

Marchand, P., & Ratinaud, P. (2012). L’analyse de similitude appliquée aux corpus textuels: les

primaires socialistes pour l’élection présidentielle française (septembre-octobre 2011).

En Actes des 11eme Journées internationales d’Analyse statistique des Données

Textuelles. (pp. 687–699).

Molina-Neira, J., Barriga-Ubed, E., & Gámez, V. (2017). Representaciones Sociales de los

adolescentes catalanes sobre la participación política en democracia. International

Journal of Sociology of Education, 6(1).

Moliner, P. (2007). La teoría del núcleo matriz de las representaciones sociales. En T. R. Salazar

& M. de L. G. Curiel (Eds.), Representaciones sociales: teoría e investigación (pp. 137-

156). Guadalajara, México: Editorial CUCSH-UdeG.

32
Moreno, M., & Ratinaud, P. (2015). Manual uso de Iramuteq. Versión 0.7 alpha 2. Recuperado

a partir de http://iramuteq.org/documentation/fichiers/guia-

iramuteq/at_download/file

Morse, J. M., & Niehaus, L. (2009). Mixed Method Design: Principles and Procedures. Walnut

Creek, California: Left Coast Pr Inc.

Ormeño, A. (2017). Uso de las tecnologías digitales en el aprendizaje formal, no formal e

informal en estudiantes de la carrera de odontología de la Universidad de los Andes,

Santiago, Chile. Universidad de Barcelona. Recuperado a partir de

https://www.educacion.gob.es/teseo/mostrarRef.do?ref=1361697

Prats, J., Molina-Neira, J., Ruiz, A., & Molina, F. (2017). Análisis de las representaciones e ideas

sociales del alumnado en Educación para la Ciudadanía Democrática: ejemplo de

mixed-methology desde y para la investigación transdisciplinar. International Journal

of Sociology of Education, 6(1).

Reinert, A. (1983). Une méthode de classification descendante hiérarchique: application à

l’analyse lexicale par contexte. Les cahiers de l’analyse des données, 8(2), 187–198.

Reinert, M. (1987). Classification Descendante Hierarchique et Analvse Lexicale par Contexte-

Application au Corpus des Poesies D’A. Rihbaud. Bulletin of Sociological

Methodology/Bulletin de Méthodologie Sociologique, 13(1), 53–90.

Reinert, M. (1998). Quel objet pour une analyse statistique du discours? Quelques réflexions à

propos de la réponse Alceste. En JADT (pp. 557–569). Recuperado a partir de

http://w3dev.ualg.pt/~lfaisca/SMAD03/JADT_Reinert_1998.pdf

Reinert, M. (2003). Le rôle de la répétition dans la représentation du sens et son approche

statistique par la méthode« ALCESTE». SEMIOTICA-LA HAYE THEN BERLIN-, 147(1/4),

389–420.

Santana, L. C. (2013). Aproximaciones metodológicas al estudio de las representaciones

sociales en educación. En Eduacion, sociedad y cultura. Bogotá.

33

View publication stats

También podría gustarte