Tutorial para El Análisis de Textos Con El Software IRAMUTEQ

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/315696508
Tutorial para el análisis de textos con el software IRAMUTEQ
Working Paper · March 2017
CITATIONS READS
37 10,298
1 author:
Josué Molina Neira

Generalitat de Catalunya
26 PUBLICATIONS 100 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
1. Desarrollo de la formación sociopolítica para una ciudadanía democrática: diseño e implementación de materiales didácticos en Ciencias Sociales. (EDU2015-65621-
C3-3-R). View project
Desarrollo de la formación sociopolítica para una ciudadanía democrática: Diseño e implementación de materiales didácticos en ciencias sociales. View project
All content following this page was uploaded by Josué Molina Neira on 05 April 2017.
The user has requested enhancement of the downloaded file.

TUTORIAL PARA EL ANÁLISIS DE TEXTOS CON EL SOFTWARE IRAMUTEQ1
Josué Molina Neira. PhD

josuemolina@ub.edu
Grupo de Investigación DHIGECS
(Didáctica de la Historia, la Geografía y otras Ciencias Sociales)
Universidad de Barcelona
Marzo de 2017. Versión 1.1
1 Introducción. ¿Qué es Iramuteq? ......................................................................................... 3

2 Conceptos básicos ................................................................................................................. 3
2.1 Corpus ........................................................................................................................... 3
2.2 Textos ............................................................................................................................ 3
3 Funcionalidad del software: tipos de análisis ....................................................................... 4
3.1 Estadísticas de los textos o lexicografía básica ............................................................. 4
3.2 Análisis de Especifidades. .............................................................................................. 4
3.3 Método Reinert: Método de Clasificación Jerárquica Descendiente (CDH) ................. 4
3.4 Análisis de similitud (ADS) ............................................................................................. 5
3.5 Nube de palabras .......................................................................................................... 6
4 Instalación del Software ........................................................................................................ 6
5 Dar formato a los textos........................................................................................................ 7
5.1 Extensión del archivo de texto ...................................................................................... 7
5.2 Creación de subcorpus por metadatos ......................................................................... 7
5.3 Creación de subcorpus por temáticas ........................................................................... 9
5.4 Consejos a la hora de dar formato a los textos ........................................................... 10
6 Abrir un corpus de texto ..................................................................................................... 10
7 Ejecución e interpretación de los análisis ........................................................................... 13
7.1 Estadísticas .................................................................................................................. 15
7.2 Análisis de especificidades .......................................................................................... 17
7.3 Clasificación Jerárquica Descendiente ........................................................................ 19
7.3.1 Primera pestaña: CDH ......................................................................................... 21
7.3.2 Segunda pestaña: perfiles ................................................................................... 22
7.3.3 AFC....................................................................................................................... 25
1
El objetivo de este material es facilitar el uso del software y la interpretación de los análisis por parte
de sus usuarios. Este tutorial se ha realizado teniendo en cuenta el compendio de guías disponibles en la
web en diversos idiomas (Baril & Garnier, 2015; Brigido Vizeu Camargo & Justo, 2016; Brígido Vizeu
Camargo & Justo, 2013; Moreno & Ratinaud, 2015) y el manual de uso de la versión 0.6 alpha 1 (Loubère
& Ratinaud, 2014) disponible en la web www. http://iramuteq.org. También se ha incorporado
bibliografía propia y añadido explicaciones que se han considerado pertinentes, teniendo en cuenta las
dudas surgidas durante la utilización del software.
1
7.4 Análisis de similitud ..................................................................................................... 25
8 Nubes de palabras ............................................................................................................... 27
8.1 Subcorpus por metadatos ........................................................................................... 29
8.2 Subcorpus por temática .............................................................................................. 29
9 Diccionario........................................................................................................................... 30
10 Bibliografía ...................................................................................................................... 30
2
1 Introducción. ¿Qué es Iramuteq?
IRAMUTEQ (Interfaz de R para el Análisis Multidimensional de los Textos y Cuestionarios) es un

software libre, desarrollado por Pierre Ratinaud, en el seno del laboratorio LERASS, de la
Universidad de Tolouse. El software permite realizar análisis multidimensional de textos de
diferente naturaleza, como textos oficiales, páginas web, noticias, leyes preguntas de
respuesta abierta de cuestionarios, etc. Especialmente útil para trabajos de investigación con
un volumen de información difícil de trabajar de manera manual, este software facilita y
ahorra tiempo en la interpretación de textos.
En suma, es un programa desarrollado para satisfacer las necesidades de las investigaciones

sociales donde deben de analizarse materiales lingüísticos. Debido a su concepción
epistemológica, resulta especialmente adecuado para el estudio de Representaciones Sociales.
2 Conceptos básicos
2.1 Corpus
El corpus es el conjunto de datos o textos científicos, literarios, etc., que pueden servir de base
a una investigación. Éste corpus lo construye el/la investigador/a, en base al objeto de estudio.
Ejemplos de corpus podrían ser: el conjunto de transcripciones de entrevistas realizadas en
una investigación; noticias aparecidos en diferentes diarios sobre una misma temática, o las
respuestas abiertas registradas en cuestionarios sobre una misma temática, realizados a
estudiantes de diferentes asignaturas.
Para que el análisis que vayamos a realizar tenga sentido, es necesario que el conjunto textual
esté centrado en un tema. En definitiva, usando como recursos los diferentes textos, el análisis
lo realizaremos sobre una temática en concreto, que será el objeto conceptual principal de la
investigación.
2.2 Textos
El corpus de texto está constituido por un conjunto de textos. La definición de cada uno de
estas unidades dependerá de la naturaleza de la investigación. Retomando los ejemplos
anteriores sobre el corpus de textos, encontraríamos que:
- En un estudio documental sobre noticias, cada una de ellas corresponderá a un texto.

- En un estudio con entrevistas, la transcripción de cada una de las entrevistas realizadas
a diferentes sujetos de investigación correspondería a un texto. Ghiglione y Matalon
(1995) recomiendan entre 20 y 30 textos, siendo 20 textos para cada grupo si se
plantean estudios comparativos (Brígido Vizeu Camargo & Justo, 2013).
- En un estudio realizado a partir de respuestas en cuestionarios, el número de textos
será igual al número de sujetos que han respondido. Si los sujetos han respondido a
más de una pregunta, se deberá de analizar cada una de ellas por separado. Si las
3
respuestas presentan un promedio de 3 a 5 líneas, sería necesario un mínimo de un
centenar de textos (Brígido Vizeu Camargo & Justo, 2013)
3 Funcionalidad del software: tipos de análisis
El software permite la realización de los tipos de análisis que se presentan a continuación.
3.1 Estadísticas de los textos o lexicografía básica
- Identifica las Unidades de Contexto Iniciales (UCI) en Unidades de Contexto

Elementares (UCE):
- Identifica la cantidad de palabras, la frecuencia de cada una de ellas y el número de
veces que aparecen palabras con frecuencia 1 (llamadas hápax).
- Permite la realización de un proceso de reducción de las palabras en base a sus raíces,
llamado “lematización”, a partir del cual se le quita el género, el número y la
conjugación de palabras, de tal forma que los resultados.
- Permite visualizar las formas (o palabras lematizadas) asociadas a una forma específica
- Crea un diccionario de formas reducidas e identifica las formas activas y
suplementarias. El programa considera por defecto que las formas activas son los
verbos, los nombres comunes, los adjetivos, los adverbios y las formas no reconocidas.
El programa permite cambiar qué se considera forma activa y suplementaria. Las
formas activas son las que el programa considerará en los análisis multidimensionales.
3.2 Análisis de Especifidades.
Asocia los textos del corpus a variables descriptivas de sus productores, previamente definidos
por el investigador/a y muestra una comparativa del uso de formas específicas. Por ejemplo,
se puede comparar la producción textual aparecidos en medios de comunicación diversos, o
por partidos políticos, entre hombres y mujeres, personas de diferentes generaciones, etc. El
programa permite realizar un análisis factorial cruzando las formas activas con las variables.
3.3 Método Reinert: Método de Clasificación Jerárquica Descendiente (CDH)
Este método parte de la premisa de que las palabras no son independientes unas de otras, sino
que reflejan temas subyacentes. La tesis principal de Reinert (1987, 1998, 2003) es que todo
discurso se expresa a partir de un conjunto de palabras que constituyen unidades de
significado de manera independiente a su construcción sintáctica. Estas unidades de
significado evocan una forma de pensar sobre el objeto del que se habla, un campo de
pensamiento, pues es a partir de ellas que os enunciados adquieren sentido.
La redundancia de sucesiones de palabras, o la concatenación de palabras que componen un

discurso determinado, permite localizar los “mundos lexicales” evocados por los enunciadores.
4
Es por ello que el análisis estadístico de los discursos cobra su sentido, pues permite localizar
repeticiones frecuentes de léxicos, que tienen una organización habitual, para referirse a un
mismo objeto. En concreto, se analiza la organización y la distribución de las palabras
principales co-ocurrentes en los enunciados simples de un texto, es decir, la presencia
simultánea de varias palabras funcionales (sustantivos, adjetivos y verbos) en un mismo
enunciado. Al utilizar un utilizar un vocabulario determinado, el locutor «convoca un “lugar”
de enunciación, el cual se define por oposición a otros lugares; de suerte que un mundo lexical
no se define en sí mismo, sino en relación con otros.» (Alba, 2004) En el proceso de análisis se
descubren categorías estables de términos que están asociadas máximamente en el interior, a
la vez que están mínimamente asociadas a otras categorías. Para ello, el programa
«construye una matriz que cruza todos los enunciados –denominados unidades
elementales de contexto (elementary context units, ECU) – y todas las palabras, y cuyas
celdas indican la presencia o ausencia de esa palabra en el enunciado, de manera parecida
a una matriz de término-documento, pero con una unidad más pequeña de análisis
textual. Las celdas indican la ausencia o presencia de esa palabra en el enunciado,
representada por un 0 o un 1, respectivamente» (Bholat, Hansen, Santos, & Schonhardt-
Bailey, 2016)
3.4 Análisis de similitud (ADS)
El ADS contempla el corpus de una manera completamente diferente a la CDH. El enfoque se

basa en las propiedades de conexión del corpus completo, sin tener en cuenta las Unidades de
Contexto Específicas, ni los sujetos. Este tipo de análisis considera que a mayor número de
sujetos trate dos elementos de la misma manera, éstos serán más próximos en la estructura
representacional sobre el objeto al que se refieren (Latorre, 2005). Para ello, identifica las
coocurrencias entre las palabras según sus conexiones en el texto, ayudando a identificar la
estructura del contenido del corpus textual gracias a su visualización en forma de gráfico, que
ilustra el contenido de la representación social del objeto estudiado y su organización interna,
sus partes comunes y especificidades (Marchand & Ratinaud, 2012).
Por tanto, el análisis permite definir la identidad de los núcleos representacionales de los
sujetos, ya que el programa identifica núcleos semánticos detectados por coocurrencias de
palabras (Brígido V. Camargo & Justo, 2013). Esta línea analítica nos permite trabajar bajo el
paraguas del enfoque estructural de las Representaciones Sociales, incluso habiendo obtenido
los datos a partir de entrevistas y no de técnicas propias de la investigación experimental
(Abric, 2001; Breakwell, 2011; Jodelet, 1985; Moliner, 2007; Santana, 2013), ya que el
potencial analítico del software permite una profundidad de análisis que no sería posible
alcanzar sin el apoyo informático.
El análisis de similitud presenta un resumen de la estructura contenida en una representación,

a partir de un gráfico con forma de árbol que representa las formas máximas y las afines,
donde los nodos son las formas y se ponen de manifiesto las comunidades lexicales (Ormeño,
2017), visibilizando «las clases constituidas y la intensidad de los vínculos entre los elementos
que componen una representación sobre un objeto» (Latorre, 2005).
5
3.5 Nube de palabras
Agrupa las palabras y las organiza gráficamente en función de su frecuencia. Es un análisis

lexical más simple, pero interesante a nivel gráfico.
4 Instalación del Software
Pasos para la instalación:
1. Software R: Al tratarse de una interfaz del software R, es indispensable descargarse

éste para que el programa pueda funcionar correctamente, por lo tanto:
Descargar e instalar el software R (http://www.r-project.org). La última versión 0.7
alpha 2 ha sido probada con R 3.3.3 en Windows XP / Windows 7 y en Mac OS X y la
versión R 2.15.1 en Ubuntu 14.10.
2. Software Iramuteq (http://sourceforge.net/projects/iramuteq/)

La primera vez que se inicia el programa nos aparecerá un aviso en francés diciendo
que es necesario que se actualicen las bibliotecas.
Ilustración 1: ventana de instalación incompleta que aparece la primera vez que se abre el programa
Si le damos a “aceptar”, se instalarán automáticamente. Este proceso puede tardar varios

minutos.
Es posible verificar que la instalación hay sido completada correctamente. Para ello ha de
abrirse el software, dirigirse a la pestaña de “Edición”  preferencias  Verificar (verifica la
instalación del paquete R). Después de unos segundos o minutos, si la instalación del programa
es correcta, aparecerá una ventana que indica “installation OK”.
En la misma ventana es posible cambiar el idioma de la interfaz del programa.
6
Aquí se puede cambiar el idioma
Para verificar si la instalación es correcta
Ilustración 2: ventana de parámetros generales del programa
5 Dar formato a los textos
Para que el software Iramuteq pueda procesar los datos, debe tener un formato determinado,
tanto en lo que a la extensión del archivo se refiere, como el cuerpo del texto.
El programa permite contemplar diferencias en los textos teniendo en cuenta variables

categoriales. Estas variables pueden ser de dos tipos: variables que caractericen los subcorpus
por metadatos, o variables que caractericen los subcorpus de textos según temáticas.
5.1 Extensión del archivo de texto
El texto que queramos trabajar con Iramuteq debe tener un formato compatible con Iramuteq.
Tenemos dos opciones:
- Guardarlo con formato “R programming language” si lo guardamos con Notepad++

- Guardarlo en Libreoffice u Openoffice con formato UTF8, escogiendo la opción “texto
codificado”. Se guardará con extensión *.txt y luego deberemos de elegir como “juego
de caracteres, el “Unicode (UTF-8).
5.2 Creación de subcorpus por metadatos
El programa permite dividir un corpus de texto en diferentes subcorpus definidos por variables
categóricas, consideradas metadatos. Las variables categóricas son conjuntos de datos que
pueden clasificarse en un número limitado de valores o categorías distintas (por ejemplo, sexo
o religión), definidos sobre la base de alguna característica cualitativa. Por ejemplo, la variable
“año” puede adquirir diferentes valores, como 2016, 2017, etc. La variable “edad” podría
definirse como “16-20”, “21-25”, “adolescente”. La elección de estas etiquetas dependerá de
los intereses y el objeto de quien investiga, e implica una selección de textos en base a este
7
tipo de variables, por la voluntad de estudiar las configuraciones textuales de las diferentes
categorías que la definen, sobre una misma temática de estudio.
Lo que en estadística se conoce como ‘valor’ de la variable, el software Iramuteq

lo llama ‘modalidad’
Los textos tienen que estar introducidos por cuatro asteriscos (****) o por cuatro cifras
(identificando el sujeto de investigación de un cuestionario). En todo caso, si se opta por una
opción o por otra, todos los textos deben de estar codificados de la misma manera. Luego se
introducen las variables precedidas de un asterisco, seguido del código utilizado para
identificar la variable, seguido de un guion bajo (_) y la especificación del valor de la variable.
Se pueden introducir nuevas variables añadiendo un espacio y repitiendo la secuencia:
asterisco, código de identificación de la variable, guion bajo y código del valor de la variable.
Sólo se pueden utilizar caracteres alfanuméricos, pero no signos especiales, como acentos,
signos de puntuación, etc., a excepción del guion bajo, utilizado para separar el código de la
variable y el del valor.
Siempre tiene que haber como mínimo un variable en nuestro texto para que
el programa procese la información. Esta variable encabezaría el texto y no es
necesario que se definan diferentes valores.
Ejemplo de creación de subcorpus por metadatos:
En un estudio en el que trabajamos con texto extraído de entrevistas realizadas centros

escolares a adolescentes consideramos que la variable sexo (*sex), la titularidad del centro
(*tit), el nivel socioeconómico y cultural (*ISEC), pueden ser variables que condicionen el tipo
de discurso empleado. Como variables para sexo contemplamos a hombre (hb) y mujer (mj);
para titularidad de centro público (pb) y privado (pv), y como nivel socioeconómico y cultural ,
contemplamos las variables ‘muy bajo’ (MB), ‘bajo’ (B), ‘alto’ (A) o ‘muy alto’ (MA),
considerado bajo teniendo en cuenta el baremo establecido por un índice creado dentro del
mismo estudio2.
El siguiente fragmento está compuesto de dos textos que predecirían a las respuestas de dos
adolescentes. El primero texto es el de una chica que asiste a un centro de titularidad privada,
con un nivel socioeconómico y cultural. El segundo texto correspondería al de un chico que
asiste a un centro escolar de titularidad pública y con un nivel sociocultural ‘muy alto’. Después
de cada una de las entradas, aparecería el texto, quedando finalmente de esta manera:
2
Para más información sobre la construcción del índice, consúltese a Prats, et. al (2017)
8
**** *sex_mj *tit_pv *ISEC_B
Texto, texto, texto texto texto texto texto texto texto texto texto texto texto texto texto texto
texto. Texto texto texto texto texto, texto texto texto texto texto, texto texto texto texto texto
texto texto texto texto texto; texto texto texto texto texto, texto texto texto texto y texto.
**** *sex_hb *tit_pb *ISEC_MA
En el caso que se decida desde el principio no tener en cuenta diferentes variables, como se ha
dicho anteriormente, debe tenerse en cuenta que para que el programa pueda procesar la
información, el corpus de texto debe estar precedido como mínimo por una variable, por lo
que podría quedar, por ejemplo, con esta forma:
**** *VAR_A
5.3 Creación de subcorpus por temáticas
Iramuteq permite introducir temáticas dentro de las variables. Esto puede resultar muy útil si
interesa identificar, dentro de un mismo subcorpus de texto, diferentes temáticas que lo
caracterizan.
Para introducir una temática, se introduce un guion, seguido de un asterisco, seguido del
vocablo ‘them’, seguido de guion bajo (barra baja) y, finalmente, la etiqueta que defina la
variable.
Es preferible que entre la variable y la temática esté separado por un solo espacio simple, para
que sea posible analizar los subcorpus por temática.
Cuando se ha decidido trabajar con temáticas, es imprescindible que

aparezca en todos los subcorpus, como mínimo, una temática.
Ejemplo:
**** *VAR_A
-*them_temáticaA
9
-*them_temáticaB
5.4 Consejos a la hora de dar formato a los textos
- Revísese el corpus antes de cargar el archivo al programa para verificar que no existen
errores tipográficos.
- Suprímase el material textual producido por el investigador, como por ejemplo las
preguntas realizadas en el marco de una entrevista.
- No justificar el texto
- No resaltar ninguna palabra con negritas, cursiva, subrayado o similar.
- En caso de utilizar siglas, utilícense siempre las mismas para referirse a un mismo
objeto.
- Utilícese el formato numérico para los números.
- No utilizar caracteres especiales, como comillas, apóstrofes, símbolos y asteriscos
dentro del texto. Pueden generar errores.
-
6 Abrir un corpus de texto
PRIMER PASO. Archivo  Abrir un Corpus de texto.
Ilustración 3: Modo de abrir un corpus de texto nuevo
SEGUNDO PASO. Buscamos nuestro archivo en nuestro ordenador, dentro de la carpeta donde
lo hayamos guardado. En el desplegable ‘tipo’ debemos de tener marcado “tous les fichiers”
para poder visualizarlo. Una vez tengamos seleccionado el archivo hacemos clic en «abrir».
10
Ilustración 4: ventana para elegir un archivo nuevo y cargar un nuevo corpus de texto
TERCER PASO. Inmediatamente se nos abrirá una pestaña para elegir nuestras preferencias de
configuración del análisis. La primera ventana que aparece permite la visualización de la
pestaña que hace referencia a las características “Generales” del corpus. En esta pestaña
podemos elegir diferentes opciones sobre cómo Iramuteq trabajará con el texto a partir de ese
momento.
Ilustración 5: ventana de configuración de parámetros de un corpus de datos
Codificación: Es imprescindible seleccionar la opción «UTF8 all languages».
Idioma: es la lengua en la que está escrito el texto que vamos a introducir en Iramuteq. El
programa sólo permite trabajar con un idioma simultáneamente, por lo que, si nuestro corpus
11
está conformado por diferentes subcorpus de distintos idiomas, deberemos traducir todos los
textos a un mismo idioma.
Carpeta de salida: es donde el programa guardará toda la información que genere el

programa. Por defecto, el programa guarda toda la información en la misma carpeta donde
había sido guardado el texto que vamos a trabajar. A pesar de ello, es posible seleccionar una
nueva ubicación.
Marcador de texto: El software nos requiere en esta opción si hemos codificado los segmentos
de texto con asteriscos (****) o con codificación numérica si hemos decidido marcar las
unidades de análisis con código numérico de cuatro caracteres (0000).
Utilizar el diccionario de expresiones: Si marcamos la casilla, todas las expresiones que hayan
sido registradas en el diccionario de Iramuteq se reconocerán como una palabra única, como
por ejemplo: Tasa de Natalidad. Si queremos realizar modificaciones al diccionario de una
lengua, como añadir expresiones nuevas, por ejemplo, deberemos acceder a la carpeta
C:\Users\”nombre de usuario” \.iramuteq\dictionnaires, escoger el que nos interesa modificar
e introducir los cambios oportunos.
Hacer segmentos del texto: esta casilla nos permite seleccionar escoger si queremos dividir el
texto en segmentos. Los segmentos de texto son considerados como el “ambiente de las
palabras”. Segmentar el texto puede resultar útil si trabajamos con textos largos, como
entrevistas o leyes, pues el programa dividirá los textos en unidades más pequeñas
(segmentos de texto).
Método de construcción de segmentos: aquí se elige como queremos que el programa forme
el segmento. Esta división se puede basar en un número de ocurrencias o unidades lingüísticas
(opción seleccionada por defecto), una serie de caracteres o párrafos. Si seleccionamos la
opción de ocurrencias, el programa busca la mejor relación entre tamaño y signos de
puntuación con el objetivo de tener segmentos de tamaños homogéneos, respetando el
máximo posible la estructura del texto. En caso de trabajar con respuestas a cuestionarios, es
preferible con la opción ‘párrafos’. En caso textos más largos, se aconseja utilizar la opción que
aparece en el programa por defecto.
Tamaño de segmentos de texto: aquí se define el número de unidades contenidas en el

segmento de texto.
CUARTO PASO. La segunda ventana

corresponde a ‘Limpieza’. Allí es posible optar
por una serie de parámetros que indican a
Iramuteq cómo limpiar el texto. Esto hay que
tenerlo en cuenta para hacer una
interpretación correcta de los resultados.
Considérese que el resultado del impacto del
proceso de limpieza puede variar mucho de
unos idiomas a otros.
Ilustración 6: Ventana de opciones de limpieza de un
corpus
En el caso de elegir la opción “conservar la puntuación”, téngase en cuenta que es necesario

verificar la ausencia del punto y coma en el corpus. En caso de no hacerlo, el software no
podrá abrir el corpus de texto debido a un error interno.
12
En el caso de elegir la opción “sin espacio entre las formas”, el software solo tendrá en cuenta
el espacio como separación de las formas o unidades léxica. Entiéndase por unidad léxica todo
elemento situado entre dos espacios de la cadena escrita, o entre un espacio y un signo de
puntuación. No se recomienda escoger esta opción.
QUINTO PASO. Después de haber configurado todos los parámetros según nuestras
preferencias y las características del texto, si se presiona sobre el ‘OK’ se cargará el texto. Este
proceso puede durar desde unos segundos a unos minutos, en función de las características
del corpus.
En la parte izquierda de la pantalla principal del programa, aparece a la vista el historial de

corpus con los que hemos trabajado. El nombre con el que se guarda corresponde al nombre
del archivo, seguido de una barra baja, seguido de la palabra ‘corpus’ y del número de vez que
hemos abierto el corpus en el programa. Es decir, si abrimos un mismo texto llamado ‘noticias’
dos veces, encontraremos dos referencias, ‘noticias_Corpus 1’ y ‘noticias_Corpus2’.
En el mismo momento en que abrimos el archivo, en la carpeta donde dijimos que se

guardaran los resultados, aparecerá una carpeta con el mismo nombre que el que aparece en
el historial.
Es posible eliminar un corpus de texto del historial pulsando el botón derecho del ratón
encima de su nombre. En ese caso, el archivo no se visualizará en el historial, pero los
resultados de los análisis permanecerán en la carpeta de destino que se había escogido.
7 Ejecución e interpretación de los análisis
Como hemos indicado anteriormente, es posible realizar diferentes tipos de análisis. Para
realizarlos podemos optar por seleccionar el tipo de análisis deseado apretando el botón
derecho sobre el nombre del archivo; sobre la barra de tareas o en la pestaña ‘análisis de
texto’ en el mismo
Ilustración 7: formas de ejecutar los análisis
13
Cuando seleccionemos cualquiera de las
opciones, antes de procesar el análisis, el
programa abrirá una nueva ventana llamada
‘Parámetros’, en la que deberemos escoger las
últimas preferencias sobre el tipo de análisis.
Ilustración 8: ventana de opciones que aparece antes

de ejecutar cualquier tipo de análisis
Lemmatization: Si escogemos esta opción, el programa lematizará el corpus de datos. Este

proceso reduce las palabras principales a sus raíces, deviniendo así “morfemas lexicales”.
«El morfema lexical es la raíz de la palabra que remite a la familia de la cual

proviene, opuesto a los morfemas derivativos que son las terminaciones que
indican un matiz semático o los morfemas flexivos que indican el género o la
cantidad. Así, en la palabra “niño”, el morfema lexical es niñ; sus terminaciones o,
os, a, as, son los morfemas flexivos, mientras que terminaciones como ito, ita, ote,
ota, corresponden a los morfemas derivativos. Alceste sólo toma en cuenta los
morfemas lexicales para el análisis y elimina los morfemas flexivos o derivativos,
aunque indica en un análisis suplementario todas las terminaciones de cada
morfema lexical o raíz analizada.» (Alba, 2004)
Este proceso permite facilitar la interpretación de las resultados, puesto que los verbos se
presentan en infinitivo, los adjetivos en masculino y los nombres en singular. Se recomienda
lematizar el corpus.
Keys properties. Si apretamos encima de la opción ‘properties’ se abrirá una nueva ventana
donde podremos escoger qué tipo de formas consideramos relevantes para nuestro análisis
(formas activas = 1) y las que no aportan valor al mismo (formas suplementarias = 2). Por
defecto, como formas activas se consideran los adjetivos, los adverbios, los verbos y las formas
no reconocidas3.
3
En el manual en ingles (Brigido Vizeu Camargo & Justo, 2016) se presenta, en la página 15, una
sugerencia de ajustes para estudios en el ámbito de psicología.
14
Ilustración 9: ventana de propiedades clave del análisis. Aquí se elige qué tipo importancia se le quiere dar a las
diferentes categorías gramaticales del corpus
Una vez que seleccionemos OK en la ventana ‘Parámetros’, se realizarán los análisis que se
hayan escogido. Este proceso puede durar unos minutos en función del tipo de análisis y las
características del corpus de texto.
7.1 Estadísticas
Esta opción de análisis presenta frecuencia de

textos, segmentos de textos, ocurrencias,
frecuencia media de palabras, frecuencia total de
cada forma y de su clasificación gramatical,
teniendo en cuenta el diccionario y las
propiedades de las formas escogidos. En suma,
resulta una descripción estadística del análisis del
corpus.
En la primera pestaña (RESUMEN) aparece el

resumen de los análisis. Podemos observar: el
total de textos de nuestro corpus; el total de
ocurrencias; el total de formas, el total de hápax
(palabras con frecuencia =1) y la media de
ocurrencias por texto.
El gráfico presenta los logaritmos de rangos en el

eje de abscisas y los logaritmos de frecuencias en
el eje de ordenadas.
Ilustración 10: Pestaña de resumen descriptivo del

análisis estadístico
15
Podemos observar la frecuencia de
las formas activas, de las formas
suplementarias, del total de las
formas y de las formas con
frecuencia=1 (Hápax) en la
segunda, tercera, cuarta y quinta
pestañas. En cada una de ellas
podemos ver: la “forma” o unidad
lexical exacta presente en el texto,
la frecuencia de cada forma y su
tipo o categoría gramatical.
Ilustración 11: resumen de las formas activas encontradas
Si nos situamos encima de una forma y apretamos el botón derecho del más, el programa nos
ofrece dos opciones. Por un lado, podemos ver las ‘formas asociadas’, es decir, las diferentes
palabras que el programa ha interpretado con una misma forma.
Por otro lado, si elegimos la opción ‘concordancia’, el programa nos muestra los segmentos de
textos donde aparece esa forma en concreto. Es decir, si seleccionamos la forma
‘característica’ el programa nos mostrará los segmentos de texto donde aparece esa forma. A
pesar de que el software no está pensado para ello, esta opción de análisis puede resultar muy
útil, pues podemos recurrir a los segmentos específicos del texto para realizar análisis de tipo
más cualitativo, después de tener en cuenta otras opciones de análisis que ofrece el programa
más sofisticadas, como el Análisis Jerárquico Descendiente. De esta manera podremos utilizar
el programa como punto de partida para hacer un análisis mixto, y analizar los datos con dos
perspectivas que se complementan entre sí, posibilitando un acercamiento más rico en
matices (Bericat, 1998; Castañer, Camerino, & Anguera, 2013; Creswell & Plano, 2011; Morse
& Niehaus, 2009).
Si situamos el cursor sobre la

totalidad del análisis estadístico que
aparece en el historial, podemos
acceder directamente al directorio
donde se han guardado los
resultados. También hay otras
opciones, como eliminar del historial
el análisis en cuestión.
Ilustración 12: opciones a realizar sobre la totalidad del análisis

realizado
16
En el directorio donde se han
guardado los resultados del análisis
encontramos en diferentes hojas de
cálculo.
Ilustración 13: carpeta del directorio
7.2 Análisis de especificidades
Como se ha explicado anteriormente, este análisis hace una comparativa sobre el uso de
formas o unidades léxicas específicas, considerando las variables previamente definidas.
Cuando se ejecuta el análisis, el software solicita que escojamos si queremos realizar el análisis
por variables o por modalidades.
Ilustración 14: ventana de selección de variables Ilustración 15 ventana de elección de valores de la

variable
Si seleccionamos la opción por variables, téngase en cuenta que sólo se puede elegir una
variable a la vez (la que se selecciona primero). Al realizar una selección según modalidades, es
posible hacer una selección de los valores de interés a la vez, dejando de lado algunos valores
o modalidades, por ejemplo, los poco frecuentes (que se dan en pocos individuos).
- Índice: Es posible realizar los cálculos teniendo en cuenta el Chi2 o la ley

hipergeométrica.
- Frecuencia mínima: sólo se visualizarán las formas cuyo número de ocurrencias en
todo el corpus sea superior al umbral indicado.
Es obligatoria la selección de, al menos, una variable para poder realizar los análisis. Además,
esta variable debe tener como mínimo dos modalidades o valores.
17
IRaMuTeQ no hará el AFC con una variable que tiene pocos términos
El resultado del análisis nos presenta la siguiente ventana con diferentes pesatañas: formas,
tipos; frecuencias absolutas y relativas de formas y de tipos y la de Análisis Factorial de
Correspondencias (AFC).
En cada una de las pestañas el programa muestra la relación entre la forma o unidad léxica
específica y la variable tenida en consideración. A mayor sea el valor asociado a una forma,
más específica resulta de la modalidad. El signo + significa que la forma se menciona más en
ese grupo que los otros. Del mismo modo, el signo negativo, implica que esa forma la utiliza
más ese grupo que el otro.
Las pestañas de FORMAS, FORMAS BANALES (SUPLEMENTARIAS) y TIPOS: presentan la lista

de formas, categorías gramaticales y los resultados por modalidad.
Ilustración 16: resultados estadísticos de formas
Las pestañas de FRECUENCIAS: presenta la frecuencia de cada forma en los textos con la
modalidad de la variable:
Ilustración 17: resultados estadísticos de frecuencias de tipos
Las pestañas de FRECUENCIAS RELATIVAS: presentan las frecuencias relativas de las formas o
los tipos, expresados en tanto por mil:
Ilustración 18: resultados estadísticos de frecuencia relativa de tipos
18
La pestaña AFC: Presenta un dendograma del Análisis Factorial de Correspondencias,
posibilitando el análisis para variables hasta de tres niveles.
Si se presiona sobre este símbolo es posible realizar una reedición del AFC y del gráfico.
No se han encontrado explicaciones sobre la forma correcta de interpretar este gráfico. El

programa no permite una correcta interpretación de qué representan los factores.
7.3 Clasificación Jerárquica Descendiente
Realiza una clasificación jerarquizada descendente siguiendo el método propuesto por Reinert
(1983), definido por un análisis clúster, que permite clasificar los datos en grupos (Kaufman &
Rousseeuw, 2009), en base a las semejanzas y desemejanzas en el uso de las formas que se da
entre los diferentes componentes de dicha población.
PRIMER PASO: seleccionar los parámetros del análisis
Ilustración 19: ventana de opciones del método de Clasificación Jerárquica Descendiente
En esta ventana se nos plantean diferentes opciones para la aplicación del método de CHD:
Clasificación doble en RST: reagrupa los segmentos de textos más próximos. Realiza dos veces
el análisis. No se recomienda su uso por el bajo aprovechamiento del corpus.
Clasificación simple sobre segmentos de texto: La clasificación se centrará en los segmentos

de texto. Es el análisis estándar, recomendada para respuestas largas.
Clasificación simple en el texto: Con esta opción los textos se mantienen en su totalidad, sin
dividirlos en segmentos de texto. Es la opción recomendada para las respuestas cortas.
El resto de parámetros no requieren modificación. Esto son:
Tamaño del rst1 y rst2: estas opciones sirven cuando se realiza una clasificación en RST.
Permiten cambiar el tamaño de la reagrupación de segmentos de texto. Las unidades
representan el número de formas activas reagrupadas por línea.
19
Número de clases terminales de la fase 1: determina el número de clases de la primera parte
de la clasificación. Por defecto viene definida por 10, pero podemos cambiarlo en función de la
heterogeneidad del corpus. Aumentar el valor, aumentaría el número de clases.
Frecuencia mínima de segmentos de texto por clase: determina el nivel mínimo bajo el que
los segmentos no serán tenidos en cuenta.
Frecuencia mínima de una forma analizada: no diponible.
Número máximo de formas analizadas: hace referencia al número máximo de formas a

analizar. Por defecto vienen definido para las 3000 formas activas y suplementarias más
frecuentes, pero es posible modificarlo si el tamaño del corpus lo justifica. Téngase en cuenta
que una forma debe de aparecer un mínimo de tres veces para ser tenida en cuenta en el
análisis.
Método svd: permite la elección del algoritmo utilizado para las descomposiciones.
Método patata: si elegimos esta opción, no se realiza la segunda fase de cada partición. El
análisis es más rápido, pero menos preciso.
SEGUNDO PASO: Una vez seleccionados los parámetros del análisis, apretamos el OK y
esperamos a que se realice el análisis. Este proceso puede durar minutos e incluso horas,
dependiendo del tamaño del texto.
Una vez que se realice el análisis, aparecerá una ventana con tres pestañas:
- CDH: donde aparecen los resultados del análisis clúster.

- PERFILES: donde se presenta el léxico incluido en cada clase. Esto nos permitirá
orientar la temática que rodea a la clase o grupo, ya que los perfiles se crean por las
coocurrencias, por lo que se agrupan por la proximidad lexical entre las formas
incluidas.
- AFC: muestra el análisis factorial que corresponde a la contingencia creciente de
formas y lemas, que son mostrados según colores que corresponden a los de la clase a
la que pertenecen.
20
7.3.1 Primera pestaña: CDH
Ilustración 20: primera ventana de resultados del CDH
En primer lugar, en la esquina izquierda aparece una descripción de los resultados y las
principales características del análisis.
Posteriormente, aparece el dendograma muestra la distribución de clases considerando la

relación entre ellas.
Si pulsamos estas opciones, el dendograma mostrará, además, las formas específicas

de las clases para tenerlas en consideración en la interpretación. Al mostrar estas
formas características, permite al usuario la interpretación del “mundo léxico” de
cada clase. Una vez interpretadas las diferencias entre las clases, se aconseja
identificarlas con una etiqueta significativa del mundo representacional del que da
cuenta.
Ilustración 21: Dendograma a partir de CDH correspondiente a una pregunta de entrevista donde se preguntaba por
la opinión sobre una noticia de diario titulada: "Protestar sí sirve. La idea de que lo maduro es no protestar es
errónea. En una democracia lo maduro es reivindicar" (González, 2014)
21
En el análisis de estos dendogramas es conveniente tener en cuenta diferentes aspectos:
- Relaciones entre clases: en el ejemplo, observamos que el corpus, en la pimera

partición del itinerario, se divide en dos subcorpus: por un lado, el subcorpus formado
por la clase 5, y por el otro, el resto de clases. En una segunda partición del itinerario,
el subcorpus fue nuevamente divido en otros dos subcorpus, a partir del cual se
obtiene la parte 5. En una tercera partición se origina la clase 4 y, finalmente, la última
partición da lugar a las clases 1 y 2. El Análisis Jerárquico Descendiente paró, al
obtener 5 clases estables, es decir, compuestas de unidades de segmentos de texto
con vocabulario semejante.
- Porcentaje de las clases: El software indicación el tamaño de las clases, expresado
como un porcentaje del corpus presentado.
- Las formas: las unidades léxicas presentadas sirven de orientación para hacer una
primera valoración sobre el contenido lexical de cada clase. El tamaño de cada una de
las formas orienta sobre la significatividad estadística de la forma dentro de ese
mundo léxico. Sin embargo, para un análisis más detallado sobre esta cuestión, es
necesario acudir a la segunda pestaña, denominada “perfiles”.
-
7.3.2 Segunda pestaña: perfiles
En esta pestaña encontramos los datos referentes a su contenido.
Ilustración 22: ventana de perfiles del CDH
N: número que ordena las formas en la tabla.

Eff. St.: número de segmentos de texto que contienen la palabra de la clase.
Eff. Total: número de segmentos de texto que contienen la forma, con independencia de la
clase.
Porcentaje: porcentaje de ocurrencia de la palabra en los segmentos de texto de esa clase, en
relación con su ocurrencia en el corpus.
Chi2: valor de Χ2 de la asociación de la forma con la clase.
Type: identifica la clase gramatical en la que la forma fue identificada en el diccionario.
Forme: identifica la unidad lexica en cuestión.
P: identifica el nivel de significación de asociación de la palabra con la clase.
Para profundizar en el análisis de los perfiles, es posible acceder a un menú de funciones

apretando el botón derecho del ratón encima de cada una de las formas.
22
Ilustración 23: menú suplementario de perfiles
Las opciones que parecen más interesantes son:
Formas asociadas: muestra las palabras reagrupadas en un lema/forma de la clase.
Chi2 por clase: crea un gráfico que presenta la asociación de la forma a cada una de las clases.
Pueden seleccionarse varias formas al mismo tiempo, teniendo presionado el botón de CTRL.
Chi2 por clase en dendograma: presenta el mismo grafico que el de la opción anterior pero
proyectado sobre un dendograma.
Gráfico de palabra: realizara un gráfico de similitud

representando los enlaces de la forma seleccionada
con las otras formas de la clase.
Concordancia: propone hacer la concordancia de las

formas y lemas seleccionados. Está disponible también
para los segmentos de texto de la clase, así como para
todas las clases del corpus.
Segmentos de texto característicos: Interesante

Ilustración 24:: Gráfico de la palabra 'estudio" opción de análisis que permite profundizar en un
estudio cualitativo posterior. Hace una lista de los
segmentos de textos característicos de la clase. Propone dos medidas, ambas igual de útiles. La
opción ’absoluto, en la que los segmentos de textos son clasificados en función de la suma de
los Chi2 y la relación a la clase de las formas activas que contien. En la opción “Relativo”, los
segmentos de texto son clasificados en función de la media de los Chi2 y el enlace a la clase de
formas activas que contiene.
23
Gráfico de la clase: se trata de un análisis de similitud llevado a una tabla de ausencia y
presencia (0/1) que cruza las unidades elegidas en la línea y las formas activas de la clase en
una columna. La matriz de similitud está construida en columnas. o Segmentos repetidos:
mostrará los efectivos y tamaños de los
segmentos repetidos de la clase.
Exportar: exporta todos los segmentos de

texto presentes en la clase, puede incluso
constituir un nuevo corpus.
Ilustración 25: Gráfico de similitud de una clase
Nube de palabras por clase: permite realizar una

nube con el léxico que seleccionemos dentro
Ilustración 26: Nube de palabras de una clase
de cada clase.
Por otro lado, es posible acceder a más opciones de análisis si clicamos el botón derecho
encima del “nombre del archivo_alceste_1”, situado en la parte izquierda de la interface (en el
historial). Allí podemos acceder a algunos resultados del análisis. Los que nos parecen más
interesantes son:
- Corpus en color: el programa abrirá una

ventana de navegador en la que se puede visualizar
los segmentos de texto característicos de cada clase,
que se identifican por los colores de éstas según se
Ilustración 27: imagen del historial han representado en el dendograma.
- Rapport: generará un documento *.txt
denominado Rapport, que contiene la descripción lexical de cada una de las clases
formadas por el CHD, una especie de resumen simplificado del análisis.
En caso tener muchas formas y querer buscar una en concreto, es posible

hacer una búsqueda en el perfil concreto de la clase pulsando Ctrl+F.
24
7.3.3 AFC
Muestra un análisis factorial que corresponden a la contingencia de formas y lemas. No se han
encontrado explicaciones sobre la forma correcta de interpretar este gráfico. El programa no
permite una correcta interpretación de qué representan los factores. Resulta, por tanto,
aconsejable interpretar el CDH, dejando de lado el AFC.
7.4 Análisis de similitud
Este análisis utiliza los conceptos de la teoría de grafos utilizados en Análisis de Datos
Relacional.
PRIMER PASO: elección de los parámetros.
Ilustración 28: ventana de parámetros de ejecución del análisis de similitud
Selección de variables
A la izquierda de la ventana es posible seleccionar las variables que se quieren incluir en el

análisis. Si el corpus es muy amplio, el gráfico que generará el software será ilegible. Se
recomienda en esos casos hacer una selección de las formas teniendo en cuenta sus
frecuencias de aparición (eff.). Por defecto aparecen todas seleccionadas. Hágase un doble clic
encima de ellas para borrar la selección. Con el Ctrl apretado se pueden hacer la selección de
más de una forma a la vez.
25
Parámetros
Pueden resultar interesante plantearse la modificación de los parámetros que salen por
defecto en los siguientes casos:
- Comunidades: Aproxima los conjuntos léxicos más próximos por bloques (núcleos
representacionales). Es una solución de la teoría de grafos para identificar grupos
léxicos por bloques. Las formas con niveles de co-ocurrencia alta se encuentran dentro
de la misma comunidad y se conectan débilmente con otras comunidades. Desde la
teoría de representaciones sociales, nos serviría para identificar núcleos
representacionales. Si marcamos la opción, el software nos diferenciará los bloques
presentando las formas con colores. Por la claridad visual del gráfico, se recomienda la
presentación de los resultados de este análisis marcando esta opción.
- Halo: representa las comunidades por una agrupación de color, mostrando mejor las
interconexiones entre los grupos. Esta opción sólo dará resultado si también tenemos
marcado la opción de comunidades. Por la claridad visual del gráfico, se recomienda la
presentación de los resultados de este análisis marcando esta opción.
- Seleccionar una variable: permite identificar las formas más características de una de
las variables de nuestro corpus. Por ejemplo, si hemos incorporado la variable sexo,
nos mostraría las palabras que son específicas de hombres, mujeres y resto de valores
que pueden haberse asociado a la variable. Esta identificación la hace por colores. En
este caso, el tamaño de las palabras no variará según su frecuencia. Nos puede
resultar útil para profundizar en el análisis.
SEGUNDO PASO: lanzar el gráfico apretando OK e interpretarlo.
Ilustración 29: Gráfico de similitud con comunidades y halo, realizado a partir de las opiniones sobre el editorial
periodístico titulado: «Protestar sí sirve. La idea de que lo maduro es no protestar es errónea. En una democracia lo
maduro es reivindicar».
26
Por defecto, las formas se encuentran en los nodos de la gráfica y los aristas/enlaces
representan la co-ocurrencia entre ellos. A mayor frecuencia de las palabras, mayor tamaño de
las mismas en el gráfico. A mayor co-ocurrencia entre palabras, más grueso se representa el
enlace entre ellas.
Cabe tener en cuenta que, a pesar de que el software realiza un análisis cuantitativo sobre un
corpus de datos cualitativo, pero que el resultado del análisis se interpreta necesariamente
desde un punto de vista meramente cualitativo. Es conveniente exponer los resultados
convirtiendo la imagen en una narrativa condicionada por un análisis cualitativo realizado
previamente. Por otro lado, contémplese que no sólo interesa interpretar lo que se
representa, sino también lo que no se les representa a los sujetos de estudio sobre el objeto
por el que se pregunta. Es por ello que quien lo analiza debe de dominar el marco teórico
sobre el objeto representacional que se está analizando, e incluso complementar el análisis
con una aproximación cualitativa al corpus.
La interpretación del gráfico anterior se podría hacer la siguiente manera:
“En el gráfico podemos observar que los adolescentes entrevistados asocian el hecho
de protestar con la Democracia. Les resulta una evidencia (está claro para ellos) que
protestar es una manera de intentar cambiar las cosas, expresando la opinión e ideas, la
manera de pensar. Creen que puede servir de algo mostrar desacuerdo, pero que
depende de la cantidad de gente, de ciudadanos que «salgan» a protestar. Vemos que
protestar se asocia con el hecho de reivindicar a partir de hacer una manifestación, de
no quedarse en casa, de salir a la calle para decir lo que se quiere conseguir, para que
el gobierno escuche e intentar que «haga caso». La protesta, asociada a hacer
manifestaciones, se representa como algo que «pasa» siempre y cuando se tengan en
cuenta los derechos de las personas, pero no se relaciona necesariamente con la
madurez de un sistema democrático. Algunos sujetos, asociando también la protesta
con las manifestaciones, consideran que el problema de éstas son las acciones
radicales, como la quema de containers. Este tipo de acciones se les representa como
algo incívico, que invisibiliza y hace daño, en el sentido que no sirve para el cometido
de la protesta. Sólo en un caso, excepcional en relación al resto, la entrevistada veía la
quema de containers como un mecanismo que algunos grupos, vinculados a
juventudes de partidos de izquierda, utilizan para asegurarse de que la manifestación
tenga mayor repercusión mediática, porque sino, quizás, los medios de comunicación
ni siquiera considerarían como noticia el acto reivindicativo.” (Molina-Neira, Barriga-
Ubed, & Gámez, 2017)
8 Nubes de palabras
Esta opción de análisis muestra el léxico en un gráfico que presenta las formas según su
frecuencia de aparición. Las formas más citadas aparecen más céntricas y con mayor tamaño.
Es una de los análisis más simples del programa. Posiblemente, esta opción sea interesante
aplicarla, especialmente, en estudios realizados a partir de asociación libre de palabras o
cuestionarios de respuesta corta.
27
No es preciso editar los parámetros del gráfico. En todo caso, no es necesario explicar las
diferentes opciones que ofrece el programa, pues los parámetros están bien definidos por sus
etiquetas.
Ilustración 30: ventana de preferencias de nubes de

palabras
Ilustración 31: ventana de elección de formas a

incorporar a la nube de palabras (ordenada por
frecuencia de aparción)
Una vez clicamos en el OK, nos aparecerá una segunda pantalla donde podemos elegir las
formas que queremos que aparezcan en la imagen que generará el gráfico. Clicando OK en esa
pantalla el gráfico se genera automáticamente.
Ilustración 32: Ejemplo de resultado de Nube de palabras
28
8.1 Subcorpus por metadatos
Esta opción nos permite generar un nuevo corpus de texto a partir de los resultados
identificados por una sola de las variables o modalidades de estudio. Puede resultar muy
práctico para trabajar en estudios comparativos.
Para realizar esta operación hay que clicar sobre la opción ‘subcorpus por metadatos’ y,
posteriormente, seleccionar la variable a partir de la cual queremos generar el subcorpus.
Ilustración 33: interface sobre el proceso de generación de un subcorpus por metadatos
Ilustración 34: ventana de elección de las modalidades para la generación de subcorpus
8.2 Subcorpus por temática
También podemos generar un subcorpus por temática siguiendo los mismos pasos que en la
opción anterior, pero seleccionando la opción en cuestión.
29
9 Diccionario
Corpus Conjunto de textos que se han introducido al programa, siguiendo una

serie de criterios y con un fin determinado. Véase el apartado 2.1, página
3.
Forma Unidad léxica. Palabra con la que trabaja el software en caso de optar por
lematizar el corpus.
Hápax Formas que cuya frecuencia de aparición en el texto es igual a uno.
Lematizar Reducir las palabras principales a sus raíces, deviniendo así “morfemas
lexicales”.
«El morfema lexical es la raíz de la palabra que remite a la familia de la cual
proviene, opuesto a los morfemas derivativos que son las terminaciones que
indican un matiz semático o los morfemas flexivos que indican el género o la
cantidad. Así, en la palabra “niño”, el morfema lexical es niñ; sus
terminaciones o, os, a, as, son los morfemas flexivos, mientras que
terminaciones como ito, ita, ote, ota, corresponden a los morfemas
derivativos. Alceste sólo toma en cuenta los morfemas lexicales para el
análisis y elimina los morfemas flexivos o derivativos, aunque indica en un
análisis suplementario todas las terminaciones de cada morfema lexical o raíz
analizada.» (Alba, 2004)
Para facilitar la interpretación de las resultados, los verbos se presentan
en infinitivo, los adjetivos en masculino y los nombres en singular.
Unidad de Contexto Lo que conocemos en Iramuteq por ‘segmento de texto’, se conoce como
Elemental (UCE) Unidad de Contexto Inicial en el software ALCESTE.
Unidad de Contexto Lo que conocemos en Iramuteq por ‘texto’, se conoce como Unidad de
Inicial (UCI) Contexto Inicial en el software ALCESTE.
10 Bibliografía
Abric, J.-C. (2001). A structural approach to social representations. En K. Deaux & G. Philog
(Eds.), Representations of the social: Bridging theoretical traditions (pp. 42-47).
Malden: Blackwell Publishing.
Alba, M. de. (2004). El método Alceste y su aplicación al estudio de las representaciones
sociales del espacio urbano: el caso de la ciudad de México. Papers on social
representations, 13(1), 01–20.
Baril, E., & Garnier, B. (2015). IRaMuTeQ 0.7 : Interface de R pour les Analyses
Multidimensionnelles de Textes et de Questionnaires (Version 0.7 alpha 2).
Recuperado a partir de
30
http://iramuteq.org/documentation/fichiers/Pas%20a%20Pas%20IRAMUTEQ_0.7alph
a2.pdf/at_download/file
Bericat, E. (1998). La Integración de los métodos cuantitativo y cualitativo en la investigación
social: significado y medida. Barcelona: Ariel.
Bholat, D., Hansen, S., Santos, P., & Schonhardt-Bailey, C. (2016). Minería de textos para
bancos centrales. Centro de Estudios Monetarios Latinoamericanos, 215.
Breakwell, G. M. (2011). Empirical approaches to social representations and identity processes:
20 years on. Papers on Social Representations-Special Issue, 20, 17–1.
Camargo, B. V., & Justo, A. M. (2013). IRAMUTEQ: Um software gratuito para análise de dados
textuais. Temas em Psicologia, 21(2), 513-518. https://doi.org/10.9788/TP2013.2-16
Camargo, B. V., & Justo, A. M. (2013). Tutorial para uso do software de análise textual
IRAMUTEQ.
Camargo, B. V., & Justo, A. M. (2016). Iramuteq Tutorial. (T. Forte, Trad.). Recuperado a partir
de
http://www.iramuteq.org/documentation/fichiers/IRaMuTeQ%20Tutorial%20translat
ed%20to%20English_17.03.2016.pdf
Castañer, M., Camerino, O., & Anguera, M. T. (2013). Métodos mixtos en la investigación de las
ciencias de la actividad física y el deporte. Apunts Educación Física y Deportes, (112),
31-36. https://doi.org/10.5672/apunts.2014-0983.es.(2013/2).112.01
Creswell, J. W., & Plano, V. L. (2011). Designing and conducting mixed methods research.
Thousand Oaks, CA: Sage.
Ghiglione, R., Matalon, B., Pires, C. L., & de Saint-Maurice, A. (1995). O inquérito: teoria e
prática.
González, B. (2014, junio 24). Protestar sí sirve | Sociedad | EL PAÍS. Recuperado 7 de octubre
de 2016, a partir de
31
http://sociedad.elpais.com/sociedad/2014/01/27/actualidad/1390852000_687999.ht
ml
Jodelet, D. (1985). La representación social: fenómenos, conceptos y teoría. En J.-C. Abric & S.
Moscovici (Eds.), Psicología social (pp. 469-494). Barcelona [etc.]: Paidós.
Kaufman, L., & Rousseeuw, P. J. (2009). Finding groups in data: an introduction to cluster
analysis (Vol. 344). John Wiley & Sons. Recuperado a partir de
https://books.google.es/books?hl=es&lr=&id=YeFQHiikNo0C&oi=fnd&pg=PR11&dq=cl
uster+analysis&ots=5zw8E8MFtz&sig=3gNybN-reikERK77CeH8oL-Y1vM
Latorre, M. L. (2005). ¿Cuáles son las características de las prácticas pedagógicas de profesores
chilenos en ejercicio? Recuperado a partir de
http://www.ceppe.cl/images/stories/recursos/publicaciones/Marisol%20Latorre/Cual
es-son-las-caracteristicas-de-las-practicas-pedagogicas-de-profesores-chilenos-en-
ejercicio.pdf
Loubère, L., & Ratinaud, P. (2014). Documentation IRaMuTeQ, 0.6 alpha 3, versión 1.
Marchand, P., & Ratinaud, P. (2012). L’analyse de similitude appliquée aux corpus textuels: les
primaires socialistes pour l’élection présidentielle française (septembre-octobre 2011).
En Actes des 11eme Journées internationales d’Analyse statistique des Données
Textuelles. (pp. 687–699).
Molina-Neira, J., Barriga-Ubed, E., & Gámez, V. (2017). Representaciones Sociales de los
adolescentes catalanes sobre la participación política en democracia. International
Journal of Sociology of Education, 6(1).
Moliner, P. (2007). La teoría del núcleo matriz de las representaciones sociales. En T. R. Salazar
& M. de L. G. Curiel (Eds.), Representaciones sociales: teoría e investigación (pp. 137-
156). Guadalajara, México: Editorial CUCSH-UdeG.
32
Moreno, M., & Ratinaud, P. (2015). Manual uso de Iramuteq. Versión 0.7 alpha 2. Recuperado
a partir de http://iramuteq.org/documentation/fichiers/guia-
iramuteq/at_download/file
Morse, J. M., & Niehaus, L. (2009). Mixed Method Design: Principles and Procedures. Walnut
Creek, California: Left Coast Pr Inc.
Ormeño, A. (2017). Uso de las tecnologías digitales en el aprendizaje formal, no formal e
informal en estudiantes de la carrera de odontología de la Universidad de los Andes,
Santiago, Chile. Universidad de Barcelona. Recuperado a partir de
https://www.educacion.gob.es/teseo/mostrarRef.do?ref=1361697
Prats, J., Molina-Neira, J., Ruiz, A., & Molina, F. (2017). Análisis de las representaciones e ideas
sociales del alumnado en Educación para la Ciudadanía Democrática: ejemplo de
mixed-methology desde y para la investigación transdisciplinar. International Journal
of Sociology of Education, 6(1).
Reinert, A. (1983). Une méthode de classification descendante hiérarchique: application à
l’analyse lexicale par contexte. Les cahiers de l’analyse des données, 8(2), 187–198.
Reinert, M. (1987). Classification Descendante Hierarchique et Analvse Lexicale par Contexte-
Application au Corpus des Poesies D’A. Rihbaud. Bulletin of Sociological
Methodology/Bulletin de Méthodologie Sociologique, 13(1), 53–90.
Reinert, M. (1998). Quel objet pour une analyse statistique du discours? Quelques réflexions à
propos de la réponse Alceste. En JADT (pp. 557–569). Recuperado a partir de
http://w3dev.ualg.pt/~lfaisca/SMAD03/JADT_Reinert_1998.pdf
Reinert, M. (2003). Le rôle de la répétition dans la représentation du sens et son approche
statistique par la méthode« ALCESTE». SEMIOTICA-LA HAYE THEN BERLIN-, 147(1/4),
389–420.
Santana, L. C. (2013). Aproximaciones metodológicas al estudio de las representaciones
sociales en educación. En Eduacion, sociedad y cultura. Bogotá.
33
View publication stats

Tutorial para El Análisis de Textos Con El Software IRAMUTEQ

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tutorial para El Análisis de Textos Con El Software IRAMUTEQ

Cargado por

Copyright:

Formatos disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Tutorial para el análisis de textos con el software IRAMUTEQ

Working Paper · March 2017

Josué Molina Neira

The user has requested enhancement of the downloaded file.

Josué Molina Neira. PhD

1 Introducción. ¿Qué es Iramuteq? ......................................................................................... 3

IRAMUTEQ (Interfaz de R para el Análisis Multidimensional de los Textos y Cuestionarios) es un

En suma, es un programa desarrollado para satisfacer las necesidades de las investigaciones

- En un estudio documental sobre noticias, cada una de ellas corresponderá a un texto.

3 Funcionalidad del software: tipos de análisis

El software permite la realización de los tipos de análisis que se presentan a continuación.

3.1 Estadísticas de los textos o lexicografía básica

- Identifica las Unidades de Contexto Iniciales (UCI) en Unidades de Contexto

3.2 Análisis de Especifidades.

3.3 Método Reinert: Método de Clasificación Jerárquica Descendiente (CDH)

La redundancia de sucesiones de palabras, o la concatenación de palabras que componen un

3.4 Análisis de similitud (ADS)

El ADS contempla el corpus de una manera completamente diferente a la CDH. El enfoque se

El análisis de similitud presenta un resumen de la estructura contenida en una representación,

Agrupa las palabras y las organiza gráficamente en función de su frecuencia. Es un análisis

4 Instalación del Software

Pasos para la instalación:

1. Software R: Al tratarse de una interfaz del software R, es indispensable descargarse

2. Software Iramuteq (http://sourceforge.net/projects/iramuteq/)

Si le damos a “aceptar”, se instalarán automáticamente. Este proceso puede tardar varios

En la misma ventana es posible cambiar el idioma de la interfaz del programa.

Para verificar si la instalación es correcta

Ilustración 2: ventana de parámetros generales del programa

5 Dar formato a los textos

El programa permite contemplar diferencias en los textos teniendo en cuenta variables

5.1 Extensión del archivo de texto

- Guardarlo con formato “R programming language” si lo guardamos con Notepad++

5.2 Creación de subcorpus por metadatos

Lo que en estadística se conoce como ‘valor’ de la variable, el software Iramuteq

Ejemplo de creación de subcorpus por metadatos:

En un estudio en el que trabajamos con texto extraído de entrevistas realizadas centros

**** *sex_hb *tit_pb *ISEC_MA

5.3 Creación de subcorpus por temáticas

Cuando se ha decidido trabajar con temáticas, es imprescindible que

5.4 Consejos a la hora de dar formato a los textos

6 Abrir un corpus de texto

PRIMER PASO. Archivo  Abrir un Corpus de texto.

Ilustración 3: Modo de abrir un corpus de texto nuevo

Ilustración 5: ventana de configuración de parámetros de un corpus de datos

Codificación: Es imprescindible seleccionar la opción «UTF8 all languages».

Carpeta de salida: es donde el programa guardará toda la información que genere el

Tamaño de segmentos de texto: aquí se define el número de unidades contenidas en el

CUARTO PASO. La segunda ventana

En el caso de elegir la opción “conservar la puntuación”, téngase en cuenta que es necesario

En la parte izquierda de la pantalla principal del programa, aparece a la vista el historial de

En el mismo momento en que abrimos el archivo, en la carpeta donde dijimos que se

7 Ejecución e interpretación de los análisis

Ilustración 7: formas de ejecutar los análisis

Ilustración 8: ventana de opciones que aparece antes

Lemmatization: Si escogemos esta opción, el programa lematizará el corpus de datos. Este

«El morfema lexical es la raíz de la palabra que remite a la familia de la cual

Esta opción de análisis presenta frecuencia de

En la primera pestaña (RESUMEN) aparece el

El gráfico presenta los logaritmos de rangos en el

Ilustración 10: Pestaña de resumen descriptivo del

Ilustración 11: resumen de las formas activas encontradas

Si situamos el cursor sobre la

**** sex_hb tit_pb *ISEC_MA