Está en la página 1de 9

El proyecto final: métodos Corpus

Jorge Zhang
5/18/2023
SPA 426

Hay muchos métodos o técnicas que son necesarios o adecuados para

examinar la variable lingüística por ejemplos como: Análisis de corpus;

experimentos controlados; Encuestas; Análisis de discurso. Mi tópico se va a

centralizar en el Corpus. El corpus es un conjunto de textos o datos lingüísticos

que se recopilan y analizan con el objetivo de estudiar un idioma o una lengua

en particular. El corpus es una herramienta esencial en la lingüística y en otras

disciplinas relacionadas con el lenguaje, ya que proporciona una muestra

representativa y sistemática del uso de la lengua en diferentes contextos y

situaciones.

El análisis de corpus consiste en recopilar un conjunto de textos y analizarlos

para identificar patrones lingüísticos, como el uso de ciertas palabras,

estructuras gramaticales o frecuencias de aparición.

El Yeísmo es una parte importante en la lingüística colombiana. Es un

fenómeno lingüístico que se refiere a la pronunciación de la “ll” y la “y” como

un sonido similar al de la "y" en inglés. En el español de Colombia, el yeísmo es

muy común, por lo que las palabras que en otras variedades del español se

pronuncian con "ll", como "pollo", "lluvia" o "llave", se pronuncian con "y".
La palabra "calle" y "pollo" se pronuncia como "Caye" y "poiio"; "lluvia" a

"llave”. En cambio, en las regiones donde no hay yeísmo, se mantiene la

diferencia entre los sonidos de "ll" y "y", y se pronuncian de manera diferente,

con la "ll" representando un sonido más vibrante y la "y" representando un

sonido más fricativo.

Hay muchos tipos de ejemplos de corpus: Corpus de español hablando en la

Costa Atlántica colombiana; Corpus de español hablado en Bogotá; Corpus oral

de la ciudad de Medellín. El corpus consta de alrededor de 300 horas de

grabaciones, que incluyen conversaciones entre amigos, entrevistas,

narraciones, descripciones de eventos y experiencias personales, y discursos

públicos en diferentes contextos. También, incluye transcripciones detalladas y

metadatos que describen la edad, el género y el nivel educativo de los hablantes.

El corpus de español hablando en la Costa Atlántica colombiana incluye

grabaciones de hablantes de la costa atlántica de Colombia y se centró en el

español hablado en contextos informales y formales. Incluye conversaciones

espontáneas y discursos públicos. En particular, la costa atlántica colombiana se

caracteriza por la gran diversidad lingüística y cultural de las costas Atlánticas,

y el corpus permite analizar las influencias de las lenguas indígenas y africanas

en el español hablado en la región. Es así como, se evidencia que en esta región

se habla una variante del español, llamada español caribeño. Esta variante
presenta características gramaticales y léxicas propias, como por ejemplo, el uso

de diminutivos y aumentativos y el uso del “vos” en lugar del “tú”.

El corpus de español hablando en Bogotá, incluye grabaciones de hablantes

de Bogotá y sus alrededores, y está centrado en el español hablado en contextos

informales y formales, incluso las conversaciones espontáneas y discursos

públicos. En particular, Bogotá se caracteriza por tener una variante del español

conocida como "cachaca", que tiene algunas particularidades lingüísticas

propias de la región. El corpus permite estudiar y analizar estas características;

al igual que las transcripciones detalladas y metadatos que describen la edad, el

género y el nivel educativo de los hablantes. Asimismo, se evidenció que el

español hablado del Bogotá se caracteriza también por tener diferentes rasgos

de pronunciación, entonación y vocabulario. Por ejemplo, la pronunciación de

la letra “r” varía en esta región, puesto que la “r” al final de cada palabra se

pronuncia de forma suave, y puede llegar a sonar como una “l”. Además, el uso

del diminutivo “ico” es muy frecuente en el habla común de esta zona, por ello,

en vez de decir “un ratito” los hablantes de Bogotá dicen “un ratico”.

El corpus oral de la ciudad de Medellín incluye grabaciones de hablantes de

Medellín y sus alrededores, y se centró en el español hablado en contextos

informales y formales. Incluye conversaciones espontáneas y discursos

públicos. Es una manera valiosa para el estudio del español hablado en esta

región, ya que permite examinar patrones lingüísticos, variaciones y cambios a


lo largo del tiempo. Además, es una fuente importante de información para

investigaciones sobre el impacto de factores sociales y culturales en el uso del

lenguaje. Por ejemplo, en esta ciudad se habla una variante del español

latinoamericano, con sus propias variaciones y particularidades en el habla

regional. Estas variaciones incluyen diferencias en el acento y tono, así como

distintos rasgos de la lengua española como es la aspiración de la “s” al final de

cada palabra y la entonación melodiosa que caracteriza a esta región. En ese

sentido, se puede afirmar que, tras analizar los corpus de distintas zonas en una

misma región, se pueden encontrar distintas variaciones lingüísticas de un

mismo idioma, pero cada hablante puede tener su propia peculiaridad en su

habla.

Hay otros tipos de corpus en la lingüística, por ejemplo, el corpus de

Conversaciones telefónicas. El Corpus de Conversaciones Telefónicas es un

corpus anotado de conversaciones telefónicas en español que se utiliza para el

estudio de la pragmática del español y para la enseñanza del español como

lengua extranjera. Está anotado con información sobre el contexto de las

conversaciones, como la relación entre los interlocutores y el tema de la

conversación, así como también información sobre la estructura conversacional,

como los turnos de habla, las interrupciones y los solapamientos. Además, se

han identificado los actos de habla realizados por los hablantes, como las

preguntas, las afirmaciones, las peticiones y las disculpas, entre otros.


El Corpus de Conversaciones Telefónicas se utiliza en el campo de la

pragmática para investigar la forma en que los hablantes nativos de español

utilizan el lenguaje en situaciones cotidianas y para el desarrollo de materiales

didácticos para la enseñanza del español como lengua extranjera. También se ha

utilizado para el desarrollo de sistemas automáticos de reconocimiento y síntesis

del habla en español.

El material necesario para emplear esos métodos son corpus lingüístico: es

una colección de textos escritos o hablados que se utiliza para estudiar patrones

lingüísticos y para entrenar modelos lingüísticos, Los corpus pueden ser

compilados de varias fuentes: como libros, artículos, transcripciones de

conversaciones, pueden estar compuestos por diferentes tipos de textos,

incluidos periódicos, libros, transcripciones del lenguaje hablado y páginas web.

Los textos de un corpus pueden organizarse según diferentes criterios, como

género, autor, tema o idioma. El corpus también se puede diseñar para fines

específicos, como desarrollar modelos de lenguaje, entrenar algoritmos de

procesamiento de lenguaje natural o crear materiales de enseñanza de idiomas.

Para identificará y reclutará a las participantes de la comunidad de población

de muestra propuesta, la población objetivo es el primer paso, la gente está más

que interesada en cierta área de estudio, puede ayudar con efectividad; Las

barreras lingüísticas y culturales pueden ser un desafío para interactuar con una

población o comunidad en particular. Es importante que tener la diversidad,

contexto histórico y cultural.


Hay maneras de corpus de discurso en español quiero discutir:

1. Corpus del Español Discurso Parlamentario (CEDP) (Sintáctica)

Este corpus se centró en las discursos pronunciados en el Congreso de los

Diputada de España, y se utiliza para estudiar el uso del español en contextos

políticos y legislativos.

El corpus se divide en tres partes: la primera contiene discursos del Congreso

de las Diputado, la segunda discursos del Senado y la tercera una muestra de

discursos de ambos cuerpos legislativos.

El CEDP es una herramienta importante para el análisis del discurso político en

España y para la comprensión de las procesos políticos y sociales del país.

Además, se puede utilizar para el desarrollo de materiales didácticos para la

enseñanza del español como lengua extranjera en el ámbito de la política y la

comunicación.

Hay concluso vocabulario especializado; fórmulas de cortesía; argumentación

y expresión de acuerdo y desacuerdo. Las Ejemplos de vocabulario

especializado: "legislación", "congreso", "votación", "presidente", "proyecto de

ley". Las fórmulas de cortesía es la formalidad del eterno parlamentario, se

encontrar fórmulas en los discursos. Ex: “Señor presidente”, “Distinguidos

miembros”, “Honorable su majestad Felipe”. Las argumentación discutir las

argumentar entre lenguajes y con persuadir, por ejemplo: "Según las


investigación reciamente, el desempleo ha aumentado en un 15% en las

empresas".

2. Corpus de Referencia del Español Actual (CREA)

Este corpus incluye textos de diferentes géneros discursivos, como noticias,

literatura, ensayos y discursos, y se utiliza como referencia para el estudio del

español contemporáneo.

El CREA ha permitido el análisis de la variación lingüística en el español

actual, la identificación de patrones gramaticales y léxicos y el estudio de los

cambios en la lengua a lo largo del tiempo y en diferentes contextos. Además,

ha facilitado el desarrollo de herramientas tecnológicas para el procesamiento

automático del lenguaje natural en español. Hay son ejemplos:

1 Ejemplo en fonética y fonología: "La vocal /a/ en español se articula con una

abertura máxima y sin redondeamiento de los labios".

2 Morfología: "El sustantivo 'casa' en español puede formar su plural añadiendo la

terminación -s: 'casas'".

3 Sintaxis: "En español, la estructura básica de la oración es sujeto + verbo +

complemento, por ejemplo: 'Juan come una manzana'".

En generalmente, el corpus siempre presenta diversas ventajas para la

investigación lingüística, como la objetividad y representatividad de los datos,

la posibilidad de realizar análisis cuantitativos y cualitativos, y la capacidad de

observar patrones y regularidades lingüísticas. El estudio del corpus lingüístico


ha transformado nuestra comprensión del lenguaje al proporcionar una base

sólida y empírica para la investigación lingüística. Mediante el análisis

sistemático de grandes cantidades de datos lingüísticos, el corpus ha permitido a

las lingüistas descubrir patrones, regularidades y fenómenos lingüísticos que de

otra manera podrían haber pasado desapercibidos. La aplicabilidad en la

descripción lingüística, la enseñanza de idiomas y la traducción, que nos

proporciona una ventana invaluable hacia la comprensión del lenguaje humano

y su funcionamiento.

Referencias:
https://www.tdx.cat/bitstream/handle/10803/9982/

castillo.pdf;jsessionid=6E5A3153008F0B914F821304D48DB5E4?sequence=1

https://www.childdevelopment.org/docs/default-source/pdfs/spanishrole-equity-and-diversity_final-elite-3-25-

20.pdf?sfvrsn=d856a4f9_2

https://institucional.us.es/revistas/cauce/31/art_8.pdf

https://corpus.rae.es/creanet.html

https://repositori.uji.es/xmlui/bitstream/handle/10234/78487/forum_2007_31.pdf?sequence=1

También podría gustarte