Historia

Portada:
Foto de Pablo Bielli del mural de Esteban Roberto Garino, ubicado en el primer piso de la
Facultad de Ciencias Sociales de la Universidad de la República.
De la segunda edición:
© Fernando Cortés, Rosa María Rubalcava y Tabaré Fernández
ISBN: 978‐9974‐0‐1104‐5
Corrección y diagramación:
Tabaré Fernández, Tania Biramontes y Victor Borrás
Mail: taniabiramontes@gmail.com
Impreso en Baferil S.A.

Euclides Salari 3462 – Montevideo, Uruguay
Tel. (598) 2215 85 63
Mail: info@baferil.com
www.baferil.com
2|Estadística Social Básica

ESTA
ADÍST
TICA SSOCIA
AL BÁSICA
Segunda
a Edición
Fernan
ndo Cortés, Rosa María
a Rubalcavaa y Tabaré Fernández.
F .
Con la ccolaboració
ón de:
Tania BBiramontess, Soledad Bonapelch,
B Víctor Borrrás, Pablo Menese, Laaura Noboa
a,
Cecilia Reolón y Adrián
A Silve
eira
Coediciión de:
Universsidad de la República (UDELAR) – Facultad de Cienciass Sociales (FFCS) –

Departaamento de Sociología (DS).
Universsidad Nacio
onal Autónooma de Méxxico (UNAM
M) – Programa Universsitario de Estudios
E
sobre el
e Desarrolllo (PUED).
Montev
video, julio de 2014.

Índice
Prólogo a la Segunda Edición...................................................................................................... 9

Capítulo I. La investigación y la Estadística Básica ...........................................................13
I.1. La investigación y su geometría helicoidal............................................................................................ 13
I.2. Algunas grandes tareas de la Estadística y su agrupamiento en dos ramas............................. 18
I.3. Requerimientos a la Estadística y desarrollo de instrumentos...................................................... 20
I.3.1. El auge ........................................................................................................................................................... 20
I.3.2. El destierro .................................................................................................................................................. 24
I.3.3. El resurgimiento........................................................................................................................................ 25
I.3.4. El desarrollo desigual de la disciplina.............................................................................................. 27
Capítulo II. Bases de datos ........................................................................................................29
II.1. Unidades de análisis ....................................................................................................................................... 29
II.2. Concepto de variable ...................................................................................................................................... 30
II.3.- Bases de datos o matriz de datos............................................................................................................. 35
II.4. Transformaciones de variables: recodificación en nuevas variables y generación de
tipologías e índices................................................................................................................................................... 37
II.4.1. Recodificación........................................................................................................................................... 37
II.4.2. Generación de nuevas variables........................................................................................................ 39
II.5. Transformaciones en los renglones de la matriz de datos ............................................................. 42
II.6. La Encuesta Continua de Hogares (ECH) ............................................................................................... 42
II.7. Resumen .............................................................................................................................................................. 45
Capítulo III. Estadística de atributos ......................................................................................47
III.1- Proporciones, porcentajes y razones ................................................................................................... 48
III.1.1.- Proporciones y porcentajes ............................................................................................................. 48
III.1.2. Razones...................................................................................................................................................... 50
III.2. Elaboración de una tabla de frecuencias .............................................................................................. 55
III.2.1. Esquema general para una tabla con una variable nominal ................................................ 56
III.2.2. Tabla de frecuencias para una variable ordinal........................................................................ 57
III.2.3. Convenciones sobre títulos y fuentes de la tabla..................................................................... 59
III.3.- Representación gráfica............................................................................................................................... 60
III.3.1. Gráfica de sectores ................................................................................................................................ 60
III.3.2. Gráfica de barras .................................................................................................................................... 61
III.4. Resumen............................................................................................................................................................. 64
Capítulo IV. Introducción al análisis de asociación...........................................................67
IV.1.- Causalidad y asociación.............................................................................................................................. 67
IV.1.1. Noción......................................................................................................................................................... 67
IV.1.2. Selección .................................................................................................................................................... 68
IV.1.3. Requisitos en el análisis causal ........................................................................................................ 69
IV.2. Objetivos e instrumentos en el análisis de asociación ................................................................... 72

IV.3.Primer instrumento: la tabla de contingencia..................................................................................... 74
IV.3.1. aspectos generales................................................................................................................................. 75
IV.3.3. Frecuencias relativas y lectura de las tablas............................................................................... 79
IV.4. Segundo instrumento: Riesgo y momio ................................................................................................ 84
IV.4.1. Riesgo relativo (RR).............................................................................................................................. 84
IV.4.2. Momio (odd) y razón de momios (OR) ......................................................................................... 86
IV.4.3. Comparación de RR y OR .................................................................................................................... 89
IV.5. Tercer instrumento: discrepancia entre lo esperado y lo observado....................................... 91
IV.5.1. Frecuencias esperadas e independencia estadística............................................................... 91
IV.5.2. Discrepancia entre lo observado y lo esperado......................................................................... 94
IV.5.2. Un ejemplo ................................................................................................................................................ 94
IV.5.3. Asociación entre una variable dicotómica y otra pluricotómica........................................ 96
IV.6.- Cuarto instrumento: Ji Cuadrado y otros coeficientes de asociación...................................... 99
IV.6.1. Suma de discrepancias......................................................................................................................... 99
IV.6.2. El coeficiente de ji cuadrado............................................................................................................101
IV.6.5. Interpretación de los coeficientes con recorrido [0,1].........................................................104
IV.6.3 Comentarios sobre Ji-cuadrado, fi-cuadrado y V de Cramer...............................................105
IV.7. Resumen...........................................................................................................................................................105
Capítulo V. Estadística descriptiva univariada ................................................................ 107
V.1.- Tablas de distribuciones de frecuencias .............................................................................................107
V.1.1.- Tabulación de variables métricas con pocos valores............................................................108
V.1.2.- Tabulación de valores agrupados en intervalos de clase ....................................................112
V.2. Posición, dispersión y apuntamiento.....................................................................................................119
V.3. Medidas de posición......................................................................................................................................121
V.3.1. La media aritmética o promedio simple ......................................................................................121
V.3.2. Propiedades de la media aritmética ..............................................................................................128
V.3.3. La mediana ...............................................................................................................................................131
V.3.4. La moda o modo.....................................................................................................................................136
V.3.5.- Percentiles, deciles, quintiles, cuartiles, percentiles y otros cuantiles .........................137
V.4.- Medidas de dispersión................................................................................................................................139
V.4.1- El rango y el rango intercuartílico .................................................................................................139
V.4.2- La varianza...............................................................................................................................................141
V.4.3. Propiedades de la varianza................................................................................................................146
V.4.4. La desviación estándar o desviación típica.................................................................................149
V.4.5. La desviación media .............................................................................................................................150
V.4.6. La desviación mediana. .......................................................................................................................151
V.4.7. Coeficiente de variación o de variabilidad ..................................................................................152
V.5. Gráficas para variables métricas..............................................................................................................153
V.5.1. Gráficas de barras..................................................................................................................................153
V.5.2. Histogramas para variables en intervalos con distinta amplitud......................................154
V5.3. Histogramas de frecuencias acumuladas......................................................................................156

V.5.4. Histogramas para variables métricas con valores originales..............................................157
V.5.5. Gráficas tipo “Boxplots” ......................................................................................................................158
V.6. Forma de la distribución.............................................................................................................................159
V.6.1. Un ejemplo................................................................................................................................................160
V.6.2. La distribución normal........................................................................................................................161
V.6.3. Medida de asimetría o sesgo............................................................................................................163
V.6.4. Curtosis ......................................................................................................................................................165
V.7. Resumen ............................................................................................................................................................166
Capítulo VI. Correlación........................................................................................................... 169
VI.1.- Ejemplo a desarrollar................................................................................................................................170
VI.2. Representación gráfica de la relación entre dos variables métricas.......................................172
VI.4.- La covarianza................................................................................................................................................175
VI.4.- El coeficiente de correlación de Pearson ..........................................................................................178
VI.4.1. Formulación ...........................................................................................................................................178
VI.4.2.- Propiedades y limitaciones de la correlación .........................................................................179
VI.4.3.- Interpretación de la correlación...................................................................................................180
VI.5.- La matriz de correlaciones......................................................................................................................183
VI.6. Correlación con una variable dicotómica ...........................................................................................185
VI.7.- Resumen .........................................................................................................................................................187
Capítulo VII. La medición de la desigualdad..................................................................... 189
VII.1. Nivel, desigualdad y bienestar...............................................................................................................190
VII.2. Propiedades que deberían satisfacer los indicadores de desigualdad .................................192
VII.2.1. Tres propiedades sobre escalas y transferencias ................................................................193
VII.2.2. Otras propiedades..............................................................................................................................194
VII.4. Medidas de dispersión para medir la desigualdad .......................................................................195
VII.4.1. Definiciones ..........................................................................................................................................195
VII.4.2. Simulación de resultados y prueba de propiedades ............................................................197
VII.5.- Medidas específicas sobre la desigualdad.......................................................................................200
VII.5.1. La curva de Lorenz.............................................................................................................................200
VII.5.2.- El coeficiente de Gini .......................................................................................................................206
VII.5.3. Índice de entropía de Theil.............................................................................................................209
VII.6. Desigualdad comparada del ingreso en Uruguay según las distintas medidas.................211
VII.7. Resumen .........................................................................................................................................................214
Bibliografía................................................................................................................................... 217
Anexo 1. Escalas básicas de medidas .................................................................................. 221
Anexo 2. Comparación de las diferencias en las estimaciones del ingreso
generadas por el registro de una variable originalmente métrica en intervalos235
A.2.1. Fundamento metodológico................................................................................................................235
A.2.2. Desarrollo algebraico en el campo de la estadística básica ................................................236
A.2.3. Un ejemplo ...............................................................................................................................................237

Anexo 3. Aproximación a las pequeñas localidades en 2011 .................................... 241
3.1. Pueblos ganaderos ....................................................................................................................................241
A.3.2. Pueblos de pescadores en la costa atlántica...............................................................................242
3.3. Pueblos arroceros .....................................................................................................................................242
Noticia biográfica de los autores y colaboradores ......................................................... 245

Prólogo a la Segunda Edición
Estadística Social Básica es un libro introductorio a la disciplina para estudiantes de las Ciencias
Sociales en Uruguay. Tiene por antecedente la sistemática elaboración que han desarrollado los
profesores Fernando Cortés y Rosa María Rubalcava en el plano de la Epistemología, la
Metodológica y la Estadística desde los años ochenta.
En particular es el resultado de obras anteriores que ellos escribieron y que varios de
nosotros hemos utilizado para estudiar y enseñar Estadística: Escalas Básicas de Medida de
1982 (incluido aquí como Anexo 1), Técnicas estadísticas para medir la desigualdad, de 1984,
Métodos estadísticos aplicados a la investigación en ciencias sociales, de 1987, y Estadística
Elemental Aplicada, del año 2000. También hay que añadir algunos artículos orientados al
debate epistemológico, como ser La perversión empirista, de 1991, Kuznets y la evolución de la
desigualdad, de 1999, Localidades en un mundo de propensiones, de 2002, y Método científico y
política social, de 2008, los cuales constituyen un fundamento ineludible para entender los
supuestos de los conceptos de observación, variables, asociación, causalidad y desigualdad.
A comienzos de 2012, Cortés y Rubalcava gustosamente aceptaron la idea de elaborar
este libro. Acordamos que el texto de partida lo proporcionaría Estadística Elemental… y que el
equipo docente de Uruguay realizaría las revisiones, adaptaciones y ampliaciones necesarias,
manteniendo las orientaciones didácticas básicas del original: el orden de exposición de Yule,
una perspectiva no empirista de las ciencias y la mayor simpleza matemática posible.
Este libro está dirigido a los jóvenes estudiantes que cursan los primeros semestres de alguna
carrera en Ciencias Sociales en América Latina, excepto Economía1. Su enfoque privilegia el
desarrollo de los conceptos de la Estadística Descriptiva así como su aplicación, limitando los
formalismos matemáticos al mínimo indispensable.
Estadística Social Básica es un libro cuyos temas se han seleccionado tomando en cuenta
la experiencia acumulada en la enseñanza de la Estadística a sociólogos, politólogos, educadores
y antropólogos, en varias carreras y cursos de posgrado en América Latina. A lo largo del tiempo
hemos detectado una serie de conceptos estadísticos elementales cuyo conocimiento impreciso
se erige en formidables obstáculos para acceder y manejar conocimiento estadístico más
elaborado2. El orden en que se expone el material no sólo proviene de nuestra experiencia
docente sino que ha sido inspirado por el orden de exposición que siguieron Yule y Kendall en
su libro Introducción a la Estadística Matemática (1950), que rompe con el modelo dominante
que deriva de la Estadística desarrollada por Karl Pearson.
Por otra parte, también hemos incluido, cuando lo hemos considerado pertinente,
vínculos entre los conceptos que se exponen en este libro y temas seleccionados de la
1
Se exceptúa la Economía porque en esta disciplina ha avanzado bastante la formalización, que no es el camino
que se siguió para escribir este texto. Por otro lado, su lectura tal vez podría ser útil aun entre los estudiantes de
Economía para ayudar en la comprensión de conceptos básicos de la Estadística.
2
Hay dos cuestiones que debemos señalar en este punto. En primer lugar, no se quiere decir que si estos
conceptos están claros la comprensión de técnicas como análisis: logit, probit, multinomial, de trayectorias, etc.
sea trivial, ya que cada técnica estadística tiene sus propias complejidades; sino que si a estas complejidades se
agrega un conocimiento erróneo de las bases más elementales, la comprensión, manejo y aplicación de estas
técnicas se hace cuesta arriba. En segundo lugar, creemos que el éxito de este libro radicaría en su
obsolescencia; en efecto, en tanto las generaciones que estudien las bases estadísticas en él tengan claros los
conceptos básicos y lleguen a enseñar estas materias, las nuevas generaciones no adolecerán de las carencias de
las antiguas.

Metodología de las Ciencias Sociales. Así por ejemplo el estudiante tendrá una aproximación a
las escalas básicas de medida –aunque no al tema de la medición-; la relación entre el tipo de
concepto (según su posición en los enunciados teóricos) y la escala de medida correspondiente;
y a la diferencia entre correlación y causalidad. Además, a lo largo de todo el texto se supone
que el dato no es dado, como proponía el viejo empirismo lógico de los años treinta del siglo
pasado, sino que es construido. Este tema fue el centro de acaloradas discusiones en América
Latina hacia fines de los años sesenta. Hacemos explícito que el texto supone zanjada esta
discusión en favor de los “constructivistas”, aunque aún hoy aparecen algunas voces que
sostienen que la ciencia debe ser “objetiva”, entendiendo por tal que el conocimiento debe
destilar de los datos (Cortés, 1991; 1999; 2008; Rubalcava, 2002).
Este texto se limita a presentar los diversos temas con un enfoque netamente
descriptivo. Se reduce al conjunto de conocimiento estadístico necesario para organizar,
sintetizar, presentar y describir un conjunto de datos, sin importar su origen. Para la Estadística
Descriptiva los datos están dados3; a esta disciplina le tiene sin cuidado si para recabarlos se usó
observación, observación participante, análisis de contenido (en cualquiera de sus versiones),
análisis semántico, muestras analíticas, muestras aleatorias, o si los datos provienen de un
levantamiento censal.
La Segunda Edición de Estadística Social Básica cumple con tres objetivos: corregir el
texto, actualizar los ejemplos e introducir nuevos temas que sólo tangencialmente se habían
esbozado en la Primera Edición. Es producto de la experiencia docente realizada durante los
años 2012 y 2013 en el curso homónimo de la Facultad de Ciencias Sociales. Las clases teóricas
y prácticas nos fueron alertando de párrafos complejos de entender, algunos errores de
notación y temas que resultaban importantes de ampliar y profundizar.
La primera diferencia notable con la Primera Edición es el capitulado y la extensión. El
capítulo 1 es totalmente nuevo. Entendimos que era necesario incorporar una contextualización
más precisa sobre las relaciones entre los desarrollos de la Metodología, la Estadística y la
política en América Latina, tal que explicara qué se entiende hoy en día por Estadística Básica
en estas latitudes y por qué se enseña de la forma que la encontramos en la mayoría de las
carreras de grado de nuestras universidades. Los contenidos resumen dos extensos textos de
Fernando Cortés: el primero, “Confieso que he ensaño Estadística”, corresponde a la conferencia
que diera en la celebración de los cincuenta años de FLACSO en 2009; el segundo, refiere a los
contenidos centrales del libro el “Helicoide la investigación” (Aibar, Cortés, Martínez, &
Zaremberg, 2013).
Hemos desdoblado los viejos capítulos de Estadística de Atributos y Descriptiva en dos,
según el criterio de tratar en uno todos los temas de resumen relativos al tratamiento de una
variable, y en otro, las cuestiones relativas a la asociación o correlación. Introdujimos temas
nuevos como los las momios, las razones de momio y el riesgo relativo, de utilidad para cursos
avanzados sobre modelos loglineales y modelos de regresión logística. El capítulo sobre
desigualdad ha sido sensiblemente ampliado, dotándolo de una mejor exposición sobre las
propiedades o axiomas que deben cumplir las medidas, la Curva de Lorenz y el índice de Gini.
3
En este punto es necesario precisar que si bien para la Estadística Descriptiva los datos están dados, de aquí no
se deriva que la Estadística supone que los datos no son construidos. En este contexto, que los datos estén dados
que quiere decir que así los recibe de la disciplina correspondiente y que es problema de esta última construir el
dato. La construcción del dato no se le puede exigir a la Estadística, aunque puede ser un poderoso auxiliar para
hacerlo, en la medida que el problema se reduce a medir adecuadamente conceptos teóricos.
10 | E s t a d í s t i c a S o c i a l B á s i c a
Finalmente, los ejemplos aplicados provienen en casi su totalidad del Censo de
Población de 2011 y de la Encuesta Continua de Hogares de 2013. En la misma línea de la
Primera Edición, pregonamos la idea de que los ejemplos contribuyen al conocimiento científico
social de la demografía, la economía, la educación y la geografía humana del Uruguay. En esta
línea incorporamos un tercer anexo referido a un tema pero que hace a una de las
consecuencias demográficas de la transformación del mundo agrario en los últimos diez años: la
supervivencia y transformación de pequeñas localidades organizadas en torno a actividades
agroindustriales (el arroz, la madera) en comparación con los antiguos poblados vinculados a la
ganadería extensiva o resultantes de las colonias.
¡Bienvenidos al mundo del razonamiento estadístico! Esperamos que esta puerta de
entrada facilite el acceso a la variada gama de técnicas disponibles en la actualidad y estimule la
investigación empírica en Ciencias Sociales.
Fernando Cortés, Rosa María Rubalcava y Tabaré Fernández
México, D.F. y Rivera, Uruguay, julio de 2014
Capítulo I. La investigación y la Estadística Básica4
Este libro tiene por objetivo presentar conceptos e instrumentos estadísticos básicos utilizados
corrientemente en la investigación social latinoamericana, a los estudiantes de un primer curso
de Estadística en un programa de grado en ciencias sociales.
La delimitación del conjunto de temas presentados se fundamenta en tres definiciones
que trascienden a la Estadística como disciplina y que serán objeto de este primer capítulo
introductorio. La primera tiene relación general con las tareas de la Estadística como disciplina
en las distintas etapas de la investigación social. La segunda definición refiere a cómo esas
tareas generales han tenido una historia particular en el desarrollo de las ciencias sociales en
América Latina. La tercera remite a la distinción entre una Estadística Básica y una Estadística
Inferencial, producto de considerar el estudio de fenómenos aleatorios destacando el problema
del error en la medición. Se comprende que estas definiciones remiten al campo de la
Epistemología, sea por el camino de Lógica de la Investigación, por el camino de la Filosofía de
las Ciencias, o por el camino de la Historia de las Ciencias Sociales. En todos estos temas existe
una profusa y venerable bibliografía de la cuál aquí referenciamos sólo una mínima parte.
Varios de estos temas han sido y aún son objeto de polémica, más allá de que existan enfoques
afianzados y consensos extendidos.
El capítulo se divide en tres secciones. Cada una aborda los tres fundamentos con el
detalle razonable que admite un texto introductorio a la Estadística. La primera sección es
propiamente epistemológica: comienza presentando algunas ideas rudimentaria sobre las fases
lineales de la investigación y la sustituye por la idea del proceso helicoidal, presenta la tesis de
la contradicción como motor de todo el proceso y finaliza explicitando el problema del error en
el muestreo y en la medición como elementos centrales que definen la participación de la
Estadística. La segunda sección tiene una finalidad didáctica y consiste en ordenar las tareas de
la Estadística y dividirlas curricularmente en dos grandes ramas: la Estadística Básica y la
Estadística Inferencial. La tercera presenta brevemente un panorama de cómo las tareas,
instrumentos de la Estadística se han desarrollado en la región a partir de los problemas
específicos presentados por las teorías generada sobre el subdesarrollo, la desigualdad y la
política en América Latina.
I.1. La investigación y su geometría helicoidal
La definición de “proceso”, proporcionada por el Diccionario de la Real Academia Española5, con

sus nociones asociadas de “fases”, “dirección”, “fundamentos”, “formalidades” y “resultados”
4
Este capítulo ha sido redactado por los autores con base en el capítulo 1 de “La investigación científica”, de
Mario Bunge (Bunge, 2000), el capítulo 1 de “El helicoide de la investigación” de Aibar, Cortés, Martínez, &
Zaremberg (2013), el capitulo 1 de “La Lógica de la ciencia en sociología”de Walter Wallace (1971) y el
discurso que Fernando Cortés hiciera en la celebración de los cincuenta años de FLACSO en 2009 “Confieso
que he enseñado Estadística”.
5
Proceso (del latín processus), (1) m. Acción de ir hacia adelante; (2) m. Transcurso del tiempo; (3) m.
Conjunto de las fases sucesivas de un fenómeno natural o de una operación artificial. Consultado el 17/06/2014.
http://lema.rae.es/drae/?val=proceso
resulta útil como aproximación general para describir las distintas actividades que conforman
una investigación.
En la Metodología de la investigación suelen delinearse varias etapas, aunque en general
se subrayan cinco: la formulación del problema de investigación con base en los conocimientos
científicos previos (incluidas las “teorías”), preguntas e hipótesis; el diseño de una estrategia
metodológica que incluye indicadores, técnicas y unidades (el “diseño”); la realización de las
observaciones; el análisis de los datos; y la vinculación de las conclusiones con los
conocimientos previos (Bunge, 2000; Wallace, 1976; Batthyány & Cabrera, 2011; Aibar, Cortés,
Martínez, & Zaremberg, 2013). El esquema I.1 presenta una estilización de estas etapas.
Esquema I. 1
Problema:
Teoría,
Preguntas
Hipótesis
Conclusiones Diseño
Análisis Observaciones
Este primer y estilizado esquema, que luego iremos complejizando, nos permite
identificar el papel de la Estadística y de la Metodología en la investigación. Veamos tres ideas
contenidas en este esquema.
En primer lugar, cada etapa está conformada por múltiples tareas que podrían ser
didácticamente reseñadas o listadas. Los manuales de introducción a la Metodología tienen
índices estructurados en torno a estos temas y tareas (Batthyány & Cabrera, 2011). Son parte de
lo que Thomas Kuhn denominó el funcionamiento de la “ciencia normal”, esto es, agendas,
prioridades, estilos y rutinas propias de cada disciplina y grupo de investigación que definen un
“paradigma” (Kuhn, 1962). En algunas ciencias, la Estadística cumple tareas en prácticamente
todas las etapas del proceso, al punto que es parte misma del cuerpo de conocimientos y no se
concibe una investigación sino es mediante instrumentos estadísticos. Este no es el caso de las
Ciencias Sociales, donde incluso, existen varias tradiciones de investigación que no recurren
para nada a la Estadística o directamente reniegan de ella6. Con un sentido provisorio, a ser
revisado más adelante, diremos que la Estadística es convocada en una investigación cuando
esté definido un problema y se tiene decidida una estrategia coherente con aquél. Sus tareas
incluirán entre otras, la selección aleatoria de casos (“muestra estadística”), ciertos controles en
el trabajo de campo (“monitoreo”) y la realización de resúmenes y pruebas estadísticas en la
etapa de análisis.
6
Véase esta contraposición en Cortés, Escobar & Gonzalez de la Rocha (2008) Método científico y política
social, capítulo 1.
En segundo lugar, el esquema I.1 nos sugiere que existe una secuencia o precedencia
lógica y cronológica entre las etapas y las tareas características. Las “flechas” incluidas en el
esquema I.1 podrían parecer triviales pero definitivamente no lo son conforme se revisa el
debate histórico que aun hoy tiene lugar en la Epistemología (Chalmers, 1982). Más allá de que
cada disciplina enseña a sus nuevos investigadores métodos y estándares específicos, suele
prevalecer la idea de que el proceso de investigación puede ser representado adecuadamente
como un proceso lineal. Este se iniciaría con el problema de investigación y finaliza con el
resultado de la contrastación, o en el mejor de los casos, con el planteamiento de nuevos
problemas de investigación. Un esquema que podría7 admitir esta lectura es el que proporciona
Bunge (2000:9). En efecto, el proceso de investigación se localiza en el cuerpo de conocimientos
disponible y a través del planteo de hipótesis, de la derivación de sus consecuencias
contrastables y de recabar la evidencia pertinente, para lo cual se deben emplear las técnicas de
contrastación adecuadas, se procede a la prueba de las hipótesis, cuyo resultado acrecienta el
fondo de conocimiento disponible, y además, suele originar nuevos problemas. De este modo se
cerraría el proceso lineal iniciado con el problema, dando la impresión que la investigación se
podría llevar a cabo de manera más o menos mecánica, cumpliendo con esmero los pasos que se
encuentran secuencialmente ordenados en el esquema I.2 originado en Bunge (2000):
Esquema I. 2
Conocimientos
disponibles
Hipótesis
Problema
Consecuencias
observacionales
Conclusiones
a contrastar
(Nuevo cuerpo
Análisis de
(estimación conocimiento)
de hipótesis)
Observaciones Nuevo
Diseño (Técnica de
problema
contrastación)
t
De acuerdo a esta secuencia, el proceso sería en buena medida irreversible: una vez que
se ingresa en la etapa de diseño no se podría volver sobre la formulación del problema ni sobre
el planteamiento de las hipótesis. Tampoco sería posible dar marcha atrás desde las
observaciones hacia el diseño o hacia las hipótesis, proponiendo nuevas consecuencias; sólo es
posible avanzar hacia la estimación de las hipótesis ya establecidas. Esta idea de la sucesión
lineal y casi irreversible de las etapas de la investigación puede tener alguna utilidad para
7
Nótese que se utiliza el potencial del verbo poder (podría) pues desde nuestra perspectiva el autor claramente
no concibe que el proceso de investigación sea lineal.
ordenar la exposición de temas que se le presentan a los estudiantes en un curso de Estadística
o de Metodología, es decir, tiene cierta utilidad didáctica que se desvanece en el momento en
que un estudiante se enfrenta a un proceso de investigación concreto.
Ahora bien, al someter a contraste las hipótesis, la estadística conmina a no rechazar o
bien rechazarla si no cumple con requisitos pre establecidos, sin embargo, este no es el proceder
en la investigación social durante su transcurso, sino más bien dada la contradicción, es decir, la
no correspondencia entre los enunciados empíricos y los datos (sean o no cuantitativos), el
investigador social se vuelca sobre la información, analiza si ha sido bien construida, si las
mediciones son válidas y confiables; emprende la búsqueda de posibles distorsiones en el
proceso de registro, codificación, o en los criterios de clasificación. Una vez que estabiliza el
frente de los datos, revisa sus enunciados empíricos, examina la consistencia con las
proposiciones teóricas de carácter más general y en caso necesario procede a redefinir su
problema o reelaborar su teoría. El motor de la investigación es la contradicción entre los
enunciados que derivan de la teoría y los datos.
Es habitual que a lo largo del proceso de investigación el investigador social deba
enfrentarse una y otra vez a la contradicción entre las regularidades que deberían observarse si
su teoría es adecuada y el arisco comportamiento de los datos. Y cada vez emprende el camino
empírico que consiste en valorar la información, o el camino teórico que revisa tanto el estado
del problema como la teoría. Pero, para seguir apoyándonos en la geometría, estas operaciones
no se hacen en un mismo plano, sino en planos de complejidad cada vez mayor, tanto en lo
teórico como en lo empírico. Una investigación puede partir preguntándose si los programas de
transferencias condicionadas logran evitar la transmisión intergeneracional de la pobreza y,
después de varios pasos intermedios que modifican la pregunta y las conceptuaciones así como
refinan la información, terminar analizando la movilidad ocupacional y evaluando el impacto
del programa sobre la pobreza, lo que deja abierta la pregunta original que implicaba el análisis
de la situación económica general, tema que queda claramente fuera del alcance del programa y
de la investigación.
Para representar geométricamente la idea del avance en el grado de complejidad en la
delimitación del problema, en la teoría, y en los datos, supongamos que se pliega verticalmente
la gráfica de Bunge sobre su centro, si el pliegue de la gráfica es tal que el rectángulo del nuevo
cuerpo de conocimientos y nuevos problemas no se superpone con el cuerpo de conocimientos
disponibles y problema, sino que se sitúa en un plano superior y que este proceso se repite cada
vez que aparece la contradicción, se formaría una espiral (Cortés & Rubalcava, 1987, págs. 13-
25) o con más precisión un helicoide (García 1997: 40) que representaría el proceso de la
investigación.
En esta forma de conceptuar la actividad del investigador social, el planteamiento de
Bunge se limita a mostrar con detalle los procesos que tienen lugar en cada “vuelta” de la
investigación, en tanto que la imagen del helicoide representa el proceso dialéctico consistente
en las contradicciones entre el producto del pensamiento (los enunciados teóricos y empíricos)
y el comportamiento de lo real expresado en los datos (sean o no numéricos). La contradicción,
motor del proceso de investigación, desencadena secuencias de operaciones empíricas y
conceptuales que elevan la teoría y los datos a niveles mayores de complejidad, donde
conceptos, hipótesis y datos, que formaban parte de niveles previos se encuentran presentes
aunque envueltos en nuevas relaciones y acompañados por nuevos datos, conceptos e hipótesis.
El proceso de investigación resulta así ser esencialmente dialéctico (García, 2000, pág. 44).
E
Esquema I. 3
U helicoide
Un e representtando el prroceso de in
nvestigación
n.
Esta tesis sobre la “geometría de la secuenciia de las fasses de una iinvestigació ón” tiene
consecu uencias importantes resspecto de laa práctica qu ue utiliza la Estadística . Mencionemmos sólo
algunoss ejemplos. Suele suced der que en el momentto del análisis, los datoos disponibles para
trabajarr no satisfaggan las exige
encias mate máticas pro opias de la técnica estaddística selecccionada.
Esto conlleva a qu ue se deba cambiar la técnica de contraste de hipótesiis seleccionada, o a
cambiarr de hipótessis directam mente. A veeces resultaa insuficientte la técnicaa selecciona ada para
produciir evidenciaa concluyen nte, sus ressultados no o están den ntro de loss esperadoss, o son
directammente contrrarios a los conocimien ntos preced dentes. Por tanto
t se ha ce necesario volver
atrás y revisar lass hipótesis propuestass y desdoblarlas, gen nerando nuuevas hipóteesis que
permitaan mejorar la interpreta ación de los resultados. El nuevo pllanteo modiifica la estra ategia de
investiggación y porr tanto las tareas
t que aasumirá la Estadística. Alguna hippótesis que emergió
puede rrequerir de una técnica a estadísticaa que antes no estaba consideradaa. Esto hacce que si
bien la investigació ón suele commenzar con ciertas hipótesis más o menos deelineadas, ell análisis
estadísttico puede tanto avanzzar hacia laa generación de conclu usiones, commo retroceder a la
revisiónn y formulación de nue evas hipóte sis que requieren ser contrastadaas. En síntessis, aun
cuando a la Estadísstica pueda asignárselee un rol máás bien acota ado en una investigació ón social
concreta, es muy po osible que participe
p en vvarios mom mentos de la investigacióón y aporte su cuota
a la conttradicción que
q el motor en el heliccoide.
En tercer lu
ugar, el esquuema I.1 y ell I.2, reinterrpretados ba ajo el conce pto de un helicoide,
h
permiteen relativizaar también lal idea de qu ue existe un n “control” o “condicionnamiento fé érreo” de
unas op peraciones sobre
s otras. Desde la Lógica, esta tesis ha sid do conceptuuada enfatizando las
conexioones deductiivas e inducctivas que viinculan cadaa una de las etapas (Cohhen & Nage el, 1968).
Desde eel cuerpo dee conocimie entos científficos hacia las observa aciones se ooperaría a trravés de
deducciiones, en tan nto que desde las obserrvaciones el conocimiento se acreccentaría a través de
inferenccias. Las tareas
t de la Estadísticca en la in nvestigación estarían ccontroladas por las
hipótesiis empíricass formuladas y a su vez,, controlaríaa a través de e sus instrummentos de resumen
r
y prueba, todas las operacioness inductivass.
A
Ahora bien,, tales tesis sobre los coontroles férrreos han sido puestas en discusió ón y a su
vez rechhazada. Con n el aporte de Karl Pop pper (1934)), el papel de d las induccciones perd dió el rol
central de fundameentar los con nocimientoss generales. No es posib ble el paso dde la observación de
lo particular (las regularidade
r es de hechoo) a la form mulación de enunciadoss generales (teorías,
leyes) (Popper, 19 934). La mera
m coleccción de observacioness particularres no fund damenta
lógicammente un en nunciado geeneral. Estee paso no es lógico, sino meram mente probable: hay
incertidumbre, y por tanto, errores de inferencia. Esto es, el uso de la Estadística en la inferencia
no garantizará de por sí un grado mayor de validez a los hallazgos; veremos más abajo que la
Estadística es una disciplina científica que usas sus instrumentos sobre la base de identificar y
aceptar ciertos nieles de error.
Aún más. Tampoco existe un control férreo desde las hipótesis a las observaciones por
el lado de la medición. Por un lado, la Epistemología genética de Jean Piaget permitió extender el
alcance de aquel descentramiento de la inducción: el conocimiento no tiene un origen sensorial
y en consecuencia, el proceso mismo de la investigación no tiene en la observación el momento
privilegiado de contacto o acceso a la “realidad” (Piaget & García, 1981; García, 1996; Chalmers,
1982). Por otro lado, aunque muy conectado con estas ideas, hasta el propio Empirismo Lógico
llegó a la conclusión de que el significado de las teorías y los conceptos no se agota en sus
consecuencias observacionales (Hempel, 1979). El corpus teórico de las distintas ciencias
contiene tanto conceptos susceptibles de ser observados (en todos o en algunos de sus
aspectos) y también otros, que no son observables. Por lo que si las observaciones están
cargadas de teorías, el papel de la Estadística en el momento de operacionalizar conceptos
tampoco implica un férreo control sobre el proceso de observación. Las operaciones lógicas que
consisten en establecer los vínculos entre los conceptos, sus indicadores y las observaciones no
resulta libre de incertidumbres y por tanto, también de errores de medición.
I.2. Algunas grandes tareas de la Estadística y su agrupamiento en dos ramas
En el marco epistemológico que hemos resumido apretadamente en el anterior apartado deben

quedar claras dos ideas principales: i) que la Estadística tiene un papel importante aunque no
privilegiado como motor del proceso de investigación dado que permitirá sistematizar las
contradicciones que puedan aparecer entre las proposiciones que derivan de la teoría y las
observaciones; ii) las distintas tareas que desempeñe no disminuyen el error (de medición, de
inferencia) sino que lo hacen explicito, conocido, para realizar los contrastes.
Desde estas nociones generales, presentaremos algunas tareas que la Estadística tiene
en la investigación. Nos guía un objetivo didáctico: ilustrar a grandes rasgos en qué actividades
de investigación puede ayudar la Estadística. Se pueden identificar cuatro grandes tipos de
tareas en que la Estadística podría tener participación: i) contribuye a la formalización de
hipótesis empíricas; ii) aporta reglas y procedimientos de selección de casos; iii) aporta
instrumentos para resumir la información producida; y iv) permite realizar estimaciones o
pruebas de hipótesis.
Contribución a la formulación de proposiciones empíricas. Un punto a destacar del proceso

de investigación representado por el esquema de Bunge es que la investigación no somete a
prueba las hipótesis (o enunciados) teóricas sino sus consecuencias observacionales
contrastables con el material empírico que habrá de producirse. En las ciencias sociales se suele
distinguir entre las proposiciones teóricas (las primeras) y proposiciones empíricas (las
segundas). Veamos a modo de ejemplo el enunciado “la anomia induce al comportamiento
social desviado”, que podría dar cabida a los siguientes enunciados empíricos: el suicidio será
más frecuente entre los solteros que entre los casados; tendrá más incidencia en la población
protestante que en la católica, en los profesionales que en los trabajadores manuales
(Stinchcombe, 1987, págs. 15-17). Cada una de estas proposiciones empíricas derivadas de la
teoría, establece una distribución esperada de los datos que luego será contrastada con la
distribución observada (Cortés & Rubalcava, 1987) siendo ese contraste el origen de la
contradicción que mueve a la investigación. En este esquema la Estadística puede contribuir,
aunque no de forma exclusiva ni privilegiada, a la formalización de la hipótesis empírica,
entendiéndose por tal, una expresión lógica y sustantiva tal que permitan tomar decisiones más
claras respecto a los datos. Siguiendo el ejemplo anterior, con la contribución de la Estadística,
los términos “más frecuente” o “más incidencia” pueden ser expresados diversamente como la
mera existencia de una diferencia matemática, como un ordenamiento, como diferencias
cuantificables en ciertos valores predefinidos, etc. Claramente, cada una de estas
formalizaciones implicará reglas de decisión distintas a la hora del contraste con la distribución
observada.
La selección de observaciones. Si la investigación no accede a la realidad ni puede someter a

contraste toda la teoría, sino que trabaja con colecciones de observaciones cargadas de teoría,
un problema básico que se le presenta a todo diseño de investigación es resolver con qué
criterio se vinculan estas observaciones particulares con esos universos (el de las teorías y el de
los casos). Aquí claramente hay dos tareas. Por un lado, es necesario establecer un vínculo entre
el concepto y uno o varios indicadores (o variables en el lenguaje de la estadística)
seleccionados de una colección de indicadores alternativos. Luego habrá que establecer valores
para estas variables de tal forma que permitan cuantificar, ordenar o clasificar los casos. Aquí la
Estadística puede intervenir aportando instrumentos que permitan determinar el nivel de error
en la medición, disminuir la ambigüedad y aumentar la replicabilidad (Shadish, Cook, &
Campbell, 2001). Estas tareas han sido desarrolladas sobre todo por la Teoría de la Medición y
la Psicometría estos temas merecen un tratamiento especial que está fuera del alcance de este
libro. Pero, por otro lado, también es necesario establecer cómo se seleccionarán los casos a
observar tomados de un universo de casos posibles. Aquí es necesario tener el cuidado puesto
que la selección podría concluir en contar sólo con casos que son favorables a las hipótesis
planteadas, aún cuando el investigador no se lo haya propuesto (King, Keohane, & Verba, El
diseño de la investigación social: la inferencia en los estudios cualitativos., 2000). La Estadística
proporciona un método en que la sección de los casos se deja al azar. El fundamento de este
proceder es la Teoría de las Probabilidades; tema que también está fuera del alcance de este
libro. Sin embargo y para ambas tareas de selección serán de utilidad varios instrumentos de
resumen que aquí presentaremos.
El resumen. La Estadística proporciona instrumentos, procedimientos y convenciones que son

eficaces y eficientes a la hora de realizar resúmenes de la información producida en una
investigación. De hecho, si uno considera la historia del desarrollo de esta disciplina,
podríamos decir que la Estadística nació para realizar el conteo y resumen de los habitantes y
posesiones de los estados.
La estimación de la hipótesis. El “test” de hipótesis tradicional compara la distribución de los

datos con la distribución que surge del procedimiento de selección de casos, que se obtienen a
través de la aplicación de diversas formas de muestreo aleatorio; o bien con la distribución que
se observaría si el fenómeno fuese de azar, es decir, generado por múltiples e infinitas y
pequeñas causas (Stinchcombe: 1987:23). Sin embargo, los métodos más modernos de la
Estadística desarrollados para responder a las exigencias de las ciencias sociales, se caracterizan
por proponer un modelo estadístico, basado en las proposiciones empíricas, que originaría la
distribución observada de los datos (Hildebrand, James, & Rosenthal, 1977). La contrastación de
las distribuciones teórica y empírica permite decidir acerca del grado de bondad de ajuste del
modelo. Estas operaciones también se fundan en la Teoría de la Probabilidad por cuanto
requieren definir conceptos operativos del error de inferencia y cuantificarlos a los efectos de
tomar decisión.
Estas grandes tareas definidas en forma general pueden agruparse (didácticamente se

han hecho así por mucho tiempo) en dos grandes ramas de la Estadística. La primera es
denominada Básica y se ocupa de presentar los distintos tipos de instrumentos para resumir los
datos. La segunda rama comienza exponiendo la Teoría de la Probabilidad como fundamento de
la selección y de la prueba de hipótesis, e incluye la Inferencia Estadística, el Muestreo, la
Econometría, la Epidemiología, y la Psicometría entre otras subdisciplinas estadísticas
aplicadas. Las englobaremos a todas bajo el término de Estadística Inferencial.
En la Estadística Básica consideramos tanto los datos no métricos que dan lugar a la
Estadística de Atributos, como los datos métricos que dan lugar a la Estadística Descriptiva.
Estos resúmenes pueden involucrar a una sola variable o varias variables a la vez en cada
análisis, por lo que debemos distinguir entre Estadística Univariada y Estadística Multivariada.
El presente libro se ocupará como indica su título sólo de la Estadística Básica,
presentando las nociones e instrumentos fundamentados del análisis univariado e
introduciendo el análisis bivariado como primer paso hacia el análisis multivariado.
I.3. Requerimientos a la Estadística y desarrollo de instrumentos
La historia de las ciencias ha hecho verosímil la teoría que hace depender la emergencia de una
disciplina y de sus instrumentos a partir de problemas de acción concretos en los que teorías
anteriores planteaban contradicciones muy fuertes y no resolubles con los datos (Kuhn, 1962;
Piaget & García, 1981) . Esta teoría razonablemente describe la recepción de la Estadística en la
investigación social que comenzó a practicarse en las universidades y centros de investigación
de América Latina desde los años cuarenta. En esta última sección queremos presentar ideas
generales sobre algunos hitos y problemas de investigación que marcaron este desarrollo
regional y contribuyen a entender la Estadística que tenemos.
La Estadística aplicada a la investigación y su enseñanza ha experimentado varios
avatares en la Región, tanto en el campo de la Sociología como de la Ciencia Política durante los
últimos cuarenta años. Es posible interpretarlos mediante un “modelo histórico”, que no
necesariamente es aplicable in toto a cada país iberoamericano, y que distingue tres etapas
ordenadas en el tiempo: (i) Auge, (ii) Destierro y (iii) Resurgimiento.
I.3.1. El auge
La primera etapa responde al surgimiento de la Sociología y la Ciencia Política como disciplinas

académicas e institucionales, cuestión a la que contribuye de modo importante el
establecimiento de la Facultad Latinoamericana de Ciencias Sociales (FLACSO) en la ciudad de
Santiago de Chile hacia fines de los años cincuenta. Se trata de la primera academia orientada a
la formación de postgrados, cosmopolita tanto por el origen de sus profesores como por sus
alumnos. Pero más allá de esto, profundamente concentrada en la agenda de los temas de la
modernización lanzados por Gino Germani y los problemas del desarrollo que Raul Prébich
iniciara una década antes la Comisión Económica para América Latina (CEPAL).
El predominio del estructural funcionalismo parsoniano y de las teorías de alcance
medio de Karl Merton, en el plano conceptual, y de las técnicas de survey en lo metodológico se
combinaban armónicamente con los instrumentos que proporcionaba la Estadística.
La información empírica que permitía contrastar las hipótesis de las investigaciones
sociológicas y politológicas de la época se obtenía preferentemente a través de muestras que
usaban cuestionarios como instrumentos de recopilación de información, por lo que para los
científicos sociales de esos años era crucial comprender la teoría de las muestras y las diversas
formas de aplicarla. Sin embargo, para llegar hasta ese punto del desarrollo de la Estadística era
y es necesario disponer de un buen nivel de conocimiento de la estadística descriptiva y de la
teoría de probabilidades.
Además era necesario estudiar la parte de la Estadística concerniente a la estimación de
los parámetros poblacionales con base en los resultados de la muestra. En consecuencia, se
hacía imprescindible aprender inferencia estadística -estimación punto y de intervalo y pruebas
de hipótesis-. En concreto, el sociólogo y politólogo en los sesenta debía ser capaz de emplear
con soltura el material expuesto en los primeros capítulos de cualquier libro introductorio de
estadística matemática, incluida la inferencia estadística.
Por la época la enseñanza de la Estadística referida a la construcción y descripción de los
datos era bastante parecida tanto en contenido como en forma de impartirla en Economía,
Sociología o Ciencia Política. El rigor matemático de la exposición no presentaba diferencias
importantes aunque en Sociología y Ciencia Política se evitaba hacer uso de cálculo avanzado.
La diferencia entre la Estadística Social y la Estadística Económica radicaba en las
técnicas de análisis de datos. La Economía, por un lado, empleaba profusamente el análisis de
regresión, materia prima de la incipiente Econometría8, mientras que la Sociología tenía como
principal recurso el análisis de covarianzas de Paul Lazarsfeld presentado en 1946 (Lazarsfeld,
La interpretación de las propiedades estadísticas como propiedad de investigación, 1966). La
Estadística aplicada a la Ciencia Política navegaba a medias aguas entre ambas direcciones.
El argumento que daba racionalidad a la especialización disciplinaria en el uso de las
técnicas de análisis de datos sostenía que la mayoría de las variables económicas se medían en
escala de intervalo o de razón, mientras que, por el contrario, casi la totalidad de las variables
sociales eran nominales o en el mejor de los casos ordinales9. Había calado profundo el libro de
Sydney Siegel Nonparametric Statistic (1956) (Siegel, 1956), de amplia circulación por esos
años, que relacionaba las pruebas de hipótesis y las técnicas de análisis de datos a los niveles de
medición de las variables.
La Sociología hacía uso intensivo de diversas pruebas de hipótesis de la familia ji-
cuadrada, y para juzgar la fuerza de la relación se echaba mano al análisis de asociación. Las
raíces de esta técnica se remontan a fines del siglo XIX y comienzos del XX y su desarrollo se dio
en dos vertientes, una impulsada por Karl Pearson y la otra por Udny Yule1011.
8
A pesar de que en los sesenta aparecen varios libros de Econometría el más utilizado en América Latina fue
Econometric Methods de J. Johnston (1964).
9
La idea de la diferenciación entre Sociología y Economía, según la escala de medición de las variables, muy
popular en esa época se escucha a veces aunque con menos frecuencia que en el pasado, en pleno siglo XXI. Da
la impresión que ella se desprende del supuesto que la naturaleza de lo económico sería diferente a la materia
que trata la Sociología; la primera sería cuantitativa mientras que la segunda cualitativa. Este argumento no
toma en cuenta que lo que se mide son conceptos y no la supuesta “realidad” (Bunge, 2000).
10
George Udny Yule (18 de febrero de 1871-26 de junio de 1951) fue un estadístico nacido en Escocia. Sus
aportes teóricos y prácticos fueron importantes en el contexto de la correlación y regresión de las matemáticas.1
Sus trabajos publicados abarcan hasta la primera década del siglo XX. La distribución de Yule-Simon, una
Los desarrollos de Pearson suponían la existencia de variables latentes continuas que
seguían una distribución conjunta normal, sin embargo, sólo eran observables en escalas no
métricas; con base en las frecuencias observadas el problema estadístico a resolver consistía en
encontrar un buen estimador del coeficiente de correlación producto-momento de Pearson. Esta
aproximación generó los coeficientes tetracórico, biserial y biserial punto (Kendall & Stuart,
1961) que tuvieron escasa aplicación en las ciencias sociales de Ibero América.
Fue el camino no paramétrico señalado por Yule el que se utilizó profusamente en la
Región. Los trabajos desarrollados bajo esta óptica generaron una serie de coeficientes para
medir la fuerza de la relación entre variables cualitativas, basándose únicamente en las
frecuencias observadas, sin suponer distribución poblacional alguna. El análisis se hacía en dos
etapas, en la primera, se efectuaba la prueba ji-cuadrada de independencia estadística, que
supone normalidad para muestras pequeñas o bien un comportamiento normal asintótico para
muestras grandes; y una vez que se rechazaba la hipótesis nula de que las variables eran
estadísticamente independientes se procedía, en la segunda etapa, a calcular la fuerza de la
relación.
Los coeficientes más utilizados en tablas de 2X2 eran Q de Yule y fi. Para tablas de R
renglones por C columnas se disponía de un conjunto de coeficientes funciones de ji-cuadrada, a
los cuales se fueron agregando los propuestos por Leo Goodman y William Kruskall (Goodman
& Kruskall, 1954), entre los que destacan los coeficientes , para variables nominales y  para
ordinales. En los años siguientes se agregaron otros coeficientes, sin embargo, no todos gozaron
de popularidad entre nosotros excepto, tal vez, d de Sommers, a y b.
Al ampliarse la gama de coeficientes de asociación surgió el problema de decidir cuál
emplear. Las escalas en que se medían las variables dejaron de ser un buen indicador para
seleccionar la medida adecuada, ya que para cada combinación de ellas (nominal u ordinal) se
disponía de varios coeficientes alternativos. Así se fue perfilando la idea de utilizar como
criterio, para elegir tal o cual coeficiente, la correspondencia entre las estructuras lógicas del
coeficiente y del enunciado o proposición teórica que se sometía a prueba (Cortés & Rubalcava,
1982; Cortés, 1967). El planteamiento sostenía que para seleccionar el coeficiente adecuado era
necesario identificar la estructura lógica de la hipótesis conceptual y también conocer las
proposiciones o enunciados a partir de las cuales se construyeron los diversos coeficientes
estadísticos. Aplicar este criterio no era tarea sencilla ya que demandaba no sólo conocer
suficientemente la teoría sustantiva sino también los instrumentos estadísticos más allá de la
aplicación de la mera fórmula.
El análisis multivariado para variables no métricas estaba en ciernes en la década de los
sesenta. A pesar de que Lazarsfeld afirmaba que su ecuación de covarianzas se podía extender a
fortiori a más de dos variables y a cualquier número de categorías por variable (Lazarsfeld,
1974, págs. 23-52; 327-352) en la realidad la técnica era bastante limitada pues en esos casos
las aplicaciones se volvían demasiado complejas. Por esta razón los estudios tendieron a
limitarse al modelo básico.
La Ciencia Política requería en parte del análisis de asociación lo que la hermanaba a la
Sociología. Sin embargo, otra parte no despreciable de su quehacer era el análisis electoral que
demandaba el uso de técnicas para establecer la fuerza de la relación entre variables métricas.
distribución discreta, se nombra en su honor y el de Herbert Simon. George Udny Yule se convirtió en miembro
de la Royal Society el 12 de mayo de 1921.
11
(MacKenzie, 1979)hace un relato histórico iluminador de las diferencias entre los desarrollos estadísticos de
Pearson y Yule.
En efecto, para los diferentes agregados electorales, tales como comunas, municipios,
departamentos, estados, etc. es posible registrar no sólo el número o la proporción de votos a
favor de los diferentes partidos que participaron en la contienda electoral sino también una
serie adicional de características económicas, sociales o culturales, tales como el ingreso
promedio de los hogares, la importancia relativa de las principales ocupaciones, el nivel
educativo, la etnia, las preferencias en elecciones pasadas, etc. Con base en esa información y
diversas teorías se solían ajustar modelos de regresión para “explicar” el voto a favor de los
diferentes candidatos y partidos políticos12. Los instrumentos estadísticos adecuados para
encarar el estudio de este tipo de problemas eran el análisis de regresión y de correlación, lo
que aproximaba a la Ciencia Política, desde el punto de vista de la medición, al estilo de análisis
de datos característico de la Economía.
El denominado análisis causal fue la técnica estadística de punta en la década de los
sesenta. El libro Causal Inference in non Experimental Research (Blalock, 1964), tenía como
antecedentes un trabajo de S Wright de 1934, el artículo en que Lazarsfeld exponía su análisis
de covarianzas presentado en 1946 en un congreso de la Sociedad Americana de Sociología en
Cleveland, y un trabajo de Herbert Simon publicado 1957. Todos estos esfuerzos estaban
dedicados al problema de identificar empíricamente relaciones causales genuinas entre
variables y distinguirlas de las relaciones espurias, empleando para ello métodos estadísticos.
El libro de Blalock fue un poco anterior al de Raymond Boudon quien en el capítulo 3 de
su “L’ Analyse mathematique de la causalité” propuso los denominados coeficientes de
dependencia, que permitían argumentaba, medir el vínculo causal entre variables (Boudon,
1970). Los esfuerzos de los estadísticos sociales se volcaron febrilmente al desarrollo de esta
técnica, fue así como varios números del influyente anuario Sociological Methodology estuvieron
expresamente dedicados al tema.
El análisis de causalidad, hoy transformado en análisis de trayectoria o de senderos
(path análisis) de uso preferente en Sociología de la Educación, es en esencia un sistema
recursivo de ecuaciones de regresión. El que una rama importante de la Sociología usara
regresión pareciera contradecir el planteamiento de una cierta especialización instrumental que
diferenciaba a la Sociología de la Economía. Sin embargo, no es así pues los sociólogos le daban
la vuelta al problema; para hacerlo se basaban en que el modelo de Blalock estaba expresado en
el lenguaje de la correlación13 y que el coeficiente de asociación fi, para tablas de dos por dos es
matemáticamente equivalente al coeficiente de correlación producto momento de Pearson.
En fin, el análisis multivariado en las ciencias sociales de Ibero América se limitaba casi
en su totalidad al análisis de variables dicotómicas, ya sea en la versión de la ecuación de
covarianzas de Lazarsfeld o al análisis de causalidad a través del modelo de Blalock o Simon
Blalock como se le conocía coloquialmente por la época. En los casos en que se dispusiera de
variables métricas se podía recurrir a los denominados modelos de causalidad o bien al ajuste
de sistemas de ecuaciones recursivas.
Llama la atención, mirado a la distancia, que durante los sesenta haya persistido la idea
de la diferencia esencial de “método” entre la Sociología y la Economía en función de la
12
Este tipo de estudio hizo tomar conciencia de que en la mayoría de los casos la interpretación de los
resultados adolecían de falacia ecológica (Robinson, 1950). Recientemente usando técnicas modernas Gary
King establece las condiciones bajo las cuales es posible es posible trasladar los resultados agregados al nivel
individual, sin caer en el error de afirmaciones falaces (King, 1997).
13
Expresó sus desarrollos conceptuales en el lenguaje de correlación, más familiar a los sociólogos, apoyándose
en las relaciones matemáticas entre coeficientes de regresión y de correlación.
naturaleza distinta de las variables económicas y sociales, a pesar de que en los años posteriores
a la segunda guerra mundial los economistas consideraron en sus modelos variables
explicativas nominales definiendo variables ficticias (también denominadas variables mudas o
dummy). La inclusión de variables mudas en el lado derecho de la ecuación de regresión
permitió estimar el efecto de variables no métricas sobre la variable dependiente métrica.
I.3.2. El destierro
La segunda etapa comprende el período desde comienzos de los setenta hasta mediados de los
ochenta14. Podría fecharse su inicio con la recepción del marxismo estructuralista en América
Latina y con la primera edición del libro Dependencia y desarrollo en América Latina de
Fernando Henrique Cardoso y Enzo Faletto en 1969 (Cardoso & Faleto, 1969). A esto se debe
añadir la movilización que generó entre los científicos sociales la elección de Salvador Allende
como Presidente de Chile y el inicio del gobierno de izquierda de la Unidad Popular. Las
consecuencias de este nuevo conjunto de proposiciones teóricas, compromisos militantes y
problemas políticos puso en jaque el paradigma establecido hasta este momento.
El conocimiento estadístico que había jugado un papel importante en la investigación
social del período anterior, ya no ayudaba a responder las preguntas que surgían del enfoque
histórico estructural15, centradas en la dinámica del cambio de las estructuras sociales. En las
aulas de Ibero América esta disciplina fue reducida a su mínima expresión. Los teóricos
“funcionalistas” pasaron al cajón de los recuerdos de la mano con la economía del bienestar; se
impuso en cambio el estudio del marxismo y de Marx.
La investigación, en consonancia con las disputas políticas por el poder, se concentró en
el estudio del cambio estructural, en la sucesión de los modos de producción o en la evolución
de las formaciones sociales concretas. El problema central de las ciencias sociales era dar
inteligibilidad a los procesos sociales y políticos que estaban aconteciendo y proponer
mecanismos para orientarlos hacia objetivos predefinidos. Las preguntas de investigación
enviaban sobre unidades de análisis agregadas y revestían un carácter eminentemente
histórico. Quedaba en el pasado la época en que interesaba el estudio del comportamiento, las
actitudes, los valores, las percepciones, etc. de los individuos localizados en un punto del
tiempo.
Las nuevas preguntas de investigación también provocaron un cambio de contenido en
la metodología de las ciencias sociales. Una parte de la exploración en busca de nuevos métodos
que ayudaran a responder las preguntas que se formulaba la nueva investigación social se volcó
hacia el estudio de la filosofía de la ciencia y de la epistemología. Otro camino que se ensayó fue
la lectura metodológica de las investigaciones realizadas por los autores clásicos.
El muestreo y la inferencia se eliminaron de los programas de la enseñanza de la
Estadística así como cualquier técnica de investigación. La estadística descriptiva se enseñó
como parte de cursos de “Fundamentos técnicos de la investigación social” en los cuales se
14
El límite superior del período no es tan nítido como en el anterior, cualquiera que se elija puede ser objeto de
controversia, sin embargo como es bien sabido, toda periodización tiene cierta dosis de arbitrariedad; los
procesos sociales suelen no tener límites tan marcados.
15
En esa época aún no se contaba con desarrollos estadísticos, disponibles hoy para analizar cambio estructural,
ni tampoco con los conceptos elaborados por la teoría del caos ni con las leyes de evolución de los sistemas
complejos. Los estudios de la escuela piagetiana se asociaban más bien a la pedagogía y a la psicología,
desconociéndose su veta epistemológica (García, 2000, pág. 11) .
estudiaba la forma cómo investigaciones calificadas como clásicas en esa época y las de nuevo
cuño operacionalizaban las relaciones entre los conceptos teóricos16. Según el o los textos de
investigación empírica seleccionados para la enseñanza de la Estadística era posible incluir, en
ocasiones, algo de análisis de asociación y también de correlación lineal simple, utilizadas como
medidas descriptivas.
Los golpes de estado acaecidos en América del Sur durante los primeros años de la
década de los setenta y la persecución política desatada en contra de los académicos no tuvo
mayores consecuencias sobre las orientaciones metodológicas ni sobre el papel de la Estadística
en las Ciencias Sociales. Desde el exilio la preocupación intelectual se volcó sobre la experiencia
vivida y el énfasis cambió de lo estructural a lo superestructural. La década de los ochenta
estará signada por la reflexión acerca del proceso de transformación del Estado y su autonomía
relativa. Sin embargo, fueron contados con los dedos de las manos los estudios concretos, más
allá de la mera especulación, realizados en la Región.
Estas eran las corrientes dominantes en nuestros países, sin embargo, el avance de la
Estadística Social continuaba en otras áreas del globo terráqueo.
I.3.3. El resurgimiento
A lo largo de la década de los ochenta tienden a desaparecer los gobiernos de facto en América
Latina y a ser sustituidos por otros electos por el voto ciudadano; sin embargo, el avance de la
democracia se combinó con el estancamiento económico. La explosión de la crisis del petróleo
en 1982 socavó las bases del crecimiento de los países de América Latina. Hacia finales de los
ochenta y durante los noventa, la mayoría de los países de la Región iniciaron procesos de
cambio estructural tendientes a liberar las fuerzas del mercado, la consigna era “más mercado y
menos estado”.
La situación económica general se dejó sentir sobre las instituciones de educación
superior afectando la investigación y la docencia. El financiamiento de las investigaciones
proveniente de fundaciones u organismos internacionales ganó en importancia en algunos
países y también tendió a centralizarse en Consejos Nacionales de Ciencia y Tecnología. Los
escasos recursos tendieron y tienden a ser canalizados al estudio de problemas sociales
específicos privilegiándose la investigación social empírica, muchos de los cuales son definidos
débilmente como multidisciplinarios: sector informal, desempleo juvenil, pobreza, marginación
urbana, aprendizajes en la educación básica, abandono estudiantil, reforma del estado,
focalización de políticas públicas, cadenas agroindustriales, migración internacional, capital
social y asociacionismo, exclusión social, entre otros. Buena parte de estos problemas sólo
explicitan difusas derivaciones con el conocimiento teórico elaborado en la Sociología y la
Ciencia Política. Tal vez los debates sobre el sentido (teórico) de los conceptos de pobreza y de
capital social sean dos buenos ejemplos de ello.
Este giro hacia los estudios empíricos y a la investigación aplicada para el desarrollo de
políticas públicas impuso requerimientos estadísticos que habían sido dejados de lado entre
sociólogos y politólogos. En este ambiente la metodología de las ciencias sociales volvió sobre
sus pasos y recuperó algunos de los temas de los años sesenta: técnicas de muestreo,
construcción de cuestionarios, entrevistas, observación participante, etc. y también tópicos
básicos de lógica de la investigación.
16
Nótese que no uso el término de hipótesis teórica pues por en esos años la palabra hipótesis era
“reaccionaria”, tenía un fuerte tufillo funcionalista.
Ahora bien, al volver sobre estos temas fue notorio el rezago que se había creado fruto
del destierro en el tratamiento de los temas de punta en la Metodología y en la Estadística.
Veamos tres ejemplos. En primer lugar, hubo un avance notable para resolver el problema de
cómo conectar lógicamente las proposiciones empíricas con las distribuciones observadas. A
fines de los años setenta se propone una solución al problema de qué coeficiente de asociación
utilizar en cada caso concreto17. Por una parte, el estudio en profundidad de las bases lógicas de
los índices de asociación permitió ir más allá del concepto de asociación basado en la lejanía
respecto a la independencia estadística (sobre el que se erige ji-cuadrada) y se generó la idea de
que los valores de los coeficientes son diferentes porque miden la cercanía o lejanía de la
distribución de los datos a distintos conjuntos de proposiciones estadísticas que
“operacionalizan” enunciados teóricos (Hildebrand, James, & Rosenthal, 1977) Por otra parte, el
desarrollo de esta idea develó las estructuras lógicas sobre las cuales se erigen los coeficientes
de asociación más utilizados. Con base en este conocimiento se propuso la función generatriz de
coeficientes delta-ro, donde el sufijo ro denota la proposición lógica que se debe especificar para
que el coeficiente asuma una forma determinada. La definición misma de este nuevo coeficiente
requiere para su aplicación establecer la distribución esperada de los datos. Premunidos con la
idea de que el enlace de la teoría y la técnica estadística, a través de la lógica, define
unívocamente el coeficiente de asociación a utilizar, Cortés y Rubalcava (1987) elaboraron un
libro, basado en la experiencia de investigación de la Región, que mostraba las conexiones entre
algunas discusiones teóricas y la investigación social empírica. A poco tiempo, este texto se
transformó en un texto básico para el estudio de asociación en los cursos de grado en la región,
sobre todo en Sociología.
En segundo lugar, durante el segundo quinquenio de la década de los ochenta se
extiende como reguero de pólvora, fuera de la Región, se desarrollaron los modelos de regresión
no lineales en Estadística que permitían el tratamiento de variables dicotómicas, pluricotómicas
y ordinales también como variables dependientes en la ecuación que formalizaba el conjunto de
proposiciones a contrastar. Con este nuevo tipo de modelos de regresión, se cierra un círculo.
Finalmente se derrumba la idea de que los niveles de medición de las variables diferenciaban a
la Estadística susceptible de ser aplicada a la Sociología y a la Economía: ya es posible analizar
tablas de contingencia empleando regresión. La recepción fue lenta, sin embargo, en América
Latina, básicamente por problemas de formación estadística de base.
Estrechamente vinculada a los problemas planteados por la Sociología de la Educación,
ha emergido con fuerza en los años noventa el análisis jerárquico lineal o análisis multinivel
(Raudenbuch & Bryk, 2002), aunque sus antecedentes en la Sociología se remontan a 40 años
atrás, en el contexto del análisis ecológico (Boudon R. 1974: 271 a 284). Estos desarrollos de la
Estadística aplicados a la Sociología proporcionan una técnica que permite analizar datos y
formalizar los vínculos teóricos entre conceptos macro y micro sociales. Sin perjuicio de los
campos notorios que abrió esta técnica para modelar los problemas “macro-micro”, su
recepción fue aún más lenta que para las regresiones no lineales y aún hoy resulta más bien
excepcional encontrarla enseñada en los cursos de postgrado.
17
Debe recordarse que uno de los problemas que aquejaban a la investigación social en los sesenta era la
ausencia de criterios para decidir cuál de los coeficientes de asociación disponibles usar, toda vez que la
proliferación de índices de asociación desarrollados en esa época proporcionaba un amplio abanico de opciones
a disposición del investigador y que habitualmente se disponía de más de un coeficiente de asociación para las
combinaciones de niveles de medición de las variables de la tabla; fue así como la decisión a favor de uno u otro
coeficiente ya no podía basarse en las escalas de medida.
I.3.4. El desarrollo desigual de la disciplina
Los avatares que han vivido las Ciencias Sociales en América Latina han dejado sus huellas en la
Metodología; hacia fines del siglo XX y comienzos del XXI es un mosaico que exhibe parte de la
historia de estas disciplinas.
Bajo el término “Metodología” se ofrecen cursos que cubren una serie de materias que
van desde la estadística elemental y técnicas de survey en un extremo, hasta la filosofía de la
ciencia y epistemología en el otro. En algunos países la Sociología y la Ciencia Política se
institucionalizó en las universidades bajo el predominio de los temas metodológicos de la época
del destierro y por tanto, el papel de la estadística, tanto en la investigación como en la docencia,
ha quedado circunscrito a la descriptiva, al análisis de asociación y a la correlación, sin
considerar los enlaces con la inferencia estadística. Otros, han transitado de la segunda a la
tercera etapa, sin pasar por el período de auge; la investigación que se realiza emplea las
técnicas estadísticas más modernas y en sus aulas se las enseña utilizando grandes bases de
datos y computadores personales poderosas, pero, hay que reconocer, su uso se limita a
relativamente pocos investigadores y que la enseñanza se reduce a unas cuantos programas de
postgrado en Sociología. Hay otros países en que la investigación y la docencia en Sociología
transitaron de la época de auge a la del destierro y ahí han permanecido.
El análisis de lo acontecido con la Estadística en América Latina muestra que hasta
finales de la década de los años sesenta la estadística descriptiva, el muestreo y la inferencia
estadística proporcionaban valiosos instrumentos de recopilación de información útiles para
caracterizar poblaciones. De las técnicas para estudiar relaciones entre variables disponibles en
esa época, la más usada en Sociología y Ciencia Política era el análisis de asociación y el de
covarianzas de Lazarsfeld, este último especialmente válido para analizar las relaciones entre
tres o más variables dicotómicas. El análisis de regresión era el instrumento estadístico más
popular de los economistas y de los científicos políticos dedicados al análisis electoral. Se
argumentaba que la diferencia entre los instrumentos de análisis de datos de la Estadística
Social y de la Estadística Económica se originaba en la escala en que se medían las variables:
predominante nominal y ordinal en el primer caso y de razón e intervalar en el segundo.
Sin embargo, continuó desarrollándose fuera de la Región y hubo importantes avances
en la estadística teórica impulsados por las preguntas que surgían desde las ciencias sociales.
Con estos avances empieza a desmoronarse el muro que separaba a la Estadística Social y a la
Estadística Económica. A su vez los nuevos modelos estadísticos nacían articulados a la
explicación social.
En los últimos años bajo la batuta del progreso tecnológico en la fabricación de
computadoras personales cada vez más potentes, a precios sistemáticamente más bajos y un
mercado en expansión que facilitó su acceso, combinado con amplia oferta de paquetes
estadísticos, hizo posible “ajustar” modelos no lineales ya no sólo a variables dependientes
dicotómicas sino también pluricotómicas y ordinales a bajo costo. Por otra parte, los vínculos
estrechos entre los modelos teóricos dominantes en Economía, Sociología y Ciencia Política y los
nuevos modelos estadísticos, vía la teoría de la elección racional o la explicación en la vertiente
weberiana, llevaron a la proliferación de estudios sociales que utilizan los nuevos modelos.
Todo esto aconteció en otras geografías, en las nuestras se registraron algunos estudios aislados
aunque en los últimos años han sido cada vez más frecuentes.
Hay que destacar que en el período considerado ha variado el rol de la Estadística en el
quehacer de los científicos sociales. En la América Latina de los años sesenta dicha disciplina era
parte constitutiva de la investigación social; estaba articulada a la teoría y metodología
dominantes. En el segundo período dicha articulación se rompe cuando cambiaron radicalmente
las preguntas de investigación, de cara a los acontecimientos sociales y políticos de la época; la
teoría dominante; y la escasa adecuación del conocimiento estadístico del momento para
ofrecer respuestas válidas a las nuevas preguntas. A partir del tercer período se advierte en
Ibero América el inicio del reencuentro entre la teoría social, la metodología y la Estadística. Se
vuelve así a la articulación inicial pero en un contexto en que su legitimidad es disputada por los
métodos cualitativos.18
El avance tecnológico hizo cada vez más fácil la aplicación del análisis estadístico. Para
obtener resultados basta con tener un problema bien definido, disponer de información mínima
respecto a los modelos estadísticos disponibles, los datos pertinentes, la máquina y los
programas adecuados,. La interpretación es harina de otro costal pues requiere la concurrencia
de conocimiento estadístico y de la disciplina en cuestión. Lo que sí es destacable es que esta
labor se puede realizar ¡sin necesidad de gastar mucho tiempo en el estudio de la Estadística!
En cuanto a la docencia se abren dos caminos. Uno consiste en entregar los
conocimientos estadísticos mínimos necesarios para aprender a interpretar las salidas de las
computadoras. El otro, el tradicional, recorre la trayectoria que une a la estadística descriptiva
con las técnicas modernas de análisis multivariado, pasando por el análisis de asociación, el
muestreo, la inferencia estadística, análisis de varianza y regresión lineal.
La experiencia muestra que el primero de estos caminos tiene el inconveniente de que el
investigador social, que sólo dispone de dicha formación estadística, suele sufrir serias
limitaciones para incorporar los avances de la técnica, cuestión que no ocurre con quienes
tienen una formación estadística más sólida. Pero hay claras diferencias en el tiempo que se
debe invertir para proporcionar una u otra formación. Para enseñar a leer salidas de
computadoras bastan dos o tres semestres mientras que una formación más estructurada,
además de demandar mayor formación matemática, suele requerir cinco o seis semestres
académicos.
No es fácil llegar a un balance entre tiempo y profundidad del conocimiento estadístico
para científicos sociales. En el futuro próximo, en la medida que se intensifique la demanda
estudiantil por este tipo de conocimiento, habrá que aprovechar experiencias desarrolladas en
el extranjero y ensayar formas creativas de enseñanza que permitan dar a nuestros estudiantes
buena formación estadística, en poco tiempo, y estrechamente ligada a las preocupaciones
académicas que surgen de la reflexión problematizada de la evolución de nuestras realidades
sociales.
18
F. Cortés hizo un análisis sistemático de las discusiones epistemológicas entre las investigaciones cualitativas
y cuantitativas. (Cortés, 2000) El mismo autor estudia los procesos de generalización en las investigaciones
estadísticas, experimentales y en los estudios cualitativos (Cortés, Escobar, & Gonzalez de la Rocha, 2008)

Historia

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Historia

Cargado por

Copyright:

Formatos disponibles

Portada:

© Fernando Cortés, Rosa María Rubalcava y Tabaré Fernández

Impreso en Baferil S.A.

2|Estadística Social Básica

Universsidad de la República (UDELAR) – Facultad de Cienciass Sociales (FFCS) –

3|Estadística Social Básica

Prólogo a la Segunda Edición...................................................................................................... 9

5|Estadística Social Básica

6|Estadística Social Básica

7|Estadística Social Básica

8|Estadística Social Básica

9|Estadística Social Básica

Fernando Cortés, Rosa María Rubalcava y Tabaré Fernández

México, D.F. y Rivera, Uruguay, julio de 2014

I.1. La investigación y su geometría helicoidal

La definición de “proceso”, proporcionada por el Diccionario de la Real Academia Española5, con

I.2. Algunas grandes tareas de la Estadística y su agrupamiento en dos ramas

En el marco epistemológico que hemos resumido apretadamente en el anterior apartado deben

Contribución a la formulación de proposiciones empíricas. Un punto a destacar del proceso

La selección de observaciones. Si la investigación no accede a la realidad ni puede someter a

El resumen. La Estadística proporciona instrumentos, procedimientos y convenciones que son

La estimación de la hipótesis. El “test” de hipótesis tradicional compara la distribución de los

Estas grandes tareas definidas en forma general pueden agruparse (didácticamente se

I.3. Requerimientos a la Estadística y desarrollo de instrumentos

La primera etapa responde al surgimiento de la Sociología y la Ciencia Política como disciplinas

También podría gustarte