Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Docente:
Pablo Andrés Salgado
“El pensamiento estadístico será algún día tan necesario para el ciudadano
competente como la capacidad de leer o escribir”
H. G. Wells
Tabla de contenido
1. ¿Qué datos recolectar? ................................................................................................................ 3
2. Variable: ....................................................................................................................................... 4
2.1. Variable aleatoria ...................................................................................................................... 4
2.2. Propiedades de las variables: .................................................................................................. 5
2.3. Formas de clasificación y tipos de variables ............................................................................ 6
2.3.1. Según las dimensiones: ........................................................................................................ 6
2.3.2. Según la función que cumplan en la hipótesis: .................................................................... 8
2.3.3. Según la pregunta que responde en el estudio .................................................................... 8
2.3.4. Variables universales ............................................................................................................ 9
2.3.5. Según la forma de medir (nivel de medición): .................................................................... 10
2.3.5.1. Variables cualitativas: ...................................................................................................... 10
2.3.5.1.1. Escala nominal:............................................................................................................ 11
2.3.5.1.2. Escala ordinal .............................................................................................................. 12
2.3.5.1.3. Variables cuantitativas: ................................................................................................ 16
3. Recolección de los datos ........................................................................................................... 18
3.1. Fuentes de recolección de datos ............................................................................................ 19
3.2. Formas de recolección datos ................................................................................................. 20
4. Organización y presentación de datos ....................................................................................... 20
4.1. Matriz de datos ....................................................................................................................... 20
4.1.1. ¿Por qué codificar? ............................................................................................................. 23
4.2. Operacionalización de las Variables ...................................................................................... 24
5. Elección del tipo de análisis estadístico ..................................................................................... 27
5.1. Estudio descriptivo, correspondiente a la estadística descriptiva .......................................... 27
5.2. Estudio analítico, correspondiente a la estadística inferencial o inductiva ............................ 28
6. Procesamiento estadístico de un archivo de datos ................................................................... 28
Referencias Bibliográficas..................................................................................................................... 34
1
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Objetivos de aprendizaje
2
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
1. ¿Qué datos recolectar?
Una vez que el planteo de la investigación ya está definido, la metodología aplicada es coherente y la
revisión del marco teórico permite tener una base conceptual sólida, es necesario someter a prueba la
hipótesis formulada a fin de responder a la pregunta de investigación; y/o cumplir con los objetivos
definidos. Para ello, se requiere seleccionar las características o variables que sean susceptibles de
ser evaluadas empíricamente. Este procedimiento de medición de las variables se denomina
recolección de datos y es indispensable en la práctica científica.
Los datos de investigación son aquellos materiales generados o recolectados durante las primeras
etapas en que transcurre una investigación (fuentes de datos primarios) o también recolectados
previamente (fuente de datos secundarios), siempre que cumplan con los requisitos de validez y
confiabilidad de las mediciones.
Los datos de la investigación son observaciones, hechos o experiencias en que se basa el argumento,
la teoría o la prueba. Los datos pueden ser numéricos, descriptivos o visuales. Los datos pueden ser
en estado bruto o analizado, pueden ser experimentales u observacionales. Los datos incluyen:
cuadernos de laboratorio, cuadernos de campo, datos de investigación primaria (incluidos los datos en
papel o en soporte informático), cuestionarios, cintas de audio, videos, desarrollo de modelos,
fotografías, películas, y las comprobaciones y las respuestas de la prueba. En la información sobre la
procedencia de los datos también se podría incluir: el cómo, cuándo, dónde se recogió y con qué (por
ejemplo, instrumentos). El código de software utilizado para generar, comentar o analizar los datos
también pueden ser considerados datos.
Los instrumentos de recolección de datos (herramientas y técnicas utilizadas) deben cumplir con tres
requisitos: confiabilidad, validez y objetividad.
Por otra parte, la gestión de los datos de manera eficaz a través de su ciclo de vida es muy importante
para el éxito del proyecto de investigación. Una gestión de datos adecuada proporciona un mayor
impacto de la investigación optimizando la visibilidad de los datos producidos, mejor accesibilidad a los
mismos, asegurando la calidad e integridad durante su ciclo de vida, más transparencia para la
validación de los resultados de la investigación reflejados en las publicaciones, la reutilización de los
datos sin necesidad de reproducir la investigación y el retorno de la inversión pública cumpliendo con
los requerimientos de los organismos financiadores de la investigación.
3
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
2. Variable:
Una variable se conoce como aquella que se caracteriza precisamente porque varía o que está sujeto
a cambios.
Una variable estadística es entonces un conjunto de valores que miden o evalúan características de la
población sobre la que se realizan estudios estadísticos.
Una variable es una propiedad, característica, cualidad o atributo que puede darse en ciertos sujetos
o pueden darse en grados o modalidades diferentes.
En otras palabras, las variables son aquellas características de los individuos o unidades de análisis
de una determinada población que pueden ser establecidas por observación y mostrar diferentes
valores o categorías de una unidad de observación a otra. Se trata de conceptos clasificatorios
centrales en los estudios, que permiten ubicar a los individuos en categorías o clases y son susceptibles
de identificación y medición.
Ejemplo: sexo, edad, nivel educativo alcanzado, peso, número de hijos, ingresos
mensuales, estado civil, ingreso per cápita familiar, etcétera.
El comportamiento de las variables, es decir, lo que influye en los datos numéricos, las conductas o
las opiniones de las personas, no suele generarse de forma aislado. Podemos, entender, por ejemplo,
que la demanda de servicios sociales de atención a la mujer puede depender de su situación
ocupacional, de su situación convivencial, de sus ingresos, de su edad, etc. En este caso y a efectos
de una investigación social, diríamos que el grado de demanda de servicios de atención a la mujer es
una variable dependiente. Su evolución está influenciada por el comportamiento de todas las variables
que se han mencionado, que actuarían como variables independientes.
4
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Los valores o categorías posibles de una variable aleatoria pueden representar los posibles resultados
de un experimento aún no realizado, o los posibles valores de una cantidad cuyo valor actualmente
existente.
Como ejemplo, se define un experimento aleatorio como medir el peso del recién nacido. La variable
estadística elegida es “Peso del recién nacido”. Como el experimento es aleatorio (selecciono a las
unidades de análisis al azar), la variable es aleatoria y como se seleccionó esta variable para evaluar
en el experimento, es una variable estadística, que como se describirá después se podrá clasificar
según en nivel de medición a partir de la forma en que se evaluó a esta variable (operacionalización
de la medición). El peso del recién nacido se podrá medir en gramos, entonces la variable estadística
es cuantitativa con valores reales continuos (toma cualquier valor entre límites máximos y mínimos).
Luego de terminado el experimento podría describir la distribución de probabilidades de los pesos de
los recién nacidos. También se podría operacionalizar a la variable en categorías, teniendo en cuenta
alguna otra condición, como por ejemplo el riesgo perinatal y/o en nivel de complejidad de atención
que necesita el recién nacido según el peso al nacer. Podría clasificarse (operacionalizar, ver más
adelante), en extremo bajo peso (< 1.000 gr), muy bajo peso (1.000 a < 1.500 gr), bajo peso (1.500 a
< de 2.500 gr), normopeso (2500 a < 4.000gr) y macrosomía (4.000 gr o más).
Exhaustivas:
Los valores o las categorías de las variables deben abarcar todos los casos que puedan presentarse,
de modo que ninguna unidad de análisis sea dejada de lado por no poder ubicarse en alguna
alternativa. El que una escala de una variable sea exhaustiva significa que los grupos, clases o
categorías que se formen o definan, deben dar la posibilidad de ubicar a todas las unidades de análisis
u observaciones que intervienen en el estudio o investigación.
Ejemplo: Una escala que dividiera a las piezas dentales en incisivos, caninos y molares no
sería exhaustiva, porque no permitiría la inclusión de los premolares.
Mutuamente Excluyentes:
El que una escala sea mutuamente excluyente quiere decir que los grupos, clases o categorías que se
formen no deben dejar dudas sobre donde incluir a cada unidad de análisis u observación, por lo que
en el proceso de clasificación es necesario definirlo con la mayor precisión posibles y los límites de
cada categoría o escala de valores deben ser claros.
5
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Una unidad de análisis debe ubicarse en una y solo una categoría en una variable cualitativa o tomar
un solo valor en caso de las variables cuantitativas. No debe darse la posibilidad de inclusión en dos
categorías o valores distintos. Esto significa que la unidad de análisis tiene que poder ubicarse sólo en
una de las categorías en variables cualitativas o tomar un valor en el caso de las cuantitativas.
La medición es vital en el análisis estadístico. El análisis científico implica identificar los fenómenos en
estudio para poder describir su evolución cualitativa, y luego, la medición de esos fenómenos,
proporcionando así la característica de magnitud para su conocimiento y previsión.
En tanto las hipótesis estadísticas se construyen a partir de las variables, resulta clave tener presente
las diferencias existentes entre los diversos tipos, ya que las mismas condicionan la clase de estudio,
la descripción (tabla o gráfico) y la prueba estadística y que será posible realizar.
6
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
1.2. Variables compuestas: Una variable basada en dos o más variables, dimensiones e
indicadores, recibe el nombre de variable "compuesta" o “compleja”.
Ejemplos:
Como parte del proceso de clarificar cada una de las variables sometidas a estudio, debe
especificarse su escala de medición.
7
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
2.3.2. Según la función que cumplan en la hipótesis:
De acuerdo con la relación que guardan entre sí, las variables se clasifican en independientes o
variables explicativas y dependientes o variables respuesta. Cuando se supone que una variable
produce un cambio en otra, se considera a la primera como independiente (o causa) y a la segunda
como dependiente (o efecto). Cabe resaltar que esta relación es contextual, es decir, obedece al
modelo teórico planteado.
Por ejemplo, si un investigador desea conocer la efectividad de un nuevo tratamiento para
prevenir una enfermedad, para ello se seleccionarán dos grupos independientes. A uno se le
aplicará un tratamiento (casos) y otro al que no se le aplicará nada en absoluto (controles).
Para que el experimento tenga validez ambos grupos deben estar sometidos a las mismas
condiciones para evitar que no aparezcan influencias de otras variables intervinientes (no
controladas).
En este caso la variable independiente corresponde a la aplicación o no del tratamiento y la
dependiente a la aparición o no de la enfermedad.
Ejemplo
8
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Variables dependientes e independientes
⇨ Variable dependiente: Es aquella que se busca comprender, explicar o predecir y cuyos valores
dependen de los que tome/n otra/s variable/s.
Edad: Siempre que desee realizar una investigación debe considerar la descripción de esta
variable.
Sexo: Al igual que la edad, el sexo es otra variable que se debe considerar. Casi todas las
enfermedades ocurren de forma diferente de acuerdo al sexo de las personas.
Grupo Étnico y Cultural: El grupo étnico y cultural se refiere al conjunto de personas que
guardan similitud respecto de las costumbres (religión, historia, hábitos dietéticos, etc.) y
también a la herencia biológica.
9
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
2.3.5. Según la forma de medir (nivel de medición):
La escala de medición de una variable tiene consecuencias en la forma de presentación de la
información y resumen estadístico (tablas y gráficos). Asimismo, dicha escala, el grado de exactitud y
de precisión en la medición de las variables determinan los métodos estadísticos que se van a aplicar
para analizar los datos.
Por tanto, antes de comenzar un trabajo estadístico, es importante definir las características que se
van a medir y la escala que se va a utilizar.
Una vez que se han establecido las variables a analizar, éstas deben ser definidas de manera operativa
(operacionalización), especificando el método y la escala con las cuales se llevará a cabo su medición.
10
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Los niveles de medición de las variables cualitativas pueden ser nominales y ordinales.
Se denominan variables cualitativas dicotómicas cuando sólo pueden tomar dos categorías o
atributos posibles, como “sí” o “no”, “presencia” o” ausencia”.
Algunos ejemplos son: i) sexo (mujer o varón), ii) presencia de una enfermedad (enfermo o
sano) , repitencia escolar(si o no), iii) Necesidades básicas insatisfechas (si o no), iv) Obito (si
o no).
Las variables cualitativas politómicas cuando se distinguen tres o más categorías.
Algunos ejemplos de estas últimas son: i) Sector de gestión educativo (público, privado y
cooperativa), ii) Pueblo originarios de pertenencia (Ngäbe, los Buglé, los Guna, los Emberá,
los Wounaan, los Bri bri, y los Naso Tjërdi), iii) Condición de actividad (ocupado, desocupado
e inactivo) ; iv) Afiliación en salud (Sólo sistema público, Sólo obra social, Sólo prepaga o
mutual vía obra social, Sólo plan de medicina prepaga por contratación voluntaria).
En este nivel de medición los valores no pueden ser sometidos a un criterio jerárquico, ya que los
atributos o categorías carecen de un orden inherente o son equivalentes entre sí.
Al utilizar la escala nominal, simplemente se cuantifica la cantidad de datos (frecuencia) que
corresponde a cada una de las categorías de la variable y se evalúa la que posee mayor frecuencia
(moda o modo).
La forma más sencilla de determinar si las observaciones se miden con una escala nominal es peguntar
si se clasifican o se colocan en categorías equivalentes.
Con este tipo de escalas se pueden hacer algunas operaciones estadísticas; por ejemplo contar
cuantos elementos hay en cada uno de los grupos formados y así se obtienen las frecuencias absolutas
por categoría o atributo.
Como estadístico descriptivo se pueden calcular frecuencias o porcentaje para cada atributo y ver cuál
es el grupo que tiene mayor frecuencia alcanzando el concepto de “Moda”.
También se obtienen algunas medidas de asociación/independencia cuando se relacionan variables
entre sí (tabla de contingencia o bivariadas).
Los gráficos más comunes para representar este nivel de medición son los de sectores o barras.
11
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
2.3.5.1.2. Escala ordinal
Se define a las variables cualitativas como ordinales cuando las categorías, atributos o valores que
adopta poseen un orden, secuencia o progresión natural esperable, surge a partir de la operación de
ordenamiento; en esta escala se habla de primero, segundo, tercero. No se sabe si quien obtiene el
primer puesto está cerca o lejos del segundo puesto. Los valores de la escala representan categorías
o grupos de pertenencia, con cierto orden asociado, pero no una cantidad mensurable. La distancia
entre puntos de la escala no es constante: no se puede determinar la distancia entre las categorías,
sólo es interpretable el orden entre sus valores.
Se aplica a aquellas variables en las que se puede establecer grados dentro de ella. Ejemplos: i) Nivel
educativo (Inicial, Primaria, Media, Universitarios y Postgrado), ii) Autopercepción del estado de salud:
(muy malo, malo, regular, bueno, muy bueno, excelente), iii) Intensidad de un dolor o afección (sin
dolor, poco, medio, fuerte, muy fuerte).
La escala ordinal permite establecer una relación de orden entre los datos que pertenecen a distintas
categorías, es decir, clasificarlos de acuerdo a su posición relativa respecto de otros, en función de
una variable determinada. No obstante, no es posible medir las distancias dentro de ese ordenamiento.
La medida estadística de tendencia central más apropiada para este tipo de escala es la mediana
además de la moda y también las medidas de posición como los cuartiles, quintiles, deciles o
percentiles. Los gráficos en general son diagramas de barras y no se deben usar gráficos circulares
o de sectores.
Las categorías de las escalas nominales y ordinales deben establecerse en forma objetiva, sin
utilizar criterios arbitrarios o que puedan llevar a confusión. Estos criterios deben estar claramente
estipulados, de tal forma que cualquier persona o equipo que investigue tenga la posibilidad de
repetir la clasificación (revisar operacionalización de las variables).
Dentro de las escalas ordinales se pueden incluir a algunos constructos, que aunque utilicen valores
numéricos, se deben tomar como escalas ordinales, dado que la distancia entre cada valor numérico
no es igual entre sí.
Para ilustrarlo, considérense las calificaciones APGAR, que es una prueba de evaluación del cuadro
de vitalidad de un recién nacido. Se toma al minuto del nacimiento y luego de 5 minutos.
Es una escala que toma valores de 0 a 10, los valores menores indican depresión de funciones
cardiorrespiratorias y neurológicas. Sin embargo, es probable que la diferencia entre una calificación
de 8 y una de 10 no sea de la misma magnitud que entre 4 y 6.
12
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Por esta razón este tipo de variables complejas, se comportan como una variable ordinal, más que
como una variable cuantitativa, por lo tanto se deben tratar como variables ordinales, esto no permitiría
realizar cálculos matemáticos y entre ello calcular el promedio y sus derivados (desvío estándar entre
otros).
En este caso el instrumento se debe aplicar al mismo paciente (intra sujeto) para poder comparar un
dato muy subjetivo
13
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Son tres dimensiones o parámetros de manera independiente: apertura ocular (1 a 4 puntos),
respuesta motora (1 a 6 puntos) y respuesta verbal (1 a 5 puntos).
Se suman los puntajes parciales de las tres dimensiones y se llega el puntaje final. Los puntajes
son 3 como mínimos y 15 como máximo.
Hay otros constructos que si son variables cuantitativas, como por ejemplo ingreso per cápita familiar
(unidad de análisis es el hogar) o Producto Bruto interno per cápita (unidad de análisis es el País). Hay
constructos complejos denominadas escalas Psicométricas en que los puntajes pueden ser tratados
como variables cuantitativas pero, es siempre recomendable evaluar la distribución de los valores para
decidir que tablas, gráficos y métodos estadísticos se van a aplicar.
Este tipo de escalas, inventarios, cuestionarios, que se construyen sumando la codificación de varias
variables ordinales en escala Likert (de 1 a 5 puntos generalmente) y obteniendo un puntaje final o
total, en muchas ocasiones se pueden tratar como si fueran variables cuantitativas (continuas o
discretas, según el caso).
Podemos denominar a estas escalas como de puntaje o scores para diferenciarlas de las variables
cuantitativas.
14
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Ejemplos de este tipo de variables complejas:
Escala de depresión de Beck, Mini-Mental State Examination, Índice Clínico de Demencia, Coeficiente
Intelectual, Escalas que miden la Atención, memoria, Escalas que miden la condición de un paciente
(Coma de Glasgow, Apache II) y muchos otros.
Para ampliar:
Las escalas psicométricas, tienen como objetivo establecer una relación de función entre
estímulos ambientales (físicos, sociales) y el comportamiento del individuo, al evaluar en qué
medida un determinado estímulo consigue imprimir respuestas sobre este. El estímulo se evalúa a
partir de un puntaje, construido, siendo validado y confiable a partir de metodologías específicas.
Estas escalas se pueden clasificar en: Test de Desarrollo, Test de Inteligencia, Test de Aptitudes
Específicas, Test de Conocimiento y Rendimiento, Test de Personalidad.
Ejemplo 1: Mini-Mental State Examination (MMSE) para la detección de la demencia en las personas
de 65 años o mayores.
https://www.cochrane.org/es/CD011145/DEMENTIA_mini-mental-state-examination-mmse-para-la-
deteccion-de-la-demencia-en-las-personas-de-65-anos-o
Importante:
Las categorías de las escalas nominales y ordinales deben poder establecerse en forma
objetiva.
No se puede utilizan criterios arbitrarios o que puedan llevar a confusión.
Estos criterios, deben ser claramente estipulados, de tal forma que cualquier persona
pueda repetir la clasificación.
15
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
2.3.5.1.3. Variables cuantitativas:
Son aquellas que se expresan mediante cantidades numéricas. La propiedad más importante que
presentan, a diferencia de las cualitativas, es que las distancias numéricas iguales representan
distancias empíricas equivalentes. Así es posible decir que, en las escalas de las variables
cuantitativas, algo que mide 4 es el doble de otro que mide 2 y que dos objetos a los que se han
asignado los números 5 y 10 están igualmente separados que otros dos a los que se han asignado los
números 10 y 15.
Ejemplos:
Número de pacientes.
Número de habitaciones.
Número de personas que viven en un hogar.
Cantidad de médicos.
Número de camas de una sala de internación.
Frecuencia cardíaca.
Nº de células por mm3
Generalmente tienen un tratamiento semejante a las variables cualitativas ordinales, con la diferencia
de que al ser valores numéricos, se pueden realizar operaciones matemáticas.
Esto permite que además de la moda y la mediana se puede calcular la media aritmética o el promedio
como sus derivados (varianza, desvío estándar y coeficiente de variación).
Los gráficos utilizados son los mismos que se usan para las variables cualitativas ordinales: gráficos
de barras.
Es la que puede adquirir cualquier valor dentro de un intervalo especificado, existiendo siempre algún
valor entre dos cualesquiera. Ejemplos de este tipo de variables son: edad de los alumnos de nivel
primario, peso y talla de los mismos. La escala de medición se caracteriza por una medida común y
constante que asigna un número real a todos los pares de objetos en un conjunto ordenado.
16
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Dado que toma a los números reales, se pueden calcular todas las medidas de tendencia central
(media, mediana y moda), de dispersión (desvío estándar, varianza, coeficiente de variación) y de
posición (cuartiles, deciles y percentiles).
Los gráficos más usados son: histogramas, diagramas de cajas y bigotes (Box Plot) y barra de errores.
A su vez, dentro de las variables cuantitativas continuas se diferencian las de cociente o razón, que
usan una escala de números donde cero quiere decir que la característica no existe, y las intervalares,
que no le atribuyen ese significado al punto cero.
Escala de razón: Corresponde al nivel de medición más completo. Tiene las mismas propiedades que
la escala intervalos, y además posee el cero absoluto. Aquí el valor cero no es arbitrario, pues
representa la ausencia total de la magnitud que se está midiendo. Con esta escala se puede realizar
cualquier operación lógica (ordenamiento, comparación) y aritmética. A iguales diferencias entre los
números asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de
estudio. Ejemplos: longitud, peso, distancia, ingresos, precios. Por ejemplo ingresos mensuales, en la
que quien gana $0 no posee ingresos, es decir, carece completamente del atributo analizado. De igual
forma, quien percibe $1000 al día gana el doble que quien gana $500 al día (escalas cuantitativas
continuas de cociente o razón).
Escala de intervalos: Esta escala representa magnitudes, con la propiedad de igualdad de la distancia
entre puntos de escala de la misma amplitud. Aquí puede establecerse orden entre sus valores,
hacerse comparaciones de igualdad, y medir la distancia existente entre cada valor de la escala. El
valor cero de la escala no es absoluto, sino un cero arbitrario: no refleja ausencia de la magnitud
medida, por lo que las operaciones aritméticas de multiplicación y división no son apropiadas. Cumple
con las propiedades de identidad, magnitud e igual distancia. La igual distancia entre puntos de la
escala significa que puede saberse cuántas unidades de más tiene una unidad de análisis comparada
con otra, con relación a cierta característica analizada. Por ejemplo, en la escala de temperatura
centígrada puede decirse que la distancia entre 25° y 30°C es la misma que la existente entre 20° y
25° C, pero no puede afirmarse que una temperatura de 40° C equivale al doble de 20° C en cuanto a
intensidad de calor se refiere, debido a la ausencia de cero absoluto.
17
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Muchas de las variables cuantitativas construidas por las Ciencias Psicológicas, Pedagógicas y
Sociales pertenecen a este tipo.
Los resultados de una investigación derivan del proceso de análisis e interpretación conjunta de los
datos y de las relaciones que se establezcan entre los mismos.
Una vez que seleccionamos el diseño de investigación apropiado y la muestra adecuada de acuerdo
con nuestro problema de estudio e hipótesis (si es que se establecieron), la siguiente etapa consiste
en recolectar los datos pertinentes sobre los atributos, conceptos o variables de las unidades de
muestreo/análisis o casos (participantes, grupos, fenómenos, procesos, organizaciones, etc.).
Recolectar los datos implica elaborar un plan detallado de procedimientos que nos conduzcan a
reunirlos con un propósito específico. Este plan incluye determinar:
18
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
1. ¿Cuáles son las fuentes de las que se obtendrán los datos? Van a ser proporcionados por
personas, se producirán de observaciones y registros, se encuentran en documentos, archivos,
bases de datos, etc.
2. ¿En dónde se localizan tales fuentes? Regularmente en la muestra seleccionada, pero es
indispensable definir con precisión.
3. ¿A través de qué medio o método vamos a recolectar los datos? Esta fase implica elegir uno
o varios medios y definir los procedimientos que utilizaremos en la recolección de los datos. El
método o métodos deben ser confiables, válidos y “objetivos”.
Una vez recolectados, ¿de qué forma vamos a prepararlos para que puedan analizarse y respondamos
al planteamiento del problema?
El plan se implementa para obtener los datos requeridos, no olvidemos que todos los atributos,
cualidades y variables deben ser medibles.
Fuentes secundarias o documentales, de las que se obtienen datos ya existentes y que son
elaboradas por otras personas o instituciones con fines diferentes a los planteados en la propia
investigación. Por ejemplo, las estadísticas del ministerio de educación o el censo nacional.
Fuentes primarias o de recolección directa, constituidas por el conjunto de datos obtenidos por
medio de diferentes métodos planeados y provocados por la persona o equipo que realiza la
investigación de acuerdo a los fines de su estudio.
Son los datos que son creadas para producir/recolectar información específica para monitorear o
evaluar un indicador o definida de antemano en un proyecto de investigación. La información es original
y se difunde por primera vez.
19
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
3.2. Formas de recolección datos
Entre las formas de recolección de datos se encuentran:
Los registros: Método sistemático, periódico, continuo y, en algunas ocasiones, permanente que
usualmente genera datos de tipo secundario.
Las encuestas: Método sistemático pero eventual, de corte transversal. En caso que sean elaboradas
ad hoc para una investigación, los datos obtenidos mediante encuestas constituyen una fuente primaria
de información, pero también pueden ser utilizados en otros estudios como fuente secundaria.
La observación: Abarca el uso de técnicas que van desde la simple observación a otro tipo de
mediciones que pueden realizarse tanto in vivo (medición de la presión arterial) como in vitro (en el
laboratorio). Esta forma de recolección provee generalmente una fuente primaria de información.
Esta simbiosis entre la estadística y la informática también impactó sobre el proceso de enseñanza-
aprendizaje, de modo tal que en los cursos de estadística actuales resulta un imperativo utilizar los
recursos que proveen las nuevas tecnologías.
Un tema central para poder realizar un análisis estadístico y obtener resultados mediante el uso de
paquetes estadísticos para el procesamiento de datos, es el diseño un archivo de datos que sea
compatible. La digitalización y construcción de este archivo es un aspecto importante del desarrollo
de una investigación.
Se denomina archivo de datos a un conjunto de datos relacionados entre sí, el cual se diseña,
construye y organiza con un propósito u objetivo específico. Si está bien diseñado, luego el programa
de base de datos nos permitirá, entre otras cosas, filtrar, ordenar, crear nuevas variables agrupando o
combinando y buscar casos con ciertas condiciones.
20
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
arreglo bidimensional en forma de filas y columnas en el que los datos son agrupados de la siguiente
forma:
Luego, el concepto fue parcialmente modificado por Samaja, quien propuso la incorporación de un
cuarto elemento a la tríada desarrollada por Galtung. A las unidades de análisis (UA), variables (V) y
categorías o valores (R), le sumó el indicador (I). Esencialmente, su aporte es que en el lugar de los
valores se encuentra un procedimiento de construcción de un valor denominado indicador (Samaja,
2004, Pp. 162).
Matriz de datos
21
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Matriz de datos en MS Excel:
Algunas cuestiones a tener en cuenta si la matriz de datos se arma un archivo de datos en Excel o en
una planilla de cálculo son:
No se deben dejar cálculos hechos a los costados o al final de la matriz de datos ni tampoco
gráficos.
Si se realizan cálculos, tablas o gráficos se deben ubicar en otra hoja del archivo.
No se tienen que unir celdas.
No se deben dejar filas o columnas vacías.
Cuando se diseña una matriz de datos, si no se tienen en cuenta los detalles explicitados
anteriormente a la hora de armar la matriz de datos, cuando se intente importarla por un
programa de estadística, lo hará con errores o el software no permitirá que se abra.
Por otra parte, previamente al armado de la matriz de datos, las variables deben estar
claramente definidas, convenientemente operacionalizadas y con el nivel de medición
(nominal, ordinal, numérica).
22
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
A continuación, se brinda como ejemplo de una matriz de datos en MS Excel un archivo con variables
educativas correspondiente al Instituto de Estadísticas Educativas de Guatemala (INE):
Como se observa, cada columna representa una variable, cuyo nombre se encuentra en la primera fila,
y en cada una de las filas subsiguientes se coloca una unidad de análisis o caso (alumno).
Otra cuestión importante que se puede ver en el ejemplo es que el nombre de las variables no tiene
caracteres especiales o espacios ni comienza con un carácter numérico. Por ejemplo, “Código de
municipio” se escribe como “Codigo_Municipio”.
Por otra parte, salvo “Edad” y “Fecha_Nac”, la mayoría de las variables son cualitativas y sus categorías
están definidas con números. Representar a una cualidad o categoría con un carácter numérico se
denomina codificación.
En este caso, las categorías de la variable cualitativa nominal dicotómica “Sexo” están
codificadas como 1=Mujer y 2= Hombre.
La variable cualitativa nominal politómica “Sector” está codificada como 1=Oficial; 2=Privado;
3=Municipal y 4= Cooperativa.
Los programas de estadística limitan el procesamiento de datos para las variables alfanuméricas
o cadena de caracteres.
Todo ingreso de datos en una base es codificado/numérico salvo Apellido y Nombre, Dirección,
Documento, Matrícula, que no son variables, sino que identifican el caso.
23
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Esquema que interrelaciona los conceptos unidad de
análisis, matriz de datos, variables y codificación:
24
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Es el proceso a través del cual el investigador explica en detalle la definición que adoptará de las
categorías y/o variables de estudio, tipos de valores (cuantitativos o cualitativos) que podrían asumir
las mismas y los cálculos que se tendrían que realizar para obtener los valores de las variables
cuantitativas.
Para explicar la operacionalización nos basaremos en el siguiente esquema, que describe en forma
esquemática el proceso:
Desde un punto de vista más técnico, operacionalizar significa identificar cuál es la variable, cuáles son
sus dimensiones y cuáles los indicadores y el índice (o, lo que es lo mismo, definirla teóricamente,
realmente y operacionalmente), ya que todo ello nos permitirá traducir la variable teórica en
propiedades observables y medibles, descendiendo cada vez más desde lo general a lo singular.
⇨ Definir la variable
⇨ Determinar la/s dimensión/es de la variable
⇨ Establecer los indicadores
⇨ Elaborar las escalas de medición
⇨ Indicar los ítems relacionados en el instrumento
Se denomina dimensiones a las facetas que permiten describir adecuadamente una variable. Por
ejemplo, para el caso de “inteligencia” es posible identificar al menos tres: la verbal, la manual y la
25
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
social. Estas subvariables nos acercan un poco más al plano empírico, a lo observable, permitiendo
concretizar una propiedad o característica que antes había sido definida sólo teóricamente.
Ejemplos: Tasa de repitencia, Tasa de sobreedad, tasa de analfabetismo. Al tener una única
dimensión, las variables simples se pueden operacionalizar con un sólo indicador.
En cambio, las variables complejas requieren un conjunto de indicadores, ya que poseen varias
dimensiones.
Si bien las dimensiones nos permiten acercarnos un poco más al plano empírico, todavía no nos
alcanzan para poder observar y medir conductas concretas. Así entonces, un indicador es una
propiedad manifiesta gracias a la cual podemos medir directamente una propiedad latente que nos
interesa (la variable teórica).
En última instancia los indicadores, así como las dimensiones, son también variables sólo que más
empíricas, pues también son susceptibles de variación.
Cuando se dispone de varias opciones para definir operacionalmente una variable, se debe elegir
aquella que sea más precisa, exacta y adecuada a su contexto, que proporcione mayor información y
capte mejor su esencia.
26
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Ejemplo: Índice de necesidad de tratamiento de caries (INTC)
El INTC (Bordoni N, 1992) , ha sido diseñado para establecer a nivel sanitario, el estado de salud- enfermedad,
así como la necesidad de tratamiento recomendado para su evolución y los recursos pertinentes.
Generalmente es el primer análisis elemental y fundamental que se realiza. Las primeras conclusiones
obtenidas en un análisis descriptivo, nos brindan una serie de medidas de tendencia central, medidas
de dispersión y frecuencias o porcentajes, para ver en qué medida los datos se agrupan, dispersan o
distribuyen en torno a un valor central.
27
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
En variables cualitativas se pueden calcular: frecuencias, %, moda, mediana, cuartiles. Gráficos
circulares, Gráficos de barras.
Comprende los métodos y procedimientos que por medio de la inducción determina propiedades de
una población estadística, a partir de una pequeña parte de la misma (muestra).
Es conveniente asignarle un número a cada una de las categorías que tiene la variable (codificación).
Esto facilita la carga de datos, ya que es menos probable equivocarse al ingresar un código numérico
que el nombre completo o abreviado de la categoría.
28
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Ejemplo:
Sexo: Femenino=1 Masculino=2
En el caso de las variables cualitativas nominales no hay una forma de seleccionar el código para cada
categoría, dado que no hay un ordenamiento intrínseco entre las categorías.
Muchas veces en el caso de nominales dicotómicas (presencia o ausencia) se elige “0” para ausencia
y “1” presencia. También se suelen ordenar los códigos según la frecuencia de aparición de las
categorías, en el caso que se sepa de antemano.
Para ejemplificar, se tomó una variable cualitativa nominal dicotómica como “Género del Encuestado”
(riesgo cardiovascular, no riesgo cardiovascular) y una variable cualitativa nominal politómica como
“Afiliación de salud”.
29
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Ejemplo: Procesamiento estadístico para variables
cualitativas nominales
En caso de variables cualitativas ordinales en las cuales hay un orden jerárquico entre las categorías
tendrá que respetarse este orden con los códigos.
Ejemplo:
Calidad pedagógica del docente:
1=malo, 2=regular, 3=bueno, 4=muy bueno, 5=excelente.
No se podría ordenar de otra forma.
30
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Ejemplo: Procesamiento estadístico para variables
cualitativas ordinales
En general no hay que hacer ningún cambio, se deberá definir con qué cantidad de decimales se
trabajará.
Por otra parte, las variables cuantitativas, por razones metodológicas o de objetivos, se pueden agrupar
en categorías (denominadas intervalos de clase), pasando a tener un nivel de medición variable
cualitativa ordinal o nominal dicotómica.
Ejemplo: Edad en grupo de edades cada 5 años. Mayores o menores de una edad determinada.
A pesar de que una variable cuantitativa ya se haya definido en el proyecto de investigación que se
agrupará para su tratamiento estadístico, no es conviene cargarlas en forma agrupada, ya que en
caso de necesitar el valor puntual no se podrá contar con el mismo.
31
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Los programas de estadística, con cierta facilidad, pueden recodificar o agrupar una variable
cuantitativa en una ordinal o en una nominal dicotómica.
Por otro lado, en el caso de la edad, es más conveniente cargar la fecha de nacimiento (siempre que
se pueda), de esta manera se podrán generar nuevas variables operando entre dos fechas, calculando
unidades de tiempo entre las mismas.
Un ejemplo de una variable cuantitativa discreta es el “Número de habitaciones por vivienda” y de una
variable cuantitativa continua, la “Edad del / la encuestado/a en años cumplidos”.
32
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Ejemplo: Operacionalización de variables y su construcción
33
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar
Referencias Bibliográficas
Galtung, J. (1971). Teoría y Métodos de la Investigación Social. Buenos Aires, Argentina: EUDEBA.
Hederich Martínez, C.; Martínez Bernal, J. & Rincón Camacho, L. (2014). Hacia una educación basada
en la evidencia. (Universidad Pedagógica Nacional, Ed.) Revista Colombiana de Educación
(66), 19-54. Recuperado de: https://www.redalyc.org/articulo.oa?id=413635257002
Hernández Sampieri, R.; Fernández Collado, C. & Baptista Lucio, M. P. (2014). Metodología de la
Investigación (Sexta ed.). México, México: McGRAW-HILL Education.
Salazar Pinto, C. y Del Castillo Galarza, S. (2017). Fundamentos básicos de estadística. Fundamentos
básicos de estadística (Primera ed.). Quito, Ecuador. Recuperado de:
http://www.dspace.uce.edu.ec/handle/25000/13720
Triola, M. F. (2009). Estadística (Décima ed.). (Pineda Ayala, L. E. Trad.) México, México: Pearson
Educación. Recuperado de: https://www.uv.mx/rmipe/files/2015/09/Estadistica.pdf
34
Autor: Pablo Salgado E-mail: cursos-estadistica@centroredes.org.ar