Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El Análisis de Datos y Su Relación Con Otras Materias
El Análisis de Datos y Su Relación Con Otras Materias
1.- Introducción
2
Precisamente las herramientas metodológicas, que pueden trabajar sobre
datos “con un cierto error”, son las que constituyen el cuerpo de conocimientos de
la Estadística.
La inestabilidad, en el sentido que estamos empleando aquí, se conoce
habitualmente como fenómeno aleatorio o de azar, en contraposición a los
fenómenos causales o deterministas. Escuder (1987) define un fenómeno causal
o determinista como aquel que se produce siempre como consecuencia de unas
causas determinadas, el resultado es siempre el mismo y, por tanto, se puede
anticipar el efecto. Un fenómeno aleatorio es, por otro lado, aquel en el que con
unos mismos antecedentes no se puede pronosticar fehacientemente el resultado
final; es decir, existen varios efectos posibles. Ante fenómenos de este tipo, o
más correctamente como afirman Pardo y San Martín (1994), en situaciones
aleatorias . . . es necesario recurrir al Análisis de Datos (procedimientos
proporcionados por la Estadística) para poder extraer conclusiones fiables.
3
Dedicaremos los siguientes apartados a revisar y, en su caso, presentar,
diferentes materias metodológicas que se encadenan a lo largo del proceso de
investigación que llevamos a cabo cuando nos enfrentamos a este tipo de
problemas (situaciones marcadas por un cierto azar) , resaltanto aquellos aspectos
de las mismas que inciden en el Análisis de Datos.
4
La Estadística y el Análisis de Datos se basan en modelos provenientes del
campo de las matemáticas en general pero, como hemos dicho, son modelos que
pueden recoger el concepto de inexactitud o aleatoriedad (desconocimiento de una
parte), tales modelos, que se denominan “modelos estocásticos”, son los que
presentan la característica de ofrecer una representación “no exacta” de la
realidad, pero que permite comprender y valorar las explicaciones que damos de
esa realidad cambiante de forma idónea, útil y acompañada de un grado de
certeza.
Cuando una hipótesis científica se puede transformar en una expresión
matemática-relacional (modelo matemático) y toda vez que sabemos cual de los
muchos modelos existentes es el que más se “ajusta” (se parece) a los datos
(observaciones) de los que disponemos, nuestro proceso de investigación estará ya
claramente guiado hacia su objetivo último de aportar explicaciones y
predicciones del fenómeno en estudio. Ver ejemplo 1.1
5
En la tabla se presentan los resultados de un estudio en que se medía el incremento de resistencia
de la piel (en ohmios) como respuesta a un determinado estímulo relajante.
Intervalo Frecuencia
0-40 1
41-80 6
121-160 15
161-200 23
201-240 33
241-280 25
281-320 17
321-360 4
361-400 1
Estamos interesados en conocer qué modelo de probabilidad utilizar para estudiar este fenómeno.
Recordemos algunos de estos modelos de probabilidad más habituales en las Ciencias Sociales
Realizamos la representación
NORMAL gráfica de
CHInustros datos
CUADRADO F DE SNEDECOR
35
30
25
20
15
10
0
1
NORMAL
de unos datosCHI CUADRADO
a un modelo deF DE SNEDECOR
Ejemplo1.1: Ajuste empíricos probabilidad teórico
6
A la vista del ejemplo anterior podemos plantearnos preguntas relativas a
cómo hemos llegado hasta este momento de buscar el modelo de probabilidad que
mejor representa a nuestros datos y, cuya finalidad es explicar el fenómeno que
estamos estudiando, indicándonos con qué restricciones podemos analizar los
datos que tenemos para delimitar la validez de nuestra suposición o hipótesis (no
debemos olvidar que todo procedimiento matemático exige el cumplimiento de
ciertas restricciones).
Pensemos que nuestro investigador hipotético está interesado en conocer
si escuchar la novena sinfonía de Beethoven releja a las personas. Para estudiar
esta cuestión ha tenido que tomar un conjunto de decisiones tales como ¿Cuántas
personas deben participar en esta experiencia para poder decidir si la novena
sinfonía de Beethoven relaja o no?; ¿Cómo vamos a medir la relajación?; ¿Qué
características presentan los números que obtenemos al evaluar la relajación?;
¿Hay otras variables que pueden hacer variar la relajación de las personas, además
de la música que están escuchando en ese momento determinado cuando les
valoramos si están relajados?
Para responder a todas estas cuestiones de forma lógica y replicable (es
decir que él mismo u otro investigador puedan repetir la experiencia) nuestro
investigador debe diseñar un plan sistemático, en el que lo primero es explicitar
de forma muy clara la pregunta que intenta responder ya que ésta será
determinante de todo el proceso que está iniciando. Una vez formulada la
pregunta (hipótesis inicial y visto, en su caso, lo que otros investigadores han
hecho ante una pregunta similar) deberá seleccionar las variables de interés
(además de la novena sinfonía de Beethoven deberá decidir cuánto tiempo se
escucha, cómo vamos a medir la relajación, con qué compararemos si ha
aumentado o no la relajación, entre los mismos o entre diferentes personas del
experimento); además deberá determinar cuantas personas son necesarias en la
experiencia para que su conclusión sea válida para todos aquellos que son
similares a los que participan en la experiencia (por ejemplo pueden ser adultos o
niños); y mediante qué procedimientos controlará aquellas otras variables, que
siendo parte de la situación, no desea considerar en su trabajo (sea porque no son
objeto de interés o porque podría n “contaminar” los resultados).
Todas estas cuestiones (y algunas más) son las que se deben prever y sus
respuestas constituyen el Plan o Diseño de la Investigación. Dado que el diseño es
el conductor del proceso de investigación y el Análisis de Datos es la herramienta
que va a permitir dar las respuestas, en las páginas siguientes vamos a intentar ir
delimitando cómo cada respuesta a las necesidades del diseño se responden desde
el Análisis de Datos.
En la figura 1 hemos intentado esquematizar todo este proceso que hemos
descrito, destacándose mediante el sombreado de sus cuadros, aquella parte de la
7
metodología cuyo estudio es el objetivo fundamental del Análisis de Datos.
Además, la figura pretende mostrar, también, la íntima relación que se establece
entre los conocimientos que, aunque se estudian en otras materias, conforman la
metodología de investigación en el ámbito que nos ocupa.
8
3.- El Diseño y el Análisis de Datos
Dado que la decisión relativa al tema de investigación o de trabajo es una
cuestión que depende o bien de la creatividad e intereses del investigador o del
cliente, no entraremos en tales cuestiones centrándonos en exponer aquí aquellas
fases del Diseño en las que, los diferentes procedimientos que aportan las distintas
técnicas que se engloban bajo el rotulo de Análisis de Datos intervienen.
En primer lugar y toda vez que sabemos sobre qué tema vamos a trabajar y
hemos analizado el “estado de la cuestión” y establecido el modelo relacional
derivado de las hipótesis de trabajo, comienza el trabajo en el que ya están
implicadas cuestiones cuya resolución no sólo va a ser decisiva y determinante a
la hora de ejecutar los análisis de datos que necesitemos para asignar grados de
certeza a nuestras conclusiones, sino que incluso están intrínsecamente unidas a él
constituyendo, para una gran mayoría de autores, parte de la materia constitutiva
del Análisis de Datos (nos referimos al muestreo y a algunos aspectos implicados
en la construcción de instrumentos de recogida de los datos empíricos, los tipos de
variables implicadas y los problemas de control, todas ellas cuestiones que
agruparemos como Plan de recogida de Datos).
Ya hemos dicho que los datos constituyen la materia prima con que
hemos de trabajar en las “ciencias empíricas”, también hemos dicho que esos
datos no son “exactos” sino que, por muy diferentes razones, se ven afectado por
un grado de “error”, todo ello supone que, para lograr que los datos estén lo
menos posible afectados de error, debemos ser especialmente cuidadosos a la hora
de determinar, dónde, cuántos y cómo deben obtenerse.
9
Cuadro 2
Tipos de validez
10
tratarse de una situación artificial la definición y la direccionalidad de
antecedentes y consecuentes (asimetría de la relación que se establece entre
antecedentes y consecuentes) 1 está garantizada por llevarla a cabo el propio
investigador que “domina la situación a través de su intervención”. En el polo
opuesto, naturalidad, las investigaciones producen resultados de escasa validez
interna, no pudiéndose establecer causalidad ante la inexistencia de control que
imposibilita el establecimiento de antecedente y consecuentes, por lo que tan
sólo se puede hablar en términos de grados de covariación (relación simétrica) en
el sentido de variación conjunta. En compensación estas situaciones aportan a la
investigación un alta grado de validez ecológica.
En la figura 2 se presentan diferentes diseños de investigación en función
del grado de control ejercido sobre las variables implicadas en el estudio.
Artificialidad Naturalidad
Ciencias Sociales y de la Salud, debe entenderse en el sentido del papel que juegan las variables: Así una
relación se define como Simétrica o Asimétrica..
Relación Simétrica: A ? B indica que ambos fenómenos comparten algo en común y uno influye
sobre el otro y viceversa.
Relación Asimétrica: A? B indica que uno de los dos fenómenos tiene un papel explicativo sobre el
otro (A influye en B) y NO HAY INFORMACIÓN DE QUE ESTO OCURRE AL REVÉS.
11
innecesario) trabajar con el total de sujetos a los que puede referirse nuestra
investigación o trabajo. Dentro del Análisis de Datos se suele estudiar las
cuestiones más relevantes del muestreo y ello motivado por la gran importancia
que la determinación del tamaño muestral, así como el proceso de selección de los
elementos que la componen (extracción de los sujetos de la población para
constituir la muestra) tiene desde la perspectiva de la Validez.
Desde esta consideración el tamaño de la muestra y la forma de selección
afectan directamente a la Validez externa (posibilidad de generalizar los
resultados a otros sujetos, lo cual hace referencia a la representatividad entendida
ésta en el sentido de garantizar que la muestra reproduzca fehacientemente a la
población a la que representa y a la Validez de conclusión estadística (en el
sentido de precisión de las estimaciones y Valoración de la relevancia de los
resultados, o en otros términos potencia y robustez).
C.- Cómo obtener los datos:
En general cuando hablamos de datos nos referimos a “números” que
representan magnitudes o cantidades de las manifestaciones externas del
fenómeno que estamos estudiando. En primer lugar aclarar que cuando hablamos
de obtener “números” que representen características de “algo”, estamos hablando
de un proceso de medición. Es obvio que las características que queremos medir
se presentan en distintas modalidades o cantidades en los sujetos, de ahí que
empleemos el término variables. Por otra parte es importante recordar también
que tales magnitudes pueden ser características de pertenencia a una determinada
clase (ser rubio o moreno, ser europeo o americano, ser español, francés, ingles,
ruso, alemán etc.) o incluso pueden ser cantidades numéricas (pesar 50; 56; 89
Kg.; tener 12; 13,6; 14 milímetros de mercurio por centímetro cuadrado de
presión sanguínea).
El proceso de medición consiste en asignar números a estas características
de tal forma y modo que, los números asignados representen de forma biunívoca a
las características y sus variaciones.
En términos de validez, el proceso de selección de variables y las medidas
adecuadas corresponde a la Validez de constructo.
Las variables pueden clasificarse atendiendo a diferentes criterios,
clasificaciones que vamos a comentar a continuación.
Atendiendo al papel que juegan en el contexto del Diseño de
Investigación, llamamos variable independientes o predictoras a aquellas de las
que vamos a observar el efecto de sus variaciones sobre otras que denominamos
variables dependientes o criterio, existen además otras cuyo interés por ellas se
centra en evitar posibles confusiones, debidas a su participación indeseada en los
resultados (variables extrañas). Así, desde la perspectiva del diseño las variables
se clasifican en:
12
Explicativas Independiente o Predictora
Dependiente o Criterio
Extrañas Controladas
No controladas (aleatorizadas o perturbadoras)
13
Cuadro 3
Según que las variables hayan sido medidas con una u otra escala se dice
que son: a) nominales o categóricas; b) ordinales; o c) cuantitativas. Se consideran
variables cualitativas las medidas mediante escalas nominales o mediante escalas
ordinales, mientras que las medidas en escalas de intervalo o en escalas de razón
se consideran variables cuantitativas (ver figura 4).
14
Categóricas/nominales Dicotómicas
Cualitativas Politómicas
Ordinales Ordinales
Cuantitativas Continuas
Discretas
El control.
En general se puede decir que el objetivo del control es maximizar la
validez de la investigación. Aunque ya he mos mencionado, al hablar del “dónde”
se realiza la investigación cómo el control por antonomasia es aquel que se ejerce
en una situación “artificial” en la que es el investigador el que dirige e intervine el
proceso de recogida de datos, existen situaciones en las que, independientemente
del tipo de relación (causal o no) que se busque en el estudio, no siempre es
posible elaborar diseños que consigan aislar, de entre todas las variables que
puedan intervenir, aquellas que son objeto de su interés.
Dos son las formas de control de las variables extrañas (es decir aquellas
que son conocidas pero que el investigador desea dejar fuera de su modelo
explicativo): Control experimental y el Control Estadístico.
El control experimental es tratado ampliamente en la materia de Diseños
de Investigación Avanzados, por lo que no nos detendremos en él aquí y valga
como idea central el que cuanto menor sea el control experimental ejercido en un
estudio más importante será buscar procedimientos que permitan maximizar la
validez.
Presentaremos el concepto de control estadístico ya que, este tipo de
control se lleva a cabo mediante técnicas estadística que estudiaremos en esta
materia, y es particularmente importante cuando se establecen relaciones
asimétricas entre dos fenómenos A? B y el fenómeno B engloba, a su vez,
variables (que todas ellas afectan a A) y que a su vez están también relacionadas
entre sí (Simétrica o asimétricamente).
15
Control Estadístico
16
porciones representadas como A+B”, donde la porción B del gráfico 2 representa
el espacio común (varianza común) entre X1 y X2 .
Tal como vemos en el gráfico 2 y su tabla, y recordando el concepto de
correlación y varianza explicada, cada índice de correlación al cuadrado
representa el área (varianza común) que comparten las variables.
El gráfico 3 y su tabla muestran el efecto de X1 sobre Y, que es el efecto
que queríamos estudiar y cuyo valor lo hemos determinado mediante el cálculo de
Sr2 yx1, que es un estadístico, es decir hemos controlado (eliminado) por medio de
un procedimiento estadístico todo lo que X2 contamina la relación pura ente Y y
X1 .
El gráfico 4 y su tabla muestra lo mismo para conocer la contribución de
X2 hacia Y, libre del efecto de X1 de forma similar a la anterior.
Y X2
E C Porción: A+B+C
17
Hasta aquí hemos visto cómo para la obtención de unos buenos datos
debemos guiarnos por un plan (diseño) cuyo objeto es conducirnos hacia una
correcta selección de la técnica de Análisis de Datos, la cual, basandose
precisamente en al garantía que ofrece el diseño, nos permita concluir con
objetividad y validez sobre nuestras hipótesis científicas, siempre con un gardo de
certeza, que no certeza absoluta.
Obtenida la materia prima (los datos obtenidos siguiendo el plan de
diseño) procederemos ahora a analizarla.
18
Cuadro 4
Algunos conceptos estadísticos básicos omnipresentes
• Los datos de las investigaciones pueden ser registrados de diversas formas, pero al
final se ordenan en tablas donde las filas representan los sujetos, las columnas las
variables y las celdas los valores concretos obtenidos por los sujetos en las
variables.
• Las variables cuantitativas pueden representarse, de forma gráfica, mediante
Diagrama de barras, Histograma, Polígono de frecuencias, Diagrama de tallo y
hojas y Diagrama de caja
• Las variables categóricas pueden representarse, de forma gráfica, mediante
Diagrama de rectángulos y Diagrama de sectores
• La función principal de estas representaciones es ofrecer una información global y
resumida de los datos registrados.
Probabilidad
o Función de probabilidad
o Función de distribución
o Modelos de distribución de probabilidad
§ Distribución normal
§ Distribución Chi cuadrado
§ Distribución T de Student
§ Distribución F de Snedecor
§ Distribución de Bernuilli
§ Distribución Binomial
§ Distribución de Poisson
19
Tras todo lo anterior, el investigador debe asegurarse que los datos de los
que dispone, son coherentes, se ajustan al modelo matemático probabilístico
que va a servirle de patrón sobre el que basar las conclusiones generales que
pretende lograr; además debe validar, comprobar cómo se comporta el modelo
propuesto cuando se le “viste” con los datos obtenidos mediante el proceso
seguido hasta ahora. Algunas de las técnicas de Análisis de Datos (las más
habituales) que llevan a cabo esta tarea son precisamente la materia del curso
Análisis de Datos y Modelos Estadísticos.
Finalmente conviene aclarar que, siguiendo el hilo de esta presentación del
Análisis de Datos, nuestro investigador, casi ha concluido su trabajo, falta sólo
darle al producto obtenido la apariencia adecuada y exprimir al máximo el
resultado de este largo proceso, se trata de formular conclusiones, en relación a
las variables estudiadas, que describan, expliquen y predigan (en la medida de
lo posible) el comportamiento de los fenómenos que despertaron su curiosidad al
comienzo de su investigación.
Y por último el estudio debe ser comunicado a través de un informe a la
comunidad científica, o al cliente que lo haya solicitado; este informe debe ser lo
suficientemente claro e incluir la información necesaria para permitir, a
investigadores que trabajan en esa área, el estudio, la crítica y la posible
replicación de la investigación, o en su caso si es un trabajo para un cliente,
responder a la pregunta que le hayan hecho.
20