Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Para comprender mejor la naturaleza del pensamiento científico es necesario recordar que
éste surge en el momento que nos planteamos preguntas respecto a las causas de los
999fenómenos que nos rodean y cuya respuesta se busca mediante la aplicación racional y
sistemática de técnicas e instrumentos, válidos y confiables, encaminados a hallar una
explicación la cual, posteriormente, es posible demostrar. La investigación científica, por
tanto, se basa en este proceso para buscar la producción y comprobación de un
conocimiento nuevo.
Normalmente, la primera fase de investigación de un fenómeno nunca antes estudiado
consiste en la búsqueda de variables que parecieran estar relacionadas. Es decir, la
identificación de las características y condiciones que describen al fenómeno y que son
susceptibles de ser cuantificables y medibles. Las variables adquieren valor cuando se
relacionan con otras variables y permiten la construcción de una hipótesis. A este punto, es
importante distinguir a las variables respecto a los atributos, los cuales no son susceptibles
de cuantificarse mediante una escala numérica y son la base de una investigación con un
enfoque cualitativo, y no cuantitativo.
Al observar las diferentes variables o atributos se obtiene un conjunto de resultados,
numérico o no, denominado conjunto de datos. Los obtenidos al observar un atributo se
denominan modalidades, mientras que los correspondientes a una variable se denominan
valores.
Así pues, podemos establecer que el propósito de la investigación científica es la de validar
o comprobar una hipótesis, para lo cual se vale de la experimentación, la cual consiste en
someter un objeto en estudio a la influencia de ciertas variables, en condiciones controladas
y conocidas por el investigador, para observar los resultados que la variable produce en el
objeto. Para D.C. Baird, la experimentación se refiere al proceso completo de identificar una
porción del mundo que nos rodea, obtener información de ella e interpretarla.
Una vez analizado el fenómeno y habiendo una consciencia respecto a las variables
significativas es posible, según indica Baird, pasar a un siguiente nivel de complejidad que
consiste en la construcción de un modelo que permita establecer un marco de referencia
para el pensamiento y la descripción esquemática del mundo real.
Sin embargo, un modelo será útil en la medida que sus propiedades correspondan con las
del mundo real. Solo si se demuestra experimentalmente que las propiedades del modelo
Alejandro Díaz-Infante R. Procesamiento, análisis e interpretación de datos.
guardan una correspondencia adecuada con las de la realidad es que se podrá decir que se
tiene razón respecto al fenómeno estudiado.
Para este fin, el análisis estadístico representa una herramienta fundamental para el
procesamiento de datos, la descripción de la relación de variables y la construcción de un
modelo. La estadística representa el conjunto de técnicas e instrumentos que permiten
recoger, organizar, resumir, analizar e interpretar datos para con ello buscar las relaciones,
conclusiones, consecuencias y resultados para comprender y explicar el fenómeno
estudiado.
La estadística descriptiva o deductiva estudia los métodos para organizar, interpretar y
describir un conjunto de datos para que sus características se vuelvan evidentes, para lo
cual se apoya de técnicas gráficas y numéricas.
La estadística inferencial o inductiva usa la teoría de las probabilidades para generalizar las
características de una población a partir de las características de una muestra
representativa.
Datos estadísticos
Los datos son los valores que toman las variables de un estudio estadístico, y de las cuales
es posible distinguir dos tipos:
Datos cuantitativos que producen respuestas numéricas pues son sujetas de medición y
cuantificación, y pueden ser de dos tipos:
Datos cualitativos, los cuales arrojan respuestas categóricas que representan una cualidad
o atributo de los datos de estudio.
En el proceso de medición de estas variables, se pueden utilizar dos escalas:
• Escalas nominales: ésta es una forma de observar o medir en la que los datos se
ajustan por categorías que no mantienen una relación de orden entre sí (color de
los ojos, sexo, profesión, presencia o ausencia de un factor de riesgo o enfermedad,
etcétera).
• Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre
las categorías (grado de miopía, altura)
Alejandro Díaz-Infante R. Procesamiento, análisis e interpretación de datos.
∑𝑥𝑖
𝑥̅ = …. (1)
𝑁
b. La mediana, que se identifica como Me, es el valor de la variable que sitúa el mismo
número de datos por encima que por debajo de él, siempre y cuando los valores de
la variable estén ordenados de forma creciente o decreciente.
Si N es impar, la mediana muestral es el valor de las variables que ocupa el lugar
𝑁+1
central de la serie, es decir el número en la posición
2
Alejandro Díaz-Infante R. Procesamiento, análisis e interpretación de datos.
c. La moda se refiere al valor que tiene más frecuencia en una muestra, es decir, la
unidad que más veces se repite. Se representa por Mo y, por lo general, no suele
utilizarse como única medida de posición, sino que se presenta acompañando a la
media o a la mediana.
d. El rango es la diferencia entre los valores más grandes y más pequeños en una
muestra.
e. La varianza s2 es un indicador de la dispersión de los datos con respecto al valor
medio de la variable y se define como el promedio de los cuadrados de las
desviaciones de los valores de la variable respecto a su media aritmética,
ponderados por sus respectivas frecuencias.
1 𝑁
𝑠2 = ∑𝑖=1(𝑥𝑖 − 𝑥̅ )2 … (2)
𝑁−1
A modo de ejemplo, tomemos de base los valores de una muestra correspondiente a las
iluminancias (nivel de iluminación reportado en luxes) registradas un día de primavera en
el interior de una oficina cuya ventana está orientada al oeste y para la cual se desea
desarrollar un resumen estadístico. La totalidad de los valores que conforman dicha
muestra se presentan en el anexo 1.
Se puede observar que la información así presentada resulta complicada de analizar, por lo
que será necesario desarrollar, como primer paso, un proceso de tabulación. Para ello será
necesario ordenar los datos de menor a mayor. Una vez ordenados los datos, es necesario
contar cuántas veces se repite cada uno de los valores de la variable para obtener los valores
de las frecuencias absolutas.
La tabla siguiente presenta la frecuencia absoluta y relativa de la muestra, en donde la
frecuencia absoluta se refiere al número total de valores observados de la variable, que
representamos por ni y la frecuencia relativa que se obtiene por el cociente entre la
frecuencia absoluta y el número total de datos N, en este ejemplo N=120.
Alejandro Díaz-Infante R. Procesamiento, análisis e interpretación de datos.
Media = 0.8674
Mediana = 0.8830
Moda 1 = 0.9040
Moda 2 = 0.9080
Rango = 0.1490
s2 = 0.0017
s= 0.0411
Alejandro Díaz-Infante R. Procesamiento, análisis e interpretación de datos.
y Y1 Y2 … yj … yk ni
x
X1 n11 n12 n1j n1k n1.
X2 N21 n22 n2j n2k n2.
…
Xi ni1 ni2 nij nik ni.
…
Xh nh1 nh2 nhj nhk nh.
n.j n.1 n.2 n.j n.k N
En la fila inferior se ponen las sumas de las frecuencias que corresponden a cada columna,
es decir, las frecuencias marginales de Y, siendo nij el número total de veces que se repite
Alejandro Díaz-Infante R. Procesamiento, análisis e interpretación de datos.
El diagrama de dispersión ofrece información útil para detectar la relación entre dos
variables, sin embargo, está basada en la impresión visual, lo cual puede ser engañosa, por
lo que es necesario acudir a otros instrumentos que ofrezcan una cuantificación numérica
de la intensidad y características de dicha asociación.
La covarianza se basa en las diferencias entre los valores de x e y a sus correspondientes
medias, y sirve de base para determinar el coeficiente de correlación (de Pearson), que es
una medida numérica que refiere el grado de asociación lineal entre dos variables.
Para obtener el valor de la covarianza se calcula para cada par (xi, yj) el producto de las
desviaciones respecto a sus medias (𝑥𝑖 − 𝑥̅ ) (𝑦𝑗 − 𝑦̅) de todos los valores de i y de j.
… (3)
La covarianza es el “promedio” de los productos de las desviaciones de las variables
respecto de las correspondientes medias.
En consecuencia, el coeficiente de correlación muestral entre x e y se define como:
… (4)
Alejandro Díaz-Infante R. Procesamiento, análisis e interpretación de datos.
Sean (xi, yj) …. (xn, yn) los n puntos del diagrama de dispersión de una muestra, el cálculo de
la correlación implica la deducción de las medias y las desviaciones estándar de las x e y.
Después se convierte cada x y cada y a las unidades estándar
Para finalmente obtener el promedio de los productos de los puntajes, excepto que se
divide entre (n-1) en lugar de n.
Ejemplo.
x y (𝒙𝒊 − 𝒙
̅) ̅)
(𝒚𝒋 − 𝒚 (𝒙𝒊 − 𝒙
̅)(𝒚𝒋 − 𝒚
̅)
3 10 -3.86 2.14 -8.27
6 7 -0.86 -0.86 0.73
5 9 -1.86 1.14 -2.12
8 6 1.14 -1.86 -2.12
9 8 2.14 0.14 0.31
10 7 3.14 -0.86 -2.69
7 8 0.14 0.14 0.02
Media 6.86 7.86 Suma = -14.14
DS 2.41 1.35
… (5)
En los ejemplos de las gráficas de dispersión presentados en las figuras [..] y […] el
coeficiente de correlación muestral r es de 0.967696731 y -0.992280342 respectivamente.
El cálculo y detalle de los valores de x e y se pueden revisar en los anexos 2 y 3.
Análisis de regresión
La regresión es otro instrumento estadístico de análisis de la relación entre variables y cuyo
objetivo es tratar de explicar la relación que existe entre una variable dependiente y, y un
conjunto de variables independientes (x1 … xn). Cuando se trata de explicar la relación que
existe entre una variable y y una única variable independiente x se conoce como modelo de
regresión lineal simple.
Este modelo presenta las siguientes consideraciones:
1. El análisis de regresión lineal simple se utiliza para analizar la relación entre dos variables
bajo la hipótesis de que es causal.
2. La relación entre las variables se supone unilateral, es decir, x es causa de y pero y y no
es causa de x. No existe interdependencia.
3. La relación entre las variables es inexacta o de tipo estadístico.
Para hacer una estimación del modelo de regresión lineal simple, se trata de buscar una
recta, denominada de los mínimos cuadrados, de la forma:
… (6)
de modo que se ajuste a la nube de puntos. De acuerdo con esta igualdad, son los cambios
en x los que explican los cambios en y.
El modelo de regresión lineal simple tiene la siguiente expresión:
En donde β0 es la ordenada en el origen (el valor que toma y cuando x vale 0), denominado
intercepto, y β1 es la pendiente de la recta (e indica cómo cambia y al incrementar x en
una unidad) y εi se denomina error.
ei = y i - ŷi
Alejandro Díaz-Infante R. Procesamiento, análisis e interpretación de datos.
El principio de mínimos cuadrados permite establecer la recta que “mejor” se ajuste con
base en las desviaciones de los puntos en dirección vertical a partir de las líneas. La recta de
mínimos cuadrados se define como aquella para la que la suma de cuadrados de los residuos
𝑛
∑𝑖=1 𝑒𝑖2 se minimiza.
Es decir, la suma de los cuadrados de las diferencias entre los valores observados yi y los
valores ajustados ŷi estimados.
Para el cálculo es necesario referirse a las siguientes expresiones:
Alejandro Díaz-Infante R. Procesamiento, análisis e interpretación de datos.
x y (𝒙𝒊 − 𝒙
̅) (𝒚𝒋 − 𝒚̅) (𝒙𝒊 − 𝒙
̅)(𝒚𝒋 − 𝒚
̅) (𝒙𝒊 − 𝒙
̅)²
3 10 -3.86 2.14 -8.27 14.88
6 7 -0.86 -0.86 0.73 0.73
5 9 -1.86 1.14 -2.12 3.45
8 6 1.14 -1.86 -2.12 1.31
9 8 2.14 0.14 0.31 4.59
10 7 3.14 -0.86 -2.69 9.88
7 8 0.14 0.14 0.02 0.02
Media 6.86 7.86 Suma = -14.14 34.86
y en donde:
Tomemos ahora de ejemplo los valores de las variables de irradiancia (kW/m²) e iluminancia
(kLux) de la figura […] y determinemos la ecuación del modelo de la recta de regresión que
exprese el comportamiento de las variables. El detalle de las variables y el cálculo se pueden
consultar en el archivo Excel adjunto.
En este caso,
Para ello es importante recordar que los modelos son un marco de referencia y una
descripción aproximada de los fenómenos. Ningún modelo podrá ser una réplica exacta y
cuya utilidad resulta de la correspondencia que tenga con las propiedades del mundo real.
Para comparar los modelos es necesario determinar su grado de “precisión”, es decir,
identificar el modelo con el cual se cometen errores menores. Los errores son las
diferencias entre el valor observado y el estimado y cuya expresión matemática es:
e = yj - 𝑦̂j
La raíz del promedio de las diferencias cuadráticas entre los valores modelados y los valores
observados, divididos entre la media de los valores observados representa la raíz del error
medio cuadrático, la cual es expresada con la siguiente ecuación:
… (7)
En el ejemplo anterior, determinamos que 𝑦̂ = -0.406 x + 10.639, con lo que es posible
determinar el valor ajustado y el error o residuo para cada variable x. La tabla siguiente
resume los datos obtenidos.
x y ̂
𝒚 e e²
3 10 9.42 0.58 0.33
6 7 8.20 -1.20 1.45
5 9 8.61 0.39 0.15
8 6 7.39 -1.39 1.94
9 8 6.99 1.01 1.02
10 7 6.58 0.42 0.17
7 8 7.80 0.20 0.04
𝒚̅= 7.856 ∑= 5.12
Fuentes de información: