Está en la página 1de 40

ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

CAPÍTULO 2

ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

STATISTICAL ANALYSIS AND EXPERIMENTAL DESIGN

Preparado por
Ing. Álvaro Correa Arroyave

Autor Ing. Álvaro Correa Arroyave Página 29


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

INTRODUCCIÓN

El papel de la estadística en la investigación experimental ha penetrado todos los campos de la ciencia y la


ingeniería. Su utilidad, como herramienta de investigación para el diseño de experimentos, recolección de datos
experimentales, medición de la variación en los datos, estimación de parámetros de población con precisión
conocida, hipótesis de ensayo y estudio de relaciones entre dos o más variables, ha sido bien reconocida. Todos
los investigadores en el campo de la ingeniería poseen un conocimiento básico de análisis estadístico y diseño
experimental.

El propósito de estas notas es recordar algunos de esos conceptos, los cuales son necesarios para el trabajo en
ingeniería de rocas.

La roca, por su misma naturaleza, es un material heterogéneo en el que sus propiedades y características varían
de un lugar a otro o de un espécimen a otro aún proviniendo todos de la misma muestra, formación geológica o
tren de perforación. Al estudiar cualquier propiedad o característica de las rocas, interesa no sólo el valor
promedio de dicha característica, sino también la variación que puede esperarse que ocurra.

Además de la desviación que se presenta a causa de la propia naturaleza de la roca, existe la producida por el
error experimental, inherente a todas las técnicas de medición. Dichos errores experimentales son usualmente de
dos tipos, sistemáticos y probabilísticos; los primeros son del mismo signo para cada observación, en tanto que
los segundos se distribuyen normalmente en torno a un valor central de cero. Los errores sistemáticos no pueden
reducirse al incrementar el número de observaciones, en tanto que los probabilísticos pueden reducirse sin límite
al incrementar el número de ellas; sin embargo, esta reducción es proporcional a la raíz cuadrada del número de
lecturas, de tal forma que existe un límite práctico hasta el cual puede llevarse dicha reducción. Para una
experimentación eficiente, la variación en los datos arrojados por el equipo, o errores experimentales, deberá ser
de sólo un orden de magnitud menor que la variación en los datos resultantes de la propiedad en estudio.

En Mecánica de rocas experimental, es importante determinar el tipo de error introducido por la técnica de
medición y determinar si la variación en los datos es principalmente el resultado de la técnica de medida, o si es
una propiedad de la roca o del fenómeno en estudio. Si los métodos estadísticos se utilizan para diseñar
experimentos y recolectar datos y analizarlos, es entonces posible distinguir entre errores de medición y
variación producida por la propiedad en estudio.

Como lo reconocen todos los investigadores, no existen reglas universales simples para la aceptabilidad de
factores de seguridad estándares que puedan garantizar que una estructura en roca será segura y que se
comportará tal como se ha previsto. Al ser cada diseño único, la responsabilidad del ingeniero es hallar una
solución económica y segura compatible con todas las incógnitas aplicables al proyecto; una solución tal, debe
fundamentarse en un juicio ingenieril basado en estudios teóricos y en la experiencia práctica. El valor numérico
del factor de seguridad seleccionado para un diseño particular, dependiente del nivel de conocimiento que el
diseñador tiene sobre la valoración de los diferentes parámetros que intervienen en sus cálculos, está
directamente relacionado con el costo del proyecto.

La edición de 1977 del U.S. Bureau of Reclamation Engineering Monograph on Design Criteria for Concrete Arch
and Gravity Dams, por ejemplo, recomienda un factor de seguridad de 3,0 para condiciones normales de carga,
cuando sólo se dispone de una información muy limitada sobre los parámetros de resistencia de la masa rocosa,
valor que puede reducirse a 2,0, cuando dichos parámetros se determinan mediante ensayos sobre núcleos de
roca provenientes de un estudio exploratorio.

Por otro lado, la incertidumbre asociada con las propiedades de los materiales geotécnicos, y el enorme cuidado
que debe tenerse al seleccionar los valores apropiados para los cálculos, han incitado a varios investigadores a
recomendar que los métodos tradicionales determinísticos sean reemplazados por métodos probabilísticos, más
familiares con los conceptos de análisis de riesgos.

Estos métodos probabilísticos deben utilizarse para estimar el comportamiento de la estructura frente a la
posibilidad de varias opciones.

Autor Ing. Álvaro Correa Arroyave Página 30


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

1.- DEFINICIONES, TERMINOLOGÍA Y NOTACIÓN

La estadística utiliza un sinnúmero de vocablos que tienen significados específicos; es por tanto apropiado
definirlos antes de desarrollar sus conceptos matemáticos.

1.1.- Población o Universo

Es cualquier conjunto finito o infinito de individuos, objetos o procesos, que tienen alguna característica común
observable y medible; es decir, es el total de los elementos que lo componen.

1.2.- Muestra

Subconjunto de una población.

En el trabajo experimental, se observa y se mide una característica de una muestra, y a partir de estos datos se
estima la característica de la población. Por ejemplo, considérese un tren de perforación en roca a partir del cual
se han obtenido 20 núcleos, los cuales pueden medirse y pesarse a fin de calcular su densidad. Estos datos
representan la muestra, pero también pueden utilizarse para estimar la población; esto es, la densidad promedio
de la población rocosa de donde se tomó la muestra.

1.3.- Parámetro

Constante que caracteriza una población; por su parte, un estadístico es una cantidad que describe una muestra.
Para distinguir entre estas dos cantidades, es costumbre utilizar letras griegas para parámetros de población y
letras latinas para muestras estadísticas.

1.4.- Espécimen o núcleo

Parte individualizada de una población o muestra; es la mínima parte a la que se le hacen las determinaciones de
rigor, de acuerdo a una regla determinada, buscando que sean representativas del todo.

1.5.- Réplica

Repetición de un experimento o medición bajo condiciones idénticas. La réplica es necesaria en el diseño


experimental para suministrar una medición confiable del error experimental. Cuando se practican
experimentos, no siempre es posible controlar todas las variables. Por ejemplo, el orden de ejecución de los
ensayos es una variable que puede afectar los resultados finales. Las variables no controladas pueden producir
sesgos en los datos experimentales a menos que sus efectos sean casuales. La casualidad es el proceso de
disposición de condiciones experimentales de tal forma que cada combinación posible tenga la misma
probabilidad de ocurrencia. Si las muestras se seleccionan al azar a partir de una población, entonces cada
muestra en la población tiene una misma oportunidad de ser seleccionada.

2.- PROPIEDADES FÍSICAS

2.1.- Unidades de medida

La física se ocupa casi exclusivamente de cantidades medibles. Por tanto, es muy importante saber exactamente
qué es lo que se entiende por medida.

2.1.1.- Magnitud: todo aquello que puede medirse.

2.1.2.- Medida: comparación de una magnitud con otra de la misma especie, que arbitrariamente se toma como
patrón. La magnitud de una cantidad física se expresa mediante un número de veces la unidad de medida; en el
quehacer científico, ésta habitualmente se expresa en el sistema métrico, o su sucesor, el Sistema Internacional de
Medidas (SI).

Autor Ing. Álvaro Correa Arroyave Página 31


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

En el estudio de las propiedades físicas de los materiales se distinguen dos tipos de magnitudes: fundamentales y
derivadas; las primeras se definen por sí mismas y dependen sólo de las unidades; son patrones de referencia. En
el sistema absoluto (conformado por el MKS (SI): metro, kilogramo, segundo; el CGS: centímetro, gramo, segundo
y el FPS: pie, libra, segundo), las siete magnitudes fundamentales son las que se presentan en la Tabla 1.

Tabla 1. Magnitudes Fundamentales


Propiedad Física Unidad Símbolo Dimensión
Longitud metro m L
Masa kilogramo kg M
Tiempo segundo s T
Temperatura kelvin K º
Intensidad de corriente amperio A Ic
Intensidad lumínica candela cd Il
Cantidad de sustancia mol mol N

Las magnitudes derivadas se forman mediante la combinación de las fundamentales. En la Tabla 2 se indican
algunas de estas magnitudes. Las magnitudes suplementarias son aquéllas que no han sido clasificadas como
ninguna de las anteriores; por ejemplo, la atmósfera (1 atm = 760 mm Hg = 101,325 kPa = 1 bar = 1 kg/cm²) y la
caloría (1 cal = 4,186 J).
Tabla 2. Magnitudes Derivadas
Propiedad Física Unidad Símbolo Dimensión*
Velocidad, v metro/segundo m/s LT-1
Aceleración, a metro/segundo2 m/s2 LT-2
Fuerza, F Newton N (kg.m/s²) MLT-2
Peso Unitario,  kilogramo/metro³ kg/m³ ML-3
Trabajo, energía, E joule J (kg.m²/s²); N.m ML2T-2
Potencia watt W (J/s) ML²T-3
Área, S metro cuadrado m² L²
Volumen, V metro cúbico m³ L³
Presión, P Pascal Pa (N/m²) ML-1T-2
Carga Eléctrica, C Coulomb C (A.s) Ic T
Diferencia de Potencial, V Voltio V (J/C) ML²T -3Ic-1
Resistencia,  Ohmio  (V/A) ML²T-3Ic-2
*M: Masa; L: Longitud; T: Tiempo; Ic: Intensidad de corriente

Los sistemas métrico y SI son sistemas decimales, en los que se utilizan prefijos para indicar fracciones y
múltiplos de diez, de la siguiente forma: Exa, 1018; Peta, 1015; Tera, 1012; Giga, 109; Mega, 106; kilo, 103; hecto, 102;
deca, 101; deci, 10-1; centi, 10-2; mili, 10-3; micro, 10-6; nano, 10-9; pico, 10-12; femto, 10-15, atto, 10-18).

2.2.- Notación científica o exponencial

Cuando se trabaja con números muy grandes o muy pequeños, y para evitar escribir tantos ceros, se utiliza la
notación científica, mediante la cual se escribe el número en forma exponencial y se coloca un dígito no nulo a la
izquierda de la coma decimal. Generalmente, los números obtenidos en mediciones en el laboratorio no son
números discretos o naturales sino números continuos. Un ejemplo de número discreto sería la cantidad de
mediciones de la longitud de un conjunto de núcleos de roca (no tendría sentido dar un número decimal como
44,5 para tal número de mediciones, además de que es imposible).

Un ejemplo de números continuos podría ser la medida de dichas longitudes con un vernier, cuya precisión
(variación de magnitud más pequeña que puede apreciar el equipo de medida) sea de un milímetro. Si un
estudiante da una medida de 108 mm, ello no significa que la longitud del espécimen (núcleo de roca) sea
exactamente ese valor sino que es un valor como mínimo mayor que 107 mm y menor que 109 mm. Entre esos
dos valores existe un número infinito de posibilidades (por ejemplo: 108,7; 108,009; 108,207, etc.) entre los
cuales estaría el valor real. También se podría dar el valor de la medida como 108 1 mm. Es decir, toda medición
implica una estimación, lo que conlleva un error inherente al sistema de medición empleado y al individuo que

Autor Ing. Álvaro Correa Arroyave Página 32


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

hace la medida, lo cual conduce al concepto de cifras significativas (dígitos que la persona que hace la medición
considera correctos).

2.3.- Precisión y Exactitud

La exactitud indica el grado en que un valor medido coincide con el valor correcto, mientras que la precisión se
refiere al grado en que las medidas individuales coinciden entre sí. La diferencia entre ambos conceptos se indica
en la Figura 1. En la Figura 1a, tanto la exactitud como la precisión son bajas; en la Figura 1b, se ha mejorado la
precisión pero la exactitud sigue siendo deficiente, y en la Figura 1c, tanto la exactitud como la precisión son
aceptables. La figura 1b representa la obtención de medidas precisas pero inexactas.

Figura 1. Conceptos de precisión y exactitud

El que las medidas sean precisas (si se realiza una medida n veces, la variación del valor obtenido es mínima), no
garantiza que sean exactas; por ejemplo, si se utiliza una balanza mal calibrada, los datos pueden ser precisos
pero inexactos: se dice entonces que se está cometiendo un error sistemático. Sin embargo, si se obtienen datos
con una alta exactitud, también se tendrá una buena precisión.

Supóngase, en otro caso, que se tiene una muestra de material particulado con un peso real de 5000 g (para un
ensayo en la máquina de los ángeles) y se pide a cuatro estudiantes que determinen tres veces el peso en una
balanza de tipo romano y que reporten igualmente el valor promedio. Los resultados se indican en la Tabla 3.

Tabla 3. Pesos reportados


Pesadas Estudiante 1 Estudiante 2 Estudiante 3 Estudiante 4
1ª 4997 g 4994 g 5002 g 5001 g
2ª 4996 g 4998 g 4997 g 4999 g
3ª 4998 g 5008 g 5004 g 5000 g
Promedio 4997 g 5000 g 5001 g 5000 g

Los datos del estudiante 2 son los que tienen menor precisión, ya que los valores de las tres pesadas difieren del
valor promedio más que los de los demás estudiantes. Los datos más precisos son los de los estudiantes 1 y 4.
Pero los del estudiante 1 son menos exactos al estar más alejados del valor real. Los datos del estudiante 4 son
más exactos y más precisos que los del estudiante 3.

Obsérvese que para valorar la precisión, se comparan las medidas con el valor promedio de las mismas, mientras
que para la exactitud, la comparación se hace con el valor real. Es importante recalcar que la exactitud de los
resultados obtenidos en un análisis está determinada no sólo por los cálculos sino también por factores como la
exactitud de los datos iniciales, las aproximaciones inherentes en los modelos analíticos y la validez de las
hipótesis.

En muchos casos, como los ensayos en ingeniería, estas consideraciones llevan a pensar que los resultados son
válidos con sólo dos o tres dígitos significativos cuando más; adicionalmente, el gran número de dígitos
disponibles en las calculadoras, induce a registrar los resultados obtenidos con una precisión mucho mayor que
la real, con la posibilidad de engañar a quien emplee esta información.

Autor Ing. Álvaro Correa Arroyave Página 33


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

2.4.- Redondeo de cifras

Generalmente, los cálculos nunca arrojan números exactos y por tanto es necesario redondearlos, para lo cual
deben seguirse las siguientes normas:
 Si el dígito a eliminar es mayor que 5, el dígito retenido aumenta en uno.
 Si el dígito a eliminar es menor que 5, el dígito retenido se mantiene.
 Si el dígito a eliminar es 5 y el retenido impar, el retenido aumenta en uno.
 Si el dígito a eliminar es 5 y el retenido par, el retenido se mantiene.

Así por ejemplo,


7,37 se redondea a 7,4
7,34 se redondea a 7,3
7,35 se redondea a 7,4
7,45 se redondea a 7,4

La incertidumbre que se presenta al momento de realizar un redondeo, puede generar un poco de duda al no
tener claro qué tanto se afecta el resultado o qué tanto se puede hacerlo más confiable; adicionalmente, la
tolerancia, ante una falta de exactitud y precisión, aumenta por la dispersión de la información.

2.5.- Cifras significativas

Estamos acostumbrados, desde antes que se presentara la posibilidad de apoyo en los computadores y
calculadoras, a confiar en los resultados obtenidos de los ensayos o del desarrollo de problemas, sin detenernos a
pensar si los valores son coherentes, precisos o exactos, si es necesario utilizar cada una de las muchas cifras que
arrojan los cálculos o sobre la influencia que tiene en los resultados, utilizar indistintamente un sistema u otro de
medida durante el procesamiento de los datos. La literatura utilizada como apoyo en el aprendizaje, sugiere el
uso y manejo de las cifras en las diversas operaciones a realizar. Sin embargo, en la mayoría de los casos no se
coloca mayor atención, por parte de los investigadores y mucho menos por los utilitarios, a cada una de dichas
recomendaciones, utilizando en muchos casos una cantidad de cifras que no ofrecen mayor precisión en el
resultado.

Ante el uso indiscriminado de cada uno de los valores que se obtienen, ha proliferado, en la mayoría de los
campos, un olvido al control de las cantidades tenidas en cuenta en las actividades realizadas. Tanto en los
ensayos de laboratorio, que se practican no sólo en las universidades, sino también en otras entidades dedicadas
a ese fin, como en los trabajos de campo, se indican resultados con fidelidades tan exageradamente buenas que
generan desconfianza al momento de utilizarlas en diseños, bien sea por la precisión del equipo utilizado o por la
“calidad” en la lectura efectuada por la persona encargada de llevarla a cabo.

Es común observar, por ejemplo, que en la determinación de la resistencia a la compresión simple de una
muestra de roca, se cite el valor de c = 544,83 kg/cm². El presentar el resultado en esta forma, conduce a un
engaño ya que indica que la resistencia a la compresión se conoce con una aproximación de 1/100 de kg/cm²,
aunque la magnitud sea superior a los 540 kg/cm². Esto implica una exactitud de aproximadamente 1/54000 y
una precisión de 0,01 kg/cm², ninguna de las cuales pareciera ser cierta.

La exactitud de la resistencia a la compresión calculada depende tanto de la exactitud con la que se conozcan las
cargas como de las dimensiones del núcleo utilizado en el ensayo. Lo más probable es que la resistencia a la
compresión simple en este ejemplo se conozca sólo a los 5 ó 10 kg/cm² más cercanos.

En consecuencia, el resultado del cálculo debería expresarse como c = 545 kg/cm² o mejor aún, como c = 550
kg/cm².

Un análisis similar, pero teniendo en cuenta el rango de variación, podría hacerse para el módulo de elasticidad y
también para el coeficiente de Poisson, módulos mecánicos que caracterizan el comportamiento de una roca. Las
aproximaciones, según recomendaciones, son muy comunes; sin embargo, la incertidumbre que se plantea al
momento se efectuarlas, es bastante grande ya que generalmente no se conoce la precisión de los equipos
empleados para las pruebas previstas y simplemente se presenta una hoja de cálculo con los valores obtenidos.

Autor Ing. Álvaro Correa Arroyave Página 34


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

2.6.- Reglas en las cifras significativas (c.s.)

Las cifras significativas son las cifras que se miden con precisión, según el instrumento utilizado, o, si se realizan
cálculos a partir de valores medidos, son las cifras del resultado en las que se puede tener confianza de que son
precisas. Para saber el número de cifras significativas presentes en un resultado, se pueden utilizar las siguientes
reglas:

2.6.1.- Los ceros a la izquierda no son significativos. Esto se debe a que los ceros a la izquierda no le añaden
precisión a la medición, sino que solamente sirven para establecer la posición de la coma decimal. En ese caso,
para contar las cifras significativas, se parte del primer dígito distinto de cero y se cuentan todos los dígitos a la
derecha de éste. Generalmente es mejor hacer este recuento utilizando la notación exponencial.

2.6.2.- Los ceros a la derecha sí son significativos. Los ceros a la derecha deben escribirse sí y sólo sí constituyen
una parte verdadera de la medición. Por tanto, no es lo mismo decir que algo pesa 5 kg, que decir que pesa 5,00
kg. La primera magnitud implica que la medición se realizó con una balanza calibrada en kilogramos, en tanto que
la segunda medición fue realizada con una balanza graduada en centésimos de kilogramo. La segunda medición
es, entonces, cien veces más precisa que la primera, la cual tiene una cifra significativa y la segunda tiene tres. Por
lo anterior, es sumamente importante escribir los ceros a la derecha cuando se sabe que son significativos. Por
ejemplo, en una balanza analítica que tiene precisión de diezmilésimas de gramo, si la balanza marca 0,8000 g es
necesario registrar el número con los tres ceros a la derecha, y no como 0,80 g, o menos aún como 0,8 g.

Sin embargo, a veces hay que tener cuidado con los ceros a la derecha, ya que ellos no son significativos cuando
su función es únicamente la de especificar la posición de la coma decimal. Por ejemplo, si se dice que Medellín
está a una distancia de 400.000 m, de la ciudad de Bogotá ¿cuántas cifras significativas se tienen? ciertamente no
son seis, porque esto implicaría que se conoce la distancia con una precisión del orden de 1 m. Además de que es
una precisión imposible en la práctica, sería demasiada coincidencia que tal magnitud física tuviera tantos ceros.
Pero podría ser que el primer cero, o tal vez incluso el segundo, fueran significativos. Así como está escrito el
número, no hay manera de saberlo. La única manera de evitar esta ambigüedad es utilizando la notación
científica. Si se dice que Medellín está a 4,0 x 105 m, se puede saber sin duda alguna que sólo el primer cero es
significativo y por tanto existen dos cifras significativas.

2.6.3.- Los números enteros, por naturaleza, se consideran como si tuvieran una cantidad infinita de cifras
significativas. Dicho de otra manera, los enteros, por naturaleza, se pueden conocer con exactitud perfecta.

2.6.4.- Los factores de conversión generalmente son exactos. O sea que, al igual que los números enteros, puede
considerarse como si tuvieran un número infinito de cifras significativas. Aunque existen algunos casos de
conversiones que no son exactas porque están determinadas empíricamente, otras sí. Por ejemplo, un kg es
exactamente igual a 9,81 N, por definición, y una atm, son 1,013 x 10 5 Nm-2. Además, todas las conversiones
dentro de un mismo sistema son exactas (1 m son exactamente 1000 mm y un pie son exactamente 12 pulg.).

2.6.5.- Cualquier dígito distinto de cero es significativo. Ejemplo: 243, (3 c.s.*); 2421, (4 c.s.).

2.6.6.- Los ceros utilizados para posicionar la coma, no son cifras significativas. Ejemplo: 0,000427, (3 c.s.), que en
notación científica sería: 4,27 x 10-4.

2.6.7.- Los ceros situados entre dígitos distintos de cero, son cifras significativas. Ejemplo: 408, (3 c.s.); 20057, (5
c.s.).

2.6.8.- Si un número es mayor que la unidad, todos los ceros escritos a la derecha de la coma decimal cuentan
como cifras significativas. Ejemplo: 4,608 mm (4 c.s.) ó 5,080 g, (4 c.s.).

2.6.9.- Para números sin coma decimal, los ceros ubicados después del último dígito distinto de cero pueden ser o
no cifras significativas. Ejemplo: 48000 puede tener 2 cifras significativas (4,8 x 104); 3 cifras significativas (4,80
x 104) ó 4 cifras significativas (4,800 x 104). Sería más correcto indicar el error, por ejemplo, 48000  1 (5 c.s.).

* c.s. : cifra(s) significativa(s)

Autor Ing. Álvaro Correa Arroyave Página 35


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

2.7.- Cálculos con cifras significativas

2.7.1.- En la multiplicación y división, el número resultante no debe tener más cifras significativas que el factor
con el menor número de cifras significativas (factor menos preciso) utilizado en la operación; ejemplo: ¿Cuál es el
área de un rectángulo de 4,2 m de ancho por 15,63 m de largo? La calculadora indica 65,646 m 2 pero como el
ancho sólo tiene una cifra significativa después de la coma, el resultado será 65,6 m 2 (3 c.s.).

2.7.2.- En la adición, el último dígito retenido está determinado por la posición del último dígito dudoso, es decir,
el número que tenga menos cifras significativas después de la coma decimal, así por ejemplo: 45,63 g + 64,2 g =
109,8 g.

2.7.3.- Con la sustracción hay que tener especial cuidado, ya que dos números con muchas cifras significativas
pero valores muy parecidos pueden arrojar un resultado con muy pocas cifras significativas; por ejemplo:

87,143205 – 87,143198 = 7 x 10–6

87,143205 Seis cifras significativas después de la coma


-87,143198 Seis cifras significativas después de la coma
0,000007 Seis cifras después de la coma, pero sólo una es significativa

No olvidar que en el resultado pueden quedar ceros a la derecha, por ejemplo:

15,87 – 12,574 = 3,30 (la calculadora arroja 3,296).

15,87 Dos cifras significativas después de la coma


-12,574 Tres cifras significativas después de la coma
3,30 Dos cifras significativas después de la coma

2.7.4.- Es necesario conservar los resultados intermedios con todas sus cifras, o por lo menos con una cifra no
significativa. Las cifras significativas deben tomarse en cuenta para reportar el resultado final de una operación
con una precisión realista. Sin embargo, en los resultados intermedios, es conveniente guardar más cifras porque
con cada redondeo que se haga se puede ir perdiendo precisión. Si la cadena de operaciones es muy larga, estos
pequeños errores se van acumulando hasta volverse significativos. Si es necesario reportar un resultado
intermedio, debe indicarse con sus cifras significativas, pero también hay que apuntarlo con todas sus cifras en la
hoja de operaciones (o en la memoria de la calculadora) para su uso en cálculos posteriores. Para operaciones
combinadas, hay que hacer el análisis paso por paso, así por ejemplo,

Calcular: {((15,2008 x 10,37) – 14,5) / 8,6} + 0,1487:

PASO OPERACIÓN REDONDEO


1 15,2008 x 10,37 = 157,632296 (157,63)
157,632296 – 14,5 = 143,132296 (143,1)
2 157,63 – 14,5 = 143,13 (143,1)
143,132296 / 8,6 = 16,64329023
3 143,1 / 8,6 = 16,6 (16,6)
143,13 / 8,6 = 16,6
16,64329023 + 0,1487 = 16,79199023 (16,7920)
4 16,6 + 0,1487 = 16,7 (16,8) ó (16,7)

Por tanto, el valor que debe reportarse finalmente es 16,7920 (redondeando, sería 16,8); sin embargo, si se
reportan los resultados siguiendo las reglas del redondeo anteriormente indicadas, el resultado sería 16,7.

2.7.5.- Finalmente, para operaciones como raíces cuadradas, potencias, logaritmos y exponenciales, no existen
reglas tan sencillas pero como primera aproximación, se pueden utilizar las mismas que para la multiplicación y
la división.

Autor Ing. Álvaro Correa Arroyave Página 36


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

2.8.- Teoría de errores

El significado de la palabra `”error'' no es muy preciso, puesto que con frecuencia distintos investigadores lo
emplean con sentidos diferentes. De una manera amplia, puede considerarse el error como una estimación o
cuantificación de la incertidumbre de una medida. Cuanto más incierta sea una medida, tanto mayor será el error.
Suelen distinguirse dos tipos de errores: sistemáticos y accidentales.

2.9.- Errores sistemáticos

Como su nombre lo indica, no son debidos al azar o a causas no controlables. Pueden surgir de emplear un
método inadecuado, un instrumento defectuoso o por utilizarlo en condiciones para las que no estaba previsto su
uso. Por ejemplo, emplear una regla metálica a una temperatura muy alta, puede introducir un error sistemático
si la dilatación del material hace que su longitud sea mayor que la nominal.

En este caso, todas las medidas serán sistemáticamente inexactas por defecto. El error podría evitarse eligiendo
un material de coeficiente de dilatación bajo o controlando la temperatura a la que se mide. Éstos no son objeto
de la teoría de errores. Son equivocaciones que pueden y deben evitarse, empleando métodos e instrumentos de
medida correctos y adecuados para los fines que se deseen obtener.

2.10.- Errores accidentales

Estos son los errores en el sentido técnico de la palabra. Son incertidumbres debidas a numerosas causas
incontrolables e imprevisibles que dan lugar a resultados distintos cuando se repite la medida en idénticas
condiciones. Éstos parecen fruto del azar, y por ello reciben el nombre de errores aleatorios. Pueden deberse a la
acumulación de muchas incertidumbres sistemáticas no controladas o provenir de variaciones intrínsecamente
aleatorias. En ambos casos el resultado es que las medidas de una magnitud siguen una distribución de
probabilidad, que puede analizarse por métodos estadísticos.

Aunque la presencia de los errores accidentales no pueda evitarse, sí puede estimarse su magnitud por medio de
métodos estadísticos; estos errores pueden expresarse como absolutos o relativos:

2.10.1.- Error absoluto y valor más probable

El error absoluto es la diferencia absoluta entre la verdadera medición de la variable (el promedio) y su medida
puntual; debe expresarse en las mismas unidades que la variable en cuestión. Para reducir este error, se debe
efectuar un determinado número de mediciones del mismo parámetro en el objeto. Supóngase que sobre una
longitud se tienen los siguientes resultados: 10,45 cm; 10,43 cm; 10,44 cm; 10,46 cm, y 10,42 cm. Para obtener el
valor más probable, se debe hallar la desviación media (DM), para lo cual se procede así:

Primero se encuentra la media aritmética de las mediciones:

10,45  10,43  10,44  10,46  10,42


  10,44 cm
5

Posteriormente se calcula el error absoluto mediante la siguiente igualdad:

Error absoluto = medición – media aritmética

 a 1  10, 45  10, 44  0,01 cm


 a 2  10, 43  10, 44   0,01 cm
 a 3  10, 44  10, 44  0,00 cm
 a 4  10, 46  10, 44  0,02 cm
 a 5  10, 42  10, 44   0,02 cm

Autor Ing. Álvaro Correa Arroyave Página 37


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Como el objetivo es hallar el valor más probable de la variable, finalmente se suman los resultados anteriores (en
valores absolutos) y se divide por el número de mediciones, así:

0,01  0,01  0,00  0,02  0,02


DM   0,01 cm
5

El resultado final se representaría de la siguiente forma:

  10,44  0,01 cm

2.10.2.- Error relativo

El error relativo es el cociente entre el error absoluto y la verdadera medición de la variable (el promedio), en
porcentaje. Puede calcularse sobre una sola medición. Para el caso del ejemplo anterior, el error relativo sería:

0,01
r  x 100% es decir,  r  0,1%
10,44

3.- MÉTODOS DE ANÁLISIS ESTADÍSTICOS

La estadística es la ciencia que estudia los métodos científicos que permiten recolectar, jerarquizar, resumir,
analizar y extrapolar datos a fin de deducir conclusiones válidas, las que a su vez permitirán tomar decisiones
razonables fundamentadas en dichos análisis. Por estadística también se entienden los datos mismos o las
cantidades derivadas de dichos datos tales como los promedios, los rangos o las medianas, entre otros. En
ensayos físicos sobre rocas, por ejemplo, se dice que el promedio de una serie de lecturas es representativo de
todo el conjunto. Estas características medias están influenciadas por tres importantes tipos de factores los cuales
introducen incertidumbres en los resultados:

1.- Errores accidentales


2.- Variaciones en el espécimen (el núcleo) que se lleva a ensayo.
3.- Variaciones entre el espécimen (el núcleo) y los otros especímenes (muestras) que pueden ser seleccionados
de la misma fuente.

En el proceso de recolección de datos sobre las propiedades de las rocas, es casi imposible investigar, incluso, una
clase de roca (por ejemplo la granodiorita del Batolito Antioqueño) proveniente de todas sus numerosas fuentes,
y esto sin mencionar todos los diferentes tipos de rocas. En lugar de examinar todas las rocas, lo que se llamaría
universo o población, sólo se examina una pequeña parte de ellas llamada muestra. Una muestra puede consistir
de un solo espécimen o de un centenar de ellos, en tanto que la población puede ser finita o infinita.

Si una muestra es representativa de una población, pueden inferirse, a menudo, importantes características de la
población a partir de los análisis realizados sobre aquélla. La fase de la estadística que estudia las condiciones
bajo las cuales es válida tal deducción, se conoce como inferencia estadística. Debido a que tal ilativo puede no ser
absolutamente cierto, al presentar las conclusiones, se utiliza a menudo un enunciado probabilístico. Si fuese
posible ensayar un número de especímenes idénticos provenientes de una muestra homogénea, o si el ensayo
fuese no destructivo y pudiese repetirse un determinado número de veces sobre el mismo espécimen, la
determinación de errores accidentales (o errores de observación) pudiera ser relativamente simple ya que las
variaciones pudieran observarse independientemente del espécimen.

Pero puesto que los especímenes perfectos no existen, las variaciones que arrojan los resultados incluyen tanto
las variaciones inherentes al y entre los especímenes, como las causadas por los equipos de ensayo. La mayoría
de los ensayos utilizados en la determinación de las propiedades físicas de las rocas, son destructivos
(completamente o en parte). Por esta razón, es particularmente difícil distinguir entre variaciones accidentales y
variaciones causadas por los cambios en composición o estructura de la roca, debido a que los ensayos no pueden
ser reproducidos con el mismo espécimen (o parte de él). Este problema es aún más complicado al comparar los
resultados de dos o más ensayos diferentes, todos destructivos.

Autor Ing. Álvaro Correa Arroyave Página 38


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

El método usual de registrar los valores mayor, menor y promedio, fracasa al querer dar una idea adecuada de las
propiedades en estudio de la roca. Por ejemplo, al determinar el promedio de lectura de dureza Schmidt, un
espécimen de roca puede ser esencialmente uniforme con inclusiones erráticas ocasionales o impurezas que
explican las altas y bajas lecturas, en tanto que otro, con la misma dureza promedio, puede ser una mezcla
heterogénea en la cual la dureza se distribuya gradualmente desde el mismo alto al mismo bajo valor: de aquí la
importancia de describir correctamente el espécimen. Es necesario, por tanto, conocer no sólo el rango de las
desviaciones con respecto a la media, sino también su frecuencia de ocurrencia y su dispersión.

El manejo estadístico de los resultados de laboratorio, conlleva tener en mente algunos aspectos indispensables
sobre el tratamiento de datos, razón que justifica los siguientes apartes.

3.1.- Medidas de tendencia central

3.1.1.- Promedio o media aritmética. Es un valor típico o representativo de un conjunto de datos. Puesto que tales
valores típicos tienden a situarse centralmente en el interior de un conjunto de datos jerarquizados según su
magnitud, el promedio también es conocido como la medida de la tendencia central. Uno de los promedios más
comunes es el promedio aritmético, o la media aritmética, denotado mediante el símbolo x y calculado de la
siguiente manera; es decir, es la suma de todas las lecturas en la muestra, dividida por el número de lecturas.

x1  x 2  x 3  ......  x n x i
x
x  i 1

n n n

Otras medidas de tendencia central, son:

3.1.2.- Media aritmética ponderada. A veces se asocian las observaciones (lecturas) con ciertos factores-peso tales
como w1, w2,..., wn (que pueden representar, por ejemplo, la frecuencia de ocurrencia), dependientes de la
relevancia asignada a cada una de ellas; en tal caso,

x
x1w 1  x 2w 2  x 3w 3  ......  x nw n

 x.w
w 1  w 2  w 3  ...  w n w
3.1.3.- Media geométrica. La media geométrica de un conjunto de observaciones positivas x 1, x2, x3,..., xn, es la raíz
enésima del producto de dichos valores, así:

G  n x1.x 2 .x3 .... x n

3.1.4.- Media armónica. La media armónica de un conjunto de observaciones x1, x2, x3,..., xn, es el recíproco de la
media aritmética de los recíprocos de esos valores de las lecturas, así:

1 1 1 n
 . o H
1
H n x
x
Las medias aritmética, geométrica y armónica, se relacionan de una forma tal que:

H G  x

Puesto que la igualdad se presenta sólo si el valor de todas las lecturas es el mismo, lo cual está lejos de ocurrir en
una roca intacta, entonces,

H G  x

Autor Ing. Álvaro Correa Arroyave Página 39


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Es decir, la media aritmética es el mayor valor arrojado por las diferentes medias; además, la facilidad y rapidez
en su determinación, son algunas de las razones de su popularidad, la que puede evidenciarse al pensar en el
tratamiento manual de un conjunto de datos. Con los métodos de cálculo disponibles hoy día, aquéllas razones ya
dejaron de ser ventajas. Una gran desventaja de la media, es que se ve muy afectada por los valores extremos, es
decir, por el rango, en tanto que la mediana y la moda dependen sólo de su posición dentro de la serie.

3.1.5.- Media cuadrática. Este concepto se utiliza con frecuencia en aplicaciones físicas. Se define como:

2
x 
x 2

3.1.6.- Media cúbica. Se define mediante la expresión:

3 3
x 3
x 3

3.1.7.- Mediana. En un conjunto de valores de lecturas ordenados en magnitud creciente o decreciente; la


mediana es el valor central o media aritmética de los dos valores centrales. Geométricamente la mediana es el
valor de la abscisa x que corresponde a la vertical que divide un histograma en dos partes de igual área y se
denota, como m.

3.1.8.- Moda. En un conjunto de valores de observaciones, la moda es el valor que se presenta con mayor
frecuencia y que puede existir o no o incluso no ser única; se denota como M. En observaciones simétricas, la
media, la moda y la mediana coinciden, y para observaciones asimétricas a derecha o izquierda, se tiene:

Moda > mediana > media


M>m> x
3.1.9.- Sesgo o asimetría. Fácilmente se puede observar que no siempre los valores de la moda, la mediana y la
media coinciden, por tal motivo se define el sesgo como la variación entre estas tres medidas. No existe una
formulación que permita calcular el sesgo de una variable, sólo se indican algunas recomendaciones.

Si se desea comparar el sesgo de varias muestras, debe utilizarse la relación:

media  mod a
sesgo 
desviación es tan dar

Para distribuciones moderadamente sesgadas, se tiene que:

sesgo  3 mod a  mediana 

El sesgo de una variable se presenta porque en la realidad, ninguna variable posee una distribución de
probabilidad totalmente simétrica.

3.1.10.- Cuartiles. Si un conjunto de datos está ordenado por magnitud, el valor central o media aritmética de los
dos valores centrales que dividen al conjunto en dos mitades iguales, es la mediana. Por extensión de este
concepto, se puede hablar de los valores que dividen al conjunto en 4 partes iguales denotados como Q 1, Q2 y Q3 y
llamados primero, segundo y tercer cuartiles, respectivamente. En este caso, Q2 coincide con la mediana.

Análogamente, los valores que dividen los datos en 10 partes iguales, se llaman deciles y se denotan por D 1, D2,
D3, D4, D5, D6, D7, D8 y D9 mientras que los valores que los dividen en 100 partes iguales, serán percentiles. El 5º
decil y el 50º percentil, coinciden con la mediana, en tanto que los 25° y 75° percentiles, coinciden con el primer y
el tercer cuartiles.

Autor Ing. Álvaro Correa Arroyave Página 40


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Con la finalidad de ilustrar algunos de los diferentes conceptos que se vienen de indicar, se presentan las Tablas
4a, 4b y 5 correspondientes a los resultados de ensayos físicos y mecánicos sobre un gneis micáceo del complejo
metamórfico del Norte de Caldas.

Tabla 4a. Características físico-mecánicas del gneis micáceo del complejo metamórfico del Norte de Caldas,
organizadas en orden descendente según su resistencia a la compresión simple y según su peso unitario

No. Compresión simple Peso Unitario No. Peso Unitario Compresión simple
kg/cm² g/cm³ g/cm³ kg/cm²
Orden descendente de resistencia Orden descendente de peso unitario
1 1330 2,7 1 3,2 1055
2 1250 2,7 2 2,8 1050
3 1245 2,7 3 2,8 96,0
4 1055 3,2 4 2,8 950
5 1050 2,8 5 2,8 860
6 965 2,7 6 2,8 810
7 960 2,8 7 2,8 720
8 950 2,8 8 2,8 660
9 860 2,8 9 2,8 570
10 810 2,8 10 2,8 550
11 720 2,8 11 2,8 500
12 660 2,8 12 2,8 475
13 600 2,7 13 2,8 475
14 575 2,7 14 2,8 340
15 570 2,8 15 2,8 290
16 550 2,8 16 2,8 240
17 500 2,8 17 2,7 1330
18 480 2,7 18 2,7 1250
19 475 2,8 19 2,7 1245
20 475 2,8 20 2,7 965
21 380 2,7 21 2,7 600
22 340 2,8 22 2,7 575
23 330 2,7 23 2,7 480
24 310 2,7 24 2,7 380
25 290 2,8 25 2,7 330
26 270 2,7 26 2,7 310
27 270 2,7 27 2,7 270
28 240 2,8 28 2,7 270
29 190 2,7 29 2,7 190

Autor Ing. Álvaro Correa Arroyave Página 41


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Tabla 4b. Características físico-mecánicas del esquisto cuarzo micáceo del complejo metamórfico del Norte de
Caldas, organizadas en orden descendente según su resistencia a la compresión simple y según su peso unitario

No. Compresión simple Peso Unitario No. Peso Unitario Compresión simple
kg/cm² g/cm³ g/cm³ kg/cm²
Orden descendente de resistencia Orden descendente de peso unitario
1 1950 2,8 1 2,9 1845
2 1845 2,9 2 2,8 1950
3 1375 2,8 3 2,8 1375
4 1270 2,7 4 2,8 1230
5 1230 2,8 5 2,8 1085
6 1085 2,8 6 2,8 1075
7 1075 2,8 7 2,8 1035
8 1035 2,8 8 2,8 930
9 930 2,8 9 2,8 930
10 930 2,8 10 2,8 925
11 925 2,8 11 2,8 795
12 795 2,8 12 2,8 740
13 740 2,8 13 2,8 715
14 715 2,8 14 2,8 615
15 695 2,7 15 2,8 575
16 615 2,8 16 2,8 460
17 575 2,8 17 2,8 430
18 460 2,8 18 2,8 305
19 430 2,8 19 2,7 1270
20 430 2,7 20 2,7 695
21 430 2,7 21 2,7 430
22 380 2,7 22 2,7 430
23 310 2,7 23 2,7 380
24 305 2,8 24 2,7 310

Tabla 5. Medidas de dispersión de c del gneis micáceo y el esquisto cuarzo-micáceo

Medidas de dispersión gneis micáceo esquisto cuarzo


micáceo

Media (kg/cm²), x 645 855


Mediana (kg/cm²), m 570 768
Moda (kg/cm²), M 475 y 270 430
Desviación estándar (kg/cm²), s 337 450
Varianza de la muestra (kg/cm²)², s2 113569 202500
Coeficiente de Variación, C.V. = (s/ x ) x 100 52,3% 52,6%
[190] ; [1330] [305] ; [1950]
Rango (kg/cm²) 1140 1645
Mínimo (kg/cm²) 190 305
Máximo (kg/cm²) 1330 1950
Número de datos 29 24

Autor Ing. Álvaro Correa Arroyave Página 42


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

3.2.- Medidas de dispersión, asimetría y apuntalamiento

El grado en el que los datos numéricos de las observaciones tienden a desviarse en torno a un valor promedio, se
conoce como la variación o dispersión de los datos. Existen varias medidas para el estudio de tal dispersión,
siendo las más comúnmente utilizadas: el rango, la desviación media, la varianza, la desviación estándar o típica y
el coeficiente de variación.

3.2.1.- Rango (R). En un conjunto de observaciones, el rango es la diferencia entre el mayor y el menor valor.

3.2.2.- Desviación Media absoluta (DM). También conocida como desviación media o desviación promedio de un
conjunto de observaciones, se define como:

DM 
 x  x
n

Al hablar del error absoluto, se indicó su determinación mediante un ejemplo.

3.2.3.- Desviación Mediana (DMed). Es la sumatoria de la diferencia entre cada observación y la mediana, dividida
por el número de observaciones; se define como:

DMed 
 x  Med 
n

3.2.4.- Varianza de la muestra (s²). Es la suma de los cuadrados de las desviaciones de las observaciones
individuales, respecto al promedio, dividido por el número total de observaciones menos uno (1). Se calcula
mediante la expresión:

 x 
n
2
i x
s2  i 1
n 1

El denominador se conoce como el número de grados de libertad en la muestra, el cual tiene el mismo significado
en estadística que en geometría y mecánica. El hecho de utilizar (n-1) en vez de (n), permite obtener una mejor
representación y una estimación no sesgada de la varianza de la población a partir de la cual se tomó la muestra.
No obstante, para valores de n superiores a 30, prácticamente no existe ninguna diferencia entre los valores de s²
determinados al utilizar (n) o (n-1).

3.2.5.- Varianza de la población (²). La varianza de la población, ², se calcula mediante la expresión:

 x  
2
i
2  i 1
n

Donde:
xi: iésima observación
: media poblacional
n: tamaño de la población

3.2.6.- Desviación típica o estándar (s). La diferencia del valor de una observación con respecto al valor de la
media, se determina usualmente mediante la desviación estándar, la cual se define como la raíz cuadrada positiva
de la varianza de la muestra, s², y por tanto se evalúa mediante la expresión. El promedio de la muestra y, por
tanto las desviaciones, están relacionadas con el principio estadístico matemático de los mínimos cuadrados, de
la siguiente forma: si las desviaciones de las observaciones se miden a partir del promedio de la muestra, la suma

Autor Ing. Álvaro Correa Arroyave Página 43


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

de sus cuadrados es un mínimo (es decir, la suma de los cuadrados de las desviaciones de un conjunto de datos, X,
a partir de cualquier dato, a, es un mínimo sí y sólo sí a = x ).

2
 n 2 
  xi 
 x   
n n

x
2
x  i 1
2
i i
i 1 i 1 n
s 
n 1 n 1

Para distribuciones normales, el 68,27% de los casos, se encuentra entre ( x -s) y ( x +s); el 95,45% se encuentra
entre ( x -2s) y ( x +2s) y el 99,73% se encuentra entre ( x -3s) y ( x +3s). Para distribuciones poco asimétricas,
los anteriores porcentajes son, igualmente, aproximadamente válidos.

3.2.7.- Coeficiente de Variación (C.V.). La variación, o dispersión real, tal como se determina a partir de la
desviación estándar o de otra medida de dispersión, constituye la dispersión absoluta. No obstante, con el
propósito de comparar el grado de variación en el interior de la muestra, o entre muestras, con respecto a
diferentes propiedades, es más conveniente expresar la desviación estándar como un porcentaje del promedio x
; esto suministra una medida de la dispersión relativa conocida como coeficiente de variación (CV) el cual se
expresa comúnmente en porcentaje y se calcula como:

s
C.V .%   100
x

Puesto que el C.V. es una relación de dos cantidades que tienen la misma unidad de medida, es independiente de
las unidades utilizadas. Una desventaja del coeficiente de variación, es su inutilidad al emplearse cuando x es
cercana a cero.

3.2.8.- Coeficiente de Sesgo (CS). Este coeficiente permite conocer el sesgo de una variable y está definido
mediante la relación:

CS  x  moda

3.2.9.- Apuntalamiento. Indica qué tan aguda es la curva de distribución; es decir, qué tan concentradas están las
observaciones con respecto a un punto medio. Esto se define mediante el coeficiente de normalidad o asimetría,
siempre y cuando la variable sea normal.

P75 P 25
CA 
2P90  P10 

Donde:
CA: Coeficiente de Asimetría
P: Percentil correspondiente al porcentaje i

3.3.- Distribución normal, muestreo e intervalos de confianza

3.3.1.- Distribución normal

Las observaciones que difieren poco de los promedios, se presentan más frecuentemente que las que difieren
mucho. Las desviaciones experimentales en muchos campos de la ciencia, a la par que la teoría, conducen a una
distribución general que relaciona la frecuencia de ocurrencia de una observación, con la cantidad por la cual
difiere de la media de la población. Esto es lo que se conoce como distribución normal y es uno de los ejemplos
más importantes de una distribución de probabilidad continua en estadística.

Autor Ing. Álvaro Correa Arroyave Página 44


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

En la mayoría de los resultados experimentales, es posible asumir una distribución normal. La gráfica que
representa esta distribución tiene la apariencia física de una curva en forma de campana simétrica que se
extiende infinitamente a lo lejos a partir de ambos extremos. Su ecuación es:

2 2
1  x  x  1 x  
    
2  s  2  
f x   y 
e
f x   y 
e
s 2  2
Muestra Población o Universo

Donde:
x: abscisa (valor de lectura individual)
f(x) = y: ordenada (valor de la función de densidad de probabilidad)
: 3,14159
e: 2,71828
x : promedio de las lecturas en la muestra
s: desviación estándar de la muestra
: desviación estándar de la población o universo

Cuando este análisis se lleva a cabo con la población, s se reemplaza s por σ y x por ; luego se dan valores a x
para hallar y. Si el área total entre la curva y el eje x es uno, (100%), entonces, la porción de área bajo la curva
entre 2 valores cualesquiera de x, se encuentra completamente definida, lo que se logra después de haber
determinado x y s. Por integración, se encuentra que el 68,27% del área total de la curva se concentra en el
intervalo ( x s); en 95,00% se presenta en el intervalo ( x 1,96s), en tanto que el 95,45% de las observaciones
se presenta en el intervalo comprendido entre ( x 2s) y sólo el 0,27% de la frecuencia total, yace más allá de un
valor correspondiente a ( x 3s). La Figura 2 indica igualmente que sólo el 5% del área total se encuentra más allá
de ( x 1,96s), (Liu y Thornburn, 1965).

Figura 2. Características de la distribución normal

Otro análisis de probabilidad, con las mismas características del de la distribución normal, es la forma canónica
de la distribución en mención, la cual se utiliza con mayor frecuencia dado que permite realizar un análisis de
resultados con media cero (0) y varianza uno (1). Para el cálculo de la probabilidad, se determina el valor del
normalizador por medio de la expresión:

xx
z
s

Donde:
X: valor puntual del dato analizado, por ejemplo la resistencia a la compresión simple de uno cualquiera de los
núcleos
x : media de la muestra
s: desviación estándar

Autor Ing. Álvaro Correa Arroyave Página 45


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Seguidamente, y utilizando este normalizador, se encuentra el valor de la densidad de probabilidad, por medio de
la siguiente expresión:
1
1  z2
F (z)  e 2

2

A manera de ejercicio, para un gneis micáceo, con una media, x , de 645 kg/cm² y una desviación estándar, s, de
337 kg/cm², se puede definir cuál es la probabilidad de encontrar un valor igual o mayor a 1122 kg/cm², que es el
límite inferior de resistencia a la compresión simple alta, según Deere y Miller.

El valor del normalizador z, conforme a la expresión anterior, es:

x  x 1122  645
z   1,4154
s 337

Con este valor de z, indicado en la Figura 3, se va a la tabla de áreas de la distribución normal, Tabla 6, y se
localiza dicho valor, el cual se encuentra entre 1,41 y 1,42 e indica dos valores del área bajo la curva desde -
hasta el valor de análisis, x (1122), que para el ejemplo son 0,9207 y 0,9222.

Por interpolación lineal, el valor del área correspondiente a z (1,4154) es 0,9215; luego la probabilidad de
encontrar un valor igual o superior a 1122 kg/cm² es de (1,000 – 0,9215), es decir, 0,0785 (7,8%).

Por otro lado, la posibilidad de encontrar un valor menor sería el complemento; esto es, 100% – 7,8% = 92,2%.

Figura 3. Normalizador z para un valor de compresión simple de 1122 kg/cm² para un gneis micáceo

Tabla 6. Tabla de áreas de la distribución normal

Autor Ing. Álvaro Correa Arroyave Página 46


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Fracciones de Z
Z
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,20 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,30 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,40 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,50 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,60 0,7258 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,70 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,80 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,90 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,70 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,80 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,90 0,9981 0,9982 0,9983 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,00 0,9987 0,9987 0,9987 0,9988 0,9989 0,9989 0,9989 0,9989 0,9989 0,9990
3,10 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,20 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,30 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,40 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,50 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,60 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,70 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,80 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000
3,90 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

Si se llevan a cabo varios muestreos con suficientes observaciones, dígase n, a partir de una población con
varianza finita, y se calculan los valores medios, esas muestras promedias también podrían formar una población,
que se conoce como población muestreo de los promedios y su comportamiento se aproximaría igualmente, a una
distribución normal. En una población muestreo de los promedios, la desviación estándar de los promedios s x ,
está relacionada con la desviación estándar de la población, , mediante:

Autor Ing. Álvaro Correa Arroyave Página 47


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL


sx 
n

Esto se conoce estadísticamente como el error estándar. Sobre la base de las características de las poblaciones
muestreo de los promedios y las varianzas, es posible concluir que s² puede utilizarse como un estimativo de ² y
x de  (Liu y Thornburn, 1965).

3.3.2.- Muestreo e intervalos de confianza

Para que las conclusiones de la teoría del muestreo y la inferencia estadística sean válidas, las muestras deben
seleccionarse de tal forma que sean representativas de la población. Un método mediante el cual puede obtenerse
una muestra representativa, es un proceso conocido como muestreo al azar, según el cual, cada espécimen de una
población tiene la misma posibilidad de ser incluido en la muestra.

Puesto que la población muestreo de los promedios tiene un promedio, , y una desviación estándar,  n , y es
normal en su forma, es posible determinar la probabilidad de que una muestra de promedio, x , pueda
encontrarse dentro de una distancia específica del promedio de la población, , fundamentado en las
características de la curva normal. Asumiendo que  y  sean conocidos, las posibilidades son, una vez más:
68,27%, de que el promedio de la muestra, x , se encuentre dentro del abanico (    n ). Similarmente, la
probabilidad para que x se encuentre entre (   2 n ) es 95,45%.

Esta distancia puede definirse para cubrir cualquier probabilidad especificada como (   z n ). Si se suma
x a cualquiera de estas distancias, se obtendrá un intervalo que incluye  para una probabilidad específica,
dependiendo del valor seleccionado para z. La distribución z es una distribución normal estándar obtenida, para
esta condición, a partir de la ecuación:

x
z

Si se selecciona una probabilidad del 95%, el valor de z sería 1,96. En otras palabras,  se encontrará en el rango (
x - 1,96 n ) y ( x + 1,96 n ), lo cual puede indicarse geométricamente como lo muestra la Figura 4.

Figura 4. Intervalo de confianza

Si se establece un intervalo en torno a x , la probabilidad del 95% de que  se encuentre en algún lugar de dicho
intervalo, es lo que se conoce como el intervalo de confianza; esto es, existe una seguridad del 95% de hallar el
promedio de la población, , dentro de dicho intervalo. Usualmente los dos parámetros de la población  y  son
desconocidos; sin embargo, los estadísticos de la muestra x y s son conocidos. Como se indicó previamente, x
es un estimado de  y s, un estimado de .

Cuando se utilizan los estadísticos ( x y s) en lugar de los parámetros ( y σ), la desigualdad del intervalo de
confianza es:

 t.s   t.s 
x      x  
 n  n

Autor Ing. Álvaro Correa Arroyave Página 48


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

La distribución t (student) es similar a una distribución normal z y se le aproxima bastante bien a condición de
que el tamaño de la muestra sea grande. Generalmente t es mayor que z para una probabilidad específica. Los
valores de t pueden encontrarse en la mayoría de los textos estadísticos.

Los valores de ( x  t.s n ) o ( x  t.s x ) son conocidos estadísticamente como límites de confianza y t.s n o
t.s x , como el límite de exactitud.

Mayor sea el valor de s, mayor será el intervalo de confianza debido a que éste es directamente proporcional al
tamaño de la desviación estándar. Las áreas sombreadas de la figura 2 están compuestas, cada una, de 2,5% del
área total. Éstas son las áreas de la distribución estadística en las cuales una hipótesis será rechazada y se
conocen como regiones críticas o regiones de significación. La probabilidad de rechazar la hipótesis de que  se
encuentre dentro de estas regiones críticas (cuando en realidad se presenta) es del 5%, debido a que las regiones
críticas son determinadas para el valor t en el punto del 95%.

De esta manera, existen cerca de 5 probabilidades entre 100 de que se rechace la hipótesis cuando en verdad
debería aceptarse; es decir, se tiene el 95% de certeza de que se haya tomado la decisión correcta. Esta
probabilidad se conoce como el nivel de significación y se denota con la letra griega, . Usualmente se afirma que
un resultado es significativo si la hipótesis se rechaza con un valor de  = 0,05, y altamente significativo si se
rechaza con  = 0,01.

Estas hipótesis son designadas convencionalmente como significativas a nivel del 5% y del 1%, respectivamente.

Puede apreciarse que cuando el nivel de significación aumenta, el intervalo de confianza será más amplio debido
a que las probabilidades de rechazar una hipótesis verdadera, decrecen (Liu y Thornburn, 1965).

4.- AJUSTE DE CURVAS Y MÉTODO DE LOS MÍNIMOS CUADRADOS

4.1.- Ajuste de curvas

Frecuentemente es deseable expresar una relación existente entre dos o más variables en forma matemática,
mediante la determinación de una ecuación que las contenga.

Cuando se grafica una serie de observaciones correspondientes (x 1,y1), (x2,y2)… (xn,yn), etc. en un sistema de ejes
coordenados cartesianos, al conjunto de puntos resultantes se le conoce como diagrama de dispersión. Si los
datos parecen aproximarse bastante bien a una línea recta, se dice que existe una relación lineal entre dichas
variables. No obstante, si una curva parece aproximarse mejor, se concluirá que existe una relación no lineal. El
tratamiento general de hallar las ecuaciones que explican dichos comportamientos al ajustar los conjuntos de
datos, se conoce como ajuste de curvas.

4.1.1.- Ecuaciones de curvas aproximadas

A continuación se enlistan varios tipos comunes de curvas aproximadas y sus ecuaciones, para facilitar los
trabajos posteriores.

Todas las letras, excepto X y Y, representan constantes. Las variables X y Y, se llaman variable independiente y
variable dependiente, respectivamente, aunque estas cualidades pueden intercambiarse.

Las anteriores expresiones representan polinomios de uno, dos, tres, cuatro y n grados, respectivamente.
Igualmente, otras de las muchas ecuaciones que se utilizan frecuentemente en la práctica, son:

Línea recta y = A + Bx
Parábola, o curva cuadrática y = A + Bx + Cx2
Curva cúbica y = A + Bx + Cx2 + Dx3
Curva cuártica y = A + Bx + Cx2 + Dx3 + Fx4
Curva de grado n y = A + Bx + Cx2 + …… + Nxn

Autor Ing. Álvaro Correa Arroyave Página 49


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

1.- Hipérbola

1 1
Y ó  ab X
ab X Y

2.- Curva exponencial

Y  a bX ó logY  log a  log b X  a  b X

Y  a ebX ó Ln Y  Ln a  b X

3.- Curva exponencial modificada

Y  a bX  g

4.- Curva geométrica

Y  a Xb ó log Y  log a  b log X

Y  Xa ó log Y  a log X

5.- Curva geométrica modificada

Y a Xb g

6.- Curva logística

1 1
Y ó  a bX  g
ab g X
Y

Y  a  b log X  c log X 
2

Para decidir qué curva utilizar, es muy útil graficar los diagramas de dispersión de variables transformadas.

Por ejemplo, si un diagrama de dispersión de log Y vs X indica una relación lineal, la ecuación tiene una forma
exponencial, mientras que si log Y vs log X es lineal, la ecuación tiene una forma geométrica. Suele utilizarse papel
gráfico especial para facilitar la decisión sobre la curva a utilizar. Los papeles gráficos pueden ser a escalas
naturales o aritméticas, semilogarítmicas o doblemente logarítmicas.

4.2.- Método de los mínimos cuadrados

A fin de evitar los juicios subjetivos en la construcción de líneas, parábolas u otras curvas aproximadas para
ajustar conjuntos de datos, es necesario convenir lo que se entiende por una línea, parábola u otra curva mejor
ajustada.

La Figura 5, muestra un diagrama de dispersión obtenido a partir de una serie de observaciones. Para un valor
determinado de x, por ejemplo x1, existe una diferencia entre el valor de y1 y el correspondiente valor tal como se
determina a partir de la línea (curva) c.

Como se indica en la figura, esta diferencia se denota como D1, la cual alude a una desviación, error o un valor
residual, y puede ser positivo, negativo o cero. Similarmente, correspondientes a los valores x 2,....., xn, se
obtendrán, D2, ....., Dn. De todas las líneas (o curvas) que se aproximan a un conjunto de parejas de puntos dado,
aquélla que tenga la propiedad de hacer mínima la sumatoria D 1² + D2² + …... + Dn², se conoce como la curva de

Autor Ing. Álvaro Correa Arroyave Página 50


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

ajuste óptimo. Una línea (curva) que cumpla esta propiedad, se conoce como la línea (curva) de ajuste de las
parejas de puntos en el sentido de los mínimos cuadrados y se llama línea (curva) de los mínimos cuadrados, si
cumple dicha propiedad.

Figura 5. Diagrama de dispersión indicando la relación entre las variables X y Y

La definición anterior se aplica cuando X es la variable independiente y Y la dependiente. Si X es la variable


dependiente, la definición se modifica al considerar desviaciones horizontales en lugar de verticales, lo cual
conlleva a intercambiar los ejes X y Y. Estas dos definiciones, en general, conducen a diferentes líneas de mínimos
cuadrados. De esta forma, cuando estas dos líneas tienen una coincidencia muy estrecha, es un indicio que los
datos están muy bien descritos mediante una relación lineal. Las relaciones no lineales pueden reducirse
usualmente a relaciones lineales mediante una transformación apropiada de variables, tales como las funciones
logarítmicas. En tales casos, pueden aplicarse los mismos métodos para el ajuste de la curva tal como los
utilizados para las relaciones lineales.

4.2.1.- Correlación y regresión

Correlación

El grado de interconexión entre variables, o correlación, busca determinar la precisión con la que una ecuación
lineal u otra, describe o explica la relación entre variables. Si todos los valores de las variables satisfacen
perfectamente bien una ecuación, se dirá que las variables correlacionan perfectamente, o que existe una
correlación perfecta entre ellas.

Regresión o estimación

A menudo se desea estimar, basado en datos de una muestra, el valor de una variable Y correspondiente a un
valor dado de la variable X. Esto se puede hacer estimando el valor de Y mediante una línea (curva) de mínimos
cuadrados que ajuste los datos de la muestra. La línea (curva) resultante se conoce como línea (curva) de
regresión de Y sobre X, puesto que Y se estima a partir de X. Recíprocamente, el valor de X puede estimarse a
partir de la línea (curva) de regresión de X sobre Y, que viene a ser un intercambio de las variables en el diagrama
de dispersión, de modo que X sea la variable dependiente y Y la independiente, que equivale a sustituir las
desviaciones verticales por horizontales en la definición de la línea (curva) de mínimos cuadrados. En general, la
línea (curva) de regresión de Y sobre X no es la misma que la línea (curva) de regresión de X sobre Y. Cuando sólo
se involucran dos variables, se está frente a una correlación y una regresión simples. Cuando se hacen intervenir
más de dos variables, se está frente a una correlación y regresión múltiples.

Correlación Lineal

Si todas las parejas de puntos en un diagrama disperso, Figura 6, parecen agruparse en torno a una línea, como en
la figura 5, la correlación se conoce como lineal. Si Y tiende a incrementar cuando X incrementa, la correlación es
positiva o directa, mas si Y tiende a decrecer cuando X crece, la correlación es negativa o inversa. Si no existe
ninguna relación entre las variables, es porque ellas no tienen ninguna correlación. La correlación es no lineal si
todos los puntos parecen situarse cerca de alguna curva.

Autor Ing. Álvaro Correa Arroyave Página 51


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Figura 6. Diagrama de dispersión donde se indica una correlación lineal, tanto positiva como negativa, y una
serie de datos en la que no se puede plantear una correlación

Recta de regresión por mínimos cuadrados

La línea de regresión de mínimos cuadrados de Y sobre X, responde a la ecuación:

Y  ab X

Donde:
Y: variable dependiente
X: variable independiente
a: intercepto de la línea de regresión con el eje Y
b: pendiente de la línea de regresión, llamada también coeficiente de regresión

Por medio del cálculo, se obtienen las así llamadas ecuaciones normales, las cuales se expresan de la siguiente
manera:

 Y  an  b X
 X Y  a  X  b X ²
Estas dos ecuaciones se resuelven simultáneamente para obtener a y b, así:

Y  X ²    X  X Y 


a
n X ²   X ²

n X Y   X  Y 
b
n X ²   X ²

De forma similar se obtiene la línea de regresión de X sobre Y, ( X  c  d Y ).

Sin embargo, la línea de mínimos cuadrados resultante es, en general, distinta de la definida previamente. Las dos
líneas de regresión por mínimos cuadrados obtenidas de esta manera, pasan a través del punto ( x , y ), que es el
centroide o centro de gravedad de los datos. Estas ecuaciones de regresión son idénticas si y sólo si, todos los
puntos del diagrama disperso se presentan sobre una línea. En tal caso, existe una correlación perfecta entre X y
Y (Spiegel, 1961).

Parábola de mínimos cuadrados

Una parábola de mínimos cuadrados que aproxima el conjunto de puntos (X1, Y1), (X2, Y2), ..., (Xn, Yn) tiene una
ecuación dada por:

Autor Ing. Álvaro Correa Arroyave Página 52


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Y  ab X c X²
Donde:
Las constantes a, b y c se determinan al resolver simultáneamente el sistema de ecuaciones siguiente:

Y  aN  b X  c X 2
 XY  a X  b X 2  c X 3
X Y 2
 a X 2  b X 3  c X 4

Estas ecuaciones se conocen como ecuaciones normales de la parábola de mínimos cuadrados.

Las anteriores ecuaciones se deducen fácilmente observando que se pueden obtener multiplicando la ecuación
que describe la parábola de mínimos cuadrados por 1, X y X², respectivamente, y utilizando el signo de sumatoria
en ambos lados de las ecuaciones resultantes.

Esta técnica puede extenderse para obtener ecuaciones normales para curvas cúbicas de mínimos cuadrados,
curvas cuárticas de mínimos cuadrados, y, en general, cualquiera de las curvas de mínimos cuadrados
correspondientes a la ecuación de regresión de grado n. Como en el caso de la recta de mínimos cuadrados, el
sistema de ecuaciones anterior se simplifica si se elige X de modo que 
X  0 , también se produce una
simplificación tomando como nuevas variables x  X  X e y  Y  Y .

Problemas en más de dos variables

Los problemas que involucran más de dos variables, pueden tratarse de manera análoga a los de dos variables.
Por ejemplo, puede haber una relación entre tres variables X, Y y Z, descrita por la ecuación:

Z  ab X cY

Esta ecuación se denomina ecuación lineal en las variables X, Y y Z. En un sistema de coordenadas rectangulares
tridimensional, dicha ecuación representa un plano, y los puntos (X1, Y1, Z1), (X2, Y2, Z2), (Xn, Yn, Zn) de la muestra,
pueden dispersarse no lejos de ese plano, que se llama plano aproximante. Por extensión del método de los
mínimos cuadrados, se puede hablar de un plano de mínimos cuadrados que aproxima los datos. Si se está
estimando Z a partir de valores de X e Y, se llama un plano de regresión de Z sobre X y Y. Las ecuaciones normales
correspondientes al plano de mínimos cuadrados están definidas por:

Z  aN  b X  c Y
X Z  a X  b X 2
 c X Y
Y Z  a Y  b X Y  c Y 2

Se puede retener su deducción, simplemente, multiplicando la ecuación que describe la relación entre dos o más
variables, en este caso, Z  a  b X  c Y , por 1, X e Y, sucesivamente, y utilizando el signo de sumatoria en
ambos lados de las ecuaciones resultantes, después.

Coeficiente de correlación

Un coeficiente de correlación es una medida de la intensidad de asociación o relación entre variables. El


coeficiente de regresión, por su parte, describe el cambio en la variable dependiente como resultado del cambio
de la variable independiente. A diferencia de una varianza o un coeficiente de regresión, el coeficiente de
correlación es independiente de las unidades de medición; es una cantidad absoluta o adimensional. El uso de X y
Y ya no se tiene en mira para significar una variable independiente y una dependiente. La variación total es una
 
medida de la dispersión. La variación total de Y se define como  Y  y ; es decir, la sumatoria de los
2

cuadrados de las desviaciones de los valores de Y a partir del promedio y . Esto puede escribirse mediante la
ecuación:

Autor Ing. Álvaro Correa Arroyave Página 53


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

 Y  y    Y  Y    Y 
2 2 2
est est y

Donde:
Y est : valor de Y para valores dados de X, tal como se estima a partir de la ecuación Y  a  b X

 Y  y 
2
: variación total

 Y  Y  : variación no explicada
2
est

 Y 
2
est  y : variación explicada

Cuando no se trata de la variación total, cada uno de los 3 términos anteriores, se divide por (n – 1).

 
Las desviaciones Yest  y tienen un patrón definido, en tanto que las desviaciones Y  Yest  se comportan de
forma impredecible.

La relación de la variación explicada respecto a la variación total, se conoce como el coeficiente de determinación
y se denota como r²; por tanto, siempre es positivo. Si la variación explicada es cero, el cociente es cero, mas si la
variación inexplicada es cero, el cociente es uno.

La raíz cuadrada del coeficiente de determinación, es conocida como coeficiente de correlación, r, el cual está
definido entonces así:

 Y  y 
2
var iación exp licada
r 
est

 Y  y 
2
var iación total
Esto es,

S 2 y ,x S 2 x,y
r  1  1 
S2y S2x

Donde:

 Y  y 
2

Sy  Desviación típica de Y
n  2

 X  x 
2

SX  Desviación típica de X
n  2
La cantidad r varía entre +1 y -1 los cuales representan los valores para una correlación perfecta. Los signos + y –
denotan correlaciones lineales positivas o negativas, respectivamente. El rango práctico de r varía de un campo
de investigación a otro. En algunos estudios, los investigadores podrán considerar un valor de r = 0,90 como bajo,
en tanto que en otros, un valor de r = 0,20 puede considerarse como excepcionalmente alto.

Error típico o estándar de estimación

Como se viene de indicar, ninguna relación es perfecta; por tanto, los valores reales no coincidirán con los valores
teóricos estimados a partir de la línea (curva) de regresión. Si la dispersión se mide con exactitud, se determina la
variación y se establece un rango dentro del cual caerá un porcentaje dado de valores. El error estándar de
estimación, Sy,x es una medida de la dispersión en torno a la línea (curva) de regresión de Y sobre X, y se calcula
mediante la expresión:

Autor Ing. Álvaro Correa Arroyave Página 54


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

 Y  Y 
2

Sy , x  est

n  1
Similarmente, el error estándar de estimación de X sobre Y se obtiene al intercambiar Y con X en esta ecuación.

El error estándar de estimación tiene propiedades análogas a las de la desviación estándar. Si se construyen
líneas paralelas a la línea (curva) de regresión de Y sobre X a distancias verticales respectivas de  Sy,x,  2Sy,x y 
3Sy,x, con respecto a ella, aproximadamente el 68%, el 95% y el 99,7% de las lecturas de la muestra estarán
incluidas entre estas líneas.

Límites de confianza

Una estimación imparcial de la verdadera varianza en torno a la regresión, está dada por el cuadrado del
promedio residual con (n - 1) grados de libertad, y está definida por el cuadrado de la ecuación anterior; es decir,
mediante la expresión:

 Y  Y  Y  a  Y  b X Y
2 2

S 2
 est
S 2 y,x 
n  1 n  1
y ,x

La Figura 7 muestra cómo una desviación estándar simple de Y para un valor fijo de X (por ejemplo, el error
estándar de estimación) no aplica a todos los valores de Yest sino que puede depender del valor de X que
determine la población Y. Para un conjunto fijo de valores de X, el valor de x es una constante, en tanto que y y
b son variables. La variación en y eleva o abate la línea (curva) de regresión paralela a ella misma
(incrementando o decreciendo de esta manera todos los estimativos de promedios por un valor fijo).

S 2y ,x
S 2b 
 X  x 
2

Figura 7. Efecto de la variación del muestreo sobre la regresión estimada a partir de los promedios de la
población (Steel y Torrie, 1960)

La variación en b hace rotar la línea de regresión en torno al punto ( x , y ) pero no tiene ningún efecto sobre el
estimado del promedio cuando X = x ; de otra manera, incrementa el estimado del promedio en proporción al
tamaño de (X – x ). Esto es fácilmente discernible a partir de la ecuación que estima la población media,

Autor Ing. Álvaro Correa Arroyave Página 55


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

 
Yest  y  b X  x . Una desviación estándar aplicable a un estimado de un promedio, debe tener en cuenta la
variación tanto en y como en b, y para la distancia (X – x ). La varianza de y es un estimado de σ²y,x/n,
especialmente de S²y,x/n. Un estimado de la varianza de b está dado por la ecuación:

1
S 2 y,x  
X x 
2
 

n  X  x 

2
 
 
La varianza requerida de un estimado, Yest  y  b X  x , de una población media, está dada por la suma de
 
las varianzas de y y b X  x tal como se indica:

Yest  y  b X  x  
Esta ecuación se deduce a partir de la ecuación que estima la población media.

Esta varianza incrementa a la vez que lo hace la diferencia (X – x ). Si se graficara t veces la desviación estándar al
lado de la línea (curva) de regresión, se formaría la franja de confianza mostrada en la figura 7. A fin de establecer
un intervalo de confianza sobre el estimado del promedio, la varianza de la ecuación anterior debe añadirse a la
ecuación de regresión. Los límites de confianza del 95%, se definen, entonces, mediante:


Límite de confianza de (Yest) = y + b X  x  t 0, 05 S y , x 1

X  x2

 X  x 
2
n

En donde t se determina para (n – 2) grados de libertad. Si se va a realizar una predicción, es usualmente una
predicción de eventos individuales antes que para la población. De esta forma, el elemento al azar es una fuente
adicional de incertidumbre y la anterior ecuación se modifica de la siguiente manera:

 
Límite de confianza de (Yest) = y + b X  x  t 0,05 S y , x 1  1  X  x 2

 X  x 
2
n

Utilizando este procedimiento, puede graficarse una franja de confianza para Y, la cual es un tanto más ancha que
la definida por la ecuación anterior. En general, se espera que cerca del 5% de las lecturas en la muestra, se
encuentren por fuera de la franja definida por esta última expresión (Snedecor, 1956).

5.- ANÁLISIS MULTIVARIABLE

En muchos casos prácticos, un parámetro puede depender de más de una variable independiente. Si las variables
de este tipo cambian al azar completamente, se puede utilizar la regresión simple como en el caso de una variable
independiente, aun cuando esto produce cierta pérdida de precisión en el cálculo. Sin embargo, si las variables
independientes tienden a variar de acuerdo con algún patrón, la regresión simple da lugar a resultados confusos,
debiéndose emplear la regresión múltiple.

La diferencia entre ambos métodos radica en el hecho de que la regresión múltiple establece el efecto de una
variable independiente, mientras las otras variables del mismo tipo se mantienen constantes, en tanto que la
regresión simple no controla las demás variables.

Un ejemplo de un problema que comporta regresión múltiple, lo proporciona la influencia de la dureza Schmidt
de una roca y el índice de carga puntual sobre la resistencia a la compresión de la misma; puesto que estos
parámetros indican qué tanta carga puede soportar una roca, una sola correlación no puede eliminar el efecto de
una variable (la dureza) cuando se mide el efecto de la otra (el índice de carga puntual); sólo la correlación
múltiple logra esta finalidad.

Autor Ing. Álvaro Correa Arroyave Página 56


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

5.1.- Ecuación de regresión

Considérese el caso general de una relación lineal entre el valor medio de la variable dependiente, y, y las
variables independientes x1, x2, …, xk; lo cual se puede expresar así:

y  b0  b1 x1  b2 x2    bk xk (1a)

Donde:
b0 es una constante
b1, b2, …, bk son los coeficientes parciales de regresión

La ecuación anterior representa un plano en (k+1) dimensiones, que pasa por el centroide de todos los valores
observados; es decir, la anterior expresión se satisface para y , x 1 , …, x k , respectivamente.

De ahí que:

y  b0  b1 x1  b2 x 2    bk x k (1b)

O bien,

b0  y  b1 x1  b2 x 2    bk x k

Sustituyendo bo en la expresión 1a, se obtiene:

   
y  y  b1 x1  x1  b2 x2  x 2    bk xk  x k   (2)

Los coeficientes se determinan mediante el método de los mínimos cuadrados; para mayor simplicidad sólo se
considerará el caso de dos variables independientes.

Esto es,
y  b0  b1 x1  b2 x2

Con n conjuntos de observaciones. En cada caso, el residuo está dado por:

  y  b0  b1 x1  b2 x2  (3)

Y la suma de los cuadrados de los residuos en n conjuntos es:

   y  b0  b1 x1  b2 x2  (4)
2 2

Al emplear el principio de los mínimos cuadrados, se minimiza  2


; es decir, se satisface la condición de que
todas las derivadas parciales de  2
con respecto a b0, b1 y b2, son iguales a cero:


  2   2 y  b  b1 x1  b2 x2   0
b0
 0


  2   2
b1
 x y  b
1 0  b1 x1  b2 x2   0

Autor Ing. Álvaro Correa Arroyave Página 57


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL


  2   2
b2
 x y  b
2 0  b1 x1  b2 x2   0

De aquí que las ecuaciones normales se puedan formular de la siguiente manera:

 y  nb 0  b1  x1  b2  x2 (5a)

x y  b x
1 0 1  b1  x12  b2  x1 x2 (5b)

x y  b x
2 0 2  b1  x1 x2  b2  x22 (5c)

La solución de este sistema de tres ecuaciones simultáneas, arroja como resultado los valores de b 0, b1 y b2.

Es posible simplificar la formulación de la ecuación del plano de regresión, al elegir el centroide como origen, así:

Y  y y
X 1  x1  x1
  
X k  xk  x k

De esta manera, la ecuación 2, se convierte en:

Y  b1 X 1  b2 X 2    bk X k
Y el residuo será:

  Y  b1 X 1  b2 X 2    bk X k 

Si sólo se consideran las dos variables independientes, X1 y X2 y se toman derivadas parciales de  2


con
respecto a b1 y b2, se obtiene:

X Y b X
1 1
2
1  b2  X 1 X 2 (6a)

X Y b X
2 1 1 X 2  b2  X 22 (6b)

La solución del sistema de estas dos ecuaciones proporciona los valores de los coeficientes de regresión, y, por
tanto, la ecuación del plano de regresión.

5.2.- Límites de confianza de un coeficiente de regresión parcial

Para obtener la desviación estándar de cada coeficiente de regresión parcial, se requiere conocer la varianza
2
residual de la variable dependiente, y, designada como s y / x , la cual se puede expresar así:

s 2

 i
2

(7)
n  k  1
y/x

En la que i es la desviación del valor observado de y a partir del valor dado por el plano de regresión; esto es:

 i  y  y' '

Autor Ing. Álvaro Correa Arroyave Página 58


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Donde y’’ es la estimación de y proveniente del plano de regresión; n, es el número de observaciones de y, y k, es


el número de variables independientes de que depende y.

El término del denominador n – (k + 1) es, de esta forma, el número de grados de libertad para calcular s y2 / x ,
dado que los (k + 1) parámetros (b0, b1, …, bk) fueron calculados a partir de los datos para dar como resultado la
estimación de y’’. De ahí que hayan (k + 1) limitaciones al calcular i en la ecuación 7.

En el caso de dos variables independientes, x1 y x2, la varianza residual se convierte, después de desplazar el

origen al centroide y , x 1, x 2 , en: 
  Y  Y ' '  Y  b X  b2 X 2 
2 2 2

  
2 i 1 1
s
n  k  1 n  2  1 n  3
y/x

En la que Y es el valor estimado determinado por la ecuación de regresión. Ampliando los términos que se
encuentran entre paréntesis, se observa que:

s 2

Y 2
 2b1  YX 1  2b2  YX 2  b12  X 12  b22  X 22  2b1b2  X 1 X 2
y/x
n  3
Al multiplicar el primer término de la ecuación X Y  b X b X X 1 1
2
1 2 1 2
por b1, y el segundo,

X Y b X X
2 1 1 2  b2  X 2
2
, por b , y sustituir los valores de b  X y b  X
2 1
2
1
2 2
2
2
2
en la anterior expresión,
se obtiene que:

s y2 / x 
Y 2
 b1  X 1 Y  b2  X 2 Y
(8)
n  3
La desviación estándar de un coeficiente de regresión parcial se calcula a partir de la muestra, como sigue:

sb j  sy / x e jj (9)

Donde, en el caso general, j = 1, 2, …, k y ejj es el elemento diagonal correspondiente de A -1. De este modo, para el
caso de los dos coeficientes de regresión b1 y b2, se tiene:

s b1  s y / x e11 y sb2  s y / x e22 (10)

Donde:

e11 
X 2
2
y e22  X 1
2

(11)
 X  X   X X2 X X   X 1 X 2 
2 2 2 2 2 2
1 2 1 1 2

  X1 X 2
Y además, e12  e21 
 X  X   X X 
2 2 2
1 2 1 2

Para obtener la desviación estándar de la constante b 0, de la ecuación 1, a fin de lograr una simplificación, sólo se
toman los términos hasta b2x2; por tanto:

b0  y  b1 x1  b2 x 2
De manera que la variancia de b0 es:

Autor Ing. Álvaro Correa Arroyave Página 59


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

 b2   y2 / x  x1  b2  x 2  b2  2 x1 x 2 covb1 b2 
2 2
0 1 2

En la que cov(b1 b2) es la covarianza de x1 y x2. Así pues, la desviación estándar de la constante b0 se estima a
partir de la muestra mediante:

1/ 2
1 2 2 
sb0  sy / x   x1 e11  x 2 e22  2 x1 x 2 e12  (12)
n 

Ahora se puede poner a prueba la significación de los coeficientes de regresión. Esto es importante, ya que quizá
se han supuesto variables independientes que no influyen significativamente en y. La significación de b1 es puesta
a prueba por:

b1
t1  (13)
s b1

Se aplican pruebas similares a otros coeficientes.

El número de grados de libertad es en este caso, (n – 3), dado que se utilizaron restricciones al fijar el plano; esto
es, al determinar los valores de y , b1 y b2 (o bien b0, b1 y b2). Si se observa que un coeficiente de regresión no es
significativo en términos estadísticos, se debe revisar la ecuación. La variable independiente que no influye
significativamente en la variable dependiente, se elimina, y se calculan nuevos coeficientes de regresión. Si b1 es
significativo, su intervalo de confianza estará dado por b1 ± t sb1 . A fin de establecer si un coeficiente de regresión
bj difiere significativamente de un valor (por ejemplo, un valor teórico) b 0j , se aplica la prueba t:

b j  b 0j
t (14)
sb

Se rechaza la hipótesis nula al nivel de significación estipulado si t excede al valor crítico dado en una tabla de
distribución de t para diferentes probabilidades de niveles de significación y grados de libertad con  = n – (k + 1)
grados de libertad, tal como se indica en la Tabla 7.

5.3.- Significación de la regresión múltiple en conjunto

En ocasiones, la ecuación supuesta de la regresión puede no ser significativa en términos estadísticos. Saber si
esto ocurre así, se determina mediante la comparación de la varianza aportada por la regresión y la varianza de
error s y2 / x , valiéndose de la prueba F. Para el caso de tres coeficientes, b0, b1 y b2 (k = 2), la suma de los
cuadrados de las desviaciones en y explicadas por la regresión es:

c 2
 b1  X 1 Y  b2  X 2 Y (15)

Por tanto, F se calcula así:

 c  2

k (16)
F 2
s y/x

Con el número de grados de libertad 1 = k = 2 como numerador, ya que sólo hay dos parámetros, y como
denominador 2 = n – (k + 1) = (n – 3).

Autor Ing. Álvaro Correa Arroyave Página 60


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Tabla 7. Distribución t. Valores de t para diferentes niveles de significación de una variable aleatoria que cae
dentro de las áreas sombreadas, según el número de grados de libertad

Grados de libertad Probabilidad 


 0,1 (10%) 0,05 (5%) 0,01 (1%) 0,001 (0,1%)
1 6,314 12,706 63,657 636,619
2 2,920 4,303 9,925 31,598
3 2,353 3,182 5,841 12,941
4 2,132 2,776 4,604 8,610
5 2,015 2,571 4,032 6,859
6 1,943 2,447 3,707 5,959
7 1,895 2,365 3,499 5,405
8 1,860 2,306 3,355 5,041
9 1,833 2,262 3,250 4,781
10 1,812 2,228 3,169 4,587

Si F calculada es mayor que el valor tabulado en la tabla de distribución de la razón de varianza F (para niveles de
significación del 5% y del 1%), Tabla 8, para el caso de un nivel de significación dado, entonces se rechaza la
hipótesis de que todos los coeficientes verdaderos de regresión parcial son iguales.

Tabla 8. Distribución de la razón de varianza F para un nivel de significación del 5%*

2
1 1 2 3 4 5 6 7 8 9
1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 . . .
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 . . .
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 . . .
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 . . .
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 . . .
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 . . .
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 . . .
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 . . .
* Si F calculado excede el tabulado, al nivel especificado con 1 y 2 grados de libertad, entonces se rechaza la
hipótesis nula.

5.4.- Coeficiente de correlación múltiple

Autor Ing. Álvaro Correa Arroyave Página 61


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

El cuadrado del coeficiente de correlación múltiple de la población, se define como la porción de la varianza total
de y que es producida por su regresión sobre las variables x 1, x2, …, xk. Tal coeficiente puede estimarse a partir del
cuadrado del coeficiente de correlación múltiple de la muestra, así:

r 2

c 2

(17)
Y 2

Donde r es el coeficiente de correlación múltiple. Como en el caso de la regresión lineal simple, un valor de cero
no produce correlación entre y y las variables x1, x2, …, xk, en tanto que el valor de 1 significa que todos los puntos
de la muestra quedan exactamente en el plano de regresión (en el caso de tres variables independientes). Para
poner a prueba la significación de r, se emplea la tabla de los valores del coeficiente de correlación r para los
diferentes números totales de variables (k + 1) y valores de , o número de grados de libertad,  = n – (k + 1),
según el nivel de significación que se desee confrontar, Tabla 9.

Tabla 9. Valores críticos del coeficiente de correlación r*

Nivel de significación, 5% Nivel de significación, 1%


Número Total de Variables Número Total de Variables
 2 3 4 5 2 3 4 5 
1 0,997 0,999 0,999 0,999 1,000 1,000 1,000 1,000 1
2 0,950 0,975 0,983 0,987 0,990 0,995 0,997 0,998 2
3 0,878 0,930 0,950 0,961 0,959 0,976 0,983 0,987 3
4 0,811 0,881 0,912 0,930 0,917 0,949 0,962 0,970 4
5 0,754 0,836 0,874 0,898 0,874 0,917 0,937 0,949 5
6 0,707 0,795 0,839 0,867 0,834 0,886 0,911 0,927 6
7 0,666 0,758 0,807 0,838 0,798 0,855 0,885 0,904 7
8 0,632 0,726 0,777 0,811 0,765 0,827 0,860 0,882 8
9 0,602 0,697 0,750 0,786 0,735 0,800 0,836 0,861 9
10 0,576 0,671 0,726 0,763 0,708 0,776 0,814 0,840 10
11         11
* Si r calculada excede r tabulada, entonces la hipótesis nula que establece que no hay relación entre las variables,
se rechaza al nivel dado. Se trata de una prueba de colas.

Se rechaza la hipótesis nula que establece que el coeficiente de correlación múltiple de la población es cero si r
excede el valor tabulado al nivel de significación especificado. Cuando se rechaza la hipótesis, se dice que la
regresión de y sobre las variables x1, x2,…, xk, explica una significativa cantidad de variación en y.

El grado de asociación existente entre cualquiera de las dos variables, se puede verificar así:

ryx1 
X Y 1
(18a)
 X Y
1
2 2

ryx2 
X Y 2
(18b)
 X Y
2
2
2

Autor Ing. Álvaro Correa Arroyave Página 62


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

rx1x2 
X X 1 2
(18c)
X X 1
2 2
2

5.5.- Ejemplo

Se llevó a cabo un experimento para determinar la relación existente entre el contenido de humedad en la
densidad óptima y el de cal y puzolana, en la estabilización de una arcilla muy plástica. Los datos se indican en la
Tabla 10.

Tabla 10. Contenido de agua en la arcilla, según el porcentaje de óxido de calcio y de puzolana
Porcentaje de agua Porcentaje de cal Porcentaje de puzolana
y x1 x2
27,50 2,00 1,80
28,00 3,50 16,50
28,80 4,50 10,50
29,10 2,50 2,50
30,00 8,50 9,00
31,00 10,50 4,50
32,00 13,50 1,50

Se pide:

1.- Ajustar los datos a una ecuación de la forma: y  b0  b1 x1  b2 x2

2.- Utilización de la prueba F para verificar si esta forma de ecuación es significativa en términos estadísticos o
no, empleando un valor de  = 1%

3.- Utilizar la prueba t para comprobar el significado de los coeficientes de regresión parcial a nivel del 1%

4.- Calcular el coeficiente múltiple r y probar su significación, utilizando  = 1%

Desarrollo

1.- Ajuste de los datos a una ecuación de la forma: y  b0  b1 x1  b2 x2

A fin encontrar los tres coeficientes desconocidos b0, b1 y b, se deben resolver simultáneamente las siguientes 3
ecuaciones:

De (5):
 y  nb 0  b1  x1  b2  x2

x y  b x
1 0 1  b1  x12  b2  x1 x2

x 2 y  b0  x2  b1  x1 x2  b2  x22
Donde:
y : porcentaje de agua
x1 : porcentaje de cal
x2 : porcentaje de puzolana
De (6):
X Y  b X
1 1
2
1  b2  X 1 X 2

X Y b X
2 1 1 X 2  b2  X 22

Autor Ing. Álvaro Correa Arroyave Página 63


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Lo primero que se debe hacer es diseñar la Tabla 11, la cual permite con facilidad evaluar todos los parámetros
indicados por las ecuaciones 6, pues sólo se están considerando las dos variables independientes x1 y x2.

Tabla 11. Procedimiento de cálculo para la obtención de la ecuación de correlación


n y x1 x2 Y  y y Y² X1  x1  x1
1 27,50 2,00 18,00 -1,986 3,944 -4,429
2 28,00 3,50 16,50 -1,486 2,208 -2,929
3 28,80 4,50 10,50 -0,686 0,471 -1,929
4 29,10 2,50 2,50 -0,386 0,149 -3,929
5 30,00 8,50 9,00 0,514 0,264 2,071
6 31,00 10,50 4,50 1,514 2,292 4,071
7 32,00 13,50 1,50 2,514 6,320 7,071
 206,40 45,00 62,50 0 15,65 0
Prom. 29,49 6,43 8,93 0 2,24 0

n X 2  x2  x2 X1Y X2Y X1² X2² X1X2


1 9,071 8,796 -18,015 19,616 82,283 -40,175
2 7,571 4,352 -11,251 8,579 57,320 -22,175
3 1,571 1,323 -1,078 3,721 2,468 -3,030
4 -6,429 1,517 2,482 15,437 41,332 25,260
5 0,071 1,064 0,036 4,289 0,005 0,147
6 -4,429 6,163 -6,706 16,573 19,616 -18,030
7 -7,429 17,776 -18,677 49,999 55,190 -52,530
 0 40,99 -53,21 118,21 258,21 -110,53
Prom. 0 5,86 -7,60 16,89 36,89 -15,79

Luego,
40,99  b 1 118,21  b 2   110,53  (a)

 53,21  b1   110,53   b 2  258,21 (b)


De (a):

b1  0,35  0,94 b2 (a´)

(a’) en (b):
 53,21  0,35  0,94 b2   110,53  b2 258,21

 b2   0,09 (c)

(c) en (a’):
b1  0,26

Ahora bien, puesto que de (1b):

y  b0  b1 x1  b2 x 2

Sustituyendo,
29,49  b0  0,266,43   0,098,93

Autor Ing. Álvaro Correa Arroyave Página 64


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

b0  28,62

 y  28,62  0,26 x1  0,09 x2

2.- Utilización de la prueba F para verificar si esta forma de ecuación es significativa en términos
estadísticos o no, empleando un valor de  = 1%

Cálculo de c 2
. De la ecuación (15):

c 2
 b1  X 1 Y  b2  X 2 Y

c 2
 0,2640,99   0,09 53,21

Esto es,
c 2
 15,45

Además, a partir de (8):

s y2 / x 
Y 2
 b1  X 1 Y  b2  X 2 Y
n  3
Se tiene que:
15,65  0,2640,99   0,09 53,21
s y2, x 
7  3
s y2, x  0,05  s y , x  0,22

Finalmente, de (16):
 c  2

F k
2
s y/x

15,45 2
F  F  154,50
0,05

1 = k = 2, ya que sólo hay 2 parámetros


2 = n – (k + 1) = 4

Con estos valores de 1 y 2 se va a la tabla de distribución de la razón de varianza F con un nivel de significación
del 1%, tabla 1.8, y se lee el valor de 18. Ahora, como el valor de F calculado (154,50) es mayor que 18, se rechaza
la hipótesis de que la regresión no es significativa. Luego el contenido de agua depende del contenido de cal y del
de puzolana.

3.- Utilización de la prueba t para comprobar el significado de los coeficientes de regresión parcial a nivel
del 1%
X X   X 1 X 2   118,21258,21   110,53  18306,12
2 2 2 2
1 2

De (11):

Autor Ing. Álvaro Correa Arroyave Página 65


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

e11 
X 2
2
y e22  X 1
2

 X  X   X X2 X X   X 1 X 2 
2 2 2 2 2 2
1 2 1 1 2

e11 
X 2
2

258,21
 0,01 0,0141
 X  X   X X 
2
1
2 2
2 1 2
18306,12

e22 
X 1
2


118,21

 0,00 6,4574 x 10 3 
 X  X   X X 
2
1
2 2
2 1 2
18306,12

Por su parte, de (10):


s b1  s y / x e11 y sb2  s y / x e22

s b 1  s y ,x e 11  0,22 0,01  0,02


0,5

s b 2  s y ,x e 22  0,22 0,00   0,00


0,5

Finalmente, de (13):
b1
t1 
sb1

b1 0,26
tb1    13,00
sb1 0,02

De la tabla 7 se lee que para  = n – (k + 1) = 7 – (2 + 1) = 4, t = 4,604 al nivel de significación del 1 % y 8,610 al del
0,01%. Como tb1 13,00 > 4,604 y a su vez que 8,610 entonces, el coeficiente b1 es significativo al nivel del 0,1% y
de hecho a más. Así mismo, para b2, igualmente de (13):

b2
  in det er min ado 
0,09
tb2  
sb2 0,00

Una vez más, de la tabla 7 se lee que para  = 4, t = 4,604 al nivel de significación del 1 % y 8,610 al del 0,01%.
Como t b 2    > 4,604 y a su vez que 8,610 entonces, el coeficiente b2 es significativo al nivel del 0,1% y de hecho
a más.

4.- Cálculo del coeficiente múltiple r y prueba de su significación, utilizando  = 1%

A partir de la ecuación (17):

r2 
c 2

Y 2

r2 
c 2


15,45
 0,99 0,9872 r  0,99 0,9936
Y 2
16,65

Autor Ing. Álvaro Correa Arroyave Página 66


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

Según la tabla 9, si (k + 1) = 3 variables y  = n – (k + 1) = 7 – (2+1) = 4, r = 0,949 al nivel de significación del 1%.


Dado que el valor calculado es mayor que el tabulado, se concluye que la regresión de y sobre las variables x
explica una cantidad significativa de la variación de y.

6.- REGLAS GENERALES PARA CONFORMAR DISTRIBUCIONES DE FRECUENCIA

1.- Hallar el rango (diferencia entre el valor mayor y el menor).


2.- Seleccionar el número de intervalos de clase, i: (10 y 20).
3.- Formar los intervalos de clase según la expresión (i – 1) agregándola al límite inferior de cada clase
comenzando por el límite inferior del rango.
4.- Fijar los límites reales de cada clase teniendo presente que los intervalos de clase son mutuamente
excluyentes y que por tanto no debe haber ambigüedades en los límites.
5.- Determinar las frecuencias de clase contando el número de observaciones que cae dentro de cada intervalo de
clase.

Ejemplo:

Rango 168 – 125 = 43


Número de clases: 12 (entre 10 y 20)
i = 43 / 12 = 3,58  4 (redondeo)
Nuevo rango, i = 4 x 12 = 48

El exceso del nuevo rango, 48 – 43 = 5, se distribuye restando 2 al límite inferior y agregando 3 al superior; de
esta forma se tendrá:

Xmín = 125 – 2 = 123


Xmáx = 168 + 3 = 171

Obsérvese que al fijar los límites reales, se reducirán ambos límites en 0,5.

A continuación, se forman los intervalos de clase agregado (i - 1); es decir, (4 – 1) = 3, al límite inferior de cada
clase comenzando por el límite inferior 123 + 3 (realmente es 122,5 + 3). Paso seguido, se encuentran los límites
reales, o sea, el punto medio entre el límite superior de una clase y el inferior de la siguiente.

Límites reales: 123,5, 126,5, …, 170,5.

Finalmente, se cuentan las frecuencias que caen en cada intervalo de clase.

BIBLIOGRAFÍA

1.- Correa A., Álvaro. Caracterización Físico-mecánica del macizo de Norte de Caldas, Norcasia.

2.- Correa A., Álvaro. Notas de clase, curso Taller I. Universidad Nacional de Colombia, 2004.

3.- Deere, D.U. et Miller, R. P. Engineering classification and index properties for intact rock. Universidad de
Illinois, Urbana, Illinois. Technical report No. AFWL-TR-66-116. Diciembre de 1966.

4.- Kennedy, John B. y Neville, Adam M. Estadística para ciencias e ingeniería. Segunda edición. Ed. Harla S.A.
México. 1982.

5.- Obert L. and Duvall W. Rock Mechanics and Desing of Structures in Rock, Wiley and sons (1967).

6.- Spiegel, Murray R. Estadística, Segunda Edición. Serie Schaum. Mc Graw Hill. 1993.

Autor Ing. Álvaro Correa Arroyave Página 67


ANÁLISIS ESTADÍSTICO Y DISEÑO EXPERIMENTAL

De izquierda a derecha aparecen los profesores Guillermo Ángel y Álvaro González, expresidentes de la Sociedad
Colombiana de Geotecnia, Camilo Torres, actual presidente de la SCG, John A. Hudson, expresidente de la
Sociedad Internacional para la Mecánica de Rocas, Álvaro Correa Arroyave, ex-vocal de la Junta Directiva de la
Sociedad Colombiana de Geotecnia y el profesor Xia-Ting Feng, actual presidente de la Sociedad Internacional
para la Mecánica de Rocas.

Autor Ing. Álvaro Correa Arroyave Página 68

También podría gustarte