Está en la página 1de 65

1

2
UNIDAD 4
AJUSTE DE FUNCIONES

1.1 FUNDAMENTOS DE ESTADISTICA.

Después de que se ha recopilado un grupo de datos, ha de ser representado en


una forma que permita manejarlo e interpretarlo con facilidad. Mediante la
estadística descriptiva, podemos encontrar varios métodos para describir un
conjunto de datos numéricos, los cuales se pueden clasificar como métodos
gráficos y métodos numéricos.
Los métodos gráficos son sumamente útiles para obtener una descripción
general rápida de los datos recolectados y para su presentación, sin embargo
presentan limitaciones, que pueden ser superadas utilizando medidas descriptivas
numéricas, las cuales utilizan los datos de la muestra para calcular un conjunto de
números que transmitan al estadístico una buena imagen mental de la distribución
de frecuencias y que sean útiles para hacer inferencias respecto a la población.

4.1.1 Distribución de frecuencias.


Para construir una tabla de distribución de frecuencias, lo primero que debe
hacerse es determinar una distribución de frecuencias, ya que a partir de ella es
posible trazar una gráfica y emplearla para interpretar los datos y ponerla a
consideración de otras personas, este procedimiento se ilustra en el ejemplo 4.1.

4.1.2 Histograma.
Una gráfica usada frecuentemente en estadística es el histograma que es una
especie de grafica de barras que ayuda a visualizar mejor el comportamiento del
conjunto de datos.
Se explicará cómo construir un histograma en el ejemplo 4.1
Ejemplo 4.1 (mne4-v3)
A partir de los datos presentados en la tabla 4.1:
a) Construya una tabla de distribución de frecuencias con 15 clases,
como mínimo.
b) Construya un histograma con la tabla de frecuencias del inicio
anterior por medio de la herramienta Excel.

3
TABLA 4.1 Puntuaciones obtenidas en un examen de matemáticas.
Solución
a)
1. Calcular la amplitud de variación o rango, que se define como la diferencia
entre la puntuación más alta y la puntuación más baja. En la tabla de la
figura 4.1, la puntuación más alta es 82 y la puntuación más baja es 28,
entonces:
Amplitud de variación o rango = (82 -28) = 54 (4.1)
2. Dividir la amplitud de variación en un número arbitrario de subintervalos
llamados clase, de igual longitud. El número de subintervalos depende de la
cantidad de datos disponibles, por lo general, el número de subintervalos
varía entre 5 y 20.
Si elegimos 15 intervalos, la longitud de cada intervalo se calcula de la
siguiente manera:
Longitud del intervalo = 54/15 = 3.6 (4.2)
Ya que la longitud del intervalo resulta un número intermedio entre 3 y 4,
cualquiera de estos dos números puede ser el tamaño del intervalo. En este caso,
se elige que el tamaño sea de 3.
3. Hacer una tabla en la que en la primera columna se enlisten los intervalos,
comenzando desde el más bajo. Conviene que el intervalo inferior
comience con un número que sea múltiplo del tamaño del intervalo.

4. Contar las frecuencias y anotarlas en la segunda columna de la tabla.

5. Sumar los valores de la segunda columna, de tal forma que este número
sea igual al número de casos presentados en la tabla inicial, según se
muestra en la tabla 4.2.

4
Clase Frecuencia
81-83 1
78-80 1
75-77 0
72-74 1
69-71 0
66-68 3
63-65 1
60-62 4
57-59 1
54-56 8
51-53 3
48-50 4
45-47 3
42-44 5
39-41 2
36-38 2
33-35 0
30-32 0
27-29 1
40

TABLA 4.2 Distribución de frecuencias

b) Implementación del trazo de un histograma mediante el uso de Excel.


1. Introducir los datos de la tabla 4.1 así como los límites superiores de
cada intervalo en una sola columna, como aparece en la figura 4.1.
2. Utilizar la opción HERRAMIENTAS, ANÁLISIS DE DATOS e
HISTOGRAMA, como aparece en la figura 4.2.
3. Introducir las celdas donde se encuentran los datos, los límites
superiores de clase, el lugar donde aparecerá el histograma y la
creación del gráfico, tal como aparece en la figura 4.3.
4. Ejecutar la opción ACEPTAR. Después de esto, aparecerá la tabla de
frecuencias y el histograma, tal como se observa en la figura 4.4.

5
FIGURA 4.1 Introducción de datos y limites superiores de clase para el
histograma.

FIGURA 4.2 Utilizar la opción Herramientas, Análisis de datos e Histograma de


Excel.
1.1.3 Medidas de tendencia central.
Debido a las limitaciones en el uso de las técnicas gráficas para describir y
analizar datos, se han creado medidas descriptivas de interés. Una de las
primeras medidas descriptivas de interés es una medida de tendencia central, esto
es, una medida que indica la ubicación del centro de la distribución.

6
1.1.3.1 Media aritmética.
Una de las medidas de tendencia central más comunes y útiles es el promedio
aritmético de un conjunto de observaciones. También se le conoce como media
aritmética o media de un conjunto de observaciones.

FIGURA 4.3 Introducción de datos, limites superiores de clase, lugar lugar donde
aparecerá el histograma y la creación del gráfico.
Definición.
La media aritmética (ӯ) de un conjunto de n observaciones y1, y2, y3, .., yn, es igual
a la suma de las observaciones divididas entre el número total de ellas (n).
Dado que nos inserta tanto la muestra como la población, cada una de las cuales
posee una media, para distinguir entre los dos, usaremos el símbolo ӯ para la
media de la muestra µ para la media de la población.

FIGURA 4.4 Tabla de frecuencias e histograma.

7
Puesto que las n observaciones muéstrales se pueden denotar con los símbolos
y1, y2, y3, .., yn, una fórmula para la media muestral sería:

(4.3)

4.1.3.2 Mediana.
Definición.
La mediana (Md) de un conjunto de n observaciones y1, y2, y3, .., yn, se define
como el valor de y que cae en el centro cuando las observaciones están colocadas
en orden de magnitud.
Para el caso en el que hay un número par de observaciones, la mediana se
obtiene como el promedio de los dos valores centrales que resulten al ordenar las
observaciones.
4.1.3.3 Moda
Definición.
La moda (Mo) de un conjunto de n observaciones y1, y2, y3, .., yn, se define como
el valor que aparece con más frecuencia.

4.1.4 Medidas de variabilidad.


Una vez que se localiza el valor promedio de una distribución de datos, el
siguiente paso es conocer la forma en que están distribuidos respecto a ese valor,
esto es, medir la variabilidad o dispersión de los mismos, ya que de esta forma,
podremos construir una imagen mental de la distribución de frecuencia.
Existen numerosas medidas de variabilidad, en este libro se discutirán solamente
las que se consideraron más importantes.

4.1.4.1 Amplitud de variación o rango.


Definición.
Mediante la ecuación (4.2) se definió la amplitud de variación o rango de un
conjunto de n observaciones y1, y2, y3, .., yn, como la diferencia entre la puntuación
más alta y la puntuación más baja.

8
4.1.4.2 Varianza.
Definición.
La varianza de una población de N observaciones y1, y2, y3, .., yN, se define como
el promedio del cuadrado de las desviaciones de las observaciones con respecto a
su media µ. La varianza de la población se denota por σ2 y está dada por la
fórmula:

(4.4)

La varianza de una muestra de n observaciones y1, y2, y3, .., yn, se define como la
suma de los cuadrados de las desviaciones de las observaciones con respecto a
su media dividida entre (n - 1). La varianza de la población se denota por s2 y está
dada por la fórmula:

(4.5)

Observe que se utiliza N para denotar el número de observaciones de la población


y n para el número de observaciones de la muestra.

4.1.4.3 Desviación estándar


Definición.
La desviación estándar de un conjunto de n observaciones y 1, y2, y3, .., yn, es igual
a la raíz cuadrada positiva de la varianza. La desviación estándar de la población
se denota por σ y la desviación estándar de la muestra se denota por s.

(4.6)

(4.7)

Ejemplo 4.2 (mne4-2v3)


A partir de los datos presentados en la tabla 4.1, obtener las medidas de tendencia
central y las medidas de variabilidad que se explicaron en los apartados 4.1.3 y
4.1.4.

9
Solución.
Al utilizar la herramienta Excel, se puede obtener rápidamente un resumen de
datos estadísticos de la siguiente manera.
Implementación de la estadística descriptiva de un conjunto de datos
mediante el uso de Excel.
La estadística descriptiva incluye el cálculo de medidas de tendencia central y
medidas de variabilidad, como las que se incluyen en los apartados 4.1.3 y 4.1.4.
1. Organizar los datos en forma de columna o de fila, en este caso se utilizó la
forma de columna. A seleccionar la opción HERRAMIENTAS, ANALISIS DE
DATOS Y ESTADISTICA DESCRIPTIVA, según lo muestra la figura 4.5.

FIGURA 4.5 Preparación de la estadística descriptiva de un conjunto de datos.


2. Seleccione las celdas donde aparecen los datos de entrada y las celdas
donde aparecerá el resumen de la estadística descriptiva, tal como aparece
en la figura 4.6

FIGURA 4.6 Introducción de los datos de entrada y las celdas donde aparecerá el
resumen de la estadística descriptiva.

10
3. Finalmente aparecerá una tabla que contiene el resumen de la estadística
descriptiva, tal como aparece en la figura 4.7.
4.2 APROXIMACIÓN FUNCIONAL.
Con frecuencia los ingenieros y científicos necesitamos interpretar y correlacionar
datos experimentales que se encuentran en forma de datos discretos, éstos
pueden ser aproximados mediante funciones analíticas sencillas, las cuales se
pueden evaluar, integrar o diferenciar fácilmente. Por ejemplo, si quisiéramos
realizar experimentos para medir la expansión térmica de un material entre 10ºC y
40ºC, se podrían realizar mediciones cada grado y tener una tabla de 31 valores
de temperatura y 31 valores de expansión térmica. ¿Qué pasaría si el experimento
debiera realizarse hasta una temperatura de 100ºC? ¿Se tendrían que seguir
haciendo pruebas de grado en grado o se podría incrementar la diferencia de
temperatura, por ejemplo 10 grados? Si al hacer el análisis encontramos que el
valor de expansión térmica que necesitamos es a una temperatura de 20.3ºC,
¿tendremos que ir nuevamente al laboratorio para hacer la medición a esa nueva
temperatura?

FIGURA 4.7 Resumen de la estadística descriptiva.


El sentido común nos indica que no, pero, ¿qué se podrá hacer en caso en que no
se tenca el valor exacto que necesitamos? En este capítulo se presentaran
algunas técnicas que pueden ayudar a resolver los problemas anteriores.
Existen dos maneras de aproximar un grupo de datos con base en el error
asociado.
1. Cuando los datos muestran un grado significativo de error, por ejemplo,
cuando se utilizan datos experimentales, la estrategia es derivar una curva
simple que represente el comportamiento general de los datos, en la que
cada punto pueda ser incorrecto, pero la curva se diseñe de tal manera que

11
siga un patrón sobre los puntos tomados como un todo. En este proceso se
puede utilizar la regresión con mínimos cuadrados o regresión (figura 4.8).
2. Por otro lado, cuando se conoce que los datos son muy exactos, el proceso
de ajustar un grupo de datos a una curva que pase exactamente por cada
uno de los puntos se puede llevar a cabo por medio de polinomios, los
cuales se conocen como polinomios de interpolación (figura 4.9).
4.2.1 Regresión por mínimos cuadrados.
El método de mínimos cuadrados consiste en encontrar una función analítica
sencilla que represente el comportamiento general de los datos, aunque la curva
propuesta no pase por todos y cada uno de los puntos en cuestión, ver figura 4.8.

FIGURA 4.8 Diseño de una curva simple que represente el comportamiento


general de los datos.

FIGURA 4.9 Generación de un polinomio de interpolación que pase por cada uno
de los datos.
Esta ecuación debe satisfacer la condición de minimizar la suma de las
desviaciones (di) del comportamiento de cada par de datos discretos, con respecto
al comportamiento del modelo propuesto, elevadas al cuadrado, es decir:

(4.8)

12
4.2.1.1 Regresión lineal
El ejemplo más simple de una aproximación por mínimos cuadrados, consiste en
ajustar a una línea recta un conjunto de datos discretos (x1, y1), (x2, y2), …, (xn, yn).
Se inicia de la ecuación de una línea recta a la cual se le agrega el error producido
entre el comportamiento de los datos y el modelo propuesto, de esta forma se
tiene:
(4.9)

Donde:
a0 = Ordenada al origen.
a1 = Pendiente.
E = Error entre el modelo y los datos experimentales.
De esta forma:

Al aplicar el criterio de que el “mejor” ajuste se cumple cuando se puede minimizar


la suma de los cuadrados de los residuos Sr, es decir el error entre el modelo y los
datos experimentales, se tiene:

(4.10)
Este criterio tiene la ventaja de proporcionar una línea única para un conjunto
dado de datos.
Para determinar los valores de a0 y a1 que minimizan la ecuación (4.10), se deriva
la ecuación con respecto a cada uno de los coeficientes.

(4.11)

Al igualar ambas derivadas a cero, se genera un mínimo para la suma de los


cuadrados de los residuos Sr, de la siguiente forma:
(4.12)

(4.13)

13
De la ecuación (4.12) se obtiene:
(4.14)

De la ecuación (4.13) se obtiene:


(4.15)

Al resolver en forma simultanea las ecuaciones (4.14) y (4.15) se obtienen los


valores de a0 y a1, mediante las siguientes ecuaciones:
(4.16)

(4.17)

4.2.1.1.1 Cuantificación del error en la regresión lineal.


Recuérdese que la suma de los cuadrados de los residuos se define como:
(4.18)

Donde los residuos representan el cuadrado de la distancia vertical entre los datos
y la línea recta.
La dispersión de los puntos alrededor de la recta de magnitud similar a lo largo de
los datos, la regresión con mínimos cuadrados proporciona la mejor aproximación
para a y b. A esto se le conoce como principio de probabilidad máxima dentro de
la estadística.
Para comparar la eficiencia del ajuste se determina la suma de los cuadrados
alrededor de la media para la variable dependiente (y), la cual se denomina suma
total de los cuadrados.
(4.19)

Esta es la cantidad de dispersión en la variable dependiente antes de la regresión.


Después de llevar a cabo la regresión lineal se puede calcular Sr, que es la suma
de los cuadrados de los residuos alrededor de la línea de regresión, la cual
presenta la dispersión que existe después de la regresión. La diferencia entre las
dos cantidades, St – Sr cuantifica la mejora en la reducción del error al utilizar la
línea recta. Esta diferencia se normaliza al error al error total y se obtiene:

14
(4.20)

(4.21)
En donde r es el coeficiente de correlación y r2 es el coeficiente de determinación.
Para un ajuste perfecto, la suma de los cuadrados de los residuos Sr debe ser
igual a cero y el coeficiente de determinación r2 debe ser igual a uno.
Ejemplo 4.3 (mne4-3v3).
Utilice la regresión por mínimos cuadrados para ajustar a una línea recta el grupo
de datos que se muestra en la siguiente tabla:
X Y
1 75
2 78
5 97
10 123
20 160
30 200
40 240

a) Haga una gráfica de los datos.


b) Calcule la pendiente, la intersección y el coeficiente de correlación.
La grafica de los datos originales es:

FIGURA 4.10 Grafica de los datos del ejemplo 4.3


Se calculan las sumatorias necesarias para aplicar las ecuaciones (4.16), (4.17) y
(4.21), las cuales se presentan en la siguiente tabla:

15
Tabla 4.3 Sumatoria necesaria para obtener la pendiente, la ordenada al origen y
el coeficiente de correlación de los datos del ejemplo 4.3.
Mediante las ecuaciones (4.16), (4.17) y (4.21), se obtiene:

La ecuación de la recta es:

el coeficiente de correlación es

Al observar el valor del coeficiente de correlación se puede afirmar que los datos
se ajustan a un modelo lineal, ya que su valor se aproxima a uno.

16
4.2.1.1.2 Aplicación de la regresión lineal.
La regresión lineal proporciona técnicas para ajustar datos discretos a una línea
recta, sin embargo, la relación entre la variable dependiente y la independiente no
siempre es lineal.
Así que, para proponer un modelo que represente el conjunto de datos discretos,
lo primero que se debe hacer es graficarlo en la forma x vs y, de esta manera es
posible decidir si es correcto o no aplicar el ajuste lineal.

FIGURA 4.11 Gráfica en la que los datos no siguen un comportamiento lineal.


Cuando al graficar el conjunto de datos discretos, se observa que el
comportamiento no es lineal, es posible proponer ciertos modelos no lineales, que
mediante cierto tratamiento matemático pueden adquirir un comportamiento lineal,
como son los casos que se presentan a continuación.

4.2.1.1.2.1 Modelo exponencial.


Cuando al graficar un conjunto de datos discretos, se observa que el
comportamiento no es lineal, tal como se muestra en la figura 4.12, es posible
proponer un modelo exponencial, el cual mediante tratamiento matemático puede
transformarse en un modelo lineal, tal como se muestra en la figura 4.13.

FIGURA 4.12 Modelo exponencial.

17
FIGURA 4.13 Modelo exponencial linealizado.
El modelo exponencial se representa mediante la ecuación:
(4.22)

La ecuación (4.22) tiene un comportamiento no lineal, el cual puede ser linealizado


mediante la aplicación de logaritmos naturales en ambos lados de la ecuación, de
lo cual resulta:

La ecuación (4.23) representa la ecuación de una línea recta en la que la


pendiente es a1 y la ordenada al origen es In a0.

1.2.1.1.2.2 Ecuación elevada a una potencia.


Cuando al graficar un conjunto de datos discretos, se observa que el
comportamiento no es lineal, tal como se muestra en la figura 4.14, es posible
proponer un modelo de ecuación elevada a una potencia, la cual mediante
tratamiento matemático puede transformarse en un modelo lineal, tal como se
muestra en la figura 4.15.

18
FIGURA 4.14 Ecuación elevada a una potencia.

FIGURA 4.15 Modelo linealizado.


La ecuación elevada a una potencia se representa mediante:
(4.24)

Al aplicar logaritmo base 10 en ambos lados de la ecuación se obtiene el siguiente


modelo linealizado:
(4.25)

La ecuación (4.25) representa la ecuación de una línea recta en la que la


pendiente es a1 y la ordenada al origen es log a0.

19
1.2.1.1.2.3 Ecuación de promedio de crecimiento de saturación.
Cuando al graficar un conjunto de datos discretos, se observa que el
comportamiento no es lineal, tal como se muestra en la figura 4.16, es posible
proponer una ecuación que caracteriza el crecimiento de la población en
condiciones limitantes, la cual mediante simple reordenación puede transformarse
en un modelo lineal, tal como se muestra en la figura 4.17.

FIGURA 4.16 Ecuación de promedio de crecimiento de saturación.

FIGURA 4.17 Modelo linealizado.


La ecuación que caracteriza el crecimiento de la población bajo condiciones
limitantes es la siguiente:

20
(4.26)
Al reordenar la ecuación (4.26) resulta:

(4.27)

La ecuación (4.27) representa la ecuación de una línea recta en la que la


pendiente es a1/a0 y la ordenada al origen es 1/a0.
Los modelos representados por las ecuaciones (4.23), (4.25) y (4.27), en sus
estados transformados se ajustan a un modelo lineal, lo cual sirve para evaluar los
coeficientes correspondientes a la pendiente y a la ordenada al origen, que
después pueden transformarse a su estado original y usarse para propósitos
productivos.
Ejemplo 4.4 (mne4-4v3)
Ajuste a un modelo exponencial el grupo de datos:

a) Calcule la pendiente, la intersección y el coeficiente de correlación.


b) Haga una gráfica de los datos
c) Haga una gráfica de los datos ajustados al modelo propuesto.

21
Solución.
Al aplicar el método de mínimos cuadrados a la ecuación (4.23), se obtienen las
siguientes ecuaciones para calcular la pendiente y la ordenada al origen;
Para la pendiente:
(4.28)

Para la ordenada al origen:


(4.29)

Se calculan las sumatorias necesarias para aplicar las ecuaciones (4.28) y (4.29),
para el cálculo de la pendiente y de la ordenada al origen, así como de la ecuación
(4.21) para el coeficiente de correlación, las cuales se representan en la tabla 4.4

TABLA 4.4. Sumatorias necesarias para obtener la pendiente, la ordenada al


origen y el coeficiente de correlación de los datos del ejemplo 4.4.
Para obtener:

22
La ecuación del modelo exponencial tiene la siguiente forma:

El conjunto de datos presenta un coeficiente de correlación de 0.999769, lo cual


confirma un buen ajuste a este modelo, ya que su valor es muy aproximado a uno.
a) Gráfica de los datos originales

b) Gráfica de los datos ajustados

Ejemplo 4.5 (mne4-5v3)


Ajuste a una ecuación elevada a una potencia el siguiente grupo de datos:

a) Calcule la pendiente, la intersección y el coeficiente de correlación.


b) Haga una grafica de los datos.
c) Haga una grafica de los datos ajustados al modelo propuesto.

Solución.

Al aplicar el método de mínimos cuadrados a la ecuación (4.25), se obtienen las


siguientes ecuaciones para calcular la pendiente y la ordenada al origen:

23
Para la pendiente:

(4.30)

Para la ordenada al origen:


(4.31)

Se calculan las sumatorias necesarias para aplicar las ecuaciones (4.30) y (4.31),
para el cálculo de la pendiente y de la ordenada al origen, así como de la ecuación
(4.21) para el coeficiente de correlación, las cuales se presentan en la siguiente
tabla:

TABLA 4.5 Sumatorias necesarias para obtener la pendiente, la ordenada al


origen y el coeficiente de correlación de los datos del ejemplo 4.5.
Para obtener:

24
La ecuación elevada a una potencia tiene la siguiente forma:

El conjunto de datos presenta un coeficiente de correlación de 0.986244, lo cual


confirma un buen ajuste a este modelo ya que su valor es muy aproximado a uno,
sin embargo este modelo puede ser mejorado.
a) Gráfica de los datos originales

FIGURA 4.20 Gráfica de los datos originales del ejemplo 4.5


b) Gráfica de los datos ajustados:

FIGURA 4.21 Gráfica de los datos ajustados del ejemplo 4.5


Ejemplo 4.6 (mne4-6v3)
Ajustar a un modelo de promedio de crecimiento de saturación los datos del
problema anterior.
a) Calcule la pendiente, la intersección y el coeficiente de correlación.
b) Haga una gráfica de los datos.
c) Haga una gráfica de los datos ajustados al modelo propuesto.

25
Solución.
Al aplicar el método de mínimos cuadrados a la ecuación (4.27), se obtienen las
siguientes ecuaciones para calcular la pendiente y la ordenada al origen:
Para la pendiente:

(4.32)

Para la ordenada al origen:

(4.33)
Se calculan las sumatorias necesarias para aplicar las ecuaciones (4.32) y (4.33),
para el cálculo de la pendiente y de la ordenada al origen. Así como la ecuación
(4.21) para el coeficiente de correlación, las cuales se presentan en la siguiente
tabla:

TABALA 4.6 Sumatorias necesarias para obtener la pendiente, la ordenada al


origen y el coeficiente de correlación de los datos del ejemplo 4.6.
Para obtener:

26
Al despejar a0 se obtiene:

Al despejar a1 se obtiene:

A1 = 4.052962
De los cálculos anteriores la ecuación de promedio de crecimiento de saturación
es:

El conjunto de datos presenta un coeficiente de correlación de 0.998708, el cual


mejora el valor obtenido en el problema anterior, por lo tanto este modelo
representa mejor al grupo de datos analizado.
a) Gráfica de los datos originales.

FIGURA 4.22 Gráfica de los datos originales del ejemplo 4.6.


b) Gráfica de los datos ajustados.

FIGURA 4.23 Gráfica de los datos ajustados del ejemplo 4.6.

27
1.2.1.2 Regresión Polinomial.
Algunos datos discretos se representan pobremente mediante una línea recta, tal
como se aprecia en la figura 4.24. En este caso, es recomendable utilizar una
curva para representarlos, por lo que otra alternativa es ajustar a polinomios,
utilizando regresión polinomial.

FIGURA 4.24 Gráfica en la que los datos siguen un comportamiento polinomial.


El método de mínimos cuadrados se puede extender fácilmente del caso lineal al
polinomial y ajustar datos discretos a un polinomio de m-ésimo grado.
El procedimiento se inicia de la ecuación de un polinomio de m-ésimo grado a la
cual se le agrega el error producido entre el comportamiento de los datos y el
modelo propuesto, de esta forma se tiene:
(4.34)

Donde:
E = error entre el modelo y los estados experimentales

De esta forma:
(4.35)

Al aplicar el criterio de que el “mejor” ajuste se cumple cuando se puede minimizar


la suma de los cuadrados de los residuos Sr, es decir el error entre el modelo y los
datos experimentales, se tiene:
(4.36)

28
Al seguir el mismo procedimiento de la sección anterior se calcula la derivada de
la ecuación (4.36) con respecto a cada uno de los coeficientes del polinomio.

(4.37)
Para aplicar el mínimo, estas ecuaciones se igualan a cero y se reordenan para
obtener el siguiente conjunto:

(4.38)
Donde las sumatorias varían desde i = 1 hasta n.
Las m + 1 ecuaciones son lineales y tiene m + 1 incógnitas: a 0, a1, …am. Los
coeficientes de las incógnitas se pueden calcular directamente de los datos
observados. El problema de determinar polinomios de grado m con mínimos
cuadrados es equivalente a resolver un sistema de m + 1 ecuaciones lineales
simultaneas.
El coeficiente de correlación r se calcula mediante:

(4.40)

donde:

(4.41)

29
Ejemplo 4.7 (mne4-7v3)
Ajuste los siguientes datos discretos a un polinomio de 2º orden:
a) Haga una gráfica de los datos.
b) Presente la ecuación del modelo ajustado y el coeficiente de
correlación.
c) Haga una gráfica de los datos ajustados al modelo propuesto.

Solución.
a) Gráfica de los datos originales

FIGURA 4.25 Gráfica de los valores originales del problema 4.7.


Como se observa en la gráfica 4.25, el comportamiento de los datos, se encuentra
lejos de ser lineal, por lo que se propone un polinomio de segundo orden, de la
forma:
(4.42)
El sistema que se debe plantear es aquel formado por tres ecuaciones con tres
incógnitas:

(4.43)

30
Por lo tanto se genera una tabla que contenga los valores de las sumatorias que
se requieren para aplicar las ecuaciones (4.43) y (4.40):

TABLA 4.7 Sumatorias necesarias para obtener un polinomio de segundo orden y


el coeficiente de correlación de los datos del ejemplo 4.7.
Mediante los datos de la tabla 4.7 se plantea el sistema:

Que al ser resuelto se obtiene:

31
La ecuación de segundo grado que representa el conjunto de datos es:

Al aplicar la ecuación (4.40) se obtiene el coeficiente de correlación:

El valor del coeficiente de correlación indica un buen ajuste, ya que es lo


suficientemente cercano a 1, como se comprueba en la gráfica de la figura 4.26.

FIGURA 4.26 Gráfica de los valores ajustados del problema 4.7.

1.2.1.3 Regresión lineal múltiple


Una extensión útil es la regresión lineal es el caso en el que la variable
dependiente (y) sea una función lineal de dos o más variables independientes (x1,
x2, x3,…) de la forma:
(4.44)

La ecuación (4.44) es útil particularmente cuando se ajustan datos experimentales,


en donde la variable que se está analizando es función de otras dos o más
variables.
En este caso, bidimensional:
(4.45)

32
La representación de la regresión, ya no es una línea recta ni nueva curva, sino un
plano en el espacio, lo cual dificulta en cierto grado su representación, sin
embargo, es posible utilizar el método de mínimos cuadrados para encontrar los
coeficientes a0, a1 y a2 de acuerdo al siguiente procedimiento:
Como en los casos anteriores se obtiene la suma de los cuadrados de los errores:
(4.46)

Se deriva la ecuación (4.46) con respecto a cada uno de los coeficientes:

(4.47)

Los coeficientes que generan la suma mínima de los cuadrados, se obtiene al


igualar a cero las derivadas parciales y se genera el siguiente sistema de
ecuaciones.

(4.48)

Que en forma matricial se representa como:

(4.49)
Del mismo modo que en el ajuste lineal, el coeficiente de correlación se calcula
mediante la ecuación (4.21):

Existen ciertos casos en donde una variable es linealmente dependiente de dos


variables diferentes, sin embargo, la regresión lineal múltiple tiene utilidad
adicional en la obtención de ecuaciones de potencias de la forma general:

33
(4.50)

Como se observa, este modelo no es lineal, pero puede ser linealizado al aplicar
logaritmos en ambos lados de la ecuación, de lo cual se obtiene:
(4.51)

Ejemplo 4.8 (mne4-8v3)


Dados los siguientes datos experimentales, ajuste a un modelo de regresión lineal
múltiple. Presente la ecuación del modelo ajustado y el coeficiente de correlación.

Solución.
El modelo propuesto tiene la forma de la ecuación (4.45):

El sistema que se debe plantear está formado por tres incógnitas, que en forma
matricial es igual a la ecuación (4.49):

(4.49)

Por lo tanto, se genera una tabla que contenga los valores de las sumatorias que
se requieren para plantear el sistema:

34
TABLA 4.8 Sumatorias necesarias para obtener un modelo de regresión lineal
múltiple y el coeficiente de correlación de los datos del ejemplo 4.8.
Mediante los datos de la tabla 4.8 se plantea el sistema:

Que al ser resuelto se obtiene:

El modelo lineal múltiple que representa el conjunto de datos es:

El coeficiente de correlación se calcula mediante la ecuación (4.21) y su valor es


de 0.998248, el cual indica que el ajuste es bueno ya que su valor es muy
cercano a uno.

1.2.2 Regresión mediante el uso de Excel


Excel cuenta con herramientas propias del software que facilitan el ajuste de
datos discretos a diferentes modelos. Estas herramientas se encuentran en la
opción de graficación y se explicara mediante los siguientes ejemplos:

35
Ejemplo 4.9 (mne4-9v3)
Utilice las herramientas de Excel para ajustar el siguiente grupo de datos
discretos a los diferentes modelos que contiene este software. Selecciones el
que proporcione el mejor ajuste.

Solución.
Para iniciar la solución del problema se genera una gráfica de los datos al
seguir los pasos 3 al 9 que se indican en el Apéndice 1. Finalmente se
observa la gráfica de la figura 4.27.

FIGURA 4.27 Gráfica de los datos originales del problema 4.9.


Implementación del ajuste de datos por medio del uso de Excel.
1. Copiar varias veces la gráfica de los datos originales dentro de la misma
hoja de trabajo, para generar diferentes modelos de ajuste en cada una
de ellas.
2. Trabajar sobre cada una de las gráficas generadas, en las que al
señalar la línea de la curva de graficación y oprimir el botón derecho del

36
Mouse, aparecerá un menú. En dicho menú hay que seleccionar la
opción correspondiente a AGREGAR LINEA DE TENDENCIA, tal como
se muestra en la figura 4.28.

FIGURA 4.28 Se señala la curva y se selecciona la opción AGREGAR LINEA


DE TENDENCIA.
3. Seleccionar uno de os modelos que aparecen en la pantalla para ajustar
los datos, tal como se muestra en la figura 4.29. Se puede iniciar con el
modelo lineal.

FIGURA 4.29 Selección del modelo lineal para el ajuste de datos.


4. Cambiar al menú OPCIONES, en el que se selecciona PRESENTAR
ECUACIÓN EN EL GRAFICO Y PRESENTAR EL VALOR DE R
CUADRADO EN EL GRAFICO, tal como se muestra en la figura 4.30.

37
FIGURA 4.30 Selección de las opciones presentar ecuación en el gráfico y
presentar el valor de R cuadrado en el gráfico.
5. Ejecutar la opción ACEPTAR, después de la cual aparecerá la gráfica
de la figura 4.31, la cual incluye: la línea de tendencia, que en este caso
es una recta, la ecuación de la recta a la cual se ajustaron los datos y el
valor del coeficiente de determinación (R2), del cual es muy sencillo
obtener el coeficiente de correlación R.
6. Para realizar el ajuste a los otros modelos que contiene Excel repetir los
pasos 2 al 5, con las gráficas que se generaron en el paso 1, sólo que el
paso 3 se seleccionan los diferentes modelos que se presentan, de lo
cual resultan las gráficas de las figuras 4.32 a la 4.42.

FIGURA 4.31 Gráfica de los datos ajustados al modelo lineal, ecuación y valor del
coeficiente de determinación.

38
FIGURA 4.32 Gráfica de los datos ajustados al modelo logarítmico, ecuación y
valor del coeficiente de determinación.

FIGURA 4.33 gráfica de los datos ajustados a una ecuación elevada a una
potencia (modelo potencial), ecuación y valor del coeficiente de determinación.

39
FIGURA 4.34 Gráfica de los datos ajustados a un modelo exponencial, ecuación y
valor del coeficiente de determinación.

FIGURA 4.35 Gráfica de los datos ajustados a un polinomio de segundo orden,


ecuación y valor del coeficiente de determinación.

40
FIGURA 4.36 Gráfica de los datos ajustados a un polinomio de tercer orden,
ecuación y valor del coeficiente de determinación.
Como puede observar, los valores de los coeficientes de determinación varían
entre 0.988800 y 0.989000 en los primeros 5 modelos, sin embargo en el último se
mejora a 0.993500, lo cual proporciona un coeficiente de correlación de 0.996700.
Este último modelo, que corresponde a un polinomio de tercer orden, se considera
el mejor ajuste.
Ejemplo 4.10 (mne4-10v3)
Utilice las herramientas de Excel para regresión y ajuste el siguiente grupo de
datos a un modelo lineal múltiple.

Solución.
El modelo lineal múltiple que se propone tiene la forma de la ecuación (4.45):

41
Los coeficientes a0, a1 y a2 se obtendrán por medio de la herramienta Excel en
la forma que se describe a continuación
Implementación de la regresión de un grupo de datos por medio del uso
de Excel
1. Introducir los datos en forma de tabla, tal como se muestra en la figura
4.37.

FIGURA 4.37 Introducción de datos para la regresión.


2. Seleccionar la opción HERRAMIENTAS, ANALISIS DE DATOS y
REGRESIÓN, tal como se muestra en la figura 4.38.

FIGURA 4.38 Selección de la opción herramientas, análisis de datos y


regresión.
3. Seleccionar el RANGO DE ENTRADA para los valores de Y y para los
valores de X, así como el RANGO DE SALIDA donde aparecerán los
resultados, tal como aparece en la figura 4.39.

42
4. Dar la opción ACEPTAR, después de la cual aparecerá un RESUMEN
de las estadísticas de regresión, la cual incluye entre otros datos: el
coeficiente de correlación múltiple, la intercepción y los coeficientes de
las variables a0, a1 y a2, tal como se muestra en la figura 4.40.

FIGURA 4.39 Selección de los rangos de entrada para X, Y y el intervalo de


salida para los resultados.

FIGURA 4.40 Resumen de la regresión de datos.


4.3 INTERPOLACIÓN
En esta sección de explicarán las diversas formas para aproximar datos
experimentales a polinomios de interpolación. Si en la tabla de datos, los valores
de las abscisas (x) se encuentran igualmente espaciados y al n-ésima diferencias
de las ordenadas (y) es tan pequeña que puede cero para algún valor de n, se
puede utilizar la fórmula de Newton-Gregory, en diferencias progresivas o
regresivas; o las fórmulas de Gauss, Stirling, Everett o Bessel en diferencias
centrales. Por otro lado, los polinomios de Newton y Lagrange pueden ser
empleados sin importar si las abscisas están o no igualmente espaciados.

43
4.3.1 Interpolación por medio de polinomios con diferencias divididas
de Newton.
4.3.1.1 Interpolación lineal.
La forma más simple de interpolar es la que se lleva a cabo al conectar dos puntos
con una línea recta. Este método se llama interpolación lineal.
La figura 4.41 ilustra la interpolación lineal. Al conocer los puntos (x0, f(x0)) y (x1,
f(x1)), se puede construir una línea recta entre ellos, y deducir la ecuación de la
misma.
(4.52)

de donde se despeja f(x):


(4.53)

La ecuación (4.53) representa la fórmula de interpolación lineal, donde f(x) es un


polinomio de interpolación de primer orden. Mediante esta ecuación se pueden
conocer todos los valores de f(x) que correspondan a valores de x que se
encuentren entre x0 y x1. Sin embargo, si el comportamiento de los datos no
corresponde al de una línea recta, como en el ejemplo mostrado en la figura 4.41,
los valores calculados en la interpolación no serán los correctos y se introducirá un
error de interpolación. Observe en la gráfica que para un valor de x, el valor
calculado por medio de la línea de interpolación es f(x), pero el valor real es
mucho mayor. Entre más pequeño sea el intervalo entre los puntos, más exacta
será la aproximación.

FIGURA 4.41 Representación gráfica de la interpolación lineal.

44
Ejemplo 4.11
Calcular el valor del logaritmo de 4 mediante interpolación lineal. Utilice los
siguientes datos:

a) Interpolar entre 3 y 5.
b) Interpolar entre 3 y 4.5.

En ambos incisos calcule el error relativo porcentual basado en el valor verdadero,


log 4 = 0.602060.

Solución.
a) Al emplear la ecuación (4.53) se obtiene:

Donde el error relativo porcentual es:

b) Al emplear la ecuación (4.53) se obtiene:

Donde el error relativo porcentual es:

45
En los resultados anteriores se observa que en el inciso b) se obtuvo un error
relativo porcentual menor, debido a que los valores que se emplearon para la
interpolación son más próximos que los que se utilizaron en el inciso a).

4.3.1.2 Interpolación cuadrática.

Una estrategia que mejora la aproximación en el proceso de interpolación es la de


introducir cierta curvatura en la línea que conecta a los puntos. Si se dispone de al
menos tres datos, lo anterior se puede llevar a cabo con un polinomio de segundo
orden, como el que se propone en la siguiente ecuación.

(4.54)

Esta ecuación es equivalente a:

(4.55)

Donde:

(4.56)

(4.57)
(4.58)

Para obtener los coeficientes b0, b1 y b2 se sustituyen los valores de x0, x1 y x2 en


la ecuación (4.54):
Para b0:

(4.59)

(4.60)

Para b1:

(4.61)
(4.62)

(4.63)

(4.64)

46
Para b2:

(4.65)

(4.66)

Al reacomodar:

(4.67)

Ejemplo 4.12

Encuentre el valor del logaritmo de 4 mediante un polinomio de interpolación de


segundo orden. Use los valores dados en el ejemplo 4.11.
Calcule el error relativo porcentual y compárelo con el que se obtuvo con el
polinomio de primer orden.

Solución.
Para aplicar la ecuación (4.54) se identifican los datos del ejemplo 4.11 de la
siguiente forma:

Mediante la ecuación (4.60) se calcula b0:

Mediante la ecuación (4.61) se calcula b1:

47
Mediante la ecuación (4.67) se calcula b2:

Con los valores anteriores se forma el siguiente polinomio:

a) Para x = 4 se obtiene:

b) Al calcular el error relativo porcentual se tiene:

Valor verdadero log 4 = 0.602060

De acuerdo a los resultados obtenidos, se observa que el valor del error relativo es
menor cuando se utiliza un polinomio de segundo orden.

4.3.1.3 Interpolación por medio de polinomios con diferencias divididas


de Newton de orden n.

El análisis hecho en la interpolación cuadrática se puede generalizar con un


polinomio de n-ésimo orden cuando se tienen n + 1 puntos, el cual se presenta
mediante la ecuación:

(4.68)

48
Para evaluar b0, b1, ….bn se emplean las ecuaciones:

(4.69)

(4.70)

(4.71)

(4.72)

En donde las evaluaciones de la función entre corchetes son diferencias divididas


finitas. La primera diferencia dividida finita es:

(4.73)

La segunda diferencia dividida finita es:

(4.74)

La n-ésima diferencia dividida finita es:

(4.75)

La ecuación (4.68) representa la expresión de Newton para interpolar con


diferencias divididas. Para utilizar esta ecuación no es necesario que los valores
de las abscisas estén igualmente espaciados o que se encuentren en orden
ascendente.
El error al usar un polinomio de orden n se puede evaluar, si se dispone de un
dato adicional f(xn +1), por medio de la ecuación:

(4.76)

Las diferencias divididas pueden calcularse y presentarse en forma de tabla, tal


como se muestra en la tabla 4.9.

49
TABLA 4.9 Representación tabular de las diferencias divididas.

Ejemplo 4.13 (mne4-13v3)

Calcule el valor del logaritmo de 4, por medio de un polinomio de interpolación de


diferencias de Newton de tercer orden.
Compare el error porcentual que se obtuvo con los polinomios de primero,
segundo y tercer orden. Use el valor de log 4 = 0.602060 como el valor verdadero
y los siguientes datos:

Solución

Para aplicar la ecuación (4.68) se identifican los datos de la siguiente forma:

50
Mediante la ecuación (4.69) se calcula b0:

Mediante la ecuación (4.70) se calcula b1:

Mediante la ecuación (4.71) se calcula b2:

Mediante la ecuación (4.72) se calcula b3:

51
Se construye el polinomio de tercer orden que tiene la forma siguiente:

Finalmente se obtiene:

Al comparar el valor anterior con el valor verdadero se tiene:

Para un polinomio de segundo orden:

Para un polinomio de primer orden se toman los datos que se encierran al valor de
x con el que se está trabajando, de esta forma se tiene:

De acuerdo a los resultados obtenidos anteriormente, se observa que el error


porcentual es menor para el polinomio de tercer orden que para los polinomios de
segundo y primer orden.

Implementación de la tabla de diferencias divididas mediante el uso de


Excel.

Para facilitar el cálculo de los valores de bi que se requieren en el polinomio (4.68),


se puede construir una tabla de diferencias divididas de la siguiente forma.

1. Introducir los valores de las abscisas (x) en la columna B y los


valores de las ordenadas (f(x)) en la columna C. a continuación,
calcular los valores de la primera diferencia dividida en la columna D,

52
los de la segunda diferencia dividida en la columna E y así
sucesivamente, como aparece en la figura 4.42.
2. Calcular la primera diferencia dividida mediante la ecuación (4.73) en
la celda D14 y copiarla en la columna D, tal como aparece en la
figura 4.43.
3. Calcular la segunda diferencia dividida mediante la ecuación (4.74)
en la celda D3 y copiarla para la columna D. las diferencias
siguientes se calculan de manera similar en forma sucesiva hasta
llegar a la tabla que se muestra en la figura 4.44.

FIGURA 4.42 Inicio de la tabla de diferencias divididas con Excel.

FIGURA 4.43 Calculo de la primera diferencia dividida.

53
FIGURA 4.44 Resultados de diferencias divididas.

4.3.2 Polinomios de interpolación de Lagrange.

El polinomio de Lagrange es una reformulación del polinomio de Newton y evita


los cálculos de diferencias divididas.

(4.78)

donde:

(4.79)

∏ es el “producto de”.
Al desarrollar la ecuación (4.79) para diferentes valores de n se tiene.
Para n = 1

(4.80)

(4.81)

Para n = 2
(4.82)

54
(4.83)

Para n = 3

(4.84)

Para n = 4

(4.85)

Ejemplo 4.14 (mne4-14v3)

Calcule el valor del logaritmo de 4, por medio de diferentes polinomios de


interpolación de Lagrange.
Compare el error porcentual que se obtiene con los polinomios de primero,
segundo y tercer orden con el valor verdadero de log 4 = 0.602060. Utilice los
siguientes datos:

55
Solución.

Para aplicar la ecuación (4.78) se identifican los datos de la siguiente forma:

Para n = 1

Para n = 2

56
Para n = 3

57
EJERCICIOS RESUELTOS

3.4.1 Archivo mnr4-1v3


Los siguientes datos muestran los pesos en kilogramos de una muestra de
estudiantes del Instituto Tecnológico de Celaya.

a) Construya una tabla de frecuencias con siete clases.


b) Construya u histograma con la tabla de frecuencias del inciso anterior.
c) Realice la estadística descriptiva de los datos por medio de la herramienta
de Excel.

4.4.2 Archivo mnr4-2v3

Obtenga el polinomio de interpolación que se ajusta al siguiente conjunto de datos.


Grafique el polinomio obtenido y los puntos que se proporcionan. Utilice el método
de diferencias divididas de Newton.

4.4.3 Archivo mnr4-3v3

Utilice el siguiente grupo de datos para obtener el valor de f(x) para x = 3.24.

a) Resuelva con un polinomio de interpolación de Lagrange de segundo orden.


b) Resuelva con un polinomio de interpolación de Lagrange de tercer orden.

58
4.4.4 Archivo mnr4-4v3

En la siguiente tabla, r es la resistencia de una bobina en ohms y T la temperatura


de la bobina en “C. Encuentre el mejor polinomio que represente los datos.

4.4.5 Archivo mnr4-5v3

Encuentre diferentes modelos que representen la relación existente entre el


número de peces y el número de especies de peces en las muestras tomadas de
una porción del río Grijalva. Utilice los siguientes datos:

59
4.4.6 Archivo mnr4-6v3

A continuación se presentan las presiones de vapor del cloruro de magnesio.

a) Proponga el mejor modelo P = f(T) que ajuste los datos y mediante éste
prediga el valor de la presión para una temperatura de 1000oC.
b) Utilice un polinomio de interpolación de orden cubico y mediante éste
prediga el valor de la presión para una temperatura de 1000oC.
c) Compare los resultados y comente.

4.4.7 Archivo mnr4-7v3

La siguiente tabla muestra información de presión-temperatura-volumen de vapor


de agua sobrecalentado, donde la temperatura T está en oF, la presión P está en
1b/pgl2 y el volumen especifico en pie3/lbm.
Calcule el volumen específico para una presión de 25 lb/plh2 y una temperatura de
475ºF, utilizando interpolación de orden cúbica.

60
EJERCICIOS PROPUESTOS

4.5.1 Se realizó un experimento con 30 personas para analizar la acción de cierto


compuesto químico para disminuir los niveles de colesterol en la sangre. Los
resultados se midieron en mg/100 ml y se presentan en la siguiente tabla.

a) Construya un histograma con seis clases.


b) Realice la estadística descriptiva de los datos mediante la herramienta de
Excel.

4.5.2 los siguientes datos muestran los siguientes puntajes que se obtuvieron en
una prueba de inteligencia aplicada a una muestra100 estudiantes del Instituto
tecnológico de Celaya.

a) Construya un histograma que tenga doce clases.


b) Realice la estadística descriptiva de los datos mediante la
herramienta de Excel.

61
4.5.3 la siguiente tabla muestra los valores de entalpia de vapor sobrecalentado a
diferentes temperaturas y una presión de 60 bar. Utilice polinomios de Newton de
tercero y cuarto orden para determinar la entalpia a 110ºC.

4.5.4 grafique los datos del problema anterior mediante la herramienta Excel y
encuentre un polinomio de segundo y tercer orden que los represente.
¿Qué valor de entalpia corresponderá a una temperatura de 110ºC? Compare el
resultado obtenido con el del ejercicio anterior.

4.5.5 Se ha pedido a cinco profesores que tomen el tiempo que tardan en llegar
desde su casa hasta el Instituto Tecnológico cada mañana. A continuación se
muestra la relación entre la distancia de sus casas al Instituto y el tiempo que
tardan en llegar.

¿Cuánto tiempo tardará en llegar alguien que viva a 6 kilómetros? Explique cómo
obtuvo su resultado.

4.5.6 Se continuó con el experimento del ejercicio 4.5.5 y se les pidió a los cinco
profesores que reportaran el tiempo que tardaban a su regreso por la tarde. La
tabla siguiente muestra los tiempos de recorrido durante la tarde.

62
Si se toman en cuenta solo los tiempos vespertinos, ¿Cuánto tiempo tardará en
llegar alguien que viva a 6 km? Si toman en cuenta todos los tiempos de recorrido,
¿Cuál será el valor para el tiempo de recorrido de los 6 km? Explique el
procedimiento seguido para llegar a ese resultado.

4.5.7 En la ciudad de Aguascalientes se encontró que le número total de


asegurados en el IMSS durante los siete primeros meses del año 2002 aumentó
de acuerdo a los datos que se presentan en la tabla siguiente:

FUENTE INEGI, con base en cifras del IMSS.

Ayude a encontrar el total de asegurados que corresponden al mes de mayo por


medio de:

a) Polinomio en diferencias divididas de Newton de segundo, tercero y cuarto


orden.
b) Polinomios de Lagrange de segundo, tercero y cuarto orden.
c) Ajuste de datos a polinomios de Excel de segundo, tercero y cuarto orden.

4.5.8 En una empresa en donde se fabrican aleaciones de cobre, es necesario


verificar la concentración de níquel como impureza en algunas aleaciones.
El control se realiza por absorción atómica y se calibra el equipo por medio
de los siguientes datos.

63
Proponga varios modelos que sirvan para calcular el contenido de níquel en ppm
de acuerdo al porcentaje de transmitancia que permita la muestra.
Utilice los modelos propuestos para predecir cuál es el contenido de níquel para
una muestra con un 20% de transmitancia.

64
UNIDAD 5

65

También podría gustarte