Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2
UNIDAD 4
AJUSTE DE FUNCIONES
4.1.2 Histograma.
Una gráfica usada frecuentemente en estadística es el histograma que es una
especie de grafica de barras que ayuda a visualizar mejor el comportamiento del
conjunto de datos.
Se explicará cómo construir un histograma en el ejemplo 4.1
Ejemplo 4.1 (mne4-v3)
A partir de los datos presentados en la tabla 4.1:
a) Construya una tabla de distribución de frecuencias con 15 clases,
como mínimo.
b) Construya un histograma con la tabla de frecuencias del inicio
anterior por medio de la herramienta Excel.
3
TABLA 4.1 Puntuaciones obtenidas en un examen de matemáticas.
Solución
a)
1. Calcular la amplitud de variación o rango, que se define como la diferencia
entre la puntuación más alta y la puntuación más baja. En la tabla de la
figura 4.1, la puntuación más alta es 82 y la puntuación más baja es 28,
entonces:
Amplitud de variación o rango = (82 -28) = 54 (4.1)
2. Dividir la amplitud de variación en un número arbitrario de subintervalos
llamados clase, de igual longitud. El número de subintervalos depende de la
cantidad de datos disponibles, por lo general, el número de subintervalos
varía entre 5 y 20.
Si elegimos 15 intervalos, la longitud de cada intervalo se calcula de la
siguiente manera:
Longitud del intervalo = 54/15 = 3.6 (4.2)
Ya que la longitud del intervalo resulta un número intermedio entre 3 y 4,
cualquiera de estos dos números puede ser el tamaño del intervalo. En este caso,
se elige que el tamaño sea de 3.
3. Hacer una tabla en la que en la primera columna se enlisten los intervalos,
comenzando desde el más bajo. Conviene que el intervalo inferior
comience con un número que sea múltiplo del tamaño del intervalo.
5. Sumar los valores de la segunda columna, de tal forma que este número
sea igual al número de casos presentados en la tabla inicial, según se
muestra en la tabla 4.2.
4
Clase Frecuencia
81-83 1
78-80 1
75-77 0
72-74 1
69-71 0
66-68 3
63-65 1
60-62 4
57-59 1
54-56 8
51-53 3
48-50 4
45-47 3
42-44 5
39-41 2
36-38 2
33-35 0
30-32 0
27-29 1
40
5
FIGURA 4.1 Introducción de datos y limites superiores de clase para el
histograma.
6
1.1.3.1 Media aritmética.
Una de las medidas de tendencia central más comunes y útiles es el promedio
aritmético de un conjunto de observaciones. También se le conoce como media
aritmética o media de un conjunto de observaciones.
FIGURA 4.3 Introducción de datos, limites superiores de clase, lugar lugar donde
aparecerá el histograma y la creación del gráfico.
Definición.
La media aritmética (ӯ) de un conjunto de n observaciones y1, y2, y3, .., yn, es igual
a la suma de las observaciones divididas entre el número total de ellas (n).
Dado que nos inserta tanto la muestra como la población, cada una de las cuales
posee una media, para distinguir entre los dos, usaremos el símbolo ӯ para la
media de la muestra µ para la media de la población.
7
Puesto que las n observaciones muéstrales se pueden denotar con los símbolos
y1, y2, y3, .., yn, una fórmula para la media muestral sería:
(4.3)
4.1.3.2 Mediana.
Definición.
La mediana (Md) de un conjunto de n observaciones y1, y2, y3, .., yn, se define
como el valor de y que cae en el centro cuando las observaciones están colocadas
en orden de magnitud.
Para el caso en el que hay un número par de observaciones, la mediana se
obtiene como el promedio de los dos valores centrales que resulten al ordenar las
observaciones.
4.1.3.3 Moda
Definición.
La moda (Mo) de un conjunto de n observaciones y1, y2, y3, .., yn, se define como
el valor que aparece con más frecuencia.
8
4.1.4.2 Varianza.
Definición.
La varianza de una población de N observaciones y1, y2, y3, .., yN, se define como
el promedio del cuadrado de las desviaciones de las observaciones con respecto a
su media µ. La varianza de la población se denota por σ2 y está dada por la
fórmula:
(4.4)
La varianza de una muestra de n observaciones y1, y2, y3, .., yn, se define como la
suma de los cuadrados de las desviaciones de las observaciones con respecto a
su media dividida entre (n - 1). La varianza de la población se denota por s2 y está
dada por la fórmula:
(4.5)
(4.6)
(4.7)
9
Solución.
Al utilizar la herramienta Excel, se puede obtener rápidamente un resumen de
datos estadísticos de la siguiente manera.
Implementación de la estadística descriptiva de un conjunto de datos
mediante el uso de Excel.
La estadística descriptiva incluye el cálculo de medidas de tendencia central y
medidas de variabilidad, como las que se incluyen en los apartados 4.1.3 y 4.1.4.
1. Organizar los datos en forma de columna o de fila, en este caso se utilizó la
forma de columna. A seleccionar la opción HERRAMIENTAS, ANALISIS DE
DATOS Y ESTADISTICA DESCRIPTIVA, según lo muestra la figura 4.5.
FIGURA 4.6 Introducción de los datos de entrada y las celdas donde aparecerá el
resumen de la estadística descriptiva.
10
3. Finalmente aparecerá una tabla que contiene el resumen de la estadística
descriptiva, tal como aparece en la figura 4.7.
4.2 APROXIMACIÓN FUNCIONAL.
Con frecuencia los ingenieros y científicos necesitamos interpretar y correlacionar
datos experimentales que se encuentran en forma de datos discretos, éstos
pueden ser aproximados mediante funciones analíticas sencillas, las cuales se
pueden evaluar, integrar o diferenciar fácilmente. Por ejemplo, si quisiéramos
realizar experimentos para medir la expansión térmica de un material entre 10ºC y
40ºC, se podrían realizar mediciones cada grado y tener una tabla de 31 valores
de temperatura y 31 valores de expansión térmica. ¿Qué pasaría si el experimento
debiera realizarse hasta una temperatura de 100ºC? ¿Se tendrían que seguir
haciendo pruebas de grado en grado o se podría incrementar la diferencia de
temperatura, por ejemplo 10 grados? Si al hacer el análisis encontramos que el
valor de expansión térmica que necesitamos es a una temperatura de 20.3ºC,
¿tendremos que ir nuevamente al laboratorio para hacer la medición a esa nueva
temperatura?
11
siga un patrón sobre los puntos tomados como un todo. En este proceso se
puede utilizar la regresión con mínimos cuadrados o regresión (figura 4.8).
2. Por otro lado, cuando se conoce que los datos son muy exactos, el proceso
de ajustar un grupo de datos a una curva que pase exactamente por cada
uno de los puntos se puede llevar a cabo por medio de polinomios, los
cuales se conocen como polinomios de interpolación (figura 4.9).
4.2.1 Regresión por mínimos cuadrados.
El método de mínimos cuadrados consiste en encontrar una función analítica
sencilla que represente el comportamiento general de los datos, aunque la curva
propuesta no pase por todos y cada uno de los puntos en cuestión, ver figura 4.8.
FIGURA 4.9 Generación de un polinomio de interpolación que pase por cada uno
de los datos.
Esta ecuación debe satisfacer la condición de minimizar la suma de las
desviaciones (di) del comportamiento de cada par de datos discretos, con respecto
al comportamiento del modelo propuesto, elevadas al cuadrado, es decir:
(4.8)
12
4.2.1.1 Regresión lineal
El ejemplo más simple de una aproximación por mínimos cuadrados, consiste en
ajustar a una línea recta un conjunto de datos discretos (x1, y1), (x2, y2), …, (xn, yn).
Se inicia de la ecuación de una línea recta a la cual se le agrega el error producido
entre el comportamiento de los datos y el modelo propuesto, de esta forma se
tiene:
(4.9)
Donde:
a0 = Ordenada al origen.
a1 = Pendiente.
E = Error entre el modelo y los datos experimentales.
De esta forma:
(4.10)
Este criterio tiene la ventaja de proporcionar una línea única para un conjunto
dado de datos.
Para determinar los valores de a0 y a1 que minimizan la ecuación (4.10), se deriva
la ecuación con respecto a cada uno de los coeficientes.
(4.11)
(4.13)
13
De la ecuación (4.12) se obtiene:
(4.14)
(4.17)
Donde los residuos representan el cuadrado de la distancia vertical entre los datos
y la línea recta.
La dispersión de los puntos alrededor de la recta de magnitud similar a lo largo de
los datos, la regresión con mínimos cuadrados proporciona la mejor aproximación
para a y b. A esto se le conoce como principio de probabilidad máxima dentro de
la estadística.
Para comparar la eficiencia del ajuste se determina la suma de los cuadrados
alrededor de la media para la variable dependiente (y), la cual se denomina suma
total de los cuadrados.
(4.19)
14
(4.20)
(4.21)
En donde r es el coeficiente de correlación y r2 es el coeficiente de determinación.
Para un ajuste perfecto, la suma de los cuadrados de los residuos Sr debe ser
igual a cero y el coeficiente de determinación r2 debe ser igual a uno.
Ejemplo 4.3 (mne4-3v3).
Utilice la regresión por mínimos cuadrados para ajustar a una línea recta el grupo
de datos que se muestra en la siguiente tabla:
X Y
1 75
2 78
5 97
10 123
20 160
30 200
40 240
15
Tabla 4.3 Sumatoria necesaria para obtener la pendiente, la ordenada al origen y
el coeficiente de correlación de los datos del ejemplo 4.3.
Mediante las ecuaciones (4.16), (4.17) y (4.21), se obtiene:
el coeficiente de correlación es
Al observar el valor del coeficiente de correlación se puede afirmar que los datos
se ajustan a un modelo lineal, ya que su valor se aproxima a uno.
16
4.2.1.1.2 Aplicación de la regresión lineal.
La regresión lineal proporciona técnicas para ajustar datos discretos a una línea
recta, sin embargo, la relación entre la variable dependiente y la independiente no
siempre es lineal.
Así que, para proponer un modelo que represente el conjunto de datos discretos,
lo primero que se debe hacer es graficarlo en la forma x vs y, de esta manera es
posible decidir si es correcto o no aplicar el ajuste lineal.
17
FIGURA 4.13 Modelo exponencial linealizado.
El modelo exponencial se representa mediante la ecuación:
(4.22)
18
FIGURA 4.14 Ecuación elevada a una potencia.
19
1.2.1.1.2.3 Ecuación de promedio de crecimiento de saturación.
Cuando al graficar un conjunto de datos discretos, se observa que el
comportamiento no es lineal, tal como se muestra en la figura 4.16, es posible
proponer una ecuación que caracteriza el crecimiento de la población en
condiciones limitantes, la cual mediante simple reordenación puede transformarse
en un modelo lineal, tal como se muestra en la figura 4.17.
20
(4.26)
Al reordenar la ecuación (4.26) resulta:
(4.27)
21
Solución.
Al aplicar el método de mínimos cuadrados a la ecuación (4.23), se obtienen las
siguientes ecuaciones para calcular la pendiente y la ordenada al origen;
Para la pendiente:
(4.28)
Se calculan las sumatorias necesarias para aplicar las ecuaciones (4.28) y (4.29),
para el cálculo de la pendiente y de la ordenada al origen, así como de la ecuación
(4.21) para el coeficiente de correlación, las cuales se representan en la tabla 4.4
22
La ecuación del modelo exponencial tiene la siguiente forma:
Solución.
23
Para la pendiente:
(4.30)
Se calculan las sumatorias necesarias para aplicar las ecuaciones (4.30) y (4.31),
para el cálculo de la pendiente y de la ordenada al origen, así como de la ecuación
(4.21) para el coeficiente de correlación, las cuales se presentan en la siguiente
tabla:
24
La ecuación elevada a una potencia tiene la siguiente forma:
25
Solución.
Al aplicar el método de mínimos cuadrados a la ecuación (4.27), se obtienen las
siguientes ecuaciones para calcular la pendiente y la ordenada al origen:
Para la pendiente:
(4.32)
(4.33)
Se calculan las sumatorias necesarias para aplicar las ecuaciones (4.32) y (4.33),
para el cálculo de la pendiente y de la ordenada al origen. Así como la ecuación
(4.21) para el coeficiente de correlación, las cuales se presentan en la siguiente
tabla:
26
Al despejar a0 se obtiene:
Al despejar a1 se obtiene:
A1 = 4.052962
De los cálculos anteriores la ecuación de promedio de crecimiento de saturación
es:
27
1.2.1.2 Regresión Polinomial.
Algunos datos discretos se representan pobremente mediante una línea recta, tal
como se aprecia en la figura 4.24. En este caso, es recomendable utilizar una
curva para representarlos, por lo que otra alternativa es ajustar a polinomios,
utilizando regresión polinomial.
Donde:
E = error entre el modelo y los estados experimentales
De esta forma:
(4.35)
28
Al seguir el mismo procedimiento de la sección anterior se calcula la derivada de
la ecuación (4.36) con respecto a cada uno de los coeficientes del polinomio.
(4.37)
Para aplicar el mínimo, estas ecuaciones se igualan a cero y se reordenan para
obtener el siguiente conjunto:
(4.38)
Donde las sumatorias varían desde i = 1 hasta n.
Las m + 1 ecuaciones son lineales y tiene m + 1 incógnitas: a 0, a1, …am. Los
coeficientes de las incógnitas se pueden calcular directamente de los datos
observados. El problema de determinar polinomios de grado m con mínimos
cuadrados es equivalente a resolver un sistema de m + 1 ecuaciones lineales
simultaneas.
El coeficiente de correlación r se calcula mediante:
(4.40)
donde:
(4.41)
29
Ejemplo 4.7 (mne4-7v3)
Ajuste los siguientes datos discretos a un polinomio de 2º orden:
a) Haga una gráfica de los datos.
b) Presente la ecuación del modelo ajustado y el coeficiente de
correlación.
c) Haga una gráfica de los datos ajustados al modelo propuesto.
Solución.
a) Gráfica de los datos originales
(4.43)
30
Por lo tanto se genera una tabla que contenga los valores de las sumatorias que
se requieren para aplicar las ecuaciones (4.43) y (4.40):
31
La ecuación de segundo grado que representa el conjunto de datos es:
32
La representación de la regresión, ya no es una línea recta ni nueva curva, sino un
plano en el espacio, lo cual dificulta en cierto grado su representación, sin
embargo, es posible utilizar el método de mínimos cuadrados para encontrar los
coeficientes a0, a1 y a2 de acuerdo al siguiente procedimiento:
Como en los casos anteriores se obtiene la suma de los cuadrados de los errores:
(4.46)
(4.47)
(4.48)
(4.49)
Del mismo modo que en el ajuste lineal, el coeficiente de correlación se calcula
mediante la ecuación (4.21):
33
(4.50)
Como se observa, este modelo no es lineal, pero puede ser linealizado al aplicar
logaritmos en ambos lados de la ecuación, de lo cual se obtiene:
(4.51)
Solución.
El modelo propuesto tiene la forma de la ecuación (4.45):
El sistema que se debe plantear está formado por tres incógnitas, que en forma
matricial es igual a la ecuación (4.49):
(4.49)
Por lo tanto, se genera una tabla que contenga los valores de las sumatorias que
se requieren para plantear el sistema:
34
TABLA 4.8 Sumatorias necesarias para obtener un modelo de regresión lineal
múltiple y el coeficiente de correlación de los datos del ejemplo 4.8.
Mediante los datos de la tabla 4.8 se plantea el sistema:
35
Ejemplo 4.9 (mne4-9v3)
Utilice las herramientas de Excel para ajustar el siguiente grupo de datos
discretos a los diferentes modelos que contiene este software. Selecciones el
que proporcione el mejor ajuste.
Solución.
Para iniciar la solución del problema se genera una gráfica de los datos al
seguir los pasos 3 al 9 que se indican en el Apéndice 1. Finalmente se
observa la gráfica de la figura 4.27.
36
Mouse, aparecerá un menú. En dicho menú hay que seleccionar la
opción correspondiente a AGREGAR LINEA DE TENDENCIA, tal como
se muestra en la figura 4.28.
37
FIGURA 4.30 Selección de las opciones presentar ecuación en el gráfico y
presentar el valor de R cuadrado en el gráfico.
5. Ejecutar la opción ACEPTAR, después de la cual aparecerá la gráfica
de la figura 4.31, la cual incluye: la línea de tendencia, que en este caso
es una recta, la ecuación de la recta a la cual se ajustaron los datos y el
valor del coeficiente de determinación (R2), del cual es muy sencillo
obtener el coeficiente de correlación R.
6. Para realizar el ajuste a los otros modelos que contiene Excel repetir los
pasos 2 al 5, con las gráficas que se generaron en el paso 1, sólo que el
paso 3 se seleccionan los diferentes modelos que se presentan, de lo
cual resultan las gráficas de las figuras 4.32 a la 4.42.
FIGURA 4.31 Gráfica de los datos ajustados al modelo lineal, ecuación y valor del
coeficiente de determinación.
38
FIGURA 4.32 Gráfica de los datos ajustados al modelo logarítmico, ecuación y
valor del coeficiente de determinación.
FIGURA 4.33 gráfica de los datos ajustados a una ecuación elevada a una
potencia (modelo potencial), ecuación y valor del coeficiente de determinación.
39
FIGURA 4.34 Gráfica de los datos ajustados a un modelo exponencial, ecuación y
valor del coeficiente de determinación.
40
FIGURA 4.36 Gráfica de los datos ajustados a un polinomio de tercer orden,
ecuación y valor del coeficiente de determinación.
Como puede observar, los valores de los coeficientes de determinación varían
entre 0.988800 y 0.989000 en los primeros 5 modelos, sin embargo en el último se
mejora a 0.993500, lo cual proporciona un coeficiente de correlación de 0.996700.
Este último modelo, que corresponde a un polinomio de tercer orden, se considera
el mejor ajuste.
Ejemplo 4.10 (mne4-10v3)
Utilice las herramientas de Excel para regresión y ajuste el siguiente grupo de
datos a un modelo lineal múltiple.
Solución.
El modelo lineal múltiple que se propone tiene la forma de la ecuación (4.45):
41
Los coeficientes a0, a1 y a2 se obtendrán por medio de la herramienta Excel en
la forma que se describe a continuación
Implementación de la regresión de un grupo de datos por medio del uso
de Excel
1. Introducir los datos en forma de tabla, tal como se muestra en la figura
4.37.
42
4. Dar la opción ACEPTAR, después de la cual aparecerá un RESUMEN
de las estadísticas de regresión, la cual incluye entre otros datos: el
coeficiente de correlación múltiple, la intercepción y los coeficientes de
las variables a0, a1 y a2, tal como se muestra en la figura 4.40.
43
4.3.1 Interpolación por medio de polinomios con diferencias divididas
de Newton.
4.3.1.1 Interpolación lineal.
La forma más simple de interpolar es la que se lleva a cabo al conectar dos puntos
con una línea recta. Este método se llama interpolación lineal.
La figura 4.41 ilustra la interpolación lineal. Al conocer los puntos (x0, f(x0)) y (x1,
f(x1)), se puede construir una línea recta entre ellos, y deducir la ecuación de la
misma.
(4.52)
44
Ejemplo 4.11
Calcular el valor del logaritmo de 4 mediante interpolación lineal. Utilice los
siguientes datos:
a) Interpolar entre 3 y 5.
b) Interpolar entre 3 y 4.5.
Solución.
a) Al emplear la ecuación (4.53) se obtiene:
45
En los resultados anteriores se observa que en el inciso b) se obtuvo un error
relativo porcentual menor, debido a que los valores que se emplearon para la
interpolación son más próximos que los que se utilizaron en el inciso a).
(4.54)
(4.55)
Donde:
(4.56)
(4.57)
(4.58)
(4.59)
(4.60)
Para b1:
(4.61)
(4.62)
(4.63)
(4.64)
46
Para b2:
(4.65)
(4.66)
Al reacomodar:
(4.67)
Ejemplo 4.12
Solución.
Para aplicar la ecuación (4.54) se identifican los datos del ejemplo 4.11 de la
siguiente forma:
47
Mediante la ecuación (4.67) se calcula b2:
a) Para x = 4 se obtiene:
De acuerdo a los resultados obtenidos, se observa que el valor del error relativo es
menor cuando se utiliza un polinomio de segundo orden.
(4.68)
48
Para evaluar b0, b1, ….bn se emplean las ecuaciones:
(4.69)
(4.70)
(4.71)
(4.72)
(4.73)
(4.74)
(4.75)
(4.76)
49
TABLA 4.9 Representación tabular de las diferencias divididas.
Solución
50
Mediante la ecuación (4.69) se calcula b0:
51
Se construye el polinomio de tercer orden que tiene la forma siguiente:
Finalmente se obtiene:
Para un polinomio de primer orden se toman los datos que se encierran al valor de
x con el que se está trabajando, de esta forma se tiene:
52
los de la segunda diferencia dividida en la columna E y así
sucesivamente, como aparece en la figura 4.42.
2. Calcular la primera diferencia dividida mediante la ecuación (4.73) en
la celda D14 y copiarla en la columna D, tal como aparece en la
figura 4.43.
3. Calcular la segunda diferencia dividida mediante la ecuación (4.74)
en la celda D3 y copiarla para la columna D. las diferencias
siguientes se calculan de manera similar en forma sucesiva hasta
llegar a la tabla que se muestra en la figura 4.44.
53
FIGURA 4.44 Resultados de diferencias divididas.
(4.78)
donde:
(4.79)
∏ es el “producto de”.
Al desarrollar la ecuación (4.79) para diferentes valores de n se tiene.
Para n = 1
(4.80)
(4.81)
Para n = 2
(4.82)
54
(4.83)
Para n = 3
(4.84)
Para n = 4
(4.85)
55
Solución.
Para n = 1
Para n = 2
56
Para n = 3
57
EJERCICIOS RESUELTOS
Utilice el siguiente grupo de datos para obtener el valor de f(x) para x = 3.24.
58
4.4.4 Archivo mnr4-4v3
59
4.4.6 Archivo mnr4-6v3
a) Proponga el mejor modelo P = f(T) que ajuste los datos y mediante éste
prediga el valor de la presión para una temperatura de 1000oC.
b) Utilice un polinomio de interpolación de orden cubico y mediante éste
prediga el valor de la presión para una temperatura de 1000oC.
c) Compare los resultados y comente.
60
EJERCICIOS PROPUESTOS
4.5.2 los siguientes datos muestran los siguientes puntajes que se obtuvieron en
una prueba de inteligencia aplicada a una muestra100 estudiantes del Instituto
tecnológico de Celaya.
61
4.5.3 la siguiente tabla muestra los valores de entalpia de vapor sobrecalentado a
diferentes temperaturas y una presión de 60 bar. Utilice polinomios de Newton de
tercero y cuarto orden para determinar la entalpia a 110ºC.
4.5.4 grafique los datos del problema anterior mediante la herramienta Excel y
encuentre un polinomio de segundo y tercer orden que los represente.
¿Qué valor de entalpia corresponderá a una temperatura de 110ºC? Compare el
resultado obtenido con el del ejercicio anterior.
4.5.5 Se ha pedido a cinco profesores que tomen el tiempo que tardan en llegar
desde su casa hasta el Instituto Tecnológico cada mañana. A continuación se
muestra la relación entre la distancia de sus casas al Instituto y el tiempo que
tardan en llegar.
¿Cuánto tiempo tardará en llegar alguien que viva a 6 kilómetros? Explique cómo
obtuvo su resultado.
4.5.6 Se continuó con el experimento del ejercicio 4.5.5 y se les pidió a los cinco
profesores que reportaran el tiempo que tardaban a su regreso por la tarde. La
tabla siguiente muestra los tiempos de recorrido durante la tarde.
62
Si se toman en cuenta solo los tiempos vespertinos, ¿Cuánto tiempo tardará en
llegar alguien que viva a 6 km? Si toman en cuenta todos los tiempos de recorrido,
¿Cuál será el valor para el tiempo de recorrido de los 6 km? Explique el
procedimiento seguido para llegar a ese resultado.
63
Proponga varios modelos que sirvan para calcular el contenido de níquel en ppm
de acuerdo al porcentaje de transmitancia que permita la muestra.
Utilice los modelos propuestos para predecir cuál es el contenido de níquel para
una muestra con un 20% de transmitancia.
64
UNIDAD 5
65