Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DESARROLLO
La aritmética de punto flotante es aquella situación o la forma de aplicar las matemáticas a situaciones
del mundo real, estos se utilizan por la sencilla razón de que hay problemas que no se pueden realizar
analíticamente por lo tanto la solución es por medio de un procedimiento numérico. Desde que se
crearon los números se comenzó a hablar respecto a los sistemas numéricos, pero no de la manera que
se conoce hoy día. Se dice que el antiguo matemático píngala fue aquel que presento la primera
descripción que se conoce sobre un sistema de numeración binaria, esto fue en el siglo tercero. Este
descubrimiento coincidió con el concepto del número cero (Muñoz, 2005), (Libros)
+ 0 1
0 0 1
1 1 0 + 1
Tabla #1
A continuación una breve explicación del procedimiento que se debe realizar para efectuar las sumas
de números binarios: Este proceso se hace en base a la representación interna de la computadora,
efectuamos las posibles combinaciones que podemos observar en la tabla anterior.
Las sumas 0 + 0, 0 + 1, 1 + 0 Son evidentes:
0+0 =0
0+1 =1
1+0 =1
1 + 1 = 10 Suma 0 con acarreo 1
En el ejemplo anterior se realizó la suma de dos números binarios, teniendo en cuenta que la suma
1 + 1, que sabemos que es 2 en el sistema decimal, debe escribirse en binario con dos cifras (10) y,
por tanto 1 + 1 es 0 y se arrastra una unidad, Que se suma a la posición siguiente a la izquierda.
Veamos algunos ejemplos:
− 0 1
0 0 1
1 1 + 1 0
Tabla #2
c. 1 11111 ⟶ 𝑎𝑐𝑎𝑟𝑟𝑒𝑜𝑠.
1 0 1 0 1 0 1 0 ⟶ 170
−
0 1 0 0 1 1 1 1 ⟶ 79
0 1 0 1 1 0 1 1 ⟶ 91
𝑥 0 1
0 0 0
1 0 1
Tabla #3
0∗0 =0
0∗1 =0
1∗0 =0
1∗1 =1
Para comprobar que el resultado es correcto, convertimos los factores y el resultado al sistema
decimal:
3,349 ∗ 13 = 43,537
Ejemplo 2:
10110
𝑥 1001
10110
+ 00000
00000
10110
11000110
Ejemplo 1:
42
Consideremos el siguiente ejemplo, = 7, en binario:
6
1) La solución de dicha operación no esté fuera del rango del número entero más grande o más
pequeño que se puede representar (generalmente con signo). En caso de que este se dice que se
comete un error de desbordamiento por exceso o por defecto (en inglés: Overflow y Underflow) y
es necesario recurrir inmediatamente a técnicas de escalado para llevar a cabo las operaciones.
2) La división se interpreta de manera que da lugar a un número entero, despreciando cualquier resto
obtenido. Por estos motivos, la aritmética de punto fijo se emplea muy raramente en cálculos no
triviales. En el punto fijo se utilizan tres campos para la representación: signo, parte entera y parte
decimal.
Nota: Un número entero es un número totalmente completo que puede ser negativo. Por lo tanto, el
número se debe codificar de manera que se pueda distinguir si es positivo o negativo y de forma que
siga las reglas de adición. El truco para la codificación consiste en utilizar un método
denominado complemento doble.
Según lo planteado podemos decir que un número entero 0 se representa de forma binaria de la
siguiente manera: Binario (Base 2) de forma que sea un entero natural, con la excepción de que el bit
de peso mucho mayor representa el signo más o menos. Por lo tanto, para un número entero o cero,
este bit se debe establecer en 0 lo que corresponde al signo más, así como 1 es el signo menos. De este
modo, si un número natural se codifica utilizando 4 bits, el mayor número posible será 0111 (o 7 en
base decimal).
Se dice que Generalmente, el mayor número entero posible codificado utilizando 𝑛 bits será 2𝑛−1 − 1.
Para aplicar los complementos dobles debemos seguir los siguientes pasos:
Ejemplo: Queremos codificar el valor −5 utilizando 8 bits. Para hacer esto debemos llevar a cabo
el siguiente procedimiento.
1) Escriba el número |−5| en sistema binario 00000101
2) Cámbielo por su complemento 11111010
3) Sume 1: 11111011
4) La representación binaria en 8 bits de 5 es 11111011
Ejemplo 1:
Ejemplo 2:
+33 00100001
−33 11011110
2.4 CODIGO BINARIO EN COMPLEMENTO A DOS
En este sistema la representación de los números positivos será igual que en el complemento a uno;
en cambio para los números negativos se utiliza lo que conocemos como complemento a dos que
consiste en cambiar los bits que son ceros a uno y viceversa y ya obtenido el resultado se le suma 1
(Superior, 2007).
+33 00100001
−33 11011110 + 00000001 = 11011111
1,01110010101110100001111100001111100010011 2 ∗ 25
510 + (28−1 − 1)10 = 510 + (27 − 1)10 = 510 + (128 − 1)10 = 13210 = 10000100𝐸𝑥𝑎 127
De lo anterior podemos determinar que de la mantisa se seleccionan los 23 bits más significativos:
1,0111001010111010000111, si podemos observar el resto de bits no los podemos representar,
porque no caben dentro de lo que llamamos mantisa (Diaz, 1998).
Por otro lado podemos mencionar que la mantisa se normaliza cuando se ubica la coma decimal los
bits que se escogió o los bits más significativos, el cual es el que vale por 1. Por lo anterior podemos
escoger otros bits más en la mantisa, seguidamente se puede decir que la precisión del número que se
presento es mayor. Por lo tanto los bits de la mantisa serán los siguientes:
01110010101110100001111
Cabe mencionar que al bit omitido se le llama bit implícito. Por otra parte, el bit de signo vale 0, ya
que, el número es positivo. En consecuencia, el número se puede representar como:
0 𝑠𝑖𝑔𝑛𝑜 (31)
10000100 (30 … .32)
01110010101110100001111 (22) … . (0)
En este caso, los números no son exactamente iguales, ya que, con precisión simple no se han podido
representar todos los bits de la mantisa.
Ejemplo 2:
Expresado el siguiente número: 𝟑𝑬𝟒𝟎𝟎𝟎𝟎𝟎𝟏𝟔 del estándar IEEE 754 con precisión simple, exponente
en Exceso a 2𝑛−1 − 1 y mantisa en Signo Magnitud con bit implícito, para identificar a qué número
representa en base 10, se pueden realizar los siguientes pasos:
011111002 − (28−1 − 1)10 = 12410 − (27 − 1)10 = 12410 = (128 − 1)10 = 12410 − 12710 = −3
Para realizar esto la mantisa tienen que estar escrita con el bit implícito (1), seguidamente se debe
colocar la coma decimal (,), así como también los bits de la mantisa
( 𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎) , es importante mencionar que se debe tener en cuenta que los
ceros por la derecha se pueden despreciar. Por otra parte afirmamos que el número es positivo ya que
el bit que se utiliza de signo es cero, entonces; por lo tanto el número es el siguiente:
𝟏, 𝟏 ∗ 𝟐−𝟑
5) Expresar el número en base 10. Para ello, hay dos formas de hacerlo, la primera es:
y la segunda:
1,1 ∗ 2−3 = ( ( 20 + 2−1 ) ∗ 2−3 )10 = ( ( 1 + 0,5) ∗ 0,125 )10 = ( 1,5 𝑥 0,125 )10 = 0,187510
𝑆 𝑆𝑖𝑔𝑛𝑜 (63)
Ejemplo 1 :
Si se quiere escribir el número 19,562510 en el estándar IEEE 754 con precisión doble, exponente en
Exceso a 2𝑛−1 − 1 y mantisa en Signo Magnitud con bit implícito, los pasos a seguir son:
10011,10012 = 1,00111001 ∗ 24
410 + (211−1 − 1)10 = 410 + (210 − 1)10 = 410 + (1024 − 1)10 = 102710 = 10000000011𝐸𝑥.𝑎 1023
4) Establecer la mantisa utilizando bit implícito. Para ello, se cogen los ocho bits que están a la
derecha de la coma (00111001) y el resto de la mantisa se rellena con ceros:
0011100100000000000000000000000000000000000000000000
5) Seguidamente se expresa el número en el estándar IEEE 754 con precisión doble. En este caso,
hay que tener en cuenta que el bit de signo vale 0, ya que, el número es positivo:
𝟔𝟑 𝟔𝟐 … 𝟓𝟐 𝟓𝟏 …. 0
𝟎 𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟏𝟏 𝟎𝟎𝟏𝟏𝟏𝟎𝟎𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎
El corte y redondeo en método numéricos cumple las siguientes características de forma que pueda
obtener el resultado del error requerido:
1) La obtención de resultados aproximados: esto quiere decir que se deben seguir pautas de manera
que se especifique que tan precisos serán los resultados que se obtendrán. Una forma muy
eficiente de identificar esto es detectándolo en términos de cifras significativas; es decir cuando
mencionamos que existe una aproximación que es aceptable, pero esta tiene una condición y es
que sea correcta si quiera 4 cifras significativas; seguidamente se debe tener certeza de que las
primeras 4 cifras son correctas.
1) El número de cifras significativas que se identifican, las cuales representan una cantidad.
2) La extensión utilizada en las lecturas repetidas que hacen parte de un instrumento que mide alguna
propiedad física.
Cuando hablamos de exactitud nos referimos a la forma de aproximación de cualquier medida o
número a un valor verdadero que se supone este representa. También existe el término inexactitud el
cual es un antónimo de exactitud o alejamiento de la verdad. En métodos numéricos “un alejamiento
del error aproximado”. En cuanto a la precisión lo conocemos como el grado de coincidencia que
existe entre los resultados de medición, entre otros.
Errores de redondeo: Estos se generan del procedimiento que cumple por la representación de
cantidades que cumple la computadora con un número finito de dígitos.
Errores de truncamiento: Los errores de truncamiento son aquellos que representan la diferencia
que existe entre la solución exacta de un problema y la aproximación que se obtiene con la
aplicación de un método numérico.
Ejemplo de error:
𝑒𝑟𝑟𝑜𝑟
𝐸𝑟𝑟𝑜𝑟 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑜 𝑓𝑟𝑎𝑐𝑐𝑖𝑜𝑛𝑎𝑙 =
𝑣𝑎𝑙𝑜𝑟 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜
El error relativo es aquel que se puede multiplicar por el 100% de tal manera que expresemos 𝐸𝑣 =
(𝑒𝑟𝑟𝑜𝑟 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜/𝑣𝑎𝑙𝑜𝑟 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜) ∗ 100 error relativo porcentual.
En los métodos numéricos dicho valor verdadero única y exclusivamente se conocerá en funciones
que solo serán resueltas analíticamente. Así como también cabe destacar que en aplicaciones reales,
muchas veces no se conoce la respuesta. En dichos casos lo que es sugerido hacer es normalizar el
error.
𝑒𝑟𝑟𝑜𝑟 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑜
𝐸𝑎 = ∗ 100
𝑣𝑎𝑙𝑜𝑟 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜
Ejemplo 1:
Suponga que se tiene que medir la longitud de un puente y la de un remache, y se obtiene 9999 y 9
cm, respectivamente. Si los valores verdaderos son 10000 y 10 cm, calcule a) el error verdadero y b)
el error relativo porcentual verdadero en cada caso.
Solución
1
𝐸𝑟 = ∗ 100 = 0,01%
10000
1
𝐸𝑡 = ∗ 100 = 10%
10
Por lo tanto, aunque ambas medidas tienen un error de 1 cm, el error relativo porcentual del remache
es mucho mayor. Se concluye entonces que se ha hecho un buen trabajo en la medición del puente;
mientras que la estimación para el remache dejó mucho que desear.
Ejemplo.
Al medir la longitud de una varilla para construcción se obtiene el resultado aproximado de 19999 cm.
mientras que al medir la longitud de un clavo, se obtiene el resultado de 9 cm. Suponiendo que los
valores verdaderos de la varilla y el clavo son de 20000 cm. y 10 cm. respectivamente, calcular el
error absoluto en ambos casos.
Solución. Tenemos los siguientes resultados:
Como podemos observar en lo anterior, en ambos casos el error absoluto es igual, pero obviamente
uno de ellos tiene mayor trascendencia; es decir en el caso del clavo existe mayor trascendencia que
en el caso de la varilla.
1
𝐸𝑣 = ∗ 100 = 0,005%
20000
1
𝐸𝑣 = ∗ 100 = 10%
10
Podemos observar, que el error relativo porcentual refleja mejor la gravedad del error que se está
cometiendo. Es claro, que en el caso de la varilla no es trascendente ya que representa solamente un
0,005% con respecto al valor verdadero, mientras que en el caso del clavo, el error si es
representativo ya que es del 10% del valor verdadero.
# Ejemplo 1
Ejercicios en clase:
𝟏𝟏𝟏𝟏𝟏𝟎𝟎𝟎𝟎𝟏𝟎𝟏𝟎𝟏 𝟎𝟏𝟏𝟏𝟏𝟎𝟎𝟎𝟎𝟏𝟏𝟏
+ 𝟏𝟎𝟎𝟎𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏 + 𝟏𝟏𝟎𝟏𝟏𝟏𝟎𝟎𝟎𝟏𝟎𝟎
___________________________ ___________________________
𝟏𝟏𝟏𝟏𝟏𝟏𝟎𝟏𝟎𝟏𝟏 𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏
+ 𝟏𝟏𝟎𝟎𝟎𝟎𝟏𝟏𝟏𝟏𝟎 + 𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎𝟏𝟎
_______________________ _________________________________
Ejercicios en clase
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟎𝟎𝟎𝟎𝟎𝟏𝟎𝟏𝟏𝟏 𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟎𝟏
− 𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟏𝟏𝟎𝟏𝟎𝟏𝟏𝟏𝟎𝟏𝟏𝟎 − 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟎𝟎 𝟎𝟎𝟎𝟎𝟏𝟏𝟏𝟏𝟎
__________________________________ ______________________________________
1.3.MULTIPLICACION DE NUMEROS BINARIOS:
𝟏𝟎𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟎𝟎𝟎𝟏𝟎𝟏 𝟏𝟏𝟏𝟏𝟏𝟎𝟎𝟏𝟏𝟏𝟎𝟏𝟏𝟏𝟏𝟏𝟎
𝒙 𝟏𝟏𝟏𝟏𝟏𝟎𝟏𝟏𝟎 𝒙 𝟏𝟎𝟏𝟏𝟏𝟏𝟎𝟏𝟎
_______________________________ _______________________________
𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟎𝟎𝟎𝟎𝟎𝟏𝟏𝟏𝟎𝟏 𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟏𝟏𝟏𝟏
𝒙 𝟏𝟏𝟏𝟏𝟎𝟏𝟏𝟎𝟏 𝒙 𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟏
__________________________________ _______________________________
𝟏𝟎𝟎𝟎𝟎𝟏𝟏𝟏𝟏𝟎𝟏𝟏𝟏𝟏𝟎𝟎𝟎𝟏𝟏𝟏
𝒙 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟎𝟎
_____________________________________
𝟏𝟏𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟏𝟏 ÷ 𝟏𝟎𝟏
𝟏𝟎𝟏𝟎𝟎𝟎𝟏𝟏𝟏𝟎 ÷ 𝟏𝟎𝟎𝟏
𝟏𝟎𝟏𝟏𝟏𝟏𝟏𝟎𝟎𝟎𝟏 ÷ 𝟏𝟎𝟏𝟏𝟏
𝟏𝟏𝟏𝟏𝟏𝟏𝟎𝟎𝟎𝟎𝟏𝟎𝟏𝟎𝟏 𝟏 ÷ 𝟏𝟏 𝟏𝟏𝟏𝟎𝟏𝟎
𝟏𝟏𝟎𝟎𝟎𝟎𝟎𝟏𝟏𝟏𝟏𝟎𝟏𝟏𝟎𝟎𝟏𝟎𝟎𝟎𝟎𝟎 ÷ 𝟏𝟏𝟏𝟎𝟎𝟏𝟏𝟏
𝟏𝟎𝟎𝟏𝟎𝟎𝟎𝟎𝟏𝟎𝟎𝟏𝟎𝟏𝟏𝟏𝟎𝟏𝟎𝟏𝟏𝟏𝟎𝟏𝟎𝟏𝟏𝟎𝟎𝟏 ÷ 𝟏𝟎𝟏𝟏𝟏𝟏𝟏𝟎𝟎𝟏
a) 101111000001111
b) 111111111100000
c) 000011111100011
d) 111111100001110
a) 1345
b) 8975
c) 0986
d) 4578
e) 1234567
f) 345689
g) 2390
h) 12346
i) 98045
j) 23789
3.1. Identificar la parte entera y la parte decimal de los siguientes números y normalizar.
a) 23,6785
b) 44,8975
c) 12,3456
4. Ejercicio planteado
Problema: para un ingeniero construyendo una autopista, no importa si tiene 10 metros o 10.0001
metros de ancho. Posiblemente ni siquiera sus mediciones eran así de precisas.
Para alguien diseñando un microchip, 0,0001 metros (la décima parte de un milímetro) es una
diferencia enorme, pero nunca tendrá que manejar distancias mayores de 0,1 metros.
Un físico necesita usar la velocidad de la luz (3000000000) y la constante de gravitacional universal
(más o menos 0,0000000000667) juntas en el mismo cálculo.
BIBLIOGRAFIA