Es una codificación de caracteres multibyte de Unicode .
UTF-8 es como UTF-16 y UTF-32 , ya que puede representar a todos los personajes en el juego de caracteres Unicode. Pero a diferencia de UTF-16 y UTF-32, posee la ventaja de ser compatible con versiones anteriores con ASCII . Y tiene la ventaja de evitar las complicaciones de la orden de bits y la consiguiente necesidad de utilizar para las marcas de bytes (BOM). Por estas y otras razones, UTF-8 se ha convertido en la codificación de caracteres dominantes de la World Wide Web- , que representan más de la mitad de todas las páginas Web. [ 2 ] [ 3 ] El Internet Engineering Task Force (IETF) requiere que todos los de Internet protocolos para identificar la codificación utilizada para los datos de caracteres y las codificaciones de caracteres admitidos deberán incluir UTF-8. [ 4 ] El Consorcio de correo de Internet (IMC) recomienda que todos los programas de correo-e ser capaz de mostrar y crear mail con UTF-8. [ 5 ] UTF-8 también se utiliza cada vez más como la codificación de caracteres por defecto en sistemas operativos , lenguajes de programación , API , y las aplicaciones de software . UTF-8 codifica cada una de las 1.112.064 [ 6 ] los puntos de código en el juego de caracteres Unicode utilizando de uno a cuatro 8 bits bytes (llamado " octeto "en el estándar Unicode). Código puntos con valores numéricos ( i. e. , a principios de posiciones de código en el juego de caracteres Unicode, que tienden a ocurrir más frecuentemente en la práctica) se codifican utilizando menos bytes, [ 7 ] lo que el esquema de codificación razonablemente eficiente. En particular, los primeros 128 caracteres del conjunto de caracteres Unicode, que se corresponden uno a uno con ASCII , se codifican con un solo octeto con el valor binario igual a la correspondiente de caracteres ASCII, lo que hace válido el texto ASCII válidos 8-codificados de texto Unicode UTF-también.