Manual TRyP 2022

Manual de la materia
Técnicas de Registro y Posproducción
Profesor Titular: Mgtr. Pedro Ernesto Sorrentino
Profesor Asistente: Lic. Carlos Filippa
Año: 2022
Manual de Cátedra de Técnica de Registro y Posproducción
Índice
Introducción 3
1. Aspectos fisiológicos de la visión humana 4
2. Principales factores de calidad en video 17
3. Relación de aspecto 35
4. Señales y conexiones de video analógicas 43
5. Formatos de grabación analógicos 51
6. Normas digitales de video 66
7. La compresión de datos 71
8. Conexiones digitales 84
9. Grabación digital de video 94
10. Raw, Log y Vídeo descomprimido 120
11. Edición y postproducción en video 125
12. Diagrama de trabajo para edición en HD 143
13. Transmedia 154
2
Introducción
El presente manual de cátedra de la materia Técnica de Registro y
Posproducción (TRyP) reúne una serie de artículos, publicaciones e
información técnica de muy diversa procedencia. La misma ha sido
organizada, corregida y reformulada en función de la propuesta y los
requerimientos pedagógicos de la materia en cuestión. En todos los casos
que fue posible se indicó el autor o autores de los textos u origen de la
información utilizada.
El manual está dividido en trece capítulos que recorren los aspectos

temáticos centrales de la materia. En la primera parte se encuentran
desarrollados los temas vinculados a la problemática del registro de la
información audiovisual. En este sentido, se hace un recorrido estableciendo
cuales son los requerimientos de calidad exigidos por el principal destinatario
de la información audiovisual: el ser humano. Una vez definidos estos
factores y sus unidades de medida, se analiza cómo se resolvió
tecnológicamente a lo largo de la historia la preservación de esos
requerimientos, poniendo especial atención en las tecnologías digitales de
grabación actuales. Por último se pasa revista a algunas de las herramientas
de control y medición de esos factores de calidad.
La segunda parte del manual aborda las temáticas vinculadas con la edición
y la postproducción. Se desarrollan en profundidad procedimientos típicos de
trabajo, tecnologías de uso frecuente, herramientas fundamentales de trabajo
y configuraciones estándar de equipamiento. Finalmente la última parte
aborda de forma introductoria cuestiones referidas a los transmedia.
La notable extensión del manual en comparación al de ediciones anteriores

tiene como objetivo brindar la explicación más completa posible, tratando de
aclarar la mayor cantidad de dudas que se han presentado durante la
explicación de estos temas en cursos anteriores. Sin embargo, sabemos que
nuevas inquietudes, dudas o sugerencias se presentarán, las que serán muy
bienvenidas para agregar o quitar a la próxima edición de éste manual.
Cualquier ámbito del conocimiento, pero particularmente el que se vincula
con la tecnología, está sujeto a continuas actualizaciones que nos obligan
necesariamente a repensar la propuesta año a año.
Mgtr. Pedro Sorrentino

Lic. Carlos Filippa
Córdoba, Agosto de 2022
3
1 - Aspectos fisiológicos de la visión humana
1.1 - La definición de la visión humana1

El globo ocular es un órgano de extensión del cerebro, de forma esférica
bastante perfecta excepto en casos de patologías, de unos 7,5 g de peso. Su
diámetro es de unos 24 mm; en los hipermétropes es ligeramente más
pequeño, y en los miopes por lo contrario es mayor. El diámetro varía con la
edad ya que en el momento de nacer es de unos 17 mm.
1
Ricaldoni, Jorge.
http://cinelibre.blogspot.com/2006/06/cunta-definicin-tiene-la-visin-humana.html
4
Lo que parece una lentilla y que está al frente del ojo, protegiéndolo y
siempre húmeda es la córnea. La transparencia, falta de cicatrices y rayones
en la córnea la hace más permeable y por lo tanto permite entrar a los
distintos rayos de luz con mayor facilidad. Si está ulcerada, tiene cicatrices o
rayones, ocurrirá lo contrario. La córnea frente a la pupila es de 500 micrones
(1u = 1 milésimo de mm). De allí la extrema fragilidad de esta capa fibrosa.
La esclerótica es lo que llamamos "lo blanco del ojo". En la esclerótica se
insertan los músculos externos que mueven a los ojos. De su parte posterior
sale el nervio óptico, formado por las fibras nerviosas de las células
ganglionares de la retina.
El iris está entre la córnea y el cristalino. Es un circulo de color que va del
marrón oscuro, pasando por varias gamas del verde, celeste o gris, lo que da
el color a los ojos. El iris, como su nombre lo indica, actúa como un diafragma
que se cierra ante la presencia de mucha luz o se abre cuando es escasa o
nula. Participa del sistema dióptrico del ojo al contribuir a la convergencia de
los rayos luminosos sobre la mácula.
5
El cristalino es una lente biconvexa, transparente e incolora. Está ubicada por

detrás del iris y por delante del humor vítreo. Su diámetro es de 10 mm y su
espesor central, de 4 mm.
El fotocaptor del ojo se llama retina. Se trata de una estructura delgada y
transparente formada por tejido nervioso. Si pudiéramos ver un corte
transversal con un poderoso microscopio nos encontraríamos que está
formada por diez capas sucesivas.
La capa más externa -el epitelio pigmentario- está en contacto con la
coroides que es lo que contiene a los humores líquidos del ojo. Las restantes
nueve capas internas son de tejido nervioso, similar al del cerebro, y
funcionalmente están formadas por tres grupos de neuronas muy
especializadas: fotorreceptores (las más externas), bipolares (intermedias) y
ganglionares (internas).
El fondo del ojo es "lo rojo" que vemos en las fotos. En él se destacan dos
zonas de gran interés funcional y patológico: la papila, la mácula y los vasos.
La papila -denominada también disco óptico- determina una mancha ciega en
el campo visual. Es el rasgo más característico al observar el fondo de ojo.
Es de color blanco amarillento con una forma redondeada bien definida, algo
ovalada en sentido vertical, de un diámetro aproximado de 1,5 mm. Contiene
la arteria y vena centrales de la retina y no es fotosensible.
La mácula es la parte central de la retina. Se sitúa en el eje visual, donde se
encuentra la mayor concentración de conos y la mejor discriminación de la
forma y del color. Tiene un tamaño similar al del disco óptico.
Ahora que sabemos dónde está cada cosa, veamos cómo funcionan
Los estímulos luminosos que percibe el organismo provienen de la función
visual, que discrimina las formas y colores, enfoca a distintas distancias y se
adapta a diferentes grados de iluminación. Mediante la visión binocular y la
fusión se obtiene la visión en profundidad o en relieve (estereopsis), o sea la
visión tridimensional.
Las formas se aprecian por la diferencia de iluminación de los distintos
sectores de la imagen proyectada (sensibilidad al contraste). Esta variedad
de estímulos impresiona a los fotorreceptores (conos y bastones) en forma
desigual, lo que permite la captación de esas diferencias
6
Se debe tener en cuenta que la visión más discriminatoria es la central y

depende de los receptores llamados conos, responsables de la visión de los
7
colores ubicados en la mácula. Éstos necesitan mucha luz para ser

estimulados, razón por la cual la visión central se denomina fotópica. Los
bastones, ubicados preferentemente hacia la periferia de la retina, tienen un
umbral de excitación más bajo; por lo tanto son excitados en ambientes con
poca iluminación. Los fotorreceptores no existen en la zona macular. La
visión nocturna, de la penumbra o crepuscular está a cargo de la retina
periférica y se conoce como visión escotó-pica; su poder de discriminación,
medido como agudeza visual, corresponde a 1/10 de la visión fotópica.
El mecanismo por el cual un estimulo físico luminoso se transforma en uno
nervioso es un fenómeno fotoquímico que tiene lugar en el nivel de los
fotorreceptores, en los cuales la púrpura retiniana se transforma en retineno y
una proteína, que pasa de posición cis a trans, en presencia de la luz. Esta
transformación genera una diferencia de potencial (voltaje). El proceso
químico es reversible.
1.3 - ¿Qué llamamos resolución ocular?

El ojo tiene un límite para identificar como separados dos puntos próximos.
Hay que recordar que la materia está formada por moléculas y átomos
separados, pero lo que nos muestra el ojo al mirar la materia es un todo
continuo. El poder de resolución se refiere a la capacidad para resolver o
distinguir dos objetos que están muy juntos.
Una película cinematográfica puede discernir de 7 a 8 mil puntos diferentes
de izquierda a derecha en el área sensible del fotograma. Hay scanners que
disciernen seis mil puntos (6k), otros 4k (más comunes), mientras que la gran
mayoría discierne 2000 puntos (2k). Un CCD de las cámaras de High
Definition se acercan a los 2k, pero en el caso de los ojos, esto no puede ser
medido de esta forma (por miles de puntos) sino por fracciones de grado.
Cada ojo (sano, joven, en condiciones normales, con iluminación suficiente,
pero moderada) es capaz de definir objetos separados por 1 minuto de grado
(1° = 60 minutos). Con lo cual, para medir la calidad visual lo que se
mantiene constante es el ángulo, no el tamaño del objeto. Como la distancia
mínima entre 2 conos es de 4 micras, y conocemos las medidas y la potencia
de la lente del ojo, hemos averiguado este ángulo, que es como ya dijimos,
de 1 minuto lo que en absoluto significa un píxel.
Los rayos que entran con un ángulo menor a 1 minuto no los veremos cómo
diferenciados, con lo que es precisamente este ángulo el que define la
agudeza visual.
Es decir: ángulo mínimo = 1 minuto significa agudeza visual del 100%
(teórica)
Obviamente este ángulo abarca más distancia cuanto más lejos estén los
objetos observados del ojo. En otras palabras, el detalle más pequeño que
podemos percibir tiene que ser más grande cuanto más lejos se encuentre.
8
Pero hay otros factores que lo condicionan: el tamaño de las células de la

retina, la longitud de onda de la luz y el diámetro de la pupila. Ya habíamos
dicho que la luz llega al fondo del ojo atravesando antes el orificio del iris
llamado pupila.
Debemos recordar que cuando un haz de luz atraviesa una ranura pequeña
se difracta (se abre). Colocando frente a ella una pantalla se observan figuras
de interferencia en las que alguna zona queda oscura (luz + luz = oscuridad).
Las personas que tengan un menor ángulo mínimo en el que se produce la
difracción tendrán una mayor agudeza visual en presencia de mucha
intensidad lumínica.
Vamos a tomar algunos números de la persona sana, joven y sin patologías:
La abertura de la pupila promedio en un adulto sin ayudas visuales es de
unos 5 mm de diámetro (DP).
El ángulo crítico para un ojo normal lo dan el diámetro de la pupila (DP) y la
longitud media de la luz visible (600 nm) y vale:
q crítico = 1,22 (6·10 -7 / 5·10 -3) = 1,46·10 -4 rad = 5' de arco.
Este ángulo mínimo es el ángulo de agudeza visual de esa persona. Lo cual
es bastante menor al número teórico de 1' de arco. Otro factor limitante del
poder de resolución del ojo es la separación de los receptores (conos) en la
retina debido al tamaño de estas células y que puede variar
considerablemente de un individuo a otro.
El ojo distingue dos puntos como distintos (separados) cuando la imagen de
los mismos se forma en células sensibles distintas. La separación de los
conos en la fóvea central (que es como un pozo cónico que está en el eje
óptico) es de 1 micrómetro y en otras zonas de 3 a 5 micrómetros que para
un globo ocular de 2,5 cm de diámetro da un ángulo de agudeza visual de 2 a
5 minutos de arco.
El Poder Separador del ojo es el valor inverso del ángulo de agudeza visual.
¿Qué tiene de especial esta fóvea?

Los fotorreceptores, esas células que reciben la luz, están muy juntos, y son
conos alargados. Cuanto más juntos están los receptores, mejor resolución
tenemos obteniendo imágenes más nítidas. Cada uno de estos conos tiene
su propia fibra nerviosa.
El tamaño de las células condiciona el ángulo de agudeza visual. Pero la
longitud de onda y el diámetro de la pupila también lo determinan. Es decir
que el q crítico puede ser menor a una misma apertura de pupila si la luz es
de mayor longitud. Los dos factores conducen al mismo valor. La evolución
del sistema de la vista en los humanos, quizás ajustó uno al otro. Los
instrumentos ópticos aumentan el ángulo de agudeza visual y lo que a simple
vista parece un punto puede revelarse como dos puntos separados.
9
Ahora ustedes se estarán preguntando, "¿Pero cuántos megapixeles o

elementos fotosensibles tiene el ojo?". Tenemos unos 200 millones de
receptores de la retina, de los cuales sólo 150.000 cumplen esta función de
retina central, y por tanto del millón de haces nerviosas que hay en el nervio
óptico, sólo 150.000 se ocupan de la "visión de alta resolución". El resto,
cuantitativamente es más grande, pero funcionalmente mucho menos
importante. Nuestros ojos tienen mucha resolución en poco espacio, el resto
de la retina se verá borrosa, no nítida y "pixelada". Pues así es. Además
recordemos que influye el q crítico la longitud de onda de la luz y la distancia
al objeto.
La zona periférica de la retina es más sensible a la luminosidad. Los conos
son los responsables de la visión en color de alta resolución, se acumulan en
el centro y van perdiendo densidad. En la zona periférica no hay conos. Los
bastones son el otro tipo de receptores y son la mayoría. Doy algunos
números para hacer una idea: los conos son unos 7 u 8 millones (de los
cuales 150.000 están en la zona central) y los bastones son unos 130
millones. Los bastones, mucho más numerosos, no nos dan información de
los colores ni tampoco dan una definición buena de la imagen. Sin embargo
tienen mucho mejor sensibilidad, de forma que se encargan de la visión
nocturna. Los conos necesitan mucha intensidad de luz para funcionar y se
encargan fundamentalmente de la visión diurna (y con luz artificial, claro).
10
La fóvea y la zona de alrededor que todavía tiene buena resolución de

imagen ocupan apenas unos 3 grados de visión, de los 120º de campo visual
que tiene un ojo. O sea, justo en el centro. Por eso sólo vemos enfocado lo
que está exactamente en el centro de nuestra visión. Esto no es así en el
film, ni en los CCDs, ni en los CMOS.
Hay varios experimentos sencillos para notar que no todo el ojo tiene la
misma agudeza visual. Se puede probar leyendo un cartel a lo lejos. Luego
se debe intentar leerlo sin mirar exactamente al cartel, sino a otro objeto un
poco al lado. Es una prueba difícil de hacer porque los ojos se mueven
automáticamente a lo que querríamos ver, es casi involuntario. Pero si se
consigue tener la mirada un poco apartada, descubriremos que no lo
podemos leer. Reconoceremos los colores del cartel, pero no tendremos
suficiente nitidez para leerlo.
Otro experimento: observar los ojos de alguien que está leyendo un papel.
Los ojos van dando saltitos muy rápidos de izquierda a derecha, y cuando
acaban la línea, un salto grande de derecha a izquierda. Esto es porque sólo
podemos leer lo que cae en la fóvea, y tenemos que estar desplazando
constantemente la mirada hacia el siguiente grupo de palabras. Si nuestros
ojos tuvieran la misma capacidad de resolución en toda la retina, leeríamos
"de un golpe de vista" y no tendríamos que irnos desplazando por el papel.
Hollywood descubrió a fine de los '50 con las pantallas anchas que miramos
únicamente al tercio central de la pantalla y que si se trata de dos personajes
enfrentados uno en cada tercio lateral, miraremos a uno y a otro
alternativamente, con excepción de los argentinos que leeremos los
subtítulos que están en el centro.
La estereopsis del desacuerdo

Si ambos ojos están sanos y alineados, tendrán igual acceso a los centros
visuales del cerebro, el que integrará la imagen captada por cada uno en una
sola en un proceso que se conoce como fusión. Sobre éste proceso no se
tiene un acabado conocimiento y si muchas teorías. La capacidad de fusionar
tiene una consecuencia importante para el individuo: mediante la estereopsis
podemos ver en tres dimensiones con una real sensación de profundidad, es
decir podemos discriminar dos puntos separados espacialmente (en el
sentido adelante-atrás) a un nivel superior al de la agudeza de Snellen (el
que inventó las cartillas con las cual nos torturan los oftalmólogos).
Consideremos que los elementos de las letras de Snellen están separados
por un minuto o 60 segundos de arco, pero la estereopsis es capaz de una
discriminación espacial a un nivel mejor que 10 segundos de arco. Por esta
razón la estereopsis es considerada una forma de hiperagudeza. Quiere decir
que con un ojo tapado teóricamente podemos ver objetos separados por 1' de
grado, pero con ambos ojos destapados podemos ver teóricamente objetos
11
separados por 10". En la práctica y no en las condiciones ideales de la carta

de Snellen son 5' y 1' respectivamente. La cantidad de pixeles es una forma
inexacta de hablar de resolución de imagen de los ojos. Lo importante es el
tamaño del punto más pequeño que podemos ver a una distancia dada.
Podríamos compararlo mejor con un monitor, sabiendo su tamaño de punto y
la distancia a la que nos ponemos. No hagamos simplificaciones
mecanicistas porque fallan. Concluimos que la fusión es el mecanismo que
mantiene los ojos correctamente (gracias al cerebro) alineados y la
estereopsis es la recompensa.
El área fusional de Panum

De acuerdo al párrafo anterior puede darse plopía (solapamiento de
imágenes de ambos ojos) en el punto de fijación y, en consecuencia, en los
puntos laterales al mismo, su imagen se forma en los distintos puntos
periféricos correspondientes de cada retina. Esto da lugar a una superficie
alrededor del punto de fijación denominada horóptero (se trata de una
superficie en la escena contemplada).
En 1858, un tal Panum demostró, mediante pruebas experimentales, que no
solamente las imágenes obtenidas por los conos correspondientes a cada ojo
dan lugar a la visión única, sino que para cada punto de una retina existe un
pequeño círculo o área de puntos en la otra retina cuya estimulación puede
llevar a la fusión.
De este modo, la plopía no se da exclusivamente en el horóptero, sino que
existe toda una región del espacio en las inmediaciones del mismo donde es
posible la visión única. A esta región se le conoce como área fusional de
Panum que es de baja definición. (Lo que llamamos ver por el rabillo del ojo).
Los objetos que se sitúen fuera de esta área producirán diplopía fisiológica,
por lo que se verán dobles. Lo curioso es que no somos conscientes de ver
una parte nítida y una parte "desenfocada". El cerebro y una serie de
movimientos involuntarios de los ojos se encargan de ello.
12
Lo más increíble es que tenemos 200 millones de receptores con solo 1

millón de cables. Esto es porque el nervio óptico descarta información. ¡Qué
mala noticia para muchos! ¡Nuestros ojos comprimen 200 a 1 y nosotros tan
campantes! Hay que tener en cuenta otra cosa: nuestros ojos son una
extensión del cerebro y son DIGITALES ya que los neurotransmisores usan
un código binario: el receptor se excita por la luz o no se excita, y el haz que
lleva la información del receptor al cerebro, transmite o no transmite. No hay
término medio. Ceros y unos. Con lo cual, si el cerebro recibe 1 millón de
cables por ojo, cada cable en cada instante sólo puede dar una de las dos
informaciones posibles (transmite o no transmite). No se puede interpolar la
información intermedia, con lo que veríamos el mundo pixelado. Por eso
tampoco podemos hablar de 2k o 4k.
Teorías de la visión binocular única

La obtención de una percepción única a partir de dos imágenes diferentes
captadas por cada uno de los ojos, es bastante desconcertante. Por eso no
es de extrañar que ese fenómeno haya motivado a lo largo de la historia una
serie de teorías destinadas a explicarlo, desde las más cuerdas hasta
algunas directamente descabelladas.
Entre las primeras explicaciones propuestas se encuentra la idea de que la
imagen percibida por cada ojo es suprimida de forma alternativa.
Posteriormente se propuso una supresión parcial alternante de fragmentos de
las imágenes recogidas por cada retina, tipo guiño de giro. ¡No hay como
fundamentarla!
Por mucho tiempo se pensó una especie de mosaico con porciones de
imagen correspondientes a los dos ojos, como en el offset de los CCDs y
CMOS. No está probada ni descartada, más teniendo en cuenta que el offset
de los CCDs funciona perfectamente.
13
Otras teorías han asignado un papel capital en la estereopsis a los

movimientos oculares de acomodación y convergencia, sin embargo, la
fusión y la estereopsis ocurren aún sin que ello ocurra. ¡Descartada!
Ninguna de estas teorías explica de forma satisfactoria el fenómeno de la
visión binocular única, e incluso en la actualidad, no se ha resuelto el asunto
de forma definitiva.
La percepción de la profundidad
Los procesos y fenómenos que implican la visión binocular son muy
complejos frente a la monocular, pero sus ventajas son muchas. Con
solamente dos justifican esta complejidad evolutiva: una mayor amplitud del
campo visual, y la estereopsis o percepción de los volúmenes, distancias y
profundidades que además representa un enorme cambio en la visión a nivel
cualitativo, proporcionando un sistema mucho más preciso y con mejor
calidad perceptual en la evaluación de las distancias. Puede comprobarse
este punto observando cualquier estereogramas en la web (los hay por
docenas).
Ahora, tengamos en cuenta que la estimación de las distancias no se realiza
de forma absoluta, sino que se establece con relación al punto de fijación. La
calidad de esta percepción mejora cuando las distancias al objeto van
disminuyendo hasta un cierto límite. La máxima calidad se da en las
distancias accesibles con el brazo extendido. Este hecho se explica porque la
sensación de profundidad se basa fundamentalmente en las diferencias
existentes entre las imágenes captadas por ambas retinas, de forma que
cuanto más cercano está el objeto, mayores diferencias existen.
En este sentido, y dado que las disparidades surgen por la diferente posición
de los dos ojos en una línea horizontal, las diferencias que puedan producirse
entre las dos imágenes en sentido vertical, no producen estereopsis aunque
tampoco la impiden.
Los Colores
La visión cromática es una sensación que aparece en algunos de los
organismos más evolucionados y que está a cargo de los conos. En la zona
macular se observan los colores más brillantes dentro de la gama
rojo-amarillo, mientras que en la retina periférica se perciben los azules.
Hasta hace poco se suponía que nuestra visión era como el súper video Y/C
(luminancia / crominancia). Que los conos veían los colores y los bastoncillos
la luz, sin embargo hoy la teoría más aceptada (que se llama de
Young-Helmholtz) o tricrómica explica los tres tipos de receptores para los
colores principales: rojo, verde y azul. Es decir que nuestros ojos en la zona
macular es RGB como Dios manda y en la periferia es monocromática como
14
la TV de antes de 1980. De hecho cuando hay poca luz es muy difícil

distinguir colores.
Young y Helmholtz descubrieron esto observando a discromatópsicos (el que
ve los colores de distinta forma) como quien escribe, que tenemos el espectro
corrido o directamente los hay ciegos a uno o la totalidad de los colores.
Las alteraciones de alguno o de todos los conos producen anomalías o falta
de visión de los colores. Pueden ser acromatopsias, (que quiere decir falta de
visión de los colores). Los protánopes no ven el rojo, los deuteránopes no ven
el verde y los triptánopes el azul o el violeta; pueden ser congénitas
(rojo/verde o daltonismo) o adquiridas (por lo general no se percibe el
azul/amarillo).
Quedan detalles como los de la profundidad de color que captan nuestros
ojos. No se trata de cantidad de colores sino que el ojo humano apenas
puede diferenciar 10 mil colores cuando un monitor de 32 bits ofrece muchos
más. La mayoría los va a ver como tonalidades grises.
Bibliografía y links:
Elementos de Física. Tebaldo J. Ricaldoni, Editorial Estrada.

The television camera. The other side. Jorge Ricaldoni. Divicom Inc. USA
Oftalmólogos y técnicos de la Clínica de Ojos Santa Lucía de La Plata.
Web:
Un tutorial introductorio a la visión estéreo:
http://www.dai.ed.ac.uk/CVonline/LOCAL_COPIES/MARBLE/medium/stereo/stereo.htm
Visión estéreo, problemas e imágenes 3D. Presenta un enfoque más desde un punto de vista fisiológico:
http://www.vision3d.com/stereo.html
El problema de la visión en estéreo: http://www.inria.fr/robotvis/demo/rkeriv/stereo.html
Investigación en la visión por computadora:
http://www.merl.com/threads/vision/index.html
Más sobre la estereopsis:

http://www.dai.ed.ac.uk/CVonline/LOCAL_COPIES/HENKEL/research/stereo/
En este enlace, aparte de tratar aspectos generales de la visión artificial, se puede encontrar un apartado
dedicado a la teoría de la imagen en estéreo:
http://www.dai.ed.ac.uk/CVonline/LOCAL_COPIES/MARSHALL/
Aquí encontraremos una descripción matemática extensa de diversos aspectos relacionados con la
visión estéreo:
http://www.dai.ed.ac.uk/CVonline/LOCAL_COPIES/EPSRC_SSAZ/node13.html
Aproximación a la visión estéreo. Se encuentra también desde el punto de vista de las redes neuronales:
http://axon.physik.uni-bremen.de/~rdh
Visión estéreo por detección de coherencia:
15
http://www.dai.ed.ac.uk/CVonline/LOCAL_COPIES/HENKEL/research/stereo/tyc/node1.html
Matemáticas elementales para el estudio de la visión artificial:

http://www.dai.ed.ac.uk/CVonline/LOCAL_COPIES/BASICMAT/basicmat.html
Procesamiento binario de imágenes:

http://www.dai.ed.ac.uk/CVonline/LOCAL_COPIES/MARBLE/medium/binary/
Percepción de la profundidad. Principios de la visión estéreo desde un punto de vista más psicológico.
Con muchos ejemplos:
http://server.esc.cquest.utoronto.ca/psych/psy280f/ch7/chapter7.html
Enlace a una extensa lista de lugares relacionados con la visión tridimensional. Muy variada y
completa:
http://www.dddesign.com/3dbydan/3dlinks/linksz.htm
Visión estereoscópica. Uno de los pocos lugares en castellano. Breve pero clara:
http://www.users.inycom.es/~agonzalez/vision.htm
Página relacionada con la visión artificial (Departamento de Inteligencia Artificial de la U.N.E.D.)

Muy completa:
http://www.dia.uned.es/ia/asignaturas/vision/
Información y recursos sobre visión estereoscópica:

http://www.3d-web.com/
16
2 - Principales factores de calidad en video2
De los principales factores que inciden en la calidad técnica de la imagen de

video dentro de la cadena de producción de imágenes y que pueden ser
medidos bajo algún patrón, los que tiene mayor relevancia a la hora de
realizar comparaciones a fin de establecer jerarquías son la resolución o
definición, la gama de contrastes y la resolución del color. Otros
aspectos como la resolución del movimiento o la corrección del parpadeo que
a pesar de estar altamente normalizados, haremos algunas consideraciones
sobre los mismos.
Resolución o Definición
La resolución mide el nivel de detalle que se puede alcanzar en la
composición de la imagen. Tradicionalmente en los sistemas analógicos se
especificaba en líneas horizontales. Actualmente y con proliferación de
equipos digitales la resolución se mide en pixeles, específicamente en
millones de pixeles (Megapixeles) que puede resolver un determinado
equipo: cámara de foto, cámara de video, monitores, televisores, etc.)
Un poco de historia: Resoluciones en teledifusión digital y factor de Kell3

En 1940, Ray Davis Kell evidenció que el telespectador percibe una
resolución inferior a la real. Una buena señal PAL tan sólo ofrece 400 líneas
de resolución, mientras que una señal XGA ofrece 690 líneas de resolución.
Las resoluciones de la televisión digital (DVB) abarcan desde 260 líneas
(LDTV) a 756 líneas (HDTV).
En el desarrollo de la televisión en color (NTSC, PAL o SECAM) se tuvieron
en cuenta la relación de aspecto (4:3), la distancia de visión (6 veces la altura
de la pantalla en PAL y 7 veces la altura de la pantalla en NTSC), la agudeza
del ojo (aproximadamente, un minuto de grado o 0,002907 radianes) y la
sensibilidad del ojo al color (el verde se percibe con mayor brillo que el rojo y
el azul).
El número de Líneas (N), en función de la agudeza (A) y de la distancia de
visión (D), queda expresado por la fórmula siguiente:
N= 1 / (A x D)
Si en la fórmula se introducen los valores de agudeza (0,002907 radianes) y
de distancia de visión (6 en PAL y 7 en NTSC) se obtienen 572,7 líneas en
PAL y 490,9 líneas en NTSC. A través de estas necesidades se desarrollaron
el NTSC con 525 líneas totales y el PAL con 625 líneas totales.
2
Autor desconocido. http://www.imagendv.org/resolucion/. Este artículo es una traducción de
un informe muy interesante llamado "La dura realidad acerca de la Resolución" escrito por
Peter Utz, un respetado experto.
3
Extraído de http://jesubrik.eresmas.com/
17
Los estándares de televisión de alta definición de 1.125 y 1.250 líneas

requieren distancias de visión más cortas para ver los detalles más finos. En
ambos sistemas la distancia de visión es 3 veces la altura en lugar de 6 o 7.
Factor de Kell
A raíz de la aparición de la televisión digital (DTV) se ha observado la
importancia del factor de Kell o relación de utilización, que evidencia que la
exploración progresiva es preferible a la entrelazada. Por esta circunstancia,
la industria de la teledifusión, especialmente en Estados Unidos, se está
equipando con cámaras y sistemas para exploración progresiva. En Europa
los teledifusores, aunque difundan en digital, todavía siguen anclados en el
viejo y querido PAL.
En 1940, Ray Davis Kell de la RCA Labs colaboró con Vladimir Kosma
Zworkin en el desarrollo de la televisión. Ray Davis Kell realizó
investigaciones sobre la resolución subjetiva y objetiva de la imagen de
televisión. A través de sus investigaciones se desprende que el telespectador
visualiza una resolución subjetiva inferior a la resolución objetiva (real). La
relación entre la resolución subjetiva y la resolución objetiva se conoce por
factor de Kell o relación de utilización. El factor de Kell toma en consideración
efectos psicovisuales, en donde el cerebro resuelve menos información de la
que existe en realidad. En los sistemas de exploración entrelazada el factor
de Kell es de 0,7 y en los sistemas de exploración progresiva es de 0,9. En
NTSC, también conocido por 480i, se utiliza un sistema de exploración de
525 líneas totales y 480 líneas activas (las que se restituyen en pantalla),
pues 45 líneas, que no son visibles, se utilizan para el borrado. Por tanto, en
NTSC el espectador tan sólo percibe 336 líneas (330 líneas, redondeando).
En PAL, también conocido por 576i, se utiliza un sistema de exploración de
625 líneas totales y 576 líneas activas, pues 49 líneas se utilizan para el
borrado, y por tanto, el espectador percibe 403,2 líneas (400 líneas
redondeando). Las 400 líneas del PAL corresponden a la resolución vertical,
es decir, la habilidad del sistema para definir las líneas horizontales de la
imagen. Se desprende, por tanto, que el PAL ofrece una resolución de un
21,2% superior al NTSC.
El término resolución espacial es aplicable en fotografía, pero no en televisión
o vídeo. En fotografía la resolución espacial depende del grano de la
emulsión y es idéntica en todas las direcciones. En televisión debido a los
barridos horizontal y vertical existen dos resoluciones: vertical (función del
número de líneas del sistema) y horizontal (función del ancho de banda del
sistema). En PAL, para mantener una resolución espacial idéntica tanto en
sentido vertical como horizontal y teniendo en cuenta que la relación de
18
aspecto es de 4:3, la resolución horizontal (habilidad del sistema para definir

las líneas verticales de la imagen) debe ser de 533,3 líneas (530 líneas
redondeando). Estas 530 líneas de resolución horizontal equivalen a la
sucesión de 265 puntos blancos y 265 puntos negros a lo largo de una línea
horizontal. Las 530 líneas de resolución horizontal se expresan, comúnmente,
como 530 LTV (Líneas de TV). Para que el espectador perciba las 530 LTV, y
tomando en consideración el tiempo activo de una línea (52,5
microsegundos) se requiere un ancho de banda de 5 MHz. Los formatos
magnéticos analógicos sobre cinta en cassette, por trabajar con una banda
pasante más reducida, ofrecen menos resolución. Así, basta recordar que el
VHS ofrece 240 LTV y el S-VHS y el Hi8, 380 LTV.
Resolución informática
La industria informática, a diferencia de la industria teledifusora, se apoya en
sistemas cerrados, en donde cada fabricante diseña el sistema que mejor se
adapta a sus necesidades técnico-económicas. Por esta circunstancia se ha
desarrollado una gran diversidad de sistemas. Además, la industria
informática, que se apoya en sistemas digitales, utiliza el término resolución
vertical para definir el número de líneas activas y el término resolución
horizontal al número de elementos elementales o píxeles por línea. En la
tabla 1 se muestran las características básicas de diferentes tarjetas gráficas.
Puede apreciarse que la resolución espacial, tomando en consideración la
relación de aspecto, es idéntica, tanto en sentido horizontal como en vertical.
Todas las imágenes informáticas son de resolución progresiva y en estas
condiciones el factor de Kell es de 0,9. Por tanto, para una imagen XGA la
resolución vertical que percibe el espectador es de 0,9.768, es decir, 691,2
líneas (690 líneas, redondeando). Por tanto, si este espectador la compara
con una buena imagen PAL (400 líneas) aprecia una notable diferencia, ya
que la imagen XGA ofrece una resolución de un 72,5% superior a la imagen
PAL.
Parámetro VGA SVGA XGA XVGA

Relación de aspecto 4:3 4:3 4:3 5:4
Resolución horizontal 640 800 1.024 1.280
Resolución vertical 480 600 768 1.024
Líneas activas 480 600 768 1.024
Líneas totales por
525 666 806 1.068
cuadro
FH (KHz) 37,8 48,077 56,476 76,02
FV (Hz) 72,2 72,188 56,476 71,18
19
Ancho de banda (MHz) 15,75 25 37,5 63,24

Figura 1.- Resoluciones horizontal y vertical de algunas tarjetas gráficas
informáticas.
Resoluciones en teledifusión digital

Con la aparición de la televisión digital han aparecido nuevos términos
relativos a la resolución que contribuyen a definir mejor el sistema. Así, la
resolución espacial queda definida por el producto de las líneas activas por
cuadro y por los píxeles activos por línea. Para una imagen de HDTV de
1.080 líneas activas y 1.920 píxeles por línea la resolución espacial será de
2.073.600 pixeles. Ahora bien, si la imagen es de exploración entrelazada la
resolución espacial que percibirá el espectador, tomando en consideración un
factor de Kell de 0,7, será de 1.451.520 píxeles. Para una imagen de HDTV
de 720 de líneas activas y 1.280 píxeles por línea, la resolución espacial será
de 921.600 pixeles. Si esta imagen se explora en modo progresivo la
resolución que se percibirá, tomando un factor de Kell de 0,9 será de 829.440
pixeles. Ello significa que la imagen de HDTV de 1.451.520 píxeles ofrece
una resolución espacial superior al 75% en comparación con una imagen de
HDTV de 829.400 pixeles. Por el momento, no existen sistemas
visualizadores de HDTV para 1.451.520 píxeles de precio asequible y debido
a ello, esta elevada resolución tan sólo está destinada para quedar
implantada en salas profesionales. Para el mercado doméstico la resolución
espacial de 829.400 píxeles es la más idónea, pues ya existen visualizadores
de precio asequible.
En el cine electrónico se utiliza el formato 24P, el cual es capaz de ofrecer
una resolución espacial de 1.866.240 píxeles.
En televisión digital también hay que tomar en consideración la resolución
temporal, un término que no existe ni en fotografía ni en informática, pues en
ambos sistemas se visualizan imágenes estáticas, es decir, detenidas en el
tiempo. La resolución temporal es la capacidad de resolver imágenes en
movimiento dando una sensación de un movimiento totalmente continuo. Un
estándar tiene mayor resolución temporal cuando mayor sea su frecuencia de
exploración. Así por ejemplo, un estándar explorado a 25 cuadros por
segundo tiene menos resolución temporal que uno de 60 cuadros por
segundo.
Otro concepto que aparece en la televisión digital se refiere a la resolución
dinámica y sirve para indicar la resolución aparente percibida por el
espectador en un objeto que se mueve por la pantalla, dentro de los límites
de seguimiento preciso del ojo. En otras palabras, es la capacidad de
resolver los detalles espaciales de un objeto en movimiento.
Exploraciones
20
Gracias a la televisión digital es posible enviar imágenes de exploración

progresiva. La exploración progresiva está ganando adeptos, ya que ofrece
sustanciales ventajas frente a la exploración entrelazada. Las características
que ofrece la exploración entrelazada se pueden resumir de la forma
siguiente: tecnología ampliamente experimentada en PAL, mejor resolución
espacial para un determinado ancho de banda, menor ancho de banda,
presencia de artefactos con objetos inclinados, notable parpadeo entre
líneas, más difícil de procesar que la exploración progresiva, diseño
económico de los visualizadores de TRC (Tubo de Rayos Catódicos), no
adecuada para visualizadores de nuevo diseño (plasma, LCD, D-ILA, DMD,
etc.) y resolución dinámica vertical un 50% inferior a la resolución vertical en
exploración progresiva.
Las características que ofrece la exploración progresiva se pueden resumir
de la forma siguiente: compresión más eficiente que la exploración
entrelazada, máximas facilidades de conversión bidireccional de la resolución
(hacia arriba o hacia abajo), máximas facilidades para reducir el ruido
(moscas y escalados), totalmente compatible con la nueva generación de
visualizadores (plasma, LCD, D-ILA, DMD, etc.), mejor resolución vertical
percibida (mejor factor de Kell) y parpadeo con velocidades de 24, 25 o 30
cuadros por segundo (se solventa con memorias de cuadro en los
visualizadores).
Estándares de transmisión de señal digital de televisión

En DTT (Televisión Digital Terrestre) existen, básicamente, tres estándares:
ATSC de Estados Unidos, DVB-T en Europa y el ISDB-T en Japón, Brasil y
Argentina. La ATSC desde un principio apostó por una televisión de superior
calidad a la NTSC, pero utilizando para ello el ancho de banda del canal (6
MHz). En Europa se apostó por una televisión de calidad similar al PAL capaz
de difundir datos (radio o Internet), y adecuada para una recepción móvil. En
Japón se apuesta por la difusión jerárquica (HDTV, SDTV y datos) por el
mismo canal. Por el momento, Estados Unidos es el único país del mundo
que difunde en HDTV y próximamente, lo hará Australia (estándar de difusión
en DVB y sonido Dolby Digital).
En la figura 2 se muestran las características básicas de los diferentes
formatos de la ATSC. Existen tres resoluciones básicas: alta (HDTV),
realizada (EDTV) y estándar (SDTV). Para HDTV existen dos posibilidades:
720P (720 líneas activas en exploración progresiva) y 1.080i (1.080 líneas
activas en exploración entrelazada). El 720P es el formato que se está
implantando, pues existen visualizadores de precio razonable y el progresivo
ofrece mejor calidad que el entrelazado. No hay que olvidar, que en un
visualizador de TRC la luminancia es inversamente proporcional a la
21
resolución horizontal. Debido a ello, los monitores de TRC para 1.080 líneas
son de grandes dimensiones y de precio muy elevado.
Transmisión Analógica Digital Digital Digital Digital

Denominación NTSC SDTV EDTV HDTV HDTV
Resolución
480i 480i 480P 720P 1.080i
máxima
Relación de
4:3 4:3 4:3 y 16:9 16:9 16:9
aspecto
Capacidad del
1 5-6 5-6 1-2 1
canal
Lo que se Imagen y Mejor imagen, Máxima Máxima
Descripción conoce sonido similar función de la calidad de calidad de
actualmente al DVD fuente imagen imagen
Figura 2. Características básicas de los diferentes formatos del estándar
ATSC y de la NTSC
En la figura 3 se muestran las resoluciones de los formatos digitales de la

ATSC: SDTV (televisión de definición estándar) y HDTV.
Frecuencia Relación
Líneas de Pixelación Velocidad
Formato de de Formatos
exploración (V x H) de cuadro
exploración aspecto
525 total 15.750Hz 24P, 30P,
SDTV 640 x 480 4:3 4
480 activas (60i) 60P o 60i
525 total 31.500Hz 24P, 30P,
EDTV 704 x 480 4:3 y 16:9 8 (4 x 2)
480 activas (60P) 60P o 60i
750 total 45.000Hz 24P, 30P o
HDTV 1.280 x 720 16:9 3
720 activas (60P) 60i
1.125 total 33.750Hz 1.920 x 24P, 30P o
HDTV 16:9 3
1.080 activas (60i) 1.080 60i
Figura 3. Resoluciones de los formatos digitales ATSC. La definición baja
(LDTV) no se contempla en esta norma.
En la figura 4 se muestran las características básicas de los diferentes

formatos de la DVB. Existen cuatro resoluciones básicas: HDTV, EDTV,
SDTV y baja (LDTV). En la DVB se contempla la relación de aspecto de 20:9,
una relación muy panorámica. La relación de 20:9 es similar a la relación
2,21:1 utilizada en el cine panorámico (70 mm). En DVB la resolución de la
22
LDTV se apoya en la resolución del Vídeo-CD de Philips. En la figura 5 se

muestran las resoluciones de los formatos digitales de la DVB.
Transmisión Analógica Digital Digital Digital Digital Digital

Denominación PAL LDTV SDTV EDTV HDTV HDTV
Resolución
576i 288P 576i 576P 720P 1.080i
máxima
4:3,
Relación de 4:3, 16:9
4:3 4:3 16:9 y 16:9 y 20:9 16:9 y 20:9
aspecto y 20:9
20:9
Capacidad del
1 8-16 5-6 2-3 1-2 1
canal
Lo que se Máxima
Vídeo Similar Superior Máxima calidad
Descripción conoce calidad de
CD al PAL al PAL de imagen
actualmente imagen
Figura 4. Características básicas de los diferentes formatos del estándar DVB
y del PAL.
Líneas de Frecuencia de Pixelación Velocidad Relación de

Formato Formatos
exploración exploración (V x H) de cuadro aspecto
625 total 15.625Hz 24P, 25P o
LDTV 352 x 288 4:3 3
288 activas (25P) 50i
625 total 24P, 25P, o
SDTV 15.625Hz (50i) 720 x 576 4:3 y 16:9 6 (3 x 2)
576 activas 50i
625 total 31.250Hz 1.080 x 24P, 25P o
EDTV 4:3 y 16:9 6 (3 x 2)
720 activas (50P) 720 50i
750 total 37.500Hz 1.280 x 24P, 25P o
HDTV 16:9 y 20:9 6 (3 x 2)
720 activas (50P) 720 50i
1.250 total
1.920 x 24P, 25P o
HDTV 1.080 31.250Hz (50i) 16:9 y 20:9 6 (3 x 2)
1.080 50i
activas
Figura 5. Resoluciones de los formatos digitales DVB. En DVB, además de la
relación de aspecto de 16:9, se contempla la relación de aspecto 20:9, muy
similar al cine panorámico de 70 mm.
El número de programas que se pueden vehiculizar o transportar por el canal

(6, 7 u 8 MHz) es función de la resolución escogida y del tipo de programas.
Las imágenes muy dinámicas absorben una elevada cantidad de datos y por
tanto, reducen el número de programas. Por esta circunstancia, la emisora
23
debe diseñar la rejilla de programación con gran cuidado para evitar una
degradación de los programas que se transportan por el canal.
Contraste
Respuesta a la iluminación y discriminación.
Debido a que las imágenes digitales se presentan como un conjunto de
puntos brillantes, la capacidad del ojo de discriminar entre diferentes niveles
de iluminación es una consideración importante para presentar los resultados
del procesamiento de la imagen.
La relación entre la intensidad de la luz que entra al ojo y su brillo percibido
no es una función lineal. Esto significa que a medida que la intensidad de una
fuente luminosa cambia, el observador no percibirá un cambio igual en el
brillo. La respuesta de la intensidad real del ojo es más logarítmica, similar a
la curva de la Figura 2. De hecho, se ha mostrado experimentalmente que la
intensidad de una fuente luminosa debe ser cercana al doble antes de que el
ojo pueda detectar que esta ha cambiado. Por lo tanto, los cambios ligeros en
la intensidad en regiones oscuras de una imagen tienden a ser más
perceptibles que los cambios iguales en regiones brillantes. Esta relación que
hay entre la intensidad de la iluminación y el brillo percibido, es conocida
como Ley de Weber.
Figura 2. Respuesta logarítmica del ojo, Ley de Weber
Las siguientes figuras ilustran la Ley de Weber. Son mostradas dos imágenes
junto con sus curvas de intensidad reales. En las figuras 3 y 4, la intensidad
de las barras asciende de izquierda a derecha en franjas iguales. Las franjas
de intensidad abarcan el rango completo de grises desde el negro hasta el
blanco. Como se esperaría de la curva en la Figura 2, las franjas en la región
oscura de la imagen son fácilmente perceptibles, mientras que las franjas en
24
la región brillante de la imagen tienden a ser indistinguibles. Las franjas

parecen compactadas en la región oscura de la escala. Son evidentes dos
fenómenos:
● La diferencia en el brillo percibido de las franjas no parece igual

● El ojo no puede ver los mismos incrementos de intensidad en las
regiones brillantes como los ve en las regiones oscuras
Figura 3. Franjas de escala de grises con franjas de igual intensidad
Figura 4. La intensidad real de las franjas de escala de grises en la Fig. 3
En las figuras 5 y 6, la intensidad de las barras asciende de izquierda a

derecha en franjas que igualan la respuesta logarítmica del ojo. Las franjas
de intensidad abarcan el rango completo de grises desde el negro hasta el
blanco. Sin embargo, en esta figura, el brillo percibido de las franjas tiende a
aparecer igualmente espaciado y bien definido en las regiones brillantes de la
imagen así como en las regiones oscuras. Las franjas parecen tener un
incremento uniforme en la intensidad.
El punto importante es que la respuesta logarítmica del ojo a la intensidad
hace a este más sensitivo a los cambios de intensidad en las regiones
oscuras que en las regiones brillantes de la imagen. En el procesamiento
digital de una imagen, un simple oscurecimiento de las regiones brillantes
puede hacer indetectables los cambios minúsculos de intensidad.
25
Figura 5. Franjas de escala de grises que igualan la respuesta logarítmica del

ojo
Figura 6. La intensidad real de las franjas de escala de grises en la Fig. 5
La capacidad del ojo para discriminar entre cambios de iluminación para cada
nivel específico de adaptación también es de considerable interés. Un
experimento utilizado para determinar la capacidad del sistema visual
humano de discriminar la iluminación consiste en colocar a un sujeto
observando un área plana, uniformemente iluminada, lo suficientemente
grande para que ocupe todo el campo visual.
Hay dos fenómenos que demuestran claramente que la iluminación percibida

no es una simple función de la intensidad. Un efecto, llamado contraste
simultáneo, es una ilusión por la cual el brillo percibido de una región
depende de la intensidad del área circundante. Este efecto es demostrado en
la Figura 9. Los cuatro cuadrados pequeños tienen intensidades idénticas, no
obstante el de la parte superior izquierda aparece más brillante que el de la
inferior derecha. Esto es porque el área alrededor del cuadrado de la parte
superior izquierda es más oscura que el área alrededor del cuadrado de la
parte inferior derecha. El sistema visual ajusta su respuesta a la intensidad,
basado en la intensidad promedio alrededor de la vista resaltada. Ya que la
parte superior izquierda de la imagen tiene una intensidad promedio más
oscura (ya que el fondo es más oscuro), su cuadrado parece más brillante. La
intensidad promedio más brillante de la parte inferior derecha hace que su
cuadrado parezca más oscuro. Por consiguiente, hay una diferencia en el
brillo aparente de los cuatro cuadrados pequeños, y parecen
progresivamente más oscuros, conforme el fondo se hace más claro.
26
Figura 9. Contraste simultáneo
Un segundo fenómeno es el efecto de bandas de Mach. Con este efecto, el

sistema visual acentúa los cambios agudos de intensidad. Las Figuras 10, 11
y 12 ilustran el efecto. El sistema visual tiende a sobrevalorar o infravalorar la
intensidad cerca de los límites de dos regiones con intensidades diferentes.
En la Figura 10, cuando se ven las franjas de izquierda a derecha, el brillo
aparente decae justo antes de cada franja, y parece aumentar después de
cada franja. Esto hace parecer a la transición de mayor amplitud que en la
realidad. En la Figura 11 se ve la intensidad real en las franjas de la escala de
grises de la Figura 10, y en la Figura 12 se observa la gráfica del brillo
percibido por el ojo de la escala de grises de la Figura 10. Esta es la forma
del ojo de añadir realce al contorno para las transiciones de intensidad. El
sistema visual realmente intensifica todo lo que ve, dando una agudeza visual
mejorada.
Figura 10. Escala de grises
27
Figura 11. Intensidad real de las franjas de escala de grises de la Fig. 10
Figura 12. Brillo percibido de la escala de grises de la Fig. 10
El sistema visual tiene limitaciones fundamentales en la respuesta en

frecuencia. Como en cualquier sistema óptico, el ojo tiene límites de cómo
puede resolver detalles finos, o transiciones de intensidad. Los factores
limitantes son el número y organización de los fotorreceptores en la retina, la
calidad de la parte óptica del ojo (córnea, humor acuoso, cristalino, y humor
vítreo), y la transmisión y procesamiento de la información visual al cerebro.
Generalmente, la respuesta en frecuencia del ojo disminuye a medida que se
ven transiciones de intensidad, que se vuelven cada vez más finas, como se
ve en la Figura 13. Es también un factor el contraste, o diferencia entre
niveles de gris, de la transición de intensidad. Entre más alto el contraste,
más fino es el detalle que el ojo puede resolver. Finalmente, cuando las
transiciones están demasiado finas o el contraste es demasiado bajo el ojo ya
no puede resolverlos. En este punto, el ojo puede percibir sólo un promedio
del nivel de gris del área detallada.
28
Figura 13. Patrón que incrementa la frecuencia de izquierda a derecha y

decrece el contraste de arriba abajo
El fenómeno discutido ilustra el complejo proceso que ocurre en el sistema

visual humano. Combinando los conceptos de respuesta de intensidad no
lineal, interacción del fotorreceptor y respuesta en frecuencia del ojo, se
pueden hacer unas observaciones:
● La intensidad del objeto visto está relacionada a la intensidad

promedio alrededor del objeto. El objeto aparece más oscuro si el área
circundante es brillante, o más brillante si el área circundante es oscura.
● Los cambios sutiles de intensidad son más aparentes en las regiones
oscuras que en las regiones brillantes de la imagen.
Las transiciones marcadas de intensidad se acentúan en una imagen. La

respuesta a los detalles de la imagen decae cuando los detalles a resolver
son demasiado finos. Los detalles con contraste alto se pueden resolver más
fácilmente que aquellos con contraste bajo.
Resolución de color.
El ojo no es uniformemente sensible a todo el espectro visible. La Figura 14
muestra la respuesta relativa del "ojo medio" a la luz de luminancia constante
proyectada en las varias longitudes de onda comprendidas en el espectro. El
pico (máximo) de la curva está en la región verde-amarillo y es interesante
observar que una curva que represente la distribución de energía de luz solar
o natural tiene su máximo en esta área. La curva de línea gruesa representa
la impresión subjetiva de brillo del observador medio en condiciones de luz
natural. Como muestra la segunda curva, en condiciones cercanas a la
oscuridad la curva de respuesta se desplaza hacia la izquierda.
29
Figura 14. Sensibilidad relativa del ojo humano a diferentes longitudes de

onda
Se dice que la luz de una sola longitud de onda es monocromática. Por

nuestra aptitud para distinguir una variedad de diferentes colores se puede
suponer que existen diferentes tipos de conos en la retina, y que cada tipo
está "sintonizado" a una pequeña banda de frecuencia. Si los conos fuesen
monocromáticos de esta manera, entonces la impresión de un color dado
podría ser únicamente producida por la energía electromagnética que tuviese
la longitud de onda apropiada. Sin embargo, esto no es cierto. La luz
monocromática brillante que impresiona a la retina no es la única manera de
crear una impresión de color dada. Por ejemplo, algunos amarillos
monocromáticos pueden ser adaptados por la llegada simultánea a la retina
de luz roja y verde. Casi todos los colores pueden ser obtenidos mezclando
sólo tres luces de color. A estos colores se les llama "primarios" y los que se
usan son el rojo, el verde, y el azul.
El comportamiento del ojo es consistente con los tres tipos de conos
únicamente, teniendo cada uno una curva diferente de respuesta. Las tres
curvas de respuesta se solapan de manera que todos los colores están
debajo de cualquier curva de ellas, o bien parcialmente debajo de dos, o de
las tres curvas. La Figura 15 ilustra esto. Se observará que el amarillo activa
a los conos verde y rojo. Lo lógico es deducir que cuando la luz verde y la luz
roja llegan a la retina al mismo tiempo, la excitación simultánea de los conos
correspondiente al verde y al rojo produce en el centro sensorial del cerebro
una impresión que es indistinguible de la del amarillo monocromático.
Para que se pueda ver el color, tiene que llegar al ojo la energía
electromagnética. Se ve un objeto por la luz reflejada desde él. Si parece
verde a la luz del día, entonces esto debe implicar que aunque está bañado
de luz natural "blanca", es solamente la reflexión de la parte verde de la luz la
que llega a los ojos. El resto del espectro es "absorbido". Por consiguiente un
objeto parece coloreado a causa de que sólo refleja parte del espectro visible
30
y absorbe el resto. El color procede de la luz incidente. La hierba no parece

verde bajo iluminación de sodio a causa de que en ella no hay luz verde que
pueda ser reflejada.
Figura 15. Sensibilidades de los tres tipos de conos en la retina
Mezcla aditiva de colores. Los colores se pueden obtener haciendo una

mezcla de los tres colores primarios, rojo, verde y azul, esta mezcla se
denomina aditiva. Al mezclar los colores primarios en diferentes
proporciones, se puede obtener casi cualquier otro color. Los colores
amarillo, magenta y cian se conocen como colores complementarios. Si se
añade un complementario en proporciones adecuadas a uno primario no
contenido en él (por ejemplo amarillo+azul), se produce blanco. En la Figura
16 se puede observar la mezcla aditiva de colores.
Figura 16. Mezcla aditiva de colores
31
32
Resolución de movimiento y parpadeo

Vídeo entrelazado (campos) / no-entrelazado
El ojo humano es "tonto" y ante una sucesión rápida de imágenes tenemos la

percepción de un movimiento continuo. Una cámara de cine no es otra cosa
que una cámara de fotos que "saca fotos muy rápido". En el cine se usan 24
imágenes, o fotogramas, por segundo. Es un formato "progresivo" Eso quiere
decir que se pasa de una imagen a otra rápidamente Vemos una imagen
COMPLETA y, casi de inmediato, vemos la siguiente. Si tenemos en cuenta
que vemos 24 imágenes por segundo, cada imagen se reproduce durante
0,04167 segundos. Las diferencias, por tanto, entre una imagen y otra son
mínimas. Para ilustrar este concepto he elegido una sucesión de 4
fotogramas de dibujos animados porque los dibujos son también un formato
progresivo y porque en animación se usa una velocidad de reproducción
bastante inferior: 15 imágenes (o fotogramas) por segundo. Aún así, como se
puede apreciar, las diferencias entre cuadro y cuadro son muy escasas.
El vídeo y la televisión analógica tenían un funcionamiento totalmente distinto

al cine. Para empezar hay dos formatos diferentes. PAL, usado en Europa, y
NTSC usado en América y Japón como zonas más destacadas. En el formato
PAL la velocidad de imágenes por segundo es de 25 y de 29,97 en el formato
NTSC. A esta velocidad de imágenes por segundo se le llama Cuadros Por
Segundo en español (CPS), o Frames Per Second en inglés (FPS )
Otra diferencia es que la pantalla de un televisor no funcionaba como un
proyector de cine, que muestra imágenes "de golpe". Un televisor analógico
estaba dividido en líneas horizontales, 625 en televisores PAL y 525 en
televisores NTSC. Estas líneas no muestran todas a la vez un mismo
fotograma, sino que la imagen comienza a aparecer en las líneas superiores
y sucesivamente se van rellenando el resto hasta llegar a las líneas más
inferiores. Un único fotograma no es mostrado "de golpe", sino de modo
secuencial. Al igual que pasa con el cine, este proceso de actualización de
líneas es tan rápido que, en principio, a nuestro ojo le pasa desapercibido y lo
percibimos todo como un continuo.
33
Sin embargo, este proceso presentaba un problema: las características de los

tubos de imagen de los primeros televisores hacían que cuando la imagen
actualizada llegaba a las últimas líneas (las inferiores) la imagen de las líneas
superiores comenzaba a desvanecerse. Fue entonces cuando surgió la idea
de los "campos" y del vídeo entrelazado. El "truco" está en dividir las líneas
del televisor en pares e impares. A cada grupo de líneas, par o impar, se le
llama "campo". Así tendríamos el campo A o superior (Upper o Top en inglés)
formado por las líneas pares (Even en inglés) y el campo B, inferior o
secundario (Lower o Bottom en inglés) formado por las líneas impares (Odd
en inglés)
34
3 - Relación de aspecto4
Podemos definir relación de aspecto (también llamada aspect ratio) como el

atributo que describe la relación entre el ancho y alto de una imagen. Lo
vemos expresado por 2 números (X e Y) que son separados por «:», como
por ejemplo 16:9 o 4:3, que son las relaciones convencionales.
Una imagen cuadrada tiene una relación de aspecto de 1:1 porque la altura y
el ancho es el mismo, así que esa proporción se mantendrá aunque la
resolución de la imagen sea enorme: desde 100 x 100 hasta 3000 x 3000, por
ejemplo.
¿Qué pasa cuando no son cuadradas? Pues que el ancho y el alto no es el
mismo, por lo que la relación cambia a los famosos monitores 16:9 (pantallas
panorámicas), monitores 4:3 (antigua relación), monitores 21:9 (pantalla
ultrapanorámica) o, incluso, monitores 32:9 que son menos habituales.
Esto no quiere decir que «X» sea el ancho e «Y» el alto, simplemente
describen la relación entre ellos. Es importante atender a la relación de
aspecto porque está más presente de lo que creéis:
● A la hora de grabar una película, se suele tener una relación de
aspecto de 16:9.
● Cuando usamos el smartphone para grabar un vídeo o sacar una
foto, podemos elegir entre varias resoluciones y relaciones de
aspecto.
● En caso de que vayamos a jugar a videojuegos, podemos
configurarla en el menú de opciones. El juego suele configurarse
automáticamente según la resolución que elegimos.
Tipos de relación de aspecto
4
Contenido tomado (y adaptado) de las páginas webs:
https://www.profesionalreview.com/2021/08/28/relacion-de-aspecto-que-es/
https://www.chamanexperience.com/video/tipos-de-relacion-de-aspecto/
35
Encontramos una clasificación de relaciones de aspecto, especialmente en

los entornos profesionales dedicados al multimedia (foto, vídeo, interfaces,
etc.). Concretamente, hay 3 tipos de relación de aspecto principales:
● De píxeles (PAR). Hace referencia a la proporción de píxeles
individuales que forman una imagen. Se suelen usar píxeles
cuadrados, por lo que el aspect ratio es de 1:1.
● De pantalla (DAR). Es el tipo de relación del que hablábamos antes
y que más se usa por diseñadores, editores y un sinfín de
profesionales de audio, foto y vídeo. Aquí nos referimos a la
proporción de la imagen que tiene la pantalla, por lo que
encontraremos varios (4:3, 16:9, 21:9, etc.).
● De almacenamiento (SAR). Este tipo es menos usado y se refiere a
los archivos de vídeo digital codificados. Se toma como referencia la
relación del ancho y alto del frame del vídeo.
Tipos de relación de aspecto en vídeo y fotografía | Cine, Instagram

¿Qué es la relación de aspecto o aspect ratio?
La relación de aspecto, aspect ratio, razón de aspecto, ratio de aspecto, etc
(puede que hasta tenga algún que otro nombre más) es la relación
dimensional entre el ancho y lo alto de una imagen. Se calcula dividiendo el
ancho (el que va de lado a lado) por el alto (el que va de arriba a abajo) y se
muestra generalmente usando dos números separados por dos puntos, por
ejemplo, 16:9.
Generalmente el ancho suele ser el borde largo, pero en las fotos verticales o
los nuevos formatos usados en móviles actualmente han cambiado esta
forma común de usarse el ratio de aspecto.
Los números de la relación de aspecto consisten en una proporción entre un
lado y el otro. Por ejemplo, la relación de aspecto 4:3 quiere decir que si
dividimos la altura en 3 secciones, la anchura medirá 4 veces esa sección.
De hecho, esta proporción también se llama 1,33:1. Esto es debido a que si
multiplicas la altura por 1,33 obtendrás la anchura (ya que esta es 1,33 veces
más larga que la altura).
36
La relación de aspecto está muy ligada a la composición, pero ese tema se

desarrollará en la materia fotografía.
Tipos de relación de aspecto en cine

Relación de aspecto 4:3
Esta es la relación de aspecto que se hizo más conocida en sus inicios,

aunque no se sabe muy bien por qué fue escogida.
Fue la primera relación de aspecto que se hizo global en el cine (por lo
menos en los Estados Unidos).
Relación de aspecto 2.35:1, 2,39:1 y 2,55:1 (cinemascope o anamórfica)

Años después se creó la proporción 2,35:1, que es extremadamente usada
en cine actualmente, hasta el punto en el que se ha convertido casi en un
estándar, junto a la siguiente que voy a enseñarte.
Estas relaciones de aspecto nacen por el uso de lentes anamórficas con el fin
de crear imágenes panorámicas (más anchas que el resto), para destacar de
los formatos comúnmente usados hasta el momento.
Esta relación de aspecto fue creada para competir con la televisión en el cine.
A continuación se muestran imágenes que grafican diferentes proporciones.
37
38
Como se puede ver en la comparativa, las dos últimas proporciones son

vistas panorámicas, es decir, muy alargadas. A nivel compositivo ayuda a
crear acciones, situaciones, ya que hay más espació para que el protagonista
se mueva de un lado a otro (que es el movimiento que suele realizar el
humano al moverse y, a la vez, la mirada).
Relación de aspecto estándar 16:9

La relación de aspecto 16:9 se creó para combatir las proporciones 2,55:1 y
2,35:1 creadas en el mundo del cine y, finalmente, ha acabado siendo un
estándar en cuanto a proporción de vídeo.
Es la que usa actualmente YouTube, la plataforma de vídeos en línea más

grande del mundo y el segundo buscador más usado de todos (después de
Google, por supuesto).
De hecho, si se usa cualquier otro ratio de aspecto que no sea 16:9 en
YouTube, este agrega pilarboxes (barras negras en los laterales del vídeo) o
letterboxes (barras negras arriba y abajo del vídeo) para crear esta
proporción sin tener que deformar ni recortar el vídeo que hayas subido.
Tipos de relación de aspecto en fotografía
Hay más ratios de aspecto además de los que se van a nombrar que se usan
en fotografía, pero estos son los más comunes.
39

La relación de aspecto 4:3 es la más utilizada por cámaras compactas debido
al tamaño de los sensores usados por las mismas.
Evidentemente aquí cambia el tamaño y formato de la fotografía, por lo que
esta transmite una sensación diferente a la que solemos estar
acostumbrados, que es el siguiente, el más habitual.

La relación de aspecto 3:2 o 1,5 es la proporción más habitual usada
actualmente en fotografía.
40
Esto es obvio ya que viene dada por el tamaño de los sensores de las
cámaras actuales. Lógicamente la idea es poder aprovechar al máximo el
tamaño del sensor, por lo que la proporción de las fotos es exactamente igual
a este.
El problema de los ratios de aspecto de los sensores fotográficos actuales es
que no tienen la misma proporción que los papeles usados comúnmente
(DIN). Pero si vas a hacer una impresión de calidad de alguna de tus
fotografías, merece la pena que te gastes el dinero que haga falta para que
esta muestre la proporción que deseas (ya que si no cambia la composición
de la misma completamente).
Tipos de relación de aspecto en teléfonos móviles

Obviamente, y teniendo en cuenta que vivimos en una época en la que se
usan los celulares más que las computadoras de escritorio o portátiles, ha
cambiado la forma de ver y usar todo. Y la fotografía y el vídeo, como es
lógico, también se ha visto afectada.
Vivimos en un mundo gobernado por el uso de los smartphones, por lo que
es lógico que estos influyan en todo. En el caso que nos atañe, han cambiado
la forma de ver las fotografías y vídeos, así como la forma de tomarlas.
Los teléfonos móviles actualmente más usados tienen una proporción 16:9,
pero como se usan generalmente en forma vertical, esta proporción es la que
suele usarse hoy en día para hacer fotos y vídeos por doquier.
41
Pero esto no acaba aquí, ya que dependiendo de la red social que estés
usando, e incluso de lo que vayas a hacer en la misma, vas a tener una
proporción u otra.
Relación de aspecto Instagram
En Instagram hay diferentes relaciones de aspecto, dependiendo del tipo de
contenido que vayas a subir:
● Historias de Instagram: estas suelen ser en 16:9
● Feed de Instagram: aquí realmente puedes usar el formato que
quieras, ya que puedes subir una foto ya hecha desde la galería con el
formato que hayas usado o bien hacerla al momento con la proporción
que ofrece Instagram. Esta proporción es 4:5 (en formato vertical), y
está diseñada para que ocupe el máximo espacio en la pantalla
dejando un hueco para ver el nombre del usuario y los
likes/comentarios que tiene. Esto hace que llame más la atención y
recibas el máximo engagement posible en esta red social.
Si quieren saber más sobre las relaciones de aspecto usadas en cine y tienes
un nivel de inglés bueno (tienen subtítulos automáticos en español), se
recomienda ver los siguientes dos vídeos que abordan de forma muy
interesante el tema a lo largo de la historia:
The Changing Shape of Cinema: The History of Aspect Ratio

Aspect Ratio - The Changing Shape of Cinema (UHD)
La relación de aspecto en el paso de sistemas grabación de video

analógico a digital
La relación de aspecto de vídeo analógico se forma a partir de líneas
horizontales: 625 para el sistema PAL y 525 para el sistema NTSC. Por su
parte, el vídeo digital procedente de videocámaras DV también tiene su
propia relación de aspecto, pero al estar formado por píxeles (puntos) y no
por líneas da lugar a píxeles no cuadrados. Es decir, su proporción NO es
1:1, no son cuadrados. En el caso de DV NTSC, la orientación de los píxeles
es vertical dando lugar a una relación de 0.9 y en el vídeo DV PAL los píxeles
se orientan horizontalmente dando una relación de aspecto de 1.067. Cuando
trabajes con vídeo DV hay que cuidar estas proporciones para evitar
deformaciones.
Por su parte, para grabaciones de vídeo que no son DV de distintos tamaños
(720x576 o 720x480 por ejemplo) dan lugar a la misma proporción de
aspecto (4:3) debido a que, aunque el ancho de los televisores es el mismo,
no así las líneas, teniendo una mayor resolución vertical los televisores PAL
que los NTSC.
42
4 - Señales y conexiones de video analógicas
4.1 Introducción
En la década del 40 solo existía televisión monocromática o blanco y negro,
es decir, que la señal de video transmitida por las estaciones existentes, solo
incluía la información de brillo de la imagen, la cual era representada en la
pantalla del receptor como una sucesión de puntos con mayor o menor
intensidad (tonos de grises). Si bien hoy en día, ver imágenes en blanco y
negro pueden no resultan atractivas, esta modalidad de transmisión logra
cumplir con un objetivo muy necesario: dotar a la imagen reproducida de
definición suficiente para que el espectador pueda discriminar dentro de la
imagen, las formas, y tamaños relativos de los componentes de la escena.
Cuando la tecnología pudo agregarle color a la imagen, hubo que analizar la
forma de incluir dentro del canal de televisión, la información de color
(crominancia), sin detrimento de la información de brillo (luminancia), ya
existente.
4.2 Sistemas de exploración y sistemas de color

Conviene hacer una aclaración importante: hay que poder discernir entre 2
conceptos distintos, que en la práctica se suelen tratar indistintamente. Los
sistemas de exploración de imágenes de televisión, se refieren a la manera
en que la imagen es barrida por el haz, la cantidad de líneas de definición, las
frecuencias vertical y horizontal, y otras características. Así, existen normas
como la M en EE.UU., Brasil, Japón, la norma N de Argentina, La norma B en
Europa, etc. Los sistemas de codificación de color de imágenes de televisión,
se refieren a la manera en que se agrega la información de color a la imagen.
Así, existen 3 sistemas clásicos que se implementaron en el mundo: NTSC,
PAL y SECAM.
4.3 Compatibilidad y retrocompatibilidad

Se hace necesario agregarle a la señal monocromática de luminancia, la
señal de crominancia. Para conseguir esto se debe mantener 2 condiciones
importantes:
Compatibilidad
Es la propiedad de un sistema de televisión color que permite la reproducción
de las emisiones a color, en los receptores monocromáticos existentes (por
supuesto se verán las imágenes en blanco y negro, aunque se hayan
generado en el transmisor a color).
Retrocompatibilidad o compatibilidad inversa
43
Es la propiedad de un sistema de televisión en colores que permite a los

receptores de televisión en colores, reproducir en blanco y negro, las
emisiones de un sistema existente en blanco y negro.
En ambos casos, las imágenes deben ser de buena calidad, por lo que la
emisión en colores debe mantenerse dentro del canal de frecuencias previsto
para blanco y negro, sin invadir canales adyacentes.
4.4 La cámara de color

Básicamente es igual a la monocromática, pero deberá tener algún agregado
que le permita discriminar entre los 3 colores primarios que componen la
imagen de toma, separarlos y obtener sendas señales de R, G y B. Esto se
consigue con la inclusión dentro de la cámara de espejos muy especiales que
en lugar de reflejar toda la radiación incidente, solo lo hacen con una
pequeña banda de la misma, permitiendo que el resto de la radiación sea
atravesada. Estos espejos se llaman dicroicos. Entonces, con un juego de 2
espejos dicroicos y otro espejo normal se consigue separar la onda incidente
en la cámara en sus 3 componentes primarias. Con estos 3 colores se
podrán reproducir la mayoría de los colores existentes en la naturaleza, por lo
tanto, si se transmitieran estas 3 señales se podrían reproducir en un
receptor destinado para este fin; sin embargo un televisor monocromático
pre-existente no está preparado para recibir estas 3 señales, sino solo la Y.
Se deduce, de la colorimetría, que la relación entre Y los 3 colores primarios
está establecida por la llamada ecuación fundamental de la Luminancia:
Y= 0.30.R + 0.59.G + 0.11.B
44
Conocido el hecho que se necesitan 3 señales para reproducir una imagen

coloreada y una de las señales a transmitir es Y, resta todavía obtener 2
señales más, que conformarán la señal vectorial de crominancia. Estas 2
señales deberán tener la particularidad de anularse en caso de tratarse de
una imagen monocromática (solo brillo). Este hecho, al igual que el anterior
son necesarios en relación a las 2 premisas anteriormente nombradas,
compatibilidad y retrocompatibilidad. Observando que el blanco se obtiene
con iguales cantidades de los 3 primarios, por ejemplo el blanco de máximo
brillo se obtiene con señales normalizadas con R=G=B= 1v, se comprueba
que Y=1v también. Por lo tanto la señal de crominancia estará formada por 2
de las 3 señales diferencia de color R-Y, G-Y, B-Y. Solo será necesario enviar
2 señales, además de Y, dado que la tercera es combinación lineal de las
otras. En el receptor, de igual manera se podrán recuperar las componentes
R, G y B a partir de Y y C, donde C es la señal vectorial de crominancia
formada por 2 señales de diferencia de color. Al deducir la expresión analítica
de las diferencias de color, se comprueba que la diferencia al verde G-Y es la
que tiene coeficientes menores y por ende menor potencia por lo que será
más susceptible al ruido. Por lo tanto la señal de crominancia C estará
compuesta por la diferencia al rojo y diferencia al azul, también simbolizadas
Cr y Cb
4.5 - Señales de video

Una señal de vídeo está inicialmente formada por 5 componentes básicos:
color Rojo (R), color Verde (G), color Azul (B), sincronismo Horizontal (H) y
sincronismo Vertical (V). De una forma sencilla e intuitiva, si emitimos por
separado cada uno de los componentes de los que consta cualquier tipo de
señal se obtendrá la mejor emisión y recepción de la señal original, ya que se
emitirá y recibirá sin ningún tipo de interferencias por parte de otras señales,
además de poder tratarlas o manipularlas por separado en cualquier otro tipo
de proceso.
A medida que vamos juntando la señal de cada uno de estos componentes
con la señal de otro u otros componentes de la misma o diferente
característica, habrá por lo tanto una pérdida o degradación en cuanto a la
calidad de emisión y por lo tanto a la calidad de recepción, pues ya no es sólo
que se tengan posibles interferencias, sino que no es simplemente juntar las
señales y ya está. La combinación se hace mediante una modulación de las
señales a juntar, con lo cual ya estamos produciendo una alteración más en
la señal original por la simple modulación.
Además, no hay que olvidar una cosa muy importante y es que al final de
todo el proceso que va a ir sufriendo una imagen vamos a necesitar tener
esos cinco componentes separados para poder representar una imagen en
nuestro dispositivo de visualización, aunque se parta de un formato con peor
45
calidad teórica o más utilizado. Así que cuantas menos conversiones,

modificaciones o alteraciones sufre la señal mejor calidad obtendremos al
final.
Así, y en función de los formatos de conexión de vídeo que nos podemos
encontrar en cualquier dispositivo, desde los de mayor calidad a la de menor
calidad en cuanto a la señal de vídeo, son los siguientes:
Vamos a ver en detalle 5 de estos tipos de señal así como los conectores
más típicos para la transmisión de estas señales y que normalmente están
asociados a un tipo particular de formato de vídeo. Pero no debemos olvidar
que, al fin y al cabo, un conector es un simple medio de conexión entre dos
partes y, por lo tanto, no implica que no se puedan emplear otros tipos
aunque no sean los más comunes. Los cuatro seleccionados son el RGB, la
señal de Video por componentes (Y-Cr-Cb o Y-Pr-Pb o Y-U-V o Y/Y-R/Y-B), el
S-Video (o Y/C), Video compuesto y RF que resultaron los de mayor uso en
el campo de la producción en video.
4.6 - RGBS o RGB

Este tipo de señal, está formada por la separación de sus tres componentes
básicos de color: Rojo (R), Verde (G) y Azul (B). Y por otra parte, tenemos la
correspondiente señal de sincronismo compuesta (S), que está formada por
los dos tipos de pulsos necesarios para este tipo de señal que son los de
sincronismo horizontal y vertical.
La conexión más adecuada para este tipo de señal son los correspondientes
cuatro conectores de tipo BNC; es muy raro encontrar la conexión por
RCA, aunque en algunos proyectores como el de la fotografía, se encuentran
presente este tipo de conector para este formato. Se puede observar cómo
46
ahora la señal de sincronismo aparece con un solo conector denominado

sincronismo compuesto o en inglés "compositive sync". Asimismo, se
aprecia cómo está codificada cada señal de color mediante sus respectivos
colores.
Pero, sobre todo, el formato de conexión más extendido para la transmisión

de este tipo de señal es el denominado EUROCONECTOR o SCART. Es en
este caso cuando se denomina a este tipo de señal como se ha indicado
anteriormente en el titulo de este apartado, es decir como RGB.
Este tipo de señal se encuentra presente en casi todos los equipos de ámbito
domestico y es la mejor forma de conexión que se dispone actualmente, ya
que también se obtienen todos los componentes de color básicos separados
unos de otros. Incluido la señal de sincronismo, pues aunque sus
componentes estén juntos (sincronismo horizontal y sincronismo vertical) la
señal, como tal, está separada de la correspondiente señal de color.
En monitores informáticos, es muy raro que se encuentre este tipo de

señales, pues debido a la construcción de los correspondientes monitores,
muchos pueden tener problemas si la señal de sincronismo viene modulada
conjuntamente en sus dos componentes fundamentales, no ocurriendo esto
último en el caso de los televisores.
4.7 - Vídeo por componentes o Y-Cr-Cb, Y-Pr-Pb, Y-U-V o Y/Y-R/Y-B

En este tipo de señal tenemos por una parte una señal de Luminancia (Y),
que consiste en una señal de vídeo compuesto en blanco y negro, que es la
información de brillo y junto con ésta, también está la correspondiente señal
47
compuesta de sincronismo (S). Y por otro lado tenemos que las

correspondientes señales de color ya no son puras como ocurría
anteriormente, sino que ahora la información de color está expresada de
forma matricial.
Como una señal de luminancia (Y) puede crearse por la combinación de los
tres componentes básicos de color, podemos hacer el proceso inverso para
obtener los tres componentes de color. Así, si a una señal de luminancia le
quitamos la parte proporcional de rojo que tiene (Pr) y por otro lado le
quitamos la parte proporcional de azul que tiene (Pb), tenemos una cierta
separación de la señal de color que podemos transmitir. La información sobre
el color verde es lo que nos quedará de quitar la parte proporcional del rojo y
del azul.
La forma de conexión de este tipo de señal es mediante tres conectores

BNC o también mediante tres conectores de tipo RCA, que es lo más
habitual, como en el caso de esta fotografía que vemos a continuación.
En la industria se ha creado un estándar en cuanto al color empleado en los
conectores para la conexión de este tipo de señal. Así, el correspondiente a
Pr es de color rojo, el correspondiente al Pb es de color azul y el
correspondiente a luminancia (Y) es más correcto ponerlo de color amarillo y
no en color verde como hacen algunos fabricantes, pues puede dar lugar a la
confusión creyendo que es una conexión de tipo RGB cuando esto último no
es así; además, faltaría la señal de sincronismo. Solamente se debería de
poner ese color si dicha entrada admite más de un formato de señal como en
los casos comentados anteriormente.
Hay que hacer notar que aunque se ha incluido también la denominación de
Y-Cr-Cb para este tipo de señal hay que indicar que la correcta terminología
es Y-Pr-Pb así como las otras. El motivo es que la indicación de Cr y Cb se
refiere a señal digital, mientras que los otros términos empleados son de
señal analógica. Pero es frecuente encontrar ambos términos en las
conexiones.
4.8 - S-Video o Y/C

En este tipo de señal, como se deduce de sus iniciales Y/C, tenemos
separado por una parte la información de luminancia (Y) que contiene la
correspondiente señal de vídeo compuesto en blanco y negro, junto con la
señal compuesta de sincronismo (S), de forma análogo al tipo anterior. Y por
48
otra parte una señal compuesta de Croma o Crominancia (C), que es la que
contiene toda la información de color de tipo matricial.
Como vemos, ya no hay una separación de la señal de color en este tipo de
conexión, sino que los tres componentes básicos están modulados de forma
conjunta y no en parte con la señal de luminancia como hemos visto
anteriormente.
La forma de conexión de este tipo de señal es mediante dos conectores

BNC, euroconector o scart y también mediante un conector de tipo miniDin
de cuatro patillas, también conocido como S-Video, como el eque se
representa en la fotografía, siendo ésta última la forma más habitual de
encontrar este tipo de conexiones.
7.9 - Vídeo compuesto

En este tipo de señal, toda la información que se necesita para formar una
imagen (los tres componentes de color y las dos componentes de
sincronismo) es modulada conjuntamente en una única señal, por una parte
la señal de luminancia y por otra la señal de crominancia (según vimos
anteriormente). Con lo cual, aunque se obtienen también imágenes de cierta
calidad, este tipo de señal es más propensa a sufrir alteraciones y no es
comparable a las anteriores.
La forma de modulación de estas señales es lo que originó en sus principios
los tres sistemas básicos de emisión de color que existen en el mundo:
NTSC, PAL y SECAM.
La forma básica de conexión es a través de un conector BNC, mediante

euroconector o scart y también mediante un conector de tipo RCA. Este
49
último conector, suele identificarse frecuentemente mediante el color amarillo

como vemos en la fotografía y es como habitualmente se suele conectar este
tipo de señal.
4.10 - RF
Hasta ahora, siempre hemos hablado de señales de vídeo, pero en ningún
momento se han mencionado las correspondientes señales de audio.
Estas señales, en todo momento deben de emitirse de forma independiente

al sistema de vídeo y, por lo tanto, tratarse de forma separada.
Ahora bien, hay un tipo de señal, denominada RF, que consiste en la
modulación conjunta en una única portadora que comprende la señal de
audio y la correspondiente de vídeo compuesto. Este tipo de señal es la que
denominamos comúnmente señal de antena o TV, cuyo conector de entrada
vemos en la fotografía. Es la que peor calidad nos ofrece en cuanto a señal.
50
5 - Formatos de Grabación Analógicos 5
El presente trabajo es una introducción a los sistemas de grabación de la

señal de vídeo en soporte de cinta magnética. Comenzáremos viendo una
breve introducción de los hitos más importantes de la videograbación.
Seguidamente expondremos las técnicas genéricas de grabación, haciendo
hincapié en las particularidades de la señal de vídeo.
En la parte más densa del trabajo veremos los distintos formatos de vídeo,
tanto domésticos como profesionales, que estuvieron presentes en el
mercado. En cada formato, además de una breve descripción, contaremos
las novedades introducidas por cada formato.
Dejaremos de lado los aspectos físicos y matemáticos del tema para
centrarnos en los descriptivos y de funcionamiento, acompañando todo ello
de múltiples foto y diagramas los cuales ayudan a entender mejor lo que se
está estudiando.
5.1 - Revisión Histórica
5.1.1 - Del audio al video.

Los inicios de la grabación magnética de la señal de vídeo están muy ligados
al registro del sonido sobre cinta magnética. Como la señal de vídeo se había
convertido en una señal eléctrica, al igual que el sonido, se pensó en grabarla
de la misma forma que esta.
Así los primeros intentos para lograr la grabación de la imagen se hicieron
sobre magnetófonos adaptados. Estos requerían unas velocidades de
desplazamiento de la cinta muy altas, lo cual origina dos problemas. Por un
lado el fuerte desgaste de las cabezas y de todas las partes mecánicas del
aparato. Por otro lado, estas altas velocidades, originaban un excesivo
consumo de cinta por lo cual los registros duraban muy poco tiempo.
Para tener una idea de las magnitudes que se manejaban diremos que se
podían alcanzar los 90 m/s y una duración de 20 minutos con un consumo de
cinta de varios cientos de kilómetros. Todas estas limitaciones hicieron que la
viabilidad de estos sistemas fuera nula y sólo se usarán para la investigación.
5.1.2- Ampex inventa el magnetoscopio.

Para superar las limitaciones de los magnetoscopios de cabezas fijas, se
propuso la idea de que las cabezas de vídeo fueran móviles. La empresa
Ampex comercializó en 1956 el primer magnetoscopio. Era el modelo
VR-1000 (fig. 1), que usaba cinta de 2 pulgadas (5 cm.), y grababa imágenes
en blanco y negro, según el estándar NTSC. Este sistema poseía un disco
5
Jim Slater 'Modern Television Systems. To HDTV and beyond' Ed. Pitman Publishing 1991
51
rotatorio en el que iban alojadas 4 cabezas para la reproducción de la señal

de vídeo. El plano de giro del disco era de 90 grados con respecto al
desplazamiento de la cinta. Este formato recibió por estas características el
nombre cuádruplex o de exploración transversal.
Hoy en día este formato de vídeo ya no es usado, aunque por su gran calidad
fue el estándar de la industria durante varias décadas. Vamos a ver algunas
de sus características ya que son conceptos interesantes para ver la
evolución y mejora de sistemas posteriores.
Cada giro del disco no representaba un cuadro de imagen. Su velocidad de
rotación era de 250 r.p.s.; lo cual representa que cada imagen era grabada en
40 pistas transversales. En la fig. 4 vemos como eran grabadas las pistas de
vídeo en la cinta. Observamos que estas eran casi perpendiculares lo cual le
daba a este formato una muy buena estabilidad de la base de tiempos.
Debido a la existencia de 4 cabezas de grabación (y a la necesidad de grabar
cada cuadro en 40 pistas diferentes); cada campo era grabado por las 4
cabezas de una manera diferente (por problemas de distinto ajuste de las
diferentes cabezas y de sus respectivos canales de proceso). Esto provocaba
una segmentación de la imagen. Este problema presentaba en la pantalla
zonas de diferente visión. Esta era la mayor limitación de calidad de este
formato de vídeo.
Detalle de los cabezales del formato cuádruplex de Ampex - Detalle del

tambor portacabezas y la cinta
5.1.3 - Cronología de la grabación en video.

Vamos a indicar en esta cronología sólo unos pocos hechos de vital
importancia6. Los formatos que siguen a continuación no son los que
6
Para ver una lista más exhaustiva consultar: "Grabación de vídeo" Alfonso Martín Marcos Tomo 1 páginas 14 a 16 [2] A.
Michael Noll 'Television Technology: Fundamentals and Future Prospects' Ed. Artech House, 1988
52
introdujeron las novedades descritas, pero fueron los que se comercializaron

con más éxito.
● 1970 Philips desarrolla el VCR que es el primer formato doméstico que

aparece en el mercado.
● 1971 Aparece el U-Matic que introduce en el mundo profesional la
cinta de casete. Hasta entonces los formatos profesionales usaban
cinta de bobina abierta.
● 1976 JVC inventa el VHS el formato más vendido de todos los tiempos
(se estima en más de 400 millones de unidades vendidas en todo el
mundo), que se ha convertido en el estándar mundial, para la
visualización de programas en entornos domésticos, y múltiples
aplicaciones.
● 1978 Sony desarrolla el formato C, de una pulgada, que ha sido el
sistema de exploración helicoidal que se impuso en medios de
teledifusión como estándar de alta calidad hasta la aparición de los
modelos digitales.
● 1981 Sony presenta el formato Betacam que posibilitó la construcción
de camascopios compactos (cámara y equipo de grabación en una
sola pieza) con un peso muy reducido y una calidad muy alta. Este
sistema es el estándar actual de E.N.G. y se usa en toda la industria
de la televisión y de la imagen, muy por encima de cualquier otro
sistema.
● 1986 Sony presenta el DVR-1000 primer magnetoscopio digital que
sigue la norma CCIR 601 de codificación digital en componentes
según el formato 4:2:2.
5.2 - Formatos de vídeo.
5.2.1 - Formatos domésticos.

Los distintos formatos domésticos que hay en el mercado tiene como destino
los hogares y sirvieron principalmente para visionar películas y documentales
pregrabados, grabar y visionar programas emitidos por las televisiones, y
como formato para las vídeo-cámaras domésticas.
Betamax.
El sistema Betamax, más conocido por Beta, fue inventado por Sony en el
año 1975. En la actualidad este sistema casi ha desaparecido del mercado
debido a una mala política comercial por parte de Sony. Este sistema de
exploración helicoidal posee dos cabezales con los que graba cada campo.
Así cada giro del tambor corresponde a un cuadro.
53
VHS. Estándar universal

Si algún formato de vídeo se ha convertido en el estándar de la industria, este
sería el VHS (Vídeo Home System). Gracias a una política correcta de ventas
JVC (Japan Victor Company) logró conseguir la implantación mundial del
sistema que inventó en 1976. Las características básicas del sistema VHS
son similares al formato Beta. Posee cinta de ½ pulgada, dos cabezales de
grabación, eliminación de la banda de guarda, y giro de acimut para los
cabezales.
FAMILIA DEL VHS

En el cuadro vemos la evolución del formato VHS a través de las diferentes
mejoras que este ha tenido.
Vamos a describir estas mejoras introducidas en el sistema VHS. La primera
fue la larga duración (LP “long play), método por el cual la cinta al
desplazarse a mitad de velocidad que la normal consigue que los registros
sobre la cinta duren el doble de tiempo, consiguiendo ahorrar dinero en la
compra de cintas y espacio para su almacenamiento. Por contra la calidad
del sistema es menor.
El audio grabado en las pistas longitudinales de los magnetoscopios es de
muy baja calidad debido a que la velocidad lineal de desplazamiento de la
cinta es muy baja (típicamente menos de la mitad de la cinta de casete
convencional); y la anchura de la pista de sonido es muy pequeña. Por ello se
pensó en dotar a los magnetoscopios VHS de un sistema de mejora del
sonido. Esto se logra en 1983 con un sistema muy ingenioso. A los
magnetoscopios que incorporan este sistema se les denomina HI-FI.
Otra mejora introducida en 1985 fue el sistema HQ, el cual incrementa el
nivel de recorte de blancos en un 20 %. Vamos a explicar en qué consiste
este sistema. Durante el proceso de grabación a la señal se la somete a un
proceso de preénfasis (el cual no se describe en este trabajo). El nivel de
blanco queda recortado al 170 %. En el sistema HQ el nivel se sube hasta el
190 % lo que se traduce en una pequeña mejora para las transiciones
abruptas de negro a blanco y luego a negro.
El sistema CTL introducido en 1986 no es más que tener un contador en
tiempo real. Esto se consigue dejando la cinta enhebrada continuamente
sobre el tambor (pero sin tensión cuando no se lee la imagen), y permitiendo
leer en todo momento la pista de los sincronismos (CTL). Por último la
denominación S-VHS (súper VHS) introducida en 1987 mejora la calidad del
sistema ampliamente por lo que puede considerarse al S-VHS como un
formato semiprofesional.
8 mm.
54
El formato de 8 mm, nace a raíz de una propuesta hecha por parte de Sony,
Hitachi, Matsushita, JVC y Phillips a principios de 1982, para la
estandarización del formato doméstico de vídeo. Su nombre viene del ancho
que usan las cintas de este formato, o sea 8 milímetros.
Este formato ha sido el último formato analógico que ha aparecido en el
mercado y es muy probable que no se desarrolle ninguno más. Entre las
características que incorpora este sistema se encuentra su alta densidad de
grabación ya que usa cintas de metal (se pueden conseguir grabaciones de
alta frecuencia usando velocidades menores) y la eliminación de la pista de
sincronismos (CTL).
Para poder hacer el seguimiento de la pista de manera correcta este sistema
recurre a una técnica que se desarrolló en el desaparecido formato 2000 de
Philips, y que recibe el nombre de DTF (Dinamic Tracking Following).
En este sistema se ha previsto que el audio se graba en la pista de vídeo
modulado en FM, para lo cual se le ha dejado un espacio entre la luminancia
y la croma centrado en 1.5 Mhz y además la posibilidad de grabar sonido en
formato digital PCM. Para ello se utiliza parte de la pista de vídeo. Al igual
que el formato VHS evolucionó a un formato semiprofesional el S-VHS, el 8
mm condujo al formato Hi8 de características similares que será visto en un
apartado posterior.
5.2.2 Formatos profesionales.

Los formatos profesionales del mercado se diferencian de los domésticos, ya
estudiados, en que poseen mayor calidad de imagen y sonido que estos.
Poseen características de edición (que serán vistas en otro capítulo), pueden
ser gobernadas por controladores específicos o por ordenadores, y además
deben de ser muy fiables y preparados para aguantar unas condiciones de
trabajo muy duras y de una manera continuada.
En este capítulo hemos estructurado los diferentes formatos del mercado,
según su manera de procesar la señal de vídeo. Antes de entrar a ver los
diferentes formatos, vamos a detallar algunas diferencias entre ellos. Así
estos formatos se pueden dividir en dos categorías:
● industrial
● broadcast
La primera de ellas engloba las aplicaciones del vídeo profesional como la

educación, reportajes sobre la industria, o comerciales y promocionales que
se pueden ver en las ferias de muestras o similares, y como formato de
previsualización de anuncios, películas o documentales ya sea para su
sonorización, doblaje, o simplemente para dar el visto bueno a una
producción determinada. Hay muchas otras aplicaciones pero estas son las
55
más importantes. La otra categoría, “broadcast”, es un término anglosajón

que hace referencia a la difusión de programas por medio, de las ondas
electromagnéticas. En esta categoría se incluyen aquellos equipos que por su
alta calidad pueden ser usados por los distintos teledifusores para la emisión
en antena de un programa. Son los equipos del mercado que poseen la
mayor calidad y también el precio más elevado llegando a triplicar a los
formatos de vídeo industrial.
5.2.2.1 – Formatos de tipo “Industrial”: U- MATIC, SVHS y Hi8
U-Matic
El formato U-Matic es un formato introducido por Sony a principios de los
setenta, presenta una cinta de ancho de ¾ de pulgada, guardada en un
cartucho, comúnmente llamado cinta de casete. Este formato fue el
introductor de este sistema en el mundo profesional, ya que hasta su
introducción los demás usaban cinta en bobina abierta. Usa grabación
helicoidal, y subportadora de color corregida. Hasta la fecha se han
comercializado tres versiones diferentes que reciben los nombres de LB (low
band), HB (high band) y SP (superior performance); que solo se diferencian
en las distintas frecuencias usadas para realizar la modulación y la
conversión de subportadora de color. Los dos primeros pueden considerarse
sistemas industriales y el último broadcast, aunque su calidad hoy en día no
es muy alta. En este sistema hay banda de guarda entre las distintas pistas
de vídeo y además incorpora dos pistas de audio longitudinales, y en algunos
magnetoscopios se incorpora una pista extra para la grabación del código de
tiempo. El gran tamaño de las cintas de este formato, y su corta duración, ha
imposibilitado la creación de camascopios en este formato, lo cual ha tenido
como consecuencia que en la actualidad su uso sea bastante pequeño y en
muchas aplicaciones está siendo sustituido por el S-VHS y el Hi8. Aun así es
por el momento el formato profesional más extendido con más de un millón
de equipos vendidos en el mundo.
S-VHS
Incorpora nuevas mejoras al sistema VHS, convirtiéndose en un formato
industrial de muy alta implantación en el mercado. Entre sus principales
diferencias están el cambio de las frecuencias de modulación para permitir un
mayor ancho de banda. Con lo cual conseguimos tener casi 400 líneas de
resolución frente a las 270 del VHS estándar. Otra de sus características
diferenciadoras es que las componentes de luma y croma se introducen en el
magnetoscopio por canales diferentes. Lo habitual es disponer de un
conector especial denominado “S” que posee 5 patillas.
56
Por enumerar algunas más de sus innovaciones diremos que usa un nuevo
tipo de cabezal amorfo, la cinta contiene partículas magnéticas más finas con
una mayor coercitividad, introduce mejoras en los circuitos de preénfasis y
dispone de dos pistas de audio longitudinales además de las dos pistas de
audio hifi. No entraremos más en detalle acerca de todas estas mejoras.
Hi8
En el sistema Hi8 las mejoras y la calidad obtenida son similares al S-VHS
así que no entraremos en detalle a describirlas. Sus ventajas entre otras, son
un tamaño menor de cinta y la incorporación del código de tiempo en una
zona de la pista de vídeo.
5.2.2.2 - Formatos Broadcast de cinta abierta Tipo B y Tipo C

Graban señal de video compuesto, es decir, en estos formatos la croma no se
rebaja en frecuencia sino que es modulada en FM junto con la señal de
luminancia, consiguiendo de esta manera mejorar la calidad ya que nos
evitamos los procesos de demodulación, conversión y modulación; y
conseguimos menores retardos entre luminancia y crominancia así como una
mayor resolución. Hay dos formatos de este tipo, el “B” y el “C”; ambos con
cinta de una pulgada (2.54 cm) en carretes de bobina abierta.
FORMATO B
Este formato tenía como principal característica que era segmentado, o sea
que cada campo se grababa en varias pistas diferentes. Con ello se
imposibilitaba, o se hacía muy complicado, la lectura del vídeo en parada y
en velocidades diferentes a la normal. Por ello en la actualidad este formato
está ya casi abandonado por los teledifusores de todo el mundo.
FORMATO C
El formato C, a diferencia del B, no fragmenta la imagen por ello permite la
parada del vídeo y las velocidades diferentes a la normal. Gracias a su alta
calidad de grabación es hoy en día uno de los formatos más usados en las
televisiones de todo el mundo. Por contra su volumen es muy grande, las
cintas son voluminosas y de difícil manipulación; y su duración máxima es de
hora y media.
En este sistema se usa sólo una cabeza de vídeo sobre el tambor para
grabar cada campo, es por ello que la cinta debe de abrazar al tambor en su
totalidad, 360 grados. En realidad son solo 343 lo que origina que algunas
líneas de vídeo no sean grabadas. Esto no representa ningún problema ya
que estas líneas corresponden al intervalo de borrado vertical y son siempre
iguales. Aun así en algunos equipos se opta por incorporar una segunda
cabeza, desplazada de la anterior, que permite la grabación de estas líneas
57
en una zona de la cinta denominada pista de sincronismo. En caso de no

usarse esta cabeza extra, en este lugar se puede situar un canal más de
sonido.
Este sistema posee una gran calidad y es un formato de tipo broadcast.
Como inconvenientes además de los ya citados, se encuentran el excesivo
rozamiento de la cinta (al tener que abrazar la cinta todo el tambor), y el tener
pistas de vídeo muy largas (para obtener la alta calidad) que provoca más
inestabilidad que usando pistas más cortas.
5.2.2.3 - Formatos Broadcast de Casete: Betacam y MII
Graban señal de video por componentes. Los formatos que usan este tipo de
grabación son principalmente dos: El Betacam y el MII. Ambos formatos son
muy parecidos en su filosofía de funcionamiento por ello solamente
describiremos el primero de ellos, el Betacam que ha sido desarrollado por
Sony. El MII ha sido desarrollado por JVC y Panasonic.
Estos formatos poseen una alta calidad de grabación, lo que unido a unas
dimensiones de cinta razonables, ha hecho posible que se puedan fabricar
camascopios de estos formatos. Ambos sistemas son en la actualidad los
formatos usados en todo el mundo para E.N.G. o periodismo electrónico,
aunque la implantación del Betacam es muy superior llegando a copar por lo
menos el 90 % del mercado.
Betacam
En este formato la luminancia y la crominancia se graban en pistas
separadas. Además la chroma se divide en sus componentes R-Y y B-Y para
su grabación; es por ello que se puede decir que este formato realiza la
grabación en componentes.
Para poder grabar las dos componentes de diferencia de color en la misma
pista este formato recurre a comprimir las dos líneas en una sola para poder
grabar la información de color en una pista única. Con posterioridad ha salido
al mercado una versión de este formato denominada Betacam SP que es el
más usado hoy en día. A finales de 1994 salió una versión que graba en
formato digital en componentes según la norma CCIR 601 de grabación
digital en formato 4:2:2; y usa una compresión de 2:1.
58
59
El fin de una era: Sony deja de fabricar las cintas de video Betamax
BBC Mundo Tecnología - 10 noviembre 2015
Sony introdujo el Betamax al mercado en 1975.
La multinacional japonesa de productos electrónicos Sony dejará de producir

las cintas Betamax. Así lo anunció la compañía este martes, y con ello dio por
acabada toda una era. Y es que durante años este formato analógico permitió
a las familias grabar programas de televisión para verlas después.
Fue el líder del mercado hasta que perdió cuota ante un fuerte competidor, el
VHS.
Y aunque fue derrotado en esa batalla, ganó otra: una cruenta guerra en los
tribunales contra los gigantes Universal y Disney, quienes lo acusaban de
infringir los derechos de autor de películas y programas.
60
Durante años este formato analógico permitió a las familias grabar programas
de televisión para verlas después.
Gracias a ello su caso, el caso Betamax, se estudió durante años en las
facultades de derecho de todo el mundo.
La guerra con el VHS

Sony introdujo el Betamax al mercado en 1975, como la alternativa para
video del clásico casete compacto de audio de Phillips. Heredó los detalles de
diseño de dos formatos anteriores, la videograbadora de Sony y el U-Matic,
de uso profesional. Era un cartucho de plástico de 16 x 9,6 x 2,5 centímetros
y alojaba una cinta de 12,65 milímetros de ancho y 150 metros de longitud.
El cartucho alojaba una cinta de 12,65 milímetros de ancho y 150 metros de

longitud que permitía una hora de grabación.
El producto de Sony tuvo el mercado de la videograbación solo para él
durante casi un año, hasta que JVC y Matsushita (Panasonic) lanzaron el
VHS.
Con ello inició una guerra entre ambos formatos, que terminó perdiendo Sony.
En ello fue crucial la diferencia de tiempo de grabación que una y otra
ofrecían: una hora Betamax y el doble, dos, VHS.
Y eso que Betamax era más pequeño que el casete de la competencia, su
cinta tenía mayor resolución y ofrecía mejor calidad de sonido.
Aunque los expertos señalan que también tuvo que ver que Sony nunca dejó
su licencia, para no sacrificar sus ganancias por ella, mientras que JVS
autorizó que otras empresas utilizaran su tecnología.
Así, para 1984 sólo 12 compañías fabricaban aparatos compatibles con
Betamax, mientras había 40 fabricantes de reproductores VHS.
61
Como consecuencia, ese mismo año Sony vendió 2,3 millones de unidades
de su cinta para video y JVC tres veces esa cantidad.
La batalla con Universal y Disney

Hubo otro factor que hizo que Betamax empezara a perder cuota de
mercado.
En 1979 Universal Studios y The Walt Disney Company acusaron a Sony de
infringir con Betamax el derecho de copia de los programas de televisión y de
películas.
Sony libró una batalla en los tribunales contra Universal y Disney, y

finalmente ganó. El poderoso estudio cinematográfico y la segunda compañía
de medios de comunicación y entretenimiento más grande del mundo temían
que la posibilidad de grabar contenidos con derechos de autor acabara con el
cine para siempre. Pero cinco años después, el 17 de enero de 1984 la Corte
Suprema de Estados Unidos le dio la razón a Sony. El máximo tribunal del
país consideró que grabar contenidos para verlos después de forma privada
cumplía con el uso que permitía la ley de protección de la propiedad
intelectual de la época.
62
El temor de ambas compañías era que grabar contenidos con derecho de

autor terminaría con el cine, algo que se replicó en la industria de la música.
Y también concluyó que si había que ampliar las limitaciones que establecía
dicha regulación, no le correspondía a la Corte Suprema hacerlo.
Superviviente
Por lo tanto, Betamax ganó algunas batallas y perdió otras, pero a todas ellas
sobrevivió.
Y desde el lanzamiento del innovador formato Sony siguió sacando al
mercado aparatos compatibles con el formato y fue añadiendo a éste
tecnologías que aumentaban sus prestaciones.
Por ejemplo, en 1975 sacó al mercado un videograbador junto con un
televisor de gran tamaño.
Y en 1976 empezó a vender el grabador por separado.
63
Este formato fue el favorito de medios de comunicación y profesionales.

En 1983 introdujo el sonido estereofónico en pistas de alta fidelidad.
Tres años después, en 1986, salió al mercado el teatro para el hogar a base
de cintas Betamax, el mismo concepto de los modernos DVD con
amplificadores y altavoces.
En el ámbito profesional Betamax fue el medio clásico para hacer
cortometrajes y también para varios medios de comunicación, especialmente
debido a su bajo precio.
Lo fue hasta que le comió terreno el sistema miniDV, un formato de menor
tamaño que el Betamax. Sony dejó de fabricar el último equipo para
reproducir el formato Betamax en 2002, pero a día de hoy se pueden comprar
por internet, en tiendas como Amazon.
El presidente y director ejecutivo de Sony, Kazuo Hirai, dio su última charla

sobre Betamax en Las Vegas, EE.UU., el año pasado. Quizá por esa vía se
podrán adquirir en el futuro estas cintas de video tan innovadoras en su
momento. Y serán toda una reliquia, ya que Sony no las fabricará más.
"Sony dejará de distribuir los casetes de video Betamax y los microcasetes
MV en marzo de 2016", informó la compañía este martes a través de un
comunicado en japonés. Lo hará después de haber vendido 18 millones de
unidades de ese formato en todo el mundo, según datos de la propia
empresa. Así termina la historia que, curiosamente, ya parecía acabada tras
la revolución digital.
Bibliografía
Grabación de vídeo tomos I y II, Alfonso Martín Marcos.
Técnicas del vídeo. Gordon White.
Fundamentos de la señal de vídeo y formatos de grabación, Marcel Rius. Sony.
Formatos de vídeo, Sony, División profesional.
64
Vídeo, enciclopedia práctica, Ediciones Nueva Lente.

La cinta magnética y magnetófonos Alta fidelidad. Nueva Lente.
Vídeo Popular, Revistas número 29, 31, 47 y 51.
Giulianno Beretta 'Introduction de services de television numerique d'Eutelsat'
J.C.Casarrubios 'Perspectivas de desarrollo de la TV por cable interactiva' Revista Cable y Satélite
profesional, Mayo 1994
A.Chiari, G.Fierro, S.Micelli, P.Migliorini 'Organización estratificada de un sistema de televisión
digital' Revista Telettra n 45, Enero 1991
65
6 - Normas Digitales de Video7
El primer gran paso que apoyó decididamente la implantación de un sistema

totalmente digital es el elevado grado de acuerdo obtenido por el CCIR en su
Recomendación 601 titulada 'Parámetros de codificación de la televisión
digital para estudios'. Esta norma es virtualmente el único estándar
relacionado con la televisión que ha conseguido un acuerdo de difusores y
gobiernos en todo el mundo.
Esta norma, como su propio nombre indica, aplica solamente a estudios y
equipos de producción de programas. El problema de la televisión digital es el
elevado bitrate [flujo de datos] que necesita para ser transmitido en tiempo
real. De todos modos, la información de televisión es enormemente
redundante. Lo es entre los pixel de una imagen (redundancia espacial) y lo
es entre imágenes consecutivas (redundancia temporal). Fue necesario
desarrollar algoritmos que eliminen esa redundancia de modo que permitan
reducir de una manera drástica el ancho de banda requerido para la
transmisión [o grabación] de una señal digital de video.
La transmisión de imágenes de televisión en formato digital [o su grabación
en algún soporte] tiene la enorme ventaja de que la señal recibida ES igual a
la original. Por contra en un sistema analógico, la señal recibida tiene siempre
una calidad inferior estando esta calidad afectada por TODOS los elementos
de la larga cadena que dicha señal atraviesa hasta llegar al receptor final.
6.1 - La norma CCIR 601 de televisión digital o norma 4:2:2

Esta norma definió los parámetros básicos del sistema de televisión digital
que buscaban la mayor compatibilidad mundial.
Se basa en una señal Y, Cr, Cb en el formato llamado 4:2:2 (4 muestreos Y
por 2 muestreos Cr y 2 muestreos Cb), con una digitalización sobre 8 bits,
con posibilidad de ampliarla a 10 bits para aplicaciones más exigentes.
Cualquiera que sea el estándar de barrido, la frecuencia de muestreo es de
13.5 MHz para la luminancia Y. Para las señales de crominancia Cr y Cb,
dado su ancho de banda más limitado se muestrean a la mitad de la
frecuencia de la luminancia, es decir, 6.75 MHz. Lo que se corresponde con
una definición de 720 muestreos por línea en luminancia y de 360 muestreos
por línea de crominancia, cuya posición coincide con la de los muestreos
impares de luminancia.
7
Cuello Rojas, Fredy Fabián y Crazo, Juan Carlos
http://www.fuac.edu.co/autonoma/pregrado/ingenieria/ingelec/proyectosgrado/compresvideo/
doc_b.htm
66
Posición de los muestreos en el formato 4:2:2
Para esta frecuencia de muestreo, el número de muestras por línea es de

864 y 858 para la luminancia y de 432 y 429 para las diferencias de color
(sistema de 625 y 525 líneas respectivamente).
La estructura de muestreo es ortogonal, consecuencia de que la frecuencia
de muestreo es un múltiplo entero de la frecuencia de líneas.
Las muestras de las señales diferencias de color se hacen coincidir con las
muestras impares de la luminancia, o sea 1ª, 3ª, 5ª, etc.
El número de bits/muestra es de 8, tanto para la luminancia como para las
señales diferencias de color, lo que corresponde a 28 niveles = 256 niveles
de cuantificación.
La luminancia utiliza 220 niveles a partir del 16 que corresponde al nivel de
negro, hasta el 235 correspondiente al nivel de blanco. Se acepta una
pequeña reserva del 10% para la eventualidad de que ocurran
sobremodulaciones.
Cuantificación de la señal de luminancia
Para las señales diferencias de color se utilizan 224 niveles, que se reparten
a ambos lados del cero análogo, que se hace corresponder con el número
digital 128. Así pues, la señal variará entre los valores extremos 128 + 112 =
240 y 128 - 112 = 16, con una reserva de 16 niveles a ambos lados.
67
Cuantificación de la señal de crominancia
Dado que las señales Cr y Cb están disponibles simultáneamente en cada

línea, la definición vertical es idéntica tanto para luminancia como para
crominancia, y se corresponde con el número de líneas útiles del estándar de
exploración de partida (480 para los estándares de 525 líneas, 576 para los
de 625 líneas).
El flujo bruto resultante es:
(13.5 x 8) + (2 x 6.75 x 8) = 216 Mbit/s (270 Mbit/s con 10 bits)
Además, la digitalización de la parte útil de la señal de video solo requiere

166 Mbit/s, si se tiene en cuenta la inutilidad de digitalizar los intervalos de
supresión del haz (también llamados "blanking") de línea y campo. Por tanto,
estos tiempos libres pueden aprovecharse para transportar los canales de
sonido digital, así como datos de servicio u otros.
6.2 - La Norma 4:2:0 / 4:1:1

Las Normas 4:2:0 / 4:1:1 suponene que las señales diferencias de color Cr y
Cb son “sub muestreadas” [chroma (colour) sub samples], es decir que se
elimina parte de la información que contienen las mismas. La señal de
crominancia se muestrea a cuatro veces menos ancho de banda que la de
luminancia. Por tanto tiene menos ancho de banda dedicado a la señal de
crominanica que el estándar de vídeo digital 4:2:2.
El flujo de datos [bit rate] resultante en ambas es:
(13.5 x 8) + (2 x 1.5 x 8) = 132 Mbit/s
La señal de video sólo requiere 125 Mbit/s

La diferencia entre las normas radica en la diferente estructura de muestreo
que utilizan. En el caso del 4:2:0 la primera fila del cuadro se muestrea de la
68
misma manera que la norma 4:2:2, es decir que por cada 4 muestras de
luminancia (Y) hay dos muestras de cada una de las componentes de color
(Cr y Cb). En la segunda línea sólo existente muestras de la componente de
luminancia (Y) y no hay de las componentes de color (Cr y Cb). La tercera
línea es igual a la primera y así sucesivamente.
En el caso de la norma 4:1:1 la estructura de muestreo define que en la
primera fila, por cada cuatro muestras de luminancia (Y) hay una de una de
las señales diferencia de color (por ejemplo Cr) y en la siguiente fila por cada
cuatro muestras de luminancia se representa la otra componente de color (en
este caso Cb). La tercera fila es igual a la primera y así sucesivamente, de
manera que en todas las filas hay información de alguna componente de
color.
Gráficamente esto tiene una representación como la que se ve en el gráfico a
continuación:
Estructura 4:2:0 Estructura 4:1:1
Ambas normas poseen una calidad equivalente, aunque no son compatibles

entre sí, de manera que si, por ejemplo, se intentara copiar la información
grabada en 4:2:0 a 4:1:1, se perdería la información correspondiente al color
debido a que la estructura de codificación del color es diferente. Por razones
de mayor compatibilidad técnica con el sistema de color de la televisión
analógica, el 4:2:0 se utiliza en los países donde históricamente se trabajo
bajo la norma de televisión PAL y el 4:1:1 en los países con norma de
televisión NTSC.
69
A continuación un cuadro comparativo entre la norma CCIR 601 4:2:2 (PAL y

NTSC) y las normas 4:2:0 / 4:1:1
4:2:2 4:2:0 / 4:1:1

Parámetros
NTSC PAL/SECAM
525 líneas 625 líneas
60 campos 50 campos
1. Señales Y, Cr, Cb (Video por Y, Cr, Cb (Video por
codificadas componentes) componentes)
3. Estructura de Ortogonal, estructura
muestreo idéntica de todos los
campos y cuadros.
4. Frecuencia de
muestreo 13.5 MHz 13.5 MHz
∙ Luminancia 6.75 MHz 1.5 MHz
∙ Crominancia
5. Codificación Cuantificación lineal. Cuantificación lineal.
Codificación con 8 bits Codificación con 8 bits
por muestra para la por muestra para la
luminancia y cada señal luminancia y cada señal
de crominancia. de crominancia.
6. Número de
muestras activas por
líneas digital:
∙ Luminancia 720 720
∙ Crominancia 360 180
7. Flujo de datos [bit 166 Mbits/seg 125 Mbits/seg
rate] de video
70
7 – La Compresión de datos
El término compresión de datos se refiere al proceso de reducción del

volumen de datos necesarios para representar una determinada cantidad de
información. Los datos son los medios a través de los que se transporta la
información. Se pueden utilizar distintas cantidades de datos para describir la
misma cantidad de información. Por lo tanto, hay datos que proporcionan
información sin relevancia. Esto es lo que se conoce como redundancia de
los datos. La redundancia de los datos es un punto clave en la compresión de
datos digitales.
En la compresión digital de imágenes, se pueden identificar y aprovechar tres
tipos básicos de redundancias:
∙ Redundancia de codificación
∙ Redundancia entre pixeles
∙ Redundancia psicovisual
La compresión de datos se consigue cuando una o varias de estas

redundancias se reducen o se eliminan.
Redundancia de codificación
Se trata de asignar menos bits a los niveles de gris más probables y más bits
a los menos probables, se puede conseguir la compresión de datos. A este
proceso se le denomina codificación de longitud variable. Si los niveles de
gris de una imagen están codificados de forma que se emplean más símbolos
que los estrictamente necesarios para representar cada uno de ellos,
entonces se dice que la imagen resultante contiene redundancia de código.
En general, la redundancia de código aparece cuando los códigos asignados
a un conjunto de niveles de gris no han sido seleccionados de modo que se
obtenga el mayor rendimiento posible de las probabilidades de estos niveles.
Redundancia entre pixeles

Puesto que es posible predecir razonablemente el valor de un determinado
píxel a partir del valor de sus vecinos, la información que aporta
individualmente un píxel es relativamente pequeña. La mayor parte de la
contribución visual de un único píxel a una imagen es redundante; podría
haberse inferido de acuerdo con los valores de sus vecinos. En relación con
estas dependencias entre píxeles se han generado una serie de nombres
como redundancia espacial, redundancia geométrica y redundancia interna.
Con el fin de reducir las redundancias entre píxeles de una imagen, la
distribución bidimensional de píxeles normalmente empleada para la
71
percepción e interpretación humana debe ser transformada a un formato más

eficaz.
Redundancia psicovisual
El ojo humano, como ya se dijo anteriormente, no responde con la misma
sensibilidad a toda la información visual. Cierta información tiene menor
importancia relativa que otra en el proceso visual normal. Se dice que esta
información es psicovisualmente redundante, y se puede eliminar sin que se
altere significativamente la calidad de la percepción de la imagen.
En general, un observador busca características diferenciadoras, como
bordes o regiones de diferentes texturas, y luego las combina mentalmente
en grupos reconocibles. A continuación, el cerebro relaciona estos grupos
con el conocimiento previo con el fin de completar el proceso de
interpretación de la imagen.
Al contrario que la redundancia de codificación y la redundancia entre
píxeles, la redundancia psicovisual está asociada a la información visual real
o cuantificable. Su eliminación es únicamente posible porque la propia
información no es esencial para el procesamiento visual normal. Como la
eliminación de los datos psicovisualmente redundantes se traduce en una
pérdida de información cuantitativa, a menudo se denomina cuantificación.
Cuantificación significa que a un amplio rango de valores de entrada le
corresponden un número limitado de valores de salida. Puesto que es una
operación irreversible, ya que se pierde información visual, la cuantificación
conduce a una compresión con pérdida de datos.
7.1 - Compresión sin pérdidas

Cuando un conjunto de datos se comprime, como un documento de texto o
un dato numérico, se hace siempre para que la descompresión subsecuente
produzca el dato original exacto. Si el dato reconstruido no es exactamente
igual al original, el documento de texto podría tener caracteres errados, o un
computador podría tener unas entradas equivocadas. Debido al tipo de datos
que se manejan en estos ejemplos, una aproximación no funciona bien. Para
estos casos, los datos deben reconstruirse exactamente igual que su forma
original, o el esquema de compresión es inutilizable. El tipo de esquema de
compresión donde los datos comprimidos se descomprimen a su forma
original exacta se llama compresión sin pérdidas. Está desprovisto de
pérdidas, o degradaciones, de los datos.
Se han desarrollado una variedad de esquemas de compresión de imágenes
sin pérdidas. Muchas de estas técnicas vienen directamente del mundo de
compresión de datos digital y se han adaptado meramente para el uso con
datos de la imagen digitales.
72
Codificación de longitud variable

El método más simple de compresión de imágenes sin pérdidas consiste en
reducir únicamente la redundancia de la codificación. Esta redundancia está
normalmente presente en cualquier codificación binaria natural de los niveles
de gris de una imagen. Dicha redundancia se puede eliminar construyendo
un código de longitud variable que asigne las palabras código más pequeñas
a los niveles de gris más probables.
Existen varios métodos de codificación de longitud variable, pero los más
usados son la codificación Huffman y la codificación aritmética.
7.2 - Compresión de imágenes con pérdidas

Todas las formas de compresión de imágenes con pérdidas involucran la
eliminación de datos de la imagen. Sin embargo, la imagen primero se
transforma a otra, y entonces se suprimen partes de ella. Los métodos de
transformar y suprimir datos de la imagen son lo que distingue los diferentes
esquemas de compresión de imágenes con pérdidas.
La gran ventaja de los esquemas de compresión con pérdidas es la
característica que tienen de comprimir una imagen con un factor de
compresión más alto que los esquemas de compresión sin pérdidas. Este
factor de compresión puede ser de 10:1 sin degradaciones visuales notables,
y además se pueden alcanzar factores de compresión mayores de 100:1 con
degradaciones visuales.
Se han desarrollado muchos esquemas de compresión de imágenes con
pérdidas. Generalmente, cada uno cumple con los requisitos de calidad de
una aplicación específica.
Codificación por truncamiento

Esta forma de codificación de una imagen es la más sencilla en la
compresión de imágenes con pérdidas. Funciona suprimiendo datos de la
imagen que emplean muestreo espacial y reducción en la resolución de brillo.
En otras palabras, las técnicas de codificación por truncamiento eliminan de
una forma directa datos para lograr un tamaño más pequeño de la imagen.
La codificación por truncamiento puede hacerse a cualquier resolución
espacial o a una resolución de brillo de una imagen. Durante la reducción
espacial, se elimina un patrón habitual de píxeles de la imagen que usa
técnicas de muestreo. Por ejemplo, si se quita con regularidad un píxel y el
siguiente no, y se hace lo mismo con las líneas de la imagen entonces, el
tamaño de sus datos será reducido por un factor de 4. Se puede
descomprimir tal imagen por uno de los dos métodos. En el primero,
simplemente se reconstruye la imagen a un tamaño reducido. El otro método
73
interpola los píxeles eliminados, creando una aproximación de la imagen

original a su tamaño.
Codificación por transformación

En la codificación por transformación, se utiliza una transformada lineal,
reversible para hacer corresponder una imagen con un conjunto de
componentes fundamentales o coeficientes, en el dominio de la frecuencia.
La imagen en el dominio de la frecuencia se puede transformar inversamente
al dominio espacial, reproduciendo la imagen tal y como estaba
originalmente. Este principio es el fundamento para las técnicas de
compresión por transformadas.
En el dominio de la frecuencia, los coeficientes fundamentales representados
por los píxeles de brillo, tienden a agruparse en regiones, especialmente
alrededor de las zonas de baja frecuencia. Como resultado, hay áreas
generalmente grandes de la imagen donde los coeficientes tienen un valor
muy pequeño o cero. Esto ocurre porque el proceso de la transformada
elimina mucha redundancia de la imagen. La versión en el dominio de la
frecuencia de la imagen, es generalmente una representación muy eficiente
de la imagen original. Las técnicas de compresión de imágenes por
transformadas se aprovechan de esta eficaz característica de la imagen en el
dominio de la frecuencia, simplemente eliminando los coeficientes de la
imagen que tienen valores muy pequeños. Ya que el peso de los coeficientes
de valor cercano a cero en la transformada inversa es muy pequeño, cuando
la imagen se transforma nuevamente hacia el dominio espacial, la eliminación
de estos coeficientes causa una pequeña distorsión. Adicionalmente, otros
coeficientes pueden ser reducidos en su resolución (redondeo) sin que se
causen efectos notorios en su transformada inversa.
Una imagen codificada usando una transformada se muestra a continuación
74
Imagen original (a)

Imagen DCT (b)
Imagen de error (c)
Imagen reconstruida (d)
Los sistemas más prácticos de codificación por transformación se basan en la

Transformada Discreta del Coseno o Discrete Cosine Transform (DCT), que
ofrece un compromiso entre la capacidad para concentrar la información y la
complejidad de cálculo.
Transformada Discreta del Coseno (DCT).

La Transformada Discreta del Coseno es un caso especial de la
Transformada Discreta de Fourier (DFT) en la que se eliminan los
coeficientes senoidales. Una DCT produce tantos coeficientes útiles como
muestras de entrada.
Para el procesamiento de imágenes, se necesitan transformaciones
bidimensionales. En este caso, por cada frecuencia horizontal se lleva a cabo
una búsqueda de todas las frecuencias verticales posibles. En la Figura 99,
se muestran los coeficientes de una DCT bidimensional de un bloque de
75
imagen de 8x8 pixeles. La DCT es separable, lo que significa que es posible

obtener la DCT bidimensional mediante la realización de cálculos en cada
dimensión de manera separada.
Coeficientes de un bloque de 8x8
Un factor significante que afecta al error de codificación de la transformada y

a la complejidad de cálculo es el tamaño de la subimagen o bloque. En la
mayoría de las aplicaciones, las imágenes se subdividen de forma que la
correlación (redundancia) entre bloques adyacentes se reduce a un nivel
aceptable y de modo que n sea una potencia entera de dos, siendo n la
dimensión del bloque. Esta última condición simplifica el cálculo de las
transformadas de los bloques. En general, tanto el nivel de compresión como
76
la complejidad de cálculo crecen según se incrementa el tamaño del bloque.

Los tamaños más populares de los bloques son 8x8 y 16x16.
La propia DCT no realiza ninguna compresión, ya que hay tantos coeficientes
como muestras, pero convierte los datos de entrada en una forma en la que
la redundancia puede detectarse y eliminarse fácilmente.
7. 3 La compresión de video
La compresión de video surge de la necesidad de transmitir o grabar
imágenes a través de un canal que contenga un ancho de banda aceptable.
A continuación se examinarán cuales son los métodos más utilizados que
permiten obtener este resultado, y las diferentes normas que se utilizan hoy
día.
Estos métodos de compresión, recurren a los procedimientos generales de
compresión de datos, aprovechando además la redundancia espacial de una
imagen (áreas uniformes), la correlación entre puntos cercanos y la menor
sensibilidad del ojo a los detalles finos de las imágenes fijas (JPEG) y, para
imágenes animadas (MPEG), se saca provecho también de la redundancia
temporal entre imágenes sucesivas.
La Figura muestra que cuando las imágenes individuales son comprimidas
sin referencia a las demás, el eje del tiempo no entra en el proceso de
compresión, esto por lo tanto se denomina codificación intra (intra=dentro) o
codificación espacial. A medida que la codificación espacial trata cada
imagen independientemente, esta puede emplear ciertas técnicas de
compresión desarrolladas para las imágenes fijas. El estándar de compresión
ISO (International Standards Organization) JPEG (Joint Photographic Experts
Group), está en esta categoría. Donde una sucesión de imágenes codificadas
en JPEG también se usan para la televisión, esto es llamado "JPEG en
movimiento".
77
Codificación intra o espacial, explora la redundancia dentro de la imagen
Se pueden obtener grandes factores de compresión teniendo en cuenta la

redundancia entre imágenes sucesivas. Esto involucra al eje del tiempo, la
Figura muestra esto. Este proceso se denomina codificación inter
(inter=entre) o codificación temporal.
Codificación inter o temporal, explora la redundancia entre imágenes
La codificación temporal permite altos factores de compresión, pero con la

desventaja de que una imagen individual existe en términos de la diferencia
entre imágenes previas. Si una imagen previa es quitada en la edición,
entonces los datos de diferencia pueden ser insuficientes para recrear la
siguiente imagen. El estándar ISO MPEG (Motion Pictures Experts Group)
utiliza esta técnica.
7.3.1 Codificación Intra o Espacial

Un análisis de las imágenes de televisión revela que existe un alto contenido
de frecuencias espaciales debido al detalle en algunas áreas de la imagen,
generando una cantidad pequeña de energía en tales frecuencias. A menudo
las imágenes contienen considerables áreas en donde existen pixeles con un
mismo valor espacial. El promedio de brillo de la imagen se caracteriza por
componentes de frecuencia de valor cero. Simplemente omitiendo los
componentes de alta frecuencia de la imagen, esta se vuelve inaceptable
debido a la pérdida de definición de la imagen.
78
Una disminución en la codificación se puede obtener, tomando como ventaja

que la amplitud de los componentes espaciales disminuye con la frecuencia.
Si el espectro de frecuencia espacial es dividido en subbandas de frecuencia,
las bandas de alta frecuencia se pueden describir en pocos bits, no
solamente porque sus amplitudes son pequeñas sino porque puede ser
tolerado más ruido. La Transformada Discreta del Coseno se usa en MPEG
para determinar el dominio de la frecuencia espacial en imágenes
bidimensionales.
7.3.2 Codificación Inter o Temporal

La codificación inter aprovecha la ventaja que existe cuando las imágenes
sucesivas son similares. En lugar de enviar la información de cada imagen
por separado, el codificador inter envía la diferencia existente entre la imagen
previa y la actual en forma de codificación diferencial. Las Figuras muestran
este principio. El codificador necesita de una imagen, la cual fue almacenada
con anterioridad para luego ser comparada entre imágenes sucesivas y de
forma similar se requiere de una imagen previamente almacenada para que
el decodificador desarrolle las imágenes siguientes.
Sistema de codificación inter, que usa un retraso para calcular la diferencia

de pixeles entre imágenes sucesivas
Los datos que se generan al hacer la diferencia entre dos imágenes, también
se pueden tratar como una nueva imagen, la cual se debe someter al mismo
tratamiento de transformadas utilizado en la compresión espacial.
Un sistema básico de codificación inter se muestra en la.
Desafortunadamente existe la posibilidad de transmitir errores, si se utiliza
una secuencia ilimitada de imágenes previstas. Por esto es mejor utilizar un
número limitado de imágenes previstas para de este modo garantizar una
mejor transmisión de los datos. En MPEG periódicamente se envía una
imagen la cual no ha sido tratada con algún método de compresión con
pérdidas y que a su vez es idéntica a la imagen original, refrescando los
datos en la secuencia de transmisión.
La Figura muestra el recorrido de una imagen original, llamada imagen I o
intra, la cual es enviada entre imágenes que han sido creadas usando una
diferencia entre imágenes, llamada imágenes P o previstas. La imagen I
requiere grandes cantidades de información, mientras que las imágenes P
79
requieren una cantidad menor. Esto ocasiona que el flujo de transmisión de

datos sea variable hasta cuando llegan a la memoria intermedia, la cual
genera a su salida una transmisión de datos de forma constante. También se
puede observar que el predictor necesita almacenar datos de menor
proporción puesto que su factor de compresión no cambia de una imagen a
otra.
I=Imagen codificada intra

D=Imagen codificada diferencialmente
Uso periódico de una imagen I

Una secuencia de imágenes que está constituida por una imagen I y las
siguientes imágenes P hasta el comienzo de otra imagen I, se denomina
grupo de imágenes GOP (Group Of Pictures). Para factores de compresión
altos se utiliza un número grande de imágenes P, haciendo que las GOPs
aumenten de tamaño considerablemente; sin embargo un GOP grande evita
recuperar eficazmente una transmisión que ha llegado con errores.
En el caso de objetos en movimiento, puede que su apariencia no cambia
mucho entre imágenes, pero la representación de los bordes si cambia
considerablemente. Esto es de gran ventaja si el efecto de movimiento se
representa por la diferencia entre imágenes, generando una reducción en la
codificación de datos. Este es el objetivo de la compensación de movimiento.
Codificación Bidireccional
Cuando un objeto se mueve, este oculta lo que hay detrás de él, pero esto va
cambiando a medida que se va moviendo, permitiendo observar el fondo. El
revelado del fondo exige nuevos datos a ser transmitidos, ya que el área del
fondo había sido ocultada anteriormente y la información no pudo ser
obtenida desde una imagen previa.
Un problema similar ocurre si se hace una toma panorámica con una cámara
de video; aparecen nuevas áreas al observador y nada se sabe acerca de
ellas. MPEG ayuda a minimizar este problema utilizando codificación
bidireccional, la cual deja información para ser tomada de imágenes
anteriores y posteriores a la imagen observada. Si el fondo ya ha sido
revelado, y este será presentado en una imagen posterior, la información
puede ser movida hacia atrás en el tiempo, creando parte de la imagen con
anticipación.
La Figura muestra en qué se basa la codificación bidireccional. En el centro
del diagrama un objeto se mueve revelando su fondo, pero éste no se conoce
hasta la siguiente imagen. Entonces se toman los datos de las imágenes
anteriores y posteriores, o incluso se utiliza el promedio de los datos,
descubriendo de esta forma el fondo.
80
Concepto de la codificación bidireccional

La Figura muestra una codificación bidireccional. Primero se toma una
imagen I y, con la ayuda de una imagen P se pueden obtener imágenes B,
las cuales son llamadas también imágenes bidireccionales.
Codificación bidireccional
7.4 - Compresión de Video en el estándar MPEG

En el año de 1990, la ISO, preocupada por la necesidad de almacenar y
reproducir imágenes de video digitales y su sonido estereofónico
correspondiente, creó un grupo de expertos que llamó MPEG (Moving
Pictures Expert Group) procedentes de aquellas áreas implicadas en el
problema (telecomunicaciones, informática, electrónica, radio difusión, etc.).
El primer trabajo de este grupo se conoció como la norma ISO/IEC 11172,
mucho más conocida como MPEG-1, en el año 1992. La idea inicial era la de
permitir el almacenamiento y reproducción en soporte CD-ROM con un flujo
de transmisión de datos del orden de 1,5 Mbits/s, transportando tanto imagen
como sonido.
El estándar MPEG además de aprovechar la redundancia espacial intrínseca
de una imagen fija utilizada en la codificación JPEG, aprovecha la
redundancia temporal que aparece en la codificación de imágenes animadas,
permitiendo encontrar similitudes entre las imágenes sucesivas de video.
Debido a que la calidad en la compresión de video en el estándar MPEG-1
era de baja calidad y no servía para otras aplicaciones, se creó la norma
ISO/IEC 13818, mucho más conocida con el nombre de MPEG-2. Esta norma
permite un flujo de transmisión hasta el orden de los 20 Mbits/s,
transportando tanto imagen como sonido. Norma que se utilizaría en la
televisión de alta definición.
81
7.5 - Compresión de Video en el estándar MPEG-2

MPEG-2 puede describirse como una " caja de herramientas" de compresión
más compleja que MPEG-1, por lo tanto, también puede ser considerada
como una unidad superior: en efecto, toma todas las herramientas anteriores
y le añade otras. Además, la norma prevé la compatibilidad ascendente, lo
que significa que un decodificador MPEG-2 deberá decodificar trenes binarios
elementales de la norma MPEG-1.
Perfiles y Niveles en MPEG-2

MPEG-2 se puede utilizar en un vasto rango de aplicaciones, requiriendo
diferentes grados de complejidad y desempeño.
Para un propósito práctico el estándar MPEG-2 es dividido en perfiles y cada
perfil es subdividido en niveles. Un perfil es básicamente el grado de
complejidad esperada en la codificación, mientras que un nivel describe el
tamaño de la imagen, la resolución de esta o la velocidad de transferencia de
bits usada en ese perfil. En principio, hay 24 combinaciones posibles, pero no
todas están definidas. Un codificador MPEG cuando entrega un perfil y un
nivel determinado, debe además ser capaz de decodificarlo a perfiles y
niveles inferiores.
Niveles y perfiles de MPEG-2
Un perfil simple no soporta una codificación bidireccional y de este modo solo

genera imágenes I y P. Esto reduce la tasa de compresión simplificando el
codificador y el decodificador; permitiendo un sencillo hardware. Un perfil
simple solamente está definido en el nivel main (principal) como (SP@ML). El
perfil main (principal) corresponde actualmente al mejor compromiso entre
82
calidad/tasa de compresión, utilizando los tres tipos de imágenes (I, P y B), a

costa de un codificador y decodificador, más complejos.
Los perfiles escalables (código jerárquico) están previstos para operaciones
posteriores y permitirán transmitir una imagen básica (base layer) en términos
de resolución espacial (spatially scalable profile) o de cuantificación (SNR
scalable profile), así como información suplementaria independiente
(enhanced layer) que permite mejorar sus características, por ejemplo para
transmitir la misma emisión en definición estándar y HD (High Definition), o
permitir una recepción con calidad aceptable en caso de recepción difícil y de
calidad óptima en buenas condiciones (por ejemplo, para la televisión digital
terrestre).
La Figura muestra un codificador MPEG convencional, con coeficientes de
cuantificación de elevado peso; que al codificar una imagen la genera con
una moderada razón señal de ruido. Después esta imagen al ser
decodificada y sustraída de la imagen original pixel a pixel da como resultado
una imagen de "ruido de cuantificación". Esta imagen puede ser comprimida
y transmitida como una imagen de ayuda. Un simple decodificador solo
decodifica la imagen principal, con un flujo de bit con ruido de cuantificación,
pero un decodificador más complejo puede decodificar ambas imágenes con
diferentes flujos de bits y combinarlos para producir una imagen con bajo
ruido.
83
8 - Conexiones Digitales
8.1 Conexiones profesionales o semiprofesionales

Llevar video digital de un punto a otro, por ejemplo hacia un ordenador o
entre diversas fuentes de almacenamiento de video, es una actividad
indispensable para las personas que se dedican a la producción audiovisual.
La transferencia se realiza desde una cámara, una VCR (equivalente a un
vhs), un equipo de música o un DVD externo hacia una computadora. Para
ello se utilizan buses creados originalmente para transmitir datos entre
periféricos. Estos 3 estándares son: USB, Firewire y SDI (Serial Digital
Interface). Los dos primeros están orientados al uso doméstico y semi
profesional. En cambio el SDI, de menor divulgación, es usado a nivel
profesional o broadcast.
Las ventajas que ofrece el vídeo digital es la posibilidad de pasar por
múltiples generaciones sin que se produzca pérdida de calidad, también
transformaciones de imágenes. Para un trabajo de post-producción de
máxima calidad, necesitamos una interconexión digital entre dispositivos,
para evitar la degradación que provocan las repetidas etapas de conversión.
El cable puede estar hecho de materiales aislantes, por lo que no pueden
ocurrir bucles a tierra, aunque muchos cables de fibra óptica incluyen
conductores eléctricos de alimentación y conductores trenzados para darle
consistencia mecánica, aunque los cables de fibra óptica no toleran muy bien
muchos conectores en un determinado canal (pérdidas en conexión) por eso
los puntos de apertura sean los de transmisión y recepción.
8.1.1 USB (Universal Serial Bus)

Existen varias versiones. La versión 2.0 ha superado la velocidad de
transferencia de la versión 1.1. Logra alcanzar hasta 480 Mb/s lo que supera
ampliamente a los 1.5 Mb/s y 12 Mb/s del USB 1.1. Usa arquitectura
cliente/servidor, en otras palabras requiere una controladora de los
dispositivos que conecta. Por el momento el USB ha aventajado en velocidad
al Firewire. Sin embargo, sus aplicaciones se dan en scanners y lectoras de
cd rw. Gracias a NEC, los USB también vienen en tarjetas PCI. Y si bien
podríamos aprovechar estos últimos dispositivos y su alta velocidad a la hora
de transferir video, lo cierto es que ningún software de edición acepta por el
momento captura vía USB.
En 2008 llegó la versión 3.0. Como pasa en casi todos los aspectos, cada
versión ha ido aportando nuevas mejoras que superan las capacidades de la
anterior.
Así pues, el USB 3.0 es una de la última gran versión de este estándar que
hay ahora mismo en el mercado, y que tiene las subversiones USB 3.1 y la
84
futura USB 3.2. Estas dos variaciones o actualizaciones puntuales utilizan un

conector de tipo C reversible,
Por último, los USB tienen varios tipos de conectores: Los primeros
estándares de USB utilizaban prácticamente todos, aunque el USB 3.0 te lo
encontrarás con conectores Tipo A, Tipo B y Micro-B. Sin embargo, los más
comunes, los que podemos identificar como "los de toda la vida", son los de
Tipo A.
USB 2.0 USB 3.0
FECHA DE 2000 2008

LANZAMIENTO
DIRECCIÓN DE Unilateral, o envía o Bilateral, puede enviar y

TRANSFERENCIA recibe información recibir información a la
vez
VELOCIDAD DE Hasta 480 Mbit/s (60 Hasta 4,8 Gbit/s (600

TRANSFERENCIA MB/s) MB/s)
SUMINISTRO DE Hasta 500 mA Hasta 900 mA

ENERGÍA
LÍNEAS EN EL Cuatro Nueve

CABLE
COLOR DEL Gris Azul

CONECTOR TIPO A
TIPOS DE Tipo A, Tipo B, Mini A, Tipo A, Tipo B, Micro B

CONECTOR Mini B, Micro A, Micro B.
85
En esta tabla de arriba tienes las principales diferencias entre los USB 2.0 y
3.0. La más notable es la velocidad, ya que con sus cinco líneas por cable de
más, es capaz de transmitir datos a velocidades máximas 10 veces más
rápidas que las del USB 2.0. Eso sí, queda destacar que las velocidades son
las máximas, y que depende de muchas cosas el que se consigan alcanzar o
no. Por lo general, las transmisiones suelen ser más lentas.
También hay diferencias importantes en la energía que pueden suministrar
cuando se conecta un dispositivo a ellos para cargarlo. Los puertos USB 2.0
pueden suministrar hasta 500 mA, mientras que los puertos USB 3.0 ofrecen
hasta 900 mA. Esto quiere decir, que tus móviles u otros dispositivos podrán
cargarse bastante más rápido.
Un USB 2.0 tiene una comunicación unilateral, lo que quiere decir que
cuando los conectas pueden enviar información o recibirla. Sin embargo, esto
cambia en los USB 3.0, que pueden enviar y recibir información al mismo
tiempo.
Identificarlos es fácil, incluso en los puertos de tipo A que son aparentemente

iguales, gracias a que el conector de los USB 3.0 de tipo A suele tener una
lengüeta azul muy característica. En cuanto a los tipos B y Micro-B, tienen
diferencias físicas que los hacen fácilmente identificables.
Los USB 3.0 son compatibles con los aparatos con USB 2.0. Sin embargo,
hay que tener en cuenta que se limitarán siempre a trabajar al mismo nivel
máximo que los 2.0, lo que puede limitar su velocidad y la energía que
transmiten.
86
Con los conectores de tipo A no hay problema, son compatibles entre ellos,
pero los conectores de los USB 3.0 de tipo B y MicroUSB 3.0 son diferentes a
los del USB 2.0. Esto quiere decir que habrá que utilizar un adaptador para
poder utilizar los 3.0 en los 2.0, y siempre haciendo que se limiten las
capacidades a las del 2.0.
8.1.2 FIREWIRE
También es conocido como IEEE 1394 y como i.Link. Es un interfaz diseñado
por la empresa Apple para conectar periféricos en un ordenador y con la idea
de sustituir al bus SCSI. Permite velocidades de 100, 200 y 400 Mb/s. Al igual
que el USB acepta conexiones en "caliente", o sea sin apagar ni reiniciar.
Utiliza una arquitectura punto a punto es decir podemos conectar una cámara
a un disco duro sin necesitar equipo adicional.
El Firewire DV- 1394 permite transmitir señal de video a distancias de hasta
50 kilómetros.
Es ampliamente conocida ya que fue adoptada por cámaras DV, unidades de
DVD, empresas que producen tarjetas digitalizadoras como la Matrox,
Pinnacle y Canopus así como por softwares como el Avid, Adobe Premiere,
Final Cut Pro, entre otros. El nombre Firewire es propio de Apple. En 1995 la
organización IEEE (Institute of Electrical and Electronics Engineers) lo
rebautizó como IEEE 1394.
i.Link es una variante desarrollada por SONY. Los periféricos que lo usan no
reciben la alimentación eléctrica por el cable usado para la transferencia de
datos, lo que obliga a tener una fuente de alimentación con su propia
conexión a la red eléctrica.
El principal aporte del Firewire al mundo del vídeo es la transferencia de
audio y vídeo sin merma de la calidad y sin pérdida de "frames" o
desincronización. Asimismo permite transferir además el Timecode, que es
un registro digital del tiempo que se graba en la cinta, lo cual permite ubicar
rápidamente una escena durante la edición.
La clásica versión permite una longitud máxima de hasta 4.5 metros (en USB
la distancia es de 5 metros). Pero lo nuevo en Firewire es el DV- 1394 que es
la transmisión vía fibra óptica. Este tipo de Firewire, hecho especialmente
para el mundo de la televisión, permite transmitir video digital a una distancia
de hasta 50 kilómetros, sin perder calidad. Es el sistema ideal para una
estación de TV que desee enviar archivos de video desde un lugar a otro. Sin
embargo, la conexión Firewire está limitada a los formatos DVC CAM, DVC
PRO y Mini - DV.
8.1.3 - SDI (Serial Digital Interface)

Hay dos métodos habituales de transferir el vídeo digital: SDI y SDTI. SDI es
"Serial Digital Interface", un interfaz estándar de vídeo para transferir el vídeo
87
sin comprimir. SDTI es "Serial Data Transmission Interface", una variante de

SDI para transferir vídeo comprimido. El interfaz SDI ofrece una verdadera
transmisión de video digital a un muestreo muy alto y sin compresión es decir
1 a 1, pero sus elevados costos son alcanzables por el momento solo por la
gran industria de la televisión.
Este estándar comenzó a perfeccionarse a partir de la aparición del formato
D1 en 1987 y también es denominado ANSI/SMPTE 259M/1997. Esta
conexión utiliza un cable coaxial que permite transmisiones a grandes
distancias y evita la presencia de ruidos extraños en la señal del video.
Para entender las ventajas de la salida SDI, es necesario revisar ligeramente
la teoría de la digitalización de las señales de vídeo. Cada píxel de una
imagen es reproducido a partir de los tres colores básicos rojo, verde y azul
que, por necesidades de banda pasante, se transforman en lo que
conocemos como componentes digitales o YCbCr. La Y representa la señal
de luminancia de la imagen y la Cb y Cr representan, a su vez, las señales de
crominancia del azul y del rojo, respectivamente, calculadas a partir de una
diferencia del valor de color respecto a la luminancia. Gracias a la mayor
sensibilidad de nuestro sistema de visión por las señales de luminancia que
por las de color, la principal norma internacional de muestreo de señales
digitales por componentes es conocida como 4:2:2, donde el 4 representa el
número de muestras utilizadas para la señal de luminancia (Y) y las
siguientes cifras, las muestras necesarias para cada una de las señales de
crominancia. Con independencia de la tasa de refresco, la frecuencia de
muestreo del canal Y es de 13.5 Mhz y las de los canales de croma Cb y Cr
son, por tanto, de 6,75 Mhz. Existe otro formato de digitalización obtenido a
partir de la norma 4:2:2, conocido como 4:2:0, donde se consigue reducir el
número de muestras y, por consiguiente, la cantidad de memoria en los
circuitos de tratamiento de la señal, utilizando la misma crominancia para
colorear dos líneas consecutivas y obteniendo la información de color de las
líneas impares por interpolación. Los datos contenidos en los discos
DVD-Video están grabados en esta norma 4:2:0 y el decodificador de MPEG
es el encargado de convertir la señal 4:2:0 en 4:2:2.
Esta señal digital entrelazada que sale de dicho decodificador en formato
YCbCr 4:2:2, es la única que podemos denominar como completamente
inalterada y para distinguirla por su elevada calidad, la SMPTE (Sociedad de
ingenieros de televisión norteamericanos) la denominó como SDI (Serial
Digital Interface). Para poder entender la diferencia con otras señales
digitales que podemos extraer de los lectores de última generación a través
de los conectores HDMI o DVI, debemos entender el resto de procesos a los
que ha de someterse la señal original, entre los que podemos citar, la
conversión de YCbCr 4:2:2 a YCbCr 4:4:4, la transcodificación a RGB 4:4:4,
la inclusión de la protección anticopia HDCP, el procesado de vídeo aplicado
88
en términos de color, contraste, nitidez, etc., la conversión de entrelazado a

progresivo o el escalado a resoluciones estándar como 720p o 1.080i. Si hay
una regla de oro en la historia de la Alta Fidelidad, tanto en audio como en
vídeo, ésa es la de que cuanto menos modifiquemos la señal original mejores
resultados obtendremos al final de la cadena.
Estos estándares son usados para transmisión de señales de video digital sin
comprimir y sin encriptar (opcionalmente incluyen audio y/o Time Code).
Pueden también ser usados para transferir paquetes de datos. Fueron
diseñados para operar a distancias cortas (menos de 300 m con cable
coaxial); el alto flujo de datos los hace inapropiados para transmisiones más
largas. SDI y su versión para transmisión de video de alta definición, el
HD-SDI (High Definition – Serial Data Interface) sólo están disponibles para
equipos de uso profesional, definiendo al antiguo SDI como SD-SDI
(Standard Definition – Serial Data Interface)
Interfaz eléctrico
Los diversos estándares SDI utilizan cables coaxiales con conectores tipo
BNC con una impedancia de 75 ohms como el RG59. Es el mismo tipo de
cables utilizado en las conexiones analógicas de video. Usando un
amplificador en el receptor es posible enviar un flujo de datos de 270 Mbits/s
SD-SDI hasta 300 metros sin repetidoras intermedias. En el caso del HD-SDI,
la distancia máxima son 100 metros.
8.2 - Conexiones de tipo hogareño

Coincidiendo con la aparición de los formatos de alta definición Blu-ray y
HD-DVD y el imparable afianzamiento en el mercado de las pantallas LCD y
de plasma, el conexionado de la señal de vídeo ha asentado definitivamente
la transmisión de datos dentro del dominio digital. Hasta hace muy poco
resultaba paradójico comprobar, cómo en plena madurez de la era digital la
mayor parte de las conexiones que utilizamos en el ámbito audiovisual estaba
89
todavía en el dominio analógico. Y es que si exceptuamos el flujo de datos

PCM de los lectores de CD-Audio convencionales y los formatos comprimidos
Dolby Digital y DTS de los discos DVD-Vídeo, el resto de conexiones, tanto
de vídeo como de audio, se han realizado tradicionalmente en formato
analógico.
Y es que hay que tener siempre presente que en la fuente (lector DVD-Vídeo,
Blu-ray o HD-DVD), el procesador (receptor de audio/vídeo) e incluso en
muchos dispositivos de visualización modernos (proyectores, pantallas de
plasma o LCD) el tratamiento de las señales se realiza dentro del mundo
digital. Al conectar entre sí todos estos aparatos con cableado analógico, nos
vemos obligados a convertir una y otra vez la señal digital en analógica y
viceversa.
Dada su escasa implantación hasta la fecha en componentes de cine en casa
y la limitación física de datos que puede manejar (lo que nos obliga, por tanto,
al uso de información comprimida), en este artículo vamos a centrarnos
exclusivamente en otros dos sistemas denominados DVI y HDMI.
8.2.1 DVI (Digital Visual Interface)

A mediados de 1998, un grupo de empresas, principalmente del sector
informático, creó el llamado DDWG (Digital Display Working Group). Viendo
la cada vez mayor implantación de los monitores informáticos digitales
basados en tecnología LCD, en sustitución de los clásicos monitores
analógicos de tubos de rayos catódicos TRC (o CRT del acrónimo
anglosajón), el DDWG diseñó una nueva interfaz de comunicación para
transmitir, sin molestas conversiones, la señal de vídeo 100% digital desde
la tarjeta gráfica del PC hasta el monitor.
Bautizado como DVI, este sistema está basado en una tecnología
denominada TMDS (Transition Minimized Differential Signaling) que utiliza
cuatro canales de datos para la transmisión de la señal. En los tres primeros
se conduce la información de cada uno de los tres colores básicos (rojo,
verde y azul - RGB) y los datos de sincronización vertical y horizontal
necesarios, y se reserva el cuarto canal para transmitir la señal del reloj de
ciclos. Gracias a este sistema, el ancho de banda disponible es lo
suficientemente grande como para transportar sin ningún tipo de compresión
todos los formatos provistos de señales de vídeo en Alta Definición y
resoluciones informáticas de hasta 1.600x1.200 puntos (UXGA). El DVI
también tiene implementado un sistema de mayor envergadura denominado
DVI Dual-Link, que utiliza en el mismo conector un enlace TMDS adicional
que comparte la señal del reloj y que permite resoluciones de hasta
2.048x1.536 píxeles (QXGA). Debido a la nula utilización del sistema
Dual-Link en equipos de Cine en Casa domésticos, nos centraremos en la
versión simple, llamada Single-Link.
90
Además de los datos TMDS, el estándar DVI maneja otro tipo de señales
denominadas DCC (Display Data Channel). En este canal se establece una
comunicación entre la fuente y la pantalla de informaciones auxiliares de
vídeo (AVI), que permite entre otras cosas identificar la resolución soportada
por el monitor, la relación de aspecto nativa del mismo, el tipo de señal que
envía (RGB o Y/Cb/Cr) y diversos datos sobre colorimetría o geometría de la
imagen.
A pesar de que esta conexión naciera para el mundo informático, enseguida
se vio la validez de la misma para el entorno audiovisual doméstico pero,
como suele ocurrir en estos casos, existía un importante inconveniente:
disponer de una imagen digital en estado puro suponía dejar en manos de los
usuarios la posibilidad de crear copias perfectas (bit a bit), algo que ningún
proveedor de contenidos desea, y mucho menos los grandes estudios de cine
o las plataformas de televisión digital.
Para evitar que la piratería compara a sus anchas, se desarrolló un sistema
de encriptación de nombre HDCP (High-Bandwidth Digital Contention Protect)
que se basa en el intercambio de información entre dos dispositivos con
conexiones DVI y que obligatoriamente han de confirmar las señales de
validación que se envían entre ellos para seguir transmitiendo. Esto nos
puede llevar al caso de tener una fuente DVI-HDCP y un proyector o panel de
plasma que no disponga de este certificado anticopia y resulten
absolutamente incompatibles a pesar de contar con el mismo conector. Para
concluir la migración del DVI desde el mundo informático al audiovisual, se
añadieron las señales digitales de vídeo por componentes de diferencia de
color Y/Cb/Cr a las originarias señales RGB. Esta combinación, más cercana
a nuestros intereses de conexión DVI+HDCP+Y/Cb/Cr, ha sido denominada
DVI-HDTV.
El conector DVI está compuesto por dos grupos de pines. En un extremo del
conector siempre encontraremos un grupo de 24 pines en tres filas de ocho.
91
Puede existir en el otro extremo un solo pin central de mayor tamaño (24+1)
que nos indica que el mismo es DVI-D o digital y que sólo transmite este tipo
de señales, o bien podemos tener este mismo pin rodeado de cuatro pines
añadidos (24+5) que contienen adicionalmente la señal de vídeo analógica
por componentes RGB y que se denomina DVI-I o Integrado.
8.2.2 - HDMI (High-Definition Multimedia Interface)

La conexión HDMI. Una interfaz multimedia de alta definición que se ha
convertido en el estándar de los actuales televisores, reproductores y resto
de aparatos multimedia. Gracias a él se puede transmitir vídeo y audio sin
compresión entre dispositivos.
Existen cinco tipos de conector HDMI siendo los más conocidos y usados los
que denominamos como HDMI, mini HDMI y micro HDMI. Luego tenemos
dos más, uno de 29 pines que aún no se está usando y que está pensado
para futuras pantallas con mayor resolución y funcionalidades y el automotive
connection system.
Los tres primeros cuentan con 19 pines (estándar, mini y micro). A través de
cada uno de estos pines se puede transmitir diferentes datos. Incluso la
propia señal de internet como si de un cable ethernet se tratase.
Esa última versión es la 1.4 de HDMI. Permite enviar vídeo con mayor
resolución (hasta 4096x2160 a 24fps o 3840x2160 a 30 fps). Con la última
especificación encontramos que la conexión ethernet se ha incorporado y
permite velocidades de hasta 100 Mbps.
92
93
9 - Grabación digital de vídeo8
Para poder entender un poco más este tema, tenemos que entender algunos
conceptos básicos y las diferencias entre un contenedor, el esquema de
compresión y un códec. Para explicarlo de forma más sencilla utilizaremos
una analogía que leímos en alguna ocasión y que nos ha parecido la forma
más sencilla de explicarlo, tenemos que entender a un archivo de vídeo como
una repisa llena de libros.
La repisa = contenedor
La repisa es el contenedor (así como la repisa puede tener muchos libros, el
contenedor puede tener muchas pistas de audio y vídeo), los formatos más
comunes de contenedores son MOV, AVI y MXF.
El idioma del libro = Esquema de compresión

Dentro de cada pista de audio y vídeo, la información se representa en
distintos idiomas o formatos de compresión. Algunos de los formatos más
comunes de compresión incluyen h.264, Mpeg2, DNxHD, Prores, entre otros.
El autor del libro = Codec

El codec (codificador/decodificador) puede ser tanto hardware como software
que permita interpretar o descifrar una señal de audio o vídeo y permite
comprimir, cada esquema de compresión puede ser implementado de
muchas formas diferentes, lo cual permite que existan distintos tipos de
códecs para un mismo esquema de compresión.
8
https://www.cinedigital.tv/entendiendo-los-tipos-de-codecs
94
Un caso sencillo de entender es MPEG4 parte 2. MPEG es un consorcio de

la industria que fija ciertos parámetros de compresión específicos y desarrolla
las normas para realizar esa codificación, pero al mismo tiempo desarrolla un
decodificador específico muy sencillo que permite ver y escuchar el material
previamente codificado. Los fabricantes y empresas son libres de crear
codificadores tan sencillos o complejos como ellos consideren necesarios
mediante hardware o software, siempre y cuando el resultado de dicha
codificación pueda ser decodificado mediante ese decodificador específico,
por lo que puede haber tantas formas de codificar (autores) como interesados
haya, siempre y cuando puedan ser decodificados por un mismo
decodificador.
Tipos de Formatos de Vídeo

Aquí viene una ramificación más, ya que hay formatos de vídeo que pueden
pertenecer a una o más de las siguientes categorías:
● Adquisición
● Edición y Post
● Distribución
Cada uno de ellos tiene su lugar específico y sus ventajas particulares, pero
empecemos analizando los conceptos básicos:
Tipos comunes de contenedores
MOV – Archivo Quicktime de Apple

El archivo MOV es un contenedor propietario de Apple que permite
almacenar múltiples pistas de audio, vídeo, gráficos y texto así como código
de tiempo o time code, Estas pistas pueden utilizar distintos esquemas de
compresión y codecs, es decir un archivo MOV puede contener material en
h.264, en DNxHD, ProRes, etc. El formato MOV es utilizado en las tres
categorías de la producción: adquisición, edición y post y distribución.
AVI – Archivo contenedor de Microsoft

Los archivos AVI son contenedores comunes en el lado de la PC, sin
embargo es un contenedor en desuso en los entornos profesionales, debido a
que en su forma nativa no soporta archivos de más de 4GB, no soporta
timecode ni aspectos de radio para los pixeles.
MXF – Contenedor avalado por la SMPTE

Este contenedor se considera un estándar por la SMPTE (Society of Motion
Picture and Television Engineers). Este tipo de contenedor es muy común en
95
la adquisición en formatos como el P2 de Panasonic o el XDCAM de Sony,

también se usa en edición (principalmente en Avid aunque casi todos los
programas lo soportan) y también es usado como un contenedor de
distribución, tanto para televisión como para cine digital.
MP4 – Contenedor MPEG 4

Es un tipo de contenedor también estandarizado que puede contener
distintos codecs, aunque el uso normal es para archivos h.264. Este tipo de
contenedor se usa tanto para adquisición como para distribución (internet,
bluray, etc.) de forma tradicional, aunque ahora se está volviendo
relativamente común en los programas de edición que en sus variantes de 32
bits no podían trabajar con este tipo de archivos, pero en sus versiones
nuevas de 64 bits los pueden trabajar sin problema.
Esquemas de Compresión
Descomprimido
Este esquema de compresión se contradice un poco ya que no hay
compresión y el hecho de que no haya compresión no significa que será igual
en todos los casos ya que puede tener un origen con un bit depth de 8, 10 o
12 bits y una profundidad de color de 4:2:0, 4:2:2, 4:4:4, etc. Realmente se
usa muy poco ya que tanto en HD como en 4K requieren cantidades enormes
de almacenamiento.
DV
El esquema de compresión DV es uno de los más antiguos de todos, surgió
originalmente para comprimir vídeo en definición estándar en cinta y de ahí
posteriormente nace el DVCPRO HD. Estos esquemas de compresión se
usaron tanto en adquisición, edición y post así como entrega.
HDCAM
Este esquema desarrollado por Sony se deriva de la compresión de Betacam
y es utilizado igualmente en adquisición, edición y post, así como distribución
o entrega.
MPEG 2
El MPEG 2 es uno de los esquemas probablemente más utilizados hasta
ahora, se ha implementado con distintos bitrates, profundidad de color y
resoluciones dependiendo de la media de adquisición. El MPEG 2 se usa en
DVD, Blu-Ray, HDV, XDCAM entre otros y es usado tanto en adquisición,
edición y distribución.
96
MPEG 4
Este es un esquema más moderno de compresión que MPEG 2 y se
considera el antecesor de h.264. Como un esquema profesional se ha
implementado como parte del codec de alta gama de Sony el HDCAM-SR,
pero también se ha utilizado en implementaciones para consumo como el
DivX.
H.264
También conocido como MPEG4 parte 10 o AVC es el sucesor natural de
MPEG 2 ya que se ha implementado con múltiples bitrates, resoluciones y
profundidad de color y se usa en múltiples cámaras, desde las DSLR de
Canon, Cámaras AVC-Intra, AVCHD, XAVC, etc. y es usado en las tres
categorías.
Apple ProRes
Este esquema diseñado específicamente para edición y post por Apple se ha
convertido en un estándar en muchas de las fases de la post-producción ya
que está diseñado para mantener un equilibrio entre el tamaño de los
archivos, la calidad y el uso de recursos del sistema, en sus variantes HQ y
444 soporta múltiples fases de procesamiento sin degradación. Este
esquema se usa normalmente en la fase de edición y post-producción,
aunque hay cámaras y grabadores externos que permiten usarlo como
formato de adquisición.
Avid DNxHD
Similar al ProRes, pero disponible tanto para Mac como para Windows,
DNxHD es un esquema de compresión que además está calificado como un
standard por la SMPTE como VC-3 y es usado normalmente en la fase de
edición y distribución, aunque ya también hay grabadores externos y algunas
cámaras que permiten usarlo en la fase de adquisición.
Codecs
Los codecs como lo mencionamos ya, son los codificadores/decodificadores
de un esquema de compresión determinado que puede tener múltiples
variantes tanto en calidad, resolución, rendimiento, etc.
¿Y qué hay de HDCAM-SR, XAVC, AVCHD, AVCCAM, XDCAM, AVC-Intra,

etc.?
97
Básicamente son nombres comerciales para identificar un conjunto de

elementos como media de grabación, codec ajustado para una compresión
determinada, bitrate, calidad, estructura de archivos, etc.
98
MPEG2 VS MPEG4 VS H264, ¿Cuáles son las Diferencias?9
La codificación de video digital ha recorrido un largo camino desde la

introducción de la idea en 1967 con H. 120 como el primer estándar de
codificación digital. El MPEG2 se introdujo en 1994, el MPEG4 en 1999 y el
H.264 en 2003.
Parte 1: ¿Qué es el formato de video H 264?
El formato de codificación de video H. 264, que también se conoce como
H.264 / MPEG-4 AVC (Codificación de Video Avanzada) es el formato más
utilizado para la grabación, compresión y distribución de contenido de video a
septiembre de 2021. Si ha utilizado fuentes de transmisión por Internet como
Netflix y YouTube y software web como Adobe Flash Player, ha visto el H.264
en funcionamiento. Varias transmisiones de HDTV por tierra, cable y satélite
también utilizan el formato de codificación de video H.264.
Fue estandarizado por el Grupo de Expertos en Codificación de Video (VCEG
por sus siglas en inglés) de ITU-T junto con el Grupo de Expertos en
Imágenes en Movimiento (MPEG) ISO / IEC JTC1. La primera versión se
completó en 2003. La intención del formato de video H.264 era proporcionar
una buena calidad de video a una tasa de bits inferior a los formatos de
codificación de video anteriores. Estaba destinado a hacer esto sin aumentar
la complejidad del diseño o volverse demasiado costoso de implementar.
También debía ser flexible para poder aplicarse en una amplia variedad de
redes y sistemas.
El H.264 logró todo lo anterior con éxito mediante el uso de características
tales como:
● La segmentación de tamaño de bloque variable Una transformación

entera de complejidad reducida
● Predicción entre imágenes de múltiples imágenes.
● Además, sus principales ventajas incluyen lo siguiente:H.264 admite
resoluciones de hasta 8K UHD
● Es mejor conocido por ser el formato de codificación de video más
utilizado en discos Blu-ray.
Cuando se trata de redes de video y videos de alta definición (HD), H.264

ofrece una entrega muy atractiva.
El H.264 ha sufrido muchas actualizaciones a partir de la versión 2 que se
lanzó en 2004 con varias correcciones menores. Actualmente se encuentra
en su versión 26, que se lanzó en junio de 2019 y tenía enmiendas a la
información del nivel de luz del contenido, el empaquetado regional, el
volumen de color del contenido, la rotación de la esfera y mucho más.
https://recoverit.wondershare.es/video-repair/mpeg-vs-h264.html#:~:text=MPEG2%20tiene%20un%20
tama%C3%B1o%20de,sin%20perder%20su%20alta%20calidad.
99
Parte 2: ¿Qué es MPEG2 y MPEG4?

Moving Pictures Experts Group (MPEG) es el organismo responsable de los
estándares utilizados en la codificación de video, estándares como MPEG2 y
MPEG4. Esta sección le dará la información que necesita sobre MPEG2 y
MPEG4.
¿Qué es MPEG2?
MPEG2 es el códec que se utiliza para comprimir video de transmisión digital
y DVDs. Los archivos multimedia codificados con el códec MPEG-2
generalmente tienen las extensiones de archivo .mpg, .mpeg, .m2v, .mp2 o,
100
en algunos casos, .mp3. También se conoce como H.262 y todavía se usa en

la transmisión de televisión digital por aire y en el estándar de video DVD.
El MPEG2 se creó en 1994 para corregir las deficiencias de su predecesor
MPEG1. Todavía está en uso debido a la necesidad de compatibilidad con el
hardware y el software existentes. Fue desarrollado principalmente por Sony,
Thomson y Mitsubishi Electric. Después de su lanzamiento, se convirtió en el
formato de video estándar para DVD y televisión digital SD.
Las ventajas que disfrutará al usar el formato MPEG2 incluyen:
Una calidad de video superior a la de otros formatos de video
Un método muy simple de compresión de video.
La capacidad de manejar transmisiones de video de fuentes locales como
transmisiones por cable y DVDs.
101
¿Qué es MPEG4?
El estándar MPEG4 es un formato MPEG4 que se inició en 1995. Alcanzó el
estado de borrador de comité en 1998 (marzo) y al final del mismo 1998, se
finalizó su creación. Inicialmente, se creó específicamente para velocidades
de bits muy bajas, pero actualmente puede admitir hasta 4 Mbps. MPEG4
contiene seis partes que le permiten realizar sus funciones, estas son: visual,
software, sistemas, framework de integración de entrega multimedia (DMIF),
pruebas de conformidad y audio.
Este estándar de codificación de video está diseñado para ser utilizado en
transmisión, en entornos conversacionales e interactivos. También está
diseñado para llevar a cabo una escalabilidad basada en el contenido.
Debido a cómo se construye MPEG4 (habiendo adoptado características de
MPEG1, MPEG2 y VRML), puede usarlo tanto en entornos web como en
televisión y puede integrar contenido de ambos canales en el mismo entorno
multimedia.
Las ventajas de MPEG4 se pueden ver en más de sus características y estas
incluyen:
● Una integración de contenido sintético y natural en forma de objeto. Un

objeto podría ser una representación de entidades registradas como
una silla, una persona; o material sintetizado como una cara, una
persona, un modelo animado en 3D.
● Un gran soporte para contenido en 2D, así como en 3D
● Un soporte para todo tipo de interactividad.
● Puede codificar eficientemente desde velocidades muy bajas (5 K bit/s
para videos y 2 Kbit/s para voz) hasta velocidades muy altas (hasta 64
Kbit/s por canal para audio de calidad de CDs y 5 Mbit/a para video de
calidad transparente)
● Con el uso de URLs, agrega a VRML un soporte nativo para
contenidos que son naturales y transmitidos en tiempo real.
● Una descripción de escena que se representa de manera eficiente.
● Una amplia cobertura de tasas de bits, calidades y servicios,
aplicaciones y resoluciones.
Además, este formato admite la compatibilidad con otros estándares que ya

existen, como MPEG1, MPEG2, VRML, H.263 y ITU-T. Su impacto se siente
en dos áreas:
102
1. En producción, programación y archivo. Aquí, permite a los

organismos de radiodifusión navegar con facilidad y velocidad por los
archivos de video.
2. En la reutilización de activos de video digital. MPEG-4 es lo que
necesitan los radiodifusores cuando se trata de la distribución de
contenido a través de IP, banda ancha y redes móviles, y no solo a
través del sistema de transmisión tradicional. MPEG4 tiene una alta
eficiencia cuando se trata de codificar velocidades de bits bajas, lo que
lo hace ideal para el trabajo.
¿MP4 y MPEG4 son lo mismo?

Muchas personas tienden a confundir MP4 y MPEG4 asumiendo que ambos
son lo mismo o variaciones de lo mismo. Este no es el caso, ya que cada uno
significa algo diferente. En pocas palabras, MP4 es un formato de almacén o
contenedor, mientras que MPEG4 es un formato o estándar de codificación
de video.
MPEG4 es un estándar para la codificación de video. Se utiliza para la
compresión de datos AV para su distribución en la web y en CDs; para sonido
de voz (videoteléfono y teléfono), y también para transmisión de televisión.
MP4 fue desarrollado a partir del archivo MOV de Apple para almacenar
archivos de video codificados por MPEG4. Tenga en cuenta que MP4
también puede almacenar datos digitales (video y audio) que han sido
codificados por otros formatos de codificación.
Del mismo modo, tanto MPEG4 como MP4 son software desarrollado por el
Grupo de Expertos en Imágenes en Movimiento (MPEG). MP4 es uno de los
últimos formatos de video desarrollado para una distribución y transmisión de
video eficiente a través de Internet, mientras que MPEG4 se ha desarrollado
desde los años 90 como un estándar para codificar videos.
Parte 3: MPEG2 VS MPEG4 VS H264

Diferencias entre MPEG2, MPEG4 y H264:
● El formato MPEG4 utiliza un algoritmo que tiene una DCT

(Transformación discreta del coseno) de 16 x 16; Esto permite una
mayor tasa de compresión. Esta es una diferencia notable entre
MPEG2 y MPEG4.
● Tanto MPEG4 como MPEG2 proporcionan calidad de videos de alta
definición, que es superior a H264. Sin embargo, MPEG2 produce lo
mejor cuando se trata de calidad de video.
● MPEG2 tiene un tamaño de archivo mayor que MPEG4 y H264, lo que
dificulta la compatibilidad con dispositivos portátiles, junto con la
103
transmisión de video por Internet. Por otro lado, MPEG4, con su alta
tasa de compresión en archivos de menor tamaño, puede funcionar en
redes móviles sin perder su alta calidad.
Si desea codificar sus datos digitales en DVDs, el método ideal para usar es
MPEG2. Si desea codificar sus datos digitales en línea y en dispositivos
portátiles, MPEG4 es el estándar de codificación de referencia. Para la
codificación de video en discos Blu-ray, se recomienda el H264 como el
formato más utilizado.
En comparación con MPEG4, el formato MPEG2 es bastante más fácil de
usar como formato de compresión de video. Sin embargo, H264 está abierto
y tiene una especificación publicada, disponible para la implementación de
prácticamente cualquier persona.
MPEG4 contiene más funciones interactivas que le permiten manipular
diferentes elementos en sus videos en tiempo real.
H264 tiene la mayor flexibilidad lo que le permite ser aplicado a muchas
aplicaciones diferentes en una amplia gama de sistemas y redes.
104
DCP: ¿Qué es un paquete de cine digital y cómo funciona?10

Un paquete de cine digital es el formato de entrega estándar para las
proyecciones de películas en un cine digital. La mayoría de las salas de cine
actuales son cines digitales. Eso significa que cualquier tipo de proyección
digital, ya sea un corto o un largometraje, requiere un paquete de cine digital
o DCP para abreviar.
Los DCP se reproducen en costosos proyectores digitales como este, este, o
un servicio este. Y, en su mayor parte, los paquetes de cine digital han
sustituido a las bobinas de película de 35 mm utilizadas durante años por las
salas. Un hecho llorado por muchos aficionados al cine. La buena noticia es
que la producción de DCP costes significativamente menos que en la
producción de copias de 35 mm.
¿Qué es un paquete de cine digital?

Los DCP son archivos de audio, vídeo y metadatos (por ejemplo, subtítulos)
configurados para servidores de cine. Estos servidores se conectan a los
proyectores digitales que hemos mencionado antes. Cada fotograma de una
película es una carpeta independiente dentro del DCP. Un DCP típico incluye
archivos XML para los metadatos y MXF (formato de intercambio de material)
archivos. MXF es un contenedor de archivos de vídeo que envuelve los
archivos de pista según las normas de la Sociedad de Ingenieros de Cine y
Televisión (SMPTE).
La pista de vídeo es codificada fotograma a fotograma en JPEG-2000. Se
trata de un códec de compresión sin pérdidas que se domina a 24 fotogramas
por segundo (FPS), con una calidad de imagen de alta resolución. El archivo
de audio es un PCM lineal de 24 bits sin compresión multicanal Archivo WAV.
La mayoría de los DCP tienen una tasa de bits de unos 250 Mbps. La
mayoría de los proyectores digitales de las salas de cine no pueden soportar
una velocidad superior. Los servidores de cine digital funcionan con sistemas
operativos Linux, lo que significa que los discos duros de los DCP están
formateados en Linux EXT3.
Dado que los DCP suelen estar encriptados, un Mensaje de entrega de
claves (KDM) es necesario para ingerir y reproducir el contenido. Se puede
pensar en un KDM como una clave de codificación de contenidos. Los KDM
especifican cuándo, dónde y cómo se puede reproducir esa versión de la
película.
Un paquete de cine digital puede tener un tamaño de unos 200 GB o más. El
DCP para Spider Man: No Way Home es de unos 500 GB e incluye las
versiones 3D y 4K de la película de 2h 28m de duración).
10
Jim Donnelly | 5/1/2022.
https://massive.io/es/transferencia-de-archivos/dcp-what-is-a-digital-cinema-package/?cn-reloaded=1
105
¿Qué pasa con los DCP físicos en los discos duros?

Durante años, la entrega estándar de las películas en las salas de cine era a
través de un DCP físico. Algunos cines y festivales de cine siguen utilizando
DCP físicos, pero la mayoría de los estrenos comerciales se realizan por
satélite o por métodos "terrestres" (basados en IP), afirma SimpleDCP El
director de tecnología Garrett Sergeant.
Un DCP físico es un sistema de seguridad caja de embalaje consistente en
una caja de alta resistencia que contiene un disco duro, un ladrillo de
alimentación y los cables necesarios para su ingesta.
La mayoría de los DCP físicos se envían en Carcasas para unidades CRU.
Se trata de carros de discos duros DX115 semi-indestructibles diseñados
originalmente para uso militar. El Foro Intersocietario de Cine Digital (ISDCF)
señala que el uso de discos duros portátiles USB-3 se ha convertido en algo
habitual.
¿Cuáles son las ventajas de un paquete de cine digital?

La principal ventaja de un DCP es que es realmente la única manera de que
tu contenido se reproduzca en proyectores digitales de todo el mundo.
Además, dice Sergeant:
1. Los DCP son seguros. Puedes hacer un millón de copias de un DCP,
explica, pero si no tienes el KDM configurado para tu equipo, no podrás
reproducirlas. Los KDM también especifican la fecha y la hora en que se
puede reproducir un DCP. Esto ha provocado algunos... incidentes
embarazosos en los festivales de cine. "Los festivales de cine necesitan un
poco más de flexibilidad (que las salas de cine)", explica Sergeant. "Hace un
par de años, una película de Brian De Palma se proyectó en el Festival de
Cine de Nueva York, y tuvieron que cancelar la proyección porque el las
teclas eran para la zona horaria equivocada."
2. Los DCP se actualizan fácilmente. Como los DCP son un paquete de
archivos (y no un archivo grande), pueden editarse sin tener que actualizar
toda la producción. Un archivo maestro puede localizarse para docenas de
regiones. Por ejemplo, añadiendo pistas de doblaje o subtítulos como
pequeñas piezas de metadatos.
"Digamos que, en algún momento, alguien se da cuenta de que ha olvidado
acreditar al director de fotografía", dice Sergeant. En lugar de tener que
actualizar toda la película, basta con una pequeña actualización de los
metadatos.
3. Los DCP son verificables. En cuanto un DCP se copia en un servidor de
cine, se ejecuta automáticamente una validación de la suma de
comprobación SHA265 para verificar que el contenido "está en el mismo
estado en que salió del laboratorio", afirma. Esto garantiza que no se han
producido modificaciones no autorizadas.
106
¿Cómo utilizan los cines un paquete de cine digital?

Los DCP físicos se entregan a los directores/operadores de cine a la antigua
usanza: por mensajería terrestre. Patrick Chua, especialista en proyectos
digitales del proveedor de cine digital ProjecTech, dice que una vez recibidos,
los DCP físicos se conectan a través de USB o eSATA al sistema de gestión
de salas de cine (TMS) o al servidor de reproducción para su ingesta. Los
cines se encargan entonces de enviar los DCP físicos a los distribuidores,
dice Chua. "Los discos duros se reutilizan para el siguiente lote de DCP. A
menudo, esos discos duros tienen varias pegatinas de ediciones anteriores
de DCP", explica. Chua también añade que todo ese transporte puede
provocar a veces que las unidades estén dañadas o defectuosas.
Entrega de DCP por satélite y por IP

La posibilidad de que se produzcan daños es la razón por la que los cines
reciben ahora los DCP por satélite o por Internet. Además del coste y la
comodidad. Según la ISDCF, existen varios métodos actuales de entrega de
DCP. Entre ellos se encuentran el satélite, Internet y el intercambio de
archivos entre salas a través de una red segura.
La Coalición para la Distribución de Cine Digital (DCDC)-una iniciativa de
pesos pesados del sector como Warner Bros. y AMC Theatres- se encarga
de la distribución digital de la gran mayoría de los estrenos de los grandes
estudios.
¿Cómo hacer su propio paquete de cine digital?
107
Foto de Erik Witsoe en Unsplash
Puedes hacer tu propio DCP exportando a 'DCP' en Premiere Pro, Final Cut,
DaVinci Resolve, o por utilizando herramientas online gratuitas. También se
puede recurrir a una tienda profesional de DCP para obtener una mejor
calidad.
Para obtener la máxima calidad DCP posible, se recomienda empezar por
con una secuencia de imágenes DPX o TIFF (conocida como Digital Cinema
Distribution Master, o DCDM). DCDMs se convierten en DCP una vez
comprimidos, encriptados y empaquetados para su distribución.
108
Historia de la grabación digital de video
En el año 1986 Sony presenta el primer magnetoscopio que es capaz de

grabar en formato digital. Este formato recibió el nombre de D1 y la primera
máquina fabricada DVR-1000. Este formato de vídeo es capaz de grabar la
señal de vídeo digital en componentes según la norma 601 del CCIR sobre
televisión digital en formato 4:2:2. Posee 4 canales de audio de alta calidad
grabados en digital. Usa cinta en formato de casete y puede registrar hasta
90 minutos.
Gracias a su alta calidad se pueden conseguir hasta casi 20 generaciones en
multicopia. Para hacer la grabación usa un sistema de segmentación. En este
caso al ser un formato digital no se presentan los problemas que tenían otros
formatos analógicos segmentados. Ello es debido a que al ser la señal digital
se puede reconstruir con bastante facilidad y si se presentan pequeños
errores de lectura pueden ser compensados por medio de una circuitería
específica.
Con posterioridad a la salida del formato D1 aparecieron en el mercado otros
formatos de grabación digital entre ellos el D2 y D3 que realizan la grabación
en digital pero de la señal en compuesto, muestreando esta a 4 veces la
frecuencia de la subportadora de color. El formato D3 al ser compacto puede
ser configurado como camascopio. Por último como ya hemos comentado ha
aparecido en el mercado un formato que graba en componentes digitales , el
Betacam digital, que usa compresión 2:1 y que muy probablemente se
convierta en el estándar de la industria al ser poco voluminoso, poder
configurarse como camascopio, trabajar en componentes , y poseer cierta
compatibilidad con el formato Betacam SP.
Aspectos preliminares a considerar

La manera en que la señal de vídeo es registrada, comprimida y más tarde
enviada a nuestro sistema de edición, determina las posibilidades de la
postproducción.
La capacidad de extraer un buen croma o la capacidad de ejecutar un
retoque de color fino depende en gran medida de la calidad de la señal que
estemos tratando.
Cuando se trabaja en cine, el negativo se escanea a máxima calidad (2k, 4k)
y se le da salida en formatos de imagen sin pérdida, con un amplio rango
dinámico y un espacio de color logarítmico (Cineon, DPX), lo que permite que
la manipulación de estas imágenes en postproducción sea limpia, precisa y
fidedigna.
En vídeo no ocurre lo mismo pues la recogida de imágenes siempre pasa por
un "muestreo" que implica algo de pérdida y casi siempre una compresión de
la señal, a lo que hay que sumar un menor tamaño de la imagen. Todo esto
109
hace que la postproducción de vídeo sea menos precisa y hace que

tengamos que prestar la máxima atención a la degradación de la imagen
debido a temas de compresión.
Para mantener siempre al máximo las posibilidades de manipulación de la
imagen en vídeo digital debemos siempre seguir estas premisas:
1-La imágenes deben tener la máxima calidad posible que nos pueda
proporcionar la fuente de la que provengan. Hay que evitar degradar la señal
capturando en un formato inferior al que se usó para grabar.
2-Debemos procurar que las imágenes no se degeneren en ningún momento
a lo largo de la cadena de procesos aplicados en postproducción. Hay que
evitar la pérdida de generaciones y no realizar renders o recompresiones
sobre formatos ya comprimidos.
Por eso es muy importante tener claro y entender cómo funcionan los
formatos de vídeo digital, cómo registran la señal y cómo proporcionan esa
señal a nuestro sistema de edición, de manera que sepamos cómo tratarla en
cada momento.
Para ello es preciso definir los siguientes conceptos
Tipos de señal de vídeo (RGB, Componentes, S-Video, Compuesto)

Muestreo de color (4:4:4, 4:2:2, 4:2:0, 4:1:1)
Profundidad de Color o BitDepth (trabajar en 8 bits o 10 bits)
Formatos de vídeo y tipo de compresión
Muestreo de color
Los diferentes formatos de vídeo se clasifican principalmente por el tipo de
muestreo de color que utilizan. Aquí tenemos una clasificación de los
principales formato según su ratio de muestreo:
Chroma sampling ----Formatos de vídeo
----- 4:4:4 -------------->HDCAM SR, imágenes RGB generadas por ordenador

----- 4:2:2 -------------->Betacam Digital, DVC-pro 50, DVC-pro 100 (HD)
----- 4:1:1 -------------->DV, DVC-pro, DV CAM
----- 4:2:0 -------------->HDV, AVCHD
----- 3:1:1 -------------->HD CAM
Normalmente las cámaras son capaces de registrar más información de la

que luego graban. Al grabar sobre cinta, tarjeta o disco duro, la cámara
realiza una compresión en el formato que utilice, perdiendo así parte de la
información previamente registrada por el CCD.
110
Por eso no es raro encontrar producciones en las que se graba directamente

la señal que sale de la cámara. Desde una salida en componentes se
conecta la cámara a un dispositivo grabador que recoge la señal y la graba
sin compresión directamente a disco duro. Hay cámaras como por ejemplo la
Panasonic HC27 que son capaces de dar una señal 4:4:4 pero en cambio
graban en DVCpro HD que es 4:2:2.
Es seguro que si grabamos las modestas señales de nuestras pequeñas
cámaras HDVs o AVCHDs directamente a disco sin pasar por ningún
compresor, obtendremos más calidad pues estamos capturando directamente
la imagen tal como la registra el CCD.
Soluciones como las proporcionadas por el Colorspace Icon permiten
grabaciones 4:4:4 a 10 bits directamente desde cámara.
Color sampling en la práctica

El muestreo de color usado en el material con el que trabajemos es de vital
importancia a la hora de postproducir. La máxima calidad vendrá dada por un
menor muestro, es decir, formatos 4:4:4 o 4:2:2 serán los que proporcionen
un mayor rango de actuación, sobre todo cuando retocamos colores o
realizamos chromakeys.
Por ejemplo realizar un buen chromakey con material 4:2:0 (el popular HDV)
no es imposible, pero sí sumamente dificultoso pues la falta de información
de color, sobre todo en los bordes de las siluetas, nos pueden dar verdaderos
quebraderos de cabeza.
De ahí que sea muy importante elegir el formato adecuado a nuestras
producciones. Por ejemplo Si prevemos un retoque de color exhaustivo y muy
preciso o pensamos hacer un chroma, no debemos bajar de un formato 4:2:2.
Eligiendo el compresor adecuado

Así mismo a la hora de planificar nuestro flujo de trabajo, y sabiendo cuál es
el muestreo usado, debemos elegir el codec adecuado para la captura del
material, intentando no perder un ápice de su calidad inicial.
Lo lógico es mantener el codec correspondiente al formato en que se ha
grabado. Si por ejemplo capturamos en Final Cut a través de Firewire, la
captura no es más que un "trasvase" de datos digitales de la cámara a
nuestro disco duro, es decir no se produce pérdida pues es una mera copia
de información.
Si la captura la hacemos a través de otros dispositivos como tarjetas
Blackmagic o AJA contamos con algunas más opciones pues estas tarjetas
proporcionan otros tipos de codec o compresores que podemos usar. En
cualquier caso se debe respetar el muestreo original. Por ejemplo, podemos
capturar un material grabado en DVCpro HD (4:2:2) en el nuevo codec de
Apple ProRes422, que mantiene la calidad del DVCproHD y a la vez permite
111
reducir el tamaño de los datos, creando archivos mucho más pequeños y

manejables.
Por otro lado, capturar un material de inferior calidad en un formato superior
tiene poco sentido pues no vamos a tener más calidad en nuestra imagen. Si
por ejemplo hemos grabado en HDV y capturamos en un codec DVCpro HD,
siendo este último 4:2:2 y el HDV 4:2:0, sólo obtendremos un archivo de
mucho mayor tamaño, pero no con más información. Tampoco ganaremos
mucho capturando sin compresión /uncompressed.
Por el contrario, sí es aconsejable configurar la línea de tiempo o proyecto a
la mayor calidad (10bits) y mantener renders sin compresión ya que cualquier
elemento que añadamos a posteriori como gráficos, degradados, fundidos,
textos y retoques de color, se verá así beneficiados.
La profundidad de color en el vídeo digital

Si bien hemos dicho que con 8 bits por canal podemos conseguir una imagen
con una definición de color suficiente para el ojo humano, en vídeo esto no
siempre es así.
La mayoría de los formatos de vídeo digital generan imágenes de 8 bits, otros
son capaces de llegar hasta los 10 bits, proporcionando más rango dinámico
a la imagen, en concreto 1024 valores por canal, frente a los 256
proporcionados por los sistemas de 8 bits.
Bit depth--------------------------Formatos de vídeo

8 bits por componente---------> Betacam SP, DV, DVC-pro, DVC-proHD, HD
Cam, HDV
10 bits por componente-------> HDCAM SR, Betacam digital, D5, D6
Pero ¿qué nos aporta una mayor profundidad de color en vídeo si una
imagen de 8 bits es suficiente para el ojo humano? Una mayor profundidad
de color nos da un mayor rango de actuación sobre la imagen, pudiendo
ajustar mucho más los retoques de color precisos, los chromas etc... En
general la profundidad de color es beneficiosa para cualquier proceso de
postproducción sobre el material con el que trabajamos.
Breve historia de los formatos digitales1

Formato de grabación D1: es para grabación digital en video tape,
trabajando el ITU-R 601, en 4:2:2, utilizando muestreo de 8 bits. La cinta es
de 19 mm. de ancho y permite hasta 94 minutos de grabación en un casete.
Es un sistema de grabación por componentes, es ideal para estudio o
postproducción por su alta amplitud de banda de crominancia, lo que da una
adaptación cromática excelente. En D1 las generaciones múltiples son
112
posibles con muy poca degradación. El equipo D1 se puede integrar sin

transcodificar, a la mayoría de los sistemas de efectos digitales, como
telecines, dispositivos de gráficas, grabadoras de discos, etc. Por ser
componentes, no tiene requisitos de encuadre de color. D1 no tiene
compresión. Es un equipo muy utilizado en decenas de canales de televisión
en el mundo. D1 es fabricado por SONY.
Formato de grabación D2: Es el estándar de grabación para señales PAL ó

NTSC de compuesto digital (codificado). Utiliza una cinta de 19 mm. y graba
hasta 208 minutos en un sólo casete. Ni los casetes ni su formato de
grabación son compatibles con D-1. D-2 ha sido utilizado como un reemplazo
directo para los VTR's análogos de una pulgada. El usuario debe estar
consciente del color cruzado, huellas de transcodificación y amplitudes de
banda de crominancia bajas en D2. Está fabricado por SONY.
Formato de grabación D3: Es el estándar de grabación para señales PAL ó

NTSC de compuesto de valor numérico (codificado) muestreado a 8 bits. Los
casetes están disponibles para 50 y hasta 245 minutos. Como el D3 utiliza
una señal compuesta, las características son las del D2, excepto que la
medida del casete de 1/2 pulgada ha permitido una familia completa de
equipo VTR. Panasonic fábrica el formato D3. Televisa tiene como norma
pedir a los anunciantes que entreguen sus materiales en formato D3.
Formato de grabación D4: como la mayoría de los formatos de grabación

vienen de Japón, el número 4 no existe porque lo consideran de mala suerte.
Formato de grabación D5: es un formato VTR, sin compresión que utiliza el

mismo casete que el D-3, pero que graba señales de componentes
mostradas con recomendaciones ITU-R 601, con una resolución de 10 bits.
D5 goza de todos los beneficios de desempeño de D1, siendo conveniente
para postproducción de alto nivel y estudio. D5 da servicio a los estándares
comunes de 625 y 525 líneas, y también está planeado su uso para alta
definición (HD D5), con una compresión de 4 a 1. Panasonic fabrica el D5.
Formato de grabación D6: es de cinta digital. Utiliza cinta de 19 mm. de

radio de visión helicoidal para grabar material no comprimido de televisión de
alta definición a 1.88 GB/s. D6 es el único formato de grabación de alta
definición reconocido como estándar. D6 acepta tanto el formato entrelazado
europeo 1250/50, como la versión japonesa 260m del formato entrelazado
1125/60, el cual utiliza 1035 líneas activas. El D6 no acepta el formato ITU.
113
Formato de grabación D7: se asignó al formato DVCPRO, desarrollado por

Panasonic, graba en un micrón (18 milésimo de un milímetro) sobre cinta de
partícula de metal. DVCPRO utiliza compresión nativa DV a 5:1 de una fuente
mostrada de 8 bits 4:1:1. Con DVCPRO Panasonic ha alcanzado una
extraordinaria presencia en el mercado. Sus equipos han sido adoptados en
México por Televisa, TV Azteca y muchos productores independientes y
televisoras de cable.
Formato de grabación D16: es un formato para imágenes digitales de

película, haciendo uso de grabadoras D1 estándares. El esquema fue
desarrollado específicamente para manejar imágenes Domino (Óptica Digital
para películas de Quantel), y las graba sobre el espacio que ocuparían 16
imágenes digitales de 625 líneas.
DV, DVCAM, DVCPRO2

El DV
DV fue un estándar internacional para un formato de vídeo digital creado por
un consorcio de 10 compañías (Panasonic, Sony, JVC, Philips, NV, Sanyo,
Hitachi, Sharp, Thompson, Mitsubishi y Toshiba). Desde entonces otras se
han añadido, hasta las más de 60 que hoy se han adherido al consorcio.
DV, originalmente conocido como DVC (Digital Video Casete), usa una cinta
de metal evaporado de 1/4 de pulgada (6,35mm) para grabar vídeo digital de
una gran calidad. El vídeo se samplea a la misma resolución que el sistema
D1, D5 o digital Betacam (720 pixels por línea), aunque la información de
color se samplea a la mitad de resolución que el D1: 4:1:1 en NTSC (525
líneas y 4:2:0 en PAL (625 líneas).
El video sampleado se comprime usando lo que se denomina en inglés
Discrete Cosine Transform (DCT), el mismo sistema de compresión usado en
motion-JPEG. De todas maneras, el DCT del DV permite una mayor
optimización que otros compresores JPEG dentro de cada frame, permitiendo
una mayor calidad dentro del factor de compresión 5:1 que permitiría verse
en un JPEG aislado.
DV usa lo que se llama Intraframe Compression: cada frame depende
enteramente de sí mismo, y no de los datos de los frames precedentes o
siguientes. También usa la Adaptive Interfield Compression; si el
compresor detecta muy poca diferencia entre los campos (fields) de un
cuadro, los comprimirá juntos, guardando ese ahorro en proceso de bits para
mejorar la calidad. En teoría, eso significa que las imágenes con poco
movimiento o más estáticas tendrán una mayor calidad que las imágenes con
mucho movimiento; En la práctica, esto puede percibirse a veces como un
ligero grado de "blockiness" (percepción de algunas aéreas de la imagen
114
como bloques) en los alrededores de objetos en movimiento dentro de la

imagen.
La información de video en el formato DV se transporta a una velocidad de 25
megabits por segundo (Mbps). Una vez añadidos sonido, subcódigo
(incluyendo código de tiempo), Insert e información del track (ITI), y
corrección de errores, el flujo total de datos se eleva a 36Mbps.
Diferencia entre DV, DVCAM y DVCPRO

¡No mucha! El algoritmo básico de codificación es el mismo en los tres
formatos. Las secciones de VTR (Video Tape Recording, electrónica de
grabación de vídeo) de cámaras como la DVCAM DXC-D130 o la DVCPRO
AJ-D700 no grabarán una imagen mejor que una DCRVX-2000.
El formato DV (no olvidemos que se creó como un formato de consumo, no
profesional) usa tracks de 10 micrones en modo SP de grabación. Las
nuevas cámaras ofrecen un sistema LP, que incrementa el tiempo de
grabación, pero al usar tracks de 6,7 micrones hacen problemático el
intercambio de cintas entre máquinas, haciendo imposible que estas cintas se
puedan usar en magnetoscopios XVCAM o DVCPRO.
El sistema profesional DVCAM, de Sony, aumenta el tamaño de los tracks a
15 micrones (a costa de perder tiempo de grabación), para mejorar la
capacidad de intercambio de cintas entre equipos y aumentar la robustez en
la edición por inserto.
El sistema DVCPRO, de Panasonic, también aumenta el tamaño del track a
18 micrones, y usa cintas de partículas de metal para aumentar la
durabilidad. También añade un "cue track" de audio analógico, y un track de
control para mejorar las prestaciones en edición y la facilidad de uso en
sistemas de edición lineal.
El Digital8
El sistema Digital8 de Sony usa la compresión DV sobre el mecanismo de
transporte de las cintas de video8/Hi8. Digital8 graba sobre estas cintas al
doble de la velocidad (a 1,5x en PAL), reduciendo así a la mitad el tiempo de
grabación (a 2/3 del tiempo en PAL).
Digital8 también reproduce cintas de video8 y Hi8, permitiendo a las antiguas
grabaciones poder introducirse en sistemas de edición no lineal (si bien lo
harán sin código de tiempo).
Digital8 parece un esfuerzo del departamento de Sony de Video 8mm, con un
sistema híbrido que permita aprovechar la base existente de aficionados
usuarios de este sistema.
Entonces, ¿Cuán bueno es el sistema DV comparado con otros formatos?
Los sistemas DV suelen ser reconocidos como de igual o ligeramente mejor
calidad que los sistemas Betacam SP y MII en términos de calidad de imagen
115
(de todas formas, DV se mantiene mejor a lo largo de sucesivas

generaciones, mientras que Betacam SP pierde más calidad).
En una escala de 1 a 10, donde 1 apenas se considera video y 10 es lo mejor
de lo mejor, y con cierta arrogancia por mi parte, podría establecer esta
clasificación:
D-5 (10-bit uncompressed digital) 10

D-1 (8-bit uncompressed digital) 9.9
Digital Betacam, Ampex DCT 9.7
D-9 (Digital-S), DVCPRO50 9.6
DV, DVCAM, D-7 (DVCPRO), Digital8 9
MII, Betacam SP 8.9
1" Type C 8.7
3/4" SP 6.5
3/4", Hi8, SVHS 5
Video 8, Betamax 4
VHS 3
EIAJ Type 1, Fisher-Price Pixelvision 1
Grabadores digitales de disco: DDR

En los últimos meses, han aparecido en el mercado unos dispositivos muy
pequeños, que tienen un disco duro interno y nos permiten grabar
directamente desde nuestra cámara miniDV a este aparato con sólo la
conexión FireWire. Son los llamados DDR.
Uno de los mayores problemas que tienen los usuarios de cámaras
domésticas, es el almacenamiento de las imágenes en cintas miniDV. Una
vez somos felices propietarios de una videocámara, nos da por querer
grabarlo todo y no perdernos ningún detalle. Es como si quisiéramos plasmar
de por vida, todo lo que vemos y, además, en tiempo real. Una vez nos ha
bajado la euforia de darle al botón rojo de grabación, nos encontramos con
una elevada cantidad de cintas miniDV donde tenemos almacenado lo
ocurrido en la última semana.
Luego llega el otro problema; al editar esas cintas. Si tenemos un PC en casa
con una tarjeta Firewire, tan sólo tendremos que transferir esas cintas al
ordenador (si disponemos de suficiente espacio), editarlas, montarlas,
sonorizarlas y volverlas a grabar en lo que será nuestro máster. Todo este
proceso nos hará volvernos locos, debido a la cantidad de horas grabadas en
las cintas que luego tendremos que transferir “en tiempo real” al ordenador.
Con el tiempo, depuraremos nuestras técnicas de grabación y, esas
insoportables secuencias de horas y horas, se quedarán en apenas algunos
minutos; los más interesantes.
116
Pero, para aquellos que estén interesados en grabar muchas horas y no

quieran perder el tiempo de volcados al ordenador, se han desarrollado unos
dispositivos, bastante pequeños, que contienen un disco duro en su interior, y
algunas conexiones y botones externos.
Estos dispositivos, llamados DDR (Direct to Disk Recorders), suelen ser del
tamaño de un libro de bolsillo con un disco duro de 20, 40 ó 60GB, una
conexión FireWire y algunos botones para manejarlos. Nos permite
almacenar, dependiendo del tamaño del disco, más de 3 horas de video en
formato DV y su funcionamiento, aparentemente, es bastante sencillo. Tan
sólo tendremos que conectar nuestra videocámara al DDR con el cable
FireWire, pulsar un botón y ponernos a grabar. Grabaremos simultáneamente
en la cinta miniDV y en el DDR. Los discos duros de estos grabadores,
suelen tener un formateo normalizado y reconocido por ambas plataformas,
Mac y PC.
HDV11
El formato HDV está desplazando al DV como estándar de vídeo de uso
doméstico-industrial. Las videocámaras HDV pueden grabar imágenes de
hasta 1080 líneas de definición en las habituales cintas miniDV y transferirlas
al PC vía firewire para su edición con los programas de toda la vida.
La televisión en alta definición (HDTV) supone el mayor avance para la
televisión desde la aparición del color. La idea de HDTV no es nueva, y los
sistemas de HDTV llevan ya muchos años desarrollándose. Aún así parece
que todavía falta para la generalización de las emisiones HDTV.
El desarrollo de la tecnología de la HDTV digital ha simplificado tanto la
producción audiovisual en HD que ya son muchas las productoras que
trabajan en estos formatos, aún cuando la exhibición final se vaya a realizar
en definición estándar (SD). Por otro lado, la potencia de los ordenadores
domésticos actuales, les hace capaces de reproducir sin problemas
contenidos en alta definición, mientras llegan reproductores de sobremesa
compatibles con estos formatos. Prácticamente todos los codecs de uso
habitual en informática tienen una variante que soporta alguna de las
especificaciones HD. Y de la misma manera, las pantallas de ordenador se
constituyen en elementos ideales para visualizar estos contenidos. Por otro
lado, la oferta de los comercios de audio y video incluyen cada vez mayor
número de pantallas de todo tipo, LCD, TFT, plasmas o proyectores,
totalmente compatibles con las especificaciones de HD.
Solo falta facilitar la creación de contenidos HD al videoaficionado. Y para
cubrir este objetivo se ha creado HDV, un formato de video en HD que
11
Selección de artículos: Ing. Luis Felipe Tejeda (1999); Adam Wilt (www.adamwilt.com);
Antonio Moreno ( http://www.imagendv.org/hdv)
117
pretende conseguir que grabar, editar y distribuir nuestros trabajos en HD sea

tan sencillo como es en DV.
El formato HDV
Las especificaciones del estándar HDV se fijaron el 30 de septiembre de
2003 por cuatro compañías: Canon, Sharp, Sony, y Victor Company. El
concepto del estándar HDV es desarrollar una videocámara doméstica que
pueda grabar fácilmente imágenes HD de gran calidad.
El estándar HD puede usar las cintas existentes DV como soporte de
grabación, y el mecanismo de las videocámaras es el mismo que el de las
videocámaras DV, con lo que se reducen costes de desarrollo. Pero se
abandona el esquema DV, poco eficiente pero sencillo, en beneficio del
MPEG-2.
Hay cinco características que definen el formato HDV. La primera es que las
cintas utilizadas para grabar DV pueden usarse para grabar HDV, y los
tiempos de grabación son también equivalentes. La segunda característica es
la elección de MPEG-2 como formato de compresión. Se trata del mismo
formato de compresión usado para broadcast digital y DVD. Esto permite
que, manteniendo el mismo bit rate que en las grabaciones DV podamos
grabar imágenes de alta calidad HD. Para comprimir en MPEG-2 la gran
cantidad de datos HD se requiere un circuito de procesado de señal
extremadamente largo. Pero los avances en el desarrollo de semiconductores
y en la tecnología del procesado de señal permiten utilizar este estándar para
dispositivos domésticos. Como tercera característica, el formato HDV hace
uso de una capacidad de corrección de errores potenciada drásticamente.
Esto se debe a que HDV es un formato de compresión intraframe, y el
impacto en la imagen de cualquier dato perdido es mucho mayor que en DV.
En HDV se ha potenciado la tolerancia a pérdida de datos debida a dropouts.
La cuarta característica definitoria hace referencia al sonido. Este se graba en
la cinta también comprimido, pero en este caso en MPEG-1 LAYER II,
proporcionando una calidad equiparable a la de un CD.
Y para terminar de definir el formato, tenemos dos sistemas de grabación:
720p (progresivo) y 1080i, entrelazado. Cada uno de los modelos de cámaras
conformes con el estándar HDV, puede optar por uno, el otro, o ambos
sistemas de grabación. Hasta el momento, solo JVC y SONY han lanzado al
mercado videocámaras HDV. JVC fue la pionera con la GR-HD1. Pensada
para el mercado americano, consta de un solo CCD y utiliza el formato
progresivo 720p a 30 fps. No funciona a 25 fps, lo que la ha hecho poco
popular en Europa. SONY acaba de anunciar el lanzamiento de un modelo A
1080i (HDR-FX1), ha levantado una gran polvareda. CANON parece no
haberse enterado que existe esta especificación, y lanza la XL2 que aún no
118
es HD, aspecto que critican sus incondicionales. No tenemos ninguna noticia

de las intenciones de SHARP.
Modos de grabación HDV

Usando las cintas convencionales DV, disponemos de distintos modos HDV:
Especificación 720p: 720/25p, 720/30p, 720/50p y 720/60p Especificación
1080i: 1080/50i y 1080/60i No todos los modos están disponibles en todos los
modelos de videocámaras.
9.4.3 - Datos HDV
El número de pixeles de cada formato es 1440×1080 (1080i) y 1280×720
(720p) La relación de aspecto de las imágenes es de 16:9 y la frecuencia de
muestreo es 4:2:0. La cuantificación es de 8 bits. La compresión de video es
MPEG-2, resultando un flujo de datos de 25 Mbps en 1080i y de 19 Mbps en
720p. El audio se comprime en MPEG-1 Audio Layer II, estéreo, a una
frecuencia de muestreo de 48 Khz y 16 bits. El flujo de datos tras la
compresión es de 384 Kbps.
Atomos Ninja V 👉 Así es como la Sony A7S III graba vídeo en RAW
119
10 - Una explicación de Raw, Log y Vídeo Descomprimido12
Una de las preguntas más frecuentes que se nos realiza es «¿Cuál es la

diferencia entre vídeo descomprimido, raw y grabación en log?» Con tantas
cámaras en el mercado que ofrecen formatos de grabación tan distintos y la
popularidad de grabadores externos, no es difícil explicar por qué estas
preguntas. Recientemente me preguntaron si grabar en Log era como grabar
en Raw. Una respuesta breve es «Sí y no», lo cual se que no es totalmente
claro. La grabación en Raw es muy diferente a Log, pero tienen aplicaciones
similares. Para realmente responder a la pregunta y para entender la
diferencia real entre todos estos formatos, necesitamos un poco de
antecedentes. La Alexa de Arri es única en el sentido de que puede generar
Raw, descomprimido y grabar en formato Log, así que usare esa cámara
como ejemplo a lo largo de este artículo, iniciemos con Raw, el cual está en
primer lugar por muchas razones.
10.1 - Raw (crudo) como el Sushi

La idea de grabación en Raw para películas no era popular hasta que
apareció la cámara Red One hace unos años. Red trajo la idea de grabar en
Raw a las masas, aunque no fueron los primeros. Tanto Arri como Dalsa
tenían cámaras que podían transmitir los datos en Raw directamente desde
12
Andy Shipsides es un especialista en tecnología de cámaras en N.Y. en el departamento de
capacitación de Abel Cine. Para conocer más acerca de Abel Cine, visita training.abelcine.com.
Artículo publicado con autorización del Autor y de Abel Cine, traducido al español por CineDigital.tv.
https://www.cinedigital.tv/una-explicacion-de-los-formatos-raw-log-y-video-descomprimido/.
21/05/2012
120
el sensor. Las grabadoras en Raw no eran comunes en los sets, así que
debemos reconocer a Red por popularizar la grabación en Raw en el negocio
de las películas.
Así que ¿qué es Raw?, de una forma sencilla, son los datos obtenidos
directamente del sensor antes de realizar cualquier proceso en la imagen. En
una cámara de un sólo sensor, como la Alexa, el color se produce filtrando
cada fotosito o píxel para producir valores rojo, verde o azul. El patrón de
color de estos fotositos más usado es el patrón de Bayer, inventado por el Dr.
Bryce E. Bayer en Kodak. Los datos en Raw en la cámara representan el
valor de cada fotosito. Debido a que cada píxel contiene un solo valor, la
imagen en Raw no puede ser vista en un monitor de manera adecuada. En
una señal de vídeo que podemos ver en un monitor, cada pixel contiene
información tanto de color como de brillo, el vídeo puede decirle a cada pixel
en un monitor tanto su brillo como su color. Esto significa que Raw no es
vídeo, el Raw tiene que ser convertido a vídeo para poder ser visto. Esto
normalmente se hace a través de un proceso llamado De-Bayer, que
determina tanto el color como el brillo de cada píxel en tu imagen. La
conversión de la información Raw a video puede tomar mucho tiempo en la
post-producción, aunque hay muchas herramientas que lo hacen de forma
adecuada y sin mayor problema. La ventaja de la grabación en Raw es que
ninguno de los procesos de conversión a vídeo ha sido fijado en la imagen. El
sensor transmite exactamente lo que ve, sin ajustes de balance de blancos,
ISO o ajustes de color. Esto junto con un bitrate alto, permite una gran
flexibilidad para hacer ajustes en post.
Todas las cámaras tienen un paso Raw en el proceso de la captura de la
imagen. La información del sensor siempre se recopila antes de convertirse
en vídeo, pero no todas las cámaras permiten grabar esos datos. Las
cámaras de Red graban exclusivamente los datos en Raw. La Sony F65
puede grabar tanto en Raw como en Vídeo HD y la Alexa de Arri puede
transmitir la información en Raw a través de una conexión SDI mientras
graba vídeo de manera interna al mismo tiempo. Estas cámaras convierten
los datos en Raw a vídeo de manera simultánea para efectos de monitoreo y
la Alexa agrega la posibilidad de darle salida a la información Raw de modo
simultáneo.
Así que si los datos en Raw son la información real del sensor, eso significa
que es descomprimido? Aquí es donde empieza la confusión.
10.2 - ¿Qué tan descomprimido es?

Los datos en Raw no necesariamente son descomprimidos. De hecho
normalmente están comprimidos. Las cámaras de Red graban en formato
Redcode, que tiene opciones de compresión de 3:1 hasta 18:1. De la misma
manera la Sony F65 tiene opciones de compresión 3:1 y 6:1 en el modo
121
F65Raw. Los datos en Raw son comprimidos de la misma forma que el vídeo
tradicional se comprime y el proceso tiene algo de efecto en la calidad de
imagen. La forma en la que se muestra en el producto final puede ser muy
difícil de detectar y las opciones con menos compresión en estas cámaras se
consideran lossless (poca o nula pérdida de calidad). Del otro lado la Alexa
permite la salida de los datos en Raw descomprimidos, lo cual puede ser
grabado de forma externa y esto sería lo más cercano a una señal realmente
descomprimida.
¿Así que cual es el vídeo descomprimido? El término «descomprimido»
obviamente implica la falta de compresión, pero no es muy claro lo que
realmente significa en términos de vídeo. Como lo mencionamos con
anterioridad, el vídeo se deriva de los datos en Raw de un sensor sencillo o
algo como un bloque de 3 CCD y normalmente algo se pierde en el camino.
Los datos en Raw normalmente tienen una profundidad de bits muy alta,
generalmente entre 12 y 16 bits, pero el vídeo generalmente tiene una
profundidad de bits reducida. Adicionalmente la información del color también
se reduce, de 4:4:4 a 4:2:2. Entonces, ¿La salida HD-SDI no está
comprimida? Bueno, en teoría está descomprimida en el sentido de que no
se ha aplicado un block, wavelet o compresión temporal aplicado. Por lo tanto
podemos llamarlo vídeo descomprimido de 10 bit 4:2:2 y es mejor que el
vídeo comprimido?
La Alexa puede transmitir vídeo descomprimido en su salida HD-SDI, ya sea
en 10-bit 4:2:2 ( a través de un Single-Link HD-SDI) o 10-bit 4:4:4 (a través de
Dual-Link HD-SDI). Pero de forma inexplicable, la cámara puede grabar de
forma interna en 12-bit 4:4:4 en ProRes, pero el HD-SDI estándar solo acepta
10-bit. En este caso, la salida descomprimida es más limitada en cuanto a la
profundidad de bits, porque Arri está conformando la señal a los estándares.
10.3 - ¿Pero si Raw es Raw y vídeo es vídeo, entonces que es grabación

en log?
Las nuevas cámaras de Sony, Canon y Arri tienen un modo de grabación en
Log. Cuando los modos log están activados, la imagen se vuelve plana y
encerrada, pero la puedes ver en un monitor. Esto debe darte la clave en
cuanto a que la grabación en Log es una grabación en vídeo en el sentido de
que todos los pixeles muestran la información del color y del brillo. Log no es
Raw, es vídeo. Pero, es una manera especial de capturar que maximiza el
rango tonal del sensor.
La idea de grabar en Log apareció con el sistema Cineon de Kodak para
escanear film. El sistema escaneaba el film a un formato Log que
correspondía la densidad del film original. Esto maximiza la información del
film que puede ser almacenada en el formato de vídeo. Debido a que esta
información tiene muchas tonalidades de gris con muy poco contraste, esta
122
imagen tiene que ser corregida para verse de manera adecuada en un

monitor.
Sony, Canon y Arri han tomado la idea del escaneo en Log y la aplicaron en
sus sensores. Ellos mapean una curva de gamma «Log» que logra tomar la
mayor cantidad de información de sus sensores. Sony le llama a su mapa
S-Log, Canon le llama Canon Log y Arri LogC. Cada una de ellas está
diseñada para una cámara específica, pero todos tienen un resultado similar.
Debido a que Log es una imagen vídeo, la manipulación del balance de
blancos o el ISO no es posible, ya que se encuentran incrustados en el
formato. La transformación de estos datos de vídeo, llamados lookup table
(LUT), es requerida para poder ver la imagen de manera adecuada, lo que
hace que el vídeo se vea más «normal». Un LUT estándar convierte el vídeo
en Log a un vídeo estándar HD (Rec. 709).
La Alexa convierte sus datos Raw a vídeo en LogC, esta información puede
ser grabada o enviada a través de HD-SDI. Un LUT puede ser aplicado para
visualización y también puede ser grabado si se desea. Debido a lo anterior,
cualquier paso en la cadena, Raw, LogC o vídeo estándar puede ser
grabado.
10.4 - Conclusiones
Así que regresando a la pregunta original ¿Grabar en Log es como grabar en
Raw?. La respuesta sigue siendo «si y no». Esperamos que ahora puedas
ver por qué. Raw no es log, porque Log está en un formato de vídeo y Raw
no es vídeo. Los datos en Raw no tienen ningún proceso horneado y tiene
que ser convertido a vídeo para poder ser visualizado. Log es vídeo y tiene
factores como el balance de blancos fijo. Son muy diferentes entre sí, pero
ambos han sido diseñados para obtener la mayor información del sensor.
Raw toma todo lo que el sensor puede ofrecer, de la misma forma las curvas
en Log han sido diseñadas para obtener el mayor rango tonal del sensor.
Aunque son formatos completamente diferentes, tienen la misma aplicación.
Ambos Raw y Log pueden ser descomprimidos, pero eso depende del
dispositivo de grabación. Estos términos y muchos más se han convertido en
parte de nuestro vocabulario en este mundo del cine digital. Esperamos que
este artículo los ayude a entender estos términos de una mejor manera.
Curvas de gamma
123
Con las curvas de gamma logarítmicas se obtienen imágenes de mayor

calidad. Se evita la sobreexposición de las altas luces y la pérdida de detalle
en las sombras. Pero es necesario un proceso de postproducción y
corrección de color hasta alcanzar el aspecto definitivo de las imágenes.
Las cámaras pueden utilizar tres tipos de curvas de gamma:
- Gamma logarítmica. Es una curva gamma que optimiza el rango dinámico.
Genera una imagen más lavada que requerirá un proceso posterior de
corrección de color. Se utiliza en grabación de imágenes de alta calidad: cine,
ficción televisiva, publicidad, etc.
- Gamma corregida (generalmente 2.4 ó 2.2). Es como funciona la gamma
‘Rec.709’. Genera un contraste adecuado para la visualización final. Se
consigue menos rango dinámico pero el material sale de la cámara con un
look más definitivo. Se utiliza en producciones en donde no está prevista la
corrección de color en postproducción: televisión de flujo, reportajes
informativos, directos, etc.
- Gamma lineal (1.0). Recoge directamente la información que genera el
sensor. Se utiliza en los formatos RAW y en flujos de trabajo avanzados como
efectos visuales (VFX) o producciones en espacios de color más amplios
como ACES.
En la siguiente figura se muestra la forma de estos tres tipos de curva de
gamma.
¿Cómo trabaja un director de fotografía con un colorista de cine?

(filmschoolrejects.com)
124
11. Edición y Postproducción en Video
11.1 EL CONCEPTO DE OFF LINE Y ON LINE
Históricamente, el concepto de off line y on line estuvo ligado a la

televisión, particularmente en sus emisiones en vivo. En la mayoría de los
textos que lo citan, el alcance de su significado está limitado a este ámbito.
Esta versión “clásica” del concepto es por muchos de nosotros conocida y se
refiere a cuando una toma, el plano de una de las cámaras, o parte del
programa en sí, está lista para ser enviada al aire (on line); o bien se está
produciendo en forma de un “previo” para previsualizar su resultado (offline).
En ese ámbito específico, poco han cambiado esos términos. En la
emisión en vivo de un programa, el director cuenta con la posibilidad de
“probar” fuera de línea (en previo u off line) el plano de una cámara, el
fundido o cortinilla entre dos de ellas, la superposición de gráfica sobre la
imagen, etc13. Esta es una herramienta muy útil en las emisiones en vivo ya
que evita desagradables ajustes de último momento estando “al aire”.
Justamente, todo lo que está saliendo al aire, se dice que está on line.
Pero nos encontramos con la novedad de que, como en muchos otros
campos, este concepto se ha expandido a ámbitos vecinos.
En la edición, el concepto de off line y on line mantiene el espíritu de
su significado, aunque en la práctica difiere sustancialmente de su utilización
en televisión. Se entiende por off line en edición, a lo que está siendo editado
como un “borrador”, aquello que no tiene como finalidad ser un producto
terminado sino una práctica, un previo. Y se entiende por on line en edición a
lo que está siendo editado para ser el producto definitivo, que saldrá al aire o
será empaquetado14 para su distribución y exhibición.
¿Para qué necesitamos hacer una edición off line? ¿No es hacer el
doble de trabajo?
Estas preguntas son casi imposibles de evitar para quien aún no ha
tenido práctica suficiente en edición profesional de materiales tipo broadcast.
Y es sumamente lógico hacerse esas preguntas.
Pero tengamos en cuenta que en la producción profesional de video y
televisión (aunque aplicable al cine con más razón aún), se está trabajando
con materiales cuyo costo de montaje son sumamente elevados y hay que
maximizar la eficiencia en la utilización del tiempo de isla de edición.
Es entonces cuando aparece un parámetro sumamente vinculado al
concepto de edición off line y on line: el costo. Si bien en televisión el off line
puede ahorrar errores o imperfecciones, en la edición, el off line ahorra
dinero.
¿Cómo funciona esto del ahorro? Bien, no es una fórmula mágica ni
mucho menos infalible, pero básicamente funciona así: el material en bruto,
grabado en un formato de buena calidad y alto costo, es “bajado”15 a otro
13
En el switcher, mezclador de video que utiliza para “ponchar” (seleccionar) la cámara que está al
aire, tiene una hilera paralela de botones donde puede “practicar” estos cambios de planos o efectos y
solo ser visualizados en su monitor, antes de hacerlos en la hilera de botones que manda la señal al aire.
14
Ya sea en video o en otro soporte analógico o digital.
15
Por copiado (en islas lineales) o por una mayor compresión digital (en islas no lineales).
125
formato de menor calidad y costo, y la edición off line se hace en este

segundo formato, en islas de edición obviamente más baratas de las que
necesita el formato original. Cuando la edición off line está finalizada y el
material cuenta con la aprobación del director y el productor (y cualquier otro
cuya opinión tenga injerencia en la decisión final), se realiza la edición on line
con el material original tomando como referencia directa lo que se hizo en el
offline, por supuesto en mucho menos tiempo y con un ahorro sustancial de
dinero, ya que todas las pruebas y las re-ediciones se hicieron en una isla
mucho más barata.
Cabe la aclaración en este punto de una confusión sumamente común
en los que recién se acercan a estos términos. Mucha gente confunde edición
off line con edición no lineal y edición on line con edición lineal. No es lo
mismo y no debe ser usado bajo ningún punto de vista como sinónimos. Off
line y on line tiene que ver, como ya hemos dicho, con lo que está en
“borrador” y lo que es definitivo. En cambio no lineal y lineal tiene que ver con
si una isla es analógica o digital y con la forma de edición que cada una de
ellas conlleva.
Tampoco debe confundirse el término off line con “montaje grueso”, ya
que justamente es en el off line donde el montaje debe quedar perfectamente
definido con las tomas en menor calidad, para poder recrearlo en el on line
con las tomas originales.
Fig : El proceso de la Posproducción – Offline
126
Fig : El proceso de la Posproducción – Online
11.2 CÓDIGO DE TIEMPO (TIME CODE) Y LISTA DE DECISIONES DE

EDICIÓN (EDL)
El código de tiempo es la identificación de cada cuadro de video

grabado en un soporte (casete, disco rígido, etc.), un sistema de
direccionamiento absoluto. Sirve para nombrarlo, ubicarlo y seleccionarlo
unívocamente. Es una herramienta muy útil en todas las etapas de la
producción en video, particularmente en la edición.
El antecedente del código de tiempo es el “Pietaje16” de la cinta de 16
o 35mm de cine, en la que viene impresa la cantidad de pies y sirve como
referencia para el corte de negativo.
Fig : Pietaje de una cinta de 16mm
Existen dos tipos de código de tiempo: el grabado en la señal de video

y el de referencia. Este último, denominado CTL por “Control Lineal de
Acarreo”17, es solo una medida calculada por el paso de la cinta en los
16
Footage
17
Control Tracking Lineal
127
rodillos y es el que usualmente se puede ver en las (actualmente casi en

desuso) caseteras hogareñas de VHS o en las cámaras hogareñas de VHS y
S-VHS. Las antiguas “vueltas” fueron reemplazadas por una ubicación
temporal, pero sin embargo solo sigue siendo de referencia pues depende de
muchos factores (temperatura, estiramiento de la cinta, velocidad de
grabación y reproducción, etc.). No se puede usar unívocamente pues, como
dijimos, es variable.
En cambio el código de tiempo que se graba junto con la señal de
video al momento de registrar la toma, permanece inalterable mientras la
señal de video permanezca en el casete. Entonces, para cada cuadro de
video le corresponde un y solo un número de código de tiempo. Este tipo de
código de tiempo se encuentra en todos los formatos profesionales de video
analógico y en todos los formatos de video digitales (profesionales y
hogareños).
El formato más común es el de la SMPTE18 y cuenta con dos dígitos
para las horas, minutos, segundos y cuadros (HH:MM:SS:CC)19. Por lo tanto,
como habrán podido suponer, habrá una repetición de código de tiempo solo
si se graba más de veinticuatro horas en una misma cinta, lo que es
sumamente improbable.
Existen dos métodos de grabar el código de tiempo en la cinta de
video. El LTC, por “Código de Tiempo Lineal”20, se graba en la pista de audio
2 o en la pista de datos (CUE), dependiendo el formato de video y el
equipamiento. Esta fue la primera forma de grabar el código de tiempo en la
cinta, pero rápidamente se descubrieron ciertos problemas en su utilización.
Cuando se adelanta o retrocede rápidamente la cinta, la reproductora es
incapaz de leer el LTC, por lo que se pierde de vista la numeración, lo que
dificulta la búsqueda de las tomas.
Para solucionar ese inconveniente, se inventó el VITC, por “Código de
Tiempo del Intervalo Vertical”21. Este código de tiempo se graba en el
intervalo vertical entre campos que graba la señal de video en cada cuadro,
cuando está en la zona invisible del mismo, por lo que no afecta a la imagen
visible. Es decir, en otras palabras, el VITC está grabado en la misma pista
de la imagen; por lo que, si la reproductora es capaz de leer la imagen,
también puede leer el VITC.
En la actualidad, todos los formatos profesionales utilizan el VITC, por
lo que de ahora en más mencionaremos solo este. Salvo en donde se
indique, todo lo que sigue es aplicable también al LTC, no así al TCL.
El VITC nos servirá en la etapa de visionado de tomas para su
selección, ya que las podremos ubicar según su claqueta y código de tiempo.
Por ejemplo:
Escena/Toma Descripción Casete VITC

E56 T127 R2 PG de la ciudad 2 00:56:22:12
E56 T127 R3 PG de la ciudad 2 00:58:25:20
18
Society of Motion Pictures and Television Engineers
19
HH:MM:SS:FF es la nomenclatura más común ya que “cuadros” en ingles es “frames”.
20
Linear Time Code
21
Vertical Interval Time Code
128
E56 T133 R0 Trav. sobre edificios 2 01:00:55:05
De esta forma, cuando las tomas sean seleccionadas para la edición,

sabremos exactamente en qué casete está y dónde comienza cada una de
ellas.
Pero la real importancia del VITC está en la etapa de edición. Es aquí
donde es necesario identificar cada uno de los cuadros, ya que es
información fundamental para el proceso off line y on line. Tener esa
información, ya sea electrónica o manual (escrita por nosotros en el
visionado) nos facilitará enormemente la edición del material.
Cada punto de corte se puede definir mediante dos números de VITC:
el cuadro de salida de una toma y el de inicio (o entrada) de la siguiente.
Cada vez que se ejecuta un corte o una transición, automáticamente se
puede crear una nomenclatura para esa operación que luego nos facilite
realizarla de nuevo exactamente igual. A la lista de operaciones realizadas en
una edición se la conoce como Lista de Decisiones de Edición (EDL)22 y es
una herramienta fundamental en una producción profesional de video.
Una EDL se verá entonces más o menos así, dependiendo del sistema
en donde fue creada:
Event Caset Pista Efect Duraci Reprod. Reprod. Grabad. Grabad.

o e o ón Ent. Sal. Ent. Sal.
01 002 V C 02:56:11:0 02:56:48:01 01:36:51:11 01:37:28:11
1
02 002 AA / FE 005 02:08:52:0 02:09:03:08 01:37:28:11 01:37:39:19
V 0
03 005 AA / C 00:05:33:1 00:05:35:00 01:37:39:19 01:37:41:04
V 5
Noten que los tiempos de VITC de la grabadora son consecutivos,

cosa lógica si se piensa que las tomas se están pegando una detrás de otra
para tener el producto editado.
En la EDL también se anota qué pista está siendo copiada (audio,
video o ambas) y si hay algún efecto de transición como el Fundido
Encadenado y de cuántos cuadros es el efecto.
Para realizar de nuevo la edición solo nos interesan los valores de
VITC de la reproductora, ya que estos nos indican qué tomas fueron
utilizadas y la información precisa e inequívoca de los cuadros de entrada y
salida. Los valores de VITC de la grabadora nos interesan si hay que alterar o
suprimir alguna toma en el mismo casete que se realizó la edición de esta
EDL.
11.3 ISLAS DE EDICIÓN LINEALES
22
Editing Decision List
129
Se llama de esta forma al equipamiento de carácter analógico23 que

sirve para editar (o montar) video. Al ser equipamientos analógicos, la edición
se realiza por copiado de la señal analógica de video de un casete a otro.
La configuración mínima de una isla analógica es aquella en donde se
usan dos caseteras de video: una reproductora (PLAYER) y otra grabadora
(RECORDER24). La señal de video se traslada por cables desde la salida de
la reproductora hasta la entrada de la grabadora. Esta señal puede ser video
compuesto, separado o por componentes, dependiendo del equipamiento
utilizado y el formato de video del mismo. La forma en que se realiza la
edición en esta configuración es tan simple como poner a grabar la grabadora
y reproducir en la reproductora lo que queremos grabar. Luego se pone en
pausa la grabadora, se busca en la reproductora la toma siguiente (o lo que
queramos grabar a continuación) y se repite el proceso. Por supuesto, esta
forma tiene muchísimas dificultades de operación, como por ejemplo la
precisión del punto de corte.
Fig : Isla de Edición Analógica Panasonic para S-VHS
11.3.1 Control de edición

Para mejorar la precisión del punto de corte se desarrolló un aparato
denominado control de edición (EDITING CONTROLLER). La única función
de este aparato es sincronizar ambas caseteras para que el punto de corte
sea tan preciso como uno o dos cuadros. Es una especie de control remoto
que garantiza que la grabadora empiece a grabar justo cuando se está
reproduciendo el cuadro elegido para el corte. Pero la señal de video no pasa
a través del control de edición, es copiada directamente desde la
reproductora hacia la grabadora.
23
Actualmente hay islas de edición lineal de formatos digitales. Ver 1.5
24
Se usan los términos en ingles pues el lector los encontrará en la mayoría de los equipamientos que
utilice.
130
Fig : Control de Edición – Detalle de teclado para ingreso de datos y jog &
shuttle
11.3.2 Mezclador de video

A esta configuración se le agregó con el tiempo un mezclador de video
(MIXER o SWITCHER25) cuya finalidad es ejecutar alguna clase de efecto
con la imagen antes de ser grabada. Es decir, la señal de video sale de la
reproductora, pasa a través del mezclador donde es procesada y luego llega
a la grabadora.
En sus comienzos, estos mezcladores también eran analógicos, pero
como tales sus posibilidades eran sumamente limitadas. Con el advenimiento
de la tecnología digital, los mezcladores se hicieron digitales y comenzaron a
ofrecer una amplia gama de posibilidades para la edición, tanto en lo que a
efectos de imagen se refiere (alterar o suprimir el croma, pixelar, solarizar,
etc.) como en los efectos de transición de una toma a otra (fundidos y
cortinillas).
Esta situación debe ser considerada, ya que al ser el mezclador digital,
la señal analógica que sale de la reproductora es convertida a señal digital
para ser procesada, con todo lo que ello implica; luego, es convertida a señal
analógica nuevamente para ser transportada hasta la grabadora.
Dependiendo de la calidad del equipo, esta doble conversión puede mantener
o no la calidad de la señal original, por lo que es muy importante tener en
cuenta este aspecto.
25
Switcher es un término de la televisión pues sirve para “cambiar” entre los planos de las diferentes
cámaras.
131
Fig : Mixer de Video Panasonic
Fig: Detalle del Remo y de la Botonera de Switcher
11.3.3 Islas A Roll

El nombre proviene de la edición de cine en moviola cuando esta se
realiza sobre un solo rollo de película. En la edición de video, lo que significa
es que la configuración de esta isla posee solo una reproductora.
Es esencial que para esta configuración se cuente con un mezclador
de video digital que tenga la función de congelado de la imagen de la fuente
(en este caso la reproductora).
Entonces, la configuración de una isla A Roll es la siguiente:
● 1 Reproductora
● 1 Grabadora
● 1 Control de Edición
● 1 Mezclador de video digital (con congelado)
● 1 Titulador (optativo)
La edición A Roll consiste en congelar el último cuadro del primer

segmento de video para usarlo como base para fundirlo con el segundo
segmento de video. De esta forma se pueden usar fundidos encadenados y
cortinillas teniendo solo una fuente de video (la reproductora).
Se visualiza el segmento de video que se quiere grabar y se elige de
antemano el punto de corte de salida (OUT POINT). Cuando se está
grabando el segmento, al llegar a ese punto se congela mediante el
132
mezclador y se para la grabación. Se busca el próximo segmento a grabar en

la reproductora y se elige el punto de inicio (IN POINT). Cuando se produce
la grabación y el control de edición nos marca el cuadro de inicio, fundimos el
cuadro congelado con la nueva señal proveniente de la reproductora.
11.3.4 Islas A/B Roll

El nombre proviene también de la edición de cine en moviola, cuando
esta se realiza con dos rollos de película. En la edición de video significa que
se cuenta con dos fuentes de video, ya sean dos reproductoras, o una
reproductora y una cámara en vivo, dos cámaras en vivo etc.
En esta configuración no es necesario que el mezclador tenga
congelado de imagen, pero si es imprescindible que el controlador de video
pueda controlar tres caseteras. Estos controladores son mucho más
sofisticados y algunos pueden ser programables (como lo veremos en el
siguiente apartado).
Entonces, la configuración de una isla A/B Roll es la siguiente:
● 2 Reproductoras
● 1 Grabadora
● 1 Control de Edición para 3 caseteras
● 1 Mezclador de video analógico o digital
● 1 Titulador (optativo)
La edición A/B Roll consiste en fundir el final del primer segmento de

video de la reproductora A con el principio del segundo segmento de video de
la reproductora B, y el final de este con el principio del siguiente en la
reproductora A y así sucesivamente. Por supuesto, además de fundidos
encadenados podemos hacer cualquier efecto de transición que nuestro
mezclador nos permita.
Pero, ¿cuáles son las dificultades de este tipo de edición? Las dos
principales pueden ser:
1- El material grabado originalmente en cámara deberá ser copiado en
dos casetes distintos que serán usados como fuente de video en la edición
para poder mezclar las tomas. Esto conlleva una pérdida de calidad de una
generación si el formato original es analógico. 26
2- Los puntos de inicio y final de cada fundido deben estar
perfectamente estudiados y el control de edición tiene que tener una
precisión de un cuadro, ya que las tomas deben ser cortadas y pegadas con
sí mismas para poder realizar el siguiente fundido. Es decir, no se puede
fundir una con otra y esta con la siguiente sin cortar la edición, ya que
debemos tener tiempo de buscar en las reproductoras las tomas siguientes.
Este último problema se soluciona con un control de edición
programable.
11.3.5 Islas programables
26
En caso de que el formato original sea digital, este procedimiento no supondría una pérdida de
calidad. Ver 1.5
133
La última evolución en islas de edición lineal es la capacidad de

programar la edición en el controlador y dejar que la isla realice las
operaciones programadas por su cuenta, sin intervención del operador. Esto
es un gran adelanto, ya que hace realmente la diferencia al abaratar costos
de edición, mucho más si se tomó la precaución de realizar previamente una
edición off line. Para editar en estas islas es indispensable que el formato de
video utilizado soporte VITC o LTC.
Cada uno de los pasos de la edición se llama evento (EVENT) y se
programa con los códigos de tiempo de ambas reproductoras y de la
grabadora. En los controles de edición más comunes se pueden programar
hasta 99 eventos, pero los hay posibles de programar muchos más. En
algunos casos se pueden programar hasta el tipo de transición que se usará
en cada corte.
Los controles de edición más profesionales son capaces de leer Listas
de Decisión de Edición (EDL) desde un disco removible y directamente
“copiar” lo que previamente se hizo en la edición off line.
11.4 ISLAS DE EDICIÓN NO LINEALES

Básicamente, una isla de edición no lineal (o digital, en la jerga
profesional) es una computadora. Es decir, un grupo de componentes
electrónicos (hardware) y un grupo de programas (software), trabajando bajo
las órdenes de un operador (editor) para realizar la edición de video.
Fig : Isla de Edición No Lineal
A diferencia de las islas analógicas, la edición no se realiza por

copiado de la señal de video, sino que esta señal analógica se convierte en
una señal digital, y como tal es procesada por la computadora, para luego ser
convertida nuevamente en señal analógica de video y ser grabada en una
cinta. Una de las diferencias fundamentales de este tipo de edición radica en
que este último paso del proceso no es llevado a cabo en el momento de la
134
edición, sino que pueden pasar días, incluso años, desde que el video es
editado hasta que se lo copia a una cinta definitiva.
El hardware necesario para una isla de edición es similar al de una
computadora personal: un CPU27, un monitor, un teclado y un mouse. Dentro
del CPU se encuentran la placa madre, la placa de audio, la placa de video
que controla el monitor y el disco rígido. Para que esta computadora sea una
isla de edición digital para formatos analógicos, es imprescindible que cuente
con una placa capturadora de video28, capaz de realizar la conversión
analógica digital y viceversa. Esta placa tiene conexiones de entrada y salida
de video (analógicas y/o digitales) para ser conectada a las caseteras
reproductoras y grabadoras. Para formatos digitales, es posible capturar el
material solo por conexión de datos (Firewire, USB, Card Reader, etc).
Con respecto al software, o programas necesarios para la edición, la
computadora debe contar con un sistema operativo (WINDOWS, MAC OS,
LINUX, etc) y un programa para editar video (Premiere, Final Cut, Edius,
Vegas, Avid, etc29), además de los que eventualmente se necesitan para
procesar el audio, la gráfica y los efectos especiales.
El primer paso para la edición de video digital es la captura de video.
Para video analógico, se debe conectar la fuente de videocasetera, cámara,
etc a la placa capturadora de la isla. La señal de video analógica proveniente
de la fuente, es convertida en señal digital de video por la placa y luego, en
caso de que el formato lo requiera, es comprimida para ser almacenada
magnéticamente en el disco rígido. Una vez allí, los programas de edición
pueden acceder a estas tomas de video y procesarlas según la necesidad del
editor. Para formatos de video digital, la captura se realiza por conexión de
datos, ya sea por Firewire, USB o Card Reader (Lector de Tarjetas). De esta
forma, la información digital pasa de la cámara o la casetera, directamente al
disco rígido.
Los programas de edición digital suelen tener un entorno gráfico que
facilita las operaciones de edición, ya que podemos “ver” las tomas de video
como si se trataran de fotogramas de película. A estas tomas, que en la jerga
se las conoce como “clips”, se las puede recortar, mover, pegar, separar,
alargar, acortar, ralentizar o acelerar.
Es importante comprender que la información de las tomas de
video permanece inalterada en el disco rígido. El programa solo realiza
una serie de operaciones con los datos de esas tomas y construye, para sí
mismo, una EDL. Es decir, la edición no se realiza efectivamente sino que se
realiza de forma “virtual”, en el cerebro digital de la computadora; pero la
información grabada en el disco permanece tal como se guardó en el
momento de la captura. Es por esto que resulta extremadamente sencillo
hacer y rehacer cuantas veces queramos la edición, sin alterar la calidad del
material con el que estamos trabajando.
Cuando la edición está concluida, se conecta la placa capturadora de
la isla con la casetera grabadora y se reproduce el video desde la
27
Central Processing Unit, o Unidad Central de Procesamiento
28
No debe confundirse con la placa de video que controla el monitor
29
Entre los programas semi profesionales más difundidos. Los sistemas profesionales tienen software
específico de cada marca.
135
computadora. La señal digital que sale del disco rígido (según el orden de
tomas de la EDL del programa), es descomprimida y convertida nuevamente
en señal analógica por la placa y es grabada por la casetera, obteniendo así
el video editado.
11.4.1 Islas digitales hogareñas

Desde el año 1996 aproximadamente, las islas de edición digital
hogareñas han irrumpido en el ámbito audiovisual argentino, llegando a una
explosión durante el año 2001. Luego de la crisis del 2001-2002, lentamente
el mercado se ha recuperado, volviendo a alcanzar su apogeo a finales del
2007. La gran cantidad de islas de edición hogareñas ha dado origen a un
mercado cada vez más competitivo en la oferta de edición digital. La calidad
técnica del hardware ha tendido a equipararse, aunque todavía hay varias
opciones a la que el interesado puede recurrir.
Ahora haremos una breve descripción de lo que hay que tener en
cuenta a la hora de pensar en un hardware para editar.30
a) Placa Madre: también conocida por su nombre en inglés

motherboard, es el sistema nervioso central de una
computadora. Para computadoras hogareñas IBM compatible31,
hay dos chips que dominan el mercado: el chip INTEL y el chip
VIA, ambos de prestaciones muy similares y recomendables.
Este chip contiene la BIOS, la información más primitiva de la
computadora, algo así como los “instintos naturales” de la
máquina. En la placa madre se encuentran dos dispositivos
fundamentales para el buen funcionamiento de una
computadora: el microprocesador y la memoria temporal (RAM).
Para equipar una isla de edición digital hogareña es
recomendable que la Placa Madre sea de muy buena calidad y
marca reconocida. Para abaratar costos, algunas motherboards
vienen de fábrica con dispositivos de videos, llamados
ONBOARD por estar en la placa madre.
30
Tomando como referencia lo que existe en el mercado a Julio del 2010
31
De ahora en más nos dedicaremos, salvo que se indique, a las computadoras IBM compatible, ya que
las MAC de Apple vienen preconfiguradas de fábrica y cumplen ciertos estándares que las hace ser
pensadas como un todo y no como la suma de partes como las PC
136
Fig: Placa madre Asus (imagen del sitio web)
b) El Microprocesador: es el cerebro de la computadora y como

su nombre lo indica es pequeño y se dedica al procesamiento
de la información. Hay dos compañías que dominan hoy en día
el mercado de las hogareñas: INTEL, con su series i5, i7 e i9; y
AMD con su serie RYZEN. Estos procesadores pueden contar
con 2 a 8 núcleos y vienen con un número que representa la
velocidad de procesamiento de cada núcleo; cuanto mayor es el
número, mayor es la velocidad. En el mercado se puede
conseguir fácilmente procesadores de más de 1GHz (1000 Mhz)
por núcleo para equipar computadoras hogareñas, y hasta
portátiles. La velocidad de procesamiento no es tan importante
a la hora de editar video, pero sí lo es a la hora de aplicar
efectos a la imagen o al sonido.
Fig: Microprocesador Ryzen de AMD (imagen del sitio web)
137
c) RAM: es la memoria temporal de la máquina, ya que se usa en

el momento de realizar una operación, pero es automáticamente
borrada en cuanto esa información no es necesaria para el
sistema. Cuando la computadora se apaga, la RAM es borrada
por completo y la información que hay en ella no puede ser
recuperada. La capacidad de almacenamiento de la RAM se
mide en GigaBytes (Gb). Hoy es común tener más de 4Gb de
RAM en las computadoras hogareñas. En sistemas de 64 bits
se puede tener 4Gb o más de memoria RAM, siendo
recomendable 12 o 16Gb para editar. Las diferentes tecnologías
aplicadas le dan su denominación como DDR, DDR2, DDR3,
DDR4 y DDR5 siendo estas últimas las más modernas. Es
importante que una isla de edición esté equipada con RAM
en DUAL CHANNEL, para evitar el cuello de botella que
sucede cuando los procesadores envían más información de la
que la MOTHERBOARD puede transportar a las memorias
RAM.
Fig: Memorias DDR4 con disipador y ventilación Corsair (imagen del sitio
web)
d) Placa controladora del monitor: también llamada placa de

video, no debe confundirse con la placa encargada de digitalizar
video. Esta placa lo único que hace es controlar el
funcionamiento del monitor y permitir la representación
adecuada de los gráficos en este dispositivo. Para una isla de
edición es importante que esta controladora tenga una memoria
interna de por lo menos 512Mb y, según con qué sistema se
vaya a usar, un dispositivo de aceleración gráfica.
e) Placa de sonido: si bien es un dispositivo opcional para una
isla de edición digital, es recomendable contar con una muy
buena placa de sonido. Las actuales Motherboards traen placas
de sonido 5.1 ONBOARD de relativa buena calidad. Pero si lo
que se espera es una prestación profesional, uno debe
inclinarse a placas externas de marcas reconocidas en audio.
138
f) Placa Digitalizadora o Capturadora de Video: como ya hemos

dicho, es la encargada de convertir la señal analógica de video
que provee una fuente (casetera o cámara) en señal digital y
comprimirla según el codec32 correspondiente a cada formato.
Hay tres compañías que en Argentina son líderes en el mercado
de las placas de edición hogareñas: Pinnacle, Matrox y
Canopus. Los productos de estas compañías son ampliamente
utilizados en nuestro medio y todos tienen muy buenas
prestaciones para la edición hogareña y semi profesional de
video. La elección entre cada una de ellas es cuestión de gusto
y precio, y hasta se ha formado una pequeña guerra de
hinchadas entre los simpatizantes de cada una de ellas. Lo
importante de estas placas es que son de marca reconocida y
tienen un adecuado respaldo técnico, que en realidad es lo
primero que el usuario debe buscar si no es un avanzado en el
conocimiento de computadoras. Para editar DV (DVCam o
DVCPro) o HDV, hoy en día no es necesario una placa
digitalizadora ya que el video puede ser capturado
directamente vía FireWire. Para la edición de formatos
digitales HD de mayor calidad como el P2 y el XDCAM, hay
placas relativamente accesibles y de muy buenas prestaciones
de la marca BLACK MAGIC.
Fig : BlackMagic DeckLink HD Extreme (imagen del sitio web)
En este momento es importante adelantar cuál es la mayor diferencia

entre las islas de edición hogareñas y las profesionales. Y si, además del
precio, la única gran diferencia entre ellas reside en los formatos de video
que son capaces de soportar sin pérdida de calidad.
Como sabemos, existen formatos de video llamados hogareños (VHS,
8mm, S-VHS, Hi8mm y Mini DV) y otros que son considerados por el
mercado del video como profesionales (Betacam SP, MII, Beta Digital, etc). Si
una placa digitalizadora (y todo el sistema que la rodea) es capaz de soportar
32
Por “codificador-decodificador”, es el sistema de codificación de información que cada formato de
video digital tiene.
139
estos formatos profesionales sin pérdida de calidad, la isla de edición se

considera profesional. Por el contrario, si la placa digitalizadora presupone
una pérdida de calidad al capturar video profesional, se dice que es una isla
de edición hogareña.
El mismo análisis puede servir para las islas de edición no lineales
para formatos HD (alta resolución), haciendo una diferenciación entre el HDV
y el AVCHD (hogareños) y el DVCPRO HD (P2), XDCAM, 4K RAW de
diferentes marcas, etc. (profesionales).
En todo lo demás, una isla de edición profesional es similar a una
hogareña, tanto en el hardware como en el software.
11.4.2 Códec Intermedio para edición de códecs con compresión

interframe
Como hemos visto oportunamente, tanto el Mpeg2 como el Mpeg4
(DivX, Xvid, H.264, etc.) utiliza compresión intercuadro, lo que significa que
los cuadros no están grabados completamente, sino en referencia a los
keyframe (cuadros clave). Esto significa que la edición de estos formatos trae
aparejado ciertos inconvenientes.
Cuando queremos hacer un corte en un clip grabado en Mpeg2 o
Mpeg4, tenemos en realidad pocas probabilidades de que sea exactamente
el principio de un GOP. Lo más probable es que el primer cuadro del nuevo
clip pase de ser un cuadro B a ser un keyframe (cuadro I) y tengamos
que recomprimir todo el nuevo clip para volver a construir los nuevos GOP.
Esto, cada vez que hagamos un corte.
Para evitar este engorroso proceso que consume considerable
capacidad de procesamiento (y por lo tanto tiempo) algunos desarrolladores
de software inventaron el Intermediate Codec (códec intermedio).
El códec intermedio solo trabaja con compresión intracuadro y tiene la
finalidad de funcionar como “proxy” (sustituto). Cuando capturamos la toma
bruta en Mpeg2 o Mpeg4, el software hace una transcodificación automática
y produce una “copia” de esta toma en el códec intermedio. De esta forma,
toda la edición se produce con estas tomas “proxy”, sin necesidad de
reconvertir GOPs. Cuando terminamos la edición y hacemos el render final,
el software reemplaza las tomas “proxy” por las originales y recomprime los
GOPs solo una vez.
La mayoría de los software de edición que soportan formatos HD
cuentan en la actualidad con su propio códec intermedio, optimizado para el
trabajo con ese software. No es importante cuál de ellos es mejor, ya que se
utilizan solamente para crear las tomas sustitutas, y en ningún caso se
realizan render finales con este códec.
Aún así, hay que notar que para la edición no lineal de formatos de
video HD se requiere que las computadoras sean lo más veloces posibles,
contando además con una gran capacidad de almacenamiento (nunca menor
al TeraByte), y que para tener previsualizado en un monitor de video, es
necesario una placa específica (como la Black Magic mencionada
anteriormente).
11.4.3 Captura por lotes (Batch Capture) y Logging
140
Algunos sistemas de edición digital semi profesional y todos los

profesionales permiten leer y capturar el código de tiempo de la casetera de
donde están capturando las tomas. Es más, permiten controlar esta casetera
directamente desde la computadora a través de un control de edición
computarizado.
¿Cuál es la ventaja de esto? Enorme.
En los sistemas que permiten esta operación, podemos ir avanzando a
través del casette y marcando el punto de In y Out de cada toma que
queremos capturar (sin necesidad de capturarla aún). Estos puntos se
guardan en una lista con el nombre de la toma y en que casette está. A este
procedimiento se lo denomina Logging. Una vez terminada la lista, podemos
pedirme al sistema que capture las tomas seleccionadas. A este proceso se
lo denomina Captura por Lotes. La computadora irá barriendo el casette y
capturando las tomas seleccionadas desde el In al Out que elegimos con la
precisión de un cuadro, de forma completamente automática, mientras el
operador se toma un descanso.
Si nosotros tenemos una EDL o simplemente una Lista con las tomas
necesarias y sus puntos de In y Out estimados, podemos hacer la lista para
la captura de lotes ingresando los valores a través del teclado. Una vez
concluida la lista, podemos iniciar la captura por lotes automática.
Fig : Ventana de Logging de un Sistema Avid
141
Fig : Ventana de carga de datos por teclado para Captura por Lotes
del Adobe Premiere
Fig : Lista de Captura por Lotes del Adobe Premiere
11.4.4 Off line y On Line en la edición profesional

Ahora veremos con mayor profundidad cómo se trabaja el off line y on
line en la edición profesional.
El off line comienza copiando todo el material original a un formato de
menor calidad y costo, haciendo coincidir el timecode del proxy con el de
la toma original. Por ejemplo, si originalmente se grabó en RED 4K o Arri
Digital 4K, se hace una copia a H264 FullHD. Luego, en una isla no lineal
económica se hace la edición del producto, con todas las pruebas y
reediciones que se requieran. Una vez satisfechos con la edición se procede
a crear la EDL, exportando el archivo en el formato compatible con la isla
online.
Luego, con la EDL confeccionada y revisada, se lleva el material
original a la isla de edición profesional del formato original. Se carga la EDL y
se ejecuta la edición. La isla profesional reemplazará automáticamente sólo
las porciones de las tomas utilizadas y hará el render de las transiciones y
efectos. Una vez finalizado, el online estará listo para ser copiado a cualquier
soporte compatible o exportado para Streaming.
142
12 - DIAGRAMA DE TRABAJO PARA EDICIÓN DE VIDEO EN

FORMATO HD
12.1. INTRODUCCIÓN
En la actualidad se hace cada vez más factible grabar producciones
audiovisuales en formatos de video de alta definición (HD). Hay una
interesante oferta de cámaras que registran video en estos formatos, desde
el HDV que en realidad es un formato hogareño, hasta el XDCAM EX y el
DVCPRO HD (P2) considerados formatos prosumer, pasando por las DSRL
como las Canon y Nikon.
Pero la posproducción de estos formatos acarrea dudas y complicaciones
mucho mayores que en el caso de los formatos de definición estándar (SD).
Sobre todo, cuando el objetivo final de nuestro audiovisual es la emisión por
televisión estándar o la distribución en DVD, ya que esto implica que en algún
momento del proceso habrá que pasar de HD a SD con la menor pérdida de
calidad posible.
El software utilizado en esta guía es el Premiere y el After Effects de Adobe,
pero el proceso es fácilmente extrapolable a cualquier programa de edición
y/o de composición digital de imagen. Esta guía tiene la intención de
funcionar como una recomendación basada en experiencia personal como
profesional y docente, y no pretende ser el único ni el mejor método para
encarar este proceso.
12.2. GENERALIDADES DEL PROCESO

Lo que no se tiene que perder nunca de vista es que todo el proceso debe
respetar lo mejor posible el formato original en el que se realizó el registro.
Para ponerlo en otras palabras, tenemos que mantener el HD lo máximo
posible y hacer el pasaje a SD con el mejor motor de render que
dispongamos.
Por ello, la recomendación general es editar en HD en Premiere, postproducir
en HD en After Effects y hacer el render final de imagen en SD también en
After Effects. Luego terminaremos de trabajar el audio en algún software
específico y exportamos desde Premiere el producto terminado al formato
necesario (AVI DV PAL para TV, MPEG2 para DVD).
En el caso de Adobe, el motor de render de After Effects es mejor que el de
Encoder (que usa Premiere para exportar).
Además, para que el XDCAM EX y el DVCPRO HD sean perfectamente
soportados, se recomienda utilizar el paquete Adobe CS5 o posterior. Si se
elije correctamente el preseteo para la secuencia, la edición del material HD
debería ser fluida y sin complicaciones en una PC de alto rendimiento.
143
No se podrá monitorear en un monitor de video externo a menos que se

cuente una placa de salida HD como una Black Magic o una Aja. Pero se
puede monitorear correctamente la edición en la ventana “Programa” del
Adobe Premiere.
Al realizar la edición, solo se debe montar el material y aplicar transiciones
básicas. También se puede acelerar o ralentizar las tomas. El resto del
procesado de imagen, es preferible hacerlo en el After Effects.
12.3. LA CAPTURA DEL MATERIAL EN BRUTO
12.3.1 HDV
El formato HDV se registra tanto en cinta como en disco rígido. En el primer

caso, hay que utilizar una reproductora (puede ser la misma cámara, pero no
es recomendable) y conectarla a la isla de edición por un cable IEEE1394
(firewire, i-link, etc.). En el caso del registro en disco rígido, usualmente se
conecta directamente la cámara por USB a la isla de edición y se copian las
tomas directamente de disco a disco.
En Premiere, debemos utilizar una secuencia que cumpla con las
características del formato utilizado en la grabación. Lo más usual es el HDV
144
1080i25, para PAL entrelazado (interlaced). Algunas cámaras soportan el

HDV 1080p25 para PAL progresivo.
Dependiendo la forma de captura o el software utilizado para capturar, las
tomas brutas estarán en archivos contenedores AVI o MTS.
12.3.2 XDCAM EX
El formato XDCAM EX de Sony se registra principalmente en tarjetas de

estado sólido SxS, aunque también puede registrarse en disco rígido. En todo
caso, la captura del material se realiza por copiado de los archivos al disco de
la isla de edición a través de una conexión USB.
La conversión de los archivos grabados en la cámara (MXF) en archivos
contenedores MP4 se realiza por una aplicación de Sony llamada XDCAM EX
Clip Browser. Mediante esta aplicación, se puede explorar las tomas
directamente desde la tarjeta, elegir las que se desean capturar y transferirlas
al disco de la computadora en una carpeta por toma. Dentro de esta carpeta
hay varios archivos de datos, y un archivo MP4 que contiene el video.
En Adobe Premiere se creará una secuencia con los seteos correspondientes
dependiendo del tipo de registro que se realice. El más usado es el XDCAM
145
EX 1080i 50i para PAL entrelazado, en sus dos variantes HQ y SP (mayor y

menor flujo de datos, respectivamente).
12.3.3 DVCPRO HD
El formato DVCPRO HD de Panasonic se registra tanto en tarjetas de estado

sólido P2 como en disco rígido. Hay algunas cámaras que graban este
formato en cinta, pero no son usuales en el mercado local.
Las tomas brutas también están grabadas en archivos contenedores MXF,
pero a diferencia del XDCAM, no es necesario realizar ninguna conversión y
son estos mismos archivos los que se importan al Premiere. Por lo tanto la
captura se realiza por copiado de estos archivos desde la cámara al disco
rígido de la isla de edición, generalmente a través de una conexión USB.
Dependiendo el tipo de formato registrado, de entre las variantes del
DVCPRO HD, y se crea una secuencia correspondiente en Adobe Premiere.
Las más usadas son DVCPRO HD 1080 50i para PAL entrelazado y
DVCPRO HD 720 25p para PAL progresivo.
12.4. DE LA EDICIÓN A LA POSPRODUCCIÓN
146
Como se dijo anteriormente, la edición en Premiere CS4 o superior del

material en HD debería realizarse con la única complicación de no poder ver
el resultado en monitor externo sin una placa HD específica. Una vez
concluido el montaje de las tomas, realizado los ralentis y acelerados, y
ubicadas las transiciones básicas (fundidos encadenados), el material está
listo para pasar a posproducción.
Este es el único punto del proceso en donde el paquete Adobe se diferencia
del resto. El paso de la edición a la postproducción es tan simple como hacer
copy-paste.
Para otros software de edición y composición digital de imágenes, se deberá
consultar las guías de usuario y los foros oficiales para mejor referencia de
cómo realizar este paso manteniendo las tomas separadas y sin necesidad
de pasar por un render.
Trabajando con el paquete Adobe, hay dos formas de hacerlo.
Una es importar al After Effects la secuencia del proyecto de Premiere. Este
método depende posteriormente de la estabilidad de ambos programas y de
su interacción. Al respecto, se deberá buscar referencias acerca del Adobe
Dynamic Link CS4 o superior.
La forma recomendada en esta guía es seleccionar la edición en la secuencia
del Premiere, englobando todas las tomas dentro de una selección con el
mouse y presionar Ctrl+C (copy). Usualmente se querrá seleccionar solo la
parte de imagen de la edición, para lo cual se deberá sostener apretada la
tecla Alt mientras se realiza la selección.
Esta otra variante permite además la posibilidad de pasar solo una parte de la
edición, seleccionando solo ese grupo específico de tomas.
Luego, ya en el After, se crea una composición adecuada al material en bruto

y simplemente se presiona Ctrl+V (paste). Se importarán automáticamente
147
las tomas y se ubicará en la composición, separadas y tal como estaban en el

Premiere, respetando ralentis, acelerados y fundidos encadenados. Las
tomas serán las originales en bruto, por lo que hasta este punto la calidad se
mantiene invariable.
12.4.1 COMPOSICIÓN PARA HDV o DVCPRO HD (P2)
El HDV y el DVCPRO HD difieren sensiblemente en cuanto a códec y

calidad, pero comparten características similares en cuanto a tamaño de
cuadro y aspecto de píxel, por lo que para los fines prácticos, una
composición de After Effects que cumpla esas características funciona para
cualquiera de los dos formatos. Si bien hay un preseteo propio para estos dos
formatos, hay que comprender que cualquier preseteo que cumpla con las
características de tamaño de cuadro, aspecto de píxel y frecuencia de
cuadro, sirve para ese formato. Por lo que se puede usar el preseteo del HDV
1080 25 para DVCPRO HD 1080 25 y viceversa.
12.4.2 COMPOSICIÓN PARA XDCAM EX
148
Hasta la edición CS4, el After Effects no contaba con un preseteo propio para
el XDCAM EX. Pero como se vio anteriormente, solo se debe encontrar uno
que cumpla con las características de ese formato. Se encuentran esas
características dentro del grupo de preseteos identificados como HDTV. Solo
hay que asegurarse de elegir el correcto dependiendo del tipo de video que
se haya grabado en XDCAM EX. Este preseteo es absolutamente
independiente de la calidad de registro, por lo que sirve tanto para HQ como
para SP.
12.5. POSTPRODUCCIÓN EN HD
Una vez que las tomas están ordenadas en la composición, podemos
comenzar la posproducción propiamente dicha. Contar con las tomas por
separado nos posibilita realizar un tratamiento de color independiente para
cada una de ellas, además de realizar efectos visuales solo en las tomas que
lo requieran.
Una consideración con respecto a la gráfica animada que se desee
incorporar al audiovisual, ya sean textos, fotografías o dibujos. Hay que tener
muy en cuenta que las dimensiones del video con el que se trabaja son
cuatro veces mayores que en el video SD, por lo que si antes bastaban
imágenes de 800x600 píxeles para tener una calidad aceptable, para HD no
se debería trabajar con imágenes más pequeñas que 2000x1500 píxeles
para asegurar una calidad propia del HD. Aún mayores si se precisa hacer
panorámicas digitales o trabajarlas con acercamientos de cámara 3D. Lo
recomendable, en cuestión de imágenes, es trabajar con formatos de curvas
149
como los del Illustrator, ya que esto permitiría ampliar los gráficos todo lo
necesario sin perder calidad.
12.5.1 MONITOREO EXTERNO EN SD SIMULTÁNEO

Ya hace muchos años que el Adobe After Effects permite sacar la señal de
video de una composición DV hacia un monitor de video externo a través de
una conexión IEEE1394 (Firewire, I.link). Pero lamentablemente esa opción
está disponible solo para video SD.
De no contar con una placa específica HD, solo se puede realizar este
monitoreo externo con material de alta definición haciendo un pequeño
“workaround”.
Para ello, se crea una composición DV PAL en el proyecto, y simplemente se

arrastra la composición final HD. Se disminuye la escala hasta el 41% con lo
que queda perfectamente ajustado a la composición SD, con barras negras.
A través de la conexión IEEE1394 se puede monitorear el tratamiento de
color de la composición HD.
Pos supuesto se pierde ese monitoreo mientras se realizan ajustes a la
postproducción en la composición HD, pero cada vez que sea necesario se
puede volver a la composición SD y chequear en el monitor externo.
12.6. FINALIZAR EL PROCESO EN HD

Las utilidades prácticas de finalizar el proceso en HD, por ahora, son
limitadas. Por lo tanto solo se dará una pequeña sugerencia de cómo hacerlo
y para qué usarlo.
150
La autoría y grabación de Blu-ray todavía no está disponible a gran escala en

nuestro medio, por lo que el material finalizado en HD solo será de utilidad
para archivo y para reproducir desde una PC con salida HDMI a un LCD de
Alta Definición.
Lo recomendable acá es hacer el render final del archivo en MTS con el
códec H.264 directamente desde After Effects. Pero para ello debemos tener
la mezcla del audio finalizada incorporada a nuestra composición. Luego de
chequear el sincronismo con la imagen, la composición HD estará lista para
exportar.
En el módulo de salida se deberá escoger H.264 Blu-ray y en el cuadro de

diálogo siguiente (en Format Options), el preseteo correspondiente para el
tipo de video HD con el que se esté trabajando. Básicamente tiene que ver
con el preseteo que se eligió para la composición HD. Es extremadamente
recomendable en la pestaña Multiplexer elegir TS, ya que de lo contrario se
exportarán dos archivos separados, uno para la imagen y otro para el sonido.
El archivo MTS resultante podrá ser reproducido por un reproductor
multimedia compatible con HD en una PC o Mac, como por ejemplo el VLC
player. O guardarlo como archivo para cuando se cuente con la posibilidad de
realizar una autoría Blu-ray.
12.7. FINALIZAR EL PROCESO EN SD PARA TV O DVD

Para finalizar el proceso en SD, debemos exportar la imagen post procesada
desde After Effects para realizar el render definitivo (con audio) en Premiere.
151
Si bien sería posible importar la mezcla definitiva del audio a la composición

de After Effects y realizar el render final a AVI DV PAL o MPEG2-DVD PAL
directamente, se recomienda terminar el proceso en Premiere porque
generalmente es más cómo realizar re-ediciones y ajustes de último
momento en ese software.
Tal como lo descrito en el punto 5.1, se deberá crear una composición DV
PAL y poner dentro de ella la composición final HD al 41% de escala.
De esta forma, se exporta la imagen desde esa composición SD a AVI DV
PAL sin audio. Este es el preciso momento en que el video HD pasa a un
formato SD con el motor de render de After Effects, y con la mejor calidad
posible de downsampling.
En Premiere, se abre el proyecto en el que se realizó el montaje y se crea
una nueva secuencia, esta vez AVI PAL DV. Se copia y pega la edición de
audio desde la secuencia HD, y se importa el archivo AVI conteniendo la
posproducción de imagen. De esta forma, se tiene la imagen por un lado y el
audio por el otro. Se chequea el sincronismo de ambos. Si se mantiene una
referencia de inicio debería ser algo muy simple de hacer.
En este momento, se puede realizar una copia a cinta DV, DVCam o Mini DV
para enviar al canal de TV, o realizar otro render a AVI DV PAL con audio
para quemar un DVD de datos y enviarlo, si es que el canal acepta esta
opción. Vale la pena aclarar que con este segundo render no se degrada la
calidad de la imagen, ya que el streaming de video no se toca, solo se añade
el audio.
Si es necesario hacer un DVD de video, deberemos exportar imagen y sonido
a MPEG2-DVD PAL y luego utilizar esos dos archivos (uno de video y otro de
audio) para realizar la autoría DVD en Adobe Encore o similar.
Además de estos archivos, se crearán otros archivos de datos que utilizará el
Encore para identificar el material.
Si en la pestaña Multiplexer del cuadro de diálogos del MPEG2-DVD se elige
DVD, el resultado será un solo archivo MPEG conteniendo video y audio,
además de los archivos de datos.
12.8. CONSIDERACIONES FINALES
El registro de audiovisuales en formatos de video de alta definición tiene
como objetivo comenzar el proceso con la mejor calidad posible. Pero
debemos comprender que es muy improbable mantener esa calidad a través
de todo el proceso de posproducción y, sobre todo, en la distribución y
proyección final. La mayoría de las veces, estos dos últimos eslabones de la
cadena de producción de imágenes se realizan en formato de definición
estándar.
Optimizar el proceso de posproducción para que se pierda la menor calidad
posible en el paso de HD a SD requiere práctica, investigación y una continua
152
actualización de conocimientos, tanto de software como de códecs y

compresión digital de imagen.
153
13 - Los 7 principios del transmedia de Henry Jenkins33
La narrativa transmedia se refiere a un tipo de relato en el que la historia

se desenvuelve por medio de diversos canales y plataformas de
comunicación, y parte de esta misma la desarrollan los espectadores, que
toman parte de un rol activo en el proceso.
Para lograr una experiencia significativa en las historias transmedia, los
espectadores deben recorrer los diferentes canales, obteniendo piezas de
información que harán conocer el universo que hemos creado para ellos.
Henry Jenkins, reconocido académico estadounidense de los medios de
comunicación y autor de “Convergence Culture: La cultura de la convergencia
de los medios de comunicación” califica a la narración transmedia como una
nueva estética que ha nacido a consecuencia de la convergencia de los
medios, y de hecho la define como el arte de crear mundos.
Los 7 principios del transmedia
Los elementos integrales de cada historia se dispersan de forma sistemática
por medio de los diferentes canales (televisión, radio, internet, y dentro de
internet las diversas redes sociales, blogs, sitios web, etc.) en los que se
desarrolla una experiencia de entretenimiento unificada y coordenada, y
de forma ideal, cada medio hace una contribución única al desarrollo de
esta historia.
De acuerdo a Jenkins, existen siete principios de la narrativa transmedia
y se definen de la siguiente forma:
Principio 1: Extensión vs Profundidad

La extensión hace referencia a la habilidad de los espectadores para
participar y difundir los contenidos.
33
En https://marketing4ecommerce.net/author/susana-galeano/
154
En cuanto a la profundidad, se refiere al interés en consumir más

vertientes de un producto transmedia interesante y cautivador, es decir,
cuando el espectador busca más información sobre la narrativa y sus
extensiones.
Como puedes ver, la extensión y la profundidad se complementan entre sí.
Principio 2: Continuidad vs. Multiplicidad

La continuidad es la coherencia y credibilidad que debe haber en la
historia. Esta historia debe seguir una línea común, por lo que no debe tener
contradicciones.
Multiplicidad es la posibilidad de acceder a diferentes versiones en la
narrativa, en la que pueden presentarse otras perspectivas de los personajes
o de los acontecimientos.
Principio 3: Inmersión vs. Extracción

La inmersión es cuando el espectador se sumerge en el mundo que
forma parte del universo transmedia en cualquiera de sus formatos.
Por otro lado, la extracción se refiere a sacar elementos de este universo
transmedia y traerlos al mundo real.
Principio 4: Construcción del mundo

Se debe construir un universo con reglas y características que le permitan
ser expandido en diferentes plataformas y formatos, ya sea real o ficticio.
Dependiendo cómo se haya planteado este universo, se podrá o no generar
una relación con el espectador.
Las extensiones transmedia logran enriquecer este universo.
Principio 5: Serialidad
La historia transmedia se deberá poder fragmentar en pequeñas unidades
para poder ser distribuida. Esto nos recuerda las series televisivas, donde los
espectadores esperan con impaciencia el próximo capítulo, los comics
seriados que se venden por entregas y las series radiofónicas.
En nuestro caso, la historia transmedia se caracteriza no solo por su
serialidad, sino porque los fragmentos se expandirán en distintos medios.
Principio 6: Subjetividad
Con la subjetividad, se integra la posibilidad de que el usuario pueda tomar
la historia con diferentes puntos de vista y percepciones sobre los
personajes con lo que incluso se puede ampliar la narrativa.
En Twitter suelen aparecer cuentas de personajes de historias transmedia, y
mientras que algunas de ellas son oficiales, otras incluso son realizadas por
los mismos fans… lo que nos lleva al:
Principio 7: Rendimiento (performance)

El rendimiento se refiere a la capacidad de la historia transmedia para
motivar a los fans a crear sus propios contenidos.
155
El trabajo de los fans puede convertirse en parte de la propia narrativa

transmedia, si se logra que los espectadores participen de forma activa en el
desarrollo de este universo.
156

Manual TRyP 2022

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual TRyP 2022

Cargado por

Copyright:

Formatos disponibles

Manual de la materia

Técnicas de Registro y Posproducción

Profesor Titular: Mgtr. Pedro Ernesto Sorrentino

Profesor Asistente: Lic. Carlos Filippa

1. Aspectos fisiológicos de la visión humana 4

2. Principales factores de calidad en video 17

4. Señales y conexiones de video analógicas 43

5. Formatos de grabación analógicos 51

6. Normas digitales de video 66

9. Grabación digital de video 94

10. Raw, Log y Vídeo descomprimido 120

11. Edición y postproducción en video 125

12. Diagrama de trabajo para edición en HD 143

13. Transmedia 154

El manual está dividido en trece capítulos que recorren los aspectos

La notable extensión del manual en comparación al de ediciones anteriores

Mgtr. Pedro Sorrentino

Córdoba, Agosto de 2022

1 - Aspectos fisiológicos de la visión humana

1.1 - La definición de la visión humana1

El cristalino es una lente biconvexa, transparente e incolora. Está ubicada por

Se debe tener en cuenta que la visión más discriminatoria es la central y

colores ubicados en la mácula. Éstos necesitan mucha luz para ser

1.3 - ¿Qué llamamos resolución ocular?

Pero hay otros factores que lo condicionan: el tamaño de las células de la

¿Qué tiene de especial esta fóvea?

Ahora ustedes se estarán preguntando, "¿Pero cuántos megapixeles o

La fóvea y la zona de alrededor que todavía tiene buena resolución de

La estereopsis del desacuerdo

separados por 10". En la práctica y no en las condiciones ideales de la carta

El área fusional de Panum

Lo más increíble es que tenemos 200 millones de receptores con solo 1

Teorías de la visión binocular única

Otras teorías han asignado un papel capital en la estereopsis a los

la TV de antes de 1980. De hecho cuando hay poca luz es muy difícil

Elementos de Física. Tebaldo J. Ricaldoni, Editorial Estrada.

Más sobre la estereopsis:

Visión estéreo por detección de coherencia:

Matemáticas elementales para el estudio de la visión artificial:

Procesamiento binario de imágenes:

Página relacionada con la visión artificial (Departamento de Inteligencia Artificial de la U.N.E.D.)

Información y recursos sobre visión estereoscópica:

2 - Principales factores de calidad en video2

De los principales factores que inciden en la calidad técnica de la imagen de

Un poco de historia: Resoluciones en teledifusión digital y factor de Kell3

Los estándares de televisión de alta definición de 1.125 y 1.250 líneas

aspecto es de 4:3, la resolución horizontal (habilidad del sistema para definir

Parámetro VGA SVGA XGA XVGA

Ancho de banda (MHz) 15,75 25 37,5 63,24

Resoluciones en teledifusión digital

Gracias a la televisión digital es posible enviar imágenes de exploración

Estándares de transmisión de señal digital de televisión

Transmisión Analógica Digital Digital Digital Digital

En la figura 3 se muestran las resoluciones de los formatos digitales de la

En la figura 4 se muestran las características básicas de los diferentes

LDTV se apoya en la resolución del Vídeo-CD de Philips. En la figura 5 se

Transmisión Analógica Digital Digital Digital Digital Digital

Líneas de Frecuencia de Pixelación Velocidad Relación de

El número de programas que se pueden vehiculizar o transportar por el canal

Figura 2. Respuesta logarítmica del ojo, Ley de Weber

la región brillante de la imagen tienden a ser indistinguibles. Las franjas

● La diferencia en el brillo percibido de las franjas no parece igual

Figura 3. Franjas de escala de grises con franjas de igual intensidad

Figura 4. La intensidad real de las franjas de escala de grises en la Fig. 3