Manual TE2 v2.1 PDF

TÉCNICAS EXPERIMENTALES II
Versión 2.1
14 de febrero de 2020
Pablo Domı́nguez
Jaime Arturo de la Torre
Manuel Pancorbo
Miguel Ángel Rubio
Universidad Nacional de Educación a Distancia

ÍNDICE GENERAL
Introducción 7
1. Introducción a la Estadı́stica 13
1. Probabilidad y estadı́stica . . . . . . . . . . . . . . . . . . . 13
1.1. Variables aleatorias discretas . . . . . . . . . . . . . . 13
1.2. Distribución discreta uniforme. . . . . . . . . . . . . 17
1.3. Distribución binomial. . . . . . . . . . . . . . . . . . 19
1.4. Distribución de Poisson . . . . . . . . . . . . . . . . . 25
1.5. Variables aleatorias continuas . . . . . . . . . . . . . 29
1.6. Distribución continua uniforme . . . . . . . . . . . . 30
1.7. Distribución normal. . . . . . . . . . . . . . . . . . . 33
1.8. Distribución χ2 de Pearson. . . . . . . . . . . . . . . 40
1.9. Distribución t de Student. . . . . . . . . . . . . . . . 42
2. Inferencia estadı́stica. . . . . . . . . . . . . . . . . . . . . . . 43
2.1. Inferencia y muestras. . . . . . . . . . . . . . . . . . 46
2.2. Muestreo aleatorio simple (M.A.S) . . . . . . . . . . 47
2.3. Estadı́sticos y distribuciones muestrales. . . . . . . . 50
2.4. Distribuciones muestrales de la media y de la desvia-
ción tı́pica . . . . . . . . . . . . . . . . . . . . . . . . 53
2.5. Teorema central del lı́mite. . . . . . . . . . . . . . . . 54
3
2.6. Estimadores y sus propiedades deseables. . . . . . . . 56
2.7. Métodos de estimación. . . . . . . . . . . . . . . . . . 59
3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2. Estadı́stica aplicada: ajustes, análisis de errores y criterios

de decisiones 65
1. Gaussianas y errores . . . . . . . . . . . . . . . . . . . . . . 65
2. Método de la máxima verosimilitud . . . . . . . . . . . . . . 66
2.1. Mı́nimos cuadrados. . . . . . . . . . . . . . . . . . . . 69
3. Bondad de los ajustes. . . . . . . . . . . . . . . . . . . . . . 82
3.1. Método χ2 . . . . . . . . . . . . . . . . . . . . . . . . 83
3.2. Interpretación de la desviación tı́pica . . . . . . . . . 88
4. Criterios para decisiones. . . . . . . . . . . . . . . . . . . . . 91
4.1. Hipótesis y tipos de errores . . . . . . . . . . . . . . 91
4.2. Contrastes basados en distribuciones . . . . . . . . . 95
5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
3. Teorı́a de filtrado 107

1. Conceptos generales. . . . . . . . . . . . . . . . . . . . . . . 107
1.1. Sistemas: señales y bloques. . . . . . . . . . . . . . . 107
1.2. Respuesta impulsional, función de transferencia y res-
puesta en frecuencia. . . . . . . . . . . . . . . . . . . 111
1.3. Filtros. . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2. Filtrado electrónico analógico. . . . . . . . . . . . . . . . . . 131
2.1. Filtros pasivos de primer orden. . . . . . . . . . . . . 132
2.2. Filtros activos de primer orden. . . . . . . . . . . . . 133
4
ÍNDICE GENERAL
3. Señales muestreadas. . . . . . . . . . . . . . . . . . . . . . . 136

3.1. Señales muestreadas. Teorema de Nyquist-Shanon. . . 137
4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
4. Unidades electromagnéticas 145

1. Unidades fundamentales y unidades derivadas . . . . . . . . 145
1.1. El Sistema Internacional de Unidades (SI) . . . . . . 146
2. Unidades y ecuaciones electromagnéticas . . . . . . . . . . . 149
2.1. Los diferentes sistemas de unidades electromagnéticas 155
3. Conversión entre unidades gaussianas y SI . . . . . . . . . . 157
4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
Anexo A. Ejemplos desarrollados de análisis de datos experi-

mentales 165
1. Radiación del cuerpo negro. . . . . . . . . . . . . . . . . . . 165
2. Dispersión de piones. . . . . . . . . . . . . . . . . . . . . . . 171
3. Relación brillo-periodo en las estrellas variables cefeidas . . . 177
4. Epidemias mundiales y supervivencia . . . . . . . . . . . . . 182
Anexo B. Integrales gaussianas 189
Anexo C. Tabla de probabilidades de la distribución normal

tipificada 193
Anexo D. Contenidos adicionales de teorı́a de filtrado 195

1. Convolución y autocorrelación . . . . . . . . . . . . . . . . . 195
1.1. Teorema de convolución. . . . . . . . . . . . . . . . . 195
5
1.2. Teorema de Wiener-Khinchin. . . . . . . . . . . . . . 196
2. Transformada de Fourier discreta (DFT) . . . . . . . . . . . 197
3. Efectos del muestreo y ventana de digitalización. . . . . . . . 200
3.1. Duración finita de la señal y ((ventanas)) digitales. . . 200
4. Técnicas de filtrado de señales muestreadas. . . . . . . . . . 208
5. Filtros pasivos y activos de orden 2 y superiores. . . . . . . . 211
5.1. Filtros pasivos de segundo orden. . . . . . . . . . . . 211
5.2. Filtros pasivos de orden superior. . . . . . . . . . . . 212
5.3. Filtros activos de segundo orden. . . . . . . . . . . . 215
5.4. Sı́ntesis de filtros de orden superior a partir de la fun-
ción de respuesta en frecuencia. . . . . . . . . . . . . 221
6. Transformada rápida de Fourier (FFT). . . . . . . . . . . . . 225
Soluciones de los ejercicios 235
Bibliografı́a 235
6
INTRODUCCIÓN
“The test of all knowledge is experiment.

Experiment is the sole judge of scientific truth.”
Richard P. Feynmann, The Feynmann Lectures on Physics [1].
“A theory can be tested by experience,

but there is no way from experience to the setting up of a theory.”
Albert Einstein, Autobiographical Notes [2].
Las dos citas en la parte superior tienen una relación interesante en cuanto
a los aspectos de la construcción-descubrimiento de lo que denominamos
((conocimiento cientı́fico)) y podrı́an ser parte de una conversación entre dos
de los grandes genios de la historia de la Humanidad. La frase de Feynmann
hay que englobarla dentro de un ámbito didáctico y ligeramente fuera de
contexto, ya que el texto donde está contenida la cita continúa preguntándo-
se de dónde provienen las leyes cientı́ficas [1], precisamente en el sentido de la
cita de Einstein. Lo que quiere decir el fı́sico norteamericano es que ninguna
teorı́a cientı́fica o modelo matemático que tenga relación con la ((realidad))
fı́sica tiene sentido sin una ((verificación)) experimental. Es decir, si no está,
digamos, ((refrendada)) por los experimentos. En realidad, el proceso formal
es el contrario: las teorı́as fı́sicas se contrastan con los experimentos de ma-
nera que se rechazan en caso de que no sean acordes. Si por el contrario,
todo encaja correctamente dentro de la precisión experimental, no tendre-
mos argumentos para descartar la teorı́a, con lo cual supondremos que es
correcta (al menos de momento).
Es decir, no es posible saber con total certeza si una teorı́a o modelo es
correcta de forma absoluta, porque no es posible realizar infinitos experi-
mentos que la corroboren en cualquier situación posible. Lo que podemos
7
hacer, sin embargo, es descartar el modelo fı́sico con total fiabilidad: si no
coincide con el experimento, la teorı́a es incorrecta. Esta lógica es la base de
buena parte de la Estadı́stica y en concreto de los contrastes de hipóte-
sis, que veremos muy brevemente en este texto. De forma complementaria,
la cita de Albert Einstein afirma que la construcción teórica de modelos
fisico-matemáticos no puede realizarse a través de la experiencia, aunque
esta sea esencial para el desarrollo conjunto de la metodologı́a cientı́fica y
del conocimiento.
En relación con lo anterior conviene que desarrollemos en qué consisten
los modelos dentro de la Matemática. En Ciencias Aplicadas, un modelo
matemático es aquel en el que se emplea algún formalismo para expresar
relaciones, proposiciones sustantivas de hechos, variables, parámetros, en-
tidades y relaciones entre variables y/o entidades que permitan estudiar el
comportamiento de sistemas complejos que no pueden ser observados en la
realidad. Un modelo formal para una cierta teorı́a matemática es un conjun-
to sobre el que se han definido varias relaciones entre algunos elementos del
conjunto que satisfacen las proposiciones derivadas del conjunto de axiomas
que propone la teorı́a. La rama de la Matemática que se encarga de estudiar
de forma sistemática los modelos es la teorı́a de los modelos.
Se podrı́a decir que un modelo en Ciencias Fı́sicas es una forma de repre-
sentar cada uno de los tipos de entidades que intervienen en un cierto tipo
de proceso fı́sico mediante objetos matemáticos. Las relaciones matemáticas
formales entre los objetos del modelo deben representar de alguna manera
las interacciones reales existentes entre las diferentes entidades o partes del
sistema que se esté estudiando. Ası́, una vez traducido (o representado) cier-
to problema se pueden aplicar el Cálculo, el Álgebra y otras herramientas
matemáticas para deducir el comportamiento del sistema bajo estudio. Un
modelo fı́sico requerirá, por tanto, que se pueda seguir el camino inverso al
modelado, de tal forma que se pueda interpretar la realidad a partir de las
predicciones del modelo.
Podemos clasificar los modelos de acuerdo con los siguientes criterios:
Según la información de entrada. Con respecto a la función de origen

de la información utilizada para construir los modelos. Dentro de esta
clasificación tendremos los modelos ((heurı́sticos)) y los ((empı́ricos)).
8
Introducción
Los primeros se basan en explicaciones sobre las causas o mecanismos

naturales que dan lugar al fenómeno estudiado y los segundos en la
observación de algunos hechos concretos.
Según el tipo de representación. Los modelos matemáticos pueden re-

cibir diferentes nombres dependiendo de sus aplicaciones (que pueden
ser muy diversas). Una posible clasificación puede atender a si preten-
den hacer predicciones de tipo cualitativo o si pretenden cuantificar
algún aspecto (o algunos) del sistema que se está modelizando:
Modelos cualitativos o conceptuales: En ellos se suelen usar figu-

ras, gráficos o descripciones causales, en general se contentan con
predecir si el estado del sistema irá en una determinada direc-
ción o si aumentará o disminuirá alguna magnitud, sin importar
el valor concreto de cada una de las magnitudes.
Modelos cuantitativos o numéricos: Usan números para repre-
sentar aspectos de los sistemas que se modelan. Generalmente
incluyen algoritmos y fórmulas matemáticas más o menos com-
plejas que se relacionan con los valores numéricos. El cálculo de
los mismos permite representar el proceso fı́sico o los cambios
precisos del sistema modelado.
Según la aleatoriedad. Esta clasificación es independiente de la anterior

y responde a si a una entrada (o situación inicial concreta) le pue-
den corresponder diversas salidas o no de los resultados. En este caso
tenemos los siguientes tipos de modelos:
Determinista: En este modelo se conoce con certeza la forma del

resultado ya que no hay incertidumbre. Los datos utilizados para
alimentar el modelo son completamente conocidos.
Estocástico: Este modelo es probabilı́stico, es decir, que no se co-
noce su resultado con certeza. En estos modelos existe una cierta
probabilidad de encontrar cada uno de los posibles resultados; es
decir que el modelo tiene un cierto grado de incertidumbre.
Un ejemplo histórico acerca de un modelo matemático ((confirmado)) (no des-

cartado) por un resultado experimental puramente negativo serı́a el clásico
9
del desarrollo de la Teorı́a de la Relatividad Especial de Albert Einstein
(1905) y su relación con el experimento de Michelson-Morley acerca de la
existencia del denominado ((éter)) (1887). En el siglo XIX se pensaba que
la luz se propagaba en un medio desconocido llamado éter. El experimento
de Michelson-Morley se basaba en estudiar la velocidad relativa a la que se
movı́a la Tierra respecto al éter: la velocidad de la luz que proviene del Sol
deberı́a tener entonces diferentes valores en función de la época del año y
de la posición de la Tierra respecto al éter. Michelson desarrolló un sistema
óptico de gran precisión que permitió concluir que no existı́a ninguna varia-
ción apreciable en la velocidad de la luz durante el movimiento de la Tierra
alrededor del Sol. Este resultado dejó completamente desconcertados a los
fı́sicos de la época y no fue hasta la publicación de la Relatividad Especial
de Einstein (y su posterior y lenta aceptación) que se encontró una interpre-
tación satisfactoria a este experimento (la velocidad de la luz es constante
y el éter no existe).
En 1907 se le concedió el premio Nobel de Fı́sica a Michelson por sus contri-
buciones al desarrollo y precisión de las mediciones experimentales mediante
técnicas ópticas (no por la ((confirmación)) experimental de la Relatividad
de Einstein, que en ese momento se consideraba de forma general como algo
puramente especulativo). En el discurso de presentación del premio, a cargo
de K.B. Hasselberg, este leyó lo siguiente:
((En cuanto a la Fı́sica, se ha desarrollado notablemente como una ciencia
de precisión, de tal manera que podemos afirmar justificadamente que la
mayorı́a de los grandes descubrimientos en Fı́sica están basados en su mayor
parte en el alto grado de precisión que puede obtenerse ahora en medidas
tomadas durante el estudio de los fenómenos fı́sicos. [La precisión de la
medida] es la auténtica raı́z, la condición esencial, de nuestra penetración
en las profundidades de las leyes de la Fı́sica, nuestra única vı́a hacia nuevos
descubrimientos.))1
Subyace en estas palabras la creencia general entre la comunidad cientı́fica
de finales del siglo XIX y principios del XX de que toda la Fı́sica esta-
1
Texto traducido al castellano extraı́do de ((Generaciones Cuánticas)) de H. Kragh [3]. El parrafo
en inglés procede a su vez de ((Thematic Origins Of Scientific Thought: Kepler to Einstein)) de G. Holton
[4].
10
Introducción
ba finalizada y que lo único que restaba eran medidas más precisas de los
fenómenos naturales; algo que se demostró falso, gracias entre otros y preci-
samente, al experimento de Michelson sobre la velocidad de la luz. Es decir,
el grado de precisión y la exactitud son fundamentales en la actividad ex-
perimental de las Ciencias Fı́sicas. Sin una precisión adecuada y un método
experimental sofisticado, Michelson no podrı́a haber llegado a una conclu-
sión sobre los resultados de su experimento. En tal caso, los experimentos
negativos pueden ser incluso más alumbradores que aquellos que confirman
una teorı́a, ya que proporcionan un enunciado que es completamente cierto:
si no coincide con el experimento, el modelo fı́sico es incorrecto, al menos
para explicar el fenómeno en cuestión.
Los conceptos de precisión y exactitud ya fueron tratados en el curso de
Técnicas Experimentales I, ası́ como una pequeña introducción al análisis
de errores y a la metodologı́a experimental. Todos estos conocimientos se
dan por supuestos en este texto. En este curso se realiza primero una in-
troducción a la Estadı́stica en el capı́tulo 1, enfocada especialmente en la
probabilidad y las distribuciones. En el capı́tulo 2 se aplica lo aprendido
en el capı́tulo anterior para ampliar conocimientos en métodos en ajus-
tes de datos a funciones y análisis de errores en regresiones lineales. A su
vez, se realiza una pequeña y necesariamente incompleta introducción a la
bondad de los ajustes y al contraste de hipótesis. En el capı́tulo 3 se desa-
rrollan métodos de análisis de señales enfocados al filtrado de las mismas.
Es recomendable que el estudiante curse o esté cursando simultáneamen-
te la asignatura Teorı́a de Circuitos y Electrónica, donde se explican los
diseños básicos de circuitos integradores y derivadores con amplificadores
operacionales (filtros activos de primer orden). El último capı́tulo antes de
los anexos consiste en un resumen detallado de los diferentes sistemas de
unidades que aparecen en Electromagnetismo. Este texto se completa con
cuatro anexos: el primero contiene varios ejemplos desarrollados (adaptados
de exámenes de la asignatura) de análisis de datos de acuerdo a lo explica-
do en los primeros capı́tulos. Los anexos segundo y tercero versan sobre el
cálculo de integrales gaussianas y la probabilida de la distribución normal
tipificada. El cuarto anexo contiene material adicional relacionado con la
teorı́a de filtrado del capı́tulo 3. Cada uno de los cuatro primeros capı́tulos
contiene ejercicios resueltos y una pequeña selección de ejercicios finales de
11
autoevaluación. La solución a estos ejercicios puede encontrarse al final de
este texto, justo antes de la bibliografı́a.
12
Tema 1
INTRODUCCIÓN A LA ESTADÍSTICA
1. PROBABILIDAD Y ESTADÍSTICA
El concepto de probabilidad no es más que una medida cuantitativa de

la posibilidad. Al decir que un determinado fenómeno tiene una probabili-
dad de ocurrencia, estamos dando información sobre cuán probable es que
dicho fenómeno ocurra. Inherente a esta medida de probabilidad está el he-
cho de desconocer, en general, todos los parámetros que determinan que el
fenómeno ocurra o no. Hablamos por tanto con un cierto margen de error
en nuestra afirmación, pues simplemente damos una aproximación que bien
puede darse, o no. La idea intuitiva de la probabilidad es que es una medida
que, cuanto mayor sea, más posibilidades tendrá de suceder. Ası́, asignamos
a un determinado suceso una probabilidad determinada, acotada entre cier-
tos lı́mites, que nos permite determinar, en su conjunto, cómo de probables
son todos los sucesos asociados a un fenómeno.
1.1. Variables aleatorias discretas
Llamamos variable aleatoria discreta xi al suceso dentro de un conjunto

de posibles eventos X = {x1 , x2 , x3 , . . . , xN } caracterizado por una medida
de la probabilidad P (xi ) que verifica:
1. La probabilidad de que ocurra el suceso xi es mayor o igual que cero:
P (xi ) ≥ 0 . (1.1)
2. La suma de las probabilidades de todos los sucesos posibles es igual a
13
la unidad (lo que llamamos condición de normalización):
X
N
P (xi ) = 1 . (1.2)
i=1
Basándonos en estas propiedades definimos un suceso seguro como aquel

con probabilidad P (xi ) = 1. Equivalentemente, definimos un suceso impo-
sible como aquel con probabilidad P (xi ) = 0. Cualquier otro suceso tendrá
una probabilidad P (xi ) > 0.
Formalmente decimos que la probabilidad P (x) de que ocurra el suceso
x ∈ X conforma la distribución de probabilidad de X.
A partir de la probabilidad de que tengamos un determinado suceso, P (xi ),
podemos preguntarnos por la probabilidad de sucesos compuestos. Decimos
que si dos sucesos xi y xj son estadı́sticamente independientes (esto es,
que la probabilidad P (xi ) no depende de la probabilidad P (xj ), y viceversa)
entonces la probabilidad conjunta de que se den los sucesos xi y xj será
P (xi && xj ) = P (xi )P (xj ) , (1.3)
resultado que puede generalizarse para la probabilidad conjunta de N su-

cesos estadı́sticamente independientes:
Y
N
P (x1 && x2 && . . . && xN ) = P (xi ) . (1.4)
i=1
Por otro lado, si dos sucesos xi y xj son mutuamente excluyentes (esto es,
que no pueden darse a la vez), entonces la probabilidad de que se dé xi o
xj viene dada por
P (xi kxj ) = P (xi ) + P (xj ) , (1.5)
que igualmente puede generalizarse para la probabilidad de N sucesos mu-

tuamente excluyentes. De este modo, la probabilidad P (x ≤ xj ), que no es
más que la probabilidad de que se dé x1 o x2 o x3 . . . o xj (lo que se conoce
como función de distribución acumulativa, o CDF por sus siglas en
14
Introducción a la Estadı́stica
inglés), vendrá dada por

j
X
CDFx (xj ) = P (x ≤ xj ) = P (xi ) . (1.6)
i=1
Obviamente, por la condición de normalización inherente a cualquier distri-

bución de probabilidad, se tiene:
X
N
CDFx (N ) = P (xi ) = 1 . (1.7)
i=1
más información
Las propiedades anteriormente mencionadas para sucesos compuestos

distan de ser completamente generales. Hemos hecho hincapié en la ne-
cesidad de que los sucesos sean en un caso excluyentes entre sı́, en tanto
que en el otro deben ser estadı́sticamente independientes. Si pensamos
en el ejemplo de lanzar una moneda al aire, es fácil determinar que se
trata de sucesos excluyentes ya que cada uno de los posibles resultados
excluye al contrario.
En el caso de sucesos estadı́sticamente independientes, podemos pensar
en la probabilidad de que al realizar dos tiradas con un dado de seis
caras se obtenga un ((2)) en la primera tirada y un ((2)) en la segunda.
Parece lógico suponer que el resultado de la primera tirada no afectará
a las probabilidades de la segunda. Por el contrario, si nos pregunta-
mos por el hecho de que el primer número sea un ((2)) y que ambos
resultados sean números pares, es inmediato detectar que el resultado
de la primera tirada afecta, efectivamente, a la segunda.
El lector debe ser cuidadoso a la hora de asignar probabilidades com-
puestas pues no siempre resulta tan sencilla la asignación de las mismas
ni es fácil, a veces, detectar correlaciones entre eventos.
Supongamos entonces un conjunto de N sucesos independientes, que referen-

ciamos como X = {x1 , x2 , . . . , xN }, cada uno de ellos con una determinada
15
probabilidad P (xi ). Definimos el valor esperado de la variable aleatoria
discreta x (también llamado valor medio o primer momento) como
E(x) = x = hxi = µ
X
N
= xi P (xi ), (1.8)
i=1
donde hemos aprovechado para utilizar las notaciones más comunes que
hacen referencia al valor esperado. El resultado obtenido puede generalizarse
al valor esperado de cualquier función f (x) que dependa de la variable
aleatoria x, que se define como
X
N
f (x) = f (xi )P (xi ). (1.9)
i=1
La desviación respecto del valor esperado se define como ∆x = x − x, a

partir de la cual se definen los llamados momentos centrales. El momento
central de primer orden, esto es, la desviación media del valor medio, es
∆x = x − x = x − x = 0. (1.10)
El momento central de segundo orden (también llamada varianza) se

define como

Var(x) = (∆x)2 = (∆x)2 = σ 2
= (x − x)2 = x2 − 2xx + x2 = x2 − 2x x + x2 = x2 − x2 . (1.11)
Notemos que por la definición (1.9) la varianza puede escribirse también

como
X
(∆x)2 = (xi − x)2 P (xi ) . (1.12)
i
Definimos finalmente la desviación estándar como la raı́z cuadrada de la

varianza,
q
σx = (∆x)2 . (1.13)
16
Siguiendo este mismo procedimiento, y conocida la distribución de probabi-

lidad, pueden calcularse (si existen) sus infinitos momentos. El caso recı́pro-
co es en general también cierto, y a partir del conocimiento de los infinitos
momentos (formalmente, la función generadora de momentos) es po-
sible determinar la distribución de probabilidad. Veremos no obstante más
adelante que en muchas ocasiones basta conocer los dos primeros momentos
para definir la distribución de probabilidad.
1.2. Distribución discreta uniforme.
De todas las distribuciones de probabilidad existentes, quizás la más simple

sea la llamada distribución (de probabilidad discreta) uniforme. Se
dice que una distribución discreta de probabilidad es uniforme cuando todos
los posibles valores de la variable aleatoria x son igualmente probables, esto
es:
1
P (x) = f (xi ; N ) = , (1.14)
N
siendo N el número de posibles valores que puede tomar el conjunto X =
{x1 , x2 , x3 , . . . , xN }. Notemos que se ha utilizado la notación f (xi ; N ), ya
que la distribución de probabilidad solo depende del parámetro N , es decir,
del número total de posibles resultados del experimento.
Es fácil ver que, en efecto, esta distribución está normalizada:
X
N XN
1 1
f (xi ; N ) = = N = 1.
i=1 i=1
N N
Las expresiones para la media y la varianza son:

X
N
1 X
N
µ= xi f (xi ; N ) = xi , (1.15)
i=1
N i=1
XN
1 X
N
2 2
σ = (xi − µ) f (xi ; N ) = (xi − µ)2 . (1.16)
i=1
N i=1
17
Ejercicio 1.1 Sea un experimento que consiste en lanzar un dado de seis
caras y observar el resultado. Sabemos que el conjunto de sucesos posible
es X = {1, 2, 3, 4, 5, 6}, con un total de N = 6 posibilidades. Suponiendo
que el dado no esté trucado obtenga el valor medio, la varianza y la
desviación estándar.
Solución
Al informarnos de que el dado no está trucado, nos indican que ((a priori))
podemos considerar que todos los resultados son igualmente probables.
Ası́, la distribución de probabilidad de la variable aleatoria x (esto es,
la probabilidad de que en un lanzamiento se obtenga el valor x) sigue
una distribución discreta uniforme. Dado que los resultados posibles son
N = 6, asignamos a cada uno de ellos una probabilidad P (x) = 1/6, que
cumple por supuesto con la condición de normalización (1.2). El valor
medio de una tirada puede calcularse entonces como:
1X
6
1+2+3+4+5+6
µ= xi = = 3,5 ,
6 i=1 6
y la varianza y la desviación estándar serán:

P
1X
6
2 (xi − 3,5)2
σ = (xi − µ)2 = ' 2,92 ,
6 i=1 6
p
σ = 2,92 ' 1,71 .
Una pregunta interesante aquı́ serı́a ¿cuál es la probabilidad de que en

una tirada del dado se obtenga, justamente, el valor medio de la distri-
bución de probabilidad?
18
más información
El ejercicio anterior ilustra lo que se conoce como principio de indife-

rencia: si tenemos un conjunto de N sucesos, mutuamente excluyentes
y colectivamente exhaustivos, que se diferencian únicamente en el nom-
bre, entonces podemos asignar a cada uno de ellos una probabilidad N1 .
Aquı́, por mutuamente excluyentes queremos decir que los sucesos
no pueden darse a la vez (en el ejemplo, que salga un ((1)) implica que
no ha salido ((2)), ni un ((3)). . . ). Colectivamente exhaustivos nos
indica que el conjunto de todos los posibles sucesos constituyen el total
del espacio muestral (el ((1)), el ((2)), el ((3)), etc. conforman todas las
posibles opciones al tirar el dado).
1.3. Distribución binomial.
Supongamos una variable aleatoria discreta que solo puede tomar dos valo-
res que son, además, excluyentes entre sı́. Podemos pensar en un experimen-
to como lanzar una moneda al aire, donde los únicos resultados posibles son
que salga cara o que salga cruz. La variable aleatoria ((lado que muestra la
moneda al caer al suelo)), que simplificaremos por x, tendrá una determinada
distribución de probabilidad que, a priori, podemos suponer uniforme.
Generalicemos este experimento al caso de que nuestra variable aleatoria
no siga una distribución de probabilidad uniforme. Sı́ seguirá, desde lue-
go, una determinada distribución. Llamemos a las dos posibilidades ((éxito))
y ((fracaso)). La probabilidad de que la variable aleatoria x tome el valor
((éxito)) la denotaremos por p, de modo que la probabilidad de fracaso será
q = 1 − p.1 Un experimento de este tipo se denomina un ensayo de Ber-
noulli.
La distribución de probabilidad del ensayo de Bernoulli puede obtenerse
considerando una variable aleatoria discreta x ∈ {0, 1}, donde ((0)) se co-
1
Notemos que la condición de normalización p + q = 1 determina unı́vocamente el valor de q a
partir del conocimiento de p.
19
rresponde a la posibilidad ((fracaso)) y ((1)) a la posibilidad ((éxito)). Si la
probabilidad de obtener un 0 es q y la probabilidad de obtener un 1 es p,
podemos considerar la distribución siguiente:
f (x) = px q 1−x , (1.17)
que, observemos, verifica inmediatamente f (0) = q y f (1) = p. El valor

medio y la varianza de esta distribución de probabilidad son:
X
1
µ= xf (x) = 0 × q + 1 × p = p , (1.18)
x=0
X1
σ2 = x2 f (x) − µ2 = 02 × q + 12 × p − p2 = p(1 − p) = pq . (1.19)
x=0
La generalización de este ensayo, con N repeticiones indistinguibles entre

sı́, y con probabilidades p y q constantes, se dice que es un proceso de
Bernoulli.
más información
Algunos ejemplos de procesos de Bernoulli son los siguientes: la prueba

de artı́culos en una cadena de montaje para ver si son defectuosos o no,
la extracción de una carta de una baraja para ver si es de un palo o no
(en este caso es importante devolver la carta extraı́da en cada ensayo
a la baraja después de verificar si es del palo elegido o no lo es), la
observación del sexo de un bebe recién nacido, etc.
Nos preguntamos ahora por una variable que cuantifique el número de éxi-
tos de un proceso de Bernoulli. Esta variable se define como variable
aleatoria binomial. Sabemos que tomará valores en el conjunto X =
{0, 1, 2, 3, . . . , N }, donde N es el número de veces que se repite cada en-
sayo de Bernoulli. La distribución de probabilidad asociada a esta variable
se denomina distribución binomial y viene representada por
P (x) = b(x; N, p) , (1.20)
20
donde p representa la probabilidad de que tengamos un éxito, (recordemos

que entonces q = 1 − p es la probabilidad de que se dé un fracaso) y N es el
número de repeticiones del experimento. La expresión de b(x; N, p) puede
calcularse considerando la probabilidad de obtener x éxitos con probabilidad
p y por tanto N − x fracasos con probabilidad q en un orden determinado.
Teniendo en cuenta que los N ensayos son independientes, la probabilidad
de que se dé una configuración particular de resultados será el producto de
las probabilidades de cada uno de los ensayos, es decir2 ,
x N −x
z }| {z }| {
(p × p × p · · · p) (q × q × q · · · q) = px q N −x . (1.21)
¿Y cuántas configuraciones dan lugar a esta probabilidad? Tantas como

formas hay de ordenar N elementos en dos grupos, uno de los cuales tiene
x elementos iguales entre sı́ y otro tiene N − x elementos también iguales
entre sı́. Esto no es más que el número de permutaciones con repetición
N!
PNx,N −x = . (1.22)
x!(N − x)!
Ası́, la probabilidad de obtener x éxitos cuando se han realizado N experi-
mentos, es decir, la llamada distribución binomial, viene dada por
N!
b(x; N, p) = px q N −x . (1.23)
x!(N − x)!
La figura 1.1 muestra la distribución de probabilidad binomial para un mis-

mo conjunto de ensayos N = 10 y distintas probabilidades de éxito. En
rojo, p = 0,25; en verde, p = 0,50. Obsérvese la asimetrı́a para el valor
p = 0,25 (generalizable a todo p 6= 0,5), ası́ como la simetrı́a para p = 0,50.
Un aspecto importante de la distribución binomial es que es, recordemos,
discreta, de modo que solo tiene sentido representarla para valores de x ∈ N.
El hecho de que la variable binomial pueda expresarse como la repetición
de N ensayos independientes de Bernoulli nos permite calcular los primeros
momentos de la distribución binomial. Por lo que respecta al valor medio,
2
Observemos que para N = 1 recuperamos la distribución de probabilidad de Bernoulli (1.17).
21
0.30
p = 0,25
p = 0,50
0.25
0.20
P (xi )
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10
xi
Figura 1.1. Distribución binomial para N = 10 ensayos, con una probabilidad p = 0,25 (en rojo) y
p = 0,50 (en verde). Observemos que la distribución binomial es simétrica en caso de que p = q y presenta
asimetrı́a hacia la derecha (de forma que serán más probables los valores pequeños de x) cuando p < q.
Recı́procamente, existirá asimetrı́a a la izquierda si p > q.
este no será más que la suma de los valores medios de cada uno de los
ensayos (dados por la ecuación (1.18)), es decir,
µ = Np . (1.24)
Lo mismo ocurre con la varianza y la desviación tı́pica, que pueden obtenerse
directamente de la ecuación (1.19) como
σ 2 = N pq , (1.25)
p
σ = N pq . (1.26)
Ejercicio 1.2 Supongamos que un jugador de baloncesto tiene que tirar

3 tiros libres. Sabemos que su promedio de acierto en cada lanzamiento
es del 80 %. Obtenga las probabilidades de que enceste 1, 2 o 3 canastas.
Solución
Utilicemos la siguiente notación: S = canasta, N = fallo y x el núme-
ro de canastas. Supongamos que nuestro jugador es capaz de mantener
22
el temple tras cada lanzamiento y que, por tanto, el resultado de cada

lanzamiento es independiente del anterior. Ası́, podemos calcular la pro-
babilidad de encestar 1, 2 o 3 canastas como el producto de cada una
de las probabilidades individuales. Dado que conocemos la probabilidad
de cada suceso (P (S) = 0,8 y P (N ) = 0,2) y estos son estadı́sticamente
independientes podemos hacer un cálculo por ((fuerza bruta)) de todas
las posibilidades que pueden darse al tirar tres tiros libres:
P (SSS) = P (S)P (S)P (S) = 0,512

P (SSN ) = P (S)P (S)P (N ) = 0,128
P (SN S) = P (S)P (N )P (S) = 0,128
P (SN N ) = P (S)P (N )P (N ) = 0,032
P (N SS) = P (N )P (S)P (S) = 0,128
P (N SN ) = P (N )P (S)P (N ) = 0,032
P (N N S) = P (N )P (N )P (S) = 0,032
P (N N N ) = P (N )P (N )P (N ) = 0,008
Una vez hemos obtenido las distintas probabilidades de todos los posibles
sucesos, podemos calcular la probabilidad de que el jugador enceste 0,
1, 2 o 3 canastas. Bastarı́a con sumar, para cada una de las situaciones
planteadas, aquellos sucesos que dan lugar a la misma. Ası́
P (x = 0) = 0,008, que es la probabilidad del suceso P (N N N ).
P (x = 1) = 3×0,032 = 0,096, que es la suma de los casos P (N N S),

P (N SN ), P (SN N ).
P (x = 2) = 3×0,128 = 0,384, que es la suma de los casos P (N SS),

P (SN S), P (SSN ).
P (x = 3) = 0,512, que es la probabilidad del suceso P (SSS).
Vemos que es inmediato comprobar que la probabilidad de que acierte

0, 1, 2 o 3 canastas es igual a la unidad, verificando la propiedad de
normalización que se exige a cualquier distribución de probabilidad.
23
Ejercicio 1.3 Realice el mismo cálculo que en el ejercicio anterior pero
usando la forma funcional explı́cita de la distribución de probabilidad
(distribución binomial).
Solución
En efecto, las posibles combinaciones de cada número de encestes te-
niendo en cuenta que hay tres lanzamientos resulta ser:
3!
P33,0 = = 1, 3 encestes, 0 fallos.
3!0!
3!
P32,1 = = 3, 2 encestes, 1 fallo.
2!1!
3!
P31,2 = = 3, 1 enceste, 2 fallos.
1!2!
3!
P30,3 = = 1, 0 encestes, 3 fallos.
0!3!
Y para calcular la probabilidad de uno, dos o tres encestes, debemos

tener en cuenta la distribución binomial y las posibles combinaciones en
el número de encestes. Ası́, tendremos que la probabilidad de que haya
x encestes de N intentos es
b(x; N, p) = Pnx,N −x px q N −x ,
por lo que calcular todas las probabilidades es inmediato:
b(3; 3, 0,8) = P33,0 p3 q 0 = 0,512

b(2; 3, 0,8) = P32,1 p2 q 1 = 0,384
b(1; 3, 0,8) = P31,2 p1 q 2 = 0,096
b(0; 3, 0,8) = P30,3 p0 q 2 = 0,008
que coincide, como cabrı́a esperar, con los resultados realizados por fuer-
za bruta en el ejercicio anterior.
Conocida la distribución de probabilidad podrı́amos responder a cual-
quier cuestión. Por ejemplo, si queremos saber cuál es la probabilidad
24
de que el jugador acierte dos o más lanzamientos:
X
3
P (x ≥ 2) = b(x; 3, 0,8) = 0,384 + 0,512 = 0,896 .
x=2
Como ejercicio, el estudiante podrı́a tratar de calcular la probabilidad

de que el jugador haya encestado, al menos, una canasta.
1.4. Distribución de Poisson
Consideremos ahora un experimento aleatorio en el que se trata de medir

el número de resultados, o sucesos de un tipo dado y que se producen en
un intervalo continuo. El intervalo podrı́a ser una franja horaria, una zona
del espacio, una región de un paı́s, etc. Ejemplos de experimentos de este
tipo podrı́an ser el número de partı́culas radiactivas emitidas por un reactor
nuclear en un determinado dı́a, el número de estrellas que se observan en
una galaxia, etc. Diremos que estos datos siguen una proceso de Poisson
cuando cumplen las siguientes condiciones:
1. El número de resultados que se ven en un intervalo es independiente

del número que se ven en otro intervalo disjunto. Es decir, los sucesos
aparecen aleatoriamente de forma independiente.
2. La probabilidad de obtener un resultado en un intervalo pequeño es
proporcional a la longitud del intervalo. Además, esa probabilidad
permanece constante, de forma que se puede definir un número medio
de resultados por unidad de intervalo. Se dice entonces que el proceso
es estable.
3. La probabilidad de obtener más de un resultado en un intervalo sufi-
cientemente pequeño es despreciable. Esto es, si el tamaño del interva-
lo tiende a cero, la probabilidad de que se den dos (o más) resultados
en él es cero.
Se define entonces la variable aleatoria de Poisson como el número de
25
resultados que aparecen en un experimento que sigue el proceso de Poisson.
El rango de valores que toma la variable de Poisson será X = {0, 1, 2, . . .}.
La distribución de probabilidad asociada a esta variable se denomina distri-
bución de Poisson y dependerá, fundamentalmente, del número medio de
resultados (sucesos) por intervalo, que denotaremos por λ. La distribución
de Poisson se escribe como:
P (x) = p(x; λ) . (1.27)
La distribución de Poisson aparece como el lı́mite de la distribucion bino-

mial cuando el número de observaciones N es muy grande y la probabilidad
de que en una observación tengamos un suceso es muy pequeña. La idea
subyacente consiste en dividir el intervalo de observación en N intervalos
muy pequeños (formalmente, con N → ∞). De esta forma, la probabilidad
de que en cualquiera de los intervalos ocurra un evento exitoso será des-
preciable3 (formalmente p → 0) y, en vez de observar cuántos resultados
satisfactorios hay en el intervalo total, contamos en cuántos subintervalos
hay un resultado exitoso. Este proceso sigue una distribución de Bernoulli
(en cada subintervalo tenemos solo dos posibilidades, excluyentes entre sı́ e
independientes del resto de subintervalos). Podemos obtener la forma fun-
cional explı́cita de la distribución de Poisson partiendo de la distribución de
probabilidad binomial (1.23):
N! (1 − p)N
b(x; N, p) = px . (1.28)
x!(N − x)! (1 − p)x
Si expandimos el factorial de las permutaciones PNx,N −x y recordamos que
el valor medio de la distribución binomial es µ = N p = λ podemos escribir
N
N (N − 1)(N − 2) . . . (N − x + 1) λx 1 − Nλ
b(x; N, p) = x , (1.29)
Nx x! 1 − Nλ
y tomando el lı́mite N → ∞ y p → 0 (de modo que λ sea una cantidad
finita) llegamos a la distribución de Poisson
λx −λ
p(x; λ) = lı́m b(x; N, p) ' e . (1.30)
N →∞ x!
p→0
3
Por este motivo es común hablar de ((eventos raros)) al estudiar la variable de Poisson.
26
La distribución de Poisson se caracteriza porque su valor medio µ y su va-

rianza σ 2 coinciden con el parámetro λ. Ası́, la distribución de probabilidad
queda completamente caracterizada sin más que conocer dicho valor medio.
La figura 1.2 compara las distribuciones binomial y de Poisson para un
mismo valor de N = 100 y p = 0,05. Nótese la asimetrı́a existente en las dos
ramas (a izquierda y derecha del valor medio µ = λ = 5). Si aumentamos
suficientemente el número de experimentos N y disminuimos la probabilidad
de ocurrencia p, observaremos que las diferencias entre ambas distribuciones
de probabilidad terminan siendo despreciables.
0.20
Binomia
0.18 Poisson
0.16
0.14
0.12
P (xi )
0.10
0.08
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16 18 20
xi
Figura 1.2. Comparación entre distribuciones binomial (en aspas rojas) y de Poisson (en cuadrados
verdes) para un mismo valor de N = 100 y p = 0,05.
En el caso de la distribución de Poisson, la CDF será:

X λ xi
CDFX (x) = e−λ .
x ≤x
x i !
i
La figura 1.3 muestra la CDF para una distribución de probabilidad de

Poisson con valores λ = 1,0 (rojo), λ = 5,0 (verde) y λ = 10,0 (azul). En
todos los casos se observa como, efectivamente, la CDF tiende a la unidad,
verificando la condición de normalización.
27
1.0
CDF(p(x, λ)) 0.8
0.6
0.4
0.2
0.0
0 5 10 15 20
x
Figura 1.3. Función de distribución acumulativa para la distribución de Poisson y distintos valores de λ:
λ = 1,0 (rojo), λ = 5,0 (verde) y λ = 10,0 (azul).
más información
Las aplicaciones de la distribución de Poisson son muy numerosas, des-

de el control de calidad y el muestreo de aceptación, hasta problemas
fı́sicos en los que se mide un número de sucesos, número de casos, etc.
Además, esta distribución siempre puede sustituir a distribuciones bi-
nomiales en experimentos en los que se dan muchos sucesos y en los
que la probabilidad de éxito es pequeña, es decir, en aquellas en las que
el producto N p es finito.
Ejercicio 1.4 Supongamos que disponemos de acceso a un detector

astronómico al que llegan, en promedio, 3 fotones por segundo. Calcule
la probabilidad de que lleguen 1, 2, 3, 4, . . . fotones por segundo.
Solución
Este problema sigue una distribución de Poisson con parámetro λ = 3.
28
Por tanto, su función de distribución de probabilidad es:

3x −3
p(x; 3) = e .
x!
Utilizando esta fórmula obtenemos algunos de los valores de la distribu-

ción:
p(0, 3) = 0,05, p(1, 3) = 0,15, p(2, 3) = 0,22,

p(3, 3) = 0,22, p(4, 3) = 0,17, p(5, 3) = 0,05, . . .
También podemos calcular las distribuciones acumuladas, por ejemplo,

la probabilidad de que lleguen 3 o menos fotones:
P (X ≤ 3) = p(0, 3) + p(1, 3) + p(2, 3) + p(3, 3) = 0,64 ,
o la probabilidad de que lleguen entre 1 y 4 fotones:
P (1 ≤ X ≤ 4) = p(1, 3) + p(2, 3) + p(3, 3) + p(4, 3) = 0,76 .
1.5. Variables aleatorias continuas
Hasta el momento nos hemos referido a variables aleatorias discretas, ca-

racterizadas por una determinada distribución de probabilidad y con unas
propiedades de normalización dadas por la suma de cada una de las pro-
babilidades individuales. Por supuesto, podemos extrapolar las definiciones
anteriores a variables aleatorias continuas. Si una determinada variable alea-
toria x es continua, definimos su función de densidad de probabilidad
ρ(x) de modo que ρ(x)dx es la probabilidad de que la variable x tome un
valor comprendido entre x y x + dx. Ası́, la probabilidad de que la variable
aleatoria x tome un valor comprendido entre x1 y x2 vendrá dada por la
29
integral
Z x2
dx ρ(x), (1.31)
x1
que, recordemos, no es más que el área encerrada bajo la curva ρ(x) en el

intervalo (x1 , x2 ).
Los primeros momentos de una variable aleatoria continua se definen del
siguiente modo:
Z ∞
x= dx xρ(x) = µ , (1.32)
−∞
Z ∞
x2 = dx x2 ρ(x) . (1.33)
−∞
La varianza se define, por analogı́a con el caso discreto, como

Z ∞
2
σ = dx (x − µ)2 ρ(x) . (1.34)
−∞
Por supuesto, la condición de normalización tendrá ahora la forma

Z ∞
dx ρ(x) = 1 . (1.35)
−∞
1.6. Distribución continua uniforme
Se dice que una variable aleatoria continua x sigue una distribución conti-
nua uniforme cuando su función de densidad de probabilidad, ρ(x), toma
valores constantes en el intervalo [a, b]. Es decir, se cumple que ρ(x) = K en
ese intervalo y, por tanto, la probabilidad de que tome un valor en cualquier
subintervalo (dentro de ese intervalo) es la misma. Para calcular el valor de
la constante basta con imponer la condición de normalización de la función
de densidad:
Z ∞ Z b
1= ρ(x)dx = ρ(x)dx
−∞ a
Z b (1.36)
1
= Kdx = K(b − a) ⇒ K = .
a (b − a)
30
La densidad de probabilidad es por tanto constante y de valor

1
ρ(x) = (1.37)
b−a
dentro del intervalo [a, b] y cero fuera de él.
Podemos calcular la función de distribución acumulada CDF(x) cuando x
se encuentra dentro del intervalo [a, b], que no será más que
Z x Z x
1 x−a
P (X < x) = ρ(t)dt = dt = , (1.38)
−∞ a b−a b−a
lo que nos indica que la función de distribución acumulada es cero en todos

los puntos salvo en el intervalo [a, b] donde toma la forma (x−a)/(b−a). Esta
expresión es una función lineal que comienza en 0 y crece linealmente hasta
el valor 1 en el otro extremo, asegurando la normalización de la densidad
de probabilidad.
El cálculo del primer momento y del momento central de segundo orden es
inmediato:
Z ∞ Z b
1 a+b
µ= xρ(x)dx = x = ,
−∞ a b−a 2
Z ∞ Z b 2
2 2 a+b dx
σ = (x − µ) ρ(x)dx = x−
−∞ a 2 b−a
(b − a)2
= ,
12
de modo que la desviación estándar será
b−a
σ= √ . (1.39)
12
Ejercicio 1.5 El volumen de precipitaciones en una ciudad en un de-

terminado año se estima que oscilará entre 400 litros y 500 litros por
metro cuadrado. Calcule la densidad de probabilidad de la variable alea-
toria ((litros por metro cuadrado)) en esta ciudad, la precipitación media
esperada y el error que se comete al realizar esta predicción.
31
Solución
Puesto que no existe ninguna regla para diferenciar entre sı́ dos interva-
los de precipitación (existe la misma probabilidad de que caigan entre
405 l y 406 l, de que caigan entre 411 l y 412 l, entre 489 l y 490 l,
etc.), el principio de indiferencia nos permite suponer que la probabili-
dad es constante en todo el intervalo. Sabiendo esto, podemos calcular
la densidad de probabilidad como
1
ρ(x) = l−1 = 0,01 l−1 .
500 − 400
Recordemos que una vez obtenida la densidad de probabilidad, la pro-

babilidad de que caiga una cierta cantidad de agua entre x y x + dx
será
ρ(x)dx = 0,01 l−1 dx . (1.40)
Es fácil comprobar que la probabilidad de que caigan entre 400 y 500
litros será entonces
ρ(400) × (500 − 400) l = 0,01 × 100 = 1 , (1.41)
lo que coincide con el enunciado del problema tal y como cabrı́a esperar.
La precipitación media esperada es el valor medio de la densidad de
probabilidad:
a+b 400 + 500
µ= = l = 450 l .
2 2
Podemos tomar como error la desviación tı́pica de la distribución, dada
por
b−a 500 − 400
σ= √ = √ l = 28,87 . . . l ' 30 l .
12 12
Finalmente, concluimos que la precipitación media esperada para ese

año será:
p = (450 ± 30) l .
32
1.7. Distribución normal.
La distribución normal (también llamada distribución gaussiana) es,

sin duda, la más importante de toda la Estadı́stica. Esto se debe a que mu-
chos fenómenos de la naturaleza pueden ser descritos por una distribución
de este tipo. También muchas medidas de magnitudes fı́sicas suelen seguir
esta distribución. La altura de los individuos de una determinada pobla-
ción, las medidas de calidad de algunos procesos industriales, o las medidas
de temperatura que se dan en una determinada región del mundo, pueden
aproximarse muy bien por distribuciones normales.
Se da la circunstancia de la que distribución normal puede obtenerse como el
lı́mite para N → ∞ de la distribución binomial. Si recordamos el desarrollo
de la distribución de Poisson y su obtención a partir de la binomial, podemos
obtener para el caso de p < ∞ la distribución normal. Esto nos indica, una
vez más, su gran importancia en procesos fı́sicos.
Definición y propiedades.
Se dice que una variable aleatoria x sigue una distribución normal de

media µ y desviación tı́pica σ si su función de densidad de probabilidad es:
1 (x−µ)2
ρ(x) = Nµ,σ (x) = √ e− 2σ2 . (1.42)
σ 2π
La distribución de probabilidad gaussiana queda ası́ completamente deter-
minada si conocemos los dos primeros momentos µ y σ 2 . Puede comprobarse
que esta distribución está correctamente normalizada sin más que conside-
rar el cambio de variable z = (x − µ)/σ (de modo que dx = σdz). Ası́,
podemos escribir
Z ∞ Z ∞
1 2
ρ(x)dx = e−z /2 dz = 1 , (1.43)
−∞ 2π −∞
donde hemos usado el cálculo de la integral gaussiana (B.8) del Apéndice
B.
La figura 1.4 muestra la distribución de probabilidad gaussiana en el entorno
del valor medio µ. Tiene la forma de una campana (llamada campana
33
normal o de Gauss) y simétrica (por depender de x a través del término
(x − µ)2 ). La distribución está centrada en µ y su anchura es proporcional a
σ. El máximo de la densidad de probabilidad se produce en x = µ, Se puede
demostrar que los puntos de inflexión de la curva normal están situados en
µ − σ y µ + σ. La curva tiende de forma asintótica a cero al alejarse del valor
medio. Además, la condición de normalización asegura que el área entre la
curva normal y el eje X es igual a la unidad.
1.00
(2πσ 2 )−1/2 Nµ,σ (x)
0.75
0.50
0.25
0.00
µ − 3σ µ − 2σ µ−σ µ µ+σ µ + 2σ µ + 3σ
Figura 1.4. Distribución de probabilidad gaussiana, de media µ y desviación σ.
Es posible demostrar que los parámetros µ y σ de la distribución nor-

mal coinciden con la media y la desviación estándar de la distribución.
Apoyándonos en el cálculo de las integrales gaussianas que se describen en
34
el Apéndice B, podemos calcular el valor esperado E(x) como

Z ∞ Z ∞
1 (x − µ)2
E(x) = dx xρ(x) = √ dx x exp −
−∞ σ 2π −∞ 2σ 2
Z ∞ 2
1 z
=√ dz (µ + σz) exp −
2π −∞ 2
Z ∞ 2 Z ∞ 2
1 z 1 z
= µ√ dz exp − + σ√ dz z exp −
2π −∞ 2 2π −∞ 2
= µ,
donde se ha hecho el cambio de variable z = (x − µ)/σ y notamos que la

función z exp {−z 2 /2} es impar. Análogamente, el cálculo de la varianza es:
Z Z
∞
σ2 ∞
z2 σ2 √
Var(x) = (x − µ) ρ(x)dx = √ 2
e− 2 dz = √ 2π
−∞ 2π −∞ 2π
2
=σ .
0.20
Gauss
0.18 Binomia
Poisson
0.16
0.14
0.12
P (xi )
0.10
0.08
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16 18 20
xi
Figura 1.5. Comparación entre las distribuciones de Gauss, distribución binomial y de Poisson para
N = 100 ensayos, con una probabilidad p = 0,05.
35
A partir de la definición (1.42), vemos que la probabilidad de que x tome
un valor entre x1 y x2 puede calcularse formalmente como
Z x2
1 (x−µ)2
P (x1 < x < x2 ) = √ e− 2σ2 dx . (1.44)
σ 2π x1
Aunque el cálculo de esta integral para los lı́mites x1 → −∞ y x2 → ∞ es
inmediato (ver el Apéndice B), si los lı́mites son finitos la integral no tiene
solución analı́tica, lo que lleva a introducir la función error definida como:
Z x
2 2
erf(x) = √ e−t dt . (1.45)
π 0
La función error suele encontrarse tabulada en distintas fuentes. Nótese que,

en este caso, el valor de la función error sı́ depende de la forma funcional
0
explı́cita de t. De esta forma, si t = (t − µ)/2σ 2 , en función de los valores
de µ y σ el valor de la integral será uno u otro. La figura 1.6 muestra
por ejemplo tres distribuciones gaussianas con µ = 1, σ = 1 (en verde),
µ = 3, σ = 1 (en rojo) y µ = 3, σ = 2,5 (en azul). Observamos que el área
bajo la curva en el intervalo [0, 6], por ejemplo, es distinto en cada caso. La
tabla 1.1 muestra el valor de la integral, donde se observa la disparidad de
los resultados.
µ σ Área
1,0 1,0 0,8413
3,0 1,0 0,9973
3,0 2,5 0,7699
Tabla 1.1. Integrales de la función de distribución gaussiana para distintos valores de µ y σ en el intervalo
[0, 6].
Distribución normal tipificada.
Dada la dependencia de la integral de la distribución gaussiana con respecto

de su valor medio y su desviación, es frecuente definir una distribución
normal tipificada que permita, a partir de los valores tabulados de su
36
(µ, σ) = (1, 1) (µ, σ) = (3, 2.5) (µ, σ) = (3, 1)
0.40
0.30
Nµ,σ (x)
0.20
0.10
0.00
0.0 2.0 4.0 6.0 8.0 10.0
x
Figura 1.6. Distintas distribuciones de probabilidad gaussianas. En verde, µ = 1 y σ = 1. En rojo, µ = 3

y σ = 1. En azul, µ = 3 y σ = 2,5.
integral en determinados intervalos, obtener el valor de la integral original

para ese mismo intervalo. El procedimiento es análogo al que hemos seguido
en la sección anterior y consiste, partiendo de la distribución normal Nµ,σ (x),
en definir la distribución normal N0,1 (z), donde realizamos el cambio de
variable
x−µ
z= . (1.46)
σ
De esta forma, la probabilidad P (z ≤ zi ) de que la distribución normal
tipificada tome un valor z menor o igual que zi no es más que la función
de distribución acumulada (CDF) y se obtiene a partir del cálculo de la
integral correspondiente4
Z zi
1 z2
P (z ≤ zi ) = √ dz e− 2 .
2π −∞
Esta CDF se tabula por comodidad, tal y como se muestra en la tabla C.1
del apéndice C para distintos valores de zi .
4
Obsérvese la analogı́a con la función error (1.45).
37
Ejercicio 1.6 Supongamos una variable z que sigue una distribución
de probabilidad gaussiana de media nula y varianza unidad. ¿Cuál es
la probabilidad de que la variable z tome un valor menor o igual que
zi = 0,57?
Solución
La distribución que sigue la variable z es, directamente, la distribución
normal tipificada. En este caso, usando la tabla C.1, basta cruzar la fila
0,5 con la columna 0,07 de forma que P (z ≤ 0,57) = 0,7157 (marcado
en azul en la tabla). Esto es, la probabilidad de que la variable z tome
un valor menor o igual que zi = 0,57 es de un 71,57 %.
La tabla C.1 da, para la distribución normal tipificada, la probabilidad

P (z ≤ zi ). A partir de esta probabilidad es posible obtener las distintas
probabilidades sin más que tener en cuenta las siguientes propiedades:
1. Que la distribución normal tipificada está normalizada a la unidad.
2. Que la medida de la probabilidad se corresponde con el área bajo la

curva N0,1 (z).
De este modo si, por ejemplo, queremos calcular la probabilidad P (z > zi )

basta saber que
P (z > zi ) = 1 − P (z ≤ zi ). (1.47)
Del mismo modo, la probabilidad en un intervalo determinado será
P (zi ≤ z ≤ zj ) = P (z ≤ zj ) − P (z ≤ zi ). (1.48)
Por último, la probabilidad de que la distribución normal tipificada tome

un valor negativo es
P (z ≤ −zi ) = P (z > zi ) = 1 − P (z ≤ zi ). (1.49)
38
Ejercicio 1.7 La media de peso de 500 estudiantes de un colegio es

de 70 kg, mientras que la desviación tı́pica de la medida es de 3 kg.
Suponiendo que los pesos de los estudiantes se distribuyen siguiendo
una distribución normal, calcule cuántos estudiantes pesan entre 60 kg
y 75 kg, y cuántos de ellos pesan más de 72 kg.
Solución
El problema se resuelve sabiendo las correspondencias entre los valores de
los pesos de nuestra variable y los valores que corresponden a los mismos
en una distribución normal tipificada. Transformamos estos valores:
x1 − µ 60 − 70
Z1 = = = −3,33 ,
σ 3
x2 − µ 75 − 70
Z2 = = = 1,67 ,
σ 3
cuyos valores de probabilidad según la tabla tipificada son:
P (Z ≤ Z1 ) = 1 − P (Z ≤ −Z1 ) = 1 − 0,9996 = 0,0004 ,
P (Z ≤ Z2 ) = 0,9525 .
Ahora podemos calcular el valor de la probabilidad pedida:
P (60 ≤ X ≤ 75) = P (−3,33 ≤ Z ≤ 1,67)
= P (Z ≤ 1,67) − P (Z ≤ −3,33)
= 0,9525 − 0,0004 = 0,9521 ' 95 %
En el caso de considerar la probabilidad de que un estudiante pese más
de 72 kg, esta vendrá dada por la variable transformada
72 − 70
Z3 = ' 0,67 ,
3
cuya probabilidad tipificada es
P (Z ≤ Z3 ) = 0,7486 .
Tendremos entonces:
P (X > 72) = P (Z > 0,67) = 1 − P (Z ≤ 0,67)
= 1 − 0,7486 = 0,2514 ' 25 % .
39
1.8. Distribución χ2 de Pearson.
Si x1 , x2 , . . . , xN son N variables aleatorias que siguen una distribución de

probabilidad gaussiana con media cero y varianza unidad, independientes
entre sı́, entonces la variable XN2 = x21 + x22 + . . . + x2N recibe el nombre de
χ2N (((chi-cuadrado))) con N grados de libertad. La función de densidad de
probabilidad asociada a esta variable es la distribución χ2 de Pearson y
tiene la expresión:
(
0, si x < 0 ,
fN (x) = h N i−1 N (1.50)
x( 2 )−1 e− 2 , si x > 0 ,
N x
22Γ 2
donde la función gamma Γ(α) se define como:

Z ∞
Γ(α) = xα-1 e−x dx, α > 0 . (1.51)
0
más información
La función gamma aparece con frecuencia en muchos problemas de

estadı́stica. Si bien no tiene solución analı́tica general, sı́ que puede
verse fácilmente que verifica Γ(α + 1) = αΓ(α). Esto permite encontrar
una fórmula de recurrencia para α ∈ N, de modo que Γ(α) = (α − 1)! .
La función gamma se puede ası́ entender como una interpolación del
factorial de números naturales al dominio R.
La función χ2 solo toma valores positivos y depende de N , cantidad que se

denomina número de grados de libertad de la distribución. Para valores
de N pequeños esta distribución es muy asimétrica pero para valores de N
grandes es cada vez más simetrica. De hecho,p para valores de N mayores o
2
iguales a 30 podemos suponer que√ la variable 2χN se comporta como una
variable normal cuya media es 2N − 1 y su varianza es 1.
Una propiedad importante de las variables que siguen una distribución χ2
es que si r variables siguen esta distribución, cada una de ellas con grados de
40
N =1 N =3 N =5 N = 10 N = 50 N = 90
N =2 N =4 N = 30 N = 70
0.5 0.10
0.4 0.08
0.3 0.06
fN (x)
fN (x)
0.2 0.04
0.1 0.02
0 0.00
0 1 2 3 4 5 6 7 8 9 10 0 20 40 60 80 100
x x
Figura 1.7. Función de densidad de probabilidad de χ2N . Al aumentar el número de grados de libertad
la distribución toma una forma simétrica y cada vez más parecida a la distribución normal.
libertad N1 , N2 , . . . , Nr , entonces la ((variable suma)) sigue una distribución

de este tipo con N = N1 + N2 + . . . + Nr grados de libertad.
La media y la varianza de una distribución χ2 son:
µ = N, (1.52)
σ 2 = 2N . (1.53)
Aunque hablaremos de ella más adelante, merece la pena introducir la im-

portancia de la distribución χ2 en Estadı́stica. Si σ 2 es la varianza de una
población que sigue una distribución normal y s2 la varianza de una muestra
de tamaño N extraı́da al azar de la misma, entonces la variable aleatoria
que cambia de muestra a muestra viene dada por:
s2
χ2N −1 = (N − 1) (1.54)
σ2
y obedece a una distribución χ2 con (N − 1) grados de libertad. Esta pro-
piedad es muy importante para la estimación de la varianza y el contraste
de hipótesis.
41
1.9. Distribución t de Student.
Supongamos que tenemos N variables aleatorias {X1 , X2 , . . . , XN } indepen-

dientes entre sı́ y normalmente distribuidas, con media µ y varianza σ 2 . La
media y la varianza de este conjunto será
1 X
N
X= Xi ,
N i=1
1 X
N
2
s2N = Xi − X , (1.55)
N − 1 i=1
donde hemos introducido una corrección de Bessel en la varianza (cam-
biando el factor 1/N por 1/(N − 1)). En estas condiciones, se define la
variable aleatoria
X −µ Z
tN −1 = q =q 2
2
(1.56)
SN χN −1
N N −1
como una variable que sigue la distribución t de Student con N − 1 grados

de libertad y densidad de probabilidad
− N2+1
1 t2
f (t) = √ 1+ ; −∞ < t < ∞, (1.57)
N B 12 , N2 N
donde B(p, q) es la función beta, definida a partir de la función Γ(x) (1.51)
como:
Γ(p)Γ(q)
β(p, q) = . (1.58)
Γ(p + q)
La función de densidad de esta distribución solo depende del número de

grados de libertad N . Tal y como se observa en la figura 1.8 es simétrica
respecto de t = 0 (debido al factor t2 ). Es una función campaniforme y
tanto más achatada cuanto menor sea el valor de N .
Los valores de la media y la desviación tı́pica de la densidad de probabilidad
son µ = 0 y σ 2 = N/(N − 2), respectivamente. Para valores de N grandes
la varianza tiende a la unidad, y la distribución t de Student se aproxima
bien por una normal, tal y como se ve en la figura 1.8 para N = 100.
42
N =1 N = 10
N =2 N = 100
N =5 Normal
0.4
0.3
fN (t)
0.2
0.1
0.0
−4 −2 0 2 4
t
Figura 1.8. Función de densidad de probabilidad de la t de Student. La forma de la densidad de proba-

bilidad converge rápidamente tras unas pocas unidades de N .
2. INFERENCIA ESTADÍSTICA.
La Inferencia Estadı́stica es aquella rama de la Estadı́stica mediante la cual

se trata de obtener conclusiones acerca de una población en estudio a partir
de la información que proporciona una muestra representativa de la misma.
La Inferencia Estadı́stica también puede llamarse ((Estadı́stica Inductiva))
o ((Inferencia Inductiva)) ya que es un procedimiento para generar nuevo
conocimiento cientı́fico.
La muestra se obtiene por observación o experimentación. La necesidad de
obtener un subconjunto de la población es obvia si tenemos en cuenta los
costes económicos de la experimentación o el hecho de que muchos de los
métodos de medida son destructivos.
Toda inferencia inductiva exacta es imposible ya que solo disponemos de
información parcial. Sin embargo, es posible realizar inferencias inseguras y
medir el grado de inseguridad si el experimento se ha realizado de acuerdo
43
con determinados principios. Uno de los propósitos de la Inferencia Es-
tadı́stica es conseguir técnicas para hacer inferencias inductivas y medir el
grado de incertidumbre de tales inferencias. La medida de la incertidumbre
se realiza en términos de probabilidad.
El primer concepto importante es el de población, que es el conjunto de
entes (individuos, cosas, sucesos, etc.) sobre los que se desea obtener in-
formación. La población ha de estar perfectamente definida a la hora de
comenzar el estudio. Por ejemplo, en un ensayo clı́nico en el que se pretende
demostrar la efectividad de un tratamiento, han de estar muy claros cuales
son los criterios de inclusión de un paciente en la población (muestra) a
estudiar.
De la población (que no es sino el conjunto de todos los entes que satisfa-
cen los criterios de selección para nuestro estudio) se extrae un subconjunto
que se denomina muestra. La muestra tiene que de ser representativa de
la población, en el sentido de tener una composición similar en cuanto a
la proporción de caracterı́sticas. Por ejemplo, una muestra para un estudio
de estaturas no incluirá solo a individuos altos (o bajos), sino a individuos
de ambas clases en proporciones similares a las que se encuentran en la
población, en caso contrario diremos que la muestra está sesgada. La re-
presentatividad de la muestra queda garantizada con la elección correcta
del método de muestreo. En el siguiente apartado veremos algunos métodos
que garantizan hacer una selección de las muestras de forma que no estén
sesgadas.
Sobre cada uno de los entes de la muestra medimos una (o varias) carac-
terı́sticas que llamaremos variables y que se denotarán mediante las varia-
bles mayúsculas X, Y, Z, ..... En la teorı́a quedan identificadas población y
variable aleatoria asociada, es decir, cuando en un ejercicio se habla de una
cierta variable aleatoria, esta debe estar asociada de forma unı́voca a una
determinada población. Por ejemplo, no tiene sentido hablar de la tasa de
ceguera, sino que es necesario hablar de la tasa de ceguera en un determina-
do grupo de personas. Un ejemplo de variable aleatoria bien definida serı́a:
((El estudio recoge una estadı́stica de la tasa de ceguera en varones entre 20
y 30 años que residen en Cuenca)). De hecho, cuantas más caracterı́sticas
se proporcionen sobre los entes que constituyen la población del experimen-
to, mejor acotados quedarán los resultados y mayor información se podrá
44
extraer de los mismos.

Cuando hablemos de ((una población)) deberá entenderse que nos referimos a
un conjunto de entes sobre los cuales se han especificado suficientes detalles
como para que la caracterı́stica que queremos estudiar sea relevante y quede
bien definida.
En general, la Inferencia Estadı́stica define conceptos aplicables a poblacio-
nes infinitas. Puesto que en la práctica estas no existen (ya que es imposible,
por ejemplo, encontrar un número infinito de hombres residentes en Cuenca
que tengan entre 20 y 30 años), entenderemos que ((infinito)) se traduce en
la práctica por un número grande. Es necesario indicar aquı́ que la expre-
sión ((un número grande)) es ambigua per se, y que el número dependerá
del estudio estadı́stico que se quiera realizar y de la fiabilidad que se quiera
alcanzar con el mismo.
Cuando hagamos un estudio de Inferencia Estadı́stica supondremos que
nuestra población sigue una cierta distribución de probabilidad de forma
conocida, pero los parámetros que la caracterizan estarán indefinidos por
lo que los tendremos que estimar. Por ejemplo, podemos suponer que la
variable asociada a la caracterı́stica de nuestra población que nos interesa
sigue una distribución normal N (µ, σ), pero, obviamente, no sabremos los
valores de su media µ y su desviación tı́pica σ, que serán los valores que
querremos estimar.
La inferencia puede clasificarse en dos tipos. La clasificación se realiza de
acuerdo con el conocimiento que tenemos sobre la distribución que creemos
que caracteriza la población:
Inferencia paramétrica. Se conoce la forma de la distribución estadı́stica

que sigue la población (puede ser normal, binomial, de Poisson, etc)
pero se desconocen los parámetros que caracterizan la distribución.
En este caso, se realizan inferencias sobre estos.
Inferencia no paramétrica. Se desconoce tanto la forma de la distribu-
ción como los parámetros que la caracterizan. En este caso, además
de tratar de inferir los parámetros de caracterización de la distribu-
ción tendremos que ver cuál es la que mejor nos sirve para describir
los datos. Por ejemplo, si el número de datos es muy grande, lo más
45
probable es que se puedan caracterizar utilizando una distribución
normal. En el caso de que sean pocos datos, alguna pista sobre los
datos puede darnos una idea de qué distribución elegir. Por ejemplo,
si sabemos que la variable aleatoria cuyo valor estamos tratando de
inferir solo puede tomar dos valores, esto nos puede llevar a pensar
que lo adecuado sea elegir una distribución de tipo binomial.
Existe otra clasificación para la Inferencia Estadı́stica basada en la forma

en la que se estudian los parámetros o caracterı́sticas desconocidas de la
población. Desde este punto de vista la inferencia se divide en dos tipos:
Estimación. Se intenta dar estimaciones de los parámetros que son des-

conocidos sin hacer hipótesis previas sobre los posibles valores de los
mismos. Dentro de este tipo de estimaciones hay dos posibilidades:
Estimación puntual: Se trata de estimar un único valor para cada

parámetro.
Estimación por intervalos: En este caso, lo que tratamos de en-
contrar es un intervalo de valores que sean los que más probable-
mente tome el parámetro.
Contraste de hipótesis. En este caso se realiza alguna hipótesis sobre los

parámetros desconocidos y se desarrolla algún procedimiento que nos
sirva para comprobar la veracidad o falsedad de la hipótesis realizada.
2.1. Inferencia y muestras.
En este apartado enumeramos algunas indicaciones acerca de la metodologı́a

que permita recolectar de forma correcta una muestra que resulte represen-
tativa de la población que estamos estudiando:
Definir de la forma más exacta posible la población sobre la que se

realiza el estudio. Para ello es necesario especificar de la forma más
concreta posible las unidades que la componen. Existen infinitos cri-
terios de selección, lo necesario es encontrar aquellos que sean más
46
adecuados a nuestro caso, de tal forma que nos permitan seleccionar

una población de la que podamos extraer la máxima información po-
sible. Algunos ejemplos de criterios que podrı́an ser utilizados son: el
área geográfica donde se realiza el estudio, el periodo de tiempo en el
que se realizará el mismo, el rango de edad de los individuos que van
a ser admitidos en la población, etc.
Definir el marco: Es decir, elaborar un listado y/o descripción de los
elementos que forman la población.
Definir de forma precisa las unidades del muestreo: Ciudades, calles,
hogares, individuos, etc.
Seleccionar un método de muestreo: probabilı́stico o no probabilı́stico.
Aunque son los primeros los que nos permiten la estimación correcta
de parámetros a veces es necesario recurrir a otro medio de selección
que puede permitirnos generar una población en la que la informacı́on
que nos es relevante se manifieste de forma más clara.
Calcular el tamaño de la muestra que es necesario para obtener una
determinada precisión en la estimación que estemos realizando.
Elaborar el plan de muestreo que guiará el trabajo de campo.
2.2. Muestreo aleatorio simple (M.A.S)
Se trata de un procedimiento de muestreo (sin reemplazamiento), en el que

se seleccionan n unidades de las N en la población, de forma que cualquier
posible muestra del mismo tamaño tiene la misma probabilidad de ser elegi-
da. Se realizan n selecciones independientes, de forma que en cada selección
los individuos que no hayan sido elegidos en un turno tengan la misma
probabilidad de serlo en el siguiente. El procedimiento habitual consiste en
numerar todos los elementos de la población y seleccionar muestras del ta-
maño deseado. Para ello se puede utilizar una tabla de números aleatorios
o un programa de ordenador que proporcione números aleatorios.
Recuérdese que ((al azar)) no significa ((de cualquier manera)), para que el
procedimiento de muestreo sea válido es necesario utilizar correctamente el
47
proceso de generación de números aleatorios. Una de las ventajas de este
procedimiento es que proporciona valores aleatorios, de tal forma que nunca
predominan los valores altos o los bajos y, por lo tanto la muestra tendrá
una composición similar a la de la población. Además, es un procedimiento
sencillo y produce estimadores de los parámetros desconocidos próximos a
los valores reales de los mismos. El principal inconveniente de este tipo de
muestreo es que necesita un marco adecuado, es decir, que hayamos prese-
leccionado de forma adecuada a los individuos que componen la población
y que el número de individuos entre los que seleccionemos sea lo suficien-
temente amplio. Esto no siempre es fácil de conseguir (puede que no haya
muchos individuos con las caracterı́sticas que nos interesan) y puede ser que
en el proceso de selección se pierda mucha de la información que es relevante
para nosotros.
Muestreo sistemático.
Se ordenan los individuos de la población y se numeran.
Se divide la población en tantos grupos como individuos se quieran

tener en la muestra. Se selecciona un individuo al azar en el primer
grupo y se elige el que ocupa el mismo lugar en todos los demás grupos.
La ventaja principal de este tipo de muestreo es que es más sencillo
y más barato que el muestreo aleatorio simple, además, se comporta
igual que el anterior si no hay patrones o periodicidades en el conjunto
de los individuos seleccionados.
Muestreo por conglomerados.
Se divide la población en grupos de acuerdo con algún criterio decidido

a priori, por ejemplo, por su proximidad geográfica o por rangos de
edad. Después, cada grupo debe ser lo más heterogéneo posible de
forma que en cada uno de los grupos queden representadas todas las
caracterı́sticas de la población que sean relevantes para nosotros. Por
ejemplo, los municipios de la zona pueden ser los conglomerados en
48
un estudio sobre la situación de los ancianos en una determinada zona

rural.
Se selecciona una muestra de conglomerados al azar y se toma el con-

glomerado completo o una muestra del mismo. En el ejemplo anterior,
esto equivaldrı́a a que, una vez seleccionados los municipios (si esta-
mos buscando ancianos), podrı́amos seleccionar a todas las personas
mayores de cada uno de los municipios elegidos o solo a algunos de
cada uno de ellos.
Algunas de las ventajas de este tipo de muestreos son las siguientes:
Se necesita menos información previa sobre cada uno de los individuos

que componen la población.
Soluciona el problema de los patrones en los datos.
Este tipo de muestreo se utiliza fundamentalmente para reducir los

costes de toma de muestras al tomar grupos de individuos completos.
No obstante, debemos tener en cuenta que si el número de conglomerados no

es muy grande, este tipo de muestreo puede incurrir en errores de estimación
si se han incluido conglomerados atı́picos.
Muestreo estratificado.
Se divide la población en grupos homogéneos (denominados ((estratos)))

de acuerdo con las caracterı́sticas a estudiar. Por ejemplo, en un estu-
dio de las caracterı́sticas socioeconómicas de una ciudad, los estratos
pueden ser los barrios de la misma, ya que los barrios suelen presentar
caracterı́sticas que los diferencian a unos de otros.
Se selecciona una muestra aleatoria de cada estrato tratando de que

todos los estratos de la población que nos interesa queden representa-
dos.
49
Las ventajas de este tipo de muestreo son las siguientes:
Permite utilizar información a priori sobre la estructura de la pobla-

ción en relación con las variables a estudiar.
El método obtiene representantes de todos los estratos de la población

bajo estudio.
Tenemos diferentes opciones de selección del tamaño de la muestra en

los estratos:
• El mismo número en cada estrato.

• Proporcional, es decir, vemos que porcentaje de la población total
representa cada estrato y escogemos un número de individuos
que es proporcional al peso del estrato en la población total. Por
ejemplo, supongamos que en un pueblo se divide la población en
tres estratos según su edad: menores de 30 años, personas que
tienen entre 30 y 60 años y mayores de 60 años. La población
total del pueblo es de 10.000 vecinos, de los que sabemos que el
20 % tienen menos de 30 años, el 70 % tiene entre 30 y 60 años y el
10 % restante tiene más de 60 años. Si tomásemos una muestra de
100 individuos, 20 deberı́an corresponder al primer grupo, 70 al
segundo y 10 al tercero. De esta forma, la muestra representarı́a
de forma fiel la distribución de edades en la población total.
2.3. Estadı́sticos y distribuciones muestrales.
Todo lo que veremos a continuación está pensado para poblaciones infinitas

(muy grandes) y con muestreo aleatorio simple. El muestreo aleatorio simple
garantiza que la muestra elegida es representativa de la población que se
estudia y que las observaciones que se obtienen son independientes. Es decir,
que una observación no condiciona a las que vienen después. Dada una
población X, el proceso de muestreo consiste en obtener, al azar, un valor
x1 de la variable X. El valor obtenido puede ser cualquiera de los valores
que toma ese parámetro en los individuos que componen la población.
50
Por ejemplo, supongamos que la caracterı́stica que nos interesa es la edad

de los individuos. Sabemos que en la población que estamos estudiando hay
individuos cuya edad está comprendida entre los 2 y los 102 años. Al elegir
un individuo al azar podrı́amos obtener cualquier edad comprendida entre
los 2 y los 102 años. Por lo tanto, los posibles valores para x1 son todos los
de X, de forma que x1 puede considerarse como una realización particular
(observación) de una variable aleatoria X1 que sigue la misma distribución
de probabilidad que la variable X.
A continuación obtenemos, de forma independiente a la primera observa-
ción, un nuevo valor (x2 ) que puede, de nuevo, considerarse como una reali-
zación particular de una variable aleatoria X2 que sigue la misma distribu-
ción de probabilidad que X. Esta medida es independiente de la que se hizo
anteriormente por lo que la distribución de probabilidad de la variable X1
permanece inalterada y coincide con la de X2 . Obsérvese que la población
no se modifica al extraer uno de sus individuos (incluso aunque impidamos
al individuo volver a reintegrarse en la población antes de volver a elegir)
ya que es infinita y, por tanto, ni el número de individuos ni su composición
se ven alterados al retirar a un solo individuo. En el caso de una población
finita podrı́a utilizarse un muestreo con reemplazamiento, es decir, que el
individuo elegido en una ocasión vuelve a formar parte del grupo antes de
la siguiente elección.
En el caso de que el proceso se repita n veces, se habrá obtenido una mues-
tra de tamaño n del total de la población. Decimos entonces que dicha
muestra está compuesta por n valores. Puesto que las medidas se habrán
realizado de forma independiente, como resultado del experimento tendre-
mos un conjunto de n variables (x1 , x2 , . . . , xn ) escogidas de forma aleatoria,
X1 , X2 , . . . , Xn , que son independientes entre sı́ y se encuentran idéntica-
mente distribuidas.
Esto nos permite introducir la siguiente definición, válida para muestreos
de una variable X sobre una población, realizados de forma aleatoria, y en
los que cada muestreo se ha realizado de forma independiente5 :
5
Utilizamos letras minúsculas para denotar las observaciones particulares de una muestra (valores
medidos) y letras mayúsculas para denotar las variables aleatorias. A lo largo de la exposición teórica
ambas serán intercambiables y serán utilizadas indistintamente para representar a las correspondientes
51
Sea X una variable aleatoria con distribución de probabilidad F y sean
n variables aleatorias independientes X1 , X2 , . . . , Xn que siguen la misma
distribución de probabilidad F que X. Se dice que x1 , x2 , . . . , xn (los valo-
res obtenidos al medir cada una de las variables X) forman una muestra
aleatoria de tamaño n de la distribución de probabilidad F y/o forman n
observaciones independientes de la variable X.
Matemáticamente, lo anterior se expresa como:
f (X1 , X2 , . . . , Xn ) = f (X1 )f (X2 ) . . . f (Xn ) ,
donde las funciones de densidaddistribuciones de probabilidad, f , de cada

una de las variables Xi son exactamente iguales a la de la variable X.
Una vez obtenida la muestra de la población podemos caracterizarla, esto
es, podemos encontrar su valor medio, la desviación tı́pica, etc. Cada uno de
los valores que obtengamos de la muestra recibe el nombre de estadı́stico.
Definimos estadı́stico como una función de los valores muestrales que no
depende de ningún parámetro poblacional desconocido. Un estadı́stico es
también una variable aleatoria en sı́ ya que es una función de las variables
aleatorias.
Por ejemplo, la media muestral (que no es más que el valor medio de los
valores que componen la muestra), definida como
Pn
Xi
X̂ = i=1 ,
n
es una variable aleatoria de la que tenemos una sola observación en cada
muestra: Pn
xi
x̂ = i=1 .
n
Veámoslo con un ejemplo sencillo: supongamos que disponemos de una po-

blación finita en la que tenemos a 4 individuos y que sobre ellos medimos
una cierta caracterı́stica que toma los valores {1, 2, 3, 4}. Supongamos que
obtenemos muestras sin reemplazamiento de tamaño 2 de esa población.
variables aleatorias.
52
Las distintas posibilidades que podemos obtener son (mostramos al lado de

cada una de las posibilidades el valor medio:
1, 2, x̂ = 1,5; 1, 3, x̂ = 2,0; 1, 4, x̂ = 2,5;

2, 3, x̂ = 2,5; 2, 4, x̂ = 3,0; 3, 4, x̂ = 3,5.
Es claro que la media muestral no es un valor fijo sino que depende de la

muestra tomada y debe, por tanto, ser considerada una variable aleatoria
de la que tenemos una sola observación: la media de la muestra concreta
que hayamos seleccionado. Dicha variable tendrá una distribución de proba-
bilidad asociada. En este caso tenemos una distribución discreta que toma
los valores 1,5, 2, 2,5, 3 y 3,5. La probabilidad de obtener cada uno de estos
valores vendrá dada por:
P (1,5) = 1/6; P (2,0) = 1/6; P (2,5) = 2/6 = 1/3;

P (3,0) = 1/6; P (3,5) = 1/6.
Nótese que, en efecto, se tiene que la suma de todas las probabilidades es

igual a la unidad, cumpliendo por tanto la condición de normalización (1.2).
más información
A la distribución de un estadı́stico calculado a partir de los valores

tomados de una muestra se la denomina distribución muestral del
estadı́stico. En la mayor parte de los casos supondremos que nues-
tra población sigue una distribución normal por lo que los estadı́sticos
interesantes, y, por tanto, los que vamos a usar son la media y la des-
viación tı́pica.
2.4. Distribuciones muestrales de la media y de la desviación tı́pi-

ca
Sea {X1 , X2 , . . . , Xn } , una muestra aleatoria de una población X en la que

definimos
E(X) = µ, Var(X) = σ 2 .
53
Entonces, el valor esperado (media) y la varianza de la media muestral X̂
son:
E(X̂) = µ, (1.59)
σ2
Var(X̂) = , (1.60)
n
σ
Desv(X̂) = √ . (1.61)
n
La comprobación del resultado es directa si aplicamos que la esperanza de
la suma de varias variables aleatorias independientes es la suma de las espe-
ranzas, ası́ como que la varianza es la suma de las varianzas. Además, hemos
de tener en cuenta que si multiplicamos una variable por una constante, la
varianza queda multiplicada por la constante al cuadrado. Entonces:
" n #
X Xi 1X
n
1
E(X̂) = E = E(Xi ) = nµ = µ ,
i=1
n n i=1 n
" n #
X Xi Xn
Xi σ2 σ2
Var(X̂) = Var = Var =n 2 = .
i=1
n i=1
n n n
Si la población sigue una distribución normal X = Nµ,σ , entonces la media

muestral sigue también una distribución normal, X̂ = Nµ,σ/√n .
Este resultado es bastante importante dentro del campo de la estimación
puesto que nos asegura que, aunque la media poblacional y la media mues-
tral no coincidan (que no suelen coincidir a menos que se tomen muchas
muestras), los posibles valores que obtengamos para la media muestral se
van a concentrar de forma simétrica alrededor de la media de la pobla-
ción. Además, la dispersión alrededor de la media poblacional será menor a
medida que aumente el tamaño muestral.
2.5. Teorema central del lı́mite.
Sea {X1 , X2 , . . . , Xn } un conjunto de variables aleatorias independientes e

idénticamente distribuidas, que conforman una muestra de una población
X con una distribución de probabilidad determinada, de valor esperado
54
E(X) = µ y varianza Var(X) = σ 2 . El teorema central del lı́mite afir-

ma que, para n suficientemente grande (formalmente n → ∞), la media
muestral
1X
n
X̂ = Xi (1.62)
n i=1
sigue una distribución de probabilidad normal con media µ y varianza σ 2 /n.

Recordemos que el valor esperado y la varianza de la media muestral ya vie-
nen determinadas por las ecuaciones (1.59) y (1.60). El único requisito que
imponı́amos entonces era la existencia del valor esperado y la varianza de
la distribución de probabilidad, de modo que el resultado es completamente
general e independiente de la distribución de probabilidad concreta que si-
gan las variables aleatorias. La importancia del teorema central del lı́mite es
que nos indica la forma funcional explı́cita de la distribución de probabilidad
de la media muestral. Nos dice que las variables aleatorias {X1 , X2 , . . . , Xn }
pueden seguir cualquier distribución pero, para n suficientemente grande,
el estadı́stico X̂ seguirá una distribución gaussiana.
Es necesario indicar aquı́ que lo que estamos haciendo es ((aproximar)) la
distribución de probabilidades que sigue la variable aleatoria X, por lo que
lo dicho anteriormente no podrá aplicarse siempre. De hecho, solo debe
aplicarse en el caso en el que n sea grande, lo que en este contexto de la
Estadı́stica significa que n ≥ 30. Una consecuencia directa de este teore-
ma es que la suma de los valores medios muestrales siguen, a su vez, una
distribución normal de media nµ y varianza nσ 2 .
más información
Recordemos el ensayo de Bernoulli b(x; 1, p) (una binomial con N = 1),

donde la media y la varianza vienen dadas por las ecuaciones (1.18) y
(1.19), con µ = p y σ 2 = pq. Ası́, para n suficientemente grande, una
distribución binomial b(x; n, p), entendida como la suma de n binomia-
les b(x; 1, p), podrá entonces aproximarse, aplicando el teorema central
del lı́mite, por una distribución normal de media np y varianza npq, lo
que coincide con lo obtenido en las ecuaciones (1.24) y (1.25).
55
2.6. Estimadores y sus propiedades deseables.
Vamos ahora a estudiar el caso de una población en la que se mide una cierta
variable estadı́stica X cuya distribución de probabilidad es conocida pero
de la que son desconocidos los parámetros que definen esta distribución. Un
ejemplo de esta situación se darı́a cuando tenemos una variable que sigue
una distribución normal de la que desconocemos tanto la media µ como la
varianza σ 2 , parámetros que, por tanto, queremos estimar.
A este respecto, comenzamos por extraer una muestra aleatoria simple de la
población. Esto es, recolectamos una colección de n datos, X1 , X2 , . . . , Xn ,
a partir de los cuales queremos estudiar la forma de una función (que de-
finiremos de forma genérica como θ̂ = u(X2 , . . . , Xn ) que nos proporcione
una estimación θ̂ del parámetro θ que queremos estudiar. Obviamente, es
necesario tomar la forma de la función apropiadamente, ya que buscamos
obtener una buena estimación del parámetro que nos interesa. Una vez ele-
gida la forma de la función, podemos evaluarla sobre los valores que tenemos
en nuestra muestra. El valor que obtengamos se denominará ((estimador del
parámetro θ)) sobre la muestra. Obviamente, si hemos tomado diferentes
muestras, estas tendrán elementos diferentes entre sı́ y, en consecuencia, ob-
tendremos diferentes estimaciones para el valor del parámetro que queremos
estudiar.
Obtener diferentes valores para la estimación del parámetro nos indica que
este mismo valor (que denominaremos de aquı́ en adelante estimador) es
en sı́ una variable aleatoria. Esto nos permite ahora dar un sentido más
concreto a la idea de ((tomar la forma de la función de forma apropiada)).
Trataremos entonces de elegir una función que tenga un valor medio (sobre
las muestras) que sea lo más parecido al valor que creemos que debe tomar el
parámetro realmente y que tenga, alrededor de ese valor medio, una varianza
que sea lo más pequeña posible.
Por ejemplo, supongamos que los datos que estamos manejando nos per-
miten llegar a la conclusión de que la caracterı́stica en la que estamos in-
teresados tiene, sobre nuestra muestra, una distribución normal. En este
caso, tomaremos como estimador de la media poblacional el valor medio de
la media muestral. Esto es, tomaremos varias muestras de la población y
calcularemos el valor medio de los valores de cada una. Obtendremos ası́ un
56
conjunto de medias (tantas como muestras hayamos tomado) y supondre-

mos que esos valores siguen una distribución normal cuyo valor medio (en
este caso es el valor medio de las medias de las muestras) sigue una distri-
bución normal. Es de esperar que ese valor (el valor medio de las medias de
los valores tomados de las muestras) siga (cuando n → ∞) una distribución
normal y que su valor coincida con el valor medio de la población.
Es obvio que mientras n no llegue a infinito existirá siempre una diferencia
entre el valor del estimador y el valor del parámetro que se quiere estimar.
Este error se mide a través del error cuadrático medio (ECM) del estima-
dor, que se define como el valor esperado de la diferencia entre el estimador
y el verdadero valor del parámetro:
2
ECM(θ̂) = E θ̂ − θ
2 2
= E θ̂ − E(θ̂) + E E(θ̂) − θ)
2
= Var(θ̂) + E θ − E(θ̂) . (1.63)
En la expresión anterior, el primer término no es sino la varianza del esti-

mador y el segundo es el cuadrado de lo que llamamos sesgo (el concepto
de sesgo se introduce un poco más adelante en este texto).
Ahora es el momento de plantearse si existe algún criterio válido que nos
permita seleccionar de forma adecuada un estimador. La verdad es que no,
y esto se debe a que podemos querer estimar parámetros muy diversos de
las distribuciones de probabilidad y al mismo tiempo que nuestra muestra
siga cualquier distribución de probabilidad conocida. Lo que sı́ se puede es
dar una lista de propiedades que es deseable que cumpla un estimador:
Ausencia de sesgo. Esto quiere decir que es bueno tomar estimadores

cuyo valor esperado coincida con el valor del parámetro que se quiera
estimar. Se dice que un estimador es insesgado (o centrado) si la
esperanza del estimador coincide con el parámetro a estimar, E(θ̂) =
θ. En caso contrario, el estimador es sesgado y la cantidad b(θ) =
[θ − E(θ̂)] es el sesgo del estimador.
57
Esta propiedad es bastante importante ya que los posibles valores
del estimador siempre van a fluctuar alrededor del verdadero valor del
parámetro. Por ejemplo, la media muestral es un buen estimador de la
media poblacional (si la población sigue una distribución normal, cosa
que se cumplirá siempre que la población sea grande), ya que se trata
de un estimador insesgado. Es sencillo comprobar que la esperanza de
su distribución muestral es la media poblacional, µ. En este ejemplo
debemos destacar que el que la distribución de probabilidad de la
población sea normal es importante ya que, aunque los valores de
la media muestral y la media poblacional no coincidan, se va a dar
siempre que los valores de cada una de las muestras que tomemos va
a estar alrededor del valor de la media de la población. De hecho, los
valores de las medias muestrales se van a distribuir de forma simétrica
alrededor del valor de la media poblacional. En el momento en el que
tomemos un número grande de muestras, los valores medios de cada
una de ellas se van a colocar bastante cerca del valor ((real)) de la
media poblacional, con lo que no solo se podrá estimar un buen valor
del parámetro ((media poblacional)), sino que además la estimación de
este valor se va a hacer de forma bastante precisa.
Consistencia. Se dice que un estimador θ̂ es consistente si se aproxima ca-

da vez más al verdadero valor del parámetro a medida que se aumenta
el tamaño muestral. Es decir, un estimador es consistente si
h i
Pr |θ̂ − θ| < → 0
para n → ∞. Es decir, para una muestra suficientemente grande (for-

malmente, con n tendiendo a infinito), la diferencia entre el estimador
θ̂ y el valor real θ es menor que un cierto número > 0. Esto es, la
probabilidad de que la diferencia entre el estimador y el valor real sea
mayor que es cero. Conforme aumentamos el número de muestras
que tomamos de la población, los valores que va tomando el paráme-
tro que estimamos se van concentrando cada vez más alrededor del
valor verdadero del parámetro que estamos estimando. Dicho de otro
modo, la distribución del estimador se concentra más alrededor del
verdadero parámetro cuando el tamaño muestral es de tal forma que
58
la estimación cada vez tenderá más a parecerse al valor real y la dis-

persión (que está relacionada con el error) de nuestra estimación será
cada vez menor.
La media muestral es un estimador consistente de la media poblacional
en una distribución normal, ya que la varianza de la misma, σ 2 /n,
tiende a cero para n → ∞, de forma que la distribución se concentra
alrededor del verdadero valor (media de la población, µ) cuando n
crece.
Eficiencia. Está claro que un estimador será tanto mejor cuanto menor sea
su varianza (error con el que se hace la estimación), ya que los valores
que tomamos en la estimación se concentran alrededor del verdadero
valor del parámetro. Se dice que un estimador insesgado es eficiente
si tiene varianza mı́nima, es decir, la varianza deberı́a tender a cero
cuando aumenta el número de estimaciones.
Una cota inferior para la varianza de un cierto estimador se puede ob-
tener aplicando el criterio de cota de Cramer-Rao. Supongamos
que se toma una muestra aleatoria de valores de una cierta pobla-
ción, {X1 , X2 , . . . , Xn }, cuyos elementos siguen una distribución de
probabilidad que vamos a denotar por f (x; θ) (aquı́ θ representa el
(los) parámetro(s) de los que depende la distribución y que quere-
mos estimar). Si la distribución de probabilidad es regular, cualquier
estimador insesgado verifica que:
1
Var(θ̂) ≥ 2 .
∂ ln f (X;θ)
∂θ
2.7. Métodos de estimación.
En este apartado proporcionamos una breve descripción de algunos de los

métodos de estimación que consideramos más relevantes:
Método de los momentos. Consiste en igualar los momentos muestrales
59
con los poblacionales. Los momentos se definen como:
1X k
n
mk = x .
n i=1 i
Esta metodologı́a prácticamente no se usa en la investigación actual.

Método de los mı́nimos cuadrados. Consiste en minimizar la suma de
cuadrados de los errores, donde entendemos como ((errores)) a las di-
ferencias entre valores observados y esperados tras suponer que las
observaciones se obtienen como la suma de una parte sistemática o
controlada y una parte aleatoria no controlada o fuente de error. El
método es ampliamente utilizado cuando se trabaja con modelos de
regresión o con técnicas relacionadas con estos.
En las siguientes lineas veremos algunos ejemplos de algunos de los estima-

dores más utilizados:
Estimación de la media de una población normal. Tomamos conjun-

tos de datos (muestras) de tamaño n de nuestra población. Calculamos
entonces el valor medio de los valores que componen cada una de las
muestras. Obtendremos ası́ un valor xi asociado a cada una de las
muestras que hemos tomado. Es obvio que (salvo por casualidad), el
valor medio que calculemos para cada uno de los datos no coincidirá
con el valor medio de la población y que, por lo tanto, podremos decir
que cada uno de los valores xi es igual al valor de la media muestral,
µ, más un cierto error experimental aleatorio, εi . Es decir:
xi = µ + εi
Puesto que los valores medios de las muestras que hemos tomado de la
población siguen una distribución normal, los valores de los errores, tal
y como los hemos definido en el apartado anterior, también seguirán
una distribución normal que denotaremos como N (0, σ).
Mı́nimos cuadrados. Veamos el método de los mı́nimos cuadrados desde
el punto de vista de los estimadores. En concreto, tratamos de mi-
nimizar la suma de los cuadrados de las diferencias entre los valores
60
experimentales y los valores ((esperados)) y esto nos permite obtener

los valores de algunos parámetros que sirven para estimar esos valores
esperados. Definimos la siguiente cantidad:
X
n X
n
D= ε2i = (xi − µ)2
i=1 i=1
y queremos realizar una ((minimización)) de la misma. Para ello, deriva-

mos esta expresión con respecto al parámetro que queremos optimizar
(que en este caso es µ) e igualamos el valor de la derivada a cero:
∂D X
n
= 2(xi − µ)(−1) = 0 .
∂µ i=1
O lo que es lo mismo:
X
N
(xi − µ) = 0.
i=1
Despejando obtenemos un valor ((óptimo)) para µ:

Pn
xi
µ̂ = i=1 = x̄ ,
n
es decir, de nuevo obtenemos que el valor de la media muestral es el
mejor estimador de la media poblacional.
3. EJERCICIOS
Ej. 1.1 — Un contador Geiger-Müller es un detector de radiación amplia-

mente utilizado. Sobre una muestra radiactiva desconocida se obtiene una
distribución gaussiana de la energı́a del isótopo radiactivo, de valor medio
µ = 1150 keV y desviación tı́pica σ = 50 keV (un kilo electrón-Voltio, keV,
es una unidad de energı́a muy usada en fı́sica nuclear). Sin realizar ningún
cálculo, ¿qué porcentaje de las medidas esperarı́a obtener un técnico con
una energı́a comprendida entre 1100 keV y 1200 keV?
61
Ej. 1.2 — Una empresa de electrónica observa que el número de com-
ponentes que fallan antes de cumplir 100 horas de funcionamiento es una
variable aleatoria de Poisson. Si el número promedio de estos fallos es ocho,
¿cuál es la probabilidad de que falle un componente en 25 horas?
Ej. 1.3 — La media de los pesos de 500 estudiantes de un colegio es 70

kg y la desviación tı́pica 3 kg. Suponiendo que los pesos se distribuyen
normalmente, obtenga cuántos estudiantes pesan entre 60 kg y 75 kg.
Ej. 1.4 — En una distribución normal de media 4 y desviación tı́pica 2,

¿cuál es el valor de a para que se cumpla que P (4−a ≤ x ≤ 4+a) = 0,5934?
(a) a = 1,909.
(b) a = 2,009.
(c) a = 1,606.
(d) a = 0,3141.
Ej. 1.5 — Supongamos que se lanza un dado, sabiendo que todas las pun-
tuaciones tienen la misma probabilidad de salir. ¿Qué probabilidad hay de
que en dos tiradas salgan dos cuatros?
(a) 1/6
(b) 1/2
(c) 1/36
(d) 1/72
Ej. 1.6 — Un estudio ha mostrado que, en un cierto barrio, el 60 % de los

hogares tienen al menos dos televisores. Se elige al azar una muestra de 50
hogares en el citado barrio. ¿Cuál es la probabilidad de que entre 35 y 40
hogares tengan dos televisores?
62
Ej. 1.7 — Supongamos que la nota de un examen siempre sigue una dis-
tribución normal. Las notas de un profesor de Matemáticas tienen una media
de 7 y una desviación media de 3. Otro profesor tiene una media de 6 y una
desviación media de 0,9. ¿Con qué profesor es más sencillo aprobar y con
cuál es más sencillo sacar nota?
(a) Es más sencillo aprobar con el primero, pero sacar nota con el se-
gundo.
(b) Es más sencillo aprobar con el segundo, pero sacar nota con el pri-
mero.
(c) Es más sencillo aprobar con el primero y sacar nota con él.
(d) Es más sencillo aprobar con el segundo y sacar nota con él.
Ej. 1.8 — Una distribución de probabilidad continua y uniforme f (x) =

0,5 se define en el intervalo [a, b] de forma que su valor medio es µ = 2,5.
¿Cuáles son los valores de a y b?
Ej. 1.9 — Se realizan N = 125 ensayos de un experimento que tiene una

probabilidad de fracaso q = 0,68. ¿Cuál es el valor medio de la distribución
de probabilidad asociada?
63
Tema 2
ESTADÍSTICA APLICADA: AJUSTES, ANÁLISIS DE ERRORES Y
CRITERIOS DE DECISIONES
En el capı́tulo anterior se expuso un resumen de Estadı́stica que abarca, al

menos de forma introductoria, buena parte de las necesidades teóricas que
puede tener un estudiante del grado de Fı́sica en los primeros cursos. Más
adelante en el grado, en asignaturas relacionadas con la Fı́sica y Mecánica
Estadı́stica, se profundizará en los conceptos aquı́ expuestos.
En este capı́tulo ampliaremos algunos de los conceptos anteriormente expli-
cados enfocados en su utilidad concreta para analizar datos experimentales,
evaluar sus incertidumbres, ası́ como obtener conclusiones a partir de las
observaciones. Respecto a este último punto, realizaremos una pequeña in-
troducción práctica a la inferencia estadı́stica, algo que nos permitirá desa-
rrollar algunos métodos contraste de hipótesis que podrán aplicarse en toma
de decisiones.
1. GAUSSIANAS Y ERRORES
Al realizar una medición, como ya sabemos, adquirimos errores e incerti-

dumbre desde diferentes fuentes. Si realizamos una medida, por ejemplo,
con una regla, tendremos errores que provienen de la calibración de la re-
gla, de lo paralela que pongamos la herramienta, de lo que nos tiemble la
mano, etc, etc. Esto ocurre, de manera más o menos sofisticada, con todos
los aparatos de medición. Es decir, las imperfecciones en las mediciones no
vienen de una sola fuente, sino de muchas. En este sentido, existe un im-
portante resultado acerca de cómo es una variable que es igual a la suma de
otras muchas. Es el llamado teorema central del lı́mite, que vimos en el
capı́tulo anterior, pero que dada su importancia volvemos a enunciar:
Si tomamos la suma X de N variables independientes xi , cada una de ellas
procedente de una distribución de media µi y desviación σi2 , entonces la
65
distribución de X tiene las siguientes caracterı́sticas:
P
Tiene un valor esperado hXi = µi .
P
Su varianza es V (X) = σi2 .
Es gaussiana cuando N → ∞.
Este resultado es el que provoca que las distribuciones gaussianas sean tan
importantes. Una cantidad que es producida por la suma de otras cantidades
puede considerarse, al menos aproximadamente, como gaussiana, indepen-
dientemente de las distribuciones originales. Los errores en las mediciones
funcionan muy bien en este sentido, pero también otras muchas cantidades
como, por poner un ejemplo, las propiedades anatómicas de las personas
(alturas, longitud de brazos y dedos, etc) debido a que estas son debidas a
muchos efectos combinados, tanto de tipo genético como ambientales.
En cualquier caso, hay que tener en cuenta que este resultado funciona muy
bien en el centro de la distribución, más que en sus extremos. Es decir, las
distribuciones pueden ser indistinguibles de una gaussiana a una distancia
de uno o dos σ del centro de la misma, pero no más allá.
2. MÉTODO DE LA MÁXIMA VEROSIMILITUD
Este método ya ha sido explicado en el primer capı́tulo de este texto, pero

entendido como método de los mı́nimos cuadrados desde el punto de vista de
los estimadores. Vamos a retomarlo ahora para poder aplicarlo a casos con-
cretos. Supongamos que disponemos de una muestra de datos x1 , x2 , ...xN y
que queremos encontrar los estimadores para una función de n parámetros
(con n ≤ N ) que los ajuste. De esos datos, cada uno de ellos está asociado
a una variable aleatoria y cada uno asociado a una función de distribución.
Entonces, definimos la función de máxima verosimilitud como:
Y
N
L (x1 , x2 , ...xN , α1 , ...αn ) = f (xi ; α) (2.1)
i=1
66
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones
donde α se refiere los α1 , ...αn que son los estimadores de la distribución y

donde las f son las funciones de densidad de probabilidad correspondien-
tes. Es decir, de forma intuitiva, podemos decir que la función de máxima
verosimilitud se define de tal forma que es igual a la multiplicación de las
probabilidades de encontrar las N medidas.
El método en cuestión consiste en maximizar L de forma que:
∂ ln L
=0 (2.2)
∂αk
donde estamos suponiendo que los estimadores α, que son los objetos que
hay que encontrar, son variables aleatorias.
Ejercicio 2.1 Estamos estudiando la desintegración de algún elemento

que sabemos que sigue un comportamiento del estilo de (1/τ ) exp(−ti /τ )
y queremos obtener τ . Medimos N veces y obtenemos los tiempos de
vida experimentales ti . Obtenga la función de máxima verosimilitud y
la expresión teórica para el estimador correspondiente.
Solución
La función de máxima verosimilitud será:
Y 1
L = e −ti /τ
τ
Tomando logaritmos neperianos:

X 1 X ti
ln L = ln e −ti /τ
=− + ln τ
τ τ
Si ahora derivamos e igualamos a cero, obtenemos que:

d ln L X ti 1

= − =0
dτ τ =τ̂ τ̂ 2 τ̂
De donde el estimador τ̂ es:

1 X
τ̂ = ti
N
67
Ejercicio 2.2 Supongamos una distribución normal, N (µ, σ 2 ), tal que
su densidad de probabilidad es:
1 1 (x−µ)
2
f (x) = √ e− 2 σ2
2πσ
Si se tienen N datos que se rigen por distribuciones normales, obtenga
los estimadores por el método de máxima verosimilitud.
Solución
La función de máxima verosimilitud será la multiplicación de las f (xi )
para cada uno de los posibles N datos:
1 1 P
(xi −µ)2
L = e− 2σ2
(2π)N/2 σ N
Ahora, para aplicar la ecuación (2.2), calculamos el logaritmo neperiano

de la expresión anterior:
1 X
ln L = −N ln σ − N ln (2π)1/2 − (xi − µ)2
2σ 2
A continuación, derivamos respecto a los estimadores. Primero respecto

a µ:
∂ ln L 1 X
= 2 (xi − µ) = 0
∂µ σ
P
De donde, ya que µ = N µ, tenemos que:
1 X
µ= xi
N
que es la definición de media tal y como sabemos. Haciendo lo mismo

para el estimador σ:
∂ ln L N 2 X
=− + 3 (xi − µ)2 = 0
∂σ σ 2σ
68
de donde obtenemos que:

1 X
σ2 = (xi − µ)2
N
que es el valor de la desviación tı́pica. Es decir, hemos obtenido los valores

de la media y de la desviación tı́pica de unos datos que se rigen por
distribuciones normales empleando el método de máxima verosimilitud.
más información
Existe un teorema, que no enunciaremos con más detalle, que afirma

que si existen estimadores eficientes entonces estos se encuentran por el
método de máxima verosimilitud (pero no tiene por qué ser al revés).
En general, la metodologı́a analı́tica para obtener los estimadores no
siempre se podrá aplicar tal y como se ha hecho en los ejercicios ante-
riores, sino que habrá que obtener los máximos de la función de máxima
verosimilitud de forma numérica.
2.1. Mı́nimos cuadrados.
Como aplicación del método de máxima verosimilitud, podemos obtener las

expresiones generales del método de los mı́nimos cuadrados. Supongamos
que tenemos dos variables fı́sicas X e Y y un modelo teórico F que las
relaciona a través de unos parámetros λ (que en realidad son λ1 , λ2 , .., λn ).
Esto es, tendremos la siguiente expresión teórica:
Y = F (X; λ)
Supongamos que realizamos N medidas de los pares (X, Y ) y que se exige

que n < N . Imponemos que las medidas X = x1 , x2 , .., xN no tengan ningún
error asociado y que las medidas Y tengan un error σ (es decir, y1 , y2 , .., yN
con errores σ1 , σ2 , .., σN ). Si ahora imponemos, invocando al teorema central
69
del lı́mite, que las fluctuaciones de las medidas de Y con respecto al valor
teórico siguen una distribución gaussiana, tendremos que:

1 1 (yi − F (xi ; λ))2
f (yi ) = p exp −
2π(σi )2 2 σi2
El siguiente paso no es más que maximizar L utilizando la expresión ante-

rior. Primero, tenemos que:
( )
1 1 X (yi − F (xi ; λ)2
L =p exp −
(2π)N (σ12 ...σN
2
) 2 i σi2
Calculamos el logaritmo neperiano:
N X 1
ln L = − ln(2π) − ln σi − S(λ) (2.3)
2 2
donde hemos introducido la notación:

X (yi − F (xi ; λ))2
S(λ) ≡ (2.4)
σi2
Ahora bien, debemos obtener el máximo de ln L , pero podemos deducir

directamente al observar la expresión (2.3) (no entramos en demostraciones
más elaboradas) que, dados unos σ 2 determinados, este máximo debe darse
cuando la función S(λ) sea mı́nima (todos los términos son negativos). A
menudo se denota en los textos de Estadı́stica a la cantidad S de la expresión
(2.4) como χ2 , de forma que:
X (yi − F (xi ; λ))2

2
χ = (2.5)
σi2
Entonces, nuestro criterio será minimizar la función S(λ) (o χ2 ), que es pre-

cisamente lo que se conoce como el método de los mı́nimos cuadrados.
De manera más formal, si derivamos S(λk ) respecto a los parámetros λk ,
70
suponiendo que el mı́nimo se alcanza en los parámetros λ̂k , e igualamos a

cero:
∂S
=0 (2.6)
∂λk λk =λ̂k
Al resolver esta ecuación, obtenemos los λ̂k deseados que son los que mi-
nimizan S(λ) y que permiten obtener F (X; λ). Por supuesto, resolver la
ecuación anterior de forma general no es un proceso inmediato. Primero,
vamos a aplicar esta estrategia en del método de mı́nimos cuadrados y de
máxima verosimilitud para el ajuste de datos experimentales a funciones.
Ajuste a una función lineal en los parámetros
La ecuación (2.6) puede parecer muy general, pero su utilidad es más

bien limitada, al menos si no hacemos nada más. A poco complicada que
sea la función F (xi ; λ) puede resultar imposible obtener analı́ticamente los
parámetros λ. En tal caso, tendrı́amos que probar realizando aproximaciones
numéricas, que es lo que habitualmente se hace. Sin embargo, la problemáti-
ca en este caso se multiplica, ya que tendremos que buscar algoritmos de
minimización de funciones y asegurarnos de que los mı́nimos obtenidos sean
los mı́nimos de todos los mı́nimos que se pueden calcular. Es decir, entra-
mos en una dinámica complicada que trataremos brevemente un poco más
adelante en este capı́tulo.
Para simplificar, vamos a suponer que la función F (xi ; λ) es una combina-
ción lineal de los parámetros. Es decir, que sea de la forma:
F (x; λ) = λ1 f1 (x) + λ2 f2 (x) + ... + λn fn (x)
donde las fk (x) son funciones cualesquiera. Vemos que esta función F (x; λ)
no es muy general, pero lo es más que las funciones polinómicas, por ejem-
plo, y que son las que habitualmente se emplean en el ajuste por mı́nimos
cuadrados. En este caso, la función a minimizar es:
P
X (yi − j λj fj (x))2
S(λ) =
i
σi2
71
Aquı́ tenemos una colección de ecuaciones, no solo una. Habrá tantas como
parámetros λk tengamos. Es decir, si derivamos respecto a un λk :
( ! )
∂k S(λ) X X 2 fk (xi )
= yi − λj fj (x) =0 (2.7)
∂λk i j
σi2
Esta última expresión representa a un conjunto de ecuaciones por cada uno

de los parámetros λk , con k = 1, 2, .., n. Es decir, tenemos n ecuaciones li-
neales que pueden resolverse para obtener los estimadores. Separemos ahora
los términos de las ecuaciones anteriores:
X fk (xi ) X X fk (xi ) fj (xi )
yi = λj
i
σi2 i j
σi2
Para simplificar la notación, vamos a definir un par de cantidades matricia-

les. Primero, definimos un vector Y tal que:
X fk (xi )
Y = Yk ≡ yi
i
σi2
y luego una matriz simétrica M igual a:

X fk (xi ) fj (xi )
Mkj ≡
i
σi2
Si llamamos λ al vector de los elementos λk , podemos expresar las ecuaciones

(2.7) de la siguiente manera:
λ = M −1 Y (2.8)
donde M −1 es la matriz inversa de M . Ası́, el problema se reduce a calcular

la inversión de la matriz, algo que puede hacerse, en caso que sea necesario,
de forma numérica o simbólica. Si sólo se trata de un par de parámetros,
podemos realizar la inversión a través de las ecuaciones sin necesidad de
usar matrices. Sin embargo, el método matricial conlleva ciertas ventajas,
72
tales como la obtención directa de las desviaciones tı́picas de los parámetros,

como veremos a continuación.
Para calcular las desviaciones tı́picas, vamos a suponer que los verdaderos
valores (que se obtendrı́an bajo el imposible supuesto de que midiésemos
infinitas veces) que corresponden a Y = Yk los denominamos como Ȳ = Ȳk ,
que los que corresponden a yk son ȳk y que los correspondientes verdaderos
valores de los parámetros λ los llamamos α = αk . Dicho esto, la varianza
de los parámetros λ = λk es igual al valor esperado:
E[(λk − αk )2 ]
Podemos obtener fácilmente esta expresión considerando que es un caso

particular de una definición más general:
E[(λk − αk )(λq − αq )]
Vamos a calcular esos dos términos dentro de la expresión del valor esperado
de forma separada empleando las ecuaciones anteriores. Primero vemos que:
X X fj (xi )
λk − αk = (M −1 )kj (Yj − Ȳj ) = (M −1 )kj 2
(yi − ȳi ) (2.9)
j ij
σ i
E igualmente obtenemos el otro término sin más que cambiar los ı́ndices (k
por q, j por p y i por l):
X fp (xl )
λq − α q = (M −1 )qp 2
(yl − ȳl ) (2.10)
pl
σ l
Ahora bien, sabemos que, si yi e yl son estadı́sticamente independientes:

E[(yi − ȳi )(yl − ȳl )] = σi2 δil (2.11)
donde δil es la delta de Kronecker (1 si i = l, o igual a 0 si los ı́ndices son

distintos). Sabiendo esto, multiplicamos las ecuaciones (2.9) y (2.10) y nos
queda:
X fj (xi )fp (xl )
(λk − αk )(λq − αq ) = (M −1 )qp (M −1 )kj (yi − ȳi )(yl − ȳl )
ijpl
σi2 σl2
73
Aplicando el estimador y la expresión (2.11) obtenemos:
X fj (xi )fp (xl )
E[(λk − αk )(λq − αq )] = (M −1 )qp (M −1 )kj 2
δil
ijpl
σ l
El lector puede comprobar que parte del término final de la anterior expre-
sión es igual a Mjp :
X fj (xi )fp (xl )
2
δil = Mjp
il
σ l
Finalmente obtenemos:
X
E[(λk − αk )(λq − αq )] = (M −1 )kj (M −1 )qp Mjp =
jp
X
= (M −1 )kj δjq = (M −1 )kq
jp
Si ahora volvemos al principio y hacemos k = q y empleamos de nuevo

(2.11) tenemos que:
σ 2 (λk ) = (M −1 )kk
y la desviación tı́pica será:

p
σ(λk ) = (M −1 )kk (2.12)
Es decir, las desviaciones vienen dadas a partir de los elementos diagonales

de la matriz M −1 .
Ajuste lineal.
Vamos a ver un ejemplo sencillo de lo explicado anteriormente. A conti-

nuación, ajustaremos un conjunto de datos con error en las ordenadas a
una función de tipo lineal y compararemos los resultados que se obtienen
empleando las fórmulas de regresión lineal habituales con lo que se obtiene
mediante el método matricial anteriormente explicado.
74
La relación lineal será de la forma:
y = λ1 x + λ2
Es decir, en la notación matricial tendremos que n = 2, donde f (x, λ) = y,

f1 (x) = x y f2 (x) = 1. Por tanto, tendremos una matriz M de dimensiones
2 × 2 que tiene la siguiente forma:
P P
P f1 (xi )f1 (xi )/σi2 P f1 (xi )f2 (xi )/σi2
M=
f2 (xi )f1 (xi )/σi2 f2 (xi )f2 (xi )/σi2
donde las sumas son en la variable i, la cual se refiere al número de datos

disponibles. Igualmente, el vector Y será:
P 2

f (x )y /σ
Y= P 1 i i i
f2 (xi )yi /σi2
Si ahora sustituimos las expresiones de fi (x) para el caso de la función lineal,

tendremos que la matriz M es:
P 2
P 2

P x i x i /σi P x i /σi
M= (2.13)
xi /σi2 1/σi2
Mientras que el vector Y se reducirá a:

P 2

P x i y i /σi
Y= (2.14)
yi /σi2
Ejercicio 2.3 Supongamos que tenemos una serie de datos experimen-

tales representados por los puntos de abscisas xi = {1; 2; 3; 4; 5; 6}, orde-
nadas yi = {1,5; 2,5; 4,0; 3,6; 5,9; 6,1} y donde los errores de estos últimos
valores vienen dados por las cantidades σi = {0,2; 0,1; 0,2; 0,4; 0,1; 0,2}.
Obtenga el ajuste lineal a los datos mediante el método matricial ante-
riormente explicado.
Solución
75
Empleando estos datos y la expresiones anteriores se obtiene que:

4792,5 4150 975
Y= M=
1152,5 975 281
Ahora bien, para obtener los parámetros tenemos que emplear la fórmula
λ = M −1 Y que supone tener que invertir la matriz M . Para el caso 2×2

esto es muy sencillo ya que si tenemos una matriz de la forma ac db su
inversa viene dada por:

1 d −b
ad − bc −c a
Entonces, podemos calcular directamente que:

−1 0,001299 −0,004502
M =
−0,004502 0,019162
Aplicando que λ = M −1 Y, obtenemos el vector de los parámetros:

λ1 0,001299 −0,004502 4792,5
λ= =
λ2 −0,004502 0,019162 1152,5
Además, sabemos calcular el error de los parámetros del ajuste lineal

directamente. Estos son las raı́ces cuadradas de los elementos diagonales
de la matriz inversa de M . Es decir:
p −1 ! √
M 0,001299 0,036
σ = p −1 11
= √ =
M22 0,019162 0,138
Ası́, finalmente obtenemos que el ajuste deseado:
y = (1,04 ± 0,04) x + (0,51 ± 0,14)
76
Regresión con errores

6 Regresión sin errores
Datos
4
y
1
1 2 3 4 5 6
x
Figura 2.1. Regresiones lineales correspondientes al ejercicio anterior, al incluir los errores y sin incluirlos.
Respecto a resultado de este último ejercicio, podemos comparar con lo

que obtendrı́amos usando la metodologı́a habitual explicada en Técnicas
Experimentales I, donde se suponı́an desconocidas las desviaciones de y. En
tal caso, obtendrı́amos que:
y = (0,94 ± 0,14) x + (0,7 ± 0,5)
Como puede verse, los resultados difieren bastante, especialmente cuando

comparamos los errores. La gran diferencia entre los dos métodos es que el
que hemos explicado en este texto tiene en cuenta las desviaciones de cada
dato para calcular los valores. Es decir, si un valor tiene una incertidumbre
considerable, apenas si contará en el cálculo, el cual estará ponderado en
función de los errores de los datos proporcionados. Si nos fijamos en la
gráfica de los datos, veremos que hay un dato que se desvı́a mucho del
comportamiento general y que tiene un error asociado considerable. En la
gráfica 2.1 pueden verse las dos regresiones, una calculada con los errores y
otra sin ellos. Véase como la regresión sin errores tiende más hacia el dato
((rebelde)).
Con esta metodologı́a de ajuste lineal, los errores de los parámetros que-
dan notablemente reducidos. Esto es porque el método de cálculo tiende a
77
menospreciar los datos menos precisos. La pregunta que podemos hacernos
aquı́ tiene su importancia: ¿queremos menospreciar los datos menos preci-
sos? Al final y al cabo son mediciones experimentales y su inclusión nos
informa acerca de la precisión experimental. Es más, en muchos casos y
en muchas publicaciones cientı́ficas no se realiza este cálculo, obteniéndose
entonces el ajuste mediante regresión lineal sin preocuparse de los errores
en las y. De esta forma, puede entenderse que tenemos en cuenta todos los
datos por igual y además sabemos que el error en los parámetros va a ser
una cota máxima. Como siempre, un punto intermedio y razonado a la hora
de realizar estas consideraciones es siempre deseable, pero aquı́ tenemos un
cierto factor de falta de objetividad que hay que tener presente. El objetivo
de esta discusión es ayudar a desmitificar el método de los mı́nimos cua-
drados, ası́ como la indiscutibilidad del resultado que se obtiene a través
de él ya que, como hemos visto, los parámetros que obtenemos dependen
de las desviaciones tı́picas de los datos, las cuales, además, también pueden
contener cierto factor de subjetividad.
Ajuste a una función cualquiera.
A continuación, vamos a exponer la metodologı́a teórica para ajustar con

mı́nimos cuadrados para una función cualquiera. Pero primero vamos calcu-
lar las expresiones del ajuste lineal, pero directamente a partir de la expre-
sión (2.4) e introduciendo una nueva notación cuya utilidad veremos más
adelante cuando generalicemos el método que estamos empleando. Supon-
gamos de nuevo una relación entre los parámetros de esta forma:
y = λ1 x + λ2
Derivando la expresión (2.4) respecto a los parámetros obtenemos lo siguien-

te:
∂S X xi (yi − λ1 xi − λ2 )
= −2 =0
∂λ1 σi2
e igualmente:
∂S X (yi − λ1 xi − λ2 )
= −2 =0
∂λ2 σi2
78
Si a continuación definimos las cantidades siguientes:

X xi X 1 X yi
A≡ 2
, B≡ 2
, C≡ ,
σi σi σi2
X x2 X xi yi X y2
i i
D≡ 2
, E ≡ 2
, F ≡
σi σi σi2
Obtenemos el siguiente sistema de ecuaciones:
−E + λ1 D + λ2 A = 0, −C + λ1 A + λ2 B = 0
de donde se obtiene despejando que:
EB − CA DC − EA
λ1 = , λ2 =
DB − A2 DB − A2
Es más, el sistema de ecuaciones anterior nos permite definir una matriz,

que ahora llamaremos C tal que:
λC −1 = a
donde se define que:

E
a≡
C
y que:
D A
C −1
≡ (2.15)
A B
Por tanto:
1 B −A
C =
DB − A2 −A D
expresión que proporciona la misma solución para los λi que despejando

directamente, por supuesto. Estas matrices tienen su importancia, ya que
podemos demostrar que la matriz C −1 es igual a 1/2 de la matriz hessiana
79
de la función S. Recordemos que la matriz hessiana de una función f que
depende de unas variables x1 ...xn se define de la siguiente forma:
 ∂2f ∂2f 2f 
∂x21 ∂x1 ∂x2
· · · ∂x∂1 ∂x n
 ∂2f ∂2f 2f 
 ∂x2 ∂x1 2 · · · ∂x∂2 ∂x 
H(f ) ≡ 
 ..
∂x
..
2
.. .
n 

 . . . .. 
∂2f ∂2f ∂2f
∂xn ∂x1 ∂xn ∂x2
··· ∂x2 n
Y en el caso de S serı́a sencillamente:

∂2S ∂2S
!
∂λ21 ∂λ1 ∂λ2
H(S) = ∂2S ∂2S
∂λ2 ∂λ1 ∂λ22
Si hacemos las cuentas se obtiene que:

P x2 P !
2 σi2 2 σx2i D A
H(S) = P i P i =2 = 2C −1
2 σx2i 2 σ12 A B
i i
El interés de esta propiedad es que podemos desarrollar S, sin restricciones

a la F que lleva en su interior, en serie de Taylor en torno al mı́nimo, es
decir:

Xn
∂S
S(λ) = S(λ̂) + (λk − λ̂k )+
k=1
∂λ k λk =λ̂k
(2.16)
1 Xn Xn
∂ 2 S
+ (λk − λ̂k )(λl − λ̂l ) + ...
2 l=1 k=1 ∂λk ∂λl λk =λ̂k
En el tercer término de la derecha de la expresión anterior tenemos preci-

samente la matriz hessiana:

1 1 ∂ 2 S
Ckl = Hkl (S) =
−1
(2.17)
2 2 ∂λk ∂λl λk =λ̂k
A la matriz C , se la llama habitualmente ((matriz de covarianza)) de los

parámetros, de forma que los elementos de la diagonal principal son las
80
varianzas. Si los parámetros fuesen independientes esa matriz saldrı́a dia-

gonal, mientras que si los parámetros dependen entre sı́, se obtiene que es
degenerada. Dado que estamos evaluando en el mı́nimo, esta matriz debe
ser definida positiva.
La utilidad del todo el desarrollo expuesto es que hemos obtenido una for-
ma general para, dada la expresión (2.16), estimar los parámetros λ. Pri-
mero, habrı́a que calcular las derivadas primeras y luego calcular la matriz
hessiana. A continuación, tendrı́amos que introducir unos valores iniciales
e ir calculando nuevos con esa expresión hasta obtener convergencia en los
parámetros. Evidentemente, este es un proceso que hay que realizar numéri-
camente con ayuda de una computadora. Por ejemplo, el método de Gauss-
Newton consiste en emplear esta metodologı́a, pero truncando la serie de
Taylor en la primera derivada.
El problema de encontrar extremos de funciones es un problema habitual
en Fı́sica. Hemos visto que el método de máxima verosimilitud consiste en
determinar unos parámetros α1 , ...αn tal que la probabilidad conjunta para
todos los datos (las f son las funciones de densidad de probabilidad):
Y
L (α1 , ...αn ) = f (xi ; α)
i=1
es máxima. Esta metodologı́a es equivalente, como ahora veremos, a mi-

nimizar la función chi-cuadrado cuando usamos distribuciones gaussianas.
Es decir, los métodos numéricos que permitan encontrar mı́nimos locales
pueden aplicarse también para realizar pruebas basadas en la distribución
χ2 , y a sus aplicaciones, que explicaremos brevemente a continuación.
Los métodos numéricos más habituales calculan mı́nimos locales (los máxi-
mos pueden calcularse igual cambiando f por −f ) ya que obtener los máxi-
mos globales es un problema mucho más complicado. En general, los méto-
dos de minimización pueden clasificarse en tres categorı́as, dependiendo de
la cantidad de información sobre la función f (x) que utilicen. Tenemos en-
tonces:
Métodos de búsqueda directa: solo necesitan conocer el valor de la

función en una serie de puntos.
81
Métodos de descenso en la dirección del gradiente: necesitan el valor
de la función y sus primeras derivadas en una serie de puntos.
Métodos de la ((matriz completa)): emplean la función y sus primeras

y segundas derivadas.
El lector interesado puede profundizar en estos métodos consultando la bi-

bliografı́a correspondiente, ya que nos permiten realizar ajustes a funciones
no lineales empleando mı́nimos cuadrados. No entraremos en más detalles
acerca de estos métodos porque exceden el contenido aconsejable de esta
asignatura.
A continuación, vamos a comentar algunos resultados de la Estadı́stica vista
en el primer capı́tulo de estos apuntes, de cara al tratamiento de los datos
experimentales, algo que puede tener una utilidad más práctica, especial-
mente porque estos resultados nos permitirán entender mejor el significado
de la desviación tı́pica, ası́ como tener un criterio para decidir si una de-
terminada función es la más adecuada para realizar un ajuste a unos datos
experimentales.
3. BONDAD DE LOS AJUSTES.
Hemos visto que podemos ajustar un conjunto de datos experimentales a

los parámetros de una determinada función, pero necesitamos algún tipo
de criterio que nos diga si los datos experimentales son compatibles con la
función a la que ajustamos. Una manera es fijarnos en los errores de los
parámetros o bien repetir las medidas todas las veces que sea posible. Sin
embargo, es posible que, dado que reunir información experimental es algo
bastante complicado, no tengamos más que los datos experimentales justos
(que es lo habitual es la experimentación real). Además, puede ser que el
ajuste sea, por casualidad, especialmente bueno, de forma que los errores
en los parámetros sean pequeños. En cualquier caso, parece evidente que,
para poder obtener conclusiones razonables, necesitamos algún método que
nos proporcione un criterio de calidad acerca de los ajustes.
82
3.1. Método χ2 .
La Estadı́stica proporciona gran cantidad de información en cuanto a buscar

la bondad de los ajustes que realicemos y no entraremos en gran detalle
en este texto, ya que el objetivo de ese capı́tulo solamente es proporcionar
algunas nociones de carácter práctico. El método más habitual es la llamada
prueba chi-cuadrado, basada en el estudio de la distribución χ2 .
Una forma muy sencilla de explicar la distribución χ2 es considerar que
esta evalúa la diferencia entre las frecuencias observadas y teóricas de un
conjunto de n sucesos en un determinado experimento. Por lo que hemos
visto anteriormente, parece lógico suponer que esa distribución será de la
siguiente forma:
Xn
(wio − wit )
2
χ2 = 2
(2.18)
i=1
σi
donde wio son las frecuencias observadas y wit las frecuencias teóricas de ese
determinado suceso, mientras que las σi2 son las varianzas poblacionales de
las frecuencias teóricas. Estas últimas cantidades, según la distribución de
Poisson, son iguales a las frecuencias teóricas (wit ). Por tanto:
X
n
(wo − wt )
2
i i
χ2 = (2.19)
i=1
wt
Si a esto le unimos que el valor esperado de (wio − wit )2 es también igual

a la varianza de las wt (iguales a wt ), obtenemos que el valor esperado de
χ2 es igual a n, el número de sucesos. Aquı́ hemos de tener en cuenta que
los datos de la muestra pueden no ser independientes, de forma que para
evaluar el valor esperado tenemos que tener en cuenta el llamado número
de ((grados de libertad)).
Definimos el número de grados de libertad del sistema como el número
de datos menos el número de parámetros que se obtienen a partir de las
ligaduras o ecuaciones que estemos empleando. Este número normalmente
se representa con la letra ν. Por ejemplo, si estamos usando una distribu-
ción gaussiana, las ecuaciones que estamos empleando serán el número total
de datos (que es la suma de las observaciones individuales), ası́ como las
83
expresiones para la media y la desviación tı́pica. Esto supone tres ligaduras,
de forma que el número de grados de libertad será ν = n − 3. En caso de
que estemos usando el método χ2 para la bondad de un ajuste a una fun-
ción lineal, el número de parámetros es igual a dos (los correspondientes a
la recta de regresión) y por lo tanto el número de grados de libertad será
ν = n − 2.
Volviendo al caso de las frecuencias y del valor esperado de χ2 , este será
igual a n−1, que es igual al número de grados de libertad. Este número viene
dado porque se considera que la la suma de las frecuencias, tanto teóricas
como experimentales, tiene que ser igual a un determinado número fijo N .
Esta afirmación es en sı́ misma una expresión teórica que se considera como
una ligadura en el sistema, la cual reducirı́a el número efectivo de datos
observados. Ası́, el valor medio de χ2 es, en este caso:
E[χ2 ] = n − 1 (2.20)
donde E significa valor esperado. Partiendo de estos últimos resultados,

podemos afirmar (sin ser muy rigurosos, más adelante veremos la razón)
que si χ2 ≤ E[χ2 ], es probable que el acuerdo entre observación y teorı́a sea
bueno; mientras que si χ2 E[χ2 ], el acuerdo seguramente sea malo, ya
que es muy improbable que con un buen acuerdo se obtenga un valor de χ2
muy grande. Para fijar mejor estas consideraciones iniciales, más allá de la
intuición, hay que emplear la distribución de χ2 .
En definitiva, cuando realizamos un experimento es necesario decidir si se
confirma una hipótesis o no. Por ejemplo, una hipótesis serı́a decidir si unos
determinados datos que hemos medido, que llamamos y, ajustan a una
determinada función f que depende de una variable independiente x. Es
decir, tenemos hipótesis es y = f (x) y necesitamos saber con cierto grado
de certidumbre si esa hipótesis ((no es falsa)). Más adelante profundizaremos
en estos conceptos, especialmente en cuanto al concepto de hipótesis, pero
de momento vamos a desarrollar unos ejemplos sencillos para afianzar lo
desarrollado.
En caso de plantear la hipótesis y = f (x) tenemos que, usando las respec-
84
tivas desviaciones tı́picas σ, el estadı́stico chi-cuadrado serı́a:

X
n
(yi − f (xi ))2
2
χ = (2.21)
i=1
σi2
Por tanto, la función (2.21) es una medida de la desviación entre los valores
medidos y los valores obtenidos a través del ajuste de la función f , de
forma que χ2 = 0 si el ajuste fuese perfecto. Dado que los valores esperados
del numerador de la expresión anteriores son iguales a las varianzas σi2 , se
obtiene que el valor esperado de χ2 es:
E[χ2 ] = n
De nuevo, si en un determinado experimento el valor de χ2 no difiere mucho

de n, podremos suponer que no hay problemas con el ajuste, pero si es mucho
mayor es de suponer que tendemos que rechazar la hipótesis de partida.
Lo anterior es valido para un ajuste sin parámetros, pero lo normal es que la
función teórica dependa de m parámetros (λ1 , λ2 ,.., λm , por ejemplo). Como
comentamos anteriormente, en tal caso los grados de libertad del sistema se
reducen, de forma que el valor estimado para χ2 será:
E[χ2 ] = n − m (2.22)
Nótese que, por ejemplo, si tenemos tantos parámetros como datos m = n y

entonces es posible determinar los parámetros de forma que y = f (x) para
todos los pares de datos, de forma que χ2 = 0, que es el mismo resultado
que se deduce de (2.22).
Ejercicio 2.4 Tenemos una moneda que se lanza al aire 200 veces,
observándose 118 caras y 82 cruces. Las frecuencias teóricas, wt , son
100 para las caras y 100 para las cruces, ya que ambos sucesos son
estadı́sticamente igual de probables y su probabilidad es 1/2 en ambos
casos. ¿Estará trucada la moneda?
Solución
85
El número de sucesos, n, es igual a 2, ya que solo hay dos posibilidades,
cara o cruz. Según (2.20), el valor esperado para χ2 = 2 − 1 = 1. Pero
empleando (2.19) se obtiene que:
χ2 = 6,5
que es bastante mayor que E[χ2 ] = 1, de forma que es probable que la

moneda esté trucada.
Ejercicio 2.5 Tenemos una tabla de 200 dı́gitos obtenidos de

forma aleatoria. Estos se agrupan en 10 categorı́as de for-
ma que cada una de ellas proporciona las frecuencias wio =
{15; 24; 16; 23; 17; 22; 24; 16; 25; 18}. Es decir, cada una de esas
agrupaciones tiene 15 datos en una, 24 datos en la siguiente, etc. La pre-
gunta que nos hacemos es si los datos se han obtenido de forma realmente
aleatoria.
Solución
Las frecuencias teóricas o esperadas, wt , serán igual al número de dı́gitos
divido por el número de sucesos, es decir, 20. El valor esperado para
E[χ2 ] = n − 1 = 10 − 1 = 9. Si calculamos el valor de χ2 , obtenemos
que es igual a 7. Por tanto, concluimos que no hay sospechas de que la
tendencia de los datos no sea aleatoria.
El ejercicio anterior introduce la duda acerca de cuáles serı́an realmente los

grados de libertad si agrupamos los datos obtenidos por frecuencias. En ese
ejemplo tenemos 200 dı́gitos, pero los hemos agrupado en frecuencias pa-
ra usar solo 10 conjuntos (estos conjuntos a veces se denominan ((clases))).
Dado que vamos a usar el método χ2 sobre las clases, no sobre los datos in-
dividuales, los grados de libertad asociados se deben calcular a través de las
frecuencias y no contabilizando el número de datos originales. Por ejemplo,
si a partir de una serie de medidas experimentales, obtenemos un conjunto
de datos, y si a partir de ellos dibujamos un histograma para analizar el
86
problema o realizar un ajuste a una función, el n que debemos usar es el

número de barras del histograma. Esto es, el número de clasificaciones por
frecuencias que hemos usado, no el número de datos originales.
más información
Si hablamos formalmente de ((contraste de hipótesis)) y si esa hipótesis

consiste en suponer que la muestra sigue la distribución teórica de forma
que las desviaciones son debidas únicamente al azar (como veremos más
adelante en este capı́tulo, a esta hipótesis se le suele llamar ((hipótesis
nula)) y se suele representar con el sı́mbolo H0 ), es posible demostrar
que el número de grados de libertad es n − 1, donde n es el número de
((clases)) o conjunto de frecuencias.
Ejercicio 2.6 Usando los datos del ejercicio 2.4 y los resultados obteni-
dos para las regresiones lineales detallados en los apartados anteriores,
calcule los valores de χ2 y E[χ2 ] para los dos casos considerados: cuando
no se usaban desviaciones tı́picas para cada dato y cuando sı́ se usa-
ban.Para obtener la varianza de y en el primer caso, puede usarse la
siguiente expresión:
1 X
s2 (y) = (yi − axi − b)2
n−2
Solución
Mediante el uso de las desviaciones tı́picas en la regresión se obtiene el
resultado y = 1,04 x + 0,51, y por tanto:
X
6
yi − 1,04 xi + 0,51
2
χ = = 25,6
i=1
σi2
El valor esperado es:

E[χ2 ] = n − m = 6 − 2 = 4
87
Hay mucha diferencia entre los valores, ası́ que podemos decir que el
ajuste no es bueno. Si no utilizásemos desviaciones, obtendrı́amos χ2 = 4,
con lo cual la conclusión del test es totalmente distinta. Las diferencias
entre ambos métodos están muy relacionadas con el cuarto punto que
puede verse en la figura 2.1.
Finalmente, comentamos una definición que será útil en las siguientes sec-
ciones. Como hemos visto, si repetimos el experimento suficientes veces,
el valor medio o esperado de χ2 deberá ser aproximadamente igual a ν,
el número de grados de libertad. De esta manera, puede definirse una chi
reducida, representada como χ̃2 , tal que:
χ2
χ̃2 ≡ (2.23)
ν
3.2. Interpretación de la desviación tı́pica
En el anterior capı́tulo ya se ha hablado de distribuciones de probabilidad

y se ha comentado el caso de la distribución χ2 . Resumiendo, sabemos que
la distribución de densidad de probabilidad es:
1
ρχ2 (z; ν) = e−z/2 z ν/2−1 (2.24)
2ν/2 Γ(ν/2)
donde ν = n − k, que es el número de grados de libertad dado por el

número n de observaciones independientes y el número k de parámetros
que deben estimarse a partir de las observaciones. La desviación tı́pica de
la distribución es: √
σχ2 = 2ν (2.25)
Un resultado significativamente importante en cuanto al tratamiento de

errores es el que vamos a explicar a continuación y que se centra en el
significado de las desviaciones tı́picas de un conjunto de datos. Existe una
diferencia entre los parámetros que se deducen del estudio estadı́stico a
partir de la distribución de probabilidad y los estimadores de estos. Las
88
desviaciones explicadas en el texto de Técnicas Experimentales I y que se

obtienen a partir de los datos de un experimento de n medidas son una
estimación de la desviación tı́pica media que, a su vez, resultarı́a si se re-
pitiese el experimento una infinidad de veces. Es decir, ni s2 (x), ni s2n−1 (x)
son iguales a la varianza σ 2 (x) del universo.
Nosotros deseamos conocer, por ejemplo, µ y σ, y para ello utilizamos los
estadı́sticos x̄, s2 (x) y s2n−1 (x) como aproximaciones razonables. Es decir, en
cada experimento se puede obtener una desviación tı́pica distinta, de forma
que la media de todas esas desviaciones al realizar el experimento infinitas
veces es la expresión que vamos a calcular a continuación. Para ello era
necesario conocer el concepto de distribución de probabilidad.
Conviene mencionar un resultado especialmente importante relativo a la
desviación tı́pica, s(x), con la que habitualmente trabajamos en los experi-
mentos. Si la distribución de los datos es normal, N (µ, σ) (que suele ser lo
habitual), y si se realizan un buen número de medidas, es posible calcular
la probabilidad de que x se encuentre en intervalos determinados. En con-
creto, podemos preguntarnos, por ejemplo, cuál es la probabilidad de que x
se encuentre en los intervalos µ ± σ, µ ± 2σ o µ ± 3σ. Puede calcularse que
esta probabilidad es del 68,3 %, 95,4 % y del 99,7 %, respectivamente. Este
resultado nos indica el verdadero significado de la desviación tı́pica como
cantidad que mide la dispersión respecto a la media en un universo normal:
la probabilidad de que el valor de x se encuentre dentro del intervalo µ ± σ
es aproximadamente igual a 2/3.
Por tanto, si la población de medidas de una magnitud es aproximadamente
normal y calculamos un valor medio x̄ y una desviación tı́pica s, es de esperar
que en el intervalo x̄ ± s se encuentren 2/3 de los datos, aproximadamente.
Podemos preguntarnos entonces si serı́a necesario proporcionar, por ejemplo,
el doble de la desviación tı́pica para mejorar el resultado. La respuesta es
que en realidad no lo es, ya que el error asociado es una cantidad aproximada
y si se nos proporciona la desviación tı́pica como tal, ya sabemos (ahora)
lo que ((en realidad)) significa. Aumentar el error en el resultado solamente
llevarı́a a confusión.
Volvamos ahora al cálculo de la desviación usando la distribución nor-
mal. Supongamos que tenemos n variables aleatorias de distribución normal
89
N (µ, σ) donde se conoce la desviación tı́pica, σ, pero no la media µ. Esta
media puede estimarse usando:
1X
x̄ = xi
n
Ası́ que la distribución: P

2 (xi − x̄)2
χ =
σ2
es una distribución chi-cuadrado con ν = n − 1 grados de libertad. El
numerador de la expresión anterior es igual a (n − 1)s2 , ası́ que:
(n − 1)s2
χ2 =
σ2
Si ahora tomamos la desviación√ tı́picapen la expresión anterior en ambos

lados y aplicamos que σ(χ2 ) = 2ν = 2(n − 1), nos queda que:
r
2 2
σ(s ) = σ2
n−1
Esta fórmula permite calcular la desviación tı́pica de la varianza muestral

s2 , estimando o conociendo la varianza σ 2 de un universo normal. Aplicando
la regla de propagación de desviaciones tı́picas y usando la aproximación
s = σ, obtenemos que:
σ
σ(s) = p (2.26)
2(n − 1)
Esta imprecisión suele ser notable, ası́ que no tiene mucho sentido expresar
la desviación tı́pica con gran exactitud. Es por esto que la metodologı́a
habitual es determinar s(x) de forma que en el intervalo x̄ ± s(x) queden
2/3 de los datos. Igualmente, por esto se recomienda que las desviaciones
tı́picas se expresen sólo con una cifra significativa, a lo mucho 2 si la primera
cifra es un 1 o un 2.
90
más información
Hemos comentado que la desviación tı́pica nos indica el tanto por ciento
de los datos se encuentran en un determinado intervalo. Si suponemos
que la distribución subyacente es la normal, podemos denominar a estas
desviaciones como ((sigmas)), de forma que hablaremos de el número de
sigmas al referirnos a la precisión de los experimentos. En campos como
la Fı́sica Nuclear o la Fı́sica de Partı́culas, se habla habitualmente del
((número de sigmas necesarios para confirmar un descubrimiento)). Esta
regla suele ser la de 5σ (cinco sigmas), que proporciona una probabi-
lidad del 99,999942 %. Hace unos años se usaban 3σ pero se demostró
que, al menos en Fı́sica de Partı́culas, esa precisión era insuficiente
para confirmar con suficiente fiabilidad el descubrimiento de nuevas
partı́culas.
4. CRITERIOS PARA DECISIONES.
Es conveniente ahora que profundicemos un poco más en los conceptos sub-

yacentes a la bondad de los ajustes explicados en la sección anterior. Nece-
sitamos criterios estadı́sticos que nos proporcionen cierta seguridad acerca
de los ajustes que estamos realizando a los datos experimentales. Esto se
realiza a través de la ((toma de decisiones)) o ((contrastes de hipótesis)). En
esta sección vamos a realizar una pequeña incursión en este campo, que
es de por sı́ muy extenso y complejo. Vamos a explicar los conceptos más
básicos de forma breve y concisa, omitiendo demostraciones y desarrollos,
de forma que el estudiante pueda ampliar conocimientos más adelante si ası́
lo desea.
4.1. Hipótesis y tipos de errores
Los criterios de decisiones consisten en aplicar algo muy básico (en el sen-
tido de fundamental) y que se encuentra muy ligado con la práctica del
método cientı́fico: las hipótesis nunca se pueden demostrar ciertas de forma
91
directa, ya que no podemos realizar infinitos experimentos. Por contra, lo
que hacemos es buscar que una hipótesis sea falsa, ya que eso es algo que po-
demos realizar con fiabilidad completa. Es decir, la ((inferencia estadı́stica))
funciona por reducción al absurdo: si no podemos probar como válida
una hipótesis, comprobamos si esta es falsa. De forma lógico-matemática
esto es equivalente a aplicar la relación x = ¬¬x, donde x serı́a la hipótesis
en cuestión y ¬ es el sı́mbolo para negación en Lógica.
En definitiva, en el contraste de hipótesis tendremos dos hipótesis: la hipóte-
sis nula, que normalmente se denota como H0 , y su contradicción, a la que
se suele denominar ((hipótesis alternativa)) y que suele escribirse como H1 .
La hipótesis nula supone que un parámetro no toma un valor determina-
do, o que ciertos parámetros o fenómenos no tienen relación entre ellos. El
método clásico de contraste de hipótesis supone buscar si debe rechazarse
la hipótesis nula, que en principio se considera cierta, de forma que se niega
que no haya relación entre los parámetros o fenómenos (por ejemplo) y, por
tanto, sı́ que existe alguna relación.
Por tanto, los posibles errores que podemos cometer a la hora de aceptar o
rechazar hipótesis vendrán dados por la siguiente tabla lógica:
H0 cierta H1 cierta
Tomamos H0 X Error tipo II
Tomamos H1 Error tipo I X
En esta tabla tenemos dos tipos de errores: el ((error tipo I)) y el ((error
tipo II)). Si suponemos que H1 es la hipótesis aceptada, cuando en realidad
H0 es cierta, estamos cometiendo un error de tipo I. Este error tendrá una
cierta probabilidad que podremos expresar y calcular mediante una cantidad
denominada nivel de significación o ((significancia estadı́stica)). A esta
cantidad la denotaremos como Q (aunque a menudo se usa el sı́mbolo α). Al
ser una probabilidad, tomará los valores entre 0 y 1, aunque normalmente se
expresa en tantos por ciento. Este tipo de error es el también llamado ((falso
positivo)), ya que estamos suponiendo como correcta la hipótesis de relación
(positiva) entre los parámetros cuando en realidad no lo es (hipótesis nula
cierta).
92
La confianza o bondad del contraste también se puede expresar por el grado

de confianza (expresado en tantos por ciento) que es una probabilidad, P ,
compatible con el nivel de significación: un 95 % de grado de confianza es
igual que un 0,05 de nivel de significación. Si ambas cantidades se expresan
de la misma forma probabilı́stica, tendremos que P = 1 − Q.
Por contra, el error de tipo II es aquel que se considera como ((falso nega-
tivo)), ya que estamos suponiendo que la hipótesis nula es cierta (negación
de la relación) cuando en realidad sı́ hay relación entre los parámetros. A
diferencia del error de tipo I, no suele ser posible calcular este tipo de error,
ya que, como hemos mencionado anteriormente, no es posible tener certeza
absoluta acerca de veracidad de una hipótesis positiva. En caso de poder
calcularse, este viene representado por la letra β y a la cantidad 1 − β se la
denomina ((potencia del contraste)).
más información
En el apartado anterior, comentamos el criterio de las 5 sigmas para po-

der afirmar que se ha descubierto una nueva partı́cula en un acelerador,
tal como el LHC del CERN en Ginebra. Veremos a continuación que es
posible explicar el número de sigmas, nσ, en términos de significación
respecto a la hipótesis nula. Esto nos permitirá además introducir el
concepto de ((valor p)) (p-value).
Cuando en Fı́sica de Partı́culas se tiene un número de eventos (N de-
sintegraciones) elevado, la distribución de Poisson se puede aproximar
por una distribución de Gauss:

1 (x − N )2
f (x) = √ exp
2πN 2N
tal y como sabemos a partir del Teorema Central de Lı́mite. La distri-

bución está normalizada, con media igual a N eventos y una desviación
√
N . Mediante esta distribución, podemos calcular la probabilidad de
que tengamos una desviación al menos igual a nσ por encima de la
media. Calculamos esta probabilidad integrando la distribución entre
93
N + nσ hasta infinito, esto es:
Z ∞
pn = √
f (x)dx
N +n N
A esta cantidad, pn , se la denomina como ((valor p)) (p-value). En este

caso, esta probabilidad depende del número de sigmas que vayamos
a usar y la escribimos como pn . Haciendo cambio de variables en la
expresión anterior, obtenemos una distribución de media 0 y desviación
igual a 1: Z ∞ 2
1 x
pn = √ exp − dx
n 2π 2
y esta expresión puede evaluarse usando la ((función error de Gauss)),

erf(x):
1h √ i
pn = 1 − erf(n/ 2)
2
de esta forma, si calculamos el valor p para 5σ, obtendremos que p5 =
2,9 × 10−7 . Este resultado afirma que la probabilidad de la desviación
con respecto a la hipótesis nula (negación de H0 ), al menos tan grande
como 5 sigmas, es de unas 3 partes entre 10 millones (tremendamente
improbable, luego se acepta H1 ).
El valor p aparece muy habitualmente en diversos campos donde se
emplea la Estadı́stica para obtener resultados cuantificables, especial-
mente en Ciencias Sociales. Esta cantidad suele identificarse, sin ma-
yor consideración acerca de la muestra, con la fiabilidad del estudio
estadı́stico realizado cuando su valor es pequeño (p menor que 0,05, sin
más). La interpretación simplista del p-value se suele criticar amplia-
mente cuando se usa en estudios estadı́sticos complejos, ya que puede
llevar a conclusiones incorrectas acerca de los resultados obtenidos.
Teniendo en cuenta todo lo anterior, las etapas simplificadas que vamos a

usar para emplear el contraste de hipótesis serán las siguientes:
1. Primero, hemos de tener claro cuáles son la hipótesis nula, H0 , ası́

como su contradicción, H1 .
94
2. Elegiremos el nivel de significación, Q, o grado de confianza, P , que

consideremos adecuado.
3. Tendremos en cuenta el tamaño muestral, n. No entraremos en este

texto en la importancia de este punto en el diseño de experimentos, ası́
como el denominado ((tamaño del efecto)) (effect size). En cualquier
caso, el experimentador, a la hora de realizar el contraste de hipótesis,
siempre puede controlar y variar los parámetros Q y n para mejorar
su estudio estadı́stico.
4. Seleccionaremos un estadı́stico de prueba adecuado, donde la distri-

bución muestral del mismo se supondrá conocida bajo la condición de
que la hipótesis nula es cierta.
5. Calcularemos el estadı́stico en base a los datos muestrales que dispon-

gamos.
6. Compararemos el valor calculado con el valor que toma en la región

probabilistica (((región crı́tica))) definida por el estadı́stico y el grado
de confianza. Es decir, rechazaremos la hipótesis nula en función de
esta comparación.
4.2. Contrastes basados en distribuciones
A continuación, resumiremos algunos de los métodos más comunes de toma

de decisiones, que expresaremos sin demostración. Veremos cómo obtener
los estadı́sticos de prueba para diferentes distribuciones estadı́sticas. Hemos
de mencionar también que a partir de ahora simplificaremos el lenguaje
empleado cuando hablamos de ((rechazar la hipótesis nula)). Sencillamente,
a pesar de ser un abuso del lenguaje, diremos que se acepta la relación entre
los parámetros con un cierto nivel de confianza. Esta forma de expresar los
resultados de los contrastes no es formalmente correcta, como ya hemos
visto, pero resulta más sencilla en la práctica.
95
P ( %) 99,9 99,5 99 95 90 85 80 75 70 65
zc 3,29 2,81 2,58 1,96 1,64 1,44 1,28 1,15 1,04 0,935
Tabla 2.1. Valores de zc (Gauss) para grado de confianza P .
Distribución gaussiana
Supongamos que se han realizado un número n muy elevado de determi-

naciones de una magnitud x. Calculamos la media x̄√y asignamos como
error la desviación
P tı́pica de la media, que es s(x)/ n, donde s2 (x) =
−1 2
(n−1) (xi − x̄) . Queremos ahora llegar a una conclusión acerca de si el
verdadero valor de x coincide con un determinado valor a. Si la distribución
subyacente en gaussiana, el estadı́stico a evaluar es:
|x̄ − a|
Z= √ (2.27)
s(x)/ n
y la condición que hemos de evaluar es:

Z ≤ zc (2.28)
donde zc se denomina ((valor crı́tico)) y es una constante que depende del

grado de confianza, P , que consideremos adecuado. La tabla 2.1 muestra
algunos valores de zc en función de P .
Si la expresión (2.28) se cumple, diremos que la diferencia entre x̄ y a no es
significativa y que se acepta la hipótesis de que el verdadero valor de x y
a coinciden con el grado de confianza que hemos elegido. Si la desigualdad
no se cumple, se rechaza la hipótesis. Este criterio está basado en las pro-
piedades de la distribución de Gauss, cuya utilización es válida si n es muy
grande. Habitualmente se suele elegir una P = 0,95 (95 %, con Q = 0,05),
de manera que zc = 1,96. Si para este valor de zc se cumple la desigualdad
anterior, diremos que x y a coinciden con una confianza del 95 % o con un
nivel de significación del 0,05 %. Es decir, existe una probabilidad del 5 %
de que la afirmación sea errónea.
Otro criterio interesante y tal vez más útil es el siguiente: supongamos que
hemos determinado los mejores valores de x e y, usando nx y ny datos
96
respectivamente, de manera que obtenemos x̄ y ȳ. Tenemos que decidir si

la diferencia x̄ − ȳ es significativa o no. Es decir, pretendemos decidir si las
medias de las poblaciones x e y son iguales. El estadı́stico a evaluar será:
|x̄ − ȳ|
Z= (2.29)
s(x̄ − ȳ)
donde:
s2 (x) s2 (y)
s2 (x̄ − ȳ) = s2 (x̄) + s2 (ȳ) = + (2.30)
nx ny
Por tanto, podemos afirmar que, si se cumple la relación (2.28) con el es-
tadı́stico de prueba de la expresión (2.29), la diferencia entre x e y no es
significativa con grado de confianza P (o nivel de significación Q = 1 − P )
para un determinado zc dado por la tabla 2.1.
Ejercicio 2.7 Tenemos los siguientes valores para un determinada

cantidad x = {1; 3; 5; 7; 9} y los valores para otro parámetro y =
{2; 4; 6; 8; 9}. Queremos saber si la diferencia entre ambos valores es
significativa
Solución
Establecemos una confianza del 95 %, que proporciona un valor crı́tico
zc = 1,96 a partir de la tabla 2.1. Calculamos entonces que:
x̄ = 5, s(x) = 3,16,
ȳ = 5,8, s(y) = 2,85
Mediante el uso de la expresión (2.30), obtenemos que s(x̄ − ȳ) = 1,9,

de donde tendremos que:
|x̄ − ȳ| 0,8

Z= = = 0,421
s(x̄ − ȳ) 1,9
Dado que Z = 0,421 < 1,96, la diferencia no es significativa y se acepta

que x e y son iguales con una confianza del 95 %.
97
Grados de libertad ν
P ( %) 1 2 3 4 5 6 8 10 15 30 60 100
99 63,66 9,92 5,84 4,60 4,03 3,71 3,36 3,17 2,95 2,75 2,66 2,63
95 12,71 4,30 3,18 2,78 2,57 2,45 2,31 2,23 2,13 2,04 2,00 1,99
90 6,31 2,92 2,35 2,13 2,02 1,94 1,86 1,81 1,75 1,70 1,67 1,66
80 3,08 1,89 1,64 1,53 1,48 1,44 1,40 1,37 1,34 1,31 1,30 1,29
Tabla 2.2. Valores de t (t de Student) para grado de confianza P y ν grados de libertad.
Distribución t de Student
Como hemos comentado, los métodos de decisión anteriores son válidos

sin n es muy grande y las expresiones están basadas en la aplicación de
la distribución de Gauss. Si tenemos pocas medidas y n no es demasiado
elevado, es más conveniente usar la distribución t de Student, de forma que
en lugar del valor zc utilizaremos un valor t que aparece en la tabla 2.2.
Las expresiones a usar son parecidas al caso anterior. En caso de querer
confirmar que x̄ coincide con a, usaremos el estadı́stico:
|x̄ − a|
Z= √ (2.31)
s(x)/ n
El criterio a usar con la distribución t de Student es:
Z≤t (2.32)
donde el valor t se elige de la tabla 2.2 y donde, en este caso, hemos de tener
en cuenta que los grados de libertad son ν = n − 1.
Si pretendemos evaluar la coincidencia de los resultados experimentales x̄ y
ȳ, podemos usar el estadı́stico (2.29) junto con la condición (2.32). En este
caso tenemos que tener en cuenta que el número de grados de libertad es
ν = nx + ny − 2 y que s(x̄ − ȳ) debe estimarse partiendo de la expresión
(2.30) y suponiendo s = s(x) = s(y). En tal caso, obtenemos:
s
1 1
s(x̄ − ȳ) = s +
nx ny
98
donde usamos la media ponderada siguiente para s:
(nx − 1)s2 (x) + (ny − 1)s2 (y)

s2 =
(nx − 1) + (ny − 1)
que sustituida en la expresión anterior nos da la expresión a emplear en este

caso:

2 2 2 1/nx + 1/ny
s (x̄ − ȳ) = [s (x)(nx − 1) + s (y)(ny − 1)] (2.33)
nx + ny − 2
Ejercicio 2.8 Hemos medido una determinada magnitud por dos me-
dios diferentes. En el primero, que llamamos x, se realizan 5 medidas,
mientras que en el segundo, que llamamos y, tomamos 8 medidas. Para
el primer caso, obtenemos x̄ = 43,5, s(x) = 0,8; mientras que para el
segundo, calculamos ȳ = 45,1, s(y) = 1,2. Determine si las medidas se
realizaron correctamente en ambos casos.
Solución
Dado que tenemos pocos datos, usamos los métodos correspondientes a
la t de Student. Elegimos un grado de confianza del 95 %. Los grados
de libertad del sistema son ν = 5 + 8 − 2 = 11. Usando la tabla 2.2 e
interpolando podemos aproximar que el t correspondiente es 2,2.
Aplicando la fórmula (2.33), se calcula que s(x̄ − ȳ) = 0,61 y entonces
el estadı́stico es:
|x̄ − a| 45,1 − 43,5
Z= √ = = 2,62
s(x)/ n 0,61
Por tanto, vemos que Z > (t = 2,2), con lo que podemos dudar acerca
de los datos que tenemos. Es de suponer que uno o ambos métodos
son defectuosos o que las medidas no se efectuaron correctamente en al
menos uno de los dos experimentos.
99
Distribución χ2
Volvamos ahora al método basado en la distribución χ2 , pero desde el punto

de vista del contraste de hipótesis. Nuestro principal interés, y en realidad
la justificación para todo lo explicado en esta sección, era encontrar un
criterio para evaluar el ajuste realizado a los datos experimentales a una
función teórica f (x). Es decir, queremos saber si es correcto que los datos
experimentales x (variable independiente) e y están relacionados mediante
y = f (x; λm ).
Como ı́ndice de la bondad del ajuste, podemos usar la expresión (2.21) como
estadı́stico de prueba, donde en lugar de σ usamos s2 (yi ), las dispersiones
de los datos y. Llamaremos ahora a esa expresión S para evitar confusiones:
X
n
(yi − f (xi ; λm ))2
S= (2.34)
i=1
s2 (yi )
Ahora empleamos la misma metodologı́a que en los casos anteriores. Elegi-

remos una confianza, P , asociada a los grados de libertad, que mediante la
tabla 2.3 nos proporcionará el valor χ2c , tal que si:
S ≤ χ2c (2.35)
consideraremos que la hipótesis de y = f (x) se ajusta bien a los datos

experimentales con una confianza P en tanto por ciento. Los grados de
libertad son ν = n − k, donde k dependerá de los parámetros de la función
a la que ajustamos. Si la expresión es puramente teórica, tendremos que
k = 0, pero si depende de m parámetros a determinar, entonces k = m.
Si además se usan los datos para estimar algún valor de s(yi ) esto también
debe tenerse en cuenta a la hora de determinar k.
Ejercicio 2.9 Tenemos una colección de datos experimentales tales que

para x = {1; 2; 3; 4; 5} obtenemos y = {3,11; 4,46; 5,48; 6,25; 7,04} con
s(y) = 0,03 en todos los casos. Queremos √ comprobar que estos datos se
ajustan bien a la función teórica y = π x.
100
Grados de libertad ν
P ( %) 1 2 3 4 5 6 8 10 15 30 60 100
99 6,63 9,21 11,3 13,3 15,1 16,8 20,1 23,2 30,6 50,9 88,4 135,8
95 3,84 5,99 7,81 9,49 11,1 12,6 15,5 18,3 25,0 43,8 79,1 124,3
90 2,71 4,61 6,25 7,78 9,24 10,6 13,4 16,0 22,3 40,3 74,4 118,5
80 1,64 3,22 4,64 5,99 7,29 8,56 11,0 13,4 19,3 36,2 69,5 112,2
Tabla 2.3. Valores de χ2c para grado de confianza P y ν grados de libertad.
Solución
Elegimos una confianza del P = 95 % y dado que ν = 5 (no hay paráme-
tros que determinar en la función teórica), buscamos en la tabla 2.3 y
obtenemos χ2c = 11,1. Si calculamos S mediante (2.34) se obtiene que
2
√S ≤ χc podemos concluir que la hipótesis de ajuste a la
S = 4,6. Al ser
función y = π x se cumple con una confianza del 95 %.
En general, esta prueba de χ2 es la más empleada a la hora de estudiar

la validez de los ajustes gracias a su simplicidad. Una forma alternativa
de aplicar este método es usar la chi-cuadrado reducida, χ̃2 , definida
anteriormente en la expresión (2.23). Pero antes debemos recordar que S ∼
ν, es decir χ̃2 ∼ 1 cuando tengamos suficientes datos. O lo que es lo mismo, la
comparación entre el valor de chi-cuadrado y el valor esperado (el número de
grados de libertad) solo se puede dar cuando se tienen suficientes medidas. A
menudo esta prueba se utiliza para pocos datos, lo que puede proporcionar
resultados no fiables. En general, como ocurre muchas veces en el análisis
de errores, puede considerarse como un criterio general y podemos usarla
cuando disponemos de pocos datos, pero siempre teniendo presente qué es
lo que se está haciendo y cuáles son las limitaciones del método elegido.
En principio, y muchos textos ası́ lo explicitan, el test chi-cuadrado no es
recomendable para menos de 10 grados de libertad.
En definitiva, una versión rápida del test chi-cuadrado está basada en χ̃20 ,
la chi-cuadrado reducida, calculada para el experimento en cuestión, con
ν ≥ 10 de forma que podemos decir lo siguiente:
Si χ̃20 ∼ 1, podemos considerar que que el ajuste es adecuado.
101
Si χ̃20 1, podemos descartar el ajuste.
Si χ̃20 > 2 para ν ∼ 10, podemos cuestionar el ajuste.
Si χ̃20 > 1,5 para 50 < ν < 100, podemos cuestionar el ajuste.
Si χ̃20 1, serı́a recomendable que repasemos el cálculo de las desvia-

ciones de las medidas, porque puede ser que se hayan sobrestimado,
algo que reduce el valor de la chi-cuadrado. Si las desviaciones están
calculadas correctamente, entonces se están usando más parámetros
en el ajuste de los necesarios.
Ejercicio 2.10 Volvemos a los datos del ejemplo anterior: x =

{1; 2; 3; 4; 5} obtenemos y = {3,11; 4,46; 5,48; 6,25; 7,04} con s(y) =
0,03 en todos los casos. Queremos comprobar
√ que estos datos se ajus-
tan bien a la función teórica y = π x usando ahora el método de la
chi-reducida.
Solución
Calculamos S mediante (2.34), de forma que obtenemos S = 4,6. En tal
caso la chi-reducida es:
S
χ̃20 = = 0,92
ν
2
χ̃0 ∼ 1 podemos concluir que la hipótesis de ajuste a la función
Al ser √
y = π x es válida, pero hay que hacer la salvedad de que se tienen
muy pocos puntos y eso puede distorsionar la conclusión. Por ejemplo,
supongamos que aumentamos ligeramente el error de los datos, hasta
s(y) = 0,04. En tal caso, obtendrı́amos S = 2,6 y χ̃20 = 0,52 y podrı́amos
empezar a dudar del resultado que nos proporciona el test.
A continuación, encontrará una pequeña colección de ejercicios relacionados

con los contenidos de este capı́tulo. En el Anexo A, el lector podrá encontrar
varios ejemplos de ejercicios de análisis de datos experimentales que incluyen
varios de los aspectos prácticos de este capı́tulo desarrollados en detalle.
102
5. EJERCICIOS
Ej. 2.1 — Supongamos que tenemos una serie de datos que siguen una
distribución binomial. En este caso, tenemos una serie de mediciones que
se dividen en éxito o fracaso. El éxito será X = 1 y el fracaso X = 0. La
función de probabilidad para una de las medidas es:

x 1−x 1 − p cuando x = 0
f (x, p) = p (1 − p) =
p cuando x = 1
donde p es la probabilidad de éxito que es la cantidad que queremos obtener.
Supongamos que en el experimento tenemos n medidas y f éxitos. Obtenga
la función de máxima verosimilitud y los estimadores.
Ej. 2.2 — Una ruleta de casino (europeo) se compone de 37 números. 18

de ellos son negros, 18 rojos, y un número verde marcado como 0. Una bola
rueda sobre un tablero circular de forma que puede caer (en principio con
igualdad de probabilidad) en cualquier número. Una apuesta tı́pica consiste
en jugar a un color determinado (negro o rojo). Si cae en verde, se dice que
gana la banca y todos los jugadores pierden su apuesta. Esto, obviamente,
solo deberı́a ocurrir muy eventualmente. Tras analizar 400 partidas, un ju-
gador obtiene un recuento de 186 rojos, 191 negros y 23 verdes. Utilizando
un método χ2 , ¿qué puede concluir?
(a) Dado que χ2 = 14, la ruleta está trucada a favor del casino.
(b) Con un resultado de χ2 = 0,04 no puede determinarse si la ruleta

está trucada o no.
(c) Con un resultado de χ2 = 0,04 la ruleta está definitivamente trucada.
(d) Con 400 partidas no hay una muestra estadı́stica suficientemente

grande como para determinar si la ruleta está trucada.
Ej. 2.3 — Una serie de 20 números aleatorios pueden agruparse en in-

tervalos para formar un histograma. Las frecuencias correspondientes pue-
den ajustarse a una distribución normal con media µ = 2,366 y desviación
103
σ = 0,011. Queremos realizar un test χ2 para saber si este ajuste es correcto
o no dentro de un intervalo de confianza. En tal caso ¿cuál serı́a el número
de grados de libertad ν que tenemos que usar?
(a) 20
(b) 18
(c) 17
(d) Dependerá de los intervalos
Ej. 2.4 — Siguiendo con el ejemplo del ejercicio anterior (20 datos alea-
torios ajustados a una normal con µ = 2,366 σ = 0,011), tenemos los
siguientes datos:
Intervalo Frec. expe- Frec.
rimental calculada
2,34 − 2,35 0,05 0,059
2,35 − 2,36 0,25 0,220
2,36 − 2,37 0,40 0,361
2,37 − 2,38 0,20 0,220
2,38 − 2,39 0,10 0,059
Es posible demostrar que, según la distribución chi-cuadrado, se tiene que:
√
χ2c = ν + 2 2 ν
cuando se usa una probabilidad P (χ2 < χ2c ) = 0,96 y donde ν son los grados
de libertad. Usando este resultado, podemos concluir que:
(a) χ2 = 37,9 > χ2c = 6, el ajuste no es bueno.
(b) Como χ2 = 37,9 > χ2c = 30, el ajuste no es bueno.
(c) Como χ2 = 3,2 < χ2c = 6, el ajuste es correcto con una confianza del
96 %
(d) Como χ2 = 3,2 < χ2c = 30, el ajuste es correcto con una confianza
del 96 %
104
Ej. 2.5 — De forma teórica, obtenemos que el valor de una determinada

magnitud es a = 3,65. Para comprobarlo, nos dirigimos animosos al labo-
ratorio y realizamos 50 arduas medidas. A partir de las mismas obtenemos
x̄ = 3,62 con una desviación tı́pica de los datos s(x) = 0,22. ¿Podemos
concluir que las medidas confirman el valor esperado de la magnitud con
una confianza del 90 %?
Ej. 2.6 — Disponemos de los siguientes pares de datos experimentales:
(xi ; yi ) = (−1,25; 1,15), (−1; 1,14), (−0,75; 1,05),

(−0,50; 1,03), (−0,25; 1,01), (0; 0,99), (0,25; 1,02),
(0,5; 1,04), (0,75; 1,07), (1; 1,15), (1,25; 1,18)
Si la desviación en los datos es s(yi ) = 0,02 y si usamos el método chi-

cuadrado reducida: ¿Puede decirse que los datos ajustan a una función
2
y = ex /10 ?
Ej. 2.7 — Disponemos de los siguientes pares de datos:
(xi ; yi ) = (1; 60), (2; 56), (3; 71), (4; 66), (5; 86)
donde la desviación en los datos es s(yi ) = 4. Los datos pueden ajustarse a

una función de la forma y = A + Bx. Obtenga los parámetros A y B con
su error.
105
Tema 3
TEORÍA DE FILTRADO
En los siguientes apartados se presenta una teorı́a general de sistemas de

filtrado o, en términos más generales, de los sistemas de tratamiento de
señal. Para ello hemos optado por, en primer lugar, presentar un marco
general común para, después, abordar por separado el tratamiento de las
señales analógicas y digitales. Como se verá en el marco general, los sistemas
de tratamiento de señal se representan, independientemente de que sean
analógicos o digitales, por medio de bloques, que representan los elementos
que realizan acciones sobre unas ciertas señales de entrada y proporcionan
una señal de salida.
Es conveniente insistir en que el marco que aquı́ se presenta es general, es
decir, incluye no solo lo que se suele llamar popularmente filtros (disposi-
tivos que modifican las componentes de frecuencia de la señal de entrada)
sino también sistemas tales como los denominados amplificadores (disposi-
tivos que sirven para amplificar o reducir la amplitud de una señal) o los
sistemas automáticos de control (sistemas que utilizan la señal de salida
para manipular la señal de entrada con vistas a conseguir un determinado
fin tal como estabilización de la salida, control del valor de una variable,
etc).
1. CONCEPTOS GENERALES.
1.1. Sistemas: señales y bloques.
En general, un sistema de tratamiento de señal se puede representar como

un bloque que admite una señal de entrada, X(t), y proporciona una señal
de salida, Y (t). Estas señales pueden tener una sola componente o varias
(escalares o vectoriales). En lo que sigue asumiremos que tratamos siempre
con sistemas de tratamiento de señal lineales e invariantes en el tiempo,
107
es decir, que: i) una combinación lineal de señales de entrada da lugar a una
señal de salida que es combinación lineal de las salidas correspondientes a
cada una de las señales de entrada tomadas por separado y ii) que para
cualquier valor constante en el tiempo de las señales de entrada, la señal de
salida se mantiene constante1 . En todo lo que sigue asumiremos, también
sin pérdida de generalidad, que tratamos con señales de entrada y salida de
una sola componente (la generalización a señales vectoriales es relativamente
sencilla).
Señales
En lo que sigue entenderemos como señal cualquier conjunto, continuo o

discreto, de valores ordenados en el tiempo que representan la evolución
dinámica de una variable. Esta variable será, en general, una magnitud
fı́sica o quı́mica que se pueda medir directa o indirectamente y que, en la
mayor parte de los casos, vendrá representada por una tensión o corriente
eléctrica obtenidas a través de un sensor apropiado.
Como ya hemos dicho, las señales pueden ser series continuas o discretas
de valores, y estas dos posibilidades permiten clasificar a las señales como
analógicas (continuas) o digitales (discretas). En términos de representación
matemática, una señal analógica se puede representar idealmente por una
función continua del tiempo tal que

0; si t ≤ t0
fa (t) =
f (t); si t > t0
donde t0 es el tiempo de inicio de la señal (en la mayor parte de las ocasiones

se puede hacer t0 = 0 sin pérdida de generalidad). Utilizando la función
1
Es decir, las caracterı́sticas del sistema no varı́an con el tiempo. En sistemas electrónicos esto
es una idealización que puede ser poco realista si se analizan los circuitos en términos estrictos. Por
ejemplo, se pueden producir variaciones de los parámetros de un transistor o amplificador causadas por
variaciones de la temperatura externa o por la disipación de calor generado por el propio dispositivo. En
cualquier caso, estas variaciones suelen tener tiempos de evolución mucho más largos que las variables
del sistema, por lo que la aproximación de invariancia temporal suele ser adecuada.
108
Teorı́a de filtrado
escalón2 de Heaviside, θ(t), se puede escribir como
fa (t) = f (t)θ(t − t0 )
Por otro lado, una señal digital, independientemente de que haya sido
generada digitalizando una señal analógica o por cálculo numérico en un
ordenador, está constituida por un conjunto de N valores discretos situados
en tiempos determinados τi que pueden estar equiespaciados o no. Por lo
tanto, para construir la representación matemática de una señal digital es
necesario hacer uso de la función δ de Dirac3 , utilizando funciones δ colo-
cadas en los tiempos a los que se ha muestreado la señal:

0; si t 6= τi
fd (t) =
f (t)δ(t − τi ); si t = τi
donde f (t) serı́a la función origen de la señal que se ha obtenido por digi-
talización. Es decir:
X
N −1
fd (t) = f (t)δ(t − τi )
i=o
Es importante reconocer que las señales obtenidas por simulación numérica

en ordenador son señales digitales y, por tanto, les son aplicables todos
los tratamientos que aquı́ veremos para señales digitales. Por otro lado, las
señales se pueden representar en el dominio temporal, como hemos visto
hasta ahora, o en el de frecuencia. La representación en frecuencia de una
señal temporal se obtiene a través de la transformación de Fourier que se
define como: Z ∞
F (ω) = F [f (t)] = f (t)e−jωt dt
0
A la función F (ω) se la suele denominar transformada de Fourier de

la función f (t) . Recı́procamente, f (t) se puede obtener a partir de F (ω) a
2
La función escalón de Heaviside, θ(t − t0 ), es la función que toma valor nulo para t < t0 y valor
unidad para t ≥ t0 .
3
R t 6= t0 y valor
La función δ de Dirac, δ(t−t0 ), es la función que toma valor nulo en todos los puntos
∞ en t = t0 . Su propiedad más importante es, para cualquier función f (t), se cumple f (t)δ(t − t0 ) =
f (t0 ).
109
través de la antitransformación (o transformación inversa) de Fourier4 :
Z ∞
−1 1
f (t) = F [F (ω)] = F (ω)ejωt dt
2π 0
Bloques
Los sistemas se suelen representar gráficamente en términos de bloques que

actúan sobre las señales de entrada para proporcionar las señales de salida
tal como se ilustra en la figura 3.1.
X(t) Y(t)
Figura 3.1. Esquema general de un bloque con una señal de entrada y una señal de salida.
Los sistemas lineales invariantes en el tiempo admiten siempre una repre-

sentación en términos de una ecuación diferencial ordinaria de coeficientes
constantes que, en su forma más general puede contener derivadas tempo-
rales de varios órdenes de las señales de entrada, que denominaremos x(t),
y de salida, que denominaremos y(t). Por tanto:
dn dn−1 dm dm−1
y(t)+a n y(t)+...+a 1 y(t) = c m+1 x(t)+c m x(t)+...+c1 x(t)
dtn dtn−1 dtm dtm−1
donde (an , ..., a1) y (cn , ..., c1 ) son coeficientes reales constantes (algunos de
ellos pueden ser nulos). Un ejemplo tı́pico puede ser un oscilador forzado, en
el que la señal de entrada es la forzante y la señal de salida el desplazamiento
4
La normalización de la transformada y la antitransformada es un tanto arbitraria. En esta re-
presentación hemos optado por utilizar una constante unidad para la transformada y 1/2π para la
antitransformada. Igualmente se podrı́a √
haber optado por la recı́proca (unidad para la antitransformada
y 1/2π para la transformada) o bien 1/ 2π para ambas. La única condición que debe cumplirse es que
el producto de las dos constantes sea 1/2π.
110
del oscilador. Más concretamente:
d2 d
y(t) + a 2 y(t) + ... + a1 y(t) = c1 x(t)
dt2 dt
Es importante darse cuenta de que las expresiones:
dn dn−1
[...] + a n [...] + ... + a1 [...] ,
dtn dtn−1
dm dm−1
cm+1 m [...] + cm m−1 [...] + ... + c1 [...]
dt dt
son operadores lineales que trabajan sobre funciones que representan señales
de salida y entrada respectivamente. En cualquier caso, esta es una repre-
sentación complicada de utilizar y nos interesa obtener una representación
más simple.
1.2. Respuesta impulsional, función de transferencia y respuesta

en frecuencia.
Respuesta impulsional.
Para obtener una representación matemática más sencilla del bloque basta
con considerar que todo bloque está completamente caracterizado por su
respuesta a un impulso ideal5 (una δ de Dirac). En efecto, si sabemos
la respuesta a un impulso ideal, que denominaremos g(t), podemos obtener
la señal de salida, y(t), como la respuesta a una señal de entrada, x(t), sin
más que considerar que la señal de entrada es la suma de muchos impulsos
ideales sucesivos. Por un lado, al ser el sistema invariante en el tiempo, la
respuesta impulsional es siempre la misma. Por otro lado, al ser lineal, la
respuesta a una suma de impulsos sucesivos será igual a la suma de las res-
puestas correspondientes a cada uno de los impulsos sucesivos, es decir, será
5
Esta es una consecuencia general de la teorı́a de funciones de Green para ecuaciones diferenciales
de coeficientes constantes. En particular, la respuesta a un impulso ideal es la función de Green de la
ecuación diferencial que representa el bloque.
111
igual a la suma del producto de los valores de la señal de entrada y la con-
tribución de la función respuesta impulsional convenientemente desplazada
en el tiempo una cantidad igual al tiempo en que ocurre cada impulso.
Es decir, suponemos que la variable temporal está discretizada en pequeños
intervalos de tiempo, k∆t, (k = 0...N −1), de manera que la señal de entrada
se puede suponer constituida por un tren de N impulsos de amplitud x(k∆t)
situados en las coordenadas temporales correspondientes. La contribución
de cada impulso de la señal de entrada a la señal de salida será:
∆y(t) = x(k∆t)g(t − k∆t) ∆t
y, por lo tanto, la señal de salida será igual a la suma de las contribuciones

de todos los pulsos que componen la señal de entrada. Para imponer los
lı́mites de la suma, hay que tener en cuenta que, en los sistemas que aquı́
nos interesan, el principio de causalidad implica que la respuesta no puede
ser anterior a la entrada, la función de respuesta impulsional tiene que ser
nula para tiempos negativos. Además, lo más habitual suele ser que las
condiciones iniciales sean nulas, es decir, que la señal de entrada también
sea nula para tiempos negativos. Entonces, la suma de las contribuciones
de todos los pulsos que componen la señal de entrada será:
X−1
k=N
y(t) = x(k∆t)g(t − k∆t) ∆t
k=0
El lı́mite continuo de esta expresión se obtiene en el lı́mite en que ∆t tiende

a 0 y N tiende a ∞:
X−1
k=N Z +∞
y(t) = lı́m x(k∆t)g(t − k∆t)∆t = x(τ )g(t − τ ) dτ
∆t→0 0
N →∞ k=0
Esta operación se denomina convolución y se suele indicar como:

Z +∞
x(t) ∗ g(t) = x(τ )g(t − τ ) dτ
0
112
Por lo tanto, para cualquier sistema lineal invariante en el tiempo, la señal

de salida es6 :
Z +∞
y(t) = x(t) ∗ g(t) = x(τ )g(t − τ ) dτ
0
Finalmente, teniendo en cuenta que el dominio temporal en que se tienen

los valores de las señales de entrada y salida siempre es finito, la expresión
más habitual es:
Z t
y(t) = x(τ )g(t − τ ) dτ
0
Función de transferencia.
La convolución es una operación muy relacionada con las transformaciones

integrales de Fourier, F, y Laplace, L, que se definen, respectivamente como:
Z ∞
F (ω) = F [f (t)] = f (t)e−jωt dt
Z 0∞
F (s) = L [f (t)] = f (t)e−st dt
0
Para ambas transformaciones existe un ((Teorema de Convolución)) respecti-

vo, que establece que la transformada (de Fourier o Laplace) de una convo-
lución de dos funciones es igual al producto de las transformadas de ambas
funciones. Resulta, por tanto, muy ventajoso utilizar, por ejemplo, la trans-
formada de Laplace puesto que si denominamos X(s), Y (s) y G(s) a las
transformadas de las señales y la respuesta impulsional tenemos, por apli-
cación del teorema de convolución:
Y (s) = G(s)X(s)
6
Aunque aquı́ se ha justificado de manera cualitativa, este resultado se puede probar de manera
rigurosa y es la base de la denominada ((Teorı́a de Respuesta Lineal)), que tiene múltiples aplicaciones
en Fı́sica e Ingenierı́a.
113
es decir, la transformada de Laplace de la señal de salida es igual al producto
algebraico de las transformadas de Laplace de la respuesta impulsional y la
señal de entrada.
Esta expresión sirve también como definición operacional de la función
de transferencia del sistema, que, por un lado, es la transformada de
Laplace, G(s), de la función de respuesta impulsional de un sistema, g(t),
y por otro, se puede obtener como el cociente entre las transformadas de
Laplace de las señales de salida y de entrada:
Y (s)
G(s) =
X(s)
La representación compleja obtenida por medio de la transformación de

Laplace es muy conveniente porque a través de dicha transformación una
ecuación diferencial ordinaria se transforma en una ecuación algebraica. En
efecto, la transformada de Laplace de la derivada de una función es:

df (t)
L = sF (s) − s(0)
dt
Por lo tanto, para condiciones iniciales nulas (s(0) = 0), el sistema general
representado por la ecuación diferencial ordinaria:
dn dn−1 dm dm−1
y(t)+a n y(t)+...+a 1 y(t) = c m+1 x(t)+c m x(t)+...+c1 x(t)
dtn dtn−1 dtm dtm−1
se transforma bajo Laplace en:
sn Y (s)+an sn−1 Y (s)+...+a1 Y (s) = cm+1 sm X(s)+cm sm−1 X(s)+...+c1 X(s)
de donde:
Y (s) cm+1 sm + cm sm−1 + ... + c1
G(s) = =
X(s) sn + an sn−1 + ... + a1
Es decir, la función de transferencia de cualquier sistema lineal invariante en

el tiempo se puede expresar como el cociente de dos polinomios complejos
con coeficientes constantes.
114
Otras ventajas de la representación en transformada de Laplace son: i) que

es una transformación lineal, luego la trasformada de una combinación li-
neal de señales es la misma combinación lineal de las transformadas y ii)
que operaciones muy habituales, como la integración o la derivación, tie-
nen representaciones muy sencillas en sus transformadas de Laplace para
condiciones iniciales nulas. Esto es:

df (t)
L = sF (s)
dt
Z
F (s)
L f (t)dt =
s
Es decir, si en un sistema un bloque ejerce una función derivadora, su función

de transferencia es igual a la variable compleja de la transformada, s, y si
un bloque ejerce una función integradora, su función de transferencia es la
recı́proca de la anterior, 1/s.
Estas propiedades permiten que la combinación de bloques en la representa-
ción en transformada de Laplace sea mucho más fácil de manejar que en la
representación en tiempo real y dan lugar a que se pueda hablar de un ((álge-
bra de bloques)) que es de gran utilidad en el análisis y diseño de sistemas
de control automático..Por ejemplo, la suma de las señales de salida de un
bloque proporcional, un integrador y otro diferenciador se puede construir
con el diagrama de bloques dado por la figura 3.2.
X(s) Y(s)
A
1/S
Figura 3.2. Diagrama de bloques compuesto por un bloque proporcional, un bloque integrador y un
bloque derivador.
115
En el diagrama la figura 3.2, el bloque rotulado S corresponde a una etapa
derivadora (señal de salida igual a la derivada temporal de la señal de entra-
da), el bloque rotulado A a una etapa en la que la salida es, sencillamente,
proporcional a la entrada con constante de proporcionalidad A y el bloque
rotulado 1/S corresponde a una etapa integradora (señal de salida igual a
la integral en el tiempo de la señal de entrada).
La función de transferencia del sistema de la figura 3.2 se obtiene, fácilmente,
a partir de la relación entre Y (s) y X(s), es decir:
X(s)
Y (s) sX(s) + AX(s) + 2
G(s) = = s = s + As + 1
X(s) X(s) s
Otro ejemplo importante es el de los bucles o lazos de realimentación (o

retroalimentación). En ellos la señal de salida se reintroduce en el sistema
combinándola con la señal de entrada directamente o después de hacerla pa-
sar por un bloque de función de transferencia H(s). El diagrama de bloques
será entonces el mostrado en la figura 3.3.
X(s) Y(s)
G(s)
H(s)
Figura 3.3. Diagrama de bloques de un bucle de retroalimentación general.
En este caso, la función de transferencia del sistema completo con el bucle

de realimentación, K(s) = Y (s)/X(s), se obtiene de:
Y (s) = G(s) [X(s) + H(s)Y (s)]
de donde:
Y (s) − G(s)H(s)Y (s) = G(s)X(s)
116
es decir:
Y (s) G(s)
K(s) = =
X(s) 1 − H(s)G(s)
Otro aspecto importante de la función de transferencia se puede observar

volviendo al aspecto general de la fórmula:
Y (s) cm+1 sm + cm sm−1 + ... + c1
G(s) = =
X(s) sn + an sn−1 + ... + a1
esta función de transferencia general tendrá m ceros (las raı́ces del polinomio
del numerador) y n polos (las raı́ces del polinomio del denominador). es
decir, se podrá escribir como:
(s − z1 )(s − z2 )...(s − zm )
G(s) =
(s − p1 )(s − p2 )...(s − pn )
Los ceros y los polos de la función de transferencia son importantes porque

introducen comportamientos caracterı́sticos. En particular, en los ceros la
función de transferencia se hace nula, por lo que para esos valores de s la
señal de salida será nula. Por otro lado, en los polos la función de transfe-
rencia presenta una singularidad (tiende a ∞). Es importante darse cuenta
de que, dado que los coeficientes del polinomio del denominador son los
coeficientes de las derivadas temporales de la señal de salida en la represen-
tación más general del sistema dinámico, estos coeficientes son reales y, por
lo tanto, los polos de la función de transferencia tienen que ser reales o bien
pares de complejos conjugados.
El significado de los polos en el dominio temporal se puede apreciar me-
jor analizando el comportamiento de un sistema que tenga una función de
transferencia con un único polo. En efecto, supongamos la función de trans-
ferencia más sencilla con un único polo:
1
G(s) =
s−λ
La antitransformada de Laplace será:
G(t) = eλt
117
Dado que, en general, λ es complejo se puede representar como λ = σ + jω,
por lo que:
G(t) = eσt+jωt = eσt ejωt
es decir, la contribución de cada polo a la respuesta es el producto de una

exponencial con exponente real, que crece exponencialmente si la parte real
del polo es positiva y decrece también exponencialmente si la parte real del
polo es negativa, por una exponencial con argumento puramente imaginario
que representa un comportamiento oscilante7 . Es interesante destacar que
si el polo tiene parte real positiva la contribución de cada impulso a la
respuesta temporal crece sin lı́mites y, por lo tanto, el sistema es inestable, de
donde podemos concluir que si todos los polos de la función de transferencia
de un sistema tienen parte real negativa el sistema será estable.
Esto también permite comprender el interés de la retroalimentación. Como
vimos anteriormente, si tenemos un sistema cuya función de transferencia es
G(s) que presenta, por ejemplo, polos con parte real positiva, e introducimos
un bucle de retroalimentación simple, la función de transferencia del sistema
pasa a ser:
Y (s) G(s)
K(s) = =
X(s) 1 − H(s)G(s)
donde los polos de la nueva función de transferencia son los ceros de la

función 1 − H(s)G(s). Una adecuada elección de la función H(s) permite
eliminar o desplazar los polos de forma que la nueva función de transferencia
del sistema retroalimentado no presente ya polos con parte real positiva.
Respuesta en frecuencia. Ganancia de amplitud, fase y diagra-

mas de Bode.
La variable s no es una variable que sea fácil de interpretar en términos

fı́sicos, puesto que como hemos visto contiene, simultáneamente, informa-
ción sobre tiempo de relajación y frecuencia de oscilación. Sin embargo, las
transformadas de Laplace y de Fourier coinciden si s = jω, de manera que
7
Recordemos que, de acuerdo con la relación de Euler, ejωt = cos ωt + j sen ωt
118
si se conoce la función de transferencia de un sistema se conoce también

su respuesta en frecuencia, que no es más que la función compleja que
se obtiene al hacer la sustitución s = jω en la función de transferencia, es
decir:
G(ω) = G(s = jω)
En términos de funciones de entrada y salida tenemos8 :
Y (ω) = G(ω)X(ω)
o bien:
Y (ω)
G(ω) =
X(ω)
donde X(ω) e Y (ω) son las transformadas de Fourier de las señales de

entrada y salida, respectivamente.
La respuesta en frecuencia permite hacer una representación mucho más
fı́sica del sistema puesto que para cada valor de la frecuencia nos proporciona
un número complejo cuyo módulo es la ganancia de amplitud, G(ω), y
su fase, φ(ω), es el desfase de esa componente de frecuencia de la señal de
salida respecto de la componente de la misma frecuencia contenida en la
señal de entrada. Es decir:
G(ω) = G(ω)eiφ(ω)
q
|Y (ω)|
G(ω) = |G(ω)| = [Re(G(ω))]2 + [Im(G(ω))]2 =
|X(ω)|

Im(G(ω))
φ(ω) = arctan
Re (G(ω))
Es conveniente recordar que la unidad para la ganancia, o factores de am-

plificación en general, es el decibelio (db), que se define a partir de la
8
También se puede ver haciendo la transformada de Fourier de la expresión de la respuesta del
sistema en función de la señal de entrada y la respuesta impulsional, aplicando el teorema de convolución,
que también es válido para la transformada de Fourier.
119
expresión9 :

|Y (ω)|
Gdb (ω) = 20 log10 (G(ω)) = 20 log10
|X(ω)|
Las representaciones, en escala doblemente logarı́timica, de G(ω) y φ(ω) en

función de ω se suelen denominar diagramas de Bode y permiten una
visualización rápida y conveniente de las principales caracterı́sticas de la
respuesta en frecuencia de un sistema. Para ilustrarlo, basta con considerar
los efectos que producen los ceros y los polos de la función de transferencia
en la respuesta en frecuencia tal como haremos a continuación.
Efectos de los polos y ceros de la función de transferencia en la ganancia de

amplitud.
Por ejemplo, consideremos una función de transferencia con un único polo

puramente real, es decir, con parte imaginaria nula. En ese caso:
1
G(s) =
s − p1
con p1 real. La respuesta en frecuencia correspondiente es:
1 (−jω − p1 ) p1 + jω
G(ω) = = =− 2
jω − p1 (jω − p1 ) (−jω − p1 ) ω + p21
y, por tanto, la ganancia de amplitud será:

p !
ω 2 + p21
Gdb (ω) = 20 log10 (G(ω)) = 20 log10
ω 2 + p21
9
Esta expresión es válida para señales eléctricas de tipo tensión o corriente. Sin embargo, si
se habla de ganancia de potencia es necesario tener en cuenta que la potencia eléctrica es pro-
porcional al cuadrado de la corriente o tensión, por lo que en ese caso la definición correcta es
Gdb (ω) = 10 log10 (|Y (ω)|2 /|X(ω)|2 )
120
Si ahora examinamos el comportamiento de la ganancia de amplitud para

frecuencias menores que p1 vemos que:

1
Gdb (ω)|ωp1 ' 20 log10
p1
es decir, es constante. Por el contrario, para frecuencias mayores que p1 ,

tenemos:
1
Gdb (ω)|ωp1 ' 20 log10 = −20 log ω
ω
que en el diagrama de Bode de ganancia es una recta con una pendiente de

−20 decibelios por cada década de frecuencia10 .
Esto es, un polo real no tiene efectos en la ganancia para frecuencias inferio-
res a la del polo (ω p1 ), mientras que, para frecuencias superiores a la del
polo (ω p1 ) introduce una contribución negativa a la pendiente del dia-
grama de −20 db/dec. Es fácil ver que, para polos reales de multiplicidad
k, la contribución a la pendiente de la ganancia de amplitud es de −20k
db/dec para frecuencias mayores que la del polo y nula para frecuencias
menores que la del polo. Además, el valor de la ganancia de amplitud para
ω = p1 es:

1 1
Gdb (ω)|ω=p1 = 20 log10 √ = 20 log10 + 20 log10 2−1/2 =
2p1 p1
= Gdb (ω)|ωp1 − 10 log10 (2) ' Gdb (ω)|ωp1 − 3 db
es decir, para ω = p1 , la ganancia de amplitud es 3 db inferior al valor que

le corresponderı́a si no existiera el polo.
Ejercicio 3.1 Supongamos una función de transferencia presenta dos

polos que son complejos conjugados p1 = σ1 + jω1 y p∗1 = σ1 − jω1 .
Obtenga la ganancia en amplitud para frecuencias mucho mayores y
mucho menores que ω1 .
10
Habitualmente se utiliza la terminologı́a abreviada de decibelios por década (se sobreentiende de
frecuencia) y se expresa como db/dec.
121
Solución
La forma exacta de la función de transferencia en este caso es:
1 1
G(s) = ∗
= =
(s − p1 )(s − p1 ) s2 − 2σ1 s + |p1 |2
1
= 2
s − 2σ1 s + +σ12 + ω12
Entonces, la respuesta en frecuencia correspondiente será:
1 1
G(ω) = 2 = =
(jω) − 2jσ1 ω + +σ12 + ω12 −ω + σ1 + ω12 − j2σ1 ω
2 2
−ω 2 + σ12 + ω12 − j2σ1 ω

= 2
(−ω 2 + σ12 + ω12 ) + (2σ1 ω)2
y la ganancia de amplitud será:
Gdb (ω) = 20 log10 (G(ω)) =

h i1/2 
2 2 2 2 2
 (−ω + σ1 + ω1 ) + (2σ 1 ω) 
= 20 log10  2 2 2 2 
2
(−ω + σ1 + ω1 ) + (2σ1 ω)
que, para frecuencias mucho menores que ω1 toma un valor constante:

1
Gdb (ω)|ωω1 ' 20 log10
σ12 + ω12
mientras que para frecuencias mucho mayores que ω1 se comporta como:

1
Gdb (ω)|ωω1 ' 20 log10 = −40 log10 (ω)
ω2
es decir, la ganancia de amplitud decrece con una pendiente de −40
db/dec. Se deja como ejercicio adicional para el lector comprobar que el
caso p1 = σ1 − jω1 se comporta cualitativamente de la misma manera.
Por lo tanto, una pareja de polos complejos conjugados se comporta
como un polo real de multiplicidad 2.
122
Veamos ahora el efecto de un cero, es decir, consideremos un sistema cuya

función de transferencia es:
G(s) = s − z1
en cuyo caso:
G(ω) = −z1 + jω
Entonces, la ganancia de amplitud será:

q
2 2
Gdb (ω) = 20 log10 (G(ω)) = 20 log10 ω + z1
Si ahora examinamos el comportamiento de la ganancia de fase para fre-

cuencias menores que z1 vemos que:
Gdb (ω)|ωz1 ' 20 log10 (z1 )
es decir, es constante. Por el contrario, para frecuencias mayores que z1 ,

tenemos:
Gdb (ω)|ωz1 ' 20 log10 (ω)
que en el diagrama de Bode de ganancia es una recta con una pendiente de
+20 db/dec. Es decir, un cero tampoco tiene efectos en la ganancia para
frecuencias inferiores a la del cero (ω z1 ), mientras que, para frecuencias
superiores a la del cero (ω z1 ), introduce una contribución positiva a la
pendiente del diagrama de +20 db/dec. Además, el valor de la ganancia de
amplitud para ω = z1 es:
√
Gdb (ω)|ω=z1 = 20 log10 2z1 = 20 log10 (z1 ) + 20 log10 21/2 =
= Gdb (ω)|ωz1 + 10 log10 (2) ' Gdb (ω)|ωp1 + 3 db
es decir, para ω = z1 , la ganancia de amplitud es 3 db superior al valor que le

corresponderı́a si no existiera el cero. Es fácil ver que si un determinado cero
es una raı́z de multiplicidad k contribuirá al cambio de pendiente con +20k
db/dec, mientras que si es un polo el que tiene multiplicidad l contribuirá
al cambio de pendiente con −20l db/dec.
123
Por lo tanto, si se conocen los polos y los ceros de la función de transferencia
de un sistema es sencillo realizar un dibujo aproximado del diagrama de
Bode de ganancia de amplitud. Para ello basta con completar sucesivamente
las siguientes etapas:
1. Ordenar los polos y los ceros de menor a mayor frecuencia.
2. Para frecuencias inferiores al polo o cero de frecuencia más baja la

ganancia es constante.
3. Para frecuencias situadas entre el primer polo o cero y el segundo la

contribución dominante corresponde al primer polo o cero, luego entre
las dos frecuencias mencionadas la ganancia aumentará, en el caso de
un cero, o disminuirá, en el caso de un polo, con una pendiente igual
a 20 db/dec multiplicado por la multiplicidad del polo o cero.
4. Repetir el paso 3 para todos los polos y ceros de la función de trans-

ferencia.
Por ejemplo, consideremos un sistema cuya función de transferencia tenga

un cero en z1 y y dos polos en p1 y p2 , respectivamente. Es decir
K(s − z1 )
G(s) =
(s − p1 ) (s − p2 )
Según el procedimiento esbozado anteriormente, la primera fase consiste en

ordenar los ceros y los polos en orden de frecuencia creciente. En este caso
el orden será z1 , p1 , p2 . Por lo tanto, a la izquierda de z1 la ganancia será
constante e igual a 20 log10 (Kz1 /p1 p2 ) = 0. Entre z1 y p1 la ganancia estará
dominada por el cero en z1 y tendrá una pendiente positiva de 20 db/dec.
Entre p1 y p2 , la contribución del polo en p1 compensará la del cero en
z1 y la ganancia tendrá un valor constante. Finalmente, para frecuencias
superiores a p2 será este último polo el que domine y su contribución con
una pendiente de −20 db/dec dominará el diagrama en dicho rango.
Esto se puede comprobar obteniendo analı́ticamente la respuesta en frecuen-
124
80
70
60
50
(db) 40
30
G(ω)
20
10
-10
-20
10-2 100 102 104 106 108 1010
ω (Hz)
Figura 3.4. Diagrama de Bode de ganancia. En él se representa la ganancia de amplitud (módulo de la
respuesta en frecuencia) en función de la frecuencia.
cia del sistema:
jω − z1 −z1 + jω
G(ω) = K =K =
(jω − p1 ) (jω − p2 ) p1 p2 − ω 2 − jω(p1 + p2 )
(−z1 + jω) [p1 p2 − ω 2 + jω(p1 + p2 )]
=K =
[p1 p2 − ω 2 − jω(p1 + p2 )] [p1 p2 − ω 2 + jω(p1 + p2 )]
− [z1 p1 p2 − z1 ω 2 + jωz1 (p1 + p2 )] + jω [p1 p2 − ω 2 + jω(p1 + p2 )]
=K =
(p1 p2 − ω 2 )2 + ω 2 (p1 + p2 )2
[−z1 p1 p2 + z1 ω 2 − jωz1 (p1 + p2 )] + [jωp1 p2 − jω 3 − ω 2 (p1 + p2 )]
=K =
(p1 p2 − ω 2 )2 + ω 2 (p1 + p2 )2
ω 2 [z1 − (p1 + p2 )] − z1 p1 p2 + jω [p1 p2 − z1 (p1 + p2 ) − ω 2 ]
=K
(p1 p2 − ω 2 )2 + ω 2 (p1 + p2 )2
y, posteriormente, obteniendo el diagrama de Bode de ganancia numérica-

mente. En la figura 3.4 se representa la ganancia de amplitud, G(ω) ası́
obtenida, particularizada para los valores z1 = 1; p1 = 103 , p2 = 106 y
K = 109 . Como se puede ver, el diagrama real coincide muy aproximada-
mente con el predicho por el procedimiento cualitativo descrito más arriba.
125
Efectos de los polos y los ceros de la función de transferencia sobre la fase
de la respuesta en frecuencia.
El comportamiento del diagrama de Bode de la fase se puede analizar de

una manera muy similar. Volvamos a considerar el caso de una función de
transferencia con un único polo real, es decir:
1
G(s) =
s − p1
La respuesta en frecuencia correspondiente es:

1 (−jω − p1 ) p1 + jω
G(ω) = = =− 2
jω − p1 (jω − p1 ) (−jω − p1 ) ω + p21
la fase será:

 0; si ω p1
Im(G(ω)) ω
φ(ω) = arctan = arctan = π/4; si ω = p1
Re (G(ω)) p1 
π/2; si ω p1
Es decir, la contribución a la fase de un polo real es una función positiva,

siempre creciente, que parte de un valor nulo para frecuencias mucho meno-
res que la del polo, que toma el valor π/4 a la frecuencia del polo y tiende
asintóticamente al valor π/2 para frecuencias mucho mayores que la del po-
lo. Es fácil ver que, para polos reales de multiplicidad k, la contribución a
la fase es de kπ/4 para la frecuencia del polo y de kπ/2 para frecuencias
mucho mayores que la del polo.
Ejercicio 3.2 Consideremos un sistema cuya función de transferencia
es G(s) = s − z1 , esto es G(ω) = −z1 + jω ¿Cuál será la contribución a
la fase del cero?
Solución
En este caso, la ganancia de amplitud será:

 0; si ω z1
ω
φ(ω) = arctan − = − π ; si ω = z1
z1  π4
− 2 ; si ω z1
126
Es decir, la contribución a la fase de un cero es una función negativa,

siempre decreciente, que parte de un valor nulo para frecuencias mucho
menores que la del cero, que toma el valor −π/4 a la frecuencia del cero
y tiende asintóticamente al valor −π/2 para frecuencias mucho mayores
que la del cero. Es fácil ver que, para ceros de multiplicidad k, la con-
tribución a la fase es de −kπ/4 para la frecuencia del cero y de −kπ/2
para frecuencias mucho mayores que la del cero.
Si se conocen los polos y los ceros de la función de transferencia de un

sistema también es sencillo realizar un dibujo aproximado del diagrama de
Bode de fase. Para ello basta con completar sucesivamente las siguientes
etapas:
1. Ordenar los polos y los ceros de menor a mayor frecuencia.
2. Para frecuencias inferiores al polo o cero de frecuencia más baja la

fase es nula. A medida que aumenta la frecuencia la fase es una fun-
ción creciente o decreciente dependiendo de que la primera frecuencia
corresponda a un polo o un cero, respectivamente.
3. Cerca de los polos la fase será una función creciente y cada polo
añadirá a la fase una contribución de +π/4 a la frecuencia del po-
lo y, en total, de +π/2 a frecuencias significativamente mayores que
la del polo11 .
4. Cerca de los ceros la fase será una función decreciente y cada cero
añadirá a la fase una contribución de −π/4 a la frecuencia del cero y,
en total, de −π/2 a frecuencias significativamente mayores que la del
cero.
Para el mismo sistema de un cero y dos polos utilizado en el ejercicio ante-

rior, a la izquierda de z1 la fase partirá de 0 y decrecerá, tomando el valor
φ(ω = z1 ) = −π/4 y acercándose al valor φ(ω = 10 z1 ) = −π/2. Entre z1
y p1 la fase crecerá, tomando el valor φ(ω = p1 ) = −π/4 y acercándose
11
Tı́picamente para frecuencias mayores que 10 veces la del polo o cero.
127
1,0
0,5
(rad)
φ(ω)/(π/2) 0,0
-0,5
-1,0
10-2 100 102 104 106 108 1010
ω (Hz)
Figura 3.5. Diagrama de Bode de fase (nótese que los valores de la fase están normalizados a π/2).
al valor φ(ω = 10 p1 ) = 0. Finalmente, para frecuencias superiores a p2 la

fase seguirá creciendo, tomará el valor φ(ω = p2 ) = π/4 y, para frecuencias
mucho mayores que p2 se acercará al valor −π/2.
Al igual que en el estudio anterior de la ganancia de amplitud, se puede
obtener la expresión analı́tica para la fase, que resulta ser:

Im(G(ω)) ω [p1 p2 − z1 (p1 + p2 ) − ω 2 ]
φ(ω) = arctan = arctan 2
Re (G(ω)) ω [z1 − (p1 + p2 )] − z1 p1 p2
En la figura 3.5 se representa la fase, φ(ω), obtenida para los valores z1 = 1;

p1 = 103 , p2 = 106 y K = 109 . Como se puede ver, el diagrama real coinci-
de muy aproximadamente con el predicho por el procedimiento cualitativo
descrito más arriba.
1.3. Filtros.
En la mayor parte de los trabajos experimentales, las señales eléctricas pro-

porcionadas por los sensores contienen contribuciones indeseables debidas a
perturbaciones sistemáticas o a fluctuaciones aleatorias, que, al estar super-
puestas a las señales de los sensores propiamente dichas, pueden dificultar
128
enormemente la realización de las medidas o su interpretación. En general,

estas contribuciones indeseables se agrupan bajo la denominación de ruido
y su eliminación o minimización es un objetivo primordial en todo trabajo
experimental.
Los sistemas que se utilizan para eliminar o minimizar el ruido se denominan
filtros, puesto que su objetivo se puede describir como tamizar las señales
proporcionadas por los sensores con vistas a obtener exclusivamente la parte
significativa de la señal. Por lo tanto, los filtros son sistemas que realizan
operaciones sobre señales temporales, x(t), transformándolas en otras, y(t),
que permiten una representación más precisa de la dinámica de las variables
objeto de estudio.
Existen muchos tipos de filtros, que se pueden clasificar atendiendo a di-
ferentes aspectos. Por ejemplo, se pueden clasificar según el tipo de señal
sobre la que actúan: si la señal es continua en el tiempo (señales eléctricas)
se denominan filtros analógicos, mientras que si la señal es discreta (bien
porque los datos del conjunto sean discretos, porque la señal esté muestrea-
da o sea el resultado de una simulación numérica) se denominan filtros
digitales.
Otra clasificación importante es la que atiende al rango temporal con que
trabaja el filtro: si el filtrado para obtener y(t0 ) trabaja solo con los valores
de la señal de entrada anteriores a t0 , (es decir, x(t) con t ≤ t0 ) el filtro
se denomina causal, mientras que si trabaja con los valores de la señal de
entrada posteriores a t0 el filtro se denomina recursivo.
Los filtros se pueden, también, clasificar atendiendo a su respuesta en fre-
cuencia. En este sentido se pueden definir cuatro clases principales de filtros:
Filtros paso bajo. Son filtros cuya ganancia de amplitud es prácticamen-

te constante a baja frecuencia y decae fuertemente a partir de una
cierta frecuencia que se denomina frecuencia de corte. Se utilizan pa-
ra eliminar ruido de alta frecuencia en señales en las que se sabe que
no hay información significativa por encima de una cierta frecuencia,
Son filtros que dejan pasar señales lentamente variables en el tiempo.
Un ejemplo clásico es un circuito integrador, cuya función de trans-
ferencia es G(s) ∝ (s − ωc )−1 , donde ωc es la frecuencia de corte, y,
129
por lo tanto, la ganancia de amplitud es constante por debajo de la
frecuencia de corte y decae con una pendiente de −20 db/dec por
encima de la frecuencia de corte. Para este tipo de filtros se suele de-
finir la banda pasante como la banda de frecuencias que va desde
la continua hasta la frecuencia de corte, ωc , que es aquella para la
cual la ganancia de amplitud se hace 3 db inferior a la ganancia de
baja frecuencia. Consecuentemente, el ancho de banda (anchura de
la banda pasante) del filtro es igual a la frecuencia de corte.
Filtros paso alto. Es el caso opuesto al anterior, es decir, son filtros cuya
ganancia de amplitud es muy pequeña a baja frecuencia y aumenta
rápidamente en las proximidades de la frecuencia de corte, a partir
de la cual la ganancia es prácticamente constante. Se utilizan pa-
ra eliminar ruido lentamente variable en señales en las que se sabe
que toda la información significativa está por encima de una cierta
frecuencia. Son filtros que, por ejemplo, eliminan los valores de conti-
nua (frecuencia nula) y dejan pasar señales rápidamente variables. Un
ejemplo clásico es un circuito derivador, cuya función de transferencia
es G(s) ∝ (s − ωc ) y, por lo tanto, la ganancia de amplitud crece con
una pendiente de +20 db/dec por debajo de la frecuencia de corte y
es constante por encima de la frecuencia de corte.
Filtros paso banda. Son filtros que presentan ganancia pequeña a baja y
alta frecuencia, mientras que presentan una ganancia significativa en
una banda continua de frecuencia intermedia. Se pueden considerar
formados por un filtro paso alto y otro paso bajo con la frecuencia de
corte del paso alto menor que la correspondiente al paso bajo (véase,
por ejemplo, la curva de ganancia de amplitud de la figura 3.4. Se sue-
len utilizar en casos en que se conoce que la información significativa
de la señal de entrada está en una banda de frecuencia bien determi-
nada. Eliminan las componentes lentamente y rápidamente variables
y dejan pasar componentes de frecuencias intermedias. Para este tipo
de filtros la banda pasante es la banda de frecuencias que va desde la
frecuencia de corte del paso alto, ωca , hasta la frecuencia de corte del
paso alto, ωcb . En este caso las dos frecuencias de corte son aquellas
para las cuales la ganancia de amplitud es 3 db inferior a la ganancia
en la banda de ganancia constante. Consecuentemente, el ancho de
130
banda del filtro es igual a la diferencia entre las dos frecuencias de

corte.
Filtros de eliminación de banda. Es el caso contrario al anterior, es de-

cir, son filtros que presentan ganancia significativa a baja y alta fre-
cuencia, mientras que presentan una fuerte atenuación en una banda
continua de frecuencia intermedia. Se pueden considerar formados por
un filtro paso alto y otro paso bajo con la frecuencia de corte del paso
alto mayor que la correspondiente al paso bajo. Se suelen utilizar en
casos en los que se quiere eliminar una perturbación que tiene una
frecuencia bien determinada (el ejemplo más tı́pico es intentar elimi-
nar ruido electromagnético de frecuencia igual a la de la red eléctrica
doméstica, es decir, 50 Hz). Eliminan componentes de la señal corres-
pondientes a frecuencias situadas en la banda eliminada y dejan pasar
las componentes lentamente y rápidamente variables.
Finalmente, los filtros se clasifican también en atención al número de polos y

ceros que presenta su función de transferencia. Ası́, se dice que un filtro cuya
función de transferencia presenta i polos y j ceros es de orden n = máx(i, j).
2. FILTRADO ELECTRÓNICO ANALÓGICO.
En esta sección trataremos de hacer una aproximación a los sistemas de fil-

trado más utilizados en el caso de señales electrónicas analógicas, es decir,
señales eléctricas procedentes de equipos sensores o equipos electrónicos que
dan una señal de salida continua en el tiempo. En primer lugar analizare-
mos circuitos muy simples construidos con elementos pasivos (resistencias,
condensadores e inductores) que constituyen los filtros más simples de pri-
mer orden. Seguidamente veremos que las caracterı́sticas de estos filtros se
pueden mejorar bastante utilizando componentes electrónicos activos (en
este caso amplificadores operacionales), haciendo una breve introducción a
los filtros activos de primer orden.
131
R C
Vi C Vo Vi R Vo
(a) (b)
Figura 3.6. Esquemas de filtros elementales con componentes pasivos: (a) filtro paso bajo (integrador),
(b) filtro paso alto (derivador).
2.1. Filtros pasivos de primer orden.
En la figura 3.6 se pueden observar dos tipos de circuitos construidos con

componentes pasivos. Estudiemos sus funciones de transferencia y de res-
puesta en frecuencia. Para el primer circuito, la ganancia es directamente
el cociente entre la tensión de salida y la de entrada. Esta relación se puede
escribir muy fácilmente sin más que utilizar las impedancias complejas de
la resistencia, ZR = R, y del condensador, ZC = 1/jωC,.y darse cuenta de
que el circuito funciona como un divisor de tensiones. Por lo tanto:
1
ZC jωC 1
G(ω) = = 1 =
ZR + ZC R + jωC 1 + jωRC
de donde:
1
G(s) =
1 + sRC
y también:
1
Gdb (ω) = q
1 + (ωRC)2
Por lo tanto, la ganancia de amplitud de este circuito es aproximadamente

igual a la unidad, para frecuencias ω ωc = 1/RC, mientras que para fre-
cuencias ω ωc , la ganancia es Gdb (ω) ' ωc /ω, y, por consiguiente, decrece
con una pendiente de −20 db/dec. Es decir, el circuito se comporta como
132
un filtro paso bajo de primer orden (dado que su función de transferencia

tiene un único polo simple) con frecuencia de corte ωc = 1/RC.
Procediendo de la misma forma con el segundo circuito, tenemos:
ZR R jωRC (ωRC)2 + jωRC

G(ω) = = 1 = =
ZR + ZC R + jωC 1 + jωRC 1 + (ωRC)2
de donde:
sRC
G(s) =
1 + sRC
y también:
1 4 2 2
1
Gdb (ω) = (ωRC) + (ωRC)
1 + (ωRC)2
La ganancia de amplitud de este circuito para frecuencias ω ωc es apro-

ximadamente igual a la unidad, mientras que para frecuencias ω ωc =
1/RC, la ganancia es Gdb (ω) ' ω/ωc , y, por consiguiente, crece con una
pendiente de +20 db/dec. Es decir, el circuito se comporta como un filtro
paso alto de primer orden (puesto que solamente tiene un cero simple y un
polo simple) con frecuencia de corte ωc = 1/RC.
2.2. Filtros activos de primer orden.
Para hacer un análisis rápido de estos circuitos, consideremos un amplifica-

dor en configuración inversora tal como el de la figura 3.7.
La aplicación directa de los principios básicos de funcionamiento de un
A.O.12 lleva directamente a obtener la respuesta en frecuencia del amplifi-
cador como:
VO (jω) Z2 (jω)
G(jω) = =−
Vi (jω) Z1 (jω)
Si reproducimos con las dos impedancias de la figura 3.7 la topologı́a de

los filtros pasivos de primer orden obtendremos los filtros activos de primer
12
i) No entra ni sale corriente del A.O. a través de las entradas inversora y no inversora y ii) la
tensión en las entradas inversora y no inversora es la misma.
133
Z2 I2
VCC
Ii Z1
VO
Vi
-VCC
Figura 3.7. Esquema de amplificador en configuración inversora con impedancias genéricas en la entrada
inversora y en la retroalimentación.
orden. Por ejemplo, si Z1 es una resistencia y Z2 un condensador obtenemos

un circuito integrador activo como el de la figura 3.8, cuya respuesta en
frecuencia será:
1
G(jω) = −
jωRC
Es decir, este circuito se acerca mucho más a la respuesta de un filtro paso

bajo ideal, puesto que su polo aparece en ω = 0 = ωc , por lo que el efecto
de filtrado aparece desde frecuencias muy bajas, cosa que no ocurrı́a con el
filtro pasivo. Además, si se concatenan dos circuitos como el de la figura
3.8, dado que el A.O. de la primera etapa tiene una resistencia de salida
mucho más baja que la resistencia de entrada de la segunda etapa, las dos
etapas se pueden considerar como bloques independientes y, por tanto, si los
componentes usados en las dos etapas tienen los mismos valores, tendremos:
1
G(jω) = G2 (jω)G1 (jω) = −
(ωRC)2
Es decir, tendremos un filtro paso bajo con la misma frecuencia de corte

pero de segundo orden, ya que la función de transferencia:
1
G(s) = G2 (s)G1 (s) = −
(sRC)2
134
C
I2
VCC
Ii R
Vi(t)
VO
-VCC
Figura 3.8. Esquema de un integrador con amplificador operacional en configuración inversora.
y presenta un polo doble en ω = 0, por lo que la ganancia de amplitud por

encima de la frecuencia de corte, es decir para cualquier frecuencia no nula,
decae con una pendiente de −40 db/dec.
Recordemos también, que en la señal de entrada hay siempre componentes
de continua, y estas componentes son integradas por el filtro de la figura 3.8,
de manera que suelen aparecer rampas crecientes o decrecientes que llevan
al A.O. a saturar su tensión de salida. La forma de solventar este problema
es colocar una resistencia en paralelo con el condensador tal como se indica
en la figura.
RF
C
VCC
Ii R
Vi(t)
VO
-VCC
Figura 3.9. Integrador a partir de operacional en configuración inversora con resistencia de retroalimen-
tación.
La resistencia RF permite la circulación de las componentes dc que de otra
135
manera causarı́an la saturación del operacional. Sin embargo, la respuesta
en frecuencia de este circuito ya no es exactamente la de un integrador, sino
que es:
1
1 RF /(jωC) RF jωC RF 1
G(jω) = − =− =−
R RF + 1/(jωC) R 1 R 1 + jωRF C
RF +
jωC
que, como se ve, no tiene la misma forma funcional que la correspondiente al
integrador ideal, sino que es análoga a la del filtro paso bajo pasivo con una
ganancia en baja frecuencia seleccionable, −RF /R, y frecuencia de corte
ωc = 1/RF C.
Volviendo al circuito de la figura 3.7, si ahora hacemos que Z1 sea un con-
densador y Z2 una resistencia tendremos el circuito de la figura 3.10. En
este caso la respuesta en frecuencia pasa a ser:
G(ω) = −jωRC
es decir, dado que presenta un cero simple en ω = 0, es la correspondiente a

un filtro paso alto de primer orden con ganancia unidad para una frecuencia
ω = 1/RC.
3. SEÑALES MUESTREADAS.
Para señales muestreadas, es decir, discretas en el tiempo, lo más habitual es

proceder al filtrado trabajando no sobre la señal en su representación tem-
poral sino directamente sobre su representación en el espacio de frecuencias.
Para ello es necesario proceder en tres etapas: i) obtener la transformada de
Fourier de la señal, ii) realizar la manipulación adecuada de la transformada
(por ejemplo, llevar a 0 los coeficientes correspondientes a una banda com-
pleta de frecuencia que se quiera eliminar) y iii) devolver la señal filtrada a
la representación en el dominio del tiempo por medio de la antitransformada
de Fourier. En esta sección veremos, en primer lugar, algunos conceptos úti-
les para, después, pasar a algunos detalles prácticos de los procedimientos
de filtrado, o más generalmente, tratamiento de señales discretas.
136
VCC
Ii
Vi(t) C
VO
-VCC
Figura 3.10. Esquema de un circuito diferenciador por medio de un amplificador operacional en configu-
ración inversora.
3.1. Señales muestreadas. Teorema de Nyquist-Shanon.
Como ya dijimos en el inicio de estas notas, una señal muestreada está

constituida por un conjunto de valores discretos situados en tiempos deter-
minados τi que pueden estar equiespaciados o no. Es importante recalcar
que la digitalización de una señal analógica implica dos procesos distin-
tos y concatenados: muestreo y cuantificación. Probablemente resulta más
sencillo explicar la diferencia entre los dos describiendo el procedimiento
electrónico por el que se realizan. El muestreo se realiza por parte de un
elemento que se suele denominar etapa sample-and-hold (muestreo y mante-
nimiento), que permite el paso de la corriente durante un corto intervalo de
tiempo, el cual tiene tiempos de inicio y final bien definidos. Seguidamente,
la etapa de conversión analógico-digital (AD) realiza la cuantificación del
valor de la corriente y le asigna un valor codificado digitalmente. Dado que
estas tareas se suelen realizar de forma periódica, el proceso de muestreo y
cuantificación se repite con una frecuencia denominada frecuencia de mues-
treo, cuyo inverso se suele denominar tiempo de muestreo13 . Es importante
señalar que en la digitalización de una señal aparecen, pues, tres escalas de
13
Esta expresión contiene un cierto abuso de lenguaje puesto que el tiempo de muestreo, estricta-
mente, deberı́a designar al tiempo de apertura de la etapa sample-and-hold.
137
tiempo: el tiempo de captura, tiempo durante el que está abierta la puer-
ta de la etapa sample-and-hold, tiempo de conversión, tiempo que tarde el
conversor AD en cuantificar la señal, y el tiempo de repetición (tiempo de
muestreo) del proceso de muestreo y conversión. Para un sistema tı́pico de
conversión AD en laboratorio estos tiempos son del orden de 1 µs, para el
tiempo de captura, 5 µs para el tiempo de conversión y entre 10 µs y 100
s para el tiempo de muestreo.
Empezaremos, a riesgo de resultar repetitivos, por recopilar aquı́, breve-
mente, las definiciones relativas a las señales dadas al principio del capı́tulo.
Cualquier señal discreta se puede representar haciendo uso de la función δ
de Dirac.
De forma discreta, teniendo en cuenta que f (t) serı́a la señal analógica
(continua) origen de la señal discreta, podemos escribir:
X
N −1
fd (t) = f (t)δ(t − τi )
i=0
que, en el caso de que el muestreo sea equiespaciado en el tiempo con tiempo

de muestreo τ se puede escribir como:
X
N −1
fd (t) = f (t)δ(t − iτ )
i=0
Como sabemos, las señales se pueden representar en el dominio temporal o

en el de frecuencia a través de la transformación de Fourier. Recı́procamen-
te, f (t) se puede obtener a partir de F (ω) a través de la antitransformación
(o transformación inversa) de Fourier. La transformada de Fourier de una
señal es, en general, una función compleja y, por lo tanto, es de difı́cil utili-
zación para la visualización de los componentes de frecuencia de las señales
digitales. Para ello se utiliza habitualmente una función real que se puede
construir a partir de la transformada de Fourier, que es el denominado es-
pectro de potencia, que es el cuadrado del módulo de su transformada
de Fourier, es decir:
P (ω) = F ∗ (ω)F (ω) = |F (ω)|2
138
Teorema de muestreo o teorema de Nyquist-Shannon.
Dada una señal analógica periódica continua, xa (t), que está limitada en
banda de frecuencia de manera que la frecuencia más alta (ancho de banda)
que contiene es ωmáx , si esta señal se muestrea con una frecuencia de mues-
treo, ωs , la señal analógica original se puede recuperar fielmente a partir de
la señal digital muestreada, xd (it/ωs ) si y solo si la frecuencia de muestreo
es superior al doble de la frecuencia más alta contenida en la señal origi-
nal, es decir, si ωs > 2ωmáx . Más concretamente, la señal original se puede
recuperar a partir de la señal digital interpolando por medio de la función:
sen 2πωmáx t
g(t) =
2πωmáx t
esto es:
∞
X X ∞
i i
xa (t) = xd g t− = xd (iτs ) g (t − iτs )
i=1
ωs ωs i=1
Básicamente, el teorema de muestreo viene a decir que si queremos tener

una representación digital fiel de una señal analógica debemos muestrearla
a una frecuencia superior al doble de la frecuencia más alta contenida en la
señal original.
Problema de muestreo y aliasing.
El primer problema se aprecia cuando se intenta contestar la pregunta si-

guiente: ¿qué ocurre con el espectro de potencia de una señal discreta si se
hace un muestreo incorrecto, es decir, de forma que la frecuencia de mues-
treo no cumpla el requisito impuesto por el teorema de Shannon?
Veamos un ejemplo. En la figura 3.11 se ha representado una señal sinu-
soidal de frecuencia f = 1 Hz, muestreada con dos frecuencias de muestreo
distintas, f1 = 10 Hz, que sı́ cumple el teorema de Shannon, mientras que
f2 = 1,1416 Hz no cumple el teorema de Shannon puesto que es inferior
a 2 Hz. En la figura 3.11 el muestreo correspondiente a f1 .se indica como
puntos negros y el correspondiente a f2 se indica como puntos rojos.
139
Muestreo correcto
Muestreo incorrecto
1.0
f(t) (a.u.) 0.5
0.0
-0.5
-1.0
0 10 20
t (s)
Figura 3.11. Señal sinusoidal de frecuencia f = 1 Hz, muestreada con dos frecuencias de muestreo dis-
tintas, f1 = 10 Hz (negro) y f2 = 1,1416 Hz (en rojo).
Los espectros de potencia correspondientes a ambas señales se muestran en

la figura 3.12. Es conveniente remarcar que la forma adecuada de representar
los espectros de potencia, o de amplitud, de una señal es siempre con el eje
de ordenadas en escala logarı́tmica, dado que, de otra forma, muchos picos
relevantes pero de amplitud menor que el pico dominante pueden pasar
lamentablemente desapercibidos.
Volviendo a los espectros calculados, es evidente que el espectro de la señal
muestreada con f1 (trazo en negro de la figura) muestra un pico muy pro-
nunciado en la frecuencia f = 1 Hz, mientras que el espectro de la señal
muestreada con frecuencia f2 (trazo en rojo) también muestra un pico, pero
a la frecuencia f3 = 0,14158 Hz que, obviamente, no se corresponde con la
frecuencia de la señal muestreada.
La clave de lo que está ocurriendo nos la da la figura 3.11. En efecto, directa-
mente sobre la figura 3.11 se puede ver que el periodo de la señal muestreada
no es el correcto (1 segundo) sino aproximadamente 7 segundos, cuya inver-
sa es, precisamente, f3 . Este es un fenómeno que se suele denominar con la
terminologı́a inglesa de aliasing. La manera de evitarlo es respetar lo pres-
140
1E-3
1E-4
1E-5
1E-6
P(f) (u.a.)
1E-7
1E-8
1E-9
1E-10
Muestreo correcto
1E-11
Muestreo incorrecto
1E-12
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
f (Hz)
Figura 3.12. Espectros de potencia correspondientes a los dos muestreos representados en la figura 3.11.
crito por el teorema de Shannon, es decir, hacer el muestreo a frecuencias

superiores a la mayor de las presentes en la señal que se quiere analizar.
Sin embargo, con señales ricas en frecuencias distintas esto puede no ser
sencillo, por lo que la mayor parte de las veces es aconsejable utilizar lo que
se denomina un ((filtro anti-aliasing)) que no es más que un filtro paso bajo
de orden 4 o superior y con frecuencia de corte igual, o algo inferior, a la
mitad de la frecuencia de muestreo.
Para ampliar contenidos, el lector puede consultar el Tema D, de los Anexos
al final de este texto, que ilustra los procedimientos de sı́ntesis de filtros pa-
sivos y activos de segundo orden, ası́ como los procedimientos más generales
para la sı́ntesis de filtros de orden superior basados en la función de transfe-
rencia, estudiando con algo de detalle los filtros de respuesta máximamen-
te plana (Butterworth) y los filtros con atenuación de pendiente máxima
(Chebyshev).
141
4. EJERCICIOS
Ej. 3.1 — Un determinado sistema tiene la siguiente función de transfe-

rencia:
1
G(s) =
(s − 10)2
Se cumple que:
(a) El sistema tiene ganancia de módulo constante por debajo de la fre-

cuencia de corte y una pendiente de -40 db/década por encima de la
frecuencia de corte.
(b) El sistema tiene ganancia de módulo constante por encima de la

frecuencia de corte y una pendiente de -40 db/década por debajo de
la frecuencia de corte.
(c) El sistema tiene ganancia de módulo constante por debajo de la fre-

cuencia de corte y una pendiente de +40 db/década por encima de
la frecuencia de corte.
(d) El sistema tiene ganancia de módulo constante por encima de la

frecuencia de corte y una pendiente de +40 db/década por debajo
de la frecuencia de corte.

rencia:
s − 10
G(s) =
(s − 1)(s − 1000)
¿Cual será la pendiente de la curva de ganancia de amplitud para s = 100?
(a) Nula.
(b) -20 db/década.
(c) -40 db/década.
(d) +20 db/década.
142
Ej. 3.3 — La función de transferencia de un filtro paso-alto de primer

orden:
(a) Tiene un cero de orden uno en la frecuencia de corte.
(b) Tiene un cero de orden superior a uno en la frecuencia de corte.
(c) Tiene un polo de orden uno en la frecuencia de corte.
(d) Tiene un polo de orden superior a uno en la frecuencia de corte.
Ej. 3.4 — Se quiere diseñar un filtro paso banda combinando un filtro

paso bajo y otro paso alto, ambos de primer orden. Si se pretende que la
banda pasante vaya desde 100 Hz hasta 1000 Hz, ¿cuáles deberán ser las
frecuencias de corte de los filtros paso bajo y paso alto?
(a) 100 Hz para el paso alto y 1000 Hz para el paso bajo.
(b) 100 Hz para el paso bajo y 1000 Hz para el paso alto.
(c) 550 Hz tanto para el paso bajo como para el paso alto.
(d) No es posible construir un filtro paso banda combinando un paso alto

con un paso bajo.
Ej. 3.5 — Se pretende muestrear una señal analógica de la que se sabe

que es la suma de tres sinusoides de frecuencias f1 = 15 Hz, f2 = 37 Hz y
f3 = 123 Hz. ¿Cuál será la frecuencia de muestreo mı́nima que se deberá
utilizar si se quiere recuperar fielmente la señal original?
(a) 246 Hz.
(b) 74 Hz.
(c) 15 Hz.
(d) 30 Hz.
143
rencia:
1
G(s) = 2
s − 2s + 2
Deduzca, si es posible, si el sistema es estable o inestable.
Ej. 3.7 — La función de transferencia de un determinado filtro electrónico

analógico es:
1
G(s) =
(s − 10)2
Comente de qué tipo de filtro se trata, su orden y su frecuencia angular de
corte.
144
Tema 4
UNIDADES ELECTROMAGNÉTICAS
La cuestión de las unidades en Electricidad y Magnetismo ha ocupado du-

rante años a un gran número de fı́sicos e ingenieros. Esta situación se halla
en marcado contraste con el acuerdo casi universal en las unidades funda-
mentales de longitud (centı́metro y metro), masa (gramo o kilogramo) y
tiempo (segundo solar medio). Quizá la razón se deba a que las unidades
mecánicas se definieron cuando la idea de ((patrones absolutos)) constituı́a
un nuevo concepto (justamente antes de 1800) y fueron introducidas en el
mundo profesional y comercial por un grupo de cientı́ficos eminentes (Borda,
Laplace y otros). Cuando surgió el problema de las unidades electromagnéti-
cas habı́a (y aún hay) muchos expertos que usaban notaciones y métodos de
trabajo diferentes. El propósito de este capitulo es aclarar en lo posible la
relación entre los distintos sistemas de unidades para dotar de herramientas
con las que entender textos de diversas épocas y especialidades.
1. UNIDADES FUNDAMENTALES Y UNIDADES DERIVA-

DAS
Abraham, Planck, Bridgman, Birge y otros cientı́ficos [5] han insistido sobre
la arbitrariedad en el número de unidades fundamentales y, por lo tanto,
también en la arbitrariedad en las dimensiones de cualquier magnitud fı́sica
en función de dichas unidades fundamentales. Los aspectos deseables de un
sistema de unidades en cualquier campo son conveniencia y claridad. Ası́,
los fı́sicos teóricos dedicados a la Teorı́a de la Relatividad, Teorı́a Cuántica
de Campos y a la Teorı́a de las Partı́culas Elementales, encuentran conve-
niente la modificación de las constante universales, tales como la acción de
Planck (h) y la velocidad de la luz en el vacı́o (c), de forma que estas sean
adimensionales y de valor unidad. El sistema de unidades resultante, lla-
mado ((unidades naturales)), tiene solamente una unidad fundamental, que
145
acostumbra a tomarse como la longitud. Las magnitudes se expresan me-
diante esa única unidad, siendo sus dimensiones potencias de la dimensión
de dicha unidad. Todas la magnitudes, bien sean longitud, tiempo, fuerza
o energı́a, etc., pueden expresarse en un sistema o en otro, siempre que las
unidades fundamentales sean el metro, el kilogramo y el segundo (sistema
MKS). Simplemente es un asunto de conveniencia.
A continuación, hemos de realizar algunos comentarios sobre las unidades
o patrones fundamentales, considerados como magnitudes independientes,
ası́ como acerca de las unidades o patrones derivados, las cuales se definen
tanto en cantidad como en dimensión (teórica y práctica) en función de las
unidades fundamentales.
La tradición hace que consideremos la masa M, la longitud L y el tiempo
T como magnitudes fundamentales. Pero con las magnitudes eléctricas no
ha habido tradición. Consideremos, por ejemplo, la unidad de corriente. El
((amperio internacional)) (aceptado durante un largo periodo como unidad
práctica de corriente) se definı́a en función de la masa de plata depositada
por unidad de tiempo en un proceso de electrólisis en un voltı́metro ade-
cuado. Tal unidad de corriente se consideraba como la unidad fundamental
independiente de las unidades de masa, longitud y tiempo, ya que la canti-
dad de corriente que servı́a de unidad se obtenı́a a partir de una experiencia
de electrólisis que se consideraba reproducible. El patrón de corriente acep-
tado en la actualidad es ahora el ((amperio absoluto)) cuya definición se
aclara en la siguiente sección.
1.1. El Sistema Internacional de Unidades (SI)
En la Conferencia General de Pesas y Medidas (CGPM) de 1960 se esta-

bleció un sistema práctico de unidades que recibió el nombre de Sistema
Internacional de Unidades, cuya abreviatura es SI en todos los idiomas1 .
Las unidades básicas de este sistema son las unidades de las siete magni-
tudes siguientes: ((longitud)), ((masa)), ((tiempo)), ((intensidad de la corriente
1
En España se declaró de uso legal este sistema por ley de 8 de noviembre de 1967. Un decreto de
25 de abril de 1974 adoptó las modificaciones que habı́an sufrido las unidades desde la fecha de la ley.
146
Unidades electromagnéticas
Magnitud Sı́mbolo Unidad SI Sı́mbolo SI

Tiempo T segundo s
Longitud L metro m
Masa M kilogramo kg
Intensidad de corriente I amperio A
Temperatura θ Kelvin K
Cantidad de sustancia N mol mol
Intensidad luminosa J candela cd
Tabla 4.1. Unidades y sı́mbolos del Sistema Internacional de Unidades S.I.
eléctrica)), ((temperatura termodinámica)), ((cantidad de masa)) e ((intensidad

luminosa))2 . Son unidades básicas las que corresponden a las siete magni-
tudes ya mencionadas y reciben respectivamente los siguientes nombres:
((metro)), ((kilogramo)), ((segundo)), ((amperio)), ((kelvin)), ((mol)) y ((candela))
[5]. Las cuatro primeras coinciden con las del sistema MKSA.
El 16 de noviembre de 2018 la 26a Conferencia General de Pesos y Medidas
actualizó las definiciones de las 7 unidades fundamentales del SI cuya fecha
de entrada en vigor es el 20 de mayo de 20193 .
Esta revisión es muy importante porque se abandonan los patrones fı́sicos
y las medidas experimentales para determinar el valor de las unidades y, en
su lugar, se ((fijan)) los valores de ciertas constantes fundamentales a partir
de las cuales se establecen los valores de las unidades.
Antes era al revés: dados los valores fijados con patrones, las constantes
fundamentales tomaban su valor correspondiente a partir de medidas expe-
rimentales. Pero el problema radicaba en que algunos patrones eran difı́ciles
de establecer, en particular el patrón de kilogramo, cuya masa verdadera es
impredecible porque el material del que está hecho el ((kilogramo prototipo))
(un cilindro de una aleación especial custodiado en la Oficina Internacio-
nal de Pesas y Medidas), está sujeto a cambios fı́sicos y quı́micos que sus
2
La cantidad de sustancia fue añadida en 1971. Las otras magnitudes habı́an sido ya aceptadas en
1954.
3
Más detalles sobre las resoluciones de esta Conferencia en la dirección https://www.bipm.org/
en/measurement-units/rev-si/
147
Unidad SI Constante asociada Valor fijado
segundo, s ∆νCs (1) 9 192 631 770 Hz
metro, m c (2) 299 792 458 m s−1
kilogramo, kg Cte. de Planck, h 6,626 070 15 × 10−34 kg m2 s−1
amperio, A Carga del electrón, e 1,602 176 634 × 10−19 A s
kelvin, K Cte. de Boltzmann, k 1,380 649 × 10−23 kg m2 s−2 K−1
mol Cte. de Avogadro, NA 6,022 140 76 × 1023 mol−1
candela, cd Kcd (3) 683 cd sr kg−1 m−2 s3
Tabla 4.2. Definición de las unidades del S.I. a partir de constantes fundamentales según la resolución
de la CGPM de 16 de noviembre de 2018.
1
Frecuencia de la transición hiperfina del estado fundamental imperturbado del Cs133 .
2
Velocidad de la luz en el vacı́o.
3
Intensidad radiante de una fuente monocromática de frecuencia 540 × 1012 Hz que emite
con la eficiencia dada; ((sr)) se refiere a ((estereoradián)).
condiciones especiales de conservación no pueden evitar. Ası́, se llegó a la pa-

radoja de que las constantes fundamentales se podı́an establecer con mejor
precisión que la incertidumbre asociada a la definición de kilogramo patrón.
En realidad ya desde la anterior revisión
del S.I. (1983) el segundo, el metro y la
candela se establecı́an a partir de cons-
tantes fundamentales. En la revisión de
2018 se amplı́a esta forma de definición
al resto de unidades, tal y como se ve la
tabla 4.2, donde se muestran qué cons-
tantes fundamentales se asocian a cada
unidad y su valor fijado. Algunas unida-
Figura 4.1. Unidades del S.I. y su relación con des dependen sólo de la constante que
constantes fundamentales. las define, como son el segundo y el mol,
y el resto dependen de su constante y de
otras unidades por ejemplo el metro, que depende también de la definición
del segundo, o el kilogramo, que depende tanto de la definición del metro
como del segundo.
Como decı́amos, estas nuevas definiciones dejan de usar patrones, como el
148
kilogramo patrón. Pero también dejan de usar medidas indirectas, como la

asociada anteriormente al amperio absoluto que se definı́a como la corriente
que cuando fluye en cada uno de dos conductores muy largos, paralelos y de
sección despreciable separados por una distancia de un metro en el vacı́o,
da lugar a una fuerza transversal por unidad de longitud4 de 2×10−7 Nm−1 ;
esta definición incluı́a fijar la permeabilidad magnética del vacı́o, µo , al valor
µo = 4π × 10−7 kg A−2 s−2 m. Pero fijar esta constante es incompatible con
fijar la carga del electrón, como se hace a partir de 2019, puesto que ambas
están relacionadas con la constante de estructura fina, ᾱ, que se determina
experimentalmente. Por tanto la permeabilidad magnética del vacı́o ahora
es una medida experimental indirecta, a partir de µo = (2h/ce2 )ᾱ, cuyo
valor actual (2019) es:
µo = 4π × 1,000 000 000 82(20) × 10−7 kg A−2 s−2 m (4.1)
2. UNIDADES Y ECUACIONES ELECTROMAGNÉTICAS
Tradicionalmente, se han utilizado varios sistemas de unidades en electro-

dinámica[5]. Debido a que no sólo la magnitud de las unidades va a ser
diferente sino que también lo será la forma de las ecuaciones, es importante
tener presente en qué sistema de unidades ha sido escrita una determinada
expresión electromagnética. Los dos sistemas de unidades más importantes
son el sistema ((gaussiano)) —usado fundamentalmente en el contexto de
la Fı́sica Teórica y la Fı́sica Atómica y Nuclear— y el sistema internacio-
nal de unidades, SI, usado principalmente en el ámbito de las aplicaciones
tecnológicas de la Electrodinámica. El SI coincide con el sistema MKSA
((racionalizado)).
más información
Denominamos ((racionalizados)) a aquellos sistemas que mantienen el

factor 4π en la ley de Coulomb y convencionales a los que lo eliminan[6].
La diferencia básica entre estos dos sistemas reside en el hecho de que en el
4
Como consecuencia de la ecuación (4.5).
149
Sistema k1 k2 α k3
Electrostático −2 2 −2
1 c [T L ] 1 1
(e.s.u)
Electromagnético
c−2 [T2 L−2 ] 1 1 1
(e.m.u)
−2 2 −2 −1
Gaussiano 1 c [T L ] c [T L] c [TL−1 ]
−1
Heaviside-Lorentz (4π)−1 (4πc2 )−1 [T2 L−2 ] c [T−1 L] c−1 [TL−1 ]

SI (MKSA) (4πεo )−1 ' 10−7 c2 µo /4π ' 10−7
1 1
(Racionalizado) [ML3 T−4 I−2 ] [MLT−2 I−2 ]
Tabla 4.3. Valores y dimensiones de las constantes electromagnéticas
sistema gaussiano todas las cantidades fı́sicas son reducidas a las tres dimen-
siones mecánicas: ((longitud)), ((masa)) y ((tiempo)), medidas en centı́metros,
gramos y segundos. Es decir, son las unidades del sistema cegesimal (en
estas unidades mecánicas están basados también los sistemas electrostático,
electromagnético y Heaviside-Lorentz). El SI utiliza también las tres dimen-
siones mecánicas pero medidas en metros, kilogramos y segundos. Pero lo
más importante es que el SI introduce una nueva dimensión: la ((corriente
eléctrica)) cuya unidad es el Amperio (A). Por lo tanto, en este sistema se
utilizan cuatro dimensiones para caracterizar todas las cantidades fı́sicas.
En la discusión de unidades y dimensiones en electromagnetismo tomaremos
como punto de partida la elección tradicional de longitud (L), masa (M) y
tiempo (T) como dimensiones básicas independientes. Además tomaremos
la definición comúnmente aceptada de corriente como carga por unidad de
tiempo:
dq
I=
dt
Esto significa que la relación entre la carga y la corriente tiene dimensiones
de tiempo. Entonces, la ecuación de continuidad para las densidades de
carga y de corriente toma la forma:
∂ρ
∇·J + =0 (4.2)
∂t
150
más información
Desde el punto de vista de la Relatividad Especial serı́a más natural

dar dimensiones de carga partida por longitud a la corriente. Ası́, la
densidad de corriente J y la densidad de carga ρ tendrı́an las mismas
dimensiones y formarı́an un cuadrivector ((natural)). Esta es la elección
que se hace en el sistema ((gaussiano modificado)).
Para simplificar, vamos a considerar sólo fenómenos electromagnéticos en el

vacı́o salvo la presencia de cargas y corrientes.
La ley fundamental que rige la electrostática es la ley de Coulomb, que
0
determina la fuerza entre dos cargas puntuales q y q separadas por una
distancia r; la expresión matemática de esta ley es:
qq 0
F1 = k1 (4.3)
r2
El valor y dimensiones de la constante de proporcionalidad, k1 , quedarán

determinadas por la propia ecuación si el valor y dimensiones de la unidad
de carga se han establecido independientemente, o bien si se eligen arbi-
trariamente con objeto de definir la unidad de carga. Dentro de nuestro
esquema actual, todo lo que esta determinado por el momento es que el
producto (k1 qq 0 ) tiene las dimensiones [ML3 T−2 ].
El campo eléctrico es una magnitud derivada que habitualmente se define
como fuerza por unidad de carga. Por tanto, el campo eléctrico debido a
una carga puntual q se puede definir según (4.3) mediante la relación,
q
E = k1 (4.4)
r
En el sistema gaussiano se escoge k1 = 1 y k1∗ = 1/(4πεo ) en el SI5 , donde

εo es la permitividad del vacı́o.
5
Hagamos notar que todas las magnitudes expresadas en el SI las distinguiremos con un asterisco
(*)
151
En los fenómenos magnéticos estacionarios, las observaciones de Ampère
constituyen la base para especificar la interacción y definir el campo magnéti-
co6 , B. La ley de Ampère para la fuerza entre los elementos de dos conduc-
tores puede escribirse como:
ds1 × (ds2 × r12 )
dF = k2 I1 I2 3
(4.5)
r12
La constante de proporcionalidad k2 es análoga a la k1 que aparece en la

expresión (4.3). Por la comparación de las fuerzas mecánicas, (4.3) y (4.5),
para cargas y corrientes conocidas, se puede calcular el valor de la razón
k1 /k2 ; encontrándose que tiene dimensiones de una velocidad al cuadrado
[L2 T−2 ] y un valor numérico muy aproximadamente igual al cuadrado de la
velocidad de la luz en el vacı́o. Por tanto, simbólicamente podemos escribir:
k1
= c2 (4.6)
k2
siendo c la velocidad de la luz en el vacı́o tanto en valor numérico como
en dimensiones. En el sistema gaussiano, teniendo en cuenta que ya se ha
hecho la elección k1 = 1, no hay más remedio que tomar:
1
k2 = (4.7)
c2
En el SI ya hemos visto que se introduce la permeabilidad magnética del

vacı́o µo :
µo
k2∗ = (4.8)
4π
cuyo valor numérico se ha dado en (4.1).
Como se ha de cumplir que k1 /k2 = k1∗ /k2∗ = c2 (con c expresado respecti-
vamente en cm s−1 y m s−1 ), entonces se deduce que:
1 1
εo = ' kg−1 m−3 s4 A2 (4.9)
µo c 2 4π × 9 × 109
6
En muchos textos el campo B se denomina ((inducción magnética)) y se reserva el nombre de
((campo magnético)) para el campo H.
152
Sistema εo µo D, H
Electrostático c−2 D = E + 4πP
1
(e.s.u) [T2 L−2 ] H = c2 B − 4πM
Electromagnético c−2 D = c−2 E + 4πP
1
(e.m.u) [T2 L−2 ] H = B − 4πM
D = E + 4πP
Gaussiano 1 1
H = B − 4πM
D=E+P
Heaviside-Lorentz 1 1
H=B−M
SI (MKSA) ∼ 107 /4πc2 ∼ 4π × 10−7 D = εo E + P
(Racionalizado) [M−1 L−3 T4 I2 ] [MLT−2 I−2 ] H = µ−1o B−M
Tabla 4.4. εo , µo D y H en distintos sistemas de unidades.
Nótese que esta relación es ligeramente incorrecta: el factor 9 = 32 debe ser

reemplazado por el cuadrado de 2,997... Esta discrepancia entre valor real
y aproximado la tendremos en cuenta en este capı́tulo mediante el uso del
sı́mbolo 3̄ ≡ 2,99792458.
Otra constante de proporcionalidad k3 aparece en la definición del campo
magnético B. La fuerza de Lorentz de una carga moviéndose en un campo
magnético se puede escribir como:
F = k3 qv × B (4.10)
El campo magnético B se deriva de la ley de la fuerza de Ampère. Para

un conductor rectilı́neo por el que pasa una corriente I [5, 7], el campo
magnético tiene por módulo (y dimensiones):
I
B = 2k2 α (4.11)
d
donde α ahora representa una nueva constante, sin relación con la constante
de estructura fina. Las dimensiones de la razón entre el campo eléctrico y el
campo magnético se pueden hallar de (4.2), (4.4), (4.6) y (4.11). El resultado
es que E/B tiene por dimensiones [LT−1 ][α−1 ].
La tercera y última relación para especificar las unidades electromagnéti-
cas es la Ley de Inducción de Faraday, que conecta entre sı́ los fenómenos
153
Ecuaciones de Maxwell Fuerza de
Sistema
macroscópicas Lorentz
Electrostático ∇ · D = 4πρ ∇ × H = 4πJ + ∂D
∂B
∂t E+v×B
(e.s.u) ∇ × E + ∂t = 0 ∇·B = 0
Electromagnético ∇ · D = 4πρ ∇ × H = 4πJ + ∂D ∂t E+v×B
(e.m.u) ∇ × E + ∂B
∂t
=0 ∇·B = 0
∇ · D = 4πρ ∇ × H = 4π J + 1c ∂D v
Gaussiano 1 ∂B
c ∂t E+ ×B
∇ × E + c ∂t = 0 ∇·B = 0
c
∇·D = ρ ∇ × H = 1c J + ∂D v
Heaviside-Lorentz ∂t E+ ×B
∇ × E + 1c ∂B
∂t
=0 ∇·B = 0 c
SI (MKSA) ∇·D = ρ ∇ × H = J + ∂D
∂B
∂t E+v×B
(Racionalizado) ∇ × E + ∂t = 0 ∇·B = 0
Tabla 4.5. Ecuaciones de Maxwell y fuerza de Lorentz por unidad de carga.
eléctricos y magnéticos. La ley experimental de que la fuerza electromotriz

inducida alrededor de un circuito es proporcional a la variación del flujo
magnético a través de él, se expresa en forma diferencial de la siguiente
forma:
∂B
∇ × E + k3 =0 (4.12)
∂t
donde k3 es una constante de proporcionalidad. Como ya se han establecido

las dimensiones de E respecto a las de B, las dimensiones de k3 pueden ex-
presarse sin más que exigir que ambos términos de (4.12) tengan las mismas
dimensiones, encontrándose ası́ que k3 es igual a α−1 . La forma más sencilla
de demostrar esta igualdad consiste en expresar las ecuaciones de Maxwell
mediante los campos aquı́ definidos:
∇ · E = 4πk1 ρ,
k2 α ∂E
∇ × B = 4πk2 αJ + ,
k1 ∂t (4.13)
∂B
∇ × E + k3 = 0,
∂t
∇·B = 0
En las regiones sin fuentes se pueden combinar las dos ecuaciones con rota-
154
cional para obtener la ecuación de ondas:
k2 α ∂ 2 B
∇ 2 B − k3 =0 (4.14)
k1 ∂t2
La velocidad de propagación de las ondas descritas por (4.14) está relacio-

nada con la combinación de las constantes que en ella aparecen. Como se
sabe que esta es la velocidad de la luz, tenemos:
k2 α 1
k3 = 2 (4.15)
k1 c
Combinando (4.6) y (4.15) encontramos:

1
k3 =
α
se trata de una igualdad tanto en módulo como en dimensiones. El valor de

esta constante es:
1
k3 = , en el sistema gaussiano; k3∗ = 1, en el SI. (4.16)
c
2.1. Los diferentes sistemas de unidades electromagnéticas
Los sistemas de unidades electromagnéticas difieren en la elección de los

valores y dimensiones de las distintas constantes anteriores. Debido a las
relaciones anteriores, sólo pueden y deben escogerse arbitrariamente dos
constantes (por ejemplo, k1 y k2 ). Sin embargo, es conveniente tabular las
cuatro constantes (k1 , k2 , α, k3 ) para los sistemas de unidades más comunes,
tal y como hemos hecho en la tabla 4.3. Observemos que, salvo las dimensio-
nes, las unidades e.m.u. y SI (MKSA) son muy parecidas, ya que difieren tan
sólo en varias potencias de 10 en unidades mecánicas y electromecánicas.
Los sistemas de Gauss y Heaviside-Lorentz difieren solamente en factores
4π. Además, en estos dos sistemas la constante k3 tiene dimensiones. Según
(4.16), resulta evidente que al tener k3 las dimensiones recı́procas de una
velocidad, E y B tienen las mismas dimensiones. Más aun, con k3 = c−1 ,
155
Magnitud Gaussiano SI
− 12
Velocidad de la luz c √ (µo εo )
Campo eléctrico (potencial, voltaje, fem) E(φ, V, E) po E(φ, V, E)
4πε
Desplazamiento D 4π/εo D
Densidad de carga (carga, densidad de corriente, 1
ρ(q, J, I, P) (4πεo )− 2 ρ(q, J, I, P)
corriente, polarización) p
Campo magnético B √4π/µo B
Campo magnetizante H p 4πµo H
Magnetización M 4π/µo M
Conductividad σ (4πεo )−1 σ
Constante dieléctrica ε ε/εo
Permeabilidad µ µ/µo
Resistencia (impedancia) R(Z) 4πεo R(Z)
Inductancia L 4πεo L
Capacitancia C (4πεo )−1 C
Tabla 4.6. Tabla de conversión de sı́mbolos y fórmulas entre los sistemas Gaussiano y SI.
(4.16) muestra que para las ondas electromagnéticas en el vacı́o, E y B son

también de igual valor.
Hasta ahora solamente hemos considerado campos electromagnéticos en el
vacı́o y, por tanto, sólo han aparecido dos vectores fundamentales, E y B.
Resta la tarea de definir los campos macroscópicos, D y H. Si se describen
las propiedades promediadas de un medio material mediante la polarización
P y una imanación M, la forma general de las definiciones de D y H son:
D = εo E + λP,
1 (4.17)
H = B − λ0 M
µo
donde εo , µo , λ y λ0 son constantes de proporcionalidad. No ganamos nada

haciendo que D y P, o bien H y M tengan dimensiones distintas. Ası́ pues,
λ y λ0 se eligen como números puros (λ = λ0 = 1 en sistemas racionalizados,
λ = λ0 = 4π en sistemas no racionalizados). Por conveniencia y simplicidad
se elige que D y P difieran dimensionalmente de E, e igualmente, H y M
difieren dimensionalmente de B, con el objeto de hacer que las ecuaciones de
Maxwell tengan una forma relativamente simple y clara. Antes de tabular
las elecciones hechas en los distintos sistemas observemos que en los medios
156
gaussiano SI
Densidad de energı́a w= 1
8π
(E · D + B · H) w = 12 (E∗ · D∗ +B∗ · H∗ )
Vector de Poynting S= c
4π
E ×H S = E ∗ × H∗
Densidad de fuerza de Lorentz f = ρE + 1c J × B f = ρ∗ E∗ + J∗ × B∗
Tabla 4.7. Otras ecuaciones electromagnéticas expresadas en los sistemas Gaussiano y SI.
isótropos y lineales se tienen las relaciones:
D = εE,
(4.18)
B = µH
En (4.17), las constantes εo y µo son los valores de ε y µ en el vacı́o. La

permitividad relativa de una sustancia (llamada frecuentemente ((constante
dieléctrica))) se define como la razón adimensional ε/εo , mientras que la
permeabilidad relativa (a menudo llamada ((permeabilidad))) se define como
µ/µo .
Las tablas 4.4 y 4.5 nos presentan los valores de εo y µo , las ecuaciones de
definición de D y H, las formas macroscópicas de las ecuaciones de Maxwell
y la ecuación de fuerza de Lorentz, en los cinco sistemas de unidades de la
tabla 4.3. Para todos los sistemas de unidades, la ecuación de continuidad
entre carga y corriente viene dada por (4.2). Análogamente, la ley de Ohm
se expresa en todos los sistemas en la forma:
J = σE
siendo σ la conductividad.
3. CONVERSIÓN ENTRE UNIDADES GAUSSIANAS Y SI
Los dos sistemas de unidades electromagnéticas de uso más común son el

gaussiano y el MKSA racionalizado o Sistema Internacional de Unidades
157
Magnitud Fı́sica Sı́mbolo SI Gaussiano
Longitud l 1 m (metro) 102 cm (centı́metro)
Masa m 1 kg (kilogramo) 103 g (gramo)
Tiempo t 1 s (segundo) 1s
Frecuencia ν 1 Hz (hercio) 1 Hz
Fuerza F 1 N (newton) 105 dyn (dina)
Trabajo W
1 J (julio) 107 erg (ergio)
Energı́a U
Potencia P 1 W (watio) 107 erg s−1
Carga q 1 C (culombio) 3̄ × 109 statC (statculomb)
Densidad de carga ρ 1 C m−3 3̄ × 103 statC cm−3
Corriente I 1 A (amperio) 3̄ × 109 statA (statamperio)
Densidad de corriente J 1 A m−2 3̄ × 105 statA cm−2
−1
Potencial φ, V 1 V (voltio) (3̄00) statV (statvoltio)
−1
Fuerza electromotriz E 1 V (3̄00) statV
Campo eléctrico E 1 V m−1 1
3̄
× 10−4 statV cm−1
Polarización P 1 C m−2 3̄ × 105 statC cm−2
Desplazamiento D 1 C m−2 3̄ (4π × 105 ) statC cm−2
2
Conductividad σ 1 Ω−1 m−1 (3̄) × 109 s−1
1 2

Resistencia R 1 Ω (ohmio) 3̄
× 10−11 s cm−1
Capacitancia C 1 F (faradio) 3̄ × 1011 cm
2
Campo magnético B 1 T (tesla) 104 G (gauss)

Flujo magnético Φ, F 1 Wb (weber) 108 G cm−2
Campo magnetizante H 1 A m−1 4π × 10−3 Oe (oersted)
Magnetización M 1 A m−1 1
4π
× 104 G
1 2
Autoinducción L 1 H (henrio) 3̄
× 10−11 s2 cm−1
Tabla 4.8. Tabla de conversión de magnitudes fı́sicas entre los sistemas Gaussiano y SI.
(SI). El SI presenta la ventaja de ser más conveniente en fenómenos prácti-

cos a gran escala, en especial en aplicaciones de ingenierı́a. El sistema gaus-
siano es mas adecuado en los problemas microscópicos, electrodinámica de
partı́culas cargadas individuales, etc.
En la tabla 4.6, los sı́mbolos de masa longitud, tiempo, fuerza y otras mag-
nitudes, que no sean especificamente electromagnéticas, permanecen inalte-
rados. Para convertir cualquier ecuación en unidades de Gauss a la corres-
pondiente ecuación en unidades del SI, se reemplazan en ambos miembros
de la ecuación los sı́mbolos que aparecen en la tabla bajo la denominación
158
((gaussiano)) por los correspondientes sı́mbolos ((SI)) colocados a la derecha.

También esta permitida la transformación inversa. Como los sı́mbolos de
longitud y tiempo permanecen inalterados, las magnitudes que difieran una
de otra sólo en potencias de longitud y/o tiempo se agrupan juntas siempre
que sea posible.
La definición de la autoinducción, L, en el sistema gaussiano tiene cierto
margen de arbitrariedad. Por ejemplo, se podrı́an elegir como definición de
L las expresiones Φ = L I, E = L(dI/dt) o U = (1/2)LI 2 . En el sistema
gaussiano, se elige que estas dos últimas tengan la misma forma que en el
SI, lo que fuerza a que L = 4πεo L∗ , con unidades de s2 cm−1 .
Ejercicio 4.1 Demuestre que, manteniendo la definición de L como

E = L (dI/dt) en el sistema gaussiano, su expresión como función de L∗
(la autoinducción en el SI) ha de ser L = 4πεo L∗ .
Solución
En el SI la definición de L∗ viene a través de:
dI ∗
E ∗ = L∗
dt
√ √ −1
A partir de la tabla 4.8, E = 4πεo E ∗ , I = 4πεo I ∗ . De donde:
E √ dI
√ = L∗ 4πεo ,
4πεo dt
dI
E = 4πεo L∗
dt
Para mantener la forma de la ecuación en el sistema gaussiano, necesa-
riamente hay que sustituir L = 4πεo L∗
La tabla 4.8 se ha dispuesto de forma tal que dada una cantidad correcta-
mente expresada de una magnitud fı́sica, sea en unidades del SI o gaussianas,
se puede expresar como un número equivalente de unidades en el otro sis-
tema. Todos los factores 3̄ (excepto los exponentes) deberán reemplazarse,
en los trabajos de gran precisión, por 2,99792458, que es el coeficiente de la
159
expresión de la velocidad de la luz en el vacı́o.
4. EJERCICIOS
Ej. 4.1 — En el SI, la expresión que da el flujo magnético que atraviesa

un circuito debido a su propia corriente es Φ∗ = L∗ I ∗ . Derive la expresión
correspondiente en el sistema gaussiano.
Ej. 4.2 — La constante de estructura fina, ᾱ, se expresa en el sistema

gaussiano de la siguiente forma:
2πe2
ᾱ =
hc
En el SI los valores de estas constantes están dados en la tabla 4.2:
e = 1,602 × 10−19 C,
~ = 1,055 × 10−34 kg m2 s−1 ,
c = 2,998 × 108 m s−1
Calcule los valores de estas constantes en el sistema gaussiano y sustitúyalos

en la expresión de α para comprobar que ᾱ ' (137)−1 . Exprese ᾱ en el SI
haciendo explı́cita su dependencia con εo .
Ej. 4.3 — ¿En qué unidades se medirı́a la corriente en el sistema gaus-

siano?
Ej. 4.4 — Si leemos la frase: ((El valor de la permitividad eléctrica del

agua es 80)). ¿En qué sistema de unidades está dado ese valor?
(a) SI y Electrostático.
(b) Electrostático y Gaussiano.
(c) Gaussiano y SI.
(d) Gaussiano, SI y Electrostático.
160
Ej. 4.5 — La expresión de la tercera ley de Maxwell tiene la siguiente

forma general:
∂B
∇ × E + k3 =0
∂t
donde k3 = 1 en el SI y k3 = 1/c en el sistema Gaussiano. Sabiendo que la
unidad de campo magnético en el SI es 104 veces mayor que en el sistema
Gaussiano, encuentre el valor numérico que nos da el campo eléctrico en el
sistema Gaussiano sabiendo el campo eléctrico en el SI.
Ej. 4.6 — Lea el texto de la siguiente figura, que contiene un fragmento

de un artı́culo sobre el momento cuadrupolar de la molécula de CO2 .
¿Cuánto vale el momento cuadrupolar en unidades SI?
(a) −1,37 × 10−39 C m2
(b) −4,1 × 10−39 C m2
(c) −1,37 × 10−35 C m2
(d) −4,1 × 10−30 C m2
161
Anexos
163
Tema A
EJEMPLOS DESARROLLADOS DE ANÁLISIS DE DATOS
EXPERIMENTALES
En este capı́tulo vamos a desarrollar varios casos concretos de análisis de

datos según lo explicado en los capı́tulos anteriores, especialmente en rela-
ción con los capı́tulos 1 y 2 que tratan aspectos de Estadı́stica. Los ejemplos
desarrollados permitirán al estudiante comprobar cómo se analizan ciertas
situaciones experimentales a partir de los datos disponibles usando algu-
nos de los contenidos desarrollados en este texto. Por supuesto, se dan por
conocidos los contenidos de análisis de errores explicados en Técnicas Expe-
rimentales I. De cara a la preparación del examen presencial, recomendamos
que el estudiante realice los diversos problemas que presentamos a continua-
ción con la única ayuda de una calculadora cientı́fica, lápiz, papel y papel
milimetrado para realizar las gráficas.
1. RADIACIÓN DEL CUERPO NEGRO.
A finales del XIX, una de las grandes inconsistencias de la Fı́sica era el com-
portamiento del denominado ((cuerpo negro)). Se denominan como ((cuerpos
negros)) a aquellos objetos tales que absorben toda la luz y energı́a radiante
que les llega. Sin embargo, estos objetos no son ((negros)), ya que emiten
energı́a de una determinada longitud de onda, al ser calentados a una tem-
peratura concreta.
Ya desde finales del siglo XVIII se sabı́a que muchos objetos se volvı́an de
color rojo para la misma temperatura cuando se calentaban en un horno,
independientemente de su composición quı́mica, forma o tamaño. Algo que
extrañó a los cientı́ficos (a partir de mediados del siglo XIX) es que los sóli-
dos que mostraban este comportamiento generaban un espectro continuo,
en lugar de las tı́picas bandas o lı́neas que aparecen al calentar gases. Hacia
finales del siglo XIX se consideraba que la Fı́sica de aquel momento era tan
sofisticada que serı́a capaz de explicar cualquier fenómeno natural, pero las
165
mediciones que se obtenı́an acerca del cuerpo negro seguı́an sin entenderse.
En este ejercicio daremos un pequeño salto temporal hasta el año 1900.
Disponemos de los resultados de un sofisticado experimento, diseñado y
desarrollado por unos notables espectroscopistas alemanes, para la radia-
ción emitida por un cuerpo negro a una temperatura de 1500 K para varias
longitudes de onda. Queremos comparar estas mediciones con dos expresio-
nes teóricas propuestas para predecir la radiación del cuerpo negro. Una de
ellas, basada en la distribución de velocidades para las moléculas de un gas
propuesta por Maxwell, es la expresión exponencial de Wien:
1 −C2 /(λT )
Eλ (λ, T ) = C1 e (A.1)
λ5
donde Eλ es la irradiancia espectral (la magnitud que se mide), T es la
temperatura absoluta, λ es la longitud de onda y C1 y C2 son dos constantes
que vienen dadas por las siguientes expresiones:
C1 = 8πc2 h
(A.2)
C2 = hc/kB
donde los sı́mbolos que aparecen son las siguientes constantes:
c = 2,9979 × 108 m/s

h = 6,6261 × 10−34 J.s (A.3)
kB = 1,3806 × 10−23 J.K
La otra expresión, propuesta por Max Planck de forma heurı́stica, es la

siguiente:
1 1
Eλ (λ, T ) = C1 5 (A.4)
λ e C2 /(λT ) − 1
donde todas las magnitudes son las mismas que en la expresión (A.1) y las
constantes vienen también dadas por (A.2) y (A.3).
Las medidas extraı́das a partir del experimento para la irradiancia espectral
en función de la longitud de onda son las siguientes:
166
Ejemplos desarrollados de análisis de datos experimentales
λ (µm) 1,00 1,25 1,50 1,75 2,00 2,25 2,50 3,00 4,00 6,00 8,00 10,00 12,00
aEλ (J/s m−3 ) 1,02 2,27 3,31 3,82 3,88 3,69 3,36 2,61 1,47 0,49 0,19 0,09 0,05
Tabla A.1. Radiación del cuerpo negro (T = 1500 K). Los valores de Eλ están multiplicados por un
factor a = 10−11
Las medidas están dadas en unidades del SI, pero para el caso de Eλ he-
mos multiplicado por una constante a = 10−11 para ası́ poder visualizar y
representar mejor los datos. De inicio, vamos a considerar que el error para
los datos de la longitud de onda es igual a ∆λ = 0,01 µm e igualmente para
los valores de la irradiancia espectral medida: ∆Eλ = 0,01 × 1011 J/s m−3 .
Estos dos errores son los mismos para los valores correspondientes dados en
la tabla A.1. El error para la temperatura medida será ∆T = 10 K, mientras
que las incertidumbres de las constantes datas por (A.3) podemos conside-
rarlas despreciables. Con esta información, queremos evaluar si los datos
experimentales para la radiación del cuerpo negro ajustan correctamente a
la expresión de Wien, ec. (A.1), o a la de Planck, ec (A.4).
Primero, realizaremos un análisis de los datos y representación gráfica que
nos permita realizar una primera evaluación.
Realice una tabla con los valores teóricos para Eλ a partir de las expre-
siones de Wien, ec. (A.1) y Planck, ec (A.4), usando los valores de λ
dados en la tabla A.1. No calcule todas las incertidumbres asociadas a
cada valor, haga solamente una estimación del error relativo, ∆Eλ /Eλ ,
cuando se aplica la fórmula de Wien para el dato correspondiente a
λ = 2 µm (para simplificar los cálculos, use propagación de errores
lineal, no cuadrática). Antes de representar, observe los resultados y
comente los resultados obtenidos.
Represente correctamente los valores obtenidos a partir de las dos
expresiones, junto con los experimentales (sin añadir barras de errores)
en la hoja en escala semilogarı́tmica que se adjunta en este examen
(entregue la hoja de la gráfica junto con el resto sus respuestas al
examen). Evalúe lo que observa. ¿Los datos obtenidos a través de las
expresiones de Wien y de Planck son similares o se diferencian? ¿Se
parecen a los datos experimentales?
167
Justifique, evaluando el comportamiento de las expresiones teóricas,
(A.1) y (A.4), las diferencias observadas en la gráfica.
A continuación, evaluaremos la bondad del ajuste de los datos experimen-

tales a las funciones teóricas, (A.1) y (A.4), teniendo en cuenta los valores
proporcionados en la tabla 2.3.
¿Cuál es número de grados de libertad, ν, del sistema? Justifique la

respuesta.
Realice los test chi-cuadrado para verificar la bondad de ambos ajus-
tes. Utilice también el test basado en chi-cuadrado reducida, χ˜0 2 .
Discuta los resultados obtenidos teniendo en cuenta también la gráfica
del primer ejercicio. ¿Cuál de las dos expresiones, la de Wien o la de
Planck, es la más adecuada para ajustar a los datos experimentales
de la radiación del cuerpo negro?
Para obtener los datos pedidos, primero hemos de calcular las dos constantes
que aparecen en las expresiones teóricas. Los valores son los siguientes:
C1 = 1,49669 × 10−15 J.m2 /s
(A.5)
C2 = 0,01439 m.K/s
La tabla de datos serı́a la siguiente:
λ (µm) 1,00 1,25 1,50 1,75 2,00 2,25 2,50 3,00 4,00 6,00 8,00 10,00 12,00
aEλ (exp.) 1,02 2,27 3,31 3,82 3,88 3,69 3,36 2,61 1,47 0,49 0,19 0,09 0,05
aEλ (Wien) 1,02 2,28 3,29 3,79 3,86 3,65 3,30 2,51 1,33 0,39 0,14 0,06 0,03
aEλ (Planck) 1,02 2,28 3,30 3,81 3,89 3,70 3,38 2,62 1,46 0,49 0,20 0,09 0,05
Tabla A.2. Radiación del cuerpo negro (T = 1500 K), a = 10−11 , unidades de Eλ son (J/s m−3 )
Donde hemos usado el criterio de dejar dos decimales en cada resultado.

Para comprobar esta suposición, veamos el error que se obtiene por propa-
gación de errores para el caso de la expresión de Wien. Para ello hacemos
168
propagación de errores derivando parcialmente por λ y T (con valores ab-

solutos en los términos de las derivadas). De esta forma, obtenemos:

5 C2 C2
∆E = + Eλ ∆λ + Eλ ∆T
λ T λ2 λT 2
Por tanto el error relativo es:

5 C2 C2
∆E/Eλ = + ∆λ + ∆T
λ T λ2 λT 2
que depende notablemente de λ. Cuanto mayor sea λ, menor será este error.
Es de suponer por tanto, que los errores relativos mayores se encuentren en
la zona de baja longitud de onda. El valor que vamos a evaluar (λ = 2
µm) está en esa región, ası́ que obtendremos un error relativamente alto. Si
usamos λ = 2,00 ± 0,01 µm, T = 1500 ± 10 K:

5 0,01439
∆E/Eλ = −6
+ −6
× 10−8 +
2 × 10 1500 × (2 × 10 ) 2

0,01439
+ × 10 ≈ 8 × 10−2
2 × 10−6 15002
es decir, tenemos un error relativo del 8 % para este valor. Si usamos Eλ =

3,89 × 1011 J/s m−3 , se tiene que el error para este valor serı́a ∆Eλ = 0,3
J/s m−3 . Por tanto, los datos en la parte de la tabla de resultados deberı́an
estar redondeados solo con una cifra decimal, no con dos, al menos en la
parte de λ bajas.
Antes de representar los datos, hemos de pararnos un momento y fijarnos
en qué hemos obtenido: los datos no se diferencian en la parte de longitudes
de onda bajas, solamente se encuentran diferencias en la parte de longitudes
altas. Es por esto que se pide realizar la gráfica en escala semilogarı́tmica, tal
como se hace en la figura A.1, para ası́ poder visualizar mejor la diferencia,
que no es demasiado evidente a simple vista.
Es decir, la expresión de Planck es indistinguible de los datos experimen-
tales, mientras que la expresión de Wien solo parece correcta para λ bajas.
169
Irradiancia espectral para un cuerpo negro a T=1500 K
10
Puntos experimentales
Expresi n de Planck
Expresi n de Wien
11
Eλ (J/s m ) x 10
1
-3
0.1
0.01
0 2 4 6 8 10 12
λ (µm)
Figura A.1. Comparación entre las expresiones de Wien y de Planck.
Efectivamente, si aproximamos la expresión de Planck para valores pequeños

de la longitud de onda tenemos:

1 1 1 1 1
Eλ (λ, T ) = C1 5 ≈ C1 5 C2 /(λT ) = C1 5 e−C2 /(λT )
λ e C 2 /(λT ) −1 λ e λ
expresión que es análoga a la de Wien. De forma más correcta: la condición

necesaria es C2 /λT 1, y con nuestros datos esto es λ 10−5 . Es decir,
para longitudes de onda menores que 10 µm (en el orden del µm) las ex-
presiones de Wien y Plank son idénticas, tal y como se observa en la figura
A.1.
En cuanto a la segunda pregunta que se hace, primero hemos de comen-
tar cuáles son los grados de libertad, ν, del sistema. Recordemos que estos
son el número de datos menos el número de parámetros a los que estamos
ajustando en la función teórica (normalmente llamados λm ). Dado que nin-
guna de las expresiones teóricas tiene parámetros ajustables, tendremos que
ν = 13 − 0 = 13. Es necesario mencionar aquı́ que el número de grados de
libertad es mayor que 10, de forma que podemos usar el test chi-cuadrado.
170
Para aplicar el test basado en χ2 , usamos la expresión (2.34) donde, en este

caso, s2 (yi ) = 0,01, yi son los datos experimentales, mientras que f son los
datos correspondientes para cada una de las funciones teóricas. Para el caso
de la función de Planck, es necesario realizar el cálculo para las 13 medidas,
obteniéndose que:
S(Planck) = 13,32
Podemos confirmar la bondad del ajuste al hacer el test de la chi-reducida,

que consiste en dividir S por el número de grados de libertad. En tal caso,
se obtiene χ̃20 ≈ 1,02, que es del orden de 1, ası́ que podemos dar por válida
la expresión de Planck. Para el caso de Wien no es necesario calcular todos
los valores. Bastarı́a con calcular algunos de los valores para darse cuenta
de que el Si correspondiente es muy elevado y que la suma va a ser superior
siempre a 15. Por ejemplo, para λ = 4 µm se obtiene S = 201. El valor de
chi-cuadrado que se obtiene es χ̃20 ∼ 38.
Según los resultados obtenidos podemos descartar la ley exponencial de
Wien, al menos si nos atenemos a todo el rango de longitudes de onda.
Podemos aceptar entonces como válida la expresión de Planck, como era de
esperar. Como todo estudiante de Fı́sica sabe, la expresión de Max Planck
para la radiación del cuerpo negro de 1900 da el pistoletazo de salida a la
Fı́sica Cuántica y a todo lo que vino después.
2. DISPERSIÓN DE PIONES.
Disponemos de los resultados de un experimento de dispersión de piones en

el cual se mide la denominada ((sección eficaz)), σ, en función de la energı́a,
E. La sección eficaz (no confundir con las desviaciones de los datos experi-
mentales, σi , aunque se representen con el mismo sı́mbolo) es una medida
de la interacción de las partı́culas para una determinada energı́a (en giga
electrón-voltios, GeV) y que se expresa normalmente en unidades de ((barns))
(sı́mbolo b), donde 1 b = 10−28 m2 . Los datos obtenidos son los expresados
en la tabla A.3.
Los cientı́ficos que analizan los datos anteriores piensan que estos resulta-
dos pueden explicarse a través de un comportamiento teórico en forma de
171
Energı́a y sección eficaz.
E (GeV) 0,55 0,60 0,65 0,70 0,80 0,85 0,90 0,95 1,00
σ (b) 19 ± 2 40 ± 3 55 ± 2 90 ± 5 100 ± 5 66 ± 4 60 ± 3 25 ± 2 10 ± 1
Tabla A.3. Valores experimentales para la dispersión de piones
100
80
σ (mb)
60
40
20
0
0.5 0.6 0.7 0.8 0.9 1.0
E (GeV)
Figura A.2. Gráfica del ajuste gaussiano.
gaussiana como el el de la siguiente ecuación:

σ = σ0 + A exp −B(E − E0 )2 (A.6)
donde σ0 , A, B y E0 son constantes mayores que cero. Mediante un ajuste

no lineal de los datos experimentales a esa función, se obtiene la figura A.2,
ası́ como los parámetros del ajuste, que se resumen en la tabla A.4.
Con esta información, queremos evaluar si el ajuste de los datos experimen-
tales a la ecuación (A.6), mostrado en la figura A.2, es adecuado o no. Para
ello, contestaremos razonadamente a las siguientes preguntas.
Al tomar logaritmos neperianos en la ecuación (A.6), usando los valores
proporcionados en la tabla A.4 para σ0 y E0 , puede hacerse un ajuste de los
172
Parámetros ecuación (A.6)

σ0 (b) −7 ± 6
A (b) 103 ± 18
B (GeV−2 ) 33 ± 5
E0 (GeV) 0,766 ± 0,002
Tabla A.4. Parámetros en ajuste gaussiano.
datos experimentales por regresión lineal, de forma que podemos obtener

de nuevo los valores de A y B. Realice entonces lo siguiente:
Un ajuste lineal por mı́nimos cuadrados a valores experimentales pro-

porcionados en la tabla A.3, sin tener en cuenta el error en los valores
de la sección eficaz o de la energı́a. Obtenga el coeficiente de corre-
lación r, ası́ como los valores de A y B de la ecuación (A.6), con su
error, a partir de los resultados de la regresión lineal. Compare los
valores obtenidos con los proporcionados en la tabla A.4.
En lo anterior no se han tenido en cuenta los errores de los datos de
la sección eficaz, los correspondientes a la cantidad ln(σ − σ0 ) que se
representa en ordenadas. Calcule los errores de esa cantidad ¿Cómo
cree que afectarı́a a los resultados de la regresión el tener en cuenta
estas incertidumbres?
Explique cómo se usa el método de máxima verosimilitud para realizar
regresiones lineales con errores en las ordenadas. Obtenga los valores
de A y B (con su error) usando el método matricial. Compare con los
resultados obtenidos anteriormente. Comente de nuevo el efecto de los
errores en el cálculo de la regresión.
A continuación evaluaremos la bondad del ajuste de los datos experimenta-

les a la función teórica, ec. (A.6), teniendo en cuenta los valores proporcio-
nados en la tabla 2.3. Queremos contestar a las siguientes preguntas:
¿Cuál es número de grados de libertad, ν, del sistema? Realice un test

chi-cuadrado para comprobar la bondad del ajuste. Utilice también el
test basado en chi-cuadrado reducida, χ˜0 2 .
173
Discuta el resultado y evalúe la bondad del ajuste realizado. Discu-
ta también la fiabilidad de criterio de decisiones empleado. Comente
razonadamente la conclusión a la que ha llegado a partir del test chi-
cuadrado en comparación con los ajustes a regresión lineal del apar-
tado anterior.
Primero, calculamos el ajuste lineal que se pide, que tendrá la siguiente

forma teórica:
ln(σ − σ0 ) = ln A − B(E − E0 )2
Es decir, y ≡ ln(σ − σ0 ) y x ≡ (E − E0 )2 . La regresión lineal nos permite

obtener las constantes A y B. Los resultados de la regresión lineal (y =
b + mx) son los siguientes:
b = 4,658..., ∆b = 0,059...; m = −32,44..., ∆m = 2,023...; r = −0,987
Estos valores permiten obtener las cantidades A y B. Vemos que B es di-

rectamente la pendiente de la recta, por tanto:
B = 32 ± 4 GeV−2
El valor de A se calcula mediante ln A = b. De ahı́, obtenemos que su error

es ∆A/A = ∆b. Se obtiene entonces que:
A = 105 ± 6 b
Estos valores con compatibles con los proporcionados con el ajuste a gaus-
siana, e incluso proporcionan errores menores. Hay que comentar que de-
berı́amos haber notado que los datos en x no están equiespaciados y eso
puede introducir que unos datos pesen más que otros a la hora de calcular
la regresión.
Para obtener los errores de la cantidad y ≡ ln(σ − σ0 ) usamos propagación
de errores como habitualmente:
1
∆y = (∆σ0 + ∆σ)
σ − σ0
174
5.0
4.5
4.0
ln (σ−σ0)
3.5
3.0
2.5
-0.01 0.00 0.01 0.02 0.03 0.04 0.05 0.06
(E−E0)²
Figura A.3. Regresión para dispersión de piones.
donde σ ± ∆σ son los datos experimentales correspondientes, mientras que

σ0 ± ∆σ0 es el valor dado por la tabla A.4. También puede usarse dispersión
cuadrática.
Si se calculan los errores, veremos que estos aumentan a medida que au-
menta x. Esto significa que deberı́amos observar que los datos con menor
incertidumbre pesarán más cuando se calcule la regresión. Es decir, la linea
de ajuste estará más inclinada hacia los datos que el método considera como
((mejores)). La gráfica de los datos experimentales con su error y la regresión
lineal correspondiente, ası́ como la regresión sin haber tenido en cuenta los
errores, puede verse en la figura A.3. La regresión lineal calculada sin errores
es la lı́nea roja, mientras que la negra es la calculada con errores. El efecto
es muy pequeño porque tenemos muy pocos puntos, pero es apreciable a
simple vista.
Como sabemos, el método de máxima verosimilitud consiste en usar la ma-
triz M que se proporciona en el material adicional para realizar una re-
gresión lineal y = b + mx donde tenemos en cuenta los errores del vector
175
∆y ≡ σi . El error en los parámetros m y b viene dado por:
p −1 !
M
σ = p 11 −1
M22
De esta forma, se obtiene que:

1,599 243,1
M=
243,1 78696,7
a b

Calculando la inversa de la matriz mediante:
c d

1 d −b
ad − bc −c a
obtenemos que:

−1 1, 179 −0,0036
M =
−0,0036 2,395 × 10−5
De donde:
b = 4, 709..., m = − − 33, 96...
∆b = 0, 0049...; ∆m = 1, 09...
Es decir, las cantidades A y B usando el método de máxima verosimilitud

son:
B = 34,0 ± 1,1 GeV−2
Y en el caso de A, usamos de nuevo ln A = b y ∆A/A = ∆b:
A = 110,9 ± 0,5 b
Las incertidumbres de los valores son ahora mucho menores que las propor-
cionadas por el ajuste gaussiano y por la regresión lineal sin errores.
Los grados de libertad, ν, son el número de datos menos el número de
parámetros a los que estamos ajustando en la función teórica, λm . Como
176
hemos ajustado a una recta con dos parámetros, ν = 9 − 2 = 7. Para aplicar

el test basado en χ2 , usamos la expresión (2.34) y para el test chi-reducida
dividimos esa cantidad por el número de grados de libertad. Si realizamos
las cuentas veremos que se obtiene S ≈ 32 y que por tanto χ̃20 ≈ 4,5.
Según los resultados obtenidos anteriormente, en principio podemos descar-
tar el ajuste que estamos realizando. Hemos de tener en cuenta que el núme-
ro de grados de libertad es menor que 10 y sabemos que el test chi-cuadrado
no es recomendable para menos de 10 grados de libertad. Igualmente ocurre
con el test de la chi-reducida. Para pocas medidas es más recomendable el
uso del test basado en la t de Student. Aun ası́, el resultado de S = 32 es
muy contundente, con lo que podemos esperar que algo está fallando en este
ajuste la función teórica proporcionada por la ecuación (A.6).
Véase que la regresión lineal del primer ejercicio nos proporcionaba un muy
aceptable r = −0,987. Podrı́amos decir que los datos ajustan a una recta, y
de hecho lo hacen, matemáticamente hablando. Pero por lo que sabemos de
Estadı́stica y lo que hemos visto en este segundo apartado, eso no significa
que ajusten a esa función en concreto con una fiabilidad suficiente como
para que consideremos que proceden de la ley teórica basada en la ecuación
(A.6). De hecho, este tipo de datos ajustarı́a mucho mejor a una ley de este
tipo:
A2
σ=
(E − M )2 + B 2
con A, M y B constantes.
3. RELACIÓN BRILLO-PERIODO EN LAS ESTRELLAS VA-

RIABLES CEFEIDAS
Una estrella variable es aquella cuyo brillo no es constante y experimenta

variaciones a lo largo del tiempo. Las estrellas cefeidas son un tipo particular
de estrella variable cuyo brillo varı́a periódicamente entre pocos dı́as y varios
meses (el periodo se suele medir en dı́as); tanto la amplitud como el periodo
de oscilación de su brillo son muy estables.
A principios del siglo XX, la astrónoma estadounidense Henrietta Leavitt
177
catalogaba las estrellas de la vecina galaxia Pequeña Nube de Magallanes
(PNM), entre las cuales se encontraban varias estrellas tipo cefeida. Leavitt
descubrió que el periodo de oscilación de éstas estaba correlacionado con su
brillo promedio (descubrimiento que permitió ((medir)) el tamaño del Uni-
verso conocido). En particular, la magnitud visual sigue un comportamiento
lineal con el logaritmo del periodo.
Los astrofı́sicos miden el brillo mediante la magnitud visual, m, que se
obtiene a partir del logaritmo de la intensidad luminosa percibida cambiado
de signo; por ello, los mayores valores de magnitud corresponden a menores
intensidades y viceversa. La intensidad a su vez depende de la luminosidad
intrı́nseca del astro y de la distancia a la que se observa. La magnitud
absoluta, M , es la magnitud visual tal y como se percibirı́a a una distancia
fija. Es, por tanto, una medida logarı́tmica de la luminosidad de la estrella.
Vamos a comprobar la ley observada por H. Leavitt. Para ello, tomaremos
los datos de la tabla A.5, correspondientes a varias cefeidas de la PNM,
usados por ella misma en su trabajo cientı́fico.
N m (máx.) m (mı́n.) hmi P (d) log10 P

1422 14,7 15,9 15,3 ± 0,6 3,501 ± 0,005 0,5442 ± 0,0006
1400 14,1 14,8 14,4 ± 0,4 6,650 ± 0,005 0,8228 ± 0,0003
822 13,0 14,6 13,8 ± 0, 8 16,75 ± 0,05 1,2240 ± 0,0013
823 12,2 14,1 13,2 ± 1,0 31,94 ± 0,05 1,5043 ± 0,0007
824 11,4 12,8 12,1 ± 0,7 65,8 ± 0,5 1,818 ± 0,003
821 11,2 12,1 11,6 ± 0,4 127,0 ± 0,5 2,1038 ± 0,0017
Tabla A.5. Resultados correspondientes a varias cefeidas de la PNM. La primera columna es una etiqueta
de catálogo. Las columnas 2, 3 y 5 contienen datos en crudo. Las columnas 4 y 6 corresponden a desarrollos
que se piden como ejercicio.
Calcule y tabule el valor medio del brillo de cada estrella de la tabla

A.5 como el valor medio de las magnitudes visuales correspondientes
al máximo y al mı́nimo de brillo. A esa media ası́gnele como error
la desviación tı́pica de la media (que en este caso coincide con la
dispersión de datos). Represente la magnitud media, con su error,
frente al periodo de oscilación de brillo usando una gráfica con ejes
semilogarı́tmicos-
178
En la tabla A.5 está dado explı́citamente el error del periodo. Calcule

el logaritmo en base 10 del periodo (log10 P ) propagando correctamen-
te el error. Escriba el resultado con el número de cifras adecuado y el
error explı́cito.
Calcule la recta de regresión y = λ1 x + λ2 tomando como variable y la

magnitud media con su error (σ), y como variable x, log10 P calculado
en el apartado anterior (sólo el valor medio, sin el error). Use el método
de máxima verosimilitud que minimiza χ2 descrito en el texto. Calcule
también el error en los parámetros λ1 y λ2 . Si quiere, puede realizar
la regresión normal por mı́nimos cuadrados. Represente la recta en la
gráfica del primer apartado.
0
Denom. M P (d) M0 (M − M )2 /(∆M 0 )2
Polaris −3,60 3,97 −3,0 ± 0,3 4,00
ζ Gem −3,99 10,15 −3,9 ± 0,4 0,05
TT Aql −4,26 13,75 −4,2 ± 0,5 0,01
` Car −5,22 35,5 −5,2 ± 0,6 0,00
RS Pup −5,70 41,4 −5,3 ± 0,7 0,33
S Vul −6,08 68,5 −5,8 ± 0,7 0,16
Tabla A.6. Magnitud absoluta media y el periodo de oscilación de varias cefeidas de la VL. Las columnas
2 y 3 son datos en crudo. Las columnas 4 y 5 corresponden a desarrollos que se piden como ejercicio.
Ahora comprobamos la universalidad de la ley de Leavitt con cefeidas de

nuestra propia galaxia, la Vı́a Láctea (VL).
En la tabla A.6 se recogen la magnitud absoluta media y el periodo de

oscilación de varias cefeidas de la VL. Calcule la magnitud absoluta
teórica, M 0 , a partir de aplicar la relación lineal M 0 = λ1 log10 P + b
donde la pendiente, λ1 , es la calculada en un apartado anterior, y
b = −1,62 ± 0,12 (estamos tratando ahora con magnitudes absolutas
y por eso la ordenada en el origen es distinta a la obtenida por el
cálculo anterior). No se olvide de escribir el valor de M 0 con su error,
∆M 0 ; calcúlelo propagando el error de λ1 y b.
179
Pruebe la hipótesis de que la ley de Leavitt obtenida para la PNM
es la misma que para la VL mediante un test χ2 con una confianza
del 95 %. Para ello compare los valores de M y M 0 y use la tabla 2.3,
identificando correctamente el número de grados de libertad aplica-
ble. ¿Podemos aceptar o rechazar la hipótesis de partida? Razone la
respuesta.
La media es simplemente m = (mmin + mmax )/2. Aplicando la fórmula de la

desviación tı́pica de la media para sólo dos elementos obtenemos que ésta
es equivalente a la dispersión de datos. Esto es, ∆m = (mmin − mmax )/2. A
partir de ahı́, tabulamos hmi = m ± ∆m.
En la tabla A.5 se ofrecen los resultados una vez redondeados según las reglas
habituales1 . En la figura A.4 se han representado los valores con su error.
Habitualmente, se suele elegir la escala inversa en el eje de magnitudes, esto
es, mayores magnitudes (menor brillo) abajo y menores magnitudes (mayor
brillo) arriba; pero por razón de claridad hemos elegido la escala directa.
Para propagar el error tenemos que aplicar que log10 P = ln P/ ln 10. En-
tonces:
∂(log10 P ) ∆P
∆(log10 P ) = ∆P =
∂P P ln 10
El resultado se encuentra reflejado en la columna correspondiente de la tabla
A.5.
A partir de los datos de la tabla calculamos:

44,07 26,93 340,8
M= , Y=
26,93 19,88 264,4
Tenemos que calcular M −1 ; el discriminante es D = 44,07×19,88−26,932 '

150,8; y por tanto la matriz inversa:

−1 1 19,88 −26,93 0,1318 −0,1785
M = =
150,8 −26,93 44,07 −0,1785 0,2921
1
Como redondeo de cifras terminadas en 5 se admite tanto el criterio de redondear por arriba
como por abajo. En la tabla A.5 se ha seguido el criterio de que si la cifra anterior es impar, entonces se
redondea por arriba; y si es par se redondea por abajo. Por ejemplo, un error de 0,35 se redondea a 0,4
y una magnitud de 11,65 se redondea a 11,6.
180
16
Ajuste: λ1 = −2,3 ± 0,4 λ2 = 16,4 ± 0,5
15
14
Magnitud
13
12
11
1 10 100 1000
Periodo (d)
Figura A.4. Magnitud visual promedio en función del periodo de oscilación.
De donde obtenemos los valores de los parámetros a partir de λ = M −1 Y:

λ1 0,1318 −0,1785 340,8 −2,278 . . .
= =
λ2 −0,1785 0,2921 264,4 16,398 . . .
Y el error de los mismos:

p √
∆λ1 (M −1 ) 0,1318 0,363 . . .
= p −1 11 = √ =
∆λ2 (M )22 0,2921 0,540 . . .
Redondeando:
λ1 = −2,3 ± 0,4
λ2 = 16,4 ± 0,5
Para representar la recta que se pide basta con tomar 2 puntos y trazar la
recta. Por ejemplo, en el punto P = 10 d, m = −2,3 + 16,4 = 14,1 y en el
punto P = 100 d, m = −2,3 × 2 + 16,4 = 11,8. La recta está trazada en la
figura A.4.
181
El cálculo del valor medio de M 0 es inmediato sin más que aplicar la fórmula
dada, M 0 = λ1 log10 P + b, con λ1 = −2,3 y b = −1,62. Para propagar el
error aplicamos:
s 2 2 q
∂M 0 ∂M 0
∆M = 0 2
∆λ1 + ∆b = (log10 P )2 ∆λ21 + ∆b2
2
∂λ1 ∂b
con ∆λ1 = 0,4 y ∆b = 0,12. Los resultados listados están en la tabla A.6,
en la columna M 0 .
Finalmente, Calculamos la variable S definida por:

0 2
X Mi − Mi
S=
i
(∆Mi0 )2
Los distintos términos de S están tabulados en la última columna de la tabla

A.6. Sumando todos tenemos que S = 4,55. Este valor se compara con la
correspondiente columna de la tabla 2.3 para la fila P = 95 %. En este caso
tenemos 6 datos y ninguna ligadura entre ellos y por tanto ν = 6 − 0 = 6,
que corresponde a χ2c = 12,6. Puesto que S < χ2c no podemos rechazar la
hipótesis de partida con una confianza del 95 %.
4. EPIDEMIAS MUNDIALES Y SUPERVIVENCIA
En diciembre de 2013 tuvo lugar la 26a epidemia mundial de la enfermedad

por virus de ébola. Se trata de la mayor epidemia de este virus desde que se
tiene registro de su descubrimiento en 1976, con más de 10 000 fallecimientos
y 24 000 afectados. Liberia fue uno de los paı́ses más castigados por la
presencia del virus. Con 4 millones de habitantes fue uno de los primeros
focos de infección de esta última epidemia.
La tabla (A.7) muestra el número de contagios y muertes sucedidos en
Liberia entre junio y agosto de 2014.
En estudios epidemiológicos se demuestra que el número de contagios
182
Fecha Contagios Muertes

16/06 33 24
22/06 51 34
30/06 107 65
12/07 172 105
20/07 224 127
30/07 391 227
09/08 599 323
20/08 1082 624
Tabla A.7. Expansión del virus de ébola en Liberia desde el 16 de junio de 2014 (datos proporcionados
por la OMS). Los datos de tiempo se consideran exactos. Los datos de contagiados y fallecidos tienen
un error de ±1 persona.
en un tiempo t suele venir dado por la expresión:

N (t) = N0 β t (A.7)
donde N0 es la población inicial infectada y β es la tasa de infección

diaria, esto es, el número de personas que se contagian cada dı́a.
A raı́z de la expresión que relaciona el número de infectados con el
tiempo transcurrido, escoja el tipo de gráfico más adecuado (escala
lineal, semi logarı́tmica o bien logarı́tmica) y represente solo en ese
gráfico los datos de la tabla A.7.
Si ha representado correctamente y en la escala adecuada los datos,
podrá ver como en efecto estos se alinean a lo largo de una recta.
Realice los cambios de variables necesarios para transformar la ecua-
ción (A.7) en una ecuación lineal y construya una tabla con las nuevas
variables (incluyendo el error). Obtenga mediante un ajuste por mı́ni-
mos cuadrados el valor de la tasa de infección diaria, β, y la población
inicial infectada, N0 . Considere que el error en la tasa de infección
diaria es de un 1 % y el error en la población inicial infectada σN0 = 1
persona.
Existe un factor, llamado ritmo básico de reproducción y repre-
sentado por R0 , que es clave para determinar si una epidemia crece sin
183
control o si está acotada. Un factor R0 < 1 indica que el número de
infectados tiende asintóticamente a cero con el tiempo y, por tanto, la
epidemia está controlada. Por el contrario, un factor R0 > 1 implica
un crecimiento continuo en el número de infectados y, por tanto, un
riesgo para la supervivencia si no se toman medidas de control. El rit-
mo básico de reproducción se relaciona con la tasa de infección diaria
a través de la expresión
R0 = β τ (A.8)
donde τ es el tiempo durante el cual el virus es capaz de infectar a
otras personas. Según los análisis de la OMS, el virus de ébola tiene
un tiempo de supervivencia τ = (5,6 ± 0,2) dı́as. Obtenga el valor de
R0 con su error y decida si la Humanidad está en peligro o no.
A partir de los datos de la tabla A.7, estime mediante un ajuste por
mı́nimos cuadrados la probabilidad de supervivencia de un pacien-
te, esto es, el porcentaje de pacientes infectados (con su error) que
afortunadamente no fallecen.
Dando por válida la relación entre fallecimientos y contagiados rea-
lizada en el apartado anterior, los informativos publicaban de forma
alarmante que el porcentaje de pacientes infectados que fallecı́an era
de un 57 %. Usando un método χ2 ¿podrı́a afirmarse con una confian-
za del 90 % que esta hipótesis es cierta? (Considere s(yi ) = 1 para
todos los valores).
Para poder representar los datos, es conveniente convertir las fechas a dı́as,
tomando como referencia t = 0 el dı́a 16 de junio de 2014. De esta forma,
obtenemos los valores representados en la tabla A.8.
Dado el tipo de ecuación que aparece en (A.7), la gráfica más conveniente
es la correspondiente a una escala semilogarı́tmica. Tomando logaritmos a
ambos lados de la ecuación (A.7) tendremos la relación lineal solicitada, tal
y como se muestra en la figura A.5.
Como hemos indicado, si tomamos logaritmos a ambos lados de la ecuación
(A.7) obtenemos:
log10 N = log10 N0 + t log10 β
184
Tiempo (dı́as) Contagios, N (±1)

0 33
6 51
14 107
26 172
34 224
44 391
54 599
65 1082
Tabla A.8. Tabla de valores.
que puede escribirse como:
y = b + xm
proporcionando una relación lineal entre las variables y = log10 N y x = t.

Construimos de nuevo la tabla sabiendo que el error en la variable y debe
hacerse por propagación, de forma que:
1
∆y = ∆N .
N ln 10
Tiempo (dı́as) N (±1) log10 (N ) ∆ log10 (N )

0 33 1,519 0,013
6 51 1,708 0,009
14 107 2,029 0,004
26 172 2,236 0,003
34 224 2,350 0,002
44 391 2,5922 0,0011
54 599 2,7774 0,0007
65 1082 3,0342 0,0004
Podemos llegar a los siguientes parámetros de pendiente y ordenada en el
185
10000
1000
Número de contagios 100
10
1
−20 0 20 40 60
Días desde el 16 de junio de 2014
Figura A.5. Relación lineal entre los datos.
origen:
m = log10 β = 0,0223 ⇒ β = 10m = 1,05263 . . . ,
b = log10 N0 = 1,60 ⇒ N0 = 10b = 40,178 . . .
Teniendo en cuenta las incertidumbres que nos indican en el enunciado

llegamos, finalmente, a:
β = (1,05 ± 0,01) 11/dı́as ,

N0 = (40 ± 1) personas
Con los datos proporcionados de la tasa de infección diaria y el tiempo de

supervivencia se obtiene directamente el valor de R0 como:
R0 = 1,314 . . .
El error se obtiene por propagación cuadrática como:

s
∂R0 2 ∂R0 2
∆R0 = (∆β) +

2

(∆τ )2 =
∂β ∂τ
q
= |τ β τ −1 |2 (∆β)2 + |β τ ln β|2 (∆τ )2 ' 0,07
186
de forma que:
R0 = (1,31 ± 0,07)
Dado que R0 > 1, podemos concluir que la epidemia no está controlada y

la Humanidad está en peligro.
A partir de los datos de la tabla nos piden un ajuste a una recta tipo:
N f = mN c + b ,
donde N f indica el número de fallecidos y N c el número de contagiados.

Aplicando las fórmulas disponibles en el material complementario se llega
directamente a:
m = (0,565 ± 0,010) ,
b = (3 ± 4) pacientes
Con este resultado es inmediato obtener la probabilidad de supervivencia

P s como:
Nf
Ps = 1 − c = 1 − m
N
= (0,435 ± 0,010)
donde se ha tenido en cuenta el error ∆P s = ∆m.

Nos preguntamos si efectivamente la relación entre fallecidos e infectados
sigue una ecuación de proporcionalidad N f = mN c + b (aquı́ es importante
no olvidar la ordenada en el origen del ajuste por mı́nimos cuadrados). Para
comprobar si la hipótesis es cierta obtenemos la función χ2c como:
XN
(Nif − f (Nic ))2
χ2c = ,
i=1
s2 (N fi )
donde Nif son los fallecidos, Nic son los contagiados, f (Nic ) = mN ci + b y
s(Nif ) = 1 = cte. Sustituyendo por los valores proporcionados en la tabla
A.7 obtenemos:
χ2c = 484,7
187
Teniendo en cuenta el número de grados de libertad ν = 8 − 2 = 6, se tiene
para un grado de confianza del 90 % que χ2 = 10,6 χ2c , por lo que la
hipótesis debe ser descartada.
188
Tema B
INTEGRALES GAUSSIANAS
Las integrales gaussianas aparecen con frecuencia en muchas áreas de Fı́sica.

Por ello es interesante detenerse en el desarollo de las mismas y estudiar
cómo resolver, al menos, aquellas más comunes.
Una integral gaussiana tiene la forma genérica
Z ∞
2
I= e−(ax +bx+c) dx (B.1)
−∞
Consideremos el caso más sencillo con b = c = 0. Si multiplicamos la integral

por sı́ misma obtenemos
Z ∞ Z ∞
2 −ax2 −ay 2
I = e dx e dy (B.2)
−∞ −∞
que podemos reescribir como

Z ∞ Z ∞ Z 2π Z ∞
−a(x2 +y 2 ) 2
2
I = e dxdy = e−ar rdrdθ (B.3)
−∞ −∞ 0 0
donde hemos realizado el cambio a coordenadas polares según
x = r cos θ , (B.4)
y = r sen θ . (B.5)
La integral en la variable angular es inmediata, de modo que

Z ∞ Z
2 −ar2 −1 ∞ d −ar2
I = 2π re dr = 2π e dr (B.6)
0 2a 0 dr
π π
2 ∞
= − e−ar = (B.7)
a 0 a
189
Por lo que la integral inicial I será, simplemente
Z ∞ r
−ax2 π
I= e dx = . (B.8)
−∞ a
Dado que la integral es una función par es inmediato obtener la integral en
el intervalo (0, ∞) como
Z ∞ r
−ax2 1 1 π
e dx = I = . (B.9)
0 2 2 a
Obviamente, la integral dará el mismo resultado para el intervalo (−∞, 0).
La figura B.1 muestra el valor de la integral gaussiana
Z x
2
I(x) = e−at dt , (B.10)
−∞
donde se observa cómo converge al lı́mite (B.8).
pπ
a
3
pπ
4 a
pπ
I(x)
1
2 a
1
pπ
4 a
−5 −4 −3 −2 −1 0 1 2 3 4 5
x
Figura B.1. Formap de la integral gaussiana I(x). Observamos la simetrı́a respecto del origen y la conver-
gencia al lı́mite π/a.
El caso más general, con b y c distinto de cero, se resuelve considerando la

existencia de un cuadrado perfecto (mx + n)2 = (ax2 + bx + c + d). Ex-
pandiendo el termino a la izquierda de la igualdad se llega inmediatamente
190
Integrales gaussianas
a
√
m= a (B.11)
2
n= √ (B.12)
2 a
b2
d= −c (B.13)
4a
lo que nos permite escribir
Z ∞ Z ∞ Z ∞
−(ax2 +bx+c) −(mx+n)2 ed 2
I= e dx = ed
e dx = e−y dy (B.14)
−∞ −∞ m −∞
Esta última integral no es más que la integral gaussiana (B.8) con a = 1,

de modo que obtenemos finalmente
r r
π d π b2 −c
I= e = e 4a (B.15)
m a
donde hemos hecho el cambio de variable y = mx + n de modo que dx =
dy/m.
Hemos visto que la integral en el intervalo (−∞, ∞) puede calcularle analı́ti-
camente. La integral en el caso de lı́mites finitos no tiene solución analı́tica,
aunque suele expresarse en términos de la función error
Z x
2 2
erf(x) = √ e−t dt (B.16)
π 0
La integral gaussiana (B.10) puede escribirse entonces como
Z x Z 0 Z x
−at2 −at2 2
I(x) = e dt = e dt + e−at dt
−∞ −∞ 0
r Z x
1 π 1 2
= +√ e−q dq
2 a a 0
r
1 π
= (1 + erf(x)) (B.17)
2 a
La función error se encuentra tabulada (normalmente mediante aproxima-
ciones polinomiales) en muchos programas de cálculo simbólico, libros de
texto, etc., lo que permite dar un valor concreto a las integrales gaussianas.
191
Tema C
TABLA DE PROBABILIDADES DE LA DISTRIBUCIÓN NORMAL
TIPIFICADA
zi 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Tabla C.1. Valores de probabilidad para P (z ≤ zi ) correspondientes a la integral bajo la curva N0,1 (z).
193
Tema D
CONTENIDOS ADICIONALES DE TEORÍA DE FILTRADO
En este capı́tulo ampliaremos algunos conceptos que quedaron sin desarro-

llar en el capı́tulo 3 acerca de la Teorı́a de Filtrado.
1. CONVOLUCIÓN Y AUTOCORRELACIÓN
1.1. Teorema de convolución.
Ya hemos visto anteriormente la definición de convolución de dos funciones.

Efectivamente, la convolución de dos funciones f (t) y g(t) se define como:
Z +∞
f (t) ∗ g(t) = f (τ )g(t − τ )dτ
−∞
Respecto a la convolución de funciones, hay varias formas de enunciar el

teorema de convolución que, básicamente, viene a decir que dadas dos fun-
ciones con representaciones en los dominios temporal y de frecuencia, lo que
en un dominio es multiplicación, en el otro es convolución. Por lo tanto, el
teorema se puede presentar en cuatro formulaciones equivalentes:
La transformada de Fourier de la convolución de dos señales es igual

al producto de sus transformadas de Fourier:
F [f (t) ∗ g(t)] = F [f (t)] · F [g(t)] = F (ω) · G(ω)
La transformada de Fourier del producto de dos señales temporales es

igual a la convolución de sus transformadas de Fourier:
F [f (t) · g(t)] = F [f (t)] ∗ F [g(t)] = F (ω) ∗ G(ω)
195
La convolución de dos señales temporales es igual a la antitransfor-
mada de Fourier del producto de las transformadas de Fourier de las
señales:
f (t) ∗ g(t) = F −1 {F [f (t)] · F [g(t)]} = F −1 [F (ω) · G(ω)]
El producto de dos señales temporales es igual a la antitransformada

de Fourier de la convolución de sus transformadas:
f (t) · g(t) = F −1 {F [f (t)] ∗ F [g(t)]} = F −1 [F (ω) ∗ G(ω)]
La utilidad de estos teoremas es evidente si pensamos en señales digitaliza-

das. En efecto, dichas señales se pueden considerar como el producto de tres
funciones: i) la señal continua f (t) que se ha digitalizado, ii) una sucesión
de deltas de Dirac situadas en los tiempos, t = nδt con n = 0, 1, 2, ..., N , en
que se han tomado las muestras de la señal f (t) y iii) una función ((ventana))
que define el dominio temporal de la señal digitalizada, que en general es
una función rectangular que toma valor 0 para t < 0 y t > N δt, y que
toma valor 1 para 0 ≤ t ≤ N δt. Por aplicación del teorema de convolución,
sabemos que la transformada de Fourier de dicha señal discreta será igual a
la convolución de las transformadas de Fourier de las tres señales menciona-
das, lo que, como veremos más adelante, es muy útil para la interpretación
de los espectros de frecuencia de señales discretas.
1.2. Teorema de Wiener-Khinchin.
El teorema de Wiener-Khinchin establece una relación muy útil entre la

función de autocorrelación de una señal y la transformada de Fourier de
la señal. Más concretamente, establece que la transformada de Fourier de
la función de autocorrelación de una señal es el espectro de potencia de la
señal.
La función de autocorrelación de una señal f (t) se define como:
Z T
1
r(τ ) = f (t)f (t + τ )dt
T 0
196
Contenidos adicionales de teorı́a de filtrado
En caso de que la señal sea compleja, la función de autocorrelación es:

Z T
1
r(τ ) = f ∗ (t)f (t + τ )dt
T 0
donde el asterisco indica conjugación compleja.

Por lo tanto, el teorema de Wiener-Khinchin se expresa como:
F [r(t)] = P (ω) = |F [f (t)]|2 = |f (ω)|2
2. TRANSFORMADA DE FOURIER DISCRETA (DFT)
Las representaciones numéricas de señales temporales en un ordenador con-

sisten en series de pares (ti , x(ti )) con i = 0, 1, 2, ..., N − 1, que indican el
valor de la coordenada temporal y el valor de la función a ese tiempo dado, y
esto es ası́ tanto para señales de laboratorio digitalizadas como para señales
producto de un proceso de simulación por ordenador.
Para este tipo de señales se define la Transformada de Fourier discreta
(DFT1 ) como:
X
N −1
X(ω) = x(ti )e−jωti
i=0
donde ω tiene dimensiones de inversa de tiempo. Nótese que la aplicación de

esta expresión no requiere que los datos estén equiespaciados en el tiempo
ni que el número M de valores que puede tomar ω sea igual a N . En estas
condiciones, la señal de partida se puede recuperar haciendo la antitrans-
formada de Fourier discreta (IDFT2 ):
M −1
1 X
x(t) = Xk (ω)eiωk t (D.1)
M k=0
1
Del inglés Discrete Fourier Transform.
2
Del inglés Inverse Discrete Fourier Transform.
197
en donde los coeficientes Xk (ω) expresan el peso de la frecuencia k-ésima en
la señal. En general, estos coeficientes son números complejos, por lo que
para analizar el contenido en frecuencias de la señal se suele trabajar con el
cuadrado de su módulo, |Xk (ω)|2 , esto es, con el espectro de potencia de la
señal.
Sin embargo, lo más habitual es que las señales, tanto de procedencia ex-
perimental como de simulación, estén compuestas por N muestras (xi con
i = 0, 1, 2, ..., N − 1), hayan sido muestreadas a intervalos constantes de
tiempo, ∆t y, por lo tanto, tengan una duración finita T = N ∆t. En es-
tas condiciones, la frecuencia mı́nima es ∆ω = 2π/T = 2π/N ∆t y el res-
to de las frecuencias son múltiplos de ella, es decir, ωk = 2πk/N ∆t con
k = 0, 1, 2, ..., N − 1. Por lo tanto, para señales de longitud finita y mues-
tras equiespaciadas, la DFT se obtiene a partir de:
−1 k −1 ki
X
N
−2πj i∆t X
N
−2πj
X(ω) = Xk = xi e N ∆t = xi e N
i=0 i=0
mientras que la antitransformada de Fourier discreta será3 :
N −1 ki
1 X 2πj
x(t) = xi = Xk e N
N k=0
La forma práctica de calcular numéricamente estas dos transformadas es a

través de la fórmula de Euler para la exponencial compleja, esto es:
−1 ki N −1
X
N
−2πj X 2πki 2πki
Xk = xi e N = xi cos − + j sin − ,
i=0 i=0
N N
N −1 ki N −1
1 X 2πj 1 X 2πki 2πki
xi = Xk e N = Xk cos + j sin
N k=0 N k=0 N N
3
La normalización es un tanto arbitraria; la única condición es que el producto de las constantes de
normalización
√ de la DFT y la IDFT sea 1/N . Una normalización en la que ambas tengan una constante
1/ N también es perfectamente admisible.
198
Volviendo a las fórmulas escritas en términos de la exponencial compleja,

podemos ver algunas propiedades interesantes de la DFT y la IDFT. En
primer lugar, podemos ver que la DFT y la IDFT son funciones pe-
riódicas. En efecto, supongamos que extendemos el cálculo de la DFT a
valores de k > N ; por ejemplo, tomemos sin pérdida de generalidad el valor
k = m + N , tendremos entonces:
−1 (m + N )i N −1 mi
X
N
−2πj X −2πj
Xm+N = xi e N = xi e N e−2πji =
i=0 i=0
−1 mi
X
N
−2πj
= xi e N = Xm
i=0
del mismo modo, para la IDFT tomemos el valor i = m + N , tendremos:
N −1 k(m + N ) N −1 km
1 X 2πj 1 X 2πj
xm+N = Xk e N = Xk e N e2πjk =
N k=0 N k=0
N −1 km
1 X 2πj
= X k e N = xm
N k=0
Esto es, ambas transformadas discretas son funciones periódicas de pe-

riodicidad N en el ı́ndice de las sumas (N ∆t en el dominio temporal y
N ∆ω = 2π/∆t en el dominio de frecuencia). Sin embargo, el teorema de
muestreo nos dice que la máxima frecuencia que podemos representar ade-
cuadamente cuando discretizamos una señal con frecuencia de muestreo
ωs = 2π/∆t es ωmz = ωs /2 = π/∆t, es decir, precisamente la mitad del
periodo de la serie en el dominio de frecuencia, por lo que si tenemos en
cuenta el teorema de muestreo y solamente representamos transformadas
de Fourier (espectros de potencia) para frecuencias menores que ωmx no
llegaremos nunca a observar la periodicidad de la transformada.
Por otro lado, tenemos el teorema de Plancherel, que daremos también sin
demostración, y que es un caso particular del teorema de Parseval. Este
teorema sostiene que la integral en el dominio del tiempo del módulo al
199
cuadrado de una función es igual a la integral de su espectro de potencia:
X −1 N −1
1 X
N
2
|xi | = |Xk |2
i=0
N k=0
Finalmente, si la señal digitalizada o simulada es una función real, tendre-

mos que la transformada es simétrica con respecto a ω = 0.
3. EFECTOS DEL MUESTREO Y VENTANA DE DIGITALI-

ZACIÓN.
En esta sección y la que sigue vamos a analizar dos problemas que aparecen
al trabajar en el espacio de frecuencias a partir de la DFT o FFT de señales
temporales. El problema ligado a la frecuencia de muestreo ya fue descrito
en el capı́tulo 3. A continuación, desarrollamos un problema relacionado con
la duración finita de las señales reales.
3.1. Duración finita de la señal y ((ventanas)) digitales.
El otro problema está relacionado con la duración finita de toda señal dis-
creta. En efecto, las señales f (t) sobre las que se calculan las DFT o FFT
están compuestas por un número finito, N , de datos4 separados por un in-
tervalo temporal δt, por lo que la duración de la señal es (N −1)δt. Es decir,
en términos matemáticos rigurosos, la señal cuya DFT o FFT se calcula se
puede considerar como el producto de la señal real f (t) por una función
((ventana)), g(t), que es una función rectangular que toma valor unidad en
0 ≤ t ≤ N δt y valor nulo fuera de ese intervalo temporal. Además, la trans-
formada de Fourier es una transformación que nos permite representar una
función como suma de componentes periódicas. Sin embargo, en la ma-
yor parte de los casos, la función discretizada no será periódica, es decir,
f (t = 0) 6= f (t = N δt), lo que introduce problemas adicionales para la
4
En lo que sigue supondremos que el ı́ndice, n, de la serie de datos comienza en 0 y, por consiguiente,
termina en N − 1.
200
interpretación del espectro de potencia resultante.

En cualquier caso, la transformada de Fourier de la señal discreta no será la
transformada de f (t) sino la convolución de las transformadas de f (t) y g(t).
Esto tiene su lado malo, porque obliga, como veremos, a tener en cuenta la
transformada de Fourier de la función ventana, pero tiene un lado bueno,
porque si elegimos correctamente la función ventana podemos minimizar el
problema de la no periodicidad de la función discretizada.
La forma más sencilla de visualizar el ((problema de la ventana)) es conside-
rando señales discretas que tengan transformadas de Fourier convenientes
para el cálculo de la convolución con la ventana. Las más convenientes son
aquellas cuyas transformadas de Fourier son deltas de Dirac, es decir, la
función constante, cuya transformada de Fourier es una delta situada en
ω = 0 (es decir, δ(0)) y una función sinusoidal de frecuencia única, cuya
transformada es una delta situada en la frecuencia de la sinusoide (es de-
cir, si f (t) = sen ω0 t, entonces su transformada es δ(ω0 )). En estos casos,
la convolución con la transformada de la ventana equivale, simplemente, a
trasladar la transformada de la ventana a ω = 0, para el caso de la función
constante, y a ω = ω0 , para el caso de la sinusoide.
En el caso de la ventana rectangular, su espectro de potencia es:
N −1
sen(N ω/2) −jω
Pr (ω) = e 2
sen(ω/2)
En la figura D.1 se representa esta expresión analı́tica en trazo rojo, estan-

do el eje horizontal normalizado con respecto a la mı́nima frecuencia que se
puede resolver para la señal muestreada, es decir, δf = 1/(N − 1)δt = 1/T .
Por lo tanto, aunque en la figura D.1 se ha representado formalmente como
una función continua, en la práctica, una vez que la señal ha sido muestrea-
da, los únicos valores accesibles en el espectro son los que corresponden a
f /δf = 1, 2, ..., (N − 1)/2.
Como se ve, el espectro de la ventana rectangular es una función que pre-
senta lóbulos laterales, de anchura δf (ver figura D.2, que representa las
mismas funciones que aparecen en la figura D.1 pero con la potencia en db,
es decir, en escala logarı́tmica).
201
1,0
0,9
0,8
Hann
0,7 Rectangular
(u.a.)
0,6
0,5
P(f)
0,4
0,3
0,2
0,1
0,0
0 1 2 3 4 5
f/∆f
Figura D.1. Espectro de Fourier de las ventanas rectangular (en rojo) y de Hann (en negro), en repre-
sentación doblemente lineal.
Otros dos datos importantes son la atenuación del segundo máximo respecto
al máximo principal, que es de, aproximadamente, −14 db y que la potencia
en los siguientes máximos secundarios decrece con una pendiente de −20
db/dec, como se aprecia en la figura D.3, equivalente a D.1 y D.2 pero en
escala doblemente logarı́tmica. La relación de alturas entre los dos primeros
máximos y la pendiente de decaimiento de los máximos secundarios son
datos importantes porque indican cuanto se separa el espectro de la señal
discreta del espectro teórico de dicha señal por causa de la ventana.
Existe gran cantidad de trabajos sobre distintas funciones ventana que pue-
den ser más adecuadas para diversas utilizaciones especı́ficas. Aquı́ solo
mencionaremos la ventana de Hann, haciendo una comparación detallada
con la rectangular. La ventana de Hann es de utilización general y viene
dada por la función:

1 2πn
gh (n) = 1 − cos
2 N −1
donde n es el ı́ndice de la muestra correspondiente a un tiempo (n − 1)δt.

Esta ventana también se puede escribir como una combinación lineal de
ventanas rectangulares moduladas. En efecto, si definimos la ventana rec-
202
0
Hann
Rectangular
-20
(db)
-40
P(f)
-60
-80
0 10
f/∆f
sentación semilogarı́tmica.
tangular como gr (n) = 1 para 0 ≤ n ≤ N − 1, podemos escribir la ventana

de Hann como:
n n
1 1 2πj 1 −2πj
gh (n) = gr (n) − gr (n)e N − 1 − gr (n)e N −1
2 4 4
Por lo tanto, teniendo en cuenta las propiedades de linealidad de la transfor-

mada de Fourier y que la multiplicación por una exponencial se transforma
en un desplazamiento de la transformada, tenemos que el espectro de Fou-
rier de la ventana de Hann se puede escribir en función del espectro, Pr (ω),
de la ventana rectangular de la forma:

1 1 2π 1 2π
Ph (ω) = Pr (ω) − Pr ω + − Pr ω −
2 4 N −1 4 N −1
Esta función se ha representado también en las figuras D.1, D.2 y D.3 en

trazo negro. Como se ve fácilmente en la figura D.2, la anchura del lóbulo
central es el doble que la correspondiente a la ventana rectangular, pero la
atenuación de los máximos laterales es mucho mayor, siendo la atenuación
del primer máximo lateral respecto al central de −32 db y la pendiente de la
atenuación de los siguientes máximos de, aproximadamente, −60 db/dec. De
203
0
Hann
Rectangular
-20
(db)
-40
P(f)
-60
-80
0,1 1 10
f/∆f
sentación doblemente logarı́tmica.
manera que la ventana de Hann deberı́a proporcionar espectros, en general,

más parecidos a los de la señal original previa a la discretización.
En las figuras D.4 e D.5 se muestra una comparación de los espectros ob-
tenidos aplicando, respectivamente, las ventanas rectangular (trazo negro)
y de Hann (trazo rojo) a una señal que contiene un valor de continua más
una señal sinusoidal. Más concretamente:
f (t) = 1 + 10 sen(2πf0 t), con f0 = 200 Hz
Como es de esperar, el espectro de la figura D.4 muestra dos picos, uno

en f = 0, que muestra la pendiente de atenuación propia de cada ventana
(−20 db/dec para la rectangular y −60 db/dec para la de Hann), y otro en
f = 200 Hz, cuya estructura se puede apreciar mejor en la figura D.5.
Como se ve, la ventana rectangular produce un pico ligeramente más estre-
cho en la parte más cercana al máximo, pero la atenuación de las frecuencias
próximas a la del máximo es mucho menor para la rectangular que para la
de Hann, por lo que con la ventana rectangular la relación de amplitudes
entre el máximo de la señal y el ((ruido de fondo)) es mucho menor que en
el caso de la ventana de Hann. Esto es muy importante cuando se trata de
analizar el contenido en frecuencias de una señal complicada, por lo que la
204
0,01
Rectangular
1E-5 Hann
1E-8
P(f) (u.a.) 1E-11
1E-14
1E-17
1E-20
1E-23
0,1 1 10 100
f (Hz)
Figura D.4. Espectros de potencia de la señal indicada en el texto obtenidos, respectivamente, utilizando
las ventanas rectangular y de Hann. La representación es doblemente logarı́tmica.
ventana rectangular no es la más aconsejable.

En términos de aplicación práctica, se deben tener en cuenta ambos pro-
blemas (aliasing y función ventana) conjuntamente a la hora de decidir la
frecuencia de muestreo y la longitud y forma de la función ventana. En efec-
to, no debemos olvidar que cualquier señal temporal discretizada, fd (t), es,
siempre, el producto de una señal continua que depende del tiempo, f (t),
una función ventana, v(t), y un ((peine)) de Dirac5 :
∞
X
fd (t) = f (t)v(t)δ (t − iτ )
i=−∞
Por lo tanto, la transformada de Fourier de la señal discretizada será la

convolución de las transformadas de las tres funciones descritas:
" ∞ #
X
Fd (f ) = F (f ) ∗ V (f ) ∗ F δ (t − iτ )
i=−∞
5
Del inglés Dirac comb. Es una sucesión de deltas de Dirac situadas en los instantes puntua-
les
P∞ en que se realiza la digitalización o simulación del valor de la señal. En términos matemáticos
i=−∞ δ (x − iτ ), donde τ es el inverso de la frecuencia de muestreo.
205
0,1
Rectangular
Hann
P(F) (u.a.) 1E-4
1E-7
1E-10
1E-13
198 199 200 201 202
f (Hz)
Figura D.5. Vista expandida y centrada en el pico de 200 Hz de los espectros de la figura anterior. La
representación es lineal en el eje de abscisas y logarı́tmica en el eje de ordenadas.
Afortunadamente, el problema es un poco más simple de lo que puede pa-

recer, dado que la transformada de Fourier de un peine de Dirac en la
representación temporal es otro peine de Dirac en la representación en fre-
cuencias. Más concretamente si g(t) es:
∞
X
g(t) = δ (t − iτ )
i=−∞
donde τ es el inverso de la frecuencia de muestreo, su transformada de

Fourier es:
∞
2π X 2πk
F (ω) = F [f (t)] = δ ω−
τ k=−∞ τ
o bien, en función de la frecuencia f :

∞
1 X k
G(f ) = F [g(t)] = δ f−
τ k=−∞ τ
206
Por lo tanto, la convolución con este peine de deltas equivale a trasladar

a las frecuencias k/τ la convolución de la señal temporal continua con la
transformada de la función ventana:
" ∞ #
1 X k
Fd (f ) = F (f ) ∗ V (f ) ∗ δ f− =
τ k=−∞ τ
∞
1 X k k
= F f− ∗V f −
τ k=−∞ τ τ
Por tanto, la transformada de Fourier de la señal discretizada es una suma de

infinitas convoluciones de las transformadas de la señal temporal continua
y la función ventana, trasladadas las convoluciones a las frecuencias k/τ .
Incidentalmente, esta es otra forma de ver que las transformadas discretas
DFT e IDFT son periódicas en el espacio de frecuencias, con periodo 1/τ .
A través de esta representación se puede ver más claramente el origen del
aliasing. En efecto, supongamos que una señal que contiene una frecuencia
f1 es muestreada con una frecuencia fm = 1/τ de manera que fm ≤ 2f1 (es
decir, incumpliendo lo prescrito por el teorema de Shannon) y analicemos
solo la parte de frecuencias positivas, recordando que, al ser la DFT pe-
riódica en el espacio de frecuencias y aplicándose el teorema de Shannon, la
información significativa en la DFT de la señal discretizada está contenida
en la banda 0 ≤ f ≤ fm /2. En primer lugar es necesario hacer notar que
en las convoluciones aparece la transformada de Fourier de la señal original
continua en el tiempo f (t) y, por lo tanto, contiene un pico a la frecuen-
cia f1 . Dado que f1 > 2fm el pico en f1 correspondiente a la convolución
para k = 0 aparecerá en el rango de frecuencias superior a fm , es decir,
sumándose con la convolución correspondiente a k = 1. Ahora bien, dado
que la transformada de Fourier de una señal puramente real es simétrica
respecto a f = 0, en la convolución correspondiente a k = 0, aparecerá
también un pico a la frecuencia −f1 Ello implica que también en la con-
volución correspondiente a k = 1 aparecerá un pico correspondiente a −f1
pero, dado que la convolución con k = 1 está traslada a la frecuencia 1/τ ,
ese pico aparecerá en la frecuencia:
1
f+ = − f1 = fm − f1
τ
207
También para la convolución correspondiente a k = −1 es fácil ver que
también aparecerá un pico en la frecuencia:
f− = −fm + f1
Si aplicamos esta relación al ejemplo de muestreo de la figura 3.11 del

capı́tulo 3, vemos que, siendo f1 = 1 Hz y fm = 1,1416 Hz, podemos,
inequı́vocamente, identificar el pico que aparece en f3 = 0,14158 Hz como
correspondiente a f− = 0,1416 Hz.
4. TÉCNICAS DE FILTRADO DE SEÑALES MUESTREADAS.
Una vez que hemos visto los conceptos fundamentales relacionados con la
DFT y la IDFT, podemos pasar a discutir como se pueden aprovechar ambas
transformadas para realizar filtrados sobre señales muestreadas. En térmi-
nos generales y al igual que en el caso de señales eléctricas continuas en el
tiempo, el filtrado de señales muestreadas por medio de transformadas de
Fourier discretas aprovecha el hecho de que la convolución en el dominio
temporal se transforma en una simple multiplicación en el dominio de fre-
cuencias. Más concretamente, la forma tı́pica de implementar un filtrado de
una señal muestreada consta de las siguientes etapas:
Decidir qué tipo de filtro (paso bajo, paso alto, etc.), el orden del filtro
y la frecuencia de corte.
Diseñar la función de transferencia, por medio de las mismas técnicas
utilizadas para el filtrado de señales analógicas continuas en el tiempo,
y obtener la expresión de la correspondiente función (compleja) de
respuesta en frecuencia.
Obtener la DFT de la señal muestreada que se desea filtrar. El resul-
tado de la DFT será, en general, una función compleja que tomará
valores en el intervalo de frecuencias −fm ≤ f ≤ +fm y simétrica
respecto a fm = 0.
Realizar la multiplicación (en general compleja) de la transformada
de la señal por la función de respuesta en frecuencia.
208
Obtener la IDFT de la función compleja obtenida en la etapa anterior.
Otra forma de realizar filtrados en el dominio de frecuencias consiste en ma-

nipular directamente la transformada de Fourier de la señal, por ejemplo,
eliminando frecuencias indeseables o limitando el ancho de banda de mane-
ra directa. Las posibilidades de esta manipulación directa de F (ω) son muy
amplias. Como ejemplo veremos una aplicación en la que se elimina selec-
tivamente una de las componentes de frecuencia de una señal que contiene
tres frecuencias principales.
2
Senal
-2
0 2 4 6 8 10
t (s)
40
Potencia Espectral
20
0
0 1 2 3 4 5
frec (Hz)
Figura D.6. Parte superior: Representación temporal de la función descrita en el texto. Parte inferior:
Módulo de la DFT de la señal temporal.
En efecto, en la figura D.6 se representa, en la parte superior, la señal:

f (t) = sen(2πf1 t) + sen(2πf2 t) + sen(2πf3 t)
donde f1 = 1/π, f2 = 1 y f3 = 3/2 (todas ellas en Hz), ası́ como, en la parte

inferior, el módulo de la DFT de la señal, omitiendo la parte simétrica
para frecuencias −5 ≤ f ≤ 0. Se puede apreciar que los picos del espectro
corresponden a las frecuencias de las sinusoides que componen la señal.
209
40 40 40
Potencia Espectral
20 20 20
0 0 0
0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
frec (Hz) frec (Hz) frec (Hz)
2 2 2
Senal
0 0 0
-2 -2 -2
0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
t (s) t (s) t (s)
Figura D.7. Ejemplo de filtrado por eliminación de componentes de frecuencias seleccionadas. Las imáge-
nes de la fila superior indican, en trazo rojo, la frecuencia que se conserva de la transformada de Fourier
y, en trazo azul, las que se eliminan. En las imágenes de la fila inferior se han representado, simultánea-
mente, la señal original (en trazo azul) y la señal reconstruida a partir de su transformada de Fourier (en
trazo rojo) después de haber eliminado las frecuencias indicadas en la figura superior correspondiente.
En casos como este, en que el espectro de frecuencias presenta picos muy

bien definidos y separados, se puede, por ejemplo, manipular directamente
la transformada de Fourier de la señal para obtener la eliminación de la
frecuencia indeseable. Para ello basta con sustituir por 0, o un número muy
pequeño del orden del valor del ruido en la transformada de la señal, los
valores de la transformada de la señal correspondientes a las frecuencias en
que estos valores son claramente superiores al fondo de ruido de la transfor-
mada para, con posterioridad, obtener la IDFT correspondiente, en la que
ya no aparecerá la componente de la frecuencia eliminada.
En la figura D.7 se ilustra el resultado de dicha operación para los casos en
los que se eliminan dos de las frecuencias que componen la señal (en cada
caso se indican en azul las zonas de frecuencias en las que los valores de la
DFT se han sustituido por valores del orden del ruido. Más concretamente,
210
en los dos paneles de la parte izquierda de la figura se ilustra la eliminación

de las frecuencias f2 y f3 (ver módulo de la DFT de la señal en la parte
superior) por medio de la comparación (panel inferior izquierdo) de la señal
original (en trazo azul) con la señal reconstruida después del filtrado en la
que, como es de esperar, solamente permanece presente la componente de
frecuencia f1 . Análogamente, los paneles centrales ilustran la eliminación
de las frecuencias f1 y f3 , y los paneles de la derecha la eliminación de las
frecuencias f1 y f2 .
5. FILTROS PASIVOS Y ACTIVOS DE ORDEN 2 Y SUPERIO-

RES.
5.1. Filtros pasivos de segundo orden.
Si en los circuitos de la figura 3.6 del capı́tulo 3 sustituimos la resistencia

por una inducción L, cuya impedancia es ZL = jωL, la ganancia para el
circuito de la izquierda se transforma en:
1
ZC jωC 1
G(ω) = = 1 =
ZL + ZC jωL + jωC 1 − ω 2 LC
de donde:
1 1
G(s) = =
1 + s2 LC s s
1− 1+
ωc ωc
y también:
1 1
Gdb (ω) = =
1 − ω 2 LC 1 − (ω/ωc )2
donde ωc = (LC)−1/2 .
Por lo tanto, la ganancia de amplitud de este circuito presenta un pico de
resonancia6 para ω = ωc , mientras que para frecuencias mayores o menores
6
El inductor siempre presenta una pequeña resistencia eléctrica que evita que la ganancia se haga
infinita para ω = ωc .
211
que ωc , la ganancia es Gdb (ω) ' (ωc /ω)2 , y, por consiguiente, decrece con
una pendiente de −40 db/dec, mientras que para frecuencias menores que
ωc la ganancia de amplitud tiende a la unidad. Es decir, el circuito se com-
porta como un filtro paso bajo de segundo orden (dado que su función de
transferencia tiene dos polos simples) con frecuencia de corte ωc = (LC)−1/2 .
Por otro lado, si hacemos la sustitución de la resistencia por la inducción
en el circuito de la figura de la derecha, tenemos:
ZL jωL −ω 2 LC
G(ω) = = 1 =
ZL + ZC jωL + jωC 1 − ω 2 LC
de donde:
1 (s/ωC )2
G(s) = =
1 + s2 LC s s
1− 1+
ωc ωc
y también:
ω 2 LC

Gdb (ω) = 2
ω LC − 1
donde también se usa ωc = (LC)−1/2 .

Por lo tanto, la ganancia de amplitud de este circuito para frecuencias ω
ωc es aproximadamente igual a la unidad, mientras que para frecuencias
ω ωc = 1/RC, la ganancia es Gdb (ω) ' (ω/ωc )2 , y, por consiguiente,
crece con una pendiente de +40 db/dec. Es decir, el circuito se comporta
como un filtro paso alto de segundo orden (puesto que tiene un cero doble
y dos polos simples) con frecuencia de corte ωc = 1/RC.
5.2. Filtros pasivos de orden superior.
Si se piensa en un filtro como un bloque que tiene una determinada función

de transferencia, se puede obtener un filtro de orden superior por medio de
la concatenación de filtros de órdenes inferiores al buscado. En efecto, para
una concatenación de dos filtros que tengan funciones de transferencia G(s)
212
y H(s), respectivamente, el diagrama de bloques será el que se indica en la

figura D.8.
X(s) Y(s) Z(s)

G(s) H(s)
Figura D.8. Diagrama de bloques de un sistema con dos etapas.
En este caso tenemos:
Z(s) = H(s)Y (s) = H(s) [G(s)X(s)] = [H(s)G(s)] X(s)
Esto es, la función de transferencia de dos bloques concatenados es igual

al producto de las funciones de transferencia respectivas. Este resultado se
puede expresar, también, en función de la respuesta en frecuencia como:
Z(ω) = H(ω)Y (ω) = H(ω) [G(ω)X(ω)] = [H(ω)G(ω)] X(ω)
Sin embargo, este resultado no es aplicable a la concatenación de filtros

pasivos. Veamos, por ejemplo, qué ocurre si concatenamos dos etapas RC
paso bajo de primer orden7 , como se ilustra en la figura D.9.
R1 R2
Vi C1 V1 C2 Vo
Figura D.9. Esquema de un filtro paso bajo pasivo de orden 2 formado por dos etapas RC de primer
orden.
7
Estas redes de componentes pasivos se denominan en inglés ladder networks (((redes en escalera))).
Basta mirar el dibujo e imaginarse dos o tres etapas más para entender el porqué de dicha denominación.
213
En términos circuitales, la nueva rama de la segunda etapa, en la que se
encuentran R2 y C2 , está situada en paralelo con la rama de la primera etapa
que contiene al condensador C1 . Por lo tanto, la rama de R2 y C2 modifica
la impedancia de salida de la primera etapa y, asimismo, la impedancia
de entrada de la segunda etapa queda modificada al estar en paralelo con
C1 . Es decir, llamando Z2 a la impedancia equivalente a la combinación en
paralelo de C1 y la serie de R2 y C2 , tenemos:
Zc1 (ZR2 + ZC2 )

Z2 =
Zc1 + ZR2 + ZC2
y también:
ZC2 ZC2 Z2
Vo = V1 = Vi =
ZR2 + ZC2 ZR2 + ZC2 ZR1 + Z2
Zc1 (ZR2 + ZC2 )
ZC2 Zc1 + ZR2 + ZC2
= V
ZR2 + ZC2 Zc1 (ZR2 + ZC2 ) i
Z R1 +
Zc1 + ZR2 + ZC2
Por lo tanto, la ganancia del filtro de segundo orden ası́ obtenido es:

1 1
jωC1
R2 + jωC2
1 1 1
Vo jωC2 jωC1
+ R2 + jωC
G(ω) = = 1
2

Vi R2 + jωC 2
1 1
R2 + jωC2
jωC1
R1 + 1 1
jωC1
+ R2 + jωC2
que, evidentemente, es muy distinta del producto de las funciones de res-

puesta en frecuencia de las dos etapas:
1 1
G(ω) =
1 + jωR1 C1 1 + jωR2 C2
¿Por qué no se cumple para redes de componentes pasivos la regla de que

la función de transferencia de la cadena es el producto de las funciones de
214
transferencia de los eslabones? Desde el punto de vista circuital ya hemos

visto la razón: las impedancias de salida de una etapa y de entrada de
la siguiente se modifican mutuamente. Otra forma de verlo es que desde el
principio hemos supuesto que los bloques funcionan como fuentes de tensión
ideales, es decir, tienen impedancia de salida muy baja comparada con las
resistencias de carga o de entrada de la etapa siguiente. Esto, en general,
no se cumple en el caso de las redes pasivas en escalera. Como veremos
en el apartado siguiente, una manera de evitar este problema es utilizar
componentes activos, más concretamente amplificadores operacionales, ya
que tienen alta resistencia de entrada y baja resistencia de salida.
5.3. Filtros activos de segundo orden.
Concatenando dos filtros activos de primer orden se puede conseguir un

filtro activo de segundo orden pero ello implica utilizar dos A.O. para cada
filtro. Sin embargo, se pueden conseguir filtros activos de orden superior
utilizando un único A.O. para cada filtro. Existen múltiples diseños que lo
permiten pero aquı́ ilustraremos uno especı́fico que es el filtro general de
Sallen-Key, que tiene la topologı́a que se muestra en la figura D.10.
Z4
V1 V+
Z1 Z2 Vo
Vz
Z3 V-
R3 R4
Figura D.10. Esquema de un filtro activo general de segundo orden según la topologı́a de Sallen-Key.
215
Para obtener su respuesta en frecuencia basta con obtener la ganancia de
acuerdo con el método general y después sustituir las impedancias complejas
de los elementos Zi . Para obtener la ganancia aplicaremos en primer lugar la
ley de Kirchoff al nudo situado entre las impedancias Z1 y Z2 . Tendremos:
Vz − Vi Vz − Vo Vz − V+
+ + = 0,
Z1 Z4 Z2

1 1 1 Vi Vo V+
Vz + + = + +
Z1 Z2 Z4 Z1 Z4 Z2
Del mismo modo, en la entrada no inversora Z2 y Z3 forman un divisor de

tensiones, luego:

Z3 Z2
V+ = Vz , Vz = 1 + V+
Z2 + Z3 Z3
Se puede, por tanto, eliminar Vz sustituyendo esta última expresión en la

obtenida para el primer nudo y despejando V+ como función de Vi y Vo ,
obteniendo:

Z2 1 1 1 1 1 1
1+ + + − V+ = Vi + Vo ,
Z3 Z1 Z2 Z4 Z2 Z1 Z
4
Z2 Z2 Z4 + Z1 Z2 Z4 + Z1 Z2 Z2 + Z2 Z3 Z4 + Z1 Z2 Z3 1 1
V+ = Vi + Vo
Z1 Z2 Z3 Z4 Z1 Z4
de donde:
V+ = cVi + dVo
siendo:
Z2 Z3 Z4 N1
c(ω) = ≡ ,
Z2 Z2 Z4 + Z1 Z2 Z4 + Z1 Z2 Z2 + Z2 Z3 Z4 + Z1 Z2 Z3 D
Z1 Z2 Z3 N2
d(ω) = ≡
Z2 Z2 Z4 + Z1 Z2 Z4 + Z1 Z2 Z2 + Z2 Z3 Z4 + Z1 Z2 Z3 D
donde N1 y N2 son los numeradores de ambas fracciones y D es el denomi-

nador común a ambas. Obsérvese que, a través de las impedancias Zi , las
216
nuevas funciones c, d, D, N1 y N2 pueden depender de la frecuencia si, por

ejemplo, alguna de las impedancias es un condensador o una inducción.
Finalmente, en la entrada inversora tenemos:
R3
V− = Vo ≡ bVo
R3 + R4
Dado que el A.O. hace que V− = V+ , tenemos:
cVi + dVo = bVo ,

Vo c(ω) c(ω) 1
G(ω) = = =
Vi b(ω) − d(ω) b(ω) 1 − d(ω)/b(ω)
Para llegar a una expresión en función de las impedancias, es conveniente

definir:
1 R3 + R4
K= =
b R3
que es independiente de la frecuencia, de forma que la expresión de la ga-

nancia se puede reescribir como:
K
G(ω) =
D(ω) KN2 (ω)
−
N1 (ω) N1 (ω)
de donde
K
G(ω) = =
D(ω) KN2 (ω)
−
N1 (ω) N1 (ω)
−1
Z2 Z2 Z4 + Z1 Z2 Z4 + Z1 Z2 Z2 + Z2 Z3 Z4 + Z1 Z2 Z3 KZ1 Z2 Z3
=K× − =
Z2 Z3 Z4 Z2 Z3 Z4
−1
Z2 Z1 Z1 Z2 Z1 KZ1
=K× + + +1+ − =
Z3 Z3 Z3 Z4 Z4 Z4
−1
Z1 Z2 Z1 Z2 (1 − K)Z1
=K× + + + +1
Z3 Z4 Z3 Z3 Z4
217
Esta última expresión ya nos permite elegir las impedancias adecuadas con
vistas a construir el filtro de segundo orden que se desee. Veamos algunos
ejemplos.
Filtro Sallen-Key paso bajo.
Un filtro paso bajo de segundo orden con una frecuencia de corte ωc tendrá
una función de transferencia con un polo doble en s = ωc y una cierta
ganancia de amplitud constante a baja frecuencia:
G
G ωc2 G 1
G(s) = = 2 = 2 2
(s − ωc )2
s ωc s s
−1 −2 +1
ωc ωc ωc
Por lo tanto, la respuesta en frecuencia será:

G 1 G 1
G(ω) = 2 2 = 2 2
ωc jω jω ωc ω jω
−2 +1 − −2 +1
ωc ωc ωc ωc
Comparando esta expresión con la obtenida en función de las impedancias

desconocidas vemos que la única manera de conseguir que los términos del
denominador tengan la dependencia buscada respecto a la frecuencia ω es
que Z1 y Z2 sean condensadores (puesto que su impedancia será 1/jωC)
y que Z1 y Z2 sean resistencias. Es decir, si hacemos Z1 = R1 , Z2 = R2 ,
Z3 = 1/jωC1 y Z4 = 1/jωC2 tendremos:
K
G(ω) =
−ω 2 (R1 R2 C1 C2 ) + jω [R1 C1 + R2 C1 + (1 − K)R1 C2 ] + 1
entonces:
1
ωc = √
R1 R2 C1 C2
además, el coeficiente del término lineal en ω permite definir el factor de
calidad del filtro, Q, que es un parámetro que está relacionado con la
218
anchura de banda del filtro, como:

√
R1 R2 C1 C2
Q=
R1 C1 + R2 C1 + (1 − K)R1 C2
Para la implementación de un filtro determinado existen varias estrategias

para la selección de los valores de resistencias y capacitancias. Aquı́ mencio-
naremos únicamente la más sencilla que es elegir resistencias iguales entre
sı́ (R1 = R2 = R) y también capacitancias iguales entre sı́ (C1 = C2 = C).
De este modo tenemos:
K
G(ω) = 2
−ω (RC) + jωRC(3 − K) + 1
2
por lo tanto:
1 1
ωc = , Q=
RC 3−K
Filtro Sallen-Key paso alto.
Un filtro paso alto de segundo orden con una frecuencia de corte ωc tiene
que atenuar las frecuencias bajas hasta una cierta frecuencia de corte y tener
ganancia constante para frecuencias superiores a la frecuencia de corte. Por
lo tanto, tendrá una función de transferencia con un cero doble en s = 0 y
un polo doble en s = ωc . Es decir:
2
s
ωc
G(s) = G 2
s s
−2 +1
ωc ωc
La respuesta en frecuencia será:

2 2
jω ω
−
ωc ωc
G(ω) = G 2 = G 2
jω jω ω jω
−2 +1 − −2 +1
ωc ωc ωc ωc
219
Comparando esta expresión con la obtenida en función de las impedancias
desconocidas vemos que la única manera de conseguir que los términos del
denominador tengan la dependencia buscada respecto a la frecuencia ω es
proceder a la inversa que en el caso del filtro paso bajo: hacer que Z1 y
Z2 sean resistencias y que Z1 y Z2 sean condensadores. Si hacemos Z1 =
1/jωC1 , Z2 = 1/jωC2 , Z3 = R1 y Z4 = R2 . Por lo tanto, en este caso
tendremos:
K
G(ω) = =
1 j j (1 − K)
− 2 − − −j +1
ω (R1 R2 C1 C2 ) ωR1 C1 ωR1 C2 ωR2 C1
−Kω 2 (R1 R2 C1 C2 )
= 2
ω (R1 R2 C1 C2 ) + jωR2 C2 + jωR2 C1 + jωR1 C2 (1 − K) + 1
y entonces:
1
ωc = √
R1 R2 C1 C2
además, el coeficiente del término lineal en ω permite definir el factor de

calidad del filtro, Q:
√
R1 R2 C1 C2
Q=
R2 C2 + R2 C1 + (1 − K)R1 C2
Para la implementación del filtro elegimos resistencias iguales entre sı́ (R1 =
R2 = R) y capacitancias iguales entre sı́ (C1 = C2 = C). De este modo
tenemos:
−Kω 2 (RC)2
G(ω) = =
ω 2 (RC)2 + jωRC + jωRC + jωRC(1 − K) + 1
Kω 2 (RC)2
=
ω 2 (RC)2 + jωRC(3 − K) + 1
y entonces:
1 1
ωc = , Q=
RC 3−K
220
5.4. Sı́ntesis de filtros de orden superior a partir de la función de

respuesta en frecuencia.
Hasta ahora hemos visto los ejemplos tı́picos de filtros de orden 1 y 2.

También hemos visto que se pueden generar filtros de orden superior por
concatenación de filtros de orden inferior al buscado. Sin embargo, la ob-
tención de la función de transferencia se complica al aumentar el orden del
filtro por concatenación, por lo que existe una estrategia diferente para el
diseño de filtros de orden superior a 2. Esta estrategia consiste en generar
métodos generales que permitan diseñar filtros que tengan una respuesta en
frecuencia dada.
Sin embargo, a la hora de definir dichos métodos generales aparece el proble-
ma consistente en que la respuesta en frecuencia suele presentar dos opciones
que se contraponen y por lo tanto es necesario optar por privilegiar una u
otra de ellas. Las opciones que se contraponen consisten en que si se desea
una caı́da fuerte en la banda de atenuación se debe sacrificar la constancia
de la ganancia a baja frecuencia y, viceversa, si se desea una ganancia en
baja frecuencia muy constante, se debe sacrificar la pendiente en la caı́da
de la ganancia en la banda de atenuación.
A continuación, veremos los dos métodos más ampliamente utilizados para
la sı́ntesis de filtros paso bajo de alto orden primando en cada caso una de
las dos opciones mencionadas.
Filtros de respuesta máximamente plana en baja frecuencia: Filtros de But-

terworth.
Los filtros de Butterworth tienen una función de respuesta en frecuencia:

G0
G(ω) = s 2n
ω
1+
ωc
donde n es el orden (número de polos) del filtro y G0 es la ganancia a

baja frecuencia. Por lo tanto, su función de transferencia correspondiente
221
se puede escribir como:
G
G(s) = 0 2 n
−s
1+
ωc2
cuyos polos son las raı́ces del polinomio siguiente:
s2 1
− 2
= (−1) n
ωc
que se pueden escribir como:

j(2k + n − 1)π
sk = ωc exp , con k = 1, 2, 3, ..., n
2n
Es decir, la función de transferencia se puede escribir como el producto de

los binomios correspondientes los n polos de la forma siguiente:
G0 G0
G(s) = Qn s−s =
k Bn (s)
k=1 ωc
donde los Bn (s) son los denominados polinomios de Butterworth de orden

n, cuyas expresiones, escritas en la forma más habitual son:
2
n
Y 2k + n − 1
2
Bn (s) = s − 2s cos π + 1 , si n es par.
k=1
2n
2
n
Y 2k + n − 1
2
Bn (s) = (s + 1) s − 2s cos π + 1 , si n es impar.
k=1
2n
Estos polinomios están tabulados y los cuatro primeros, con sus coeficientes
222
hasta cuatro cifras decimales, son:

B1 (s) = s + 1
B2 (s) = s2 + 1,4142s + 1
B3 (s) = (s + 1)(s2 + s + 1)
B4 (s) = (s2 + 0,7654s + 1)(s2 + 1,8478s + 1)
La forma de implementar estos filtros de orden superior es, habitualmente,

concatenar filtros Sallen-Key paso bajo de ganancia unidad. Para ello basta
con modificar, en la figura D.10, el bucle de realimentación negativa elimi-
nando la resistencia R3 y sustituyendo la resistencia R4 por un cortocircuito
de manera que la salida del A.O., Vo queda directamente conectada con V− .
En estas condiciones, la respuesta en frecuencia del filtro de Sallen-Key es:
1
G(ω) =
−ω 2 (R1 R2 C1 C2 ) + jωC1 (R1 + R2 ) + 1
y entonces:
1
ωc = √
R1 R2 C1 C2
de forma que: √
R1 R2 C1 C2 ωc
Q= =
C1 (R1 + R2 ) 2α
donde:
√ −1
ωc 1 R1 R2 C1 C2 C1 (R1 + R2 )
2α = =√ =
Q R1 R2 C1 C2 C1 (R1 + R2 ) R1 R2 C1 C2
Es decir, su función de transferencia es:

1
G(s) = 2
s 2α s
+ +1
ωc ωc ωc
Por lo tanto, para que el filtro Sallen-Key paso bajo de orden 2 sea un
filtro paso bajo de Butterworth basta con hacer que el denominador de la
223
función de transferencia coincida con el polinomio de Butterworth de orden
2, B2 (n), es decir, debemos elegir los componentes de la red RC de forma
que se cumplan:
1
= R1 R2 C1 C2 = 1,
ωc2

2α 2k + n − 1
= C1 (R1 + R2 ) = −2 cos π
ωc2 2n
Por lo tanto, al tener cuatro parámetros relacionados entre sı́ por dos ecua-
ciones, se pueden fijar libremente dos de ellos y obtener los otros dos a través
de las mencionadas ecuaciones.
Filtros con máxima pendiente de atenuación. Filtros de Chebyshev.
Los filtros de Chebyshev tienen una función de respuesta en frecuencia:

1
G(ω) = r
ω
1 + ε2 Tn2 ωc
donde Tn es el polinomio de Chebyshev8 de orden n. En este caso no se

puede llevar a cabo una discusión tan detallada como en el caso de los
filtros de Butterworth. La caracterı́stica más notable de estos filtros es que
la pendiente de la caı́da de la ganancia por encima del corte es máxima,
pero esto se consigue a base de aceptar una cierta oscilación (ripple) de la
ganancia en la banda pasante. En la figura D.11 se pueden comparar las
curvas correspondientes a las ganancias de amplitud de dos filtros de orden
4 con ganancia unidad en baja frecuencia, frecuencia de corte ωc = 1000
s−1 . Como puede observarse, el filtro de Butterworth tiene respuesta plana
en la banda pasante aunque la atenuación en la banda rechazada es siempre
menor que la correspondiente al filtro de Chebyshev. Sin embargo, este
presenta un rizado de 3 db en la banda pasante.
8
Los primeros polinomios de Chebyshev son T0 (x) = 1; T1 (x) = x; T2 (x) = 2x2 − 1; T3 (x) =
4x3 − 3x; T4 (x) = 8x4 − 8x2 + 1
224
10
Butterworth
0
Chebyshev
-10
G(ω) (db)
-20
-30
-40
-50
-60
100 1000 10000
ω (s )
-1
Figura D.11. Ganancias de amplitud correspondientes a filtros de orden 4 con ωc = 1000 s−1 de Butter-
worth y Chebyshev (ε = 1).
6. TRANSFORMADA RÁPIDA DE FOURIER (FFT).
Bajo la denominación genérica de ((Transformada Rápida de Fourier)) (FFT9 )

se agrupan varias formas de calcular la DFT con un coste computacional
mucho menor que el del cálculo directo de la DFT a través de las sumas
de las series con senos y cosenos obtenidas a partir de la fórmula de Euler.
En efecto, mientras que el cálculo directo de la DFT para una señal que
consta de N muestras requiere del orden de N 2 operaciones, los algoritmos
FFT para la misma señal requieren únicamente N log N operaciones, lo que
significa un gran ahorro de esfuerzo computacional para señales de gran
número de datos.
El método más conocido es el debido a Cooley y Tukey10 para señales com-
puestas por números de muestras que son potencias enteras de 2. Este es un
método de los denominados de raı́z 2 y diezmado en tiempo, que simplifican
9
La abreviatura corresponde a las iniciales en inglés de Fast Fourier Transform.
10
El esquema de cálculo de esta FFT ya fue utilizado por Gauss en 1805, aunque se dio a conocer
póstumamente.
225
el cálculo de la DFT separando las muestras en dos mitades compuestas,
respectivamente, por las muestras de ı́ndice par (x2m = x0 , x2 ,...,xN −2 ) y
las de ı́ndice impar (x2m+1 = x1 , x3 ,...,xN −1 ). En tal caso, la DFT se puede
separar, como hemos indicado, en dos sumas, una para las muestras pares
y otra para las impares, como sigue:
−1 N/2−1 N/2−1
X
N X X (2m+1)k
−2πj ik −2πj 2mk
Xk = xi e N = x2m e N + x2m+1 e−2πj N =
i=0 m=0 m=0
N/2−1 N/2−1
X mk
−2πj N/2 k
X mk k
= x2m e +e −2πj N
x2m+1 e−2πj N/2 = Pk + e−2πj N Ik
m=0 m=0
donde la primera suma, Pk , corresponde a la DFT de las muestras de ı́ndice

par y la segunda suma, Ik , corresponde a la DFT de las muestras de ı́ndice
impar. Además, por la periodicidad de la DFT sabemos que:
Pk+ N = Pk , Ik+ N = Ik
2 2
Por lo tanto, podemos escribir la DFT como:

( k
Pk + e−2πj N Ik , para 0 ≤ k < N/2
Xk = k
−2πj N
Pk−N/2 + e Ik−N/2 , para N/2 ≤ k < N
Además, para el factor exponencial que multiplica a Ik se verifica que:

k−N/2 k k k
e−2πj N = e−2πj N −jπ = e−jπ e−2πj N = −e−2πj N
Por lo tanto, podemos obtener la serie de valores de Xk habiendo calculado

únicamente la mitad correspondiente a k ≤ N/2. De esta forma, la DFT
queda especificada, para 0 ≤ k < N2 , como:
k
Xk = Pk + e−2πj N Ik ,
k
Xk+ N = Pk − e−2πj N Ik
2
Este esquema se implementa recursivamente de manera que, en la siguiente

etapa se vuelven a subdividir las dos DFTs de N/2 términos pares e impares
226
de la serie original otra vez en N/4 términos pares e impares de las series de
muestras obtenidas en la primera subdivisión. El proceso de subdivisión se
continua hasta llegar a subseries que contienen ya cada una solamente dos
términos.
227
SOLUCIONES DE LOS EJERCICIOS
1.1. En cualquier distribución gaussiana el número de ocurrencias en el

intervalo (µ − σ, µ + σ) es del 68,3 %.
1.2. Todas las lámparas se fabrican en igualdad de condiciones, de tal

forma que podemos correlacionar los efectos de la fabricación a lo largo
de la vida de las lámparas. El enunciado nos dice que (en promedio),
fallan 8 lámparas cada 100 horas. Es decir, podemos suponer que el
número de fallos en 100 horas sigue una distribución de Poisson de
media (λ) igual a 8.
Bajo estas condiciones, podemos suponer que en la cuarta parte del
tiempo el número de fallos de lámparas vendrá dado por una distri-
bución de Poisson y que (en promedio), deberı́an fallar 2 lámparas
(ya que es la cuarta parte de tiempo). Dicho esto, deducimos que la
distribución de fallos de lámparas en 25 horas sigue una distribución
de Poison de λ = 2.
Trabajando con la distribución de Poison que corresponde al periodo
del que se nos pregunta (25 horas), es decir, la que tiene λ = 2,
calculamos la probabilidad de que haya, al menos, un fallo:
P (x ≤ 1) = (2!/1!)e−2 = 0,27067
1.3. Los cálculos ha realizar son los siguientes:

60 − 70 75 − 70
p[60 ≤ x ≤ 75] = p ≤x≤ =
3 3
p(−3,33 < Z ≤ 1,67) = p(Z ≤ 1,67) − [1 − p(Z ≤ 3,33)] =
= 0,9525 − (1 − 0,9996) = 0,9521 × 100 = 476
1.4. Respuesta C.
229
1.5. Respuesta C.
1.6. El ejercicio corresponde a una distribución binomial, de resultados SI

tiene televisor y NO tiene televisor. Los parámetros de la misma son:
n = 50, p = 0, 6, q = 1 − 0, 6 = 0, 4
dado que se cumple np = 30(> 5) y nq = 20(> 5), podemos (y debe-

mos) trabajar con una distribución normal. Buscamos los parámetros
que nos definen la distribución normal, que es la que debe usarse en
base a lo encontrado en las lı́neas anteriores:
media = n × p = 30,
√
sigma = n × p × q = 3,46
es decir, la distribución normal correspondiente es N(30, 3,46). Por

tanto, la probabilidad de que al menos 20 de los hogares tengan dos
televisores será:
P (35 ≤ X ≤ 40) = P (1,4450 ≤ Z ≤ 2,8900) = 0,0716
1.7. Respuesta B.
1.8. Una distribución de probabilidad continua y uniforme queda carac-

terizada por su función de distribución f (x) = 1/(b − a) y su valor
medio µ = (a + b)/2. Dado el valor medio de la distribución y la fun-
ción de distribución, es inmediato obtener el sistema de ecuaciones
(a + b)/2 = 2,5 y 1/(b − a) = 1/2, cuya solución es b = 3,5 y a = 1,5.
1.9. El valor medio de la distribución viene dado por µ = N p = N (1−q) =

40.
2.1. La función de máxima verosimilitud es (véase la n en el exponente de

(1 − p)):
Yn
L = f (xi , p) = pf (1 − p)n−f
i
230
Si tomamos logaritmos, obtenemos:
ln L = f ln p + (n − f ) ln(1 − p)
Ahora derivamos respecto a p e igualamos a cero:
d ln L f n−f
= − =0
dp p 1−p
de donde se obtiene que p = f /n. Es decir, el estimador de máxima

verosimilitud en este caso es la frecuencia de éxitos: el número de
éxitos con respecto al total de medidas.
2.2. Respuesta A. El residuo de cada posible resultado es:
rrojo = 0,38,
rnegro = 0,07,
rverde = 13,74
de forma que χ2 ' 14 E[χ2 ] = N − 1 = 2.
2.3. Respuesta D. Hay tres ligaduras dado que el número de datos es fijo
y se han calculado la media y la desviación tı́pica a partir de ellos.
Para realizar el test χ2 tendremos que usar la función teórica con los
valores de la media y de la desviación.
2.4. Respuesta A. Como ν = 5 − 1 − 2 = 2, χ2c = 6. El valor de χ2 se

obtiene usando:
Xn
(yi − fi )2
2
χ =
i=1
σ2
donde σ = 0,011. Se obtiene entonces χ2 = 37,9.

√
2.5. El estadı́stico es Z = |x̄ − a|/(s/ n) donde√debe cumplirse Z < zc .
Entonces, como: Z = f rac|3,62 − 3,65|0,22/ 50 = 0,96 < zc = 1,64.,
concluimos que podemos confirmar el valor.
231
2.6. Si usamos:
X
n
(yi − fi )2
S=
i=1
s2 (yi )
se obtiene S = 11,1. Como los grados de libertad son ν = 11 > 10,

entonces χ̃20 = 11,14/11 = 1,01 y se confirma la hipótesis.
2.7. A = 49 ± 4, B = 6,2 ± 1,3.
3.1. Respuesta A.
3.2. Respuesta A.
3.3. Respuesta A.
3.4. Respuesta A.
3.5. Respuesta A.
3.6. La función de transferencia tiene polos en s = 1±i. Es decir, todos los
polos tienen parte real positiva y, por lo tanto, el sistema es estable.
3.7. El filtro tiene un polo de orden 2 en s = 10 s−1 , luego es un filtro paso
bajo de orden 2 y frecuencia angular de corte ω = 10 s−1 .
4.1. Φ/c = L I.
4.2. e = 4,803 × 10−10 statC, h = 6,626 × 10−27 g cm2 s−1 , c = 2,998 × 1010
cm s−1 . Entonces: ᾱ = e2 /(2hcεo ).
4.3. Tenemos que:
[F] = [k2 ][I2 ][L3 ][L−3 ] = [k2 ][I2 ]
Tal y como se dice en el capı́tulo 4, la constante k2 para el sistema

gaussiano se ha elegido como c−2 , por tanto:
k2 = [L−2 ][T2 ]
Sustituyendo k2 , y también [F] = [MLT−2 ], tenemos [MLT−2 ] = [L−2 ][T2 ][I2 ],

de donde:
[I2 ] = [ML3 T−4 ]
232
A partir de ahı́ se deducen las dimensiones de [I] = [M1/2 L3/2 T−2 ],

que se reflejan en las unidades g1/2 cm3/2 s−2 .
4.4. Respuesta B. De los tres sistemas de unidades en discusión, sólo en el
SI la permitividad eléctrica tiene dimensiones y un valor distinto de la
unidad para la permitividad del vacı́o (del orden de 10−11 ). Por tanto
sólo es válida la opción donde no aparece el SI.
4.5. Partiendo de la expresión en el sistema Gaussiano intentaremos pasar
al SI y que la ecuación tenga la misma forma pero con k3 = 1. En lo
que sigue las magnitudes SI tendrán un asterisco (∗ ). La expresión en
el sistema Gaussiano es:
1 ∂B
∇×E+ =0
c ∂t
Tenemos que:
G ∗
B = 104 B
T
y también definimos la constante de cambio como β:
E = βE∗
Por otro lado, el operador rotacional también se ve afectado dimensio-

nalmente, puesto que consiste en derivadas espaciales, y las longitudes
se expresan en diferentes unidades en ambos sistemas:
m ∗
∇ = 10−2 ∇
cm
La derivada temporal no se ve afectada porque en ambos sistemas el
tiempo se mide en las mismas unidades. Sustituyendo todo:
104 ∂B∗
(10−2 )∇∗ × βE∗ + =0
c ∂t
Para recuperar la forma de la ecuación en el SI multiplicamos por un
factor c/104 : −2
∗ 10 βc ∗ ∂B∗
∇ × E + =0
104 ∂t
233
Para que la ecuación recupere su forma tiene que ocurrir que la can-
tidad entre paréntesis sea la unidad:
βc10−6 = 1
Despejando y sustituyendo c = 3 × 1010 cm/s:
106
β= ' 3,3 × 10−5
3 × 1010
4.6. Respuesta A.
234
BIBLIOGRAFÍA
[1] R. P. Feynman, R. B. Leighton, M. Sands, The Feynman Lectures on

Physics (vol.1), Addison-Wesley, 1963.
[2] A. Einstein, Autobiographical Notes, Open Court Publishing Company,

1991.
[3] H. Kragh, Generaciones Cuánticas, Ediciones Akal, 2007.
[4] G. Holton, Thematic Origins Of Scientific Thought: Kepler to Einstein,

Harvard University Press, 1973.
[5] J. D. Jackson, Electrodinámica Clásica, segunda edición, Editorial Al-

hambra, 1980.
[6] A. Sommerfeld, Electrodynamics, Lectures on Theoretical Physics vo-

lume III, Academic Press, 1952.
[7] D. K. Wangsness, Campo electromagnéticos, Limusa, 1983.
[8] V. Quesada, A. Isidoro, L. A. López, Curso y Ejercicios de Estadı́stica.,

Alhambra Universidad, 1992.
[9] L. Lynos, A Practical Guide to Data Analysis for Physical Science

Students, Cambridge University Press, 1991.
[10] J. R. Taylor, Introducción al análisis de errores: El estudio de las in-

certidumbres en las mediciones fisicas, Reverte, 2014.
[11] C. Sánchez del Rı́o, Análisis de Errores, Eudema Universidad, 1989.
[12] M. Yuste, C. Carreras, Experimentos caseros para un curso de fı́sica

general, Editorial UNED, 1994.
235
[13] J. Gorgas, N. Cardiel, J. Zamorano, Estadı́stica Básica para estudiantes
de ciencias, ebook, 2011.
[14] R. S. Spiegel, L. J. Stephens, Schaum’s Outline of Theory and Problems

of Statistics, McGraw-Hill Education, 1999.
[15] J. Mandel, The Statistical Analysis of experimental data, Dover Publi-

cations Inc., 1985.
[16] P. Bevington, D. K. Robinson, Data Reduction and Error Analysis for

the Physical Sciences, McGraw-Hill Education, 2002.
[17] S. G. Rabinovich, Measurement Errors and Uncertainties: Theory and

Practice, Springer, 2005.
[18] R. Barlow, Statistics: A Guide to the Use of Statistical Methods in the

Physical Sciences, John Wiley and Sons, 1999.
[19] I. G. Hughes, T. P. A. Hase, Measurements and their Uncertainties:A

practical guide to modern error analysis, Oxford University Press, 2010.
[20] R. E. Walpole, R. H. Myers, S. L. Myers, Probabilidad y Estadı́stica

para Ingenieros, Pearson Educativa, 1999.
[21] Z. Kotulski, W. Szczepinński, Error Analysis with Applications in En-

gineering, Springer, 2010.
[22] S. Weisberg, Applied Linear Regression, Wiley-Interscience, 2005.
[23] R. D. Cook, S. Weisberg, Applied Regression Including Computing and

Graphics, Wiley-Interscience, 1999.
[24] P. Dalgaard, Introductory Statistics with R, Springer, 2008.
[25] N. Horton, K. K., Using R for Data Management, Statistical Analysis,

and Graphics, CRC Press, 2011.
[26] J. Vanderlinde, Classical Electromagnetic Theory, Jonh Wiley and

Sons, 1993.
[27] C. Sánchez del Rı́o, Unidades Fı́sicas, Eudema Universidad, 1987.
236
BIBLIOGRAFÍA
[28] L. A. Sena, Unidades de las magnitudes fı́sicas y sus dimensiones, Mir,

1979.
[29] W. Greiner, Classical Electrodynamics, Springer, 1998.
[30] J. Palacios, Análisis Dimensional, Espasa Calpe, 1955.
[31] J. Palacios, Electricidad y Magnetismo, Espasa Calpe, 1959.
[32] B. G. Levich, Teorı́a del campo electromagnético. Teorı́a de la relativi-

dad, Reverté, 1974.
[33] E. Benito, Problemas de campos electromagnéticos, AC, 1985.
[34] B. W. Petley, Metrology at the Frontiers of Physics and Technology.

Proceeding of the International School of Physics Enrico Fermi, North-
Holland, Amsterdam, 1992.
[35] S. Chatterjee, Regression Analysis by Example, Wiley-Interscience,

2006.
[36] G. A. Young, R. L. Smith, Essentials of Statistical Inference, Cambrid-

ge, 2005.
[37] A. J. Larkoski, Elementary Particle Physics: An Intuitive Introduction,

Cambridge University Press, 2019.
237

Manual TE2 v2.1 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manual TE2 v2.1 PDF

Cargado por

Copyright:

Formatos disponibles

TÉCNICAS EXPERIMENTALES II

Universidad Nacional de Educación a Distancia

2. Estadı́stica aplicada: ajustes, análisis de errores y criterios

3. Teorı́a de filtrado 107

3. Señales muestreadas. . . . . . . . . . . . . . . . . . . . . . . 136

4. Unidades electromagnéticas 145

Anexo A. Ejemplos desarrollados de análisis de datos experi-

Anexo B. Integrales gaussianas 189

Anexo C. Tabla de probabilidades de la distribución normal

Anexo D. Contenidos adicionales de teorı́a de filtrado 195

Soluciones de los ejercicios 235

“The test of all knowledge is experiment.

“A theory can be tested by experience,

Según la información de entrada. Con respecto a la función de origen

Los primeros se basan en explicaciones sobre las causas o mecanismos

Según el tipo de representación. Los modelos matemáticos pueden re-

Modelos cualitativos o conceptuales: En ellos se suelen usar figu-

Según la aleatoriedad. Esta clasificación es independiente de la anterior

Determinista: En este modelo se conoce con certeza la forma del

Un ejemplo histórico acerca de un modelo matemático ((confirmado)) (no des-

El concepto de probabilidad no es más que una medida cuantitativa de

1.1. Variables aleatorias discretas

Llamamos variable aleatoria discreta xi al suceso dentro de un conjunto

1. La probabilidad de que ocurra el suceso xi es mayor o igual que cero:

2. La suma de las probabilidades de todos los sucesos posibles es igual a

Basándonos en estas propiedades definimos un suceso seguro como aquel

P (xi && xj ) = P (xi )P (xj ) , (1.3)

resultado que puede generalizarse para la probabilidad conjunta de N su-

P (xi kxj ) = P (xi ) + P (xj ) , (1.5)

que igualmente puede generalizarse para la probabilidad de N sucesos mu-

inglés), vendrá dada por

Obviamente, por la condición de normalización inherente a cualquier distri-

Las propiedades anteriormente mencionadas para sucesos compuestos

Supongamos entonces un conjunto de N sucesos independientes, que referen-

La desviación respecto del valor esperado se define como ∆x = x − x, a

El momento central de segundo orden (también llamada varianza) se

Notemos que por la definición (1.9) la varianza puede escribirse también

Definimos finalmente la desviación estándar como la raı́z cuadrada de la

Siguiendo este mismo procedimiento, y conocida la distribución de probabi-

1.2. Distribución discreta uniforme.

De todas las distribuciones de probabilidad existentes, quizás la más simple

Las expresiones para la media y la varianza son:

y la varianza y la desviación estándar serán:

Una pregunta interesante aquı́ serı́a ¿cuál es la probabilidad de que en

El ejercicio anterior ilustra lo que se conoce como principio de indife-

1.3. Distribución binomial.

f (x) = px q 1−x , (1.17)

que, observemos, verifica inmediatamente f (0) = q y f (1) = p. El valor

La generalización de este ensayo, con N repeticiones indistinguibles entre

Algunos ejemplos de procesos de Bernoulli son los siguientes: la prueba

P (x) = b(x; N, p) , (1.20)

donde p representa la probabilidad de que tengamos un éxito, (recordemos

¿Y cuántas configuraciones dan lugar a esta probabilidad? Tantas como

La figura 1.1 muestra la distribución de probabilidad binomial para un mis-

Ejercicio 1.2 Supongamos que un jugador de baloncesto tiene que tirar

el temple tras cada lanzamiento y que, por tanto, el resultado de cada

P (SSS) = P (S)P (S)P (S) = 0,512

P (x = 0) = 0,008, que es la probabilidad del suceso P (N N N ).

P (x = 1) = 3×0,032 = 0,096, que es la suma de los casos P (N N S),

P (x = 2) = 3×0,128 = 0,384, que es la suma de los casos P (N SS),

P (x = 3) = 0,512, que es la probabilidad del suceso P (SSS).

Vemos que es inmediato comprobar que la probabilidad de que acierte

Y para calcular la probabilidad de uno, dos o tres encestes, debemos