Está en la página 1de 237

TÉCNICAS EXPERIMENTALES II

Versión 2.1
14 de febrero de 2020

Pablo Domı́nguez
Jaime Arturo de la Torre
Manuel Pancorbo
Miguel Ángel Rubio

Universidad Nacional de Educación a Distancia


ÍNDICE GENERAL

Introducción 7

1. Introducción a la Estadı́stica 13
1. Probabilidad y estadı́stica . . . . . . . . . . . . . . . . . . . 13
1.1. Variables aleatorias discretas . . . . . . . . . . . . . . 13
1.2. Distribución discreta uniforme. . . . . . . . . . . . . 17
1.3. Distribución binomial. . . . . . . . . . . . . . . . . . 19
1.4. Distribución de Poisson . . . . . . . . . . . . . . . . . 25
1.5. Variables aleatorias continuas . . . . . . . . . . . . . 29
1.6. Distribución continua uniforme . . . . . . . . . . . . 30
1.7. Distribución normal. . . . . . . . . . . . . . . . . . . 33
1.8. Distribución χ2 de Pearson. . . . . . . . . . . . . . . 40
1.9. Distribución t de Student. . . . . . . . . . . . . . . . 42
2. Inferencia estadı́stica. . . . . . . . . . . . . . . . . . . . . . . 43
2.1. Inferencia y muestras. . . . . . . . . . . . . . . . . . 46
2.2. Muestreo aleatorio simple (M.A.S) . . . . . . . . . . 47
2.3. Estadı́sticos y distribuciones muestrales. . . . . . . . 50
2.4. Distribuciones muestrales de la media y de la desvia-
ción tı́pica . . . . . . . . . . . . . . . . . . . . . . . . 53
2.5. Teorema central del lı́mite. . . . . . . . . . . . . . . . 54

3
2.6. Estimadores y sus propiedades deseables. . . . . . . . 56
2.7. Métodos de estimación. . . . . . . . . . . . . . . . . . 59
3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

2. Estadı́stica aplicada: ajustes, análisis de errores y criterios


de decisiones 65
1. Gaussianas y errores . . . . . . . . . . . . . . . . . . . . . . 65
2. Método de la máxima verosimilitud . . . . . . . . . . . . . . 66
2.1. Mı́nimos cuadrados. . . . . . . . . . . . . . . . . . . . 69
3. Bondad de los ajustes. . . . . . . . . . . . . . . . . . . . . . 82
3.1. Método χ2 . . . . . . . . . . . . . . . . . . . . . . . . 83
3.2. Interpretación de la desviación tı́pica . . . . . . . . . 88
4. Criterios para decisiones. . . . . . . . . . . . . . . . . . . . . 91
4.1. Hipótesis y tipos de errores . . . . . . . . . . . . . . 91
4.2. Contrastes basados en distribuciones . . . . . . . . . 95
5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

3. Teorı́a de filtrado 107


1. Conceptos generales. . . . . . . . . . . . . . . . . . . . . . . 107
1.1. Sistemas: señales y bloques. . . . . . . . . . . . . . . 107
1.2. Respuesta impulsional, función de transferencia y res-
puesta en frecuencia. . . . . . . . . . . . . . . . . . . 111
1.3. Filtros. . . . . . . . . . . . . . . . . . . . . . . . . . . 128
2. Filtrado electrónico analógico. . . . . . . . . . . . . . . . . . 131
2.1. Filtros pasivos de primer orden. . . . . . . . . . . . . 132
2.2. Filtros activos de primer orden. . . . . . . . . . . . . 133

4
ÍNDICE GENERAL

3. Señales muestreadas. . . . . . . . . . . . . . . . . . . . . . . 136


3.1. Señales muestreadas. Teorema de Nyquist-Shanon. . . 137
4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

4. Unidades electromagnéticas 145


1. Unidades fundamentales y unidades derivadas . . . . . . . . 145
1.1. El Sistema Internacional de Unidades (SI) . . . . . . 146
2. Unidades y ecuaciones electromagnéticas . . . . . . . . . . . 149
2.1. Los diferentes sistemas de unidades electromagnéticas 155
3. Conversión entre unidades gaussianas y SI . . . . . . . . . . 157
4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

Anexo A. Ejemplos desarrollados de análisis de datos experi-


mentales 165
1. Radiación del cuerpo negro. . . . . . . . . . . . . . . . . . . 165
2. Dispersión de piones. . . . . . . . . . . . . . . . . . . . . . . 171
3. Relación brillo-periodo en las estrellas variables cefeidas . . . 177
4. Epidemias mundiales y supervivencia . . . . . . . . . . . . . 182

Anexo B. Integrales gaussianas 189

Anexo C. Tabla de probabilidades de la distribución normal


tipificada 193

Anexo D. Contenidos adicionales de teorı́a de filtrado 195


1. Convolución y autocorrelación . . . . . . . . . . . . . . . . . 195
1.1. Teorema de convolución. . . . . . . . . . . . . . . . . 195

5
1.2. Teorema de Wiener-Khinchin. . . . . . . . . . . . . . 196
2. Transformada de Fourier discreta (DFT) . . . . . . . . . . . 197
3. Efectos del muestreo y ventana de digitalización. . . . . . . . 200
3.1. Duración finita de la señal y ((ventanas)) digitales. . . 200
4. Técnicas de filtrado de señales muestreadas. . . . . . . . . . 208
5. Filtros pasivos y activos de orden 2 y superiores. . . . . . . . 211
5.1. Filtros pasivos de segundo orden. . . . . . . . . . . . 211
5.2. Filtros pasivos de orden superior. . . . . . . . . . . . 212
5.3. Filtros activos de segundo orden. . . . . . . . . . . . 215
5.4. Sı́ntesis de filtros de orden superior a partir de la fun-
ción de respuesta en frecuencia. . . . . . . . . . . . . 221
6. Transformada rápida de Fourier (FFT). . . . . . . . . . . . . 225

Soluciones de los ejercicios 235

Bibliografı́a 235

6
INTRODUCCIÓN

“The test of all knowledge is experiment.


Experiment is the sole judge of scientific truth.”
Richard P. Feynmann, The Feynmann Lectures on Physics [1].

“A theory can be tested by experience,


but there is no way from experience to the setting up of a theory.”
Albert Einstein, Autobiographical Notes [2].

Las dos citas en la parte superior tienen una relación interesante en cuanto
a los aspectos de la construcción-descubrimiento de lo que denominamos
((conocimiento cientı́fico)) y podrı́an ser parte de una conversación entre dos
de los grandes genios de la historia de la Humanidad. La frase de Feynmann
hay que englobarla dentro de un ámbito didáctico y ligeramente fuera de
contexto, ya que el texto donde está contenida la cita continúa preguntándo-
se de dónde provienen las leyes cientı́ficas [1], precisamente en el sentido de la
cita de Einstein. Lo que quiere decir el fı́sico norteamericano es que ninguna
teorı́a cientı́fica o modelo matemático que tenga relación con la ((realidad))
fı́sica tiene sentido sin una ((verificación)) experimental. Es decir, si no está,
digamos, ((refrendada)) por los experimentos. En realidad, el proceso formal
es el contrario: las teorı́as fı́sicas se contrastan con los experimentos de ma-
nera que se rechazan en caso de que no sean acordes. Si por el contrario,
todo encaja correctamente dentro de la precisión experimental, no tendre-
mos argumentos para descartar la teorı́a, con lo cual supondremos que es
correcta (al menos de momento).
Es decir, no es posible saber con total certeza si una teorı́a o modelo es
correcta de forma absoluta, porque no es posible realizar infinitos experi-
mentos que la corroboren en cualquier situación posible. Lo que podemos

7
hacer, sin embargo, es descartar el modelo fı́sico con total fiabilidad: si no
coincide con el experimento, la teorı́a es incorrecta. Esta lógica es la base de
buena parte de la Estadı́stica y en concreto de los contrastes de hipóte-
sis, que veremos muy brevemente en este texto. De forma complementaria,
la cita de Albert Einstein afirma que la construcción teórica de modelos
fisico-matemáticos no puede realizarse a través de la experiencia, aunque
esta sea esencial para el desarrollo conjunto de la metodologı́a cientı́fica y
del conocimiento.
En relación con lo anterior conviene que desarrollemos en qué consisten
los modelos dentro de la Matemática. En Ciencias Aplicadas, un modelo
matemático es aquel en el que se emplea algún formalismo para expresar
relaciones, proposiciones sustantivas de hechos, variables, parámetros, en-
tidades y relaciones entre variables y/o entidades que permitan estudiar el
comportamiento de sistemas complejos que no pueden ser observados en la
realidad. Un modelo formal para una cierta teorı́a matemática es un conjun-
to sobre el que se han definido varias relaciones entre algunos elementos del
conjunto que satisfacen las proposiciones derivadas del conjunto de axiomas
que propone la teorı́a. La rama de la Matemática que se encarga de estudiar
de forma sistemática los modelos es la teorı́a de los modelos.
Se podrı́a decir que un modelo en Ciencias Fı́sicas es una forma de repre-
sentar cada uno de los tipos de entidades que intervienen en un cierto tipo
de proceso fı́sico mediante objetos matemáticos. Las relaciones matemáticas
formales entre los objetos del modelo deben representar de alguna manera
las interacciones reales existentes entre las diferentes entidades o partes del
sistema que se esté estudiando. Ası́, una vez traducido (o representado) cier-
to problema se pueden aplicar el Cálculo, el Álgebra y otras herramientas
matemáticas para deducir el comportamiento del sistema bajo estudio. Un
modelo fı́sico requerirá, por tanto, que se pueda seguir el camino inverso al
modelado, de tal forma que se pueda interpretar la realidad a partir de las
predicciones del modelo.
Podemos clasificar los modelos de acuerdo con los siguientes criterios:

Según la información de entrada. Con respecto a la función de origen


de la información utilizada para construir los modelos. Dentro de esta
clasificación tendremos los modelos ((heurı́sticos)) y los ((empı́ricos)).

8
Introducción

Los primeros se basan en explicaciones sobre las causas o mecanismos


naturales que dan lugar al fenómeno estudiado y los segundos en la
observación de algunos hechos concretos.

Según el tipo de representación. Los modelos matemáticos pueden re-


cibir diferentes nombres dependiendo de sus aplicaciones (que pueden
ser muy diversas). Una posible clasificación puede atender a si preten-
den hacer predicciones de tipo cualitativo o si pretenden cuantificar
algún aspecto (o algunos) del sistema que se está modelizando:

Modelos cualitativos o conceptuales: En ellos se suelen usar figu-


ras, gráficos o descripciones causales, en general se contentan con
predecir si el estado del sistema irá en una determinada direc-
ción o si aumentará o disminuirá alguna magnitud, sin importar
el valor concreto de cada una de las magnitudes.
Modelos cuantitativos o numéricos: Usan números para repre-
sentar aspectos de los sistemas que se modelan. Generalmente
incluyen algoritmos y fórmulas matemáticas más o menos com-
plejas que se relacionan con los valores numéricos. El cálculo de
los mismos permite representar el proceso fı́sico o los cambios
precisos del sistema modelado.

Según la aleatoriedad. Esta clasificación es independiente de la anterior


y responde a si a una entrada (o situación inicial concreta) le pue-
den corresponder diversas salidas o no de los resultados. En este caso
tenemos los siguientes tipos de modelos:

Determinista: En este modelo se conoce con certeza la forma del


resultado ya que no hay incertidumbre. Los datos utilizados para
alimentar el modelo son completamente conocidos.
Estocástico: Este modelo es probabilı́stico, es decir, que no se co-
noce su resultado con certeza. En estos modelos existe una cierta
probabilidad de encontrar cada uno de los posibles resultados; es
decir que el modelo tiene un cierto grado de incertidumbre.

Un ejemplo histórico acerca de un modelo matemático ((confirmado)) (no des-


cartado) por un resultado experimental puramente negativo serı́a el clásico

9
del desarrollo de la Teorı́a de la Relatividad Especial de Albert Einstein
(1905) y su relación con el experimento de Michelson-Morley acerca de la
existencia del denominado ((éter)) (1887). En el siglo XIX se pensaba que
la luz se propagaba en un medio desconocido llamado éter. El experimento
de Michelson-Morley se basaba en estudiar la velocidad relativa a la que se
movı́a la Tierra respecto al éter: la velocidad de la luz que proviene del Sol
deberı́a tener entonces diferentes valores en función de la época del año y
de la posición de la Tierra respecto al éter. Michelson desarrolló un sistema
óptico de gran precisión que permitió concluir que no existı́a ninguna varia-
ción apreciable en la velocidad de la luz durante el movimiento de la Tierra
alrededor del Sol. Este resultado dejó completamente desconcertados a los
fı́sicos de la época y no fue hasta la publicación de la Relatividad Especial
de Einstein (y su posterior y lenta aceptación) que se encontró una interpre-
tación satisfactoria a este experimento (la velocidad de la luz es constante
y el éter no existe).
En 1907 se le concedió el premio Nobel de Fı́sica a Michelson por sus contri-
buciones al desarrollo y precisión de las mediciones experimentales mediante
técnicas ópticas (no por la ((confirmación)) experimental de la Relatividad
de Einstein, que en ese momento se consideraba de forma general como algo
puramente especulativo). En el discurso de presentación del premio, a cargo
de K.B. Hasselberg, este leyó lo siguiente:
((En cuanto a la Fı́sica, se ha desarrollado notablemente como una ciencia
de precisión, de tal manera que podemos afirmar justificadamente que la
mayorı́a de los grandes descubrimientos en Fı́sica están basados en su mayor
parte en el alto grado de precisión que puede obtenerse ahora en medidas
tomadas durante el estudio de los fenómenos fı́sicos. [La precisión de la
medida] es la auténtica raı́z, la condición esencial, de nuestra penetración
en las profundidades de las leyes de la Fı́sica, nuestra única vı́a hacia nuevos
descubrimientos.))1
Subyace en estas palabras la creencia general entre la comunidad cientı́fica
de finales del siglo XIX y principios del XX de que toda la Fı́sica esta-

1
Texto traducido al castellano extraı́do de ((Generaciones Cuánticas)) de H. Kragh [3]. El parrafo
en inglés procede a su vez de ((Thematic Origins Of Scientific Thought: Kepler to Einstein)) de G. Holton
[4].

10
Introducción

ba finalizada y que lo único que restaba eran medidas más precisas de los
fenómenos naturales; algo que se demostró falso, gracias entre otros y preci-
samente, al experimento de Michelson sobre la velocidad de la luz. Es decir,
el grado de precisión y la exactitud son fundamentales en la actividad ex-
perimental de las Ciencias Fı́sicas. Sin una precisión adecuada y un método
experimental sofisticado, Michelson no podrı́a haber llegado a una conclu-
sión sobre los resultados de su experimento. En tal caso, los experimentos
negativos pueden ser incluso más alumbradores que aquellos que confirman
una teorı́a, ya que proporcionan un enunciado que es completamente cierto:
si no coincide con el experimento, el modelo fı́sico es incorrecto, al menos
para explicar el fenómeno en cuestión.
Los conceptos de precisión y exactitud ya fueron tratados en el curso de
Técnicas Experimentales I, ası́ como una pequeña introducción al análisis
de errores y a la metodologı́a experimental. Todos estos conocimientos se
dan por supuestos en este texto. En este curso se realiza primero una in-
troducción a la Estadı́stica en el capı́tulo 1, enfocada especialmente en la
probabilidad y las distribuciones. En el capı́tulo 2 se aplica lo aprendido
en el capı́tulo anterior para ampliar conocimientos en métodos en ajus-
tes de datos a funciones y análisis de errores en regresiones lineales. A su
vez, se realiza una pequeña y necesariamente incompleta introducción a la
bondad de los ajustes y al contraste de hipótesis. En el capı́tulo 3 se desa-
rrollan métodos de análisis de señales enfocados al filtrado de las mismas.
Es recomendable que el estudiante curse o esté cursando simultáneamen-
te la asignatura Teorı́a de Circuitos y Electrónica, donde se explican los
diseños básicos de circuitos integradores y derivadores con amplificadores
operacionales (filtros activos de primer orden). El último capı́tulo antes de
los anexos consiste en un resumen detallado de los diferentes sistemas de
unidades que aparecen en Electromagnetismo. Este texto se completa con
cuatro anexos: el primero contiene varios ejemplos desarrollados (adaptados
de exámenes de la asignatura) de análisis de datos de acuerdo a lo explica-
do en los primeros capı́tulos. Los anexos segundo y tercero versan sobre el
cálculo de integrales gaussianas y la probabilida de la distribución normal
tipificada. El cuarto anexo contiene material adicional relacionado con la
teorı́a de filtrado del capı́tulo 3. Cada uno de los cuatro primeros capı́tulos
contiene ejercicios resueltos y una pequeña selección de ejercicios finales de

11
autoevaluación. La solución a estos ejercicios puede encontrarse al final de
este texto, justo antes de la bibliografı́a.

12
Tema 1
INTRODUCCIÓN A LA ESTADÍSTICA

1. PROBABILIDAD Y ESTADÍSTICA

El concepto de probabilidad no es más que una medida cuantitativa de


la posibilidad. Al decir que un determinado fenómeno tiene una probabili-
dad de ocurrencia, estamos dando información sobre cuán probable es que
dicho fenómeno ocurra. Inherente a esta medida de probabilidad está el he-
cho de desconocer, en general, todos los parámetros que determinan que el
fenómeno ocurra o no. Hablamos por tanto con un cierto margen de error
en nuestra afirmación, pues simplemente damos una aproximación que bien
puede darse, o no. La idea intuitiva de la probabilidad es que es una medida
que, cuanto mayor sea, más posibilidades tendrá de suceder. Ası́, asignamos
a un determinado suceso una probabilidad determinada, acotada entre cier-
tos lı́mites, que nos permite determinar, en su conjunto, cómo de probables
son todos los sucesos asociados a un fenómeno.

1.1. Variables aleatorias discretas

Llamamos variable aleatoria discreta xi al suceso dentro de un conjunto


de posibles eventos X = {x1 , x2 , x3 , . . . , xN } caracterizado por una medida
de la probabilidad P (xi ) que verifica:

1. La probabilidad de que ocurra el suceso xi es mayor o igual que cero:

P (xi ) ≥ 0 . (1.1)

2. La suma de las probabilidades de todos los sucesos posibles es igual a

13
la unidad (lo que llamamos condición de normalización):

X
N
P (xi ) = 1 . (1.2)
i=1

Basándonos en estas propiedades definimos un suceso seguro como aquel


con probabilidad P (xi ) = 1. Equivalentemente, definimos un suceso impo-
sible como aquel con probabilidad P (xi ) = 0. Cualquier otro suceso tendrá
una probabilidad P (xi ) > 0.
Formalmente decimos que la probabilidad P (x) de que ocurra el suceso
x ∈ X conforma la distribución de probabilidad de X.
A partir de la probabilidad de que tengamos un determinado suceso, P (xi ),
podemos preguntarnos por la probabilidad de sucesos compuestos. Decimos
que si dos sucesos xi y xj son estadı́sticamente independientes (esto es,
que la probabilidad P (xi ) no depende de la probabilidad P (xj ), y viceversa)
entonces la probabilidad conjunta de que se den los sucesos xi y xj será

P (xi && xj ) = P (xi )P (xj ) , (1.3)

resultado que puede generalizarse para la probabilidad conjunta de N su-


cesos estadı́sticamente independientes:

Y
N
P (x1 && x2 && . . . && xN ) = P (xi ) . (1.4)
i=1

Por otro lado, si dos sucesos xi y xj son mutuamente excluyentes (esto es,
que no pueden darse a la vez), entonces la probabilidad de que se dé xi o
xj viene dada por

P (xi kxj ) = P (xi ) + P (xj ) , (1.5)

que igualmente puede generalizarse para la probabilidad de N sucesos mu-


tuamente excluyentes. De este modo, la probabilidad P (x ≤ xj ), que no es
más que la probabilidad de que se dé x1 o x2 o x3 . . . o xj (lo que se conoce
como función de distribución acumulativa, o CDF por sus siglas en

14
Introducción a la Estadı́stica

inglés), vendrá dada por


j
X
CDFx (xj ) = P (x ≤ xj ) = P (xi ) . (1.6)
i=1

Obviamente, por la condición de normalización inherente a cualquier distri-


bución de probabilidad, se tiene:

X
N
CDFx (N ) = P (xi ) = 1 . (1.7)
i=1

más información

Las propiedades anteriormente mencionadas para sucesos compuestos


distan de ser completamente generales. Hemos hecho hincapié en la ne-
cesidad de que los sucesos sean en un caso excluyentes entre sı́, en tanto
que en el otro deben ser estadı́sticamente independientes. Si pensamos
en el ejemplo de lanzar una moneda al aire, es fácil determinar que se
trata de sucesos excluyentes ya que cada uno de los posibles resultados
excluye al contrario.
En el caso de sucesos estadı́sticamente independientes, podemos pensar
en la probabilidad de que al realizar dos tiradas con un dado de seis
caras se obtenga un ((2)) en la primera tirada y un ((2)) en la segunda.
Parece lógico suponer que el resultado de la primera tirada no afectará
a las probabilidades de la segunda. Por el contrario, si nos pregunta-
mos por el hecho de que el primer número sea un ((2)) y que ambos
resultados sean números pares, es inmediato detectar que el resultado
de la primera tirada afecta, efectivamente, a la segunda.
El lector debe ser cuidadoso a la hora de asignar probabilidades com-
puestas pues no siempre resulta tan sencilla la asignación de las mismas
ni es fácil, a veces, detectar correlaciones entre eventos.

Supongamos entonces un conjunto de N sucesos independientes, que referen-


ciamos como X = {x1 , x2 , . . . , xN }, cada uno de ellos con una determinada

15
probabilidad P (xi ). Definimos el valor esperado de la variable aleatoria
discreta x (también llamado valor medio o primer momento) como

E(x) = x = hxi = µ
X
N
= xi P (xi ), (1.8)
i=1

donde hemos aprovechado para utilizar las notaciones más comunes que
hacen referencia al valor esperado. El resultado obtenido puede generalizarse
al valor esperado de cualquier función f (x) que dependa de la variable
aleatoria x, que se define como

X
N
f (x) = f (xi )P (xi ). (1.9)
i=1

La desviación respecto del valor esperado se define como ∆x = x − x, a


partir de la cual se definen los llamados momentos centrales. El momento
central de primer orden, esto es, la desviación media del valor medio, es

∆x = x − x = x − x = 0. (1.10)

El momento central de segundo orden (también llamada varianza) se


define como


Var(x) = (∆x)2 = (∆x)2 = σ 2
= (x − x)2 = x2 − 2xx + x2 = x2 − 2x x + x2 = x2 − x2 . (1.11)

Notemos que por la definición (1.9) la varianza puede escribirse también


como
X
(∆x)2 = (xi − x)2 P (xi ) . (1.12)
i

Definimos finalmente la desviación estándar como la raı́z cuadrada de la


varianza,
q
σx = (∆x)2 . (1.13)

16
Introducción a la Estadı́stica

Siguiendo este mismo procedimiento, y conocida la distribución de probabi-


lidad, pueden calcularse (si existen) sus infinitos momentos. El caso recı́pro-
co es en general también cierto, y a partir del conocimiento de los infinitos
momentos (formalmente, la función generadora de momentos) es po-
sible determinar la distribución de probabilidad. Veremos no obstante más
adelante que en muchas ocasiones basta conocer los dos primeros momentos
para definir la distribución de probabilidad.

1.2. Distribución discreta uniforme.

De todas las distribuciones de probabilidad existentes, quizás la más simple


sea la llamada distribución (de probabilidad discreta) uniforme. Se
dice que una distribución discreta de probabilidad es uniforme cuando todos
los posibles valores de la variable aleatoria x son igualmente probables, esto
es:
1
P (x) = f (xi ; N ) = , (1.14)
N
siendo N el número de posibles valores que puede tomar el conjunto X =
{x1 , x2 , x3 , . . . , xN }. Notemos que se ha utilizado la notación f (xi ; N ), ya
que la distribución de probabilidad solo depende del parámetro N , es decir,
del número total de posibles resultados del experimento.
Es fácil ver que, en efecto, esta distribución está normalizada:
X
N XN
1 1
f (xi ; N ) = = N = 1.
i=1 i=1
N N

Las expresiones para la media y la varianza son:


X
N
1 X
N
µ= xi f (xi ; N ) = xi , (1.15)
i=1
N i=1
XN
1 X
N
2 2
σ = (xi − µ) f (xi ; N ) = (xi − µ)2 . (1.16)
i=1
N i=1

17
Ejercicio 1.1 Sea un experimento que consiste en lanzar un dado de seis
caras y observar el resultado. Sabemos que el conjunto de sucesos posible
es X = {1, 2, 3, 4, 5, 6}, con un total de N = 6 posibilidades. Suponiendo
que el dado no esté trucado obtenga el valor medio, la varianza y la
desviación estándar.

Solución
Al informarnos de que el dado no está trucado, nos indican que ((a priori))
podemos considerar que todos los resultados son igualmente probables.
Ası́, la distribución de probabilidad de la variable aleatoria x (esto es,
la probabilidad de que en un lanzamiento se obtenga el valor x) sigue
una distribución discreta uniforme. Dado que los resultados posibles son
N = 6, asignamos a cada uno de ellos una probabilidad P (x) = 1/6, que
cumple por supuesto con la condición de normalización (1.2). El valor
medio de una tirada puede calcularse entonces como:

1X
6
1+2+3+4+5+6
µ= xi = = 3,5 ,
6 i=1 6

y la varianza y la desviación estándar serán:


P
1X
6
2 (xi − 3,5)2
σ = (xi − µ)2 = ' 2,92 ,
6 i=1 6
p
σ = 2,92 ' 1,71 .

Una pregunta interesante aquı́ serı́a ¿cuál es la probabilidad de que en


una tirada del dado se obtenga, justamente, el valor medio de la distri-
bución de probabilidad?

18
Introducción a la Estadı́stica

más información

El ejercicio anterior ilustra lo que se conoce como principio de indife-


rencia: si tenemos un conjunto de N sucesos, mutuamente excluyentes
y colectivamente exhaustivos, que se diferencian únicamente en el nom-
bre, entonces podemos asignar a cada uno de ellos una probabilidad N1 .
Aquı́, por mutuamente excluyentes queremos decir que los sucesos
no pueden darse a la vez (en el ejemplo, que salga un ((1)) implica que
no ha salido ((2)), ni un ((3)). . . ). Colectivamente exhaustivos nos
indica que el conjunto de todos los posibles sucesos constituyen el total
del espacio muestral (el ((1)), el ((2)), el ((3)), etc. conforman todas las
posibles opciones al tirar el dado).

1.3. Distribución binomial.

Supongamos una variable aleatoria discreta que solo puede tomar dos valo-
res que son, además, excluyentes entre sı́. Podemos pensar en un experimen-
to como lanzar una moneda al aire, donde los únicos resultados posibles son
que salga cara o que salga cruz. La variable aleatoria ((lado que muestra la
moneda al caer al suelo)), que simplificaremos por x, tendrá una determinada
distribución de probabilidad que, a priori, podemos suponer uniforme.
Generalicemos este experimento al caso de que nuestra variable aleatoria
no siga una distribución de probabilidad uniforme. Sı́ seguirá, desde lue-
go, una determinada distribución. Llamemos a las dos posibilidades ((éxito))
y ((fracaso)). La probabilidad de que la variable aleatoria x tome el valor
((éxito)) la denotaremos por p, de modo que la probabilidad de fracaso será
q = 1 − p.1 Un experimento de este tipo se denomina un ensayo de Ber-
noulli.
La distribución de probabilidad del ensayo de Bernoulli puede obtenerse
considerando una variable aleatoria discreta x ∈ {0, 1}, donde ((0)) se co-

1
Notemos que la condición de normalización p + q = 1 determina unı́vocamente el valor de q a
partir del conocimiento de p.

19
rresponde a la posibilidad ((fracaso)) y ((1)) a la posibilidad ((éxito)). Si la
probabilidad de obtener un 0 es q y la probabilidad de obtener un 1 es p,
podemos considerar la distribución siguiente:

f (x) = px q 1−x , (1.17)

que, observemos, verifica inmediatamente f (0) = q y f (1) = p. El valor


medio y la varianza de esta distribución de probabilidad son:

X
1
µ= xf (x) = 0 × q + 1 × p = p , (1.18)
x=0
X1
σ2 = x2 f (x) − µ2 = 02 × q + 12 × p − p2 = p(1 − p) = pq . (1.19)
x=0

La generalización de este ensayo, con N repeticiones indistinguibles entre


sı́, y con probabilidades p y q constantes, se dice que es un proceso de
Bernoulli.

más información

Algunos ejemplos de procesos de Bernoulli son los siguientes: la prueba


de artı́culos en una cadena de montaje para ver si son defectuosos o no,
la extracción de una carta de una baraja para ver si es de un palo o no
(en este caso es importante devolver la carta extraı́da en cada ensayo
a la baraja después de verificar si es del palo elegido o no lo es), la
observación del sexo de un bebe recién nacido, etc.

Nos preguntamos ahora por una variable que cuantifique el número de éxi-
tos de un proceso de Bernoulli. Esta variable se define como variable
aleatoria binomial. Sabemos que tomará valores en el conjunto X =
{0, 1, 2, 3, . . . , N }, donde N es el número de veces que se repite cada en-
sayo de Bernoulli. La distribución de probabilidad asociada a esta variable
se denomina distribución binomial y viene representada por

P (x) = b(x; N, p) , (1.20)

20
Introducción a la Estadı́stica

donde p representa la probabilidad de que tengamos un éxito, (recordemos


que entonces q = 1 − p es la probabilidad de que se dé un fracaso) y N es el
número de repeticiones del experimento. La expresión de b(x; N, p) puede
calcularse considerando la probabilidad de obtener x éxitos con probabilidad
p y por tanto N − x fracasos con probabilidad q en un orden determinado.
Teniendo en cuenta que los N ensayos son independientes, la probabilidad
de que se dé una configuración particular de resultados será el producto de
las probabilidades de cada uno de los ensayos, es decir2 ,
x N −x
z }| {z }| {
(p × p × p · · · p) (q × q × q · · · q) = px q N −x . (1.21)

¿Y cuántas configuraciones dan lugar a esta probabilidad? Tantas como


formas hay de ordenar N elementos en dos grupos, uno de los cuales tiene
x elementos iguales entre sı́ y otro tiene N − x elementos también iguales
entre sı́. Esto no es más que el número de permutaciones con repetición
N!
PNx,N −x = . (1.22)
x!(N − x)!
Ası́, la probabilidad de obtener x éxitos cuando se han realizado N experi-
mentos, es decir, la llamada distribución binomial, viene dada por
N!
b(x; N, p) = px q N −x . (1.23)
x!(N − x)!

La figura 1.1 muestra la distribución de probabilidad binomial para un mis-


mo conjunto de ensayos N = 10 y distintas probabilidades de éxito. En
rojo, p = 0,25; en verde, p = 0,50. Obsérvese la asimetrı́a para el valor
p = 0,25 (generalizable a todo p 6= 0,5), ası́ como la simetrı́a para p = 0,50.
Un aspecto importante de la distribución binomial es que es, recordemos,
discreta, de modo que solo tiene sentido representarla para valores de x ∈ N.
El hecho de que la variable binomial pueda expresarse como la repetición
de N ensayos independientes de Bernoulli nos permite calcular los primeros
momentos de la distribución binomial. Por lo que respecta al valor medio,

2
Observemos que para N = 1 recuperamos la distribución de probabilidad de Bernoulli (1.17).

21
0.30
p = 0,25
p = 0,50
0.25

0.20
P (xi )

0.15

0.10

0.05

0.00
0 1 2 3 4 5 6 7 8 9 10
xi

Figura 1.1. Distribución binomial para N = 10 ensayos, con una probabilidad p = 0,25 (en rojo) y
p = 0,50 (en verde). Observemos que la distribución binomial es simétrica en caso de que p = q y presenta
asimetrı́a hacia la derecha (de forma que serán más probables los valores pequeños de x) cuando p < q.
Recı́procamente, existirá asimetrı́a a la izquierda si p > q.

este no será más que la suma de los valores medios de cada uno de los
ensayos (dados por la ecuación (1.18)), es decir,
µ = Np . (1.24)
Lo mismo ocurre con la varianza y la desviación tı́pica, que pueden obtenerse
directamente de la ecuación (1.19) como
σ 2 = N pq , (1.25)
p
σ = N pq . (1.26)

Ejercicio 1.2 Supongamos que un jugador de baloncesto tiene que tirar


3 tiros libres. Sabemos que su promedio de acierto en cada lanzamiento
es del 80 %. Obtenga las probabilidades de que enceste 1, 2 o 3 canastas.

Solución
Utilicemos la siguiente notación: S = canasta, N = fallo y x el núme-
ro de canastas. Supongamos que nuestro jugador es capaz de mantener

22
Introducción a la Estadı́stica

el temple tras cada lanzamiento y que, por tanto, el resultado de cada


lanzamiento es independiente del anterior. Ası́, podemos calcular la pro-
babilidad de encestar 1, 2 o 3 canastas como el producto de cada una
de las probabilidades individuales. Dado que conocemos la probabilidad
de cada suceso (P (S) = 0,8 y P (N ) = 0,2) y estos son estadı́sticamente
independientes podemos hacer un cálculo por ((fuerza bruta)) de todas
las posibilidades que pueden darse al tirar tres tiros libres:

P (SSS) = P (S)P (S)P (S) = 0,512


P (SSN ) = P (S)P (S)P (N ) = 0,128
P (SN S) = P (S)P (N )P (S) = 0,128
P (SN N ) = P (S)P (N )P (N ) = 0,032
P (N SS) = P (N )P (S)P (S) = 0,128
P (N SN ) = P (N )P (S)P (N ) = 0,032
P (N N S) = P (N )P (N )P (S) = 0,032
P (N N N ) = P (N )P (N )P (N ) = 0,008

Una vez hemos obtenido las distintas probabilidades de todos los posibles
sucesos, podemos calcular la probabilidad de que el jugador enceste 0,
1, 2 o 3 canastas. Bastarı́a con sumar, para cada una de las situaciones
planteadas, aquellos sucesos que dan lugar a la misma. Ası́

P (x = 0) = 0,008, que es la probabilidad del suceso P (N N N ).

P (x = 1) = 3×0,032 = 0,096, que es la suma de los casos P (N N S),


P (N SN ), P (SN N ).

P (x = 2) = 3×0,128 = 0,384, que es la suma de los casos P (N SS),


P (SN S), P (SSN ).

P (x = 3) = 0,512, que es la probabilidad del suceso P (SSS).

Vemos que es inmediato comprobar que la probabilidad de que acierte


0, 1, 2 o 3 canastas es igual a la unidad, verificando la propiedad de
normalización que se exige a cualquier distribución de probabilidad.

23
Ejercicio 1.3 Realice el mismo cálculo que en el ejercicio anterior pero
usando la forma funcional explı́cita de la distribución de probabilidad
(distribución binomial).

Solución
En efecto, las posibles combinaciones de cada número de encestes te-
niendo en cuenta que hay tres lanzamientos resulta ser:
3!
P33,0 = = 1, 3 encestes, 0 fallos.
3!0!
3!
P32,1 = = 3, 2 encestes, 1 fallo.
2!1!
3!
P31,2 = = 3, 1 enceste, 2 fallos.
1!2!
3!
P30,3 = = 1, 0 encestes, 3 fallos.
0!3!

Y para calcular la probabilidad de uno, dos o tres encestes, debemos


tener en cuenta la distribución binomial y las posibles combinaciones en
el número de encestes. Ası́, tendremos que la probabilidad de que haya
x encestes de N intentos es

b(x; N, p) = Pnx,N −x px q N −x ,

por lo que calcular todas las probabilidades es inmediato:

b(3; 3, 0,8) = P33,0 p3 q 0 = 0,512


b(2; 3, 0,8) = P32,1 p2 q 1 = 0,384
b(1; 3, 0,8) = P31,2 p1 q 2 = 0,096
b(0; 3, 0,8) = P30,3 p0 q 2 = 0,008

que coincide, como cabrı́a esperar, con los resultados realizados por fuer-
za bruta en el ejercicio anterior.
Conocida la distribución de probabilidad podrı́amos responder a cual-
quier cuestión. Por ejemplo, si queremos saber cuál es la probabilidad

24
Introducción a la Estadı́stica

de que el jugador acierte dos o más lanzamientos:

X
3
P (x ≥ 2) = b(x; 3, 0,8) = 0,384 + 0,512 = 0,896 .
x=2

Como ejercicio, el estudiante podrı́a tratar de calcular la probabilidad


de que el jugador haya encestado, al menos, una canasta.

1.4. Distribución de Poisson

Consideremos ahora un experimento aleatorio en el que se trata de medir


el número de resultados, o sucesos de un tipo dado y que se producen en
un intervalo continuo. El intervalo podrı́a ser una franja horaria, una zona
del espacio, una región de un paı́s, etc. Ejemplos de experimentos de este
tipo podrı́an ser el número de partı́culas radiactivas emitidas por un reactor
nuclear en un determinado dı́a, el número de estrellas que se observan en
una galaxia, etc. Diremos que estos datos siguen una proceso de Poisson
cuando cumplen las siguientes condiciones:

1. El número de resultados que se ven en un intervalo es independiente


del número que se ven en otro intervalo disjunto. Es decir, los sucesos
aparecen aleatoriamente de forma independiente.
2. La probabilidad de obtener un resultado en un intervalo pequeño es
proporcional a la longitud del intervalo. Además, esa probabilidad
permanece constante, de forma que se puede definir un número medio
de resultados por unidad de intervalo. Se dice entonces que el proceso
es estable.
3. La probabilidad de obtener más de un resultado en un intervalo sufi-
cientemente pequeño es despreciable. Esto es, si el tamaño del interva-
lo tiende a cero, la probabilidad de que se den dos (o más) resultados
en él es cero.

Se define entonces la variable aleatoria de Poisson como el número de

25
resultados que aparecen en un experimento que sigue el proceso de Poisson.
El rango de valores que toma la variable de Poisson será X = {0, 1, 2, . . .}.
La distribución de probabilidad asociada a esta variable se denomina distri-
bución de Poisson y dependerá, fundamentalmente, del número medio de
resultados (sucesos) por intervalo, que denotaremos por λ. La distribución
de Poisson se escribe como:
P (x) = p(x; λ) . (1.27)

La distribución de Poisson aparece como el lı́mite de la distribucion bino-


mial cuando el número de observaciones N es muy grande y la probabilidad
de que en una observación tengamos un suceso es muy pequeña. La idea
subyacente consiste en dividir el intervalo de observación en N intervalos
muy pequeños (formalmente, con N → ∞). De esta forma, la probabilidad
de que en cualquiera de los intervalos ocurra un evento exitoso será des-
preciable3 (formalmente p → 0) y, en vez de observar cuántos resultados
satisfactorios hay en el intervalo total, contamos en cuántos subintervalos
hay un resultado exitoso. Este proceso sigue una distribución de Bernoulli
(en cada subintervalo tenemos solo dos posibilidades, excluyentes entre sı́ e
independientes del resto de subintervalos). Podemos obtener la forma fun-
cional explı́cita de la distribución de Poisson partiendo de la distribución de
probabilidad binomial (1.23):
N! (1 − p)N
b(x; N, p) = px . (1.28)
x!(N − x)! (1 − p)x
Si expandimos el factorial de las permutaciones PNx,N −x y recordamos que
el valor medio de la distribución binomial es µ = N p = λ podemos escribir
N
N (N − 1)(N − 2) . . . (N − x + 1) λx 1 − Nλ
b(x; N, p) = x , (1.29)
Nx x! 1 − Nλ
y tomando el lı́mite N → ∞ y p → 0 (de modo que λ sea una cantidad
finita) llegamos a la distribución de Poisson
λx −λ
p(x; λ) = lı́m b(x; N, p) ' e . (1.30)
N →∞ x!
p→0

3
Por este motivo es común hablar de ((eventos raros)) al estudiar la variable de Poisson.

26
Introducción a la Estadı́stica

La distribución de Poisson se caracteriza porque su valor medio µ y su va-


rianza σ 2 coinciden con el parámetro λ. Ası́, la distribución de probabilidad
queda completamente caracterizada sin más que conocer dicho valor medio.
La figura 1.2 compara las distribuciones binomial y de Poisson para un
mismo valor de N = 100 y p = 0,05. Nótese la asimetrı́a existente en las dos
ramas (a izquierda y derecha del valor medio µ = λ = 5). Si aumentamos
suficientemente el número de experimentos N y disminuimos la probabilidad
de ocurrencia p, observaremos que las diferencias entre ambas distribuciones
de probabilidad terminan siendo despreciables.

0.20
Binomia
0.18 Poisson
0.16
0.14
0.12
P (xi )

0.10
0.08
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16 18 20
xi

Figura 1.2. Comparación entre distribuciones binomial (en aspas rojas) y de Poisson (en cuadrados
verdes) para un mismo valor de N = 100 y p = 0,05.

En el caso de la distribución de Poisson, la CDF será:


X λ xi
CDFX (x) = e−λ .
x ≤x
x i !
i

La figura 1.3 muestra la CDF para una distribución de probabilidad de


Poisson con valores λ = 1,0 (rojo), λ = 5,0 (verde) y λ = 10,0 (azul). En
todos los casos se observa como, efectivamente, la CDF tiende a la unidad,
verificando la condición de normalización.

27
1.0

CDF(p(x, λ)) 0.8

0.6

0.4

0.2

0.0
0 5 10 15 20
x

Figura 1.3. Función de distribución acumulativa para la distribución de Poisson y distintos valores de λ:
λ = 1,0 (rojo), λ = 5,0 (verde) y λ = 10,0 (azul).

más información

Las aplicaciones de la distribución de Poisson son muy numerosas, des-


de el control de calidad y el muestreo de aceptación, hasta problemas
fı́sicos en los que se mide un número de sucesos, número de casos, etc.
Además, esta distribución siempre puede sustituir a distribuciones bi-
nomiales en experimentos en los que se dan muchos sucesos y en los
que la probabilidad de éxito es pequeña, es decir, en aquellas en las que
el producto N p es finito.

Ejercicio 1.4 Supongamos que disponemos de acceso a un detector


astronómico al que llegan, en promedio, 3 fotones por segundo. Calcule
la probabilidad de que lleguen 1, 2, 3, 4, . . . fotones por segundo.

Solución
Este problema sigue una distribución de Poisson con parámetro λ = 3.

28
Introducción a la Estadı́stica

Por tanto, su función de distribución de probabilidad es:


3x −3
p(x; 3) = e .
x!

Utilizando esta fórmula obtenemos algunos de los valores de la distribu-


ción:

p(0, 3) = 0,05, p(1, 3) = 0,15, p(2, 3) = 0,22,


p(3, 3) = 0,22, p(4, 3) = 0,17, p(5, 3) = 0,05, . . .

También podemos calcular las distribuciones acumuladas, por ejemplo,


la probabilidad de que lleguen 3 o menos fotones:

P (X ≤ 3) = p(0, 3) + p(1, 3) + p(2, 3) + p(3, 3) = 0,64 ,

o la probabilidad de que lleguen entre 1 y 4 fotones:

P (1 ≤ X ≤ 4) = p(1, 3) + p(2, 3) + p(3, 3) + p(4, 3) = 0,76 .

1.5. Variables aleatorias continuas

Hasta el momento nos hemos referido a variables aleatorias discretas, ca-


racterizadas por una determinada distribución de probabilidad y con unas
propiedades de normalización dadas por la suma de cada una de las pro-
babilidades individuales. Por supuesto, podemos extrapolar las definiciones
anteriores a variables aleatorias continuas. Si una determinada variable alea-
toria x es continua, definimos su función de densidad de probabilidad
ρ(x) de modo que ρ(x)dx es la probabilidad de que la variable x tome un
valor comprendido entre x y x + dx. Ası́, la probabilidad de que la variable
aleatoria x tome un valor comprendido entre x1 y x2 vendrá dada por la

29
integral
Z x2
dx ρ(x), (1.31)
x1

que, recordemos, no es más que el área encerrada bajo la curva ρ(x) en el


intervalo (x1 , x2 ).
Los primeros momentos de una variable aleatoria continua se definen del
siguiente modo:
Z ∞
x= dx xρ(x) = µ , (1.32)
−∞
Z ∞
x2 = dx x2 ρ(x) . (1.33)
−∞

La varianza se define, por analogı́a con el caso discreto, como


Z ∞
2
σ = dx (x − µ)2 ρ(x) . (1.34)
−∞

Por supuesto, la condición de normalización tendrá ahora la forma


Z ∞
dx ρ(x) = 1 . (1.35)
−∞

1.6. Distribución continua uniforme

Se dice que una variable aleatoria continua x sigue una distribución conti-
nua uniforme cuando su función de densidad de probabilidad, ρ(x), toma
valores constantes en el intervalo [a, b]. Es decir, se cumple que ρ(x) = K en
ese intervalo y, por tanto, la probabilidad de que tome un valor en cualquier
subintervalo (dentro de ese intervalo) es la misma. Para calcular el valor de
la constante basta con imponer la condición de normalización de la función
de densidad:
Z ∞ Z b
1= ρ(x)dx = ρ(x)dx
−∞ a
Z b (1.36)
1
= Kdx = K(b − a) ⇒ K = .
a (b − a)

30
Introducción a la Estadı́stica

La densidad de probabilidad es por tanto constante y de valor


1
ρ(x) = (1.37)
b−a
dentro del intervalo [a, b] y cero fuera de él.
Podemos calcular la función de distribución acumulada CDF(x) cuando x
se encuentra dentro del intervalo [a, b], que no será más que
Z x Z x
1 x−a
P (X < x) = ρ(t)dt = dt = , (1.38)
−∞ a b−a b−a

lo que nos indica que la función de distribución acumulada es cero en todos


los puntos salvo en el intervalo [a, b] donde toma la forma (x−a)/(b−a). Esta
expresión es una función lineal que comienza en 0 y crece linealmente hasta
el valor 1 en el otro extremo, asegurando la normalización de la densidad
de probabilidad.
El cálculo del primer momento y del momento central de segundo orden es
inmediato:
Z ∞ Z b
1 a+b
µ= xρ(x)dx = x = ,
−∞ a b−a 2
Z ∞ Z b 2
2 2 a+b dx
σ = (x − µ) ρ(x)dx = x−
−∞ a 2 b−a
(b − a)2
= ,
12
de modo que la desviación estándar será
b−a
σ= √ . (1.39)
12

Ejercicio 1.5 El volumen de precipitaciones en una ciudad en un de-


terminado año se estima que oscilará entre 400 litros y 500 litros por
metro cuadrado. Calcule la densidad de probabilidad de la variable alea-
toria ((litros por metro cuadrado)) en esta ciudad, la precipitación media
esperada y el error que se comete al realizar esta predicción.

31
Solución
Puesto que no existe ninguna regla para diferenciar entre sı́ dos interva-
los de precipitación (existe la misma probabilidad de que caigan entre
405 l y 406 l, de que caigan entre 411 l y 412 l, entre 489 l y 490 l,
etc.), el principio de indiferencia nos permite suponer que la probabili-
dad es constante en todo el intervalo. Sabiendo esto, podemos calcular
la densidad de probabilidad como
1
ρ(x) = l−1 = 0,01 l−1 .
500 − 400

Recordemos que una vez obtenida la densidad de probabilidad, la pro-


babilidad de que caiga una cierta cantidad de agua entre x y x + dx
será
ρ(x)dx = 0,01 l−1 dx . (1.40)
Es fácil comprobar que la probabilidad de que caigan entre 400 y 500
litros será entonces
ρ(400) × (500 − 400) l = 0,01 × 100 = 1 , (1.41)
lo que coincide con el enunciado del problema tal y como cabrı́a esperar.
La precipitación media esperada es el valor medio de la densidad de
probabilidad:
a+b 400 + 500
µ= = l = 450 l .
2 2
Podemos tomar como error la desviación tı́pica de la distribución, dada
por
b−a 500 − 400
σ= √ = √ l = 28,87 . . . l ' 30 l .
12 12

Finalmente, concluimos que la precipitación media esperada para ese


año será:
p = (450 ± 30) l .

32
Introducción a la Estadı́stica

1.7. Distribución normal.

La distribución normal (también llamada distribución gaussiana) es,


sin duda, la más importante de toda la Estadı́stica. Esto se debe a que mu-
chos fenómenos de la naturaleza pueden ser descritos por una distribución
de este tipo. También muchas medidas de magnitudes fı́sicas suelen seguir
esta distribución. La altura de los individuos de una determinada pobla-
ción, las medidas de calidad de algunos procesos industriales, o las medidas
de temperatura que se dan en una determinada región del mundo, pueden
aproximarse muy bien por distribuciones normales.
Se da la circunstancia de la que distribución normal puede obtenerse como el
lı́mite para N → ∞ de la distribución binomial. Si recordamos el desarrollo
de la distribución de Poisson y su obtención a partir de la binomial, podemos
obtener para el caso de p < ∞ la distribución normal. Esto nos indica, una
vez más, su gran importancia en procesos fı́sicos.

Definición y propiedades.

Se dice que una variable aleatoria x sigue una distribución normal de


media µ y desviación tı́pica σ si su función de densidad de probabilidad es:
1 (x−µ)2
ρ(x) = Nµ,σ (x) = √ e− 2σ2 . (1.42)
σ 2π
La distribución de probabilidad gaussiana queda ası́ completamente deter-
minada si conocemos los dos primeros momentos µ y σ 2 . Puede comprobarse
que esta distribución está correctamente normalizada sin más que conside-
rar el cambio de variable z = (x − µ)/σ (de modo que dx = σdz). Ası́,
podemos escribir
Z ∞ Z ∞
1 2
ρ(x)dx = e−z /2 dz = 1 , (1.43)
−∞ 2π −∞
donde hemos usado el cálculo de la integral gaussiana (B.8) del Apéndice
B.
La figura 1.4 muestra la distribución de probabilidad gaussiana en el entorno
del valor medio µ. Tiene la forma de una campana (llamada campana

33
normal o de Gauss) y simétrica (por depender de x a través del término
(x − µ)2 ). La distribución está centrada en µ y su anchura es proporcional a
σ. El máximo de la densidad de probabilidad se produce en x = µ, Se puede
demostrar que los puntos de inflexión de la curva normal están situados en
µ − σ y µ + σ. La curva tiende de forma asintótica a cero al alejarse del valor
medio. Además, la condición de normalización asegura que el área entre la
curva normal y el eje X es igual a la unidad.

1.00
(2πσ 2 )−1/2 Nµ,σ (x)

0.75

0.50

0.25

0.00
µ − 3σ µ − 2σ µ−σ µ µ+σ µ + 2σ µ + 3σ

Figura 1.4. Distribución de probabilidad gaussiana, de media µ y desviación σ.

Es posible demostrar que los parámetros µ y σ de la distribución nor-


mal coinciden con la media y la desviación estándar de la distribución.
Apoyándonos en el cálculo de las integrales gaussianas que se describen en

34
Introducción a la Estadı́stica

el Apéndice B, podemos calcular el valor esperado E(x) como


Z ∞ Z ∞  
1 (x − µ)2
E(x) = dx xρ(x) = √ dx x exp −
−∞ σ 2π −∞ 2σ 2
Z ∞  2
1 z
=√ dz (µ + σz) exp −
2π −∞ 2
Z ∞  2 Z ∞  2
1 z 1 z
= µ√ dz exp − + σ√ dz z exp −
2π −∞ 2 2π −∞ 2
= µ,

donde se ha hecho el cambio de variable z = (x − µ)/σ y notamos que la


función z exp {−z 2 /2} es impar. Análogamente, el cálculo de la varianza es:
Z Z

σ2 ∞
z2 σ2 √
Var(x) = (x − µ) ρ(x)dx = √ 2
e− 2 dz = √ 2π
−∞ 2π −∞ 2π
2
=σ .

0.20
Gauss
0.18 Binomia
Poisson
0.16
0.14
0.12
P (xi )

0.10
0.08
0.06
0.04
0.02
0.00
0 2 4 6 8 10 12 14 16 18 20
xi

Figura 1.5. Comparación entre las distribuciones de Gauss, distribución binomial y de Poisson para
N = 100 ensayos, con una probabilidad p = 0,05.

35
A partir de la definición (1.42), vemos que la probabilidad de que x tome
un valor entre x1 y x2 puede calcularse formalmente como
Z x2
1 (x−µ)2
P (x1 < x < x2 ) = √ e− 2σ2 dx . (1.44)
σ 2π x1
Aunque el cálculo de esta integral para los lı́mites x1 → −∞ y x2 → ∞ es
inmediato (ver el Apéndice B), si los lı́mites son finitos la integral no tiene
solución analı́tica, lo que lleva a introducir la función error definida como:
Z x
2 2
erf(x) = √ e−t dt . (1.45)
π 0

La función error suele encontrarse tabulada en distintas fuentes. Nótese que,


en este caso, el valor de la función error sı́ depende de la forma funcional
0
explı́cita de t. De esta forma, si t = (t − µ)/2σ 2 , en función de los valores
de µ y σ el valor de la integral será uno u otro. La figura 1.6 muestra
por ejemplo tres distribuciones gaussianas con µ = 1, σ = 1 (en verde),
µ = 3, σ = 1 (en rojo) y µ = 3, σ = 2,5 (en azul). Observamos que el área
bajo la curva en el intervalo [0, 6], por ejemplo, es distinto en cada caso. La
tabla 1.1 muestra el valor de la integral, donde se observa la disparidad de
los resultados.

µ σ Área
1,0 1,0 0,8413
3,0 1,0 0,9973
3,0 2,5 0,7699

Tabla 1.1. Integrales de la función de distribución gaussiana para distintos valores de µ y σ en el intervalo
[0, 6].

Distribución normal tipificada.

Dada la dependencia de la integral de la distribución gaussiana con respecto


de su valor medio y su desviación, es frecuente definir una distribución
normal tipificada que permita, a partir de los valores tabulados de su

36
Introducción a la Estadı́stica

(µ, σ) = (1, 1) (µ, σ) = (3, 2.5) (µ, σ) = (3, 1)

0.40

0.30
Nµ,σ (x)

0.20

0.10

0.00
0.0 2.0 4.0 6.0 8.0 10.0
x

Figura 1.6. Distintas distribuciones de probabilidad gaussianas. En verde, µ = 1 y σ = 1. En rojo, µ = 3


y σ = 1. En azul, µ = 3 y σ = 2,5.

integral en determinados intervalos, obtener el valor de la integral original


para ese mismo intervalo. El procedimiento es análogo al que hemos seguido
en la sección anterior y consiste, partiendo de la distribución normal Nµ,σ (x),
en definir la distribución normal N0,1 (z), donde realizamos el cambio de
variable
x−µ
z= . (1.46)
σ
De esta forma, la probabilidad P (z ≤ zi ) de que la distribución normal
tipificada tome un valor z menor o igual que zi no es más que la función
de distribución acumulada (CDF) y se obtiene a partir del cálculo de la
integral correspondiente4
Z zi
1 z2
P (z ≤ zi ) = √ dz e− 2 .
2π −∞

Esta CDF se tabula por comodidad, tal y como se muestra en la tabla C.1
del apéndice C para distintos valores de zi .

4
Obsérvese la analogı́a con la función error (1.45).

37
Ejercicio 1.6 Supongamos una variable z que sigue una distribución
de probabilidad gaussiana de media nula y varianza unidad. ¿Cuál es
la probabilidad de que la variable z tome un valor menor o igual que
zi = 0,57?

Solución
La distribución que sigue la variable z es, directamente, la distribución
normal tipificada. En este caso, usando la tabla C.1, basta cruzar la fila
0,5 con la columna 0,07 de forma que P (z ≤ 0,57) = 0,7157 (marcado
en azul en la tabla). Esto es, la probabilidad de que la variable z tome
un valor menor o igual que zi = 0,57 es de un 71,57 %.

La tabla C.1 da, para la distribución normal tipificada, la probabilidad


P (z ≤ zi ). A partir de esta probabilidad es posible obtener las distintas
probabilidades sin más que tener en cuenta las siguientes propiedades:

1. Que la distribución normal tipificada está normalizada a la unidad.

2. Que la medida de la probabilidad se corresponde con el área bajo la


curva N0,1 (z).

De este modo si, por ejemplo, queremos calcular la probabilidad P (z > zi )


basta saber que

P (z > zi ) = 1 − P (z ≤ zi ). (1.47)

Del mismo modo, la probabilidad en un intervalo determinado será

P (zi ≤ z ≤ zj ) = P (z ≤ zj ) − P (z ≤ zi ). (1.48)

Por último, la probabilidad de que la distribución normal tipificada tome


un valor negativo es

P (z ≤ −zi ) = P (z > zi ) = 1 − P (z ≤ zi ). (1.49)

38
Introducción a la Estadı́stica

Ejercicio 1.7 La media de peso de 500 estudiantes de un colegio es


de 70 kg, mientras que la desviación tı́pica de la medida es de 3 kg.
Suponiendo que los pesos de los estudiantes se distribuyen siguiendo
una distribución normal, calcule cuántos estudiantes pesan entre 60 kg
y 75 kg, y cuántos de ellos pesan más de 72 kg.

Solución
El problema se resuelve sabiendo las correspondencias entre los valores de
los pesos de nuestra variable y los valores que corresponden a los mismos
en una distribución normal tipificada. Transformamos estos valores:
x1 − µ 60 − 70
Z1 = = = −3,33 ,
σ 3
x2 − µ 75 − 70
Z2 = = = 1,67 ,
σ 3
cuyos valores de probabilidad según la tabla tipificada son:
P (Z ≤ Z1 ) = 1 − P (Z ≤ −Z1 ) = 1 − 0,9996 = 0,0004 ,
P (Z ≤ Z2 ) = 0,9525 .
Ahora podemos calcular el valor de la probabilidad pedida:
P (60 ≤ X ≤ 75) = P (−3,33 ≤ Z ≤ 1,67)
= P (Z ≤ 1,67) − P (Z ≤ −3,33)
= 0,9525 − 0,0004 = 0,9521 ' 95 %
En el caso de considerar la probabilidad de que un estudiante pese más
de 72 kg, esta vendrá dada por la variable transformada
72 − 70
Z3 = ' 0,67 ,
3
cuya probabilidad tipificada es
P (Z ≤ Z3 ) = 0,7486 .
Tendremos entonces:
P (X > 72) = P (Z > 0,67) = 1 − P (Z ≤ 0,67)
= 1 − 0,7486 = 0,2514 ' 25 % .

39
1.8. Distribución χ2 de Pearson.

Si x1 , x2 , . . . , xN son N variables aleatorias que siguen una distribución de


probabilidad gaussiana con media cero y varianza unidad, independientes
entre sı́, entonces la variable XN2 = x21 + x22 + . . . + x2N recibe el nombre de
χ2N (((chi-cuadrado))) con N grados de libertad. La función de densidad de
probabilidad asociada a esta variable es la distribución χ2 de Pearson y
tiene la expresión:
(
0, si x < 0 ,
fN (x) = h N i−1 N (1.50)
x( 2 )−1 e− 2 , si x > 0 ,
N x
22Γ 2

donde la función gamma Γ(α) se define como:


Z ∞
Γ(α) = xα-1 e−x dx, α > 0 . (1.51)
0

más información

La función gamma aparece con frecuencia en muchos problemas de


estadı́stica. Si bien no tiene solución analı́tica general, sı́ que puede
verse fácilmente que verifica Γ(α + 1) = αΓ(α). Esto permite encontrar
una fórmula de recurrencia para α ∈ N, de modo que Γ(α) = (α − 1)! .
La función gamma se puede ası́ entender como una interpolación del
factorial de números naturales al dominio R.

La función χ2 solo toma valores positivos y depende de N , cantidad que se


denomina número de grados de libertad de la distribución. Para valores
de N pequeños esta distribución es muy asimétrica pero para valores de N
grandes es cada vez más simetrica. De hecho,p para valores de N mayores o
2
iguales a 30 podemos suponer que√ la variable 2χN se comporta como una
variable normal cuya media es 2N − 1 y su varianza es 1.
Una propiedad importante de las variables que siguen una distribución χ2
es que si r variables siguen esta distribución, cada una de ellas con grados de

40
Introducción a la Estadı́stica

N =1 N =3 N =5 N = 10 N = 50 N = 90
N =2 N =4 N = 30 N = 70
0.5 0.10

0.4 0.08

0.3 0.06
fN (x)

fN (x)
0.2 0.04

0.1 0.02

0 0.00
0 1 2 3 4 5 6 7 8 9 10 0 20 40 60 80 100
x x

Figura 1.7. Función de densidad de probabilidad de χ2N . Al aumentar el número de grados de libertad
la distribución toma una forma simétrica y cada vez más parecida a la distribución normal.

libertad N1 , N2 , . . . , Nr , entonces la ((variable suma)) sigue una distribución


de este tipo con N = N1 + N2 + . . . + Nr grados de libertad.
La media y la varianza de una distribución χ2 son:

µ = N, (1.52)
σ 2 = 2N . (1.53)

Aunque hablaremos de ella más adelante, merece la pena introducir la im-


portancia de la distribución χ2 en Estadı́stica. Si σ 2 es la varianza de una
población que sigue una distribución normal y s2 la varianza de una muestra
de tamaño N extraı́da al azar de la misma, entonces la variable aleatoria
que cambia de muestra a muestra viene dada por:

s2
χ2N −1 = (N − 1) (1.54)
σ2
y obedece a una distribución χ2 con (N − 1) grados de libertad. Esta pro-
piedad es muy importante para la estimación de la varianza y el contraste
de hipótesis.

41
1.9. Distribución t de Student.

Supongamos que tenemos N variables aleatorias {X1 , X2 , . . . , XN } indepen-


dientes entre sı́ y normalmente distribuidas, con media µ y varianza σ 2 . La
media y la varianza de este conjunto será
1 X
N
X= Xi ,
N i=1

1 X
N
2
s2N = Xi − X , (1.55)
N − 1 i=1
donde hemos introducido una corrección de Bessel en la varianza (cam-
biando el factor 1/N por 1/(N − 1)). En estas condiciones, se define la
variable aleatoria
X −µ Z
tN −1 = q =q 2
2
(1.56)
SN χN −1
N N −1

como una variable que sigue la distribución t de Student con N − 1 grados


de libertad y densidad de probabilidad
 − N2+1
1 t2
f (t) = √  1+ ; −∞ < t < ∞, (1.57)
N B 12 , N2 N
donde B(p, q) es la función beta, definida a partir de la función Γ(x) (1.51)
como:
Γ(p)Γ(q)
β(p, q) = . (1.58)
Γ(p + q)

La función de densidad de esta distribución solo depende del número de


grados de libertad N . Tal y como se observa en la figura 1.8 es simétrica
respecto de t = 0 (debido al factor t2 ). Es una función campaniforme y
tanto más achatada cuanto menor sea el valor de N .
Los valores de la media y la desviación tı́pica de la densidad de probabilidad
son µ = 0 y σ 2 = N/(N − 2), respectivamente. Para valores de N grandes
la varianza tiende a la unidad, y la distribución t de Student se aproxima
bien por una normal, tal y como se ve en la figura 1.8 para N = 100.

42
Introducción a la Estadı́stica

N =1 N = 10
N =2 N = 100
N =5 Normal
0.4

0.3
fN (t)

0.2

0.1

0.0
−4 −2 0 2 4
t

Figura 1.8. Función de densidad de probabilidad de la t de Student. La forma de la densidad de proba-


bilidad converge rápidamente tras unas pocas unidades de N .

2. INFERENCIA ESTADÍSTICA.

La Inferencia Estadı́stica es aquella rama de la Estadı́stica mediante la cual


se trata de obtener conclusiones acerca de una población en estudio a partir
de la información que proporciona una muestra representativa de la misma.
La Inferencia Estadı́stica también puede llamarse ((Estadı́stica Inductiva))
o ((Inferencia Inductiva)) ya que es un procedimiento para generar nuevo
conocimiento cientı́fico.
La muestra se obtiene por observación o experimentación. La necesidad de
obtener un subconjunto de la población es obvia si tenemos en cuenta los
costes económicos de la experimentación o el hecho de que muchos de los
métodos de medida son destructivos.
Toda inferencia inductiva exacta es imposible ya que solo disponemos de
información parcial. Sin embargo, es posible realizar inferencias inseguras y
medir el grado de inseguridad si el experimento se ha realizado de acuerdo

43
con determinados principios. Uno de los propósitos de la Inferencia Es-
tadı́stica es conseguir técnicas para hacer inferencias inductivas y medir el
grado de incertidumbre de tales inferencias. La medida de la incertidumbre
se realiza en términos de probabilidad.
El primer concepto importante es el de población, que es el conjunto de
entes (individuos, cosas, sucesos, etc.) sobre los que se desea obtener in-
formación. La población ha de estar perfectamente definida a la hora de
comenzar el estudio. Por ejemplo, en un ensayo clı́nico en el que se pretende
demostrar la efectividad de un tratamiento, han de estar muy claros cuales
son los criterios de inclusión de un paciente en la población (muestra) a
estudiar.
De la población (que no es sino el conjunto de todos los entes que satisfa-
cen los criterios de selección para nuestro estudio) se extrae un subconjunto
que se denomina muestra. La muestra tiene que de ser representativa de
la población, en el sentido de tener una composición similar en cuanto a
la proporción de caracterı́sticas. Por ejemplo, una muestra para un estudio
de estaturas no incluirá solo a individuos altos (o bajos), sino a individuos
de ambas clases en proporciones similares a las que se encuentran en la
población, en caso contrario diremos que la muestra está sesgada. La re-
presentatividad de la muestra queda garantizada con la elección correcta
del método de muestreo. En el siguiente apartado veremos algunos métodos
que garantizan hacer una selección de las muestras de forma que no estén
sesgadas.
Sobre cada uno de los entes de la muestra medimos una (o varias) carac-
terı́sticas que llamaremos variables y que se denotarán mediante las varia-
bles mayúsculas X, Y, Z, ..... En la teorı́a quedan identificadas población y
variable aleatoria asociada, es decir, cuando en un ejercicio se habla de una
cierta variable aleatoria, esta debe estar asociada de forma unı́voca a una
determinada población. Por ejemplo, no tiene sentido hablar de la tasa de
ceguera, sino que es necesario hablar de la tasa de ceguera en un determina-
do grupo de personas. Un ejemplo de variable aleatoria bien definida serı́a:
((El estudio recoge una estadı́stica de la tasa de ceguera en varones entre 20
y 30 años que residen en Cuenca)). De hecho, cuantas más caracterı́sticas
se proporcionen sobre los entes que constituyen la población del experimen-
to, mejor acotados quedarán los resultados y mayor información se podrá

44
Introducción a la Estadı́stica

extraer de los mismos.


Cuando hablemos de ((una población)) deberá entenderse que nos referimos a
un conjunto de entes sobre los cuales se han especificado suficientes detalles
como para que la caracterı́stica que queremos estudiar sea relevante y quede
bien definida.
En general, la Inferencia Estadı́stica define conceptos aplicables a poblacio-
nes infinitas. Puesto que en la práctica estas no existen (ya que es imposible,
por ejemplo, encontrar un número infinito de hombres residentes en Cuenca
que tengan entre 20 y 30 años), entenderemos que ((infinito)) se traduce en
la práctica por un número grande. Es necesario indicar aquı́ que la expre-
sión ((un número grande)) es ambigua per se, y que el número dependerá
del estudio estadı́stico que se quiera realizar y de la fiabilidad que se quiera
alcanzar con el mismo.
Cuando hagamos un estudio de Inferencia Estadı́stica supondremos que
nuestra población sigue una cierta distribución de probabilidad de forma
conocida, pero los parámetros que la caracterizan estarán indefinidos por
lo que los tendremos que estimar. Por ejemplo, podemos suponer que la
variable asociada a la caracterı́stica de nuestra población que nos interesa
sigue una distribución normal N (µ, σ), pero, obviamente, no sabremos los
valores de su media µ y su desviación tı́pica σ, que serán los valores que
querremos estimar.
La inferencia puede clasificarse en dos tipos. La clasificación se realiza de
acuerdo con el conocimiento que tenemos sobre la distribución que creemos
que caracteriza la población:

Inferencia paramétrica. Se conoce la forma de la distribución estadı́stica


que sigue la población (puede ser normal, binomial, de Poisson, etc)
pero se desconocen los parámetros que caracterizan la distribución.
En este caso, se realizan inferencias sobre estos.
Inferencia no paramétrica. Se desconoce tanto la forma de la distribu-
ción como los parámetros que la caracterizan. En este caso, además
de tratar de inferir los parámetros de caracterización de la distribu-
ción tendremos que ver cuál es la que mejor nos sirve para describir
los datos. Por ejemplo, si el número de datos es muy grande, lo más

45
probable es que se puedan caracterizar utilizando una distribución
normal. En el caso de que sean pocos datos, alguna pista sobre los
datos puede darnos una idea de qué distribución elegir. Por ejemplo,
si sabemos que la variable aleatoria cuyo valor estamos tratando de
inferir solo puede tomar dos valores, esto nos puede llevar a pensar
que lo adecuado sea elegir una distribución de tipo binomial.

Existe otra clasificación para la Inferencia Estadı́stica basada en la forma


en la que se estudian los parámetros o caracterı́sticas desconocidas de la
población. Desde este punto de vista la inferencia se divide en dos tipos:

Estimación. Se intenta dar estimaciones de los parámetros que son des-


conocidos sin hacer hipótesis previas sobre los posibles valores de los
mismos. Dentro de este tipo de estimaciones hay dos posibilidades:

Estimación puntual: Se trata de estimar un único valor para cada


parámetro.
Estimación por intervalos: En este caso, lo que tratamos de en-
contrar es un intervalo de valores que sean los que más probable-
mente tome el parámetro.

Contraste de hipótesis. En este caso se realiza alguna hipótesis sobre los


parámetros desconocidos y se desarrolla algún procedimiento que nos
sirva para comprobar la veracidad o falsedad de la hipótesis realizada.

2.1. Inferencia y muestras.

En este apartado enumeramos algunas indicaciones acerca de la metodologı́a


que permita recolectar de forma correcta una muestra que resulte represen-
tativa de la población que estamos estudiando:

Definir de la forma más exacta posible la población sobre la que se


realiza el estudio. Para ello es necesario especificar de la forma más
concreta posible las unidades que la componen. Existen infinitos cri-
terios de selección, lo necesario es encontrar aquellos que sean más

46
Introducción a la Estadı́stica

adecuados a nuestro caso, de tal forma que nos permitan seleccionar


una población de la que podamos extraer la máxima información po-
sible. Algunos ejemplos de criterios que podrı́an ser utilizados son: el
área geográfica donde se realiza el estudio, el periodo de tiempo en el
que se realizará el mismo, el rango de edad de los individuos que van
a ser admitidos en la población, etc.
Definir el marco: Es decir, elaborar un listado y/o descripción de los
elementos que forman la población.
Definir de forma precisa las unidades del muestreo: Ciudades, calles,
hogares, individuos, etc.
Seleccionar un método de muestreo: probabilı́stico o no probabilı́stico.
Aunque son los primeros los que nos permiten la estimación correcta
de parámetros a veces es necesario recurrir a otro medio de selección
que puede permitirnos generar una población en la que la informacı́on
que nos es relevante se manifieste de forma más clara.
Calcular el tamaño de la muestra que es necesario para obtener una
determinada precisión en la estimación que estemos realizando.
Elaborar el plan de muestreo que guiará el trabajo de campo.

2.2. Muestreo aleatorio simple (M.A.S)

Se trata de un procedimiento de muestreo (sin reemplazamiento), en el que


se seleccionan n unidades de las N en la población, de forma que cualquier
posible muestra del mismo tamaño tiene la misma probabilidad de ser elegi-
da. Se realizan n selecciones independientes, de forma que en cada selección
los individuos que no hayan sido elegidos en un turno tengan la misma
probabilidad de serlo en el siguiente. El procedimiento habitual consiste en
numerar todos los elementos de la población y seleccionar muestras del ta-
maño deseado. Para ello se puede utilizar una tabla de números aleatorios
o un programa de ordenador que proporcione números aleatorios.
Recuérdese que ((al azar)) no significa ((de cualquier manera)), para que el
procedimiento de muestreo sea válido es necesario utilizar correctamente el

47
proceso de generación de números aleatorios. Una de las ventajas de este
procedimiento es que proporciona valores aleatorios, de tal forma que nunca
predominan los valores altos o los bajos y, por lo tanto la muestra tendrá
una composición similar a la de la población. Además, es un procedimiento
sencillo y produce estimadores de los parámetros desconocidos próximos a
los valores reales de los mismos. El principal inconveniente de este tipo de
muestreo es que necesita un marco adecuado, es decir, que hayamos prese-
leccionado de forma adecuada a los individuos que componen la población
y que el número de individuos entre los que seleccionemos sea lo suficien-
temente amplio. Esto no siempre es fácil de conseguir (puede que no haya
muchos individuos con las caracterı́sticas que nos interesan) y puede ser que
en el proceso de selección se pierda mucha de la información que es relevante
para nosotros.

Muestreo sistemático.

Se ordenan los individuos de la población y se numeran.

Se divide la población en tantos grupos como individuos se quieran


tener en la muestra. Se selecciona un individuo al azar en el primer
grupo y se elige el que ocupa el mismo lugar en todos los demás grupos.
La ventaja principal de este tipo de muestreo es que es más sencillo
y más barato que el muestreo aleatorio simple, además, se comporta
igual que el anterior si no hay patrones o periodicidades en el conjunto
de los individuos seleccionados.

Muestreo por conglomerados.

Se divide la población en grupos de acuerdo con algún criterio decidido


a priori, por ejemplo, por su proximidad geográfica o por rangos de
edad. Después, cada grupo debe ser lo más heterogéneo posible de
forma que en cada uno de los grupos queden representadas todas las
caracterı́sticas de la población que sean relevantes para nosotros. Por
ejemplo, los municipios de la zona pueden ser los conglomerados en

48
Introducción a la Estadı́stica

un estudio sobre la situación de los ancianos en una determinada zona


rural.

Se selecciona una muestra de conglomerados al azar y se toma el con-


glomerado completo o una muestra del mismo. En el ejemplo anterior,
esto equivaldrı́a a que, una vez seleccionados los municipios (si esta-
mos buscando ancianos), podrı́amos seleccionar a todas las personas
mayores de cada uno de los municipios elegidos o solo a algunos de
cada uno de ellos.

Algunas de las ventajas de este tipo de muestreos son las siguientes:

Se necesita menos información previa sobre cada uno de los individuos


que componen la población.

Soluciona el problema de los patrones en los datos.

Este tipo de muestreo se utiliza fundamentalmente para reducir los


costes de toma de muestras al tomar grupos de individuos completos.

No obstante, debemos tener en cuenta que si el número de conglomerados no


es muy grande, este tipo de muestreo puede incurrir en errores de estimación
si se han incluido conglomerados atı́picos.

Muestreo estratificado.

Se divide la población en grupos homogéneos (denominados ((estratos)))


de acuerdo con las caracterı́sticas a estudiar. Por ejemplo, en un estu-
dio de las caracterı́sticas socioeconómicas de una ciudad, los estratos
pueden ser los barrios de la misma, ya que los barrios suelen presentar
caracterı́sticas que los diferencian a unos de otros.

Se selecciona una muestra aleatoria de cada estrato tratando de que


todos los estratos de la población que nos interesa queden representa-
dos.

49
Las ventajas de este tipo de muestreo son las siguientes:

Permite utilizar información a priori sobre la estructura de la pobla-


ción en relación con las variables a estudiar.

El método obtiene representantes de todos los estratos de la población


bajo estudio.

Tenemos diferentes opciones de selección del tamaño de la muestra en


los estratos:

• El mismo número en cada estrato.


• Proporcional, es decir, vemos que porcentaje de la población total
representa cada estrato y escogemos un número de individuos
que es proporcional al peso del estrato en la población total. Por
ejemplo, supongamos que en un pueblo se divide la población en
tres estratos según su edad: menores de 30 años, personas que
tienen entre 30 y 60 años y mayores de 60 años. La población
total del pueblo es de 10.000 vecinos, de los que sabemos que el
20 % tienen menos de 30 años, el 70 % tiene entre 30 y 60 años y el
10 % restante tiene más de 60 años. Si tomásemos una muestra de
100 individuos, 20 deberı́an corresponder al primer grupo, 70 al
segundo y 10 al tercero. De esta forma, la muestra representarı́a
de forma fiel la distribución de edades en la población total.

2.3. Estadı́sticos y distribuciones muestrales.

Todo lo que veremos a continuación está pensado para poblaciones infinitas


(muy grandes) y con muestreo aleatorio simple. El muestreo aleatorio simple
garantiza que la muestra elegida es representativa de la población que se
estudia y que las observaciones que se obtienen son independientes. Es decir,
que una observación no condiciona a las que vienen después. Dada una
población X, el proceso de muestreo consiste en obtener, al azar, un valor
x1 de la variable X. El valor obtenido puede ser cualquiera de los valores
que toma ese parámetro en los individuos que componen la población.

50
Introducción a la Estadı́stica

Por ejemplo, supongamos que la caracterı́stica que nos interesa es la edad


de los individuos. Sabemos que en la población que estamos estudiando hay
individuos cuya edad está comprendida entre los 2 y los 102 años. Al elegir
un individuo al azar podrı́amos obtener cualquier edad comprendida entre
los 2 y los 102 años. Por lo tanto, los posibles valores para x1 son todos los
de X, de forma que x1 puede considerarse como una realización particular
(observación) de una variable aleatoria X1 que sigue la misma distribución
de probabilidad que la variable X.
A continuación obtenemos, de forma independiente a la primera observa-
ción, un nuevo valor (x2 ) que puede, de nuevo, considerarse como una reali-
zación particular de una variable aleatoria X2 que sigue la misma distribu-
ción de probabilidad que X. Esta medida es independiente de la que se hizo
anteriormente por lo que la distribución de probabilidad de la variable X1
permanece inalterada y coincide con la de X2 . Obsérvese que la población
no se modifica al extraer uno de sus individuos (incluso aunque impidamos
al individuo volver a reintegrarse en la población antes de volver a elegir)
ya que es infinita y, por tanto, ni el número de individuos ni su composición
se ven alterados al retirar a un solo individuo. En el caso de una población
finita podrı́a utilizarse un muestreo con reemplazamiento, es decir, que el
individuo elegido en una ocasión vuelve a formar parte del grupo antes de
la siguiente elección.
En el caso de que el proceso se repita n veces, se habrá obtenido una mues-
tra de tamaño n del total de la población. Decimos entonces que dicha
muestra está compuesta por n valores. Puesto que las medidas se habrán
realizado de forma independiente, como resultado del experimento tendre-
mos un conjunto de n variables (x1 , x2 , . . . , xn ) escogidas de forma aleatoria,
X1 , X2 , . . . , Xn , que son independientes entre sı́ y se encuentran idéntica-
mente distribuidas.
Esto nos permite introducir la siguiente definición, válida para muestreos
de una variable X sobre una población, realizados de forma aleatoria, y en
los que cada muestreo se ha realizado de forma independiente5 :

5
Utilizamos letras minúsculas para denotar las observaciones particulares de una muestra (valores
medidos) y letras mayúsculas para denotar las variables aleatorias. A lo largo de la exposición teórica
ambas serán intercambiables y serán utilizadas indistintamente para representar a las correspondientes

51
Sea X una variable aleatoria con distribución de probabilidad F y sean
n variables aleatorias independientes X1 , X2 , . . . , Xn que siguen la misma
distribución de probabilidad F que X. Se dice que x1 , x2 , . . . , xn (los valo-
res obtenidos al medir cada una de las variables X) forman una muestra
aleatoria de tamaño n de la distribución de probabilidad F y/o forman n
observaciones independientes de la variable X.
Matemáticamente, lo anterior se expresa como:

f (X1 , X2 , . . . , Xn ) = f (X1 )f (X2 ) . . . f (Xn ) ,

donde las funciones de densidaddistribuciones de probabilidad, f , de cada


una de las variables Xi son exactamente iguales a la de la variable X.
Una vez obtenida la muestra de la población podemos caracterizarla, esto
es, podemos encontrar su valor medio, la desviación tı́pica, etc. Cada uno de
los valores que obtengamos de la muestra recibe el nombre de estadı́stico.
Definimos estadı́stico como una función de los valores muestrales que no
depende de ningún parámetro poblacional desconocido. Un estadı́stico es
también una variable aleatoria en sı́ ya que es una función de las variables
aleatorias.
Por ejemplo, la media muestral (que no es más que el valor medio de los
valores que componen la muestra), definida como
Pn
Xi
X̂ = i=1 ,
n
es una variable aleatoria de la que tenemos una sola observación en cada
muestra: Pn
xi
x̂ = i=1 .
n

Veámoslo con un ejemplo sencillo: supongamos que disponemos de una po-


blación finita en la que tenemos a 4 individuos y que sobre ellos medimos
una cierta caracterı́stica que toma los valores {1, 2, 3, 4}. Supongamos que
obtenemos muestras sin reemplazamiento de tamaño 2 de esa población.

variables aleatorias.

52
Introducción a la Estadı́stica

Las distintas posibilidades que podemos obtener son (mostramos al lado de


cada una de las posibilidades el valor medio:

1, 2, x̂ = 1,5; 1, 3, x̂ = 2,0; 1, 4, x̂ = 2,5;


2, 3, x̂ = 2,5; 2, 4, x̂ = 3,0; 3, 4, x̂ = 3,5.

Es claro que la media muestral no es un valor fijo sino que depende de la


muestra tomada y debe, por tanto, ser considerada una variable aleatoria
de la que tenemos una sola observación: la media de la muestra concreta
que hayamos seleccionado. Dicha variable tendrá una distribución de proba-
bilidad asociada. En este caso tenemos una distribución discreta que toma
los valores 1,5, 2, 2,5, 3 y 3,5. La probabilidad de obtener cada uno de estos
valores vendrá dada por:

P (1,5) = 1/6; P (2,0) = 1/6; P (2,5) = 2/6 = 1/3;


P (3,0) = 1/6; P (3,5) = 1/6.

Nótese que, en efecto, se tiene que la suma de todas las probabilidades es


igual a la unidad, cumpliendo por tanto la condición de normalización (1.2).

más información

A la distribución de un estadı́stico calculado a partir de los valores


tomados de una muestra se la denomina distribución muestral del
estadı́stico. En la mayor parte de los casos supondremos que nues-
tra población sigue una distribución normal por lo que los estadı́sticos
interesantes, y, por tanto, los que vamos a usar son la media y la des-
viación tı́pica.

2.4. Distribuciones muestrales de la media y de la desviación tı́pi-


ca

Sea {X1 , X2 , . . . , Xn } , una muestra aleatoria de una población X en la que


definimos
E(X) = µ, Var(X) = σ 2 .

53
Entonces, el valor esperado (media) y la varianza de la media muestral X̂
son:

E(X̂) = µ, (1.59)
σ2
Var(X̂) = , (1.60)
n
σ
Desv(X̂) = √ . (1.61)
n
La comprobación del resultado es directa si aplicamos que la esperanza de
la suma de varias variables aleatorias independientes es la suma de las espe-
ranzas, ası́ como que la varianza es la suma de las varianzas. Además, hemos
de tener en cuenta que si multiplicamos una variable por una constante, la
varianza queda multiplicada por la constante al cuadrado. Entonces:
" n #
X Xi 1X
n
1
E(X̂) = E = E(Xi ) = nµ = µ ,
i=1
n n i=1 n
" n #  
X Xi Xn
Xi σ2 σ2
Var(X̂) = Var = Var =n 2 = .
i=1
n i=1
n n n

Si la población sigue una distribución normal X = Nµ,σ , entonces la media


muestral sigue también una distribución normal, X̂ = Nµ,σ/√n .
Este resultado es bastante importante dentro del campo de la estimación
puesto que nos asegura que, aunque la media poblacional y la media mues-
tral no coincidan (que no suelen coincidir a menos que se tomen muchas
muestras), los posibles valores que obtengamos para la media muestral se
van a concentrar de forma simétrica alrededor de la media de la pobla-
ción. Además, la dispersión alrededor de la media poblacional será menor a
medida que aumente el tamaño muestral.

2.5. Teorema central del lı́mite.

Sea {X1 , X2 , . . . , Xn } un conjunto de variables aleatorias independientes e


idénticamente distribuidas, que conforman una muestra de una población
X con una distribución de probabilidad determinada, de valor esperado

54
Introducción a la Estadı́stica

E(X) = µ y varianza Var(X) = σ 2 . El teorema central del lı́mite afir-


ma que, para n suficientemente grande (formalmente n → ∞), la media
muestral
1X
n
X̂ = Xi (1.62)
n i=1

sigue una distribución de probabilidad normal con media µ y varianza σ 2 /n.


Recordemos que el valor esperado y la varianza de la media muestral ya vie-
nen determinadas por las ecuaciones (1.59) y (1.60). El único requisito que
imponı́amos entonces era la existencia del valor esperado y la varianza de
la distribución de probabilidad, de modo que el resultado es completamente
general e independiente de la distribución de probabilidad concreta que si-
gan las variables aleatorias. La importancia del teorema central del lı́mite es
que nos indica la forma funcional explı́cita de la distribución de probabilidad
de la media muestral. Nos dice que las variables aleatorias {X1 , X2 , . . . , Xn }
pueden seguir cualquier distribución pero, para n suficientemente grande,
el estadı́stico X̂ seguirá una distribución gaussiana.
Es necesario indicar aquı́ que lo que estamos haciendo es ((aproximar)) la
distribución de probabilidades que sigue la variable aleatoria X, por lo que
lo dicho anteriormente no podrá aplicarse siempre. De hecho, solo debe
aplicarse en el caso en el que n sea grande, lo que en este contexto de la
Estadı́stica significa que n ≥ 30. Una consecuencia directa de este teore-
ma es que la suma de los valores medios muestrales siguen, a su vez, una
distribución normal de media nµ y varianza nσ 2 .

más información

Recordemos el ensayo de Bernoulli b(x; 1, p) (una binomial con N = 1),


donde la media y la varianza vienen dadas por las ecuaciones (1.18) y
(1.19), con µ = p y σ 2 = pq. Ası́, para n suficientemente grande, una
distribución binomial b(x; n, p), entendida como la suma de n binomia-
les b(x; 1, p), podrá entonces aproximarse, aplicando el teorema central
del lı́mite, por una distribución normal de media np y varianza npq, lo
que coincide con lo obtenido en las ecuaciones (1.24) y (1.25).

55
2.6. Estimadores y sus propiedades deseables.

Vamos ahora a estudiar el caso de una población en la que se mide una cierta
variable estadı́stica X cuya distribución de probabilidad es conocida pero
de la que son desconocidos los parámetros que definen esta distribución. Un
ejemplo de esta situación se darı́a cuando tenemos una variable que sigue
una distribución normal de la que desconocemos tanto la media µ como la
varianza σ 2 , parámetros que, por tanto, queremos estimar.
A este respecto, comenzamos por extraer una muestra aleatoria simple de la
población. Esto es, recolectamos una colección de n datos, X1 , X2 , . . . , Xn ,
a partir de los cuales queremos estudiar la forma de una función (que de-
finiremos de forma genérica como θ̂ = u(X2 , . . . , Xn ) que nos proporcione
una estimación θ̂ del parámetro θ que queremos estudiar. Obviamente, es
necesario tomar la forma de la función apropiadamente, ya que buscamos
obtener una buena estimación del parámetro que nos interesa. Una vez ele-
gida la forma de la función, podemos evaluarla sobre los valores que tenemos
en nuestra muestra. El valor que obtengamos se denominará ((estimador del
parámetro θ)) sobre la muestra. Obviamente, si hemos tomado diferentes
muestras, estas tendrán elementos diferentes entre sı́ y, en consecuencia, ob-
tendremos diferentes estimaciones para el valor del parámetro que queremos
estudiar.
Obtener diferentes valores para la estimación del parámetro nos indica que
este mismo valor (que denominaremos de aquı́ en adelante estimador) es
en sı́ una variable aleatoria. Esto nos permite ahora dar un sentido más
concreto a la idea de ((tomar la forma de la función de forma apropiada)).
Trataremos entonces de elegir una función que tenga un valor medio (sobre
las muestras) que sea lo más parecido al valor que creemos que debe tomar el
parámetro realmente y que tenga, alrededor de ese valor medio, una varianza
que sea lo más pequeña posible.
Por ejemplo, supongamos que los datos que estamos manejando nos per-
miten llegar a la conclusión de que la caracterı́stica en la que estamos in-
teresados tiene, sobre nuestra muestra, una distribución normal. En este
caso, tomaremos como estimador de la media poblacional el valor medio de
la media muestral. Esto es, tomaremos varias muestras de la población y
calcularemos el valor medio de los valores de cada una. Obtendremos ası́ un

56
Introducción a la Estadı́stica

conjunto de medias (tantas como muestras hayamos tomado) y supondre-


mos que esos valores siguen una distribución normal cuyo valor medio (en
este caso es el valor medio de las medias de las muestras) sigue una distri-
bución normal. Es de esperar que ese valor (el valor medio de las medias de
los valores tomados de las muestras) siga (cuando n → ∞) una distribución
normal y que su valor coincida con el valor medio de la población.
Es obvio que mientras n no llegue a infinito existirá siempre una diferencia
entre el valor del estimador y el valor del parámetro que se quiere estimar.
Este error se mide a través del error cuadrático medio (ECM) del estima-
dor, que se define como el valor esperado de la diferencia entre el estimador
y el verdadero valor del parámetro:
 2 
ECM(θ̂) = E θ̂ − θ
 2   2 
= E θ̂ − E(θ̂) + E E(θ̂) − θ)
 2 
= Var(θ̂) + E θ − E(θ̂) . (1.63)

En la expresión anterior, el primer término no es sino la varianza del esti-


mador y el segundo es el cuadrado de lo que llamamos sesgo (el concepto
de sesgo se introduce un poco más adelante en este texto).
Ahora es el momento de plantearse si existe algún criterio válido que nos
permita seleccionar de forma adecuada un estimador. La verdad es que no,
y esto se debe a que podemos querer estimar parámetros muy diversos de
las distribuciones de probabilidad y al mismo tiempo que nuestra muestra
siga cualquier distribución de probabilidad conocida. Lo que sı́ se puede es
dar una lista de propiedades que es deseable que cumpla un estimador:

Ausencia de sesgo. Esto quiere decir que es bueno tomar estimadores


cuyo valor esperado coincida con el valor del parámetro que se quiera
estimar. Se dice que un estimador es insesgado (o centrado) si la
esperanza del estimador coincide con el parámetro a estimar, E(θ̂) =
θ. En caso contrario, el estimador es sesgado y la cantidad b(θ) =
[θ − E(θ̂)] es el sesgo del estimador.

57
Esta propiedad es bastante importante ya que los posibles valores
del estimador siempre van a fluctuar alrededor del verdadero valor del
parámetro. Por ejemplo, la media muestral es un buen estimador de la
media poblacional (si la población sigue una distribución normal, cosa
que se cumplirá siempre que la población sea grande), ya que se trata
de un estimador insesgado. Es sencillo comprobar que la esperanza de
su distribución muestral es la media poblacional, µ. En este ejemplo
debemos destacar que el que la distribución de probabilidad de la
población sea normal es importante ya que, aunque los valores de
la media muestral y la media poblacional no coincidan, se va a dar
siempre que los valores de cada una de las muestras que tomemos va
a estar alrededor del valor de la media de la población. De hecho, los
valores de las medias muestrales se van a distribuir de forma simétrica
alrededor del valor de la media poblacional. En el momento en el que
tomemos un número grande de muestras, los valores medios de cada
una de ellas se van a colocar bastante cerca del valor ((real)) de la
media poblacional, con lo que no solo se podrá estimar un buen valor
del parámetro ((media poblacional)), sino que además la estimación de
este valor se va a hacer de forma bastante precisa.

Consistencia. Se dice que un estimador θ̂ es consistente si se aproxima ca-


da vez más al verdadero valor del parámetro a medida que se aumenta
el tamaño muestral. Es decir, un estimador es consistente si
h i
Pr |θ̂ − θ| <  → 0

para n → ∞. Es decir, para una muestra suficientemente grande (for-


malmente, con n tendiendo a infinito), la diferencia entre el estimador
θ̂ y el valor real θ es menor que un cierto número  > 0. Esto es, la
probabilidad de que la diferencia entre el estimador y el valor real sea
mayor que  es cero. Conforme aumentamos el número de muestras
que tomamos de la población, los valores que va tomando el paráme-
tro que estimamos se van concentrando cada vez más alrededor del
valor verdadero del parámetro que estamos estimando. Dicho de otro
modo, la distribución del estimador se concentra más alrededor del
verdadero parámetro cuando el tamaño muestral es de tal forma que

58
Introducción a la Estadı́stica

la estimación cada vez tenderá más a parecerse al valor real y la dis-


persión (que está relacionada con el error) de nuestra estimación será
cada vez menor.
La media muestral es un estimador consistente de la media poblacional
en una distribución normal, ya que la varianza de la misma, σ 2 /n,
tiende a cero para n → ∞, de forma que la distribución se concentra
alrededor del verdadero valor (media de la población, µ) cuando n
crece.

Eficiencia. Está claro que un estimador será tanto mejor cuanto menor sea
su varianza (error con el que se hace la estimación), ya que los valores
que tomamos en la estimación se concentran alrededor del verdadero
valor del parámetro. Se dice que un estimador insesgado es eficiente
si tiene varianza mı́nima, es decir, la varianza deberı́a tender a cero
cuando aumenta el número de estimaciones.
Una cota inferior para la varianza de un cierto estimador se puede ob-
tener aplicando el criterio de cota de Cramer-Rao. Supongamos
que se toma una muestra aleatoria de valores de una cierta pobla-
ción, {X1 , X2 , . . . , Xn }, cuyos elementos siguen una distribución de
probabilidad que vamos a denotar por f (x; θ) (aquı́ θ representa el
(los) parámetro(s) de los que depende la distribución y que quere-
mos estimar). Si la distribución de probabilidad es regular, cualquier
estimador insesgado verifica que:

1
Var(θ̂) ≥  2  .
∂ ln f (X;θ)
∂θ

2.7. Métodos de estimación.

En este apartado proporcionamos una breve descripción de algunos de los


métodos de estimación que consideramos más relevantes:

Método de los momentos. Consiste en igualar los momentos muestrales

59
con los poblacionales. Los momentos se definen como:

1X k
n
mk = x .
n i=1 i

Esta metodologı́a prácticamente no se usa en la investigación actual.


Método de los mı́nimos cuadrados. Consiste en minimizar la suma de
cuadrados de los errores, donde entendemos como ((errores)) a las di-
ferencias entre valores observados y esperados tras suponer que las
observaciones se obtienen como la suma de una parte sistemática o
controlada y una parte aleatoria no controlada o fuente de error. El
método es ampliamente utilizado cuando se trabaja con modelos de
regresión o con técnicas relacionadas con estos.

En las siguientes lineas veremos algunos ejemplos de algunos de los estima-


dores más utilizados:

Estimación de la media de una población normal. Tomamos conjun-


tos de datos (muestras) de tamaño n de nuestra población. Calculamos
entonces el valor medio de los valores que componen cada una de las
muestras. Obtendremos ası́ un valor xi asociado a cada una de las
muestras que hemos tomado. Es obvio que (salvo por casualidad), el
valor medio que calculemos para cada uno de los datos no coincidirá
con el valor medio de la población y que, por lo tanto, podremos decir
que cada uno de los valores xi es igual al valor de la media muestral,
µ, más un cierto error experimental aleatorio, εi . Es decir:
xi = µ + εi

Puesto que los valores medios de las muestras que hemos tomado de la
población siguen una distribución normal, los valores de los errores, tal
y como los hemos definido en el apartado anterior, también seguirán
una distribución normal que denotaremos como N (0, σ).
Mı́nimos cuadrados. Veamos el método de los mı́nimos cuadrados desde
el punto de vista de los estimadores. En concreto, tratamos de mi-
nimizar la suma de los cuadrados de las diferencias entre los valores

60
Introducción a la Estadı́stica

experimentales y los valores ((esperados)) y esto nos permite obtener


los valores de algunos parámetros que sirven para estimar esos valores
esperados. Definimos la siguiente cantidad:

X
n X
n
D= ε2i = (xi − µ)2
i=1 i=1

y queremos realizar una ((minimización)) de la misma. Para ello, deriva-


mos esta expresión con respecto al parámetro que queremos optimizar
(que en este caso es µ) e igualamos el valor de la derivada a cero:

∂D X
n
= 2(xi − µ)(−1) = 0 .
∂µ i=1

O lo que es lo mismo:
X
N
(xi − µ) = 0.
i=1

Despejando obtenemos un valor ((óptimo)) para µ:


Pn
xi
µ̂ = i=1 = x̄ ,
n
es decir, de nuevo obtenemos que el valor de la media muestral es el
mejor estimador de la media poblacional.

3. EJERCICIOS

Ej. 1.1 — Un contador Geiger-Müller es un detector de radiación amplia-


mente utilizado. Sobre una muestra radiactiva desconocida se obtiene una
distribución gaussiana de la energı́a del isótopo radiactivo, de valor medio
µ = 1150 keV y desviación tı́pica σ = 50 keV (un kilo electrón-Voltio, keV,
es una unidad de energı́a muy usada en fı́sica nuclear). Sin realizar ningún
cálculo, ¿qué porcentaje de las medidas esperarı́a obtener un técnico con
una energı́a comprendida entre 1100 keV y 1200 keV?

61
Ej. 1.2 — Una empresa de electrónica observa que el número de com-
ponentes que fallan antes de cumplir 100 horas de funcionamiento es una
variable aleatoria de Poisson. Si el número promedio de estos fallos es ocho,
¿cuál es la probabilidad de que falle un componente en 25 horas?

Ej. 1.3 — La media de los pesos de 500 estudiantes de un colegio es 70


kg y la desviación tı́pica 3 kg. Suponiendo que los pesos se distribuyen
normalmente, obtenga cuántos estudiantes pesan entre 60 kg y 75 kg.

Ej. 1.4 — En una distribución normal de media 4 y desviación tı́pica 2,


¿cuál es el valor de a para que se cumpla que P (4−a ≤ x ≤ 4+a) = 0,5934?

(a) a = 1,909.

(b) a = 2,009.

(c) a = 1,606.

(d) a = 0,3141.

Ej. 1.5 — Supongamos que se lanza un dado, sabiendo que todas las pun-
tuaciones tienen la misma probabilidad de salir. ¿Qué probabilidad hay de
que en dos tiradas salgan dos cuatros?

(a) 1/6

(b) 1/2

(c) 1/36

(d) 1/72

Ej. 1.6 — Un estudio ha mostrado que, en un cierto barrio, el 60 % de los


hogares tienen al menos dos televisores. Se elige al azar una muestra de 50
hogares en el citado barrio. ¿Cuál es la probabilidad de que entre 35 y 40
hogares tengan dos televisores?

62
Introducción a la Estadı́stica

Ej. 1.7 — Supongamos que la nota de un examen siempre sigue una dis-
tribución normal. Las notas de un profesor de Matemáticas tienen una media
de 7 y una desviación media de 3. Otro profesor tiene una media de 6 y una
desviación media de 0,9. ¿Con qué profesor es más sencillo aprobar y con
cuál es más sencillo sacar nota?

(a) Es más sencillo aprobar con el primero, pero sacar nota con el se-
gundo.

(b) Es más sencillo aprobar con el segundo, pero sacar nota con el pri-
mero.

(c) Es más sencillo aprobar con el primero y sacar nota con él.

(d) Es más sencillo aprobar con el segundo y sacar nota con él.

Ej. 1.8 — Una distribución de probabilidad continua y uniforme f (x) =


0,5 se define en el intervalo [a, b] de forma que su valor medio es µ = 2,5.
¿Cuáles son los valores de a y b?

Ej. 1.9 — Se realizan N = 125 ensayos de un experimento que tiene una


probabilidad de fracaso q = 0,68. ¿Cuál es el valor medio de la distribución
de probabilidad asociada?

63
Tema 2
ESTADÍSTICA APLICADA: AJUSTES, ANÁLISIS DE ERRORES Y
CRITERIOS DE DECISIONES

En el capı́tulo anterior se expuso un resumen de Estadı́stica que abarca, al


menos de forma introductoria, buena parte de las necesidades teóricas que
puede tener un estudiante del grado de Fı́sica en los primeros cursos. Más
adelante en el grado, en asignaturas relacionadas con la Fı́sica y Mecánica
Estadı́stica, se profundizará en los conceptos aquı́ expuestos.
En este capı́tulo ampliaremos algunos de los conceptos anteriormente expli-
cados enfocados en su utilidad concreta para analizar datos experimentales,
evaluar sus incertidumbres, ası́ como obtener conclusiones a partir de las
observaciones. Respecto a este último punto, realizaremos una pequeña in-
troducción práctica a la inferencia estadı́stica, algo que nos permitirá desa-
rrollar algunos métodos contraste de hipótesis que podrán aplicarse en toma
de decisiones.

1. GAUSSIANAS Y ERRORES

Al realizar una medición, como ya sabemos, adquirimos errores e incerti-


dumbre desde diferentes fuentes. Si realizamos una medida, por ejemplo,
con una regla, tendremos errores que provienen de la calibración de la re-
gla, de lo paralela que pongamos la herramienta, de lo que nos tiemble la
mano, etc, etc. Esto ocurre, de manera más o menos sofisticada, con todos
los aparatos de medición. Es decir, las imperfecciones en las mediciones no
vienen de una sola fuente, sino de muchas. En este sentido, existe un im-
portante resultado acerca de cómo es una variable que es igual a la suma de
otras muchas. Es el llamado teorema central del lı́mite, que vimos en el
capı́tulo anterior, pero que dada su importancia volvemos a enunciar:
Si tomamos la suma X de N variables independientes xi , cada una de ellas
procedente de una distribución de media µi y desviación σi2 , entonces la

65
distribución de X tiene las siguientes caracterı́sticas:

P
Tiene un valor esperado hXi = µi .
P
Su varianza es V (X) = σi2 .

Es gaussiana cuando N → ∞.

Este resultado es el que provoca que las distribuciones gaussianas sean tan
importantes. Una cantidad que es producida por la suma de otras cantidades
puede considerarse, al menos aproximadamente, como gaussiana, indepen-
dientemente de las distribuciones originales. Los errores en las mediciones
funcionan muy bien en este sentido, pero también otras muchas cantidades
como, por poner un ejemplo, las propiedades anatómicas de las personas
(alturas, longitud de brazos y dedos, etc) debido a que estas son debidas a
muchos efectos combinados, tanto de tipo genético como ambientales.
En cualquier caso, hay que tener en cuenta que este resultado funciona muy
bien en el centro de la distribución, más que en sus extremos. Es decir, las
distribuciones pueden ser indistinguibles de una gaussiana a una distancia
de uno o dos σ del centro de la misma, pero no más allá.

2. MÉTODO DE LA MÁXIMA VEROSIMILITUD

Este método ya ha sido explicado en el primer capı́tulo de este texto, pero


entendido como método de los mı́nimos cuadrados desde el punto de vista de
los estimadores. Vamos a retomarlo ahora para poder aplicarlo a casos con-
cretos. Supongamos que disponemos de una muestra de datos x1 , x2 , ...xN y
que queremos encontrar los estimadores para una función de n parámetros
(con n ≤ N ) que los ajuste. De esos datos, cada uno de ellos está asociado
a una variable aleatoria y cada uno asociado a una función de distribución.
Entonces, definimos la función de máxima verosimilitud como:

Y
N
L (x1 , x2 , ...xN , α1 , ...αn ) = f (xi ; α) (2.1)
i=1

66
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

donde α se refiere los α1 , ...αn que son los estimadores de la distribución y


donde las f son las funciones de densidad de probabilidad correspondien-
tes. Es decir, de forma intuitiva, podemos decir que la función de máxima
verosimilitud se define de tal forma que es igual a la multiplicación de las
probabilidades de encontrar las N medidas.
El método en cuestión consiste en maximizar L de forma que:
∂ ln L
=0 (2.2)
∂αk

donde estamos suponiendo que los estimadores α, que son los objetos que
hay que encontrar, son variables aleatorias.

Ejercicio 2.1 Estamos estudiando la desintegración de algún elemento


que sabemos que sigue un comportamiento del estilo de (1/τ ) exp(−ti /τ )
y queremos obtener τ . Medimos N veces y obtenemos los tiempos de
vida experimentales ti . Obtenga la función de máxima verosimilitud y
la expresión teórica para el estimador correspondiente.

Solución
La función de máxima verosimilitud será:
Y 1 
L = e −ti /τ
τ

Tomando logaritmos neperianos:


X 1  X  ti 
ln L = ln e −ti /τ
=− + ln τ
τ τ

Si ahora derivamos e igualamos a cero, obtenemos que:



d ln L X  ti 1

= − =0
dτ τ =τ̂ τ̂ 2 τ̂

De donde el estimador τ̂ es:


1 X
τ̂ = ti
N

67
Ejercicio 2.2 Supongamos una distribución normal, N (µ, σ 2 ), tal que
su densidad de probabilidad es:
1 1 (x−µ)
2
f (x) = √ e− 2 σ2
2πσ
Si se tienen N datos que se rigen por distribuciones normales, obtenga
los estimadores por el método de máxima verosimilitud.

Solución
La función de máxima verosimilitud será la multiplicación de las f (xi )
para cada uno de los posibles N datos:
1 1 P
(xi −µ)2
L = e− 2σ2
(2π)N/2 σ N

Ahora, para aplicar la ecuación (2.2), calculamos el logaritmo neperiano


de la expresión anterior:
1 X
ln L = −N ln σ − N ln (2π)1/2 − (xi − µ)2
2σ 2

A continuación, derivamos respecto a los estimadores. Primero respecto


a µ:
∂ ln L 1 X
= 2 (xi − µ) = 0
∂µ σ
P
De donde, ya que µ = N µ, tenemos que:
1 X
µ= xi
N

que es la definición de media tal y como sabemos. Haciendo lo mismo


para el estimador σ:
∂ ln L N 2 X
=− + 3 (xi − µ)2 = 0
∂σ σ 2σ

68
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

de donde obtenemos que:


1 X
σ2 = (xi − µ)2
N

que es el valor de la desviación tı́pica. Es decir, hemos obtenido los valores


de la media y de la desviación tı́pica de unos datos que se rigen por
distribuciones normales empleando el método de máxima verosimilitud.

más información

Existe un teorema, que no enunciaremos con más detalle, que afirma


que si existen estimadores eficientes entonces estos se encuentran por el
método de máxima verosimilitud (pero no tiene por qué ser al revés).
En general, la metodologı́a analı́tica para obtener los estimadores no
siempre se podrá aplicar tal y como se ha hecho en los ejercicios ante-
riores, sino que habrá que obtener los máximos de la función de máxima
verosimilitud de forma numérica.

2.1. Mı́nimos cuadrados.

Como aplicación del método de máxima verosimilitud, podemos obtener las


expresiones generales del método de los mı́nimos cuadrados. Supongamos
que tenemos dos variables fı́sicas X e Y y un modelo teórico F que las
relaciona a través de unos parámetros λ (que en realidad son λ1 , λ2 , .., λn ).
Esto es, tendremos la siguiente expresión teórica:

Y = F (X; λ)

Supongamos que realizamos N medidas de los pares (X, Y ) y que se exige


que n < N . Imponemos que las medidas X = x1 , x2 , .., xN no tengan ningún
error asociado y que las medidas Y tengan un error σ (es decir, y1 , y2 , .., yN
con errores σ1 , σ2 , .., σN ). Si ahora imponemos, invocando al teorema central

69
del lı́mite, que las fluctuaciones de las medidas de Y con respecto al valor
teórico siguen una distribución gaussiana, tendremos que:
 
1 1 (yi − F (xi ; λ))2
f (yi ) = p exp −
2π(σi )2 2 σi2

El siguiente paso no es más que maximizar L utilizando la expresión ante-


rior. Primero, tenemos que:
( )
1 1 X (yi − F (xi ; λ)2
L =p exp −
(2π)N (σ12 ...σN
2
) 2 i σi2

Calculamos el logaritmo neperiano:

N X 1
ln L = − ln(2π) − ln σi − S(λ) (2.3)
2 2

donde hemos introducido la notación:


X (yi − F (xi ; λ))2
S(λ) ≡ (2.4)
σi2

Ahora bien, debemos obtener el máximo de ln L , pero podemos deducir


directamente al observar la expresión (2.3) (no entramos en demostraciones
más elaboradas) que, dados unos σ 2 determinados, este máximo debe darse
cuando la función S(λ) sea mı́nima (todos los términos son negativos). A
menudo se denota en los textos de Estadı́stica a la cantidad S de la expresión
(2.4) como χ2 , de forma que:

X (yi − F (xi ; λ))2


2
χ = (2.5)
σi2

Entonces, nuestro criterio será minimizar la función S(λ) (o χ2 ), que es pre-


cisamente lo que se conoce como el método de los mı́nimos cuadrados.
De manera más formal, si derivamos S(λk ) respecto a los parámetros λk ,

70
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

suponiendo que el mı́nimo se alcanza en los parámetros λ̂k , e igualamos a


cero:
∂S
=0 (2.6)
∂λk λk =λ̂k

Al resolver esta ecuación, obtenemos los λ̂k deseados que son los que mi-
nimizan S(λ) y que permiten obtener F (X; λ). Por supuesto, resolver la
ecuación anterior de forma general no es un proceso inmediato. Primero,
vamos a aplicar esta estrategia en del método de mı́nimos cuadrados y de
máxima verosimilitud para el ajuste de datos experimentales a funciones.

Ajuste a una función lineal en los parámetros

La ecuación (2.6) puede parecer muy general, pero su utilidad es más


bien limitada, al menos si no hacemos nada más. A poco complicada que
sea la función F (xi ; λ) puede resultar imposible obtener analı́ticamente los
parámetros λ. En tal caso, tendrı́amos que probar realizando aproximaciones
numéricas, que es lo que habitualmente se hace. Sin embargo, la problemáti-
ca en este caso se multiplica, ya que tendremos que buscar algoritmos de
minimización de funciones y asegurarnos de que los mı́nimos obtenidos sean
los mı́nimos de todos los mı́nimos que se pueden calcular. Es decir, entra-
mos en una dinámica complicada que trataremos brevemente un poco más
adelante en este capı́tulo.
Para simplificar, vamos a suponer que la función F (xi ; λ) es una combina-
ción lineal de los parámetros. Es decir, que sea de la forma:

F (x; λ) = λ1 f1 (x) + λ2 f2 (x) + ... + λn fn (x)

donde las fk (x) son funciones cualesquiera. Vemos que esta función F (x; λ)
no es muy general, pero lo es más que las funciones polinómicas, por ejem-
plo, y que son las que habitualmente se emplean en el ajuste por mı́nimos
cuadrados. En este caso, la función a minimizar es:
P
X (yi − j λj fj (x))2
S(λ) =
i
σi2

71
Aquı́ tenemos una colección de ecuaciones, no solo una. Habrá tantas como
parámetros λk tengamos. Es decir, si derivamos respecto a un λk :
( ! )
∂k S(λ) X X 2 fk (xi )
= yi − λj fj (x) =0 (2.7)
∂λk i j
σi2

Esta última expresión representa a un conjunto de ecuaciones por cada uno


de los parámetros λk , con k = 1, 2, .., n. Es decir, tenemos n ecuaciones li-
neales que pueden resolverse para obtener los estimadores. Separemos ahora
los términos de las ecuaciones anteriores:
X fk (xi ) X X fk (xi ) fj (xi )
yi = λj
i
σi2 i j
σi2

Para simplificar la notación, vamos a definir un par de cantidades matricia-


les. Primero, definimos un vector Y tal que:
X fk (xi )
Y = Yk ≡ yi
i
σi2

y luego una matriz simétrica M igual a:


X fk (xi ) fj (xi )
Mkj ≡
i
σi2

Si llamamos λ al vector de los elementos λk , podemos expresar las ecuaciones


(2.7) de la siguiente manera:

λ = M −1 Y (2.8)

donde M −1 es la matriz inversa de M . Ası́, el problema se reduce a calcular


la inversión de la matriz, algo que puede hacerse, en caso que sea necesario,
de forma numérica o simbólica. Si sólo se trata de un par de parámetros,
podemos realizar la inversión a través de las ecuaciones sin necesidad de
usar matrices. Sin embargo, el método matricial conlleva ciertas ventajas,

72
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

tales como la obtención directa de las desviaciones tı́picas de los parámetros,


como veremos a continuación.
Para calcular las desviaciones tı́picas, vamos a suponer que los verdaderos
valores (que se obtendrı́an bajo el imposible supuesto de que midiésemos
infinitas veces) que corresponden a Y = Yk los denominamos como Ȳ = Ȳk ,
que los que corresponden a yk son ȳk y que los correspondientes verdaderos
valores de los parámetros λ los llamamos α = αk . Dicho esto, la varianza
de los parámetros λ = λk es igual al valor esperado:
E[(λk − αk )2 ]

Podemos obtener fácilmente esta expresión considerando que es un caso


particular de una definición más general:
E[(λk − αk )(λq − αq )]

Vamos a calcular esos dos términos dentro de la expresión del valor esperado
de forma separada empleando las ecuaciones anteriores. Primero vemos que:
X X fj (xi )
λk − αk = (M −1 )kj (Yj − Ȳj ) = (M −1 )kj 2
(yi − ȳi ) (2.9)
j ij
σ i

E igualmente obtenemos el otro término sin más que cambiar los ı́ndices (k
por q, j por p y i por l):
X fp (xl )
λq − α q = (M −1 )qp 2
(yl − ȳl ) (2.10)
pl
σ l

Ahora bien, sabemos que, si yi e yl son estadı́sticamente independientes:


E[(yi − ȳi )(yl − ȳl )] = σi2 δil (2.11)

donde δil es la delta de Kronecker (1 si i = l, o igual a 0 si los ı́ndices son


distintos). Sabiendo esto, multiplicamos las ecuaciones (2.9) y (2.10) y nos
queda:
X fj (xi )fp (xl )
(λk − αk )(λq − αq ) = (M −1 )qp (M −1 )kj (yi − ȳi )(yl − ȳl )
ijpl
σi2 σl2

73
Aplicando el estimador y la expresión (2.11) obtenemos:
X fj (xi )fp (xl )
E[(λk − αk )(λq − αq )] = (M −1 )qp (M −1 )kj 2
δil
ijpl
σ l

El lector puede comprobar que parte del término final de la anterior expre-
sión es igual a Mjp :
X fj (xi )fp (xl )
2
δil = Mjp
il
σ l

Finalmente obtenemos:
X
E[(λk − αk )(λq − αq )] = (M −1 )kj (M −1 )qp Mjp =
jp
X
= (M −1 )kj δjq = (M −1 )kq
jp

Si ahora volvemos al principio y hacemos k = q y empleamos de nuevo


(2.11) tenemos que:
σ 2 (λk ) = (M −1 )kk

y la desviación tı́pica será:


p
σ(λk ) = (M −1 )kk (2.12)

Es decir, las desviaciones vienen dadas a partir de los elementos diagonales


de la matriz M −1 .

Ajuste lineal.

Vamos a ver un ejemplo sencillo de lo explicado anteriormente. A conti-


nuación, ajustaremos un conjunto de datos con error en las ordenadas a
una función de tipo lineal y compararemos los resultados que se obtienen
empleando las fórmulas de regresión lineal habituales con lo que se obtiene
mediante el método matricial anteriormente explicado.

74
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

La relación lineal será de la forma:

y = λ1 x + λ2

Es decir, en la notación matricial tendremos que n = 2, donde f (x, λ) = y,


f1 (x) = x y f2 (x) = 1. Por tanto, tendremos una matriz M de dimensiones
2 × 2 que tiene la siguiente forma:
 P P 
P f1 (xi )f1 (xi )/σi2 P f1 (xi )f2 (xi )/σi2
M=
f2 (xi )f1 (xi )/σi2 f2 (xi )f2 (xi )/σi2

donde las sumas son en la variable i, la cual se refiere al número de datos


disponibles. Igualmente, el vector Y será:
 P 2

f (x )y /σ
Y= P 1 i i i
f2 (xi )yi /σi2

Si ahora sustituimos las expresiones de fi (x) para el caso de la función lineal,


tendremos que la matriz M es:
 P 2
P 2

P x i x i /σi P x i /σi
M= (2.13)
xi /σi2 1/σi2

Mientras que el vector Y se reducirá a:


 P 2

P x i y i /σi
Y= (2.14)
yi /σi2

Ejercicio 2.3 Supongamos que tenemos una serie de datos experimen-


tales representados por los puntos de abscisas xi = {1; 2; 3; 4; 5; 6}, orde-
nadas yi = {1,5; 2,5; 4,0; 3,6; 5,9; 6,1} y donde los errores de estos últimos
valores vienen dados por las cantidades σi = {0,2; 0,1; 0,2; 0,4; 0,1; 0,2}.
Obtenga el ajuste lineal a los datos mediante el método matricial ante-
riormente explicado.

Solución

75
Empleando estos datos y la expresiones anteriores se obtiene que:
   
4792,5 4150 975
Y= M=
1152,5 975 281

Ahora bien, para obtener los parámetros tenemos que emplear la fórmula
λ = M −1 Y que supone tener que invertir la matriz M . Para el caso 2×2

esto es muy sencillo ya que si tenemos una matriz de la forma ac db su
inversa viene dada por:
 
1 d −b
ad − bc −c a

Entonces, podemos calcular directamente que:


 
−1 0,001299 −0,004502
M =
−0,004502 0,019162

Aplicando que λ = M −1 Y, obtenemos el vector de los parámetros:


    
λ1 0,001299 −0,004502 4792,5
λ= =
λ2 −0,004502 0,019162 1152,5

Además, sabemos calcular el error de los parámetros del ajuste lineal


directamente. Estos son las raı́ces cuadradas de los elementos diagonales
de la matriz inversa de M . Es decir:
p −1 !  √   
M 0,001299 0,036
σ = p −1 11
= √ =
M22 0,019162 0,138

Ası́, finalmente obtenemos que el ajuste deseado:

y = (1,04 ± 0,04) x + (0,51 ± 0,14)

76
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

Regresión con errores


6 Regresión sin errores

Datos

4
y

1
1 2 3 4 5 6
x

Figura 2.1. Regresiones lineales correspondientes al ejercicio anterior, al incluir los errores y sin incluirlos.

Respecto a resultado de este último ejercicio, podemos comparar con lo


que obtendrı́amos usando la metodologı́a habitual explicada en Técnicas
Experimentales I, donde se suponı́an desconocidas las desviaciones de y. En
tal caso, obtendrı́amos que:
y = (0,94 ± 0,14) x + (0,7 ± 0,5)

Como puede verse, los resultados difieren bastante, especialmente cuando


comparamos los errores. La gran diferencia entre los dos métodos es que el
que hemos explicado en este texto tiene en cuenta las desviaciones de cada
dato para calcular los valores. Es decir, si un valor tiene una incertidumbre
considerable, apenas si contará en el cálculo, el cual estará ponderado en
función de los errores de los datos proporcionados. Si nos fijamos en la
gráfica de los datos, veremos que hay un dato que se desvı́a mucho del
comportamiento general y que tiene un error asociado considerable. En la
gráfica 2.1 pueden verse las dos regresiones, una calculada con los errores y
otra sin ellos. Véase como la regresión sin errores tiende más hacia el dato
((rebelde)).
Con esta metodologı́a de ajuste lineal, los errores de los parámetros que-
dan notablemente reducidos. Esto es porque el método de cálculo tiende a

77
menospreciar los datos menos precisos. La pregunta que podemos hacernos
aquı́ tiene su importancia: ¿queremos menospreciar los datos menos preci-
sos? Al final y al cabo son mediciones experimentales y su inclusión nos
informa acerca de la precisión experimental. Es más, en muchos casos y
en muchas publicaciones cientı́ficas no se realiza este cálculo, obteniéndose
entonces el ajuste mediante regresión lineal sin preocuparse de los errores
en las y. De esta forma, puede entenderse que tenemos en cuenta todos los
datos por igual y además sabemos que el error en los parámetros va a ser
una cota máxima. Como siempre, un punto intermedio y razonado a la hora
de realizar estas consideraciones es siempre deseable, pero aquı́ tenemos un
cierto factor de falta de objetividad que hay que tener presente. El objetivo
de esta discusión es ayudar a desmitificar el método de los mı́nimos cua-
drados, ası́ como la indiscutibilidad del resultado que se obtiene a través
de él ya que, como hemos visto, los parámetros que obtenemos dependen
de las desviaciones tı́picas de los datos, las cuales, además, también pueden
contener cierto factor de subjetividad.

Ajuste a una función cualquiera.

A continuación, vamos a exponer la metodologı́a teórica para ajustar con


mı́nimos cuadrados para una función cualquiera. Pero primero vamos calcu-
lar las expresiones del ajuste lineal, pero directamente a partir de la expre-
sión (2.4) e introduciendo una nueva notación cuya utilidad veremos más
adelante cuando generalicemos el método que estamos empleando. Supon-
gamos de nuevo una relación entre los parámetros de esta forma:

y = λ1 x + λ2

Derivando la expresión (2.4) respecto a los parámetros obtenemos lo siguien-


te:
∂S X xi (yi − λ1 xi − λ2 )
= −2 =0
∂λ1 σi2

e igualmente:
∂S X (yi − λ1 xi − λ2 )
= −2 =0
∂λ2 σi2

78
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

Si a continuación definimos las cantidades siguientes:


X xi X 1 X yi
A≡ 2
, B≡ 2
, C≡ ,
σi σi σi2
X x2 X xi yi X y2
i i
D≡ 2
, E ≡ 2
, F ≡
σi σi σi2

Obtenemos el siguiente sistema de ecuaciones:

−E + λ1 D + λ2 A = 0, −C + λ1 A + λ2 B = 0

de donde se obtiene despejando que:

EB − CA DC − EA
λ1 = , λ2 =
DB − A2 DB − A2

Es más, el sistema de ecuaciones anterior nos permite definir una matriz,


que ahora llamaremos C tal que:

λC −1 = a

donde se define que:  


E
a≡
C

y que:  
D A
C −1
≡ (2.15)
A B

Por tanto:  
1 B −A
C =
DB − A2 −A D

expresión que proporciona la misma solución para los λi que despejando


directamente, por supuesto. Estas matrices tienen su importancia, ya que
podemos demostrar que la matriz C −1 es igual a 1/2 de la matriz hessiana

79
de la función S. Recordemos que la matriz hessiana de una función f que
depende de unas variables x1 ...xn se define de la siguiente forma:
 ∂2f ∂2f 2f 
∂x21 ∂x1 ∂x2
· · · ∂x∂1 ∂x n
 ∂2f ∂2f 2f 
 ∂x2 ∂x1 2 · · · ∂x∂2 ∂x 
H(f ) ≡ 
 ..
∂x
..
2
.. .
n 

 . . . .. 
∂2f ∂2f ∂2f
∂xn ∂x1 ∂xn ∂x2
··· ∂x2 n

Y en el caso de S serı́a sencillamente:


∂2S ∂2S
!
∂λ21 ∂λ1 ∂λ2
H(S) = ∂2S ∂2S
∂λ2 ∂λ1 ∂λ22

Si hacemos las cuentas se obtiene que:


P x2 P !  
2 σi2 2 σx2i D A
H(S) = P i P i =2 = 2C −1
2 σx2i 2 σ12 A B
i i

El interés de esta propiedad es que podemos desarrollar S, sin restricciones


a la F que lleva en su interior, en serie de Taylor en torno al mı́nimo, es
decir:

Xn
∂S
S(λ) = S(λ̂) + (λk − λ̂k )+
k=1
∂λ k λk =λ̂k
(2.16)
1 Xn Xn
∂ 2 S
+ (λk − λ̂k )(λl − λ̂l ) + ...
2 l=1 k=1 ∂λk ∂λl λk =λ̂k

En el tercer término de la derecha de la expresión anterior tenemos preci-


samente la matriz hessiana:

1 1 ∂ 2 S
Ckl = Hkl (S) =
−1
(2.17)
2 2 ∂λk ∂λl λk =λ̂k

A la matriz C , se la llama habitualmente ((matriz de covarianza)) de los


parámetros, de forma que los elementos de la diagonal principal son las

80
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

varianzas. Si los parámetros fuesen independientes esa matriz saldrı́a dia-


gonal, mientras que si los parámetros dependen entre sı́, se obtiene que es
degenerada. Dado que estamos evaluando en el mı́nimo, esta matriz debe
ser definida positiva.
La utilidad del todo el desarrollo expuesto es que hemos obtenido una for-
ma general para, dada la expresión (2.16), estimar los parámetros λ. Pri-
mero, habrı́a que calcular las derivadas primeras y luego calcular la matriz
hessiana. A continuación, tendrı́amos que introducir unos valores iniciales
e ir calculando nuevos con esa expresión hasta obtener convergencia en los
parámetros. Evidentemente, este es un proceso que hay que realizar numéri-
camente con ayuda de una computadora. Por ejemplo, el método de Gauss-
Newton consiste en emplear esta metodologı́a, pero truncando la serie de
Taylor en la primera derivada.
El problema de encontrar extremos de funciones es un problema habitual
en Fı́sica. Hemos visto que el método de máxima verosimilitud consiste en
determinar unos parámetros α1 , ...αn tal que la probabilidad conjunta para
todos los datos (las f son las funciones de densidad de probabilidad):
Y
L (α1 , ...αn ) = f (xi ; α)
i=1

es máxima. Esta metodologı́a es equivalente, como ahora veremos, a mi-


nimizar la función chi-cuadrado cuando usamos distribuciones gaussianas.
Es decir, los métodos numéricos que permitan encontrar mı́nimos locales
pueden aplicarse también para realizar pruebas basadas en la distribución
χ2 , y a sus aplicaciones, que explicaremos brevemente a continuación.
Los métodos numéricos más habituales calculan mı́nimos locales (los máxi-
mos pueden calcularse igual cambiando f por −f ) ya que obtener los máxi-
mos globales es un problema mucho más complicado. En general, los méto-
dos de minimización pueden clasificarse en tres categorı́as, dependiendo de
la cantidad de información sobre la función f (x) que utilicen. Tenemos en-
tonces:

Métodos de búsqueda directa: solo necesitan conocer el valor de la


función en una serie de puntos.

81
Métodos de descenso en la dirección del gradiente: necesitan el valor
de la función y sus primeras derivadas en una serie de puntos.

Métodos de la ((matriz completa)): emplean la función y sus primeras


y segundas derivadas.

El lector interesado puede profundizar en estos métodos consultando la bi-


bliografı́a correspondiente, ya que nos permiten realizar ajustes a funciones
no lineales empleando mı́nimos cuadrados. No entraremos en más detalles
acerca de estos métodos porque exceden el contenido aconsejable de esta
asignatura.
A continuación, vamos a comentar algunos resultados de la Estadı́stica vista
en el primer capı́tulo de estos apuntes, de cara al tratamiento de los datos
experimentales, algo que puede tener una utilidad más práctica, especial-
mente porque estos resultados nos permitirán entender mejor el significado
de la desviación tı́pica, ası́ como tener un criterio para decidir si una de-
terminada función es la más adecuada para realizar un ajuste a unos datos
experimentales.

3. BONDAD DE LOS AJUSTES.

Hemos visto que podemos ajustar un conjunto de datos experimentales a


los parámetros de una determinada función, pero necesitamos algún tipo
de criterio que nos diga si los datos experimentales son compatibles con la
función a la que ajustamos. Una manera es fijarnos en los errores de los
parámetros o bien repetir las medidas todas las veces que sea posible. Sin
embargo, es posible que, dado que reunir información experimental es algo
bastante complicado, no tengamos más que los datos experimentales justos
(que es lo habitual es la experimentación real). Además, puede ser que el
ajuste sea, por casualidad, especialmente bueno, de forma que los errores
en los parámetros sean pequeños. En cualquier caso, parece evidente que,
para poder obtener conclusiones razonables, necesitamos algún método que
nos proporcione un criterio de calidad acerca de los ajustes.

82
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

3.1. Método χ2 .

La Estadı́stica proporciona gran cantidad de información en cuanto a buscar


la bondad de los ajustes que realicemos y no entraremos en gran detalle
en este texto, ya que el objetivo de ese capı́tulo solamente es proporcionar
algunas nociones de carácter práctico. El método más habitual es la llamada
prueba chi-cuadrado, basada en el estudio de la distribución χ2 .
Una forma muy sencilla de explicar la distribución χ2 es considerar que
esta evalúa la diferencia entre las frecuencias observadas y teóricas de un
conjunto de n sucesos en un determinado experimento. Por lo que hemos
visto anteriormente, parece lógico suponer que esa distribución será de la
siguiente forma:
Xn
(wio − wit )
2
χ2 = 2
(2.18)
i=1
σi

donde wio son las frecuencias observadas y wit las frecuencias teóricas de ese
determinado suceso, mientras que las σi2 son las varianzas poblacionales de
las frecuencias teóricas. Estas últimas cantidades, según la distribución de
Poisson, son iguales a las frecuencias teóricas (wit ). Por tanto:
X
n
(wo − wt )
2
i i
χ2 = (2.19)
i=1
wt

Si a esto le unimos que el valor esperado de (wio − wit )2 es también igual


a la varianza de las wt (iguales a wt ), obtenemos que el valor esperado de
χ2 es igual a n, el número de sucesos. Aquı́ hemos de tener en cuenta que
los datos de la muestra pueden no ser independientes, de forma que para
evaluar el valor esperado tenemos que tener en cuenta el llamado número
de ((grados de libertad)).
Definimos el número de grados de libertad del sistema como el número
de datos menos el número de parámetros que se obtienen a partir de las
ligaduras o ecuaciones que estemos empleando. Este número normalmente
se representa con la letra ν. Por ejemplo, si estamos usando una distribu-
ción gaussiana, las ecuaciones que estamos empleando serán el número total
de datos (que es la suma de las observaciones individuales), ası́ como las

83
expresiones para la media y la desviación tı́pica. Esto supone tres ligaduras,
de forma que el número de grados de libertad será ν = n − 3. En caso de
que estemos usando el método χ2 para la bondad de un ajuste a una fun-
ción lineal, el número de parámetros es igual a dos (los correspondientes a
la recta de regresión) y por lo tanto el número de grados de libertad será
ν = n − 2.
Volviendo al caso de las frecuencias y del valor esperado de χ2 , este será
igual a n−1, que es igual al número de grados de libertad. Este número viene
dado porque se considera que la la suma de las frecuencias, tanto teóricas
como experimentales, tiene que ser igual a un determinado número fijo N .
Esta afirmación es en sı́ misma una expresión teórica que se considera como
una ligadura en el sistema, la cual reducirı́a el número efectivo de datos
observados. Ası́, el valor medio de χ2 es, en este caso:

E[χ2 ] = n − 1 (2.20)

donde E significa valor esperado. Partiendo de estos últimos resultados,


podemos afirmar (sin ser muy rigurosos, más adelante veremos la razón)
que si χ2 ≤ E[χ2 ], es probable que el acuerdo entre observación y teorı́a sea
bueno; mientras que si χ2  E[χ2 ], el acuerdo seguramente sea malo, ya
que es muy improbable que con un buen acuerdo se obtenga un valor de χ2
muy grande. Para fijar mejor estas consideraciones iniciales, más allá de la
intuición, hay que emplear la distribución de χ2 .
En definitiva, cuando realizamos un experimento es necesario decidir si se
confirma una hipótesis o no. Por ejemplo, una hipótesis serı́a decidir si unos
determinados datos que hemos medido, que llamamos y, ajustan a una
determinada función f que depende de una variable independiente x. Es
decir, tenemos hipótesis es y = f (x) y necesitamos saber con cierto grado
de certidumbre si esa hipótesis ((no es falsa)). Más adelante profundizaremos
en estos conceptos, especialmente en cuanto al concepto de hipótesis, pero
de momento vamos a desarrollar unos ejemplos sencillos para afianzar lo
desarrollado.
En caso de plantear la hipótesis y = f (x) tenemos que, usando las respec-

84
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

tivas desviaciones tı́picas σ, el estadı́stico chi-cuadrado serı́a:


X
n
(yi − f (xi ))2
2
χ = (2.21)
i=1
σi2

Por tanto, la función (2.21) es una medida de la desviación entre los valores
medidos y los valores obtenidos a través del ajuste de la función f , de
forma que χ2 = 0 si el ajuste fuese perfecto. Dado que los valores esperados
del numerador de la expresión anteriores son iguales a las varianzas σi2 , se
obtiene que el valor esperado de χ2 es:

E[χ2 ] = n

De nuevo, si en un determinado experimento el valor de χ2 no difiere mucho


de n, podremos suponer que no hay problemas con el ajuste, pero si es mucho
mayor es de suponer que tendemos que rechazar la hipótesis de partida.
Lo anterior es valido para un ajuste sin parámetros, pero lo normal es que la
función teórica dependa de m parámetros (λ1 , λ2 ,.., λm , por ejemplo). Como
comentamos anteriormente, en tal caso los grados de libertad del sistema se
reducen, de forma que el valor estimado para χ2 será:

E[χ2 ] = n − m (2.22)

Nótese que, por ejemplo, si tenemos tantos parámetros como datos m = n y


entonces es posible determinar los parámetros de forma que y = f (x) para
todos los pares de datos, de forma que χ2 = 0, que es el mismo resultado
que se deduce de (2.22).

Ejercicio 2.4 Tenemos una moneda que se lanza al aire 200 veces,
observándose 118 caras y 82 cruces. Las frecuencias teóricas, wt , son
100 para las caras y 100 para las cruces, ya que ambos sucesos son
estadı́sticamente igual de probables y su probabilidad es 1/2 en ambos
casos. ¿Estará trucada la moneda?

Solución

85
El número de sucesos, n, es igual a 2, ya que solo hay dos posibilidades,
cara o cruz. Según (2.20), el valor esperado para χ2 = 2 − 1 = 1. Pero
empleando (2.19) se obtiene que:

χ2 = 6,5

que es bastante mayor que E[χ2 ] = 1, de forma que es probable que la


moneda esté trucada.

Ejercicio 2.5 Tenemos una tabla de 200 dı́gitos obtenidos de


forma aleatoria. Estos se agrupan en 10 categorı́as de for-
ma que cada una de ellas proporciona las frecuencias wio =
{15; 24; 16; 23; 17; 22; 24; 16; 25; 18}. Es decir, cada una de esas
agrupaciones tiene 15 datos en una, 24 datos en la siguiente, etc. La pre-
gunta que nos hacemos es si los datos se han obtenido de forma realmente
aleatoria.

Solución
Las frecuencias teóricas o esperadas, wt , serán igual al número de dı́gitos
divido por el número de sucesos, es decir, 20. El valor esperado para
E[χ2 ] = n − 1 = 10 − 1 = 9. Si calculamos el valor de χ2 , obtenemos
que es igual a 7. Por tanto, concluimos que no hay sospechas de que la
tendencia de los datos no sea aleatoria.

El ejercicio anterior introduce la duda acerca de cuáles serı́an realmente los


grados de libertad si agrupamos los datos obtenidos por frecuencias. En ese
ejemplo tenemos 200 dı́gitos, pero los hemos agrupado en frecuencias pa-
ra usar solo 10 conjuntos (estos conjuntos a veces se denominan ((clases))).
Dado que vamos a usar el método χ2 sobre las clases, no sobre los datos in-
dividuales, los grados de libertad asociados se deben calcular a través de las
frecuencias y no contabilizando el número de datos originales. Por ejemplo,
si a partir de una serie de medidas experimentales, obtenemos un conjunto
de datos, y si a partir de ellos dibujamos un histograma para analizar el

86
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

problema o realizar un ajuste a una función, el n que debemos usar es el


número de barras del histograma. Esto es, el número de clasificaciones por
frecuencias que hemos usado, no el número de datos originales.

más información

Si hablamos formalmente de ((contraste de hipótesis)) y si esa hipótesis


consiste en suponer que la muestra sigue la distribución teórica de forma
que las desviaciones son debidas únicamente al azar (como veremos más
adelante en este capı́tulo, a esta hipótesis se le suele llamar ((hipótesis
nula)) y se suele representar con el sı́mbolo H0 ), es posible demostrar
que el número de grados de libertad es n − 1, donde n es el número de
((clases)) o conjunto de frecuencias.

Ejercicio 2.6 Usando los datos del ejercicio 2.4 y los resultados obteni-
dos para las regresiones lineales detallados en los apartados anteriores,
calcule los valores de χ2 y E[χ2 ] para los dos casos considerados: cuando
no se usaban desviaciones tı́picas para cada dato y cuando sı́ se usa-
ban.Para obtener la varianza de y en el primer caso, puede usarse la
siguiente expresión:
1 X
s2 (y) = (yi − axi − b)2
n−2

Solución
Mediante el uso de las desviaciones tı́picas en la regresión se obtiene el
resultado y = 1,04 x + 0,51, y por tanto:
X
6
yi − 1,04 xi + 0,51
2
χ = = 25,6
i=1
σi2

El valor esperado es:


E[χ2 ] = n − m = 6 − 2 = 4

87
Hay mucha diferencia entre los valores, ası́ que podemos decir que el
ajuste no es bueno. Si no utilizásemos desviaciones, obtendrı́amos χ2 = 4,
con lo cual la conclusión del test es totalmente distinta. Las diferencias
entre ambos métodos están muy relacionadas con el cuarto punto que
puede verse en la figura 2.1.

Finalmente, comentamos una definición que será útil en las siguientes sec-
ciones. Como hemos visto, si repetimos el experimento suficientes veces,
el valor medio o esperado de χ2 deberá ser aproximadamente igual a ν,
el número de grados de libertad. De esta manera, puede definirse una chi
reducida, representada como χ̃2 , tal que:

χ2
χ̃2 ≡ (2.23)
ν

3.2. Interpretación de la desviación tı́pica

En el anterior capı́tulo ya se ha hablado de distribuciones de probabilidad


y se ha comentado el caso de la distribución χ2 . Resumiendo, sabemos que
la distribución de densidad de probabilidad es:
1
ρχ2 (z; ν) = e−z/2 z ν/2−1 (2.24)
2ν/2 Γ(ν/2)

donde ν = n − k, que es el número de grados de libertad dado por el


número n de observaciones independientes y el número k de parámetros
que deben estimarse a partir de las observaciones. La desviación tı́pica de
la distribución es: √
σχ2 = 2ν (2.25)

Un resultado significativamente importante en cuanto al tratamiento de


errores es el que vamos a explicar a continuación y que se centra en el
significado de las desviaciones tı́picas de un conjunto de datos. Existe una
diferencia entre los parámetros que se deducen del estudio estadı́stico a
partir de la distribución de probabilidad y los estimadores de estos. Las

88
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

desviaciones explicadas en el texto de Técnicas Experimentales I y que se


obtienen a partir de los datos de un experimento de n medidas son una
estimación de la desviación tı́pica media que, a su vez, resultarı́a si se re-
pitiese el experimento una infinidad de veces. Es decir, ni s2 (x), ni s2n−1 (x)
son iguales a la varianza σ 2 (x) del universo.
Nosotros deseamos conocer, por ejemplo, µ y σ, y para ello utilizamos los
estadı́sticos x̄, s2 (x) y s2n−1 (x) como aproximaciones razonables. Es decir, en
cada experimento se puede obtener una desviación tı́pica distinta, de forma
que la media de todas esas desviaciones al realizar el experimento infinitas
veces es la expresión que vamos a calcular a continuación. Para ello era
necesario conocer el concepto de distribución de probabilidad.
Conviene mencionar un resultado especialmente importante relativo a la
desviación tı́pica, s(x), con la que habitualmente trabajamos en los experi-
mentos. Si la distribución de los datos es normal, N (µ, σ) (que suele ser lo
habitual), y si se realizan un buen número de medidas, es posible calcular
la probabilidad de que x se encuentre en intervalos determinados. En con-
creto, podemos preguntarnos, por ejemplo, cuál es la probabilidad de que x
se encuentre en los intervalos µ ± σ, µ ± 2σ o µ ± 3σ. Puede calcularse que
esta probabilidad es del 68,3 %, 95,4 % y del 99,7 %, respectivamente. Este
resultado nos indica el verdadero significado de la desviación tı́pica como
cantidad que mide la dispersión respecto a la media en un universo normal:
la probabilidad de que el valor de x se encuentre dentro del intervalo µ ± σ
es aproximadamente igual a 2/3.
Por tanto, si la población de medidas de una magnitud es aproximadamente
normal y calculamos un valor medio x̄ y una desviación tı́pica s, es de esperar
que en el intervalo x̄ ± s se encuentren 2/3 de los datos, aproximadamente.
Podemos preguntarnos entonces si serı́a necesario proporcionar, por ejemplo,
el doble de la desviación tı́pica para mejorar el resultado. La respuesta es
que en realidad no lo es, ya que el error asociado es una cantidad aproximada
y si se nos proporciona la desviación tı́pica como tal, ya sabemos (ahora)
lo que ((en realidad)) significa. Aumentar el error en el resultado solamente
llevarı́a a confusión.
Volvamos ahora al cálculo de la desviación usando la distribución nor-
mal. Supongamos que tenemos n variables aleatorias de distribución normal

89
N (µ, σ) donde se conoce la desviación tı́pica, σ, pero no la media µ. Esta
media puede estimarse usando:
1X
x̄ = xi
n

Ası́ que la distribución: P


2 (xi − x̄)2
χ =
σ2
es una distribución chi-cuadrado con ν = n − 1 grados de libertad. El
numerador de la expresión anterior es igual a (n − 1)s2 , ası́ que:

(n − 1)s2
χ2 =
σ2

Si ahora tomamos la desviación√ tı́picapen la expresión anterior en ambos


lados y aplicamos que σ(χ2 ) = 2ν = 2(n − 1), nos queda que:
r
2 2
σ(s ) = σ2
n−1

Esta fórmula permite calcular la desviación tı́pica de la varianza muestral


s2 , estimando o conociendo la varianza σ 2 de un universo normal. Aplicando
la regla de propagación de desviaciones tı́picas y usando la aproximación
s = σ, obtenemos que:
σ
σ(s) = p (2.26)
2(n − 1)

Esta imprecisión suele ser notable, ası́ que no tiene mucho sentido expresar
la desviación tı́pica con gran exactitud. Es por esto que la metodologı́a
habitual es determinar s(x) de forma que en el intervalo x̄ ± s(x) queden
2/3 de los datos. Igualmente, por esto se recomienda que las desviaciones
tı́picas se expresen sólo con una cifra significativa, a lo mucho 2 si la primera
cifra es un 1 o un 2.

90
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

más información

Hemos comentado que la desviación tı́pica nos indica el tanto por ciento
de los datos se encuentran en un determinado intervalo. Si suponemos
que la distribución subyacente es la normal, podemos denominar a estas
desviaciones como ((sigmas)), de forma que hablaremos de el número de
sigmas al referirnos a la precisión de los experimentos. En campos como
la Fı́sica Nuclear o la Fı́sica de Partı́culas, se habla habitualmente del
((número de sigmas necesarios para confirmar un descubrimiento)). Esta
regla suele ser la de 5σ (cinco sigmas), que proporciona una probabi-
lidad del 99,999942 %. Hace unos años se usaban 3σ pero se demostró
que, al menos en Fı́sica de Partı́culas, esa precisión era insuficiente
para confirmar con suficiente fiabilidad el descubrimiento de nuevas
partı́culas.

4. CRITERIOS PARA DECISIONES.

Es conveniente ahora que profundicemos un poco más en los conceptos sub-


yacentes a la bondad de los ajustes explicados en la sección anterior. Nece-
sitamos criterios estadı́sticos que nos proporcionen cierta seguridad acerca
de los ajustes que estamos realizando a los datos experimentales. Esto se
realiza a través de la ((toma de decisiones)) o ((contrastes de hipótesis)). En
esta sección vamos a realizar una pequeña incursión en este campo, que
es de por sı́ muy extenso y complejo. Vamos a explicar los conceptos más
básicos de forma breve y concisa, omitiendo demostraciones y desarrollos,
de forma que el estudiante pueda ampliar conocimientos más adelante si ası́
lo desea.

4.1. Hipótesis y tipos de errores

Los criterios de decisiones consisten en aplicar algo muy básico (en el sen-
tido de fundamental) y que se encuentra muy ligado con la práctica del
método cientı́fico: las hipótesis nunca se pueden demostrar ciertas de forma

91
directa, ya que no podemos realizar infinitos experimentos. Por contra, lo
que hacemos es buscar que una hipótesis sea falsa, ya que eso es algo que po-
demos realizar con fiabilidad completa. Es decir, la ((inferencia estadı́stica))
funciona por reducción al absurdo: si no podemos probar como válida
una hipótesis, comprobamos si esta es falsa. De forma lógico-matemática
esto es equivalente a aplicar la relación x = ¬¬x, donde x serı́a la hipótesis
en cuestión y ¬ es el sı́mbolo para negación en Lógica.
En definitiva, en el contraste de hipótesis tendremos dos hipótesis: la hipóte-
sis nula, que normalmente se denota como H0 , y su contradicción, a la que
se suele denominar ((hipótesis alternativa)) y que suele escribirse como H1 .
La hipótesis nula supone que un parámetro no toma un valor determina-
do, o que ciertos parámetros o fenómenos no tienen relación entre ellos. El
método clásico de contraste de hipótesis supone buscar si debe rechazarse
la hipótesis nula, que en principio se considera cierta, de forma que se niega
que no haya relación entre los parámetros o fenómenos (por ejemplo) y, por
tanto, sı́ que existe alguna relación.
Por tanto, los posibles errores que podemos cometer a la hora de aceptar o
rechazar hipótesis vendrán dados por la siguiente tabla lógica:

H0 cierta H1 cierta
Tomamos H0 X Error tipo II
Tomamos H1 Error tipo I X

En esta tabla tenemos dos tipos de errores: el ((error tipo I)) y el ((error
tipo II)). Si suponemos que H1 es la hipótesis aceptada, cuando en realidad
H0 es cierta, estamos cometiendo un error de tipo I. Este error tendrá una
cierta probabilidad que podremos expresar y calcular mediante una cantidad
denominada nivel de significación o ((significancia estadı́stica)). A esta
cantidad la denotaremos como Q (aunque a menudo se usa el sı́mbolo α). Al
ser una probabilidad, tomará los valores entre 0 y 1, aunque normalmente se
expresa en tantos por ciento. Este tipo de error es el también llamado ((falso
positivo)), ya que estamos suponiendo como correcta la hipótesis de relación
(positiva) entre los parámetros cuando en realidad no lo es (hipótesis nula
cierta).

92
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

La confianza o bondad del contraste también se puede expresar por el grado


de confianza (expresado en tantos por ciento) que es una probabilidad, P ,
compatible con el nivel de significación: un 95 % de grado de confianza es
igual que un 0,05 de nivel de significación. Si ambas cantidades se expresan
de la misma forma probabilı́stica, tendremos que P = 1 − Q.
Por contra, el error de tipo II es aquel que se considera como ((falso nega-
tivo)), ya que estamos suponiendo que la hipótesis nula es cierta (negación
de la relación) cuando en realidad sı́ hay relación entre los parámetros. A
diferencia del error de tipo I, no suele ser posible calcular este tipo de error,
ya que, como hemos mencionado anteriormente, no es posible tener certeza
absoluta acerca de veracidad de una hipótesis positiva. En caso de poder
calcularse, este viene representado por la letra β y a la cantidad 1 − β se la
denomina ((potencia del contraste)).

más información

En el apartado anterior, comentamos el criterio de las 5 sigmas para po-


der afirmar que se ha descubierto una nueva partı́cula en un acelerador,
tal como el LHC del CERN en Ginebra. Veremos a continuación que es
posible explicar el número de sigmas, nσ, en términos de significación
respecto a la hipótesis nula. Esto nos permitirá además introducir el
concepto de ((valor p)) (p-value).
Cuando en Fı́sica de Partı́culas se tiene un número de eventos (N de-
sintegraciones) elevado, la distribución de Poisson se puede aproximar
por una distribución de Gauss:
 
1 (x − N )2
f (x) = √ exp
2πN 2N

tal y como sabemos a partir del Teorema Central de Lı́mite. La distri-


bución está normalizada, con media igual a N eventos y una desviación

N . Mediante esta distribución, podemos calcular la probabilidad de
que tengamos una desviación al menos igual a nσ por encima de la
media. Calculamos esta probabilidad integrando la distribución entre

93
N + nσ hasta infinito, esto es:
Z ∞
pn = √
f (x)dx
N +n N

A esta cantidad, pn , se la denomina como ((valor p)) (p-value). En este


caso, esta probabilidad depende del número de sigmas que vayamos
a usar y la escribimos como pn . Haciendo cambio de variables en la
expresión anterior, obtenemos una distribución de media 0 y desviación
igual a 1: Z ∞  2
1 x
pn = √ exp − dx
n 2π 2

y esta expresión puede evaluarse usando la ((función error de Gauss)),


erf(x):
1h √ i
pn = 1 − erf(n/ 2)
2
de esta forma, si calculamos el valor p para 5σ, obtendremos que p5 =
2,9 × 10−7 . Este resultado afirma que la probabilidad de la desviación
con respecto a la hipótesis nula (negación de H0 ), al menos tan grande
como 5 sigmas, es de unas 3 partes entre 10 millones (tremendamente
improbable, luego se acepta H1 ).
El valor p aparece muy habitualmente en diversos campos donde se
emplea la Estadı́stica para obtener resultados cuantificables, especial-
mente en Ciencias Sociales. Esta cantidad suele identificarse, sin ma-
yor consideración acerca de la muestra, con la fiabilidad del estudio
estadı́stico realizado cuando su valor es pequeño (p menor que 0,05, sin
más). La interpretación simplista del p-value se suele criticar amplia-
mente cuando se usa en estudios estadı́sticos complejos, ya que puede
llevar a conclusiones incorrectas acerca de los resultados obtenidos.

Teniendo en cuenta todo lo anterior, las etapas simplificadas que vamos a


usar para emplear el contraste de hipótesis serán las siguientes:

1. Primero, hemos de tener claro cuáles son la hipótesis nula, H0 , ası́


como su contradicción, H1 .

94
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

2. Elegiremos el nivel de significación, Q, o grado de confianza, P , que


consideremos adecuado.

3. Tendremos en cuenta el tamaño muestral, n. No entraremos en este


texto en la importancia de este punto en el diseño de experimentos, ası́
como el denominado ((tamaño del efecto)) (effect size). En cualquier
caso, el experimentador, a la hora de realizar el contraste de hipótesis,
siempre puede controlar y variar los parámetros Q y n para mejorar
su estudio estadı́stico.

4. Seleccionaremos un estadı́stico de prueba adecuado, donde la distri-


bución muestral del mismo se supondrá conocida bajo la condición de
que la hipótesis nula es cierta.

5. Calcularemos el estadı́stico en base a los datos muestrales que dispon-


gamos.

6. Compararemos el valor calculado con el valor que toma en la región


probabilistica (((región crı́tica))) definida por el estadı́stico y el grado
de confianza. Es decir, rechazaremos la hipótesis nula en función de
esta comparación.

4.2. Contrastes basados en distribuciones

A continuación, resumiremos algunos de los métodos más comunes de toma


de decisiones, que expresaremos sin demostración. Veremos cómo obtener
los estadı́sticos de prueba para diferentes distribuciones estadı́sticas. Hemos
de mencionar también que a partir de ahora simplificaremos el lenguaje
empleado cuando hablamos de ((rechazar la hipótesis nula)). Sencillamente,
a pesar de ser un abuso del lenguaje, diremos que se acepta la relación entre
los parámetros con un cierto nivel de confianza. Esta forma de expresar los
resultados de los contrastes no es formalmente correcta, como ya hemos
visto, pero resulta más sencilla en la práctica.

95
P ( %) 99,9 99,5 99 95 90 85 80 75 70 65
zc 3,29 2,81 2,58 1,96 1,64 1,44 1,28 1,15 1,04 0,935
Tabla 2.1. Valores de zc (Gauss) para grado de confianza P .

Distribución gaussiana

Supongamos que se han realizado un número n muy elevado de determi-


naciones de una magnitud x. Calculamos la media x̄√y asignamos como
error la desviación
P tı́pica de la media, que es s(x)/ n, donde s2 (x) =
−1 2
(n−1) (xi − x̄) . Queremos ahora llegar a una conclusión acerca de si el
verdadero valor de x coincide con un determinado valor a. Si la distribución
subyacente en gaussiana, el estadı́stico a evaluar es:
|x̄ − a|
Z= √ (2.27)
s(x)/ n

y la condición que hemos de evaluar es:


Z ≤ zc (2.28)

donde zc se denomina ((valor crı́tico)) y es una constante que depende del


grado de confianza, P , que consideremos adecuado. La tabla 2.1 muestra
algunos valores de zc en función de P .
Si la expresión (2.28) se cumple, diremos que la diferencia entre x̄ y a no es
significativa y que se acepta la hipótesis de que el verdadero valor de x y
a coinciden con el grado de confianza que hemos elegido. Si la desigualdad
no se cumple, se rechaza la hipótesis. Este criterio está basado en las pro-
piedades de la distribución de Gauss, cuya utilización es válida si n es muy
grande. Habitualmente se suele elegir una P = 0,95 (95 %, con Q = 0,05),
de manera que zc = 1,96. Si para este valor de zc se cumple la desigualdad
anterior, diremos que x y a coinciden con una confianza del 95 % o con un
nivel de significación del 0,05 %. Es decir, existe una probabilidad del 5 %
de que la afirmación sea errónea.
Otro criterio interesante y tal vez más útil es el siguiente: supongamos que
hemos determinado los mejores valores de x e y, usando nx y ny datos

96
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

respectivamente, de manera que obtenemos x̄ y ȳ. Tenemos que decidir si


la diferencia x̄ − ȳ es significativa o no. Es decir, pretendemos decidir si las
medias de las poblaciones x e y son iguales. El estadı́stico a evaluar será:
|x̄ − ȳ|
Z= (2.29)
s(x̄ − ȳ)

donde:
s2 (x) s2 (y)
s2 (x̄ − ȳ) = s2 (x̄) + s2 (ȳ) = + (2.30)
nx ny

Por tanto, podemos afirmar que, si se cumple la relación (2.28) con el es-
tadı́stico de prueba de la expresión (2.29), la diferencia entre x e y no es
significativa con grado de confianza P (o nivel de significación Q = 1 − P )
para un determinado zc dado por la tabla 2.1.

Ejercicio 2.7 Tenemos los siguientes valores para un determinada


cantidad x = {1; 3; 5; 7; 9} y los valores para otro parámetro y =
{2; 4; 6; 8; 9}. Queremos saber si la diferencia entre ambos valores es
significativa

Solución
Establecemos una confianza del 95 %, que proporciona un valor crı́tico
zc = 1,96 a partir de la tabla 2.1. Calculamos entonces que:

x̄ = 5, s(x) = 3,16,
ȳ = 5,8, s(y) = 2,85

Mediante el uso de la expresión (2.30), obtenemos que s(x̄ − ȳ) = 1,9,


de donde tendremos que:

|x̄ − ȳ| 0,8


Z= = = 0,421
s(x̄ − ȳ) 1,9

Dado que Z = 0,421 < 1,96, la diferencia no es significativa y se acepta


que x e y son iguales con una confianza del 95 %.

97
Grados de libertad ν
P ( %) 1 2 3 4 5 6 8 10 15 30 60 100
99 63,66 9,92 5,84 4,60 4,03 3,71 3,36 3,17 2,95 2,75 2,66 2,63
95 12,71 4,30 3,18 2,78 2,57 2,45 2,31 2,23 2,13 2,04 2,00 1,99
90 6,31 2,92 2,35 2,13 2,02 1,94 1,86 1,81 1,75 1,70 1,67 1,66
80 3,08 1,89 1,64 1,53 1,48 1,44 1,40 1,37 1,34 1,31 1,30 1,29
Tabla 2.2. Valores de t (t de Student) para grado de confianza P y ν grados de libertad.

Distribución t de Student

Como hemos comentado, los métodos de decisión anteriores son válidos


sin n es muy grande y las expresiones están basadas en la aplicación de
la distribución de Gauss. Si tenemos pocas medidas y n no es demasiado
elevado, es más conveniente usar la distribución t de Student, de forma que
en lugar del valor zc utilizaremos un valor t que aparece en la tabla 2.2.
Las expresiones a usar son parecidas al caso anterior. En caso de querer
confirmar que x̄ coincide con a, usaremos el estadı́stico:
|x̄ − a|
Z= √ (2.31)
s(x)/ n

El criterio a usar con la distribución t de Student es:

Z≤t (2.32)

donde el valor t se elige de la tabla 2.2 y donde, en este caso, hemos de tener
en cuenta que los grados de libertad son ν = n − 1.
Si pretendemos evaluar la coincidencia de los resultados experimentales x̄ y
ȳ, podemos usar el estadı́stico (2.29) junto con la condición (2.32). En este
caso tenemos que tener en cuenta que el número de grados de libertad es
ν = nx + ny − 2 y que s(x̄ − ȳ) debe estimarse partiendo de la expresión
(2.30) y suponiendo s = s(x) = s(y). En tal caso, obtenemos:
s
1 1
s(x̄ − ȳ) = s +
nx ny

98
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

donde usamos la media ponderada siguiente para s:

(nx − 1)s2 (x) + (ny − 1)s2 (y)


s2 =
(nx − 1) + (ny − 1)

que sustituida en la expresión anterior nos da la expresión a emplear en este


caso:
 
2 2 2 1/nx + 1/ny
s (x̄ − ȳ) = [s (x)(nx − 1) + s (y)(ny − 1)] (2.33)
nx + ny − 2

Ejercicio 2.8 Hemos medido una determinada magnitud por dos me-
dios diferentes. En el primero, que llamamos x, se realizan 5 medidas,
mientras que en el segundo, que llamamos y, tomamos 8 medidas. Para
el primer caso, obtenemos x̄ = 43,5, s(x) = 0,8; mientras que para el
segundo, calculamos ȳ = 45,1, s(y) = 1,2. Determine si las medidas se
realizaron correctamente en ambos casos.

Solución
Dado que tenemos pocos datos, usamos los métodos correspondientes a
la t de Student. Elegimos un grado de confianza del 95 %. Los grados
de libertad del sistema son ν = 5 + 8 − 2 = 11. Usando la tabla 2.2 e
interpolando podemos aproximar que el t correspondiente es 2,2.
Aplicando la fórmula (2.33), se calcula que s(x̄ − ȳ) = 0,61 y entonces
el estadı́stico es:
|x̄ − a| 45,1 − 43,5
Z= √ = = 2,62
s(x)/ n 0,61

Por tanto, vemos que Z > (t = 2,2), con lo que podemos dudar acerca
de los datos que tenemos. Es de suponer que uno o ambos métodos
son defectuosos o que las medidas no se efectuaron correctamente en al
menos uno de los dos experimentos.

99
Distribución χ2

Volvamos ahora al método basado en la distribución χ2 , pero desde el punto


de vista del contraste de hipótesis. Nuestro principal interés, y en realidad
la justificación para todo lo explicado en esta sección, era encontrar un
criterio para evaluar el ajuste realizado a los datos experimentales a una
función teórica f (x). Es decir, queremos saber si es correcto que los datos
experimentales x (variable independiente) e y están relacionados mediante
y = f (x; λm ).
Como ı́ndice de la bondad del ajuste, podemos usar la expresión (2.21) como
estadı́stico de prueba, donde en lugar de σ usamos s2 (yi ), las dispersiones
de los datos y. Llamaremos ahora a esa expresión S para evitar confusiones:

X
n
(yi − f (xi ; λm ))2
S= (2.34)
i=1
s2 (yi )

Ahora empleamos la misma metodologı́a que en los casos anteriores. Elegi-


remos una confianza, P , asociada a los grados de libertad, que mediante la
tabla 2.3 nos proporcionará el valor χ2c , tal que si:

S ≤ χ2c (2.35)

consideraremos que la hipótesis de y = f (x) se ajusta bien a los datos


experimentales con una confianza P en tanto por ciento. Los grados de
libertad son ν = n − k, donde k dependerá de los parámetros de la función
a la que ajustamos. Si la expresión es puramente teórica, tendremos que
k = 0, pero si depende de m parámetros a determinar, entonces k = m.
Si además se usan los datos para estimar algún valor de s(yi ) esto también
debe tenerse en cuenta a la hora de determinar k.

Ejercicio 2.9 Tenemos una colección de datos experimentales tales que


para x = {1; 2; 3; 4; 5} obtenemos y = {3,11; 4,46; 5,48; 6,25; 7,04} con
s(y) = 0,03 en todos los casos. Queremos √ comprobar que estos datos se
ajustan bien a la función teórica y = π x.

100
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

Grados de libertad ν
P ( %) 1 2 3 4 5 6 8 10 15 30 60 100
99 6,63 9,21 11,3 13,3 15,1 16,8 20,1 23,2 30,6 50,9 88,4 135,8
95 3,84 5,99 7,81 9,49 11,1 12,6 15,5 18,3 25,0 43,8 79,1 124,3
90 2,71 4,61 6,25 7,78 9,24 10,6 13,4 16,0 22,3 40,3 74,4 118,5
80 1,64 3,22 4,64 5,99 7,29 8,56 11,0 13,4 19,3 36,2 69,5 112,2
Tabla 2.3. Valores de χ2c para grado de confianza P y ν grados de libertad.

Solución
Elegimos una confianza del P = 95 % y dado que ν = 5 (no hay paráme-
tros que determinar en la función teórica), buscamos en la tabla 2.3 y
obtenemos χ2c = 11,1. Si calculamos S mediante (2.34) se obtiene que
2
√S ≤ χc podemos concluir que la hipótesis de ajuste a la
S = 4,6. Al ser
función y = π x se cumple con una confianza del 95 %.

En general, esta prueba de χ2 es la más empleada a la hora de estudiar


la validez de los ajustes gracias a su simplicidad. Una forma alternativa
de aplicar este método es usar la chi-cuadrado reducida, χ̃2 , definida
anteriormente en la expresión (2.23). Pero antes debemos recordar que S ∼
ν, es decir χ̃2 ∼ 1 cuando tengamos suficientes datos. O lo que es lo mismo, la
comparación entre el valor de chi-cuadrado y el valor esperado (el número de
grados de libertad) solo se puede dar cuando se tienen suficientes medidas. A
menudo esta prueba se utiliza para pocos datos, lo que puede proporcionar
resultados no fiables. En general, como ocurre muchas veces en el análisis
de errores, puede considerarse como un criterio general y podemos usarla
cuando disponemos de pocos datos, pero siempre teniendo presente qué es
lo que se está haciendo y cuáles son las limitaciones del método elegido.
En principio, y muchos textos ası́ lo explicitan, el test chi-cuadrado no es
recomendable para menos de 10 grados de libertad.
En definitiva, una versión rápida del test chi-cuadrado está basada en χ̃20 ,
la chi-cuadrado reducida, calculada para el experimento en cuestión, con
ν ≥ 10 de forma que podemos decir lo siguiente:

Si χ̃20 ∼ 1, podemos considerar que que el ajuste es adecuado.

101
Si χ̃20  1, podemos descartar el ajuste.

Si χ̃20 > 2 para ν ∼ 10, podemos cuestionar el ajuste.

Si χ̃20 > 1,5 para 50 < ν < 100, podemos cuestionar el ajuste.

Si χ̃20  1, serı́a recomendable que repasemos el cálculo de las desvia-


ciones de las medidas, porque puede ser que se hayan sobrestimado,
algo que reduce el valor de la chi-cuadrado. Si las desviaciones están
calculadas correctamente, entonces se están usando más parámetros
en el ajuste de los necesarios.

Ejercicio 2.10 Volvemos a los datos del ejemplo anterior: x =


{1; 2; 3; 4; 5} obtenemos y = {3,11; 4,46; 5,48; 6,25; 7,04} con s(y) =
0,03 en todos los casos. Queremos comprobar
√ que estos datos se ajus-
tan bien a la función teórica y = π x usando ahora el método de la
chi-reducida.

Solución
Calculamos S mediante (2.34), de forma que obtenemos S = 4,6. En tal
caso la chi-reducida es:
S
χ̃20 = = 0,92
ν
2
χ̃0 ∼ 1 podemos concluir que la hipótesis de ajuste a la función
Al ser √
y = π x es válida, pero hay que hacer la salvedad de que se tienen
muy pocos puntos y eso puede distorsionar la conclusión. Por ejemplo,
supongamos que aumentamos ligeramente el error de los datos, hasta
s(y) = 0,04. En tal caso, obtendrı́amos S = 2,6 y χ̃20 = 0,52 y podrı́amos
empezar a dudar del resultado que nos proporciona el test.

A continuación, encontrará una pequeña colección de ejercicios relacionados


con los contenidos de este capı́tulo. En el Anexo A, el lector podrá encontrar
varios ejemplos de ejercicios de análisis de datos experimentales que incluyen
varios de los aspectos prácticos de este capı́tulo desarrollados en detalle.

102
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

5. EJERCICIOS

Ej. 2.1 — Supongamos que tenemos una serie de datos que siguen una
distribución binomial. En este caso, tenemos una serie de mediciones que
se dividen en éxito o fracaso. El éxito será X = 1 y el fracaso X = 0. La
función de probabilidad para una de las medidas es:

x 1−x 1 − p cuando x = 0
f (x, p) = p (1 − p) =
p cuando x = 1
donde p es la probabilidad de éxito que es la cantidad que queremos obtener.
Supongamos que en el experimento tenemos n medidas y f éxitos. Obtenga
la función de máxima verosimilitud y los estimadores.

Ej. 2.2 — Una ruleta de casino (europeo) se compone de 37 números. 18


de ellos son negros, 18 rojos, y un número verde marcado como 0. Una bola
rueda sobre un tablero circular de forma que puede caer (en principio con
igualdad de probabilidad) en cualquier número. Una apuesta tı́pica consiste
en jugar a un color determinado (negro o rojo). Si cae en verde, se dice que
gana la banca y todos los jugadores pierden su apuesta. Esto, obviamente,
solo deberı́a ocurrir muy eventualmente. Tras analizar 400 partidas, un ju-
gador obtiene un recuento de 186 rojos, 191 negros y 23 verdes. Utilizando
un método χ2 , ¿qué puede concluir?

(a) Dado que χ2 = 14, la ruleta está trucada a favor del casino.

(b) Con un resultado de χ2 = 0,04 no puede determinarse si la ruleta


está trucada o no.

(c) Con un resultado de χ2 = 0,04 la ruleta está definitivamente trucada.

(d) Con 400 partidas no hay una muestra estadı́stica suficientemente


grande como para determinar si la ruleta está trucada.

Ej. 2.3 — Una serie de 20 números aleatorios pueden agruparse en in-


tervalos para formar un histograma. Las frecuencias correspondientes pue-
den ajustarse a una distribución normal con media µ = 2,366 y desviación

103
σ = 0,011. Queremos realizar un test χ2 para saber si este ajuste es correcto
o no dentro de un intervalo de confianza. En tal caso ¿cuál serı́a el número
de grados de libertad ν que tenemos que usar?

(a) 20

(b) 18

(c) 17

(d) Dependerá de los intervalos

Ej. 2.4 — Siguiendo con el ejemplo del ejercicio anterior (20 datos alea-
torios ajustados a una normal con µ = 2,366 σ = 0,011), tenemos los
siguientes datos:
Intervalo Frec. expe- Frec.
rimental calculada
2,34 − 2,35 0,05 0,059
2,35 − 2,36 0,25 0,220
2,36 − 2,37 0,40 0,361
2,37 − 2,38 0,20 0,220
2,38 − 2,39 0,10 0,059
Es posible demostrar que, según la distribución chi-cuadrado, se tiene que:

χ2c = ν + 2 2 ν

cuando se usa una probabilidad P (χ2 < χ2c ) = 0,96 y donde ν son los grados
de libertad. Usando este resultado, podemos concluir que:

(a) χ2 = 37,9 > χ2c = 6, el ajuste no es bueno.

(b) Como χ2 = 37,9 > χ2c = 30, el ajuste no es bueno.

(c) Como χ2 = 3,2 < χ2c = 6, el ajuste es correcto con una confianza del
96 %

(d) Como χ2 = 3,2 < χ2c = 30, el ajuste es correcto con una confianza
del 96 %

104
Estadı́stica aplicada: ajustes, análisis de errores y criterios de decisiones

Ej. 2.5 — De forma teórica, obtenemos que el valor de una determinada


magnitud es a = 3,65. Para comprobarlo, nos dirigimos animosos al labo-
ratorio y realizamos 50 arduas medidas. A partir de las mismas obtenemos
x̄ = 3,62 con una desviación tı́pica de los datos s(x) = 0,22. ¿Podemos
concluir que las medidas confirman el valor esperado de la magnitud con
una confianza del 90 %?

Ej. 2.6 — Disponemos de los siguientes pares de datos experimentales:

(xi ; yi ) = (−1,25; 1,15), (−1; 1,14), (−0,75; 1,05),


(−0,50; 1,03), (−0,25; 1,01), (0; 0,99), (0,25; 1,02),
(0,5; 1,04), (0,75; 1,07), (1; 1,15), (1,25; 1,18)

Si la desviación en los datos es s(yi ) = 0,02 y si usamos el método chi-


cuadrado reducida: ¿Puede decirse que los datos ajustan a una función
2
y = ex /10 ?

Ej. 2.7 — Disponemos de los siguientes pares de datos:

(xi ; yi ) = (1; 60), (2; 56), (3; 71), (4; 66), (5; 86)

donde la desviación en los datos es s(yi ) = 4. Los datos pueden ajustarse a


una función de la forma y = A + Bx. Obtenga los parámetros A y B con
su error.

105
Tema 3
TEORÍA DE FILTRADO

En los siguientes apartados se presenta una teorı́a general de sistemas de


filtrado o, en términos más generales, de los sistemas de tratamiento de
señal. Para ello hemos optado por, en primer lugar, presentar un marco
general común para, después, abordar por separado el tratamiento de las
señales analógicas y digitales. Como se verá en el marco general, los sistemas
de tratamiento de señal se representan, independientemente de que sean
analógicos o digitales, por medio de bloques, que representan los elementos
que realizan acciones sobre unas ciertas señales de entrada y proporcionan
una señal de salida.
Es conveniente insistir en que el marco que aquı́ se presenta es general, es
decir, incluye no solo lo que se suele llamar popularmente filtros (disposi-
tivos que modifican las componentes de frecuencia de la señal de entrada)
sino también sistemas tales como los denominados amplificadores (disposi-
tivos que sirven para amplificar o reducir la amplitud de una señal) o los
sistemas automáticos de control (sistemas que utilizan la señal de salida
para manipular la señal de entrada con vistas a conseguir un determinado
fin tal como estabilización de la salida, control del valor de una variable,
etc).

1. CONCEPTOS GENERALES.

1.1. Sistemas: señales y bloques.

En general, un sistema de tratamiento de señal se puede representar como


un bloque que admite una señal de entrada, X(t), y proporciona una señal
de salida, Y (t). Estas señales pueden tener una sola componente o varias
(escalares o vectoriales). En lo que sigue asumiremos que tratamos siempre
con sistemas de tratamiento de señal lineales e invariantes en el tiempo,

107
es decir, que: i) una combinación lineal de señales de entrada da lugar a una
señal de salida que es combinación lineal de las salidas correspondientes a
cada una de las señales de entrada tomadas por separado y ii) que para
cualquier valor constante en el tiempo de las señales de entrada, la señal de
salida se mantiene constante1 . En todo lo que sigue asumiremos, también
sin pérdida de generalidad, que tratamos con señales de entrada y salida de
una sola componente (la generalización a señales vectoriales es relativamente
sencilla).

Señales

En lo que sigue entenderemos como señal cualquier conjunto, continuo o


discreto, de valores ordenados en el tiempo que representan la evolución
dinámica de una variable. Esta variable será, en general, una magnitud
fı́sica o quı́mica que se pueda medir directa o indirectamente y que, en la
mayor parte de los casos, vendrá representada por una tensión o corriente
eléctrica obtenidas a través de un sensor apropiado.
Como ya hemos dicho, las señales pueden ser series continuas o discretas
de valores, y estas dos posibilidades permiten clasificar a las señales como
analógicas (continuas) o digitales (discretas). En términos de representación
matemática, una señal analógica se puede representar idealmente por una
función continua del tiempo tal que


0; si t ≤ t0
fa (t) =
f (t); si t > t0

donde t0 es el tiempo de inicio de la señal (en la mayor parte de las ocasiones


se puede hacer t0 = 0 sin pérdida de generalidad). Utilizando la función

1
Es decir, las caracterı́sticas del sistema no varı́an con el tiempo. En sistemas electrónicos esto
es una idealización que puede ser poco realista si se analizan los circuitos en términos estrictos. Por
ejemplo, se pueden producir variaciones de los parámetros de un transistor o amplificador causadas por
variaciones de la temperatura externa o por la disipación de calor generado por el propio dispositivo. En
cualquier caso, estas variaciones suelen tener tiempos de evolución mucho más largos que las variables
del sistema, por lo que la aproximación de invariancia temporal suele ser adecuada.

108
Teorı́a de filtrado

escalón2 de Heaviside, θ(t), se puede escribir como

fa (t) = f (t)θ(t − t0 )

Por otro lado, una señal digital, independientemente de que haya sido
generada digitalizando una señal analógica o por cálculo numérico en un
ordenador, está constituida por un conjunto de N valores discretos situados
en tiempos determinados τi que pueden estar equiespaciados o no. Por lo
tanto, para construir la representación matemática de una señal digital es
necesario hacer uso de la función δ de Dirac3 , utilizando funciones δ colo-
cadas en los tiempos a los que se ha muestreado la señal:

0; si t 6= τi
fd (t) =
f (t)δ(t − τi ); si t = τi

donde f (t) serı́a la función origen de la señal que se ha obtenido por digi-
talización. Es decir:
X
N −1
fd (t) = f (t)δ(t − τi )
i=o

Es importante reconocer que las señales obtenidas por simulación numérica


en ordenador son señales digitales y, por tanto, les son aplicables todos
los tratamientos que aquı́ veremos para señales digitales. Por otro lado, las
señales se pueden representar en el dominio temporal, como hemos visto
hasta ahora, o en el de frecuencia. La representación en frecuencia de una
señal temporal se obtiene a través de la transformación de Fourier que se
define como: Z ∞
F (ω) = F [f (t)] = f (t)e−jωt dt
0

A la función F (ω) se la suele denominar transformada de Fourier de


la función f (t) . Recı́procamente, f (t) se puede obtener a partir de F (ω) a

2
La función escalón de Heaviside, θ(t − t0 ), es la función que toma valor nulo para t < t0 y valor
unidad para t ≥ t0 .
3
R t 6= t0 y valor
La función δ de Dirac, δ(t−t0 ), es la función que toma valor nulo en todos los puntos
∞ en t = t0 . Su propiedad más importante es, para cualquier función f (t), se cumple f (t)δ(t − t0 ) =
f (t0 ).

109
través de la antitransformación (o transformación inversa) de Fourier4 :
Z ∞
−1 1
f (t) = F [F (ω)] = F (ω)ejωt dt
2π 0

Bloques

Los sistemas se suelen representar gráficamente en términos de bloques que


actúan sobre las señales de entrada para proporcionar las señales de salida
tal como se ilustra en la figura 3.1.

X(t) Y(t)

Figura 3.1. Esquema general de un bloque con una señal de entrada y una señal de salida.

Los sistemas lineales invariantes en el tiempo admiten siempre una repre-


sentación en términos de una ecuación diferencial ordinaria de coeficientes
constantes que, en su forma más general puede contener derivadas tempo-
rales de varios órdenes de las señales de entrada, que denominaremos x(t),
y de salida, que denominaremos y(t). Por tanto:

dn dn−1 dm dm−1
y(t)+a n y(t)+...+a 1 y(t) = c m+1 x(t)+c m x(t)+...+c1 x(t)
dtn dtn−1 dtm dtm−1

donde (an , ..., a1) y (cn , ..., c1 ) son coeficientes reales constantes (algunos de
ellos pueden ser nulos). Un ejemplo tı́pico puede ser un oscilador forzado, en
el que la señal de entrada es la forzante y la señal de salida el desplazamiento

4
La normalización de la transformada y la antitransformada es un tanto arbitraria. En esta re-
presentación hemos optado por utilizar una constante unidad para la transformada y 1/2π para la
antitransformada. Igualmente se podrı́a √
haber optado por la recı́proca (unidad para la antitransformada
y 1/2π para la transformada) o bien 1/ 2π para ambas. La única condición que debe cumplirse es que
el producto de las dos constantes sea 1/2π.

110
Teorı́a de filtrado

del oscilador. Más concretamente:

d2 d
y(t) + a 2 y(t) + ... + a1 y(t) = c1 x(t)
dt2 dt

Es importante darse cuenta de que las expresiones:

dn dn−1
[...] + a n [...] + ... + a1 [...] ,
dtn dtn−1
dm dm−1
cm+1 m [...] + cm m−1 [...] + ... + c1 [...]
dt dt

son operadores lineales que trabajan sobre funciones que representan señales
de salida y entrada respectivamente. En cualquier caso, esta es una repre-
sentación complicada de utilizar y nos interesa obtener una representación
más simple.

1.2. Respuesta impulsional, función de transferencia y respuesta


en frecuencia.

Respuesta impulsional.

Para obtener una representación matemática más sencilla del bloque basta
con considerar que todo bloque está completamente caracterizado por su
respuesta a un impulso ideal5 (una δ de Dirac). En efecto, si sabemos
la respuesta a un impulso ideal, que denominaremos g(t), podemos obtener
la señal de salida, y(t), como la respuesta a una señal de entrada, x(t), sin
más que considerar que la señal de entrada es la suma de muchos impulsos
ideales sucesivos. Por un lado, al ser el sistema invariante en el tiempo, la
respuesta impulsional es siempre la misma. Por otro lado, al ser lineal, la
respuesta a una suma de impulsos sucesivos será igual a la suma de las res-
puestas correspondientes a cada uno de los impulsos sucesivos, es decir, será

5
Esta es una consecuencia general de la teorı́a de funciones de Green para ecuaciones diferenciales
de coeficientes constantes. En particular, la respuesta a un impulso ideal es la función de Green de la
ecuación diferencial que representa el bloque.

111
igual a la suma del producto de los valores de la señal de entrada y la con-
tribución de la función respuesta impulsional convenientemente desplazada
en el tiempo una cantidad igual al tiempo en que ocurre cada impulso.
Es decir, suponemos que la variable temporal está discretizada en pequeños
intervalos de tiempo, k∆t, (k = 0...N −1), de manera que la señal de entrada
se puede suponer constituida por un tren de N impulsos de amplitud x(k∆t)
situados en las coordenadas temporales correspondientes. La contribución
de cada impulso de la señal de entrada a la señal de salida será:

∆y(t) = x(k∆t)g(t − k∆t) ∆t

y, por lo tanto, la señal de salida será igual a la suma de las contribuciones


de todos los pulsos que componen la señal de entrada. Para imponer los
lı́mites de la suma, hay que tener en cuenta que, en los sistemas que aquı́
nos interesan, el principio de causalidad implica que la respuesta no puede
ser anterior a la entrada, la función de respuesta impulsional tiene que ser
nula para tiempos negativos. Además, lo más habitual suele ser que las
condiciones iniciales sean nulas, es decir, que la señal de entrada también
sea nula para tiempos negativos. Entonces, la suma de las contribuciones
de todos los pulsos que componen la señal de entrada será:

X−1
k=N
y(t) = x(k∆t)g(t − k∆t) ∆t
k=0

El lı́mite continuo de esta expresión se obtiene en el lı́mite en que ∆t tiende


a 0 y N tiende a ∞:

X−1
k=N Z +∞
y(t) = lı́m x(k∆t)g(t − k∆t)∆t = x(τ )g(t − τ ) dτ
∆t→0 0
N →∞ k=0

Esta operación se denomina convolución y se suele indicar como:


Z +∞
x(t) ∗ g(t) = x(τ )g(t − τ ) dτ
0

112
Teorı́a de filtrado

Por lo tanto, para cualquier sistema lineal invariante en el tiempo, la señal


de salida es6 :
Z +∞
y(t) = x(t) ∗ g(t) = x(τ )g(t − τ ) dτ
0

Finalmente, teniendo en cuenta que el dominio temporal en que se tienen


los valores de las señales de entrada y salida siempre es finito, la expresión
más habitual es:
Z t
y(t) = x(τ )g(t − τ ) dτ
0

Función de transferencia.

La convolución es una operación muy relacionada con las transformaciones


integrales de Fourier, F, y Laplace, L, que se definen, respectivamente como:
Z ∞
F (ω) = F [f (t)] = f (t)e−jωt dt
Z 0∞
F (s) = L [f (t)] = f (t)e−st dt
0

Para ambas transformaciones existe un ((Teorema de Convolución)) respecti-


vo, que establece que la transformada (de Fourier o Laplace) de una convo-
lución de dos funciones es igual al producto de las transformadas de ambas
funciones. Resulta, por tanto, muy ventajoso utilizar, por ejemplo, la trans-
formada de Laplace puesto que si denominamos X(s), Y (s) y G(s) a las
transformadas de las señales y la respuesta impulsional tenemos, por apli-
cación del teorema de convolución:

Y (s) = G(s)X(s)

6
Aunque aquı́ se ha justificado de manera cualitativa, este resultado se puede probar de manera
rigurosa y es la base de la denominada ((Teorı́a de Respuesta Lineal)), que tiene múltiples aplicaciones
en Fı́sica e Ingenierı́a.

113
es decir, la transformada de Laplace de la señal de salida es igual al producto
algebraico de las transformadas de Laplace de la respuesta impulsional y la
señal de entrada.
Esta expresión sirve también como definición operacional de la función
de transferencia del sistema, que, por un lado, es la transformada de
Laplace, G(s), de la función de respuesta impulsional de un sistema, g(t),
y por otro, se puede obtener como el cociente entre las transformadas de
Laplace de las señales de salida y de entrada:
Y (s)
G(s) =
X(s)

La representación compleja obtenida por medio de la transformación de


Laplace es muy conveniente porque a través de dicha transformación una
ecuación diferencial ordinaria se transforma en una ecuación algebraica. En
efecto, la transformada de Laplace de la derivada de una función es:
 
df (t)
L = sF (s) − s(0)
dt

Por lo tanto, para condiciones iniciales nulas (s(0) = 0), el sistema general
representado por la ecuación diferencial ordinaria:
dn dn−1 dm dm−1
y(t)+a n y(t)+...+a 1 y(t) = c m+1 x(t)+c m x(t)+...+c1 x(t)
dtn dtn−1 dtm dtm−1

se transforma bajo Laplace en:

sn Y (s)+an sn−1 Y (s)+...+a1 Y (s) = cm+1 sm X(s)+cm sm−1 X(s)+...+c1 X(s)

de donde:
Y (s) cm+1 sm + cm sm−1 + ... + c1
G(s) = =
X(s) sn + an sn−1 + ... + a1

Es decir, la función de transferencia de cualquier sistema lineal invariante en


el tiempo se puede expresar como el cociente de dos polinomios complejos
con coeficientes constantes.

114
Teorı́a de filtrado

Otras ventajas de la representación en transformada de Laplace son: i) que


es una transformación lineal, luego la trasformada de una combinación li-
neal de señales es la misma combinación lineal de las transformadas y ii)
que operaciones muy habituales, como la integración o la derivación, tie-
nen representaciones muy sencillas en sus transformadas de Laplace para
condiciones iniciales nulas. Esto es:
 
df (t)
L = sF (s)
dt
Z 
F (s)
L f (t)dt =
s

Es decir, si en un sistema un bloque ejerce una función derivadora, su función


de transferencia es igual a la variable compleja de la transformada, s, y si
un bloque ejerce una función integradora, su función de transferencia es la
recı́proca de la anterior, 1/s.
Estas propiedades permiten que la combinación de bloques en la representa-
ción en transformada de Laplace sea mucho más fácil de manejar que en la
representación en tiempo real y dan lugar a que se pueda hablar de un ((álge-
bra de bloques)) que es de gran utilidad en el análisis y diseño de sistemas
de control automático..Por ejemplo, la suma de las señales de salida de un
bloque proporcional, un integrador y otro diferenciador se puede construir
con el diagrama de bloques dado por la figura 3.2.

X(s) Y(s)
A

1/S

Figura 3.2. Diagrama de bloques compuesto por un bloque proporcional, un bloque integrador y un
bloque derivador.

115
En el diagrama la figura 3.2, el bloque rotulado S corresponde a una etapa
derivadora (señal de salida igual a la derivada temporal de la señal de entra-
da), el bloque rotulado A a una etapa en la que la salida es, sencillamente,
proporcional a la entrada con constante de proporcionalidad A y el bloque
rotulado 1/S corresponde a una etapa integradora (señal de salida igual a
la integral en el tiempo de la señal de entrada).
La función de transferencia del sistema de la figura 3.2 se obtiene, fácilmente,
a partir de la relación entre Y (s) y X(s), es decir:
X(s)
Y (s) sX(s) + AX(s) + 2
G(s) = = s = s + As + 1
X(s) X(s) s

Otro ejemplo importante es el de los bucles o lazos de realimentación (o


retroalimentación). En ellos la señal de salida se reintroduce en el sistema
combinándola con la señal de entrada directamente o después de hacerla pa-
sar por un bloque de función de transferencia H(s). El diagrama de bloques
será entonces el mostrado en la figura 3.3.

X(s) Y(s)
G(s)

H(s)

Figura 3.3. Diagrama de bloques de un bucle de retroalimentación general.

En este caso, la función de transferencia del sistema completo con el bucle


de realimentación, K(s) = Y (s)/X(s), se obtiene de:

Y (s) = G(s) [X(s) + H(s)Y (s)]

de donde:
Y (s) − G(s)H(s)Y (s) = G(s)X(s)

116
Teorı́a de filtrado

es decir:
Y (s) G(s)
K(s) = =
X(s) 1 − H(s)G(s)

Otro aspecto importante de la función de transferencia se puede observar


volviendo al aspecto general de la fórmula:
Y (s) cm+1 sm + cm sm−1 + ... + c1
G(s) = =
X(s) sn + an sn−1 + ... + a1

esta función de transferencia general tendrá m ceros (las raı́ces del polinomio
del numerador) y n polos (las raı́ces del polinomio del denominador). es
decir, se podrá escribir como:
(s − z1 )(s − z2 )...(s − zm )
G(s) =
(s − p1 )(s − p2 )...(s − pn )

Los ceros y los polos de la función de transferencia son importantes porque


introducen comportamientos caracterı́sticos. En particular, en los ceros la
función de transferencia se hace nula, por lo que para esos valores de s la
señal de salida será nula. Por otro lado, en los polos la función de transfe-
rencia presenta una singularidad (tiende a ∞). Es importante darse cuenta
de que, dado que los coeficientes del polinomio del denominador son los
coeficientes de las derivadas temporales de la señal de salida en la represen-
tación más general del sistema dinámico, estos coeficientes son reales y, por
lo tanto, los polos de la función de transferencia tienen que ser reales o bien
pares de complejos conjugados.
El significado de los polos en el dominio temporal se puede apreciar me-
jor analizando el comportamiento de un sistema que tenga una función de
transferencia con un único polo. En efecto, supongamos la función de trans-
ferencia más sencilla con un único polo:
1
G(s) =
s−λ

La antitransformada de Laplace será:

G(t) = eλt

117
Dado que, en general, λ es complejo se puede representar como λ = σ + jω,
por lo que:
G(t) = eσt+jωt = eσt ejωt

es decir, la contribución de cada polo a la respuesta es el producto de una


exponencial con exponente real, que crece exponencialmente si la parte real
del polo es positiva y decrece también exponencialmente si la parte real del
polo es negativa, por una exponencial con argumento puramente imaginario
que representa un comportamiento oscilante7 . Es interesante destacar que
si el polo tiene parte real positiva la contribución de cada impulso a la
respuesta temporal crece sin lı́mites y, por lo tanto, el sistema es inestable, de
donde podemos concluir que si todos los polos de la función de transferencia
de un sistema tienen parte real negativa el sistema será estable.
Esto también permite comprender el interés de la retroalimentación. Como
vimos anteriormente, si tenemos un sistema cuya función de transferencia es
G(s) que presenta, por ejemplo, polos con parte real positiva, e introducimos
un bucle de retroalimentación simple, la función de transferencia del sistema
pasa a ser:
Y (s) G(s)
K(s) = =
X(s) 1 − H(s)G(s)

donde los polos de la nueva función de transferencia son los ceros de la


función 1 − H(s)G(s). Una adecuada elección de la función H(s) permite
eliminar o desplazar los polos de forma que la nueva función de transferencia
del sistema retroalimentado no presente ya polos con parte real positiva.

Respuesta en frecuencia. Ganancia de amplitud, fase y diagra-


mas de Bode.

La variable s no es una variable que sea fácil de interpretar en términos


fı́sicos, puesto que como hemos visto contiene, simultáneamente, informa-
ción sobre tiempo de relajación y frecuencia de oscilación. Sin embargo, las
transformadas de Laplace y de Fourier coinciden si s = jω, de manera que

7
Recordemos que, de acuerdo con la relación de Euler, ejωt = cos ωt + j sen ωt

118
Teorı́a de filtrado

si se conoce la función de transferencia de un sistema se conoce también


su respuesta en frecuencia, que no es más que la función compleja que
se obtiene al hacer la sustitución s = jω en la función de transferencia, es
decir:
G(ω) = G(s = jω)

En términos de funciones de entrada y salida tenemos8 :

Y (ω) = G(ω)X(ω)

o bien:
Y (ω)
G(ω) =
X(ω)

donde X(ω) e Y (ω) son las transformadas de Fourier de las señales de


entrada y salida, respectivamente.
La respuesta en frecuencia permite hacer una representación mucho más
fı́sica del sistema puesto que para cada valor de la frecuencia nos proporciona
un número complejo cuyo módulo es la ganancia de amplitud, G(ω), y
su fase, φ(ω), es el desfase de esa componente de frecuencia de la señal de
salida respecto de la componente de la misma frecuencia contenida en la
señal de entrada. Es decir:

G(ω) = G(ω)eiφ(ω)
q
|Y (ω)|
G(ω) = |G(ω)| = [Re(G(ω))]2 + [Im(G(ω))]2 =
|X(ω)|
 
Im(G(ω))
φ(ω) = arctan
Re (G(ω))

Es conveniente recordar que la unidad para la ganancia, o factores de am-


plificación en general, es el decibelio (db), que se define a partir de la

8
También se puede ver haciendo la transformada de Fourier de la expresión de la respuesta del
sistema en función de la señal de entrada y la respuesta impulsional, aplicando el teorema de convolución,
que también es válido para la transformada de Fourier.

119
expresión9 :
 
|Y (ω)|
Gdb (ω) = 20 log10 (G(ω)) = 20 log10
|X(ω)|

Las representaciones, en escala doblemente logarı́timica, de G(ω) y φ(ω) en


función de ω se suelen denominar diagramas de Bode y permiten una
visualización rápida y conveniente de las principales caracterı́sticas de la
respuesta en frecuencia de un sistema. Para ilustrarlo, basta con considerar
los efectos que producen los ceros y los polos de la función de transferencia
en la respuesta en frecuencia tal como haremos a continuación.

Efectos de los polos y ceros de la función de transferencia en la ganancia de


amplitud.

Por ejemplo, consideremos una función de transferencia con un único polo


puramente real, es decir, con parte imaginaria nula. En ese caso:

1
G(s) =
s − p1

con p1 real. La respuesta en frecuencia correspondiente es:

1 (−jω − p1 ) p1 + jω
G(ω) = = =− 2
jω − p1 (jω − p1 ) (−jω − p1 ) ω + p21

y, por tanto, la ganancia de amplitud será:


p !
ω 2 + p21
Gdb (ω) = 20 log10 (G(ω)) = 20 log10
ω 2 + p21

9
Esta expresión es válida para señales eléctricas de tipo tensión o corriente. Sin embargo, si
se habla de ganancia de potencia es necesario tener en cuenta que la potencia eléctrica es pro-
porcional al cuadrado de la corriente o tensión, por lo que en ese caso la definición correcta es
Gdb (ω) = 10 log10 (|Y (ω)|2 /|X(ω)|2 )

120
Teorı́a de filtrado

Si ahora examinamos el comportamiento de la ganancia de amplitud para


frecuencias menores que p1 vemos que:
 
1
Gdb (ω)|ωp1 ' 20 log10
p1

es decir, es constante. Por el contrario, para frecuencias mayores que p1 ,


tenemos:  
1
Gdb (ω)|ωp1 ' 20 log10 = −20 log ω
ω

que en el diagrama de Bode de ganancia es una recta con una pendiente de


−20 decibelios por cada década de frecuencia10 .
Esto es, un polo real no tiene efectos en la ganancia para frecuencias inferio-
res a la del polo (ω  p1 ), mientras que, para frecuencias superiores a la del
polo (ω  p1 ) introduce una contribución negativa a la pendiente del dia-
grama de −20 db/dec. Es fácil ver que, para polos reales de multiplicidad
k, la contribución a la pendiente de la ganancia de amplitud es de −20k
db/dec para frecuencias mayores que la del polo y nula para frecuencias
menores que la del polo. Además, el valor de la ganancia de amplitud para
ω = p1 es:
   
1 1 
Gdb (ω)|ω=p1 = 20 log10 √ = 20 log10 + 20 log10 2−1/2 =
2p1 p1
= Gdb (ω)|ωp1 − 10 log10 (2) ' Gdb (ω)|ωp1 − 3 db

es decir, para ω = p1 , la ganancia de amplitud es 3 db inferior al valor que


le corresponderı́a si no existiera el polo.

Ejercicio 3.1 Supongamos una función de transferencia presenta dos


polos que son complejos conjugados p1 = σ1 + jω1 y p∗1 = σ1 − jω1 .
Obtenga la ganancia en amplitud para frecuencias mucho mayores y
mucho menores que ω1 .

10
Habitualmente se utiliza la terminologı́a abreviada de decibelios por década (se sobreentiende de
frecuencia) y se expresa como db/dec.

121
Solución
La forma exacta de la función de transferencia en este caso es:
1 1
G(s) = ∗
= =
(s − p1 )(s − p1 ) s2 − 2σ1 s + |p1 |2
1
= 2
s − 2σ1 s + +σ12 + ω12
Entonces, la respuesta en frecuencia correspondiente será:
1 1
G(ω) = 2 = =
(jω) − 2jσ1 ω + +σ12 + ω12 −ω + σ1 + ω12 − j2σ1 ω
2 2

−ω 2 + σ12 + ω12 − j2σ1 ω


= 2
(−ω 2 + σ12 + ω12 ) + (2σ1 ω)2
y la ganancia de amplitud será:

Gdb (ω) = 20 log10 (G(ω)) =


h i1/2 
2 2 2 2 2
 (−ω + σ1 + ω1 ) + (2σ 1 ω) 
= 20 log10  2 2 2 2 
2
(−ω + σ1 + ω1 ) + (2σ1 ω)

que, para frecuencias mucho menores que ω1 toma un valor constante:


 
1
Gdb (ω)|ωω1 ' 20 log10
σ12 + ω12
mientras que para frecuencias mucho mayores que ω1 se comporta como:
 
1
Gdb (ω)|ωω1 ' 20 log10 = −40 log10 (ω)
ω2
es decir, la ganancia de amplitud decrece con una pendiente de −40
db/dec. Se deja como ejercicio adicional para el lector comprobar que el
caso p1 = σ1 − jω1 se comporta cualitativamente de la misma manera.
Por lo tanto, una pareja de polos complejos conjugados se comporta
como un polo real de multiplicidad 2.

122
Teorı́a de filtrado

Veamos ahora el efecto de un cero, es decir, consideremos un sistema cuya


función de transferencia es:

G(s) = s − z1

en cuyo caso:
G(ω) = −z1 + jω

Entonces, la ganancia de amplitud será:


q 
2 2
Gdb (ω) = 20 log10 (G(ω)) = 20 log10 ω + z1

Si ahora examinamos el comportamiento de la ganancia de fase para fre-


cuencias menores que z1 vemos que:

Gdb (ω)|ωz1 ' 20 log10 (z1 )

es decir, es constante. Por el contrario, para frecuencias mayores que z1 ,


tenemos:
Gdb (ω)|ωz1 ' 20 log10 (ω)
que en el diagrama de Bode de ganancia es una recta con una pendiente de
+20 db/dec. Es decir, un cero tampoco tiene efectos en la ganancia para
frecuencias inferiores a la del cero (ω  z1 ), mientras que, para frecuencias
superiores a la del cero (ω  z1 ), introduce una contribución positiva a la
pendiente del diagrama de +20 db/dec. Además, el valor de la ganancia de
amplitud para ω = z1 es:
√  
Gdb (ω)|ω=z1 = 20 log10 2z1 = 20 log10 (z1 ) + 20 log10 21/2 =
= Gdb (ω)|ωz1 + 10 log10 (2) ' Gdb (ω)|ωp1 + 3 db

es decir, para ω = z1 , la ganancia de amplitud es 3 db superior al valor que le


corresponderı́a si no existiera el cero. Es fácil ver que si un determinado cero
es una raı́z de multiplicidad k contribuirá al cambio de pendiente con +20k
db/dec, mientras que si es un polo el que tiene multiplicidad l contribuirá
al cambio de pendiente con −20l db/dec.

123
Por lo tanto, si se conocen los polos y los ceros de la función de transferencia
de un sistema es sencillo realizar un dibujo aproximado del diagrama de
Bode de ganancia de amplitud. Para ello basta con completar sucesivamente
las siguientes etapas:

1. Ordenar los polos y los ceros de menor a mayor frecuencia.

2. Para frecuencias inferiores al polo o cero de frecuencia más baja la


ganancia es constante.

3. Para frecuencias situadas entre el primer polo o cero y el segundo la


contribución dominante corresponde al primer polo o cero, luego entre
las dos frecuencias mencionadas la ganancia aumentará, en el caso de
un cero, o disminuirá, en el caso de un polo, con una pendiente igual
a 20 db/dec multiplicado por la multiplicidad del polo o cero.

4. Repetir el paso 3 para todos los polos y ceros de la función de trans-


ferencia.

Por ejemplo, consideremos un sistema cuya función de transferencia tenga


un cero en z1 y y dos polos en p1 y p2 , respectivamente. Es decir

K(s − z1 )
G(s) =
(s − p1 ) (s − p2 )

Según el procedimiento esbozado anteriormente, la primera fase consiste en


ordenar los ceros y los polos en orden de frecuencia creciente. En este caso
el orden será z1 , p1 , p2 . Por lo tanto, a la izquierda de z1 la ganancia será
constante e igual a 20 log10 (Kz1 /p1 p2 ) = 0. Entre z1 y p1 la ganancia estará
dominada por el cero en z1 y tendrá una pendiente positiva de 20 db/dec.
Entre p1 y p2 , la contribución del polo en p1 compensará la del cero en
z1 y la ganancia tendrá un valor constante. Finalmente, para frecuencias
superiores a p2 será este último polo el que domine y su contribución con
una pendiente de −20 db/dec dominará el diagrama en dicho rango.
Esto se puede comprobar obteniendo analı́ticamente la respuesta en frecuen-

124
Teorı́a de filtrado

80

70

60

50

(db) 40

30
G(ω)

20

10

-10

-20
10-2 100 102 104 106 108 1010
ω (Hz)

Figura 3.4. Diagrama de Bode de ganancia. En él se representa la ganancia de amplitud (módulo de la
respuesta en frecuencia) en función de la frecuencia.

cia del sistema:

jω − z1 −z1 + jω
G(ω) = K =K =
(jω − p1 ) (jω − p2 ) p1 p2 − ω 2 − jω(p1 + p2 )
(−z1 + jω) [p1 p2 − ω 2 + jω(p1 + p2 )]
=K =
[p1 p2 − ω 2 − jω(p1 + p2 )] [p1 p2 − ω 2 + jω(p1 + p2 )]
− [z1 p1 p2 − z1 ω 2 + jωz1 (p1 + p2 )] + jω [p1 p2 − ω 2 + jω(p1 + p2 )]
=K =
(p1 p2 − ω 2 )2 + ω 2 (p1 + p2 )2
[−z1 p1 p2 + z1 ω 2 − jωz1 (p1 + p2 )] + [jωp1 p2 − jω 3 − ω 2 (p1 + p2 )]
=K =
(p1 p2 − ω 2 )2 + ω 2 (p1 + p2 )2
ω 2 [z1 − (p1 + p2 )] − z1 p1 p2 + jω [p1 p2 − z1 (p1 + p2 ) − ω 2 ]
=K
(p1 p2 − ω 2 )2 + ω 2 (p1 + p2 )2

y, posteriormente, obteniendo el diagrama de Bode de ganancia numérica-


mente. En la figura 3.4 se representa la ganancia de amplitud, G(ω) ası́
obtenida, particularizada para los valores z1 = 1; p1 = 103 , p2 = 106 y
K = 109 . Como se puede ver, el diagrama real coincide muy aproximada-
mente con el predicho por el procedimiento cualitativo descrito más arriba.

125
Efectos de los polos y los ceros de la función de transferencia sobre la fase
de la respuesta en frecuencia.

El comportamiento del diagrama de Bode de la fase se puede analizar de


una manera muy similar. Volvamos a considerar el caso de una función de
transferencia con un único polo real, es decir:
1
G(s) =
s − p1

La respuesta en frecuencia correspondiente es:


1 (−jω − p1 ) p1 + jω
G(ω) = = =− 2
jω − p1 (jω − p1 ) (−jω − p1 ) ω + p21

la fase será:

     0; si ω  p1
Im(G(ω)) ω
φ(ω) = arctan = arctan = π/4; si ω = p1
Re (G(ω)) p1 
π/2; si ω  p1

Es decir, la contribución a la fase de un polo real es una función positiva,


siempre creciente, que parte de un valor nulo para frecuencias mucho meno-
res que la del polo, que toma el valor π/4 a la frecuencia del polo y tiende
asintóticamente al valor π/2 para frecuencias mucho mayores que la del po-
lo. Es fácil ver que, para polos reales de multiplicidad k, la contribución a
la fase es de kπ/4 para la frecuencia del polo y de kπ/2 para frecuencias
mucho mayores que la del polo.
Ejercicio 3.2 Consideremos un sistema cuya función de transferencia
es G(s) = s − z1 , esto es G(ω) = −z1 + jω ¿Cuál será la contribución a
la fase del cero?

Solución
En este caso, la ganancia de amplitud será:

   0; si ω  z1
ω
φ(ω) = arctan − = − π ; si ω = z1
z1  π4
− 2 ; si ω  z1

126
Teorı́a de filtrado

Es decir, la contribución a la fase de un cero es una función negativa,


siempre decreciente, que parte de un valor nulo para frecuencias mucho
menores que la del cero, que toma el valor −π/4 a la frecuencia del cero
y tiende asintóticamente al valor −π/2 para frecuencias mucho mayores
que la del cero. Es fácil ver que, para ceros de multiplicidad k, la con-
tribución a la fase es de −kπ/4 para la frecuencia del cero y de −kπ/2
para frecuencias mucho mayores que la del cero.

Si se conocen los polos y los ceros de la función de transferencia de un


sistema también es sencillo realizar un dibujo aproximado del diagrama de
Bode de fase. Para ello basta con completar sucesivamente las siguientes
etapas:

1. Ordenar los polos y los ceros de menor a mayor frecuencia.

2. Para frecuencias inferiores al polo o cero de frecuencia más baja la


fase es nula. A medida que aumenta la frecuencia la fase es una fun-
ción creciente o decreciente dependiendo de que la primera frecuencia
corresponda a un polo o un cero, respectivamente.

3. Cerca de los polos la fase será una función creciente y cada polo
añadirá a la fase una contribución de +π/4 a la frecuencia del po-
lo y, en total, de +π/2 a frecuencias significativamente mayores que
la del polo11 .

4. Cerca de los ceros la fase será una función decreciente y cada cero
añadirá a la fase una contribución de −π/4 a la frecuencia del cero y,
en total, de −π/2 a frecuencias significativamente mayores que la del
cero.

Para el mismo sistema de un cero y dos polos utilizado en el ejercicio ante-


rior, a la izquierda de z1 la fase partirá de 0 y decrecerá, tomando el valor
φ(ω = z1 ) = −π/4 y acercándose al valor φ(ω = 10 z1 ) = −π/2. Entre z1
y p1 la fase crecerá, tomando el valor φ(ω = p1 ) = −π/4 y acercándose

11
Tı́picamente para frecuencias mayores que 10 veces la del polo o cero.

127
1,0

0,5

(rad)
φ(ω)/(π/2) 0,0

-0,5

-1,0
10-2 100 102 104 106 108 1010
ω (Hz)

Figura 3.5. Diagrama de Bode de fase (nótese que los valores de la fase están normalizados a π/2).

al valor φ(ω = 10 p1 ) = 0. Finalmente, para frecuencias superiores a p2 la


fase seguirá creciendo, tomará el valor φ(ω = p2 ) = π/4 y, para frecuencias
mucho mayores que p2 se acercará al valor −π/2.
Al igual que en el estudio anterior de la ganancia de amplitud, se puede
obtener la expresión analı́tica para la fase, que resulta ser:
   
Im(G(ω)) ω [p1 p2 − z1 (p1 + p2 ) − ω 2 ]
φ(ω) = arctan = arctan 2
Re (G(ω)) ω [z1 − (p1 + p2 )] − z1 p1 p2

En la figura 3.5 se representa la fase, φ(ω), obtenida para los valores z1 = 1;


p1 = 103 , p2 = 106 y K = 109 . Como se puede ver, el diagrama real coinci-
de muy aproximadamente con el predicho por el procedimiento cualitativo
descrito más arriba.

1.3. Filtros.

En la mayor parte de los trabajos experimentales, las señales eléctricas pro-


porcionadas por los sensores contienen contribuciones indeseables debidas a
perturbaciones sistemáticas o a fluctuaciones aleatorias, que, al estar super-
puestas a las señales de los sensores propiamente dichas, pueden dificultar

128
Teorı́a de filtrado

enormemente la realización de las medidas o su interpretación. En general,


estas contribuciones indeseables se agrupan bajo la denominación de ruido
y su eliminación o minimización es un objetivo primordial en todo trabajo
experimental.
Los sistemas que se utilizan para eliminar o minimizar el ruido se denominan
filtros, puesto que su objetivo se puede describir como tamizar las señales
proporcionadas por los sensores con vistas a obtener exclusivamente la parte
significativa de la señal. Por lo tanto, los filtros son sistemas que realizan
operaciones sobre señales temporales, x(t), transformándolas en otras, y(t),
que permiten una representación más precisa de la dinámica de las variables
objeto de estudio.
Existen muchos tipos de filtros, que se pueden clasificar atendiendo a di-
ferentes aspectos. Por ejemplo, se pueden clasificar según el tipo de señal
sobre la que actúan: si la señal es continua en el tiempo (señales eléctricas)
se denominan filtros analógicos, mientras que si la señal es discreta (bien
porque los datos del conjunto sean discretos, porque la señal esté muestrea-
da o sea el resultado de una simulación numérica) se denominan filtros
digitales.
Otra clasificación importante es la que atiende al rango temporal con que
trabaja el filtro: si el filtrado para obtener y(t0 ) trabaja solo con los valores
de la señal de entrada anteriores a t0 , (es decir, x(t) con t ≤ t0 ) el filtro
se denomina causal, mientras que si trabaja con los valores de la señal de
entrada posteriores a t0 el filtro se denomina recursivo.
Los filtros se pueden, también, clasificar atendiendo a su respuesta en fre-
cuencia. En este sentido se pueden definir cuatro clases principales de filtros:

Filtros paso bajo. Son filtros cuya ganancia de amplitud es prácticamen-


te constante a baja frecuencia y decae fuertemente a partir de una
cierta frecuencia que se denomina frecuencia de corte. Se utilizan pa-
ra eliminar ruido de alta frecuencia en señales en las que se sabe que
no hay información significativa por encima de una cierta frecuencia,
Son filtros que dejan pasar señales lentamente variables en el tiempo.
Un ejemplo clásico es un circuito integrador, cuya función de trans-
ferencia es G(s) ∝ (s − ωc )−1 , donde ωc es la frecuencia de corte, y,

129
por lo tanto, la ganancia de amplitud es constante por debajo de la
frecuencia de corte y decae con una pendiente de −20 db/dec por
encima de la frecuencia de corte. Para este tipo de filtros se suele de-
finir la banda pasante como la banda de frecuencias que va desde
la continua hasta la frecuencia de corte, ωc , que es aquella para la
cual la ganancia de amplitud se hace 3 db inferior a la ganancia de
baja frecuencia. Consecuentemente, el ancho de banda (anchura de
la banda pasante) del filtro es igual a la frecuencia de corte.

Filtros paso alto. Es el caso opuesto al anterior, es decir, son filtros cuya
ganancia de amplitud es muy pequeña a baja frecuencia y aumenta
rápidamente en las proximidades de la frecuencia de corte, a partir
de la cual la ganancia es prácticamente constante. Se utilizan pa-
ra eliminar ruido lentamente variable en señales en las que se sabe
que toda la información significativa está por encima de una cierta
frecuencia. Son filtros que, por ejemplo, eliminan los valores de conti-
nua (frecuencia nula) y dejan pasar señales rápidamente variables. Un
ejemplo clásico es un circuito derivador, cuya función de transferencia
es G(s) ∝ (s − ωc ) y, por lo tanto, la ganancia de amplitud crece con
una pendiente de +20 db/dec por debajo de la frecuencia de corte y
es constante por encima de la frecuencia de corte.

Filtros paso banda. Son filtros que presentan ganancia pequeña a baja y
alta frecuencia, mientras que presentan una ganancia significativa en
una banda continua de frecuencia intermedia. Se pueden considerar
formados por un filtro paso alto y otro paso bajo con la frecuencia de
corte del paso alto menor que la correspondiente al paso bajo (véase,
por ejemplo, la curva de ganancia de amplitud de la figura 3.4. Se sue-
len utilizar en casos en que se conoce que la información significativa
de la señal de entrada está en una banda de frecuencia bien determi-
nada. Eliminan las componentes lentamente y rápidamente variables
y dejan pasar componentes de frecuencias intermedias. Para este tipo
de filtros la banda pasante es la banda de frecuencias que va desde la
frecuencia de corte del paso alto, ωca , hasta la frecuencia de corte del
paso alto, ωcb . En este caso las dos frecuencias de corte son aquellas
para las cuales la ganancia de amplitud es 3 db inferior a la ganancia
en la banda de ganancia constante. Consecuentemente, el ancho de

130
Teorı́a de filtrado

banda del filtro es igual a la diferencia entre las dos frecuencias de


corte.

Filtros de eliminación de banda. Es el caso contrario al anterior, es de-


cir, son filtros que presentan ganancia significativa a baja y alta fre-
cuencia, mientras que presentan una fuerte atenuación en una banda
continua de frecuencia intermedia. Se pueden considerar formados por
un filtro paso alto y otro paso bajo con la frecuencia de corte del paso
alto mayor que la correspondiente al paso bajo. Se suelen utilizar en
casos en los que se quiere eliminar una perturbación que tiene una
frecuencia bien determinada (el ejemplo más tı́pico es intentar elimi-
nar ruido electromagnético de frecuencia igual a la de la red eléctrica
doméstica, es decir, 50 Hz). Eliminan componentes de la señal corres-
pondientes a frecuencias situadas en la banda eliminada y dejan pasar
las componentes lentamente y rápidamente variables.

Finalmente, los filtros se clasifican también en atención al número de polos y


ceros que presenta su función de transferencia. Ası́, se dice que un filtro cuya
función de transferencia presenta i polos y j ceros es de orden n = máx(i, j).

2. FILTRADO ELECTRÓNICO ANALÓGICO.

En esta sección trataremos de hacer una aproximación a los sistemas de fil-


trado más utilizados en el caso de señales electrónicas analógicas, es decir,
señales eléctricas procedentes de equipos sensores o equipos electrónicos que
dan una señal de salida continua en el tiempo. En primer lugar analizare-
mos circuitos muy simples construidos con elementos pasivos (resistencias,
condensadores e inductores) que constituyen los filtros más simples de pri-
mer orden. Seguidamente veremos que las caracterı́sticas de estos filtros se
pueden mejorar bastante utilizando componentes electrónicos activos (en
este caso amplificadores operacionales), haciendo una breve introducción a
los filtros activos de primer orden.

131
R C

Vi C Vo Vi R Vo

(a) (b)

Figura 3.6. Esquemas de filtros elementales con componentes pasivos: (a) filtro paso bajo (integrador),
(b) filtro paso alto (derivador).

2.1. Filtros pasivos de primer orden.

En la figura 3.6 se pueden observar dos tipos de circuitos construidos con


componentes pasivos. Estudiemos sus funciones de transferencia y de res-
puesta en frecuencia. Para el primer circuito, la ganancia es directamente
el cociente entre la tensión de salida y la de entrada. Esta relación se puede
escribir muy fácilmente sin más que utilizar las impedancias complejas de
la resistencia, ZR = R, y del condensador, ZC = 1/jωC,.y darse cuenta de
que el circuito funciona como un divisor de tensiones. Por lo tanto:
1
ZC jωC 1
G(ω) = = 1 =
ZR + ZC R + jωC 1 + jωRC

de donde:
1
G(s) =
1 + sRC
y también:
1
Gdb (ω) = q
1 + (ωRC)2

Por lo tanto, la ganancia de amplitud de este circuito es aproximadamente


igual a la unidad, para frecuencias ω  ωc = 1/RC, mientras que para fre-
cuencias ω  ωc , la ganancia es Gdb (ω) ' ωc /ω, y, por consiguiente, decrece
con una pendiente de −20 db/dec. Es decir, el circuito se comporta como

132
Teorı́a de filtrado

un filtro paso bajo de primer orden (dado que su función de transferencia


tiene un único polo simple) con frecuencia de corte ωc = 1/RC.
Procediendo de la misma forma con el segundo circuito, tenemos:

ZR R jωRC (ωRC)2 + jωRC


G(ω) = = 1 = =
ZR + ZC R + jωC 1 + jωRC 1 + (ωRC)2

de donde:
sRC
G(s) =
1 + sRC
y también:
1  4 2 2
1
Gdb (ω) = (ωRC) + (ωRC)
1 + (ωRC)2

La ganancia de amplitud de este circuito para frecuencias ω  ωc es apro-


ximadamente igual a la unidad, mientras que para frecuencias ω  ωc =
1/RC, la ganancia es Gdb (ω) ' ω/ωc , y, por consiguiente, crece con una
pendiente de +20 db/dec. Es decir, el circuito se comporta como un filtro
paso alto de primer orden (puesto que solamente tiene un cero simple y un
polo simple) con frecuencia de corte ωc = 1/RC.

2.2. Filtros activos de primer orden.

Para hacer un análisis rápido de estos circuitos, consideremos un amplifica-


dor en configuración inversora tal como el de la figura 3.7.
La aplicación directa de los principios básicos de funcionamiento de un
A.O.12 lleva directamente a obtener la respuesta en frecuencia del amplifi-
cador como:
VO (jω) Z2 (jω)
G(jω) = =−
Vi (jω) Z1 (jω)

Si reproducimos con las dos impedancias de la figura 3.7 la topologı́a de


los filtros pasivos de primer orden obtendremos los filtros activos de primer

12
i) No entra ni sale corriente del A.O. a través de las entradas inversora y no inversora y ii) la
tensión en las entradas inversora y no inversora es la misma.

133
Z2 I2

VCC
Ii Z1

VO
Vi
-VCC

Figura 3.7. Esquema de amplificador en configuración inversora con impedancias genéricas en la entrada
inversora y en la retroalimentación.

orden. Por ejemplo, si Z1 es una resistencia y Z2 un condensador obtenemos


un circuito integrador activo como el de la figura 3.8, cuya respuesta en
frecuencia será:
1
G(jω) = −
jωRC

Es decir, este circuito se acerca mucho más a la respuesta de un filtro paso


bajo ideal, puesto que su polo aparece en ω = 0 = ωc , por lo que el efecto
de filtrado aparece desde frecuencias muy bajas, cosa que no ocurrı́a con el
filtro pasivo. Además, si se concatenan dos circuitos como el de la figura
3.8, dado que el A.O. de la primera etapa tiene una resistencia de salida
mucho más baja que la resistencia de entrada de la segunda etapa, las dos
etapas se pueden considerar como bloques independientes y, por tanto, si los
componentes usados en las dos etapas tienen los mismos valores, tendremos:

1
G(jω) = G2 (jω)G1 (jω) = −
(ωRC)2

Es decir, tendremos un filtro paso bajo con la misma frecuencia de corte


pero de segundo orden, ya que la función de transferencia:

1
G(s) = G2 (s)G1 (s) = −
(sRC)2

134
Teorı́a de filtrado

C
I2

VCC
Ii R

Vi(t)
VO

-VCC

Figura 3.8. Esquema de un integrador con amplificador operacional en configuración inversora.

y presenta un polo doble en ω = 0, por lo que la ganancia de amplitud por


encima de la frecuencia de corte, es decir para cualquier frecuencia no nula,
decae con una pendiente de −40 db/dec.
Recordemos también, que en la señal de entrada hay siempre componentes
de continua, y estas componentes son integradas por el filtro de la figura 3.8,
de manera que suelen aparecer rampas crecientes o decrecientes que llevan
al A.O. a saturar su tensión de salida. La forma de solventar este problema
es colocar una resistencia en paralelo con el condensador tal como se indica
en la figura.

RF

C
VCC
Ii R

Vi(t)
VO

-VCC

Figura 3.9. Integrador a partir de operacional en configuración inversora con resistencia de retroalimen-
tación.

La resistencia RF permite la circulación de las componentes dc que de otra

135
manera causarı́an la saturación del operacional. Sin embargo, la respuesta
en frecuencia de este circuito ya no es exactamente la de un integrador, sino
que es:
1
1 RF /(jωC) RF jωC RF 1
G(jω) = − =− =−
R RF + 1/(jωC) R 1 R 1 + jωRF C
RF +
jωC
que, como se ve, no tiene la misma forma funcional que la correspondiente al
integrador ideal, sino que es análoga a la del filtro paso bajo pasivo con una
ganancia en baja frecuencia seleccionable, −RF /R, y frecuencia de corte
ωc = 1/RF C.
Volviendo al circuito de la figura 3.7, si ahora hacemos que Z1 sea un con-
densador y Z2 una resistencia tendremos el circuito de la figura 3.10. En
este caso la respuesta en frecuencia pasa a ser:

G(ω) = −jωRC

es decir, dado que presenta un cero simple en ω = 0, es la correspondiente a


un filtro paso alto de primer orden con ganancia unidad para una frecuencia
ω = 1/RC.

3. SEÑALES MUESTREADAS.

Para señales muestreadas, es decir, discretas en el tiempo, lo más habitual es


proceder al filtrado trabajando no sobre la señal en su representación tem-
poral sino directamente sobre su representación en el espacio de frecuencias.
Para ello es necesario proceder en tres etapas: i) obtener la transformada de
Fourier de la señal, ii) realizar la manipulación adecuada de la transformada
(por ejemplo, llevar a 0 los coeficientes correspondientes a una banda com-
pleta de frecuencia que se quiera eliminar) y iii) devolver la señal filtrada a
la representación en el dominio del tiempo por medio de la antitransformada
de Fourier. En esta sección veremos, en primer lugar, algunos conceptos úti-
les para, después, pasar a algunos detalles prácticos de los procedimientos
de filtrado, o más generalmente, tratamiento de señales discretas.

136
Teorı́a de filtrado

VCC
Ii
Vi(t) C
VO

-VCC

Figura 3.10. Esquema de un circuito diferenciador por medio de un amplificador operacional en configu-
ración inversora.

3.1. Señales muestreadas. Teorema de Nyquist-Shanon.

Como ya dijimos en el inicio de estas notas, una señal muestreada está


constituida por un conjunto de valores discretos situados en tiempos deter-
minados τi que pueden estar equiespaciados o no. Es importante recalcar
que la digitalización de una señal analógica implica dos procesos distin-
tos y concatenados: muestreo y cuantificación. Probablemente resulta más
sencillo explicar la diferencia entre los dos describiendo el procedimiento
electrónico por el que se realizan. El muestreo se realiza por parte de un
elemento que se suele denominar etapa sample-and-hold (muestreo y mante-
nimiento), que permite el paso de la corriente durante un corto intervalo de
tiempo, el cual tiene tiempos de inicio y final bien definidos. Seguidamente,
la etapa de conversión analógico-digital (AD) realiza la cuantificación del
valor de la corriente y le asigna un valor codificado digitalmente. Dado que
estas tareas se suelen realizar de forma periódica, el proceso de muestreo y
cuantificación se repite con una frecuencia denominada frecuencia de mues-
treo, cuyo inverso se suele denominar tiempo de muestreo13 . Es importante
señalar que en la digitalización de una señal aparecen, pues, tres escalas de

13
Esta expresión contiene un cierto abuso de lenguaje puesto que el tiempo de muestreo, estricta-
mente, deberı́a designar al tiempo de apertura de la etapa sample-and-hold.

137
tiempo: el tiempo de captura, tiempo durante el que está abierta la puer-
ta de la etapa sample-and-hold, tiempo de conversión, tiempo que tarde el
conversor AD en cuantificar la señal, y el tiempo de repetición (tiempo de
muestreo) del proceso de muestreo y conversión. Para un sistema tı́pico de
conversión AD en laboratorio estos tiempos son del orden de 1 µs, para el
tiempo de captura, 5 µs para el tiempo de conversión y entre 10 µs y 100
s para el tiempo de muestreo.
Empezaremos, a riesgo de resultar repetitivos, por recopilar aquı́, breve-
mente, las definiciones relativas a las señales dadas al principio del capı́tulo.
Cualquier señal discreta se puede representar haciendo uso de la función δ
de Dirac.
De forma discreta, teniendo en cuenta que f (t) serı́a la señal analógica
(continua) origen de la señal discreta, podemos escribir:

X
N −1
fd (t) = f (t)δ(t − τi )
i=0

que, en el caso de que el muestreo sea equiespaciado en el tiempo con tiempo


de muestreo τ se puede escribir como:

X
N −1
fd (t) = f (t)δ(t − iτ )
i=0

Como sabemos, las señales se pueden representar en el dominio temporal o


en el de frecuencia a través de la transformación de Fourier. Recı́procamen-
te, f (t) se puede obtener a partir de F (ω) a través de la antitransformación
(o transformación inversa) de Fourier. La transformada de Fourier de una
señal es, en general, una función compleja y, por lo tanto, es de difı́cil utili-
zación para la visualización de los componentes de frecuencia de las señales
digitales. Para ello se utiliza habitualmente una función real que se puede
construir a partir de la transformada de Fourier, que es el denominado es-
pectro de potencia, que es el cuadrado del módulo de su transformada
de Fourier, es decir:

P (ω) = F ∗ (ω)F (ω) = |F (ω)|2

138
Teorı́a de filtrado

Teorema de muestreo o teorema de Nyquist-Shannon.

Dada una señal analógica periódica continua, xa (t), que está limitada en
banda de frecuencia de manera que la frecuencia más alta (ancho de banda)
que contiene es ωmáx , si esta señal se muestrea con una frecuencia de mues-
treo, ωs , la señal analógica original se puede recuperar fielmente a partir de
la señal digital muestreada, xd (it/ωs ) si y solo si la frecuencia de muestreo
es superior al doble de la frecuencia más alta contenida en la señal origi-
nal, es decir, si ωs > 2ωmáx . Más concretamente, la señal original se puede
recuperar a partir de la señal digital interpolando por medio de la función:
sen 2πωmáx t
g(t) =
2πωmáx t

esto es:

X     X ∞
i i
xa (t) = xd g t− = xd (iτs ) g (t − iτs )
i=1
ωs ωs i=1

Básicamente, el teorema de muestreo viene a decir que si queremos tener


una representación digital fiel de una señal analógica debemos muestrearla
a una frecuencia superior al doble de la frecuencia más alta contenida en la
señal original.

Problema de muestreo y aliasing.

El primer problema se aprecia cuando se intenta contestar la pregunta si-


guiente: ¿qué ocurre con el espectro de potencia de una señal discreta si se
hace un muestreo incorrecto, es decir, de forma que la frecuencia de mues-
treo no cumpla el requisito impuesto por el teorema de Shannon?
Veamos un ejemplo. En la figura 3.11 se ha representado una señal sinu-
soidal de frecuencia f = 1 Hz, muestreada con dos frecuencias de muestreo
distintas, f1 = 10 Hz, que sı́ cumple el teorema de Shannon, mientras que
f2 = 1,1416 Hz no cumple el teorema de Shannon puesto que es inferior
a 2 Hz. En la figura 3.11 el muestreo correspondiente a f1 .se indica como
puntos negros y el correspondiente a f2 se indica como puntos rojos.

139
Muestreo correcto
Muestreo incorrecto
1.0

f(t) (a.u.) 0.5

0.0

-0.5

-1.0

0 10 20
t (s)

Figura 3.11. Señal sinusoidal de frecuencia f = 1 Hz, muestreada con dos frecuencias de muestreo dis-
tintas, f1 = 10 Hz (negro) y f2 = 1,1416 Hz (en rojo).

Los espectros de potencia correspondientes a ambas señales se muestran en


la figura 3.12. Es conveniente remarcar que la forma adecuada de representar
los espectros de potencia, o de amplitud, de una señal es siempre con el eje
de ordenadas en escala logarı́tmica, dado que, de otra forma, muchos picos
relevantes pero de amplitud menor que el pico dominante pueden pasar
lamentablemente desapercibidos.
Volviendo a los espectros calculados, es evidente que el espectro de la señal
muestreada con f1 (trazo en negro de la figura) muestra un pico muy pro-
nunciado en la frecuencia f = 1 Hz, mientras que el espectro de la señal
muestreada con frecuencia f2 (trazo en rojo) también muestra un pico, pero
a la frecuencia f3 = 0,14158 Hz que, obviamente, no se corresponde con la
frecuencia de la señal muestreada.
La clave de lo que está ocurriendo nos la da la figura 3.11. En efecto, directa-
mente sobre la figura 3.11 se puede ver que el periodo de la señal muestreada
no es el correcto (1 segundo) sino aproximadamente 7 segundos, cuya inver-
sa es, precisamente, f3 . Este es un fenómeno que se suele denominar con la
terminologı́a inglesa de aliasing. La manera de evitarlo es respetar lo pres-

140
Teorı́a de filtrado

1E-3

1E-4

1E-5

1E-6
P(f) (u.a.)

1E-7

1E-8

1E-9

1E-10
Muestreo correcto
1E-11
Muestreo incorrecto
1E-12
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
f (Hz)

Figura 3.12. Espectros de potencia correspondientes a los dos muestreos representados en la figura 3.11.

crito por el teorema de Shannon, es decir, hacer el muestreo a frecuencias


superiores a la mayor de las presentes en la señal que se quiere analizar.
Sin embargo, con señales ricas en frecuencias distintas esto puede no ser
sencillo, por lo que la mayor parte de las veces es aconsejable utilizar lo que
se denomina un ((filtro anti-aliasing)) que no es más que un filtro paso bajo
de orden 4 o superior y con frecuencia de corte igual, o algo inferior, a la
mitad de la frecuencia de muestreo.
Para ampliar contenidos, el lector puede consultar el Tema D, de los Anexos
al final de este texto, que ilustra los procedimientos de sı́ntesis de filtros pa-
sivos y activos de segundo orden, ası́ como los procedimientos más generales
para la sı́ntesis de filtros de orden superior basados en la función de transfe-
rencia, estudiando con algo de detalle los filtros de respuesta máximamen-
te plana (Butterworth) y los filtros con atenuación de pendiente máxima
(Chebyshev).

141
4. EJERCICIOS

Ej. 3.1 — Un determinado sistema tiene la siguiente función de transfe-


rencia:
1
G(s) =
(s − 10)2
Se cumple que:

(a) El sistema tiene ganancia de módulo constante por debajo de la fre-


cuencia de corte y una pendiente de -40 db/década por encima de la
frecuencia de corte.

(b) El sistema tiene ganancia de módulo constante por encima de la


frecuencia de corte y una pendiente de -40 db/década por debajo de
la frecuencia de corte.

(c) El sistema tiene ganancia de módulo constante por debajo de la fre-


cuencia de corte y una pendiente de +40 db/década por encima de
la frecuencia de corte.

(d) El sistema tiene ganancia de módulo constante por encima de la


frecuencia de corte y una pendiente de +40 db/década por debajo
de la frecuencia de corte.

Ej. 3.2 — Un determinado sistema tiene la siguiente función de transfe-


rencia:
s − 10
G(s) =
(s − 1)(s − 1000)
¿Cual será la pendiente de la curva de ganancia de amplitud para s = 100?

(a) Nula.

(b) -20 db/década.

(c) -40 db/década.

(d) +20 db/década.

142
Teorı́a de filtrado

Ej. 3.3 — La función de transferencia de un filtro paso-alto de primer


orden:

(a) Tiene un cero de orden uno en la frecuencia de corte.

(b) Tiene un cero de orden superior a uno en la frecuencia de corte.

(c) Tiene un polo de orden uno en la frecuencia de corte.

(d) Tiene un polo de orden superior a uno en la frecuencia de corte.

Ej. 3.4 — Se quiere diseñar un filtro paso banda combinando un filtro


paso bajo y otro paso alto, ambos de primer orden. Si se pretende que la
banda pasante vaya desde 100 Hz hasta 1000 Hz, ¿cuáles deberán ser las
frecuencias de corte de los filtros paso bajo y paso alto?

(a) 100 Hz para el paso alto y 1000 Hz para el paso bajo.

(b) 100 Hz para el paso bajo y 1000 Hz para el paso alto.

(c) 550 Hz tanto para el paso bajo como para el paso alto.

(d) No es posible construir un filtro paso banda combinando un paso alto


con un paso bajo.

Ej. 3.5 — Se pretende muestrear una señal analógica de la que se sabe


que es la suma de tres sinusoides de frecuencias f1 = 15 Hz, f2 = 37 Hz y
f3 = 123 Hz. ¿Cuál será la frecuencia de muestreo mı́nima que se deberá
utilizar si se quiere recuperar fielmente la señal original?

(a) 246 Hz.

(b) 74 Hz.

(c) 15 Hz.

(d) 30 Hz.

143
Ej. 3.6 — Un determinado sistema tiene la siguiente función de transfe-
rencia:
1
G(s) = 2
s − 2s + 2
Deduzca, si es posible, si el sistema es estable o inestable.

Ej. 3.7 — La función de transferencia de un determinado filtro electrónico


analógico es:
1
G(s) =
(s − 10)2
Comente de qué tipo de filtro se trata, su orden y su frecuencia angular de
corte.

144
Tema 4
UNIDADES ELECTROMAGNÉTICAS

La cuestión de las unidades en Electricidad y Magnetismo ha ocupado du-


rante años a un gran número de fı́sicos e ingenieros. Esta situación se halla
en marcado contraste con el acuerdo casi universal en las unidades funda-
mentales de longitud (centı́metro y metro), masa (gramo o kilogramo) y
tiempo (segundo solar medio). Quizá la razón se deba a que las unidades
mecánicas se definieron cuando la idea de ((patrones absolutos)) constituı́a
un nuevo concepto (justamente antes de 1800) y fueron introducidas en el
mundo profesional y comercial por un grupo de cientı́ficos eminentes (Borda,
Laplace y otros). Cuando surgió el problema de las unidades electromagnéti-
cas habı́a (y aún hay) muchos expertos que usaban notaciones y métodos de
trabajo diferentes. El propósito de este capitulo es aclarar en lo posible la
relación entre los distintos sistemas de unidades para dotar de herramientas
con las que entender textos de diversas épocas y especialidades.

1. UNIDADES FUNDAMENTALES Y UNIDADES DERIVA-


DAS

Abraham, Planck, Bridgman, Birge y otros cientı́ficos [5] han insistido sobre
la arbitrariedad en el número de unidades fundamentales y, por lo tanto,
también en la arbitrariedad en las dimensiones de cualquier magnitud fı́sica
en función de dichas unidades fundamentales. Los aspectos deseables de un
sistema de unidades en cualquier campo son conveniencia y claridad. Ası́,
los fı́sicos teóricos dedicados a la Teorı́a de la Relatividad, Teorı́a Cuántica
de Campos y a la Teorı́a de las Partı́culas Elementales, encuentran conve-
niente la modificación de las constante universales, tales como la acción de
Planck (h) y la velocidad de la luz en el vacı́o (c), de forma que estas sean
adimensionales y de valor unidad. El sistema de unidades resultante, lla-
mado ((unidades naturales)), tiene solamente una unidad fundamental, que

145
acostumbra a tomarse como la longitud. Las magnitudes se expresan me-
diante esa única unidad, siendo sus dimensiones potencias de la dimensión
de dicha unidad. Todas la magnitudes, bien sean longitud, tiempo, fuerza
o energı́a, etc., pueden expresarse en un sistema o en otro, siempre que las
unidades fundamentales sean el metro, el kilogramo y el segundo (sistema
MKS). Simplemente es un asunto de conveniencia.
A continuación, hemos de realizar algunos comentarios sobre las unidades
o patrones fundamentales, considerados como magnitudes independientes,
ası́ como acerca de las unidades o patrones derivados, las cuales se definen
tanto en cantidad como en dimensión (teórica y práctica) en función de las
unidades fundamentales.
La tradición hace que consideremos la masa M, la longitud L y el tiempo
T como magnitudes fundamentales. Pero con las magnitudes eléctricas no
ha habido tradición. Consideremos, por ejemplo, la unidad de corriente. El
((amperio internacional)) (aceptado durante un largo periodo como unidad
práctica de corriente) se definı́a en función de la masa de plata depositada
por unidad de tiempo en un proceso de electrólisis en un voltı́metro ade-
cuado. Tal unidad de corriente se consideraba como la unidad fundamental
independiente de las unidades de masa, longitud y tiempo, ya que la canti-
dad de corriente que servı́a de unidad se obtenı́a a partir de una experiencia
de electrólisis que se consideraba reproducible. El patrón de corriente acep-
tado en la actualidad es ahora el ((amperio absoluto)) cuya definición se
aclara en la siguiente sección.

1.1. El Sistema Internacional de Unidades (SI)

En la Conferencia General de Pesas y Medidas (CGPM) de 1960 se esta-


bleció un sistema práctico de unidades que recibió el nombre de Sistema
Internacional de Unidades, cuya abreviatura es SI en todos los idiomas1 .
Las unidades básicas de este sistema son las unidades de las siete magni-
tudes siguientes: ((longitud)), ((masa)), ((tiempo)), ((intensidad de la corriente

1
En España se declaró de uso legal este sistema por ley de 8 de noviembre de 1967. Un decreto de
25 de abril de 1974 adoptó las modificaciones que habı́an sufrido las unidades desde la fecha de la ley.

146
Unidades electromagnéticas

Magnitud Sı́mbolo Unidad SI Sı́mbolo SI


Tiempo T segundo s
Longitud L metro m
Masa M kilogramo kg
Intensidad de corriente I amperio A
Temperatura θ Kelvin K
Cantidad de sustancia N mol mol
Intensidad luminosa J candela cd

Tabla 4.1. Unidades y sı́mbolos del Sistema Internacional de Unidades S.I.

eléctrica)), ((temperatura termodinámica)), ((cantidad de masa)) e ((intensidad


luminosa))2 . Son unidades básicas las que corresponden a las siete magni-
tudes ya mencionadas y reciben respectivamente los siguientes nombres:
((metro)), ((kilogramo)), ((segundo)), ((amperio)), ((kelvin)), ((mol)) y ((candela))
[5]. Las cuatro primeras coinciden con las del sistema MKSA.
El 16 de noviembre de 2018 la 26a Conferencia General de Pesos y Medidas
actualizó las definiciones de las 7 unidades fundamentales del SI cuya fecha
de entrada en vigor es el 20 de mayo de 20193 .
Esta revisión es muy importante porque se abandonan los patrones fı́sicos
y las medidas experimentales para determinar el valor de las unidades y, en
su lugar, se ((fijan)) los valores de ciertas constantes fundamentales a partir
de las cuales se establecen los valores de las unidades.
Antes era al revés: dados los valores fijados con patrones, las constantes
fundamentales tomaban su valor correspondiente a partir de medidas expe-
rimentales. Pero el problema radicaba en que algunos patrones eran difı́ciles
de establecer, en particular el patrón de kilogramo, cuya masa verdadera es
impredecible porque el material del que está hecho el ((kilogramo prototipo))
(un cilindro de una aleación especial custodiado en la Oficina Internacio-
nal de Pesas y Medidas), está sujeto a cambios fı́sicos y quı́micos que sus

2
La cantidad de sustancia fue añadida en 1971. Las otras magnitudes habı́an sido ya aceptadas en
1954.
3
Más detalles sobre las resoluciones de esta Conferencia en la dirección https://www.bipm.org/
en/measurement-units/rev-si/

147
Unidad SI Constante asociada Valor fijado
segundo, s ∆νCs (1) 9 192 631 770 Hz
metro, m c (2) 299 792 458 m s−1
kilogramo, kg Cte. de Planck, h 6,626 070 15 × 10−34 kg m2 s−1
amperio, A Carga del electrón, e 1,602 176 634 × 10−19 A s
kelvin, K Cte. de Boltzmann, k 1,380 649 × 10−23 kg m2 s−2 K−1
mol Cte. de Avogadro, NA 6,022 140 76 × 1023 mol−1
candela, cd Kcd (3) 683 cd sr kg−1 m−2 s3

Tabla 4.2. Definición de las unidades del S.I. a partir de constantes fundamentales según la resolución
de la CGPM de 16 de noviembre de 2018.

1
Frecuencia de la transición hiperfina del estado fundamental imperturbado del Cs133 .
2
Velocidad de la luz en el vacı́o.
3
Intensidad radiante de una fuente monocromática de frecuencia 540 × 1012 Hz que emite
con la eficiencia dada; ((sr)) se refiere a ((estereoradián)).

condiciones especiales de conservación no pueden evitar. Ası́, se llegó a la pa-


radoja de que las constantes fundamentales se podı́an establecer con mejor
precisión que la incertidumbre asociada a la definición de kilogramo patrón.
En realidad ya desde la anterior revisión
del S.I. (1983) el segundo, el metro y la
candela se establecı́an a partir de cons-
tantes fundamentales. En la revisión de
2018 se amplı́a esta forma de definición
al resto de unidades, tal y como se ve la
tabla 4.2, donde se muestran qué cons-
tantes fundamentales se asocian a cada
unidad y su valor fijado. Algunas unida-
Figura 4.1. Unidades del S.I. y su relación con des dependen sólo de la constante que
constantes fundamentales. las define, como son el segundo y el mol,
y el resto dependen de su constante y de
otras unidades por ejemplo el metro, que depende también de la definición
del segundo, o el kilogramo, que depende tanto de la definición del metro
como del segundo.
Como decı́amos, estas nuevas definiciones dejan de usar patrones, como el

148
Unidades electromagnéticas

kilogramo patrón. Pero también dejan de usar medidas indirectas, como la


asociada anteriormente al amperio absoluto que se definı́a como la corriente
que cuando fluye en cada uno de dos conductores muy largos, paralelos y de
sección despreciable separados por una distancia de un metro en el vacı́o,
da lugar a una fuerza transversal por unidad de longitud4 de 2×10−7 Nm−1 ;
esta definición incluı́a fijar la permeabilidad magnética del vacı́o, µo , al valor
µo = 4π × 10−7 kg A−2 s−2 m. Pero fijar esta constante es incompatible con
fijar la carga del electrón, como se hace a partir de 2019, puesto que ambas
están relacionadas con la constante de estructura fina, ᾱ, que se determina
experimentalmente. Por tanto la permeabilidad magnética del vacı́o ahora
es una medida experimental indirecta, a partir de µo = (2h/ce2 )ᾱ, cuyo
valor actual (2019) es:
µo = 4π × 1,000 000 000 82(20) × 10−7 kg A−2 s−2 m (4.1)

2. UNIDADES Y ECUACIONES ELECTROMAGNÉTICAS

Tradicionalmente, se han utilizado varios sistemas de unidades en electro-


dinámica[5]. Debido a que no sólo la magnitud de las unidades va a ser
diferente sino que también lo será la forma de las ecuaciones, es importante
tener presente en qué sistema de unidades ha sido escrita una determinada
expresión electromagnética. Los dos sistemas de unidades más importantes
son el sistema ((gaussiano)) —usado fundamentalmente en el contexto de
la Fı́sica Teórica y la Fı́sica Atómica y Nuclear— y el sistema internacio-
nal de unidades, SI, usado principalmente en el ámbito de las aplicaciones
tecnológicas de la Electrodinámica. El SI coincide con el sistema MKSA
((racionalizado)).
más información

Denominamos ((racionalizados)) a aquellos sistemas que mantienen el


factor 4π en la ley de Coulomb y convencionales a los que lo eliminan[6].

La diferencia básica entre estos dos sistemas reside en el hecho de que en el

4
Como consecuencia de la ecuación (4.5).

149
Sistema k1 k2 α k3
Electrostático −2 2 −2
1 c [T L ] 1 1
(e.s.u)
Electromagnético
c−2 [T2 L−2 ] 1 1 1
(e.m.u)
−2 2 −2 −1
Gaussiano 1 c [T L ] c [T L] c [TL−1 ]
−1

Heaviside-Lorentz (4π)−1 (4πc2 )−1 [T2 L−2 ] c [T−1 L] c−1 [TL−1 ]


SI (MKSA) (4πεo )−1 ' 10−7 c2 µo /4π ' 10−7
1 1
(Racionalizado) [ML3 T−4 I−2 ] [MLT−2 I−2 ]

Tabla 4.3. Valores y dimensiones de las constantes electromagnéticas

sistema gaussiano todas las cantidades fı́sicas son reducidas a las tres dimen-
siones mecánicas: ((longitud)), ((masa)) y ((tiempo)), medidas en centı́metros,
gramos y segundos. Es decir, son las unidades del sistema cegesimal (en
estas unidades mecánicas están basados también los sistemas electrostático,
electromagnético y Heaviside-Lorentz). El SI utiliza también las tres dimen-
siones mecánicas pero medidas en metros, kilogramos y segundos. Pero lo
más importante es que el SI introduce una nueva dimensión: la ((corriente
eléctrica)) cuya unidad es el Amperio (A). Por lo tanto, en este sistema se
utilizan cuatro dimensiones para caracterizar todas las cantidades fı́sicas.
En la discusión de unidades y dimensiones en electromagnetismo tomaremos
como punto de partida la elección tradicional de longitud (L), masa (M) y
tiempo (T) como dimensiones básicas independientes. Además tomaremos
la definición comúnmente aceptada de corriente como carga por unidad de
tiempo:
dq
I=
dt
Esto significa que la relación entre la carga y la corriente tiene dimensiones
de tiempo. Entonces, la ecuación de continuidad para las densidades de
carga y de corriente toma la forma:
∂ρ
∇·J + =0 (4.2)
∂t

150
Unidades electromagnéticas

más información

Desde el punto de vista de la Relatividad Especial serı́a más natural


dar dimensiones de carga partida por longitud a la corriente. Ası́, la
densidad de corriente J y la densidad de carga ρ tendrı́an las mismas
dimensiones y formarı́an un cuadrivector ((natural)). Esta es la elección
que se hace en el sistema ((gaussiano modificado)).

Para simplificar, vamos a considerar sólo fenómenos electromagnéticos en el


vacı́o salvo la presencia de cargas y corrientes.
La ley fundamental que rige la electrostática es la ley de Coulomb, que
0
determina la fuerza entre dos cargas puntuales q y q separadas por una
distancia r; la expresión matemática de esta ley es:

qq 0
F1 = k1 (4.3)
r2

El valor y dimensiones de la constante de proporcionalidad, k1 , quedarán


determinadas por la propia ecuación si el valor y dimensiones de la unidad
de carga se han establecido independientemente, o bien si se eligen arbi-
trariamente con objeto de definir la unidad de carga. Dentro de nuestro
esquema actual, todo lo que esta determinado por el momento es que el
producto (k1 qq 0 ) tiene las dimensiones [ML3 T−2 ].
El campo eléctrico es una magnitud derivada que habitualmente se define
como fuerza por unidad de carga. Por tanto, el campo eléctrico debido a
una carga puntual q se puede definir según (4.3) mediante la relación,
q
E = k1 (4.4)
r

En el sistema gaussiano se escoge k1 = 1 y k1∗ = 1/(4πεo ) en el SI5 , donde


εo es la permitividad del vacı́o.

5
Hagamos notar que todas las magnitudes expresadas en el SI las distinguiremos con un asterisco
(*)

151
En los fenómenos magnéticos estacionarios, las observaciones de Ampère
constituyen la base para especificar la interacción y definir el campo magnéti-
co6 , B. La ley de Ampère para la fuerza entre los elementos de dos conduc-
tores puede escribirse como:
ds1 × (ds2 × r12 )
dF = k2 I1 I2 3
(4.5)
r12

La constante de proporcionalidad k2 es análoga a la k1 que aparece en la


expresión (4.3). Por la comparación de las fuerzas mecánicas, (4.3) y (4.5),
para cargas y corrientes conocidas, se puede calcular el valor de la razón
k1 /k2 ; encontrándose que tiene dimensiones de una velocidad al cuadrado
[L2 T−2 ] y un valor numérico muy aproximadamente igual al cuadrado de la
velocidad de la luz en el vacı́o. Por tanto, simbólicamente podemos escribir:
k1
= c2 (4.6)
k2
siendo c la velocidad de la luz en el vacı́o tanto en valor numérico como
en dimensiones. En el sistema gaussiano, teniendo en cuenta que ya se ha
hecho la elección k1 = 1, no hay más remedio que tomar:
1
k2 = (4.7)
c2

En el SI ya hemos visto que se introduce la permeabilidad magnética del


vacı́o µo :
µo
k2∗ = (4.8)

cuyo valor numérico se ha dado en (4.1).
Como se ha de cumplir que k1 /k2 = k1∗ /k2∗ = c2 (con c expresado respecti-
vamente en cm s−1 y m s−1 ), entonces se deduce que:
1 1
εo = ' kg−1 m−3 s4 A2 (4.9)
µo c 2 4π × 9 × 109

6
En muchos textos el campo B se denomina ((inducción magnética)) y se reserva el nombre de
((campo magnético)) para el campo H.

152
Unidades electromagnéticas

Sistema εo µo D, H
Electrostático c−2 D = E + 4πP
1
(e.s.u) [T2 L−2 ] H = c2 B − 4πM
Electromagnético c−2 D = c−2 E + 4πP
1
(e.m.u) [T2 L−2 ] H = B − 4πM
D = E + 4πP
Gaussiano 1 1
H = B − 4πM
D=E+P
Heaviside-Lorentz 1 1
H=B−M
SI (MKSA) ∼ 107 /4πc2 ∼ 4π × 10−7 D = εo E + P
(Racionalizado) [M−1 L−3 T4 I2 ] [MLT−2 I−2 ] H = µ−1o B−M

Tabla 4.4. εo , µo D y H en distintos sistemas de unidades.

Nótese que esta relación es ligeramente incorrecta: el factor 9 = 32 debe ser


reemplazado por el cuadrado de 2,997... Esta discrepancia entre valor real
y aproximado la tendremos en cuenta en este capı́tulo mediante el uso del
sı́mbolo 3̄ ≡ 2,99792458.
Otra constante de proporcionalidad k3 aparece en la definición del campo
magnético B. La fuerza de Lorentz de una carga moviéndose en un campo
magnético se puede escribir como:
F = k3 qv × B (4.10)

El campo magnético B se deriva de la ley de la fuerza de Ampère. Para


un conductor rectilı́neo por el que pasa una corriente I [5, 7], el campo
magnético tiene por módulo (y dimensiones):
I
B = 2k2 α (4.11)
d

donde α ahora representa una nueva constante, sin relación con la constante
de estructura fina. Las dimensiones de la razón entre el campo eléctrico y el
campo magnético se pueden hallar de (4.2), (4.4), (4.6) y (4.11). El resultado
es que E/B tiene por dimensiones [LT−1 ][α−1 ].
La tercera y última relación para especificar las unidades electromagnéti-
cas es la Ley de Inducción de Faraday, que conecta entre sı́ los fenómenos

153
Ecuaciones de Maxwell Fuerza de
Sistema
macroscópicas Lorentz
Electrostático ∇ · D = 4πρ ∇ × H = 4πJ + ∂D
∂B
∂t E+v×B
(e.s.u) ∇ × E + ∂t = 0 ∇·B = 0
Electromagnético ∇ · D = 4πρ ∇ × H = 4πJ + ∂D ∂t E+v×B
(e.m.u) ∇ × E + ∂B
∂t
=0 ∇·B = 0
∇ · D = 4πρ ∇ × H = 4π J + 1c ∂D v
Gaussiano 1 ∂B
c ∂t E+ ×B
∇ × E + c ∂t = 0 ∇·B = 0 
c

∇·D = ρ ∇ × H = 1c J + ∂D v
Heaviside-Lorentz ∂t E+ ×B
∇ × E + 1c ∂B
∂t
=0 ∇·B = 0 c

SI (MKSA) ∇·D = ρ ∇ × H = J + ∂D
∂B
∂t E+v×B
(Racionalizado) ∇ × E + ∂t = 0 ∇·B = 0

Tabla 4.5. Ecuaciones de Maxwell y fuerza de Lorentz por unidad de carga.

eléctricos y magnéticos. La ley experimental de que la fuerza electromotriz


inducida alrededor de un circuito es proporcional a la variación del flujo
magnético a través de él, se expresa en forma diferencial de la siguiente
forma:
∂B
∇ × E + k3 =0 (4.12)
∂t

donde k3 es una constante de proporcionalidad. Como ya se han establecido


las dimensiones de E respecto a las de B, las dimensiones de k3 pueden ex-
presarse sin más que exigir que ambos términos de (4.12) tengan las mismas
dimensiones, encontrándose ası́ que k3 es igual a α−1 . La forma más sencilla
de demostrar esta igualdad consiste en expresar las ecuaciones de Maxwell
mediante los campos aquı́ definidos:

∇ · E = 4πk1 ρ,
k2 α ∂E
∇ × B = 4πk2 αJ + ,
k1 ∂t (4.13)
∂B
∇ × E + k3 = 0,
∂t
∇·B = 0

En las regiones sin fuentes se pueden combinar las dos ecuaciones con rota-

154
Unidades electromagnéticas

cional para obtener la ecuación de ondas:

k2 α ∂ 2 B
∇ 2 B − k3 =0 (4.14)
k1 ∂t2

La velocidad de propagación de las ondas descritas por (4.14) está relacio-


nada con la combinación de las constantes que en ella aparecen. Como se
sabe que esta es la velocidad de la luz, tenemos:
k2 α 1
k3 = 2 (4.15)
k1 c

Combinando (4.6) y (4.15) encontramos:


1
k3 =
α

se trata de una igualdad tanto en módulo como en dimensiones. El valor de


esta constante es:
1
k3 = , en el sistema gaussiano; k3∗ = 1, en el SI. (4.16)
c

2.1. Los diferentes sistemas de unidades electromagnéticas

Los sistemas de unidades electromagnéticas difieren en la elección de los


valores y dimensiones de las distintas constantes anteriores. Debido a las
relaciones anteriores, sólo pueden y deben escogerse arbitrariamente dos
constantes (por ejemplo, k1 y k2 ). Sin embargo, es conveniente tabular las
cuatro constantes (k1 , k2 , α, k3 ) para los sistemas de unidades más comunes,
tal y como hemos hecho en la tabla 4.3. Observemos que, salvo las dimensio-
nes, las unidades e.m.u. y SI (MKSA) son muy parecidas, ya que difieren tan
sólo en varias potencias de 10 en unidades mecánicas y electromecánicas.
Los sistemas de Gauss y Heaviside-Lorentz difieren solamente en factores
4π. Además, en estos dos sistemas la constante k3 tiene dimensiones. Según
(4.16), resulta evidente que al tener k3 las dimensiones recı́procas de una
velocidad, E y B tienen las mismas dimensiones. Más aun, con k3 = c−1 ,

155
Magnitud Gaussiano SI
− 12
Velocidad de la luz c √ (µo εo )
Campo eléctrico (potencial, voltaje, fem) E(φ, V, E) po E(φ, V, E)
4πε
Desplazamiento D 4π/εo D
Densidad de carga (carga, densidad de corriente, 1
ρ(q, J, I, P) (4πεo )− 2 ρ(q, J, I, P)
corriente, polarización) p
Campo magnético B √4π/µo B
Campo magnetizante H p 4πµo H
Magnetización M 4π/µo M
Conductividad σ (4πεo )−1 σ
Constante dieléctrica ε ε/εo
Permeabilidad µ µ/µo
Resistencia (impedancia) R(Z) 4πεo R(Z)
Inductancia L 4πεo L
Capacitancia C (4πεo )−1 C

Tabla 4.6. Tabla de conversión de sı́mbolos y fórmulas entre los sistemas Gaussiano y SI.

(4.16) muestra que para las ondas electromagnéticas en el vacı́o, E y B son


también de igual valor.
Hasta ahora solamente hemos considerado campos electromagnéticos en el
vacı́o y, por tanto, sólo han aparecido dos vectores fundamentales, E y B.
Resta la tarea de definir los campos macroscópicos, D y H. Si se describen
las propiedades promediadas de un medio material mediante la polarización
P y una imanación M, la forma general de las definiciones de D y H son:

D = εo E + λP,
1 (4.17)
H = B − λ0 M
µo

donde εo , µo , λ y λ0 son constantes de proporcionalidad. No ganamos nada


haciendo que D y P, o bien H y M tengan dimensiones distintas. Ası́ pues,
λ y λ0 se eligen como números puros (λ = λ0 = 1 en sistemas racionalizados,
λ = λ0 = 4π en sistemas no racionalizados). Por conveniencia y simplicidad
se elige que D y P difieran dimensionalmente de E, e igualmente, H y M
difieren dimensionalmente de B, con el objeto de hacer que las ecuaciones de
Maxwell tengan una forma relativamente simple y clara. Antes de tabular
las elecciones hechas en los distintos sistemas observemos que en los medios

156
Unidades electromagnéticas

gaussiano SI

Densidad de energı́a w= 1

(E · D + B · H) w = 12 (E∗ · D∗ +B∗ · H∗ )

Vector de Poynting S= c

E ×H S = E ∗ × H∗

Densidad de fuerza de Lorentz f = ρE + 1c J × B f = ρ∗ E∗ + J∗ × B∗

Tabla 4.7. Otras ecuaciones electromagnéticas expresadas en los sistemas Gaussiano y SI.

isótropos y lineales se tienen las relaciones:

D = εE,
(4.18)
B = µH

En (4.17), las constantes εo y µo son los valores de ε y µ en el vacı́o. La


permitividad relativa de una sustancia (llamada frecuentemente ((constante
dieléctrica))) se define como la razón adimensional ε/εo , mientras que la
permeabilidad relativa (a menudo llamada ((permeabilidad))) se define como
µ/µo .
Las tablas 4.4 y 4.5 nos presentan los valores de εo y µo , las ecuaciones de
definición de D y H, las formas macroscópicas de las ecuaciones de Maxwell
y la ecuación de fuerza de Lorentz, en los cinco sistemas de unidades de la
tabla 4.3. Para todos los sistemas de unidades, la ecuación de continuidad
entre carga y corriente viene dada por (4.2). Análogamente, la ley de Ohm
se expresa en todos los sistemas en la forma:

J = σE

siendo σ la conductividad.

3. CONVERSIÓN ENTRE UNIDADES GAUSSIANAS Y SI

Los dos sistemas de unidades electromagnéticas de uso más común son el


gaussiano y el MKSA racionalizado o Sistema Internacional de Unidades

157
Magnitud Fı́sica Sı́mbolo SI Gaussiano
Longitud l 1 m (metro) 102 cm (centı́metro)
Masa m 1 kg (kilogramo) 103 g (gramo)
Tiempo t 1 s (segundo) 1s
Frecuencia ν 1 Hz (hercio) 1 Hz
Fuerza F 1 N (newton) 105 dyn (dina)
Trabajo W
1 J (julio) 107 erg (ergio)
Energı́a U
Potencia P 1 W (watio) 107 erg s−1
Carga q 1 C (culombio) 3̄ × 109 statC (statculomb)
Densidad de carga ρ 1 C m−3 3̄ × 103 statC cm−3
Corriente I 1 A (amperio) 3̄ × 109 statA (statamperio)
Densidad de corriente J 1 A m−2 3̄ × 105 statA cm−2
−1
Potencial φ, V 1 V (voltio) (3̄00) statV (statvoltio)
−1
Fuerza electromotriz E 1 V (3̄00) statV
Campo eléctrico E 1 V m−1 1

× 10−4 statV cm−1
Polarización P 1 C m−2 3̄ × 105 statC cm−2
Desplazamiento D 1 C m−2 3̄ (4π × 105 ) statC cm−2
2
Conductividad σ 1 Ω−1 m−1 (3̄) × 109 s−1
1 2

Resistencia R 1 Ω (ohmio) 3̄
× 10−11 s cm−1
Capacitancia C 1 F (faradio) 3̄ × 1011 cm
2

Campo magnético B 1 T (tesla) 104 G (gauss)


Flujo magnético Φ, F 1 Wb (weber) 108 G cm−2
Campo magnetizante H 1 A m−1 4π × 10−3 Oe (oersted)
Magnetización M 1 A m−1 1
4π 
× 104 G
1 2
Autoinducción L 1 H (henrio) 3̄
× 10−11 s2 cm−1

Tabla 4.8. Tabla de conversión de magnitudes fı́sicas entre los sistemas Gaussiano y SI.

(SI). El SI presenta la ventaja de ser más conveniente en fenómenos prácti-


cos a gran escala, en especial en aplicaciones de ingenierı́a. El sistema gaus-
siano es mas adecuado en los problemas microscópicos, electrodinámica de
partı́culas cargadas individuales, etc.
En la tabla 4.6, los sı́mbolos de masa longitud, tiempo, fuerza y otras mag-
nitudes, que no sean especificamente electromagnéticas, permanecen inalte-
rados. Para convertir cualquier ecuación en unidades de Gauss a la corres-
pondiente ecuación en unidades del SI, se reemplazan en ambos miembros
de la ecuación los sı́mbolos que aparecen en la tabla bajo la denominación

158
Unidades electromagnéticas

((gaussiano)) por los correspondientes sı́mbolos ((SI)) colocados a la derecha.


También esta permitida la transformación inversa. Como los sı́mbolos de
longitud y tiempo permanecen inalterados, las magnitudes que difieran una
de otra sólo en potencias de longitud y/o tiempo se agrupan juntas siempre
que sea posible.
La definición de la autoinducción, L, en el sistema gaussiano tiene cierto
margen de arbitrariedad. Por ejemplo, se podrı́an elegir como definición de
L las expresiones Φ = L I, E = L(dI/dt) o U = (1/2)LI 2 . En el sistema
gaussiano, se elige que estas dos últimas tengan la misma forma que en el
SI, lo que fuerza a que L = 4πεo L∗ , con unidades de s2 cm−1 .

Ejercicio 4.1 Demuestre que, manteniendo la definición de L como


E = L (dI/dt) en el sistema gaussiano, su expresión como función de L∗
(la autoinducción en el SI) ha de ser L = 4πεo L∗ .

Solución
En el SI la definición de L∗ viene a través de:
dI ∗
E ∗ = L∗
dt
√ √ −1
A partir de la tabla 4.8, E = 4πεo E ∗ , I = 4πεo I ∗ . De donde:

E √ dI
√ = L∗ 4πεo ,
4πεo dt
dI
E = 4πεo L∗
dt
Para mantener la forma de la ecuación en el sistema gaussiano, necesa-
riamente hay que sustituir L = 4πεo L∗

La tabla 4.8 se ha dispuesto de forma tal que dada una cantidad correcta-
mente expresada de una magnitud fı́sica, sea en unidades del SI o gaussianas,
se puede expresar como un número equivalente de unidades en el otro sis-
tema. Todos los factores 3̄ (excepto los exponentes) deberán reemplazarse,
en los trabajos de gran precisión, por 2,99792458, que es el coeficiente de la

159
expresión de la velocidad de la luz en el vacı́o.

4. EJERCICIOS

Ej. 4.1 — En el SI, la expresión que da el flujo magnético que atraviesa


un circuito debido a su propia corriente es Φ∗ = L∗ I ∗ . Derive la expresión
correspondiente en el sistema gaussiano.

Ej. 4.2 — La constante de estructura fina, ᾱ, se expresa en el sistema


gaussiano de la siguiente forma:
2πe2
ᾱ =
hc

En el SI los valores de estas constantes están dados en la tabla 4.2:

e = 1,602 × 10−19 C,
~ = 1,055 × 10−34 kg m2 s−1 ,
c = 2,998 × 108 m s−1

Calcule los valores de estas constantes en el sistema gaussiano y sustitúyalos


en la expresión de α para comprobar que ᾱ ' (137)−1 . Exprese ᾱ en el SI
haciendo explı́cita su dependencia con εo .

Ej. 4.3 — ¿En qué unidades se medirı́a la corriente en el sistema gaus-


siano?

Ej. 4.4 — Si leemos la frase: ((El valor de la permitividad eléctrica del


agua es 80)). ¿En qué sistema de unidades está dado ese valor?

(a) SI y Electrostático.

(b) Electrostático y Gaussiano.

(c) Gaussiano y SI.

(d) Gaussiano, SI y Electrostático.

160
Unidades electromagnéticas

Ej. 4.5 — La expresión de la tercera ley de Maxwell tiene la siguiente


forma general:
∂B
∇ × E + k3 =0
∂t
donde k3 = 1 en el SI y k3 = 1/c en el sistema Gaussiano. Sabiendo que la
unidad de campo magnético en el SI es 104 veces mayor que en el sistema
Gaussiano, encuentre el valor numérico que nos da el campo eléctrico en el
sistema Gaussiano sabiendo el campo eléctrico en el SI.

Ej. 4.6 — Lea el texto de la siguiente figura, que contiene un fragmento


de un artı́culo sobre el momento cuadrupolar de la molécula de CO2 .

¿Cuánto vale el momento cuadrupolar en unidades SI?

(a) −1,37 × 10−39 C m2

(b) −4,1 × 10−39 C m2

(c) −1,37 × 10−35 C m2

(d) −4,1 × 10−30 C m2

161
Anexos

163
Tema A
EJEMPLOS DESARROLLADOS DE ANÁLISIS DE DATOS
EXPERIMENTALES

En este capı́tulo vamos a desarrollar varios casos concretos de análisis de


datos según lo explicado en los capı́tulos anteriores, especialmente en rela-
ción con los capı́tulos 1 y 2 que tratan aspectos de Estadı́stica. Los ejemplos
desarrollados permitirán al estudiante comprobar cómo se analizan ciertas
situaciones experimentales a partir de los datos disponibles usando algu-
nos de los contenidos desarrollados en este texto. Por supuesto, se dan por
conocidos los contenidos de análisis de errores explicados en Técnicas Expe-
rimentales I. De cara a la preparación del examen presencial, recomendamos
que el estudiante realice los diversos problemas que presentamos a continua-
ción con la única ayuda de una calculadora cientı́fica, lápiz, papel y papel
milimetrado para realizar las gráficas.

1. RADIACIÓN DEL CUERPO NEGRO.

A finales del XIX, una de las grandes inconsistencias de la Fı́sica era el com-
portamiento del denominado ((cuerpo negro)). Se denominan como ((cuerpos
negros)) a aquellos objetos tales que absorben toda la luz y energı́a radiante
que les llega. Sin embargo, estos objetos no son ((negros)), ya que emiten
energı́a de una determinada longitud de onda, al ser calentados a una tem-
peratura concreta.
Ya desde finales del siglo XVIII se sabı́a que muchos objetos se volvı́an de
color rojo para la misma temperatura cuando se calentaban en un horno,
independientemente de su composición quı́mica, forma o tamaño. Algo que
extrañó a los cientı́ficos (a partir de mediados del siglo XIX) es que los sóli-
dos que mostraban este comportamiento generaban un espectro continuo,
en lugar de las tı́picas bandas o lı́neas que aparecen al calentar gases. Hacia
finales del siglo XIX se consideraba que la Fı́sica de aquel momento era tan
sofisticada que serı́a capaz de explicar cualquier fenómeno natural, pero las

165
mediciones que se obtenı́an acerca del cuerpo negro seguı́an sin entenderse.
En este ejercicio daremos un pequeño salto temporal hasta el año 1900.
Disponemos de los resultados de un sofisticado experimento, diseñado y
desarrollado por unos notables espectroscopistas alemanes, para la radia-
ción emitida por un cuerpo negro a una temperatura de 1500 K para varias
longitudes de onda. Queremos comparar estas mediciones con dos expresio-
nes teóricas propuestas para predecir la radiación del cuerpo negro. Una de
ellas, basada en la distribución de velocidades para las moléculas de un gas
propuesta por Maxwell, es la expresión exponencial de Wien:

1 −C2 /(λT )
Eλ (λ, T ) = C1 e (A.1)
λ5
donde Eλ es la irradiancia espectral (la magnitud que se mide), T es la
temperatura absoluta, λ es la longitud de onda y C1 y C2 son dos constantes
que vienen dadas por las siguientes expresiones:

C1 = 8πc2 h
(A.2)
C2 = hc/kB

donde los sı́mbolos que aparecen son las siguientes constantes:

c = 2,9979 × 108 m/s


h = 6,6261 × 10−34 J.s (A.3)
kB = 1,3806 × 10−23 J.K

La otra expresión, propuesta por Max Planck de forma heurı́stica, es la


siguiente:  
1 1
Eλ (λ, T ) = C1 5 (A.4)
λ e C2 /(λT ) − 1

donde todas las magnitudes son las mismas que en la expresión (A.1) y las
constantes vienen también dadas por (A.2) y (A.3).
Las medidas extraı́das a partir del experimento para la irradiancia espectral
en función de la longitud de onda son las siguientes:

166
Ejemplos desarrollados de análisis de datos experimentales

λ (µm) 1,00 1,25 1,50 1,75 2,00 2,25 2,50 3,00 4,00 6,00 8,00 10,00 12,00
aEλ (J/s m−3 ) 1,02 2,27 3,31 3,82 3,88 3,69 3,36 2,61 1,47 0,49 0,19 0,09 0,05

Tabla A.1. Radiación del cuerpo negro (T = 1500 K). Los valores de Eλ están multiplicados por un
factor a = 10−11

Las medidas están dadas en unidades del SI, pero para el caso de Eλ he-
mos multiplicado por una constante a = 10−11 para ası́ poder visualizar y
representar mejor los datos. De inicio, vamos a considerar que el error para
los datos de la longitud de onda es igual a ∆λ = 0,01 µm e igualmente para
los valores de la irradiancia espectral medida: ∆Eλ = 0,01 × 1011 J/s m−3 .
Estos dos errores son los mismos para los valores correspondientes dados en
la tabla A.1. El error para la temperatura medida será ∆T = 10 K, mientras
que las incertidumbres de las constantes datas por (A.3) podemos conside-
rarlas despreciables. Con esta información, queremos evaluar si los datos
experimentales para la radiación del cuerpo negro ajustan correctamente a
la expresión de Wien, ec. (A.1), o a la de Planck, ec (A.4).
Primero, realizaremos un análisis de los datos y representación gráfica que
nos permita realizar una primera evaluación.

Realice una tabla con los valores teóricos para Eλ a partir de las expre-
siones de Wien, ec. (A.1) y Planck, ec (A.4), usando los valores de λ
dados en la tabla A.1. No calcule todas las incertidumbres asociadas a
cada valor, haga solamente una estimación del error relativo, ∆Eλ /Eλ ,
cuando se aplica la fórmula de Wien para el dato correspondiente a
λ = 2 µm (para simplificar los cálculos, use propagación de errores
lineal, no cuadrática). Antes de representar, observe los resultados y
comente los resultados obtenidos.
Represente correctamente los valores obtenidos a partir de las dos
expresiones, junto con los experimentales (sin añadir barras de errores)
en la hoja en escala semilogarı́tmica que se adjunta en este examen
(entregue la hoja de la gráfica junto con el resto sus respuestas al
examen). Evalúe lo que observa. ¿Los datos obtenidos a través de las
expresiones de Wien y de Planck son similares o se diferencian? ¿Se
parecen a los datos experimentales?

167
Justifique, evaluando el comportamiento de las expresiones teóricas,
(A.1) y (A.4), las diferencias observadas en la gráfica.

A continuación, evaluaremos la bondad del ajuste de los datos experimen-


tales a las funciones teóricas, (A.1) y (A.4), teniendo en cuenta los valores
proporcionados en la tabla 2.3.

¿Cuál es número de grados de libertad, ν, del sistema? Justifique la


respuesta.
Realice los test chi-cuadrado para verificar la bondad de ambos ajus-
tes. Utilice también el test basado en chi-cuadrado reducida, χ˜0 2 .
Discuta los resultados obtenidos teniendo en cuenta también la gráfica
del primer ejercicio. ¿Cuál de las dos expresiones, la de Wien o la de
Planck, es la más adecuada para ajustar a los datos experimentales
de la radiación del cuerpo negro?

Para obtener los datos pedidos, primero hemos de calcular las dos constantes
que aparecen en las expresiones teóricas. Los valores son los siguientes:
C1 = 1,49669 × 10−15 J.m2 /s
(A.5)
C2 = 0,01439 m.K/s

La tabla de datos serı́a la siguiente:

λ (µm) 1,00 1,25 1,50 1,75 2,00 2,25 2,50 3,00 4,00 6,00 8,00 10,00 12,00
aEλ (exp.) 1,02 2,27 3,31 3,82 3,88 3,69 3,36 2,61 1,47 0,49 0,19 0,09 0,05
aEλ (Wien) 1,02 2,28 3,29 3,79 3,86 3,65 3,30 2,51 1,33 0,39 0,14 0,06 0,03
aEλ (Planck) 1,02 2,28 3,30 3,81 3,89 3,70 3,38 2,62 1,46 0,49 0,20 0,09 0,05

Tabla A.2. Radiación del cuerpo negro (T = 1500 K), a = 10−11 , unidades de Eλ son (J/s m−3 )

Donde hemos usado el criterio de dejar dos decimales en cada resultado.


Para comprobar esta suposición, veamos el error que se obtiene por propa-
gación de errores para el caso de la expresión de Wien. Para ello hacemos

168
Ejemplos desarrollados de análisis de datos experimentales

propagación de errores derivando parcialmente por λ y T (con valores ab-


solutos en los términos de las derivadas). De esta forma, obtenemos:
   
5 C2 C2
∆E = + Eλ ∆λ + Eλ ∆T
λ T λ2 λT 2

Por tanto el error relativo es:


   
5 C2 C2
∆E/Eλ = + ∆λ + ∆T
λ T λ2 λT 2

que depende notablemente de λ. Cuanto mayor sea λ, menor será este error.
Es de suponer por tanto, que los errores relativos mayores se encuentren en
la zona de baja longitud de onda. El valor que vamos a evaluar (λ = 2
µm) está en esa región, ası́ que obtendremos un error relativamente alto. Si
usamos λ = 2,00 ± 0,01 µm, T = 1500 ± 10 K:
 
5 0,01439
∆E/Eλ = −6
+ −6
× 10−8 +
2 × 10 1500 × (2 × 10 ) 2
 
0,01439
+ × 10 ≈ 8 × 10−2
2 × 10−6 15002

es decir, tenemos un error relativo del 8 % para este valor. Si usamos Eλ =


3,89 × 1011 J/s m−3 , se tiene que el error para este valor serı́a ∆Eλ = 0,3
J/s m−3 . Por tanto, los datos en la parte de la tabla de resultados deberı́an
estar redondeados solo con una cifra decimal, no con dos, al menos en la
parte de λ bajas.
Antes de representar los datos, hemos de pararnos un momento y fijarnos
en qué hemos obtenido: los datos no se diferencian en la parte de longitudes
de onda bajas, solamente se encuentran diferencias en la parte de longitudes
altas. Es por esto que se pide realizar la gráfica en escala semilogarı́tmica, tal
como se hace en la figura A.1, para ası́ poder visualizar mejor la diferencia,
que no es demasiado evidente a simple vista.
Es decir, la expresión de Planck es indistinguible de los datos experimen-
tales, mientras que la expresión de Wien solo parece correcta para λ bajas.

169
Irradiancia espectral para un cuerpo negro a T=1500 K
10

Puntos experimentales
Expresi n de Planck
Expresi n de Wien
11
Eλ (J/s m ) x 10

1
-3

0.1

0.01
0 2 4 6 8 10 12
λ (µm)

Figura A.1. Comparación entre las expresiones de Wien y de Planck.

Efectivamente, si aproximamos la expresión de Planck para valores pequeños


de la longitud de onda tenemos:
 
1 1 1 1 1
Eλ (λ, T ) = C1 5 ≈ C1 5 C2 /(λT ) = C1 5 e−C2 /(λT )
λ e C 2 /(λT ) −1 λ e λ

expresión que es análoga a la de Wien. De forma más correcta: la condición


necesaria es C2 /λT  1, y con nuestros datos esto es λ  10−5 . Es decir,
para longitudes de onda menores que 10 µm (en el orden del µm) las ex-
presiones de Wien y Plank son idénticas, tal y como se observa en la figura
A.1.
En cuanto a la segunda pregunta que se hace, primero hemos de comen-
tar cuáles son los grados de libertad, ν, del sistema. Recordemos que estos
son el número de datos menos el número de parámetros a los que estamos
ajustando en la función teórica (normalmente llamados λm ). Dado que nin-
guna de las expresiones teóricas tiene parámetros ajustables, tendremos que
ν = 13 − 0 = 13. Es necesario mencionar aquı́ que el número de grados de
libertad es mayor que 10, de forma que podemos usar el test chi-cuadrado.

170
Ejemplos desarrollados de análisis de datos experimentales

Para aplicar el test basado en χ2 , usamos la expresión (2.34) donde, en este


caso, s2 (yi ) = 0,01, yi son los datos experimentales, mientras que f son los
datos correspondientes para cada una de las funciones teóricas. Para el caso
de la función de Planck, es necesario realizar el cálculo para las 13 medidas,
obteniéndose que:
S(Planck) = 13,32

Podemos confirmar la bondad del ajuste al hacer el test de la chi-reducida,


que consiste en dividir S por el número de grados de libertad. En tal caso,
se obtiene χ̃20 ≈ 1,02, que es del orden de 1, ası́ que podemos dar por válida
la expresión de Planck. Para el caso de Wien no es necesario calcular todos
los valores. Bastarı́a con calcular algunos de los valores para darse cuenta
de que el Si correspondiente es muy elevado y que la suma va a ser superior
siempre a 15. Por ejemplo, para λ = 4 µm se obtiene S = 201. El valor de
chi-cuadrado que se obtiene es χ̃20 ∼ 38.
Según los resultados obtenidos podemos descartar la ley exponencial de
Wien, al menos si nos atenemos a todo el rango de longitudes de onda.
Podemos aceptar entonces como válida la expresión de Planck, como era de
esperar. Como todo estudiante de Fı́sica sabe, la expresión de Max Planck
para la radiación del cuerpo negro de 1900 da el pistoletazo de salida a la
Fı́sica Cuántica y a todo lo que vino después.

2. DISPERSIÓN DE PIONES.

Disponemos de los resultados de un experimento de dispersión de piones en


el cual se mide la denominada ((sección eficaz)), σ, en función de la energı́a,
E. La sección eficaz (no confundir con las desviaciones de los datos experi-
mentales, σi , aunque se representen con el mismo sı́mbolo) es una medida
de la interacción de las partı́culas para una determinada energı́a (en giga
electrón-voltios, GeV) y que se expresa normalmente en unidades de ((barns))
(sı́mbolo b), donde 1 b = 10−28 m2 . Los datos obtenidos son los expresados
en la tabla A.3.
Los cientı́ficos que analizan los datos anteriores piensan que estos resulta-
dos pueden explicarse a través de un comportamiento teórico en forma de

171
Energı́a y sección eficaz.
E (GeV) 0,55 0,60 0,65 0,70 0,80 0,85 0,90 0,95 1,00
σ (b) 19 ± 2 40 ± 3 55 ± 2 90 ± 5 100 ± 5 66 ± 4 60 ± 3 25 ± 2 10 ± 1

Tabla A.3. Valores experimentales para la dispersión de piones

100

80
σ (mb)

60

40

20

0
0.5 0.6 0.7 0.8 0.9 1.0
E (GeV)

Figura A.2. Gráfica del ajuste gaussiano.

gaussiana como el el de la siguiente ecuación:


 
σ = σ0 + A exp −B(E − E0 )2 (A.6)

donde σ0 , A, B y E0 son constantes mayores que cero. Mediante un ajuste


no lineal de los datos experimentales a esa función, se obtiene la figura A.2,
ası́ como los parámetros del ajuste, que se resumen en la tabla A.4.
Con esta información, queremos evaluar si el ajuste de los datos experimen-
tales a la ecuación (A.6), mostrado en la figura A.2, es adecuado o no. Para
ello, contestaremos razonadamente a las siguientes preguntas.
Al tomar logaritmos neperianos en la ecuación (A.6), usando los valores
proporcionados en la tabla A.4 para σ0 y E0 , puede hacerse un ajuste de los

172
Ejemplos desarrollados de análisis de datos experimentales

Parámetros ecuación (A.6)


σ0 (b) −7 ± 6
A (b) 103 ± 18
B (GeV−2 ) 33 ± 5
E0 (GeV) 0,766 ± 0,002
Tabla A.4. Parámetros en ajuste gaussiano.

datos experimentales por regresión lineal, de forma que podemos obtener


de nuevo los valores de A y B. Realice entonces lo siguiente:

Un ajuste lineal por mı́nimos cuadrados a valores experimentales pro-


porcionados en la tabla A.3, sin tener en cuenta el error en los valores
de la sección eficaz o de la energı́a. Obtenga el coeficiente de corre-
lación r, ası́ como los valores de A y B de la ecuación (A.6), con su
error, a partir de los resultados de la regresión lineal. Compare los
valores obtenidos con los proporcionados en la tabla A.4.
En lo anterior no se han tenido en cuenta los errores de los datos de
la sección eficaz, los correspondientes a la cantidad ln(σ − σ0 ) que se
representa en ordenadas. Calcule los errores de esa cantidad ¿Cómo
cree que afectarı́a a los resultados de la regresión el tener en cuenta
estas incertidumbres?
Explique cómo se usa el método de máxima verosimilitud para realizar
regresiones lineales con errores en las ordenadas. Obtenga los valores
de A y B (con su error) usando el método matricial. Compare con los
resultados obtenidos anteriormente. Comente de nuevo el efecto de los
errores en el cálculo de la regresión.

A continuación evaluaremos la bondad del ajuste de los datos experimenta-


les a la función teórica, ec. (A.6), teniendo en cuenta los valores proporcio-
nados en la tabla 2.3. Queremos contestar a las siguientes preguntas:

¿Cuál es número de grados de libertad, ν, del sistema? Realice un test


chi-cuadrado para comprobar la bondad del ajuste. Utilice también el
test basado en chi-cuadrado reducida, χ˜0 2 .

173
Discuta el resultado y evalúe la bondad del ajuste realizado. Discu-
ta también la fiabilidad de criterio de decisiones empleado. Comente
razonadamente la conclusión a la que ha llegado a partir del test chi-
cuadrado en comparación con los ajustes a regresión lineal del apar-
tado anterior.

Primero, calculamos el ajuste lineal que se pide, que tendrá la siguiente


forma teórica:
ln(σ − σ0 ) = ln A − B(E − E0 )2

Es decir, y ≡ ln(σ − σ0 ) y x ≡ (E − E0 )2 . La regresión lineal nos permite


obtener las constantes A y B. Los resultados de la regresión lineal (y =
b + mx) son los siguientes:

b = 4,658..., ∆b = 0,059...; m = −32,44..., ∆m = 2,023...; r = −0,987

Estos valores permiten obtener las cantidades A y B. Vemos que B es di-


rectamente la pendiente de la recta, por tanto:

B = 32 ± 4 GeV−2

El valor de A se calcula mediante ln A = b. De ahı́, obtenemos que su error


es ∆A/A = ∆b. Se obtiene entonces que:

A = 105 ± 6 b

Estos valores con compatibles con los proporcionados con el ajuste a gaus-
siana, e incluso proporcionan errores menores. Hay que comentar que de-
berı́amos haber notado que los datos en x no están equiespaciados y eso
puede introducir que unos datos pesen más que otros a la hora de calcular
la regresión.
Para obtener los errores de la cantidad y ≡ ln(σ − σ0 ) usamos propagación
de errores como habitualmente:
1
∆y = (∆σ0 + ∆σ)
σ − σ0

174
Ejemplos desarrollados de análisis de datos experimentales

5.0

4.5

4.0
ln (σ−σ0)

3.5

3.0

2.5

-0.01 0.00 0.01 0.02 0.03 0.04 0.05 0.06

(E−E0)²

Figura A.3. Regresión para dispersión de piones.

donde σ ± ∆σ son los datos experimentales correspondientes, mientras que


σ0 ± ∆σ0 es el valor dado por la tabla A.4. También puede usarse dispersión
cuadrática.
Si se calculan los errores, veremos que estos aumentan a medida que au-
menta x. Esto significa que deberı́amos observar que los datos con menor
incertidumbre pesarán más cuando se calcule la regresión. Es decir, la linea
de ajuste estará más inclinada hacia los datos que el método considera como
((mejores)). La gráfica de los datos experimentales con su error y la regresión
lineal correspondiente, ası́ como la regresión sin haber tenido en cuenta los
errores, puede verse en la figura A.3. La regresión lineal calculada sin errores
es la lı́nea roja, mientras que la negra es la calculada con errores. El efecto
es muy pequeño porque tenemos muy pocos puntos, pero es apreciable a
simple vista.
Como sabemos, el método de máxima verosimilitud consiste en usar la ma-
triz M que se proporciona en el material adicional para realizar una re-
gresión lineal y = b + mx donde tenemos en cuenta los errores del vector

175
∆y ≡ σi . El error en los parámetros m y b viene dado por:
p −1 !
M
σ = p 11 −1
M22

De esta forma, se obtiene que:


 
1,599 243,1
M=
243,1 78696,7

a b

Calculando la inversa de la matriz mediante:
c d
 
1 d −b
ad − bc −c a

obtenemos que:
 
−1 1, 179 −0,0036
M =
−0,0036 2,395 × 10−5

De donde:
b = 4, 709..., m = − − 33, 96...
∆b = 0, 0049...; ∆m = 1, 09...

Es decir, las cantidades A y B usando el método de máxima verosimilitud


son:
B = 34,0 ± 1,1 GeV−2

Y en el caso de A, usamos de nuevo ln A = b y ∆A/A = ∆b:

A = 110,9 ± 0,5 b

Las incertidumbres de los valores son ahora mucho menores que las propor-
cionadas por el ajuste gaussiano y por la regresión lineal sin errores.
Los grados de libertad, ν, son el número de datos menos el número de
parámetros a los que estamos ajustando en la función teórica, λm . Como

176
Ejemplos desarrollados de análisis de datos experimentales

hemos ajustado a una recta con dos parámetros, ν = 9 − 2 = 7. Para aplicar


el test basado en χ2 , usamos la expresión (2.34) y para el test chi-reducida
dividimos esa cantidad por el número de grados de libertad. Si realizamos
las cuentas veremos que se obtiene S ≈ 32 y que por tanto χ̃20 ≈ 4,5.
Según los resultados obtenidos anteriormente, en principio podemos descar-
tar el ajuste que estamos realizando. Hemos de tener en cuenta que el núme-
ro de grados de libertad es menor que 10 y sabemos que el test chi-cuadrado
no es recomendable para menos de 10 grados de libertad. Igualmente ocurre
con el test de la chi-reducida. Para pocas medidas es más recomendable el
uso del test basado en la t de Student. Aun ası́, el resultado de S = 32 es
muy contundente, con lo que podemos esperar que algo está fallando en este
ajuste la función teórica proporcionada por la ecuación (A.6).
Véase que la regresión lineal del primer ejercicio nos proporcionaba un muy
aceptable r = −0,987. Podrı́amos decir que los datos ajustan a una recta, y
de hecho lo hacen, matemáticamente hablando. Pero por lo que sabemos de
Estadı́stica y lo que hemos visto en este segundo apartado, eso no significa
que ajusten a esa función en concreto con una fiabilidad suficiente como
para que consideremos que proceden de la ley teórica basada en la ecuación
(A.6). De hecho, este tipo de datos ajustarı́a mucho mejor a una ley de este
tipo:
A2
σ=
(E − M )2 + B 2

con A, M y B constantes.

3. RELACIÓN BRILLO-PERIODO EN LAS ESTRELLAS VA-


RIABLES CEFEIDAS

Una estrella variable es aquella cuyo brillo no es constante y experimenta


variaciones a lo largo del tiempo. Las estrellas cefeidas son un tipo particular
de estrella variable cuyo brillo varı́a periódicamente entre pocos dı́as y varios
meses (el periodo se suele medir en dı́as); tanto la amplitud como el periodo
de oscilación de su brillo son muy estables.
A principios del siglo XX, la astrónoma estadounidense Henrietta Leavitt

177
catalogaba las estrellas de la vecina galaxia Pequeña Nube de Magallanes
(PNM), entre las cuales se encontraban varias estrellas tipo cefeida. Leavitt
descubrió que el periodo de oscilación de éstas estaba correlacionado con su
brillo promedio (descubrimiento que permitió ((medir)) el tamaño del Uni-
verso conocido). En particular, la magnitud visual sigue un comportamiento
lineal con el logaritmo del periodo.
Los astrofı́sicos miden el brillo mediante la magnitud visual, m, que se
obtiene a partir del logaritmo de la intensidad luminosa percibida cambiado
de signo; por ello, los mayores valores de magnitud corresponden a menores
intensidades y viceversa. La intensidad a su vez depende de la luminosidad
intrı́nseca del astro y de la distancia a la que se observa. La magnitud
absoluta, M , es la magnitud visual tal y como se percibirı́a a una distancia
fija. Es, por tanto, una medida logarı́tmica de la luminosidad de la estrella.
Vamos a comprobar la ley observada por H. Leavitt. Para ello, tomaremos
los datos de la tabla A.5, correspondientes a varias cefeidas de la PNM,
usados por ella misma en su trabajo cientı́fico.

N m (máx.) m (mı́n.) hmi P (d) log10 P


1422 14,7 15,9 15,3 ± 0,6 3,501 ± 0,005 0,5442 ± 0,0006
1400 14,1 14,8 14,4 ± 0,4 6,650 ± 0,005 0,8228 ± 0,0003
822 13,0 14,6 13,8 ± 0, 8 16,75 ± 0,05 1,2240 ± 0,0013
823 12,2 14,1 13,2 ± 1,0 31,94 ± 0,05 1,5043 ± 0,0007
824 11,4 12,8 12,1 ± 0,7 65,8 ± 0,5 1,818 ± 0,003
821 11,2 12,1 11,6 ± 0,4 127,0 ± 0,5 2,1038 ± 0,0017
Tabla A.5. Resultados correspondientes a varias cefeidas de la PNM. La primera columna es una etiqueta
de catálogo. Las columnas 2, 3 y 5 contienen datos en crudo. Las columnas 4 y 6 corresponden a desarrollos
que se piden como ejercicio.

Calcule y tabule el valor medio del brillo de cada estrella de la tabla


A.5 como el valor medio de las magnitudes visuales correspondientes
al máximo y al mı́nimo de brillo. A esa media ası́gnele como error
la desviación tı́pica de la media (que en este caso coincide con la
dispersión de datos). Represente la magnitud media, con su error,
frente al periodo de oscilación de brillo usando una gráfica con ejes
semilogarı́tmicos-

178
Ejemplos desarrollados de análisis de datos experimentales

En la tabla A.5 está dado explı́citamente el error del periodo. Calcule


el logaritmo en base 10 del periodo (log10 P ) propagando correctamen-
te el error. Escriba el resultado con el número de cifras adecuado y el
error explı́cito.

Calcule la recta de regresión y = λ1 x + λ2 tomando como variable y la


magnitud media con su error (σ), y como variable x, log10 P calculado
en el apartado anterior (sólo el valor medio, sin el error). Use el método
de máxima verosimilitud que minimiza χ2 descrito en el texto. Calcule
también el error en los parámetros λ1 y λ2 . Si quiere, puede realizar
la regresión normal por mı́nimos cuadrados. Represente la recta en la
gráfica del primer apartado.

0
Denom. M P (d) M0 (M − M )2 /(∆M 0 )2
Polaris −3,60 3,97 −3,0 ± 0,3 4,00
ζ Gem −3,99 10,15 −3,9 ± 0,4 0,05
TT Aql −4,26 13,75 −4,2 ± 0,5 0,01
` Car −5,22 35,5 −5,2 ± 0,6 0,00
RS Pup −5,70 41,4 −5,3 ± 0,7 0,33
S Vul −6,08 68,5 −5,8 ± 0,7 0,16
Tabla A.6. Magnitud absoluta media y el periodo de oscilación de varias cefeidas de la VL. Las columnas
2 y 3 son datos en crudo. Las columnas 4 y 5 corresponden a desarrollos que se piden como ejercicio.

Ahora comprobamos la universalidad de la ley de Leavitt con cefeidas de


nuestra propia galaxia, la Vı́a Láctea (VL).

En la tabla A.6 se recogen la magnitud absoluta media y el periodo de


oscilación de varias cefeidas de la VL. Calcule la magnitud absoluta
teórica, M 0 , a partir de aplicar la relación lineal M 0 = λ1 log10 P + b
donde la pendiente, λ1 , es la calculada en un apartado anterior, y
b = −1,62 ± 0,12 (estamos tratando ahora con magnitudes absolutas
y por eso la ordenada en el origen es distinta a la obtenida por el
cálculo anterior). No se olvide de escribir el valor de M 0 con su error,
∆M 0 ; calcúlelo propagando el error de λ1 y b.

179
Pruebe la hipótesis de que la ley de Leavitt obtenida para la PNM
es la misma que para la VL mediante un test χ2 con una confianza
del 95 %. Para ello compare los valores de M y M 0 y use la tabla 2.3,
identificando correctamente el número de grados de libertad aplica-
ble. ¿Podemos aceptar o rechazar la hipótesis de partida? Razone la
respuesta.

La media es simplemente m = (mmin + mmax )/2. Aplicando la fórmula de la


desviación tı́pica de la media para sólo dos elementos obtenemos que ésta
es equivalente a la dispersión de datos. Esto es, ∆m = (mmin − mmax )/2. A
partir de ahı́, tabulamos hmi = m ± ∆m.
En la tabla A.5 se ofrecen los resultados una vez redondeados según las reglas
habituales1 . En la figura A.4 se han representado los valores con su error.
Habitualmente, se suele elegir la escala inversa en el eje de magnitudes, esto
es, mayores magnitudes (menor brillo) abajo y menores magnitudes (mayor
brillo) arriba; pero por razón de claridad hemos elegido la escala directa.
Para propagar el error tenemos que aplicar que log10 P = ln P/ ln 10. En-
tonces:
∂(log10 P ) ∆P
∆(log10 P ) = ∆P =
∂P P ln 10
El resultado se encuentra reflejado en la columna correspondiente de la tabla
A.5.
A partir de los datos de la tabla calculamos:
   
44,07 26,93 340,8
M= , Y=
26,93 19,88 264,4

Tenemos que calcular M −1 ; el discriminante es D = 44,07×19,88−26,932 '


150,8; y por tanto la matriz inversa:
   
−1 1 19,88 −26,93 0,1318 −0,1785
M = =
150,8 −26,93 44,07 −0,1785 0,2921

1
Como redondeo de cifras terminadas en 5 se admite tanto el criterio de redondear por arriba
como por abajo. En la tabla A.5 se ha seguido el criterio de que si la cifra anterior es impar, entonces se
redondea por arriba; y si es par se redondea por abajo. Por ejemplo, un error de 0,35 se redondea a 0,4
y una magnitud de 11,65 se redondea a 11,6.

180
Ejemplos desarrollados de análisis de datos experimentales

16
Ajuste: λ1 = −2,3 ± 0,4 λ2 = 16,4 ± 0,5

15

14
Magnitud

13

12

11
1 10 100 1000
Periodo (d)

Figura A.4. Magnitud visual promedio en función del periodo de oscilación.

De donde obtenemos los valores de los parámetros a partir de λ = M −1 Y:


      
λ1 0,1318 −0,1785 340,8 −2,278 . . .
= =
λ2 −0,1785 0,2921 264,4 16,398 . . .

Y el error de los mismos:


   p   √   
∆λ1 (M −1 ) 0,1318 0,363 . . .
= p −1 11 = √ =
∆λ2 (M )22 0,2921 0,540 . . .

Redondeando:

λ1 = −2,3 ± 0,4
λ2 = 16,4 ± 0,5

Para representar la recta que se pide basta con tomar 2 puntos y trazar la
recta. Por ejemplo, en el punto P = 10 d, m = −2,3 + 16,4 = 14,1 y en el
punto P = 100 d, m = −2,3 × 2 + 16,4 = 11,8. La recta está trazada en la
figura A.4.

181
El cálculo del valor medio de M 0 es inmediato sin más que aplicar la fórmula
dada, M 0 = λ1 log10 P + b, con λ1 = −2,3 y b = −1,62. Para propagar el
error aplicamos:
s 2  2 q
∂M 0 ∂M 0
∆M = 0 2
∆λ1 + ∆b = (log10 P )2 ∆λ21 + ∆b2
2
∂λ1 ∂b

con ∆λ1 = 0,4 y ∆b = 0,12. Los resultados listados están en la tabla A.6,
en la columna M 0 .
Finalmente, Calculamos la variable S definida por:
 
0 2
X Mi − Mi
S=
i
(∆Mi0 )2

Los distintos términos de S están tabulados en la última columna de la tabla


A.6. Sumando todos tenemos que S = 4,55. Este valor se compara con la
correspondiente columna de la tabla 2.3 para la fila P = 95 %. En este caso
tenemos 6 datos y ninguna ligadura entre ellos y por tanto ν = 6 − 0 = 6,
que corresponde a χ2c = 12,6. Puesto que S < χ2c no podemos rechazar la
hipótesis de partida con una confianza del 95 %.

4. EPIDEMIAS MUNDIALES Y SUPERVIVENCIA

En diciembre de 2013 tuvo lugar la 26a epidemia mundial de la enfermedad


por virus de ébola. Se trata de la mayor epidemia de este virus desde que se
tiene registro de su descubrimiento en 1976, con más de 10 000 fallecimientos
y 24 000 afectados. Liberia fue uno de los paı́ses más castigados por la
presencia del virus. Con 4 millones de habitantes fue uno de los primeros
focos de infección de esta última epidemia.
La tabla (A.7) muestra el número de contagios y muertes sucedidos en
Liberia entre junio y agosto de 2014.

En estudios epidemiológicos se demuestra que el número de contagios

182
Ejemplos desarrollados de análisis de datos experimentales

Fecha Contagios Muertes


16/06 33 24
22/06 51 34
30/06 107 65
12/07 172 105
20/07 224 127
30/07 391 227
09/08 599 323
20/08 1082 624
Tabla A.7. Expansión del virus de ébola en Liberia desde el 16 de junio de 2014 (datos proporcionados
por la OMS). Los datos de tiempo se consideran exactos. Los datos de contagiados y fallecidos tienen
un error de ±1 persona.

en un tiempo t suele venir dado por la expresión:


N (t) = N0 β t (A.7)

donde N0 es la población inicial infectada y β es la tasa de infección


diaria, esto es, el número de personas que se contagian cada dı́a.
A raı́z de la expresión que relaciona el número de infectados con el
tiempo transcurrido, escoja el tipo de gráfico más adecuado (escala
lineal, semi logarı́tmica o bien logarı́tmica) y represente solo en ese
gráfico los datos de la tabla A.7.
Si ha representado correctamente y en la escala adecuada los datos,
podrá ver como en efecto estos se alinean a lo largo de una recta.
Realice los cambios de variables necesarios para transformar la ecua-
ción (A.7) en una ecuación lineal y construya una tabla con las nuevas
variables (incluyendo el error). Obtenga mediante un ajuste por mı́ni-
mos cuadrados el valor de la tasa de infección diaria, β, y la población
inicial infectada, N0 . Considere que el error en la tasa de infección
diaria es de un 1 % y el error en la población inicial infectada σN0 = 1
persona.
Existe un factor, llamado ritmo básico de reproducción y repre-
sentado por R0 , que es clave para determinar si una epidemia crece sin

183
control o si está acotada. Un factor R0 < 1 indica que el número de
infectados tiende asintóticamente a cero con el tiempo y, por tanto, la
epidemia está controlada. Por el contrario, un factor R0 > 1 implica
un crecimiento continuo en el número de infectados y, por tanto, un
riesgo para la supervivencia si no se toman medidas de control. El rit-
mo básico de reproducción se relaciona con la tasa de infección diaria
a través de la expresión
R0 = β τ (A.8)
donde τ es el tiempo durante el cual el virus es capaz de infectar a
otras personas. Según los análisis de la OMS, el virus de ébola tiene
un tiempo de supervivencia τ = (5,6 ± 0,2) dı́as. Obtenga el valor de
R0 con su error y decida si la Humanidad está en peligro o no.
A partir de los datos de la tabla A.7, estime mediante un ajuste por
mı́nimos cuadrados la probabilidad de supervivencia de un pacien-
te, esto es, el porcentaje de pacientes infectados (con su error) que
afortunadamente no fallecen.
Dando por válida la relación entre fallecimientos y contagiados rea-
lizada en el apartado anterior, los informativos publicaban de forma
alarmante que el porcentaje de pacientes infectados que fallecı́an era
de un 57 %. Usando un método χ2 ¿podrı́a afirmarse con una confian-
za del 90 % que esta hipótesis es cierta? (Considere s(yi ) = 1 para
todos los valores).

Para poder representar los datos, es conveniente convertir las fechas a dı́as,
tomando como referencia t = 0 el dı́a 16 de junio de 2014. De esta forma,
obtenemos los valores representados en la tabla A.8.
Dado el tipo de ecuación que aparece en (A.7), la gráfica más conveniente
es la correspondiente a una escala semilogarı́tmica. Tomando logaritmos a
ambos lados de la ecuación (A.7) tendremos la relación lineal solicitada, tal
y como se muestra en la figura A.5.
Como hemos indicado, si tomamos logaritmos a ambos lados de la ecuación
(A.7) obtenemos:
log10 N = log10 N0 + t log10 β

184
Ejemplos desarrollados de análisis de datos experimentales

Tiempo (dı́as) Contagios, N (±1)


0 33
6 51
14 107
26 172
34 224
44 391
54 599
65 1082
Tabla A.8. Tabla de valores.

que puede escribirse como:

y = b + xm

proporcionando una relación lineal entre las variables y = log10 N y x = t.


Construimos de nuevo la tabla sabiendo que el error en la variable y debe
hacerse por propagación, de forma que:

1
∆y = ∆N .
N ln 10

Tiempo (dı́as) N (±1) log10 (N ) ∆ log10 (N )


0 33 1,519 0,013
6 51 1,708 0,009
14 107 2,029 0,004
26 172 2,236 0,003
34 224 2,350 0,002
44 391 2,5922 0,0011
54 599 2,7774 0,0007
65 1082 3,0342 0,0004
Podemos llegar a los siguientes parámetros de pendiente y ordenada en el

185
10000

1000

Número de contagios 100

10

1
−20 0 20 40 60
Días desde el 16 de junio de 2014

Figura A.5. Relación lineal entre los datos.

origen:
m = log10 β = 0,0223 ⇒ β = 10m = 1,05263 . . . ,
b = log10 N0 = 1,60 ⇒ N0 = 10b = 40,178 . . .

Teniendo en cuenta las incertidumbres que nos indican en el enunciado


llegamos, finalmente, a:

β = (1,05 ± 0,01) 11/dı́as ,


N0 = (40 ± 1) personas

Con los datos proporcionados de la tasa de infección diaria y el tiempo de


supervivencia se obtiene directamente el valor de R0 como:
R0 = 1,314 . . .

El error se obtiene por propagación cuadrática como:


s
∂R0 2 ∂R0 2
∆R0 = (∆β) +

2

(∆τ )2 =
∂β ∂τ
q
= |τ β τ −1 |2 (∆β)2 + |β τ ln β|2 (∆τ )2 ' 0,07

186
Ejemplos desarrollados de análisis de datos experimentales

de forma que:
R0 = (1,31 ± 0,07)

Dado que R0 > 1, podemos concluir que la epidemia no está controlada y


la Humanidad está en peligro.
A partir de los datos de la tabla nos piden un ajuste a una recta tipo:
N f = mN c + b ,

donde N f indica el número de fallecidos y N c el número de contagiados.


Aplicando las fórmulas disponibles en el material complementario se llega
directamente a:
m = (0,565 ± 0,010) ,
b = (3 ± 4) pacientes

Con este resultado es inmediato obtener la probabilidad de supervivencia


P s como:
Nf
Ps = 1 − c = 1 − m
N
= (0,435 ± 0,010)

donde se ha tenido en cuenta el error ∆P s = ∆m.


Nos preguntamos si efectivamente la relación entre fallecidos e infectados
sigue una ecuación de proporcionalidad N f = mN c + b (aquı́ es importante
no olvidar la ordenada en el origen del ajuste por mı́nimos cuadrados). Para
comprobar si la hipótesis es cierta obtenemos la función χ2c como:
XN
(Nif − f (Nic ))2
χ2c = ,
i=1
s2 (N fi )

donde Nif son los fallecidos, Nic son los contagiados, f (Nic ) = mN ci + b y
s(Nif ) = 1 = cte. Sustituyendo por los valores proporcionados en la tabla
A.7 obtenemos:
χ2c = 484,7

187
Teniendo en cuenta el número de grados de libertad ν = 8 − 2 = 6, se tiene
para un grado de confianza del 90 % que χ2 = 10,6  χ2c , por lo que la
hipótesis debe ser descartada.

188
Tema B
INTEGRALES GAUSSIANAS

Las integrales gaussianas aparecen con frecuencia en muchas áreas de Fı́sica.


Por ello es interesante detenerse en el desarollo de las mismas y estudiar
cómo resolver, al menos, aquellas más comunes.
Una integral gaussiana tiene la forma genérica
Z ∞
2
I= e−(ax +bx+c) dx (B.1)
−∞

Consideremos el caso más sencillo con b = c = 0. Si multiplicamos la integral


por sı́ misma obtenemos
Z ∞  Z ∞ 
2 −ax2 −ay 2
I = e dx e dy (B.2)
−∞ −∞

que podemos reescribir como


Z ∞ Z ∞ Z 2π Z ∞
−a(x2 +y 2 ) 2
2
I = e dxdy = e−ar rdrdθ (B.3)
−∞ −∞ 0 0

donde hemos realizado el cambio a coordenadas polares según

x = r cos θ , (B.4)
y = r sen θ . (B.5)

La integral en la variable angular es inmediata, de modo que


Z ∞ Z
2 −ar2 −1 ∞ d −ar2
I = 2π re dr = 2π e dr (B.6)
0 2a 0 dr
π π
2 ∞
= − e−ar = (B.7)
a 0 a

189
Por lo que la integral inicial I será, simplemente
Z ∞ r
−ax2 π
I= e dx = . (B.8)
−∞ a
Dado que la integral es una función par es inmediato obtener la integral en
el intervalo (0, ∞) como
Z ∞ r
−ax2 1 1 π
e dx = I = . (B.9)
0 2 2 a
Obviamente, la integral dará el mismo resultado para el intervalo (−∞, 0).
La figura B.1 muestra el valor de la integral gaussiana
Z x
2
I(x) = e−at dt , (B.10)
−∞

donde se observa cómo converge al lı́mite (B.8).


a

3

4 a


I(x)

1
2 a

1

4 a

−5 −4 −3 −2 −1 0 1 2 3 4 5
x

Figura B.1. Formap de la integral gaussiana I(x). Observamos la simetrı́a respecto del origen y la conver-
gencia al lı́mite π/a.

El caso más general, con b y c distinto de cero, se resuelve considerando la


existencia de un cuadrado perfecto (mx + n)2 = (ax2 + bx + c + d). Ex-
pandiendo el termino a la izquierda de la igualdad se llega inmediatamente

190
Integrales gaussianas

a

m= a (B.11)
2
n= √ (B.12)
2 a
b2
d= −c (B.13)
4a
lo que nos permite escribir
Z ∞ Z ∞ Z ∞
−(ax2 +bx+c) −(mx+n)2 ed 2
I= e dx = ed
e dx = e−y dy (B.14)
−∞ −∞ m −∞

Esta última integral no es más que la integral gaussiana (B.8) con a = 1,


de modo que obtenemos finalmente
r r
π d π b2 −c
I= e = e 4a (B.15)
m a
donde hemos hecho el cambio de variable y = mx + n de modo que dx =
dy/m.
Hemos visto que la integral en el intervalo (−∞, ∞) puede calcularle analı́ti-
camente. La integral en el caso de lı́mites finitos no tiene solución analı́tica,
aunque suele expresarse en términos de la función error
Z x
2 2
erf(x) = √ e−t dt (B.16)
π 0
La integral gaussiana (B.10) puede escribirse entonces como
Z x Z 0 Z x
−at2 −at2 2
I(x) = e dt = e dt + e−at dt
−∞ −∞ 0
r Z x
1 π 1 2
= +√ e−q dq
2 a a 0
r
1 π
= (1 + erf(x)) (B.17)
2 a
La función error se encuentra tabulada (normalmente mediante aproxima-
ciones polinomiales) en muchos programas de cálculo simbólico, libros de
texto, etc., lo que permite dar un valor concreto a las integrales gaussianas.

191
Tema C
TABLA DE PROBABILIDADES DE LA DISTRIBUCIÓN NORMAL
TIPIFICADA

zi 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
3.6 0.9998 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999
3.9 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000
Tabla C.1. Valores de probabilidad para P (z ≤ zi ) correspondientes a la integral bajo la curva N0,1 (z).

193
Tema D
CONTENIDOS ADICIONALES DE TEORÍA DE FILTRADO

En este capı́tulo ampliaremos algunos conceptos que quedaron sin desarro-


llar en el capı́tulo 3 acerca de la Teorı́a de Filtrado.

1. CONVOLUCIÓN Y AUTOCORRELACIÓN

1.1. Teorema de convolución.

Ya hemos visto anteriormente la definición de convolución de dos funciones.


Efectivamente, la convolución de dos funciones f (t) y g(t) se define como:
Z +∞
f (t) ∗ g(t) = f (τ )g(t − τ )dτ
−∞

Respecto a la convolución de funciones, hay varias formas de enunciar el


teorema de convolución que, básicamente, viene a decir que dadas dos fun-
ciones con representaciones en los dominios temporal y de frecuencia, lo que
en un dominio es multiplicación, en el otro es convolución. Por lo tanto, el
teorema se puede presentar en cuatro formulaciones equivalentes:

La transformada de Fourier de la convolución de dos señales es igual


al producto de sus transformadas de Fourier:

F [f (t) ∗ g(t)] = F [f (t)] · F [g(t)] = F (ω) · G(ω)

La transformada de Fourier del producto de dos señales temporales es


igual a la convolución de sus transformadas de Fourier:

F [f (t) · g(t)] = F [f (t)] ∗ F [g(t)] = F (ω) ∗ G(ω)

195
La convolución de dos señales temporales es igual a la antitransfor-
mada de Fourier del producto de las transformadas de Fourier de las
señales:

f (t) ∗ g(t) = F −1 {F [f (t)] · F [g(t)]} = F −1 [F (ω) · G(ω)]

El producto de dos señales temporales es igual a la antitransformada


de Fourier de la convolución de sus transformadas:

f (t) · g(t) = F −1 {F [f (t)] ∗ F [g(t)]} = F −1 [F (ω) ∗ G(ω)]

La utilidad de estos teoremas es evidente si pensamos en señales digitaliza-


das. En efecto, dichas señales se pueden considerar como el producto de tres
funciones: i) la señal continua f (t) que se ha digitalizado, ii) una sucesión
de deltas de Dirac situadas en los tiempos, t = nδt con n = 0, 1, 2, ..., N , en
que se han tomado las muestras de la señal f (t) y iii) una función ((ventana))
que define el dominio temporal de la señal digitalizada, que en general es
una función rectangular que toma valor 0 para t < 0 y t > N δt, y que
toma valor 1 para 0 ≤ t ≤ N δt. Por aplicación del teorema de convolución,
sabemos que la transformada de Fourier de dicha señal discreta será igual a
la convolución de las transformadas de Fourier de las tres señales menciona-
das, lo que, como veremos más adelante, es muy útil para la interpretación
de los espectros de frecuencia de señales discretas.

1.2. Teorema de Wiener-Khinchin.

El teorema de Wiener-Khinchin establece una relación muy útil entre la


función de autocorrelación de una señal y la transformada de Fourier de
la señal. Más concretamente, establece que la transformada de Fourier de
la función de autocorrelación de una señal es el espectro de potencia de la
señal.
La función de autocorrelación de una señal f (t) se define como:
Z T
1
r(τ ) = f (t)f (t + τ )dt
T 0

196
Contenidos adicionales de teorı́a de filtrado

En caso de que la señal sea compleja, la función de autocorrelación es:


Z T
1
r(τ ) = f ∗ (t)f (t + τ )dt
T 0

donde el asterisco indica conjugación compleja.


Por lo tanto, el teorema de Wiener-Khinchin se expresa como:

F [r(t)] = P (ω) = |F [f (t)]|2 = |f (ω)|2

2. TRANSFORMADA DE FOURIER DISCRETA (DFT)

Las representaciones numéricas de señales temporales en un ordenador con-


sisten en series de pares (ti , x(ti )) con i = 0, 1, 2, ..., N − 1, que indican el
valor de la coordenada temporal y el valor de la función a ese tiempo dado, y
esto es ası́ tanto para señales de laboratorio digitalizadas como para señales
producto de un proceso de simulación por ordenador.
Para este tipo de señales se define la Transformada de Fourier discreta
(DFT1 ) como:
X
N −1
X(ω) = x(ti )e−jωti
i=0

donde ω tiene dimensiones de inversa de tiempo. Nótese que la aplicación de


esta expresión no requiere que los datos estén equiespaciados en el tiempo
ni que el número M de valores que puede tomar ω sea igual a N . En estas
condiciones, la señal de partida se puede recuperar haciendo la antitrans-
formada de Fourier discreta (IDFT2 ):

M −1
1 X
x(t) = Xk (ω)eiωk t (D.1)
M k=0

1
Del inglés Discrete Fourier Transform.
2
Del inglés Inverse Discrete Fourier Transform.

197
en donde los coeficientes Xk (ω) expresan el peso de la frecuencia k-ésima en
la señal. En general, estos coeficientes son números complejos, por lo que
para analizar el contenido en frecuencias de la señal se suele trabajar con el
cuadrado de su módulo, |Xk (ω)|2 , esto es, con el espectro de potencia de la
señal.
Sin embargo, lo más habitual es que las señales, tanto de procedencia ex-
perimental como de simulación, estén compuestas por N muestras (xi con
i = 0, 1, 2, ..., N − 1), hayan sido muestreadas a intervalos constantes de
tiempo, ∆t y, por lo tanto, tengan una duración finita T = N ∆t. En es-
tas condiciones, la frecuencia mı́nima es ∆ω = 2π/T = 2π/N ∆t y el res-
to de las frecuencias son múltiplos de ella, es decir, ωk = 2πk/N ∆t con
k = 0, 1, 2, ..., N − 1. Por lo tanto, para señales de longitud finita y mues-
tras equiespaciadas, la DFT se obtiene a partir de:

−1 k −1 ki
X
N
−2πj i∆t X
N
−2πj
X(ω) = Xk = xi e N ∆t = xi e N
i=0 i=0

mientras que la antitransformada de Fourier discreta será3 :

N −1 ki
1 X 2πj
x(t) = xi = Xk e N
N k=0

La forma práctica de calcular numéricamente estas dos transformadas es a


través de la fórmula de Euler para la exponencial compleja, esto es:

−1 ki N −1     
X
N
−2πj X 2πki 2πki
Xk = xi e N = xi cos − + j sin − ,
i=0 i=0
N N
N −1 ki N −1     
1 X 2πj 1 X 2πki 2πki
xi = Xk e N = Xk cos + j sin
N k=0 N k=0 N N

3
La normalización es un tanto arbitraria; la única condición es que el producto de las constantes de
normalización
√ de la DFT y la IDFT sea 1/N . Una normalización en la que ambas tengan una constante
1/ N también es perfectamente admisible.

198
Contenidos adicionales de teorı́a de filtrado

Volviendo a las fórmulas escritas en términos de la exponencial compleja,


podemos ver algunas propiedades interesantes de la DFT y la IDFT. En
primer lugar, podemos ver que la DFT y la IDFT son funciones pe-
riódicas. En efecto, supongamos que extendemos el cálculo de la DFT a
valores de k > N ; por ejemplo, tomemos sin pérdida de generalidad el valor
k = m + N , tendremos entonces:

−1 (m + N )i N −1 mi
X
N
−2πj X −2πj
Xm+N = xi e N = xi e N e−2πji =
i=0 i=0
−1 mi
X
N
−2πj
= xi e N = Xm
i=0

del mismo modo, para la IDFT tomemos el valor i = m + N , tendremos:

N −1 k(m + N ) N −1 km
1 X 2πj 1 X 2πj
xm+N = Xk e N = Xk e N e2πjk =
N k=0 N k=0
N −1 km
1 X 2πj
= X k e N = xm
N k=0

Esto es, ambas transformadas discretas son funciones periódicas de pe-


riodicidad N en el ı́ndice de las sumas (N ∆t en el dominio temporal y
N ∆ω = 2π/∆t en el dominio de frecuencia). Sin embargo, el teorema de
muestreo nos dice que la máxima frecuencia que podemos representar ade-
cuadamente cuando discretizamos una señal con frecuencia de muestreo
ωs = 2π/∆t es ωmz = ωs /2 = π/∆t, es decir, precisamente la mitad del
periodo de la serie en el dominio de frecuencia, por lo que si tenemos en
cuenta el teorema de muestreo y solamente representamos transformadas
de Fourier (espectros de potencia) para frecuencias menores que ωmx no
llegaremos nunca a observar la periodicidad de la transformada.
Por otro lado, tenemos el teorema de Plancherel, que daremos también sin
demostración, y que es un caso particular del teorema de Parseval. Este
teorema sostiene que la integral en el dominio del tiempo del módulo al

199
cuadrado de una función es igual a la integral de su espectro de potencia:

X −1 N −1
1 X
N
2
|xi | = |Xk |2
i=0
N k=0

Finalmente, si la señal digitalizada o simulada es una función real, tendre-


mos que la transformada es simétrica con respecto a ω = 0.

3. EFECTOS DEL MUESTREO Y VENTANA DE DIGITALI-


ZACIÓN.

En esta sección y la que sigue vamos a analizar dos problemas que aparecen
al trabajar en el espacio de frecuencias a partir de la DFT o FFT de señales
temporales. El problema ligado a la frecuencia de muestreo ya fue descrito
en el capı́tulo 3. A continuación, desarrollamos un problema relacionado con
la duración finita de las señales reales.

3.1. Duración finita de la señal y ((ventanas)) digitales.

El otro problema está relacionado con la duración finita de toda señal dis-
creta. En efecto, las señales f (t) sobre las que se calculan las DFT o FFT
están compuestas por un número finito, N , de datos4 separados por un in-
tervalo temporal δt, por lo que la duración de la señal es (N −1)δt. Es decir,
en términos matemáticos rigurosos, la señal cuya DFT o FFT se calcula se
puede considerar como el producto de la señal real f (t) por una función
((ventana)), g(t), que es una función rectangular que toma valor unidad en
0 ≤ t ≤ N δt y valor nulo fuera de ese intervalo temporal. Además, la trans-
formada de Fourier es una transformación que nos permite representar una
función como suma de componentes periódicas. Sin embargo, en la ma-
yor parte de los casos, la función discretizada no será periódica, es decir,
f (t = 0) 6= f (t = N δt), lo que introduce problemas adicionales para la

4
En lo que sigue supondremos que el ı́ndice, n, de la serie de datos comienza en 0 y, por consiguiente,
termina en N − 1.

200
Contenidos adicionales de teorı́a de filtrado

interpretación del espectro de potencia resultante.


En cualquier caso, la transformada de Fourier de la señal discreta no será la
transformada de f (t) sino la convolución de las transformadas de f (t) y g(t).
Esto tiene su lado malo, porque obliga, como veremos, a tener en cuenta la
transformada de Fourier de la función ventana, pero tiene un lado bueno,
porque si elegimos correctamente la función ventana podemos minimizar el
problema de la no periodicidad de la función discretizada.
La forma más sencilla de visualizar el ((problema de la ventana)) es conside-
rando señales discretas que tengan transformadas de Fourier convenientes
para el cálculo de la convolución con la ventana. Las más convenientes son
aquellas cuyas transformadas de Fourier son deltas de Dirac, es decir, la
función constante, cuya transformada de Fourier es una delta situada en
ω = 0 (es decir, δ(0)) y una función sinusoidal de frecuencia única, cuya
transformada es una delta situada en la frecuencia de la sinusoide (es de-
cir, si f (t) = sen ω0 t, entonces su transformada es δ(ω0 )). En estos casos,
la convolución con la transformada de la ventana equivale, simplemente, a
trasladar la transformada de la ventana a ω = 0, para el caso de la función
constante, y a ω = ω0 , para el caso de la sinusoide.
En el caso de la ventana rectangular, su espectro de potencia es:
N −1
sen(N ω/2) −jω
Pr (ω) = e 2
sen(ω/2)

En la figura D.1 se representa esta expresión analı́tica en trazo rojo, estan-


do el eje horizontal normalizado con respecto a la mı́nima frecuencia que se
puede resolver para la señal muestreada, es decir, δf = 1/(N − 1)δt = 1/T .
Por lo tanto, aunque en la figura D.1 se ha representado formalmente como
una función continua, en la práctica, una vez que la señal ha sido muestrea-
da, los únicos valores accesibles en el espectro son los que corresponden a
f /δf = 1, 2, ..., (N − 1)/2.
Como se ve, el espectro de la ventana rectangular es una función que pre-
senta lóbulos laterales, de anchura δf (ver figura D.2, que representa las
mismas funciones que aparecen en la figura D.1 pero con la potencia en db,
es decir, en escala logarı́tmica).

201
1,0

0,9

0,8
Hann
0,7 Rectangular

(u.a.)
0,6

0,5
P(f)
0,4

0,3

0,2

0,1

0,0
0 1 2 3 4 5
f/∆f

Figura D.1. Espectro de Fourier de las ventanas rectangular (en rojo) y de Hann (en negro), en repre-
sentación doblemente lineal.

Otros dos datos importantes son la atenuación del segundo máximo respecto
al máximo principal, que es de, aproximadamente, −14 db y que la potencia
en los siguientes máximos secundarios decrece con una pendiente de −20
db/dec, como se aprecia en la figura D.3, equivalente a D.1 y D.2 pero en
escala doblemente logarı́tmica. La relación de alturas entre los dos primeros
máximos y la pendiente de decaimiento de los máximos secundarios son
datos importantes porque indican cuanto se separa el espectro de la señal
discreta del espectro teórico de dicha señal por causa de la ventana.
Existe gran cantidad de trabajos sobre distintas funciones ventana que pue-
den ser más adecuadas para diversas utilizaciones especı́ficas. Aquı́ solo
mencionaremos la ventana de Hann, haciendo una comparación detallada
con la rectangular. La ventana de Hann es de utilización general y viene
dada por la función:
  
1 2πn
gh (n) = 1 − cos
2 N −1

donde n es el ı́ndice de la muestra correspondiente a un tiempo (n − 1)δt.


Esta ventana también se puede escribir como una combinación lineal de
ventanas rectangulares moduladas. En efecto, si definimos la ventana rec-

202
Contenidos adicionales de teorı́a de filtrado

0
Hann
Rectangular
-20

(db)
-40
P(f)

-60

-80
0 10
f/∆f

Figura D.2. Espectro de Fourier de las ventanas rectangular (en rojo) y de Hann (en negro), en repre-
sentación semilogarı́tmica.

tangular como gr (n) = 1 para 0 ≤ n ≤ N − 1, podemos escribir la ventana


de Hann como:
n n
1 1 2πj 1 −2πj
gh (n) = gr (n) − gr (n)e N − 1 − gr (n)e N −1
2 4 4

Por lo tanto, teniendo en cuenta las propiedades de linealidad de la transfor-


mada de Fourier y que la multiplicación por una exponencial se transforma
en un desplazamiento de la transformada, tenemos que el espectro de Fou-
rier de la ventana de Hann se puede escribir en función del espectro, Pr (ω),
de la ventana rectangular de la forma:
   
1 1 2π 1 2π
Ph (ω) = Pr (ω) − Pr ω + − Pr ω −
2 4 N −1 4 N −1

Esta función se ha representado también en las figuras D.1, D.2 y D.3 en


trazo negro. Como se ve fácilmente en la figura D.2, la anchura del lóbulo
central es el doble que la correspondiente a la ventana rectangular, pero la
atenuación de los máximos laterales es mucho mayor, siendo la atenuación
del primer máximo lateral respecto al central de −32 db y la pendiente de la
atenuación de los siguientes máximos de, aproximadamente, −60 db/dec. De

203
0
Hann
Rectangular
-20

(db)
-40
P(f)

-60

-80
0,1 1 10
f/∆f

Figura D.3. Espectro de Fourier de las ventanas rectangular (en rojo) y de Hann (en negro), en repre-
sentación doblemente logarı́tmica.

manera que la ventana de Hann deberı́a proporcionar espectros, en general,


más parecidos a los de la señal original previa a la discretización.
En las figuras D.4 e D.5 se muestra una comparación de los espectros ob-
tenidos aplicando, respectivamente, las ventanas rectangular (trazo negro)
y de Hann (trazo rojo) a una señal que contiene un valor de continua más
una señal sinusoidal. Más concretamente:

f (t) = 1 + 10 sen(2πf0 t), con f0 = 200 Hz

Como es de esperar, el espectro de la figura D.4 muestra dos picos, uno


en f = 0, que muestra la pendiente de atenuación propia de cada ventana
(−20 db/dec para la rectangular y −60 db/dec para la de Hann), y otro en
f = 200 Hz, cuya estructura se puede apreciar mejor en la figura D.5.
Como se ve, la ventana rectangular produce un pico ligeramente más estre-
cho en la parte más cercana al máximo, pero la atenuación de las frecuencias
próximas a la del máximo es mucho menor para la rectangular que para la
de Hann, por lo que con la ventana rectangular la relación de amplitudes
entre el máximo de la señal y el ((ruido de fondo)) es mucho menor que en
el caso de la ventana de Hann. Esto es muy importante cuando se trata de
analizar el contenido en frecuencias de una señal complicada, por lo que la

204
Contenidos adicionales de teorı́a de filtrado

0,01
Rectangular
1E-5 Hann

1E-8

P(f) (u.a.) 1E-11

1E-14

1E-17

1E-20

1E-23
0,1 1 10 100
f (Hz)

Figura D.4. Espectros de potencia de la señal indicada en el texto obtenidos, respectivamente, utilizando
las ventanas rectangular y de Hann. La representación es doblemente logarı́tmica.

ventana rectangular no es la más aconsejable.


En términos de aplicación práctica, se deben tener en cuenta ambos pro-
blemas (aliasing y función ventana) conjuntamente a la hora de decidir la
frecuencia de muestreo y la longitud y forma de la función ventana. En efec-
to, no debemos olvidar que cualquier señal temporal discretizada, fd (t), es,
siempre, el producto de una señal continua que depende del tiempo, f (t),
una función ventana, v(t), y un ((peine)) de Dirac5 :

X
fd (t) = f (t)v(t)δ (t − iτ )
i=−∞

Por lo tanto, la transformada de Fourier de la señal discretizada será la


convolución de las transformadas de las tres funciones descritas:
" ∞ #
X
Fd (f ) = F (f ) ∗ V (f ) ∗ F δ (t − iτ )
i=−∞

5
Del inglés Dirac comb. Es una sucesión de deltas de Dirac situadas en los instantes puntua-
les
P∞ en que se realiza la digitalización o simulación del valor de la señal. En términos matemáticos
i=−∞ δ (x − iτ ), donde τ es el inverso de la frecuencia de muestreo.

205
0,1
Rectangular
Hann

P(F) (u.a.) 1E-4

1E-7

1E-10

1E-13
198 199 200 201 202
f (Hz)

Figura D.5. Vista expandida y centrada en el pico de 200 Hz de los espectros de la figura anterior. La
representación es lineal en el eje de abscisas y logarı́tmica en el eje de ordenadas.

Afortunadamente, el problema es un poco más simple de lo que puede pa-


recer, dado que la transformada de Fourier de un peine de Dirac en la
representación temporal es otro peine de Dirac en la representación en fre-
cuencias. Más concretamente si g(t) es:

X
g(t) = δ (t − iτ )
i=−∞

donde τ es el inverso de la frecuencia de muestreo, su transformada de


Fourier es:  

2π X 2πk
F (ω) = F [f (t)] = δ ω−
τ k=−∞ τ

o bien, en función de la frecuencia f :


∞  
1 X k
G(f ) = F [g(t)] = δ f−
τ k=−∞ τ

206
Contenidos adicionales de teorı́a de filtrado

Por lo tanto, la convolución con este peine de deltas equivale a trasladar


a las frecuencias k/τ la convolución de la señal temporal continua con la
transformada de la función ventana:
" ∞  #
1 X k
Fd (f ) = F (f ) ∗ V (f ) ∗ δ f− =
τ k=−∞ τ
∞    
1 X k k
= F f− ∗V f −
τ k=−∞ τ τ

Por tanto, la transformada de Fourier de la señal discretizada es una suma de


infinitas convoluciones de las transformadas de la señal temporal continua
y la función ventana, trasladadas las convoluciones a las frecuencias k/τ .
Incidentalmente, esta es otra forma de ver que las transformadas discretas
DFT e IDFT son periódicas en el espacio de frecuencias, con periodo 1/τ .
A través de esta representación se puede ver más claramente el origen del
aliasing. En efecto, supongamos que una señal que contiene una frecuencia
f1 es muestreada con una frecuencia fm = 1/τ de manera que fm ≤ 2f1 (es
decir, incumpliendo lo prescrito por el teorema de Shannon) y analicemos
solo la parte de frecuencias positivas, recordando que, al ser la DFT pe-
riódica en el espacio de frecuencias y aplicándose el teorema de Shannon, la
información significativa en la DFT de la señal discretizada está contenida
en la banda 0 ≤ f ≤ fm /2. En primer lugar es necesario hacer notar que
en las convoluciones aparece la transformada de Fourier de la señal original
continua en el tiempo f (t) y, por lo tanto, contiene un pico a la frecuen-
cia f1 . Dado que f1 > 2fm el pico en f1 correspondiente a la convolución
para k = 0 aparecerá en el rango de frecuencias superior a fm , es decir,
sumándose con la convolución correspondiente a k = 1. Ahora bien, dado
que la transformada de Fourier de una señal puramente real es simétrica
respecto a f = 0, en la convolución correspondiente a k = 0, aparecerá
también un pico a la frecuencia −f1 Ello implica que también en la con-
volución correspondiente a k = 1 aparecerá un pico correspondiente a −f1
pero, dado que la convolución con k = 1 está traslada a la frecuencia 1/τ ,
ese pico aparecerá en la frecuencia:
1
f+ = − f1 = fm − f1
τ

207
También para la convolución correspondiente a k = −1 es fácil ver que
también aparecerá un pico en la frecuencia:
f− = −fm + f1

Si aplicamos esta relación al ejemplo de muestreo de la figura 3.11 del


capı́tulo 3, vemos que, siendo f1 = 1 Hz y fm = 1,1416 Hz, podemos,
inequı́vocamente, identificar el pico que aparece en f3 = 0,14158 Hz como
correspondiente a f− = 0,1416 Hz.

4. TÉCNICAS DE FILTRADO DE SEÑALES MUESTREADAS.

Una vez que hemos visto los conceptos fundamentales relacionados con la
DFT y la IDFT, podemos pasar a discutir como se pueden aprovechar ambas
transformadas para realizar filtrados sobre señales muestreadas. En térmi-
nos generales y al igual que en el caso de señales eléctricas continuas en el
tiempo, el filtrado de señales muestreadas por medio de transformadas de
Fourier discretas aprovecha el hecho de que la convolución en el dominio
temporal se transforma en una simple multiplicación en el dominio de fre-
cuencias. Más concretamente, la forma tı́pica de implementar un filtrado de
una señal muestreada consta de las siguientes etapas:

Decidir qué tipo de filtro (paso bajo, paso alto, etc.), el orden del filtro
y la frecuencia de corte.
Diseñar la función de transferencia, por medio de las mismas técnicas
utilizadas para el filtrado de señales analógicas continuas en el tiempo,
y obtener la expresión de la correspondiente función (compleja) de
respuesta en frecuencia.
Obtener la DFT de la señal muestreada que se desea filtrar. El resul-
tado de la DFT será, en general, una función compleja que tomará
valores en el intervalo de frecuencias −fm ≤ f ≤ +fm y simétrica
respecto a fm = 0.
Realizar la multiplicación (en general compleja) de la transformada
de la señal por la función de respuesta en frecuencia.

208
Contenidos adicionales de teorı́a de filtrado

Obtener la IDFT de la función compleja obtenida en la etapa anterior.

Otra forma de realizar filtrados en el dominio de frecuencias consiste en ma-


nipular directamente la transformada de Fourier de la señal, por ejemplo,
eliminando frecuencias indeseables o limitando el ancho de banda de mane-
ra directa. Las posibilidades de esta manipulación directa de F (ω) son muy
amplias. Como ejemplo veremos una aplicación en la que se elimina selec-
tivamente una de las componentes de frecuencia de una señal que contiene
tres frecuencias principales.

2
Senal

-2

0 2 4 6 8 10
t (s)

40
Potencia Espectral

20

0
0 1 2 3 4 5
frec (Hz)

Figura D.6. Parte superior: Representación temporal de la función descrita en el texto. Parte inferior:
Módulo de la DFT de la señal temporal.

En efecto, en la figura D.6 se representa, en la parte superior, la señal:


f (t) = sen(2πf1 t) + sen(2πf2 t) + sen(2πf3 t)

donde f1 = 1/π, f2 = 1 y f3 = 3/2 (todas ellas en Hz), ası́ como, en la parte


inferior, el módulo de la DFT de la señal, omitiendo la parte simétrica
para frecuencias −5 ≤ f ≤ 0. Se puede apreciar que los picos del espectro
corresponden a las frecuencias de las sinusoides que componen la señal.

209
40 40 40

Potencia Espectral

20 20 20

0 0 0
0 1 2 3 4 5 0 1 2 3 4 5 0 1 2 3 4 5
frec (Hz) frec (Hz) frec (Hz)

2 2 2
Senal

0 0 0

-2 -2 -2

0 2 4 6 8 10 0 2 4 6 8 10 0 2 4 6 8 10
t (s) t (s) t (s)

Figura D.7. Ejemplo de filtrado por eliminación de componentes de frecuencias seleccionadas. Las imáge-
nes de la fila superior indican, en trazo rojo, la frecuencia que se conserva de la transformada de Fourier
y, en trazo azul, las que se eliminan. En las imágenes de la fila inferior se han representado, simultánea-
mente, la señal original (en trazo azul) y la señal reconstruida a partir de su transformada de Fourier (en
trazo rojo) después de haber eliminado las frecuencias indicadas en la figura superior correspondiente.

En casos como este, en que el espectro de frecuencias presenta picos muy


bien definidos y separados, se puede, por ejemplo, manipular directamente
la transformada de Fourier de la señal para obtener la eliminación de la
frecuencia indeseable. Para ello basta con sustituir por 0, o un número muy
pequeño del orden del valor del ruido en la transformada de la señal, los
valores de la transformada de la señal correspondientes a las frecuencias en
que estos valores son claramente superiores al fondo de ruido de la transfor-
mada para, con posterioridad, obtener la IDFT correspondiente, en la que
ya no aparecerá la componente de la frecuencia eliminada.
En la figura D.7 se ilustra el resultado de dicha operación para los casos en
los que se eliminan dos de las frecuencias que componen la señal (en cada
caso se indican en azul las zonas de frecuencias en las que los valores de la
DFT se han sustituido por valores del orden del ruido. Más concretamente,

210
Contenidos adicionales de teorı́a de filtrado

en los dos paneles de la parte izquierda de la figura se ilustra la eliminación


de las frecuencias f2 y f3 (ver módulo de la DFT de la señal en la parte
superior) por medio de la comparación (panel inferior izquierdo) de la señal
original (en trazo azul) con la señal reconstruida después del filtrado en la
que, como es de esperar, solamente permanece presente la componente de
frecuencia f1 . Análogamente, los paneles centrales ilustran la eliminación
de las frecuencias f1 y f3 , y los paneles de la derecha la eliminación de las
frecuencias f1 y f2 .

5. FILTROS PASIVOS Y ACTIVOS DE ORDEN 2 Y SUPERIO-


RES.

5.1. Filtros pasivos de segundo orden.

Si en los circuitos de la figura 3.6 del capı́tulo 3 sustituimos la resistencia


por una inducción L, cuya impedancia es ZL = jωL, la ganancia para el
circuito de la izquierda se transforma en:
1
ZC jωC 1
G(ω) = = 1 =
ZL + ZC jωL + jωC 1 − ω 2 LC

de donde:
1 1
G(s) = =    
1 + s2 LC s s
1− 1+
ωc ωc

y también:
1 1
Gdb (ω) = =
1 − ω 2 LC 1 − (ω/ωc )2

donde ωc = (LC)−1/2 .
Por lo tanto, la ganancia de amplitud de este circuito presenta un pico de
resonancia6 para ω = ωc , mientras que para frecuencias mayores o menores

6
El inductor siempre presenta una pequeña resistencia eléctrica que evita que la ganancia se haga
infinita para ω = ωc .

211
que ωc , la ganancia es Gdb (ω) ' (ωc /ω)2 , y, por consiguiente, decrece con
una pendiente de −40 db/dec, mientras que para frecuencias menores que
ωc la ganancia de amplitud tiende a la unidad. Es decir, el circuito se com-
porta como un filtro paso bajo de segundo orden (dado que su función de
transferencia tiene dos polos simples) con frecuencia de corte ωc = (LC)−1/2 .
Por otro lado, si hacemos la sustitución de la resistencia por la inducción
en el circuito de la figura de la derecha, tenemos:

ZL jωL −ω 2 LC
G(ω) = = 1 =
ZL + ZC jωL + jωC 1 − ω 2 LC

de donde:
1 (s/ωC )2
G(s) = =   
1 + s2 LC s s
1− 1+
ωc ωc

y también:
ω 2 LC

Gdb (ω) = 2
ω LC − 1

donde también se usa ωc = (LC)−1/2 .


Por lo tanto, la ganancia de amplitud de este circuito para frecuencias ω 
ωc es aproximadamente igual a la unidad, mientras que para frecuencias
ω  ωc = 1/RC, la ganancia es Gdb (ω) ' (ω/ωc )2 , y, por consiguiente,
crece con una pendiente de +40 db/dec. Es decir, el circuito se comporta
como un filtro paso alto de segundo orden (puesto que tiene un cero doble
y dos polos simples) con frecuencia de corte ωc = 1/RC.

5.2. Filtros pasivos de orden superior.

Si se piensa en un filtro como un bloque que tiene una determinada función


de transferencia, se puede obtener un filtro de orden superior por medio de
la concatenación de filtros de órdenes inferiores al buscado. En efecto, para
una concatenación de dos filtros que tengan funciones de transferencia G(s)

212
Contenidos adicionales de teorı́a de filtrado

y H(s), respectivamente, el diagrama de bloques será el que se indica en la


figura D.8.

X(s) Y(s) Z(s)


G(s) H(s)

Figura D.8. Diagrama de bloques de un sistema con dos etapas.

En este caso tenemos:

Z(s) = H(s)Y (s) = H(s) [G(s)X(s)] = [H(s)G(s)] X(s)

Esto es, la función de transferencia de dos bloques concatenados es igual


al producto de las funciones de transferencia respectivas. Este resultado se
puede expresar, también, en función de la respuesta en frecuencia como:

Z(ω) = H(ω)Y (ω) = H(ω) [G(ω)X(ω)] = [H(ω)G(ω)] X(ω)

Sin embargo, este resultado no es aplicable a la concatenación de filtros


pasivos. Veamos, por ejemplo, qué ocurre si concatenamos dos etapas RC
paso bajo de primer orden7 , como se ilustra en la figura D.9.

R1 R2

Vi C1 V1 C2 Vo

Figura D.9. Esquema de un filtro paso bajo pasivo de orden 2 formado por dos etapas RC de primer
orden.

7
Estas redes de componentes pasivos se denominan en inglés ladder networks (((redes en escalera))).
Basta mirar el dibujo e imaginarse dos o tres etapas más para entender el porqué de dicha denominación.

213
En términos circuitales, la nueva rama de la segunda etapa, en la que se
encuentran R2 y C2 , está situada en paralelo con la rama de la primera etapa
que contiene al condensador C1 . Por lo tanto, la rama de R2 y C2 modifica
la impedancia de salida de la primera etapa y, asimismo, la impedancia
de entrada de la segunda etapa queda modificada al estar en paralelo con
C1 . Es decir, llamando Z2 a la impedancia equivalente a la combinación en
paralelo de C1 y la serie de R2 y C2 , tenemos:

Zc1 (ZR2 + ZC2 )


Z2 =
Zc1 + ZR2 + ZC2

y también:
ZC2 ZC2 Z2
Vo = V1 = Vi =
ZR2 + ZC2 ZR2 + ZC2 ZR1 + Z2
Zc1 (ZR2 + ZC2 )
ZC2 Zc1 + ZR2 + ZC2
= V
ZR2 + ZC2 Zc1 (ZR2 + ZC2 ) i
Z R1 +
Zc1 + ZR2 + ZC2

Por lo tanto, la ganancia del filtro de segundo orden ası́ obtenido es:
 
1 1
jωC1
R2 + jωC2
1 1 1
Vo jωC2 jωC1
+ R2 + jωC
G(ω) = = 1
 2

Vi R2 + jωC 2
1 1
R2 + jωC2
jωC1
R1 + 1 1
jωC1
+ R2 + jωC2

que, evidentemente, es muy distinta del producto de las funciones de res-


puesta en frecuencia de las dos etapas:
1 1
G(ω) =
1 + jωR1 C1 1 + jωR2 C2

¿Por qué no se cumple para redes de componentes pasivos la regla de que


la función de transferencia de la cadena es el producto de las funciones de

214
Contenidos adicionales de teorı́a de filtrado

transferencia de los eslabones? Desde el punto de vista circuital ya hemos


visto la razón: las impedancias de salida de una etapa y de entrada de
la siguiente se modifican mutuamente. Otra forma de verlo es que desde el
principio hemos supuesto que los bloques funcionan como fuentes de tensión
ideales, es decir, tienen impedancia de salida muy baja comparada con las
resistencias de carga o de entrada de la etapa siguiente. Esto, en general,
no se cumple en el caso de las redes pasivas en escalera. Como veremos
en el apartado siguiente, una manera de evitar este problema es utilizar
componentes activos, más concretamente amplificadores operacionales, ya
que tienen alta resistencia de entrada y baja resistencia de salida.

5.3. Filtros activos de segundo orden.

Concatenando dos filtros activos de primer orden se puede conseguir un


filtro activo de segundo orden pero ello implica utilizar dos A.O. para cada
filtro. Sin embargo, se pueden conseguir filtros activos de orden superior
utilizando un único A.O. para cada filtro. Existen múltiples diseños que lo
permiten pero aquı́ ilustraremos uno especı́fico que es el filtro general de
Sallen-Key, que tiene la topologı́a que se muestra en la figura D.10.

Z4

V1 V+
Z1 Z2 Vo
Vz
Z3 V-

R3 R4

Figura D.10. Esquema de un filtro activo general de segundo orden según la topologı́a de Sallen-Key.

215
Para obtener su respuesta en frecuencia basta con obtener la ganancia de
acuerdo con el método general y después sustituir las impedancias complejas
de los elementos Zi . Para obtener la ganancia aplicaremos en primer lugar la
ley de Kirchoff al nudo situado entre las impedancias Z1 y Z2 . Tendremos:
Vz − Vi Vz − Vo Vz − V+
+ + = 0,
Z1 Z4 Z2
 
1 1 1 Vi Vo V+
Vz + + = + +
Z1 Z2 Z4 Z1 Z4 Z2

Del mismo modo, en la entrada no inversora Z2 y Z3 forman un divisor de


tensiones, luego:
 
Z3 Z2
V+ = Vz , Vz = 1 + V+
Z2 + Z3 Z3

Se puede, por tanto, eliminar Vz sustituyendo esta última expresión en la


obtenida para el primer nudo y despejando V+ como función de Vi y Vo ,
obteniendo:
   
Z2 1 1 1 1 1 1
1+ + + − V+ = Vi + Vo ,
Z3 Z1 Z2 Z4 Z2 Z1 Z
  4
Z2 Z2 Z4 + Z1 Z2 Z4 + Z1 Z2 Z2 + Z2 Z3 Z4 + Z1 Z2 Z3 1 1
V+ = Vi + Vo
Z1 Z2 Z3 Z4 Z1 Z4

de donde:
V+ = cVi + dVo

siendo:
Z2 Z3 Z4 N1
c(ω) = ≡ ,
Z2 Z2 Z4 + Z1 Z2 Z4 + Z1 Z2 Z2 + Z2 Z3 Z4 + Z1 Z2 Z3 D
Z1 Z2 Z3 N2
d(ω) = ≡
Z2 Z2 Z4 + Z1 Z2 Z4 + Z1 Z2 Z2 + Z2 Z3 Z4 + Z1 Z2 Z3 D

donde N1 y N2 son los numeradores de ambas fracciones y D es el denomi-


nador común a ambas. Obsérvese que, a través de las impedancias Zi , las

216
Contenidos adicionales de teorı́a de filtrado

nuevas funciones c, d, D, N1 y N2 pueden depender de la frecuencia si, por


ejemplo, alguna de las impedancias es un condensador o una inducción.
Finalmente, en la entrada inversora tenemos:
R3
V− = Vo ≡ bVo
R3 + R4

Dado que el A.O. hace que V− = V+ , tenemos:

cVi + dVo = bVo ,


 
Vo c(ω) c(ω) 1
G(ω) = = =
Vi b(ω) − d(ω) b(ω) 1 − d(ω)/b(ω)

Para llegar a una expresión en función de las impedancias, es conveniente


definir:
1 R3 + R4
K= =
b R3

que es independiente de la frecuencia, de forma que la expresión de la ga-


nancia se puede reescribir como:
K
G(ω) =
D(ω) KN2 (ω)

N1 (ω) N1 (ω)

de donde
K
G(ω) = =
D(ω) KN2 (ω)

N1 (ω) N1 (ω)
 −1
Z2 Z2 Z4 + Z1 Z2 Z4 + Z1 Z2 Z2 + Z2 Z3 Z4 + Z1 Z2 Z3 KZ1 Z2 Z3
=K× − =
Z2 Z3 Z4 Z2 Z3 Z4
 −1
Z2 Z1 Z1 Z2 Z1 KZ1
=K× + + +1+ − =
Z3 Z3 Z3 Z4 Z4 Z4
 −1
Z1 Z2 Z1 Z2 (1 − K)Z1
=K× + + + +1
Z3 Z4 Z3 Z3 Z4

217
Esta última expresión ya nos permite elegir las impedancias adecuadas con
vistas a construir el filtro de segundo orden que se desee. Veamos algunos
ejemplos.

Filtro Sallen-Key paso bajo.

Un filtro paso bajo de segundo orden con una frecuencia de corte ωc tendrá
una función de transferencia con un polo doble en s = ωc y una cierta
ganancia de amplitud constante a baja frecuencia:
G
G ωc2 G 1
G(s) = = 2 = 2  2
(s − ωc )2
s ωc s s
−1 −2 +1
ωc ωc ωc

Por lo tanto, la respuesta en frecuencia será:


G 1 G 1
G(ω) = 2  2 = 2  2
ωc jω jω ωc ω jω
−2 +1 − −2 +1
ωc ωc ωc ωc

Comparando esta expresión con la obtenida en función de las impedancias


desconocidas vemos que la única manera de conseguir que los términos del
denominador tengan la dependencia buscada respecto a la frecuencia ω es
que Z1 y Z2 sean condensadores (puesto que su impedancia será 1/jωC)
y que Z1 y Z2 sean resistencias. Es decir, si hacemos Z1 = R1 , Z2 = R2 ,
Z3 = 1/jωC1 y Z4 = 1/jωC2 tendremos:
K
G(ω) =
−ω 2 (R1 R2 C1 C2 ) + jω [R1 C1 + R2 C1 + (1 − K)R1 C2 ] + 1

entonces:
1
ωc = √
R1 R2 C1 C2
además, el coeficiente del término lineal en ω permite definir el factor de
calidad del filtro, Q, que es un parámetro que está relacionado con la

218
Contenidos adicionales de teorı́a de filtrado

anchura de banda del filtro, como:



R1 R2 C1 C2
Q=
R1 C1 + R2 C1 + (1 − K)R1 C2

Para la implementación de un filtro determinado existen varias estrategias


para la selección de los valores de resistencias y capacitancias. Aquı́ mencio-
naremos únicamente la más sencilla que es elegir resistencias iguales entre
sı́ (R1 = R2 = R) y también capacitancias iguales entre sı́ (C1 = C2 = C).
De este modo tenemos:
K
G(ω) = 2
−ω (RC) + jωRC(3 − K) + 1
2

por lo tanto:
1 1
ωc = , Q=
RC 3−K

Filtro Sallen-Key paso alto.

Un filtro paso alto de segundo orden con una frecuencia de corte ωc tiene
que atenuar las frecuencias bajas hasta una cierta frecuencia de corte y tener
ganancia constante para frecuencias superiores a la frecuencia de corte. Por
lo tanto, tendrá una función de transferencia con un cero doble en s = 0 y
un polo doble en s = ωc . Es decir:
 2
s
ωc
G(s) = G  2
s s
−2 +1
ωc ωc

La respuesta en frecuencia será:


 2  2
jω ω

ωc ωc
G(ω) = G  2 = G  2
jω jω ω jω
−2 +1 − −2 +1
ωc ωc ωc ωc

219
Comparando esta expresión con la obtenida en función de las impedancias
desconocidas vemos que la única manera de conseguir que los términos del
denominador tengan la dependencia buscada respecto a la frecuencia ω es
proceder a la inversa que en el caso del filtro paso bajo: hacer que Z1 y
Z2 sean resistencias y que Z1 y Z2 sean condensadores. Si hacemos Z1 =
1/jωC1 , Z2 = 1/jωC2 , Z3 = R1 y Z4 = R2 . Por lo tanto, en este caso
tendremos:
K
G(ω) = =
1 j j (1 − K)
− 2 − − −j +1
ω (R1 R2 C1 C2 ) ωR1 C1 ωR1 C2 ωR2 C1
−Kω 2 (R1 R2 C1 C2 )
= 2
ω (R1 R2 C1 C2 ) + jωR2 C2 + jωR2 C1 + jωR1 C2 (1 − K) + 1

y entonces:
1
ωc = √
R1 R2 C1 C2

además, el coeficiente del término lineal en ω permite definir el factor de


calidad del filtro, Q:

R1 R2 C1 C2
Q=
R2 C2 + R2 C1 + (1 − K)R1 C2

Para la implementación del filtro elegimos resistencias iguales entre sı́ (R1 =
R2 = R) y capacitancias iguales entre sı́ (C1 = C2 = C). De este modo
tenemos:
−Kω 2 (RC)2
G(ω) = =
ω 2 (RC)2 + jωRC + jωRC + jωRC(1 − K) + 1
Kω 2 (RC)2
=
ω 2 (RC)2 + jωRC(3 − K) + 1

y entonces:
1 1
ωc = , Q=
RC 3−K

220
Contenidos adicionales de teorı́a de filtrado

5.4. Sı́ntesis de filtros de orden superior a partir de la función de


respuesta en frecuencia.

Hasta ahora hemos visto los ejemplos tı́picos de filtros de orden 1 y 2.


También hemos visto que se pueden generar filtros de orden superior por
concatenación de filtros de orden inferior al buscado. Sin embargo, la ob-
tención de la función de transferencia se complica al aumentar el orden del
filtro por concatenación, por lo que existe una estrategia diferente para el
diseño de filtros de orden superior a 2. Esta estrategia consiste en generar
métodos generales que permitan diseñar filtros que tengan una respuesta en
frecuencia dada.
Sin embargo, a la hora de definir dichos métodos generales aparece el proble-
ma consistente en que la respuesta en frecuencia suele presentar dos opciones
que se contraponen y por lo tanto es necesario optar por privilegiar una u
otra de ellas. Las opciones que se contraponen consisten en que si se desea
una caı́da fuerte en la banda de atenuación se debe sacrificar la constancia
de la ganancia a baja frecuencia y, viceversa, si se desea una ganancia en
baja frecuencia muy constante, se debe sacrificar la pendiente en la caı́da
de la ganancia en la banda de atenuación.
A continuación, veremos los dos métodos más ampliamente utilizados para
la sı́ntesis de filtros paso bajo de alto orden primando en cada caso una de
las dos opciones mencionadas.

Filtros de respuesta máximamente plana en baja frecuencia: Filtros de But-


terworth.

Los filtros de Butterworth tienen una función de respuesta en frecuencia:


G0
G(ω) = s  2n
ω
1+
ωc

donde n es el orden (número de polos) del filtro y G0 es la ganancia a


baja frecuencia. Por lo tanto, su función de transferencia correspondiente

221
se puede escribir como:

G
G(s) =  0 2 n
−s
1+
ωc2

cuyos polos son las raı́ces del polinomio siguiente:

s2 1
− 2
= (−1) n
ωc

que se pueden escribir como:


 
j(2k + n − 1)π
sk = ωc exp , con k = 1, 2, 3, ..., n
2n

Es decir, la función de transferencia se puede escribir como el producto de


los binomios correspondientes los n polos de la forma siguiente:

G0 G0
G(s) = Qn s−s =
k Bn (s)
k=1 ωc

donde los Bn (s) son los denominados polinomios de Butterworth de orden


n, cuyas expresiones, escritas en la forma más habitual son:

2    
n
Y 2k + n − 1
2
Bn (s) = s − 2s cos π + 1 , si n es par.
k=1
2n
2    
n
Y 2k + n − 1
2
Bn (s) = (s + 1) s − 2s cos π + 1 , si n es impar.
k=1
2n

Estos polinomios están tabulados y los cuatro primeros, con sus coeficientes

222
Contenidos adicionales de teorı́a de filtrado

hasta cuatro cifras decimales, son:


B1 (s) = s + 1
B2 (s) = s2 + 1,4142s + 1
B3 (s) = (s + 1)(s2 + s + 1)
B4 (s) = (s2 + 0,7654s + 1)(s2 + 1,8478s + 1)

La forma de implementar estos filtros de orden superior es, habitualmente,


concatenar filtros Sallen-Key paso bajo de ganancia unidad. Para ello basta
con modificar, en la figura D.10, el bucle de realimentación negativa elimi-
nando la resistencia R3 y sustituyendo la resistencia R4 por un cortocircuito
de manera que la salida del A.O., Vo queda directamente conectada con V− .
En estas condiciones, la respuesta en frecuencia del filtro de Sallen-Key es:
1
G(ω) =
−ω 2 (R1 R2 C1 C2 ) + jωC1 (R1 + R2 ) + 1

y entonces:
1
ωc = √
R1 R2 C1 C2
de forma que: √
R1 R2 C1 C2 ωc
Q= =
C1 (R1 + R2 ) 2α

donde:
√ −1
ωc 1 R1 R2 C1 C2 C1 (R1 + R2 )
2α = =√ =
Q R1 R2 C1 C2 C1 (R1 + R2 ) R1 R2 C1 C2

Es decir, su función de transferencia es:


1
G(s) =  2
s 2α s
+ +1
ωc ωc ωc

Por lo tanto, para que el filtro Sallen-Key paso bajo de orden 2 sea un
filtro paso bajo de Butterworth basta con hacer que el denominador de la

223
función de transferencia coincida con el polinomio de Butterworth de orden
2, B2 (n), es decir, debemos elegir los componentes de la red RC de forma
que se cumplan:
1
= R1 R2 C1 C2 = 1,
ωc2
 
2α 2k + n − 1
= C1 (R1 + R2 ) = −2 cos π
ωc2 2n

Por lo tanto, al tener cuatro parámetros relacionados entre sı́ por dos ecua-
ciones, se pueden fijar libremente dos de ellos y obtener los otros dos a través
de las mencionadas ecuaciones.

Filtros con máxima pendiente de atenuación. Filtros de Chebyshev.

Los filtros de Chebyshev tienen una función de respuesta en frecuencia:


1
G(ω) = r  
ω
1 + ε2 Tn2 ωc

donde Tn es el polinomio de Chebyshev8 de orden n. En este caso no se


puede llevar a cabo una discusión tan detallada como en el caso de los
filtros de Butterworth. La caracterı́stica más notable de estos filtros es que
la pendiente de la caı́da de la ganancia por encima del corte es máxima,
pero esto se consigue a base de aceptar una cierta oscilación (ripple) de la
ganancia en la banda pasante. En la figura D.11 se pueden comparar las
curvas correspondientes a las ganancias de amplitud de dos filtros de orden
4 con ganancia unidad en baja frecuencia, frecuencia de corte ωc = 1000
s−1 . Como puede observarse, el filtro de Butterworth tiene respuesta plana
en la banda pasante aunque la atenuación en la banda rechazada es siempre
menor que la correspondiente al filtro de Chebyshev. Sin embargo, este
presenta un rizado de 3 db en la banda pasante.

8
Los primeros polinomios de Chebyshev son T0 (x) = 1; T1 (x) = x; T2 (x) = 2x2 − 1; T3 (x) =
4x3 − 3x; T4 (x) = 8x4 − 8x2 + 1

224
Contenidos adicionales de teorı́a de filtrado

10

Butterworth
0
Chebyshev

-10
G(ω) (db)

-20

-30

-40

-50

-60
100 1000 10000
ω (s )
-1

Figura D.11. Ganancias de amplitud correspondientes a filtros de orden 4 con ωc = 1000 s−1 de Butter-
worth y Chebyshev (ε = 1).

6. TRANSFORMADA RÁPIDA DE FOURIER (FFT).

Bajo la denominación genérica de ((Transformada Rápida de Fourier)) (FFT9 )


se agrupan varias formas de calcular la DFT con un coste computacional
mucho menor que el del cálculo directo de la DFT a través de las sumas
de las series con senos y cosenos obtenidas a partir de la fórmula de Euler.
En efecto, mientras que el cálculo directo de la DFT para una señal que
consta de N muestras requiere del orden de N 2 operaciones, los algoritmos
FFT para la misma señal requieren únicamente N log N operaciones, lo que
significa un gran ahorro de esfuerzo computacional para señales de gran
número de datos.
El método más conocido es el debido a Cooley y Tukey10 para señales com-
puestas por números de muestras que son potencias enteras de 2. Este es un
método de los denominados de raı́z 2 y diezmado en tiempo, que simplifican

9
La abreviatura corresponde a las iniciales en inglés de Fast Fourier Transform.
10
El esquema de cálculo de esta FFT ya fue utilizado por Gauss en 1805, aunque se dio a conocer
póstumamente.

225
el cálculo de la DFT separando las muestras en dos mitades compuestas,
respectivamente, por las muestras de ı́ndice par (x2m = x0 , x2 ,...,xN −2 ) y
las de ı́ndice impar (x2m+1 = x1 , x3 ,...,xN −1 ). En tal caso, la DFT se puede
separar, como hemos indicado, en dos sumas, una para las muestras pares
y otra para las impares, como sigue:
−1 N/2−1 N/2−1
X
N X X (2m+1)k
−2πj ik −2πj 2mk
Xk = xi e N = x2m e N + x2m+1 e−2πj N =
i=0 m=0 m=0
N/2−1 N/2−1
X mk
−2πj N/2 k
X mk k
= x2m e +e −2πj N
x2m+1 e−2πj N/2 = Pk + e−2πj N Ik
m=0 m=0

donde la primera suma, Pk , corresponde a la DFT de las muestras de ı́ndice


par y la segunda suma, Ik , corresponde a la DFT de las muestras de ı́ndice
impar. Además, por la periodicidad de la DFT sabemos que:
Pk+ N = Pk , Ik+ N = Ik
2 2

Por lo tanto, podemos escribir la DFT como:


( k
Pk + e−2πj N Ik , para 0 ≤ k < N/2
Xk = k
−2πj N
Pk−N/2 + e Ik−N/2 , para N/2 ≤ k < N

Además, para el factor exponencial que multiplica a Ik se verifica que:


k−N/2 k k k
e−2πj N = e−2πj N −jπ = e−jπ e−2πj N = −e−2πj N

Por lo tanto, podemos obtener la serie de valores de Xk habiendo calculado


únicamente la mitad correspondiente a k ≤ N/2. De esta forma, la DFT
queda especificada, para 0 ≤ k < N2 , como:
k
Xk = Pk + e−2πj N Ik ,
k
Xk+ N = Pk − e−2πj N Ik
2

Este esquema se implementa recursivamente de manera que, en la siguiente


etapa se vuelven a subdividir las dos DFTs de N/2 términos pares e impares

226
Contenidos adicionales de teorı́a de filtrado

de la serie original otra vez en N/4 términos pares e impares de las series de
muestras obtenidas en la primera subdivisión. El proceso de subdivisión se
continua hasta llegar a subseries que contienen ya cada una solamente dos
términos.

227
SOLUCIONES DE LOS EJERCICIOS

1.1. En cualquier distribución gaussiana el número de ocurrencias en el


intervalo (µ − σ, µ + σ) es del 68,3 %.

1.2. Todas las lámparas se fabrican en igualdad de condiciones, de tal


forma que podemos correlacionar los efectos de la fabricación a lo largo
de la vida de las lámparas. El enunciado nos dice que (en promedio),
fallan 8 lámparas cada 100 horas. Es decir, podemos suponer que el
número de fallos en 100 horas sigue una distribución de Poisson de
media (λ) igual a 8.
Bajo estas condiciones, podemos suponer que en la cuarta parte del
tiempo el número de fallos de lámparas vendrá dado por una distri-
bución de Poisson y que (en promedio), deberı́an fallar 2 lámparas
(ya que es la cuarta parte de tiempo). Dicho esto, deducimos que la
distribución de fallos de lámparas en 25 horas sigue una distribución
de Poison de λ = 2.
Trabajando con la distribución de Poison que corresponde al periodo
del que se nos pregunta (25 horas), es decir, la que tiene λ = 2,
calculamos la probabilidad de que haya, al menos, un fallo:

P (x ≤ 1) = (2!/1!)e−2 = 0,27067

1.3. Los cálculos ha realizar son los siguientes:


 
60 − 70 75 − 70
p[60 ≤ x ≤ 75] = p ≤x≤ =
3 3
p(−3,33 < Z ≤ 1,67) = p(Z ≤ 1,67) − [1 − p(Z ≤ 3,33)] =
= 0,9525 − (1 − 0,9996) = 0,9521 × 100 = 476

1.4. Respuesta C.

229
1.5. Respuesta C.

1.6. El ejercicio corresponde a una distribución binomial, de resultados SI


tiene televisor y NO tiene televisor. Los parámetros de la misma son:

n = 50, p = 0, 6, q = 1 − 0, 6 = 0, 4

dado que se cumple np = 30(> 5) y nq = 20(> 5), podemos (y debe-


mos) trabajar con una distribución normal. Buscamos los parámetros
que nos definen la distribución normal, que es la que debe usarse en
base a lo encontrado en las lı́neas anteriores:

media = n × p = 30,

sigma = n × p × q = 3,46

es decir, la distribución normal correspondiente es N(30, 3,46). Por


tanto, la probabilidad de que al menos 20 de los hogares tengan dos
televisores será:

P (35 ≤ X ≤ 40) = P (1,4450 ≤ Z ≤ 2,8900) = 0,0716

1.7. Respuesta B.

1.8. Una distribución de probabilidad continua y uniforme queda carac-


terizada por su función de distribución f (x) = 1/(b − a) y su valor
medio µ = (a + b)/2. Dado el valor medio de la distribución y la fun-
ción de distribución, es inmediato obtener el sistema de ecuaciones
(a + b)/2 = 2,5 y 1/(b − a) = 1/2, cuya solución es b = 3,5 y a = 1,5.

1.9. El valor medio de la distribución viene dado por µ = N p = N (1−q) =


40.

2.1. La función de máxima verosimilitud es (véase la n en el exponente de


(1 − p)):
Yn
L = f (xi , p) = pf (1 − p)n−f
i

230
Contenidos adicionales de teorı́a de filtrado

Si tomamos logaritmos, obtenemos:

ln L = f ln p + (n − f ) ln(1 − p)

Ahora derivamos respecto a p e igualamos a cero:

d ln L f n−f
= − =0
dp p 1−p

de donde se obtiene que p = f /n. Es decir, el estimador de máxima


verosimilitud en este caso es la frecuencia de éxitos: el número de
éxitos con respecto al total de medidas.

2.2. Respuesta A. El residuo de cada posible resultado es:

rrojo = 0,38,
rnegro = 0,07,
rverde = 13,74

de forma que χ2 ' 14  E[χ2 ] = N − 1 = 2.

2.3. Respuesta D. Hay tres ligaduras dado que el número de datos es fijo
y se han calculado la media y la desviación tı́pica a partir de ellos.
Para realizar el test χ2 tendremos que usar la función teórica con los
valores de la media y de la desviación.

2.4. Respuesta A. Como ν = 5 − 1 − 2 = 2, χ2c = 6. El valor de χ2 se


obtiene usando:
Xn
(yi − fi )2
2
χ =
i=1
σ2

donde σ = 0,011. Se obtiene entonces χ2 = 37,9.



2.5. El estadı́stico es Z = |x̄ − a|/(s/ n) donde√debe cumplirse Z < zc .
Entonces, como: Z = f rac|3,62 − 3,65|0,22/ 50 = 0,96 < zc = 1,64.,
concluimos que podemos confirmar el valor.

231
2.6. Si usamos:
X
n
(yi − fi )2
S=
i=1
s2 (yi )

se obtiene S = 11,1. Como los grados de libertad son ν = 11 > 10,


entonces χ̃20 = 11,14/11 = 1,01 y se confirma la hipótesis.
2.7. A = 49 ± 4, B = 6,2 ± 1,3.
3.1. Respuesta A.
3.2. Respuesta A.
3.3. Respuesta A.
3.4. Respuesta A.
3.5. Respuesta A.
3.6. La función de transferencia tiene polos en s = 1±i. Es decir, todos los
polos tienen parte real positiva y, por lo tanto, el sistema es estable.
3.7. El filtro tiene un polo de orden 2 en s = 10 s−1 , luego es un filtro paso
bajo de orden 2 y frecuencia angular de corte ω = 10 s−1 .
4.1. Φ/c = L I.
4.2. e = 4,803 × 10−10 statC, h = 6,626 × 10−27 g cm2 s−1 , c = 2,998 × 1010
cm s−1 . Entonces: ᾱ = e2 /(2hcεo ).
4.3. Tenemos que:
[F] = [k2 ][I2 ][L3 ][L−3 ] = [k2 ][I2 ]

Tal y como se dice en el capı́tulo 4, la constante k2 para el sistema


gaussiano se ha elegido como c−2 , por tanto:

k2 = [L−2 ][T2 ]

Sustituyendo k2 , y también [F] = [MLT−2 ], tenemos [MLT−2 ] = [L−2 ][T2 ][I2 ],


de donde:
[I2 ] = [ML3 T−4 ]

232
Contenidos adicionales de teorı́a de filtrado

A partir de ahı́ se deducen las dimensiones de [I] = [M1/2 L3/2 T−2 ],


que se reflejan en las unidades g1/2 cm3/2 s−2 .
4.4. Respuesta B. De los tres sistemas de unidades en discusión, sólo en el
SI la permitividad eléctrica tiene dimensiones y un valor distinto de la
unidad para la permitividad del vacı́o (del orden de 10−11 ). Por tanto
sólo es válida la opción donde no aparece el SI.
4.5. Partiendo de la expresión en el sistema Gaussiano intentaremos pasar
al SI y que la ecuación tenga la misma forma pero con k3 = 1. En lo
que sigue las magnitudes SI tendrán un asterisco (∗ ). La expresión en
el sistema Gaussiano es:
1 ∂B
∇×E+ =0
c ∂t
Tenemos que:
G ∗
B = 104 B
T
y también definimos la constante de cambio como β:

E = βE∗

Por otro lado, el operador rotacional también se ve afectado dimensio-


nalmente, puesto que consiste en derivadas espaciales, y las longitudes
se expresan en diferentes unidades en ambos sistemas:
m ∗
∇ = 10−2 ∇
cm
La derivada temporal no se ve afectada porque en ambos sistemas el
tiempo se mide en las mismas unidades. Sustituyendo todo:
104 ∂B∗
(10−2 )∇∗ × βE∗ + =0
c ∂t
Para recuperar la forma de la ecuación en el SI multiplicamos por un
factor c/104 :  −2 
∗ 10 βc ∗ ∂B∗
∇ × E + =0
104 ∂t

233
Para que la ecuación recupere su forma tiene que ocurrir que la can-
tidad entre paréntesis sea la unidad:

βc10−6 = 1

Despejando y sustituyendo c = 3 × 1010 cm/s:

106
β= ' 3,3 × 10−5
3 × 1010

4.6. Respuesta A.

234
BIBLIOGRAFÍA

[1] R. P. Feynman, R. B. Leighton, M. Sands, The Feynman Lectures on


Physics (vol.1), Addison-Wesley, 1963.

[2] A. Einstein, Autobiographical Notes, Open Court Publishing Company,


1991.

[3] H. Kragh, Generaciones Cuánticas, Ediciones Akal, 2007.

[4] G. Holton, Thematic Origins Of Scientific Thought: Kepler to Einstein,


Harvard University Press, 1973.

[5] J. D. Jackson, Electrodinámica Clásica, segunda edición, Editorial Al-


hambra, 1980.

[6] A. Sommerfeld, Electrodynamics, Lectures on Theoretical Physics vo-


lume III, Academic Press, 1952.

[7] D. K. Wangsness, Campo electromagnéticos, Limusa, 1983.

[8] V. Quesada, A. Isidoro, L. A. López, Curso y Ejercicios de Estadı́stica.,


Alhambra Universidad, 1992.

[9] L. Lynos, A Practical Guide to Data Analysis for Physical Science


Students, Cambridge University Press, 1991.

[10] J. R. Taylor, Introducción al análisis de errores: El estudio de las in-


certidumbres en las mediciones fisicas, Reverte, 2014.

[11] C. Sánchez del Rı́o, Análisis de Errores, Eudema Universidad, 1989.

[12] M. Yuste, C. Carreras, Experimentos caseros para un curso de fı́sica


general, Editorial UNED, 1994.

235
[13] J. Gorgas, N. Cardiel, J. Zamorano, Estadı́stica Básica para estudiantes
de ciencias, ebook, 2011.

[14] R. S. Spiegel, L. J. Stephens, Schaum’s Outline of Theory and Problems


of Statistics, McGraw-Hill Education, 1999.

[15] J. Mandel, The Statistical Analysis of experimental data, Dover Publi-


cations Inc., 1985.

[16] P. Bevington, D. K. Robinson, Data Reduction and Error Analysis for


the Physical Sciences, McGraw-Hill Education, 2002.

[17] S. G. Rabinovich, Measurement Errors and Uncertainties: Theory and


Practice, Springer, 2005.

[18] R. Barlow, Statistics: A Guide to the Use of Statistical Methods in the


Physical Sciences, John Wiley and Sons, 1999.

[19] I. G. Hughes, T. P. A. Hase, Measurements and their Uncertainties:A


practical guide to modern error analysis, Oxford University Press, 2010.

[20] R. E. Walpole, R. H. Myers, S. L. Myers, Probabilidad y Estadı́stica


para Ingenieros, Pearson Educativa, 1999.

[21] Z. Kotulski, W. Szczepinński, Error Analysis with Applications in En-


gineering, Springer, 2010.

[22] S. Weisberg, Applied Linear Regression, Wiley-Interscience, 2005.

[23] R. D. Cook, S. Weisberg, Applied Regression Including Computing and


Graphics, Wiley-Interscience, 1999.

[24] P. Dalgaard, Introductory Statistics with R, Springer, 2008.

[25] N. Horton, K. K., Using R for Data Management, Statistical Analysis,


and Graphics, CRC Press, 2011.

[26] J. Vanderlinde, Classical Electromagnetic Theory, Jonh Wiley and


Sons, 1993.

[27] C. Sánchez del Rı́o, Unidades Fı́sicas, Eudema Universidad, 1987.

236
BIBLIOGRAFÍA

[28] L. A. Sena, Unidades de las magnitudes fı́sicas y sus dimensiones, Mir,


1979.

[29] W. Greiner, Classical Electrodynamics, Springer, 1998.

[30] J. Palacios, Análisis Dimensional, Espasa Calpe, 1955.

[31] J. Palacios, Electricidad y Magnetismo, Espasa Calpe, 1959.

[32] B. G. Levich, Teorı́a del campo electromagnético. Teorı́a de la relativi-


dad, Reverté, 1974.

[33] E. Benito, Problemas de campos electromagnéticos, AC, 1985.

[34] B. W. Petley, Metrology at the Frontiers of Physics and Technology.


Proceeding of the International School of Physics Enrico Fermi, North-
Holland, Amsterdam, 1992.

[35] S. Chatterjee, Regression Analysis by Example, Wiley-Interscience,


2006.

[36] G. A. Young, R. L. Smith, Essentials of Statistical Inference, Cambrid-


ge, 2005.

[37] A. J. Larkoski, Elementary Particle Physics: An Intuitive Introduction,


Cambridge University Press, 2019.

237

También podría gustarte