Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad Iztapalapa
División de Ciencias Básicas e ingeniería
Departamento de Matemáticas
Este libro lo escribo recopilando los ya varios cursos que he tomado en la Universidad, algunos
resultados no son de mi autoría, lo realmente importante es que todo este trabajo será de apoyo a
una especialización en Seguridad informática, en particular aterrizare los fundamentos de la teoría
de números, algebra lineal, estadística y análisis en la formulación de código limpio para proteger
datos sensibles.
Algebra Lineal I
Algebra Lineal II
Probabilidad I
Estadística I
1. Análisis combinatorio de datos
1.1 Conceptos elementales
1.2. Descripciones numéricas
1.3 Descripciones graficas
1.4 Variables aleatorias
Inician notas
Definición 1.1. Una población es un conjunto de personas, objetos o eventos, de los cuales nos
interesa estudiar algunas de sus características
Ejemplo 1.1 Los siguientes conjuntos pueden ser considerados como poblaciones para algún
estudio estadístico
- EL conjunto de personas afectadas por una cierta enfermedad
- El conjunto de personas extranjeras que llegan al país en un día
- EL conjunto de artículos defectuosos producidos por una fabrica
- EL conjunto de infracciones de tránsito que se comenten en la ciudad
- EL conjunto de goles que anota un equipo de futbol
- El conjunto de boletas invalidas en un proceso electoral
Definición 1.2. Una unidad de observación es un grupo de elementos de una población de la cual se
tiene, o es posible obtener, su información de manera conjunta.
*La determinación de una unidad de observación depende del problema a estudiar y de la manera en
la que la información pueda ser obtenida o que esté disponible.
Por simplicidad, consideramos que cada elemento de una población es una unidad de observación y
que nos interesa conocer ciertas características de estos elementos.
Definición 1.3 Una muestra es cualquier subconjunto de una población. Al número de elementos de
la muestra, al que denotaremos por la letra 𝑛 se llamara tamaño de la muestra.
Definición 1.5 Mediante el término datos se entiende al conjunto de observaciones de una o mas
variables de interés para todos los elementos de la muestra.
*Generalmente, un conjunto de datos se organiza y almacena en una computadora en forma de un
arreglo en tablas.
Clasificación de variables
Una primera clasificación de variables establece que estas pueden ser cuantitativas o cualitativas.
Definición 1.6 Una variable es cuantitativa si sus valores son números y representan una cantidad.
*Dentro de estas variables están las discretas y las continuas.
Definición 1.7 Una variable es cualitativa si sus valores representan una cualidad, un atributo o una
categoría.
Definición 1.8 Una variable cuantitativa es discreta si el conjunto de todos sus posibles valores
tiene un numero finito de elementos, o bien es infinito, pero es numerable.
Definición 1.9 Una variable es continua si puede tomar todos los valores dentro de un intervalo
(𝑎, 𝑏) de números reales y no toma valores aislados.
Escalas de medición
Definición 1.10 Se dice que una variable cualitativa se mide mediante una escala nominal, o que es
de tipo nominal, si sus valores son etiquetas o atributos y no existe un orden entre ellos.
*Por ejemplo, si nos interesa estudiar la variable cualitativa “Sexo” en una población humana, sus
dos posibles valores son: Masculino o femenino, estos dos valores son etiquetas, no existe un orden
entre ellos y por lo tanto se trata de una variable tipo nominal.
Definición 1.11 Se dice que una variable cualitativa se mide mediante una escala ordinal, o que es
de tipo ordinal, si sus valores son etiquetas o atributos, pero existe un cierto orden entre ellos.
*Por ejemplo podemos considerar que la variable cualitativa “estado en el que se encuentra su
artículo” tiene como posibles valores: Malo, regular y bueno.
Definición 1.12 Una variable cuantitativa se mide mediante una escala de intervalo si existe una
noción de distancia entre los valores de la variable, aunque no se pueden realizar operaciones
numéricas y no existe necesariamente el valor natural cero.
Proposición 1.1 Sea 𝑥̅ la media del conjunto de datos numéricos 𝑥1 , … , 𝑥𝑛 y sea 𝑦̅ la media de los
datos transformados 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑐 para 𝑖 = 1, … , 𝑛 , en donde 𝑎 y 𝑐 son dos constantes arbitrarias,
entonces 𝑦̅ = 𝑎𝑥̅ + 𝑐
Moda
*A diferencia de la media, la moda se puede calcular tanto para valores numéricos como para no
numéricos
Definición 1.17 La moda es el valor que aparece con mayor frecuencia en el conjunto de datos, en
caso de que lo hubiera.
*LA moda es una medida de tendencia central de los datos pues indica el valor observado con
mayor frecuencia
Proposición 1.2 Sea 𝑥1 , … , 𝑥𝑛 un conjunto de datos numéricos con una única moda Moda(x).
Defina la colección de datos transformados 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑐 para 𝑖 = 1, … , 𝑛, en donde 𝑎 ≠ 0 y 𝑐 son
dos datos constantes. Entonces el conjunto de datos transformados 𝑦1 , … , 𝑦𝑛 tiene una única moda
dada por 𝑀𝑜𝑑𝑎(𝑦) = 𝑎𝑀𝑜𝑑𝑎(𝑥) + 𝑐
Mediana
*Esta es otra medida de tendencia central para datos numéricos. Supongamos nuevamente que
tenemos una colección de números 𝑥1 , … , 𝑥𝑛 . Podemos ordenarlos de menor a mayor, incluyendo
repeticiones, y obtener la sucesión ordenada 𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛 en donde 𝑥1 denota el numero mas
pequeño,
Definición 1.18 La mediana de un conjunto de números 𝑥1 , … , 𝑥𝑛 es el dato ordenado de en medio,
esto es:
-Si el número de datos 𝑛 es par, entonces existen dos datos ordenados de en medio y la mediana es
el promedio de estos dos números.
-Si el número de datos 𝑛 es impar, entonces el dato ordenado de en medio del total es el valor de la
mediana.
Proposición 1.3 Sea 𝑥̅ la mediana del conjunto de datos numéricos 𝑥1 , … , 𝑥𝑛 y sea 𝑦̅ la media de los
datos transformados 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑐, para 𝑖 = 1,2, … , 𝑛, en donde, 𝑎 y 𝑐 son constantes arbitrarias.
Entonces 𝑦̅ = 𝑎𝑥̅ + 𝑐
Medidas de dispersión
*estudiaremos algunas cantidades que permiten medir el grado de dispersión de un conjunto de
datos numéricos, EN caso todas estas medidas es necesario considerar un valor central de los datos
como punto de referencia.
Varianza
*La varianza es un promedio de la distancia al cuadrado de cada uno de los datos 𝑥𝑖 respecto a la
media 𝑥̅ y es la medida de dispersión más comúnmente usada.
*Para especificar de que se trata la varianza de un conjunto de datos denotado por 𝑥, se escribe
𝑠𝑥2 , 𝑠 2 (𝑥), o también 𝑣𝑎𝑟(𝑥). Es claro que para calcularla es primero necesario encontrar la media
1
𝑥̅ . La varianza puede definirse como se indica en la formula 𝑠 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
En esta expresión aparece el denominador 𝑛 − 1 en lugar de 𝑛. Esta formula es usada con mucha
frecuencia debido a que, cuando se aplica al caso de variables aleatorias, satisface una propiedad
estadística importante llamada Insesgamiento.
El siguiente resultado muestra el cambio de la varianza bajo transformaciones lineales de datos.
Multiplicar por una constante corresponde a un cambio de escala y sumar una constante
corresponde a una translación.
Proposición 1.4 Sea 𝑣𝑎𝑟(𝑥) la varianza del conjunto de datos numéricos 𝑥1 , … , 𝑥𝑛 y sea 𝑣𝑎𝑟(𝑦) la
media de los resultados transformados 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑐, 𝑝𝑎𝑟𝑎 𝑖 = 1,2, … , 𝑛 en donde 𝑎 y 𝑐 son
constantes arbitrarias, entonces 𝑣𝑎𝑟(𝑦) = 𝑎2 𝑣𝑎𝑟(𝑥)
El calculo de la varianza para resultados agrupados puede efectuarse de la siguiente forma: si se
tienen 𝑛 observaciones de 𝑘 valores distintos 𝑥1 , . . , 𝑥𝑘 con frecuencias 𝑓1 , . . , 𝑓𝑘 , la varianza se
reduce a la fórmula:
1
𝑠 2 = ∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
𝑛
Desviación estándar
A la raíz cuadrada positiva de la varianza se le llama desviación estándar o desviazaion típica, y se
le denota por la letra 𝑠
Definición 1.20 La desviación estándar de un conjunto de números 𝑥1, 𝑥2 , … , 𝑥𝑛 se denota por la
1
letra 𝑠 y se define como sigue 𝑠 = √ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛
Desviación media
Al promedio de los valores absolutos de las diferencias entre los datos y la media se le llama
desviación media.
Definición 1.21 La desviación media del conjunto de números 𝑥1 , … , 𝑥𝑛 se denota por 𝑑𝑚(𝑥) y se
calcula de la siguiente forma
1
𝑑𝑚(𝑥) = ∑𝑛𝑖=1 |𝑥𝑖 − 𝑥̅ |
𝑛
Coeficiente de variación
Esta es una cantidad con la cual se propone una forma distinta de mediar la dispersión de un
conjunto de datos numéricos.
*Recordamos que tanto la desviación estándar 𝑠(𝑥) como la media 𝑥̅ poseen las mismas unidades
de medición, por lo tanto el cociente de estas cantidades no posee unidades de medición, y luego
este numero se puede usar para comparar la dispersión de dos o mas conjuntos de datos numéricos.
Veamos una propiedad importante del coeficiente de variación
Proposición 1.8 Sea 𝑥 el conjunto de datos numéricos 𝑥1 , … , 𝑥𝑛 y sea 𝑎𝑥 + 𝑐 el conjunto de datos
trasnformados 𝑎𝑥𝑖 + 𝑐, para 𝑖 = 1,2, … , 𝑛 en donde 𝑎 ≠ 0 y 𝑐 son constantes. Entonces
|𝑎|𝑠(𝑥)
𝑐𝑣(𝑎𝑥 + 𝑐) = 𝑎𝑥̅ +𝑐
*Para el caso de datos agrupados, las cantidades 𝑠(𝑥) y 𝑥̅ se calculan como se ha indicado
anteriormente en esta situación y después se aplica directamente la fórmula de la definición
anterior.
Momentos
Las cantidades que hemos definido como media y varianza pueden generalizarse a un concepto mas
amplio llamado momento.
Definición 1.24 Sea 𝑥 una colección de observaciones 𝑥1 , … . , 𝑥𝑛 de una variable cuantitativa y sea
𝑘 ≥ 1 un numero entero. A la cantidad definida a continuación se le llama el 𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento,
o también el momento de orden 𝑘 del conjunto de datos
1
𝑚𝑘 ´(𝑥) = 𝑛 ∑𝑛𝑖=1 𝑥𝑖𝑘
*Se trata simplemente del promedio aritmético de cada uno de los datos elevados a la potencia 𝑘.
*Cada momento es una medida de cierta característica de los datos. Sin embargo, no se conoce la
característica que se esta midiendo en cada caso, únicamente se conoce para los primeros
momentos. Por ejemplo, el primer momento es la media y esta media es una medida de localización
o centralidad de los datos; el segundo momento esta relacionado con la varianza y esta es una
medida de dispersión de los datos; el tercer momento esta relacionado con la asimetría de los datos,
el cuarto momento esta relacionado con la forma de las colas de la grafica de frecuencias de los
datos, es decir de la manera en la que decae o se desvanece a cero la grafica de frecuencias en sus
dos extremos: izquierdo y derecho. Existen además otros tipos de momentos como el siguiente:
Definición 1.25 El 𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento centra, o bien el momento central de orden 𝑘 del conjunto
1
de datos numéricos 𝑥1 , … , 𝑥𝑛 es 𝑚𝑘 (𝑥) = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝑘
𝑛
*Es decir, tenemos nuevamente un promedio aritmético pero esta vez se trata de los datos
centralizados al restarles a cada uno de ellos la media 𝑥̅ .
Frecuencias
Definición 1.28 La frecuencia relativa de una clase (categoría o conjunto de valores) es el número
de veces que la clase fue observada dividiendo entre el total de observaciones.
𝑓1 𝑓
*De esta manera si 𝑓1 , … , 𝑓𝑘 son las frecuencias absolutas, entonces las cantidades ,…, 𝑘 son las
𝑛 𝑛
frecuencias relativas, suponiendo que fueron 𝑛 observaciones totales.
Definición 1.29 La frecuencia relativa acumulada de una clase (categoría o conjunto de valores) es
la suma de las frecuencias relativas anteriores e inclusive la clase en cuestión.
𝑓1 𝑓𝑗
*Es decir, la frecuencia relativa acumulada de la clase 𝐶𝑗 es la suma +. . +
𝑛 𝑛
Cuantiles
Consideremos nuevamente 𝑥1 , . . , 𝑥𝑛 en un conjunto de 𝑛 observaciones de una cierta variable
cuantitativa de interés, y que estos valores se ordenan de menor a mayor, conservando las
repeticiones. Un cuantil es un numero que separa a los datos en dos partes, un cierto porcentaje de
los datos son menores o iguales al cuantil y el porcentaje complementario corresponde a datos que
son mayores o iguales al cuantil.
*Para dar una definición mas precisa de cuantil consideraremos que 𝑝 es un numero cualquier
conocido tal que 0 < 𝑝 ≤ 1. Este valor determinara a los porcentajes de los que hablamos en el
*El coeficiente de asimetría no posee unidad de medición, es un numero que puede ser positivo,
negativo o cero. Su signo es positivo cuando la grafica de frecuencias de los datos presenta una cola
mas alargada hacia la derecha de la media. En cambio el singo del coeficiente de asimetría es
negativo cuando la gráfica de frecuencias presenta una cola mas alargada hacia la izquierda de la
media.
*El siguiente resultado muestra como se comporta el coeficiente de asimetría bajo transformaciones
lineales
Proposición 1.9 Sea 𝑠𝑘(𝑥) el coeficiente de asimetría del conjunto de datos numéricos 𝑥1 , . . , 𝑥𝑛 ,
Sean 𝑎 ≠ 0 y 𝑐 dos constantes, y considere los datos transformados 𝑎𝑥1 + 𝑐, … , 𝑎𝑥𝑛 + 𝑐. Entonces
𝑎
𝑠𝑘(𝑎𝑥 + 𝑐) = |𝑎| 𝑠𝑘(𝑥)
Curtosis
*La curtosis es un numero positivo que no tiene una cantidad de medición. Cuando una observación
𝑥𝑖 dista mucho de la media 𝑥̅ , al elevar esta distancia a la cuarta potencia hace que se magnifiquen
las distancias grandes. Por lo tanto, la curtosis grande puede indicar un mayor número de datos
alejados de la media, hacia uno u otro lado, y por ello a la curtosis se le interpreta como una media
de la forma de las colas de la distribución o del conjunto de datos. Por la expresión “colas” nos
referimos aquí a si están son amplias o bien ligeras (“inexistentes”). Es claro que, en términos de los
𝑚
momentos centrales, la curtosis puede escribirse de la siguiente manera 𝑘 = 42.
𝑚2
*El siguiente resultado muestra que la curtosis es invariante bajo transformaciones lineales.
Proposición 1.10 Sea 𝑘(𝑥) la curtosis del conjunto de datos numéricos 𝑥1 , . . , 𝑥𝑛 , sean 𝑎 ≠ 0 y 𝑐
dos constantes, y considere los datos transformados 𝑎𝑥1 + 𝑐, … , 𝑎𝑥𝑛 + 𝑐. Entonces
𝑘(𝑎𝑥 + 𝑐) = 𝑘(𝑥)
*Se debe advertir que también se denomina con el nombre de curtosis (o excess kurtosis) a la
cantidad que aparece a continuación, debido a que la curtosis de la distribución normal es igual a 3,
con esta nueva definición, la curtosis de la distribución normal es ahora cero.
1 1 𝑛
𝑘3 = ( ∑ (𝑥 − 𝑥̅ )3 ) − 3
𝑠4 𝑛 𝑖=1 𝑖
media 𝑑𝑚 = ∑ |𝑥𝑖 − 𝑥̿ |
𝑛 𝑖=1
Rango 𝑟 = 𝑥𝑛 − 𝑥1
Coeficiente de 𝑠
𝑐𝑣 =
variación 𝑥̅
Ejemplo 2.4 La siguiente función de una muestra aleatoria es una estadística y se le conoce con el
nombre de varianza muestral
1
𝑠 2 = 𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
Ejemplo 2.5 Sea 𝑘 un entero tal que 1 ≤ 𝑘 ≤ 𝑛. La 𝑘 − 𝑒𝑠𝑖𝑚𝑎 estadística de orden de una muestra
aleatoria de tamaño 𝑛 es una variable aleatoria definida de la siguiente forma
𝑋(𝑘) = 𝑘 − 𝑒𝑠𝑖𝑚𝑜 min {𝑋1 , … , 𝑋𝑛 }
*Para mayor claridad veremos algunos ejemplos de funciones de una muestra aleatoria que no son
estadísticas.
Ejemplo 2.7 Sean 𝑋1 , … , 𝑋𝑛 una muestra aleatoria de la distribución de Poisson (𝜃), en donde el
parámetro 𝜃 > 0 es conocido, la variable aleatoria 𝑇 = 𝜃 𝑋1 +⋯+𝑋𝑛 no es una estadística puesto que
en su definición aparece el parámetro desconocido 𝜃.
Ejemplo 2.8 Sea 𝑋1 , … , 𝑋𝑛 una muestra aleatoria de la distribución 𝑁(𝜇, 𝜎 2 ), en donde los
1 𝑋 −𝜇
parámetros 𝜇 y 𝜎 2 son desconocidos, La variable aleatoria 𝑇 = ∑𝑛𝑖=1 𝑖 no es una estadística
√𝑛 𝜎
puesto que en su definición aparecen los parámetros desconocidos 𝜇 y 𝜎 2 . Sin embargo, puede
demostrarse que la distribución de 𝑇 no depende de ningún parámetro desconocido, se trata de la
distribución normal estándar.
*Cuando alguna estadística se proponga o se construya con el objetivo de servir como estimador
para un parámetro desconocido 𝜃 se le denotara, de manera sugerente por 𝜃̂, y se le llamara un
estimador. EL símbolo 𝜃̂ se lee “teta circunflejo”. Aquí tenemos pues la definición
Definición 2.4 Un estimador puntual para un parámetro desconocido 𝜃 es una estadística denotada
por 𝜃̂ que se propone para estimar el parámetro.
*Observe que si 𝑥1 , … , 𝑥𝑛 son valores particulares de las variables de la muestra aleatoria, entonces
el numero 𝜃̂(𝑥1 , … , 𝑥𝑛 ) es una estimación de 𝜃, mientras que la variable aleatoria 𝜃̂ (𝑋1 , … , 𝑋𝑛 ) es
un estimador para 𝜃. Si se omiten argumentos, ambos objetos simplemente se escriben como 𝜃̂, y
puede representar tal vez con un poco de confusión, tanto una estimación como un estimador. El
contexto y la forma de tratar a 𝜃̂ determinara si nos referimos a la estimación o al estimador.
*Estas variables aleatorias se les llama momentos muestrales. En particular, el primer momento
muestral es la media muestral 𝑋̂. Ahora podemos enunciar el método de momentos.
¿En que consiste el método de momentos?
Consiste en igualar los momentos muestrales con los correspondientes momentos poblacionales y
resolver esta ecuación, o sistema de ecuaciones, para el parámetro o vector de parámetros, cuando
ello sea posible.
*Se igualan tantos momentos como parámetros haya que estimar, suponiendo que suficientes
momentos poblacionales existen para la distribución en cuestión y que son distintos de cero. El
método de momentos es muy sencillo de aplicar y lo ilustraremos a continuación con algunos
ejemplos.
Ejemplo 2.9 Sea 𝑋1 , … , 𝑋𝑛 una muestra aleatoria de la distribución 𝐵𝑒𝑟(𝜃), en donde 𝜃 es
desconocido. La estimación de 𝜃 por el método de momentos consiste en igualar el primer
momento de la distribución, que es 𝜃, con el primer momento muestral, que es 𝑋̅. Esta igualación
produce directamente la identidad 𝜃̂ = 𝑋̅
*Observe que cuando se ha hecho la igualación ya no se escribe 𝜃 sino 𝜃̂, pues resolver la ecuación
para este termino produce el estimador por el método de momentos. De esta manera si 𝑥1 , … , 𝑥𝑛 son
𝑥 +⋯+𝑥
los valores de las observaciones, entonces el promedio 𝑥̅ = 1 𝑛 𝑛 es la estimación para 𝜃 pro el
método de momentos.
Ejemplo 2.11 Encontraremos estimadores para los parámetros 𝜇, 𝜎 2 de una distribución normal
mediante el método de momentos. Como se necesitan estimar dos parámetros, se usan los dos
primeros momentos. EL primero y segundo momentos poblacionales son 𝐸(𝑋) = 𝜇 y 𝐸(𝑥 2 ) =
𝜎 2 + 𝜇2 . La igualación respectiva de estas cantidades con los dos primeros momentos muestrales
produce el sistema de ecuaciones
𝜇̂ = 𝑋̂
̂2 = 1 ∑𝑛 𝑋 2
𝜎̂2 + 𝜇 𝑖=1 𝑖𝑛
Al hacer la igualación entre los momentos hemos escrito 𝜇̂ en lugar de 𝜇 y 𝜎̂2 en lugar de 𝜎. Se trata
de resolver este sistema de ecuaciones para 𝜇̂ y 𝜎 2 . La primera ecuación es explicita, mientras que
la segunda se puede rescribir como sigue
1 1 𝑛−1
𝜎̂2 = 𝑛 ∑𝑛𝑖=1 𝑋𝑖2 − 𝑋̂2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 = 𝑛 𝑆 2
La segunda igualdad no es inmediata, pero solo se requiere llevar a cabo algunas operaciones
algebraicas sencillas para obtenerla. De esta manera hemos obtenido estimadores para el método de
momentos para los dos parámetros de la distribución normal. Si 𝑥1 , … , 𝑥𝑛 son las observaciones
obtenidas, entonces las estimaciones, por el método de momentos son
1
𝜇̂ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖
1
𝜎̂2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛
*En el ejemplo siguiente se muestran algunos problemas técnicos que pueden surgir al aplicar el
método de momentos.
Ejemplo 2.12 Sea 𝑋 una variable aleatoria continua con función de densidad 𝑢𝑛𝑖𝑓(−𝜃, 𝜃), en
donde 𝜃 > 0 es un parámetro desconocido. Aplicar el método de momentos para encontrar un
estimador para 𝜃 requiere conocer el primer momento de esta distribución. Puede comprobarse que
3
𝜃̂ = √𝑛 ∑𝑛𝑖=1 𝑋𝑖2
*Mostrados ya algunos ejemplos del método de momentos para estimar parámetros, haremos ahora
algunas observaciones generales que es bueno tener presente cuando se haga uso de este método.
- Aplicación. El método de momentos puede aplicarse sin distinción alguna tanto para
distribuciones discretas como continuas.
-Uso de los momentos. La idea fundamental del método hace uso del hecho que, bajo ciertas
condiciones, la sucesión de momentos 𝐸(𝑥), 𝐸(𝑥 2 ), … determina de manera única a la distribución
de probabilidad. En el método solo se usan los primeros pocos momentos (los necesarios para
estimar 𝜃 y de esta manera determinar completamente a la distribución, pues estamos suponiendo
que se conoce su forma). Observemos, que en general, en las expresiones de estos momentos
aparece el parámetro 𝜃. Por otro lado, la igualación de estos momentos con los momentos
muestrales no es extraña pues por la ley de los grandes números, cuando el tamaña de la muestra 𝑛
es grande, el 𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento muestral es cercano al 𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento poblacional. Por
ejemplo, para los dos primeros momentos tenemos que
1 𝑛
∑ 𝑋 ≈ 𝐸(𝑋)
𝑛 𝑖=1 𝑖
1 𝑛
∑ 𝑋2 ≈ 𝐸(𝑥 2 )
𝑛 𝑖=1 𝑖
Así los momentos muestrales son usados para determinar, de manera aproximada, la distribución de
probabilidad.
-Existencia de los momentos. El método de momentos presupone que existen y se pueden
encontrar expresiones sencillas para los momentos de la distribución en estudio, y que estas
dependen del parámetro o vector de parámetros a estimar. Estas condiciones no necesariamente se
cumplen. Por ejemplo, puede comprobarse que la siguiente distribución no posee ningún momento
finito: para 𝜃 > 0,
𝜃𝑥 −2 , 𝑠𝑖 𝑥 ≥ 0
𝑓(𝑥, 𝜃) = {
0, 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
En este caso el método de momentos no puede aplicarse
-solución al sistema de ecuaciones. El método presupone que la ecuación o sistema de ecuaciones
resultante de la igualación de los momentos muestrales y poblacionales tiene una unca solución y
que esta es sencilla de encontrar. En general, esto no es asi. Cuando se tienen dos o más parámetros,
el sistema de ecuaciones puede no ser sencillo de resolver, puesto que las ecuaciones no son
necesariamente lineales. Y suponiendo que es posible resolver el sistema de ecuaciones, las
*Como la notación lo sugiere, nos interesa estudiar esta función como función del parámetro 𝜃.
Los valores de este parámetro se encuentran en un cierto espacio muestral Θ, y ese es el dominio de
definición de la función de verosimilitud. EL parámetro desconocido 𝜃 puede tomar valores en un
conjunto discreto, o bien en todo un conjunto de valores, dependiendo de la distribución de
probabilidad considerada. Los números 𝑥1 , … , 𝑥𝑛 son tratados como constantes y son los valores
particulares de las variables aleatorias con el correspondiente subíndice.
*Observemos que en la definición no se esta suponiendo necesariamente que las variables aleatorias
𝑋1 , . . , 𝑋𝑛 constituyen una muestra aleatoria. Sin embargo, cuando sea este el caso, por la hipótesis
de independencia, la función de verosimilitud adquiere la forma del siguiente producto.
𝐿(𝜃) = 𝑓𝑋1 (𝑥1 , 𝜃) … . 𝑓𝑋𝑛 (𝑥𝑛 , 𝜃) [2.2]
Y asi ahora se usa la hipótesis de idéntica distribución, entonces se pueden omitir los subíndices de
estos factores y escribir
𝐿(𝜃) = 𝑓(𝑥1 , 𝜃) … 𝑓(𝑥𝑛 , 𝜃)
*En la mayoría de los casos consideraremos que la información proviene de una muestra aleatoria
y, por lo tanto, la ultima expresión es la que utilizaremos para la función de verosimilitud. La letra 𝐿
procede del término en inglés 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑, que tradicionalmente se ha traducido como
verosimilitud.
¿En qué consiste el método de máxima verosimilitud?
Consiste en encontrar el valor 𝜃 que maximiza a la función 𝐿(𝜃). Al valor de 𝜃 en donde 𝐿(𝜃)
alcanza su máximo se le llama estimación de máxima verosimilitud o estimación máximo verosímil.
*En el ejemplo anterior fue conveniente maximizar la expresión 𝑙𝑛𝐿(𝜃) en lugar de 𝐿(𝜃). Existe
una equivalencia entre ambas expresiones en el sentido de que el punto en donde se alcanza el
máximo de una de las funciones es el mismo que para la otra función, aunque los valores máximos
serán distintos. Observe que no nos interesa calcular el valor máximo de la función de verosímil,
sino el punto en el que alcanza ese valor máximo. Con frecuencia se usan trasformaciones de este
tipo para encontrar con mayor facilidad el punto buscado.
Por razones de simplicidad hemos escrito la función de densidad de la distribución exponencial
como 𝑓(𝑥, 𝜃 ) = 𝜃𝑒 −𝜃𝑥 , sin especificar que 𝑥 > 0. En sentido estricto, la expresion anterior se le
debe multiplicar por la función indicadora 1(0,∞) (𝑥). Esto no tuvo consecuencias en el calculo
anterior pues en esta función indicadora no aparece el parámetro 𝜃. Sin embargo, en aquellas
distribuciones en donde el soporte involucra al parámetro a estimar, es crucial incorporar al calculo
la función indicadora correspondiente.
Buscamos encontrar el punto donde esta función de dos variables alcanza su valore máximo.
Nuevamente, el algoritmo de esta función adquiere una expresión más sencilla. Tenemos que
𝑛 1
𝑙𝑛𝐿(𝜇, 𝜎 2 ) = − 2 ln(2𝜋𝜎 2 ) − 2𝜎2 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2
𝜕 𝑛 1
𝜕𝜎 2
𝑙𝑛𝐿(𝜇, 𝜎 2 ) = − 2𝜎2 + 2𝜎4 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2
Igualando ambas derivadas a cero, encontramos un sistema de dos ecuaciones con dos variables
1
∑𝑛 (𝑥 − 𝜇) = 0
𝜎 2 𝑖=1 𝑖
𝑛 1
− 2𝜎2 + 2𝜎4 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2 = 0
*Debe advertirse que la aplicación de las derivadas para encontrar el máximo de una función de
verosimilitud no siempre produce expresiones cerradas para el estimador o estimadores, como en
los casos mostrados. Por ejemplo, para la distribución 𝑔𝑎𝑚𝑚𝑎(𝛾, 𝜆), con ambos parámetros
desconocidos, se encuentra que 𝛾̂ y 𝜆̂ satisfacen ciertas ecuaciones que no son fáciles de resolver y
algún método numérico debe utilizarse.
El siguiente ejemplo muestra algunas otras dificultades técnicas que pueden surgir al buscar el
máximo de una función de verosimilitud.
Ejemplo 2.16 Consideremos dad una muestra aleatoria de tamaño 𝑛 de una distribución 𝑢𝑛𝑖𝑓(0, 𝜃),
cuya función de densidad se puede escribir como sigue
1
𝑓(𝑥, 𝜃) = 𝜃 1(0,𝜃) (𝑥)
Se puede comprobar que la función 𝐿(𝜃) es constante cero hasta el valor 𝑥(𝑛) = max 𝑥𝑖 y toma la
1
expresión después de ese valor.
𝜃𝑛
*Después de haber mostrado algunos ejemplos del método de máxima verosimilitud, haremos ahora
algunas observaciones generales sobre este interesante método para estimar parámetros.
- Aplicación. El método de máxima verosimilitud puede aplicarse sin distinción alguna, tanto para
distribuciones discretas, como continuas. Para el caso de distribuciones discretas, puede convenir
usar funciones indicadoras como exponentes para escribir la función de probabilidad como una sola
expresión sobre el soporte de la distribución. Esto se muestra a continuación.
*Supongamos ahora que 𝜃̂ es el estimador máximo verosímil para 𝜃. Si consideramos a una función
parametral 𝜏(𝜃) como un nuevo parámetro que necesita ser estimado por el método de máxima
verosimilitud, ¿Será cierto que su estimador máximo verosímil es 𝜏(𝜃)?. Para resolver esta
pregunta, observemos que no está claro cuál es la función de verosimilitud asociada a la función
parametral 𝜏(𝜃). Vamos a definir primero esta función y después daremos una respuesta a la
pregunta planteada.
Definición 2.9 La función de verosimilitud asociada a una función parametral 𝜏(𝜃) se denota por
𝐿 ∗ y se define de la forma siguiente, si 𝜂 es un posible valor de 𝜏(𝜃), entonces
-Consideremos la función parametral 𝜏(𝜃) = 𝜃 2 . En este caso la función parametral también toma
valores en el intervalo (0,1) como lo hace 𝜃 y es una función uno a uno. La función de
verosimilitud para 𝜏(𝜃) se puede escribir como sigue: Para 0 < 𝜂 < 1. 𝐿 ∗ (𝜂) = 𝐿−1 (𝜏 −1 (𝜂)) =
𝐿(√𝜂)
- Ahora consideremos la función parametral 𝜏( 𝜃) = 𝜃(1 − 𝜃). Esta función también toma valores
en (0,1), para cada uno de sus valores 𝜂, hay dos preimágenes, 𝜃1 y 𝜃2 , asi la función de
verosimilitud para 𝜏(𝜃) puede escribirse como sigue: Para 0 < 𝜂 < 1
*El siguiente resultado justifica la forma de definir la función de verosimilitud para una función
parametral, pues de esta manera se responde afirmativamente a la pregunta planteada líneas arriba.
∇ Demostración
Consideremos primero el caso cuando la función 𝜃 → 𝜏(𝜃) es uno a uno. Entonces la función
inversa de 𝜏 existe y la función de verosimilitud para 𝜏(𝜃) se puede expresar de la siguiente forma:
si 𝜂 = 𝜏(𝜃), 𝐿 ∗ (𝜂) = 𝐿(𝜏 −1 (𝜂)) = 𝐿(𝜃).
De esta manera, el máximo de 𝐿 ∗ (𝜂) coincide con el máximo de 𝐿(𝜃) y este ultimo se alcanza en
𝜃̂. Entonces 𝐿 ∗ (𝜂) alcanza su máximo en 𝜂 = 𝜏(𝜃̂).
Veamos ahora el caso cuando 𝜃 → 𝜏(𝜃) no necesariamente es una función uno a uno. Por la
identidad [2.3], el valor máximo del conjunto de valores 𝐿 ∗ (𝜂) coincide con el valor máximo de
𝐿(𝜃). Este último se alcanza en 𝜃̂. Por lo tanto, si 𝜂̂ es el valor 𝜏(𝜃̂) entonces
La última afirmación establece que 𝐿(𝜃̂) es un valor formado por la función 𝐿 ∗ (𝜂). Como 𝐿(𝜂̂ ) es
el valor máximo de 𝐿(𝜃), también es el valor máximo de 𝐿 ∗ (𝜂) y se alcanza para esta ultima
función en 𝜂 = 𝜏(𝜃̂)
Ejemplo 2.20 Los estimadores máximo verosímil para los parámetros de la distribución 𝑁(𝜇, 𝜎 2 )
𝑛−1 2
son 𝜇̂ = 𝑋̅ y 𝜎̂ 2 = 𝑆 . Por el principio de invarianza, el estimador máximo verosímil para la
𝑛
función parametral
a) 𝜇 + 5 es 𝑋̅ + 5
𝑛−1
b) 𝜇 + 𝜎 es 𝑋̅ + √ 𝑛 𝑆
𝜇 𝑛 𝑋̅
c) 𝜎2 es 𝑛−1 𝑆 2
*Una primera buena propiedad que se le puede pedir a un estimador es que su valor promedio
coincida con el parámetro a estimar. Esta idea se formaliza en la siguiente definición
Definición 2.10 Un estimador 𝜃̂ es insesgado para el parámetro 𝜃si cumple la condición 𝐸(𝜃̂) = 𝜃
*Esta es una muy buena propiedad para un estimador, pues siendo un estimador de una variable
aleatoria, y si su objetico es estimar el valor del parámetro, entonces es alentador saber que su
valor promedio es justamente el valor a estimar. En los siguientes ejemplos mostraremos que es
posible verificar esta propiedad de Insesgamiento, a pesar de no conocer el valor del parámetro.
De esta manera, sin conocer el valor de 𝜃, hemos comprobado que la esperanza del estimador 𝑋̅
es igual a 𝜃.
*Como uno puede imaginar, los estimadores insesgados no son necesariamente únicos. Pueden
proponerse varias estadísticas que resulten ser estimadores insesgados para un mismo parámetro.
Esto se muestra n el siguiente ejemplo.
Ejemplo 2.22 Sea 𝑋1 , 𝑋2 , 𝑋3 una muestra aleatoria de tamaño 𝑛 = 3 de la distribución 𝐵𝑒𝑟(𝜃), con
𝜃 > 0 desconocido. Usando la propiedad de linealidad de la esperanza, se pueden comprobar que
todos los siguientes estimadores para 𝜃 son iguales.
a) 𝜃̂1 = 𝑋1
1
b) 𝜃̂2 = 3 (𝑋1 + 2𝑋2 )
1
c) 𝜃̂3 = (𝑋1 + 2𝑋2 + 3𝑋3 )
6
1
d) 𝜃̂4 = 3 (𝑋(1) + 𝑋(2) + 𝑋(3) )
Ejemplo 2.23 Consideremos dada una muestra aleatoria de tamaño 𝑛 de la distribución 𝑁(𝜇, 𝜃),
en donde la varianza 𝜃 > 0 es desconocida y es el parámetro que nos interesa estimar. Podemos
suponer que el parámetro 𝜇 es conocido aunque esta hipótesis no es relevante en el siguiente
análisis. Recordemos que la varianza muestral es una estadística definida como sigue
1
𝑆 2 = 𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
Comprobaremos que 𝑆 2 es un estimador insesgado para 𝜃. Esta es la razón por la que aparece el
termino 𝑛 − 1 como denominador en la definición de varianza muestral, y no 𝑛, como uno
inicialmente supondría. Tenemos que
1 1
𝐸(𝑆 2 ) = 𝐸 (𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ) = 𝑛−1 ∑𝑛𝑖=1 𝐸(𝑋𝑖2 ) − 2𝐸(𝑋𝑖 𝑋̅) + 𝐸(𝑋̅ 2 ) [2.4]
𝜇2 𝑠𝑖 𝑖 ≠ 𝑗
𝐸(𝑋𝑖 𝑋̅) = {
𝜃 + 𝜇2 𝑠𝑖 𝑖 = 𝑗
*Observamos nuevamente que los cálculos anteriores son válidos para cualquier distribución con
segundo momento finito, no únicamente para la distribución normal. Hemos usado únicamente la
propiedad de la linealidad de la esperanza y las hipótesis de independencia e idéntica distribución
de las variables de la muestra aleatoria.
Así, la varianza muestral es siempre un estimador insesgado del posible parámetro o función
parametral que pudiera aparecer en la varianza de la distribución de interés. Por ejemplo, si la
distribución en cuestión es 𝑏𝑖𝑛(𝑘, 𝑝), entonces 𝑆 2 es un estimador insesgado para la función
parametral 𝑘𝑝(1 − 𝑝)
Como hemos mostrado antes, el concepto de Insesgamiento se aplica no solo para un parámetro
de una distribución de probabilidad, sino también para funciones parametrales. Aquí tenemos
entonces una extensión evidente de la definición de Insesgamiento dada anteriormente.
Definición 2.11 Sea 𝜃 un parámetro o un vector de parámetros y sea 𝜏(𝜃) una función parametral.
Una estadística 𝑇 es un estimador insesgado para 𝜏(𝜃) si
𝐸(𝑇) = 𝜏(𝜃)
*Por ejemplo hemos mostrado que la media muestral es siempre un estimador insesgado para la
media de la distribución y que la varianza muestral es insesgado para la varianza de la distribución.
Hemos mencionado en los ejemplos anteriores el caso de la distribución binomial. Podemos ahora
considerar la distribución 𝑢𝑛𝑖𝑓(𝑎, 𝑏) y afirmar que el estimador 𝑋̅ es insesgado para la función
Sea 𝜃̂ un estimador insesgado para un parámetro 𝜃 y sea 𝜙 una función dada, con dominio de
definición adecuado. Nos interesa considerar la estadística 𝜙(𝜃̂) y el problema siguiente.
2.4 Insesgamiento
2.5 Insesgamiento asintótico
2.6 Consistencia
2.7 Sesgo y error cuadrático medio
2.8 Cota inferior de Cramer-Rao
2.9 Eficiencia
2.10 Suficiencia
2.11. Suficiencia e información
2.12. Suficiencia conjunta
2.13 Suficiencia mínimal
2.14 Métodos para probar la suficiencia
2.15 Esperanza condicional
2.16 Teorema de Rao-Blackwell
2.17 Completez
2.18 Teorema de Lehmann-Scheffé
2.19 Distribuciones tipo exponencial
Calculo Avanzado I
*nota: se puede demostrar que los postulados de Peano implican todas las propiedades de los
números naturales tales como sumas, restas y productos asi como las propiedades de orden.
1.14 Información importante una vez que tengamos el conjunto ℕ de los números naturales se
define de manera formal el conjunto ℤ de los números enteros de la siguiente manera:
ℤ. = {𝑚 − 𝑛|𝑚, 𝑛 ∈ ℕ}
Lo que de manera intuitiva conocemos como ℤ = {… , −𝑛, … , −2, −1,0,1,2, … , 𝑛, … }
𝑝
1.15. Información importante El conjunto ℚ de los números racionales se define como {𝑞 | 𝑝, 𝑞 ∈
ℤ, 𝑞 ≠ 0}, los elementos de ℚ realmente son clases de equivalencia generadas por la relación
𝑝 𝑟
~ ⟺ 𝑝𝑠 = 𝑞𝑟 .
𝑞 𝑠
1.20 Observación. Aunque ya están bien definidas las cuatro operaciones aritméticas en ℚ, el
conjunto de los números racionales tiene huecos que impiden realizar algunas operaciones
naturales. En particular, no siempre es posible invertir la operación de elevación al cuadrado.
1.24 Información importante Aceptaremos como validas las operaciones usuales en ℝ tales como
sumas y productos.
1.25 Ejercicio Dado cualquier 𝑟 ∈ ℚ demostrar que el conjunto 𝑟 ∗= {𝑞 ∈ ℚ|𝑞 < 𝑟} es una
cortadura de Dedekind, misma que se llama cortadura racional.
1.26 Observación. El ejercicio anterior muestra que los números racionales también se puede
interpretar como cortaduras de Dedekind y por lo tanto ℚ ⊂ ℝ.
1.28 Información importante (asociatividad) tenemos las igualdades 𝑎 + (𝑏 + 𝑐) = (𝑎 + 𝑏) + 𝑐 y
𝑎(𝑏𝑐) = (𝑎𝑏)𝑐 ∀𝑎, 𝑏, 𝑐 ∈ ℝ.
(i) Tenemos las igualdades 𝑎 + (−1)𝑎 = 𝑎 ∗ 1 + 𝑎(−1) = 𝑎(1 + (−1)) = 𝑎 ∗ 0 = 0 de las cuales
la ultima es consecuencia de la proposición 1.38. Por la definición del inverso aditivo y su unicidad
(véase ejercicio 1.36) podemos concluir que (−1)𝑎 = −𝑎
(ii) Por la definición de inverso aditivo, tenemos que (−𝑎) + (−(−𝑎)) = 0 lo cual implica que 𝑎 =
𝑎 + 0 = 𝑎 + (−𝑎) + (−(−𝑎)) = 0 + (−(−𝑎)) = −(−𝑎) de modo que 𝑎 = −(−𝑎)
(iv) Aplicando (iii) dos veces vemos que (−𝑎)(−𝑏) = −(𝑎(−𝑏)) = −(−𝑏𝑎) = (−(−𝑎𝑏)) = 𝑎𝑏
1.47 Información importante (el orden y las sumas) Dados 𝑎, 𝑏, 𝑐 ∈ ℝ, si 𝑎 < 𝑏 entonces
𝑎+𝑐 <𝑏+𝑐
1.48 Información importante (el orden y los productos) Para todos 𝑎, 𝑏, 𝑐 ∈ ℝ si 𝑐 > 0 y 𝑎 < 𝑏,
entonces 𝑎𝑐 < 𝑏𝑐
1.49 Acuerdo Observe que el orden formal solo se denota con el símbolo <. De modo que 𝑎 > 𝑏
significa 𝑏 < 𝑎.
1.50 Proposición Para todos 𝑎, 𝑏 ∈ ℝ tenemos que 𝑎 < 𝑏 si y solamente si 𝑏 − 𝑎 > 0
∇Demostración
Supongamos que 𝑏 − 𝑎 > 0, entonces 𝑏 − 𝑎 + 𝑎 > 0 + 𝑎 por la información 1.47. De aquí se sigue
que 𝑏 > 𝑎 pues 𝑏 − 𝑎 + 𝑎 = 𝑏 y 0 + 𝑎 = 𝑎 con lo que queda demostrada la suficiencia
Ahora si 𝑎 < 𝑏 entonces 𝑎 + (−𝑎) < 𝑏 + (−𝑎) por la información 1.47, como 𝑎 + (−𝑎) = 0 y
𝑏 + (−𝑎) = 𝑏 − 𝑎 entonces concluimos que 𝑏 − 𝑎 > 0 con lo que hemos probado la necesidad.
1.51 Proposició0n Supongamos que 𝑎, 𝑏 ∈ ℝ y 𝑎 < 𝑏, entonces 𝑎𝑐 > 𝑏𝑐 para todo 𝑐 ∈ ℝ y 𝑐 < 0
∇ Demostración
Se sigue de 𝑐 < 0 que 0 = 𝑐 − 𝑐 < 0 − 𝑐 = −𝑐 y por lo tanto −𝑐 > 0. Aplicando la información
1.48 vemos que (−𝑐)𝑎 < (−𝑐)𝑏. Aplicando la proposición 1.39 concluimos que −𝑎𝑐 < −𝑏𝑐, si
sumamos 𝑎𝑐 en ambos lados resulta 𝑎𝑐 − 𝑎𝑐 < 𝑎𝑐 − 𝑏𝑐 lo que es 0 < 𝑎𝑐 − 𝑏𝑐, finalmente al sumar
𝑏𝑐 en ambas partes tenemos que 0 + 𝑏𝑐 < 𝑎𝑐 − 𝑏𝑐 + 𝑏𝑐 lo que es 𝑏𝑐 < 𝑎𝑐 con lo que hemos
demostrado lo prometido ∎.
0>1
Esto claramente es una contradicción, concluimos que la desigualdad de Bernoulli no se cumple en
𝑎
este caso. Ahora bien, si tomamoms 𝑥 = 2 y 𝑛 = 2 podemos demostrar que 𝑎2 siempre es mayor
que cero para cualquier numero real 𝑎 ≠ 0:
2
𝑎 𝑎
(1 + (2 )) > 1 + 2(2 )
𝑎
(1 + 2 ) > 1 + 𝑎
𝑎2
1+ 4
+a>1+a
𝑎2
> 0 “ahora multiplicando ambos lados por 4 se obtiene”
4
𝑎2 > 0
Con lo que queda demostrada nuestra proposición como se prometió ∎.
1.53 Información importante (Principio de inducción matemática).
Es una consecuencia del último postulado de Peano que tiene la siguiente propiedad para cualquier
conjunto 𝐴 ⊂ ℕ: Si 𝑘 ∈ 𝐴 y para todo 𝑛 ∈ 𝐴, 𝑛 ≥ 𝑘 se sabe que 𝑛 + 1 ∈ 𝐴, entonces 𝐴 = {𝑛 ∈
ℕ: 𝑛 ≥ 𝑘}
1.54 Información importante EL principio de inducción matemática se utiliza para demostrar
afirmaciones que dependen de los números naturales. Si se tiene una afirmación 𝑃(𝑛) que se
cumple para 𝑛 = 𝑘 y se puede demostrar que para todo 𝑛 ≥ 𝑘 que 𝑃(𝑛) implica 𝑃(𝑛 + 1) entonces
𝑃(𝑛) se cumple para cualquier 𝑛 ≥ 𝑘. LA demostración de 𝑃(𝑘) se llama base de inducción y la
demostración de que 𝑃(𝑛) ⟹ 𝑃(𝑛 + 1) se llama el paso inductivo.
1.58 Definición
𝑛 𝑛! 𝑛
Dados 𝑛. 𝑘 ∈ ℕ ∪ {0} tales que 𝑛 ≥ 𝑘 hagamos ( ) = 𝑘!(𝑛−𝑘)!. Los números ( ) se llaman
𝑘 𝑘
𝑛
coeficientes Binomiales; son importantes en combinatoria ya que ( ) es el número de subconjuntos
𝑘
de 𝑘 elementos de un conjunto de 𝑛 elementos.
1.59 Proposición
Supongamos que 𝑛, 𝑘 ∈ ℕ0 y 𝑘 ≤ 𝑛. Entonces
𝑛 𝑛
(a) ( ) = ( ) = 1
0 𝑛
𝑛 𝑛
(b) ( ) = ( )
𝑘 𝑛−𝑘
𝑛 𝑛 𝑛−1
(c) Si 𝑘 > 0 entonces ( ) = 𝑘 ( )
𝑘 𝑘−1
Las demostraciones de lo anterior son elementales y por lo tanto no se harán, solo hay que usar las
definiciones para llegar a los resultados.
1.60 Teorema (el Binomio de Newton) Dados cualesquiera 𝑎, 𝑏 ∈ ℝ y 𝑛 ∈ ℕ tenemos (𝑎 + 𝑏)𝑛 =
𝑛
∑𝑛𝑘=0 ( ) 𝑎𝑛−𝑘 𝑏 𝑘
𝑘
La demostración se hace por inducción sobre 𝑛
∇ Demostración (Combinatoria)}
Sea (𝑎 + 𝑏)𝑛 podemos expresarla como (𝑎 + 𝑏)𝑛 = (𝑎 + 𝑏)(𝑎 + 𝑏) … (𝑎 + 𝑏) es decir, 𝑛
expresiones del tipo (𝑎 + 𝑏) multiplicándose, de esta manera podemos obtener cada termino
eligiendo 𝑘 términos de 𝑏 y los restantes términos de 𝑎, el numero de formas de elegir 𝑘 términos
de 𝑏 de los 𝑛 factores es igual al número de combinaciones de 𝑛 elementos tomados 𝑘 a la vez, que
se denota 𝐶(𝑛, 𝑘). Por tanto, el coeficiente de términos 𝑎𝑘 𝑏 𝑛−𝑘 es 𝐶(𝑛, 𝑘), por lo tanto, podemos
escribir la expansión completa del Binomio de Newton como (𝑎 + 𝑏)𝑛 = 𝐶(𝑛, 0)𝑎𝑛 𝑏 0 + ⋯ +
𝐶(𝑛, 𝑛)𝑎0 𝑏𝑛 lo que justo demuestra el teorema como se prometió. ∎
1.61 Definición Dado un conjunto 𝐴 ⊂ ℝ, se dice que 𝑥 ∈ ℝ es una cota superior para 𝐴 si 𝑎 ≤ 𝑥
para toda 𝑎 ∈ 𝐴. Un punto 𝑦 ∈ ℝ es cota inferior para 𝐴 si 𝑦 ≤ 𝑎 para cualquier 𝑎 ∈ 𝐴.
1.62 Definición Un conjunto 𝐴 ⊂ ℝ se llama superiormente acotado si existe una cota superior. Se
dice que 𝐴 es inferiormente acotado si 𝐴 tiene una cota inferior. El conjunto 𝐴 es acotado si es
acotado inferiormente y acotado superiormente al mismo tiempo.
1.63 Ejercicio Demostrar que un conjunto 𝐴 ⊂ ℝ es acotado si y solo si existe 𝐾 > 0 tal que |𝑥| ≤
𝐾 para todo 𝑥 ∈ 𝐴
∇ Demostración
Supongamos que 𝐴 es un conjunto acotado en ℝ. Entonces, por definición, existe un número real 𝑀
tal que |𝑥| ≤ 𝑀 ∀𝑥 ∈ 𝐴, podemos tomar 𝐾 = 𝑀 + 1, que es un numero real positivo. Entonces para
todo 𝑥 ∈ 𝐴 tenemos
|𝑥| ≤ 𝑀 < 𝑀 + 1 = 𝐾
1.69 Teorema (principio del buen orden) Si 𝐴 ⊂ ℕ es un conjunto no vacío, entonces existe un
elemento mínimo en 𝐴.
∇Demostración
(1) 𝑥 − 𝑦 ≥ 1 para cualesquiera 𝑥, 𝑦 ∈ 𝐴 tales que 𝑦 < 𝑥.
En efecto, como 𝑥 y 𝑦 son números enteros, se sigue de 𝑦 < 𝑥 que 𝑦 + 1 ≤ 𝑥 de lo cual se deduce
la propiedad (1). El conjunto 𝐴 es inferiormente acotado ya que 𝑥 ≥ 1 para todo 𝑥 ∈ 𝐴.Por el
teorema de la existencia de infimo (véase corolario 1.67) existe 𝑎 = inf (𝐴). Si 𝑎 ∉ 𝐴, entonces
1
existe 𝑥 ∈ 𝐴 tal que 𝑥 < 𝑎 + 2. Como supusimos que 𝑎 ∉ 𝐴 tenemos que 𝑎 < 𝑥 y por lo tanto existe
1 1 1
𝑦 ∈ 𝐴 tal que 𝑦 < 𝑥. De modo que 𝑎 < 𝑦 < 𝑥 < 𝑎 + 2 por lo cual 𝑎 𝑦 − 𝑥 < 𝑎 + 2 − 𝑎 = 2; esta
∇ Demostración
1 1
Por el teorema 1.70 existe 𝑛 ∈ ℕ tal que 𝑛 > 𝜖. De aquí 𝑛 < 𝜖 ∎
1.72 Teorema Dados 𝑛 ∈ ℕ y 𝑎 > 0 existe un único 𝑥 > 0 tal que 𝑥 𝑛 = 𝑎. Dicho 𝑥 se denota por
1
𝑛
𝑎𝑛 ó √𝑎
1.73 Teorema (Densidad de los racionales)
Si 𝑎, 𝑏 ∈ ℝ y 𝑎 < 𝑏, entonces existe un numero 𝑞 ∈ ℚ ∩ (𝑎, 𝑏)
1.74 Teorema (Densidad de los irracionales)
Si 𝑎, 𝑏 ∈ ℝ y 𝑎 < 𝑏 entonces existe un numero irracional 𝑎 ∈ (𝑎, 𝑏)
∇ Demostración
Aplicando el teorema 1.72 nos convencemos de que el numero √2 existe y es irracional por la
𝑎 𝑏 𝑎 𝑏
proposición 1.21. Por el teorema 1.73 existe un numero racional 𝑞 ∈ ( , ), de aquí <𝑞<
√2 √2 √2 √2
𝑟
y por lo tanto 𝑎 < √2𝑞 < 𝑏. Si el numero 𝑟 = 𝑞√2 fuera racional, entontes √2 = seria también
𝑞
racional siendo el cociente de dos números racionales. Esta contradicción muestra que 𝑟 es
irracional; como también 𝑟 ∈ (𝑎, 𝑏), por lo que nuestro teorema queda demostrado ∎
1.75 Recordatorio Dados conjuntos 𝐴 y 𝐵, una función 𝑓: 𝐴 → 𝐵 se llama inyectiva (o inyeccion)
si para cualquier par de puntos distintos 𝑥, 𝑦 ∈ 𝐴 tenemos que 𝑓(𝑥) ≠ 𝑓(𝑦)
La función 𝑓 es sobreyectiva (o suprayectiva o es una sobreyeccion o una suprayección) si 𝑓(𝐴) =
𝐵, es decir, para todo 𝑏 ∈ 𝐵 existe 𝑎 ∈ 𝐴 tal que 𝑓(𝑎) = 𝑏. La función 𝑓 es biyectiva (o es una
biyección), si es inyectiva y sobreyectiva al mismo tiempo
1.76 Ejercicio Probar que la composición de dos inyecciones es una inyección
∇ Demostración
Para demostrar que cualquier conjunto finito es numerable, podemos utilizar el siguiente
argumento
Sea 𝑆 un conjunto finito. Podemos etiquetar los elementos de 𝑆 de manera única con números
naturales, por ejemplo comenzando con 1 y terminando con 𝑛 para algún 𝑛 ∈ ℕ donde 𝑛 es el
numero total de elementos de 𝑆. De esta manera, cada elemento de 𝑆 esta asociado con un
numero natural.
Por lo tanto, podemos construir una función uno a uno y sobre de 𝑆 hasta los números naturales
𝑓: 𝑆 → ℕ, donde a cada elemento en 𝑆 se le asigna un numero natural distinto. De esta forma,
podemos establecer una correspondencia entre los elementos de 𝑆 y los números naturales. Como
cualquier conjunto finito 𝑆 puede ser etiquetado de esta manera, podemos concluir que todo
conjunto finito es numerable como se prometió ∎
∇Demostración
En cuanto a la necesidad, supongamos que 𝐴 es un conjunto numerable y por lo tanto existe una
sobreyeccion 𝑔: ℕ → 𝐴. Para todo 𝑎 ∈ 𝐴 existe 𝑛𝑎 ∈ ℕ tal que 𝑔(𝑛𝑎 ) = 𝑎 ; hagamos 𝑓(𝑎) = 𝑛𝑎 .
De modo que tenemos una función 𝑓: 𝐴 → ℕ. Si 𝑓(𝑎) = 𝑓(𝑏), entonces 𝑛𝑎 = 𝑛𝑏 y por nuestra
elección de los números 𝑛𝑎 y 𝑛𝑏 tenemos que 𝑎 = 𝑔(𝑛𝑎 ) = 𝑔(𝑛𝑏 ) = 𝑏 por lo tanto 𝑓 es una
inyeccion, con esto queda demostrada la necesidad ∎
1.83 Ejercicio Demostrar que un conjunto no vacío 𝐴 es finito si y solo si existe una inyeccion
𝑓: 𝐴 → {1,2,3, … , 𝑛} para algún 𝑛 ∈ ℕ.
∇ Demostración
Primero, supongamos que 𝐴 es finito. Entonces, podemos etiquetar los elementos de 𝐴 con
números naturales distintos, digamos 𝑎1 , … , 𝑎𝑛 donde 𝑛 es el número de elementos de 𝐴. Ahora
podemos definir una función 𝑓: 𝐴 → {1,2,3, … , 𝑛} que asigna cada elemento de 𝐴 a su respectico
Por otro lado, supongamos que existe una inyeccion 𝑓: 𝐴 → {1,2,3 … , 𝑛} para algún 𝑛 ∈ ℕ. Como
𝑓 es inyectiva, cada elemento de 𝐴 se asigna a un único número de {1,2, … , 𝑛}. Por lo tanto 𝐴 no
puede tener mas de 𝑛 elementos, de lo contrario habría dos elementos de 𝐴 que se asignarían al
mismo número por la función inyectiva 𝑓, lo cual es una contradicción. Por lo tanto 𝐴 tiene a lo
sumo 𝑛 elementos, lo que significa que 𝐴 es finito lo que demuestra la suficiencia y en general
nuestra proposición. ∎
∇ Demostración
(a) Supongamos que 𝐴 es un conjunto finito y 𝐵 ⊂ 𝐴. Entonces podemos etiquetar los elementos
de 𝐴 con números naturales distintos, digamos 𝑎1 , … , 𝑎𝑛 donde 𝑛 es la cardinalidad de 𝐴. Como 𝐵
es subconjunto de 𝐴, cada elemento de 𝐵 tambien esta en 𝐴 y por lo tanto, podemos etiquetar los
elementos de 𝐵 con los mismos números naturales 𝑎1 , … 𝑎𝑛 . Por lo tanto 𝐵 tiene a lo más 𝑛 − 1
elementos y entonces 𝐵 es finito.
(b) Supongamos que existe una sobreyeccion 𝑓: 𝐴 → 𝐶, donde 𝐴 es un conjunto finito. Entonces
cada elemento de 𝐶 es imagen de al menos un elemento de 𝐴 a través de 𝑓. Como 𝐴 es finito,
existen 𝑛 elementos distintos en 𝐴. Por lo tanto, existen a lo sumo 𝑛 elementos de 𝐴. Por lo tanto
𝐶 es finito.
(c) Supongamos que existe una inyeccion 𝑓: 𝐷 → 𝐴, donde 𝐴 es un conjunto finito. Como 𝑓 es
inyectiva, cada elemento de 𝐷 se asigna a un elemento diferente de 𝐴 a través de 𝑓. Como 𝐴 tiene
𝑛 elementos distintos, 𝑓(𝐷) tiene como máximo 𝑛 elementos distintos. Pero 𝑓(𝐷) es un
subconjunto de 𝐴 por lo tanto, 𝐷 también tiene como máximo 𝑛 elementos distintos. Por lo tanto,
𝐷 es finito.
∇Demostración
(b) Como 𝐴 es numerable, existe una función biyectiva 𝑓: ℕ → 𝐴. Dado que 𝑓 es una sobreyeccion
de 𝐴 en 𝐶, podemos construit una función 𝑔: ℕ → 𝐶 definida como 𝑔(𝑛) = 𝑓(𝑛) para toda 𝑛 ∈ ℕ.
Como 𝑓 es sobreyectiva, para cada elemento 𝑐 ∈ 𝐶 existe al menos un numero natural 𝑓(𝑛) = 𝑐.
Por lo tanto 𝑔 es una función sobreyectiva de ℕ en 𝐶, lo que significa que 𝐶 es numerable.
(c) Como 𝐴 es numerable, existe una función biyectiva 𝑓: ℕ → 𝐴. Como 𝑓 es inyectiva, la función
inversa existe y también es una función inyectiva de 𝐴 en ℕ. Dado que 𝑓(𝐷) es subconjunto de 𝐴.
Podemos definir una función 𝑓: 𝐷 → ℕ como 𝑔(𝑑) = 𝑓 −1 (𝑓(𝑑)). Esta función 𝑔 es inyectiva lo
que significa que 𝐷 es numerable.
∇ Demostración
Sea 𝐴𝑖 = {𝑎1𝑖 , 𝑎2𝑖 , … , 𝑎𝑚𝑖 } es un conjunto finito con 𝑚𝑖 elementos para cada 1 ≤ 𝑖 ≤ 𝑛
𝑖
𝐴 = 𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 = {𝑎11 , 𝑎21 , … , 𝑎𝑚1 } ∪ {𝑎12 , 𝑎22 , … , 𝑎𝑚2 } ∪ … ∪ {𝑎1𝑛 , 𝑎2𝑛 , … , 𝑎𝑚𝑖𝑛 }. Con lo
𝑖 𝑖
que entonces podemos construir un conjunto 𝐵 = {𝑎11 , 𝑎21 , … , 𝑎𝑚1 } ∪ {𝑎12 , 𝑎22 , … , 𝑎𝑚2 } ∪ … ∪
𝑖 𝑖
{𝑎1𝑛 , 𝑎2𝑛 , … , 𝑎𝑚𝑖𝑛 }, que justo coincide con el conjunto 𝐴
1.87 Teorema Dada una familia de conjuntos {𝐴𝑛 : 𝑛 ∈ ℕ},supongamos que cada 𝐴𝑛 es numerable.
Entonces el conjunto 𝐴 =∪ {𝐴𝑛 : 𝑛 ∈ ℕ} también es numerable.
Construir la demostración
∇ Demostración
∇ Demostración
Se sigue de (1) que 𝐴 es acotado por lo que existe 𝑥 = sup (𝐴) por el principio del supremo (véase
información 1.66). Para todo 𝑛 ∈ ℕ, el numero 𝑏𝑛 es una cota superior para 𝐴 mientas que 𝑥 es la
mínima cota superior para 𝐴; esto implic que 𝑥 ≤ 𝑏𝑛 . Por la definición del supremo 𝑎𝑛 ≤ 𝑥 y por
lo tanto 𝑎𝑛 ≤ 𝑥 ≤ 𝑏𝑛 , es decir 𝑥 ∈ [𝑎𝑛 , 𝑏𝑛 ] para cualquier 𝑛 ∈ ℕ mismo que muestra que 𝑥 ∈∩
{[𝑎𝑛 , 𝑏𝑛 ]: 𝑛 ∈ ℕ} por lo cual ∩ {[𝑎𝑛 , 𝑏𝑛 ]} ≠ ∅ como se prometió ∎
Construir la demostración
∇ Demostración
SI ℝ fuera numerable, seria numerable el intervalo (0,1) ⊂ ℝ por el ejercicio 1.85. Esta
contradicción con el teorema 1.91 muestra que ℝ no es numerable.
∇ Demostración
Supongamos que ℝ\ℚ es numerable. El corolario 1.89 implica que el conjunto ℚ también es
numerable. Hagamos 𝐴1 = ℝ \ℚ, 𝐴2 = ℚ y 𝐴𝑛 = ∅ para todo 𝑛 > 2. Entonces cada 𝐴𝑛 es
numerable y ℝ =∪ {𝐴𝑛 : 𝑛 ∈ ℕ} asi que ℝ es numerable según el teorema 1.87. Esta contradicción
con el corolario 1.92 demuestra que ℝ\ℚ no es numerable como se prometió ∎
∇ Demostración
Si exp (ℕ) es numerable, entonces podemos representarlo como exp(ℕ) = {𝐴𝑛 : 𝑛 ∈ ℕ} por la
observación 1.81. Si 𝐵 = {𝑛 ∈ ℕ: 𝑛 ∉ 𝐴}, entonces 𝐵 es un subconjunto de ℕ y por lo tanto 𝐵 =
𝐴𝑚 para algún 𝑚 ∈ ℕ. Tenemos dos posibilidades
Caso 1. 𝑚 ∈ 𝐵. Entonces 𝑚 ∈ 𝐴𝑚 = 𝐵 por lo cual 𝑚 ∉ 𝐵 por la definición de 𝐵, esta
contradicción muestra que este caso es imposible.
2. Sucesiones numéricas
2.1 Sucesiones en ℝ y su convergencia. Propiedades aritméticas del límite.
2.2 Sucesiones monótonas. Puntos de acumulación
2.3 Sucesiones de Cauchy. Teorema de Bolzano Weierstrass
2.4 Límite superior e inferior. Convergencia de sucesiones clásicas
2.1 Definición Una sucesión en ℝ es una función 𝑥: ℕ → ℝ. Normalmente, 𝑥(𝑛) se denota por 𝑥𝑛
para todo 𝑛 ∈ ℕ. La imagen de la función 𝑥 es el conjunto 𝑥(ℕ) = {𝑥𝑛 : 𝑛 ∈ ℕ}. La sucesión dada
por 𝑥 tradicionalmente de denota por (𝑥)𝑛 . Los números 𝑥𝑛 se llaman términos de la sucesión (𝑥)𝑛 .
Una sucesión (𝑥)𝑛 se llama finita si el conjunto {𝑥𝑛 : 𝑛 ∈ ℕ} es finito.
2.2 Ejemplos
(a) SI tenemos la sucesión (1,1,1, … ,1, … ) que consiste de puros unos, entonces 𝑥𝑛 = 1 para todo
𝑛 ∈ ℕ. Una sucesión cuyos términos son iguales se llama constante.
(b) SI nos fijamos en la sucesión (1,-1,1,-1,1,-1,…) en la cual se alternan los unos y los menos unos,
es fácil ver qur 𝑥𝑛 = (−1)𝑛+1 para todo 𝑛 ∈ ℝ.
1 1 1
(c) La sucesión (1, , , … , ,…) ya no es tan trivial como las dos anteriores pero tampoco es
2 3 2020
1
difícil adivinar que 𝑥𝑛 = 𝑛
para todo 𝑛 ∈ ℕ.
(d) La sucesión (1,2,3, … ,2020, … ) es un ejemplo de coincidencia del termino de la sucesión con el
subíndice, es decir, 𝑥𝑛 = 𝑛 para todo 𝑛 ∈ ℕ.
(e) Si tenemos ejemplos de sucesiones que provienen de problemas reales, entonces ya no es tan
ln (𝑛)
fácil ver cómo es e comportamiento de la sucesión, Por ejemplo, si 𝑥𝑛 = para todo 𝑛 ∈ ℕ
𝑛
entonces hace falta un esfuerzo para probar que sus términos pueden ser tan chiquitos como
queramos o, por ejemplo 𝑥𝑛 < 1 para todo 𝑛 ∈ ℕ.
2.3 Recordatorio Recordar que |𝑎| = 𝑎 si 𝑎 ≥ 0 y |𝑎| = −𝑎 si 𝑎 < 0
2.4 Ejercicio Dado cualquier 𝑎 ∈ ℝ, demostrar que
(b) Por definición, el valor absoluto de cualquier número real 𝑎 es su distancia a cero en la recta
real, lo que significa que |𝑎| siempre es mayor o igual que cero. Entonces, al elevar al cuadrado
ambos lados de la ecuación, obtenemos
|𝑎|2 = (|𝑎|)2 = 𝑎2 donde la última igualdad se sigue de la definición del valor absoluto.
Además, como 𝑎2 es un numero positivo o cero, su raíz cuadrada es también un numero positivo o
cero. Por lo tanto |𝑎| = √𝑎2
(c) Por definición, el valor absoluto de cualquier número real 𝑎 es igual a su distancia a cero en la
recta real. Esto significa que si 𝑎 esta a uns distancia 𝑥 del cero, entonces −𝑎 esta a una distancia 𝑥
del cero, pero en la dirección opuesta. Por lo tanto |𝑎| = | − 𝑎|
(d) Por definición, el valor absoluto de cualquier número real 𝑎 es igual a su distancia a cero en la
recta real. Entonces, 𝑎 esta a una distancia |𝑎| de cero. Pero esto dignifica que 𝑎 puede ser un
numero positivo, cero o negativo, siempre y cuando este entre −|𝑎| y |𝑎|, entonces −|𝑎| ≤ 𝑎 ≤ |𝑎|.
Con lo que hemos demostrado nuestro ejercicio como se prometió ∎
2.5 Ejercicio Dados cualesquiera 𝑎, 𝑏 ∈ ℝ demostrar que;
(a) |𝑎 − 𝑏| es la distancia entre los puntos 𝑎 y 𝑏
(b) |𝑎 + 𝑏| ≤ |𝑎| + |𝑏|
(c) |𝑎𝑏| = |𝑎||𝑏|
𝑎 |𝑎|
(d) Si 𝑏 ≠ 0, entonces | | =
𝑏 |𝑏|
∇ Demostración
(a) Por definición, la distancia entre dos puntos 𝑎 y 𝑏 en la recta real es |𝑎 − 𝑏| pues recordemos
que la distancia entre el cero y un numero real es |𝑎 − 0|, el valor absoluto nos regresa la longitud
del segmento que conecta los puntos 𝑎 y 𝑏.
(b) Podemos demostrar la desigualdad de la siguiente forma, usando la desigualdad del triangulo
para el valor absoluto
|𝑎 + 𝑏| = |𝑎 − (−𝑏)| ≤ |𝑎| + |−𝑏| = |𝑎| + |𝑏|
2.11 Ejemplos
(a) Si 𝑎 ∈ ℝ y 𝑥𝑛 = 𝑎 para todo 𝑛 ∈ ℕ, entonces 𝑥𝑛 → 𝑎
(b) Si 𝑥𝑛 = (−1)𝑛+1 para todo 𝑛 ∈ ℕ, entonces 𝑥𝑛 diverge.
1
(c) Si 𝑥𝑛 = 𝑛 para cada 𝑛 ∈ ℕ entonces 𝑥𝑛 → 0
∇ Demostración
(a) Dado cualquier 𝜖 > 0, podemos hacer 𝑚 = 1. Si 𝑛 ≥ 𝑚. Entonces |𝑥𝑛 − 𝑎| = |𝑎 − 𝑎| = 0 < 𝜖
asi que 𝑚 es testigo que 𝑥𝑛 → 𝑎.
(b) Si (𝑥𝑛 ) es convergente, entonces existe 𝑎 ∈ ℝ tal que 𝑥𝑛 → 𝑎. De acuerdo a la definición, para
1 1
𝜖 = existe 𝑚 ∈ ℕ tal que |𝑥𝑛 − 𝑎 | < para todo 𝑛 ≥ 𝑚 . Si 𝑛 = 2𝑚, entonces 𝑛 > 𝑚 y 𝑥𝑛 =
3 3
1 1
(−1)2𝑚+1 = −1 asi que |−1 − 𝑎| < mismo que es equivalente a |1 + 𝑎| < . SI 𝑛 = 2𝑚 + 1,
3 3
1
entonces 𝑛 > 𝑚 y por lo tanto |𝑥𝑛 − 𝑎| = |1 − 𝑎| < . De modo que. |2| = |1 − 𝑎 + 1 + 𝑎| ≤
3
1 1 2
|1 − 𝑎| + |1 + 𝑎| < + = lo cual es una contradicción. Por lo tanto la sucesión 𝑥𝑛 no es
3 3 3
convergente.
1
(c) Tomemos cualquier 𝜖 > 0. Por el corolario 1.71 existe 𝑚 ∈ ℕ tal que 𝑚 < 𝜖. Sí 𝑛 ≥ 𝑚,
1 1 1
entonces |𝑥𝑛 − 0| = |𝑛 − 0| = 𝑛 ≤ 𝑚 < 𝜖, esto prueba que 𝑥𝑛 → 0
(d) Supongamos que 𝑥𝑛 converge a algún numero 𝑎. Entonces para 𝜖 = 1 existen 𝑚 ∈ ℕ tal que
Escriba aquí la ecuación.
3. Series Numéricas
3.1 Convergencia de series numéricas. Convergencia absoluta.
3.2 Condiciones suficientes de Cauchy y de dÁlembert para convergencia absoluta.
Álgebra Lineal I
Álgebra Lineal II
Teoría de grupos
Capítulo 1 “Simetrías y operaciones binarias”
En el principio fueron permutaciones de raíces de polinomios, como Galois, o permutaciones de cualquier
conjunto finito con en Cauchy. Todos los primeros practicantes trabajaban con grupos de permutaciones hasta
que el final del siglo XIX los alcanzó y Frobenius ya estaba listo para definir un grupo abstracto por medio de
una lista de axiomas. Además de los grupos de permutaciones, la Geometría con la entendió Klein, aparece en
este contexto y encontramos grupos actuando sobre objetos geométricos y una geometría se define por los
La idea de simetría está presente en varios contextos; en las artes plásticas (pintura, escultura, arquitectura),
de donde en algunos casos es obvia, por ejemplo, en el diseño de algunas construcciones- Iglesias o catedrales
con sus dos torres, acueductos con sus arcos repetidos, etc. Un ejemplo inmediato este dado por las simetrías
de la figura humana, como es manifiesto con el conocido dibujo de Leonardo Da Vinci sobre las proporciones
del cuerpo humano
Es fácil encontrar ejemplos en las artes plásticas, de cómo el artista aprovecha la simetría para crear objetos
de arte. Los frisos de Mitla en Oaxaca, o las decoraciones de edificios construidos por los árabes en la España
morisca comparten una misma fuente geométrica. Sin embargo, aunque no tan obvio como los ejemplos
anteriores, también la idea de simetría está presente en otras de las artes; en la música, por ejemplo, en el
contrapunto (fugas especulares, cánones, etc.). El lector puede pensar en cómo la idea de simetría también se
usa en la literatura, en ocasiones en forma sutil. Ahora, una vez convencidos de la ubicuidad de la idea de
simetría, su aparente simplicidad no ayuda a entenderla, es decir, ¿Cómo podríamos definir el concepto de
simetría, que aparentemente es claro y evidente hasta que pensamos en cómo definirlo y en ese momento se
vuelve elusivo y ya no es tan evidente?
Un primer enfoque seria pensar a un objeto simétrico como aquel que no cambia cuando lo movemos de unas
ciertas formas. Para comenzar debemos aclarar que mover no necesariamente quiere decir mover en el sentido
físico.
Lo primero que debemos observar es que el movimiento o cambio es algo que infligimos en un objeto dado.
Esto implica que al objeto lo sujetamos a cierta acción.
Ejemplo1
Con vértices etiquetados por 1,2,3 y 4. Si queremos ver las simetrías de este
cuadrado, lo que deseamos ver es cuales movimientos o cambios llevan al
cuadrado en si mismo. Lo primero que observamos es que basta ver que
movimientos o cambios llevan un vértice al otro ya que con esto es suficiente para
que el cuadrado no cambie. Las acciones sobre el cuadrado que lo mantienen sin cambio son:
𝜋 3𝜋
-Rotaciones 𝑟𝜃 por ángulos 𝜃 = . 𝜋, , 2𝜋, etcétera. EN general rotaciones por ángulos que son múltiplos
2 2
𝜋 𝑛𝜋
enteros de . Note que al rotar 2𝜋 es lo mismo que rotar 0°. También que si 𝑛 ≥ 0 es un entero, al rotar
2 2
basta considerar rotaciones para 𝑛 = 0,1,2,3 ya que los otros ángulos repiten las ubicaciones de los vértices
del cuadrado. Así básicamente hay 4 rotaciones que dejan invariante al cuadrado.
-Reflexiones con respecto a los ejes coordenados X e Y, con respecto a las dos rectas a 45° y 135° por el
origen de ℝ2 . Hay 4 reflexiones: con respecto al eje X, denotaremos la reflexión 𝑝𝑥 , con respecto al eje Y
denotaremos la reflexión por 𝑝𝑦 . Con respecto a las dos rectas de 45° y 135° denotaremos las reflexiones por
𝑝1 y 𝑝2 respectivamente.
Veamos las acciones anteriores (rotaciones y reflexiones actuando sobre el cuadrado que estamos
considerando, al que denotaremos por 𝐶.)
-Para la rotación 𝑟0 , esta rotación no hace nada. La llamaremos la acción neutra o identidad y la denotaremos
por el símbolo 𝑒.
𝑟𝜋
2
𝑟𝜋
𝑝1
𝑟𝜋 𝑝𝑦
2
Unos cálculos sencillos nos convencerán de que las simetrías del cuadrado 𝐶 están dadas por las acciones
Simetrías. La discusión anterior nos lleva a las ideas siguientes, que son necesarias para entender el concepto
de simetría. Se tiene un conjunto de objetos al que denotaremos por 𝐴, también se tiene un conjunto no vacío
𝐺, cuyos elementos llamaremos simetrías junto con una función 𝐺𝑥𝐴 → 𝐴 que asigna a cada par ordenado
1) Para cada elemento 𝜎 ∈ 𝐺 y cada 𝑎 ∈ 𝐴 se tiene que, la acción 𝜎 en 𝑎 denotada por 𝜎 ∗ 𝑎 es otro objeto de
𝐴.
2) Debe haber una manera de operar o componer dos elementos cualesquiera de 𝐺, es decir, si 𝜎 y 𝜏 son dos
elementos de 𝐺, debe existir otro elemento 𝜎°𝜏 en 𝐺. También el conjunto 𝐺 debe contener un elemento 𝑒 el
cual tiene la función de identidad, es decir que compuesto con cualquier otro elemento de 𝐺 no le haga nada.
Hay otras propiedades de la operación de 𝐺 que también necesitaremos pero esperaremos hasta el siguiente
capitulo, por ahora solo nos interesa la manera de operar °.
Con esto a la mano podemos ya definir el concepto de simetría. Dado un objeto 𝑎 ∈ 𝐴, diremos que
tiene simetrías (o que es simétrico) si existe un conjunto no vacío 𝐺 y existen algunos elementos
𝜎 ∈ 𝐺 tales que dejan invariante al objeto 𝑎, es decir 𝜎 ∗ 𝑎 = 𝑎
Los elementos de 𝐺 que dejan al objeto 𝑎 ∈ 𝐴 invariante, se llaman simetrías del objeto 𝑎, Note que
el elemento 𝑒 ∈ 𝐺siempre deja invariante a todos los objetos 𝑎 ∈ 𝐴, es decir 𝑒 ∗ 𝑎 = 𝑎
Así se sobrentiende que un objeto tiene simetrías si tiene simetrías diferente de la neutra.
Operaciones binarias. En el conjunto 𝐺 hemos pedido que se tenga una manera de componer u
operar sus elementos. Es decir, dados 𝜎 y 𝜏 en 𝐺, debe existir otro elemento 𝜎°𝜏 ∈ 𝐺. Dicho en
otras palabras, se debe tener una función: °: 𝐺𝑥𝐺 → 𝐺 a la que denotaremos mediante (𝜎, 𝜏) →
𝜎°𝜏 ∈ 𝐺. Nótese que por medio de definición de función, para el caso de la función ° se tiene que
todos los pares (𝜎, 𝜏) con 𝜎, 𝜏 ∈ 𝐺, se debe tener que 𝜎°𝜏 ∈ 𝐺
Ejemplo 2: Si tomamos como conjunto 𝐺 al conjunto de los números enteros ℤ, la suma de dos
enteros es una operación binaria
+: ℤ𝑥ℤ → ℤ dada por (𝑎, 𝑏) → 𝑎 + 𝑏 ya que cada par de enteros (𝑎, 𝑏) le corresponde un único
entero 𝑎 + 𝑏 ∈ ℤ
Ejemplo 3: Si tomos como conjunto 𝐺 al conjunto de números naturales ℕ, la función ∗: ℕ𝑥ℕ →
ℕdada por 𝑎 ∗ 𝑏 ≔ 𝑎𝑏 es una operación binaria asociativa
Ejemplo 4: Si tomamos como conjunto 𝐺 al conjunto de números naturales ℕ, la resta dada por
(𝑎, 𝑏) → 𝑎 − 𝑏 no es una operación binaria en ℕ ya que no siempre es cerrada, por ejemplo 2 − 7 ∉
ℕ
Ejemplo 5: Si tomamos como conjunto 𝐺 al conjunto de números naturales, la función ∗: ℕ𝑥ℕ → ℕ
dada por 𝑎 ∗ 𝑏 ≔ 𝑎𝑏 es una operación binaria no asociativa.
Conmutatividad: Note que en el ejemplo 2, para cualesquiera dos enteros 𝑎, 𝑏 ∈ ℤ se tiene que 𝑎 +
𝑏 = 𝑏 + 𝑎, algo similar sucede con el ejemplo 3, para cualesquiera dos naturales 𝑎, 𝑏 ∈ ℕ se tiene
que 𝑎𝑏 = 𝑏𝑎
Nota: Bien proporcionado, es como en el lenguaje cotidiano nos referimos a un objeto simétrico,
bien equilibrado o balanceado.
Ejercicio 1. Muestre que las reflexiones 𝑝𝑥 y 𝑝2 que se obtienen a partir de la rotación
𝑟𝜋 𝑦 𝑙𝑎 𝑟𝑒𝑓𝑙𝑒𝑥𝑖𝑜𝑛 𝑝 = 𝑝𝑦 , en el ejemplo discutido anteriormente, concluya que las simetrías del
2
cuadrado están dadas en efecto por:
{𝑒, 𝑟, 𝑟 2 , 𝑟 3 , 𝑝, 𝑝°𝑟, 𝑝°𝑟 2 , 𝑝°𝑟 3 } (decimos que 𝑟 y 𝑝 son las simetrías generadas por 𝐺)
Ejercicio 2. Considere un triángulo equilátero centrado en el origen y con base paralela al eje X.
Obtenga sus simetrías geométricas. Simplifique, como en el caso del cuadrado listando las simetrías
generadoras. Haga lo mismo para un pentágono y un hexágono, ambos regulares, centrados en el
origen y con base paralela al eje 𝑋.
Ejercicio 3. El lector habrá notado que no hemos hablado de la simetría en la naturaleza. Investigue
al respecto y escriba un ensayo al respecto.
Ejercicio 4. ¿Cuáles de las fórmulas siguientes definen una operación binaria en el conjunto dado?
(1) 𝐸𝑛 𝐴 = ℕ, 𝑎 ∗ 𝑏 ≔ 2𝑎 + 3𝑏.
(2) 𝐸𝑛 𝐴 = ℤ, 𝑎 ∗ 𝑏 = 2𝑎 − 3𝑏.
(3) 𝐸𝑛 𝐴 = ℕ. 𝑎 ∗ 𝑏 ≔ 𝑎𝑏 − 5
(4) 𝐸𝑛 𝐴 = ℚ, 𝑎 ∗ 𝑏 ≔ √|𝑎𝑏|
𝑎
(5) 𝐸𝑛 𝐴 = ℤ, 𝑎 ∗ 𝑏 ≔ 𝑏
Ejercicio 5. Para cada una de las operaciones binarias siguientes determine si son o no asociativas.
(1) 𝐸𝑛 𝐴 = ℤ, 𝑎 ∗ 𝑏 = 𝑎 − 𝑏
(2) 𝐸𝑛 𝐴 = ℕ, 𝑎 ∗ 𝑏 ≔ 2𝑎+𝑏
(3) 𝐸𝑛 𝐴 = ℝ, 𝑎 ∗ 𝑏 ≔ √|𝑎𝑏|
(4) 𝐸𝑛 𝐴 = ℤ, 𝑎 ∗ 𝑏 ≔ −𝑎𝑏
(5) 𝐸𝑛 𝐴 = ℝ, 𝑎 ∗ 𝑏 ≔ 𝑎 + 2𝑏
(6) 𝐸𝑛 𝐴 = ℤ, 𝑎 ∗ 𝑏 = 𝑎 + 𝑏 − 5
Ejemplo 2. Si 𝐺 = 𝐺𝐿(2, ℝ) es el conjunto de matrices de tamaño 2𝑥2 con entradas en los reales y
determinante distinto de cero, los elementos de 𝐺𝐿(2, ℝ) son las matrices
𝑎 𝑏
𝐴=( ) tales que 𝑎, 𝑏, 𝑐, 𝑑 ∈ ℝ y su determinante no es cero, es decir 𝑎𝑑 − 𝑐𝑏 ≠ 0
𝑐 𝑑
Si 𝐵 = (𝑎′ 𝑏′) es una matriz del mismo grupo lineal, entonces recordemos que el producto de
𝑐′ 𝑑′
matrices esta definido por:
° … b …
…
a 𝑎°𝑏
…
Ejemplo 9. Para el grupo aditivo 𝐺 = ℤ/4 ℤ de los enteros modulo 4, la tabla de su operación, aquí
° es la suma modulo 4, es:
° 0 1 2 3
0 0 1 2 3
1 1 2 3 0
2 2 3 0 1
3 3 0 1 2
Ejercicio 3. Sea 𝐺𝐿(2, 𝔽2 ) el conjunto de todas las matrices 2𝑥2 con entradas en 𝔽2 = {0̅, 1̅} (los
enteros modulo 2) y con determinante ≠ 0̅, calcule el orden de este grupo.
Ejercicio 4. Si 𝑆𝐿(2, 𝔽2 ) es el subconjunto de 𝐺𝐿(2, 𝔽2 ) formado por las matrices con determinante
= 1̅, muestre que 𝑆𝐿(2, 𝔽2 ) es u subgrupo de 𝐺𝐿(2, 𝔽2 ), ¿Cuál es el orden de este subgrupo?
(i) si 𝑘 = 0 se define 𝜎 0 : = 𝑒
(ii) Si 𝑘 ≥ 1, se definen
𝜎1 ≔ 𝜎
𝜎 2 = 𝜎°𝜎
𝜎 3 = 𝜎 2 °𝜎
…
𝜎 𝑘+1 = 𝜎 𝑘 °𝜎
(decimos que esta es una definición recursiva o inductiva)
Por definición 𝜎 0 = 𝑒 así que 𝑒 ∈< 𝜎 >. Observe que < 𝜎 > es cerrado bajo productos, ya que si
𝜎 𝑚 𝜎 𝑛 ∈< 𝜎 > entonces 𝜎 𝑚+𝑛 es un elemento de < 𝜎 >. También si 𝜎 𝑚 ∈< 𝜎 >, entonces 𝜎 −𝑚 ∈
< 𝜎 > satisface que:
𝜎 −𝑚 𝜎 𝑚 = 𝑒 por lo que el inverso de 𝜎 𝑚 es 𝜎 −𝑚 lo que concluye nuestra prueba.
*El grupo < 𝜎 > del lema anterior se llama el subgrupo ciclico generado por 𝜎. Un grupo 𝐺 se dice
que es un grupo ciclico si existe un elemento 𝜎 ∈ 𝐺 tal que 𝐺 =< 𝜎 >, al elemento 𝜎 se le llama
generador de 𝐺.
Ejemplo 1. EL grupo aditivo de los enteros ℤ es ciclico generado por el 1.
Ejemplo 2. EL grupo aditivo de los racionales ℚ no es ciclico por el ejemplo 10.
Ejemplo 3. Si 𝑛 ≥ 1 es un entero, el grupo aditivo de los enteros modulo 𝑛 , ℤ/𝑛 ℤ =
{0̅, 1
̅ , 2̅, … , ̅̅̅̅̅̅̅
𝑛 − 1} es ciclico generado por el 1̅.
*Los grupos cíclicos son, de alguna manera, muy sencillos, por ejemplo, son abelianos.
Proposición 3.2. Todo grupo cíclico es abeliano.
∇ Demostración
SI 𝐺 es ciclico, digamos 𝐺 =< 𝜎 >, para algún 𝜎 ∈ 𝐺. Entonces, todos los elementos de 𝐺 son de la
forma 𝜎 𝑘 , para alguna 𝑘 un entero. Así, si 𝑎, 𝑏 ∈ 𝐺 son dos elementos arbitrarios, entonces 𝑎 y 𝑏 son
de la forma 𝑎 = 𝜎 𝑚 y 𝑏 = 𝜎 𝑛 , por lo que 𝑎𝑏 = 𝜎 𝑚 𝜎 𝑛 = 𝜎 𝑚+𝑛 = 𝜎 𝑛 𝜎 𝑚 = 𝑏𝑎 (lo que usualmente
es 𝑚 + 𝑛 = 𝑛 + 𝑚 en ℤ) lo que concluye nuestra demostración.
*Los subgrupos de un grupo cíclicos también son sencillos.
Proposición 3.3. Los subgrupos de un grupo cíclico también son cicilicos.
∇ Demostración
Supongamos que 𝐺 =< 𝜎 >, para algún 𝜎 ∈ 𝐺 , y sea 𝐻 un subgrupo de 𝐺. Si 𝐻 = {𝑒}, entonces es
cierto que 𝐻 es ciclico generado por 𝑒, lo que es 𝐻 = {𝑒} =< 𝑒 >.
Ejemplo 4. Por el primero ejemplo, ℤ es un grupo cíclico, generado por el 1. Entonces, la proposición
anterior nos dice que los subgrupos de ℤ son cíclicos, generados por una potencia de 1 y entonces por
un elemento de la forma 𝑛 ∗ 1 = 𝑛. Por lo tanto, los subgrupos de ℤ son de la forma 𝐻 = 𝑛ℤ =
{𝑛𝑘: 𝑘 ∈ ℤ} = 𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑜𝑠 𝑒𝑛𝑡𝑒𝑟𝑜𝑠 𝑑𝑒 𝑛.
Grupos cíclicos infinitos. El ejemplo ℤ es un grupo ciclico de orden infinito y todos sus subgrupos,
exceptuando el subgrupo trivial {0} también son infinitos. Podemos hacernos una pregunta, ¿Cómo
será otro grupo cíclico infinito? Supongamos entonces que 𝐺 es un grupo cíclico infinito cerrado por
𝑔 y entonces 𝐺 =< 𝑔 >. Entonces, los elementos de 𝐺 son de la forma 𝑔𝑙 con 𝑙 ∈ ℤ. Comenzamos
mostrando que si 𝑚 ≠ 𝑛 son dos enteros diferentes, entonces 𝑔𝑚 ≠ 𝑔𝑛 . En efecto, como 𝑚 ≠ 𝑛,
podemos suponer, sin perder generalidad, que 𝑚 > 𝑛. Ahora si sucediera que 𝑔𝑚 = 𝑔𝑛 , como 𝑚 >
𝑛, entonces 𝑚 − 𝑛 > 0 y multiplicando la igualdad 𝑔𝑚 = 𝑔𝑛 por 𝑔−𝑛 se obtiene
𝑔𝑚−𝑛 = 𝑔𝑚 𝑔−𝑛 = 𝑔𝑛 𝑔−𝑛 = 𝑒, y entonces 𝑔𝑚−𝑛 = 𝑒 con 𝑚 − 𝑛 > 0. Sea 𝑘 > 0 el menor entero
positivo tal que 𝑔𝑘 = 𝑒 (note la similiaridad de la demostración de que los subgrupos de un grupo
cíclico también son cíclicos). Para Mostrar que 𝐺 = {𝑒, 𝑔, 𝑔2 , … , 𝑔𝑘−1 }, mostraremos que cualquier
elemento de 𝐺 esta en el conjunto de la derecha. En efecto, si 𝑔𝑚 ∈ 𝐺 es cualquier elemento,
dividiendo 𝑚 entre el entero 𝑘 anterior obtenemos 𝑚 = 𝑘𝑞 + 𝑟 con 0 ≤ 𝑟 < 𝑘 y por lo tanto 𝑔𝑚 =
𝑞
𝑔𝑘𝑞+𝑟 =(𝑔𝑘 ) 𝑔𝑟 = (𝑒 𝑞 )𝑔𝑟 = 𝑔𝑟 , es decir, la potencia 𝑔𝑚 es igual a 𝑔𝑟 con 0 ≤ 𝑟 < 𝑘, es decir,
cualquier elemento de 𝐺 es uno de los elementos: 𝑒 = 𝑔0 , 𝑔, 𝑔2 , … , 𝑔𝑘−1 , como se quería. Como esto
contradice el hecho de que 𝐺 es infinito, se sigue que todas las potencias 𝑔𝑚 son diferentes. Hemos
probado así el teorema siguiente.
Teorema 3.4. Si 𝐺 es un grupo cíclico infinito, digamos generado por 𝑔, entonces todas las potencias
de 𝑔𝑚 son distintas.
Grupos cíclicos infinitos. El ejemplo 3 es un grupo cíclico finito, a saber ℤ/ ℤ𝑛 el grupo aditivo de
los enteros modulo 𝑛. La pregunta que nos hacemos ahora es ¿Cómo será otro grupo cíclico finito
Teorema 3.5.
(1) Si 𝐺 es un grupo ciclico finite, entonces los elementos de 𝐺 won potencias positivas de 𝑔, desde
𝑔0 = 𝑒 hasta 𝑔𝑘−1 , donde 𝑘 = |𝐺| es el orden del grupo y es el menor entero positive que anula a 𝑔,
asi 𝐺 = {𝑒 = 𝑔0 , 𝑔, … , 𝑔𝑘−1 }
∇ Demostración
Solo resta probar la segunda parte (2). Para esto, dividiendo 𝑙 entre 𝑘 tenemos por el algoritmo de la
división de Euclides que 𝑙 = 𝑘𝑞 + 𝑟 con 0 ≤ 𝑟 < 𝑘 y asi
𝑞
𝑒 = 𝑔𝑙 = 𝑔𝑘𝑟+𝑟 = (𝑔𝑘 ) 𝑔𝑟 = 𝑒𝑔𝑟 = 𝑔𝑟
Y como k es el menor exponente positivo que anula a 𝑔, la igualdad anterior implica que 𝑟 = 0 y por
lo tanto 𝑘|𝑙
Note la ventaja de lo anterior, ya que en la definición de grupo cíclico incluimos potencias positivas
y negativas, lo que acabamos de probar nos dice que, en el caso finito, basta tomar potencias positivas
del generador hasta llegar el orden 𝑘 del grupo (ya que 𝑔𝑘 = 𝑒 = 𝑔0 ).
¿Cómo serán los subgrupos de un grupo cíclico finito?. Por la proposición 3.3 anterior, por supuesto
que también son cíclicos. Las preguntas son entonces: (i) ¿Qué orden tienen?, (ii) ¿Cómo son sus
generadores?, las respuestas a estas preguntas son:
Proposición 3.6. Sea 𝐺 un grupo ciclico de orden 𝑛 y generado por un elemento 𝑔. Sea 𝜎 ∈ 𝐺 dado
𝑛
por 𝜎 = 𝑔𝑘 . Entonces 𝜎 genera un subgrupo cíclico de 𝐺 de orden 𝑑 donde 𝑑 = 𝑚𝑐𝑑(𝑛, 𝑘).
∇Demostración
Ahora por el mismo argumento del teorema anterior, como 𝐺 =< 𝑔 > es de orden 𝑛, entonces 𝑛 es
el menor entero positivo tal que 𝑔 se anula al elevarse a ese exponente, entonces la igualdad 𝑒 =
𝑙
(𝑔𝑘 ) = 𝑔𝑘𝑙 implica (por la parte 2 del teorema anterior) que 𝑛 divide a 𝑘𝑙. Ahora si 𝑑 = 𝑚𝑐𝑑(𝑛, 𝑘)
𝑛 𝑘
entonces 𝑑|𝑛 y 𝑑|𝑘, escribiendo 𝑛 = 𝑑(𝑑) y 𝑘 = 𝑑(𝑑), entonces 𝑛/𝑑 y 𝑘/𝑑 son coprimos y como
𝑛 𝑘 𝑛 𝑘 𝑛
𝑛|𝑘𝑙, entonces (𝑑) |(𝑑)𝑙 con 𝑚𝑐𝑑 (𝑑 , 𝑑) = 1 por lo que 𝑑
debe dividir al factor 𝑙 y
𝑛 𝑘
𝑛 𝑛
consecuentemente (𝑑) ≤ 𝑙 , ahora, como (𝑔𝑘 ) = (𝑔𝑛 )𝑑 = 𝑒 , como (𝑑) ≤ 𝑙 y 𝑙 es el menor
𝑑
𝑛
exponente que anula a 𝑔𝑘 , entonces se debe tener que 𝑙 = 𝑑, como se quería. ∎
Corolario 3.7. Sea 𝐺 un grupo de orden 𝑛 generado por un elemento 𝑔 . Entonces, los otros
generadores de 𝐺 son de la forma 𝑔𝑘 , con 𝑘 ≥ 1 coprimo con 𝑛.
El orden de un elemento
Si 𝐺 es un grupo y 𝜎 ∈ 𝐺 es cualquier elemento, diremos que 𝜎 tiene orden infinito si para cualquier
entero 𝑘 ≥ 1 se tiene que 𝜎 𝑘 ≠ 𝑒. Es decir, si ninguna potencia 𝑘 positiva se muere. Si existe 𝑘 ≥ 1
tal que 𝜎 𝑘 = 𝑒, al menor de esos enteros positivos se le llama orden de 𝜎. Por ejemplo, el orden de 𝑒
es 1; y es el único elemento de orden 1 en 𝐺. Si 𝜎 ≠ 𝑒, el orden de 𝜎 es 𝑘 si 𝜎 𝑘 = 𝑒 y 𝜎 𝑗 ≠ 𝑒 para
todo 1 ≤ 𝑗 ≤ 𝑘.
∇ Demostración
𝐺 = {𝑔, 𝑔2 , … , 𝑔(𝑛−1) , 𝑔𝑛 = 𝑒} y como estos son los 𝑛 elementos de 𝐺, entonces se debe tener que
𝑔𝑘 ≠ 𝑒 para toda 1 ≤ 𝑘 < 𝑛 y por lo tanto el generador 𝑔 de 𝐺 tiene orden 𝑛.
Notas. EL teorema 3.4 esencialmente nos dice que hay una biyeccion entre un grupo ciclico infinito
arbitrario y el grupo aditivo ℤ, y la parte 1 del teorema 3.5 nos dice que hay una biyeccion entre el
grupo ciclico finito de orden 𝑘 y el grupo de enteros modulo 𝑘, ℤ/𝑘 ℤ. De hecho, estas biyecciones
son algo más, lo veremos mas adelante.
Ejercicio 1. Si 𝐺 es un grupo de simetrías del cuadrado, ¿Es 𝐺 cicliclo? Liste todos los subgrupos
cíclicos de 𝐺. Haga lo mismo para un triangulo equilátero, un Pentágono y un hexágono regulares.
Ejercicio 3. Sea 𝐺𝐿(2, 𝔽2 ) el grupo de matrices 2x2 con entradas en 𝔽2 = (0̅, 1̅) con determinante
≠ 0. ¿ Es 𝐺𝐿(2, 𝔽2 ) ciclico?
(iii) Si 𝐻 ⊆ 𝐺 es cualquier subgrupo que contiene a 𝑆, demuestre que < 𝑆 >⊆ 𝐻. En este sentido, <
𝑆 > es el menor subgrupo de 𝐺 que contiene a 𝑆.
(iv) Si 𝑆 = {𝑔} ⊆ 𝐺 demuestre que < 𝑆 >=< {𝑔} >=< 𝑔 > es el subgrupo ciclico generado por 𝑔.
Ejercicio 9. SI 𝐺 es un grupo finito de orden par, demuestre que existe un elemento 𝑔 ∈ 𝐺 de orden
2.
Ejercicio 11. Si 𝐺 =< 𝑔 > es cíclico de orden 𝑛, demuestre que para todo 𝑖, 𝑗 = 0,1,2,3, … , 𝑛 − 1,
𝑔𝑖 𝑔 𝑗 = 𝑔𝑘 si y solo si 𝑖 + 𝑗 ≡ 𝑘(𝑚ó𝑑 𝑛)
𝑛−1
Ejercicio 12. Si 𝐺 =< 𝑔 > es cíclico de orden 𝑝𝑛 para 𝑝 un primo, demuestre que 1 ⊆ (𝑔𝑝 )⊆
𝑝𝑛−2 (𝑔𝑝 )
(𝑔 )⊆⋯⊆ ⊆ 𝐺 son todos los subgrupos de 𝐺.
Capítulo 4 “Grupos de permutaciones”
Si 𝑛 ≥ 1 es un entero, denotaremos con 𝕀𝑛 ≔ {1,2,3, … , 𝑛} al subconjunto de los números naturales
del 1 al 𝑛. Diremos que 𝕀𝑛 es un intervalo de naturales. Una función biyectiva 𝜎: 𝕀𝑛 → 𝕀𝑛 se llamara
permutación de 𝕀𝑛 . Esta función la podemos representar mediante:
1 2 3 𝑛
𝜎 = (𝜎(1) 𝜎(2) 𝜎(3)
… 𝜎(𝑛) ) donde debajo de cada natural 𝑥 ∈ 𝕀𝑛 hemos colocado su valor o imagen
𝜎(𝑥) ∈ 𝕀𝑛
𝑒 = (11 2 3 4
2 3 4
)
𝜎 = (11 2 3 4
2 4 3
)
𝜏 = (11 2 3 4
3 4 2
)
𝛽 = (14 2 3 4
3 2 1
)
Note que una permutación 𝛼 de 𝕀4 cambia de lugar los enteros 1,2,3,4. Es decir, en la notación de
arriba, los enteros que aparecen en el renglón inferior son todos los números enteros del 1 al 4, y
que aparecen una sola vez. Lo anterior es solo una reformulación del hecho de que la permutación 𝛼
es una función biyectiva y entonces es inyectiva y sobreyectiva.
Sea 𝑆𝑛 el conjunto de todas las permutaciones de 𝕀𝑛 . Si 𝜎, 𝜏 ∈ 𝑆𝑛 , escribiendo estas funciones con
su dominio y coodominio:
𝜎: 𝕀𝑛 → 𝕀𝑛 y 𝜏: 𝕀𝑛 → 𝕀𝑛
Es claro que las podemos componer para obtener la función:
𝜏°𝜎: 𝕀𝑛 → 𝕀𝑛
𝜎° 𝜎 −1 = 𝑖𝑑𝑛 y 𝜎 −1 °𝜎 = 𝑖𝑑𝑛 ,
EL grupo (𝑆𝑛 , °) se llama el grupo simétrico en 𝑛 letras. Es conocido por que hay 𝑛! Funciones
biyectivas de 𝕀𝑛 en 𝕀𝑛 y asi 𝑆𝑛 es un grupo finito de orden |𝑆𝑛 | = 𝑛! = (𝑛)(𝑛 − 1) … (2)(1)
Ejemplo 2. Si 𝑛 = 4 el grupo 𝑆4 tiene orden |𝑆4 | = 4! = 24. La composición de dos permutaciones
en 𝑆4 es fácil, usando la notación introducida previamente para 𝜏 y 𝛽 como en el ejemplo 1.
𝜏 = (11 2 3 4
3 4 2
) y 𝛽 = (14 2 3 4
3 2 1
) se tiene que
𝜏 = (11 23 34 42), la inversa se calcula leyendo el renglón inferior primero para que las imágenes sean
los valores del primer renglón y asi se obtiene:
𝜏 −1 = (11 2 3 4
4 2 3
)
𝑖𝑑3 = (11 2 3
2 3
), 𝜎1 = (11 2 3
3 2
), 𝜎2 = (12 2 3
1 3
), 𝜎3 = (12 2 3
3 1
), 𝜎4 = (13 2 3
1 2
) , 𝜎5 = (13 2 3
2 1
)
Y observe que
𝜎4 𝜎1 = (13 2 3
1 2
)°(11 2 3
3 2
) =(13 2 3
2 1
) = 𝜎5
𝜎1 𝜎4 = (11 2 3
3 2
)°(13 2 3
1 2
) = (12 2 3
1 3
) = 𝜎2
Por lo que 𝜎4 𝜎1 ≠ 𝜎1 𝜎4
Ejemplo 4. Los grupos 𝑆1 y 𝑆2 son sencillos
𝑆1 = {𝑒}
𝑆2 = {𝑒 = (11 2
2
), 𝜎 = (12 2
1
)}
Y entonces 𝜎 2 = 𝑒 por lo que 𝜎 es de orden 2. Se sigue que el subgrupo cíclico generado por 𝜎 es
todo 𝑆2 y entonces < 𝜎 >= 𝑆2 y por lo tanto 𝑆2 es cíclico.
Ciclos y orbitas
Si 𝜎 ∈ 𝑆𝑛 es una permutación y 𝑥 ∈ 𝕀𝑛 es un elemento, diremos que 𝜎 fija a 𝑥 si 𝜎(𝑥) = 𝑥 . En caso
contrario, diremos que 𝜎 mueve a 𝑥. Ahora, si, 𝑖1 , 𝑖2 , … , 𝑖𝑘 son enteros distintos en 𝕀𝑛 y si 𝜎 ∈ 𝑆𝑛 es
tal que 𝜎(𝑖1 ) = 𝑖2 , 𝜎(𝑖2 ) = 𝑖3,…,𝜎(𝑖𝑘−1 )=𝑖𝑘 , 𝜎(𝑖𝑘 )=𝑖1 y 𝜎 fija a los otros enteros en 𝕀𝑛 , si los hay,
entonces diremos que 𝜎 es un ciclo de longitud 𝑘 o que es un 𝑘 − 𝑐𝑖𝑐𝑙𝑜.
Para denotar 𝑘 − 𝑐𝑖𝑐𝑙𝑜𝑠 usaremos la notación abreviada 𝜎 = (𝑖1 , 𝑖2 , … , 𝑖𝑘−1 , 𝑖𝑘 ) pensando en 𝜎
como una 𝑘 − 𝑎𝑑𝑎 ordenada.
Ejemplo 5. En 𝑆5 tenemos el ciclo 𝜎 = (2,4,1) lo que como permutación es:
𝜎 = (2,4,1) = (12 2 3 4 5
4 3 1 5
) notando que 𝜎 fija a los enteros 3 y 5.
Ejemplo 7. Si 𝜎 = (12 2 3 4 5 6
3 1 4 6 5
) ∈ 𝑆6 , entonces todas sus orbitas son:
*Dos permutaciones 𝜎, 𝜏 ∈ 𝑆𝑛 se dice que son disjuntas si para toda 𝑥 ∈ 𝕀𝑛 , siempre que 𝜎 mueve a
𝑥, 𝜏 lo fija y viceversa. Es decir 𝜎(𝑥) ≠ 𝑥, entonces 𝜏(𝑥) = 𝑥 y viceversa por lo que se puede decir
que las permutaciones son disjuntas si y solo si las orbitas son disjuntas.
Proposición 4.4. Si 𝜎, 𝜏 ∈ 𝑆𝑛 son dos permutaciones disjuntas, entonces 𝜎𝜏 = 𝜏𝜎.
∇ Demostración
Sea 𝑥 ∈ 𝕀𝑛 . Mostremos que 𝜎𝜏(𝑥) = 𝜏𝜎(𝑥), en efecto 𝜏(𝑥) ≠ 𝑥, entonces
𝜎(𝑥) = 𝑥 y asi 𝜏𝜎(𝑥) = 𝜏(𝑥) (1)
Ahora como 𝑂𝜏 (𝜏(𝑥)) = 𝑂𝜏 (𝑥), entonces 𝜏 mueve a 𝜏(𝑥) por lo que 𝜎 fija y entonces
𝜎(𝜏(𝑥)) = 𝜏(𝑥). Se sigue que
Ejemplo 8. Observe que la condición de que las permutaciones sean disjuntas es indispensable ya
que las permutaciones 𝜎 = (1,3) y 𝜏 = (1,2) ambas de 𝑆3 no son disjuntas y entonces
𝜎𝜏 = (1,3)(1,2) = (1,2,3) ≠ (1,3,2) = (1,2)(1,3) = 𝜏𝜎
*Nuestro objetico ahora será mostrar que los ciclos son los ladrillos a partir de los cuales se
construyen todas las permutaciones. Lo que queremos decir con esto es que cualquier permutación
𝜎 ∈ 𝑆𝑛 que no sea la identidad, es producto de ciclos disjuntos en forma esencialmente única.
Teorema 4.5. Toda permutación 𝜎 ≠ 𝑖𝑑𝑛 en 𝑆𝑛 es el producto de ciclos disjuntos de longitud ≥ 2.
Esta factorización es única salvo por el orden en el que aparecen los ciclos correspondientes.
∇ Demostración
ℎ𝑔ℎℎ−1 = 𝑔ℎℎℎ−1
ℎ𝑔 = 𝑔ℎ lo que termina nuestra demostración.
Ejercicio 3. Supongamos que 𝜎 = (𝑖1 , 𝑖2 , … 𝑖𝑘 ) y 𝜏 = (𝑗1 , 𝑗2 , … , 𝑗𝑙 ) son dos ciclos disjuntos en el
grupo simétrico 𝑆𝑛 , es decir,
{𝑖1 , 𝑖2 , … , 𝑖𝑘 } ∩ {𝑗1 , 𝑗2 , … , 𝑗𝑙 } = ∅ demuestre que el mínimo exponente 𝑚 = 1,2,3, … tal que
(𝜎°𝜏)𝑚 = 𝑖𝑑 es igual al 𝑚𝑐𝑚(𝑘, 𝑙)
∇ Demostración
Dado que los ciclos disjuntos conmutan entre si, para cualquier 𝑚 = 1,2,3 … se cumple (𝜎°𝜏)𝑚 =
𝜎 𝑚 °𝜏 𝑚
De hecho podemos notar que las potencias 𝜎 𝑖 y 𝜏 𝑗 son disjuntos ∀𝑖, 𝑗. Luego
𝑘 = min{𝑚 = 1,2,3, … |𝜎 𝑚 = 𝑖𝑑} , 𝑙 = min {𝑚 = 1,2,3, … |𝜏 𝑚 = 𝑖𝑑}
Ahora la división con resto de 𝑚 por 𝑙 y 𝑘 respectivamente demuestra que
𝜎 𝑚 = 𝑖𝑑 ⟺ 𝑘|𝑚, 𝜏 𝑚 = 𝑖𝑑 ⇔ 𝑙|𝑚
Ahora (𝜎°𝜏)𝑚 = 𝜎 𝑚 °𝜏 𝑚 = 𝑖𝑑 ⇔ 𝜎 𝑚 = 𝑖𝑑 𝑦 𝜏 𝑚 = 𝑖𝑑 ⇔ 𝑘|𝑚 𝑦 𝑙|𝑚
Teoría de Números
𝑥 = 𝑎𝑞 + 𝑟 = 𝑟𝑘 𝑎𝑘+1 + 𝑟𝑘−1 𝑎𝑘 + ⋯ + 𝑟1 𝑎2 + 𝑟0 𝑎 + 𝑟
Y con un cambio de índices apropiado obtenemos que
𝑥 = 𝑏0 + 𝑏1 𝑎 + ⋯ + 𝑏𝑛 𝑎𝑛 .
Por ultimo mostremos la unicidad de esta representación: Concretamente, demostraremos que si
𝑛 = 𝑎0 + 𝑎1 10 + 𝑎2 102 + ⋯ + 𝑎𝑟 10𝑟
Ejemplo 1.1.5 Si 𝑎 = 2, entonces el numero 1475 que esta en base 10 lo podemos escribir como:
1475 = 1 ∗ 20 + 0 ∗ 22 + 0 ∗ 23 + 0 ∗ 24 + 0 ∗ 25 + 1 ∗ 26 + 1 ∗ 27 + 1 ∗ 28 + 0 ∗ 29 + +1 ∗ 210
𝑏
(ii) Si 𝑎 ≤ −1 y 𝑟 = 0, entonces 𝑞 = ⌊𝑎⌋
𝑏
(iii) Si 𝑎 ≤ −1 y 𝑟 > 0, entonces 𝑞 = ⌊𝑎⌋ + 1
∇ Demostración
Si 𝑎 ≥ 1 , entonces 𝑎𝑞 ≤ 𝑎𝑟 + 𝑟 = 𝑏 < 𝑎𝑞 + 𝑎 = 𝑎(𝑞 + 1)
De forma que obtenemos que
𝑏
𝑞 ≤ 𝑎 < 𝑞 + 1 y por lo tanto se sigue la primera afirmación
𝑏 𝑏
Si 𝑎 ≤ −1 y 𝑟 = 0, entonces 𝑎 = 𝑞 y 𝑞 = ⌊𝑎⌋
𝑟
Por último, si 𝑎 ≤ −1 y 𝑟 > 0, entonces −1 < < 0 de esto obtenemos
𝑎
𝑟 𝑏 𝑏
𝑞 − 1 < 𝑞 + 𝑎 = 𝑎 < 𝑞 y por lo tanto ⌊𝑎⌋ + 1 = 𝑞 ∎
Con respecto a la afirmación 3 del teorema anterior, proponemos una versión elemental; si 𝑎|𝑥1 y
𝑎|𝑥2 , entonces 𝑎|𝑥1 + 𝑥2 . Pregunta: ¿Es cierta la afirmación inversa?, es decir si 𝑎|𝑥1 + 𝑥2 ,
entonces ¿ 𝑎|𝑥1 𝑦 𝑎|𝑥2 ? La respuesta es no, por ejemplo, si 𝑛 > 1, entonces 𝑛|1 + (𝑛 − 1), 𝑛 ∤ 1 y
𝑛 ∤ 𝑛 − 1. La afirmación correcta es: si 𝑎|𝑥1 + 𝑥2 y 𝑎|𝑥1, entonces 𝑎|𝑥2 .
Consideremos los enteros 42 y -56- Observamos que 1,2,3,6,7,14,21,42 son divisores positivos de
42. Los números 1,2,4,7,8,14,28,56 son divisores positivos de -56. Notamos que 42 y -56
comparten los divisores 1,2,14 y el mayor de ellos es 14. Como es de esperarse, un divisor común
positivo y mayor lo llamaremos el máximo común divisor de 𝑎 y 𝑏. Este entero lo denotaremos
como 𝑚𝑐𝑑(𝑎, 𝑏). En nuestro caso el 𝑚𝑐𝑑(42, −56) = 14. Observamos que si 𝑎 = 0, entonces 𝑎
admite como divisores a todos los enteros menos al 0 , por lo tanto, si 𝑎 = 𝑏 = 0 entonces 𝑎 y 𝑏 no
tienen divisor común mas grande. Por tanto, para que exista el máximo común divisor de los enteros
𝑎, 𝑏, es necesario que 𝑎 ≠ 0 ó 𝑏 ≠ 0. Por otro lado, por la afirmación 1 del teorema 1.1.7 1|𝑎 y
1|𝑏, entonces 𝑚𝑐𝑑(𝑎, 𝑏) ≥ 1. En el caso particular de que 𝑚𝑐𝑑(𝑎, 𝑏) = 1 diremos que 𝑎, 𝑏 son
primos relativos. En el siguiente resultado mostraremos dos de las propiedades más importantes del
𝑚𝑐𝑑 en ℤ.
Teorema 1.2.1 Si 𝑎, 𝑏 ∈ ℤ con 𝑎, 𝑏 ≠ 0, entonces se cumple:
1. Existen 𝑥0 , 𝑦0 ∈ ℤ tal que 𝑚𝑐𝑑(𝑎, 𝑏) = 𝑎𝑥0 + 𝑏𝑦0
2. SI 𝑐 ∈ ℤ y 𝑐|𝑎, 𝑐|𝑏 entonces 𝑐|𝑚𝑐𝑑(𝑎, 𝑏)
∇ Demostración
Sea 𝑔 = 𝑚𝑐𝑑(𝑎, 𝑏). Consideremos el conjunto 𝑆 = {𝑎𝑥 + 𝑏𝑦 > 0}
Sea 𝑎 ≠ 0, entonces 𝑥 = 𝑎 e 𝑦 = 𝑏 lo que implica que 𝑆 ∩ ℕ ≠ ∅, asi que por el principio del buen
orden existen 𝑥0 , 𝑦0 ∈ ℤ tales que 𝑑 = 𝑎𝑥0 + 𝑏𝑦0 es el menor entero positivo en 𝑆, Si 𝑑 ∤ 𝑎,
entonces por el algoritmo de la división 𝑎 = 𝑑𝑞 + 𝑟 y 0 < 𝑟 < 𝑑. Así
𝑟 = 𝑎 − 𝑑𝑞 = 𝑎 − 𝑞(𝑎𝑥0 + 𝑏𝑦0 ) = 𝑎 − 𝑞𝑎𝑥0 + 𝑞𝑏𝑦0 = 𝑎(1 − 𝑞𝑥0 ) + 𝑏(−𝑞𝑦0 )
Por tanto 𝑟 ∈ 𝑆 lo cual es absurdo
De lo anterior se sigue que 𝑑 es un divisor común de 𝑎 y 𝑏 asi 𝑑 ≤ 𝑔. Finalmente, como 𝑔|𝑎 y 𝑔|𝑏,
entonces 𝑔|𝑎𝑥0 , 𝑔|𝑏𝑦0 y asi 𝑔|𝑑. Por lo tanto 𝑔 = 𝑑. La segunda afirmación del teorema es muy
sencilla pues si 𝑐|𝑎 y 𝑐|𝑏 entonces 𝑐|(𝑎𝑥0 + 𝑏𝑦0 ) y por lo tanto 𝑐|𝑔 como se prometió ∎
Capitulo 3. Cuadrados en 𝔽𝒑
3.1 Simbolo de Legendre
3.2 Ley de reciprocidad cuadrática
3.3 Simbolo de Jacobi
Capitulo 4. Los enteros Gaussianos ℤ[𝒊]
4.1 Divisibilidad en ℤ[𝑖]
4.2 Factorización única en ℤ[𝑖]
4.3 Números primos en ℤ[𝑖]
4.4 Factorización explicita de un entero Gaussiano
Capitulo 5. Grupos
5.1 Grupos y subgrupos
5.2 Subgrupos normales y anormales
5.3 Homomorfismos de grupos
5.4 Productos directos
5.5 Teorema de Sylow
5.6 Importancia de los grupos simples finitos
5.7 Grupo simétrico
5.8 Grupo y geometría
5.9 El concepto de grupo abstracto. Teorema de Cayley.
2. Sea (2𝑥 − 3)5 , desarrolla todos los términos usando el teorema del Binomio de Newton, a saber,
es el que dice que sean 𝑎, 𝑏 ∈ ℝ y 𝑛 ∈ ℕ entonces se satisface (𝑎 + 𝑏)𝑛 = ∑𝑛𝑘=0(𝑛𝑘)𝑎𝑛−𝑘 𝑏𝑘
para la posición 𝑢(𝑡) de una partícula sobre la cual actúa una fuerza 𝐹, que puede ser una función
𝑑𝑢(𝑡)
del tiempo 𝑡, de la posición 𝑢(𝑡) y de la velocidad 𝑑𝑡
. Para determinar el movimiento de una
partícula sobre la que actúa una fuerza 𝐹 es necesario hallar una función 𝑢 que satisfaga la ecuación
[1]
El objetivo primordial es analizar algunas propiedades de las soluciones de las ecuaciones
diferenciales y describir algunos métodos que han probado su eficacia para hallar las soluciones, o
en algunos casos, dar aproximaciones de estas.
Ecuaciones diferenciales ordinarias y parciales
Una de las clasificaciones mas evidentes se basa en el hecho de si la función desconocida depende
de una sola variable independiente o de varias variables independientes. En el prime caso en la
ecuación diferencial solo aparecen derivadas ordinarias, por lo que se dice que es una ecuación
ordinaria; En el segundo las derivadas son derivadas parciales, por lo que la ecuación se denomina
ecuación diferencial parcial.
Además de la ecuación [1], dos ejemplos de ecuaciones diferenciales ordinarias son
𝑑 2 𝑄(𝑡) 𝑑𝑄(𝑡) 1
𝐿 +𝑅 + 𝑄(𝑡) = 𝐸(𝑡) [2]
𝑑𝑡 2 𝑑𝑡 𝐶
En donde 𝑘 es una constante conocida. Ejemplos típicos de ecuacioens diferenciales parciales son la
ecuación del potencial
𝜕2 𝑢(𝑥,𝑦) 𝜕2 𝑢(𝑥,𝑦)
𝜕𝑥 2
+ 𝜕𝑦 2
= 0 [4]
y la ecuación de onda
𝜕2 𝑢(𝑥,𝑡) 𝜕2 𝑢(𝑥,𝑡)
𝑎2 𝜕𝑥 2
= 𝜕𝑡 2
[6]
En donde 𝛼 2 y 𝑎2 son ciertas constantes. La ecuación del potencial, de difusión y de onda surgen de
diversos problemas en los campos de la electricidad y del magnetismo, elasticidad y mecánica de
fluidos. Cada una de ellas es típica de una gran clase de ecuaciones diferenciales parciales.
Sistemas de ecuaciones diferenciales
Otra clasificación de las ecuaciones diferenciales depende del numero de funciones desconocidas
que intervienen, si hay que determinar una sola función, entonces basta una ecuación. Sin embargo,
en donde 𝐻(𝑡) y 𝑃(𝑡) son las poblaciones respectivas de las especies presa y depredadora. Las
constantes 𝑎, 𝛼, 𝑐 y 𝛾 se basan en observaciones empíricas y dependen de las especies en estudio.
Orden. El orden de una ecuación diferencial es el orden de la derivada más alta que aparece en ella,
asi las ecuaciones [1] y [2] son ecuaciones diferenciales ordinarias de segundo orden y la [3] es una
ecuación diferencial ordinaria de primer orden. De manera general, la ecuación
Es una ecuación diferencial ordinaria de 𝑛-esimo orden. La ecuación [8] representa una relación
entre la variable independiente 𝑥 y los valores de la función 𝑢 y sus 𝑛 primeras derivadas
𝑢′ , 𝑢′′ , . . 𝑢(𝑛) . En las ecuaciones diferenciales es conveniente y se acostumbra a escribir 𝑦 en vez de
𝑢(𝑥), asi como 𝑦 ′ , 𝑦 ′′ , … , 𝑦 (𝑛) en vez de 𝑢′ , 𝑢′′ , . . 𝑢(𝑛) , por tanto la ecuación [8] se escribe como :
Por ejemplo,
𝑦 ′′′ + 2𝑒 𝑥 𝑦 ′′ + 𝑦𝑦 ′ = 𝑥 4 [10]
Es una ecuación diferencial de tercer orden para 𝑦(𝑥) = 𝑢(𝑥). En ocasiones se usan otras letras en
lugar de 𝑦; el resultado es evidente a partir del contexto.
Se supone que siempre es posible despejar la derivada de orden mas alto en una ecuación
diferencial ordinaria dada y obtener
Tiene solución
Para toda 𝑥. Como ejemplo un poco mas complicado, se quiere comprobar que 𝜙1 (𝑥) = 𝑥 2 ln (𝑥)
es una solución de 𝑥 2 𝑦 ′′ − 3𝑥𝑦 ′ + 4𝑦 = 0, 𝑥 > 0 [15]
Se tienen que encontrar las derivadas de la función 𝜙1 (𝑥) y sustituir
𝜙1 (𝑥) = 𝑥 2 ln (𝑥)
𝜙1′ (𝑥) = 𝑥 + 2𝑥𝑙𝑛(𝑥)
𝜙1′′ (𝑥) = 3 + 2ln (𝑥)
Al sustituir en la EDO planteada se tiene
Ejemplo práctico
2
𝑑𝑦
𝑑𝑥
= 6𝑥(1 − 𝑦)3
Solución
Es claro que podemos hacer
𝑑𝑦
2 = 6𝑥𝑑𝑥 lo cual se puede integrar de forma muy sencilla lo que es
(1−𝑦)3
𝑑𝑦
∫ 2 = ∫ 6𝑥𝑑𝑥 hágase en dos partes
(1−𝑦)3
𝑑𝑦
∫ 2 = −3 3√1 − 𝑦 “se obtiene integrando por cambio de variable, es decir, haciendo
(1−𝑦)3
𝑢 = 1 − 𝑦”, por otro lado tenemos que ∫ 6𝑥𝑑𝑥 = 3𝑥 2 + 𝑐 lo que nos produce la igualdad
−3 3√1 − 𝑦 = 3𝑥 2 + 𝑐
Esta es la solución y se trata de una familia de funciones ∀𝑐 ∈ ℝ, desde luego que 𝑦 se puede
despejar usando propiedades de los exponentes, función exponencial y logarítmica.
Condiciones iniciales
Una función que es solución de una EDO es una generalización para constantes arbitrarias
𝐶1 , … 𝐶𝑛 ∈ ℝ, cuando tenemos condiciones iniciales, obliga a que las constantes 𝐶1 , … , 𝐶𝑛 ∈ ℝ
tengan un valor especifico, por ejemplo 𝑦(𝑥0 ) = 𝑥, sustituyendo en la EDO nos dará el valor de
cada constante en nuestro conjunto solución.
Factor integrante
Sea la ecuación diferencial lineal de primer orden
𝑑𝑦
+ 𝑝(𝑥)𝑦 = 𝑄(𝑥)
𝑑𝑥
𝑑 𝜇(𝑥)
Luego 𝜇(𝑥)𝑝(𝑥)𝑦 = 𝑦(𝑥) de donde se tiene
𝑑𝑥
𝑑𝜇(𝑥)
𝑝(𝑥) = 𝜇(𝑥)𝑑𝑥 por lo que integrando por variables separables se tiene
𝑑𝜇(𝑥)
∫ 𝑝(𝑥)𝑑𝑥 = ∫ 𝜇(𝑥)
= ln ( 𝜇(𝑥)) luego
𝑑𝑦
𝑒 ∫ 𝑝(𝑥)𝑑𝑥 [𝑑𝑥 + 𝑝(𝑥)𝑦] = 𝐷𝑥 [𝑒 ∫ 𝑝(𝑥)𝑑𝑥 )𝑦]
𝑑𝑦 𝑑𝑦
𝑒 ∫ 𝑝(𝑥)𝑑𝑥 𝑑𝑥 + 𝑒 ∫ 𝑝(𝑥)𝑑𝑥 𝑝(𝑥)𝑦 = 𝑒 ∫ 𝑝(𝑥)𝑑𝑥 𝑑𝑥 + 𝑒 ∫ 𝑝(𝑥)𝑑𝑥 𝑝(𝑥)𝑦
Con lo que ya esta de la forma planteada al inicio de este método, ahora procedemos relacionar los
elementos como:
1
𝑄(𝑥) = 𝑥𝑠𝑖𝑛(𝑥) ; 𝑝(𝑥) = − 𝑥
𝑒 ∫ 𝑝(𝑥)𝑑𝑥 = 𝑒 −ln (𝑥) que por propiedades de los logaritmos y la función exponencial es:
Ya que tengamos esta solución debemos recordar que hicimos un cambio de variable 𝑣 = 𝑦1−𝑛 por
lo que la solución se debe expresar en términos de la variable 𝑦 como corresponde.
Ecuaciones diferenciales exactas
Supongamos una función en dos variables 𝑧 = 𝑓(𝑥, 𝑦) de la cual sabemos su diferencial total, la
𝑑𝑓(𝑥,𝑦) 𝑑𝑓(𝑥,𝑦)
cual es 𝑑𝑧 = 𝑑𝑥
𝑑𝑦 + 𝒅𝒚
𝑑𝑥
Tarea 1.
Para cada una de las siguientes funciones, encuentra una constante de Lipschitz sobre la región
indicada o muestra que no hay.
1. 𝒇(𝒙) = |𝒙|, −∞ < 𝒙 < ∞
Solución
Veamos que por definición, sean 𝑥, 𝑦 ∈ ℝ se tiene que
|𝑓(𝑥) − 𝑓(𝑦)| = |𝑥 − 𝑦| = 1|𝑥 − 𝑦| por lo que la función es 1-Lipschitz
𝟏
2. 𝒇(𝒙) = 𝒙𝟑 , −𝟏 ≤ 𝒙 ≤ 𝟏
Veamos que debemos encontrar si la función es |𝑓(𝑥) − 𝑓(𝑦)| ≤ 𝐿|𝑥 − 𝑦|, bueno, para la función
2
1
dada tenemos que encontrar la primera derivada para ver su comportamiento, esto es 𝑓 ′ (𝑥) = 3 𝑥 −3 ,
luego podemos encontrar el valor máximo en el intervalo [−1,1], veamos
2
1 1
|𝑓 ′ (−1)| = | (−1)−3 | =
3 3
2
1 1
|𝑓 ′ (1)| = | (1)−3 | = por lo que el valor máximo de la derivada ocurre en los extremos del
3 3
intervalo cuando la evaluamos en 1 y -1, por lo tanto la constante de Lipschitz es también el valor
máximo de la derivada por lo que se satisface
1 1
1 1 1
|𝑓(𝑥) − 𝑓(𝑦)| = | 𝑥 3 − 𝑦 3 | ≤ |𝑥 − 𝑦|
3 3 3
𝟏
3. 𝒇(𝒙) = 𝒙 , 𝟏 ≤ 𝒙
Bueno para encontrar la constante de Lipschitz en caso de que exista, encontrare la derivada y con
ella el valor máximo que alcanza la función en el intervalo dado.
La derivada en este caso es:
1
𝑓 ′ (𝑥) = − 𝑥 2 , por lo que ahora para encontrar el valor máximo me fijo en que el domino es [1,∞] y
con esto me doy cuenta que la función es decreciente por lo que alcanza su valor máximo cuando
𝑥 = 1, es decir, que podemos expresar la constante de Lipschitz como sigue
|𝑓(𝑥, 𝑦) − 𝑓(𝑢, 𝑣)| = ||(𝑥 + 2𝑦, −𝑦) − (𝑢 + 2𝑣, −𝑣)|| = ||(𝑥 − 𝑢) + 2(𝑦 − 𝑣), −𝑦 + 𝑣)|| =
√(𝑥 − 𝑢 + 2(𝑦 − 𝑣))2 + (𝑦 − 𝑣)2 ahora, para encontrar la constante de Lipschitz, debemos
encontrar el valor máximo de la razón entre ||𝑓(𝑥, 𝑦) − 𝑓(𝑢, 𝑣)|| y ||(𝑥, 𝑦) − (𝑢, 𝑣)|| en todo el
domino de la función.
2 (𝑦−𝑣)2
Podemos observar que ||𝑓(𝑥, 𝑦) − 𝑓(𝑢, 𝑣)|| ≤ √(𝑥 − 𝑢 + 2(𝑦 − 𝑣)) +
√(𝑥−𝑢)2 +(𝑦−𝑣)2
Podemos acotar la raíz del denominador de la expresión anterior para el valor mínimo del domino
de la función
además podemos acotar la raíz en el numerador de la expresión anterior por la suma de las
diferencias de cada coordenada.
|𝑓(𝑥,𝑦)−𝑓(𝑢,𝑣)| 2|𝑦−𝑣|
|(𝑥,𝑦)−(𝑢,𝑣)|
≤1+ |𝑥−𝑢|
De esta forma podemos concluir que la constante de Lipschitz para la función f(x,y)=(x+2y,-y) es
L=3 en todo el dominio de la función.
𝒙𝒚
5. 𝒇(𝒙, 𝒚) = 𝟏+𝒙𝟐ý𝟐 , 𝒙𝟐 + 𝒚𝟐 ≤ 𝟒
2
6. Considerar la ecuación diferencial 𝑥 ′ = 𝑥 3
(a) Muestra que hay infinitas soluciones satisfaciendo 𝑥(0) = 0 sobre cualquier intervalo cerrado
[0, 𝛽]
(b) ¿Para que valores de 𝛼 hay infinitas soluciones sobre [0, 𝛼] satisfaciendo 𝑥(0) = −1?
1, 𝑠𝑖 𝑥 ≤ 1
7. Definir 𝑓: ℝ → ℝ tal que 𝑓(𝑥) = {
2, 𝑠𝑖 𝑥 > 1
𝑑
(b) Muestra que 𝑑𝑡 √𝑥 2 (𝑡) + 𝑦 2 (𝑡) = 1
Determina si existen soluciones únicas para cada uno de los siguientes problemas de valor inicial.
𝑦 ′ = 3𝑥 + 2𝑦
9.
𝑦(1) = 4
1
𝑦 ′ = 𝑥 2 +𝑦2
10.
𝑦(0) = 0
𝑥−2𝑦
𝑦 ′ = 𝑦−2𝑥
11.
𝑦(1) = 2
𝑦′ = 𝑥2 + 𝑦2
12.
𝑦(0) = 2
1
𝑦 ′ = 𝑥 2 +𝑦2
13.
𝑦(0) = 1
1
𝑦 ′ = 𝑥 2 −𝑦2
14.
𝑦(1) = 2
𝑦 ′ = √𝑥𝑦
15.
𝑦(1) = 0
1
𝑦′ =
16. √𝑥 2 +4𝑦 2 −4
𝑦(3) = 2
a_string[0] #devuelve H
a_string[-1] #devuelve!
#Slicing de un string
a_string[:4] #devuelve Hola
a_string[5:9] #devuelve Mundo
#Longitud del string
len(a_string) #devuelve 11
Los strings son inmutables. Esto quiere decir que no se pueden modificar. Lo que si se puede hacer
es construir un nuevo String a partir de uno o mas strings o hacer una copia del mismo. En caso de
querer modificar un String se levantará una excepción del tipo TypeErorr. Veamos algunos
ejemplos
a_dtring=’Hola Mundo’
a_string[6]=’o’ #Dara un error de tipo TypeError
new_string=a_string+’?’ #Genera el string Hola Mundo!?
new_string=a_string[:6]+’o’+a_string[7:] #Genera el string Hola mondo
Como se puede ver, con el operador + se conectan Strings de manera que se crea un nuevo String a
partir de dos strings preexistentes.
En algunas ocasiones es necesario escapar algún carácter. Por ejemplo, si estoy definiendo el String
con comilla simple y el contenido del String tiene una comilla simple, para que se interprete
correctamente, debo escapar esa comilla simple. Para escapar caracteres dentro de un String se va a
utilizar la barra (\) invertida. En la siguiente tabla se muestra las secuencias de escape mas
utilizadas.
Romina
Álgebra elemental
Se define un campo (hay infinitos campos) que trataremos como nuestro piso firme, sin un campo
es imposible trabajar en matemáticas básicas.
Definición: Se define un campo ℝ donde podemos hacer una suma y un producto, es decir, ℝ es un
conjunto dotado de dos operaciones, una suma y un producto.
- Suma en ℝ
∀𝑎, 𝑏 ∈ ℝ, 𝑎 + 𝑏 = 𝑏 + 𝑎
∀𝑎, 𝑏, 𝑐, ∈ ℝ, 𝑎 + (𝑏 + 𝑐) = (𝑎 + 𝑏) + 𝑐
(∀𝑎 ∈ ℝ)(∃(−𝑎) ∈ ℝ), 𝑎 + (−𝑎) = 0
(∀𝑎 ∈ ℝ)(∃0 ∈ ℝ), 𝑎 + 0 = 𝑎
-Producto en ℝ
∀𝑎, 𝑏 ∈ ℝ, 𝑎𝑏 = 𝑏𝑎
(a) 144=2(72)=2*2*(36)=2*2*2*(18)=2*2*2*2*9=2*2*2*2*3*3=24 32
(b) 362=2*182=2*2*91=2*2*7*13=22 ∗ 7 ∗ 13
Clase 20/03/23
Vamos a hacer definiciones sobre el algebra de rectas y cosas chafitas de productos notables
Definición. Sabemos que ℝ son un campo dotado de dos operaciones, a saber, multiplicación y
suma, las cuales lo definen como un campo.
Definición. Un número se define como positivo si y solo si se puede comparar con el cero de la
siguiente forma 𝑎 > 0. Sin embargo notemos que −𝑎 < 0 lo que es consecuencia de la suma en los
reales.
Teorema. Si 𝑎, 𝑏 ∈ ℝ, y se tiene que ambas son positivas, entonces cuando 𝑎 > 𝑏 se tiene que
𝑎−𝑏 >0
Ejemplo
3 > 1 lo que es lo mismo que 3 − 1 = 2 > 0
Definición (importante) Se define la norma de un numero según sus condiciones iniciales, sea 𝑎 ∈
𝑎, 𝑠𝑖 𝑎 ≥ 0
ℝ, la norma de 𝑎 se define como |𝑎| = {
−𝑎, 𝑠𝑖 𝑎 < 0
Ejemplo
Encontrar los siguientes valores absolutos
(a) |−1| = −(−1) = 1
(b) |5| = 5
(c) |−7| = −(−7) = 7
(d) |14| = 14
Información importante Se tienen las desigualdades como una forma de expresar que una
cantidad es menor, igual o mayor que otra
Teorema El conjunto ℝ tiene un orden, a saber, un par de números 𝑎, 𝑏 ∈ ℝ satisface una y solo
una de las siguientes afirmaciones.
(1) 𝑎 < 𝑏
(2) 𝑏 < 𝑎
(3) 𝑎 = 𝑏
√𝟑𝟐 = |𝟑| = 𝟑
𝟏 𝟐
√𝟑𝟐 = (𝟑𝟐 )𝟐 = 𝟑𝟐 = 𝟑𝟏 = 𝟑 “No es cierto en general”
Problema
Sea 𝑥 2 − 1 = 0 encontrar 𝑥
Esto tiene 2 soluciones, a saber −1 𝑦 1 pues
𝑥2 − 1 = 0
𝑥2 − 1 + 1 = 0 + 1
𝑥2 = 1
√𝑥 2 = √1
|𝑥| = 1
𝑥 = ±1
Ejercicio
(a) 𝑥 2 − 2𝑥 + 1 = 0
𝑥=1
(b) −𝑥 2 + 2𝑥 − 16 = 0
𝑎 = −1, 𝑏 = 2, 𝑐 = −16
Esto no tiene en ℝ pero si en ℂ
1 5
(c) 𝑥 2 + 2 𝑥 − 2 = 0
𝑥1 = 1.3 y 𝑥2 = −1.85
Ejercicio
Encontrar tres números consecutivos tal que al sumarlos den 18.
*Sugerencia, un numero 𝑥 tiene como su consecutivo a 𝑥 + 1 y como su consecutivo a
𝑥+1+1
Solución
(y)+(y+1)+(y+2)=18
Y+y+y+3=18
3y=15
Y=5
Tarea: encontrar 4 números consecutivos que sumen 626.
Definición Sabemos que la velocidad es un vector que satisface ser la distancia dividida por el
tiempo, en palabras mas formales la velocidad es la derivada con respecto al tiempo de la
posición de una particula.
𝑑 𝑑𝑋
Fórmula 𝑣 = 𝑡 lo que se puede expresar en términos del calculo diferencial como 𝑣(𝑡) = 𝑑𝑡
1350[𝑚]
Sustituyendo 𝑣 =
1800[𝑠]
𝒎
Lo que es 𝒗 = 𝟎. 𝟕𝟓[ 𝒔 ]
2. Si un tractor recorre 3.5km con una velocidad de 6[m/s], determinar el tiempo que empleo
para recorrerlos.
3. Una partícula se mueve con ecuación de posición 𝑥(𝑡) = 𝑥 2 + 2𝑥, determinar la velocidad
*Sugerencia, derive la ecuación
Solución
𝑑𝑥 𝑛
Como 𝑥(𝑡) = 𝑥 2 + 2𝑥 usando la ecuación 𝑑𝑥
= 𝑛𝑥 𝑛−1
Solución
Veamos que la derivada primera de la función de posición 𝑟(𝑥) es
𝑑𝑟(𝑟) 𝑑 𝑑 2𝑑 2
𝑑𝑥
= 𝑑𝑥 (𝑥 5 + 2𝑥 2 ) = 𝑥 𝑥 5 + 𝑥
𝑥 = 5𝑥 5−1 + 2 ∗ 2𝑥 2−1 = 5𝑥 4 + 4𝑥 lo que es la velocidad de
la particula luego la aceleración es la segunda derivada lo que me produce
𝑑 𝑑 𝑑
𝑎= (5𝑥 4 + 4𝑥) = 5𝑥 4 + 4𝑥 = 4(5)𝑥 4−1 + 4(1)𝑥 1−.1 = 20𝑥 3 + 4𝑥 0 = 20𝑥 3 + 4
𝑑𝑥 𝑥 𝑑𝑥
5. Encontrar la distancia que recorre una particula si le toma 60 segundos a una velocidad de
𝑑
1.4[m/s] 𝑣 = 𝑡
Clase 24/03/23
Hoy vamos a ver productos de polinomios
Poner atención
Definición: Un polinomio es una expresión de la forma 𝑓[𝑥] = 𝑎0 + 𝑎1 𝑥 1 + 𝑎2 𝑥 2 + ⋯ + 𝑎𝑛 𝑥 𝑛
donde 𝑎𝑖 ∈ ℝ y 𝑛 ∈ ℤ
Información importante: El grado de un polinomio 𝑓[𝑥] se define
𝑔𝑟𝑎𝑑(𝑓[𝑥]) = 𝑚𝑎𝑥{𝑖 ∈ ℕ|𝑥 𝑖 𝑐𝑜𝑛 0 ≤ 𝑖 ≤ 𝑛} y 𝑎𝑛 ≠ 0
Ejemplos
Ejercicio
Determinar el grado de los polinomios siguientes
Teorema (de Pitágoras). En todo triangulo rectángulo se tiene que la suma del cuadrado de los
catetos es igual al cuadrado de la hipotenusa, es decir, sean 𝑎, 𝑏 ∈ ℝ los catetos del triangulo
𝐴𝐵𝐶, y sea 𝑐 ∈ ℝ la hipotenusa, entonces se satisface 𝑎2 + 𝑏 2 = 𝑐 2 .
*Nota, esto solo es válido en triángulos rectángulos, sin embargo, siempre se pueden construir
triángulos rectángulos a partir de cualquier triángulo.
Definición. Todo triángulo rectángulo tiene asociadas 6 razones trigonométricas. A saber:
Para cada ángulo 𝛼, 𝛽 en nuestro triangulo tenemos las siguientes razones (divisiones en
lenguaje corriente)-.
𝑐𝑎𝑡𝑒𝑡𝑜 𝑜𝑝𝑢𝑒𝑠𝑡𝑜
a) sin(𝛼) = 𝐻𝑖𝑝𝑜𝑡𝑒𝑛𝑢𝑠𝑎
𝑐𝑎𝑡𝑒𝑡𝑜 𝑎𝑑𝑦𝑎𝑐𝑒𝑛𝑡𝑒
b) cos(𝛼) = 𝐻𝑖𝑝𝑜𝑡𝑒𝑛𝑢𝑠𝑎
𝑐𝑎𝑡𝑒𝑡𝑜 𝑜𝑝𝑢𝑒𝑠𝑡𝑜
c) 𝑇𝑎𝑛 (𝛼) = 𝐶𝑎𝑡𝑒𝑡𝑜 𝑎𝑑𝑦𝑎𝑐𝑒𝑛𝑡𝑒
𝐶𝑎𝑡𝑒𝑡𝑜 𝑎𝑑𝑦𝑎𝑐𝑒𝑛𝑡𝑒
d) 𝐶𝑜𝑡(𝛼) =
𝐶𝑎𝑡𝑒𝑡𝑜 𝑜𝑝𝑢𝑒𝑠𝑡𝑜
𝐻𝑖𝑝𝑜𝑡𝑒𝑛𝑢𝑠𝑎
e) sec(𝛼) = 𝐶𝑎𝑡𝑒𝑡𝑜 𝑎𝑑𝑦𝑎𝑐𝑒𝑛𝑡𝑒
𝐻𝑖𝑝𝑜𝑡𝑒𝑛𝑢𝑠𝑎
f) csc(𝛼) = 𝐶𝑎𝑡𝑒𝑡𝑜 𝑜𝑝𝑢𝑒𝑠𝑡𝑜
12
Ejercicio Dada 𝑡𝑎𝑛(𝛼) = 5
, encontrar las 5 razones trigonométricas
además de la hipotenusa del triángulo rectángulo considerado.
Teorema: Todas las figuras trigonométricas sin importar si son regulares o no, pueden particionarse
en triángulos para determinar su área total