Universidad Autónoma Metropolitana Unidad Iztapalapa División de Ciencias Básicas e Ingeniería Departamento de Matemáticas

Universidad Autónoma Metropolitana
Unidad Iztapalapa
División de Ciencias Básicas e ingeniería
Departamento de Matemáticas
Este libro lo escribo recopilando los ya varios cursos que he tomado en la Universidad, algunos
resultados no son de mi autoría, lo realmente importante es que todo este trabajo será de apoyo a
una especialización en Seguridad informática, en particular aterrizare los fundamentos de la teoría
de números, algebra lineal, estadística y análisis en la formulación de código limpio para proteger
datos sensibles.
Ramírez Aguirre Uriel Guadalupe

Fundamentos de Álgebra
Algebra Lineal I
Algebra Lineal II
Probabilidad I
Estadística I
1. Análisis combinatorio de datos
1.1 Conceptos elementales
1.2. Descripciones numéricas
1.3 Descripciones graficas
1.4 Variables aleatorias
Inician notas
Definición 1.1. Una población es un conjunto de personas, objetos o eventos, de los cuales nos
interesa estudiar algunas de sus características
Ejemplo 1.1 Los siguientes conjuntos pueden ser considerados como poblaciones para algún
estudio estadístico
- EL conjunto de personas afectadas por una cierta enfermedad
- El conjunto de personas extranjeras que llegan al país en un día
- EL conjunto de artículos defectuosos producidos por una fabrica
- EL conjunto de infracciones de tránsito que se comenten en la ciudad
- EL conjunto de goles que anota un equipo de futbol
- El conjunto de boletas invalidas en un proceso electoral
Definición 1.2. Una unidad de observación es un grupo de elementos de una población de la cual se
tiene, o es posible obtener, su información de manera conjunta.
*La determinación de una unidad de observación depende del problema a estudiar y de la manera en
la que la información pueda ser obtenida o que esté disponible.
Por simplicidad, consideramos que cada elemento de una población es una unidad de observación y
que nos interesa conocer ciertas características de estos elementos.
Definición 1.3 Una muestra es cualquier subconjunto de una población. Al número de elementos de
la muestra, al que denotaremos por la letra 𝑛 se llamara tamaño de la muestra.

Variables y datos
A lo que nos interesa medir y registrar en cada elemento de una población lo llamaremos variable.
Esto es asi pues supondremos que una variable es una característica que varia de un elemento a otro
de la población.
Definición 1.4 Una variable es una característica de interés que posee cada elemento de una
población y que podemos medir.
Definición 1.5 Mediante el término datos se entiende al conjunto de observaciones de una o mas
variables de interés para todos los elementos de la muestra.
*Generalmente, un conjunto de datos se organiza y almacena en una computadora en forma de un
arreglo en tablas.
Clasificación de variables
Una primera clasificación de variables establece que estas pueden ser cuantitativas o cualitativas.
Definición 1.6 Una variable es cuantitativa si sus valores son números y representan una cantidad.
*Dentro de estas variables están las discretas y las continuas.
Definición 1.7 Una variable es cualitativa si sus valores representan una cualidad, un atributo o una
categoría.
Definición 1.8 Una variable cuantitativa es discreta si el conjunto de todos sus posibles valores
tiene un numero finito de elementos, o bien es infinito, pero es numerable.
Definición 1.9 Una variable es continua si puede tomar todos los valores dentro de un intervalo
(𝑎, 𝑏) de números reales y no toma valores aislados.
Escalas de medición
Definición 1.10 Se dice que una variable cualitativa se mide mediante una escala nominal, o que es
de tipo nominal, si sus valores son etiquetas o atributos y no existe un orden entre ellos.
*Por ejemplo, si nos interesa estudiar la variable cualitativa “Sexo” en una población humana, sus
dos posibles valores son: Masculino o femenino, estos dos valores son etiquetas, no existe un orden
entre ellos y por lo tanto se trata de una variable tipo nominal.
Definición 1.11 Se dice que una variable cualitativa se mide mediante una escala ordinal, o que es
de tipo ordinal, si sus valores son etiquetas o atributos, pero existe un cierto orden entre ellos.
*Por ejemplo podemos considerar que la variable cualitativa “estado en el que se encuentra su
artículo” tiene como posibles valores: Malo, regular y bueno.
Definición 1.12 Una variable cuantitativa se mide mediante una escala de intervalo si existe una
noción de distancia entre los valores de la variable, aunque no se pueden realizar operaciones
numéricas y no existe necesariamente el valor natural cero.

*De esta manera no solo tenemos la relación de orden entre los valores de una variable cuantitativa,
sino que dados cualesquiera dos de sus valores podemos saber la distancia entre ellos.
Definición 1.13 Una variable cuantitativa se mide mediante una escala de razón si sus valores
tienen sentido físico y existe el cero absoluto.
*Por ejemplo la variable cuantitativa discreta “edad en años cumplidos de una persona” tiene como
posibilidades 0,1,…,150.
Agrupamiento de valores
Para una variable cualitativa cualquiera tenemos una cierta cantidad de categorías como sus
posibles valores. Algunas categorías pueden agruparse en colecciones de categorías.
Definición 1.14 Una clase es una agrupación de valores de una variable
Definición 1.15 Una marca de clase es un dato que representa una clase.
1.2 Descripciones numéricas

En esta sección se estudian varias fórmulas que tienen como objetico resumir la información de un
conjunto de datos, principalmente numéricos. Supongamos que tenemos un conjunto de 𝑛
mediciones 𝑥1 , … , 𝑥𝑛 las cuales representan valores observados de cierta variable de interés. Existen
varias formas de resumir la información de esta colección de datos.
Media
*La media o media aritmética, de un conjunto de datos numéricos es la medida de localización mas
utilizada
Definición 1.16 La media de un conjunto de números 𝑥1 , … , 𝑥: 𝑛 se denota por 𝑥̅ (que se lee x
barra) y se define como el promedio aritmético
𝑥1 + ⋯ + 𝑥𝑛
𝑥̅ =
𝑛
*La media es un valor que resume y presenta una colección de datos.
*En ocasiones las 𝑛 observaciones numéricas se encuentran registradas de la siguiente forma: se
observan 𝑘 valores distintos, los cuales denotaremos por 𝑥1 , … , 𝑥𝑘 pero esta vez se tienen las
frecuencias con las que se han registrado estos valores. A estas frecuencias las denotaremos por
𝑓1 , … , 𝑓𝑘 y son números mayores o iguales a uno. La suma de estas frecuencias es igual al tamaño 𝑛
de la muestra, lo que es 𝑓1 + ⋯ + 𝑓𝑘 = 𝑛. La media se calcula como hemos indicado antes, pero en
este caso se reduce a la siguiente expresión:
1
𝑥̅ = 𝑛 ∑𝑘𝑖=1 𝑥𝑖 𝑓𝑖
Proposición 1.1 Sea 𝑥̅ la media del conjunto de datos numéricos 𝑥1 , … , 𝑥𝑛 y sea 𝑦̅ la media de los
datos transformados 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑐 para 𝑖 = 1, … , 𝑛 , en donde 𝑎 y 𝑐 son dos constantes arbitrarias,
entonces 𝑦̅ = 𝑎𝑥̅ + 𝑐

Media armónica
Para un conjunto de datos numéricos 𝑥1 , … , 𝑥𝑛 en donde cada uno de ellos es distinto de cero, se
define la media armónica como el numero
1 1 −1
𝑚𝑎(𝑥) = (𝑛 ∑𝑛𝑖=1 𝑥 )
𝑖
Moda
*A diferencia de la media, la moda se puede calcular tanto para valores numéricos como para no
numéricos
Definición 1.17 La moda es el valor que aparece con mayor frecuencia en el conjunto de datos, en
caso de que lo hubiera.
*LA moda es una medida de tendencia central de los datos pues indica el valor observado con
mayor frecuencia
Proposición 1.2 Sea 𝑥1 , … , 𝑥𝑛 un conjunto de datos numéricos con una única moda Moda(x).
Defina la colección de datos transformados 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑐 para 𝑖 = 1, … , 𝑛, en donde 𝑎 ≠ 0 y 𝑐 son
dos datos constantes. Entonces el conjunto de datos transformados 𝑦1 , … , 𝑦𝑛 tiene una única moda
dada por 𝑀𝑜𝑑𝑎(𝑦) = 𝑎𝑀𝑜𝑑𝑎(𝑥) + 𝑐
Mediana
*Esta es otra medida de tendencia central para datos numéricos. Supongamos nuevamente que
tenemos una colección de números 𝑥1 , … , 𝑥𝑛 . Podemos ordenarlos de menor a mayor, incluyendo
repeticiones, y obtener la sucesión ordenada 𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛 en donde 𝑥1 denota el numero mas
pequeño,
Definición 1.18 La mediana de un conjunto de números 𝑥1 , … , 𝑥𝑛 es el dato ordenado de en medio,
esto es:
-Si el número de datos 𝑛 es par, entonces existen dos datos ordenados de en medio y la mediana es
el promedio de estos dos números.
-Si el número de datos 𝑛 es impar, entonces el dato ordenado de en medio del total es el valor de la
mediana.
Proposición 1.3 Sea 𝑥̅ la mediana del conjunto de datos numéricos 𝑥1 , … , 𝑥𝑛 y sea 𝑦̅ la media de los
datos transformados 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑐, para 𝑖 = 1,2, … , 𝑛, en donde, 𝑎 y 𝑐 son constantes arbitrarias.
Entonces 𝑦̅ = 𝑎𝑥̅ + 𝑐
Medidas de dispersión
*estudiaremos algunas cantidades que permiten medir el grado de dispersión de un conjunto de
datos numéricos, EN caso todas estas medidas es necesario considerar un valor central de los datos
como punto de referencia.
Varianza
*La varianza es un promedio de la distancia al cuadrado de cada uno de los datos 𝑥𝑖 respecto a la
media 𝑥̅ y es la medida de dispersión más comúnmente usada.

Definición 1.19. La varianza de un conjunto de números 𝑥1 , . . 𝑥𝑛 se denota por 𝑠 2 y se define como:
1
𝑠 2 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
*Para especificar de que se trata la varianza de un conjunto de datos denotado por 𝑥, se escribe
𝑠𝑥2 , 𝑠 2 (𝑥), o también 𝑣𝑎𝑟(𝑥). Es claro que para calcularla es primero necesario encontrar la media
1
𝑥̅ . La varianza puede definirse como se indica en la formula 𝑠 2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛−1
En esta expresión aparece el denominador 𝑛 − 1 en lugar de 𝑛. Esta formula es usada con mucha
frecuencia debido a que, cuando se aplica al caso de variables aleatorias, satisface una propiedad
estadística importante llamada Insesgamiento.
El siguiente resultado muestra el cambio de la varianza bajo transformaciones lineales de datos.
Multiplicar por una constante corresponde a un cambio de escala y sumar una constante
corresponde a una translación.
Proposición 1.4 Sea 𝑣𝑎𝑟(𝑥) la varianza del conjunto de datos numéricos 𝑥1 , … , 𝑥𝑛 y sea 𝑣𝑎𝑟(𝑦) la
media de los resultados transformados 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑐, 𝑝𝑎𝑟𝑎 𝑖 = 1,2, … , 𝑛 en donde 𝑎 y 𝑐 son
constantes arbitrarias, entonces 𝑣𝑎𝑟(𝑦) = 𝑎2 𝑣𝑎𝑟(𝑥)
El calculo de la varianza para resultados agrupados puede efectuarse de la siguiente forma: si se
tienen 𝑛 observaciones de 𝑘 valores distintos 𝑥1 , . . , 𝑥𝑘 con frecuencias 𝑓1 , . . , 𝑓𝑘 , la varianza se
reduce a la fórmula:
1
𝑠 2 = ∑𝑘𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
𝑛
Desviación estándar
A la raíz cuadrada positiva de la varianza se le llama desviación estándar o desviazaion típica, y se
le denota por la letra 𝑠
Definición 1.20 La desviación estándar de un conjunto de números 𝑥1, 𝑥2 , … , 𝑥𝑛 se denota por la
1
letra 𝑠 y se define como sigue 𝑠 = √ ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛
*A diferencia de la varianza, la desviación estándar posee la buena cualidad de estar expresada en

las mismas unidades de medición que la de los datos observados. Por ejemplo, si los datos son
observaciones de una variable de longitud medida en metros, entonces la varianza tiene unidades de
medida de metros cuadrados, mientras que la desviación estándar expresa una cantidad de metros.
*A continuación se menciona el cambio que tiene la desviación estándar cuando los datos
observados se modifican mediante una transformación lineal. Este resultado es una consecuencia
inmediata del resultado correspondiente a la varianza.
Proposición 1.5 Sea 𝑠(𝑥) la desviaxion estándar del conjunto de datos numéricos 𝑥1 , . . , , 𝑥𝑛 y sea
𝑠(𝑦) la desviación estándar de los datos transformados 𝑦𝑖 = 𝑎𝑥𝑖 + 𝑐 para 𝑖 = 1,2, … 𝑛 en donde 𝑎, 𝑐
son constantes arbitrarias. Entonces 𝑠(𝑦) = |𝑎|𝑠(𝑥)
*Claramente el calculo de la desviación estándar para datos agrupados se lleva a cabo de la
siguiente forma; Si se tienen 𝑛 observaciones de 𝑘 valores distintos 𝑥1 , . . , 𝑥𝑘 con frecuencias
𝑓1 , … , 𝑓𝑘 la desviación estándar es:

1
𝑠 = √𝑛 ∑𝑘𝑖=1 (𝑥𝑖 − 𝑥̅ )2 𝑓𝑖
Desviación media
Al promedio de los valores absolutos de las diferencias entre los datos y la media se le llama
desviación media.
Definición 1.21 La desviación media del conjunto de números 𝑥1 , … , 𝑥𝑛 se denota por 𝑑𝑚(𝑥) y se
calcula de la siguiente forma
1
𝑑𝑚(𝑥) = ∑𝑛𝑖=1 |𝑥𝑖 − 𝑥̅ |
𝑛
*La desviación medida de la dispersión de un conjunto de datos numéricos.

Existe también el termino desviación media absoluta (mean absolute deviation) que se calcula antes
pero tomando a la mediana de los datos como punto central y no la media 𝑥̅ como lo hemos hecho
aquí.
*La desviación media cambio bajo transformaciones lineales de los datos, como se muestra en el
siguiente resultado.
Proposición 1.6 Sea 𝑥 el conjunto de datos numéricos 𝑥1 , … , 𝑥𝑛 y sea 𝑎𝑥 + 𝑐 el conjunto de datos
transformados 𝑎𝑥𝑖 + 𝑐, para 𝑖 = 1,2, … , 𝑛, en odnde 𝑎, 𝑐 son constantes arbitrarias. Entonces
𝑑𝑚(𝑎𝑥 + 𝑐) = |𝑎|𝑑𝑚(𝑥)
Rango
Para calcular esta cantidad es necesario identificar el dato mas pequeño 𝑥1 y el dato mas grande 𝑥𝑛
de un conjunto de números 𝑥1 , … , 𝑥𝑛 . El rango se denota por la letra 𝑟 y se degine como el dato
mayor menos el dato menor.
Definición 1.22 El rango de un conjunto de números 𝑥1 , … , 𝑥𝑛 es 𝑟 = 𝑥𝑛 − 𝑥1
*Es claro que el rango es un conjunto de un conjunto de números es una medida de dispersión pues
indica la distancia máxima entre cualesquiera dos datos.
*Otra propiedad interesante del rango establece lo siguiente:
transformados 𝑎𝑥𝑖 + 𝑐, para 𝑖 = 1,2,3, … , 𝑛 en donde 𝑎, 𝑐 son constantes arbitrarias. Entonces
𝑟(𝑎𝑥 + 𝑐) = |𝑎|𝑟(𝑥)
Coeficiente de variación
Esta es una cantidad con la cual se propone una forma distinta de mediar la dispersión de un
conjunto de datos numéricos.

Definición 1.23 Sea 𝑥1 , . . , 𝑥𝑛 una colección de 𝑛 observaciones de una variable cuantitativa con
media 𝑥̅ ≠ 0 y desviación estándar 𝑠(𝑥). Al siguiente cociente se le conoce como coeficiente de
𝑠(𝑥)
variación 𝑐𝑣 = 𝑥̅
*Recordamos que tanto la desviación estándar 𝑠(𝑥) como la media 𝑥̅ poseen las mismas unidades
de medición, por lo tanto el cociente de estas cantidades no posee unidades de medición, y luego
este numero se puede usar para comparar la dispersión de dos o mas conjuntos de datos numéricos.
Veamos una propiedad importante del coeficiente de variación
trasnformados 𝑎𝑥𝑖 + 𝑐, para 𝑖 = 1,2, … , 𝑛 en donde 𝑎 ≠ 0 y 𝑐 son constantes. Entonces
|𝑎|𝑠(𝑥)
𝑐𝑣(𝑎𝑥 + 𝑐) = 𝑎𝑥̅ +𝑐
*Para el caso de datos agrupados, las cantidades 𝑠(𝑥) y 𝑥̅ se calculan como se ha indicado
anteriormente en esta situación y después se aplica directamente la fórmula de la definición
anterior.
Momentos
Las cantidades que hemos definido como media y varianza pueden generalizarse a un concepto mas
amplio llamado momento.
Definición 1.24 Sea 𝑥 una colección de observaciones 𝑥1 , … . , 𝑥𝑛 de una variable cuantitativa y sea
𝑘 ≥ 1 un numero entero. A la cantidad definida a continuación se le llama el 𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento,
o también el momento de orden 𝑘 del conjunto de datos
1
𝑚𝑘 ´(𝑥) = 𝑛 ∑𝑛𝑖=1 𝑥𝑖𝑘
*Se trata simplemente del promedio aritmético de cada uno de los datos elevados a la potencia 𝑘.
*Cada momento es una medida de cierta característica de los datos. Sin embargo, no se conoce la
característica que se esta midiendo en cada caso, únicamente se conoce para los primeros
momentos. Por ejemplo, el primer momento es la media y esta media es una medida de localización
o centralidad de los datos; el segundo momento esta relacionado con la varianza y esta es una
medida de dispersión de los datos; el tercer momento esta relacionado con la asimetría de los datos,
el cuarto momento esta relacionado con la forma de las colas de la grafica de frecuencias de los
datos, es decir de la manera en la que decae o se desvanece a cero la grafica de frecuencias en sus
dos extremos: izquierdo y derecho. Existen además otros tipos de momentos como el siguiente:
Definición 1.25 El 𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento centra, o bien el momento central de orden 𝑘 del conjunto
1
de datos numéricos 𝑥1 , … , 𝑥𝑛 es 𝑚𝑘 (𝑥) = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )𝑘
𝑛
*Es decir, tenemos nuevamente un promedio aritmético pero esta vez se trata de los datos
centralizados al restarles a cada uno de ellos la media 𝑥̅ .
Frecuencias

Supongamos que 𝐶1 , … , 𝐶𝑘 representan 𝑘 categorías de una variable cualitativa, o bien
agrupamientos excluyentes y exhaustivos de los valores de una variable cuantitativa. A estas
categorías de agrupamiento les hemos llamado clases, y la letra 𝐶 ayuda a recordar su significado.
Al hacer 𝑛 observaciones de la variable en estudio se puede contar el número de veces que cada una
de estas clases fue observada. Supongamos que la clase 𝐶𝑖 fie observada 𝑓𝑖 veces 𝑖 = 1,2,3, . . , 𝑘 . A
estas cantidades se les llama frecuencias absolutas o simplemente frecuencias.
Definición 1.26 La frecuencia de una clase (categoría o conjunto de valores) es el número de veces
que la clase fue observada.
*Como se tienen 𝑛 observaciones de la variable, tenemos que 𝑓1 , 𝑓2 , … , 𝑓𝑘 = 𝑛
Definición 1.27 La frecuencia acumulada de una clase (categoría o conjunto de valores) es el
número total de veces que la clase considerada, junto con las clases anteriores, fueron observadas.
*Es decir, como antes 𝑓1 , … , 𝑓𝑘 denotan las frecuencias de las clases 𝐶1 , … , 𝐶𝑘 , entonces la
frecuencia acumulada de la clase 𝐶𝑗 es la suma 𝑓1 + ⋯ , 𝑓𝑗 .
Definición 1.28 La frecuencia relativa de una clase (categoría o conjunto de valores) es el número
de veces que la clase fue observada dividiendo entre el total de observaciones.
𝑓1 𝑓
*De esta manera si 𝑓1 , … , 𝑓𝑘 son las frecuencias absolutas, entonces las cantidades ,…, 𝑘 son las
𝑛 𝑛
frecuencias relativas, suponiendo que fueron 𝑛 observaciones totales.
Definición 1.29 La frecuencia relativa acumulada de una clase (categoría o conjunto de valores) es
la suma de las frecuencias relativas anteriores e inclusive la clase en cuestión.
𝑓1 𝑓𝑗
*Es decir, la frecuencia relativa acumulada de la clase 𝐶𝑗 es la suma +. . +
𝑛 𝑛
En resumen, veamos la siguiente tabla

Clase Frecuencia relativa Frecuencia relativa Frecuencia relativa
acumulada acumulada porcentual
𝐶1 𝑓1 𝑓1 𝑓
100* 1 %
𝑛
𝑛 𝑛
𝐶2 𝑓2 𝑓1 𝑓2 𝑓 𝑓
100*( 𝑛1 + 𝑛2 ) %
+
𝑛 𝑛 𝑛
… … … …
𝐶𝑘 𝑓𝑘 𝑓1 𝑓𝑘 𝑓 𝑓
100*( 𝑛1 + ⋯ + 𝑛𝑘)%
+ ⋯+
𝑛 𝑛 𝑛
Cuantiles
Consideremos nuevamente 𝑥1 , . . , 𝑥𝑛 en un conjunto de 𝑛 observaciones de una cierta variable
cuantitativa de interés, y que estos valores se ordenan de menor a mayor, conservando las
repeticiones. Un cuantil es un numero que separa a los datos en dos partes, un cierto porcentaje de
los datos son menores o iguales al cuantil y el porcentaje complementario corresponde a datos que
son mayores o iguales al cuantil.
*Para dar una definición mas precisa de cuantil consideraremos que 𝑝 es un numero cualquier
conocido tal que 0 < 𝑝 ≤ 1. Este valor determinara a los porcentajes de los que hablamos en el

párrafo anterior. Por ejemplo, podemos suponer que 𝑝 = 0.5. Entonces el cuantil es un numero 𝑐 tal
que la proporción de valores 𝑥𝑖 que son menores o iguales a 𝑐 es del 50%, es decir, la mitad de los
datos son menores o iguales al cuantil. Al mismo tiempo debe cumplirse que la proporción de
valores 𝑥𝑖 que son mayores o iguales a 𝑐 es el porcentaje complementario, esto es, el 50%. En ese
caso al número 𝑝 se le llama cuantil de orden 𝑝 = 0.5 o bien cuantil 50% y no es difícil darse
cuenta que pueden existir distintos cuantiles, 5%, 10%, 50% o cualquier otro porcentaje dado por la
expresion 100𝑝%, con 0 < 𝑝 ≤ 1. Con las ideas anteriores, podemos dar ahora una definición
formal de cuantil para un conjunto de datos numéricos.
Definición 1.30 Sea 𝑥1 , … , 𝑥𝑛 observaciones de una variable cuantitativa y sea 𝑝 un numero tal que
0 < 𝑝 ≤ 1. Un cuantil-p del conjunto de datos es un numero 𝑐 tal que cumple con las siguientes dos
condiciones al mismo tiempo
#{𝑥𝑖 :𝑥𝑖 ≤𝑐} #{𝑥𝑖 𝑥 ≥𝑐}
𝑖
𝑛
≥𝑝y 𝑛
≥ 1−𝑝
*Recordamos que si 𝐴 es un conjunto, entonces la expresión #𝐴 representa la cardinalidad del

conjunto
Coeficiente de asimetría (Skewness)
La cantidad que llamaremos coeficiente de asimetría (en inglés Skewness) es una medida de la
simetría (falta de simetría) de un conjunto de datos numéricos 𝑥1 , … , 𝑥𝑛 . Si 𝑥̅ es la media y 𝑠 la
desviación estándar, entonces el coeficiente de asimetría se define como el siguiente número.
Definición 1.31 El coeficiente de asimetría (skewness) de un conjunto de números 𝑥1 , … , 𝑥𝑛 es la
cantidad
1 1 𝑛
𝑠𝑘 = ( ∑ (𝑥 − 𝑥̅ )3 ) .
𝑠3 𝑛 𝑖=1 𝑖
*Recordamos que 𝑠 2 denota la varianza, en consecuencia el término 𝑠 3 se calcula de la forma

siguiente
3
3
1
3
𝑠 = (𝑠 2 )2 = ( ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ))2 2
𝑛
*El coeficiente de asimetría no posee unidad de medición, es un numero que puede ser positivo,
negativo o cero. Su signo es positivo cuando la grafica de frecuencias de los datos presenta una cola
mas alargada hacia la derecha de la media. En cambio el singo del coeficiente de asimetría es
negativo cuando la gráfica de frecuencias presenta una cola mas alargada hacia la izquierda de la
media.
*El siguiente resultado muestra como se comporta el coeficiente de asimetría bajo transformaciones
lineales
Proposición 1.9 Sea 𝑠𝑘(𝑥) el coeficiente de asimetría del conjunto de datos numéricos 𝑥1 , . . , 𝑥𝑛 ,
Sean 𝑎 ≠ 0 y 𝑐 dos constantes, y considere los datos transformados 𝑎𝑥1 + 𝑐, … , 𝑎𝑥𝑛 + 𝑐. Entonces
𝑎
𝑠𝑘(𝑎𝑥 + 𝑐) = |𝑎| 𝑠𝑘(𝑥)
Curtosis

La curtosis es un numero que denotaremos por la letra 𝑘, y se define de la siguiente manera.
Definición 1.32 La curtosis de un conjunto de números 𝑥1 , … , 𝑥𝑛 es la cantidad
1 1
𝑘 = 4 ( ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )4 )
𝑠 𝑛
*Recordamos nuevamente que 𝑠 2 denota la varianza, en consecuencia, el termino 𝑠 4 denota la

varianza al cuadrado y se calcula de la siguiente forma.
1
𝑠 4 = (𝑠 2 )2 = (𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )4 )
*La curtosis es un numero positivo que no tiene una cantidad de medición. Cuando una observación
𝑥𝑖 dista mucho de la media 𝑥̅ , al elevar esta distancia a la cuarta potencia hace que se magnifiquen
las distancias grandes. Por lo tanto, la curtosis grande puede indicar un mayor número de datos
alejados de la media, hacia uno u otro lado, y por ello a la curtosis se le interpreta como una media
de la forma de las colas de la distribución o del conjunto de datos. Por la expresión “colas” nos
referimos aquí a si están son amplias o bien ligeras (“inexistentes”). Es claro que, en términos de los
𝑚
momentos centrales, la curtosis puede escribirse de la siguiente manera 𝑘 = 42.
𝑚2
*El siguiente resultado muestra que la curtosis es invariante bajo transformaciones lineales.
Proposición 1.10 Sea 𝑘(𝑥) la curtosis del conjunto de datos numéricos 𝑥1 , . . , 𝑥𝑛 , sean 𝑎 ≠ 0 y 𝑐
dos constantes, y considere los datos transformados 𝑎𝑥1 + 𝑐, … , 𝑎𝑥𝑛 + 𝑐. Entonces
𝑘(𝑎𝑥 + 𝑐) = 𝑘(𝑥)
*Se debe advertir que también se denomina con el nombre de curtosis (o excess kurtosis) a la
cantidad que aparece a continuación, debido a que la curtosis de la distribución normal es igual a 3,
con esta nueva definición, la curtosis de la distribución normal es ahora cero.
1 1 𝑛
𝑘3 = ( ∑ (𝑥 − 𝑥̅ )3 ) − 3
𝑠4 𝑛 𝑖=1 𝑖
Resumen de las formulas

*Descripciones numéricas de un conjunto de datos 𝑥1 , . . , 𝑥𝑛
Nombre Descripción (fórmula)
𝑛
Media 1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
Moda Dato con mayor frecuencia
Mediana Dato ordenado de en medio (o el promedio si son 2)
Varianza 1 𝑛
𝑠 2 = ∑ (𝑥𝑖 − 𝑥̅ )2
𝑛 𝑖=1
Desviación 𝑠 = √𝑠 2
estándar
Desviación 1 𝑛
media 𝑑𝑚 = ∑ |𝑥𝑖 − 𝑥̿ |
𝑛 𝑖=1
Rango 𝑟 = 𝑥𝑛 − 𝑥1
Coeficiente de 𝑠
𝑐𝑣 =
variación 𝑥̅

1 𝑛
Momentos
𝑚𝑘′ = ∑ 𝑥𝑖𝑘
𝑛 𝑖=1
1 𝑛
Momentos
centrales 𝑚𝑘 = ∑ (𝑥𝑖 − 𝑥̅ )𝑘
𝑛 𝑖=1
Cuantil al Al menos 100𝑝% de los daros son menores al cuantil y al menor 100(1-𝑝)% de
100𝑝% los datos don mayores al cuantil.
Curtosis 1 1
𝑘 = 4 ( (𝑥𝑖 − 𝑥̅ )4 )
𝑠 𝑛
1.4 Variables aleatorias

En las secciones anteriores hemos considerado variables cualitativas y cuantitativas. En lo que resta
de este trabajo, consideraremos en su mayor parte variables cuantitativas. Pero no consideraremos
valores numéricos observados 𝑥1 , … , 𝑥𝑛 sino variables aleatorias. Una variable aleatoria es una
función 𝑋 definida sobre una población y cuyos valores son números reales.
*Las descripciones numéricas para conjuntos de datos numéricos 𝑥1 , … , 𝑥𝑛
Se pueden extender a variables aleatorias 𝑋.
Resumen de formulas
Descripciones numéricas para una variable aleatoria 𝑿 con función de densidad o de

probabilidad 𝒇(𝒙)
∞
Media
𝜇 = 𝐸(𝑥) = ∫ 𝑥𝑓(𝑥)𝑑𝑥
−∞
Moda Valor 𝑥 en donde 𝑓(𝑥) es máxima
1 1
Mediana Valor 𝑚 tal que 𝑃(𝑋 ≤ 𝑚) ≥ y 𝑃(𝑋 ≥ 𝑚) ≥
2 2
∞
Varianza
𝜎 2 = 𝐸(𝑋 − 𝜇)2 = ∫ (𝑥 − 𝜇)2 𝑓(𝑥)𝑑𝑥
−∞
Desviación estándar 𝜎 = √𝜎 2
∞
Desviación media
𝐸|𝑋 − 𝜇| = ∫ |𝑥 − 𝜇|𝑓(𝑥)𝑑𝑥
−∞
Rango Conjunto de valores de la variable aleatoria
Coeficiente de variación 𝜎
𝜇
∞
Momentos
𝜇𝑘 ´ = 𝐸(𝑋 𝑘 ) = ∫ 𝑥 𝑘 𝑓(𝑥)𝑑𝑥
−∞
∞
Momentos centrales
𝜇𝑘 = 𝐸(𝑋 − 𝜇)𝑘 = ∫ (𝑥 − 𝜇)𝑘 𝑓(𝑥)𝑑𝑥
–∞
Cuantil al 100𝑝% Valor 𝑥 tal que 𝑃(𝑋 ≤ 𝑥) ≥ 𝑝 y 𝑃(𝑋 ≥ 𝑥) ≥ 1 − 𝑝
Asimetría 𝜇3
𝜎3
Curtosis 𝜇4
𝜎4

2. Estimación puntual
2.1 Introducción
Sea 𝑋 una variable aleatoria de interés en un experimento aleatorio, y supongamos que hemos
aceptado que 𝑋 tiene una función de densidad o de probabilidad conocida 𝑓(𝑥, 𝜃), que no esta
completamente especificada, pues depende de un parámetro desconocido denotado aquí por la letra
𝜃. El problema que estudiaremos es el de estimar este parámetro teniendo como información una
serie de observaciones de la variable aleatoria. ¿Cómo se puede llevar a cabo esta estimación? El
problema de estimación puntual consiste en encontrar la función de las observaciones, cuto valor
pueda usarse para estimar el parámetro desconocido.
*Consideremos que 𝑋 es una variable aleatoria con función de densidad o de probabilidad conocida
𝑓(𝑥, 𝜃), pero dependiente de un parámetro desconocido 𝜃. De esta manera, se tiene toda una familia
de distribuciones de probabilidad: una distribución de cada valor del parámetro 𝜃. Denotaremos por
Θ al conjunto de valores que puede tomar este parámetro y le llamaremos espacio muestral.
Definición 2.1. Al conjunto de todos los posibles valores de un parámetro de una distribución de
probabilidad se le llama espacio muestral y se le denotara por la letra Θ.
*En realidad, el parámetro 𝜃 puede ser una cantidad unidimensional, es decir, un solo parámetro, o
bien un vector de dos o más parámetros 𝜃 = (𝜃1 , 𝜃2 , … , 𝜃𝑛 ). Por otro lado, sabemos que existen
distribuciones de probabilidad que no dependen de ningún parámetro; sin embargo, aquí estamos
considerando la situación en donde por lo menos hay un parámetro involucrado y es desconocido.
*Tenemos asi la colección o la familia parametral {𝑓(𝑥, 𝜃): 𝜃 ∈ Θ} de funciones de densidad o de
probabilidad, en donde la letra 𝜃 es el nombre genérico que utilizaremos para denotar a un posible
parámetro, veamos pues algunos ejemplos:
- Para la distribución 𝐵𝑒𝑟(𝜃), el parámetro 𝜃 toma valores en el espacio parametral Θ = (0,1)
- Para la distribución 𝑏𝑖𝑛(𝑘, 𝑝), el parámetro 𝜃 es el vector de parámetros (𝑘, 𝑝) y el espacio
muestral es el producto cartesiano Θ = {1,2, … }𝑥(0,1)
-Para la distribución 𝑁(𝜇, 𝜎 2 ), el parámetro 𝜃 es el vector de parámetros (𝜇, 𝜎 2 ) y el espacio
parametral es el conjunto Θ = (−∞, ∞)𝑥(0, ∞) correspondiente a la mitad superior del plano
cartesiano.
*Supongamos ahora que 𝑥1 , … , 𝑥𝑛 son observaciones independientes que se han obtenido de la
variable aleatoria de interés. Es claro que estos valores observados pueden dar algún indicio del
valor desconocido del parámetro 𝜃. El problema que se plantea es el siguiente: ¿Cómo podemos
usar estas observaciones para estimar el parámetro 𝜃 para que de esta manera la función de
densidad o de probabilidad 𝑓(𝑥, 𝜃) quede completamente especificada?
*En el tratamiento que seguiremos no vamos a considerar observaciones particulares 𝑥1 , … , 𝑥𝑛 sino
observaciones aleatorias. Escribiremos entonces a estas como la colección de variables aleatorias
𝑋1 , … , 𝑋𝑛 e impondremos dos condiciones fuertes sobre ellas; independencia e idéntica distribución.
A esta colección se le llama muestra aleatoria, lo que se abrevia usando las iniciales 𝑚. 𝑎.
Definición 2.2 Una muestra aleatoria es una colección de variables aleatorias 𝑋1 , … , 𝑋𝑛 que son
independientes e idénticamente distribuidas.

*Las dos hipótesis mencionadas son características ideales de las 𝑛 observaciones de la variable
aleatoria y que no necesariamente se cumplen en una situación real, pero facilitan
considerablemente el análisis probabilístico de los modelos. Sobre la independencia, tenemos que
un valor observado para una de las variables no influye o afecta en la distribución de probabilidad
de cualquier otra variable, siendo esta distribución la misma para cada una de las observaciones.
Esto ultimo se refiere a la idéntica distribución. Supondremos, entonces que todas las variables de
una muestra aleatoria tienen la misma función de densidad o de probabilidad 𝑓(𝑥, 𝜃).
En particular, la primera observación 𝑥1 puede ser un valor 𝑋1 , la segunda observación 𝑥2 puede ser
un valor 𝑋2 , etcétera. Así, las variables aleatorias 𝑋1 , … , 𝑋𝑛 representan 𝑛 observaciones al azar e
independientes de la variable aleatoria de estudio. Al numero 𝑛 ≥ 1 se le llama tamaño de la
muestra aleatoria y, a menos que se especifique lo contario, supondremos que este entero es
conocido.
Los estimadores que buscamos serán funciones de una muestra aleatoria y a tales funciones les
llamaremos 𝑒𝑠𝑡𝑎𝑑𝑖𝑠𝑡𝑖𝑐𝑎𝑠. Precisamos esta definición a continuación.
Definición 2.3 Una estadística es una función de una muestra aleatoria que no depende de
parámetros desconocidos.
*Denotemos oír 𝑇,o mas explícitamente por 𝑇(𝑋1 , … , 𝑋𝑛 ), a una de estas funciones de la muestra
aleatoria. En nuestro estudio, consideraremos que esta función es una variable aleatoria y que tiene
como un posible valor el numero 𝑇(𝑥1 , … , 𝑥𝑛 ). Debe hacerse énfasis en que la expresión mediante
la cual se mide una estadística no debe depender de los parámetros desconocidos, únicamente de las
variables de la muestra aleatoria y del tamaño de esta, pues, justamente, sus valores serán usados
como estimaciones para el parámetro desconocido y estos deben poder determinarse únicamente a
través de las variables aleatorias de la muestra aleatoria. Sin embargo, ocurrirá que la distribución
de probabilidad de una estadística dependerá, en general, del parámetro desconocido 𝜃.
*El concepto de estadística que acabamos de definir es importante. La razón de ello es que nuestros
estimadores serán objeto de este tipo. Nos interesara conocer las características y la distribución de
probabilidad de estas variables aleatorias, aunque solo en algunos pocos casos podremos determinar
completamente la distribución de una estadística.
*Veremos a continuación algunos ejemplos es estadísticas. Algunas de ellas tienen nombre y
notación particular por su uso frecuente.
Ejemplo 2.3 A la estadística denotada por 𝑋̅ (se lee X barra) y que se define a continuación, se le
llama media muestral. Esta variable aleatoria es simplemente el promedio aritmético de los
1
elementos de la muestra aleatoria, es decir, 𝑋̅ = ∑𝑛𝑖=1 𝑥𝑖 si 𝑥1 , … , 𝑥𝑛 son valores particulares de las
𝑛
variables de la muestra aleatoria, entonces la media muestral es el numero 𝑥̅ definido antes,
1
𝑥̅ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖
Ejemplo 2.4 La siguiente función de una muestra aleatoria es una estadística y se le conoce con el
nombre de varianza muestral
1
𝑠 2 = 𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2

Observe que en este promedio aparece un termino 𝑛 − 1 en el denominador y no el numero se
sumandos 𝑛. Más adelante justificaremos esta elección, Si 𝑥1 , … , 𝑥𝑛 son valores particulares de las
variables de la muestra aleatoria, entonces el valor de la varianza muestral es el numero
1
𝑠 2 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
Ejemplo 2.5 Sea 𝑘 un entero tal que 1 ≤ 𝑘 ≤ 𝑛. La 𝑘 − 𝑒𝑠𝑖𝑚𝑎 estadística de orden de una muestra
aleatoria de tamaño 𝑛 es una variable aleatoria definida de la siguiente forma
𝑋(𝑘) = 𝑘 − 𝑒𝑠𝑖𝑚𝑜 min {𝑋1 , … , 𝑋𝑛 }
Esto es, 𝑋1 es la primera estadística de orden, o bien puntualmente, 𝑥1 (𝑤) =

𝑚𝑖𝑛{𝑋1 (𝑤), … , 𝑋𝑛 (𝑤)}, 𝑋2 es la segunda estadística de orden, etc. Se debe prservar que estas
variables aleatorias no son necesariamente alguna de las variables de la muestra aleatoria, sino que
son funciones de todas ellas en la forma indicada arriba. Además, las estadísticas de orden no son
independientes pues guardan siempre el orden ascendente 𝑋1 ≤ ⋯ ≤ 𝑋𝑛
Ejemplo 2.6 Sea 𝑘 ≥ 1 un entero. A la estadística que aparece abalo se le conoce con el nombre de
𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento muestral. Se trata del promedio aritmético de las variables aleatorias de la
muestra elevadas a la potencia 𝑘. Cuando 𝑘 = 1, esta estadística se reduce a la media muestral
1
𝑇 = 𝑛 ∑𝑛𝑖=1 𝑋𝑖𝑘
*Para mayor claridad veremos algunos ejemplos de funciones de una muestra aleatoria que no son
estadísticas.
Ejemplo 2.7 Sean 𝑋1 , … , 𝑋𝑛 una muestra aleatoria de la distribución de Poisson (𝜃), en donde el
parámetro 𝜃 > 0 es conocido, la variable aleatoria 𝑇 = 𝜃 𝑋1 +⋯+𝑋𝑛 no es una estadística puesto que
en su definición aparece el parámetro desconocido 𝜃.
Ejemplo 2.8 Sea 𝑋1 , … , 𝑋𝑛 una muestra aleatoria de la distribución 𝑁(𝜇, 𝜎 2 ), en donde los
1 𝑋 −𝜇
parámetros 𝜇 y 𝜎 2 son desconocidos, La variable aleatoria 𝑇 = ∑𝑛𝑖=1 𝑖 no es una estadística
√𝑛 𝜎
puesto que en su definición aparecen los parámetros desconocidos 𝜇 y 𝜎 2 . Sin embargo, puede
demostrarse que la distribución de 𝑇 no depende de ningún parámetro desconocido, se trata de la
distribución normal estándar.
*Cuando alguna estadística se proponga o se construya con el objetivo de servir como estimador
para un parámetro desconocido 𝜃 se le denotara, de manera sugerente por 𝜃̂, y se le llamara un
estimador. EL símbolo 𝜃̂ se lee “teta circunflejo”. Aquí tenemos pues la definición
Definición 2.4 Un estimador puntual para un parámetro desconocido 𝜃 es una estadística denotada
por 𝜃̂ que se propone para estimar el parámetro.
*Observe que si 𝑥1 , … , 𝑥𝑛 son valores particulares de las variables de la muestra aleatoria, entonces
el numero 𝜃̂(𝑥1 , … , 𝑥𝑛 ) es una estimación de 𝜃, mientras que la variable aleatoria 𝜃̂ (𝑋1 , … , 𝑋𝑛 ) es
un estimador para 𝜃. Si se omiten argumentos, ambos objetos simplemente se escriben como 𝜃̂, y
puede representar tal vez con un poco de confusión, tanto una estimación como un estimador. El
contexto y la forma de tratar a 𝜃̂ determinara si nos referimos a la estimación o al estimador.

*Como ejemplo de estimador tenemos que la media muestral 𝜃̂ = 𝑥̂ puede ser usada para estimar el
parámetro desconocido 𝜃 en la distribución 𝐵𝑒𝑟(𝜃), pues este promedio indica la proporción de
valores 1 en el total de la muestra aleatoria. Sin embargo, no es clara la forma de proponer
estimadores para el parámetro o parámetros desconocidos de una distribución cualquiera. Surge el
problema de encontrar mecanismos para generar estadísticas que puedan servir como estimadores
para los parámetros desconocidos de las distintas distribuciones de probabilidad. ¿Cómo encontrar
posibles estimadores para encontrar un parámetro desconocido 𝜃? Lo veremos próximamente.
2.2 Método de momentos

Este método para encontrar estimadores fue introducido por Karl Pearson a principios del siglo XX.
Consideremos nuevamente que 𝑓(𝑥, 𝜃) es la función de densidad o de probabilidad de una variable
aleatoria 𝑋 que depende de un parámetro desconocido 𝜃. El método de momentos nos provee de un
mecanismo general para estimar 𝜃 y para explicarlo necesitamos recordar antes dos conceptos.
Definición 3.5 Sea 𝐾 ≥ 1 un entero. El 𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento de una variable aleatoria 𝑋, si existe,
es el numero 𝐸(𝑋 𝑘 ).
*A los números 𝐸(𝑥), 𝐸(𝑥 2 ), 𝐸(𝑥 3 ), … se les llama también momentos poblacionales. En general en
las expresiones de estas cantidades aparece el parámetro o vector de parámetros 𝜃, los cuales son de
nuestro interés. Por otro lado, supongamos que 𝑋1 , … , 𝑋𝑛 es una muestra aleatoria de la distribución
de estudio. Tenemos la siguiente definición de otros tipos de momentos.
Definición 2.6 Sea 𝑘 ≥ 1 un entero. El 𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento de una muestra aleatoria 𝑋1 , … , 𝑋𝑛 es
1
la variable aleatoria ∑𝑛𝑖=1 𝑋𝑖𝑘 .
𝑛
*Estas variables aleatorias se les llama momentos muestrales. En particular, el primer momento
muestral es la media muestral 𝑋̂. Ahora podemos enunciar el método de momentos.
¿En que consiste el método de momentos?
Consiste en igualar los momentos muestrales con los correspondientes momentos poblacionales y
resolver esta ecuación, o sistema de ecuaciones, para el parámetro o vector de parámetros, cuando
ello sea posible.
*Se igualan tantos momentos como parámetros haya que estimar, suponiendo que suficientes
momentos poblacionales existen para la distribución en cuestión y que son distintos de cero. El
método de momentos es muy sencillo de aplicar y lo ilustraremos a continuación con algunos
ejemplos.
Ejemplo 2.9 Sea 𝑋1 , … , 𝑋𝑛 una muestra aleatoria de la distribución 𝐵𝑒𝑟(𝜃), en donde 𝜃 es
desconocido. La estimación de 𝜃 por el método de momentos consiste en igualar el primer
momento de la distribución, que es 𝜃, con el primer momento muestral, que es 𝑋̅. Esta igualación
produce directamente la identidad 𝜃̂ = 𝑋̅
*Observe que cuando se ha hecho la igualación ya no se escribe 𝜃 sino 𝜃̂, pues resolver la ecuación
para este termino produce el estimador por el método de momentos. De esta manera si 𝑥1 , … , 𝑥𝑛 son
𝑥 +⋯+𝑥
los valores de las observaciones, entonces el promedio 𝑥̅ = 1 𝑛 𝑛 es la estimación para 𝜃 pro el
método de momentos.

Ejemplo 2.10 Sea 𝑋 una variable aleatoria continua con función de densidad
𝜃−1
𝑓(𝑥, 𝜃) = {𝜃𝑥 , 𝑠𝑖 0 < 𝑥 < 1
0, 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
*En donde 𝜃 > 0 es un parámetro desconocido. Supongamos que contamos con una muestra
aleatoria 𝑋1 , 𝑋2 , … , 𝑋𝑛 de esta distribución. Puede comprobarse, sin mucha dificultad, que 𝐸(𝑋) =
1 ̂
𝜃
(1+𝜃)
. La igualación de esta esperanza con la media muestral produce la ecuación (1+𝜃̂) = 𝑋̂.
Observe nuevamente que al escribir esta identidad hemos puesto 𝜃̂ en lugar de 𝜃.
𝑋̂
Resolviendo para 𝜃̂ se obtiene el estimador 𝜃̂ = 1−𝑋̂.
1
Si 𝑥1 , … , 𝑥𝑛 son los valores numéricos observados, entonces 𝜃̂ = es el valor estimado para 𝜃
1+𝑥̅
por el método de momentos.
*En los ejemplos anteriores solo ha habido un parámetro por estimar. En el siguiente ejemplo
consideraremos un caso importante en donde es necesario estimar dos parámetros.
Ejemplo 2.11 Encontraremos estimadores para los parámetros 𝜇, 𝜎 2 de una distribución normal
mediante el método de momentos. Como se necesitan estimar dos parámetros, se usan los dos
primeros momentos. EL primero y segundo momentos poblacionales son 𝐸(𝑋) = 𝜇 y 𝐸(𝑥 2 ) =
𝜎 2 + 𝜇2 . La igualación respectiva de estas cantidades con los dos primeros momentos muestrales
produce el sistema de ecuaciones
𝜇̂ = 𝑋̂
̂2 = 1 ∑𝑛 𝑋 2
𝜎̂2 + 𝜇 𝑖=1 𝑖𝑛
Al hacer la igualación entre los momentos hemos escrito 𝜇̂ en lugar de 𝜇 y 𝜎̂2 en lugar de 𝜎. Se trata
de resolver este sistema de ecuaciones para 𝜇̂ y 𝜎 2 . La primera ecuación es explicita, mientras que
la segunda se puede rescribir como sigue
1 1 𝑛−1
𝜎̂2 = 𝑛 ∑𝑛𝑖=1 𝑋𝑖2 − 𝑋̂2 = 𝑛 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 = 𝑛 𝑆 2
La segunda igualdad no es inmediata, pero solo se requiere llevar a cabo algunas operaciones
algebraicas sencillas para obtenerla. De esta manera hemos obtenido estimadores para el método de
momentos para los dos parámetros de la distribución normal. Si 𝑥1 , … , 𝑥𝑛 son las observaciones
obtenidas, entonces las estimaciones, por el método de momentos son
1
𝜇̂ = 𝑛 ∑𝑛𝑖=1 𝑥𝑖
1
𝜎̂2 = ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
𝑛
*En el ejemplo siguiente se muestran algunos problemas técnicos que pueden surgir al aplicar el
método de momentos.
Ejemplo 2.12 Sea 𝑋 una variable aleatoria continua con función de densidad 𝑢𝑛𝑖𝑓(−𝜃, 𝜃), en
donde 𝜃 > 0 es un parámetro desconocido. Aplicar el método de momentos para encontrar un
estimador para 𝜃 requiere conocer el primer momento de esta distribución. Puede comprobarse que

el primero momento es nulo, de modo que la igualación del primer momento poblacional y el
primero momento muestral no produce una ecuación útil de la cual puede obtenerse un estimador
𝜃2
para 𝜃, a saber 0 = 𝑋̅. Se propone entonces igualar los segundos momentos. Como 𝐸(𝑥 2 ) = , se3
obtiene la ecuación
1̂ 1
3
𝜃2 = 𝑛 ∑𝑛𝑖=1 𝑋𝑖2 ,
De donde se obtiene el estimador
3
𝜃̂ = √𝑛 ∑𝑛𝑖=1 𝑋𝑖2
*Mostrados ya algunos ejemplos del método de momentos para estimar parámetros, haremos ahora
algunas observaciones generales que es bueno tener presente cuando se haga uso de este método.
- Aplicación. El método de momentos puede aplicarse sin distinción alguna tanto para
distribuciones discretas como continuas.
-Uso de los momentos. La idea fundamental del método hace uso del hecho que, bajo ciertas
condiciones, la sucesión de momentos 𝐸(𝑥), 𝐸(𝑥 2 ), … determina de manera única a la distribución
de probabilidad. En el método solo se usan los primeros pocos momentos (los necesarios para
estimar 𝜃 y de esta manera determinar completamente a la distribución, pues estamos suponiendo
que se conoce su forma). Observemos, que en general, en las expresiones de estos momentos
aparece el parámetro 𝜃. Por otro lado, la igualación de estos momentos con los momentos
muestrales no es extraña pues por la ley de los grandes números, cuando el tamaña de la muestra 𝑛
es grande, el 𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento muestral es cercano al 𝑘 − 𝑒𝑠𝑖𝑚𝑜 momento poblacional. Por
ejemplo, para los dos primeros momentos tenemos que
1 𝑛
∑ 𝑋 ≈ 𝐸(𝑋)
𝑛 𝑖=1 𝑖
1 𝑛
∑ 𝑋2 ≈ 𝐸(𝑥 2 )
𝑛 𝑖=1 𝑖
Así los momentos muestrales son usados para determinar, de manera aproximada, la distribución de
probabilidad.
-Existencia de los momentos. El método de momentos presupone que existen y se pueden
encontrar expresiones sencillas para los momentos de la distribución en estudio, y que estas
dependen del parámetro o vector de parámetros a estimar. Estas condiciones no necesariamente se
cumplen. Por ejemplo, puede comprobarse que la siguiente distribución no posee ningún momento
finito: para 𝜃 > 0,
𝜃𝑥 −2 , 𝑠𝑖 𝑥 ≥ 0
𝑓(𝑥, 𝜃) = {
0, 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
En este caso el método de momentos no puede aplicarse
-solución al sistema de ecuaciones. El método presupone que la ecuación o sistema de ecuaciones
resultante de la igualación de los momentos muestrales y poblacionales tiene una unca solución y
que esta es sencilla de encontrar. En general, esto no es asi. Cuando se tienen dos o más parámetros,
el sistema de ecuaciones puede no ser sencillo de resolver, puesto que las ecuaciones no son
necesariamente lineales. Y suponiendo que es posible resolver el sistema de ecuaciones, las

expresiones que se encuentran pueden no tener una forma compacta o sencilla. Por ejemplo,
considere el caso de la distribución ℎ𝑖𝑝𝑒𝑟𝑔𝑒𝑜(𝑁, 𝐾, 𝑛), en donde los tres parámetros son
desconocidos. El sistema de ecuaciones resultante no es fácil de resolver.
-Valores del parámetro. El método de momentos no garantiza que el estimador encontrado tome
valores en el espacio muestral correspondiente. ¨Pr ejemplo, si un parámetro toma valores enteros,
el método de momentos no necesariamente produce un estimador con valores enteros. Por ejemplo
si consideramos que el parámetro 𝑝 es conocido en la distribución 𝑏𝑖𝑛(𝑘, 𝑝) y deseamos estimar el
parámetro desconocido 𝑘 mediante el método de momentos, entonces es inmediato encontrar la
𝑋̂
solución 𝑘̂ = , lo que no necesariamente produce un valor entero.
𝑝
Algunos estimadores por el método de momentos
Distribución Parámetro(s) Estimador(es)

𝑢𝑛𝑖𝑓{1,2, … , 𝑘} 𝑘 ∈ {1,2,3 … } 𝑘̂ = 2𝑋̂ − 1
𝐵𝑒𝑟(𝑝) 𝑝 ∈ (0,1) 𝑝̂ = 𝑋̂
𝑏𝑖𝑛(𝑘, 𝑝) 𝑘 ∈ {1,2, … } 𝑚12
𝑝 ∈ (0,1) 𝑘̂ =
𝑚1 − (𝑚2 − 𝑚12 )
𝑚2 − 𝑚12
𝑝̂ = 1 −
𝑚1
𝑔𝑒𝑜(𝑝) 𝑝 ∈ (0,1) 1
𝑝̂ =
1 − 𝑋̅
𝑏𝑖𝑛 𝑛𝑒𝑔(𝑟, 𝑝) 𝑟 ∈ {1,2,3, … } 𝑚12
𝑝 ∈ (0,1) 𝑟̂ =
𝑚2 − 𝑚12 − 𝑚1
𝑚1
𝑝̂ =
𝑚2 − 𝑚12
𝑝𝑜𝑖𝑠𝑠𝑜𝑛(𝜆) 𝜆 ∈ (0, ∞) 𝜆̂ = 𝑋̅
𝑢𝑛𝑖𝑓(𝑎, 𝑏) 𝑎<𝑏 4𝑚12 − 3𝑚2
𝑎̂ =
2𝑚1 − 1
3𝑚2 − 2𝑚1
𝑏̂ =
2𝑚1 − 1
exp (λ) 𝜆 ∈ (0, ∞) 1
𝜆̂ =
𝑋̂
𝑔𝑎𝑚𝑚𝑎(𝛾, 𝜆) 𝛾 ∈ (0, ∞) 𝑚12
𝜆 ∈ (0, ∞) 𝛾̂ =
𝑚2 − 𝑚12
𝑚1
𝜆̂ =
𝑚2 − 𝑚12
𝑁(𝜇, 𝜎 2 ) 𝜇 ∈ (−∞, ∞) 𝜇̂ = 𝑋̅
𝜎 2 ∈ (0, ∞) 𝑛−1 2
𝜎̂2 = 𝑆
𝑛
𝑏𝑒𝑡𝑎(𝑎, 𝑏) 𝑎 ∈ (0, ∞) 𝑚1 (𝑚1 − 𝑚2 )
𝑎̂ =
𝑏 ∈ (0, ∞) 𝑚2 − 𝑚12
(1 − 𝑚1 )(𝑚1 − 𝑚2 )
𝑏̂ =
𝑚2 − 𝑚12
𝜒 2 (𝑘) 𝑘 ∈ (0, ∞) 𝑘̂ = 𝑋̅
𝑡(𝑘) 𝑘 ∈ (0, ∞) 2𝑚2
𝑘̂ =
𝑚2 − 1

𝐹(𝑎, 𝑏) 𝑎 ∈ (0, ∞) 2𝑚12
𝑏 ∈ (0, ∞) 𝑎̂ =
𝑚12 − 𝑚2 (2 − 𝑚1 )
2𝑚1
𝑏̂ =
𝑚1 − 1
2.3 Método de máxima verosimilitud

Este importante método para estimar parámetros fue difundido ampliamente por el estadístico inglés
𝑅𝑜𝑛𝑑𝑎𝑙 𝐹𝑖𝑠ℎ𝑒𝑟 a través de varios trabajos publicados durante la década de 1920. Sin embargo, la
idea fundamental del método había sido usada con anterioridad por varios matemáticos importantes
como 𝐶. 𝐹. 𝐺𝑎𝑢𝑠𝑠 y 𝑃. −𝑆. 𝐿𝑎𝑝𝑙𝑎𝑎𝑐𝑒. La idea que subyace en el método de máxima verosimilitud
aparece en la solución de muchos otros problemas de la estadística.
*Para expresar este método, primero definiremos una función llamada Verosimilitid. Tomaremos
como base una colección de variables aleatorias cuya distribución depende de un parámetro
desconocido que se desea estimar.
Definición 2.7 La función de verosimilitud de un vector aleatorio (𝑋1 , … , 𝑋𝑛 ) cuya distribución
depende del parámetro 𝜃se define como la función de densidad o de probabilidad conjunta
𝐿(𝜃) = 𝑓𝑋1 , … , 𝑓𝑋𝑛 (𝑥1 , … , 𝑥𝑛 , 𝜃) [2.1]
*Como la notación lo sugiere, nos interesa estudiar esta función como función del parámetro 𝜃.
Los valores de este parámetro se encuentran en un cierto espacio muestral Θ, y ese es el dominio de
definición de la función de verosimilitud. EL parámetro desconocido 𝜃 puede tomar valores en un
conjunto discreto, o bien en todo un conjunto de valores, dependiendo de la distribución de
probabilidad considerada. Los números 𝑥1 , … , 𝑥𝑛 son tratados como constantes y son los valores
particulares de las variables aleatorias con el correspondiente subíndice.
*Observemos que en la definición no se esta suponiendo necesariamente que las variables aleatorias
𝑋1 , . . , 𝑋𝑛 constituyen una muestra aleatoria. Sin embargo, cuando sea este el caso, por la hipótesis
de independencia, la función de verosimilitud adquiere la forma del siguiente producto.
𝐿(𝜃) = 𝑓𝑋1 (𝑥1 , 𝜃) … . 𝑓𝑋𝑛 (𝑥𝑛 , 𝜃) [2.2]
Y asi ahora se usa la hipótesis de idéntica distribución, entonces se pueden omitir los subíndices de
estos factores y escribir
𝐿(𝜃) = 𝑓(𝑥1 , 𝜃) … 𝑓(𝑥𝑛 , 𝜃)
*En la mayoría de los casos consideraremos que la información proviene de una muestra aleatoria
y, por lo tanto, la ultima expresión es la que utilizaremos para la función de verosimilitud. La letra 𝐿
procede del término en inglés 𝐿𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑, que tradicionalmente se ha traducido como
verosimilitud.
¿En qué consiste el método de máxima verosimilitud?
Consiste en encontrar el valor 𝜃 que maximiza a la función 𝐿(𝜃). Al valor de 𝜃 en donde 𝐿(𝜃)
alcanza su máximo se le llama estimación de máxima verosimilitud o estimación máximo verosímil.

*La idea intuitiva es muy natural; se debe encontrar el valor de 𝜃 de tal forma que los datos
observados 𝑥1 , … , 𝑥𝑛 tengan máxima probabilidad de ser obtenidos. La probabilidad de observar
estos valores esta directamente relacionada con la función de verosimilitud, por ello se pide
maximizarla. En el caso de una distribución discreta , la función de verosimilitud es exactamente la
probabilidad de observar los valores 𝑥1 , … , 𝑥𝑛 . En ocasiones se usa la expresión 𝜃̂𝑚𝑣 para denotar el
estimador por máxima verosimilitud para 𝜃. EL significado de las letras que aparecen como
subíndices es evidente.
*Veamos ahora algunos ejemplos
Ejemplo 2.13 Encontremos el estimador máximo verosímil para el parámetro desconocido de una
distribución exp (𝜃). Suponiendo dada una muestra aleatoria de tamaño 𝑛 de esta distribución, la
función de verosimilitud, es para 𝜃 > 0
𝐿(𝜃) = 𝑓(𝑥1 , 𝜃) … . 𝑓(𝑥𝑛 , 𝜃)
= 𝜃𝑒 −𝜃𝑥1 … 𝜃𝑒 −𝜃𝑥𝑛 = 𝜃 𝑛 𝑒 −𝜃𝑛𝑥̅

*Maximizar la función 𝐿(𝜃) es equivalente a maximizar 𝑙𝑛𝐿(𝜃), pues la función logaritmo es
continua y monótona creciente en su dominio de definición. Hacemos la operación anterior debido a
que la función resultante es mas fácil de maximizar como veremos a continuación. Tenemos que
𝑙𝑛𝐿(𝜃) = 𝑛𝑙𝑛(𝜃) − 𝜃𝑛𝑥̅
Derivando respecto de 𝜃 e igualando a cero, se llega a la ecuación
𝑛
− 𝑛𝑥̅ = 0
𝜃
1
De donde se obtiene 𝜃̂ = . Observe que hemos escrito 𝜃̂ en lugar de 𝜃 en esta última expresión.
𝑥̅
Calculando la segunda derivada se puede comprobar que en este punto la función de verosimilitud
tiene, efectivamente, un máximo. Si 𝑥1 , … , 𝑥𝑛 son los valores numéricos observados del a muestra
1
aleatoria, entonces el numero 𝜃̂(𝑥1 , … , 𝑥𝑛 ) = 𝑥̅ es la estimación máximo verosímil. EL estimador
1
máximo verisímil es, entonces, la variable aleatoria 𝜃̂ = 𝑋̅
*En el ejemplo anterior fue conveniente maximizar la expresión 𝑙𝑛𝐿(𝜃) en lugar de 𝐿(𝜃). Existe
una equivalencia entre ambas expresiones en el sentido de que el punto en donde se alcanza el
máximo de una de las funciones es el mismo que para la otra función, aunque los valores máximos
serán distintos. Observe que no nos interesa calcular el valor máximo de la función de verosímil,
sino el punto en el que alcanza ese valor máximo. Con frecuencia se usan trasformaciones de este
tipo para encontrar con mayor facilidad el punto buscado.
Por razones de simplicidad hemos escrito la función de densidad de la distribución exponencial
como 𝑓(𝑥, 𝜃 ) = 𝜃𝑒 −𝜃𝑥 , sin especificar que 𝑥 > 0. En sentido estricto, la expresion anterior se le
debe multiplicar por la función indicadora 1(0,∞) (𝑥). Esto no tuvo consecuencias en el calculo
anterior pues en esta función indicadora no aparece el parámetro 𝜃. Sin embargo, en aquellas
distribuciones en donde el soporte involucra al parámetro a estimar, es crucial incorporar al calculo
la función indicadora correspondiente.

Ejemplo2.14 Sea 𝑋1 , … , 𝑋𝑛 una muestra aleatoria de una distribución 𝑔𝑒𝑜(𝜃), con parámetro 𝜃
desconocido. Encontraremos el estimador por máxima verosimilitud para 𝜃. La función de
verosimilitud es, para 𝜃 ∈ (0,1),
𝐿(𝜃) = 𝑓(𝑥1 , 𝜃) … 𝑓(𝑥𝑛 , 𝜃) = 𝜃(1 − 𝜃)𝑥1 … 𝜃(1 − 𝜃)𝑥𝑛 = 𝜃 𝑛 (1 − 𝜃)𝑛𝑥̅

Tomando logaritmo se obtiene 𝑙𝑛𝐿(𝜃) = 𝑛𝑙𝑛(𝜃) + 𝑛𝑥̅ ln (1 − 𝜃). Derivando respecto de 𝜃 e
igualando a cero se llega a la ecuación
𝑛 𝑛𝑥̅
𝜃
− 1−𝜃 = 0
1
De donde se obtiene que la estimación es el número 𝜃̂ = . Hemos escrito 𝜃̂ en lugar de 𝜃. De
1+𝑥̅
esta identidad se sigue que el estimador máximo verosímil es la variable aleatoria
1
𝜃̂ =
1+𝑋̅
*Nuevamente, mediante el cálculo de la segunda derivada se puede comprobar que el valor

encontrado es un punto crítico en donde la función de verosimilitud tiene efectivamente un máximo
global en el espacio parametral Θ = (0,1)
*El método de máxima verosimilitud puede aplicarse también en el caso cuando la distribución
depende de dos o más parámetros. En el siguiente ejemplo encontraremos los estimadores por
máxima verosimilitud para los dos parámetros de la distribución normal.
Ejemplo 2.15 dada una muestra aleatoria de tamaño 𝑛 de la distribución 𝑁(𝜇, 𝜎 2 ), en donde ambos
parámetros son desconocidos, la función de verosimilitud es, para valores 𝜇 ∈ ℝ y 𝜎 2 > 0
𝐿(𝜇, 𝜎 2 ) = 𝑓(𝑥1 ; 𝜇, 𝜎 2 ) … 𝑓(𝑥𝑛 ; 𝜇, 𝜎 2 )

(𝑥 −𝜇)2 (𝑥 −𝜇)2
1 − 1 2 1 − 𝑛 2
= 2
𝑒 2𝜎 … 2
𝑒 2𝜎
√2𝜋𝜎 √2𝜋𝜎
𝑛
1 1
= (2𝜋𝜎2 ) exp (− 2𝜎2 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2 )
2
Buscamos encontrar el punto donde esta función de dos variables alcanza su valore máximo.
Nuevamente, el algoritmo de esta función adquiere una expresión más sencilla. Tenemos que
𝑛 1
𝑙𝑛𝐿(𝜇, 𝜎 2 ) = − 2 ln(2𝜋𝜎 2 ) − 2𝜎2 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2
Por lo tanto, tomemos derivadas parciales

𝜕 1
𝜕𝜇
𝑙𝑛𝐿(𝜇, 𝜎 2 ) = 𝜎2 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)
𝜕 𝑛 1
𝜕𝜎 2
𝑙𝑛𝐿(𝜇, 𝜎 2 ) = − 2𝜎2 + 2𝜎4 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2
Igualando ambas derivadas a cero, encontramos un sistema de dos ecuaciones con dos variables
1
∑𝑛 (𝑥 − 𝜇) = 0
𝜎 2 𝑖=1 𝑖
𝑛 1
− 2𝜎2 + 2𝜎4 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2 = 0

1 1
De estas se obtiene 𝜇 = 𝑛 ∑𝑛𝑖=1 𝑥𝑖 y 𝜎 2 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇̂ )2 . Por lo tanto, los estimadores por el
método de máxima verosimilitud son
1
𝜇̂ = 𝑛 ∑𝑛𝑖=1 𝑋𝑖 = 𝑋̅
1 𝑛−1 2
𝜎̂ 2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 = 𝑆
𝑛 𝑛
*Para verificar que la función de verosimilitud tiene, efectivamente, un máximo en el punto

encontrado, es necesario calcular la matriz hessiana.
𝜕2 𝜕2
𝜕𝜇𝜕𝜇
𝑙𝑛𝐿(𝜇, 𝜎 2 ) 𝜕𝜇𝜕𝜎 2
𝑙𝑛𝐿(𝜇, 𝜎 2 )
𝐻(𝜇, 𝜎 2 ) = ( 𝜕2 𝜕2
)
𝑙𝑛𝐿(𝜇, 𝜎 2 ) 𝑙𝑛𝐿(𝜇, 𝜎 2
)
𝜕𝜎 2 𝜕𝜇 𝜕𝜎 2 𝜕𝜎 2
Se evalúa 𝐻 en el punto (𝜇̂ , 𝜎̂ 2 ) y comprueba que la matriz 𝐻(𝜇̂ , 𝜎̂ 2 ) es negativa definida.

*Observemos que para esta distribución, los estimadores por máxima verosimilitud coinciden con
los encontrados anteriormente por el método de momentos. Esto no siempre es asi.
*Debe advertirse que la aplicación de las derivadas para encontrar el máximo de una función de
verosimilitud no siempre produce expresiones cerradas para el estimador o estimadores, como en
los casos mostrados. Por ejemplo, para la distribución 𝑔𝑎𝑚𝑚𝑎(𝛾, 𝜆), con ambos parámetros
desconocidos, se encuentra que 𝛾̂ y 𝜆̂ satisfacen ciertas ecuaciones que no son fáciles de resolver y
algún método numérico debe utilizarse.
El siguiente ejemplo muestra algunas otras dificultades técnicas que pueden surgir al buscar el
máximo de una función de verosimilitud.
Ejemplo 2.16 Consideremos dad una muestra aleatoria de tamaño 𝑛 de una distribución 𝑢𝑛𝑖𝑓(0, 𝜃),
cuya función de densidad se puede escribir como sigue
1
𝑓(𝑥, 𝜃) = 𝜃 1(0,𝜃) (𝑥)
En donde 𝜃 > 0 es un parámetro desconocido que deseamos estimar. La función de verosimilitud es

1 1
𝐿(𝜃) = 𝜃𝑛 1(0,𝜃) (𝑥1 ) … 1(0,𝜃) (𝑥𝑛 ) = 𝜃𝑛 1(𝑥(𝑛) ,∞) (𝜃) ∗ 1(0,∞) (𝑥(1) )
Se puede comprobar que la función 𝐿(𝜃) es constante cero hasta el valor 𝑥(𝑛) = max 𝑥𝑖 y toma la
1
expresión después de ese valor.
𝜃𝑛
*Después de haber mostrado algunos ejemplos del método de máxima verosimilitud, haremos ahora
algunas observaciones generales sobre este interesante método para estimar parámetros.
- Aplicación. El método de máxima verosimilitud puede aplicarse sin distinción alguna, tanto para
distribuciones discretas, como continuas. Para el caso de distribuciones discretas, puede convenir
usar funciones indicadoras como exponentes para escribir la función de probabilidad como una sola
expresión sobre el soporte de la distribución. Esto se muestra a continuación.

𝑝1 𝑠𝑖 𝑥 = 𝑥1
1{𝑥1 }𝑥 1{𝑥2 }𝑥
𝑓(𝑥) = { 2 𝑠𝑖 𝑥 = 𝑥2 = {𝑝1
𝑝 𝑝2 … . 𝑠𝑖 𝑥 = 𝑥1 , 𝑥2 , …
… 0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
-Momentos vs verosimilitud. EL método de máxima verosimilitud no produce necesariamente los
mismos estimadores que el método de momentos. Esto es asi porque en cada método se busca el
valor de 𝜃 que cumpla ciertas características, y estas son diferentes en cada caso.
-Aplicación general. En los ejemplos mostrados se aplicó el método de máxima verosimilitud
cuando la función de verosimilitud toma forma del producto de la ecuación [2.2]. Esto es
consecuencia de la hipótesis de independencia de las variables de la muestra aleatoria. Sin embargo,
el método es mas general y se pueden aplicar también cuando no se tenga esta hipótesis de
independencia y la función a maximizar es la que aparece en la ecuación [2.1]
-Diferenciabilidad. EL procedimiento usual de maximización de la función de verosimilitud a
través del cálculo de derivadas, puede llevarse a cabo únicamente cuando el parámetro toma un
continuo de valores, cuando la función sea diferenciable y cuando ésta alcance un máximo global en
un único punto de su dominio. Sin embargo, el método de máxima verosimilitud no presupone
necesariamente el uso de las derivadas para su aplicación. Por ejemplo, si un parámetro toma
valores enteros, otra técnica de maximización, otra técnica debe usarse.
-Solubilidad. Desde el punto de vista práctico, se aplica el método de máxima verosimilitud si no
es demasiado difícil entontar el punto en donde la función de verosimilitud es máxima. Por ejemplo,
en el caso de la distribución gama, suponiendo ambos parámetros desconocidos, no existe una
formula explicita para el punto en donde la función de verosimilitud alcanza su máximo.
-Valores del parámetro. Suponiendo la existencia de un estimador máximo verosimilitud, y a
diferencia del método de momentos, el método de máxima verosimilitud garantiza que la
estimación toma un valor en el espacio parametral correspondiente. Esto es asi por la especificación
misma del método: la función de verosimilitud se debe maximizar sobre el espacio parametral.
-Difeomorfismos. Como se ha ilustrado en los ejemplos, en algunas ocasiones resulta mas
conveniente maximizar el logaritmo de la función de verosimilitud que la función de verosimilitud
misma. Cualquier otra función monótona y diferenciable puede ser usada convenientemente.
-Cambios en el espacio parametral. Si se reduce el espacio parametral, es decir, si se reduce el
dominio en el que está definida la función de verosimilitud, es muy posible que el máximo no sea el
mismo, y por lo tanto, el estimador verosímil puede cambiar. Asi pues, considerar cambios en el
espacio parametral puede hacer aún más difícil el proceso de encontrar el estimador máximo
verosímil para un parámetro.
*Existen otros métodos para encontrar estimadores puntuales de parámetros. Dos de ellos son el
método de la 𝑗𝑖 − 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑎 y 𝑒𝑙 𝑚𝑒𝑡𝑜𝑑𝑜 𝑑𝑒 𝑙𝑎 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑚𝑖𝑛𝑖𝑚𝑎
Funciones parametrales
*En ocasiones nos interesa estudiar funciones de un parámetro o un conjunto de parámetros de una
distribución. Tal concepto se formaliza en la siguiente definición.
Definición 2.8 Sea 𝜃 un parámetro o vector de parámetros de una distribución. A cualquier función
𝜃 → 𝜏(𝜃) se le llama función parametral.

*Veamos algunos ejemplos
-Si la distribución en estudio es exp (𝜃), entonces 𝜏(𝜃) = 𝜃 2 − 1 es un ejemplo de una función
parametral.
-En el caso de la distribución 𝑏𝑖𝑛(𝑛, 𝑝) se puede definir la función parametral correspondiente a la
media 𝜏(𝑛, 𝑝) = 𝑛𝑝
- De manera general, los momentos de una distribución (suponiendo su existencia) son funciones de
los posibles parámetros.
-La probabilidad de los distintos eventos son ejemplos de funciones parametral: Si 𝑋 es una variable
aleatoria con distribución dependiente de uno o más parámetros, entonces la probabilidad 𝑃(𝑋 ∈ 𝐴)
es una función parametral para cada conjunto 𝐴 de Borel de ℝ
-Los cuartiles de una distribución son ejemplos de funciones parametrales.
*Estaremos interesados en encontrar estimadores también para estas funciones parametrales, y en
estos casos, por supuesto, a los parámetros individuales.
*Supongamos ahora que 𝜃̂ es el estimador máximo verosímil para 𝜃. Si consideramos a una función
parametral 𝜏(𝜃) como un nuevo parámetro que necesita ser estimado por el método de máxima
verosimilitud, ¿Será cierto que su estimador máximo verosímil es 𝜏(𝜃)?. Para resolver esta
pregunta, observemos que no está claro cuál es la función de verosimilitud asociada a la función
parametral 𝜏(𝜃). Vamos a definir primero esta función y después daremos una respuesta a la
pregunta planteada.
Definición 2.9 La función de verosimilitud asociada a una función parametral 𝜏(𝜃) se denota por
𝐿 ∗ y se define de la forma siguiente, si 𝜂 es un posible valor de 𝜏(𝜃), entonces
𝐿 ∗ (𝜂) = 𝑠𝑢𝑝{𝐿(𝜃): 𝜃 ∈ 𝜏 −1 (𝜂)} [2.3]

*Al posible valor 𝜂̂ que maximiza 𝐿 ∗ (𝜂) se le llama el estimador máximo verosímil para 𝜏(𝜃)
*Observemos que el conjunto que aparece en la identidad [2.3] corresponde a un conjunto no vacío
de todas las evaluaciones 𝐿(𝜃) en donde 𝜃 es una preimagen del valor 𝜂 y se puede escribir como
𝐿(𝜏 −1 (𝜂)), esto corresponde a la aplicación de la función 𝐿 en cada elemento del conjunto 𝜏 −1 (𝜂),
la cual estamos definiendo como la función de verosimilitud de la función parametral 𝜏(𝜃). Veamos
pues algunos ejemplos:
Ejemplo 2.18 Sea 𝐿(𝜃) la función de verosimilitud de una muestra aleatoria de distribución 𝐵𝑒𝑟(𝜃)
con 0 < 𝜃 < 1. Daremos dos ejemplos de funciones parametrales y encontraremos las funciones de
verosimilitud correspondientes.
-Consideremos la función parametral 𝜏(𝜃) = 𝜃 2 . En este caso la función parametral también toma
valores en el intervalo (0,1) como lo hace 𝜃 y es una función uno a uno. La función de
verosimilitud para 𝜏(𝜃) se puede escribir como sigue: Para 0 < 𝜂 < 1. 𝐿 ∗ (𝜂) = 𝐿−1 (𝜏 −1 (𝜂)) =
𝐿(√𝜂)
- Ahora consideremos la función parametral 𝜏( 𝜃) = 𝜃(1 − 𝜃). Esta función también toma valores
en (0,1), para cada uno de sus valores 𝜂, hay dos preimágenes, 𝜃1 y 𝜃2 , asi la función de
verosimilitud para 𝜏(𝜃) puede escribirse como sigue: Para 0 < 𝜂 < 1

𝐿 ∗ (𝜂) = 𝐿(𝜏 −1 (𝜂)) = 𝐿(√𝜂)
*El siguiente resultado justifica la forma de definir la función de verosimilitud para una función
parametral, pues de esta manera se responde afirmativamente a la pregunta planteada líneas arriba.
Teorema 2.1(Principio de invarianzas) SI 𝜃̂ es el estimador máximo verosímil para un parámetro

𝜃, entonces el estimador máximo verosímil para una función parametral 𝜏(𝜃) es 𝜏(𝜃̂).
∇ Demostración
Consideremos primero el caso cuando la función 𝜃 → 𝜏(𝜃) es uno a uno. Entonces la función
inversa de 𝜏 existe y la función de verosimilitud para 𝜏(𝜃) se puede expresar de la siguiente forma:
si 𝜂 = 𝜏(𝜃), 𝐿 ∗ (𝜂) = 𝐿(𝜏 −1 (𝜂)) = 𝐿(𝜃).
De esta manera, el máximo de 𝐿 ∗ (𝜂) coincide con el máximo de 𝐿(𝜃) y este ultimo se alcanza en
𝜃̂. Entonces 𝐿 ∗ (𝜂) alcanza su máximo en 𝜂 = 𝜏(𝜃̂).
Veamos ahora el caso cuando 𝜃 → 𝜏(𝜃) no necesariamente es una función uno a uno. Por la
identidad [2.3], el valor máximo del conjunto de valores 𝐿 ∗ (𝜂) coincide con el valor máximo de
𝐿(𝜃). Este último se alcanza en 𝜃̂. Por lo tanto, si 𝜂̂ es el valor 𝜏(𝜃̂) entonces
𝐿 ∗ (𝜂̂ ) = 𝐿 ∗ ( 𝜏(𝜃̂)) = 𝐿( 𝜏 −1 (𝜏(𝜃̂))) ∋ 𝐿(𝜃̂)
La última afirmación establece que 𝐿(𝜃̂) es un valor formado por la función 𝐿 ∗ (𝜂). Como 𝐿(𝜂̂ ) es
el valor máximo de 𝐿(𝜃), también es el valor máximo de 𝐿 ∗ (𝜂) y se alcanza para esta ultima
función en 𝜂 = 𝜏(𝜃̂)
*Observemos que el principio de invarianza es también valido cuando el parámetro 𝜃 es un vector

de parámetros. En efecto, en la demostración que hemos presentado no se presupone que 𝜃 sea
un parámetro unidimensional. Veamos algunos ejemplos de este resultado.
Ejemplo 2.19 El estimador máximo verosímil para el parámetro 𝜃 en la distribución 𝐵𝑒𝑟𝑛𝑎𝑢𝑙𝑙𝑖 es

𝑋̅. Entonces el estimador máximo verosímil para la función Parametral 𝜃 2 es 𝑋̅ 2 . Ahora si
consideramos la función parametral 𝜃(1 − 𝜃), entonces su estimador máximo verisímil es
𝑋̅(1 − 𝑋̅)
Ejemplo 2.20 Los estimadores máximo verosímil para los parámetros de la distribución 𝑁(𝜇, 𝜎 2 )
𝑛−1 2
son 𝜇̂ = 𝑋̅ y 𝜎̂ 2 = 𝑆 . Por el principio de invarianza, el estimador máximo verosímil para la
𝑛
función parametral
a) 𝜇 + 5 es 𝑋̅ + 5
𝑛−1
b) 𝜇 + 𝜎 es 𝑋̅ + √ 𝑛 𝑆
𝜇 𝑛 𝑋̅
c) 𝜎2 es 𝑛−1 𝑆 2

2.4 Insesgamiento
Teniendo una o posiblemente varias estadísticas que pueden considerarse candidatas para ser
usadas como estimadores para los parámetros desconocidos de una distribución de probabilidad,
uno puede dedicarse a la tarea de estudiar sus propiedades a fin de escoger el mejor estimador
posible. Pero ¿Qué características hacen que un estimador sea bueno? Hay varias respuestas a
esta pregunta. En las siguientes secciones veremos que pueden establecerse varias buenas
cualidades para un estimador.
*Una primera buena propiedad que se le puede pedir a un estimador es que su valor promedio
coincida con el parámetro a estimar. Esta idea se formaliza en la siguiente definición
Definición 2.10 Un estimador 𝜃̂ es insesgado para el parámetro 𝜃si cumple la condición 𝐸(𝜃̂) = 𝜃
*Esta es una muy buena propiedad para un estimador, pues siendo un estimador de una variable
aleatoria, y si su objetico es estimar el valor del parámetro, entonces es alentador saber que su
valor promedio es justamente el valor a estimar. En los siguientes ejemplos mostraremos que es
posible verificar esta propiedad de Insesgamiento, a pesar de no conocer el valor del parámetro.
Ejemplo 2.21 Comprobaremos que la media muestral es un estimador insesgado para el

parámetro de la distribución 𝑝𝑜𝑖𝑠𝑠𝑜𝑛(𝜃). Por la propiedad de linealidad de la esperanza tenemos
que
1 1 1
𝐸(𝑋̅) = 𝐸 ( ∑𝑛𝑖=1 𝑋𝑖 ) = ∑𝑛𝑖=1 𝐸(𝑋𝑖 ) = ∑𝑛𝑖=1 𝜃 = 𝜃
𝑛 𝑛 𝑛
De esta manera, sin conocer el valor de 𝜃, hemos comprobado que la esperanza del estimador 𝑋̅
es igual a 𝜃.
*Es interesante observar que el cálculo desarrollado en el ejemplo anterior no depende de la

distribución de estudio, de modo que podemos afirmar que la media muestral es siempre un
estimador insesgado del posible parámetro o función parametral que pudiera aparecer en la
esperanza de la distribución de interés. Por ejemplo, si la distribución en cuestión en 𝑏𝑖𝑛(𝑘, 𝑝)
entonces 𝑋̅ es un estimador insesgado para la función parametral 𝑘𝑝.
*Como uno puede imaginar, los estimadores insesgados no son necesariamente únicos. Pueden
proponerse varias estadísticas que resulten ser estimadores insesgados para un mismo parámetro.
Esto se muestra n el siguiente ejemplo.
Ejemplo 2.22 Sea 𝑋1 , 𝑋2 , 𝑋3 una muestra aleatoria de tamaño 𝑛 = 3 de la distribución 𝐵𝑒𝑟(𝜃), con
𝜃 > 0 desconocido. Usando la propiedad de linealidad de la esperanza, se pueden comprobar que
todos los siguientes estimadores para 𝜃 son iguales.
a) 𝜃̂1 = 𝑋1
1
b) 𝜃̂2 = 3 (𝑋1 + 2𝑋2 )
1
c) 𝜃̂3 = (𝑋1 + 2𝑋2 + 3𝑋3 )
6
1
d) 𝜃̂4 = 3 (𝑋(1) + 𝑋(2) + 𝑋(3) )

*La situación mostrada en el ejemplo anterior plantea ahora el problema de determinar cuándo
un estimador insesgado es mejor que otro estimador insesgado. Regresaremos a este problema
mas adelante.
Ejemplo 2.23 Consideremos dada una muestra aleatoria de tamaño 𝑛 de la distribución 𝑁(𝜇, 𝜃),
en donde la varianza 𝜃 > 0 es desconocida y es el parámetro que nos interesa estimar. Podemos
suponer que el parámetro 𝜇 es conocido aunque esta hipótesis no es relevante en el siguiente
análisis. Recordemos que la varianza muestral es una estadística definida como sigue
1
𝑆 2 = 𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
Comprobaremos que 𝑆 2 es un estimador insesgado para 𝜃. Esta es la razón por la que aparece el
termino 𝑛 − 1 como denominador en la definición de varianza muestral, y no 𝑛, como uno
inicialmente supondría. Tenemos que
1 1
𝐸(𝑆 2 ) = 𝐸 (𝑛−1 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ) = 𝑛−1 ∑𝑛𝑖=1 𝐸(𝑋𝑖2 ) − 2𝐸(𝑋𝑖 𝑋̅) + 𝐸(𝑋̅ 2 ) [2.4]
Se puede comprobar que
𝜇2 𝑠𝑖 𝑖 ≠ 𝑗
𝐸(𝑋𝑖 𝑋̅) = {
𝜃 + 𝜇2 𝑠𝑖 𝑖 = 𝑗
Substituyendo estas expresiones en [2.4] y simplificando se comprueba que 𝐸(𝑆 2 ) = 𝜃, es decir

𝑆 2 es un estimador insesgado para 𝜃.
*Observamos nuevamente que los cálculos anteriores son válidos para cualquier distribución con
segundo momento finito, no únicamente para la distribución normal. Hemos usado únicamente la
propiedad de la linealidad de la esperanza y las hipótesis de independencia e idéntica distribución
de las variables de la muestra aleatoria.
Así, la varianza muestral es siempre un estimador insesgado del posible parámetro o función
parametral que pudiera aparecer en la varianza de la distribución de interés. Por ejemplo, si la
distribución en cuestión es 𝑏𝑖𝑛(𝑘, 𝑝), entonces 𝑆 2 es un estimador insesgado para la función
parametral 𝑘𝑝(1 − 𝑝)
Insesgamiento para funciones parametrales
Como hemos mostrado antes, el concepto de Insesgamiento se aplica no solo para un parámetro
de una distribución de probabilidad, sino también para funciones parametrales. Aquí tenemos
entonces una extensión evidente de la definición de Insesgamiento dada anteriormente.
Definición 2.11 Sea 𝜃 un parámetro o un vector de parámetros y sea 𝜏(𝜃) una función parametral.
Una estadística 𝑇 es un estimador insesgado para 𝜏(𝜃) si
𝐸(𝑇) = 𝜏(𝜃)
*Por ejemplo hemos mostrado que la media muestral es siempre un estimador insesgado para la
media de la distribución y que la varianza muestral es insesgado para la varianza de la distribución.
Hemos mencionado en los ejemplos anteriores el caso de la distribución binomial. Podemos ahora
considerar la distribución 𝑢𝑛𝑖𝑓(𝑎, 𝑏) y afirmar que el estimador 𝑋̅ es insesgado para la función

𝑎+𝑏
parametral media 2
, y que el estimador 𝑆 2 es también insesgado para la función parametral
(𝑏−𝑎)2
varianza 12
Funciones de estimadores insesgados
Sea 𝜃̂ un estimador insesgado para un parámetro 𝜃 y sea 𝜙 una función dada, con dominio de
definición adecuado. Nos interesa considerar la estadística 𝜙(𝜃̂) y el problema siguiente.
2.4 Insesgamiento
2.5 Insesgamiento asintótico
2.6 Consistencia
2.7 Sesgo y error cuadrático medio
2.8 Cota inferior de Cramer-Rao
2.9 Eficiencia
2.10 Suficiencia
2.11. Suficiencia e información
2.12. Suficiencia conjunta
2.13 Suficiencia mínimal
2.14 Métodos para probar la suficiencia
2.15 Esperanza condicional
2.16 Teorema de Rao-Blackwell
2.17 Completez
2.18 Teorema de Lehmann-Scheffé
2.19 Distribuciones tipo exponencial
3. Estimaciones por intervalos

3.1 Definiciones
3.2 Distribución de Bernoulli
3.3. Distribución uniforme continua

3.4 Distribución exponencial
3.5 Distribución normal
3.6 Intervalo para la media de una distribución cualquiera
3.7 Intervalos conjuntos para dos parámetros
4 Prueba de Hipótesis
4.1 Introducción
4.2 Conceptos elementales
4.3 Ejemplo de una prueba paramétrica
4.5 Algunas pruebas sobre la distribución normal
4.6 Lema de Neymann-Person
Calculo Avanzado I
1. Propiedades básicas de los números reales

1.1 Los números naturales y los axiomas de Peano
1.2 Los números racionales. Principio de inducción matemática.
1.3 La estructura algebraica de la recta. El orden y el principio del supremo.
Inicia
Propiedades básicas de los números reales
1.1 Recordatorio (repaso de los conceptos lógicos). Se van a utilizar las siguientes abreviaciones:
(a) El símbolo ∀ es la letra A volteada y proviene de la expresión “for any” en inglés por lo cual
sirve para abreviar cualquiera de las frases: “para cada” ó “para cualquiera”.
(b) El símbolo ∃ es la letra E volteada y proviene de la expresión “exists” en inglés por lo cual sirve
para abreviar la palabra “existe” ó “existen”.
(c) EL símbolo – se utilizará para negar afirmaciones.
(d) El símbolo ⟹ dice que una cosa implica la otra y por lo tanto sirve para abreviar la palabra
“entonces”
(e) El símbolo ⟸ abrevia la expresión “se implica por”
(f) El símbolo ⇔ dice que dos afirmaciones son equivalentes y sirve para abreviar la expresión “Si
y solo si”
(g) El símbolo ⋀ dice que se cumplen dos afirmaciones que conecta.

(h) El símbolo ∨ duce que se cumple al menos una de las afirmaciones que conecta.
(i) El Símbolo ≡ se usará cuando estemos dando un concepto por definición.
(j) Usaré el símbolo →← para indicar que se obtuvo una contradicción.
1.2 Recordatorio (Algunos conceptos de la teoría de conjuntos)
(a) Recuerde que 𝑎 ∈ 𝐴 dice que el punto 𝑎 pertenece al conjunto 𝐴. La expresión 𝐴 ⊂ 𝐵 abrevia la
frase “𝐴 esta contenida en 𝐵” misma que dice que los puntos de 𝐴 pertenecen a 𝐵 . Si volteamos el
signo. Las negaciones respectivas de pertenencia e inclusión son ∉ y ⊄
(b) Hay dos maneras de definir un conjunto: Por extensión que es listando todos sus elementos y es
útil para conjunto finitos chicos. Y también definir un conjunto por comprensión que es definiendo
la propiedad que deben cumplir los elementos del conjunto para justo pertenecer a él.
(c) Vamos a manejar también uniones e intersecciones infinitas. Si 𝔸 es una familia de conjuntos,
entonces ∪ 𝔸 es la unión de 𝔸 misma que consiste de los puntos que pertenecen a algún elemento
de 𝔸. En notación conjuntista ∪ 𝔸 ≔ {𝑥. 𝑒𝑥𝑖𝑠𝑡𝑒 𝐴 ∈ 𝔸} análogamente, el conjunto ∩ 𝔸 ≔ {𝑥: 𝑥 ∈
𝔸∀𝔸 ∈ 𝔸} es la intersección de la familia 𝔸
(d) Como ejemplo recordaremos que dos conjuntos 𝐴 y 𝐵 son iguales si y sólo si ellos consisten de
los mismos elementos, es decir, para un punto 𝑥 pertenece a 𝐴 si y solo si 𝑥 también pertenece a 𝐵.
Lo que se sigue de la formula 𝐴 = 𝐵 ≡ [∀𝑥(𝑥 ∈ 𝐴 ⟹ 𝑥 ∈ 𝐵)] ∧ [∀𝑥(𝑥 ∈ 𝐵 ⟹ 𝑥 ∈ 𝐴]
1.3 Ejercicio. Supongamos que 𝔸 es una familia de conjuntos y 𝐴 ⊂ 𝐵 para todo 𝐴 ∈ 𝔸. Demostrar
que ∪ 𝔸 ⊂ 𝐵
∇ Demostración
Para demostrar que ∪ 𝔸 ⊂ 𝐵 debemos demostrar que todo elemento en la unió de los conjuntos 𝐴
también es un elemento de 𝐵.
Sea 𝑥 ∈∪ 𝔸 lo que significa que 𝑥 pertenece a por lo menos un conjunto de la familia, lo que
podemos escribir como 𝑥 ∈∪ 𝔸 ⟺ 𝑥 ∈ 𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 para algún 𝐴𝑖 ∈ 𝔸, ahora dado que 𝐴 ⊂
𝐵 para todo 𝐴 ∈ 𝔸 tenemos que para cada 𝐴𝑖 en la unión de la familia , 𝐴𝑖 ⊂ 𝐵 por lo que podemos
concluir que 𝑥 ∈ 𝐴𝑖 ⟹ 𝑥 ∈ 𝐵 ∀𝐴𝑖 ∈ 𝔸 lo que completa nuestra prueba. ∎
1.11 Información importante. La construcción rigurosa del sistema de los números reales se
realiza axiomáticamente a partir de los números naturales ℕ.
1.12 Información importante Sabemos que el conjunto ℕ de los números naturales intuitivamente
puede escribirse asi: ℕ ≔ {1,2,3,4, … } lo cual no es una manera rigurosa pues no tenemos idea de
como son los elementos de ℕ por ejemplo ¿cuál es la diferencia entre 2 y 2017?
1.13. Información importante. La axiomatización más popular de ℕ se debe a Peano. El definió ℕ
como cualquier conjunto que satisface las siguientes condiciones (llamados postulados de Peano)
(AP1) EL conjunto ℕ no es vacío
(AP2) Para cada 𝑛 ∈ ℕ existe un elemento 𝑠(𝑛) ∈ ℕ llamado sucesor de 𝑛
(AP3) Existe un elemento 1 ∈ ℕ que no es sucesor de ningún elemento de ℕ.

(AP4) Si 𝑚, 𝑛 ∈ ℕ y 𝑚 ≠ 𝑛 entonces 𝑠(𝑚) ≠ 𝑠(𝑛)
(AP5) Si 𝐴 ⊂ ℕ es un conjunto para el cual 1 ∈ 𝐴 y 𝑛 ∈ 𝐴 implica que 𝑠(𝑛) ∈ 𝐴 entonces 𝐴 = ℕ
*nota: se puede demostrar que los postulados de Peano implican todas las propiedades de los
números naturales tales como sumas, restas y productos asi como las propiedades de orden.
1.14 Información importante una vez que tengamos el conjunto ℕ de los números naturales se
define de manera formal el conjunto ℤ de los números enteros de la siguiente manera:
ℤ. = {𝑚 − 𝑛|𝑚, 𝑛 ∈ ℕ}
Lo que de manera intuitiva conocemos como ℤ = {… , −𝑛, … , −2, −1,0,1,2, … , 𝑛, … }
𝑝
1.15. Información importante El conjunto ℚ de los números racionales se define como {𝑞 | 𝑝, 𝑞 ∈
ℤ, 𝑞 ≠ 0}, los elementos de ℚ realmente son clases de equivalencia generadas por la relación
𝑝 𝑟
~ ⟺ 𝑝𝑠 = 𝑞𝑟 .
𝑞 𝑠
1.20 Observación. Aunque ya están bien definidas las cuatro operaciones aritméticas en ℚ, el
conjunto de los números racionales tiene huecos que impiden realizar algunas operaciones
naturales. En particular, no siempre es posible invertir la operación de elevación al cuadrado.
1.21 Proposición. No existe un numero 𝑝 ∈ ℚ tal que 𝑝2 = 2

∇ Demostración
1.22 Información importante. Los huecos que tiene ℚ se llenan mediante construcción de los
números reales mismos que se definen como cortaduras de Dedekind en ℚ. Un conjunto no vacío
𝛼 ⊂ ℚ se llama cortadura de Dedekind si 𝛼 ≠ ℚ, el conjunto 𝛼 no tiene elemento máximo y 𝑝 ∈ 𝛼
en cuanto 𝑝 < 𝑞 ∈ 𝛼. El conjunto de todas las cortaduras de Dedekind se denota por ℝ y los
elementos de ℝ se llaman números reales.
1.23. Ejercicio Supongamos que 𝛼 y 𝛽 son cortaduras de Dedekind. Demostrar que el conjunto
{𝑝 + 𝑞|𝑝 ∈ 𝛼 𝑦 𝑞 ∈ 𝛽} es un acortadura de Dedekind, misma que se llama 𝛼 + 𝛽.
1.24 Información importante Aceptaremos como validas las operaciones usuales en ℝ tales como
sumas y productos.
1.25 Ejercicio Dado cualquier 𝑟 ∈ ℚ demostrar que el conjunto 𝑟 ∗= {𝑞 ∈ ℚ|𝑞 < 𝑟} es una
cortadura de Dedekind, misma que se llama cortadura racional.
1.26 Observación. El ejercicio anterior muestra que los números racionales también se puede
interpretar como cortaduras de Dedekind y por lo tanto ℚ ⊂ ℝ.
1.28 Información importante (asociatividad) tenemos las igualdades 𝑎 + (𝑏 + 𝑐) = (𝑎 + 𝑏) + 𝑐 y
𝑎(𝑏𝑐) = (𝑎𝑏)𝑐 ∀𝑎, 𝑏, 𝑐 ∈ ℝ.

1.29 información importante (conmutatividad). Para todos 𝑎, 𝑏 ∈ ℝ tenemos las igualdades
𝑎 + 𝑏 = 𝑏 + 𝑎 y 𝑎𝑏 = 𝑏𝑎
1.30 Información importante (Elementos neutros). Existen elementos 0,1 ∈ ℝ tales que 𝑎 + 0 =
𝑎 y 𝑎(1) = 𝑎
1.31 Información importante (Elementos inversos) Para todo numero 𝑎 ∈ ℝ existe −𝑎 ∈ ℝ tal
que 𝑎 + (−𝑎) = 0. Si 𝑎 ≠ 0 entonces existe 𝑎−1 ∈ ℝ tal que 𝑎𝑎−1 = 1.
1.32 Información importante (Ley distributiva). Tenemos la igualdad
𝑎(𝑏 + 𝑐) = 𝑎𝑏 + 𝑎𝑐 ∀𝑎, 𝑏, 𝑐 ∈ ℝ
1.38 Proposición. Se tiene la igualdad 𝑎 ∗ 0 = 0 ∀𝑎 ∈ ℝ
∇ Demostración
Nótese que 𝑎 + 𝑎 ∗ 0 = 𝑎 ∗ 1 + 𝑎 ∗ 0 = 𝑎(1 + 0) = 𝑎 ∗ 1 = 𝑎, ahora
0 = 𝑎 + (−𝑎) = 𝑎 + 𝑎 ∗ 0 + (−1) = 𝑎 + (−𝑎) + 𝑎 ∗ 0 = 𝑎 ∗ 0 de lo cual concluimos que
𝑎∗0 =0
1.39 Proposición Para cualesquiera 𝑎, 𝑏 ∈ ℝ tenemos las igualdades
(i) (−1)𝑎 = −𝑎
(ii) −(−𝑎) = 𝑎
(iii) (−𝑎)(𝑏) = −𝑎𝑏
(iv) (−𝑎)(−𝑏) = 𝑎𝑏
∇ Demostración
(i) Tenemos las igualdades 𝑎 + (−1)𝑎 = 𝑎 ∗ 1 + 𝑎(−1) = 𝑎(1 + (−1)) = 𝑎 ∗ 0 = 0 de las cuales
la ultima es consecuencia de la proposición 1.38. Por la definición del inverso aditivo y su unicidad
(véase ejercicio 1.36) podemos concluir que (−1)𝑎 = −𝑎
(ii) Por la definición de inverso aditivo, tenemos que (−𝑎) + (−(−𝑎)) = 0 lo cual implica que 𝑎 =
𝑎 + 0 = 𝑎 + (−𝑎) + (−(−𝑎)) = 0 + (−(−𝑎)) = −(−𝑎) de modo que 𝑎 = −(−𝑎)
(iii) Observe que 𝑎𝑏 + (−𝑎)𝑏 = (𝑎 + (−𝑎))𝑏 = 0 ∗ 𝑏0 = 0 donde la ultima igualdad se cumple

por la proposición 1.38. Por la definición del inverso aditivo y su unicidad (véase ejercicio 1.36)
Podemos concluir que (−𝑎)𝑏 = −𝑎𝑏.
(iv) Aplicando (iii) dos veces vemos que (−𝑎)(−𝑏) = −(𝑎(−𝑏)) = −(−𝑏𝑎) = (−(−𝑎𝑏)) = 𝑎𝑏
De donde la ultima igualdad es consecuencia de (ii). De aquí concluimos que (−𝑎)(−𝑏) = 𝑎𝑏 ∎
1.40 Ejercicio Demostrar que (𝑎−1 )−1 = 𝑎 para cualquier 𝑎 ∈ ℝ − {0}

1.41 Ejercicio Sabiendo que 𝑎, 𝑏 ∈ ℝ, 𝑎 ≠ 0 y 𝑏 ≠ 0, demostrar que 𝑎𝑏 ≠ 0
1.42 Ejercicio Demostrar que la ecuación 𝑥 2 = 𝑎 tiene a lo mas dos soluciones para cualesquier
𝑎 ∈ ℝ.

1.43 Acuerdo De ahora en adelante se podrán excluir los paréntesis para indicar productos asi como
barras inclinadas para expresar cocientes y las potencias se podrán representar en forma de
cocientes o raíces según sea el caso.
1.44 Observación Aparte de las operaciones, en el conjunto de los números reales existe un orden,
es decir, para cualesquiera 𝑎, 𝑏 ∈ ℝ podemos determinar si 𝑎 < 𝑏 ó si 𝑏 < 𝑎. Las afirmaciones que
siguen expresan las propiedades básicas del orden en ℝ. Estas propiedades se demuestran el en
proceso de construcción de ℝ pero en este curso se puede percibir como axiomas.
1.45 Información importante (tricotomía) Para cualesquiera 𝑎, 𝑏 ∈ ℝ se cumple exactamente una
de las siguientes afirmaciones: 𝑎 < 𝑏 ó 𝑏 < 𝑎 ó 𝑎 = 𝑏.
1.46 Información importante (transitividad). Para todos 𝑎, 𝑏 ∈ ℝ si 𝑎 < 𝑏 y 𝑏 < 𝑐 entonces
𝑎 < 𝑐.
1.47 Información importante (el orden y las sumas) Dados 𝑎, 𝑏, 𝑐 ∈ ℝ, si 𝑎 < 𝑏 entonces
𝑎+𝑐 <𝑏+𝑐
1.48 Información importante (el orden y los productos) Para todos 𝑎, 𝑏, 𝑐 ∈ ℝ si 𝑐 > 0 y 𝑎 < 𝑏,
entonces 𝑎𝑐 < 𝑏𝑐
1.49 Acuerdo Observe que el orden formal solo se denota con el símbolo <. De modo que 𝑎 > 𝑏
significa 𝑏 < 𝑎.
1.50 Proposición Para todos 𝑎, 𝑏 ∈ ℝ tenemos que 𝑎 < 𝑏 si y solamente si 𝑏 − 𝑎 > 0
∇Demostración
Supongamos que 𝑏 − 𝑎 > 0, entonces 𝑏 − 𝑎 + 𝑎 > 0 + 𝑎 por la información 1.47. De aquí se sigue
que 𝑏 > 𝑎 pues 𝑏 − 𝑎 + 𝑎 = 𝑏 y 0 + 𝑎 = 𝑎 con lo que queda demostrada la suficiencia
Ahora si 𝑎 < 𝑏 entonces 𝑎 + (−𝑎) < 𝑏 + (−𝑎) por la información 1.47, como 𝑎 + (−𝑎) = 0 y
𝑏 + (−𝑎) = 𝑏 − 𝑎 entonces concluimos que 𝑏 − 𝑎 > 0 con lo que hemos probado la necesidad.
1.51 Proposició0n Supongamos que 𝑎, 𝑏 ∈ ℝ y 𝑎 < 𝑏, entonces 𝑎𝑐 > 𝑏𝑐 para todo 𝑐 ∈ ℝ y 𝑐 < 0
∇ Demostración
Se sigue de 𝑐 < 0 que 0 = 𝑐 − 𝑐 < 0 − 𝑐 = −𝑐 y por lo tanto −𝑐 > 0. Aplicando la información
1.48 vemos que (−𝑐)𝑎 < (−𝑐)𝑏. Aplicando la proposición 1.39 concluimos que −𝑎𝑐 < −𝑏𝑐, si
sumamos 𝑎𝑐 en ambos lados resulta 𝑎𝑐 − 𝑎𝑐 < 𝑎𝑐 − 𝑏𝑐 lo que es 0 < 𝑎𝑐 − 𝑏𝑐, finalmente al sumar
𝑏𝑐 en ambas partes tenemos que 0 + 𝑏𝑐 < 𝑎𝑐 − 𝑏𝑐 + 𝑏𝑐 lo que es 𝑏𝑐 < 𝑎𝑐 con lo que hemos
demostrado lo prometido ∎.
1.52 Muestre que 𝑎2 > 0 para cualquier 𝑎 ∈ ℝ − {0}

∇Demostracion (usando la desigualdad de Bernoulli)
LA desigualdad de Bernoulli establece que para cualquier numero 𝑥 ≠ −1 y cualquier 𝑛 un
exponente entero positivo se cumple la desigualdad (1 + 𝑥)𝑛 > 1 + 𝑛𝑥
Si tomamos 𝑥 = −1 y n=2

2
(1 + (−1)) > 1 + 2(−1)
0>1
Esto claramente es una contradicción, concluimos que la desigualdad de Bernoulli no se cumple en
𝑎
este caso. Ahora bien, si tomamoms 𝑥 = 2 y 𝑛 = 2 podemos demostrar que 𝑎2 siempre es mayor
que cero para cualquier numero real 𝑎 ≠ 0:
2
𝑎 𝑎
(1 + (2 )) > 1 + 2(2 )
𝑎
(1 + 2 ) > 1 + 𝑎
𝑎2
1+ 4
+a>1+a
𝑎2
> 0 “ahora multiplicando ambos lados por 4 se obtiene”
4
𝑎2 > 0
Con lo que queda demostrada nuestra proposición como se prometió ∎.
1.53 Información importante (Principio de inducción matemática).
Es una consecuencia del último postulado de Peano que tiene la siguiente propiedad para cualquier
conjunto 𝐴 ⊂ ℕ: Si 𝑘 ∈ 𝐴 y para todo 𝑛 ∈ 𝐴, 𝑛 ≥ 𝑘 se sabe que 𝑛 + 1 ∈ 𝐴, entonces 𝐴 = {𝑛 ∈
ℕ: 𝑛 ≥ 𝑘}
1.54 Información importante EL principio de inducción matemática se utiliza para demostrar
afirmaciones que dependen de los números naturales. Si se tiene una afirmación 𝑃(𝑛) que se
cumple para 𝑛 = 𝑘 y se puede demostrar que para todo 𝑛 ≥ 𝑘 que 𝑃(𝑛) implica 𝑃(𝑛 + 1) entonces
𝑃(𝑛) se cumple para cualquier 𝑛 ≥ 𝑘. LA demostración de 𝑃(𝑘) se llama base de inducción y la
demostración de que 𝑃(𝑛) ⟹ 𝑃(𝑛 + 1) se llama el paso inductivo.
1.58 Definición
𝑛 𝑛! 𝑛
Dados 𝑛. 𝑘 ∈ ℕ ∪ {0} tales que 𝑛 ≥ 𝑘 hagamos ( ) = 𝑘!(𝑛−𝑘)!. Los números ( ) se llaman
𝑘 𝑘
𝑛
coeficientes Binomiales; son importantes en combinatoria ya que ( ) es el número de subconjuntos
𝑘
de 𝑘 elementos de un conjunto de 𝑛 elementos.
1.59 Proposición
Supongamos que 𝑛, 𝑘 ∈ ℕ0 y 𝑘 ≤ 𝑛. Entonces
𝑛 𝑛
(a) ( ) = ( ) = 1
0 𝑛
𝑛 𝑛
(b) ( ) = ( )
𝑘 𝑛−𝑘
𝑛 𝑛 𝑛−1
(c) Si 𝑘 > 0 entonces ( ) = 𝑘 ( )
𝑘 𝑘−1

𝑛+1 𝑛 𝑛
(d) Si 𝑘 > 0, entonces ( )=( )+( )
𝑘 𝑘 𝑘 − 1
𝑛 𝑛(𝑛−1)….(𝑛−𝑘+1)
(e) ( ) =
𝑘 𝑘!
Las demostraciones de lo anterior son elementales y por lo tanto no se harán, solo hay que usar las
definiciones para llegar a los resultados.
1.60 Teorema (el Binomio de Newton) Dados cualesquiera 𝑎, 𝑏 ∈ ℝ y 𝑛 ∈ ℕ tenemos (𝑎 + 𝑏)𝑛 =
𝑛
∑𝑛𝑘=0 ( ) 𝑎𝑛−𝑘 𝑏 𝑘
𝑘
La demostración se hace por inducción sobre 𝑛
∇ Demostración (Combinatoria)}
Sea (𝑎 + 𝑏)𝑛 podemos expresarla como (𝑎 + 𝑏)𝑛 = (𝑎 + 𝑏)(𝑎 + 𝑏) … (𝑎 + 𝑏) es decir, 𝑛
expresiones del tipo (𝑎 + 𝑏) multiplicándose, de esta manera podemos obtener cada termino
eligiendo 𝑘 términos de 𝑏 y los restantes términos de 𝑎, el numero de formas de elegir 𝑘 términos
de 𝑏 de los 𝑛 factores es igual al número de combinaciones de 𝑛 elementos tomados 𝑘 a la vez, que
se denota 𝐶(𝑛, 𝑘). Por tanto, el coeficiente de términos 𝑎𝑘 𝑏 𝑛−𝑘 es 𝐶(𝑛, 𝑘), por lo tanto, podemos
escribir la expansión completa del Binomio de Newton como (𝑎 + 𝑏)𝑛 = 𝐶(𝑛, 0)𝑎𝑛 𝑏 0 + ⋯ +
𝐶(𝑛, 𝑛)𝑎0 𝑏𝑛 lo que justo demuestra el teorema como se prometió. ∎
1.61 Definición Dado un conjunto 𝐴 ⊂ ℝ, se dice que 𝑥 ∈ ℝ es una cota superior para 𝐴 si 𝑎 ≤ 𝑥
para toda 𝑎 ∈ 𝐴. Un punto 𝑦 ∈ ℝ es cota inferior para 𝐴 si 𝑦 ≤ 𝑎 para cualquier 𝑎 ∈ 𝐴.
1.62 Definición Un conjunto 𝐴 ⊂ ℝ se llama superiormente acotado si existe una cota superior. Se
dice que 𝐴 es inferiormente acotado si 𝐴 tiene una cota inferior. El conjunto 𝐴 es acotado si es
acotado inferiormente y acotado superiormente al mismo tiempo.
1.63 Ejercicio Demostrar que un conjunto 𝐴 ⊂ ℝ es acotado si y solo si existe 𝐾 > 0 tal que |𝑥| ≤
𝐾 para todo 𝑥 ∈ 𝐴
∇ Demostración
Supongamos que 𝐴 es un conjunto acotado en ℝ. Entonces, por definición, existe un número real 𝑀
tal que |𝑥| ≤ 𝑀 ∀𝑥 ∈ 𝐴, podemos tomar 𝐾 = 𝑀 + 1, que es un numero real positivo. Entonces para
todo 𝑥 ∈ 𝐴 tenemos
|𝑥| ≤ 𝑀 < 𝑀 + 1 = 𝐾
Por lo tanto |𝑥| ≤ 𝐾 ∀𝑥 ∈ 𝐴 lo que demuestra la necesidad

Ahora supongamos que existe un número real 𝐾 > 0 tal que |𝑥| ≤ 𝐾 para todo 𝑥 ∈ 𝐴. Sea 𝑀 = 𝐾.
Entonces para todo 𝑥 ∈ 𝐴, tenemos |𝑥| ≤ 𝐾 = 𝑀 por lo tanto, 𝐴 es acotado según la información
1.62 el conjunto es acotado como se prometió ∎
1.64 Definición Dado un conjunto 𝐴 ⊂ ℝ, se dice que 𝑥 ∈ ℝ es el supremo de 𝐴 y se escribe 𝑥 =
sup (𝐴), si 𝑥 es la mínima cota superior de 𝐴, es decir, 𝑥 es una cota superior de 𝐴 y si 𝑡 es otra
cota superior de 𝐴 entonces 𝑥 ≤ 𝑡. Análogamente 𝑦 ∈ ℝ es el infimo de 𝐴 si 𝑦 es la máxima cota

inferior de 𝐴, es decir, 𝑦 es una cota inferior de 𝐴, y para cualquier cota inferior 𝑠 de 𝐴 tenemos
𝑠≤𝑦
1.65 Comentario En el análisis es muy importante poder determinar si un conjunto es acotado o
tiene supremo. La herramienta principal para ello es el siguiente teorema que en este curso se va a
dejar sin demostración.
1.66 Información importante (el principio del supremo)

Supongamos que 𝐴 ⊂ ℝ es un conjunto no vacío; si 𝐴 es superiormente acotado, entonces existe el
supremo de 𝐴.
1,67 Corolario (existencia del infimo) Si 𝐴 ⊂ ℝ es un conjunto no vacio acotado inferiormente,
entonces 𝐴 tiene infimo.
∇ Demostración
Sea 𝑟 una cota inferior para el conjunto 𝐴. Consideraremos el conjunto 𝐵 = {−𝑥 ∶ 𝑥 ∈ 𝐴}; nótese
primero que 𝐵 ≠ ∅ ya que existe 𝑥 ∈ 𝐴 por lo cual −𝑥 ∈ 𝐵, si 𝑦 ∈ 𝐵 entonces 𝑦 = −𝑥 para algún
𝑥 ∈ 𝐴. Tenemos que 𝑟 ≤ 𝑥 y por lo tanto −𝑥 ≤ −𝑟, es decir 𝑦 ≤ −𝑟 para todo 𝑦 ∈ 𝐵 o sea −𝑟 es
una cota superior de 𝐵. Por el principio del supremo, existe 𝑏 = sup(𝐵) ; probaremos que 𝑎 = −𝑏
es el infimo de 𝐴.
En efecto, tomemos cualquier 𝑥 ∈ 𝐴. Entonces −𝑥 ∈ 𝐵 por lo que −𝑥 ≤ 𝑏. Esto implica que
−(−𝑥) ≥ −𝑏 = 𝑎 y por lo tanto 𝑥 ≥ 𝑎 para todo 𝑥 ∈ 𝐴, es decir 𝑎 es una cota inferior de 𝐴. Ahora
si tomamos cualquier 𝑧 > 𝑎, entonces −𝑧 < −𝑎 = 𝑏. Por la definición de supremo existe 𝑦 ∈ 𝐵 tal
que −𝑧 < 𝑦. Esta última desigualdad es equivalente a que −𝑦 < 𝑧 y como 𝑥 = −𝑦 ∈ 𝐴 hemos
encontrado 𝑥 ∈ 𝐴 tal que 𝑥 < 𝑧 para todo 𝑧 > 𝑎. Esto prueba que 𝑎 = inf (𝐴) como se prometió ∎
1.68 Ejemplos
(a) El conjunto 𝐴 = (0,1) es acotado y sup(𝐴) = 1, inf(𝐴) = 0
(b) EL conjunto ℕ es inferiormente acotado, pero no es superiormente acotado
(c) El conjunto ℤ no es inferior ni superiormente acotado.
1.69 Teorema (principio del buen orden) Si 𝐴 ⊂ ℕ es un conjunto no vacío, entonces existe un
elemento mínimo en 𝐴.
∇Demostración
(1) 𝑥 − 𝑦 ≥ 1 para cualesquiera 𝑥, 𝑦 ∈ 𝐴 tales que 𝑦 < 𝑥.
En efecto, como 𝑥 y 𝑦 son números enteros, se sigue de 𝑦 < 𝑥 que 𝑦 + 1 ≤ 𝑥 de lo cual se deduce
la propiedad (1). El conjunto 𝐴 es inferiormente acotado ya que 𝑥 ≥ 1 para todo 𝑥 ∈ 𝐴.Por el
teorema de la existencia de infimo (véase corolario 1.67) existe 𝑎 = inf (𝐴). Si 𝑎 ∉ 𝐴, entonces
1
existe 𝑥 ∈ 𝐴 tal que 𝑥 < 𝑎 + 2. Como supusimos que 𝑎 ∉ 𝐴 tenemos que 𝑎 < 𝑥 y por lo tanto existe
1 1 1
𝑦 ∈ 𝐴 tal que 𝑦 < 𝑥. De modo que 𝑎 < 𝑦 < 𝑥 < 𝑎 + 2 por lo cual 𝑎 𝑦 − 𝑥 < 𝑎 + 2 − 𝑎 = 2; esta

contradicción con (1) prueba que 𝑎 ∈ 𝐴 y por lo tanto 𝑎 es el elemento mínimo de 𝐴 como se
prometió ∎
1.70 Teorema (Propiedad de Arquímedes) Para cualesquiera números 𝐾 > 0 y 𝜖 > 0 existe 𝑛 ∈
ℕ tal que 𝑛𝜖 > 𝐾. En particular, para 𝐾 ≥ existe 𝑛 ∈ ℕ tal que 𝑛 > 𝐾.
∇ Demostración
𝐾
El conjunto ℕ no es superiormente acotado por el ejemplo 1.68(b) asi que 𝜖
no es cota superior de
𝐾
ℕ por lo cual existe 𝑛 ∈ ℕ tal que 𝑛 > 𝜖
. De aquí 𝑛𝜖 > 𝐾. Si 𝜖 = 1 obtenemos la igualdad 𝑛 > 𝐾
con lo cual todo lo prometido queda demostrado ∎
1
1.71 Corolario Para todo 𝜖 > 0 existe 𝑛 ∈ ℕ tal que 𝑛 < 𝜖
∇ Demostración
1 1
Por el teorema 1.70 existe 𝑛 ∈ ℕ tal que 𝑛 > 𝜖. De aquí 𝑛 < 𝜖 ∎
1.72 Teorema Dados 𝑛 ∈ ℕ y 𝑎 > 0 existe un único 𝑥 > 0 tal que 𝑥 𝑛 = 𝑎. Dicho 𝑥 se denota por
1
𝑛
𝑎𝑛 ó √𝑎
1.73 Teorema (Densidad de los racionales)
Si 𝑎, 𝑏 ∈ ℝ y 𝑎 < 𝑏, entonces existe un numero 𝑞 ∈ ℚ ∩ (𝑎, 𝑏)
1.74 Teorema (Densidad de los irracionales)
Si 𝑎, 𝑏 ∈ ℝ y 𝑎 < 𝑏 entonces existe un numero irracional 𝑎 ∈ (𝑎, 𝑏)
∇ Demostración
Aplicando el teorema 1.72 nos convencemos de que el numero √2 existe y es irracional por la
𝑎 𝑏 𝑎 𝑏
proposición 1.21. Por el teorema 1.73 existe un numero racional 𝑞 ∈ ( , ), de aquí <𝑞<
√2 √2 √2 √2
𝑟
y por lo tanto 𝑎 < √2𝑞 < 𝑏. Si el numero 𝑟 = 𝑞√2 fuera racional, entontes √2 = seria también
𝑞
racional siendo el cociente de dos números racionales. Esta contradicción muestra que 𝑟 es
irracional; como también 𝑟 ∈ (𝑎, 𝑏), por lo que nuestro teorema queda demostrado ∎
1.75 Recordatorio Dados conjuntos 𝐴 y 𝐵, una función 𝑓: 𝐴 → 𝐵 se llama inyectiva (o inyeccion)
si para cualquier par de puntos distintos 𝑥, 𝑦 ∈ 𝐴 tenemos que 𝑓(𝑥) ≠ 𝑓(𝑦)
La función 𝑓 es sobreyectiva (o suprayectiva o es una sobreyeccion o una suprayección) si 𝑓(𝐴) =
𝐵, es decir, para todo 𝑏 ∈ 𝐵 existe 𝑎 ∈ 𝐴 tal que 𝑓(𝑎) = 𝑏. La función 𝑓 es biyectiva (o es una
biyección), si es inyectiva y sobreyectiva al mismo tiempo
1.76 Ejercicio Probar que la composición de dos inyecciones es una inyección
1.77 Ejercicio Demostrar que la composición de dos sobreyecciones es una sobreyeccion
1.78 Definición Un conjunto no vacío 𝐴 se llama numerable si existe una sobreyeccion 𝑓: ℕ → 𝐴. El

conjunto vacío también se considera numerable.

1.79 Definición Un conjunto 𝐴 ≠ ∅ se llama finito si existe una sobreyeccion 𝑓: {1,2, … , 𝑛} → 𝐴
para algún 𝑛 ∈ ℕ. El conjunto vacío también se le considera finito.
1.80 Ejercicio Demostrar que cualquier conjunto finito es numerable
∇ Demostración
Para demostrar que cualquier conjunto finito es numerable, podemos utilizar el siguiente
argumento
Sea 𝑆 un conjunto finito. Podemos etiquetar los elementos de 𝑆 de manera única con números
naturales, por ejemplo comenzando con 1 y terminando con 𝑛 para algún 𝑛 ∈ ℕ donde 𝑛 es el
numero total de elementos de 𝑆. De esta manera, cada elemento de 𝑆 esta asociado con un
numero natural.
Por lo tanto, podemos construir una función uno a uno y sobre de 𝑆 hasta los números naturales
𝑓: 𝑆 → ℕ, donde a cada elemento en 𝑆 se le asigna un numero natural distinto. De esta forma,
podemos establecer una correspondencia entre los elementos de 𝑆 y los números naturales. Como
cualquier conjunto finito 𝑆 puede ser etiquetado de esta manera, podemos concluir que todo
conjunto finito es numerable como se prometió ∎
1.81 Observación Si 𝑓: ℕ → 𝐴 es una sobreyeccion, entonces haciendo 𝑎𝑛 = 𝑓(𝑛) para todo 𝑛 ∈

ℕ, vamos a tener la igualdad 𝐴 = {𝑎𝑛 : 𝑛 ∈ ℕ}. Esta es la razón para llamar a un conjunto
numerable. Un conjunto es numerable cuando se puede numerar sus elementos con los índices de
ℕ. Analogamente, un conjunto no vacío 𝐴 es finito si y solo si 𝐴 = {𝑎1 , … , 𝑎𝑛 } para algún 𝑛 ∈ ℕ
1.82 Proposición Un conjunto no vacío 𝐴 es numerable si y solo si existe una función 𝑓: 𝐴 → ℕ
∇Demostración
Supongamos que 𝑓: 𝐴 → ℕ es una inyección. Como 𝐴 ≠ ∅ podemos tomar 𝑏 ∈ 𝐴. Dado cualquier

𝑛 ∈ ℕ, si existe 𝑎 ∈ 𝐴 tal que 𝑓(𝑎) = 𝑛,m entonces hacemos 𝑔(𝑛) = 𝑎. Observe que dicho 𝑎 es
único ya que 𝑓 es una inyeccion. Si no existe 𝑎 ∈ 𝐴 con 𝑓(𝑎) = 𝑛, entonces hacemos 𝑔(𝑛) = 𝑏.
Esto nos da una función 𝑔: ℕ → 𝐴. Si 𝑎 ∈ 𝐴 , entonces 𝑔(𝑓(𝑎)) = 𝑎 por nuestra elección de 𝑔 así
que 𝑔 es una sobreyeccion por lo cual 𝐴 es numerable, es decir hemos probado la suficiencia.
En cuanto a la necesidad, supongamos que 𝐴 es un conjunto numerable y por lo tanto existe una
sobreyeccion 𝑔: ℕ → 𝐴. Para todo 𝑎 ∈ 𝐴 existe 𝑛𝑎 ∈ ℕ tal que 𝑔(𝑛𝑎 ) = 𝑎 ; hagamos 𝑓(𝑎) = 𝑛𝑎 .
De modo que tenemos una función 𝑓: 𝐴 → ℕ. Si 𝑓(𝑎) = 𝑓(𝑏), entonces 𝑛𝑎 = 𝑛𝑏 y por nuestra
elección de los números 𝑛𝑎 y 𝑛𝑏 tenemos que 𝑎 = 𝑔(𝑛𝑎 ) = 𝑔(𝑛𝑏 ) = 𝑏 por lo tanto 𝑓 es una
inyeccion, con esto queda demostrada la necesidad ∎
1.83 Ejercicio Demostrar que un conjunto no vacío 𝐴 es finito si y solo si existe una inyeccion
𝑓: 𝐴 → {1,2,3, … , 𝑛} para algún 𝑛 ∈ ℕ.
∇ Demostración
Primero, supongamos que 𝐴 es finito. Entonces, podemos etiquetar los elementos de 𝐴 con
números naturales distintos, digamos 𝑎1 , … , 𝑎𝑛 donde 𝑛 es el número de elementos de 𝐴. Ahora
podemos definir una función 𝑓: 𝐴 → {1,2,3, … , 𝑛} que asigna cada elemento de 𝐴 a su respectico

numero etiquetado. Esta función es claramente inyectiva, ya que no asigna dos elementos
distintos de 𝐴 al mismo número. Por lo tanto, existe una inyeccion 𝑓: 𝐴 → {1,2, … , 𝑛} para algún
𝑛 ∈ ℕ lo que muestra la necesidad
Por otro lado, supongamos que existe una inyeccion 𝑓: 𝐴 → {1,2,3 … , 𝑛} para algún 𝑛 ∈ ℕ. Como
𝑓 es inyectiva, cada elemento de 𝐴 se asigna a un único número de {1,2, … , 𝑛}. Por lo tanto 𝐴 no
puede tener mas de 𝑛 elementos, de lo contrario habría dos elementos de 𝐴 que se asignarían al
mismo número por la función inyectiva 𝑓, lo cual es una contradicción. Por lo tanto 𝐴 tiene a lo
sumo 𝑛 elementos, lo que significa que 𝐴 es finito lo que demuestra la suficiencia y en general
nuestra proposición. ∎
1.84 Ejercicio Supongamos que 𝐴 es un conjunto finito. Demostrar que
(a) Si 𝐵 ⊂ 𝐴, entonces 𝐵 también es finito.
(b) Si 𝐶 es un conjunto y existe una sobreyeccion 𝑓: 𝐴 → 𝐶 entonces 𝐶 también es finito;
(c) Si 𝐷 es un conjunto y existe una inyeccion 𝑓: 𝐷 → 𝐴 entonces 𝐷 también es finito.
∇ Demostración
(a) Supongamos que 𝐴 es un conjunto finito y 𝐵 ⊂ 𝐴. Entonces podemos etiquetar los elementos
de 𝐴 con números naturales distintos, digamos 𝑎1 , … , 𝑎𝑛 donde 𝑛 es la cardinalidad de 𝐴. Como 𝐵
es subconjunto de 𝐴, cada elemento de 𝐵 tambien esta en 𝐴 y por lo tanto, podemos etiquetar los
elementos de 𝐵 con los mismos números naturales 𝑎1 , … 𝑎𝑛 . Por lo tanto 𝐵 tiene a lo más 𝑛 − 1
elementos y entonces 𝐵 es finito.
(b) Supongamos que existe una sobreyeccion 𝑓: 𝐴 → 𝐶, donde 𝐴 es un conjunto finito. Entonces
cada elemento de 𝐶 es imagen de al menos un elemento de 𝐴 a través de 𝑓. Como 𝐴 es finito,
existen 𝑛 elementos distintos en 𝐴. Por lo tanto, existen a lo sumo 𝑛 elementos de 𝐴. Por lo tanto
𝐶 es finito.
(c) Supongamos que existe una inyeccion 𝑓: 𝐷 → 𝐴, donde 𝐴 es un conjunto finito. Como 𝑓 es
inyectiva, cada elemento de 𝐷 se asigna a un elemento diferente de 𝐴 a través de 𝑓. Como 𝐴 tiene
𝑛 elementos distintos, 𝑓(𝐷) tiene como máximo 𝑛 elementos distintos. Pero 𝑓(𝐷) es un
subconjunto de 𝐴 por lo tanto, 𝐷 también tiene como máximo 𝑛 elementos distintos. Por lo tanto,
𝐷 es finito.
1.85 Ejercicio Supongamos que 𝐴 es un conjunto numerable. Demostrar que:
(a) SI 𝐵 ⊂ 𝐴, entonces 𝐵 también es numerable;
(b) Si 𝐶 es un conjunto y existe una sobreyeccion 𝑓: 𝐴 → 𝐶 entonces 𝐶 también es numerable;
(c) Si 𝐷 es un conjunto y existe una inyeccion 𝑓: 𝐷 → 𝐴, entonces 𝐷 también es numerable.
∇Demostración
(a) Como 𝐴 es numerable, existe una función biyectiva 𝑓: 𝐴 → ℕ, entonces, si 𝐵 ⊂ 𝐴, podemos

definir una función 𝑔: ℕ → 𝐵 tal que 𝑔(𝑛) = 𝑓(𝑛), si 𝑓(𝑛) ∈ 𝐵 y 𝑔(𝑛) = el primero elemento de

𝐵 si 𝑓(𝑛) ≠ 𝐵. Esta función 𝑔 es una función inyectiva de ℕ en 𝐵 lo que significa que 𝐵 es
numerable.
(b) Como 𝐴 es numerable, existe una función biyectiva 𝑓: ℕ → 𝐴. Dado que 𝑓 es una sobreyeccion
de 𝐴 en 𝐶, podemos construit una función 𝑔: ℕ → 𝐶 definida como 𝑔(𝑛) = 𝑓(𝑛) para toda 𝑛 ∈ ℕ.
Como 𝑓 es sobreyectiva, para cada elemento 𝑐 ∈ 𝐶 existe al menos un numero natural 𝑓(𝑛) = 𝑐.
Por lo tanto 𝑔 es una función sobreyectiva de ℕ en 𝐶, lo que significa que 𝐶 es numerable.
(c) Como 𝐴 es numerable, existe una función biyectiva 𝑓: ℕ → 𝐴. Como 𝑓 es inyectiva, la función
inversa existe y también es una función inyectiva de 𝐴 en ℕ. Dado que 𝑓(𝐷) es subconjunto de 𝐴.
Podemos definir una función 𝑓: 𝐷 → ℕ como 𝑔(𝑑) = 𝑓 −1 (𝑓(𝑑)). Esta función 𝑔 es inyectiva lo
que significa que 𝐷 es numerable.
1.86 Ejercicio Supongamos que 𝑛 ∈ ℕ y 𝐴1 , … , 𝐴𝑛 son conjuntos finitos. Demostrar que 𝐴 = 𝐴1 ∪

𝐴2 ∪ … ∪ 𝐴𝑛 también es finito.
∇ Demostración
Sea 𝐴𝑖 = {𝑎1𝑖 , 𝑎2𝑖 , … , 𝑎𝑚𝑖 } es un conjunto finito con 𝑚𝑖 elementos para cada 1 ≤ 𝑖 ≤ 𝑛
𝑖
Entonces el conjunto 𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 esta formado por la unión de estos conjuntos finitos, es

decir
𝐴 = 𝐴1 ∪ 𝐴2 ∪ … ∪ 𝐴𝑛 = {𝑎11 , 𝑎21 , … , 𝑎𝑚1 } ∪ {𝑎12 , 𝑎22 , … , 𝑎𝑚2 } ∪ … ∪ {𝑎1𝑛 , 𝑎2𝑛 , … , 𝑎𝑚𝑖𝑛 }. Con lo
𝑖 𝑖
que entonces podemos construir un conjunto 𝐵 = {𝑎11 , 𝑎21 , … , 𝑎𝑚1 } ∪ {𝑎12 , 𝑎22 , … , 𝑎𝑚2 } ∪ … ∪
𝑖 𝑖
{𝑎1𝑛 , 𝑎2𝑛 , … , 𝑎𝑚𝑖𝑛 }, que justo coincide con el conjunto 𝐴
Notemos que 𝐵 tiene a lo sumo 𝑚1 + 𝑚2 + ⋯ + 𝑚𝑛 elementos. En otras palabras, 𝐴 es finto

como se prometió ∎
1.87 Teorema Dada una familia de conjuntos {𝐴𝑛 : 𝑛 ∈ ℕ},supongamos que cada 𝐴𝑛 es numerable.
Entonces el conjunto 𝐴 =∪ {𝐴𝑛 : 𝑛 ∈ ℕ} también es numerable.
Construir la demostración
1.88 Corolario Para cualesquiera conjuntos numerables 𝐴 y 𝐵 el conjunto 𝐶 = 𝐴𝑥𝐵 también es

numerable. Recordar que 𝐴𝑥𝐵 = {(𝑎, 𝑏): 𝑎 ∈ 𝐴, 𝑏 ∈ 𝐵}
∇ Demostración
Si 𝐴 = ∅ ó 𝐵 = ∅ entonces el producto 𝐴𝑥𝐵 es vacío y por lo tanto numerable. SI ambos 𝐴 y 𝐵 no

son vacíos, entonces podemos representar a 𝐵 como {𝑏𝑛 : 𝑛 ∈ ℕ} por la observación 1.81.
fijémonos en el ocnjunto 𝐴𝑛 = {(𝑎, 𝑏𝑛 ): 𝑎 ∈ 𝐴} para todo 𝑛 ∈ ℕ. Si 𝜙(𝑎) = (𝑎, 𝑏𝑛 ) para todo a
𝑎 ∈ 𝐴 entonces 𝜙𝑛 : 𝐴 → 𝐴𝑛 es una sobreyeccion por lo cual el conjunto 𝐴𝑛 es numerable para
todo 𝑛 ∈ ℕ (véase ejercicio 1.85(b)). Dado cualquier 𝑥 = (𝑎, 𝑏) ∈ 𝐴𝑥𝐵 existe 𝑛 ∈ ℕ tañ que 𝑏 =
𝑏𝑛 y por lo tanto (𝑎, 𝑏) = (𝑎, 𝑏𝑛 ) ∈ 𝐴𝑛 . Consecuentemente 𝐴𝑥𝐵 =∪ {𝐴𝑛 : 𝑛 ∈ ℕ} asi que 𝐴𝑥𝐵 es
numerable por el teorema 1.87

1.90 Teorema (de los segmentos decrecientes) Supongamos que 𝑎𝑛 y 𝑏𝑛 son números reales tales
que 𝑎𝑛 ≤ 𝑏𝑛 y [𝑎𝑛+1 , 𝑏𝑛+1 ] ⊂ [𝑎𝑛 , 𝑏𝑛 ] para todo 𝑛 ∈ ℕ. Entonces ∩ {[𝑎𝑛 , 𝑏𝑛 ]: 𝑛 ∈ ℕ} ≠ ∅
∇ Demostración
Consideremos el conjunto 𝐴 = {𝑎𝑛 : 𝑛 ∈ ℕ}, como 𝑎1 ∈ 𝐴, el conjunto 𝐴 no es vacio. Dado

cualquier 𝑛 ∈ ℕ, notemos que la contención [𝑎𝑛+1 , 𝑏𝑛+1 ] ⊂ [𝑎𝑛 , 𝑏𝑛 ] significa que 𝑎𝑛 ≤
𝑎𝑛+1 𝑦 𝑏𝑛+1 ≤ 𝑏𝑛 como con secuencia si 𝑚 ≤ 𝑛, entonces 𝑎𝑚 ≤ 𝑎𝑛 y 𝑏𝑚 ≥ 𝑏𝑛 . Ahora si 𝑚, 𝑛 ∈
ℕ, tenemos las desigualdades 𝑎𝑚 ≤ 𝑎𝑚+1 ≤ 𝑏𝑚+𝑛 ≤ 𝑏𝑛 y por lo tanto tenemos la siguiente
propiedad:
(1) 𝑏𝑛 es una cota superior para 𝐴 para todo 𝑛 ∈ ℕ
Se sigue de (1) que 𝐴 es acotado por lo que existe 𝑥 = sup (𝐴) por el principio del supremo (véase
información 1.66). Para todo 𝑛 ∈ ℕ, el numero 𝑏𝑛 es una cota superior para 𝐴 mientas que 𝑥 es la
mínima cota superior para 𝐴; esto implic que 𝑥 ≤ 𝑏𝑛 . Por la definición del supremo 𝑎𝑛 ≤ 𝑥 y por
lo tanto 𝑎𝑛 ≤ 𝑥 ≤ 𝑏𝑛 , es decir 𝑥 ∈ [𝑎𝑛 , 𝑏𝑛 ] para cualquier 𝑛 ∈ ℕ mismo que muestra que 𝑥 ∈∩
{[𝑎𝑛 , 𝑏𝑛 ]: 𝑛 ∈ ℕ} por lo cual ∩ {[𝑎𝑛 , 𝑏𝑛 ]} ≠ ∅ como se prometió ∎
1.91 Teorema Si 𝑎, 𝑏 ∈ ℝ y 𝑎 < 𝑏 entonces el intervalo abierto (𝑎, 𝑏) no es numerable.
Construir la demostración
1.92 Corolario El conjunto ℝ no es numerable
∇ Demostración
SI ℝ fuera numerable, seria numerable el intervalo (0,1) ⊂ ℝ por el ejercicio 1.85. Esta
contradicción con el teorema 1.91 muestra que ℝ no es numerable.
1.93 Corolario El conjunto ℝ\ℚ de los irracionales no es numerable
∇ Demostración
Supongamos que ℝ\ℚ es numerable. El corolario 1.89 implica que el conjunto ℚ también es
numerable. Hagamos 𝐴1 = ℝ \ℚ, 𝐴2 = ℚ y 𝐴𝑛 = ∅ para todo 𝑛 > 2. Entonces cada 𝐴𝑛 es
numerable y ℝ =∪ {𝐴𝑛 : 𝑛 ∈ ℕ} asi que ℝ es numerable según el teorema 1.87. Esta contradicción
con el corolario 1.92 demuestra que ℝ\ℚ no es numerable como se prometió ∎
1.94 Teorema. El conjunto exp(ℕ) = {𝐴: 𝐴 ⊂ ℕ} no es numerable.
∇ Demostración
Si exp (ℕ) es numerable, entonces podemos representarlo como exp(ℕ) = {𝐴𝑛 : 𝑛 ∈ ℕ} por la
observación 1.81. Si 𝐵 = {𝑛 ∈ ℕ: 𝑛 ∉ 𝐴}, entonces 𝐵 es un subconjunto de ℕ y por lo tanto 𝐵 =
𝐴𝑚 para algún 𝑚 ∈ ℕ. Tenemos dos posibilidades
Caso 1. 𝑚 ∈ 𝐵. Entonces 𝑚 ∈ 𝐴𝑚 = 𝐵 por lo cual 𝑚 ∉ 𝐵 por la definición de 𝐵, esta
contradicción muestra que este caso es imposible.

Caso 2. 𝑚 ∉ 𝐵. Entonces 𝑚 ∉ 𝐴𝑚 = 𝐵 por lo cual 𝑚 ∈ 𝐵 por la definición de 𝐵. Esta
contradicción muestra que este caso tampoco es posible así que tenemos una contradicción en
cualquiera de los dos casos por lo que exp (ℕ) no es numerable como se prometió ∎
2. Sucesiones numéricas
2.1 Sucesiones en ℝ y su convergencia. Propiedades aritméticas del límite.
2.2 Sucesiones monótonas. Puntos de acumulación
2.3 Sucesiones de Cauchy. Teorema de Bolzano Weierstrass
2.4 Límite superior e inferior. Convergencia de sucesiones clásicas
2.1 Definición Una sucesión en ℝ es una función 𝑥: ℕ → ℝ. Normalmente, 𝑥(𝑛) se denota por 𝑥𝑛
para todo 𝑛 ∈ ℕ. La imagen de la función 𝑥 es el conjunto 𝑥(ℕ) = {𝑥𝑛 : 𝑛 ∈ ℕ}. La sucesión dada
por 𝑥 tradicionalmente de denota por (𝑥)𝑛 . Los números 𝑥𝑛 se llaman términos de la sucesión (𝑥)𝑛 .
Una sucesión (𝑥)𝑛 se llama finita si el conjunto {𝑥𝑛 : 𝑛 ∈ ℕ} es finito.
2.2 Ejemplos
(a) SI tenemos la sucesión (1,1,1, … ,1, … ) que consiste de puros unos, entonces 𝑥𝑛 = 1 para todo
𝑛 ∈ ℕ. Una sucesión cuyos términos son iguales se llama constante.
(b) SI nos fijamos en la sucesión (1,-1,1,-1,1,-1,…) en la cual se alternan los unos y los menos unos,
es fácil ver qur 𝑥𝑛 = (−1)𝑛+1 para todo 𝑛 ∈ ℝ.
1 1 1
(c) La sucesión (1, , , … , ,…) ya no es tan trivial como las dos anteriores pero tampoco es
2 3 2020
1
difícil adivinar que 𝑥𝑛 = 𝑛
para todo 𝑛 ∈ ℕ.
(d) La sucesión (1,2,3, … ,2020, … ) es un ejemplo de coincidencia del termino de la sucesión con el
subíndice, es decir, 𝑥𝑛 = 𝑛 para todo 𝑛 ∈ ℕ.
(e) Si tenemos ejemplos de sucesiones que provienen de problemas reales, entonces ya no es tan
ln (𝑛)
fácil ver cómo es e comportamiento de la sucesión, Por ejemplo, si 𝑥𝑛 = para todo 𝑛 ∈ ℕ
𝑛
entonces hace falta un esfuerzo para probar que sus términos pueden ser tan chiquitos como
queramos o, por ejemplo 𝑥𝑛 < 1 para todo 𝑛 ∈ ℕ.
2.3 Recordatorio Recordar que |𝑎| = 𝑎 si 𝑎 ≥ 0 y |𝑎| = −𝑎 si 𝑎 < 0
2.4 Ejercicio Dado cualquier 𝑎 ∈ ℝ, demostrar que
(a) |𝑎| ≥ 0 y ||𝑎|| = |𝑎|
(b) |𝑎|2 = 𝑎2 y |𝑎| = √𝑎2

(c) |−𝑎| = |𝑎|
(d) −|𝑎| ≤ 𝑎 ≤ |𝑎|
∇ Demostración

(a) Por definición, el valor absoluto de cualquier número real es igual a su distancia a cero en la
recta real, lo que significa que |𝑎| siempre es mayor o igual que cero. Por tanto |𝑎| ≥ 0. Además si
tomamos el valor absoluto de |𝑎| es decir, ||𝑎||, esto nos da la distancia de |𝑎| al cero de la recta
real. Pero como |𝑎| ya es una distancia a cero, entonces ||𝑎|| = |𝑎|.
(b) Por definición, el valor absoluto de cualquier número real 𝑎 es su distancia a cero en la recta
real, lo que significa que |𝑎| siempre es mayor o igual que cero. Entonces, al elevar al cuadrado
ambos lados de la ecuación, obtenemos
|𝑎|2 = (|𝑎|)2 = 𝑎2 donde la última igualdad se sigue de la definición del valor absoluto.
Además, como 𝑎2 es un numero positivo o cero, su raíz cuadrada es también un numero positivo o
cero. Por lo tanto |𝑎| = √𝑎2
(c) Por definición, el valor absoluto de cualquier número real 𝑎 es igual a su distancia a cero en la
recta real. Esto significa que si 𝑎 esta a uns distancia 𝑥 del cero, entonces −𝑎 esta a una distancia 𝑥
del cero, pero en la dirección opuesta. Por lo tanto |𝑎| = | − 𝑎|
(d) Por definición, el valor absoluto de cualquier número real 𝑎 es igual a su distancia a cero en la
recta real. Entonces, 𝑎 esta a una distancia |𝑎| de cero. Pero esto dignifica que 𝑎 puede ser un
numero positivo, cero o negativo, siempre y cuando este entre −|𝑎| y |𝑎|, entonces −|𝑎| ≤ 𝑎 ≤ |𝑎|.
Con lo que hemos demostrado nuestro ejercicio como se prometió ∎
2.5 Ejercicio Dados cualesquiera 𝑎, 𝑏 ∈ ℝ demostrar que;
(a) |𝑎 − 𝑏| es la distancia entre los puntos 𝑎 y 𝑏
(b) |𝑎 + 𝑏| ≤ |𝑎| + |𝑏|
(c) |𝑎𝑏| = |𝑎||𝑏|
𝑎 |𝑎|
(d) Si 𝑏 ≠ 0, entonces | | =
𝑏 |𝑏|
∇ Demostración
(a) Por definición, la distancia entre dos puntos 𝑎 y 𝑏 en la recta real es |𝑎 − 𝑏| pues recordemos
que la distancia entre el cero y un numero real es |𝑎 − 0|, el valor absoluto nos regresa la longitud
del segmento que conecta los puntos 𝑎 y 𝑏.
(b) Podemos demostrar la desigualdad de la siguiente forma, usando la desigualdad del triangulo
para el valor absoluto
|𝑎 + 𝑏| = |𝑎 − (−𝑏)| ≤ |𝑎| + |−𝑏| = |𝑎| + |𝑏|
De donde la segunda igualdad se sigue de la propiedad (c) que demostraré a continuación

(c) Primero notemos que si 𝑎 = 𝑏 = 0, entonces ambos lados de la ecuación son iguales a cero, por
lo que la propiedad se cumple trivialmente.
Entonces supongamos que 𝑎 y 𝑏 son distintos de cero.
Sea 𝑠𝑖𝑔(𝑎) la función de signo de 𝑎, que es 1 si 𝑎 es positiva, −1 y 𝑎 es negativa, y 𝑜 si es cero.
Entonces podemos escribir;

𝑎 = 𝑠𝑖𝑔(𝑎)|𝑎| y 𝑏 = 𝑠𝑖𝑔(𝑏)|𝑏| ya que el signo de un numero no afecta su valor absoluto, podemos
reescribir la ecuación original como
|𝑎𝑏| = |𝑠𝑖𝑔(𝑎)𝑠𝑖𝑔(𝑏)|𝑎||𝑏|| = |𝑎||𝑏|
De donde la ultima igualdad se sigue de que 𝑠𝑖𝑔𝑛(𝑎)𝑠𝑖𝑔(𝑏) = 1 si 𝑎 y 𝑏 rienen el mismo signo y

−1 si tienen signos opuestos. Pero esto no afecta el valor absoluto, por lo que podemos escribir
|𝑠𝑖𝑔(𝑎)𝑠𝑖𝑔(𝑏)| = 1. Por lo tanto tenemos |𝑎𝑏| = |𝑎||𝑏|
(d) construir la demostración

2.6 Ejercicio. Dado 𝑎, 𝑥 ∈ ℝ y 𝜖 > 0, demostrar que |𝑎 − 𝑥| < 𝜖 si y solo si 𝑎 − 𝜖 < 𝑥 < 𝑎 + 𝜖
mismo que es equivalente a que 𝑥 ∈ (𝑎 − 𝜖, 𝑎 + 𝜖)
∇ demostración
Primero supongamos que |𝑎 − 𝑥| < 𝜖. Sabemos que |𝑎 − 𝑥| es la distancia entre 𝑎 y 𝑥 en la recta
real, por lo que si |𝑎 − 𝑥| < 𝜖 entonces 𝑥 esta a una distancia menor que 𝜖 de 𝑎. Esto significa que
𝑥 esta en algún lugar del intervalo centrado en 𝑎 con radio 𝜖, es decir 𝑥 ∈ (𝑎 − 𝜖, 𝑎 + 𝜖). Por lo
tanto si |𝑎 − 𝑥| < 𝜖 entonces 𝑥 ∈ (𝑎 − 𝜖, 𝑎 + 𝜖)
Ahora supongamos que 𝑥 ∈ (𝑎 − 𝜖, 𝑎 + 𝜖). Esto significa que la distancia entre 𝑥 y 𝑎 es menor que
𝜖, es decir |𝑎 − 𝑥| < 𝜖. Podemos ver esto de la siguiente manera: si tomamos el valor absoluto de
𝑎 − 𝑥, obtenemos la distancia entre 𝑎 y 𝑥. Si esta distancia es menor que 𝜖, entonces podemos decir
que |𝑎 − 𝑥| < 𝜖. Por lo tanto, si 𝑥 ∈ (𝑎 − 𝜖, 𝑎 + 𝜖), entonces |𝑎 − 𝑥| < 𝜖 ∎
2.7 Ejercicio. Dado 𝑎, 𝑥 ∈ ℝ y 𝜖 > 0, demostrar que |𝑎 − 𝑥| ≤ 𝜖 si y solo si 𝑎 − 𝜖 ≤ 𝑥 ≤ 𝑎 + 𝜖
mismo que es equivalente a que 𝑥 ∈ [𝑎 − 𝜖, 𝑎 + 𝜖]
∇ Demostración
La demostración es análoga a la del ejercicio 2.6, únicamente hay que cambiar el argumento < por
≤ y () por []. ∎
2.8 Definición Dada una sucesión (𝑥𝑛 ) de números reales diremos que (𝑥𝑛 ) converge a un punto
𝑥 ∈ ℝ ( y lo vamos a denotar por 𝑥𝑛 → 𝑥) si para todo 𝜖 > 0 existe un numero 𝑚 ∈ ℕ tal que
|𝑥𝑛 − 𝑥| < 𝜖 para todo 𝑛 ≥ 𝑚.
*El numero 𝑚, de hecho, depende de 𝜖, para subrayarlo a veces se escribe 𝑚 = 𝑚(𝜖)

Una sucesión (𝑥𝑛 ) se llama convergente si existe 𝑥 ∈ ℝ tal que 𝑥𝑛 → 𝑥. El hecho de que 𝑥 es el
limite de la sucesión (𝑥𝑛 ) también se denota por lim 𝑥𝑛 = 𝑥.
𝑛→∞
*La sucesión (𝑥𝑛 ) se llama divergente si no es convergente.

2.9 Observación Intuitivamente, la convergencia 𝑥𝑛 → 𝑥 significa que la distancia entre 𝑥𝑛 y 𝑥 es
menor que cualquier numero positivo dado a partir de cierto índice. Para cuestiones practicas, si 𝜖 >
1
0 es muy pequeño, entonces lo spuntos 𝑥𝑛 y 𝑥 no se podrán distinguir. Por ejemplo, si 𝜖 =
10000000
entonces para casi cualquier problema de aplicación, si |𝑥𝑛 − 𝑥| < 𝜖 entonces podemos considerar
que 𝑥𝑛 = 𝑥 a partir de cierto numero.

2.10 Observación Observe que si 𝑥𝑛 es una sucesión convergente, 𝑘 ∈ ℕ y remplazamos los
primeros 𝑘 términos de (𝑥𝑛 ) por otros números arbitrarios, entonces la sucesión resultante también
va a ser convergente. De modo que cualquier número finito de términos de la sucesión no importa si
se trata de su convergencia. Por lo tanto, es válido hablar de convergencia de una sucesión
(𝑥𝑛 )𝑛≥𝑘 para cualquier 𝑘 ∈ ℤ.
2.11 Ejemplos
(a) Si 𝑎 ∈ ℝ y 𝑥𝑛 = 𝑎 para todo 𝑛 ∈ ℕ, entonces 𝑥𝑛 → 𝑎
(b) Si 𝑥𝑛 = (−1)𝑛+1 para todo 𝑛 ∈ ℕ, entonces 𝑥𝑛 diverge.
1
(c) Si 𝑥𝑛 = 𝑛 para cada 𝑛 ∈ ℕ entonces 𝑥𝑛 → 0
(d) Si 𝑥𝑛 = 𝑛 para todo 𝑛 ∈ ℕ, entonces la sucesión (𝑥𝑛 ) diverge.

𝑛
(e) Si 𝑥𝑛 = para cada 𝑛 ∈ ℕ, entonces 𝑥𝑛 → 1
𝑛+1
∇ Demostración
(a) Dado cualquier 𝜖 > 0, podemos hacer 𝑚 = 1. Si 𝑛 ≥ 𝑚. Entonces |𝑥𝑛 − 𝑎| = |𝑎 − 𝑎| = 0 < 𝜖
asi que 𝑚 es testigo que 𝑥𝑛 → 𝑎.
(b) Si (𝑥𝑛 ) es convergente, entonces existe 𝑎 ∈ ℝ tal que 𝑥𝑛 → 𝑎. De acuerdo a la definición, para
1 1
𝜖 = existe 𝑚 ∈ ℕ tal que |𝑥𝑛 − 𝑎 | < para todo 𝑛 ≥ 𝑚 . Si 𝑛 = 2𝑚, entonces 𝑛 > 𝑚 y 𝑥𝑛 =
3 3
1 1
(−1)2𝑚+1 = −1 asi que |−1 − 𝑎| < mismo que es equivalente a |1 + 𝑎| < . SI 𝑛 = 2𝑚 + 1,
3 3
1
entonces 𝑛 > 𝑚 y por lo tanto |𝑥𝑛 − 𝑎| = |1 − 𝑎| < . De modo que. |2| = |1 − 𝑎 + 1 + 𝑎| ≤
3
1 1 2
|1 − 𝑎| + |1 + 𝑎| < + = lo cual es una contradicción. Por lo tanto la sucesión 𝑥𝑛 no es
3 3 3
convergente.
1
(c) Tomemos cualquier 𝜖 > 0. Por el corolario 1.71 existe 𝑚 ∈ ℕ tal que 𝑚 < 𝜖. Sí 𝑛 ≥ 𝑚,
1 1 1
entonces |𝑥𝑛 − 0| = |𝑛 − 0| = 𝑛 ≤ 𝑚 < 𝜖, esto prueba que 𝑥𝑛 → 0
(d) Supongamos que 𝑥𝑛 converge a algún numero 𝑎. Entonces para 𝜖 = 1 existen 𝑚 ∈ ℕ tal que
Escriba aquí la ecuación.
3. Series Numéricas
3.1 Convergencia de series numéricas. Convergencia absoluta.
3.2 Condiciones suficientes de Cauchy y de dÁlembert para convergencia absoluta.

3.3 Criterio de condensación. Teorema de Leibnitz
4. Elementos de la topología de la recta
4.1 Conjuntos abiertos en la recta. Vecindades e Interiores. Conjuntos cerrados y cerraduras.
4.2 Conjuntos compactos. Teorema de Bolzano Weierstrass y de Heine Borel
4.3 Conexidad de la recta y de los intervalos.
5. Funciones reales continuas
5.1 Definiciones secuencial y épsilon- delta de la función continua.
5.2 Limites laterales en un punto y tipos de discontinuidad.
5.3 Propiedades de funciones continuas sobre un conjunto compacto. Continuidad Uniforme.
5.4 Teorema del valor intermedio.
6. Diferenciación en la recta.
6.1 Definición de la derivada. Sus interpretaciones geométricas y físicas.
6.2 Algebra de derivadas. La regla de la cadena. La derivada de la función inversa.
6.3 Teorema de Rolle. Teorema del valor medio de Lagrange. Teorema del valor intermedio para la
derivada.
Calculo Avanzado III
Álgebra Lineal I
Álgebra Lineal II
Teoría de grupos
Capítulo 1 “Simetrías y operaciones binarias”
En el principio fueron permutaciones de raíces de polinomios, como Galois, o permutaciones de cualquier
conjunto finito con en Cauchy. Todos los primeros practicantes trabajaban con grupos de permutaciones hasta
que el final del siglo XIX los alcanzó y Frobenius ya estaba listo para definir un grupo abstracto por medio de
una lista de axiomas. Además de los grupos de permutaciones, la Geometría con la entendió Klein, aparece en
este contexto y encontramos grupos actuando sobre objetos geométricos y una geometría se define por los

objetos invariantes bajo la acción dada. En nuestros días la teoría de grupos a de lo abstracto a lo
extremadamente concreto
La idea de simetría está presente en varios contextos; en las artes plásticas (pintura, escultura, arquitectura),
de donde en algunos casos es obvia, por ejemplo, en el diseño de algunas construcciones- Iglesias o catedrales
con sus dos torres, acueductos con sus arcos repetidos, etc. Un ejemplo inmediato este dado por las simetrías
de la figura humana, como es manifiesto con el conocido dibujo de Leonardo Da Vinci sobre las proporciones
del cuerpo humano
Es fácil encontrar ejemplos en las artes plásticas, de cómo el artista aprovecha la simetría para crear objetos
de arte. Los frisos de Mitla en Oaxaca, o las decoraciones de edificios construidos por los árabes en la España
morisca comparten una misma fuente geométrica. Sin embargo, aunque no tan obvio como los ejemplos
anteriores, también la idea de simetría está presente en otras de las artes; en la música, por ejemplo, en el
contrapunto (fugas especulares, cánones, etc.). El lector puede pensar en cómo la idea de simetría también se
usa en la literatura, en ocasiones en forma sutil. Ahora, una vez convencidos de la ubicuidad de la idea de
simetría, su aparente simplicidad no ayuda a entenderla, es decir, ¿Cómo podríamos definir el concepto de
simetría, que aparentemente es claro y evidente hasta que pensamos en cómo definirlo y en ese momento se
vuelve elusivo y ya no es tan evidente?
Un primer enfoque seria pensar a un objeto simétrico como aquel que no cambia cuando lo movemos de unas
ciertas formas. Para comenzar debemos aclarar que mover no necesariamente quiere decir mover en el sentido
físico.
Lo primero que debemos observar es que el movimiento o cambio es algo que infligimos en un objeto dado.
Esto implica que al objeto lo sujetamos a cierta acción.
Ejemplo1
Considérese un cuadrado centrado en el origen de ℝ2 , con lados paralelos a los

ejes coordenados y de lado 2.
Con vértices etiquetados por 1,2,3 y 4. Si queremos ver las simetrías de este
cuadrado, lo que deseamos ver es cuales movimientos o cambios llevan al
cuadrado en si mismo. Lo primero que observamos es que basta ver que
movimientos o cambios llevan un vértice al otro ya que con esto es suficiente para
que el cuadrado no cambie. Las acciones sobre el cuadrado que lo mantienen sin cambio son:
𝜋 3𝜋
-Rotaciones 𝑟𝜃 por ángulos 𝜃 = . 𝜋, , 2𝜋, etcétera. EN general rotaciones por ángulos que son múltiplos
2 2
𝜋 𝑛𝜋
enteros de . Note que al rotar 2𝜋 es lo mismo que rotar 0°. También que si 𝑛 ≥ 0 es un entero, al rotar
2 2
basta considerar rotaciones para 𝑛 = 0,1,2,3 ya que los otros ángulos repiten las ubicaciones de los vértices
del cuadrado. Así básicamente hay 4 rotaciones que dejan invariante al cuadrado.
-Reflexiones con respecto a los ejes coordenados X e Y, con respecto a las dos rectas a 45° y 135° por el
origen de ℝ2 . Hay 4 reflexiones: con respecto al eje X, denotaremos la reflexión 𝑝𝑥 , con respecto al eje Y
denotaremos la reflexión por 𝑝𝑦 . Con respecto a las dos rectas de 45° y 135° denotaremos las reflexiones por
𝑝1 y 𝑝2 respectivamente.
Veamos las acciones anteriores (rotaciones y reflexiones actuando sobre el cuadrado que estamos
considerando, al que denotaremos por 𝐶.)
-Para la rotación 𝑟0 , esta rotación no hace nada. La llamaremos la acción neutra o identidad y la denotaremos
por el símbolo 𝑒.

-Para la rotación 𝑟𝜋 , la acción sobre el cuadrado 𝐶 esta dada por
2
𝑟𝜋
2
Para la rotación 𝑟𝜋 , su acción sobre el cuadrado 𝐶 es:
𝑟𝜋
Notemos que 𝑟𝜋 = 𝑟𝜋 ∗ 𝑟𝜋 , es decir, rotar 180° es lo mismo que rotar primero

2 2
90 grados y luego rotar otros 90°, usaremos la abreviación 𝑟𝜋 = 𝑟 2𝜋 para indicar que la rotación de 90° fue
2
aplicada dos veces. Bueno y podemos rotar por 90 grados y componer con los mismos 90 grados y obtener
todas las rotaciones totales hasta llegar a la identidad muchas veces.
Ahora veamos las reflexiones
La reflexión 𝑝1 esta dada por:

𝑟𝜋
2
𝑝1
Y si seguimos la acción 𝑟𝜋 seguida de la reflexión 𝑝𝑦 a la que denotamos 𝑝𝑦 ∗ 𝑟𝜋 la acción correspondiente

2 2
es:
𝑟𝜋 𝑝𝑦
2
Observemos que 𝑝1 es lo mismo que 𝑝𝑦 ∗ 𝑟𝜋

2
Unos cálculos sencillos nos convencerán de que las simetrías del cuadrado 𝐶 están dadas por las acciones
𝐺 = {𝑒, 𝑟, 𝑟 2 , 𝑟 3 , 𝑝, 𝑝 ∗ 𝑟, 𝑝 ∗ 𝑟 2 , 𝑝 ∗ 𝑟 3 } donde 𝑒 es la acción neutra que no hace nada, 𝑟 = 𝑟𝜋 𝑦 𝑝 = 𝑝𝑦

2
Simetrías. La discusión anterior nos lleva a las ideas siguientes, que son necesarias para entender el concepto
de simetría. Se tiene un conjunto de objetos al que denotaremos por 𝐴, también se tiene un conjunto no vacío
𝐺, cuyos elementos llamaremos simetrías junto con una función 𝐺𝑥𝐴 → 𝐴 que asigna a cada par ordenado

(𝜎, 𝑎), con 𝜎 ∈ 𝐺 y 𝑎 ∈ 𝐴 el objeto 𝜎 ∗ 𝑎 ∈ 𝐴. A esta función la llamaremos una acción de 𝐺 en 𝐴. Estos dos
conjuntos y la acción que estamos denotando por * deben satisfacer las siguientes propiedades:
1) Para cada elemento 𝜎 ∈ 𝐺 y cada 𝑎 ∈ 𝐴 se tiene que, la acción 𝜎 en 𝑎 denotada por 𝜎 ∗ 𝑎 es otro objeto de
𝐴.
2) Debe haber una manera de operar o componer dos elementos cualesquiera de 𝐺, es decir, si 𝜎 y 𝜏 son dos
elementos de 𝐺, debe existir otro elemento 𝜎°𝜏 en 𝐺. También el conjunto 𝐺 debe contener un elemento 𝑒 el
cual tiene la función de identidad, es decir que compuesto con cualquier otro elemento de 𝐺 no le haga nada.
Hay otras propiedades de la operación de 𝐺 que también necesitaremos pero esperaremos hasta el siguiente
capitulo, por ahora solo nos interesa la manera de operar °.
3) Al considerar dos elementos 𝜎, 𝜏 ∈ 𝐺, la composición 𝜎°𝜏 ∈ 𝐺 actúa sobre el objeto 𝑎 ∈ 𝐴, en

forma natural, es decir, primero actúa 𝜏 para obtener el objeto 𝜏 ∗ 𝑎 ∈ 𝐴 y luego actúa 𝜎 en 𝜏 ∗ 𝑎 ∈
𝐴 para obtener el objeto 𝜎 ∗ (𝜏 ∗ 𝑎) ∈ 𝐴. Es decir
(𝜎°𝜏) ∗ 𝑎 = 𝜎 ∗ (𝜏 ∗ 𝑎)
Con esto a la mano podemos ya definir el concepto de simetría. Dado un objeto 𝑎 ∈ 𝐴, diremos que
tiene simetrías (o que es simétrico) si existe un conjunto no vacío 𝐺 y existen algunos elementos
𝜎 ∈ 𝐺 tales que dejan invariante al objeto 𝑎, es decir 𝜎 ∗ 𝑎 = 𝑎
Los elementos de 𝐺 que dejan al objeto 𝑎 ∈ 𝐴 invariante, se llaman simetrías del objeto 𝑎, Note que
el elemento 𝑒 ∈ 𝐺siempre deja invariante a todos los objetos 𝑎 ∈ 𝐴, es decir 𝑒 ∗ 𝑎 = 𝑎
Así se sobrentiende que un objeto tiene simetrías si tiene simetrías diferente de la neutra.
Operaciones binarias. En el conjunto 𝐺 hemos pedido que se tenga una manera de componer u
operar sus elementos. Es decir, dados 𝜎 y 𝜏 en 𝐺, debe existir otro elemento 𝜎°𝜏 ∈ 𝐺. Dicho en
otras palabras, se debe tener una función: °: 𝐺𝑥𝐺 → 𝐺 a la que denotaremos mediante (𝜎, 𝜏) →
𝜎°𝜏 ∈ 𝐺. Nótese que por medio de definición de función, para el caso de la función ° se tiene que
todos los pares (𝜎, 𝜏) con 𝜎, 𝜏 ∈ 𝐺, se debe tener que 𝜎°𝜏 ∈ 𝐺
Ejemplo 2: Si tomamos como conjunto 𝐺 al conjunto de los números enteros ℤ, la suma de dos
enteros es una operación binaria
+: ℤ𝑥ℤ → ℤ dada por (𝑎, 𝑏) → 𝑎 + 𝑏 ya que cada par de enteros (𝑎, 𝑏) le corresponde un único
entero 𝑎 + 𝑏 ∈ ℤ
Ejemplo 3: Si tomos como conjunto 𝐺 al conjunto de números naturales ℕ, la función ∗: ℕ𝑥ℕ →
ℕdada por 𝑎 ∗ 𝑏 ≔ 𝑎𝑏 es una operación binaria asociativa
Ejemplo 4: Si tomamos como conjunto 𝐺 al conjunto de números naturales ℕ, la resta dada por
(𝑎, 𝑏) → 𝑎 − 𝑏 no es una operación binaria en ℕ ya que no siempre es cerrada, por ejemplo 2 − 7 ∉
ℕ
Ejemplo 5: Si tomamos como conjunto 𝐺 al conjunto de números naturales, la función ∗: ℕ𝑥ℕ → ℕ
dada por 𝑎 ∗ 𝑏 ≔ 𝑎𝑏 es una operación binaria no asociativa.
Conmutatividad: Note que en el ejemplo 2, para cualesquiera dos enteros 𝑎, 𝑏 ∈ ℤ se tiene que 𝑎 +
𝑏 = 𝑏 + 𝑎, algo similar sucede con el ejemplo 3, para cualesquiera dos naturales 𝑎, 𝑏 ∈ ℕ se tiene
que 𝑎𝑏 = 𝑏𝑎

+) Cuando se tenga una operación binaria ∗: 𝐺𝑥𝐺 → 𝐺 que satisfaga que 𝑎 ∗ 𝑏 = 𝑏 ∗ 𝑎 ∀𝑎, 𝑏 ∈ 𝐺
diremos que la operación ∗ es conmutativa.
Elemento neutro. En el mismo ejemplo 2, para el entero 0 ∈ ℤ ) se tiene 𝑎 + 0 = 𝑎 = 0 + 𝑎 ∀𝑎 ∈
ℤ
Ejemplo 6: para el conjunto 𝐺 de rotaciones del cuadrado, la rotación 𝑟0 por un ángulo de 0 grados
es neutra para la operación ° de 𝐺
Nota: Bien proporcionado, es como en el lenguaje cotidiano nos referimos a un objeto simétrico,
bien equilibrado o balanceado.
Ejercicio 1. Muestre que las reflexiones 𝑝𝑥 y 𝑝2 que se obtienen a partir de la rotación
𝑟𝜋 𝑦 𝑙𝑎 𝑟𝑒𝑓𝑙𝑒𝑥𝑖𝑜𝑛 𝑝 = 𝑝𝑦 , en el ejemplo discutido anteriormente, concluya que las simetrías del
2
cuadrado están dadas en efecto por:
{𝑒, 𝑟, 𝑟 2 , 𝑟 3 , 𝑝, 𝑝°𝑟, 𝑝°𝑟 2 , 𝑝°𝑟 3 } (decimos que 𝑟 y 𝑝 son las simetrías generadas por 𝐺)
Ejercicio 2. Considere un triángulo equilátero centrado en el origen y con base paralela al eje X.
Obtenga sus simetrías geométricas. Simplifique, como en el caso del cuadrado listando las simetrías
generadoras. Haga lo mismo para un pentágono y un hexágono, ambos regulares, centrados en el
origen y con base paralela al eje 𝑋.
Ejercicio 3. El lector habrá notado que no hemos hablado de la simetría en la naturaleza. Investigue
al respecto y escriba un ensayo al respecto.
Ejercicio 4. ¿Cuáles de las fórmulas siguientes definen una operación binaria en el conjunto dado?
(1) 𝐸𝑛 𝐴 = ℕ, 𝑎 ∗ 𝑏 ≔ 2𝑎 + 3𝑏.
(2) 𝐸𝑛 𝐴 = ℤ, 𝑎 ∗ 𝑏 = 2𝑎 − 3𝑏.
(3) 𝐸𝑛 𝐴 = ℕ. 𝑎 ∗ 𝑏 ≔ 𝑎𝑏 − 5
(4) 𝐸𝑛 𝐴 = ℚ, 𝑎 ∗ 𝑏 ≔ √|𝑎𝑏|
𝑎
(5) 𝐸𝑛 𝐴 = ℤ, 𝑎 ∗ 𝑏 ≔ 𝑏
Ejercicio 5. Para cada una de las operaciones binarias siguientes determine si son o no asociativas.
(1) 𝐸𝑛 𝐴 = ℤ, 𝑎 ∗ 𝑏 = 𝑎 − 𝑏
(2) 𝐸𝑛 𝐴 = ℕ, 𝑎 ∗ 𝑏 ≔ 2𝑎+𝑏
(3) 𝐸𝑛 𝐴 = ℝ, 𝑎 ∗ 𝑏 ≔ √|𝑎𝑏|
(4) 𝐸𝑛 𝐴 = ℤ, 𝑎 ∗ 𝑏 ≔ −𝑎𝑏
(5) 𝐸𝑛 𝐴 = ℝ, 𝑎 ∗ 𝑏 ≔ 𝑎 + 2𝑏
(6) 𝐸𝑛 𝐴 = ℤ, 𝑎 ∗ 𝑏 = 𝑎 + 𝑏 − 5

(7) 𝐸𝑛 𝐴 = ℚ, 𝑎 ∗ 𝑏 ≔ 𝑎 + 𝑏 + 𝑎𝑏
Ejercicio 6. ¿Cuáles de las operaciones binarias anteriores son conmutativas?
Ejercicio7. ¿Cuáles de las operaciones binarias anteriores tienen neutro?
Capítulo 2 “Grupos y subgrupos”

En el capítulo anterior vimos el interés que tiene el que un conjunto 𝐺 venga equipado con una
operación binarias ° y también vimos que este operación binaria puede o no satisfacer ciertas
propiedades, que algunas veces hemos estado tomando por dadas o naturales; desde el punto de
vista que estamos adoptando, diremos que el conjunto 𝐺 tiene una estructura algebraica dada por su
operación binaria. Dependiendo de las propiedades que satisfaga la operación binaria, se tienen
varios tipos de estructuras algebraicas.
Grupos. Un grupo es un conjunto no vacío 𝐺 junto con una operación binaria °: 𝐺𝑥𝐺 → 𝐺 que
satisface las propiedades siguientes:
(i) La operación es asociativa, es decir, 𝑎°(𝑏°𝑐) = (𝑎°𝑏)°𝑐 ∀𝑎, 𝑏, 𝑐 ∈ 𝐺
(ii) Existe un elemento neutro 𝑒 ∈ 𝐺 que satisface 𝑎°𝑒 = 𝑎 = 𝑒°𝑎 ∀𝑎 ∈ 𝐺
(iii) ∀𝑎 ∈ 𝐺∃𝑎′ ∈ 𝐺 tal que 𝑎°𝑎´ = 𝑒 = 𝑎´°𝑎, al elemento 𝑎′ se le llama inverso del
elemento 𝑎.
Para enfatizar la importancia de la operación binarias en la definición de grupo, algunas veces lo
denotaremos mediante (𝐺, °)
Ejemplo 1. EL grupo de las simetrías del cuadrado es el conjunto
𝐺 = {𝑒, 𝑟, 𝑟 2 , 𝑟 3 , 𝑝, 𝑝°𝑟, 𝑝°𝑟 2 , 𝑝°𝑟 3 }
Donde 𝑒 es la acción neutra que no hace nada, 𝑟 = 𝑟𝜋 𝑦 𝑝 = 𝑝𝑦 con la operación binaria 𝛼°𝛽 dada
2
haciendo 𝛽 primero y después 𝛼, simplificando al final hasta obtener un elemento de 𝐺.
Ejemplo 2. Si 𝐺 = 𝐺𝐿(2, ℝ) es el conjunto de matrices de tamaño 2𝑥2 con entradas en los reales y
determinante distinto de cero, los elementos de 𝐺𝐿(2, ℝ) son las matrices
𝑎 𝑏
𝐴=( ) tales que 𝑎, 𝑏, 𝑐, 𝑑 ∈ ℝ y su determinante no es cero, es decir 𝑎𝑑 − 𝑐𝑏 ≠ 0
𝑐 𝑑
Si 𝐵 = (𝑎′ 𝑏′) es una matriz del mismo grupo lineal, entonces recordemos que el producto de
𝑐′ 𝑑′
matrices esta definido por:

′ ′
𝐴°𝐵 = (𝑎𝑎′ + 𝑏𝑐′ 𝑎𝑏′ + 𝑏𝑑′) y además, como el determinante de un producto de matrices es el
𝑐𝑎 + 𝑑𝑐′ 𝑐𝑏 + 𝑑𝑑′
producto de los determinantes, de tiene que det(𝐴°𝐵) = det(𝐴) ° det(𝐵) ≠ 0, bueno entonces el
producto de matrices es una operación binaria. Mostraremos que 𝐺𝐿(2, ℝ) es un grupo.
(i) Para comenzar el producto de matrices es asociativo.
(II) El neutro es la matriz identidad
𝑑 −𝑏
𝑎 𝑏 Δ Δ
(III) Si 𝐴 = ( ), como det(𝐴) ≠ 0, entonces 𝐴 es invertible y su inversa es 𝐴−1 = (−𝑐 −𝑏)
𝑐 𝑑
Δ Δ
donde Δ = det (𝐴)
Si 𝐺 es un grupo con la operación °, diremos que 𝐺 es conmutativo o abeliano si para cualesquiera
𝑎, 𝑏 ∈ 𝐺 se tiene 𝑎°𝑏 = 𝑏°𝑎
Es evidente que 𝐺𝐿(2, ℝ) no es conmutativo en lo general.
Ejemplo 3. En el conjunto ℝ de los números reales se tiene una operación +≔ ℝ𝑥ℝ → ℝ que es
asociativa, conmutativa y para la cual el elemento cero 0 ∈ ℝ es neutro: 𝑎 + 0 = 𝑎 = 0 + 𝑎 ∀𝑎 ∈
ℝ, además de esto, todo real 𝑎 tiene inverso aditivo, −𝑎 ∈ ℝ tal que 𝑎 + (−𝑎) = 0, por lo tanto,
este es el grupo aditivo de ℝ
Ejemplo 4. En ℝ también se tiene la operación producto ∗: ℝ𝑥ℝ → ℝ que es asociativo y
conmutativo y el elemento 1 ∈ ℝ es neutro multiplicativo, pues 𝑎 ∗ 1 = 𝑎 = 1 ∗ 𝑎 ∀𝑎 ∈ ℝ. Si
embargo no todo numero real tiene inverso multiplicativo, a saber, el 0 ∈ ℝ es el único real que no
tiene inverso multiplicativo. Asi el conjunto ℝ no es un grupo con la operación producto de
números reales. Pero, quitando al cero, el conjunto ℝ∗ = ℝ − {0}, junto con el producto, es un
grupo, al que se conoce como grupo multiplicativo de los números reales.
Ejemplo 5. El conjunto ℤ de los números enteros es un grupo con la operación suma, al que algunas
veces denotamos (ℤ, +)
Ejemplo 6. En ℤ consideramos el subconjunto ℤ𝑥 = {1, −1} ⊆ ℤ y observamos que con el
producto de enteros se tiene que (ℤ𝑥 ,∗) es un grupo.
Ejemplo 7. Si 𝑛 ≥ 2 es un entero, considerando la divisibilidad por 𝑛, dados dos enteros 𝑎, 𝑏 ∈ ℤ
se dice que 𝑎 es congruente con 𝑏 modulo 𝑛 si lla diferencia 𝑎 − 𝑏 es divisible por 𝑛, lo cual
denotaremos oír 𝑛|(𝑎 − 𝑏). La definición anterior es una relación de equivalencia en ℤ y sus clases
de equivalencia se llaman clases residuales modulo 𝑛. Se sabe que hay 𝑛 clases residuales y estas
están dadas por los residuos que dejan al dividir un entero entre 𝑛, es decir, si 𝑎 ∈ ℤm ka ckase
residual modulo 𝑛 correspondiente a 𝑎 es el conjunto [𝑎] = {𝑥 ∈
ℤ: 𝑎𝑙 𝑑𝑖𝑣𝑖𝑑𝑖𝑟 𝑥 𝑒𝑛𝑡𝑟𝑒 𝑛 𝑒𝑙 𝑟𝑒𝑠𝑖𝑑𝑢𝑜 𝑒𝑠 𝑖𝑔𝑢𝑎𝑙 𝑎𝑙 𝑑𝑒 𝑑𝑖𝑣𝑖𝑟𝑖𝑟 𝑎 𝑒𝑛𝑡𝑟𝑒 𝑛}
Denotaremos por ℤ/𝑛 ℤ al conjunto de las clases residuales modulo 𝑛. Si [𝑎] ∈ ℤ/𝑛 ℤ , a un
elemento 𝑟 ∈ [𝑎] lo llamaremos un representante de la clase [𝑎]. El conjunto ℤ/𝑛 ℤ se define con la
operación siguiente: dados [𝑎], [𝑏]ℤ/𝑛 ℤ, escogiendo representantes 𝑎 ∈ [𝑎], 𝑏 ∈ [𝑏], como 𝑎, 𝑏 ∈ ℤ
los podemos sumar en ℤ para obtener 𝑎 + 𝑏 ∈ ℤ y luego considerar su clase residual [𝑎 + 𝑏] ∈
ℤ/𝑛 ℤ , se define entonces [𝑎] + [𝑏] ≔ [𝑎 + 𝑏]
Nota: Observar que no importa la elección del representante de las clases involucradas.

La clase [0], es neutra para la operación anterior y la clase [𝑎] tiene inverso que es[−𝑎], la
operación es asociativa y conmutativa por lo que se trata de un grupo abeliano de enteros modulo 𝑛.
El orden de un grupo. Si 𝐺 es un grupo, su orden es el cardinal del subconjunto adyacente |𝐺|. Un
grupo finito es un grupo |𝐺| cuyo orden es finito, |𝐺| ∈ ℕ, un grupo infinito es un grupo que no es
finito
Ejemplo 8. El grupo aditivo (ℝ, +) de los números reales es un grupo infinito. El grupo de
simetrías del cuadrado es n grupo finito de orden 8. El grupo aditivo de los enteros modulo 𝑛 es un
grupo finito de orden ℤ/𝑛 ℤ = n
Cuando un grupo 𝐺 es finito, podemos listar sus elementos, digamos 𝐺 = {𝑒, 𝜎1 , 𝜎2 , 𝜎3 , … , 𝜎𝑛 }, y

como la operación binaria de 𝐺 es una funcion °: = 𝐺𝑥𝐺 → 𝐺, y el producto cartesiano 𝐺𝑥𝐺 tiene
𝑛2 elementos, podemos listarlos en una tabla donde en el primer renglón y en la primera columna
se listen los elementos del conjunto 𝐺, y si 𝑎, 𝑏 ∈ 𝐺, para obtener el elemento 𝑎°𝑏, localizamos a 𝑎
en la primera columna y a 𝑏 en el primero renglón, y el elemento 𝑎°𝑏 es el elemento dado en la
casilla donde se intersecan los lugares de 𝑎 y 𝑏.
° … b …
…
a 𝑎°𝑏
…
Ejemplo 9. Para el grupo aditivo 𝐺 = ℤ/4 ℤ de los enteros modulo 4, la tabla de su operación, aquí
° es la suma modulo 4, es:
° 0 1 2 3
0 0 1 2 3
1 1 2 3 0
2 2 3 0 1
3 3 0 1 2
Nota que por ejemplo, el inverso de 3 ∈ ℤ/4 ℤ es −3 = 1 ya que 3 + 1 = 0 en ℤ/𝑛 ℤ
Ejemplo 10. Para el grupo de simetrías del cuadrado

𝐺 = {𝑒, 𝑟, 𝑟 2 , 𝑟 3 , 𝑝 , 𝑝𝑟, 𝑝𝑟 2 , 𝑝𝑟 3 } donde 𝑒 es la acción neutra que no hace nada, 𝑟 = 𝑟𝜋 y 𝑝 = 𝑝𝑦 , el
2
orden del grupo es8, ya que se tiene 𝑝2 = 𝑒 = 𝑟 4 , 𝑟 3 𝑝 = 𝑝𝑟 y 𝑟𝑝 = 𝑝𝑟 3 (como se calcula
fácilmente de las definiciones de 𝑝 y 𝑟) y su tabla multiplicativa está dada por:
° 𝑒 r 𝑟2 𝑟3 𝑝 𝑝𝑟 𝑝𝑟 2 𝑝𝑟 3
𝑒
𝑟
𝑟2
𝑟3
𝑝
𝑝𝑟
𝑃𝑟 2

𝑝𝑟 3
La tabla se calcula usando as relaciones dadas al principio. Por ejemplo 𝑟𝑝𝑟 = 𝑝𝑟 3 𝑟 = 𝑝𝑟 4 = 𝑝

Observación. En un grupo finito, dado una tabla como la anterior, si el grupo es abeliano, la tabla
es simétrica respecto a la diagonal principal. Note también que el inverso de un elemento, digamos
𝑎 en la columna de la izquierda, se encuentra siguiendo el renglón correspondiente a 𝑎 hasta
localizar el elemento neutro 𝑒. El inverso de 𝑎 es el elemento en el renglón superior arriba de este
neutro 𝑒.
Lema. Si 𝐺 es un grupo, entonces:
(1) El neutro de 𝐺 es único.
(2) ∀𝜎 ∈ 𝐺, su inverso es único.
∇ Demostración
(1) Si 𝑒, 𝑒′ son dos neutros en 𝐺, entonces
𝑒 = 𝑒°𝑒 ′ = 𝑒′ porque 𝑒′ es neutro
(2) Si 𝜎 ∈ 𝐺 y si 𝜎 ′ , 𝜎 ′′ son dos inversos de 𝜎, entonces
𝜎 ′ = 𝜎 ′ °𝑒 porque 𝑒 es neutro
=𝜎 ′ °(𝜎°𝜎′′) porque 𝜎°𝜎 ′′ = 𝑒
=(𝜎 ′ °𝜎)°𝜎′′
=𝑒°𝜎′′ porque 𝜎 ′ °𝜎 = 𝑒
=𝜎′′
Notación. Si 𝜎 ∈ 𝐺, denotaremos a su único inverso por 𝜎 −1 . Si la operación ° de 𝐺 la estamos
denotando por +, es costumbre denotar a su inverso aditivo de 𝜎 mediante −𝜎 y en este caso el
neutro suele denotarse por 𝑒 = 0.
Observación. Si (𝐺, °) es un grupo, la ecuación 𝑎°𝑥 = 𝑏 tiene una única solución en 𝐺, ya que
multiplicando la ecuación anterior por 𝑎−1 a la izquierda se tienen que 𝑎−1 °(𝑎°𝑥) = 𝑎−1 𝑏 donde
𝑎−1 °(𝑎°𝑥) = (𝑎−1 °𝑎)°𝑥 = 𝑒°𝑥 = 𝑥
Subgrupos. Si 𝐺 es un grupo, un subgrupo de 𝐺 es un subconjunto 𝐻 ⊆ 𝐺 tal que la operación ° de
𝐺 restringida a 𝐻 es cerrada y 𝐻 es un grupo con esta operación.
Lema. Si 𝐺 es un grupo. Un subconjunto 𝐻 ⊆ 𝐺 es un grupo si y solo si:

(1) ∀𝑎, 𝑏 ∈ 𝐻, se tiene qie 𝑎°𝑏 ∈ 𝐻
(2) El neutro 𝑒 ∈ 𝐺 también está en 𝐻
(3) Si 𝑎 ∈ 𝐻, entonces 𝑎 −1 ∈ 𝐻

∇ Demostración
Si 𝐻 es un subgrupo, entonces 𝐻 es un grupo por definición y asi, en particular, se satisfacen las
propiedades (1), (2) y (3), recíprocamente, si se satisfacen las propiedades (1), (2) y (3), entonces
𝐻 ≠ ∅ por (2) y como la operación de 𝐻 es la misma que la de 𝐺, entonces la asociatividad en 𝐻 se
hereda de la asociatividad en 𝐺 y por lo tanto 𝐺 es grupo.
Ejemplo 11. Si (ℝ, +) es un grupo aditivo de los números reales, entonces ℚ es un subgrupo. Esto
es porque, la suma de racionales es racional, el 0 ∈ ℝ es racional y si 𝑎 ∈ ℚ entonces −𝑎 ∈ ℚ
Similarmente ℤ ⊆ ℚ es un subgrupo del grupo aditivo de ℚ
Ejemplo 12. Si (ℝ∗ ,∗) es el grupo multiplicativo de los números reales, entonces ℚ∗ es un
subgrupo de ℝ∗ ya que el producto de racionales es racional, el 1 ∈ ℝ es racional y si 𝑎 ∈ ℚ∗
entonces −𝑎 ∈ ℚ∗
Similarmente, si ℤ𝑥 ≔ {1, −1}, entonces ℤ𝑥 ⊆ ℚ∗ es un subgrupo del grupo multiplicativo ℚ∗ .
Notas. Los axiomas que definen un grupo abstracto, esencialmente como lo hicimos en este
capítulo, fuero formulador por primera vez en 1887, por F.G Frobenius en [33], observando que los
teoremas de arriba mostrados dependían de estos axiomas y no hacia falta el lenguaje del grupo de
permutaciones vistos como subgrupos del grupo simétrico que usaban sus predecesores, en
particular Cauchy, Jordan y Sylow. En su articulo Frobenius cita a Kronecker [47] como
antecedente para la formulación de los axiomas de grupo y en el articulo de Kronecker encontramos
la definición de operación binaria, esencialmente como vimos en el capitulo anterior.
De hecho, la afirmación principal del párrafo anterior debe ser modulada: EN 1854, Cayley [29]
formula lo que podría considerarse la primera definición de grupo abstracto finito, que traducida
dice:
“Un conjunto de símbolos 1, 𝛼, 𝛽, …, todos los cuales son diferentes y que satisfacen que el producto
de cualesquiera de ellos (sin importar el orden) o el producto de cualquiera de ellos por si mismo,
pertenece al conjunto, se dice que es un grupo”
Ejercicio 1. SI 𝐺 es el grupo de simetrías del cuadrado, ¿Es 𝐺 abeliano? ¿Cuál es su orden? Liste
todos los subgrupos de este grupo, ¿Cuál es el orden de sus elementos? Haga lo mismo para el
triangulo equilátero, un Pentágono y un hexágono regular.
Ejercicio 2. Sea 𝜇𝑛 = {𝑧 ∈ ℂ: 𝑧 𝑛 = 1} el conjunto de todas las raíces n-ésimas de 1. Con el
producto de los números complejos muestre que 𝜇𝑛 es un grupo abeliano. ¿Cuál es su orden?
Ejercicio 3. Sea 𝐺𝐿(2, 𝔽2 ) el conjunto de todas las matrices 2𝑥2 con entradas en 𝔽2 = {0̅, 1̅} (los
enteros modulo 2) y con determinante ≠ 0̅, calcule el orden de este grupo.
Ejercicio 4. Si 𝑆𝐿(2, 𝔽2 ) es el subconjunto de 𝐺𝐿(2, 𝔽2 ) formado por las matrices con determinante
= 1̅, muestre que 𝑆𝐿(2, 𝔽2 ) es u subgrupo de 𝐺𝐿(2, 𝔽2 ), ¿Cuál es el orden de este subgrupo?
Ejercicio 5. Sea 𝑛 ≥ 1 un entero, muestre que el conjunto 𝑛ℤ = {𝑛𝑥: 𝑥 ∈ ℤ} de múltiplos de 𝑛, es

subgrupo de ℤ.
Ejercicio 6. Si 𝑚, 𝑛 con enteros tales que 𝑚|𝑛, demuestre que 𝑛ℤ es un subgrupo de 𝑚ℤ.

Ejercicio 7. Si 𝐺 es un grupo, el centro de 𝐺 es el conjunto 𝑧(𝐺) ≔ {𝑔 ∈ 𝐺: 𝑔°𝑥 =
𝑥°𝑔 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑥 ∈ 𝐺} (el conjunto de los elementos de 𝐺 que conmutan con todos los elementos
de 𝐺)
(1) Muestre que 𝑧(𝔾)es un subgrupo de 𝐺
(2) Demuestre que 𝑧(𝐺) es abeliano
(3) ¿Qué pasa si 𝑧(𝐺) es abeliano?
Ejercicio 8. SI 𝐺 es un grupo y 𝛼 ∈ 𝐺 , el centralizador de 𝛼 en 𝐺 es el conjunto 𝐶𝐺 (𝛼) ≔ {𝑔 ∈

𝐺: 𝑔°𝛼 = 𝛼°𝑔} de los elementos de 𝐺 que conmutan con 𝛼. Demuestre que 𝐶𝐺 (𝛼 ) es un subgrupo
de 𝐺.
Ejercicio 9. Si 𝐺 es un grupo que tiene un único elemento 𝑔 de orden 2, demuestre que 𝐶𝐺 (𝛼) = 𝐺
Ejercicio 10. Verifique que la definición de la suma en ℤ/𝑛 ℤ es, en efecto, una buena definición, es
decir, que no depende de la elección de los representantes de las clases involucradas, si 𝑎, 𝑎′ ∈ [𝑎] y
𝑏, 𝑏 ′ ∈ [𝑏], demuestre que [𝑎 + 𝑏] = [𝑎´ + 𝑏′]
Ejercicio 11. Sea 𝐺 un grupo y 𝐻 ⊆ 𝐺 un subconjunto no vacío. Demuestre que 𝐻 es subgrupo si y
solo si 𝑎°𝑏 −1 ∈ 𝐻∀𝑎, 𝑏 ∈ 𝐻
Ejercicio 12. Si 𝐺 es cualquier grupo y si 𝑔 ∈ 𝐺, muestre que (𝑔−1 )−1 = 𝑔
Ejercicio 13. SI 𝐺 es un grupo y si ℎ, 𝑔 ∈ 𝐺, demuestre que (𝑔°ℎ)−1 = ℎ−1 °𝑔−1

Ejercicio 14. Sean 𝐺 un grupo y 𝐻 ⊆ 𝐺 un subconjunto finito no vacio tal que 𝐻 es cerrado balo la
operación de 𝐺 (es decir 𝑎, 𝑏 ∈ 𝐺 ⟺ 𝑎°𝑏 ∈ 𝐻) Demuestre que 𝐻 es un subgrupo de 𝐺.
Capítulo 3 “Grupos cíclicos”

Si (𝐺, °) es un grupo, dado un elemento 𝜎 ∈ 𝐺, se definen sus potencias enteras 𝜎 𝑘 con 𝑘 ∈ ℤ
mediante las igualdades siguientes.
(i) si 𝑘 = 0 se define 𝜎 0 : = 𝑒
(ii) Si 𝑘 ≥ 1, se definen
𝜎1 ≔ 𝜎
𝜎 2 = 𝜎°𝜎
𝜎 3 = 𝜎 2 °𝜎
…
𝜎 𝑘+1 = 𝜎 𝑘 °𝜎
(decimos que esta es una definición recursiva o inductiva)

(iv) Si −𝑘 < 0, como 𝑘 > 0, se define 𝜎 −𝑘 = (𝜎 −1 )𝑘 donde 𝜎 −1 es la inversa de 𝜎 y la
potencia (𝜎 −1 )𝑘 es con potencia positiva, lo cual ya definimos en el paso (ii)
Es un ejercicio probar que se satisface la ley de los exponentes: 𝜎 𝑚 °𝜎 𝑛 = 𝜎 𝑚+𝑛 para cualquier
𝑚, 𝑛 ∈ ℤ
Notación. Si (𝐺, °) es un grupo y si por alguna razón denotamos a su operación por +, entonces es
costumbre denotar a su neutro por 0 y al inverso de 𝜎 ∈ 𝐺 por −𝜎. También, las potencias con
exponente 𝑘 se denotan aditivamente, lo que es 𝜎 𝑘 por 𝑘𝜎.
Lema 3.1. Si 𝐺 es un grupo y 𝜎 ∈ 𝐺 es cualquier elemento, el conjunto < 𝜎 >≔ {𝜎 𝑛 , 𝑛 ∈ ℤ} es n

subconjunto de 𝐺.
∇ Demostración
Por definición 𝜎 0 = 𝑒 así que 𝑒 ∈< 𝜎 >. Observe que < 𝜎 > es cerrado bajo productos, ya que si
𝜎 𝑚 𝜎 𝑛 ∈< 𝜎 > entonces 𝜎 𝑚+𝑛 es un elemento de < 𝜎 >. También si 𝜎 𝑚 ∈< 𝜎 >, entonces 𝜎 −𝑚 ∈
< 𝜎 > satisface que:
𝜎 −𝑚 𝜎 𝑚 = 𝑒 por lo que el inverso de 𝜎 𝑚 es 𝜎 −𝑚 lo que concluye nuestra prueba.
*El grupo < 𝜎 > del lema anterior se llama el subgrupo ciclico generado por 𝜎. Un grupo 𝐺 se dice
que es un grupo ciclico si existe un elemento 𝜎 ∈ 𝐺 tal que 𝐺 =< 𝜎 >, al elemento 𝜎 se le llama
generador de 𝐺.
Ejemplo 1. EL grupo aditivo de los enteros ℤ es ciclico generado por el 1.
Ejemplo 2. EL grupo aditivo de los racionales ℚ no es ciclico por el ejemplo 10.
Ejemplo 3. Si 𝑛 ≥ 1 es un entero, el grupo aditivo de los enteros modulo 𝑛 , ℤ/𝑛 ℤ =
{0̅, 1
̅ , 2̅, … , ̅̅̅̅̅̅̅
𝑛 − 1} es ciclico generado por el 1̅.
*Los grupos cíclicos son, de alguna manera, muy sencillos, por ejemplo, son abelianos.
Proposición 3.2. Todo grupo cíclico es abeliano.
∇ Demostración
SI 𝐺 es ciclico, digamos 𝐺 =< 𝜎 >, para algún 𝜎 ∈ 𝐺. Entonces, todos los elementos de 𝐺 son de la
forma 𝜎 𝑘 , para alguna 𝑘 un entero. Así, si 𝑎, 𝑏 ∈ 𝐺 son dos elementos arbitrarios, entonces 𝑎 y 𝑏 son
de la forma 𝑎 = 𝜎 𝑚 y 𝑏 = 𝜎 𝑛 , por lo que 𝑎𝑏 = 𝜎 𝑚 𝜎 𝑛 = 𝜎 𝑚+𝑛 = 𝜎 𝑛 𝜎 𝑚 = 𝑏𝑎 (lo que usualmente
es 𝑚 + 𝑛 = 𝑛 + 𝑚 en ℤ) lo que concluye nuestra demostración.
*Los subgrupos de un grupo cíclicos también son sencillos.
Proposición 3.3. Los subgrupos de un grupo cíclico también son cicilicos.
∇ Demostración
Supongamos que 𝐺 =< 𝜎 >, para algún 𝜎 ∈ 𝐺 , y sea 𝐻 un subgrupo de 𝐺. Si 𝐻 = {𝑒}, entonces es
cierto que 𝐻 es ciclico generado por 𝑒, lo que es 𝐻 = {𝑒} =< 𝑒 >.

Si 𝐻 ≠ {𝑒}, entonces 𝐻 tiene un elemento de la forma 𝜎 𝑘 con 𝑘 ≠ 0. Como 𝐻 es un subgrupo
−1
entonces también contiene al elemento (𝜎 𝑘 ) = 𝜎 −𝑘 . Como 𝑘 ≠ 0 por tricotomía 𝑘 > 0 ó 𝑘 < 0.
Hemos así mostrado que 𝐻 contiene un elemento de la forma 𝜎 𝑚 con 𝑚 > 0. Sea 𝑛 > 0 el menor
entero positivo tal que 𝜎 𝑛 ∈ 𝐻. Mostraremos que 𝑎 = 𝜎 𝑛 genera 𝐻 y entonces que 𝐻 =< 𝑎 >=
< 𝜎 𝑛 > para esto debemos probar que todo elemento ℎ es de la forma ℎ = 𝜎 𝑡 para algún 𝑡 ∈ ℤ-
Dividiendo el entero 𝑡 entre el entero 𝑛 dado por 𝑎 = 𝜎 𝑛 , se tiene que
𝑡 = 𝑛𝑞 + 𝑟 con 𝑞, 𝑟 ∈ ℤ y 0 ≤ 𝑟 < |𝑛| (por el algoritmo de la división en ℤ ) se sigue que
𝜎 𝑡 = 𝜎 𝑛𝑞+𝑟 = 𝜎 𝑛𝑞 𝜎 𝑟 = (𝑒)𝜎 𝑟 = 𝑎𝑞 𝜎 𝑟
Y por lo tanto despejando 𝜎 𝑟 = 𝑎−𝑞 𝜎 𝑡 . Ahora como 𝑎, 𝜎 𝑡 ∈ 𝐻, y 𝐻 subgrupo, entonces 𝑎−𝑞 𝜎 𝑡 ∈ 𝐻
por lo que
(1) 𝜎 𝑟 ∈ 𝐻 con 0 ≤ 𝑟 < 𝑛
Y como 𝜎 𝑛 es la menor potencia positiva de 𝜎 en 𝐻, entonces (1) implica que 𝑟 = 0, es decir, 𝑒 =

𝜎 0 = 𝑎−𝑞 𝜎 𝑡 y despejando 𝜎 𝑡 = 𝑎𝑞 ∈< 𝑎 > se sigue que 𝐻 =< 𝑎 >. Como se prometió.
Ejemplo 4. Por el primero ejemplo, ℤ es un grupo cíclico, generado por el 1. Entonces, la proposición
anterior nos dice que los subgrupos de ℤ son cíclicos, generados por una potencia de 1 y entonces por
un elemento de la forma 𝑛 ∗ 1 = 𝑛. Por lo tanto, los subgrupos de ℤ son de la forma 𝐻 = 𝑛ℤ =
{𝑛𝑘: 𝑘 ∈ ℤ} = 𝑚𝑢𝑙𝑡𝑖𝑝𝑙𝑜𝑠 𝑒𝑛𝑡𝑒𝑟𝑜𝑠 𝑑𝑒 𝑛.
Grupos cíclicos infinitos. El ejemplo ℤ es un grupo ciclico de orden infinito y todos sus subgrupos,
exceptuando el subgrupo trivial {0} también son infinitos. Podemos hacernos una pregunta, ¿Cómo
será otro grupo cíclico infinito? Supongamos entonces que 𝐺 es un grupo cíclico infinito cerrado por
𝑔 y entonces 𝐺 =< 𝑔 >. Entonces, los elementos de 𝐺 son de la forma 𝑔𝑙 con 𝑙 ∈ ℤ. Comenzamos
mostrando que si 𝑚 ≠ 𝑛 son dos enteros diferentes, entonces 𝑔𝑚 ≠ 𝑔𝑛 . En efecto, como 𝑚 ≠ 𝑛,
podemos suponer, sin perder generalidad, que 𝑚 > 𝑛. Ahora si sucediera que 𝑔𝑚 = 𝑔𝑛 , como 𝑚 >
𝑛, entonces 𝑚 − 𝑛 > 0 y multiplicando la igualdad 𝑔𝑚 = 𝑔𝑛 por 𝑔−𝑛 se obtiene
𝑔𝑚−𝑛 = 𝑔𝑚 𝑔−𝑛 = 𝑔𝑛 𝑔−𝑛 = 𝑒, y entonces 𝑔𝑚−𝑛 = 𝑒 con 𝑚 − 𝑛 > 0. Sea 𝑘 > 0 el menor entero
positivo tal que 𝑔𝑘 = 𝑒 (note la similiaridad de la demostración de que los subgrupos de un grupo
cíclico también son cíclicos). Para Mostrar que 𝐺 = {𝑒, 𝑔, 𝑔2 , … , 𝑔𝑘−1 }, mostraremos que cualquier
elemento de 𝐺 esta en el conjunto de la derecha. En efecto, si 𝑔𝑚 ∈ 𝐺 es cualquier elemento,
dividiendo 𝑚 entre el entero 𝑘 anterior obtenemos 𝑚 = 𝑘𝑞 + 𝑟 con 0 ≤ 𝑟 < 𝑘 y por lo tanto 𝑔𝑚 =
𝑞
𝑔𝑘𝑞+𝑟 =(𝑔𝑘 ) 𝑔𝑟 = (𝑒 𝑞 )𝑔𝑟 = 𝑔𝑟 , es decir, la potencia 𝑔𝑚 es igual a 𝑔𝑟 con 0 ≤ 𝑟 < 𝑘, es decir,
cualquier elemento de 𝐺 es uno de los elementos: 𝑒 = 𝑔0 , 𝑔, 𝑔2 , … , 𝑔𝑘−1 , como se quería. Como esto
contradice el hecho de que 𝐺 es infinito, se sigue que todas las potencias 𝑔𝑚 son diferentes. Hemos
probado así el teorema siguiente.
Teorema 3.4. Si 𝐺 es un grupo cíclico infinito, digamos generado por 𝑔, entonces todas las potencias
de 𝑔𝑚 son distintas.
Grupos cíclicos infinitos. El ejemplo 3 es un grupo cíclico finito, a saber ℤ/ ℤ𝑛 el grupo aditivo de
los enteros modulo 𝑛. La pregunta que nos hacemos ahora es ¿Cómo será otro grupo cíclico finito

𝐺? Para comenzar, si 𝐺 =< 𝑔 > es finito de orden 𝑛, no puede suceder que todas las potencias de 𝑔
sean diferentes, porque al parecer al pertenecer estas potencias a 𝐺, entonces 𝐺 será infinito, se sigue
que existen enteros 𝑖 ≠ 𝑗 tales que 𝑔𝑖 = 𝑔 𝑗 . Por tricotomía y si perder generalidad podemos suponer
que 𝑖 > 𝑗 y así la igualdad 𝑔𝑖 = 𝑔 𝑗 implica que 𝑔𝑖−𝑗 = 𝑔𝑖 𝑔−𝑗 = 𝑔0 =e y entonces existe un entero 𝑙
positive tal que 𝑔𝑙 = 𝑒 . Sea 𝑘 el menor entero positivo tal que 𝑔𝑘 = 𝑒 se tiene el conjunto
{𝑒 = 𝑔0 , 𝑔1 , 𝑔2 , … , 𝑔𝑘−1 } ⊆ 𝐺 probaremos que se tiene la igualdad en la inclusión anterior y entonces
que 𝑘 = 𝑛 . Para comenzar, la inclusión de arriba dice que 𝑘 ≤ 𝑛 . Para probar la desigualdad
recordemos que los elementos de 𝐺 son de la forma 𝑔𝑙 con 𝑙 ∈ ℤ. Dividiendo 𝑙 entre 𝑘 se tiene 𝑙 =
𝑘𝑞 + 𝑟 con 0 ≤ 𝑟 < 𝑘 y como en el argumento en el caso cíclico se tiene que 𝑔𝑙 = 𝑔𝑘𝑞 𝑔𝑟 =
𝑞
(𝑔𝑘 ) 𝑔𝑟 = 𝑒 𝑞 𝑔𝑟 = 𝑔𝑟 así que 𝑔𝑙 = 𝑔𝑟 y en consecuencia todas las potencias de 𝑔𝑙 son algunas de
las 𝑔𝑟 con 0 ≤ 𝑟 < 𝑘 por lo tanto 𝑔𝑙 ∈ {𝑒 = 𝑔0 , 𝑔, … , 𝑔𝑘−1 } por lo que 𝐺 = {𝑒 = 𝑔0 , 𝑔, … , 𝑔𝑘−1 } y
𝑛 = 𝑘 como se quería. Hemos probado la primera parte de:
Teorema 3.5.
(1) Si 𝐺 es un grupo ciclico finite, entonces los elementos de 𝐺 won potencias positivas de 𝑔, desde
𝑔0 = 𝑒 hasta 𝑔𝑘−1 , donde 𝑘 = |𝐺| es el orden del grupo y es el menor entero positive que anula a 𝑔,
asi 𝐺 = {𝑒 = 𝑔0 , 𝑔, … , 𝑔𝑘−1 }
(2) También si 𝑙 ≥ 1 es un entero tal que 𝑔𝑙 = 𝑒 entonces 𝑘|𝑙.
∇ Demostración
Solo resta probar la segunda parte (2). Para esto, dividiendo 𝑙 entre 𝑘 tenemos por el algoritmo de la
división de Euclides que 𝑙 = 𝑘𝑞 + 𝑟 con 0 ≤ 𝑟 < 𝑘 y asi
𝑞
𝑒 = 𝑔𝑙 = 𝑔𝑘𝑟+𝑟 = (𝑔𝑘 ) 𝑔𝑟 = 𝑒𝑔𝑟 = 𝑔𝑟
Y como k es el menor exponente positivo que anula a 𝑔, la igualdad anterior implica que 𝑟 = 0 y por
lo tanto 𝑘|𝑙
Note la ventaja de lo anterior, ya que en la definición de grupo cíclico incluimos potencias positivas
y negativas, lo que acabamos de probar nos dice que, en el caso finito, basta tomar potencias positivas
del generador hasta llegar el orden 𝑘 del grupo (ya que 𝑔𝑘 = 𝑒 = 𝑔0 ).
¿Cómo serán los subgrupos de un grupo cíclico finito?. Por la proposición 3.3 anterior, por supuesto
que también son cíclicos. Las preguntas son entonces: (i) ¿Qué orden tienen?, (ii) ¿Cómo son sus
generadores?, las respuestas a estas preguntas son:
Proposición 3.6. Sea 𝐺 un grupo ciclico de orden 𝑛 y generado por un elemento 𝑔. Sea 𝜎 ∈ 𝐺 dado
𝑛
por 𝜎 = 𝑔𝑘 . Entonces 𝜎 genera un subgrupo cíclico de 𝐺 de orden 𝑑 donde 𝑑 = 𝑚𝑐𝑑(𝑛, 𝑘).
∇Demostración

Solo debemos mostrar que el orden de < 𝜎 > es 𝑛/𝑑 , ahora como 𝜎 = 𝑔𝑘 , entonces, por el
argumento usado en el teorema anterior, el orden del subgrupo < 𝜎 > es menor que el exponente
𝑙
positivo de 𝜎 = 𝑔𝑘 que se anula, y entonces es el menor entero 𝑙 ≥ 1 tal que (𝑔𝑘 ) = 𝑒.
Ahora por el mismo argumento del teorema anterior, como 𝐺 =< 𝑔 > es de orden 𝑛, entonces 𝑛 es
el menor entero positivo tal que 𝑔 se anula al elevarse a ese exponente, entonces la igualdad 𝑒 =
𝑙
(𝑔𝑘 ) = 𝑔𝑘𝑙 implica (por la parte 2 del teorema anterior) que 𝑛 divide a 𝑘𝑙. Ahora si 𝑑 = 𝑚𝑐𝑑(𝑛, 𝑘)
𝑛 𝑘
entonces 𝑑|𝑛 y 𝑑|𝑘, escribiendo 𝑛 = 𝑑(𝑑) y 𝑘 = 𝑑(𝑑), entonces 𝑛/𝑑 y 𝑘/𝑑 son coprimos y como
𝑛 𝑘 𝑛 𝑘 𝑛
𝑛|𝑘𝑙, entonces (𝑑) |(𝑑)𝑙 con 𝑚𝑐𝑑 (𝑑 , 𝑑) = 1 por lo que 𝑑
debe dividir al factor 𝑙 y
𝑛 𝑘
𝑛 𝑛
consecuentemente (𝑑) ≤ 𝑙 , ahora, como (𝑔𝑘 ) = (𝑔𝑛 )𝑑 = 𝑒 , como (𝑑) ≤ 𝑙 y 𝑙 es el menor
𝑑
𝑛
exponente que anula a 𝑔𝑘 , entonces se debe tener que 𝑙 = 𝑑, como se quería. ∎
Observe que, si 𝐺 =< 𝑔 > es de orden 𝑛 y 𝑘 ≥ 1 es coprimo con 𝑚𝑐𝑑(𝑛, 𝑘) = 1, entonces el

𝑛
elemento 𝑔𝑘 genera un subgrupo de 𝐺 de orden = 𝑛 luego de orden 𝑛, y por lo tanto este subgrupo
1
de 𝐺 es todo 𝐺, asi hemos probado:
Corolario 3.7. Sea 𝐺 un grupo de orden 𝑛 generado por un elemento 𝑔 . Entonces, los otros
generadores de 𝐺 son de la forma 𝑔𝑘 , con 𝑘 ≥ 1 coprimo con 𝑛.
El orden de un elemento
Si 𝐺 es un grupo y 𝜎 ∈ 𝐺 es cualquier elemento, diremos que 𝜎 tiene orden infinito si para cualquier
entero 𝑘 ≥ 1 se tiene que 𝜎 𝑘 ≠ 𝑒. Es decir, si ninguna potencia 𝑘 positiva se muere. Si existe 𝑘 ≥ 1
tal que 𝜎 𝑘 = 𝑒, al menor de esos enteros positivos se le llama orden de 𝜎. Por ejemplo, el orden de 𝑒
es 1; y es el único elemento de orden 1 en 𝐺. Si 𝜎 ≠ 𝑒, el orden de 𝜎 es 𝑘 si 𝜎 𝑘 = 𝑒 y 𝜎 𝑗 ≠ 𝑒 para
todo 1 ≤ 𝑗 ≤ 𝑘.
Ejemplo 5. Si 𝐺 es el grupo de simetrías del cuadrado, 𝐺 = {𝑒, 𝑟, 𝑟 2 , 𝑟 3 , 𝑝, 𝑝𝑟, 𝑝𝑟 2 , 𝑝𝑟 3 }, el elemento

𝑒 es de orden 1, el elemento 𝑟 es de orden 4, el elemento 𝑟 2 es de orden 2, el elemento 𝑟 3 es de orden
4, el elemento 𝑝 es de orden 2, el elemento 𝑝𝑟 es de orden 2 ya que (𝑝𝑟)(𝑝𝑟) = 𝑝(𝑟𝑝)𝑟 =
𝑝(𝑝𝑟 3 )𝑟 = 𝑝2 𝑟 4 = 𝑒.
Observación: Si 𝐺 es un grupo finito de orden digamos 𝑛, entonces cualquier elemento 𝑎 ∈ 𝐺 tiene

orden ≤ 𝑛, ya que de lo contrario, por ejemplo si 𝑎 tiene orden > 𝑛, entonces en 𝐺 estarían los
elementos distintos 𝑎, 𝑎2 , 𝑎3 , … , 𝑎𝑘 con 𝑘 > 𝑛 , una contradicción. Se sigue que todos los elementos
de 𝐺 tienen orden finito ≤ 𝑛. ¿Qué sucede cuando 𝐺 tiene un elemento de orden 𝑛 = |𝐺|?
Proposición 3.8. Si 𝐺 es un grupo finito de orden 𝑛, entonces 𝐺 es cíclico, generado por 𝑔 ∈ 𝐺, si y

solo si 𝑔 es un elemento de orden 𝑛 = |𝐺|.
∇ Demostración

Si 𝑛 = 1 entonces 𝐺 = {𝑒} y no hay nada que probar. Supongamos entonces que 𝑛 > 1 y que 𝐺 es
cíclico de orden 𝑛, generado por 𝑔 ∈ 𝐺; entonces
𝐺 = {𝑔, 𝑔2 , … , 𝑔(𝑛−1) , 𝑔𝑛 = 𝑒} y como estos son los 𝑛 elementos de 𝐺, entonces se debe tener que
𝑔𝑘 ≠ 𝑒 para toda 1 ≤ 𝑘 < 𝑛 y por lo tanto el generador 𝑔 de 𝐺 tiene orden 𝑛.
Reciprocamente, si existe un elemento 𝜎 ∈ 𝐺 de orden 𝑛, entonces se tiene el subgrupo < 𝜎 >=

{𝜎, 𝜎 2 , … 𝜎 𝑛−1 , 𝜎 𝑛 = 𝑒} ⊆ 𝐺, con 𝐺 con exactamente 𝑛 elementos y entonces se tiene el subgrupo <
𝜎 >⊆ 𝐺 donde el orden | < 𝜎 > | = 𝑛 y por lo tanto debe ser igual a 𝐺 por lo que 𝐺 =< 𝜎 > por lo
que 𝐺 es cíclico generado por 𝜎.
Notas. EL teorema 3.4 esencialmente nos dice que hay una biyeccion entre un grupo ciclico infinito
arbitrario y el grupo aditivo ℤ, y la parte 1 del teorema 3.5 nos dice que hay una biyeccion entre el
grupo ciclico finito de orden 𝑘 y el grupo de enteros modulo 𝑘, ℤ/𝑘 ℤ. De hecho, estas biyecciones
son algo más, lo veremos mas adelante.
Ejercicio 1. Si 𝐺 es un grupo de simetrías del cuadrado, ¿Es 𝐺 cicliclo? Liste todos los subgrupos
cíclicos de 𝐺. Haga lo mismo para un triangulo equilátero, un Pentágono y un hexágono regulares.
Ejercicio 2. Sea 𝜇𝑛 = {𝑧 ∈ ℂ: 𝑧 𝑛 = 1} el grupo de las1-esimas raíces de 1, demuestre que 𝜇𝑛 es

cíclico, liste todos sus generadores.
Ejercicio 3. Sea 𝐺𝐿(2, 𝔽2 ) el grupo de matrices 2x2 con entradas en 𝔽2 = (0̅, 1̅) con determinante
≠ 0. ¿ Es 𝐺𝐿(2, 𝔽2 ) ciclico?
Ejercicio 4. Si 𝐻 = 𝑚ℤ y 𝑘 = 𝑛ℤ son subgrupos de ℤ, ¿Quién es 𝑚ℤ ∩ 𝑛ℤ?
Ejercicio 5. SI 𝐺 es un grupo y 𝐻, 𝐾 son subgrupos de 𝐺, demuestre que 𝐻 ∩ 𝐾 es subgrupo de 𝐺.
Ejercicio 6. En general, si 𝔽 = {𝐻𝛼 : 𝛼 ∈ 𝑇 } es una familia (no vacía) de subconjuntos de 𝐺 ,

demuestre que ∩𝛼∈𝑇 𝐻𝛼 es un subgrupo de 𝐺.
Ejercicio 7. Sean 𝐺 un grupo y 𝑆 ⊆ 𝐺 un subconjunto no vacio, sea 𝔽 la familia de subgrupos de 𝐺

que contienen al conjunto 𝑆.
(i) Observe que 𝐺 ∈ 𝔽 y así 𝔽 ≠ ∅. Por el ejercicio anterior, la intersección de la familia 𝔽 es un

subgrupo de 𝐺 al que se llama el subgrupo generado por 𝑆 y se denota < 𝑆 >, los elementos de 𝑆 se
dice que sonlos generadores del grupo < 𝑆 >.
(ii) Muestre que 𝑆 ⊆< 𝑆 >
(iii) Si 𝐻 ⊆ 𝐺 es cualquier subgrupo que contiene a 𝑆, demuestre que < 𝑆 >⊆ 𝐻. En este sentido, <
𝑆 > es el menor subgrupo de 𝐺 que contiene a 𝑆.
(iv) Si 𝑆 = {𝑔} ⊆ 𝐺 demuestre que < 𝑆 >=< {𝑔} >=< 𝑔 > es el subgrupo ciclico generado por 𝑔.

(v) En general, si 𝑆 = {𝑔1 , 𝑔2 , … , 𝑔𝑘 }, denotaremos al grupo < 𝑆 > por < 𝑔1 , 𝑔2 , … 𝑔𝑘 >
Ejercicio 8. Si 𝐺 es un subgrupo que no tiene subgrupos no triviales, demuestre que 𝐺 es finito de

orden primo.
Ejercicio 9. SI 𝐺 es un grupo finito de orden par, demuestre que existe un elemento 𝑔 ∈ 𝐺 de orden
2.
Ejercicio 10. Demuestre que el grupo (ℚ, +) no es cíclico.
Ejercicio 11. Si 𝐺 =< 𝑔 > es cíclico de orden 𝑛, demuestre que para todo 𝑖, 𝑗 = 0,1,2,3, … , 𝑛 − 1,
𝑔𝑖 𝑔 𝑗 = 𝑔𝑘 si y solo si 𝑖 + 𝑗 ≡ 𝑘(𝑚ó𝑑 𝑛)
𝑛−1
Ejercicio 12. Si 𝐺 =< 𝑔 > es cíclico de orden 𝑝𝑛 para 𝑝 un primo, demuestre que 1 ⊆ (𝑔𝑝 )⊆
𝑝𝑛−2 (𝑔𝑝 )
(𝑔 )⊆⋯⊆ ⊆ 𝐺 son todos los subgrupos de 𝐺.
Capítulo 4 “Grupos de permutaciones”
Si 𝑛 ≥ 1 es un entero, denotaremos con 𝕀𝑛 ≔ {1,2,3, … , 𝑛} al subconjunto de los números naturales
del 1 al 𝑛. Diremos que 𝕀𝑛 es un intervalo de naturales. Una función biyectiva 𝜎: 𝕀𝑛 → 𝕀𝑛 se llamara
permutación de 𝕀𝑛 . Esta función la podemos representar mediante:
1 2 3 𝑛
𝜎 = (𝜎(1) 𝜎(2) 𝜎(3)
… 𝜎(𝑛) ) donde debajo de cada natural 𝑥 ∈ 𝕀𝑛 hemos colocado su valor o imagen
𝜎(𝑥) ∈ 𝕀𝑛
Ejemplo 1. Si 𝑛 = 4, se tienen las permutaciones siguientes:
𝑒 = (11 2 3 4
2 3 4
)
𝜎 = (11 2 3 4
2 4 3
)
𝜏 = (11 2 3 4
3 4 2
)
𝛽 = (14 2 3 4
3 2 1
)
Note que una permutación 𝛼 de 𝕀4 cambia de lugar los enteros 1,2,3,4. Es decir, en la notación de
arriba, los enteros que aparecen en el renglón inferior son todos los números enteros del 1 al 4, y
que aparecen una sola vez. Lo anterior es solo una reformulación del hecho de que la permutación 𝛼
es una función biyectiva y entonces es inyectiva y sobreyectiva.
Sea 𝑆𝑛 el conjunto de todas las permutaciones de 𝕀𝑛 . Si 𝜎, 𝜏 ∈ 𝑆𝑛 , escribiendo estas funciones con
su dominio y coodominio:
𝜎: 𝕀𝑛 → 𝕀𝑛 y 𝜏: 𝕀𝑛 → 𝕀𝑛
Es claro que las podemos componer para obtener la función:
𝜏°𝜎: 𝕀𝑛 → 𝕀𝑛

Dada por (𝜏°𝜎)(𝑥) = 𝜏(𝜎(𝑥)). Como 𝜏 y 𝜎 son biyectivas, la composición de 𝜎°𝜏 también es
biyectiva y así 𝜎°𝜏 ∈ 𝑆𝑛 , es decir, la composición de funciones es una operación binaria en 𝑆𝑛 .
Recordemos ahora que la composición de funciones es asociativa en general. Se sigue que la
operación binaria ° ∈ 𝑆𝑛 es asociativa también, si 𝑒 = 𝑖𝑑𝑛 : 𝕀𝑛 → 𝕀𝑛 es la función identidad para pro
𝑖𝑑𝑛 (𝑥) = 𝑥, para cualquier 𝑥 ∈ 𝕀𝑛 , entonces 𝑖𝑑𝑛 es una función biyectiva y por lo tanto 𝑖𝑑𝑛 ∈ 𝑆𝑛 ,
observe que para cualquier permutación 𝜎 ∈ 𝑆𝑛 se tiene que 𝑖𝑑𝑛 °𝜎 = 𝜎 ya que
(𝑖𝑑𝑛 °𝜎)(𝑥) = 𝑖𝑑𝑛 (𝜎(𝑥)) = 𝜎(𝑥)
Y similarmente se demuestra que 𝜎°𝑖𝑑𝑛 = 𝜎. Finalmente, si 𝜎 ∈ 𝑆𝑛 , como 𝜎 es biyectiva. Entonces

tienen una función inversa 𝜎 −1 : 𝕀𝑛 → 𝕀𝑛 dada por 𝜎 −1 (𝑦) = 𝑥 ⟺ 𝜎(𝑥) = 𝑦.
La función 𝜎 −1 ∈ 𝑆𝑛 satisface que
𝜎° 𝜎 −1 = 𝑖𝑑𝑛 y 𝜎 −1 °𝜎 = 𝑖𝑑𝑛 ,
Es decir 𝜎 −1 es la inversa de 𝜎 en 𝑆𝑛 . Hemos demostrado que:

Proposición 4.1. EL conjunto 𝑆𝑛 de funciones biyectivas de 𝕀𝑛 en 𝕀𝑛 es un grupo con la operación
dada por la composición de funciones. ∎
EL grupo (𝑆𝑛 , °) se llama el grupo simétrico en 𝑛 letras. Es conocido por que hay 𝑛! Funciones
biyectivas de 𝕀𝑛 en 𝕀𝑛 y asi 𝑆𝑛 es un grupo finito de orden |𝑆𝑛 | = 𝑛! = (𝑛)(𝑛 − 1) … (2)(1)
Ejemplo 2. Si 𝑛 = 4 el grupo 𝑆4 tiene orden |𝑆4 | = 4! = 24. La composición de dos permutaciones
en 𝑆4 es fácil, usando la notación introducida previamente para 𝜏 y 𝛽 como en el ejemplo 1.
𝜏 = (11 2 3 4
3 4 2
) y 𝛽 = (14 2 3 4
3 2 1
) se tiene que
1234 1234 1234 1234

𝜏°𝛽 = ( )°( ) = (4 3 2 1) = ( )
1342 4321 2431
2431
De donde, en la segunda igualdad se calculó primero la acción de 𝛽 y luego la acción de 𝜏: nota que
añadí un renglón adicional para hacer explícitos los cálculos. La ultima igualdad elimina este
renglón y escribe de manera usual el resultado de las permutaciones bajo la composición.
También es fácil ver la inversa de una permutación, por ejemplo, si:
𝜏 = (11 23 34 42), la inversa se calcula leyendo el renglón inferior primero para que las imágenes sean
los valores del primer renglón y asi se obtiene:
𝜏 −1 = (11 2 3 4
4 2 3
)
Ejemplo 3 si 𝑛 ≥ 3, el grupo 𝑆𝑛 no es abeliano. Por ejemplo, 𝑆3 es un grupo de orden 3! = 6 y sus

elementos son:
𝑖𝑑3 = (11 2 3
2 3
), 𝜎1 = (11 2 3
3 2
), 𝜎2 = (12 2 3
1 3
), 𝜎3 = (12 2 3
3 1
), 𝜎4 = (13 2 3
1 2
) , 𝜎5 = (13 2 3
2 1
)
Y observe que
𝜎4 𝜎1 = (13 2 3
1 2
)°(11 2 3
3 2
) =(13 2 3
2 1
) = 𝜎5

Y
𝜎1 𝜎4 = (11 2 3
3 2
)°(13 2 3
1 2
) = (12 2 3
1 3
) = 𝜎2
Por lo que 𝜎4 𝜎1 ≠ 𝜎1 𝜎4
Ejemplo 4. Los grupos 𝑆1 y 𝑆2 son sencillos
𝑆1 = {𝑒}
𝑆2 = {𝑒 = (11 2
2
), 𝜎 = (12 2
1
)}
Es decir, 𝑆1 es el grupo trivial, y observamos que el elemento 𝜎 ∈ 𝑆2 satisface que 𝜎 2 =

(11 22 )(11 22 ) = (11 22 ) = 𝑒
Y entonces 𝜎 2 = 𝑒 por lo que 𝜎 es de orden 2. Se sigue que el subgrupo cíclico generado por 𝜎 es
todo 𝑆2 y entonces < 𝜎 >= 𝑆2 y por lo tanto 𝑆2 es cíclico.
Ciclos y orbitas
Si 𝜎 ∈ 𝑆𝑛 es una permutación y 𝑥 ∈ 𝕀𝑛 es un elemento, diremos que 𝜎 fija a 𝑥 si 𝜎(𝑥) = 𝑥 . En caso
contrario, diremos que 𝜎 mueve a 𝑥. Ahora, si, 𝑖1 , 𝑖2 , … , 𝑖𝑘 son enteros distintos en 𝕀𝑛 y si 𝜎 ∈ 𝑆𝑛 es
tal que 𝜎(𝑖1 ) = 𝑖2 , 𝜎(𝑖2 ) = 𝑖3,…,𝜎(𝑖𝑘−1 )=𝑖𝑘 , 𝜎(𝑖𝑘 )=𝑖1 y 𝜎 fija a los otros enteros en 𝕀𝑛 , si los hay,
entonces diremos que 𝜎 es un ciclo de longitud 𝑘 o que es un 𝑘 − 𝑐𝑖𝑐𝑙𝑜.
Para denotar 𝑘 − 𝑐𝑖𝑐𝑙𝑜𝑠 usaremos la notación abreviada 𝜎 = (𝑖1 , 𝑖2 , … , 𝑖𝑘−1 , 𝑖𝑘 ) pensando en 𝜎
como una 𝑘 − 𝑎𝑑𝑎 ordenada.
Ejemplo 5. En 𝑆5 tenemos el ciclo 𝜎 = (2,4,1) lo que como permutación es:
𝜎 = (2,4,1) = (12 2 3 4 5
4 3 1 5
) notando que 𝜎 fija a los enteros 3 y 5.
*Sea 𝜎 ∈ 𝑆𝑛 una permutación. Para un elemento dado 𝑥 ∈ 𝕀𝑛 , el conjunto 𝑂𝜎 (𝑥) ≔ {𝜎 𝑘 (𝑥): 𝑘 ∈ ℤ}

se llamará la órbita de 𝑥 bajo 𝜎.
Ejemplo 6. Si 𝜎 = (12 23 31 44 ) ∈ 𝑆4 y 𝑥 = 2 ∈ 𝕀4 , para obtener la orbita correspondiente,

calculamos 𝜎 0 (2) = 2, 𝜎(2) = 3 , 𝜎 2 (2) = 𝜎(3) = 1, 𝜎 3 (2) = 𝜎(1) = 2 luego se repiten los
valores, por lo tanto la órbita es: 𝑂𝜎 (2) = {2,3,1}
Con la misma permutación 𝜎 y ahora el entero 𝑥 = 4, para obtener la orbita correspondiente
calculamos 𝜎 0 (4) = 4, 𝜎(4) = 4 y se repiten los valores, por lo que la orbita correspondiente es:
𝑂𝜎 (4) = {4}
Ejemplo 7. Si 𝜎 = (12 2 3 4 5 6
3 1 4 6 5
) ∈ 𝑆6 , entonces todas sus orbitas son:
𝑂𝜎 (1) = {1,2.3} = 𝑂𝜎 (2) = 𝑂𝜎 (3)

𝑂𝜎 (4) = {4}
𝑂𝜎 (5) = {5,6} = 𝑂𝜎 (6)
Lo anterior ilustra las propiedades generales siguientes:

Lema 4.2 Sea 𝜎 ∈ 𝑆𝑛 una permutación. entonces,
(1) Ninguna orbita es vacía, ya que 𝑥 ∈ 𝑂𝜎 (𝑥)
(2) Las orbitas de 𝜎 son disjuntas por lo que se satisface 𝑂𝜎 (𝑥) ∩ 𝑂𝜎 (𝑧) ≠ ∅, entonces 𝑂𝜎 (𝑥) =
𝑂𝜎 (𝑧).
(3) La unión de tolas las órbitas es 𝕀𝑛
*En otras palabras, si 𝜎 ∈ 𝑆𝑛 , entonces el conjunto de orbitas 𝑂𝜎 (𝑥), con 𝑥 variando en 𝕀𝑛 es una
partición de 𝕀𝑛 .
∇ Demostración
(1) para cualquier 𝑥 ∈ 𝕀𝑛 se tiene que 𝑥 = 𝜎 0 (𝑥) ∈ 𝑂𝜎 (𝑥).

(2) Si 𝑤 ∈ 𝑂𝜎 (𝑥) ∩ 𝑂𝜎 (𝑧), entonces existen enteros 𝑟, 𝑠 ≥ 0 tales que 𝜎 𝑟 (𝑥) = 𝑤 = 𝜎 𝑠 (𝑥) y, sin
perder generalidad, podemos asumir que 𝑟 ≥ 𝑠 por lo que 𝜎 𝑟−𝑠 (𝑥) = 𝑧 y entonces 𝑧 ∈ 𝑂𝜎 (𝑥) y por
lo tanto para todo 𝑘 ∈ ℤ se tiene que 𝜎 𝑘 (𝑧) = 𝜎 𝑘 (𝜎 𝑟−𝑠 (𝑥)) = 𝜎 𝑘+𝑟−𝑠 (𝑥) ∈ 𝑂𝜎 (𝑥) lo que muestra
que 𝑂𝜎 (𝑧) ⊆ 𝑂𝜎 (𝑥). En forma similar se muestra que 𝑂𝜎 (𝑥) ⊆ 𝑂𝜎 (𝑧) por lo que las dos inclusiones
anteriores muestran la igualdad deseada.
(3) Como cada 𝑂𝜎 (𝑧) ∈ 𝕀𝑛 , se tiene que ∪ 𝑂𝜎 (𝑧) ⊆ 𝕀𝑛 . Recíprocamente, si 𝑥 ∈ 𝕀𝑛 , entonces 𝑥 ∈
𝑂𝜎 (𝑥) ⊆ 𝑂𝜎 (𝑧) y por lo tanto 𝕀𝑛 ⊆∪ 𝑂𝜎 (𝑧) como se prometió. ∎
Observación. Dada 𝜎 ∈ 𝑆𝑛 , como 𝑆𝑛 es un grupo finito de orden 𝑛!, entonces 𝜎 es un elemento de
orden finito también, lo que es, existe un 1 ≤ 𝑘 ≤ 𝑛! Menor tal que 𝜎 𝑘 = 𝑒, y por lo tanto 𝜎 𝑘 (𝑥) =
𝑥 ∀𝑥 ∈ 𝕀𝑛 .
Asi hemos probado:
Proposición 4.3. Si 𝜎 ∈ 𝑆𝑛 y 𝑥 ∈ 𝕀𝑛 , entonces la restricción 𝜎|𝑂𝜎 (𝑥) es un ciclo de longitud la
cardinalidad de la orbita 𝑂𝜎 (𝑥).
*la orbita correspondiente a un ciclo 𝜎 = (𝑖1 , 𝑖2 , 𝑖3 , … , 𝑖𝑘 ) es el conjunto
{𝑖1 , 𝑖2 , 𝑖3 , … , 𝑖𝑘 }=𝑂𝜎 (𝑖𝑡 ) 𝑝𝑎𝑟𝑎 1 ≤ 𝑡 ≤ 𝑘
*Dos permutaciones 𝜎, 𝜏 ∈ 𝑆𝑛 se dice que son disjuntas si para toda 𝑥 ∈ 𝕀𝑛 , siempre que 𝜎 mueve a
𝑥, 𝜏 lo fija y viceversa. Es decir 𝜎(𝑥) ≠ 𝑥, entonces 𝜏(𝑥) = 𝑥 y viceversa por lo que se puede decir
que las permutaciones son disjuntas si y solo si las orbitas son disjuntas.
Proposición 4.4. Si 𝜎, 𝜏 ∈ 𝑆𝑛 son dos permutaciones disjuntas, entonces 𝜎𝜏 = 𝜏𝜎.
∇ Demostración
Sea 𝑥 ∈ 𝕀𝑛 . Mostremos que 𝜎𝜏(𝑥) = 𝜏𝜎(𝑥), en efecto 𝜏(𝑥) ≠ 𝑥, entonces
𝜎(𝑥) = 𝑥 y asi 𝜏𝜎(𝑥) = 𝜏(𝑥) (1)
Ahora como 𝑂𝜏 (𝜏(𝑥)) = 𝑂𝜏 (𝑥), entonces 𝜏 mueve a 𝜏(𝑥) por lo que 𝜎 fija y entonces
𝜎(𝜏(𝑥)) = 𝜏(𝑥). Se sigue que
(2) 𝜎𝜏(𝑥) = 𝜏(𝑥)

Las igualdades (1) y (2) implican que 𝜎𝜏(𝑥) = 𝜏𝜎(𝑥) por lo que 𝜎𝜏 = 𝜏𝜎 como se prometió ∎
Ejemplo 8. Observe que la condición de que las permutaciones sean disjuntas es indispensable ya
que las permutaciones 𝜎 = (1,3) y 𝜏 = (1,2) ambas de 𝑆3 no son disjuntas y entonces
𝜎𝜏 = (1,3)(1,2) = (1,2,3) ≠ (1,3,2) = (1,2)(1,3) = 𝜏𝜎
*Nuestro objetico ahora será mostrar que los ciclos son los ladrillos a partir de los cuales se
construyen todas las permutaciones. Lo que queremos decir con esto es que cualquier permutación
𝜎 ∈ 𝑆𝑛 que no sea la identidad, es producto de ciclos disjuntos en forma esencialmente única.
Teorema 4.5. Toda permutación 𝜎 ≠ 𝑖𝑑𝑛 en 𝑆𝑛 es el producto de ciclos disjuntos de longitud ≥ 2.
Esta factorización es única salvo por el orden en el que aparecen los ciclos correspondientes.
∇ Demostración
Capítulo 5 “Clases laterales y grupos cociente”

Capítulo 6 “Homomorfismos e isomorfismos”
Capítulo 7 “Productos directos y grupos abelianos finitos”

Capítulo 8 “Acciones de grupos y un teorema de Frobenius”
Capítulo 9 “Los teoremas de Cauchy y Sylow”
Capítulo 10 “Grupos simples”
Capítulo 11 “Grupos solubles”
Capítulo 12 “Grupos de matrices”
Capítulo 13 “Representaciones lineales de grupos finitos”
Capítulo 14 “Caracteres de grupos finitos”
Capítulo 15 “Aplicaciones de la teoría de caracteres”
Apéndice A “Enteros algebraicos”

Ejercicios propuestos (y soluciones)
Lista de ejercicios sencillos
Problema 1: Considerando los grupos simétricos 𝑆𝑛 y los grupos alternantes 𝐴𝑛 . ¿Para cuales
valores de 𝑛 son abelianos? Cuando no son abelianos, encuentre un par de permutaciones
especificas 𝜎, 𝜏 tales que 𝜎°𝜏 ≠ 𝜏°𝜎
Solución
El grupo 𝑆𝑛 , no es abeliano para 𝑛 ≥ 3. En este caso, tenemos, por ejemplo.
(1 2)°(2 3) = (1 2 3), (2 3)°(1 2) = (1 3 2)
EL grupo 𝐴𝑛 no es abeliano para 𝑛 ≥ 4. Por ejemplo,

(1 2 3)°(1 2 4) = (1 3)°(2 4), (1 2 4)°(1 2 3) = ( 1 4)°(2 3)
El grupo 𝐴3 = {𝑖𝑑, (1 2 3), (1 3 2)} si es abeliano.

Problema 2. Demuestre que un grupo 𝐺 es abeliano si y solamente si para cualesquiera 𝑔, ℎ ∈ 𝐺 se
cumple (𝑔ℎ)2 = 𝑔2 ℎ2
∇ Demostración
Si 𝐺 es abeliano, entonces (𝑔ℎ)2 = 𝑔ℎ𝑔ℎ = 𝑔𝑔ℎℎ = 𝑔2 ℎ2 esto prueba la necesidad

Ahora la suficiencia es que si 𝑔ℎ𝑔ℎ = (𝑔ℎ)2 = 𝑔2 ℎ2 = 𝑔𝑔ℎℎ entonces podemos cancelar 𝑔 por la
derecha y ℎ por la izquierda y obtener.
𝑔−1 𝑔ℎ𝑔ℎ = 𝑔−1 𝑔𝑔ℎℎ
ℎ𝑔ℎℎ−1 = 𝑔ℎℎℎ−1
ℎ𝑔 = 𝑔ℎ lo que termina nuestra demostración.
Ejercicio 3. Supongamos que 𝜎 = (𝑖1 , 𝑖2 , … 𝑖𝑘 ) y 𝜏 = (𝑗1 , 𝑗2 , … , 𝑗𝑙 ) son dos ciclos disjuntos en el
grupo simétrico 𝑆𝑛 , es decir,
{𝑖1 , 𝑖2 , … , 𝑖𝑘 } ∩ {𝑗1 , 𝑗2 , … , 𝑗𝑙 } = ∅ demuestre que el mínimo exponente 𝑚 = 1,2,3, … tal que
(𝜎°𝜏)𝑚 = 𝑖𝑑 es igual al 𝑚𝑐𝑚(𝑘, 𝑙)
∇ Demostración
Dado que los ciclos disjuntos conmutan entre si, para cualquier 𝑚 = 1,2,3 … se cumple (𝜎°𝜏)𝑚 =
𝜎 𝑚 °𝜏 𝑚
De hecho podemos notar que las potencias 𝜎 𝑖 y 𝜏 𝑗 son disjuntos ∀𝑖, 𝑗. Luego
𝑘 = min{𝑚 = 1,2,3, … |𝜎 𝑚 = 𝑖𝑑} , 𝑙 = min {𝑚 = 1,2,3, … |𝜏 𝑚 = 𝑖𝑑}
Ahora la división con resto de 𝑚 por 𝑙 y 𝑘 respectivamente demuestra que
𝜎 𝑚 = 𝑖𝑑 ⟺ 𝑘|𝑚, 𝜏 𝑚 = 𝑖𝑑 ⇔ 𝑙|𝑚
Ahora (𝜎°𝜏)𝑚 = 𝜎 𝑚 °𝜏 𝑚 = 𝑖𝑑 ⇔ 𝜎 𝑚 = 𝑖𝑑 𝑦 𝜏 𝑚 = 𝑖𝑑 ⇔ 𝑘|𝑚 𝑦 𝑙|𝑚

Entonces min{𝑚 = 1,2,3, … |(𝜎°𝜏)𝑚 = 𝑖𝑑} = 𝑚𝑖𝑛{𝑚 = 1,2,3, … | 𝑘|𝑚 𝑦 𝑙|𝑚} = 𝑚𝑐𝑚(𝑘, 𝑙) como
se prometió.
Problema 4. Para el grupo simétrico 𝑆5 calcule cuantas diferentes permutaciones 𝜎 ∈ 𝑆5 satisfacen

la propiedad 𝜎°𝜏 = 𝑖𝑑
Solución
Teoría de Números
Capítulo 1. Los enteros

1.1 Algoritmo de la división
1.2 Máximo común divisor
1.3 Mínimo común múltiplo
1.4 Teorema fundamental de la aritmética
1.5 Sobre la factorización única y los números primos
1.6 Otras factorizaciones
Inician notas
Los enteros ℤ
En este trabajo ℕ, ℤ, ℚ, ℝ 𝑦 ℂ denotan a los números, naturales, enteros, racionales, reales y
complejos respectivamente. Por principio no consideramos al numero 0 como natural y definimos
ℕ ∪ {0} = ℕ0 . Asumimos que ℤ: = {0, −𝑛, 𝑛: 𝑛 ∈ ℕ}
Una de las herramientas más útiles en las matemáticas es el principio de inducción matemática (PI)
y su equivalente el principio del buen orden (PBO). El principio de inducción matemática nos brida
un método para hacer demostraciones de afirmaciones que involucran a los números naturales.
Concretamente, el PI y el PBO afirman los siguiente:
Principio de inducción matemática Sea 𝑆 ⊆ ℕ tal que 𝑆 satisface las siguientes propiedades:
a) 1 ∈ 𝑆
b) si 1,2,3,4, … , 𝑛 ∈ 𝑆, entonces 𝑛 + 1 ∈ 𝑆
entonces 𝑆 = ℕ
Observamos que si 𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑟 } es un conjunto finito, entonces en 𝑋 ∪ ℕ también se cumple
el principio de inducción matemática. Simplemente definimos en 𝑋 ∪ ℕ un orden: 𝑥𝑖 < 𝑥𝑗 si 𝑖 < 𝑗 y
𝑥𝑖 < 𝑛 para 𝑖 = 1,2,3, … , 𝑟 y 𝑛 ∈ ℕ. Lo anterior significa que hemos impuesto una formación de los
elementos de 𝑋 ∪ ℕ = {𝑥1 , 𝑥2 , … , 𝑥𝑟 , 1,2,3, … }. Ahora reetiquetamos los elementos de 𝑋 ∪ ℕ de la

siguiente manera: sea 𝑥𝑟+1 = 𝑖 para 𝑖 ∈ ℕ. Entonces 𝑋 ∪ ℕ = {𝑥1 , 𝑥2 , … , 𝑥𝑟 , 𝑥𝑟+1 , … }. Asi sea 𝑆 ⊆
𝑋 ∪ ℕ tal que:
(a) 𝑥1 ∈ 𝑆
(b) SI 𝑥1 , … , 𝑥𝑛 ∈ 𝑆, entonces 𝑥𝑛+1 ∈ 𝑆
Entonces 𝑆 = 𝑋 ∪ ℕ
En particular el PI es válido en 𝑁0 .
Principio del buen orden (PBO): Cualquier subconjunto 𝑆 ≠ ∅ de ℕ contiene un elemento 𝑚 que
satisface 𝑚 ≤ 𝑛 ∀𝑛 ∈ 𝑆, una observación muy simple pero muy útil es que el entero 𝑚 es único.
Al igual que como hicimos con el PI, podemos extender el PBO a otros conjuntos que contienen a
ℕ. Si 𝑋 = {𝑥1 , 𝑥2 , … , 𝑛𝑟 } es un conjunto finito, definimos en 𝑋 ∪ ℕ un orden 𝑥𝑖 ≤ 𝑥𝑗 si 𝑖 ≤ 𝑗 y 𝑥𝑖 <
𝑛, para 𝑖 = 1,2,3, … , 𝑟 y 𝑛 ∈ ℕ. Reetiquetamos los elementos de 𝑋 ∪ ℕ como en el ejemplo anterior
y ya podemos plantear un principio del buen orden en 𝑋 ∪ ℕ: Cualquier subconjunto 𝑆 ≠ ∅ de 𝑋 ∪
ℕ contiene un elemento 𝑥𝑚 que satisface 𝑥𝑚 ≤ 𝑥𝑛 para todo elemento 𝑥𝑛 ∈ 𝑆
Teorema 1.1.1 Sean ℕ𝑋 = 𝑋 ∪ ℕ como en la discusión anterior. Entonces el principio del buen
orden es equivalente al principio de inducción matemática.
∇ Demostración.
Supongamos que el PBO se cumple. Sea 𝑆 ⊆ 𝑋 ∪ ℕ que satisface las condiciones 1 y 2 del
principio de inducción matemática y 𝑆 𝑐 su complemento con respecto a ℕ ∪ 𝑋. Si 𝑆 𝑐 ≠ ∅ entonces
existe 𝑥𝑚 ∈ 𝑆 𝑐 tal que 𝑥𝑚 ≤ 𝑥𝑛 ∀𝑥𝑛 ∈ 𝑆 𝑐 y 𝑥𝑚 ≠ 𝑥1 pues 𝑥1 ∈ 𝑆. Observamos en particular que
𝑥𝑚−1 ∉ 𝑆 𝑐 pues 𝑥𝑚 es el menor elemento de 𝑆 𝑐 . Por lo tanto 𝑥𝑚−1+1 ∈ 𝑆. Esto último no es posible
pues 𝑥𝑚 ∈ 𝑆 𝑐 . Así𝑆 𝑐 = ∅ y 𝑆 = ℕ ∪ 𝑋 lo que demuestra la necesidad.
Ahora supongamos que el principio de inducción matemática es válido y sea 𝑆 un subconjunto no
vacío de 𝑋 ∪ ℕ vamos a suponer que el conjunto 𝑆 no contiene un elemento 𝑥𝑚 tal que
𝑥𝑚 ≤ 𝑥 ∀𝑥 ∈ 𝑆, es claro que 𝑥1 ∉ 𝑆 pues de lo contrario 𝑆 tendría in elemento menor. Sea
𝐶 = {𝑥𝑛 ∈ 𝑋 ∪ ℕ: 𝑥𝑛 < 𝑥 ∀𝑥 ∈ 𝑆}. Es claro que 𝑥1 ∈ 𝐶 pues 𝑥1 < 𝑥 ∀𝑥 ∈ 𝑆. Mostraremos que si
𝑥𝑘 ∈ 𝐶, entonces 𝑥𝑘+1 ∈ 𝐶 luego entonces usaremos el principio de inducción para incluir que 𝐶 =
ℕ ∪ 𝑋. Si 𝑥𝑘 ∈ 𝐶 y 𝑥𝑘+1 ∉ 𝐶, entonces para algún 𝑥𝑙 ∈ 𝑆 se tiene 𝑥𝑙 ≤ 𝑥𝑘+1. Puesto que 𝑆 no tiene
ningún elemento menor, existe 𝑥𝑡 ∈ 𝑆 tal que 𝑥𝑡 < 𝑥𝑙 ≤ 𝑥𝑘+1 asi que 𝑥𝑡 < 𝑥𝑘+1 y en consecuencia
𝑥𝑡 ≤ 𝑥𝑘 . Esto último no es posible pues 𝑥𝑘 < 𝑥𝑙 . Este absurdo nade de suponer que 𝑥𝑘+1 ∉ 𝐶. Por
lo tanto 𝑥𝑘+1 ∈ 𝐶 y por el principio de inducción tenemos que 𝐶 = 𝑋 ∪ ℕ. Particularmente, si 𝑥 ∈
𝑆, se tiene que 𝑥 ∈ 𝐶. Esto significa que 𝑥 < 𝑥, lo cual no es posible. Por lo tanto, 𝑆 debe contener
un elemento 𝑥𝑚 tal que 𝑥𝑚 ≤ 𝑥 para todo 𝑥 ∈ 𝑆. ∎
*¿Recuerdas cuando en la primaria se ejecutaban divisiones con enteros?
Bueno, el siguiente resultado, que es uno de las herencias mas importantes de las culturas
ancestrales, nos justifica formalmente por qué podíamos hacer nuestras divisiones tal como nos los
enseñaron nuestros profesores.
Teorema 1.1.2 Algoritmo de la división
Sean 𝑎, 𝑏 ∈ ℤ con 𝑎 ≠ 0. Existen enteros 𝑞 y 𝑟 únicos tales que 𝑏 = 𝑎𝑞 + 𝑟 donde 0 ≤ 𝑟 < |𝑎|.

∇ Demostración
Consideremos el conjunto 𝑆 = {𝑏 − 𝑎𝑚: 𝑚 ∈ ℤ}. Sea 𝑆0 = 𝑆 ∩ ℕ0 . Es claro que 𝑆0 ≠ ∅. Por el
principio del buen orden, 𝑆0 contiene un elemento 𝑟 que satisface 𝑟 ≤ 𝑛 para todo 𝑛 ∈ 𝑆0 .Lo
anterior nos asegura que 𝑟 = 𝑏 − 𝑎𝑞 para algún 𝑞 ∈ ℤ. Ahora mostraremos la unicidad de 𝑞 y 𝑟.
Supongamos que 𝑏 = 𝑎𝑞1 + 𝑟1 = 𝑎𝑞2 + 𝑟2 con 0 ≤ 𝑟1 < |𝑎| y 0 ≤ 𝑟2 < |𝑎|
Notemos que la igualdad 𝑎(𝑞1 − 𝑞2 ) = 𝑟2 − 𝑟1 implica |𝑎||𝑞1 − 𝑞2 | = |𝑟2 − 𝑟1 | y como −|𝑎| <
𝑟2 − 𝑟1, tenemos que −|𝑎| < |𝑞1 − 𝑞2 | < |𝑎|. Cancelando |𝑎| obtenemos −1 < |𝑞1 − 𝑞2 | < 1 y asi
𝑞1 = 𝑞2 . De lo anterior 𝑟1 = 𝑟2 . Por ultimo como 𝑎 ≠ 0, entonces 𝑎 ≥ 1 ó 𝑎 ≤ −1, si 𝑎 ≥ 1
tenemos que 𝑏 − 𝑎(𝑞 − 1) = 𝑎 − 𝑎𝑞 − 𝑎 < 𝑏 − 𝑎𝑞 = 𝑟, y asi 𝑏 − 𝑎(𝑞 + 1) < 0 y por lo tanto
𝑟 < 𝑎 = |𝑎|. El caso 𝑎 ≤ −1 es similar, se sigue al considerar que 𝑏 − 𝑎(𝑞 − 1) < 0 y con esto se
demuestra el teorema ∎
*El algoritmo de la división puede ser usado para obtener un importante resultado sobre la
representación de números naturales.
Teorema 1.1.3 Si 𝑎 > 1, entonces cualquier 𝑥 > 0 tiene una expresión única de la forma 𝑥 = 𝑏0 +
𝑏1 𝑎 + ⋯ + 𝑏𝑛 𝑎𝑛 con 𝑛 ≥ 0, 0 < 𝑏𝑛 < 𝑎 y 0 ≤ 𝑏𝑖 < 𝑎 para 0 ≤ 𝑖 ≤ 𝑛 − 1.
∇ Demostración
La existencia de tal expresión la justificaremos con inducción sobre 𝑥.
Si 𝑥 = 1, el resultado es evidente, supongamos que cualquier entero positivo 𝑚 < 𝑥 puede ser
representado de manera única en la forma 𝑟0 + 𝑟1 𝑎 + ⋯ + 𝑟𝑘−1 𝑎𝑘−1 + 𝑟𝑘 𝑎𝑘 , donde 0 ≤ 𝑟𝑖 < 𝑎,
0 ≤ 𝑖 ≤ 𝑘 y 𝑟𝑘 > 0.
Por el algoritmo de la división 𝑥 = 𝑞𝑎 + 𝑟 y 0 ≤ 𝑟 < 𝑎. Si 𝑞 = 0, entonces 𝑥 = 𝑟 es la
representación que buscamos. Si 𝑞 = 𝑥 entonces 𝑟 = 0 y 𝑎 = 1 es imposibles pues por hipótesis
𝑎 > 1. Lo anterior nos permite suponer que 0 < 𝑞 < 𝑥.
Por hipótesis de inducción tenemos 𝑞 = 𝑟0 + 𝑟1 𝑎 + ⋯ + 𝑟𝑘−1 𝑎𝑘−1 + 𝑟𝑘 𝑎𝑘 , con

0 ≤ 𝑟𝑖 < 𝑎 𝑦 𝑟𝑘 > 0 , entonces
𝑥 = 𝑎𝑞 + 𝑟 = 𝑟𝑘 𝑎𝑘+1 + 𝑟𝑘−1 𝑎𝑘 + ⋯ + 𝑟1 𝑎2 + 𝑟0 𝑎 + 𝑟
Y con un cambio de índices apropiado obtenemos que
𝑥 = 𝑏0 + 𝑏1 𝑎 + ⋯ + 𝑏𝑛 𝑎𝑛 .
Por ultimo mostremos la unicidad de esta representación: Concretamente, demostraremos que si
𝑥 = 𝑏0 + 𝑏1 𝑎 + ⋯ + 𝑏𝑛 𝑎𝑛 = 𝑐0 + 𝑐1 𝑎 + ⋯ + 𝑐𝑗 𝑎 𝑗 entonces 𝑛 = 𝑗 y 𝑏𝑖 = 𝑐𝑖 para 𝑖 = 1,2,3, … , 𝑛.

Si nuestra afirmación es falsa tenemos que
0 = ℎ0 + ℎ1 𝑎 + ⋯ + ℎ𝑠 𝑎 𝑠 , ℎ𝑠 ≠ 0, 𝑠 > 0. Con |ℎ𝑖 | < 𝑎 para 0 ≤ 𝑖 ≤ 𝑠 y ℎ𝑖 = 𝑐𝑖 − 𝑏𝑖 . Puesto que
|ℎ𝑖 | < 𝑎, entonces ℎ𝑖 ≤ 𝑎 − 1 y asi
𝑎 𝑠 ≤ |ℎ𝑠 𝑎 𝑠 | = |ℎ0 + ℎ1 𝑎 + ⋯ + ℎ𝑠−1 𝑎 𝑠−1 |≤ |ℎ0 | + ℎ1 𝑎| + ⋯ + |ℎ𝑠−1 𝑎 𝑠−1 | ≤ (𝑎 − 1) +

(𝑎 − 1)𝑎 + ⋯ + (𝑎 − 1)𝑎 𝑠−1 = (𝑎 − 1)(1 + 𝑎 + ⋯ + 𝑎 𝑠−1 ) = 𝑎 𝑠 − 1 lo cual es absurdo ∎
*La expresión 𝑥 = 𝑏0 + 𝑏1 𝑎 + ⋯ + 𝑏𝑛 𝑎𝑛 se conoce como la representación en base 𝑎 de 𝑥.

Ejemplo 1.1.4 El ejemplo natural es 𝑎 = 10 como cualquier numero natural tiene una
representación única
𝑛 = 𝑎0 + 𝑎1 10 + 𝑎2 102 + ⋯ + 𝑎𝑟 10𝑟
Ejemplo 1.1.5 Si 𝑎 = 2, entonces el numero 1475 que esta en base 10 lo podemos escribir como:
1475 = 1 ∗ 20 + 0 ∗ 22 + 0 ∗ 23 + 0 ∗ 24 + 0 ∗ 25 + 1 ∗ 26 + 1 ∗ 27 + 1 ∗ 28 + 0 ∗ 29 + +1 ∗ 210
Si x∈ ℝ definimos la función ⌊𝑥⌋ como el mayor entero menor o igual a 𝑥.

*El siguiente resultado nos da una caracterización del cociente 𝑞 en el algoritmo de la división
Teorema 1.1.6 Sean 𝑎, 𝑏 ∈ ℤ como en el algoritmo de la división
𝑏
(i) Si 𝑎 ≥ 1, entonces 𝑞 = ⌊𝑎⌋
𝑏
(ii) Si 𝑎 ≤ −1 y 𝑟 = 0, entonces 𝑞 = ⌊𝑎⌋
𝑏
(iii) Si 𝑎 ≤ −1 y 𝑟 > 0, entonces 𝑞 = ⌊𝑎⌋ + 1
∇ Demostración
Si 𝑎 ≥ 1 , entonces 𝑎𝑞 ≤ 𝑎𝑟 + 𝑟 = 𝑏 < 𝑎𝑞 + 𝑎 = 𝑎(𝑞 + 1)
De forma que obtenemos que
𝑏
𝑞 ≤ 𝑎 < 𝑞 + 1 y por lo tanto se sigue la primera afirmación
𝑏 𝑏
Si 𝑎 ≤ −1 y 𝑟 = 0, entonces 𝑎 = 𝑞 y 𝑞 = ⌊𝑎⌋
𝑟
Por último, si 𝑎 ≤ −1 y 𝑟 > 0, entonces −1 < < 0 de esto obtenemos
𝑎
𝑟 𝑏 𝑏
𝑞 − 1 < 𝑞 + 𝑎 = 𝑎 < 𝑞 y por lo tanto ⌊𝑎⌋ + 1 = 𝑞 ∎
Ahora ya podemos comenzar apropiadamente nuestro estudio de la teoría de la divisibilidad en ℤ.

Sean 𝑎, 𝑏 ∈ ℤ. De acuerdo al algoritmo de la división, si 𝑎 ≠ 0, entonces 𝑏 = 𝑎𝑞 + 𝑟 con 0 ≤ 𝑟 <
|𝑎|. Si 𝑟 = 0 entonces diremos que 𝑎 divide a 𝑏 o que 𝑏 es múltiplo de 𝑎 o que 𝑎 es un divisor de
𝑏. Escribiremos 𝑎|𝑏 si 𝑎 divide a 𝑏 y 𝑎 ∤ 𝑏 en caso contrario.
EL concepto de divisibilidad se puede adoptar casi en cualquier conjunto en el que se pueda sumar
y multiplicar. Por ejemplo en anillos y campos.
La definición es prácticamente la misma: si 𝐷 es un anillo conmutativo y 𝑎, 𝑏 ∈ 𝐷 con 𝑎 ≠ 0,
diremos que 𝑎 divide a 𝑏 en 𝐷 si 𝑏 = 𝑎𝑞 para algún 𝑞 ∈ 𝐷. Es importante hacer notar que la noción
de divisibilidad depende no solo de los elementos 𝑎, 𝑏 que se elijan, sino también depende del
conjunto en el cual se trabaje. Por ejemplo, 7 divide a 6 en ℚ y 7 no divide a 6 en ℤ.
Teorema 1.1.7 Sean 𝑎, 𝑏, 𝑐 ∈ ℤ. Las siguientes afirmaciones son ciertas.
(i) Si 𝑎 ≠ 0, entonces 𝑎|0 ,1|𝑎, 𝑎|𝑎.
(ii) Si 𝑎|𝑏 y 𝑏|𝑐, entonces 𝑎|𝑐

(iii) Si 𝑎|𝑥1 , 𝑎|𝑥2 , … , 𝑎|𝑥𝑛 , entonces 𝑎| ∑𝑛𝑖=1 𝛼𝑖 𝑥𝑖 para todo 𝛼𝑖 ∈ ℤ
(iv) Si 𝑏 ≠ 0 y 𝑎|𝑏, entonces |𝑎| ≤ |𝑏|

(v) Si 𝑎|𝑏 y 𝑏|𝑎 entonces |𝑎| = |𝑏|
(vi) Si 𝑎|𝑏 y 𝑐|𝑑 entonces 𝑎𝑐|𝑏𝑑
∇Demostración
Las afirmaciones 1-5 y 6 son consecuencia directa de la definición de divisibilidad.∎
Con respecto a la afirmación 3 del teorema anterior, proponemos una versión elemental; si 𝑎|𝑥1 y
𝑎|𝑥2 , entonces 𝑎|𝑥1 + 𝑥2 . Pregunta: ¿Es cierta la afirmación inversa?, es decir si 𝑎|𝑥1 + 𝑥2 ,
entonces ¿ 𝑎|𝑥1 𝑦 𝑎|𝑥2 ? La respuesta es no, por ejemplo, si 𝑛 > 1, entonces 𝑛|1 + (𝑛 − 1), 𝑛 ∤ 1 y
𝑛 ∤ 𝑛 − 1. La afirmación correcta es: si 𝑎|𝑥1 + 𝑥2 y 𝑎|𝑥1, entonces 𝑎|𝑥2 .
Consideremos los enteros 42 y -56- Observamos que 1,2,3,6,7,14,21,42 son divisores positivos de
42. Los números 1,2,4,7,8,14,28,56 son divisores positivos de -56. Notamos que 42 y -56
comparten los divisores 1,2,14 y el mayor de ellos es 14. Como es de esperarse, un divisor común
positivo y mayor lo llamaremos el máximo común divisor de 𝑎 y 𝑏. Este entero lo denotaremos
como 𝑚𝑐𝑑(𝑎, 𝑏). En nuestro caso el 𝑚𝑐𝑑(42, −56) = 14. Observamos que si 𝑎 = 0, entonces 𝑎
admite como divisores a todos los enteros menos al 0 , por lo tanto, si 𝑎 = 𝑏 = 0 entonces 𝑎 y 𝑏 no
tienen divisor común mas grande. Por tanto, para que exista el máximo común divisor de los enteros
𝑎, 𝑏, es necesario que 𝑎 ≠ 0 ó 𝑏 ≠ 0. Por otro lado, por la afirmación 1 del teorema 1.1.7 1|𝑎 y
1|𝑏, entonces 𝑚𝑐𝑑(𝑎, 𝑏) ≥ 1. En el caso particular de que 𝑚𝑐𝑑(𝑎, 𝑏) = 1 diremos que 𝑎, 𝑏 son
primos relativos. En el siguiente resultado mostraremos dos de las propiedades más importantes del
𝑚𝑐𝑑 en ℤ.
Teorema 1.2.1 Si 𝑎, 𝑏 ∈ ℤ con 𝑎, 𝑏 ≠ 0, entonces se cumple:
1. Existen 𝑥0 , 𝑦0 ∈ ℤ tal que 𝑚𝑐𝑑(𝑎, 𝑏) = 𝑎𝑥0 + 𝑏𝑦0
2. SI 𝑐 ∈ ℤ y 𝑐|𝑎, 𝑐|𝑏 entonces 𝑐|𝑚𝑐𝑑(𝑎, 𝑏)
∇ Demostración
Sea 𝑔 = 𝑚𝑐𝑑(𝑎, 𝑏). Consideremos el conjunto 𝑆 = {𝑎𝑥 + 𝑏𝑦 > 0}
Sea 𝑎 ≠ 0, entonces 𝑥 = 𝑎 e 𝑦 = 𝑏 lo que implica que 𝑆 ∩ ℕ ≠ ∅, asi que por el principio del buen
orden existen 𝑥0 , 𝑦0 ∈ ℤ tales que 𝑑 = 𝑎𝑥0 + 𝑏𝑦0 es el menor entero positivo en 𝑆, Si 𝑑 ∤ 𝑎,
entonces por el algoritmo de la división 𝑎 = 𝑑𝑞 + 𝑟 y 0 < 𝑟 < 𝑑. Así
𝑟 = 𝑎 − 𝑑𝑞 = 𝑎 − 𝑞(𝑎𝑥0 + 𝑏𝑦0 ) = 𝑎 − 𝑞𝑎𝑥0 + 𝑞𝑏𝑦0 = 𝑎(1 − 𝑞𝑥0 ) + 𝑏(−𝑞𝑦0 )
Por tanto 𝑟 ∈ 𝑆 lo cual es absurdo
De lo anterior se sigue que 𝑑 es un divisor común de 𝑎 y 𝑏 asi 𝑑 ≤ 𝑔. Finalmente, como 𝑔|𝑎 y 𝑔|𝑏,
entonces 𝑔|𝑎𝑥0 , 𝑔|𝑏𝑦0 y asi 𝑔|𝑑. Por lo tanto 𝑔 = 𝑑. La segunda afirmación del teorema es muy
sencilla pues si 𝑐|𝑎 y 𝑐|𝑏 entonces 𝑐|(𝑎𝑥0 + 𝑏𝑦0 ) y por lo tanto 𝑐|𝑔 como se prometió ∎

*En la prueba anterior de paso obtuvimos que el 𝑚𝑐𝑑(𝑎, 𝑏) es la mínima combinación lineal
positiva de enteros 𝑎, 𝑏. Notemos también que los enteros 𝑥0 , 𝑦0 no necesariamente so únicos, por
ejemplo;
2 = 𝑚𝑐𝑑(2,4) = 2(−1) + 4(1) = 2(5) + 4(−2)
Corolario 1.2.2 (Teorema de Euclides) Si 𝑎|𝑏𝑐 y 𝑚𝑐𝑑(𝑎, 𝑏) = 1 entonces 𝑎|𝑐
∇ Vamos a demostrarlo
La notación 𝑎|𝑏𝑐 significa que 𝑎 es un dividor de 𝑏𝑐 lo que implica que 𝑏𝑐 es divisible por 𝑎. Es
importante tener en cuante que 𝑎 y 𝑏 pueden no ser divisores comunes entre si, es decir, el máximo
común divisor 𝑚𝑐𝑑(𝑎, 𝑏) puede ser 1.
Si 𝑎 es un divisor de 𝑏𝑐, entonces podemos escribir 𝑏𝑐 = 𝑎𝑘 para algún 𝑘 en los enteros. Como
𝑚𝑐𝑑(𝑎, 𝑏) = 1, podemos escribir 1 como una combinación lineal de 𝑎 y 𝑏, es decir, existen enteros
𝑥, 𝑦 tales que 𝑎𝑥 + 𝑏𝑦 = 1
Multiplicando ambos lados de la ecuación por 𝑘 obtenemos 𝑎(𝑥𝑘) + 𝑏(𝑦𝑘) = 𝑘. Pero sabemos que
𝑏𝑐 = 𝑎𝑘 por lo que podemos remplazar 𝑎𝑘 por 𝑏𝑐 en la ecuación anterior para obtener
𝑎(𝑥𝑘) + (𝑏𝑐)𝑦 = 𝑘
Esto implica que 𝑎 es un divisor de 𝑘. Pero 𝑘 es un entero arbitrario, por lo que 𝑎 es un divisor
común de todos los enteros de la forma 𝑎|𝑏𝑐 y 𝑚𝑐𝑑(𝑎, 𝑏) = 1. En particular, 𝑎 es un divisor de 𝑐,
lo que implica que 𝑎|𝑐 como se prometió. ∎
*Una función 𝑓{𝑥1 , … , 𝑥𝑛 } ∈ ℤ[𝑥1 , … , 𝑥𝑛 ] es conocida como ecuación 𝐷𝑖𝑜𝑓𝑎𝑛𝑡𝑖𝑛𝑎. Estas

ecuaciones llevan el nombre de 𝑑𝑖𝑜𝑓𝑎𝑛𝑡𝑖𝑛𝑎𝑠 en honor a 𝐷𝑖𝑜𝑓𝑎𝑛𝑡𝑜 𝑑𝑒 𝐴𝑙𝑒𝑗𝑎𝑛𝑑𝑟𝑖𝑎. A
continuación, la ecuación 𝑑𝑖𝑜𝑓𝑎𝑛𝑡𝑖𝑛𝑎 𝑚𝑎𝑠 𝑠𝑒𝑛𝑐𝑖𝑙𝑙𝑎.
Teorema 1.2.3 Sean 𝑎, 𝑏 ∈ ℤ, con 𝑎 ≠ 0 ó 𝑏 ≠, y 𝑔 = 𝑚𝑐𝑑(𝑎, 𝑏). La ecuación 𝑎𝑥 + 𝑏𝑦 = 𝑐 tiene
solución en los enteros 𝑥, 𝑦 si y solo si 𝑔|𝑐. Si 𝑎𝑥 + 𝑏𝑦 = 𝑐 es soluble en ℤ y 𝑥0 , 𝑦0 es una solución
particular, entonces cualquier solución 𝑥, 𝑦 tiene la forma 𝑥 = 𝑥0 − 𝑏1 𝑡, 𝑦 = 𝑦0 + 𝑎1 𝑡, de donde
𝑎 = 𝑔𝑎1 , 𝑏 = 𝑔𝑏1 y 𝑡 ∈ ℤ.
∇ Vamos a demostrarlo. Aprovechando el teorema 1.2.1 Sean 𝑥0 , 𝑦0 ∈ ℤ tales que 𝑎𝑥0 + 𝑏𝑦0 = 𝑐,
entonces 𝑎 = 𝑔𝑎1 , 𝑏 = 𝑔𝑏1 y 𝑎𝑥0 + 𝑏𝑦0 = 𝑔𝑎1 𝑥0 + 𝑔𝑏1 𝑦0 = 𝑔(𝑎1 𝑥0 + 𝑏1 𝑦0 )=0
Capitulo 2. Enteros modulo 𝒏, ℤ𝒏

2.1 Congruencias

2.2 La congruencia 𝑎𝑥 ≡ 𝑏(𝑚𝑜𝑑 𝑚)
2.3 Sistemas de congruencias grado 1
2.4 La ecuación 𝜙(𝑥) = 𝑛
2.5 La congruencia 𝑓(𝑥) ≡ 0(𝑚𝑜𝑑 𝑚)
2.6 Lema de Hensel
2.7 La congruencia 𝑓(𝑥) ≡ 0(𝑚𝑜𝑑 𝑝)
Capitulo 3. Cuadrados en 𝔽𝒑
3.1 Simbolo de Legendre
3.2 Ley de reciprocidad cuadrática
3.3 Simbolo de Jacobi
Capitulo 4. Los enteros Gaussianos ℤ[𝒊]
4.1 Divisibilidad en ℤ[𝑖]
4.2 Factorización única en ℤ[𝑖]
4.3 Números primos en ℤ[𝑖]
4.4 Factorización explicita de un entero Gaussiano
Capitulo 5. Grupos
5.1 Grupos y subgrupos
5.2 Subgrupos normales y anormales
5.3 Homomorfismos de grupos
5.4 Productos directos
5.5 Teorema de Sylow
5.6 Importancia de los grupos simples finitos
5.7 Grupo simétrico
5.8 Grupo y geometría
5.9 El concepto de grupo abstracto. Teorema de Cayley.

Examen semanal 1
Para cada una de las siguientes preguntas deberás escribir tus procedimientos y ser claro en lo que
expones en cada caso.
1. Encontrar las soluciones al sistema
𝑤 − 2𝑥 + 2𝑦 − 3𝑧 = 15
3𝑤 + 4𝑥 − 𝑦 + 𝑧 = −6
{
2𝑤 − 3𝑥 + 2𝑦 − 𝑧 = 17
𝑤 + 𝑥 − 3𝑦 − 2𝑧 = −7
*Sugerencia: Usar una matriz asociada y hacer el proceso de triangulación de Gauss Jordan que
consiste en encontrar 1´s líder y hacer pivoteo para encontrar ceros arriba y debajo de cada 1 líder.
2. Sea (2𝑥 − 3)5 , desarrolla todos los términos usando el teorema del Binomio de Newton, a saber,
es el que dice que sean 𝑎, 𝑏 ∈ ℝ y 𝑛 ∈ ℕ entonces se satisface (𝑎 + 𝑏)𝑛 = ∑𝑛𝑘=0(𝑛𝑘)𝑎𝑛−𝑘 𝑏𝑘
Ecuaciones Diferenciales Ordinarias I y II

Introducción
Capítulo I
En este breve capitulo se proporciona una perspectiva del estudio de las ecuaciones diferenciales.
Primero, se indican maneras de clasificar las ecuaciones, a fin de contar con una estructura
organizada para el resto del escrito.
Clasificación de las ecuaciones diferenciales
Cuando se plantean en términos matemáticos muchos problemas importantes y significativos de la
ingeniería, las ciencias físicas y las ciencias sociales, se requiere determinar una función que
satisfaga una ecuación de una o mas derivadas de la función desconocida. Estas ecuaciones se
denominan ecuaciones diferenciales. Quizá el ejemplo mas conocido es la ley de Newton

𝑑 2 𝑢(𝑡) 𝑑𝑢(𝑡)
𝑚 𝑑𝑡 2
= 𝐹[𝑡, 𝑢(𝑡), 𝑑𝑡
] [1]
para la posición 𝑢(𝑡) de una partícula sobre la cual actúa una fuerza 𝐹, que puede ser una función
𝑑𝑢(𝑡)
del tiempo 𝑡, de la posición 𝑢(𝑡) y de la velocidad 𝑑𝑡
. Para determinar el movimiento de una
partícula sobre la que actúa una fuerza 𝐹 es necesario hallar una función 𝑢 que satisfaga la ecuación
[1]
El objetivo primordial es analizar algunas propiedades de las soluciones de las ecuaciones
diferenciales y describir algunos métodos que han probado su eficacia para hallar las soluciones, o
en algunos casos, dar aproximaciones de estas.
Ecuaciones diferenciales ordinarias y parciales
Una de las clasificaciones mas evidentes se basa en el hecho de si la función desconocida depende
de una sola variable independiente o de varias variables independientes. En el prime caso en la
ecuación diferencial solo aparecen derivadas ordinarias, por lo que se dice que es una ecuación
ordinaria; En el segundo las derivadas son derivadas parciales, por lo que la ecuación se denomina
ecuación diferencial parcial.
Además de la ecuación [1], dos ejemplos de ecuaciones diferenciales ordinarias son
𝑑 2 𝑄(𝑡) 𝑑𝑄(𝑡) 1
𝐿 +𝑅 + 𝑄(𝑡) = 𝐸(𝑡) [2]
𝑑𝑡 2 𝑑𝑡 𝐶
Para la carga 𝑄(𝑡) en un condensador de un circuito con capacitancia 𝐶, la resistencia 𝑅,

inductancia 𝐿, voltaje aplicado 𝐸(𝑡), y la ecuación que rige el decaimiento con el tiempo de una
cantidad 𝑅(𝑡) de una sustancia radioactiva, como el radio,
𝑑𝑅(𝑡)
𝑑𝑡
= −𝑘𝑅(𝑡) [3]
En donde 𝑘 es una constante conocida. Ejemplos típicos de ecuacioens diferenciales parciales son la
ecuación del potencial
𝜕2 𝑢(𝑥,𝑦) 𝜕2 𝑢(𝑥,𝑦)
𝜕𝑥 2
+ 𝜕𝑦 2
= 0 [4]
La ecuación de la difusión o conducción de calor

𝜕2 𝑢(𝑥,𝑡) 𝜕𝑢(𝑥,𝑡)
𝛼2 𝜕𝑥 2
= 𝜕𝑡
[5]
y la ecuación de onda
𝜕2 𝑢(𝑥,𝑡) 𝜕2 𝑢(𝑥,𝑡)
𝑎2 𝜕𝑥 2
= 𝜕𝑡 2
[6]
En donde 𝛼 2 y 𝑎2 son ciertas constantes. La ecuación del potencial, de difusión y de onda surgen de
diversos problemas en los campos de la electricidad y del magnetismo, elasticidad y mecánica de
fluidos. Cada una de ellas es típica de una gran clase de ecuaciones diferenciales parciales.
Sistemas de ecuaciones diferenciales
Otra clasificación de las ecuaciones diferenciales depende del numero de funciones desconocidas
que intervienen, si hay que determinar una sola función, entonces basta una ecuación. Sin embargo,

si existen dos o mas funciones desconocidas, entonces se requiere de un sistema de ecuaciones. Por
ejemplo las ecuaciones de 𝐿𝑜𝑡𝑘𝑎 − 𝑉𝑜𝑙𝑡𝑒𝑟𝑟𝑎, o del 𝑑𝑒𝑝𝑟𝑒𝑑𝑎𝑑𝑜𝑟 − 𝑝𝑟𝑒𝑠𝑎, son importantes en la
creación de modelos ecológicos; estas ecuaciones tienen la forma:
𝑑𝐻
𝑑𝑡
= 𝑎𝐻 − 𝛼𝐻𝑃
𝑑𝑃
𝑑𝑡
= −𝑐𝑃 + γHP [7]
en donde 𝐻(𝑡) y 𝑃(𝑡) son las poblaciones respectivas de las especies presa y depredadora. Las
constantes 𝑎, 𝛼, 𝑐 y 𝛾 se basan en observaciones empíricas y dependen de las especies en estudio.
Orden. El orden de una ecuación diferencial es el orden de la derivada más alta que aparece en ella,
asi las ecuaciones [1] y [2] son ecuaciones diferenciales ordinarias de segundo orden y la [3] es una
ecuación diferencial ordinaria de primer orden. De manera general, la ecuación
𝐹 (𝑥, 𝑢(𝑥), 𝑢′ (𝑥), … , 𝑢(𝑛) (𝑥)) = 0 [8]
Es una ecuación diferencial ordinaria de 𝑛-esimo orden. La ecuación [8] representa una relación
entre la variable independiente 𝑥 y los valores de la función 𝑢 y sus 𝑛 primeras derivadas
𝑢′ , 𝑢′′ , . . 𝑢(𝑛) . En las ecuaciones diferenciales es conveniente y se acostumbra a escribir 𝑦 en vez de
𝑢(𝑥), asi como 𝑦 ′ , 𝑦 ′′ , … , 𝑦 (𝑛) en vez de 𝑢′ , 𝑢′′ , . . 𝑢(𝑛) , por tanto la ecuación [8] se escribe como :
𝐹(𝑥, 𝑦, 𝑦 ′ , 𝑦 ′′ , … , 𝑦 (𝑛) ) = 0 [9]
Por ejemplo,
𝑦 ′′′ + 2𝑒 𝑥 𝑦 ′′ + 𝑦𝑦 ′ = 𝑥 4 [10]
Es una ecuación diferencial de tercer orden para 𝑦(𝑥) = 𝑢(𝑥). En ocasiones se usan otras letras en
lugar de 𝑦; el resultado es evidente a partir del contexto.
Se supone que siempre es posible despejar la derivada de orden mas alto en una ecuación
diferencial ordinaria dada y obtener
𝑦 (𝑛) = 𝑓(𝑥, 𝑦, 𝑦 ′ , … , 𝑦 (𝑛−1) ) [11]

Solución. Una solución de la ecuación diferencial ordinaria [11] sobre el intervalo 𝛼 < 𝑥 < 𝛽 es un
afuncion 𝜙 tal que existen 𝜙 ′ , 𝜙′′, … , 𝜙 (𝑛) y se satisface
𝜙 (𝑛) (𝑥) = 𝑓[𝑥, 𝜙(𝑥), 𝜙 ′ (𝑥), … , 𝜙 (𝑛−1) (𝑥)] [12]

Para toda 𝑥 ∈ (𝛼, 𝛽). A menos que se diga otra cosa, se cumple que la función 𝑓 de la ecuación [11]
es una función de valores reales, y se tiene interés en obtener las soluciones 𝑦 = 𝜙(𝑥) de valores
reales,
Es fácil comprobar por sustitución directa que la ecuación de primero orden [3]
𝑑𝑅
= −𝑘𝑅
𝑑𝑡
Tiene solución
𝑅 = 𝜙(𝑡) = 𝑐𝑒 −𝑘𝑡 , 𝑡 ∈ ℝ [13]

En donde 𝑐 es una constante arbitraria. De manera semejante, las funciones 𝑦1 (𝑥) = cos (𝑥) y
𝑦2 (𝑥) = sin(𝑥) son soluciones de 𝑦 ′′ + 𝑦 = 0 [14]
Para toda 𝑥. Como ejemplo un poco mas complicado, se quiere comprobar que 𝜙1 (𝑥) = 𝑥 2 ln (𝑥)
es una solución de 𝑥 2 𝑦 ′′ − 3𝑥𝑦 ′ + 4𝑦 = 0, 𝑥 > 0 [15]
Se tienen que encontrar las derivadas de la función 𝜙1 (𝑥) y sustituir
𝜙1 (𝑥) = 𝑥 2 ln (𝑥)
𝜙1′ (𝑥) = 𝑥 + 2𝑥𝑙𝑛(𝑥)
𝜙1′′ (𝑥) = 3 + 2ln (𝑥)
Al sustituir en la EDO planteada se tiene
𝑥 2 (3 + 2 ln(𝑥)) − 3𝑥(𝑥 + 2𝑥𝑙𝑛(𝑥)) + 4(𝑥 2 ln(𝑥)) = 3𝑥 2 − 3𝑥 2 + (2 − 6 + 4)𝑥 2 ln(𝑥) = 0
Lo cual comprueba que 𝜙1 = 𝑥 2 ln (𝑥) es una solución de [15].

Ecuaciones lineales y no lineales
Otra clasificación decisiva de las ecuaciones diferenciales es si son lineales o no lineales, Se dice
que la ecuación diferencial ordinaria 𝐹(𝑥, 𝑦, 𝑦 ′ , … , 𝑦 (𝑛) ) = 0 es lineal si 𝐹 es una función lineal de
las variables 𝑦, 𝑦 ′ , … , 𝑦 (𝑛) se aplica una definición semejante para las ecuaciones diferenciales
parciales. Por tanto, una ecuación diferencial ordinaria lineal general de grado 𝑛 es
𝑎0 (𝑥)𝑦 (𝑛) 𝑎1 (𝑥)𝑦 (𝑛−1) + ⋯ + 𝑎𝑛 (𝑥)𝑦 = 𝑔(𝑥) [16]

*Las ecuaciones (2) a (6), (14) y (15) son lineales. Una ecuación que no es de la forma (16) es no
lineal. La (10) es no lineal debido al termino 𝑦𝑦′.
Curso impartido por el Dr. José Manuel Islas Hernández
Introducción
¿Qué es una ecuación?
-Se trata de una igualdad entre conjuntos
¿Qué es una ecuación diferencial?
-Es una igualdad que relaciona funciones con sus derivadas.
Distinguiremos una Edo según
-Ordinarias “1 variable”
-Parciales “más de 1 variable”
Grado de una ecuación diferencial
-El grado de una EDO depende del grado de la mayor derivada.
Una forma de comprobar que una función es solución de una EDO

Se trata de comprobar sustituyendo las derivadas de la posible solución en la EDO y comprobar la
igualdad.
*La solución de una EDO puede ser una o mas funciones.
Método de variables separables para resolver una EDO
Sea
𝑑𝑦
𝑑𝑥
= 𝑔(𝑥)ℎ(𝑦) luego separando se tiene
𝑑𝑦
ℎ(𝑦)
= 𝑔(𝑥)𝑑𝑥 lo cual es integrable
Ejemplo práctico
2
𝑑𝑦
𝑑𝑥
= 6𝑥(1 − 𝑦)3
Solución
Es claro que podemos hacer
𝑑𝑦
2 = 6𝑥𝑑𝑥 lo cual se puede integrar de forma muy sencilla lo que es
(1−𝑦)3
𝑑𝑦
∫ 2 = ∫ 6𝑥𝑑𝑥 hágase en dos partes
(1−𝑦)3
𝑑𝑦
∫ 2 = −3 3√1 − 𝑦 “se obtiene integrando por cambio de variable, es decir, haciendo
(1−𝑦)3
𝑢 = 1 − 𝑦”, por otro lado tenemos que ∫ 6𝑥𝑑𝑥 = 3𝑥 2 + 𝑐 lo que nos produce la igualdad
−3 3√1 − 𝑦 = 3𝑥 2 + 𝑐
Esta es la solución y se trata de una familia de funciones ∀𝑐 ∈ ℝ, desde luego que 𝑦 se puede
despejar usando propiedades de los exponentes, función exponencial y logarítmica.
Condiciones iniciales
Una función que es solución de una EDO es una generalización para constantes arbitrarias
𝐶1 , … 𝐶𝑛 ∈ ℝ, cuando tenemos condiciones iniciales, obliga a que las constantes 𝐶1 , … , 𝐶𝑛 ∈ ℝ
tengan un valor especifico, por ejemplo 𝑦(𝑥0 ) = 𝑥, sustituyendo en la EDO nos dará el valor de
cada constante en nuestro conjunto solución.
Factor integrante
Sea la ecuación diferencial lineal de primer orden
𝑑𝑦
+ 𝑝(𝑥)𝑦 = 𝑄(𝑥)
𝑑𝑥
Se desea buscar una función que satisfaga

𝑑𝑦
𝜇(𝑥) [𝑑𝑥 + 𝑝(𝑥)𝑦] = 𝐷𝑥 [𝜇(𝑥)𝑦(𝑥)] lo que es

𝑑𝑦 𝑑𝑦 𝑑𝜇(𝑥)
𝜇(𝑥) 𝑑𝑥 + 𝜇(𝑥)𝑝(𝑥)𝑦 = 𝜇(𝑥) 𝑑𝑥 + 𝑦(𝑥) 𝑑𝑥
𝑑 𝜇(𝑥)
Luego 𝜇(𝑥)𝑝(𝑥)𝑦 = 𝑦(𝑥) de donde se tiene
𝑑𝑥
𝑑𝜇(𝑥)
𝑝(𝑥) = 𝜇(𝑥)𝑑𝑥 por lo que integrando por variables separables se tiene
𝑑𝜇(𝑥)
∫ 𝑝(𝑥)𝑑𝑥 = ∫ 𝜇(𝑥)
= ln ( 𝜇(𝑥)) luego
𝜇(𝑥) = 𝑒 ∫ 𝑝(𝑥)𝑑𝑥 que es nuestro factor integrante

Bueno y regresando a nuestra EDO general
𝑑𝑦
𝑑𝑥
+ 𝑝(𝑥)𝑦 = 𝑄(𝑥) y multiplicando por 𝜇(𝑥) se tiene
𝑑𝑦
𝜇(𝑥) [ + 𝑝(𝑥)𝑦] = 𝐷𝑥 [𝜇(𝑥)𝑦] , es decir
𝑑𝑥
𝑑𝑦
𝑒 ∫ 𝑝(𝑥)𝑑𝑥 [𝑑𝑥 + 𝑝(𝑥)𝑦] = 𝐷𝑥 [𝑒 ∫ 𝑝(𝑥)𝑑𝑥 )𝑦]
𝑑𝑦 𝑑𝑦
𝑒 ∫ 𝑝(𝑥)𝑑𝑥 𝑑𝑥 + 𝑒 ∫ 𝑝(𝑥)𝑑𝑥 𝑝(𝑥)𝑦 = 𝑒 ∫ 𝑝(𝑥)𝑑𝑥 𝑑𝑥 + 𝑒 ∫ 𝑝(𝑥)𝑑𝑥 𝑝(𝑥)𝑦
Por lo que se da la igualdad

Nota. Encontrar la solución de una Edo lineal de primer orden es encontrar una función de la forma
−𝟏
𝒚 = [𝒆∫ 𝒑(𝒙)𝒅𝒙 ] [∫ 𝑸(𝒙)𝒆∫ 𝒑(𝒙)𝒅𝒙 𝒅𝒙 + 𝑪]
Veamos un problema pues

Ejemplo 1
Encontrar la solución de la EDO lineal
𝑑𝑦
𝑥 − 𝑦 = 𝑥 2 sin(𝑥), ∀𝑥 ∈ 𝑥ℝ
𝑑𝑥
Primer identificamos la forma de la EDO y separamos los datos de la forma

𝑑𝑦 𝑦
− = 𝑥𝑠𝑖𝑛 (𝑥)
𝑑𝑥 𝑥
Con lo que ya esta de la forma planteada al inicio de este método, ahora procedemos relacionar los
elementos como:
1
𝑄(𝑥) = 𝑥𝑠𝑖𝑛(𝑥) ; 𝑝(𝑥) = − 𝑥
Por lo que debo integrar 𝑝(𝑥) de la siguiente forma

1
∫ 𝑝(𝑥)𝑑𝑥 = ∫ − 𝑥 𝑑𝑥 = −ln (𝑥) lo cual se debe traducir en
𝑒 ∫ 𝑝(𝑥)𝑑𝑥 = 𝑒 −ln (𝑥) que por propiedades de los logaritmos y la función exponencial es:

𝑒 ∫ 𝑝(𝑥)𝑑𝑥 = 𝑥 −1
Sustituyendo tengo
∫ 𝑄(𝑥)𝑒 ∫ 𝑝(𝑥)𝑑𝑥 = ∫ 𝑥𝑠𝑖𝑛(𝑥) ∗ 𝑥 −1 𝑑𝑥 = −𝑐𝑜𝑠(𝑥) + 𝑐

Con lo cual la solución de la EDO es pues 𝑦 = 𝑥[− cos(𝑥) + 𝑐] que representa la solución general.
Ecuaciones diferenciales ordinarias por sustitución “Ecuación de Bernoulli”
Son de la forma
𝑑𝑦
+ 𝑝(𝑥)𝑦 = 𝑄(𝑥)𝑦 𝑛
𝑑𝑥
Para estas efectuamos el cambio de variable

1
𝑣 = 𝑦 𝑛−1 por lo que 𝑦 = 𝑣 1−𝑛 y ahora debemos derivar 𝑦 lo que produce
𝑛
𝑑𝑦 1 𝑑𝑣
𝑑𝑥
= 1−𝑛 𝑣 1−𝑛 𝑑𝑥
Ahora se procede a sustituir en la ecuación diferencial general lo que produce

𝑛 1 𝑛
1 𝑑𝑣
1−𝑛
𝑣 1−𝑛
𝑑𝑥
+ 𝑝(𝑥)𝑣 1−𝑛 = 𝑄(𝑥)𝑣 1−𝑛
𝑛
1 𝑑𝑣
Multiplicando por el inverso multiplicativo de 1−𝑛 𝑣 1−𝑛 𝑑𝑥 en toda la ecuación se tiene
𝑑𝑣
+ (1 − 𝑛)𝑝(𝑥) = 𝑄(𝑥)(𝑛 − 1)
𝑑𝑥
Lo que ya es una EDO lineal que tiene solución de la forma

−1
𝑦 = [𝑒 ∫ 𝑝(𝑥)𝑑𝑥 ] [∫ 𝑄(𝑥)𝑒 ∫ 𝑝(𝑥)𝑑𝑥 𝑑𝑥 + 𝑐]
Ya que tengamos esta solución debemos recordar que hicimos un cambio de variable 𝑣 = 𝑦1−𝑛 por
lo que la solución se debe expresar en términos de la variable 𝑦 como corresponde.
Ecuaciones diferenciales exactas
Supongamos una función en dos variables 𝑧 = 𝑓(𝑥, 𝑦) de la cual sabemos su diferencial total, la
𝑑𝑓(𝑥,𝑦) 𝑑𝑓(𝑥,𝑦)
cual es 𝑑𝑧 = 𝑑𝑥
𝑑𝑦 + 𝒅𝒚
𝑑𝑥
-Vemos que sea 𝑓(𝑥, 𝑦) = 𝑐 una familia de curvas de nivel ∀𝑐 ∈ ℝ

𝑑𝑓(𝑥,𝑦) 𝑑𝑓(𝑥,𝑦)
- Una EDO exacta es de la forma 𝑑𝑥
𝑑𝑦 + 𝒅𝒚
𝑑𝑥 = 0 y en su forma más general es de la
forma 𝜇(𝑥, 𝑦)𝑑𝑥 + 𝑁(𝑥, 𝑦)𝑑𝑦 = 0
𝑑𝜇(𝑥,𝑦) 𝑑𝑁(𝑥,𝑦)
-El criterio para determinar si una Edo es exacta es comprobar que se cumpla 𝑑𝑦
= 𝒅𝒙

1. Sistemas de Ecuaciones Diferenciales lineales. Conjunto solución, matriz fundamental, matriz
exponencial, variación de parámetros
Inician notas
Existen muchos problemas físicos que comprenden varios elementos vinculados entre si de alguna
manera, por ejemplo, las redes eléctricas presentan esta característica, como la tienen algunos
problemas de la mecánica o de otros campos.
*Los sistemas de ecuaciones diferenciales ordinarias simultaneas surgen de manera natural en los
problemas que incluyen varias variables independientes, cada una de las cuales es una función de
una sola variable independiente. La variable independiente se denota por 𝑡 y 𝑥1 , . . , 𝑥𝑛 representan
variables independientes que son funciones de 𝑡. La derivación con respecto a 𝑡 se indica con un
apostrofo.
Teorema 7.1.1 Sean cada una de las funciones 𝐹1 , 𝐹2 , … , 𝐹𝑛 y las derivadas parciales
Definición importante. La constante de Lipschitz es un concepto matemático que se utiliza en el
análisis de funciones y en la teoría de ecuaciones diferenciales. En términos simples, una función se
dice que es Lipschitz continua si existe una constante positiva que acota a la razón de cambio de la
función entre cualquier par de puntos en su domino.
Formalmente, una función 𝑓(𝑥) se dice que es Lipschitz continua en un conjunto 𝑆 si existe una
constante 𝑘 tal que para todo 𝑥, 𝑦 ∈ 𝑆 se cumple

|𝑓(𝑥) − 𝑓(𝑦)| ≤ 𝑘|𝑥 − 𝑦|, la constante 𝑘 se llama constante de Lipschitz. Una función continua
tiene una tasa de cambio acotada y, por lo tanto, no varia demasiado entre los puntos cercanos a su
domino.
La constante de Lipschitz es importante en el análisis de funciones porque proporciona una forma
de cuantificar la suavidad de una función. Las funciones Lipschitz continuas son especialmente
importantes en la teoría de Ecuaciones diferenciales porque garantiza la existencia y unicidad de
soluciones a ciertas clases de ecuaciones diferenciales.
Tarea 1.
Para cada una de las siguientes funciones, encuentra una constante de Lipschitz sobre la región
indicada o muestra que no hay.
1. 𝒇(𝒙) = |𝒙|, −∞ < 𝒙 < ∞
Solución
Veamos que por definición, sean 𝑥, 𝑦 ∈ ℝ se tiene que
|𝑓(𝑥) − 𝑓(𝑦)| = |𝑥 − 𝑦| = 1|𝑥 − 𝑦| por lo que la función es 1-Lipschitz
𝟏
2. 𝒇(𝒙) = 𝒙𝟑 , −𝟏 ≤ 𝒙 ≤ 𝟏
Veamos que debemos encontrar si la función es |𝑓(𝑥) − 𝑓(𝑦)| ≤ 𝐿|𝑥 − 𝑦|, bueno, para la función
2
1
dada tenemos que encontrar la primera derivada para ver su comportamiento, esto es 𝑓 ′ (𝑥) = 3 𝑥 −3 ,
luego podemos encontrar el valor máximo en el intervalo [−1,1], veamos
2
1 1
|𝑓 ′ (−1)| = | (−1)−3 | =
3 3
2
1 1
|𝑓 ′ (1)| = | (1)−3 | = por lo que el valor máximo de la derivada ocurre en los extremos del
3 3
intervalo cuando la evaluamos en 1 y -1, por lo tanto la constante de Lipschitz es también el valor
máximo de la derivada por lo que se satisface
1 1
1 1 1
|𝑓(𝑥) − 𝑓(𝑦)| = | 𝑥 3 − 𝑦 3 | ≤ |𝑥 − 𝑦|
3 3 3
𝟏
3. 𝒇(𝒙) = 𝒙 , 𝟏 ≤ 𝒙
Bueno para encontrar la constante de Lipschitz en caso de que exista, encontrare la derivada y con
ella el valor máximo que alcanza la función en el intervalo dado.
La derivada en este caso es:
1
𝑓 ′ (𝑥) = − 𝑥 2 , por lo que ahora para encontrar el valor máximo me fijo en que el domino es [1,∞] y
con esto me doy cuenta que la función es decreciente por lo que alcanza su valor máximo cuando
𝑥 = 1, es decir, que podemos expresar la constante de Lipschitz como sigue

1 1 𝑥−𝑦 1
|𝑓(𝑥) − 𝑓(𝑦)| = | − | = | | = |𝑥 − 𝑦| pues se satisface que 1 ≤ 𝑥, 1 ≤ 𝑦 por lo que la
𝑥 𝑦 𝑥𝑦 𝑥𝑦
constante de Lipschitz en este caso es 1.
4. 𝒇(𝒙, 𝒚) = (𝒙 + 𝟐𝒚, −𝒚), (𝒙, 𝒚) ∈ ℝ𝟐

Bueno, para encontrar la constante de Lipschitz veamos que podemos calcular la norma de la
distancia euclidiana entre los puntos (𝑥, 𝑦) y (𝑢, 𝑣) lo que es
|𝑓(𝑥, 𝑦) − 𝑓(𝑢, 𝑣)| = ||(𝑥 + 2𝑦, −𝑦) − (𝑢 + 2𝑣, −𝑣)|| = ||(𝑥 − 𝑢) + 2(𝑦 − 𝑣), −𝑦 + 𝑣)|| =
√(𝑥 − 𝑢 + 2(𝑦 − 𝑣))2 + (𝑦 − 𝑣)2 ahora, para encontrar la constante de Lipschitz, debemos
encontrar el valor máximo de la razón entre ||𝑓(𝑥, 𝑦) − 𝑓(𝑢, 𝑣)|| y ||(𝑥, 𝑦) − (𝑢, 𝑣)|| en todo el
domino de la función.
2 (𝑦−𝑣)2
Podemos observar que ||𝑓(𝑥, 𝑦) − 𝑓(𝑢, 𝑣)|| ≤ √(𝑥 − 𝑢 + 2(𝑦 − 𝑣)) +
√(𝑥−𝑢)2 +(𝑦−𝑣)2
Podemos acotar la raíz del denominador de la expresión anterior para el valor mínimo del domino
de la función
√(𝑥 − 𝑢)2 + (𝑦 − 𝑣)2 ≥ |𝑥 − 𝑢|
además podemos acotar la raíz en el numerador de la expresión anterior por la suma de las
diferencias de cada coordenada.
√(𝑥 − 𝑢 + (𝑦 − 𝑣)2 + (𝑦 − 𝑣)2 ) ≤ |𝑥 − 𝑢| + 2|𝑦 − 𝑣|
Por lo tanto podemos escribir

|𝑓(𝑥,𝑦)−𝑓(𝑢,𝑣)| |𝑥−𝑢|+2|𝑦−𝑣|
||(𝑥,𝑦)−(𝑢,𝑣)||
≤ |𝑥−𝑢|
, cuando 𝑥 ≠ 𝑢 podemos simplificar la expresión a
|𝑓(𝑥,𝑦)−𝑓(𝑢,𝑣)| 2|𝑦−𝑣|
|(𝑥,𝑦)−(𝑢,𝑣)|
≤1+ |𝑥−𝑢|
De esta forma podemos concluir que la constante de Lipschitz para la función f(x,y)=(x+2y,-y) es
L=3 en todo el dominio de la función.
𝒙𝒚
5. 𝒇(𝒙, 𝒚) = 𝟏+𝒙𝟐ý𝟐 , 𝒙𝟐 + 𝒚𝟐 ≤ 𝟒
2
6. Considerar la ecuación diferencial 𝑥 ′ = 𝑥 3
(a) Muestra que hay infinitas soluciones satisfaciendo 𝑥(0) = 0 sobre cualquier intervalo cerrado
[0, 𝛽]
(b) ¿Para que valores de 𝛼 hay infinitas soluciones sobre [0, 𝛼] satisfaciendo 𝑥(0) = −1?
1, 𝑠𝑖 𝑥 ≤ 1
7. Definir 𝑓: ℝ → ℝ tal que 𝑓(𝑥) = {
2, 𝑠𝑖 𝑥 > 1

Muestra que no existe solución de 𝑥 ′ = 𝑓(𝑥) sobre cualquier intervalo abierto que contenga a 𝑥 =
1.
8. Considera el problema de valores iniciales

𝑥
𝑥′ = , 𝑥(0) = 0
√𝑥 2+ 𝑦2
𝑦
𝑦′ = , 𝑦(0) = 0
√𝑥 2 + 𝑦 2
𝑦(𝑡)
(a) Muestra que en todo punto y > 0 en que 𝑥(𝑡) no es nula, se tiene 𝑥(𝑡) = 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒
𝑑
(b) Muestra que 𝑑𝑡 √𝑥 2 (𝑡) + 𝑦 2 (𝑡) = 1
(c) Exhibe soluciones al problema de valores iniciales

(d) Compara lo obtenido con las conclusiones del teorema de existencia y unicidad.
Determina si existen soluciones únicas para cada uno de los siguientes problemas de valor inicial.
𝑦 ′ = 3𝑥 + 2𝑦
9.
𝑦(1) = 4
1
𝑦 ′ = 𝑥 2 +𝑦2
10.
𝑦(0) = 0
𝑥−2𝑦
𝑦 ′ = 𝑦−2𝑥
11.
𝑦(1) = 2
𝑦′ = 𝑥2 + 𝑦2
12.
𝑦(0) = 2
1
𝑦 ′ = 𝑥 2 +𝑦2
13.
𝑦(0) = 1
1
𝑦 ′ = 𝑥 2 −𝑦2
14.
𝑦(1) = 2
𝑦 ′ = √𝑥𝑦
15.
𝑦(1) = 0
1
𝑦′ =
16. √𝑥 2 +4𝑦 2 −4
𝑦(3) = 2

Tarea 2
Escribe unos pocos términos (3 a 5) del Método iterativo de Picard para cada uno de los siguientes
problemas de valor inicial. Cuando sea posible encuentra las soluciones de manera explicita.
𝑥´ = 𝑥 + 2
1)
𝑥(0) = 2
4
′
2) 𝑥 = 𝑥 3
𝑥(0) = 0
2. Fundamentos de la teoría de Ecuaciones Diferenciales Ordinarias

Teorema de existencia, teorema de unicidad, Método de Picard
Teorema de dependencia continua de los parámetros y las condiciones iniciales.
3. Teoría cualitativa de Ecuaciones Diferenciales
Estabilidad y estabilidad asintótica en el sentido de Lyapunov de los puntos de equilibrio.
Teorema de Hartman-Grobman
El método de la función de Lyapunov
EL teorema de Poincaré-Bendixon.
Introducción a la teoría de bifurcaciones.
Fundamentos de Python y programación en general

Curso de la universidad Austral
Veamos que es un String
Los strings o cadenas de caracteres son secuencias ordenadas de caracteres. Existen diversas formas
de definir los strings. Por ejemplo:
“Hola mundo” #con comillas dobles
‘Hola mundo’ #con comillas simples
“”Hola mundo”” #con dobles comillas
“””Hola mundo””” #con triples comillas
- Las primeras dos formas nos permiten definir strings de una sola línea, es decir, sin saltos de línea.
En la tercera y cuarta forma, en cambio, se pueden definir strings con saltos de línea.
Como los strings son una secuencia, podemos usar algunas funciones u operaciones de las
secuencias con los strings. Por ejemplo, para acceder a un carácter o subsecuencia de caracteres del
String podemos usar la indexación. También podemos pedirle la longitud con la función len.
Veamos algunos ejemplos

a_string=’Hola Mundo!’
#acceso a caracteres del String
a_string[0] #devuelve H
a_string[-1] #devuelve!
#Slicing de un string
a_string[:4] #devuelve Hola
a_string[5:9] #devuelve Mundo
#Longitud del string
len(a_string) #devuelve 11
Los strings son inmutables. Esto quiere decir que no se pueden modificar. Lo que si se puede hacer
es construir un nuevo String a partir de uno o mas strings o hacer una copia del mismo. En caso de
querer modificar un String se levantará una excepción del tipo TypeErorr. Veamos algunos
ejemplos
a_dtring=’Hola Mundo’
a_string[6]=’o’ #Dara un error de tipo TypeError
new_string=a_string+’?’ #Genera el string Hola Mundo!?
new_string=a_string[:6]+’o’+a_string[7:] #Genera el string Hola mondo
Como se puede ver, con el operador + se conectan Strings de manera que se crea un nuevo String a
partir de dos strings preexistentes.
En algunas ocasiones es necesario escapar algún carácter. Por ejemplo, si estoy definiendo el String
con comilla simple y el contenido del String tiene una comilla simple, para que se interprete
correctamente, debo escapar esa comilla simple. Para escapar caracteres dentro de un String se va a
utilizar la barra (\) invertida. En la siguiente tabla se muestra las secuencias de escape mas
utilizadas.
Secuencia de escape Descripción Ejemplo Resultado

\newline Barra invertida y print(“linea1\linea2\linea3”) linea1 linea2 linea3
nueva línea
ignorada
\\ Barra invertida print(“\\”) \
\’ Comilla simple print(‘\’’) ‘
\’’ Comilla doble print(“\””) “
\n Salto de línea (LF) print(“Hola \n mundo!”) Hola

Mundo!
\r Salto de línea (CR) print(“Hola \r Mundo!”) Hola
Mundo!
/t Tabulador print(“Hola \t Mundo!”) Hola Mundo!
horizontal
Strings con contenido dinámico

Por otro lado, se pueden crear strings con contenido dinámico. A continuación, mostramos algunos
ejemplos.
name=”Agustin”
“Hola %s””%name #Resultado: Hola Agustin
“EL numero es%d” %5 #Resultado: EL numero es 5.
“EL numero es%20d” %5 # Resultado: EL numero es 005
“EL decimal es %f” %6.5 #Resultado: EL numero es 6.5000000
“Hola%(name)s”%{‘name:name’} #Resultado: Hola Agustin
Métodos de los strings

A continuacion, se presentan los métodos mas relevantes de los strings:
Nombre Descripción Ejemplo Resultado

capitalize Capitalizar un ‘prueba’. capitalize() ‘prueba’
String.
center Centra un String en ‘prueba’.center(10,’*’) ‘*Prueba*’
un ancho pasado
como parámetro y
rellena los lugares
faltantes con un
carácter indicado.
count Devuelve la cantidad ‘prueba’.count(‘u’) 1
de veces que aparece
un substring en el
String
encode Codifica un string ‘prueba’. encode(‘utf-8’) b’prueba’
con cierta
codificación
endwith Indica si el String ‘prueba’.endwith(‘a’) True
termina con el
substring pasado
como parámetro
find Busca substring ‘prueba’find(‘e’) 3
pasado como
parámetro en el
string y devuelve el

índice donde lo
encontró ó -1 en
caso de no
encontrarlo.
format Realiza una ‘Hola{}’.format(‘Mundo!’) ‘Hola Mundo!’
operación del
formato String
index Busca el substring ‘prueba’.index(‘e’) 3
pasado como
parámetro en el
String y devuelve el
índice donde lo
encontró o
ValueError en caso
de no encontrarlo
isalnum Indica si el String ‘prueba10’.isalnum() True
contiene solo
caracteres
alfanumerico
isalpha Indica si el String ‘prueba’.isalpha() True
contiene solo
caracteres
alfabéticos
Romina
Álgebra elemental
Se define un campo (hay infinitos campos) que trataremos como nuestro piso firme, sin un campo
es imposible trabajar en matemáticas básicas.
Definición: Se define un campo ℝ donde podemos hacer una suma y un producto, es decir, ℝ es un
conjunto dotado de dos operaciones, una suma y un producto.
- Suma en ℝ
∀𝑎, 𝑏 ∈ ℝ, 𝑎 + 𝑏 = 𝑏 + 𝑎
∀𝑎, 𝑏, 𝑐, ∈ ℝ, 𝑎 + (𝑏 + 𝑐) = (𝑎 + 𝑏) + 𝑐
(∀𝑎 ∈ ℝ)(∃(−𝑎) ∈ ℝ), 𝑎 + (−𝑎) = 0
(∀𝑎 ∈ ℝ)(∃0 ∈ ℝ), 𝑎 + 0 = 𝑎
-Producto en ℝ
∀𝑎, 𝑏 ∈ ℝ, 𝑎𝑏 = 𝑏𝑎

∀𝑎, 𝑏, 𝑐 ∈ ℝ, 𝑎(𝑏𝑐) = (𝑎𝑏)𝑐
∀𝑎 ∈ ℝ, ∃1 ∈ ℝ, 𝑎(1) = (1)𝑎 = 𝑎
𝑆𝑖 𝑎 ≠ 0, ∃𝑎−1 ∈ ℝ, 𝑎𝑎−1 = 1
“Uniendo suma y producto se tiene”
∀𝑎, 𝑏, 𝑐 ∈ ℝ, 𝑎(𝑏 + 𝑐) = 𝑎𝑏 + 𝑎𝑏
Ahora si toca hacer matemáticas de verdad y no cosas chafitas
Teorema. Sea 𝑎 ∈ ℝ − {0} y 𝑚, 𝑛 ∈ ℕ, entonces se satisface lo siguiente:

𝑎𝑛 𝑎𝑚 = 𝑎𝑛+𝑚
𝑎𝑚
= 𝑎𝑚−𝑛
𝑎𝑛
(𝑎𝑛 )𝑚 = 𝑎𝑛𝑚
1
𝑎−𝑛 =
𝑎𝑛
𝑎0 = 1
𝑛
𝑚
√𝑎𝑚 = 𝑎 𝑛
Ejercicios importantes
(a) 24 (−1)5 = (2)(2)(2)(2)(−1)(−1)(−1)(−1)(−1) = −16
(b) 26 (−1)8 (−2)3 =

(2)(2)(2)(2)(2)(2)(−1)(−1)(−1)(−1)(−1)(−1)(−1)(−1)(−2)(−2)(−2) = −512
(c) 3−2 (2−1 )(9 ∗ 4) =2
Definición: Un numero primo es aquel 𝑝 ∈ ℤ tal que 𝑝 solo tiene como posibles divisores 1 𝑦 𝑝
*Nota, algunos números primos son {2,3,5,7,11,13,17,19,23,29,31,37, … }
Teorema fundamental de la aritmética
“Cualquier 𝑎 ∈ ℤ, se puede descomponer de manera única como el producto de sus factores
primos”
Es decir, 𝑎 = 𝑝1 𝑝2 𝑝3 … 𝑝𝑟 para algunos 𝑝𝑖 números primos con 𝑝𝑖 ≠ 𝑝𝑗
Ejemplos: Encontrar la factorización prima de las siguientes expresiones
(a) 144=2(72)=2*2*(36)=2*2*2*(18)=2*2*2*2*9=2*2*2*2*3*3=24 32
(b) 362=2*182=2*2*91=2*2*7*13=22 ∗ 7 ∗ 13

(c) 628=2*314=2*2*157=22 ∗ 157
1202 601
(d) 338
= 169
(e) √220 = √2 ∗ 2 ∗ 5 ∗ 11 = √22 ∗ 5 ∗ 11 = √22 √5√11 = 2√55

(f) Encontrar la factorización en números primos de la expresión 782=2*17*23
Clase 20/03/23
Vamos a hacer definiciones sobre el algebra de rectas y cosas chafitas de productos notables
Definición. Sabemos que ℝ son un campo dotado de dos operaciones, a saber, multiplicación y
suma, las cuales lo definen como un campo.
Definición. Un número se define como positivo si y solo si se puede comparar con el cero de la
siguiente forma 𝑎 > 0. Sin embargo notemos que −𝑎 < 0 lo que es consecuencia de la suma en los
reales.
Teorema. Si 𝑎, 𝑏 ∈ ℝ, y se tiene que ambas son positivas, entonces cuando 𝑎 > 𝑏 se tiene que
𝑎−𝑏 >0
Ejemplo
3 > 1 lo que es lo mismo que 3 − 1 = 2 > 0
Definición (importante) Se define la norma de un numero según sus condiciones iniciales, sea 𝑎 ∈
𝑎, 𝑠𝑖 𝑎 ≥ 0
ℝ, la norma de 𝑎 se define como |𝑎| = {
−𝑎, 𝑠𝑖 𝑎 < 0
Ejemplo
Encontrar los siguientes valores absolutos
(a) |−1| = −(−1) = 1
(b) |5| = 5
(c) |−7| = −(−7) = 7
(d) |14| = 14
Información importante Se tienen las desigualdades como una forma de expresar que una
cantidad es menor, igual o mayor que otra
Teorema El conjunto ℝ tiene un orden, a saber, un par de números 𝑎, 𝑏 ∈ ℝ satisface una y solo
una de las siguientes afirmaciones.
(1) 𝑎 < 𝑏
(2) 𝑏 < 𝑎
(3) 𝑎 = 𝑏

Definición Si 𝑎 ∈ ℝ se tiene √𝑎2 = |𝑎|
Ejemplo
√𝟑𝟐 = |𝟑| = 𝟑
𝟏 𝟐
√𝟑𝟐 = (𝟑𝟐 )𝟐 = 𝟑𝟐 = 𝟑𝟏 = 𝟑 “No es cierto en general”
Problema
Sea 𝑥 2 − 1 = 0 encontrar 𝑥
Esto tiene 2 soluciones, a saber −1 𝑦 1 pues
𝑥2 − 1 = 0
𝑥2 − 1 + 1 = 0 + 1
𝑥2 = 1
√𝑥 2 = √1
|𝑥| = 1
𝑥 = ±1
Ejercicio
𝑥 2 − 4 = 0, encontrar el o los valores de 𝑥.

Los valores son −2 𝑦 2
Ejercicio
Encontrar el o los valores de 𝑥 tal que 𝑥 2 − 3𝑥 − 16 = 0

𝑥1 = 5.7 y 𝑥2 = −2.7
Ambas son soluciones
Ejercicios
*Encontrar los valores de 𝑥 tal que se satisfagan las siguientes expresiones
(a) 𝑥 2 − 2𝑥 + 1 = 0
𝑥=1
(b) −𝑥 2 + 2𝑥 − 16 = 0
𝑎 = −1, 𝑏 = 2, 𝑐 = −16
Esto no tiene en ℝ pero si en ℂ
1 5
(c) 𝑥 2 + 2 𝑥 − 2 = 0
𝑥1 = 1.3 y 𝑥2 = −1.85

Definición Un numero par es de la forma 2𝑘 y un numero impar es de la forma 2𝑘 + 1
Demuestre que la suma de dos números pares es par.

∇ Demostración
Sean 2k y 2p dos números pares
La suma es 2𝑘 + 2𝑝 = 2(𝑘 + 𝑝) lo que demuestra nuestra proposición ∎
Demuestre que la suma de dos números impares es par.
∇ Demostración
2k+1 y 2p+1 son ambos impares por definición, bueno vamos a sumarlos
(2k+1)+(2p+1)=2k+2p+1+1=2k+2p+2=2(k+p+1) lo cual es par
Ejercicio
Encontrar tres números consecutivos tal que al sumarlos den 18.
*Sugerencia, un numero 𝑥 tiene como su consecutivo a 𝑥 + 1 y como su consecutivo a
𝑥+1+1
Solución
(y)+(y+1)+(y+2)=18
Y+y+y+3=18
3y=15
Y=5
Tarea: encontrar 4 números consecutivos que sumen 626.
Definición Sabemos que la velocidad es un vector que satisface ser la distancia dividida por el
tiempo, en palabras mas formales la velocidad es la derivada con respecto al tiempo de la
posición de una particula.
𝑑 𝑑𝑋
Fórmula 𝑣 = 𝑡 lo que se puede expresar en términos del calculo diferencial como 𝑣(𝑡) = 𝑑𝑡
Veamos un par de ejemplos

1. Sea un automóvil que recorre 13.5[km] en 30 minutos, determinar su velocidad promedio si
es que se movió a velocidad constante.
Solución
Primero convertimos la distancia de [km] a [m] por lo que

13.5𝑘𝑚 1000𝑚 1350𝑘𝑚𝑚
1
∗ 1𝑘𝑚
= 𝑘𝑚
= 1350[𝑚]
30𝑚𝑖𝑛 60𝑠 1800𝑚𝑖𝑛𝑠
1
∗ 1𝑚𝑖𝑛 = 1𝑚𝑖𝑛
= 1800[𝑠]
𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎
Aplicando la formula 𝑣 = 𝑡𝑖𝑒𝑚𝑝𝑜
1350[𝑚]
Sustituyendo 𝑣 =
1800[𝑠]
𝒎
Lo que es 𝒗 = 𝟎. 𝟕𝟓[ 𝒔 ]
2. Si un tractor recorre 3.5km con una velocidad de 6[m/s], determinar el tiempo que empleo
para recorrerlos.
3. Una partícula se mueve con ecuación de posición 𝑥(𝑡) = 𝑥 2 + 2𝑥, determinar la velocidad
*Sugerencia, derive la ecuación
Solución
𝑑𝑥 𝑛
Como 𝑥(𝑡) = 𝑥 2 + 2𝑥 usando la ecuación 𝑑𝑥
= 𝑛𝑥 𝑛−1
𝑣 = 𝑥´(𝑡) = 2𝑥 2−1 + 2(1)𝑥 1−1 = 2𝑥 + 1(2) = 2𝑥 + 2 lo que es la velocidad de la particula
4. Determine la aceleración de una partícula con ecuación de posición 𝑟(𝑥) = 𝑥 5 + 2𝑥 2

𝑑𝑥 𝑛
*Sugerencia: Derive 2 veces 𝑑𝑥
= 𝑛𝑥 𝑛−1
Solución
Veamos que la derivada primera de la función de posición 𝑟(𝑥) es
𝑑𝑟(𝑟) 𝑑 𝑑 2𝑑 2
𝑑𝑥
= 𝑑𝑥 (𝑥 5 + 2𝑥 2 ) = 𝑥 𝑥 5 + 𝑥
𝑥 = 5𝑥 5−1 + 2 ∗ 2𝑥 2−1 = 5𝑥 4 + 4𝑥 lo que es la velocidad de
la particula luego la aceleración es la segunda derivada lo que me produce
𝑑 𝑑 𝑑
𝑎= (5𝑥 4 + 4𝑥) = 5𝑥 4 + 4𝑥 = 4(5)𝑥 4−1 + 4(1)𝑥 1−.1 = 20𝑥 3 + 4𝑥 0 = 20𝑥 3 + 4
𝑑𝑥 𝑥 𝑑𝑥
5. Encontrar la distancia que recorre una particula si le toma 60 segundos a una velocidad de
𝑑
1.4[m/s] 𝑣 = 𝑡
La solución es que la distancia es 84[m]

6. Un cohete recorre 1300 [km] en un intervalo de tiempo de 3[h], suponiendo aceleración
nula, determina la velocidad promedio del cohete
Definición Recordar que la derivada de una función es un objeto matemático que nos ayuda o
obtener la pendiente (la primera derivada) que para fines físicos representa la velocidad de

una particula, la segunda derivada nos da la aceleración de la particula, en particular si la
derivada segunda es cero, entonces la aceleración es cero y la particula tiene un movimiento
rectilineo uniforme.
Clase 24/03/23
Hoy vamos a ver productos de polinomios
Poner atención
Definición: Un polinomio es una expresión de la forma 𝑓[𝑥] = 𝑎0 + 𝑎1 𝑥 1 + 𝑎2 𝑥 2 + ⋯ + 𝑎𝑛 𝑥 𝑛
donde 𝑎𝑖 ∈ ℝ y 𝑛 ∈ ℤ
Información importante: El grado de un polinomio 𝑓[𝑥] se define
𝑔𝑟𝑎𝑑(𝑓[𝑥]) = 𝑚𝑎𝑥{𝑖 ∈ ℕ|𝑥 𝑖 𝑐𝑜𝑛 0 ≤ 𝑖 ≤ 𝑛} y 𝑎𝑛 ≠ 0
Ejemplos
𝑦 = 12𝑥 0 + 3𝑥 1 + 3𝑥 2 , es un polinomio de grado 2
𝑦 = 12 + 12𝑥 3 − 14𝑥 5 + 𝑥, es un polinomio de grado 5
Ejercicio
Determinar el grado de los polinomios siguientes
(a) 𝑦 = (𝑥 + 2)2 =𝑥 2 + 4𝑥 + 4, es un polinomio de grado 2
(b) 𝑦 = (𝑥 − 3)(𝑥 + 4)=𝑥 2 + 4𝑥 − 3𝑥 − 12 = 𝑥 2 + 𝑥 − 12, es un polinomio de grado 2

*Sugerencia: usar (𝑎 + 𝑏)2 = (𝑎)2 + 2(𝑎)(𝑏) + (𝑏)2
Ejercicio
Determinar el grado de los siguientes polinomios
(a) 𝑦 = (𝑥 2 − 3)2 = (𝑥 2 )2 + 2(𝑥 2 )(−3) + (−3)2 = 𝑥 4 − 6𝑥 2 + 9, es de grado 4
(b) 𝑦 = (𝑥 2 + 1)(𝑥 2 − 1) = 𝑥 4 − 𝑥 2 + 𝑥 2 − 1 = 𝑥 4 +0-1=𝑥 4 − 1, es de grado 4
(c) 𝑦 = (𝑥 2 − 1 )(𝑥 + 3) = 𝑥 3 + 3𝑥 2 − 𝑥 − 3, es de grado 3

*Sugerencia: 𝑎𝑚 𝑎𝑛 = 𝑎𝑚+𝑛 y (𝑎𝑚 )𝑛 = 𝑎𝑚𝑛
Ejercicio nivel experto
6
(a) 𝑦 = 4√𝑥 + √𝑥 11
1
(b) 𝑦 = (𝑥 2 + 3 )(𝑥 2 − 1)

Trigonometría aplicada
Definición: Existen figuras geometrías en ℝ2 (en el plano)

Información importante. El plano tal y como lo conocemos es una estructura geométrica
definida a partir de la relación ℝ2 = ℝ𝑥ℝ = {(𝑎, 𝑏)|𝑎 ∈ ℝ, 𝑏 ∈ ℝ }
Información importante Existen los triángulos, cuya particularidad es que tiene 3 segmentos
de recta que unen a sus 3 vértices, forman ángulos internos que suman 180° y en particular
están en cualquier figura geométrica de 3 o mas lados “incluida la circunferencia”.
Información importante Tenemos 3 tipos de triángulos importantes por ser clasistas entre los
triángulos, a saber, el triángulo equilátero, triángulo isósceles y triangulo escaleno.
*Veamos las características de cada uno de estos triángulos
1. Triangulo equilátero: Todos sus lados y ángulos son iguales
2. Triangulo isósceles: Tiene 2 lados y 2 ángulos iguales y tercer lado y tercer ángulo desigual
a los otros 2.
3. Triángulo escaleno: Todos sus lados y ángulos son diferentes.
Teorema (de Pitágoras). En todo triangulo rectángulo se tiene que la suma del cuadrado de los
catetos es igual al cuadrado de la hipotenusa, es decir, sean 𝑎, 𝑏 ∈ ℝ los catetos del triangulo
𝐴𝐵𝐶, y sea 𝑐 ∈ ℝ la hipotenusa, entonces se satisface 𝑎2 + 𝑏 2 = 𝑐 2 .
*Nota, esto solo es válido en triángulos rectángulos, sin embargo, siempre se pueden construir
triángulos rectángulos a partir de cualquier triángulo.
Definición. Todo triángulo rectángulo tiene asociadas 6 razones trigonométricas. A saber:
Para cada ángulo 𝛼, 𝛽 en nuestro triangulo tenemos las siguientes razones (divisiones en
lenguaje corriente)-.
𝑐𝑎𝑡𝑒𝑡𝑜 𝑜𝑝𝑢𝑒𝑠𝑡𝑜
a) sin(𝛼) = 𝐻𝑖𝑝𝑜𝑡𝑒𝑛𝑢𝑠𝑎
𝑐𝑎𝑡𝑒𝑡𝑜 𝑎𝑑𝑦𝑎𝑐𝑒𝑛𝑡𝑒
b) cos(𝛼) = 𝐻𝑖𝑝𝑜𝑡𝑒𝑛𝑢𝑠𝑎
𝑐𝑎𝑡𝑒𝑡𝑜 𝑜𝑝𝑢𝑒𝑠𝑡𝑜
c) 𝑇𝑎𝑛 (𝛼) = 𝐶𝑎𝑡𝑒𝑡𝑜 𝑎𝑑𝑦𝑎𝑐𝑒𝑛𝑡𝑒
𝐶𝑎𝑡𝑒𝑡𝑜 𝑎𝑑𝑦𝑎𝑐𝑒𝑛𝑡𝑒
d) 𝐶𝑜𝑡(𝛼) =
𝐶𝑎𝑡𝑒𝑡𝑜 𝑜𝑝𝑢𝑒𝑠𝑡𝑜
𝐻𝑖𝑝𝑜𝑡𝑒𝑛𝑢𝑠𝑎
e) sec(𝛼) = 𝐶𝑎𝑡𝑒𝑡𝑜 𝑎𝑑𝑦𝑎𝑐𝑒𝑛𝑡𝑒
𝐻𝑖𝑝𝑜𝑡𝑒𝑛𝑢𝑠𝑎
f) csc(𝛼) = 𝐶𝑎𝑡𝑒𝑡𝑜 𝑜𝑝𝑢𝑒𝑠𝑡𝑜

Ejercicio dado el siguiente triangulo rectángulo, encontrar sus 6 razones trigonométricas
respecto de 𝛼
12
Ejercicio Dada 𝑡𝑎𝑛(𝛼) = 5
, encontrar las 5 razones trigonométricas
además de la hipotenusa del triángulo rectángulo considerado.
Teorema: Todas las figuras trigonométricas sin importar si son regulares o no, pueden particionarse
en triángulos para determinar su área total
Ejercicio Sea un pentágono con lado de 5[unidadaes], determinar su área.

Universidad Autónoma Metropolitana Unidad Iztapalapa División de Ciencias Básicas e Ingeniería Departamento de Matemáticas

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Universidad Autónoma Metropolitana Unidad Iztapalapa División de Ciencias Básicas e Ingeniería Departamento de Matemáticas

Cargado por

Copyright:

Formatos disponibles

Universidad Autónoma Metropolitana

Ramírez Aguirre Uriel Guadalupe

Ramírez Aguirre Uriel Guadalupe

Ramírez Aguirre Uriel Guadalupe

1.2 Descripciones numéricas

Ramírez Aguirre Uriel Guadalupe

Ramírez Aguirre Uriel Guadalupe

*A diferencia de la varianza, la desviación estándar posee la buena cualidad de estar expresada en

Ramírez Aguirre Uriel Guadalupe

*La desviación medida de la dispersión de un conjunto de datos numéricos.

Ramírez Aguirre Uriel Guadalupe

Ramírez Aguirre Uriel Guadalupe

En resumen, veamos la siguiente tabla

Ramírez Aguirre Uriel Guadalupe

*Recordamos que si 𝐴 es un conjunto, entonces la expresión #𝐴 representa la cardinalidad del

*Recordamos que 𝑠 2 denota la varianza, en consecuencia el término 𝑠 3 se calcula de la forma

Ramírez Aguirre Uriel Guadalupe

*Recordamos nuevamente que 𝑠 2 denota la varianza, en consecuencia, el termino 𝑠 4 denota la

Resumen de las formulas

Ramírez Aguirre Uriel Guadalupe

1.4 Variables aleatorias

Descripciones numéricas para una variable aleatoria 𝑿 con función de densidad o de

Ramírez Aguirre Uriel Guadalupe

Ramírez Aguirre Uriel Guadalupe

Ramírez Aguirre Uriel Guadalupe

Esto es, 𝑋1 es la primera estadística de orden, o bien puntualmente, 𝑥1 (𝑤) =

Ramírez Aguirre Uriel Guadalupe

2.2 Método de momentos

Ramírez Aguirre Uriel Guadalupe

Ramírez Aguirre Uriel Guadalupe

De donde se obtiene el estimador

Ramírez Aguirre Uriel Guadalupe

Algunos estimadores por el método de momentos

Distribución Parámetro(s) Estimador(es)

Ramírez Aguirre Uriel Guadalupe

2.3 Método de máxima verosimilitud

Ramírez Aguirre Uriel Guadalupe

= 𝜃𝑒 −𝜃𝑥1 … 𝜃𝑒 −𝜃𝑥𝑛 = 𝜃 𝑛 𝑒 −𝜃𝑛𝑥̅

Ramírez Aguirre Uriel Guadalupe

𝐿(𝜃) = 𝑓(𝑥1 , 𝜃) … 𝑓(𝑥𝑛 , 𝜃) = 𝜃(1 − 𝜃)𝑥1 … 𝜃(1 − 𝜃)𝑥𝑛 = 𝜃 𝑛 (1 − 𝜃)𝑛𝑥̅

*Nuevamente, mediante el cálculo de la segunda derivada se puede comprobar que el valor

𝐿(𝜇, 𝜎 2 ) = 𝑓(𝑥1 ; 𝜇, 𝜎 2 ) … 𝑓(𝑥𝑛 ; 𝜇, 𝜎 2 )

Por lo tanto, tomemos derivadas parciales

Ramírez Aguirre Uriel Guadalupe

*Para verificar que la función de verosimilitud tiene, efectivamente, un máximo en el punto

Se evalúa 𝐻 en el punto (𝜇̂ , 𝜎̂ 2 ) y comprueba que la matriz 𝐻(𝜇̂ , 𝜎̂ 2 ) es negativa definida.

En donde 𝜃 > 0 es un parámetro desconocido que deseamos estimar. La función de verosimilitud es

Ramírez Aguirre Uriel Guadalupe

Ramírez Aguirre Uriel Guadalupe

𝐿 ∗ (𝜂) = 𝑠𝑢𝑝{𝐿(𝜃): 𝜃 ∈ 𝜏 −1 (𝜂)} [2.3]

Ramírez Aguirre Uriel Guadalupe

Teorema 2.1(Principio de invarianzas) SI 𝜃̂ es el estimador máximo verosímil para un parámetro

𝐿 ∗ (𝜂̂ ) = 𝐿 ∗ ( 𝜏(𝜃̂)) = 𝐿( 𝜏 −1 (𝜏(𝜃̂))) ∋ 𝐿(𝜃̂)

*Observemos que el principio de invarianza es también valido cuando el parámetro 𝜃 es un vector

Ejemplo 2.19 El estimador máximo verosímil para el parámetro 𝜃 en la distribución 𝐵𝑒𝑟𝑛𝑎𝑢𝑙𝑙𝑖 es

Ramírez Aguirre Uriel Guadalupe

Ejemplo 2.21 Comprobaremos que la media muestral es un estimador insesgado para el

*Es interesante observar que el cálculo desarrollado en el ejemplo anterior no depende de la

Ramírez Aguirre Uriel Guadalupe

Se puede comprobar que

Substituyendo estas expresiones en [2.4] y simplificando se comprueba que 𝐸(𝑆 2 ) = 𝜃, es decir

Insesgamiento para funciones parametrales