Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capitulo 2
Capitulo 2
HERRAMIENTAS MATEMATICAS
2.4.1. El método de Monte Carlo como técnica de generación de datos.
Tradicionalmente, el análisis de contingencia del sistema de energía se ha estudiado
utilizando metodologías deterministas, que consideran algunas condiciones de
operación extremas (diferentes niveles de carga) y contingencias críticas seleccionadas
(asociadas a algunos tipos de fallas y ubicaciones de fallas). Este tipo de estudios ignora
la naturaleza estocástica o probabilística de los sistemas de poder reales y, por lo tanto,
ciertos eventos graves que podrían llevar al sistema a condiciones potencialmente
inseguras pueden ignorarse [41].
Dado que el enorme volumen de incertidumbres influye en gran medida en la respuesta
dinámica del sistema de potencia, es necesario aplicar herramientas matemáticas que
permitan considerar los escenarios más probables. Una de las principales clases de
técnicas probabilísticas es la simulación basada en Monte Carlo (MC), que brinda la
posibilidad de obtener resultados más realistas, principalmente para el análisis de
sistemas complejos [41], ya que evita el uso de modelos sustitutos.
El método MC permite simular fenómenos con una incertidumbre involucrada
significativa, que corresponde a la condición operativa del sistema eléctrico.
El método de Monte Carlo es un procedimiento repetitivo que consiste en evaluar, en
cada repetición, la respuesta del sistema a través de la función de incertidumbre h,
utilizando un conjunto de variables de entrada (z) que se generan aleatoriamente a partir
de sus funciones de distribución de probabilidad (PDFs), para: obtener valores de salida
aleatorios numéricos (v) [82].
Por lo tanto, las diversas salidas de MC (es decir, una salida por iteración) generalmente
se agregan para obtener resultados estadísticos (típicamente representados por el valor
esperado y la desviación estándar) [41], [82]. Sin embargo, esta tesis no aplica
específicamente simulaciones basadas en MC. Con el objetivo de obtener información
estadística. El objetivo principal de utilizar esta técnica probabilística es generar datos
estáticos o dinámicos post-contingencia del sistema considerando una gran cantidad de
los escenarios y contingencias probables, incluso aquellos que podrían llevar al sistema
a posibles eventos en cascada y posteriores apagones. Entonces, el número de
repeticiones de MC no puede ser determinado directamente por las relaciones de
convergencia (como las presentadas en [82]).
En las aplicaciones propuestas por la presente tesis, el número de iteraciones dependerá
de la complejidad del sistema y del logro de un conjunto de datos suficientemente
representativos que revelen los patrones de vulnerabilidad y el estado post-contingencia.
A este respecto, se sugiere que el número de casos vulnerables generados represente al
menos el 20% del número total de casos. Este valor se ha determinado empíricamente a
través de varios experimentos realizados durante el desarrollo de la presente
investigación.
2.4.2. Técnicas de minería de datos
Dado que el objetivo de esta tesis es evaluar la vulnerabilidad de los sistemas de energía
eléctrica utilizando los datos obtenidos de diferentes PMU ubicadas en toda la red, las
principales herramientas matemáticas empleadas son las técnicas llamadas "Mineria de
Datos". Esta área de las matemáticas es un campo joven y prometedor cuyo objetivo es
permitir el "descubrimiento de conocimiento a partir de datos" (KDD) [83].
En términos generales, la extracción de datos se refiere a “extraer o minería de
conocimientos de grandes cantidades de datos” [83]. Este conocimiento se obtiene a
través de la determinación o extracción de patrones sumergidos en los datos (es decir,
reconocimiento de patrones). La figura 2.11 describe el proceso que permite obtener el
conocimiento de los datos.
Donde U es una matriz ortonormal que contiene los vectores propios de S, y Λ es una
matriz diagonal cuyos elementos son los valores propios (λi) de S.
La proyección de los datos originales en el hiper-plano definido por los vectores propios
de S (es decir, los coeficientes de PC), constituye las nuevas variables (es decir, PC
puntuaciones de -Z-) que se definen por (2.15)
Donde U es una matriz ortogonal cuyas columnas son los vectores propios ortonormales
de FF ', V' es la transposición de una matriz ortogonal cuyas columnas son los vectores
propios ortonormales de F′F, y Λ1/2 es una matriz diagonal que contiene las raíces
cuadradas de valores propios de U o V en orden descendente, que se denominan valores
singulares de F.
Teniendo en cuenta que n > p, esta descomposición de la matriz se puede escribir,
utilizando vectores, de la siguiente manera:
Lo que se puede escribir como una suma finita, como se muestra en (2.21).
Desde la última expresión, cada elemento de F (cada función discreta) puede
representarse por:
Vale la pena mencionar que la expresión mostrada por (2.23) en realidad representa la
descomposición de la función discreta del tiempo fk en una suma de un conjunto de
funciones discretas (vj) que son de naturaleza ortogonal (ya que son los vectores propios
ortonormales de F′F), ponderados por coeficientes reales resultantes del producto del j-
th valor singular de F por el j-th elemento propio del vector uk. Por lo tanto, vj
a 1/2
j ukj
representa la j-th EOF y su coeficiente kj se llama la puntuación EOF.
Sobre la base de una generalización de (2.23), es posible reconstruir la matriz F
completa (es decir, los datos originales) utilizando los EOF y sus correspondientes
puntajes EOF, como en (2.24).
Donde ai es el i-ésimo vector cuyos elementos son todas las puntuaciones EOF de aij
Luego, todas las puntuaciones de aij EOF se pueden calcular utilizando su forma
matricial, de la siguiente manera:
a la varianza total de la matriz de datos, y cada valor singular ofrece una medida de la
variabilidad explicada correspondiente, definida previamente por (2.16). Por lo tanto, el
número de EOF elegidos también depende de la variabilidad explicada deseada.
Cabe mencionar que la principal ventaja de los EOF es que permiten determinar las
funciones ortogonales que mejor se adaptan al conjunto de funciones dinámicas. Es
decir, aquellas funciones que mejor representan los patrones inmersos del conjunto de
señales.
Comparando con otras herramientas de procesamiento de señales, como el análisis de
Fourier (que también descompone la señal en funciones ortogonales), la mejora de los
EOF consiste en su adaptabilidad para encontrar las mejores funciones de patrón. Por el
contrario, el análisis de Fourier emplea siempre las mismas funciones trigonométricas
predefinidas: seno y coseno, que no siempre son las mejores funciones para representar
un comportamiento dinámico específico. Algunos ejemplos se presentan en el Apéndice
B para demostrar esta característica.
2.4.2.3. Análisis de Clustering (agrupamiento)
Una de las aplicaciones principales de las herramientas de minería de datos es clasificar
los datos en diferentes categorías, comúnmente llamadas "clases". A veces, las clases se
especifican previamente junto con los datos, pero en ocasiones no hay ninguna clase
asociada a los datos.
Las técnicas de Clustering se aplican cuando no hay una clase asociada a los datos, pero
las instancias deben dividirse en grupos naturales. Luego, la agrupación en clúster se
utiliza para agrupar elementos que parecen estar unidos naturalmente [90], de modo que
los datos dentro de un agrupamiento son similares entre sí y son diferentes a los datos
que pertenecen a otros agrupamientos [83].
Existen varias técnicas de Clustering, de las cuales esta tesis utiliza la agrupación
sustractiva y la agrupación Fuzzy C-means (FCM).
A. Agrupación sustractiva (Clustering sustractiva)
La agrupación sustractiva es una técnica que considera cada punto de datos
(observación) como un candidato para ser un centro de agrupación. Este supuesto hace
que el cálculo sea proporcional al tamaño del problema. Sin embargo, vale la pena
mencionar que los centros de agrupación reales no necesariamente coinciden con un
punto de datos, pero en la mayoría de los casos es una buena aproximación [91].
Dado que cada observación es un centro de agrupación prospectivo, una medida de
densidad (Dm) en cada punto de datos xi se puede definir mediante (2.28). Al usar Dm,
es posible obtener una medida de la potencialidad de cada punto de datos de ser un
centroide, porque una observación que presenta un valor de alta densidad tendrá muchos
puntos de datos adyacentes [91]
Donde rb es una constante positiva que representa un radio de vecindad con reducciones
mensurables en la medida de densidad [91].
Después de la modificación de densidad, el siguiente centro de agrupación será el punto
de datos que tenga la mayor medida de densidad modificada. El algoritmo se repite
máx Dmi Dmc1
hasta que [92], siendo ε un factor relajante que permite
determinar el número de grupos suficientes.
Con el fin de evitar la selección de los centroides cercanos, se sugiere que r b = 1.25ra.
Del mismo modo, el parámetro ε debe seleccionarse dentro de (0, 1). Si ε está cerca de
0, se generará un gran número de agrupaciones. Por el contrario, un valor de ε cercano a
1 conducirá a una pequeña cantidad de grupos [92].
En función de la capacidad descrita para determinar un número suficiente de
agrupaciones, se puede utilizar la agrupación sustractiva para inicializar los métodos de
agrupación basados en optimización iterativa (como promedios Fuzzy C) [93]. Este tipo
de aplicación se realiza a lo largo de esta tesis.
B. Agrupamiento difuso ( Fuzzy C-means clustering)
Fuzzy C-means clustering (FCM) es un método que utiliza la partición difusa para
permitir encontrar grupos de datos donde cada punto de datos (observación) pertenece a
un grupo con un cierto grado de grado de membresía. Por lo tanto, un punto de datos
determinado puede pertenecer a varios grupos con su propio grado de membresía entre
0 y 1 [91].
FCM se basa en la minimización de una función de costo (J) para particionar el
conjunto de datos. Esta función de costo se muestra por (2.30).
SVC necesita a priori una etapa de aprendizaje fuera de línea, en la cual el clasificador
debe ser entrenado usando un conjunto de datos de entrenamiento. Por lo tanto, los
datos deben dividirse en conjuntos de entrenamiento y prueba. Cada elemento del
conjunto de entrenamiento contiene un "valor objetivo" (etiquetas de clase) y varios
"atributos" (características). El objetivo de SVC es producir un modelo basado en datos
de entrenamiento, que predice los valores objetivos de los datos de prueba dadas solo
las características de los datos de prueba [98].
Dado un conjunto de entrenamiento de pares de características (xi, yi), i = 1,…, l donde
xi ∈ Rn y y ∈ {1, -1}l, para un problema de clasificación de dos clases, el clasificador
de vectores de soporte requiere la solución del problema de optimización que se muestra
en (2.33) [98].
Donde w es un vector de peso tridimensional, b es un término de polarización, ξi es una
variable de holgura asociada con xi, C es el parámetro de margen y (xi) es la función
de mapeo de x al espacio de características [97]. Vale la pena mencionar que w, b, y ξi
se determinan a través del proceso de optimización de SVC, mientras que C es un
parámetro que debe especificarse a priori.
Existen varias funciones del kernel, como lineal, polinomial, función de base radial
(RBF), entre otras. La figura 2.12 presenta, por ejemplo, un OH determinado utilizando
una función de núcleo lineal.
En esta tesis, el núcleo RBF (2.35) se usa porque es capaz de manejar posibles
relaciones no lineales entre etiquetas y características [98].
Hx, h1 y h0 son las salidas de la función h (2.40) basadas en diferentes entradas dadas
por:
Tenga en cuenta que la salida de (2.39) siempre está dentro de los límites [0, 1] para
cada xi* generado.
x
Durante la optimización, la forma de la función h se ajusta mediante la media i y las
variables de pendiente s1 y s2 El efecto de estos parámetros en la forma de la función se
ilustra en la Fig. 2.14.
La propiedad distintiva de MVMOS es la capacidad de buscar la mejor solución local
con pocas posibilidades de quedar atrapado en uno de los óptimos locales. Esto se
muestra para dos variables en la figura 2.15. Como se puede ver, la búsqueda se centra
en los valores medios que son para ambas variables 0.5 en este ejemplo. Sin embargo,
hay algunas muestras también fuera de las áreas medias, es decir, el algoritmo realiza
una búsqueda global, pero el énfasis está alrededor de los medios.
Las variables de la media y la pendiente se calculan a partir de un archivo de soluciones
de actualización continua, donde se almacenan las n mejores poblaciones logradas hasta
el momento.
Entonces:
Con la varianza: