Documentos de Académico
Documentos de Profesional
Documentos de Cultura
se hace un analisis de cluster cuando se tienen muchos casos que deben ser agrupados por
afinidad → los conglomerados o clusters representencassos homogeneos y que haya un
espacio tal que muestren heterogeneidad
● se calculan en base a las variables
● es una tecnica multivariada, y tomará en cuenta diversos tipos de datos que no podrían
ser promediables
● se agrupan elementos similares en grupos que entre ellos son diferentes: cualquier
elemento de un grupo debe ser distinto a cualqueir elemento de otro grupo (dentro del
grupo hay homogenidad)
● cuando hay mas variables, suelen requerirse mas clusters
● en vez de promediar se calcula la distancia entre los casos:
→ La distancia multivariada es la que determina que casos deben agruparse juntos,
cómo separarse, y qué casos considerarse singulares
→ se usa la funcion daysi
● se dreduce la alta dimensionalidad : el cluster representa lo que el algoritmo halló al
redumir las varibales o dimensiones en cada caso
● Particionantes (pam): busca partir los casos en grupos, el algoritmo establece centroides
que atraen a los elementos para separarlos en clusters. para hacer las particines se
usan métodos;
- kmedias: para variables numericas, porque calcula la disntancia para numeros
(con distancia euclidea). es sensible a datos atipicos
- kmedoides: es una alternativa para la distancia euclidea pero establece la
distancias a aprtir de las sumas de sus diferencias. en vez de usar la media
como punto de referencia para hacer clusters, usa al punto mas centrado de la
data (el centroide)
- gower: es la tecnica usada que es util para todo tipo de escalas, ideal para
estudios de CCSS
asigna un cluster a cada elemento
● jerarquizantes: busca clusterizar por etapas, hasta que todas las posibilidades de
clusterizacion sean visibles. el numero de clusters se obtiene en uno de los niveles del
dendograma formado en el proceso de clusterizacion. el algoritmo usa una matriz de
distancia o de similitud.se usa la funcion hcut. todos los elementos entran en un cluster
- aglomerativo (agnes) (conectividad): cada caso es un cluster y se forman los
clsuter por su similitud con otro cluster; se van juntando los clusters por su
afinidad hasta llegar a que todos los clusters se unan en uno solo. Muestra el
esfuerzo de juntar cluster por cluster (height).
→ linkages: es la distancia entre los elementos, se debe decidir la forma de
calcular la distancia entre los clusters que se van formando (cada metodo
configura una mejor tecnica de clusterizacion y muestra clusters mejor o peor
formados)
❏ single: distancia entre los elementos mas cercanos de 2 clusters
❏ complete: distancia entre los elementos mas alejados
❏ average: se saca la distancia entre entre todos los pares y se saca el
promedio de estas distancias
❏ ward: el criterio es el valor óptimo de una función objetivo deteminada por
el investigador, el criterio de varianza minima
- divisivo (daisi): toda la data es un cluster y los clusters se van formando a partir
de las diferencias entre los elementos hasta que cada elemento es un cluster
● basados en densidad: se agrupa basando en cuan cerca estan los elementos entre si
- se usa el algoritmo agloerativo dbscan
- se usa distancia epsilon para hacer la matriz de distancias
- la cantidad k minima para formar clusters es el numero de variables con las que
se esta trabajando
- para hacerlo se debe dimensionar los elementos en plano bidimensional con la
tecnica de escalamiento multidimensional
- no siempre todos los elementos se clusterizan, son atipicos
● otros:
- distribucion: se usan centroids, se usa la probabilidad de que un elmento
pertenezca a un cluster y se determinan los clusters que se necesitan
evaluacion de clusters:
● el mayor Average Silhouette width indica que ese cluster es el que mejor clusteriza a los
elementos u observaciones, la mejor forma de clsuterizacion tiene menos sillhuetes
negativas
● para identificar los casos mal asignados (que estan en la silhouette negeativa) entramos
al width que es donde esta la info de cada caso: los que tienen valores negativos son los
casos mal asignados
exploraciones previas:
● matriz de correlacion: es una tabla donde aparece el nivel de correlacion entre las
variables independientes (0-1)
● evaluacion de significancia: si esas correlaciones efectivamente son singnificativas
● ver si los datos se pueden factorizar
● varificar si se puede factorizar eficientemente:
- KMO → optimo = mayor a 0.5
● veritifcar si la matriz de correlacion es adecuada (deben rechazarse las pruebas Bartlett)
- matriz de correlacion es de identidad → matriz cuadrada de 0’s con 1’s en la
diagonal principal (\)
- matriz de correlacion es singular → que una variable solo se correlaciona con
otra y no se podrian hacer combinaciones de correlaciones
● sacar el numero de factores: comando parallel
- en el grafico sale cuanto explicia cada variable, a la latente
● evaluar el resultado
- (CRMS) Raíz del error cuadrático medio corregida: el porcentaje que no explica,
por eso debe estar cerca a cero
- (RMSEA) Raíz del error cuadrático medio de aproximación: la cantidad de
varianza no explicada, por eso para un buen ajuste de datos debe ser menor a
0.05?
- (TLI) índice de Tucker-Lewis: compara el ajuste del modelo propuesto y nulo (sin
relación entre las variables), debe ser mayor a 0.9 para indicar buen ajuste
- variables que aportaron más a los factores (communaliy)
- variables que aportan a más de un factor (complexily): 1=solo aportan a 1 factor
Regresion lineal
⇒ Es un modelo Estadístico que involucra el análisis de la relación entre dos variables
cuantitativas;
● permtie entender las relaciones teoricas entre las variables
● investigar si existe una asociacion entre las variables
● estudiar la fuerza de la asociacion (coef de correlacion)
● estudiar la forma de la relacion
● informa cuánto una variable (independiente) puede explicar la variación de otra
(dependiente)
● es una técnica para probar hipótesis direccionales o asimétricas (como la de la
correlacion)
● propone un modelo (ecuación) que recoja cómo una variable explicaría a otra
⇒ al sacar la regresion:
● se puede construir la ecuacion
● coef de VI→ los asteriscos dicen que hay un efecto significativo (se rechaza que la VI no
tenga efecto en la VD, o sea el valor de la VI no es 0). Indica en cuando aumenta la VD
cuando la VI aumenta en 1 unidad (magnitud). Cambia cuando se le mete una variable
más, suele disminuir porque deja de explicar lo que la nueva VI esta explicando. Indica
la direccion de la relacion
● R2 → Capacidad de prediccion, el porcentaje de explacion de Y por X. Si se logra
archivar la ecuacion, aumenta, tambien cuando se le mete más variables. dice qué
modelo es mejor por su capacidad predictiva y explicativa
● R2 ajustado → indica la capacidad predictiva a una situacion perfecta (cuando se
considera la VD como el Y real)
● error estadistico residual → es la suma de los residuos entre la VD estimada y el Y real;
por eso se le aumenta a la ecuacion
- cuando se aumentan variables, se reduce el error
- comprobar si esta reduccion es significativa con una Tabla de analisis de
varianza de ANOVA(se usa para comparar modelos)
❖ se quiere rechazar la H0=los modelos no difieren (no se ha reducido el
error al pasar de un modelo a otro)
❖ Pr(> F) → cuando es MENOR a 0.05, se rechaza la igualdad de modelos
y la comparacion es significativa (se redujo el error al meter otra variable)
tabla de contingencia:
● cuando ambas variables son categoricas y la hipotesis es asimetrica
● comparar la tendencia de cumplirse los eventos de las variables y probabilidad de
suceder uno de los eventos
⇒ La regresion logistica permite saber si la diferencia que muestra este ODD es significativa
● modela el comportameinto de la probabilidad del evento de interes
● preduce el resultado de una variable categorica
● los coef modelan el logaritmo del ODDS de que pase el evento
en la regresion se analiza cuanto afecta la VI al logaritmo del ODDS de la ocurrencia de un
evento
● coef VI→ si es positivo el efecto de esa categoria es postivo en la probabilidad de
ocurrencia del evento
- el valor modela el algoritmo: el log exponencial es el coef VI, si se le aplica
exponencial se anula el algoritmo y nos quedamos con el ODDSRATIO
→ el resultado es el efecto de la categoria en la ocurrencia del evento
● predictores numericos
Comparar modelos
● Se usa el valor Akaike (AIC) como criterio comparativo → menor AIC, mejor modelo
- cuando los valores estan muy cerca se usa el tesu de razon de verosimilitud
(likelihood ratio test -LRT) que indica la significacnia de pasar de un modelo a
otro
***pr(>chisq) con h0= modelos iguales
=> el pvalue menor a 0.05 indica que es singificativo pasar de modelo
Evaluar el modelo
⇒ se deben calcular las probabilidades predichas de ser voluntario
● matriz de confusion → para ver que tan bueno es el modelo aparecen los valores dados
de ser y no voluntario y los predichos
- prediccion perfecta cuando la antidiagonal (/) tiene 0. cuando el modelo es mejor,
se reduce mucho ese error
● medida para saber que tanto acertamos en predecir o no la ocurrencia del evento (para
medir la capacidad predictiva de una regresion logistica)
- cuando es más cerca a 1 es mejor el modelo de prediccion
- sensitivity y specificity
⇒ cuando se aprueba o elige un modelo se sacan los coef del ODDSRATIO
- efecto de la categoria sobre la ocurrencia del evento: se calcula restando los valores a 1
Efectos marginales⇒ para saber cuando afecta cada variable, la probabilidad del evento, en
promedio
● cuando el se aumenta una unidad a los valores de las otras VI, se puede ver si la
probabilidad de que ocurra el evento aumenta tambien
REGRESION COX
● Analisis de eventos historicos → para situaciones que combinan duración y observación
de eventos; es una tecnica que lidia con el hecho de no darse el evento (cuando el
evento es censurado)
- se debe crear un elemento en R para que lo reconozca como tal
- analisis Kaplan Meier → es el procedimiento descriptivo básico que se utiliza
para ver la dinámica de no ocurrencia del evento en el tiempo
para ver si hay diferencia de grupos se usa la prueba Mantel Cox: la diferencia
es significativa cuando el pvalue es MENOR a 0.05
Regresion Cox
⇒ permite utilizar regresores o predictores o covariados, pero no modela la duración
⇒ modela el riesgo de que el evento suceda
● al sacar la regresion:
- pvalue (Pr(>|z|)) → la relacion de las variables con el riesgo de ocurrencia de un
evento es significativa cuando es MENOR a 0.05
- coef normales → indica la relacion negativa o positiva en el riesgo de ser re
arrestado
- coef exponenciales → riesgo de ocurrencia del evento que cumple un una
caracteristica (se saca restaando el coef a 1 dependiendo que si es mayor o no a
1)
REGRESION TOBBIT
se usa cuando hay valores extremos censurados y se pueden modelar VD con fronteras puras
(de 0-1)
● trata a los valores extremos como distintos a los normales
● es equivalente a la regresion de MCO
REGRESON BETA
se usa cuandos se queire trabajar con valores atipicos
● los valores extremos no deben ser tomados como distintos a los normales
⇒ hay evidencia que la asignicon del gasto en infraestructura no sigue criterios tenicos porque no es
estadisticamente signifciativa. o sea la prioridad de asignacion a los municipios tras estudios
tecnicos no es relevante
CONCLUSIONES Y RECOMENDACIONES
variables
● efecto del grado de competencia política local en los niveles de eficiencia de gasto municipal
● gobiernos locales del oficialismo nacional son mas eficientes en el gasto?
● la experiencia de los alcaldes tgeneran gestiones mas eficientes?
● el sexo determina la eficiencia de la gestión
⇒ Esta investigación adoptó un enfoque político electoral para analizar la eficiencia de la gestión
municipal, viendo los incentivos y limitaciones que provienen del sistema político y de la competencia
estratégica que se establece entre los actores políticos, y pueden afectar la conducta de autoridades
locales → pertinente para una concepción multidimensional de la descentralización
⇒ Este estudio extiende una investigación llevada a cabo por Herrera y Francke y utiliza los puntajes
de eficiencia promedio estimados por los autores, así como las tipologías de municipalidades
provinciales y municipalidades distritales creadas por análisis de conglomerados.
Los hallazgos de los determinantes de la eficiencia municipal son sugestivos → confirman tendencias
transversales sobre el impacto de la descentralización fiscal sobre la descentralización administrativa,
muestran cómo el contexto local condiciona de manera desigual el impacto de la variable políticas en
los distintos grupos de municipalidades
● Una primera tendencia general es la existencia de un efecto de pereza asociado con las
transferencias intergubernamentales, especialmente por Foncomun → a través de las
categorías de municipalidades provincias como de las seis categorías de m. distritales → las
m. que reciben mayores recursos por transferencias se limitan a ajustar el gasto a los
recursos adicionales (gastan más pero no mejor)
● transferencias por canon (aunque no es significativa en todos los modelos) → la dirección es
negativa en todos los modelos. Estos resultados son preocupantes pues los recursos
transferidos a las m. por concepto de Foncomun y canon crecieron notablemente → esta
asociación negativa entre transferencias y eficiencia municipal es confirmada a través de
regresiones Tobit, que arrojan el mismo resultado
● ausencia de un efecto significativo asociado con la variable educación en todos los casos
salvo uno (modelo de categoría de municipalidades distritales semi urbanas): el porcentaje
de población con educación secundaria o más no hace diferencia sobre los niveles de
eficiencia municipal alcanzados → tampoco mantiene una dirección consistente con la
eficiencia municipal a través de los distintos grupos de municipalidades.
RECOMENDACIONES
Se necesita una agenda sobre formulación y evaluación de políticas más inclusiva → discusiones
sobre las reformas del sector educación y los obstáculos que se enfrenta → también una perspectiva
que considere los intereses políticos y mecanismos que permiten la reproducción de programas poco
eficientes o no progresivos en el gasto.
● necesidad de establecer un sistema de monitoreo del desempeño de los gobiernos locales
que provea insumos para organizar mecanismos de capacitación y asistencia técnica →
requerirá la construcción de indicadores de insumos (gasto) y de productos (resultados) para
el indicador de desempeño municipal → necesita un sistema de monitoreo eficiente
⇒ Es necesario revisar los criterios contenidos en la fórmula de distribución → tal vez sea hora de
complementar los criterios de compensación (como de Foncomun), con criterios que incentiven la
eficiencia en la gestión y en la recaudación de recursos propios.
⇒ Es necesaria información sistematizada y publicada regularmente para que la sociedad civil puedan
realizar un control del desempeño de sus autoridades locales.→ los gobiernos locales no son
monitoreados adecuadamente ni siquiera por el sistema de control público
⇒ Un llamado de atención para los partidos nacionales que aspiran a seguir existiendo siendo algo
más que un logo electoral → lo descuidado que la mayoría de partidos nacionales tiene la problemática
y el gobierno municipal → El gobierno de los partidos nacionales es prácticamente irrelevante, y cuando
influye, lo hace negativamente, reforzando la idea de ineptitud de los partidos políticos y de la
posibilidad de prescindir de ellos. Por ellos los partidos nacionales deben buscar formas de apoyar
más a sus municipios.