Está en la página 1de 20

PRESENTACIONES ESTADÍSTICA

Módulo 1

Presentación 1: Introducción

¿Qué es la estadística?
• La palabra Estadística procede del vocablo “Estado”, pues una de las funciones
principales de los Estados nacionales era establecer registros de población, nacimientos,
defunciones, impuestos, cosechas...
• Como disciplina científica, la estadística tiene su origen en la modernidad. Sin embargo,
hay evidencia de diversas sociedades, no todas occidentales, que han hecho uso de la
estadística:
– Primero: estadística de conteo para saber cuántos (censos desde la
Antigüedad -Mesopotamia, Egipto, China-; astronomía y cultivos de los Mayas; censos y
contabilidad de los Incas).
– Segundo: estadística de distribuciones condicionales para saber quiénes.
Ejemplo: tablas demográficas entre los siglos XVI-XVIII).
– Tercero: estadística de probabilidades para saber con qué probabilidad (error, tipos y su
distribución, muestreo e inferencia).
• El matemático ruso Andrei Kolmogorov la definió de forma axiomática a inicios del siglo
XX, aunque se encuentran indicios desde el siglo XVII con los juegos de azar.

SIGLO XXI
• El progreso tecnológico y el valor de la información ha desarrollado un
mercado de servicios de consultoría, asesoramiento, paquetes estadísticos…que hizo cada
vez más fácil la aplicación del análisis estadístico.
• En la era de la información y los registros de datos, mediante los tratamientos
adecuados, cualquier tipo de comportamiento humano es susceptible de ser
analizado.
– Todo comportamiento humano puede registrarse y construir datos a partir
de ellos: compras, movilidad, inscripciones...
• Las nuevas técnicas de procesamiento de datos engloban: 1) Volumen de datos. 2)
Velocidad de procesamiento de datos. 3) Variedad de vías para la extracción de datos- 4)
Valor ($) de la información. 5) Veracidad de resultados.
– BIG DATA
– ANÁLISIS ESPACIAL
– MACHINE LEARNING SYSTEM

¿Dónde está la estadística en el proceso de investigación?


• La Estadística no solo interviene en la etapa de análisis, sino que ingresa en la
construcción del problema de investigación y el
diseño de la metodología de la investigación.
• El investigador debe anticiparse a qué tipo de datos y de técnicas se utilizarán para el
análisis.
RAMAS Y SUBRAMAS DE LA ESTADÍSTICA ESTADÍSTICA BÁSICA

- Estadística básica: Puede ser univariada, bivariada, multivariada (Atributos o variables


métricas)
- Estadística inferencial

ESTADÍSTICA SOCIAL BÁSICA (ESB)


• La ESB se ocupa de resumir información de un atributo o una variable sobre una colección
de unidades.
– Estos resúmenes resaltan lo típico, lo frecuente, lo disperso o heterogéneo de una
distribución de datos sobre un atributo o variable.
• Se analiza la forma o “geometría” de una distribución.
• Se analiza la relación que hay entre los atributos o variables.
• La ESB toma los datos como “dados”, como a-problemáticos,
porque supone que la selección de los casos: 1) no tiene error. 2) no se puede calcular el
error. 3) se puede “ignorar” el error.
– Por ejemplo: la ESB no distingue entre población y muestra como sí lo hace la estadística
inferencial (EI).

ESTADÍSTICA INFERENCIAL (EI)


• Describe, resume y analiza relaciones entre atributos o variables incorporando el error y su
impacto en todas las estimaciones.
• Se fundamenta en la Teoría de la Probabilidad para seleccionar una muestra y realizar
inferencias.
• Supone que los datos conforman una muestra probabilística de una población que no se
conoce pero que se quiere conocer
estimando los valores que podrían tener ciertos indicadores computados en la muestra.
• Tanto la ESB como la EI tratan con atributos (variables no métricas)
o variables métricas que representan conceptos o categorías explicativas de un fenómeno
de estudio.

EL ERROR
• El error proviene de (al menos) tres fuentes:
1. La selección de las variables para representar a los
conceptos.
2. El registro de las observaciones de las variables en los casos
seleccionados.
3. La selección de los casos o las observaciones.
• La ESB y la EI solamente se diferencian en el tratamiento que dan a la selección de los
casos o las observaciones (tercer error).
• A su vez, no podemos ignorar que las observaciones que hacemos están condicionadas
por nuestros órganos sensoriales, estados psíquicos, biografías, cultura, conocimientos
previos, instrumentos de estudio. Todos ellos son aspectos a intentar controlar y conocer su
incidencia en el estudio
SELECCIÓN DE LOS CASOS
• Las ideas actuales sobre la selección de las unidades a observar, incluso en los Censos,
consideran (estiman y calculan) cuál puede ser la probabilidad de que una unidad con
ciertos atributos pueda haber sido incluida.
• Se asume que el conjunto de unidades observadas (la “muestra”) pudo haber sido otra.
• La clave de una buena muestra es que los errores de muestreo NO sean sistemáticos,
sino aleatorios. De ser sistemáticos, estaremos ante un sesgo de selección en la muestra.

SELECCIÓN DE LOS CASOS: CENSO


• Al analizar la Información de los censos, hasta hace algunos años no se hacía uso de la
probabilidad.
• El censo era certeza. “Lo observado era el universo”
• En los censos, la idea de que se cuenta con una población como definición básica perduró
hasta la ronda 2000 (CEPAL). A partir de allí, se comienza a usar el término “estimación”
• La evaluación de la cobertura hecha a los censos de población desde 1960 en adelante,
llevó a detectar omisiones y luego a tratar de caracterizar estas omisiones para incluirlas en
la información final de la población.

Módulo 2

Presentación 2: Matriz de datos

CUESTIONARIO, DICCIONARIO, MATRIZ


•El instrumento de “recolección” de la información será un cuestionario físico o digital.
•Recolección directa: encuesta en sus diversas modalidades.
•Recolección indirecta: juegos en internet, fotos en redes sociales…
•Asociado al cuestionario, habrá un diccionario.
•La información recogida por el cuestionario servirá para el análisis
estadístico y estará organizada en formato de matriz de datos.
•Todo lo anterior está comprendido en la técnica de investigación llamada encuesta, pero
importa considerar que una matriz de datos se puede alimentar de otras técnicas.

INFORMACIÓN / MATRIZ
•La Información producida por el instrumento (cuestionario) a partir de una técnica de
investigación (encuesta) puede organizarse y archivarse (electrónicamente) en un formato
de matriz (o de matrices) de datos.
• La matriz ofrece una forma ordenada de trabajar sistemáticamente la información.
•El archivo (electrónico) en términos de matriz es susceptible de ser abierto y trabajado en
una aplicación informática con capacidad de procesamiento estadístico (Excel, STATA, R,
PSPP, SAS, SPSS, Tableau, etc.)

ELEMENTOS DE UNA MATRIZ DE DATOS


•En las filas o renglones se colocan las unidades.
•En las columnas se colocan las variables.
• El encuentro de renglón y columna se llama celda y contiene el valor que asume la
variable para esa unidad.
• En las celdas (combinación de filas y columnas) se colocan los valores (observados,
medidos).
•Genéricamente, llamaremos DATO al valor de cada celda.

PROPIEDADES DE LA MATRIZ DE DATOS


•Clasificación
•Celdas o valores mutuamente excluyentes.
•Integridad
•Cada unidad de análisis cuenta con un valor para cada variable.
•Comparabilidad
•Entre unidades de análisis para una misma variable.
•Entre variables para un caso (unidad).
•Con otra base de datos con las mismas variables y unidad de análisis.

¿Qué es una matriz de datos en Estadística?


Es una forma rectangular de filas y columnas compuesta por datos a partir del encuentro
entre unidades y variables. Esta forma de organizar la información permite el trabajo
sistemático y ordenado.

LA MATRIZ DE DATOS
Acciones previas al análisis:
• Limpieza de la base de datos (data cleaning) también llamada minería de datos.
•Acciones previas o durante el análisis:
• Transformación en columnas: recodificaciones y creaciones de nuevas variables.
• Transformación en filas: agregación de unidades o colapso de unidades.
•Creación de índice: combinación de información contenida en varias variables.

MATRIZ EN MATEMÁTICA
•Continuamos con la definición de arreglo rectangular de filas y columnas a partir de la
siguiente formalización.
•A las filas se las identifica con la letra “i”.
•Tal que i = 1,2,3,….N
•A las columnas se las identifica con la letra “j”.
•Tal que j = 1, 2, 3… P

ELEMENTO INDIVIDUALIZADO
•Un elemento individualizado es un dato de la matriz
•El elemento queda individualizado en una celda
•El elemento individualizado lo expresamos con una letra (X) e informando con dos
subíndices de filas (i) y columnas (j).
•El subíndice se construye con, primero, la fila y luego la columna de la celda identificada.

TRES TÉRMINOS QUE DISTINGUIR:


•Información científica: toda aquella observación que ha sido producida a través de un
método de estudio científico con base en un problema de investigación.
•Dato o valor: elemento individualizado en una matriz de datos.
•Estadístico: valor resumen logrado a través de la aplicación de una función matemática.
ESTADÍSTICO
•Uno de los objetivos de la disciplina estadística es resumir grandes cantidades de datos de
una matriz (de datos).
•Se trata de aplicar funciones matemáticas a datos con la finalidad de describir
apropiadamente el objeto de estudio.
•Por tanto, el resumen de datos intenta cumplir con los objetivos y responder las preguntas
e hipótesis de estudio (el problema de investigación).

Presentación 3: Unidades de análisis

EN LA MATRIZ DE DATOS
• Renglones o filas
• Columnas
• Celdas o casillas

EN LA FILA O RENGLÓN SE UBICA LA UNIDAD DE ANÁLISIS


• Cada renglón de una matriz de datos es una unidad de una unidad de análisis. En un
renglón se puede observar la información que tiene o está disponible para esa unidad. La
información depende de las variables consideradas.
• Convencionalmente, la unidad suele representarse con la letra minúscula Latina “i”.
• La expresión i=32 representa la unidad (renglón 32) de la matriz de datos.
• El total de renglones que tiene una matriz, se denomina con la letra minúscula “n” aunque
es utilizado también la letra mayúscula “N”.
• La expresión N=10248 indica que en la matriz de datos hay 10248 unidades y que la
última unidad es i=10248

DEFINICIÓN DE UNIDAD DE ANÁLISIS


• Definición formal: la unidad es el objeto caracterizado a través de sus atributos o
propiedades (variables). Ese objeto pertenece a una colección de objetos de la misma
“especie” o “naturaleza”.
- La unidad es lo descrito o caracterizado por la información que proveen las variables de la
matriz de datos.
• Colección de la misma especie: la matriz de datos contiene unidades de la misma
“naturaleza”: todos los renglones son países, todas las filas son individuos, etc.
• Las unidades pueden ser entidades biológicas (personas, perros…) y no biológicas
(hogares, viviendas…).
En otras palabras
• Si usamos una analogía gramatical, la unidad de análisis es el sujeto de las oraciones que
describen o explican el fenómeno que estudiamos.

TIPOS DE UNIDADES
•Típicas:
•Individuos
•Hogares
•Organizaciones (liceos, hospitales, empresas, sindicatos, ONG,
partidos políticos, etc)
•Países
•Unidades territoriales:
•Viviendas
•Barrios
• Localidades o ciudades
•Regiones
•Departamentos, provincias, estados
TIPOS DE UNIDADES
•Unidades “abstractas”
•Leyes o proyectos de ley
•Convenios colectivos
•Conflictos sindicales
•Programas sociales (por ejemplo, para alivio a la pobreza)
•Textos escolares (por ejemplo, de lectura o matemática).

MUESTRA / UNIVERSO
•La matriz de datos contiene un conjunto de unidades de una misma especie pero la
especie puede no agotarse con el número de unidades incluidas en la matriz de datos.
•En ese caso, las unidades incluidas en la matriz de datos pueden conceptualizarse como
un subconjunto (muestra) dentro de uno más amplio al cual se le llama “población” o
“universo”.

LA ESTADÍSTICA BÁSICA…
•La estadística básica (de atributos y descriptiva) que se aborda en este curso no se ocupa
de la relación entre la muestra y el universo
•No toma en cuenta el proceso de selección de la muestra.
•No le interesa el error de muestreo.
•No le interesa hacer inferencias (generalizar).

UNIDAD DE REGISTRO ≠ UNIDAD DE ANÁLISIS


•Unidad de análisis: a quien o lo que se describe o caracteriza por las variables de la matriz
de datos.
•Unidad de registro: quien o lo que describe o caracteriza la unidad de análisis.
•Por ejemplo: para describir cuántos alumnos y profesores tienen los “liceos” de
Montevideo…
•Unidad de registro: Director(a), CODICEN, etc.
•Unidad de análisis: “liceo”.
•Una matriz de datos puede contener información sobre la unidad de análisis de distintas
unidades de registro.
•Una o algunas de las unidades de registro pueden ser diferentes a la unidad de análisis.
•Finalmente, una investigación científica puede tener varias unidades de análisis y unidades
de registro.
•Lo que debe quedar claro es que una matriz de datos solamente tiene una única unidad de
análisis.
Presentación 4: Variables

DELIMITACIÓN CONCEPTUAL DE VARIABLE


•Es una cualidad o característica de un objeto o unidad (o evento) con al menos dos
atributos (categorías o valores) en los que pueda clasificarse.
•La variable describe un objeto o unidad (o evento)
•La variable es susceptible al cambio o variación.
•La variable puede estar vinculada, en su variación, a otras variables.
•En la matriz de datos cada columna es una variable.

PROFUNDIZANDO LA NOCIÓN DE VARIABLE


•Es un criterio de clasificación
• Clasifica las unidades en categorías, clases, o valores
•Parte de un criterio
•Hay una definición explícita, operacional, pública y replicable.
•Está referido a un concepto
•Una variable se propone para “hacer observable un concepto”.
•Impone una regla de correspondencia entre conceptos y observaciones (registradas en
números) que permite pasar del campo de los atributos o propiedades de las unidades al
campo observable mediante el registro numérico.

CLASIFICACIÓN
•Establece clases o categorías.
•Agrupa objetos que comparten un atributo en común.
•Puede expresar cierta cantidad de un atributo.
•Compara
•Compara unidades de acuerdo a sus categorías, clases o valores.
•Las clasificaciones en estadística se hacen en el nivel más elemental de las variables: los
indicadores.
•El indicador es la expresión empírica más concreta del concepto observado. La información
registrada surge del indicador ya que éste señala cómo se midió la variable.
•Exhaustiva; Todas las unidades deben ubicarse en las categorías disponibles. Nada queda
fuera de la clasificación de categorías.
•Si el criterio es insuficiente o deja casos dudosos, puede agregarse una categoría “otros”.
•Excluyente: Una misma unidad no puede estar clasificada en dos categorías o clases
definidas por el mismo concepto
•Generalmente, está representada, aunque no necesariamente, por números.

• Las variables en una matriz de datos son el resultado de un proceso de medición


específico en una investigación que tiene un diseño específico.
•MEDIR: es el proceso de asignar números a los indicadores.
•También se producen errores de medición en:
•1) en el diseño del instrumento (cuestionario).
•2) en el registro de la información (el trabajo de campo).
•3) en el procesamiento estadístico (análisis).
PROCESO DE MEDICIÓN DE UNA VARIABLE
Exigencia lógica del concepto:
• Deriva de la teoría.
• Proceso de operacionalización:observación conceptual.

Propiedades de los números reales: qué propiedades de los números reales representa el
concepto

Operaciones con las variables:


• Estadística para variables no métricas
• Estadística para variables métricas
Tipos de variables
• No métricas: nominal y ordinal
• Métricas: interval y razón

REQUISITO I: EXIGENCIA LÓGICA


•Regiones (clasifica): •Montevideo e interior
•Sur, norte, centro, este, oeste.
•19 departamentos

•Clase social (clasifica y ordena): •Alta, media, baja


•Burguesía, pequeña burguesía, proletariado
•Servicio, intermedias, trabajadoras
•Pobreza (clasifica, ordena y cuantifica): •%
•Tasa
•Otros

REQUISITO II: PROPIEDADES DE LOS NÚMEROS REALES (i)


INFINITUD
NOMBRE: los puntos tienen nombres distintos (numerales)
ORDEN: La posición del numeral queda determinada inequívocamente en la recta de los
reales, y dada la posición, el numeral se conoce sin lugar a dudas. Hay un orden
perfectamente establecido.
MAGNITUD: mide la distancia entre dos números cualquiera en términos del tamaño del
segmento que los separa. Entonces, si en dos parejas de números existe la misma
separación, la magnitud de la distancia será la misma.
ORIGEN: el cero

PROPIEDADES DE LOS NÚMEROS REALES (ii)


• Las propiedades están ordenadas en una RELACIÓN DE INCLUSIÓN donde la magnitud
comprende a las propiedades que la anteceden y la infinitud a ninguna propiedad (es la
menos comprensiva).
• La asignación de números a las variables (sus categorías) depende de las propiedades
que requiere el concepto a medir.
•Por ejemplo, hay conceptos que sólo requieren de los números para asignar un nombre (no
necesitan orden, ni magnitud, ni origen).
Este es el caso de Salto que tiene el código 15120. El número ha sido atribuido en forma
discrecional, aunque siguiendo una convención.
CLASIFICANDO VARIABLES
1. Las variables pueden ser clasificadas de acuerdo a la escala de medida o nivel de
medición:
•Nominal
•Ordinal
•Interval
•Razón
2. Otra forma de clasificar es por el número de categorías o valores que pueden asumir la
variable
•Discretas (dicotómicas y pluricotómicas)
•Continuas (concepto matemático de continuidad)

TIPOS DE VARIABLES:
Por nivel de medición - No métricas (Nominales, ordinales) o métricas (Interval, de razón)
Por las categorías o valores - No métricas Discretas (dicotómicas y pluricotómicas) o
métricas (continuas)

VARIABLES NO METRICAS (I): NOMINALES


•El concepto para ser observado solo requiere distinguir entre clases o categorías
(clasificación)
•PROPIEDAD DE LOS NÚMEROS REALES: NOMBRE.
A las categorías de las variables (sexo, estado civil, departamento de residencia, etc.) se le
asigna el nombre de un número.
•Ejemplo con “Sexo”: Varón=1 / Mujer=2.
•La asignación numérica es “arbitraria”.

ORDINALES
•El concepto para ser observado requiere distinguir y ordenar entre clases o categorías de
una variable.
•PROPIEDADES DE LOS NÚMEROS REALES: NOMBRE Y POSICIÓN EN LA RECTA DE
LOS NÚMERO REALES.
Ejemplo con “Nivel educativo”: Inicial, Primaria, Ciclo Básico, Media Superior y Superior.
• La asignación de números a categorías no es arbitraria porque existe isomorfismo entre
ambos conjuntos (números y categorías).
•Ejemplo: Inicial=1 / Primaria=2 / Ciclo Básico=3
•Exigencia lógica: operaciones de igual, mayor y menor.

VARIABLES MÉTRICAS
•El concepto para ser observado requiere como exigencia lógica:
Distinguir (al nombrar) entre clases o categorías.
Ordenar las clases o categorías.
Determinar la MAGNITUD entre los valores.
•Ejemplos: ingreso de una persona; edad de la persona; número de alumnos que asisten a
cada escuela; superficie que ocupa un establecimiento rural.
DOS TIPOS DE VARIABLES MÉTRICAS

• INTERVALES
Nombre
Orden
Distancia
El cero no es absoluto: se define por convención y puede no aparecer.
• RAZÓN
Nombre
Orden
Distancia
El cero es absoluto: conjunto vacío.

Clasificación de las variables según el número de los valores


•Variables continuas: Están definidas por la recta de los números reales (por ejemplo, la
variable ingreso).
Cumplen con todas las propiedades: infinitud, nombrar, ordenar, magnitud y cero.
•Variables discretas: Teóricamente, se conoce el número de valores que pueden tomar
las categorías (por ejemplo, la variable género siendo 1=transgénero y 2=cisgénero).
Cumplen con las propiedades: infinitud y nombrar.
Pueden ser variables binarias o dicotómicas (dos categorías) o policotómicas (tres o más
categorías)

CASO ESPECIAL: DICOTÓMICAS …


• Refleja una propiedad con sólo dos posibilidades: presencia o ausencia de la propiedad.
• Se considera para variables no métricas (nominal, ordinal) y variables métricas (interval,
razón).
• Cambia la interpretación, no los procedimientos estadísticos.
•Las dos valores que toma una variable dicotómica:
Varón / mujer
Cisgénero / Transgénero
Nacional / Internacional
Paredes de la casa con materiales de desecho / paredes de la casa con otros materiales
Módulo III
Presentación 5: Estadística univariada para variables no métricas

Nominales:
• El concepto para ser observado requiere solamente distinguir entre categorías. Por eso,
este nivel de medición solamente nombra (clasificación: igual o distinto).
• Por ejemplo: localidad de nacimiento, sexo, servicio de salud,
escuela a la que asistió, etc.
Ordinales:
• El concepto para ser observado requiere distinguir y ordenar (igual, mayor, menor) las
categorías de la variable.
• Por ejemplo: nivel educativo, calidad de los materiales del techo de la vivienda, grado de
acuerdo con el gobierno, orden de nacimiento de los hermanos, etc.

Estadística de atributos
• En el análisis estadístico de las variables no métricas (nominales, ordinales y dicotómicas)
usaremos las siguientes técnicas de estadísticas básicas:
• Tablas de frecuencias y gráficos para variables no métricas (Resumen de distribuciones
univariadas) o tablas de contingencia, gráficas para variables no métricas, coeficientes de
asociación (Resumen de distribuciones bivariadas o conjuntas)

Estadistica univariada de atributos


• El objetivo es resumir la distribución observada de las unidades, según las variables
medidas, de una matriz de datos.
• Las técnicas de análisis univariado aplican un resumen para cada variable (una a la vez).
• Las técnicas de análisis univariado informan lo que se conoce como distribución
incondicionada de una variable.
• La distribución condicionada de una variable implica el análisis relacional de las
distribuciones observadas conjuntas de dos o más variables.

Frecuencias y normalización: De las frecuencias absolutas a las frecuencias relativas

FRECUENCIAS ABSOLUTAS
• Las frecuencias absolutas recuentan las observaciones o casos en cada categoría de una
variable no métrica.

CONVENCIONES
A. i= 1,2,3.4,... N
- i es el nombre genérico de una unidad de análisis
- N es el número total de unidades (filas) de la matriz de datos

B. J= 1,2,3,4,...P
- J es el nombre genérico de una variable
- P es el número total de variables (columnas) de la matriz de datos

C. k= 1,2,3,...L
- k es el nombre genérico de una categoría
- L es el número total de categorías en la j-ésima variable

Ergo,
nk es el número de unidades en la k-ésima categoria

FRECUENCIAS RELATIVAS SIMPLES


• Proporciones (Pk = nk/k)
• Porcentajes (Pk = nk/n*100)
PROPORCIONES Y PORCENTAJES
• El porcentaje (P) es una transformación lineal de la proporción (p).
• p tiene base 1 y P tiene base 100 (%).
•No hay ninguna diferencia “matemática” en usar proporciones o porcentajes.
• La diferencia aparece en la comunicación al público, en la interpretación intuitiva de la
información.

FRECUENCIAS ACUMULADAS
En ocasiones, al trabajar con variables ordinales, puede interesarnos conocer las
frecuencias acumuladas hasta cierta categoría de interés.
Ejemplo: ¿Cuántos estudiantes asistían a establecimientos de entornos socioculturales
“Muy desfavorable” y “Desfavorable”?
• Es un estadístico que agrega frecuencias de categorías que están contiguas en la recta de
los números reales.
• Implica usar la propiedad de la posición de los números reales.
•Por ejemplo: “las dos categorías más bajas”; “las dos categorías más altas”; “las primeras
tres categorías, comenzando desde aquella que indica la peor situación”
• Las frecuencias acumuladas pueden aplicarse tanto a frecuencias absolutas como a
proporciones y porcentajes.
• ATENCIÓN: No tiene sentido aplicar frecuencias acumuladas cuando la variable es
nominal.

SENTIDO CONCEPTUAL DE LA FRECUENCIA RELATIVA


• El salto de la frecuencia absoluta a la frecuencia relativa, tiene por motivo la comparación.
• Este procedimiento suele llamarse “normalización”.
• La norma más frecuente se aplica al tamaño de la muestra (n) o población (N).
• Cuando se aplica una norma la distribución de una variable se independiza del número de
casos.

NORMALIZACIÓN
• Permite comparar muestras de diferentes tamaños y sacar conclusiones
• Permite retener mejor las magnitudes o el peso que tiene cada categoría
• Es la base de expresión de las “tasas” (por cien, por mil, por cien mil o por millón).

Presentación 6: Razón
Tipos de razón:
1. Proporción y porcentaje: una categoría en relación con el total de una variable
2. Relación entre categorías de una misma variable.
i. Momios (introducida como un caso particular de una relación entre las categorías de una
única variable dicotómica).
3. Razones entre variables distintas de una misma unidad de análisis

Por definición, las razones se pueden computar tanto en variables no métricas como en las
métricas.
Establece una relación que se computa a través de la operación matemática: “división”.
Dividir implica distribuir: Desde el punto de vista matemático, la razón es una medida
resumen general, con múltiples aplicaciones.
PROPORCIÓN Y PORCENTAJE
La proporción (p) es un tipo de razón que se calcula como el cociente entre la cantidad de
casos que tiene el atributo k y el recuento total N de casos de una misma variable.
● nK es el número de casos de la k-ésima categoría y N es el total.
Porcentaje: pk= nk/N 0>pk>1

RELACIONES ENTRE CATEGORÍAS DE LA MISMA VARIABLE


• Son razones entre recuentos de casos de categorías de
una misma variable.
R = nj/nk
•Una de las categorías es seleccionada como categoría de referencia o de “base”. La
cantidad de casos de esta categoría será el denominador de las razones a calcular.
Dos casos: i) variables pluricotómicas y ii) dicotómicas

RELACIONES ENTRE RECUENTOS DE DISTINTAS VARIABLES CON LA MISMA


UNIDAD DE ANÁLISIS
.• Se basa en un listado de varias variables sobre una dimensión del concepto medido (o
varios indicadores de una variable) que tengan la misma unidad de análisis.
• Esta técnica de análisis es útil para:
Comparar cuánto más extensa o restringida está la tendencia de ciertos atributos.
Comparar cuánto más “frecuente” es un atributo (consumir tabaco) en relación con otro
atributo (consumir marihuana).

Módulo IV

Presentación 7: Estadística bivariada

NOCIÓN DE HIPÓTESIS
• Las hipótesis son un componente del proceso de investigación y se las define como
respuestas tentativas o anticipadas, a las preguntas de investigación.
• En su forma léxica, las hipótesis son proposiciones o enunciados declarativos que: 1)
ponen en relación dos o más conceptos teóricos en forma de variables (X, Y, Z). 2)
Delimitan una temporalidad. 3) Afirman un sentido. 4) Afirman una magnitud de esa
relación.
• X= variable independiente (X1).
• Y= variable dependiente (X2).
• Z= variable interviniente (Z1, Z2, Z3…).
• Las hipótesis se construyen a partir del marco teórico, en el estado del arte y en la
información que tenemos sobre nuestro objeto de estudio.
• Las hipótesis se ponen a prueba empíricamente buscando falsear o descartar la
“falsación” de forma provisional “hasta nuevo aviso”.

ASOCIACION ≠ INDEPENDENCIA
• En una investigación se plantea:
• Hipótesis sustantiva (asociación provisional)
• Hipótesis nula (independencia estadística)
NOCIÓN DE DISTRIBUCIÓN CONJUNTA
• Cuando decimos que las hipótesis se contrastan empíricamente aludimos a observar cómo
se distribuyen las unidades entre las categorías de las variables consideradas en la
hipótesis.
• Por ejemplo, cómo se distribuyen las unidades (Ej.: personas) entre las categorías (Ej.:
mujer/varón y pobre/no pobre) de las dos variables consideradas (Ej.: sexo y pobreza)
• A esta operación, que resumen los datos de la matriz, se le llama distribución conjunta o
distribución simultánea (conjunta) de las variables de estudio.
TABLAS DE CONTINGENCIA
Método de trabajo:
1. Hipótesis
2. Construcción de la tabla de contingencia: frecuencias
absolutas conjuntas.
3. Porcentualización de la tabla
4. Lectura porcentual

FORMULACIÓN DE LA HIPÓTESIS
• Hipótesis sustantiva (asociación provisional)
• Ej: Los jóvenes que cursaron Educación Media de tipo Técnica (ET) tienen, en más alta
proporción, un Primer Empleo formal (EF) que aquellos jóvenes que cursaron Educación
Media de tipo bachillerato diversificado (BD).
• Hipótesis nula (independencia estadística)
• Ej: No existe relación entre el tipo de Educación Media cursada y el tipo de Primer Empleo
logrado.
• ATENCIÓN: se contraponen las dos categorías (ET y BD) de la variable (EDUCACIÓN)
con una categoría (EF) de la variable (PRIMER EMPLEO).
• Se analizan las categorías de las variables.
ASOCIACIÓN
• El análisis de asociación consiste en comparar la distribución esperada (DE) (hipótesis
nula) con una distribución observada (DO) (información relevada por la investigación).
• A partir de la comparación (entre DE y DO), es posible falsear la hipótesis nula o, en otras
palabras, “aceptar” provisionalmente la hipótesis sustantiva.
• La independencia estadística entre las variables es conocida con el nombre de hipótesis
nula.
• La asociación estadística entre las variables es conocida como hipótesis sustantiva.
• Descartamos la independencia estadística a medida que aumenta la diferencia entre la
distribución conjunta esperada y la distribución conjunta observada
Presentación 8: Frecuencias esperadas y Chi2

CONVENCIÓN
• Usaremos la letra “o” para referirnos a las frecuencias observadas (absolutas o simples)
que contienen las celdas de la tabla de contingencia.
• Usaremos la letra “e” para referirnos a las frecuencias esperadas de las celdas.
• Usaremos la letra “d” para referirnos a las discrepancias o diferencias entre las o y las e en
cada una de las celdas las celdas.
• Mantendremos la letra “N” para indicar el total de casos de la tabla.
• Mantendremos la letra “n” para indicar el total de cada fila o columna.

EJEMPLO

COMPARACIÓN
• Hipótesis sustantiva: la asistencia a la educación formal entre
depende del sexo.
• Hipótesis nula: las variables sexo y asistencia a la educación formal son independientes.
• Las variables son independientes en la medida en que la proporción de asistentes P(A) en
el total de la población sea la misma que en la subpoblación de mujeres y en la
subpoblación de varones.
• En otras palabras, el sexo (varón o mujer) no condiciona la distribución de la variable
asistencia
• 𝑃 (𝐴) = 𝑃 (𝐴/𝐵) = P (𝐴/𝐵′)

• Dos tablas:
• La tabla de frecuencias observadas que surgen de contar en la matriz
• La tabla de frecuencias esperadas que surge de la hipótesis de independencia

Para estudiar la independencia de las variables debemos comparar la tabla de


contingencias donde están las frecuencias observadas (o) con otra tabla, teórica, donde
están las frecuencias esperadas (e).

Para calcular la frecuencia absoluta


esperada, 𝑒𝑟𝑐 ,en una celda…(I)
• Algebraicamente, la “e” se despeja de la expresión formal de la
independencia:
𝑃 (𝐴/𝐵) = 𝑃 (𝐴)
• Se sustituyen las proporciones por las fracciones:
𝑒11/𝑛.1 = 𝑛1./𝑁

DISCREPANCIA
• Planteamos la asociación como discrepancia (𝒅𝒓𝒄).
• Discrepancia entre la Frecuencia Observada (o) y la Frecuencia Esperada (e) para cada
celda de la tabla.
• Si hubiera independencia las frecuencias observadas en la tabla de contingencia para
cada celda serían iguales a las frecuencias esperadas que han sido computadas
• Para contrastar la independencia hay que observar la comparación entre todas las celdas
y no sólo una celda

También podría gustarte