Está en la página 1de 21

ESCUELA NORMAL URBANA FEDERAL DEL ISTMO CD.

IXTEPEC, OAXACA
CLAVE: 20DNL0002Q

PROCESAMIENTO DE INFORMACIÓN
ESTADÍSTICA

Docente: Dr. Antonio Jiménez


Gutiérrez

ACTIVIDAD

INVESTIGACIÓN TEMARIO PRIMERA


UNIDAD

Alumno: Robert De La Rosa Vicente.


Semestre: 4 Grupo: “A”
Licenciatura: Educación Primaria.

Ciudad Ixtepec Oaxaca a 15 de mayo del 2022.


1.1 IMPORTANCIA DEL ESTUDIO DE LA ESTADISTICA

La estadística se considera un método utilizado para recoger, organizar, concentrar,

reducir, presentar, analizar, generalizar y contrastar los resultados numéricos (datos) de

observaciones directas o indirectas de fenómenos reales, así como de la información

obtenida a partir de la experimentación, para estar en condiciones de llevar a cabo tanto

evaluaciones como conclusiones adecuadas, y tomar decisiones acertadas y confiables.

El término estadística proviene del latín statisticum collegium que significa “consejo de

Estado” y de su derivado italiano statista entendido como “hombre de Estado”. Por lo tanto,

los orígenes de la estadística están relacionados con el gobierno y sus partes

administrativas. En la actualidad la estadística no es ya una cuestión reservada al estado.

ESTADISTICA DESCRIPTIVA E INFERENCIAL

La estadística descriptiva permite describir un conjunto de datos con el fin de descubrir

con precisión las diversas características de ese conjunto. Así, que la estadística descriptiva

es la que ordena, resume y clasifica los datos. Contrario a la estadística inferencial la

estadística descriptiva no hace inferencia sobre los datos; su propósito es obtener una visión

precisa y de conjunto de los datos observados. Como podemos deducir la estadística

descriptiva es un paso previo a la estadística inferencial.

Estadística descriptiva

Definición: la estadística descriptiva es la parte de la estadística que describe y resume la

serie de datos además de proporcionar los métodos de recolección, organización y

presentación.
Por lo visto anteriormente nos damos cuenta que la estadística descriptiva se limita en sí

misma a los datos recolectados y no realiza generalización acerca de donde provienen esos

datos estadísticos.

Ejemplo de estadística descriptiva son: los datos de censo de población de un año

determinado, el número de clientes atendidos por una oficina de abogados etc.

TERMINOS BASICOS DE ESTADISTICA

Toda técnica, arte o disciplina científica maneja una serie de términos o conceptos

indispensables. En estadística estos son los principales:

Datos estadísticos: es un conjunto de valores numéricos que tienen relación

significativa entre sí. Los mismos pueden ser comparados, analizados e interpretados en

una investigación cualquiera.

Población o universo: es totalidad de los valores de una característica particular de un

grupo especificado de personas, animales o cosas que se desean estudiar en un momento

determinado. Cada unidad individual es un elemento.

Muestra: es un subconjunto de la población, seleccionado de tal forma, que sea

representativo de la misma, obteniéndose con el fin de investigar alguna o algunas de las

propiedades de la población de la cual procede.

Encuesta: Es una investigación en la cual la información se obtiene de una fracción de

la población llamada muestra.


Censo: Es una investigación que cubre todos los miembros o elementos de una

población dada, ya sea una nación, una comunidad o una determinada organización.

Parámetro: Es una medida de resumen que se calcula con el propósito de describir

alguna característica de la población.

Estadígrafo: Son medidas de resumen que se calculan con el propósito de describir

alguna característica de una sola muestra de la población.

Notación sumatoria: para denotar la suma de una gran cantidad de indicadores

estadísticos se emplea la letra griega ∑ llamada sigma. Esta notación indica: suma total.

Si la variable x toma los valores (x1 + x2 + x3 ++ xn) entonces su notación sumatoria

es:

Esta expresión se lee como, sumatoria de x, desde i = 1 hasta n. Aquí i = 1 debajo de la

notación indica el primer elemento a sumarse. La (n) indica el término final de la suma.

La importancia de la estadística

La estadística resulta fundamental para conocer el comportamiento de ciertos eventos,

por lo que ha adquirido un papel clave en la investigación. Se usa como un valioso auxiliar

y en los diferentes campos del conocimiento y en las variadas ciencias. Es un lenguaje que

permite comunicar información basada en datos cuantitativos.

Es tan importante que casi no existe actividad humana en que no esté involucrada la

Estadística. Las decisiones más importantes de nuestra vida se toman con base en la

aplicación de la Estadística.
La estadística es de gran importancia en la investigación científica debido a que:

Permite una descripción más exacta.

Nos obliga a ser claros y exactos en nuestros procedimientos y en nuestro pensar.

Permite resumir los resultados de manera significativa y cómoda.

Nos permite deducir conclusiones generales.

Rol de la estadística en las ciencias

Nuestros antepasados adquirían sus conocimientos de sus experiencias. Observando que

la ocurrencia de algunos fenómenos, generalmente tenía la misma causa. El conocimiento

acumulado se transmitía de generación en generación. Con el avance de la sociedad a un

estado superior de conocimiento, surgieron las ciencias. El método científico ha permitido

formular la relación causa-efecto de la ocurrencia de los fenómenos. La aparición de la

estadística dentro de las ciencias permitió el estudio de los fenómenos, que, a pesar de tener

la misma causa de origen, producen efectos diferentes.

Por tanto, la estadística ha permitido conocer el campo de la variabilidad y la

incertidumbre en la ocurrencia de ciertos fenómenos. Lo más interesante; casi increíble, es

que la estadística describe estos fenómenos. En la mayoría de los casos, observando una

mínima parte del conjunto de los datos analizados, es decir, a través de una muestra.

La estadística como ciencia, es la que proporciona las técnicas y procedimientos o

herramientas que posibilitan manejar datos. De estos datos se extraen conclusiones que
permiten tomar decisiones.

PAPEL DE LA ESTADÍSTICA EN EDUCACIÓN.

La estadística es importante porque en el área de educación se aplica frecuentemente.

Enfocándonos en el ambiente educativo, el campo ocupacional del Licenciado en Ciencias

de la Educación comprende tanto actividades en el campo de la enseñanza media, superior

o universitaria, como así también en ejercicio de la investigación el planeamiento y

programas educativos la administración efectiva de instituciones educativas y sociales.

Estos planes y programas oscilan en torno a un grupo de estudiantes, a un contenido

educativo, a un centro docente, una comunidad, una sociedad, entre otras, por tal motivo es

indispensable conocer la estadística.

LA ESTADÍSTICA EN LA ESCUELA

La principal razón del estudio de la estadística es que los fenómenos aleatorios tienen

una fuerte presencia en nuestro entorno.

Existe una necesidad de formar estudiantes con capacidades para interactuar en un

mundo de información y competitivo que requiere capacidades para leer y producir

información sea esta gráfica o simbólica.

La estadística en la escuela supone la formación de una nueva manera de razonar, una

mayor relación con la recolección de datos empíricos, una mayor búsqueda de evidencias

que sustituyen a la especulación simple sin fundamentos.

La estadística en la escuela significa el encuentro de maestros y aprendices para formar

actitudes nuevas frente a la realidad.


La estadística forma parte de la educación ciudadana presente y futura, porque promueve

un espíritu crítico, un razonamiento diferente y complementario a la matemática, porque se

relaciona con diversas habilidades como la comunicación y la resolución de problemas

estableciendo pautas para el uso de estrategias heurísticas y metodológicas.

1.2 TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS Y

REPRESENTACIONES O GRAFICAS.

La distribución de frecuencias

Definición: una distribución de frecuencia viene a ser una serie de datos elaborados en

categorías, con el número de observaciones que contiene cada categoría.

La frecuencia se refiere a la cantidad de cada categoría. En tanto, que a la sumatoria de

las frecuencias le llamaremos total de observaciones que representaremos por (n). Así:

Tenemos que saber que las distribuciones de frecuencias se pueden arreglar de dos

formas diferentes, esto es, para datos agrupados y para datos no agrupados.

Ahora bien, antes de pasar a trabajar con las distribuciones de frecuencias es necesarios

que conozcamos algunos términos fundamentales que nos ayudaran a entender mejor las

distribuciones de frecuencias, tanto para datos no agrupados, así como para datos

agrupados.

Frecuencia simple (fi): es el número de veces que aparece el mismo dato estadístico en

un conjunto de observaciones. Aquí (f) se lee como frecuencia, mientras que (i) define el

orden de las clases.


Frecuencia relativa (fr): esta resulta de dividir cada frecuencia simple entre el total de

observaciones. La sumatoria de las frecuencias relativas es igual a 1.

Frecuencia relativa porcentual (fr%): resultan de multiplicar cada frecuencia relativa por

100 La sumatoria de las frecuencias relativas es igual a 100%.

Frecuencias Acumuladas (Fi): se obtienen de las sumas sucesivas de las frecuencias

absolutas.

Frecuencia Acumulada Relativa (Fr): esta resulta de dividir cada una de las frecuencias

acumulada entre el total de observaciones, así:

Frecuencias acumuladas relativas porcentuales (Fr %): resultan de multiplicar cada una

de las frecuencias acumuladas relativas por 100.

Punto medio o maca de clases (Xi): estas se obtienen al dividir el límite inferior y el

límite superior de cada clase entre dos.

Presentación gráfica de los datos estadísticos

Los gráficos estadísticos tienen la ventaja que permiten transmitir información de un

modo más expresivo que la tablas, basta una simple observación para apreciar sus

características más relevantes. Así mismo, permiten sacar cualquier conclusión sobre los

datos observados.

En la actualidad, parece infinita la posibilidad de diseño de los diferentes tipos de

gráficos. Sin embargo, lo importante es elegir el más adecuado para los tipos de variables

que vamos a presentar. Los gráficos siguientes son los principales:

Histogramas
Polígono de frecuencias

Ojivas

Gráfica circular

Gráficas de barras

Gráfica lineal

1- ¿Para qué nos sirven los gráficos y las tablas de datos?

Los gráficos y las tablas representan e interpretan información procedente de diferentes

fuentes, de forma clara, precisa y ordenada. Casi todos tipos de información puede

organizarse en una tabla de datos y ser representada en algún tipo de gráfico.

Según las características y la cantidad de datos, conviene utilizar uno u otro gráfico.

1.1- Gráficos

Los gráficos permiten visualizar la información contenida en las tablas de manera rápida

y sencilla, demostrando con mayor claridad la relación que estos datos tienen entre sí.

Los más conocidos son:

A- Gráficos de barras

Son aquellos que emplean rectángulos (barras) que se colocan paralelamente. La altura

indica la frecuencia de ese dato. Los gráficos de barras, permiten representar información

numérica en forma clara y ordenada, para comunicarla a otras personas. Con la información

representada en los gráficos puedes interpretar rápidamente y de manera visual la

información, facilitando su posterior análisis.


Para construir un gráfico de barras, debes dibujar un eje vertical y otro horizontal. En el

espacio libre se ubican la barra. Los datos numéricos van en el eje vertical (determinando la

altura de las barras) y las categorías en el eje horizontal.

B- Gráficos de líneas o lineal

Es un conjunto de puntos conectados por una línea en un sistema cartesiano, que

muestran tendencias de una variable a lo largo de un período de tiempo.

C- Gráfico de torta o por sectores

Es un diagrama en círculo que representa visualmente información en tajadas

imaginarias de una torta.

D- Pictogramas.

Son los más llamativos, ya que se representan por medio de dibujos, se reemplaza las

barras por dibujos. Se usan para lograr el interés masivo del público.

E- Histograma

Es un gráfico formado por barras contiguas, donde cada una representa un intervalo de

valores, sirve para expresar información sobre datos que están agrupados.

1.3 MEDIDAS DE TENDENCIA CENTRAL.

Las medidas de tendencia central son medidas estadísticas que pretenden resumir en un

solo valor a un conjunto de valores. Representan un centro en torno al cual se encuentra

ubicado el conjunto de los datos. Las medidas de tendencia central más utilizadas son:
media, mediana y moda. Las medidas de dispersión en cambio miden el grado de dispersión

de los valores de la variable. Dicho en otros términos las medidas de dispersión pretenden

evaluar en qué medida los datos difieren entre sí. De esta forma, ambos tipos de medidas

usadas en conjunto permiten describir un conjunto de datos entregando información acerca

de su posición y su dispersión.

Medidas estadísticas en datos no agrupado

Medidas de tendencia central

Promedio o media

La medida de tendencia central más conocida y utilizada es la media aritmética o

promedio aritmético. Se representa por la letra griega µ cuando se trata del promedio del

universo o población y por Ȳ (léase Y barra) cuando se trata del promedio de la muestra. Es

importante destacar que µ es una cantidad fija mientras que el promedio de la muestra es

variable puesto que diferentes muestras extraídas de la misma población tienden a tener

diferentes medias. La media se expresa en la misma unidad que los datos originales:

centímetros, horas, gramos, etc.

Si una muestra tiene cuatro observaciones: 3, 5, 2 y 2, por definición el estadígrafo será:

Estos cálculos se pueden simbolizar:


Donde Y1 es el valor de la variable en la primera observación, Y2 es el valor de la

segunda observación y así sucesivamente. En general, con “n” observaciones, Yi representa

el valor de la i-ésima observación. En este caso el promedio está dado por

De aquí se desprende la fórmula definitiva del promedio:

Desviaciones: Se define como la desviación de un dato a la diferencia entre el valor del

dato y la media:

Ejemplo de desviaciones:

Una propiedad interesante de la media aritmética es que la suma de las desviaciones es

cero.

Mediana

Otra medida de tendencia central es la mediana. La mediana es el valor de la variable

que ocupa la posición central, cuando los datos se disponen en orden de magnitud. Es decir,

el 50% de las observaciones tiene valores iguales o inferiores a la mediana y el otro 50%

tiene valores iguales o superiores a la mediana.

Si el número de observaciones es par, la mediana corresponde al promedio de los dos

valores centrales. Por ejemplo, en la muestra 3, 9, 11, 15, la mediana es (9+11)/2=10.

Moda

La moda de una distribución se define como el valor de la variable que más se repite. En

un polígono de frecuencia la moda corresponde al valor de la variable que está bajo el

punto más alto del gráfico. Una muestra puede tener más de una moda.

Medidas de dispersión
Las medidas de dispersión entregan información sobre la variación de la variable.

Pretenden resumir en un solo valor la dispersión que tiene un conjunto de datos. Las

medidas de dispersión más utilizadas son: Rango de variación, Varianza, Desviación

estándar, Coeficiente de variación.

Rango de variación

Se define como la diferencia entre el mayor valor de la variable y el menor valor de la

variable.

La mejor medida de dispersión, y la más generalizada es la varianza, o su raíz cuadrada,

la desviación estándar. La varianza se representa con el símbolo σ² (sigma cuadrado) para

el universo o población y con el símbolo s2 (s cuadrado), cuando se trata de la muestra. La

desviación estándar, que es la raíz cuadrada de la varianza, se representa por σ (sigma)

cuando pertenece al universo o población y por “s”, cuando pertenece a la muestra. σ² y σ

son parámetros, constantes para una población particular; s2 y s son estadígrafos, valores

que cambian de muestra en muestra dentro de una misma población. La varianza se expresa

en unidades de variable al cuadrado y la desviación estándar simplemente en unidades de

variable.

Fórmulas

Donde µ es el promedio de la población.

Donde Ȳ es el promedio de la muestra.

Consideremos a modo de ejemplo una muestra de 4 observaciones


Según la fórmula el promedio calculado es 7, veamos ahora el cálculo de las medidas de

dispersión:

s2 = 34 / 3 = 11,33 Varianza de la muestra

La desviación estándar de la muestra (s) será la raíz cuadrada de 11,33 = 3,4.

Interpretación de la varianza (válida también para la desviación estándar): un alto valor

de la varianza indica que los datos están alejados del promedio. Es difícil hacer una

interpretación de la varianza teniendo un solo valor de ella. La situación es más clara si se

comparan las varianzas de dos muestras, por ejemplo, varianza de la muestra igual 18 y

varianza de la muestra b igual 25. En este caso diremos que los datos de la muestra b tienen

mayor dispersión que los datos de la muestra a. esto significa que en la muestra a los datos

están más cerca del promedio y en cambio en la muestra b los datos están más alejados del

promedio.

1.4 MEDIDAS DE POSICIÓN.

Si bien la mediana divide el conjunto de datos en dos partes iguales, existen otros

parámetros estadísticos que dividen a la población en otras cuantías distintas.

Los cálculos son similares a los de la mediana, variando la posición a buscar y el

intervalo en el que se encuentra el cuantil.

Los más importantes son los siguientes:

CUARTILES
Dividen a la población de datos en cuatro partes iguales, correspondiendo cada uno de

ellos al 25% de los datos. Tenemos por tanto tres cuartiles que denotamos como Q1, Q2,

Q3, y se les llama primer, segundo y tercer cuartil.

El segundo cuartil coincide con la mediana.

DECILES

Dividen la distribución de datos en 10 partes iguales, correspondiendo cada uno al 10%

de los datos. Tendríamos, por tanto, nueve deciles que denotamos por D1, D2, D3, ..., D9

El quinto decil coincide con la mediana.

PERCENTILES

Tenemos 99 percentiles que dividirían a la población en 100 partes iguales, denotados

por P1, P2, ..., P98, P99.


Los percentiles 25, 50 y 75 coinciden con los cuartiles.

1.5 MEDIDAS DE DISPERSIÓN

El objetivo del estudio de los parámetros estadísticos es obtener información resumida

del conjunto de datos en los que estamos interesados. Ya hemos resumido nuestros datos en

un número, por ejemplo, la media. Pero ¿es representativo ese valor?

Comencemos con un ejemplo.

"Supongamos que dos alumnos han realizado cinco exámenes cada uno. Para evaluarlos

elegimos hacer la media de las cinco notas que han obtenido.

Las notas han sido:

ALUMNO 1: 4, 5, 5, 5, 6. Media = 5

ALUMNO 2: 1, 2, 5, 8, 9. Media = 5

Si vemos los dos tendrían la misma nota, lo que nos haría pensar que los dos alumnos

son similares, pero si observamos sus notas hay una gran diferencia entre ambos. El alumno

1 tiene unas notas muy homogéneas, muy próximas a la media mientras que el segundo

tiene unos resultados muy dispares."


Para poder analizar bien sus resultados necesitaríamos otro parámetro que nos mida esa

variabilidad. Estamos hablando de las medidas de dispersión.

Las medidas de dispersión son parámetros estadísticos que nos informan sobre la

variabilidad de los datos, es decir, si la distribución de los datos es más o menos

homogénea y por tanto nos dan una medida sobre la representatividad de los parámetros de

centralización (moda, mediana o media)

Como en los parámetros de centralización y de posición existen varios para medir la

dispersión. Los principales son:

RANGO O RECORRIDO

Es la diferencia entre el mayor valor de los datos y el menor.

Re = Max {xi} - Min {xi}

La principal ventaja del rango es su fácil cálculo, aunque su valor es poco significativo,

ya.

RANGO O RECORRIDO INTERCUATÍLICO

Es la diferencia entre el tercer cuartil y el primero, el rango donde se encuentra el 50%

central de los datos.

RI = Q3 - Q1

En ocasiones también se suele usar como valor la mitad del rango intercuartílico,

hablando en este caso de recorrido semi-intercuartil.


Estas dos primeras medidas de dispersión se suelen utilizar cuando el cálculo de la

media no es posible o ésta no es significativa (ver medidas de centralización)

Las siguientes medidas que vamos a analizar se basan en medir la diferencia de los datos

con la media. Que sólo tiene en cuenta los dos valores extremos.

DESVIACIÓN MEDIA

La desviación media es la media de la distancia de los valores de los datos (en valor

absoluto) a la media.

El uso del valor absoluto es para evitar que se anulen distancias negativas con distancias

positivas, lo que daría como resultado que la desviación media sea cero para cualquier

distribución de datos.

VARIANZA

Como hemos referido antes para evitar que se anulen diferencias positivas y negativas,

en a la desviación media se toma valor absoluto. Dado que la función valor absoluto no

tiene unas buenas propiedades matemáticas (por ejemplo, no es derivable) otra manera de

transformar los valores negativos en positivos es elevando al cuadrado.

Por tanto, la varianza va a ser la media del cuadrado de la distancia de los valores de los

datos a la media.
DESVIACIÓN TÍPICA

Definimos la desviación típica como la raíz cuadrada de la varianza.

COEFICIENTE DE VARIACIÓN (DE PEARSON)

Dado que la desviación típica es una medida que está expresada en las mismas unidades

que la variable, si queremos comparar dispersiones a escalas distintas necesitamos un

parámetro adimensional. En estas situaciones usaremos el coeficiente de variación que se

expresa tanto de forma decimal como en tanto por ciento, y nos expresaría la desviación

típica como porcentaje con respecto a la media.


1.5 ESTUDIO DE POBLACIONES CON DATOS BIVARIADOS.

DATOS BIVARIADOS

• Corresponden a la medición de dos variables en una sola unidad de observación • Por

lo general, nos interesa establecer la relación entre las dos variables. • Al igual que los

datos univariados, se utilizan las diferentes herramientas gráficas, dependiendo del tipo de

variables que se están midiendo.

• Cuando trabajamos una variable sobre dos individuos simultáneamente o dos variables

sobre un mismo individuo estamos hablando de los datos bivariados. • Los datos bivariados

se expresan a través de pares de valores, es decir pares ordenados tipo (a,b), cuando se

obtienen estos tipos de valores nos referimos a una distribución bidimensional de la

información que estamos analizando.

DISTRIBUCIÓN BIDIMENSIONAL • Las distribuciones bidimensionales son aquellas

en las que se estudian al mismo tiempo dos variables de cada elemento de la población.

TABLAS DE DATOS • Los pares de valores se pueden contemplar en tablas de datos,

estas tablas de datos permiten condensar la información que se necesita para un análisis que

de origen a la relación entre ambos elementos, sean X y Y con una variable única o sean X

y Y variables con un mismo individuo

DIAGRAMA DE DISPERSIÓN • El diagrama obtenido mediante el establecimiento de

los pares ordenados de ambas variables o de ambos individuos se conoce con el nombre de

diagrama de dispersión, porque allí están dispersos los datos de ambas variables, este tipo

de diagrama es muy común en el análisis de diferentes datos con respecto al tiempo para
estudios científicos, estudios demográficos, entre otros estudios especializados. En donde

se pretende establecer la relación que puede haber entre una variable y otra, para facilitar un

estudio determinado. • Los datos que corresponden a dos tipos de individuos o a dos

variables de un mismo individuo tienen un análisis particular, estamos hablando de un

análisis que busca establecer relaciones es decir, se buscan correlaciones y a su vez se

buscan codesviaciones, es decir covarianzas.

CORRELACIÓN Y COVARIANZA • Existe una relación entre la correlación y la

covarianza, puesto que la covarianza busca el establecimiento de una relación lineal entre

las variables X y Y • la correlación es aquello que indicará la fuerza y la dirección lineal

que se establece entre dos variables aleatorias. • La covarianza de una variable

bidimensional, es la media aritmética de los productos de las desviaciones de cada una de

las variables respecto a sus medias respectivas.

RELACIÓN LINEAL • La covarianza entre X y Y se obtiene a través de la sumatoria

del producto entre la desviación de cada Xi con respecto a su media y la desviación de cada

Yi con respecto a su media sobre el número de datos totales de la población o de la muestra

este producto utiliza la misma cantidad de datos por que se supone que para cada X hay una

Y, si no, no existiría dicho par ordenado. • Una vez que se define el valor de covarianza se

definen los siguientes elementos que ocurren. • Cuando la covarianza es mayor que cero,

hay una relación directa positiva es decir una relación lineal con una pendiente mayor que

cero • Cuando la covarianza es negativa hay una correlación lineal inversa con una

pendiente menor que cero. • Y cuando la covarianza en igual que cero no existe una

relación lineal entre X y Y.

También podría gustarte