370 Restrepo

14 de agosto del
2017 ESTADÍSTICA Y PROBABILIDADES ESTADÍSTICA DESCRIPTIVA-DEFINICIONES - UASF
CAPITULO 1 ESTADÍSTICA
Distribución normal
La estadística (la forma femenina del alemán Statistik, y
este derivado del italiano statista “hombre de Estado”) es
una ciencia formal y una herramienta que estudia usos y análisis
provenientes de una muestra representativa de datos, busca
explicar las correlaciones y dependencias de un fenómeno físico
o natural, de ocurrencia en forma aleatoria o condicional.
Sin embargo, la estadística es más que eso, es decir, es la
herramienta fundamental que permite llevar a cabo el proceso
relacionado de la estadística con la investigación científica.
Es transversal a una amplia variedad de disciplinas, desde la
física hasta las ciencias sociales, desde las ciencias de la
salud hasta el control de calidad.
Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.
La estadística se divide en dos grandes áreas:
1. Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos
de estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y
la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
2. Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos
en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias
acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis),
estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación
(correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis
de varianza, series de tiempo y minería de datos.
Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada, y al mismo tiempo se diferencian en que la segunda
usa el cálculo de la probabilidad.
La estadística inferencial, por su parte, se divide en estadística paramétrica y estadística no paramétrica.
Hay también una disciplina llamada estadística matemática, la que se refiere a las bases teóricas de la materia.
La palabra “estadísticas” también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como
en estadísticas económicas, estadísticas criminales, entre otros.
Hoy en día, la estadística es una ciencia que se encarga de estudiar una determinada población por medio de la recolección,
recopilación e interpretación de datos. Del mismo modo, es considerada una técnica especial apta para el estudio cuantitativo de
los fenómenos de masa o colectivo.
HISTORIA
Origen
El término alemán Statistik, introducido originalmente por Gottfried Achenwall en 1749, se refería al análisis de datos del Estado, es
decir, la «ciencia del Estado» (o más bien, de la ciudad-estado). También se llamó aritmética política de acuerdo con la traducción
literal del inglés. No fue hasta el siglo XIX cuando el término estadística adquirió el significado de recolectar y clasificar datos. Este
concepto fue introducido por el militar británico sir John Sinclair (1754-1835).
En su origen, por tanto, la estadística estuvo asociada a los Estados o ciudades libres, para ser utilizados por el gobierno y cuerpos
administrativos (a menudo centralizados). La colección de datos acerca de estados y localidades continúa ampliamente a través de
los servicios de Estadísticas Nacionales e Internacionales. En particular, los censos comenzaron a suministrar información regular
acerca de la población de cada país. Así pues, los datos estadísticos se referían originalmente a los datos demográficos de una
ciudad o Estado determinados. Y es por ello que en la clasificación decimal de Melvil Dewey, empleada en las bibliotecas, todas las
obras sobre estadística se encuentran ubicadas al lado de las obras de o sobre la demografía.
Ya se utilizaban representaciones gráficas y otras medidas en pieles, rocas, palos de madera y paredes de cuevas para controlar el
número de personas, animales o ciertas mercancías. Hacia el año 3000 a. C. los babilonios usaban ya pequeños envases
moldeados de arcilla para recopilar datos sobre la producción agrícola y de los géneros vendidos o cambiados. Los egipcios
analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XI a. C. Los libros bíblicos
de Números y Crónicas incluyen en algunas partes trabajos de estadística. El primero contiene dos censos de la población de
la Tierra de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos
similares con anterioridad al año 2000 a. C. Los antiguos griegos realizaban censos cuya información se utilizaba hacia
el 594 a. C. para cobrar impuestos.
Empleo de la estadística en las Antiguas Civilizaciones

En la Edad Antigua la estadística consistía en elaborar censos (de población y tierras). Su objetivo era facilitar la gestión de las
labores tributarias, obtener datos sobre el número de personas que podrían servir en el ejército o establecer repartos de tierras u
otros bienes.
1. En Egipto: La estadística comienza con la Dinastía I, en el año 3050 a.C.. Los faraones ordenaban la realización de censos
con la finalidad de obtener los datos sobre tierras y riquezas para poder planificar la construcción de las pirámides.
2. En China: Año 2238 a.C. el emperador Yao elabora un censo general sobre la actividad agrícola, industrial y comercial.
3. En la Antigua Grecia: Se realizaron censos para cuantificar la distribución y posesión de la tierra y otras riquezas, organizar
el servicio militar y determinar el derecho al voto.
4. En la Antigua Roma: Durante el Imperio Romano se establecieron registros de nacimientos y defunciones, y se elaboraron
estudios sobre los ciudadanos, sus tierras y sus riquezas.
ING. DAVID ANDRÉS SANGA TITO INGENIERÍAS INDUSTRIAL,CIVIL;SEGURIDAD Y COMERCIAL – II Y III SEMESTRE Página 1
14 de agosto del
5. En México: Año 1116, durante la segunda migración de las tribus chichimecas, el rey Xólotl ordenó que fueran censados
los súbditos.
6. En el Oriente Medio, bajo el dominio sumerio, Babilonia tenía casi 6000 habitantes. Se encontraron en ella tablillas de arcilla
que registraban los negocios y asuntos legales de la ciudad.
7. El censo en el pueblo judío sirvió, además de propósitos militares, para calcular el monto de los ingresos del templo.
8. Durante la Edad Media la estadística no presentó grandes avances, pero destaca el trabajo de Isidoro de Sevilla, quien
recopiló y clasificó datos de diversa naturaleza cuyos resultados fueron publicados en la obra Originum sive Etymologiarum.
En la Edad Moderna se continúa con la obtención de censos.
1. En España: Destaca el censo de Pecheros (1528), el de los Obispos (1587), el Censo de los Millones (1591) o el Censo
del Conde de Aranda (1768).
2. En Inglaterra: la peste de la década de 1500 provocó un aumento en la contabilización de los datos sobre defunciones y
nacimientos.
Orígenes en probabilidad
Los métodos estadístico-matemáticos emergieron desde la teoría de probabilidad, la cual data desde la correspondencia entre
Pascal y Pierre de Fermat (1654). Christian Huygens (1657) da el primer tratamiento científico que se conoce a la materia. El Ars
coniectandi (póstumo, 1713) de Jakob Bernoulli y la Doctrina de posibilidades (1718) de Abraham de Moivre estudiaron la materia
como una rama de las matemáticas.2 En la era moderna, el trabajo de Kolmogórov ha sido un pilar en la formulación del modelo
fundamental de la Teoría de Probabilidades, el cual es usado a través de la estadística.
La teoría de errores se puede remontar a la “Ópera miscellánea” (póstuma, 1722) de Roger Cotes y al trabajo preparado por Thomas
Simpson en 1755 (impreso en 1756) el cual aplica por primera vez la teoría de la discusión de errores de observación. La reimpresión
(1757) de este trabajo incluye el axioma de que errores positivos y negativos son igualmente probables y que hay unos ciertos límites
asignables dentro de los cuales se encuentran todos los errores; se describen errores continuos y una curva de probabilidad.
Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la combinación de observaciones desde los principios
de la teoría de probabilidades. Laplace representó la Ley de probabilidades de errores mediante una curva y dedujo una fórmula
para la media de tres observaciones. También, en 1871, obtiene la fórmula para la ley de facilidad del error (término introducido
por Lagrange, 1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778) introduce el principio del máximo producto de las
probabilidades de un sistema de errores concurrentes.
Fotografía de Ceres por el telescopio espacial Hubble. La posición fue estimada por Gauss mediante el
método de mínimos cuadrados.
El método de mínimos cuadrados, el cual fue usado para minimizar los errores
en mediciones, fue publicado independientemente por Adrien-Marie
Legendre (1805), Robert Adrain (1808), y Carl Friedrich Gauss (1809). Gauss había usado
el método en su famosa predicción de la localización del planeta enano Ceres en 1801.
Pruebas adicionales fueron escritas por Laplace (1810, 1812), Gauss (1823), James
Ivory (1825, 1826), Hagen (1837), Friedrich Bessel (1838), W. F. Donkin (1844, 1856), John
Herschel (1850) y Morgan Crofton(1870). Otros contribuidores fueron Ellis (1844), Augustus
De Morgan (1864), Glaisher (1872) y Giovanni Schiaparelli (1875). La fórmula de Peters
para “r”, el probable error de una observación simple es bien conocido.
El siglo XIX incluye autores como Laplace, Silvestre Lacroix (1816), Littrow (1833), Richard
Dedekind (1860), Helmert (1872), Hermann Laurent (1873), Liagre y Didion.Augustus De
Morgan y George Boole mejoraron la presentación de la teoría. Adolphe Quetelet (1796-
1874), fue otro importante fundador de la estadística y quien introdujo la noción del “hombre
promedio” (l’homme moyen) como un medio de entender los fenómenos sociales complejos tales como tasas de criminalidad, tasas
de matrimonio o tasas de suicidios.
Siglo XX
Karl Pearson, un fundador de la estadística matemática
El campo moderno de la estadística se emergió a los principios del siglo XX dirigida por
la obra de Francis Galton y Karl Pearson, quienes transformaron la estadística a
convertirse en una disciplina matemática rigurosa usada por análisis, no solamente en
la ciencia sino en la manufactura y la política. Las contribuciones de Galton incluyen los
conceptos de desviación típica, correlación, análisis de la regresión y la aplicación de
estos métodos al estudio de la variedad de características –la altura, el peso, el largo
de las pestañas de ojo– entre otros.3 Pearson desarrolló el Coeficiente de correlación
de Pearson, definió como un momento-producto,4 el método de momentos por caber
las distribuciones a las muestras y la distribuciones de Pearson, entre otras
cosas. Galton y Pearson se fundaron Biometrika como su primera revista de la
estadística matemática y la bioestadística (en aquel entonces conocida como la
biometría). Pearson también fundó el primer departamento de estadística en University
College de Londres.
Durante el siglo XX, la creación de instrumentos precisos para asuntos de salud pública (epidemiología, bioestadística, etc.) y
propósitos económicos y sociales (tasa de desempleo, econometría, etc.) necesitó de avances sustanciales en las prácticas
estadísticas.
14 de agosto del
Ronald Fisher inventó el término hipótesis nula durante el experimento dela mujer saboreando té, la
cual «nunca se pruebe ni se establezca pero tal vez se refuta, en el curso de experimentación». 7 8
La segunda ola de los años 1910 y 1920 se inició William Gosset, y se culminó en la obra de Ronald
Fisher, quién escribió los libros de texto que iban a definir la disciplina académica en universidades en
todos lados del mundo. Sus publicaciones más importantes fueron su papel de 1918 “The Correlation
between Relatives on the Supposition of Mendelian Inheritance”( La correlación entre los parientes en
la suposición de herencia mendeliana), lo cual era el primero en usar el término estadístico varianza, su
obra clásica de 1925 “Statistical Methods for Research Workers”(Métodos Estadísticos para los
Investigadores) y su 1935 “The Design of Experiments”( El Diseño de Experimentos), donde desarrolló
los modelos rigorosos de diseño experimental. Originó el concepto de suficiencia y la información de
Fisher. En su libro de 1930 “The Genetical Theory of Natural Selection”( La Teoría Genética de la
Selección Natural) aplicó la estadística a varios conceptos en la biología como el Principio de
Fisher (sobre el ratio de sexo), el Fisherian runaway, un concepto en la selección sexual sobre
una realimentación positiva efecto hallado en la evolución.
Estado actual
Hoy el uso de la estadística se ha extendido más allá de sus orígenes como un servicio al Estado o al gobierno. Personas y
organizaciones usan la estadística para entender datos y tomar decisiones en ciencias naturales y sociales, medicina, negocios y
otras áreas. La estadística es entendida generalmente no como un sub-área de las matemáticas sino como una ciencia diferente
«aliada». Muchas universidades tienen departamentos académicos de matemáticas y
estadística separadamente. La estadística se enseña en departamentos tan diversos
como psicología, educación y salud pública.
Regresión lineal – Gráficos de dispersión en estadística

Al aplicar la estadística a un problema científico, industrial o social, se comienza con un
proceso o población a ser estudiado. Esta puede ser la población de un país, de granos
cristalizados en una roca o de bienes manufacturados por una fábrica en particular
durante un periodo dado. También podría ser un proceso observado en varios instantes
y los datos recogidos de esta manera constituyen una serie de tiempo.
Por razones prácticas, en lugar de compilar datos de una población entera, usualmente
se estudia un subconjunto seleccionado de la población, llamado muestra. Datos acerca
de la muestra son recogidos de manera observacional o experimental. Los datos son
entonces analizados estadísticamente lo cual sigue dos propósitos: descripción e
inferencia.
El concepto de correlación es particularmente valioso. Análisis estadísticos de un conjunto de datos puede revelar que dos variables
(esto es, dos propiedades de la población bajo consideración) tienden a variar conjuntamente, como si hubiera una conexión entre
ellas. Por ejemplo, un estudio del ingreso anual y la edad de muerte podrían resultar en que personas pobres tienden a tener vidas
más cortas que personas de mayor ingreso. Las dos variables se dice que están correlacionadas. Sin embargo, no se puede inferir
inmediatamente la existencia de una relación de causalidad entre las dos variables. El fenómeno correlacionado podría ser la causa
de una tercera, previamente no considerada, llamada variable confusora.
Si la muestra es representativa de la población, inferencias y conclusiones hechas en la muestra pueden ser extendidas a la
población completa. Un problema mayor es el de determinar cuán representativa es la muestra extraída. La estadística ofrece
medidas para estimar y corregir por aleatoriedad en la muestra y en el proceso de recolección de los datos, así como métodos para
diseñar experimentos robustos como primera medida, ver diseño experimental.
El concepto matemático fundamental empleado para entender la aleatoriedad es el de probabilidad. La estadística
matemática (también llamada teoría estadística) es la rama de las matemáticas aplicadas que usa la teoría de probabilidades y
el análisis matemático para examinar las bases teóricas de la estadística.
El uso de cualquier método estadístico es válido solo cuando el sistema o población bajo consideración satisface los supuestos
matemáticos del método. El mal uso de la estadística puede producir serios errores en la descripción e interpretación, lo cual podría
llegar a afectar políticas sociales, la práctica médica y la calidad de estructuras tales como puentes y plantas de reacción nuclear.
Incluso cuando la estadística es correctamente aplicada, los resultados pueden ser difíciles de interpretar por un inexperto. Por
ejemplo, el significado estadístico de una tendencia en los datos, que mide el grado al cual la tendencia puede ser causada por una
variación aleatoria en la muestra, puede no estar de acuerdo con el sentido intuitivo. El conjunto de habilidades estadísticas básicas
(y el escepticismo) que una persona necesita para manejar información en el día a día se refiere como “cultura estadística”.
MÉTODOS ESTADÍSTICOS
Estudios experimentales y observacionales
Un objetivo común para un proyecto de investigación estadística es investigar la causalidad, y en particular extraer una conclusión
en el efecto que algunos cambios en los valores de predictores o variables independientes tienen sobre una respuesta o variables
dependientes. Hay dos grandes tipos de estudios estadísticos para estudiar causalidad: estudios experimentales y observacionales.
En ambos tipos de estudios, el efecto de las diferencias de una variable independiente (o variables) en el comportamiento de una
variable dependiente es observado. La diferencia entre los dos tipos es la forma en que el estudio es conducido. Cada uno de ellos
puede ser muy efectivo.
Niveles de medición
Hay cuatro tipos de mediciones o escalas de medición en estadística: niveles de medición (nominal, ordinal, intervalo y razón).
Tienen diferentes grados de uso en la investigación estadística. Las medidas de razón, en donde un valor cero y distancias entre
14 de agosto del
diferentes mediciones son definidas, dan la mayor flexibilidad en métodos estadísticos que pueden ser usados para analizar los
datos. Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado (como las
mediciones de coeficiente intelectual o temperatura en grados Celsius). Las medidas ordinales tienen imprecisas diferencias entre
valores consecutivos, pero un orden interpretable para sus valores. Las medidas nominales no tienen ningún rango interpretable
entre sus valores.
La escala de medida nominal, puede considerarse la escala de nivel más bajo. Se trata de agrupar objetos en clases. La escala
ordinal, por su parte, recurre a la propiedad de “orden” de los números. La escala de intervalos iguales está caracterizada por una
unidad de medida común y constante. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y
no refleja en ningún momento ausencia de la magnitud que estamos midiendo. Esta escala, además de poseer las características
de la escala ordinal, permite determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. La escala
de coeficientes o Razones es el nivel de medida más elevado y se diferencia de las escalas de intervalos iguales únicamente por
poseer un punto cero propio como origen; es decir que el valor cero de esta escala significan ausencia de la magnitud que estamos
midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias
entre los números asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio.
Técnicas de análisis estadístico

Algunos tests y procedimientos para investigación de observaciones bien conocidos son:
 Prueba T de Student
 Prueba de χ²
 Análisis de varianza (ANOVA)
 U de Mann-Whitney
 Análisis de regresión
 Correlación
 Iconografía de las correlaciones
 Frecuencia estadística
 Análisis de frecuencia acumulada
 Prueba de la diferencia menos significante de Fisher
 Coeficiente de correlación de Pearson
 Coeficiente de correlación de Spearman
 Análisis factorial exploratorio
 Análisis factorial confirmatorio
 Gráfica estadística
Disciplinas especializadas
Algunos campos de investigación usan la estadística tan extensamente que tienen terminología especializada. Estas disciplinas
incluyen:
 Ciencias actuariales
 Física estadística
 Estadística industrial
 Estadística espacial
 Matemática estadística
 Estadística en medicina
 Estadística en medicina veterinaria y zootecnia
 Estadística en nutrición
 Estadística en agronomía
 Estadística en planificación
 Estadística en investigación
 Estadística en restauración de obras
 Estadística en literatura
 Estadística en astronomía
 Estadística en antropología (antropometría)
 Estadística en historia
 Estadística militar
 Geoestadística
 Bioestadística
 Estadísticas de negocios
 Estadística computacional
 Estadística en ciencias de la salud
 Investigación de operaciones
 Estadísticas de consultoría
 Estadística de la educación, la enseñanza, y la formación
 Estadística en comercialización o mercadotecnia
 Cienciometría
 Estadística del medio ambiente
 Estadística en epidemiología
14 de agosto del
 Minería de datos (aplica estadística y reconocimiento de patrones para el conocimiento de datos)

 Econometría (usa la estadística como ciencia auxiliar)
 Estadística en ingeniería
 Geografía y sistemas de información geográfica, más específicamente en análisis espacial
 Demografía
 Estadística en psicología (psicometría)
 Calidad y productividad
 Estadísticas sociales (para todas las ciencias sociales)
 Cultura estadística
 Encuestas por muestreo
 Análisis de procesos y quimiometría (para análisis de datos en química analítica e ingeniería química)
 Confiabilidad estadística
 Procesamiento de imágenes
 Estadísticas deportivas
La estadística es una herramienta básica en negocios y producción. Se usa para entender la variabilidad de sistemas de medición,
control de procesos (como en control estadístico de procesos o SPC (CEP)), para compilar datos y para tomar decisiones. En estas
aplicaciones es una herramienta clave y probablemente la única herramienta disponible.
Computación estadística
El rápido y sostenido incremento en el poder de cálculo de la computación desde la segunda mitad del siglo XX ha tenido un
sustancial impacto en la práctica de la ciencia estadística. Viejos modelos estadísticos fueron casi siempre de la clase de los modelos
lineales. Ahora, complejos computadores junto con apropiados algoritmos numéricos han causado un renacer del interés en modelos
no lineales (especialmente redes neuronales y árboles de decisión) y la creación de nuevos tipos tales como modelos lineales
generalizados y modelos multinivel.
El incremento en el poder computacional también ha llevado al crecimiento en popularidad de métodos intensivos
computacionalmente basados en remuestreo, tales como tests de permutación y de bootstrap, mientras técnicas como el muestreo
de Gibbs han hecho los métodos bayesianos más accesibles. La revolución en computadores tiene implicaciones en el futuro de la
estadística, con un nuevo énfasis en estadísticas “experimentales” y “empíricas”. Un gran número de paquetes estadísticos está
ahora disponible para los investigadores. Los sistemas dinámicos y teoría del caos, desde hace una década, empezaron a interesar
en la comunidad hispana, pues en la anglosajona de Estados Unidos estaba ya establecida la «conducta caótica en sistemas
dinámicos no lineales» con 350 libros para 1997 y empezaban algunos trabajos en los campos de las ciencias sociales y en
aplicaciones de la física. También se estaba contemplando su uso en analítica.
Críticas a la estadística
Hay una percepción general de que el conocimiento estadístico es intencionado y frecuentemente mal usado, encontrando maneras
de interpretar los datos que sean favorables al presentador. Un dicho famoso, al parecer de Benjamin Disraeli,21 es: «Hay tres tipos
de mentiras: mentiras pequeñas, mentiras grandes y estadísticas». El popular libro How to lie with statistics (Cómo mentir con las
estadísticas en la edición española) de Darrell Huff discute muchos casos de mal uso de la estadística, con énfasis en gráficas
malintencionadas. Al escoger (o rechazar o modificar) una cierta muestra, los resultados pueden ser manipulados; por ejemplo,
mediante la eliminación selectiva de valores atípicos (outliers). Este puede ser el resultado de fraudes o sesgos intencionales por
parte del investigador (Darrel Huff). Lawrence Lowell (decano de la Universidad de Harvard) escribió en 1909 que las estadísticas,
“como algunos pasteles, son buenas si se sabe quién las hizo y se está seguro de los ingredientes”, pero mejor aún si se pueden
verificar utilizando el mismo procedimiento o algún otro cuyo nivel de significancia sea el mismo o parecido al utilizado como
estadígrafo primigéneo.
Algunos estudios contradicen resultados obtenidos previamente y la población comienza a dudar en la veracidad de tales estudios.
Se podría leer que un estudio dice (por ejemplo) que «hacer X reduce la presión sanguínea», seguido por un estudio que dice q ue
“hacer X no afecta la presión sanguínea”, seguido por otro que dice que “hacer X incrementa la presión sanguínea”. A menudo los
estudios se hacen siguiendo diferentes metodologías, o estudios en muestras pequeñas que prometen resultados maravillosos que
no son obtenibles en estudios de mayor tamaño. Sin embargo, muchos lectores no notan tales diferencias, y los medios de
comunicación simplifican la información alrededor del estudio y la desconfianza del público comienza a crecer.
Sin embargo, las críticas más fuertes vienen del hecho que la aproximación de pruebas de hipótesis, ampliamente usada en muchos
casos requeridos por ley o reglamentación, obliga a una hipótesis a ser «favorecida» (la hipótesis nula) y puede también exagerar
la importancia de pequeñas diferencias en estudios grandes. Una diferencia que es altamente significativa puede ser de ninguna
significancia práctica.
Véase también críticas de prueba de hipótesis y controversia de la hipótesis nula.
En los campos de la psicología y la medicina, especialmente con respecto a la aprobación de nuevos medicamentos por la “Food
and Drug Administration”(Administración de Alimentos y Medicamentos), críticas de la aproximación de prueba de hipótesis se han
incrementado en los años recientes. Una respuesta ha sido un gran énfasis en el p-valor en vez de simplemente reportar si la
hipótesis fue rechazada al nivel de significancia “α” dado. De nuevo, sin embargo, esto resume la evidencia para un efecto pero no
el tamaño del efecto. Una posibilidad es reportar intervalos de confianza, puesto que estos indican el tamaño del efecto y la
incertidumbre. Esto ayuda a interpretar los resultados, como el intervalo de confianza para un “α” dado indicando simultáneamente
la significancia estadística y el efecto de tamaño.
El p-valor y los intervalos de confianza son basados en los mismos cálculos fundamentales como aquellos para las correspondientes
pruebas de hipótesis. Los resultados son presentados en un formato más detallado, en lugar del «sí o no» de las pruebas de hipótesis
y con la misma metodología estadística.
Otro tipo de aproximación es el uso de métodos bayesianos. Esta aproximación ha sido, sin embargo, también criticada.
14 de agosto del
El fuerte deseo de que los medicamentos buenos sean aprobados y que los medicamentos peligrosos o de poco uso sean
rechazados crea tensiones y conflictos (errores tipo I y II en el lenguaje de pruebas de hipótesis).
Estadísticos famosos
 Thomas Bayes  Bruno de Finetti  Abraham De Moivre  Adolphe Quetelet
 Pafnuti Chebyshov  Sir Ronald Fisher  Sir Isaac Newton  C. R. Rao
 David Cox  Pierre Fermat  Jerzy Neyman  Ernst Georg Ravenstein
 Gertrude Cox  Sir Francis Galton  Florence Nightingale  Theodore Schultz
 George Dantzig  Carl Friedrich Gauss  Blaise Pascal  Walter Shewhart
 René Descartes  William Sealy Gosset  George Box  Charles Spearman
 W. Edwards Deming  Andréi Kolmogórov  Karl Pearson  John Tukey
 Aleksandr Lyapunov  Milton Friedman
Enseñanza de la estadística en las Ciencias Sociales

Sobre la enseñanza de la estadística en Ciencias Sociales algunas investigaciones “sugieren que los estudiantes aprenden más
cuando los profesores usan ejemplos concretos y problemas relevantes para ellos”.
Para contar con ejemplos concretos y problemas relevantes a los estudiantes es posible proponer actividades de aprendizaje que
vinculen los métodos cuantitativos a los enfoques cualitativos, debido a que estos últimos son utilizados con mayor recurrencia en
los planes de estudio de las licenciaturas en Ciencias sociales. Sobre esta combinación de métodos encontramos que una de sus
principales virtudes es que “la recopilación de los ricos detalles descriptivos de los datos cualitativos se puede usar para cuantificar
y generalizar los resultados”.
Entre las ventajas de una enseñanza que combine los métodos cuantitativos con los cualitativos se encuentra el que los estudiantes
desarrollen la destreza para triangular resultados, lo que disminuye la falibilidad inherente a cada enfoque. Por ejemplo los errores
que puedan atribuirse a los datos de origen, dato que los métodos utilizan tipos de datos distintos, serán más confiables los
resultados si proceden de una triangulación de métodos.
Incluso, se puede contemplar la enseñanza de los métodos cuantitativos dentro de los programas de los distintos ejes del currículo
académico. Actualmente es común que en las diversas asignaturas se ejercite el uso de los métodos de investigación cualitativos
pero no de los cuantitativos. Esto debería cambiar porque “introducir el razonamiento cuantitativo en los cursos sustanciales permite
ligar el entrenamiento en métodos cuantitativos, especialmente estadísticos, con los asuntos medulares de las ciencias sociales”.
POBLACIÓN: Es un conjunto de datos referentes a determinadas características de un grupo de individuos o elementos.

En epidemiología una población es un conjunto de sujetos o individuos con determinadas características demográficas, de la que
se obtiene la muestra o participantes en un estudio epidemiológico a la que se quiere extrapolar los resultados de dicho estudio
(inferencia estadística). La estadística es comúnmente considerada como una colección de hechos numéricos expresados en
términos de una relación sumisa, y que han sido recopilados a partir de otros datos numéricos. Kendall y Buckland (citados por Gini
V. Glas / Julian C. Stanley, 1980) definen la estadística como un valor resumido, calculado, como base en una muestra de
observaciones que generalmente, aunque no por necesidad, se considera como una estimación de parámetro de determinada
población; es decir, una función de valores de muestra.
Ejemplo: Las edades de todos los alumnos de la UASF, las edades de todos los habitantes del Perú.
MUESTRA: En estadística, una muestra es un subconjunto de casos o individuos de una población estadística. En diversas
aplicaciones interesa que una muestra sea una muestra representativa y para ello debe escogerse una técnica de muestreo
adecuada que produzca una muestra aleatoria adecuada (contrariamente se obtiene una muestra sesgada cuyo interés y utilidad
es más limitado dependiendo del grado de sesgo que presente).
Introducción
Las muestras se obtienen con la intención de inferir propiedades de la totalidad de la población, para lo cual deben ser
representativas de la misma (una muestra representativa se denomina técnicamente muestra aleatoria). Para cumplir esta
característica la inclusión de sujetos en la muestra debe seguir una técnica de muestreo. En tales casos, puede obtenerse una
información similar a la de un estudio exhaustivo con mayor rapidez y menor coste (véanse las ventajas de la elección de una
muestra, más abajo).
Por otra parte, en ocasiones, el muestreo puede ser más exacto que el estudio de toda la población porque el manejo de un menor
número de datos provoca también menos errores en su manipulación. En cualquier caso, el conjunto de individuos de la muestra
son los sujetos realmente estudiados.
El número de sujetos que componen la muestra suele ser bastante inferior a la población total, aunque suficiente grande como para
que la estimación de los parámetros determinados tenga un nivel de confianza adecuado. Para que el tamaño de la muestra sea
idóneo es preciso recurrir a su cálculo.
Otras definiciones relacionadas

Espacio muestral
El espacio muestral del que se toma una muestra concreta está formado por el conjunto de todas las posibles muestras que se
pueden extraer de una población mediante una determinada técnica de muestreo.
Para una población finita de n individuos el espacio muestral está formado por 2n subconjuntos posibles. En la práctica a veces se
usan espacios muestrales idealizados con número infinito de puntos indexados por un conjunto variables reales.
Parámetro o Estadístico muestral
14 de agosto del
Un parámetro estadístico o simplemente un estadístico muestral es cualquier valor calculado a partir de la muestra, como por
ejemplo la media, varianza o una proporción, que describe a una población y puede ser estimado a partir de una muestra. Un
estadístico muestral es un tipo de variable aleatoria, y que como tal, tiene una distribución de probabilidad concreta, frecuentemente
caracterizada por un conjunto finito de parámetros.
Estimación
Una estimación estadística es cualquier técnica para conocer un valor aproximado de un parámetro referido a la población, a partir
de los estadísticos muestrales calculados a partir de los elementos de la muestra. Si se estima el suficiente número de parámetros
puede aproximarse de manera razonable la distribución de probabilidad de la población para ciertas variables aleatorias.
Nivel de confianza
El nivel de confianza de una aseveración basada en la inferencia estadística es una medida de la bondad de la estimación realizada
a partir de estadísticos muestrales. Usualmente se usan niveles de confianza para intervalos de confianza o bien p-valores que
miden la probabilidad de errores de tipo I (probabilidad de rechazar una cierta hipótesis siendo que esta era correcta)
Ejemplo
Se tiene una población de 222222 habitantes y se quiere conocer cuántos de ellos son hombres y cuántos de ellos son mujeres. Se
conjetura que cerca del 50% son mujeres y el resto hombres, pero se quiere seleccionar una muestra para determinar cuántos
hombres y mujeres hay en la muestra y a partir de ahí inferior el porcentaje exacto de hombres y mujeres en la población total. La
descripción de una muestra, y los resultados obtenidos sobre ella, puede ser del tipo mostrado en el siguiente ejemplo:
Dimensión de la población: 222222 habitantes
Probabilidad del evento: Hombre o Mujer 50%
Nivel de confianza: 90% = 199999,8
Desviación tolerada: 5% = 11111,1
Resultado 196
Tamaño de la muestra: 270
La interpretación de esos datos sería la siguiente:
1. La población a investigar tiene 222.222 habitantes y queremos saber cuántos son hombres o mujeres.
2. Estimamos en un 50% para cada sexo y para el propósito del estudio es suficiente un 90% de seguridad con un nivel entre
90 - 5 y 90 + 5.
3. Generamos una tabla de 280 números al azar entre 1 y 222.222 y en un censo numerado comprobamos el género para los
seleccionados.
Ventajas de la elección de una muestra

El estudio de muestras es preferible, en la mayoría de los casos, por las siguientes razones:
1. Si la población es muy grande (en ocasiones, infinita, como ocurre en determinados experimentos aleatorios) y, por tanto,
imposible de analizar en su totalidad.
2. Las características de la población varían si el estudio se prolonga demasiado tiempo.
3. Reducción de costos: al estudiar una pequeña parte de la población, los gastos de recogida y tratamiento de los datos
serán menores que si los obtenemos del total de la población.
4. Rapidez: al reducir el tiempo de recogida y tratamiento de los datos, se consigue mayor rapidez.
5. Viabilidad: la elección de una muestra permite la realización de estudios que serían imposible hacerlo sobre el total de la
población.
6. La población es suficientemente homogénea respecto a la característica medida, con lo cual resultaría inútil malgastar
recursos en un análisis exhaustivo (por ejemplo, muestras sanguíneas).
7. El proceso de estudio es destructivo o es necesario consumir un artículo para extraer la muestra (ejemplos: vida media de
una bombilla, carga soportada por una cuerda, precisión de un proyectil, etc.).
Descripción matemática de una muestra aleatoria

El uso de muestras para deducir fiablemente características de la población requiere que se trate con muestras aleatorias. Si la
muestra estadística considerada no constituye una muestra aleatoria las conclusiones basadas en dicha muestra no son fiables y
en general estarán sesgadas en algún aspecto.
En términos matemáticos, dada una variable aleatoria X con una distribución de probabilidad F, una muestra aleatoria de
tamaño N es un conjunto finito de N variables independientes, con la misma distribución de probabilidad F.
Otra forma más intuitiva, de entender una muestra es considerar que una muestra es una sucesión de N experimentos
independientes de una misma cantidad. Es importante diferenciar una muestra de tamaño “N”, o más exactamente un muestreo de
tamaño N, del resultado concreto de los N experimentos (que como conjunto de valores fijos, en sí mismo, no es una muestra). El
concepto de muestra incluye de alguna manera el procedimiento escogido para obtener los datos (es decir, si las variables aleatorias
consideradas son independientes entre sí, y si tienen la misma distribución).
En general, resulta muy fácil comprobar si una determinada muestra es o no aleatoria, cosa que sólo puede hacerse considerando
otro tipo de muestreos aleatorios robustos que permitan decir si la primera muestra era aleatoria o no.
Estadístico muestral
En estadística un estadístico (muestral) es una medida cuantitativa, derivada de un conjunto de datos de una muestra, con el
objetivo de estimar o inferir características de una población o modelo estadístico.
14 de agosto del
Más formalmente un estadístico es una función medible T que, dada una muestra estadística de valores (X1, X2,…, Xn), les asigna
un número, T(X1, X2,…, Xn), que sirve para estimar determinado parámetro de la distribución de la que procede la muestra. Así, por
ejemplo, la media de los valores de una muestra (media muestral) sirve para estimar la media de la población de la que se ha
extraído la misma; la varianza muestral podría usarse para estimar la varianza poblacional, etc. Esto se denomina como realizar
una estimación puntual.
Variable aleatoria
Una variable aleatoria o variable estocástica es una función que asigna un valor, usualmente numérico, al resultado de
un experimento aleatorio. Por ejemplo, los posibles resultados de tirar un dado dos veces: (1, 1), (1, 2), etc. o un número real (p.e.,
la temperatura máxima medida a lo largo del día en una ciudad concreta).
Los valores posibles de una variable aleatoria pueden representar los posibles resultados de un experimento aún no realizado, o los
posibles valores de una cantidad cuyo valor actualmente existente es incierto (p.e., como resultado de medición incompleta o
imprecisa). Intuitivamente, una variable aleatoria puede tomarse como una cantidad cuyo valor no es fijo pero puede tomar diferentes
valores; una distribución de probabilidad se usa para describir la probabilidad de que se den los diferentes valores. En términos
formales una variable aleatoria es una función definida sobre un espacio de probabilidad.
Las variables aleatorias suelen tomar valores reales, pero se pueden considerar valores aleatorios como valores lógicos, funciones
o cualquier tipo de elementos (de un espacio medible). El término elemento aleatorio se utiliza para englobar todo ese tipo de
conceptos relacionados. Un concepto relacionado es el de proceso estocástico, un conjunto de variables aleatorias ordenadas
(habitualmente por orden o tiempo).
A
Amplitud de variación. Se considera como el dato mayor menos el dato menor de todo el conjunto de datos considerados en toda la
muestra, si consideramos a Lo el dato menor de la muestra y al dato mayor Ln entonces la amplitud de variación estará determinada
como:
A = L o - Ln
Amplitud de clase. Se considera la amplitud que deben tener las clases consideradas para realizar un estudio estadístico. Para n
datos con k clases se determina que la amplitud de clase es igual a:
k
Amplitud de clase =
A
Censo. En el caso particular en que la muestra sea del mismo tamaño que la población el estudio estadístico se conoce como “censo.
Carácter estadístico. Es la propiedad que permite clasificar a los individuos de una población estadística, puede haber de dos tipos:
- Cuantitativos: aquellos datos que se pueden medir o expresarse mediante un número sin tener que recurrir a la frecuencia con
que ocurren.
- Cualitativos: aquellos datos que no se pueden medir.
Cartogramas. Son gráficos en los que se puede agrupar para una misma clase diferentes frecuencias, por lo que se hace apropiado
su uso cuando se desea analizar diferentes resultados obtenidos, con diferentes frecuencias pero con una misma clase.
Contraste de hipótesis. Test de hipótesis
Correlación. Medida de la relación existente entre dos variables. Su valor está comprendido entre –1 y 1. Si es negativo la relación
entre las variables es inversa, es decir, a medida que aumentan los valores de una decrecen los de la otra. Si es positivo la asociación
es directa, es decir, los valores de una variable aumentan con la otra. Un valor de cero indica ausencia de relación. Cuando las
variables son continuas y tienen una relación lineal, el coeficiente de correlación lineal de Pearson es una medida de asociación
adecuada. Cuando las variables no son continuas se utilizan otros coeficientes de correlación.
D
Datos aleatorios. Es la obtención de datos realizada a partir de una población a los cuales no se les ha dado ninguna prioridad.
Dato estadístico. Los datos que se considera participan en el estudio estadístico se conoce como datos estadísticos, más
concretamente, se consideran como los valores que se pueden obtenerse de la observación para formar la muestra.
Diagramas de barras. Se utiliza para representar datos cualitativos y cuantitativos, con datos de tipo discreto. En el eje x se
representan los datos ordenados en clases mientras que en el eje y se pueden representar frecuencias absolutas o relativas.
Domesday. Es el vocablo resultante de la deformación de la palabra doomsday (el día del Juicio Final o Universal) la obra fue
llamada de este modo por sus dictámenes relativos a las imposiciones y a las tasaciones, que eran irrevocables.
Distribuciones de frecuencias. Se le conoce con este nombre al conjunto de clases que aparecen con su frecuencia correspondiente,
generalmente mediante una tabla estadística.
Diagrama de sectores. Este tipo de diagramas puede ser de dos tipo, se puede considerar una figura geométrica en la que la
información se distribuye dentro de la figura como puede ser una dona o un anillo en el que cada porción dentro de la figura
representa la información porcentual del total de datos. La segunda opción es la utilización de pasteles en los que una porción del
pastel determinada por sectores individuales la información para ese sector específico.
Desviación típica. Valor mayor o igual a cero que mide la dispersión de una característica de los individuos alrededor de la media
del grupo. Los sujetos serán más parecidos u homogéneos entre sí cuanto más próxima a cero esté la desviación típica. Su unidad
de medida coincide con la unidad de medida de la variable original. Es la raíz cuadrada de la varianza.
Diseño de experimentos. Método estadístico cuyo objetivo es estudiar cómo cambian los valores de una variable respuesta cuando
se modifican los valores de una o varias variables independientes, denominadas factores experimentales. Un experimento bien
diseñado puede ser el punto de partida para establecer relaciones causales entre las variables estudiadas.
E
Estadística. Es una ciencia de las matemáticas encargada del estudio del comportamiento de una población mediante un estudio
cuyo propósito es hacer inferencias a partir de un subconjunto de datos, llamado muestra, tomados de ella.
14 de agosto del
Estadística inferencial o inductiva. Sirve extrapolar los resultados obtenidos en el análisis de los datos y a partir de ello predecir
acerca de la población, con un margen de confianza conocido. Se apoya fuertemente mediante el cálculo de probabilidades.
Estadística descriptiva o deductiva. Se construye a partir de los datos y la inferencia sobre la población no se puede realizar, al
menos con una confianza determinada, la representación de la información obtenida de los datos se representa mediante el uso de
unos cuantos parámetros, tablas y algunas graficas planteadas de tal forma que den importancia los mismos datos a través de
parámetros que caractericen la distribución.
Experimento aleatorio. Experimento en el que existen diferencias de una muestra a otra, cuyas muestras pese a ser de una misma
población son diferentes.
Estadístico. Es el término que se utiliza para designar al profesional que se dedica al análisis de la información estadística, al que
en ocasiones también se le conoce como estadígrafo.
Estadígrafo. Es el término utilizado para designar a la persona dedicada a las tareas propias de la estadística, aunque en ocasiones
también es frecuente que se utilice para designar a la variable que define una distribución estadística, de esta forma es común
escuchar el término estadígrafo de prueba.
Estadística. Ciencia que estudia los fenómenos aleatorios. Es un área de conocimiento específico de las Matemáticas que comenzó
a desarrollarse a mediados del siglo XVII. Sus técnicas permiten resumir grandes cantidades de información, estudiar la relación
entre variables, investigar la causa de algunos sucesos o predecir la evolución de un fenómeno en el tiempo y en el espacio, entre
otras cosas.
Estimador. Valor numérico extraído de las observaciones de una muestra que se aproxima en mayor o menor medida al parámetro
de la población sobre el que se quiere investigar. Así, la edad media de un grupo de individuos elegidos aleatoriamente de una
población es un estimador de la verdadera edad media de la población.
Error alfa (α). Valor comprendido entre 0 y 1 que mide cuánto se equivoca el investigador al aceptar como verdadera la hipótesis
alternativa de un test de hipótesis. Cuanto más próximo a cero esté, menor será el riesgo de establecer hipótesis falsas en la
población de estudio. Su valor se fija a priori, antes de comenzar la investigación, para conocer el número de individuos necesario
para llevar a cabo el estudio. Cuanto más pequeño sea el error alfa mayor será el tamaño de la muestra y, por tanto, más precisos
serán los resultados. Habitualmente este error se fija en 0,05; aunque puede variar dependiendo del tipo de investigación.
Error beta (β). Valor comprendido entre 0 y 1 que mide cuánto se equivoca el investigador al aceptar como verdadera la hipótesis
nula de un test de hipótesis. Cuanto más próximo a cero esté, menor será el riesgo de establecer hipótesis falsas en la población
de estudio. Su valor se fija a priori, antes de comenzar la investigación, para conocer el número de individuos necesario para llevar
a cabo el estudio. Cuanto más pequeño sea el error beta mayor será el tamaño de la muestra y, por tanto, más precisos serán los
resultados. Habitualmente este error se fija en 0.20, aunque puede variar dependiendo del tipo de investigación.
Error estándar. Variabilidad del estimador cuando se obtiene a partir de muestras diferentes, resultando un valor distinto en cada
muestra. El error estándar siempre es mayor que cero. Cuanto más pequeño sea mayor es la precisión de la estimación realizada.
Especificidad. Probabilidad de que una prueba diagnóstica proporcione un resultado negativo cuando el sujeto no está afectado por
la enfermedad investigada. Lo ideal es que esta probabilidad sea 1 siempre que la prueba diagnóstica se aplique en el grupo de
población libre de enfermedad. Sin embargo, no siempre es así. Cualquier prueba puede fallar mostrando un resultado positivo en
un individuo sano. La especificidad es, por tanto, la capacidad de la prueba diagnóstica para detectar la ausencia de la enfermedad
estudiada.
F
Frecuencia absoluta fi. Se determina como el número de veces que se repite un dato xi.
Frecuencia absoluta acumulada Fi. Para un determinado valor se considera como la frecuencia de cada dato xi más la suma de los
valores anteriores a dicha suma.
Frecuencia relativa hi. Es el cociente fi /N, donde N es el número total de datos.
Frecuencia relativa acumulada Hi. Es el cociente Fi /N
Falso negativo. Probabilidad de que una prueba diagnóstica proporcione un resultado negativo cuando el sujeto realmente tiene la
enfermedad investigada. Es el valor complementario a la sensibilidad.
Falso positivo. Probabilidad de que una prueba diagnóstica proporcione un resultado positivo cuando el sujeto no está afectado por
la enfermedad investigada. Es el valor complementario a la especificidad.
H
Histogramas. Los histogramas de frecuencias son gráficas que representan un conjunto de datos que se emplean para representar
datos de una variable cuantitativa. En el eje horizontal o de las abscisas se representan los valores tomados por la variable, en el
caso de que los valores considerados sean continuos la forma de representar los valores es mediante intervalos de un mismo
tamaño llamados clases. En el eje vertical se representan los valores de las frecuencias de los datos. Las barras que se levantan
sobre la horizontal y hasta una altura que representa la frecuencia. Un punto importante en el manejo de la información bajo el uso
de histogramas es el hecho de poder comparar, bajo un proceso en control, que a medida que se crecen las clase tiene
aproximadamente la forma de una campana centrada (conocida como la Campana de Gauss o Curva de Gauss o Curva Normal),
es la de una de las distribuciones más importantes conocidas como frecuencia normal o gaussiana.
Hipótesis nula. Afirmación establecida por el investigador sobre la población de estudio cuando realiza un test o contraste de
hipótesis. Esta hipótesis siempre se asume verdadera a menos que los datos de la muestra proporcionen evidencia de lo contrario.
Se suele formular mediante una negación o una igualdad. Así, la hipótesis nula de un estudio sobre cirrosis hepática puede
establecer que no existe relación entre el consumo habitual de alcohol y la cirrosis o, de forma equivalente, que el porcentaje de
personas con cirrosis es igual en bebedores y no bebedores.
Hipótesis alternativa. Aseveración opuesta a la hipótesis nula en un test o contraste de hipótesis. Así, la hipótesis alternativa de un
estudio sobre cirrosis hepática puede establecer que existe relación entre el consumo habitual de alcohol y la cirrosis o, de forma
equivalente, que el porcentaje de personas con cirrosis es diferente en bebedores y no bebedores.
14 de agosto del
I
Inferencia. Término utilizado para indicar la predicción hecha acerca de una población.
Inferencia estadística. Procedimiento que permiten extrapolar o generalizar a la población los resultados obtenidos en el análisis de
una muestra. Las técnicas utilizadas para ello incluyen los intervalos de confianza y los tests de hipótesis.
Intervalo de confianza. Rango de valores que, con una cierta confianza, contiene al parámetro poblacional que se pretende conocer.
El intervalo de confianza se construye a partir de la información de la muestra y es una de las herramientas utilizadas para extrapolar
los resultados a la población.
L
Libros de las Crónicas. Dos libros del Antiguo Testamento que interpretan la historia de Israel y Judea desde la creación de Adán
hasta mediados del siglo VI a.C.
M
Muestra. Es un subconjunto de datos tomados de la población, cuya finalidad es la de realizar inferencias acerca de la población a
partir del comportamiento de sus elementos. Es claro que si la muestra es un subconjunto de la población entonces la muestra
tendrá un número menor de elementos. La naturaleza de la muestra radica en la optimización de los recursos, por ejemplo, si
deseamos hacer un estudio acerca de las lecturas que a los estudiantes de Michoacán les gusta leer, el estudio implicaría considerar
a los estudiantes de lugares remotos, resultando difícil desde el punto de vista económico, sin embargo la estadística plantea
métodos mediante los cuales con una elección adecuada del “tamaño de muestra” podemos predecir a partir de una muestra las
preferencias que tienen los estudiantes acerca del tipo de lectura.
Media. Valor numérico en torno al cual se sitúan los valores de una característica de los individuos. Es un representante del grupo
de sujetos analizado.
Muestra. Grupo de individuos extraídos aleatoriamente de la población de estudio. La información proporcionada por estos sujetos
se almacena en una base de datos para analizarla posteriormente. Los resultados obtenidos en este análisis son una aproximación
a lo que realmente ocurre en toda la población. La inferencia estadística permite extrapolar los resultados de la muestra a la población
y conocer el error cometido en estas estimaciones.
N
Números. Es el nombre del cuarto libro que forma parte de la colección del Pentateuco, uno los libros del antiguo testamento de la
cultura judía, porque en su primer capítulo refiere el censo llevado a cabo después de concluida la legislación Sinaítica y antes de
la salida del monte de Dios.
Nivel de confianza (1-α). Probabilidad de que el intervalo de confianza obtenido a partir de los datos de la muestra contenga al
parámetro de la población que se pretende estimar. Aunque puede tomar cualquier valor entre 0 y 1, el más usual es 0.95 (95%).
Nivel de significación (α). Error alfa.
P
Población. Es conjunto de elementos que tiene características comunes, al menos una. Por ejemplo, una población es el grupo de
estudiantes de un país.
En el caso particular de la estadística la población constituye el objeto de estudio, es decir, la población es el conjunto de individuos
o entes que constituyen el objeto de estudio sobre el que se desea predecir un comportamiento a partir del estudio.
Promedio de datos. Es la cantidad que se obtiene al sumar el conjunto de datos que intervienen en la muestra entre el total de datos,
este también es conocido como media aritmética o simplemente media y se calcula como:
 xi
x=
n
Polígono de frecuencias. Representaciones gráficas alternativas al histograma de frecuencias. Estos se construyen a partir de los
puntos medios de cada clase. La utilización de los puntos medios o marcas de clase son llevados al escenario gráfico mediante la
utilización de los polígonos de frecuencias. Se construye uniendo los puntos medios de cada clase localizados en las tapas
superiores de los rectángulos utilizados en los histogramas de las gráficas. Su utilidad se hace necesaria cuando desean destacarse
las variables de tendencia central, como son media, modas y medianas.
Pictogramas. El pictograma consiste en la utilización de símbolos utilizados para representar un conjunto de datos, en el caso de la
representación de datos individuales a través de barras hemos utilizado los pictogramas, sin embargo en áreas específicas
convendría analizar el conjunto de datos.
Pirámides de población. Este gráfico se construye utilizando pirámides para construir la representación de los datos bajo cierta clase,
la diferencia de información considerada entre cada clase será dada por el tamaño de la pirámide. En ocasiones la frecuencia de
cada clase se coloca en el extremo superior de cada clase, sin embargo también, al igual que en las anteriores puede resultar útil
colocar información, como el porcentaje de información en la punta de cada pirámide.
Población. Todos los individuos sobre los que se desea realizar una investigación o estudio. Cuando la información necesaria para
el estudio ha sido extraída de todos y cada uno de los individuos de la población se habla de censo de población. Si por el contrario
no es posible acceder a todos los sujetos por falta de recursos se procede a tomar una muestra aleatoria de la población de estudio.
Potencia (1-β). Valor comprendido entre 0 y 1 complementario al error beta. Mide el grado de acierto del investigador cuando acepta
como verdadera la hipótesis nula de un test de hipótesis. Su valor se fija a priori, antes de comenzar la investigación, para conocer
el número de individuos necesario para llevar a cabo el estudio. Cuanto mayor sea la potencia, mayor será el tamaño de la muestra
y, por tanto, más precisos serán los resultados obtenidos. Habitualmente este error se fija en 0.80, aunque puede variar dependiendo
del tipo de investigación.
Probabilidad. Medida adimensional que cuantifica la ocurrencia de los fenómenos producidos por azar. Sus valores son números
comprendidos entre 0 y 1. Cuando la probabilidad es cero, el suceso no ocurrirá nunca. Si la probabilidad es uno, ocurrirá con total
certeza. Los valores intermedios miden el gradiente de certidumbre.
ING. DAVID ANDRÉS SANGA TITO INGENIERÍAS INDUSTRIAL,CIVIL;SEGURIDAD Y COMERCIAL – II Y III SEMESTRE Página
10
14 de agosto del
Prueba diagnóstica. Procedimiento destinado a detectar la presencia o ausencia de una enfermedad en el individuo. Su capacidad
de discriminación está determinada por la sensibilidad y la especificidad, características propias de cada prueba o test diagnóstico.
R
Recorrido de una distribución. Es la diferencia que existe entre el valor máximo del conjunto de datos y su valor mínimo.
Regresión. Técnicas estadísticas que permiten determinar la ecuación matemática que relaciona un efecto (variable dependiente o
respuesta) con una o varias causas (variables independientes o predictoras).
S
Staat. Palabra alemana que se refiere a estado como expresión de unidad política superior. Asociada con el origen etimológico de
la palabra estadística.
Status. Palabra latina que significa situación, posición, estado. Asociada con el origen etimológico de la palabra estadística.
Statera. Palabra griega que quiere decir balanza, ya que la estadística mide o pesa hechos. Asociada con el origen etimológico de
la palabra estadística.
Sensibilidad. Probabilidad de que una prueba diagnóstica proporcione un resultado positivo cuando el sujeto tiene realmente la
enfermedad. Lo ideal es que esta probabilidad sea 1 siempre que la prueba diagnóstica se aplique en el grupo de población afectado
por la enfermedad. Sin embargo, no siempre es así. Cualquier prueba puede fallar mostrando un resultado negativo en un individuo
enfermo. La sensibilidad es, por tanto, la capacidad de la prueba diagnóstica para detectar la presencia de la enfermedad estudiada.
T
Tamaño de muestra. El número de elementos que intervienen dentro de la elección de la muestra extraída de una población.
Tamaño de muestra. Número de sujetos necesario para llevar a cabo una investigación, de manera que los resultados obtenidos a
partir de ellos se aproximen a los resultados que se hubieran obtenido al estudiar a toda la población. El error cometido en esa
extrapolación de resultados es conocido y prefijado antes de comenzar la investigación. El tamaño de muestra será mayor cuanto
más pequeño sea el error que se desee cometer.
Test de hipótesis. Técnica estadística utilizada para decidir si una afirmación establecida por el investigador sobre la población de
estudio es compatible con los resultados observados en una muestra. Cualquier test de hipótesis se compone de una hipótesis nula,
formulada en términos de igualdad o negación, y una hipótesis alternativa.
Test diagnóstico. Prueba diagnóstica
V
Variables nominales. Son aquellas variables que son descritas por algunas características de sus integrantes.
Variables cuasi cuantitativa. Son variables nominales que a pesar de ello se pueden ordenar entre ellas, ejemplo de ellas los pueden
representar los valores que pueden tomar los corredores en una competencia, en la forma en que llegan a la meta, primer lugar,
segundo lugar, etc...
Variables cualitativas. Son aquellas variables que como su nombre lo indica están relacionadas con sus características exteriores.
Variables cuantitativas. Estas variables son caracterizadas por alguna información numérica que se le puede asociar a los individuos
de la una población. Esta caracterización puede ser clasificada en discreta y continua.
Variables cuantitativas discretas. Son aquellas cuyo valor está determinado por valores enteros.
Variables cuantitativas continuas. Son aquellas cuyo valor está determinado por valores reales, generalmente esas variables pueden
tomar toda una gama de valores dentro de la recta real.
Variables aleatorias continuas. Permiten una infinidad de valores al azar dentro de un intervalo, considerándose variables continuas
precisamente por la posibilidad de poder tomar cualquier valor dentro de una infinidad de valores.
Variables aleatorias discretas. Las variables cuya naturaleza toma un número finito de valores enteros, tales como: los estudiantes
de la escuela de medicina de una universidad, los alumnos reprobados en la materia de matemáticas, el número de peces en un
estanque, el número de cursos que un estudiante debe cursar para graduarse, etcétera. El conjunto de valores que podría de tomar
una variable aleatoria discreta puede ser finita o infinita numerable.
Valor P. Valor comprendido entre 0 y 1 que está asociado a un test de hipótesis. Es la probabilidad de encontrar un resultado como
el obtenido en la muestra, o incluso más extraño, cuando la hipótesis nula es cierta. La hipótesis nula será rechazada siempre que
esta probabilidad sea muy pequeña, inferior al nivel de significación preestablecido.
Valor predictivo negativo. Probabilidad de que un individuo no padezca la enfermedad cuando la prueba diagnóstica aplicada
proporcione un resultado negativo. Este valor depende tanto de la especificidad y de la proporción de falsos negativos de la prueba
como del número de personas enfermas registrado en la población a la que pertenece el individuo. Por este motivo, el valor predictivo
negativo puede ser diferente dependiendo del país o región en que se calcule, aun utilizando la misma prueba diagnóstica.
Valor predictivo positivo. Probabilidad de que un individuo padezca la enfermedad cuando la prueba diagnóstica aplicada
proporcione un resultado positivo. Este valor depende tanto de la sensibilidad y de la proporción de falsos positivos de la prueba
como del número de personas enfermas registrado en la población a la que pertenece el individuo. Por este motivo, el valor predictivo
positivo puede ser diferente dependiendo del país o región en que se calcule, aun utilizando la misma prueba diagnóstica.
Variable. Cualquier característica de los individuos que componen la muestra que toma un valor diferente para cada uno de ellos.
La edad y el sexo son variables habituales en muchas investigaciones.
Variable cualitativa. Característica que recoge una cualidad de los individuos de la muestra. Una variable cualitativa no puede
medirse con un instrumento ni lleva asociada una unidad de medida. La gravedad de un accidente es una variable cualitativa ordinal,
ya que registra una cualidad que pueden ordenarse de forma natural de menor a mayor severidad. El sexo, en cambio, es una
variable cualitativa nominal porque sus categorías, masculino y femenino, no tienen un orden natural preestablecido.
Variable cuantitativa. Característica de los individuos de la muestra que puede medirse con un instrumento y lleva asociada una
unidad de medida. El peso es una variable cuantitativa, ya que puede medirse con una báscula y su unidad de medida es el gramo.
11
14 de agosto del
Además, esta variable es continua, ya que el valor del peso asignado a cada individuo puede tener tantos decimales como admita
la precisión de la báscula. Otras variables cuantitativas, como el número de hijos, se denominan discretas porque sus valores solo
pueden ser números enteros, sin decimales.
Varianza. Valor mayor o igual a cero que mide la dispersión de una característica de los individuos alrededor de la media del grupo.
Los sujetos serán más parecidos u homogéneos entre sí cuanto más próxima a cero esté la varianza. Su unidad de medida es la
unidad de medida de la variable original elevada al cuadrado. Su valor coincide con el cuadrado de la desviación típica.
Ejemplo de Distribución de frecuencias
DISTRIBUCIÓN DE FRECUENCIAS
Consiste en distribuir a los datos de una muestra en clases o categorías e ir colocando el número de datos que cae dentro de cada
intervalo.
1. Alcance o recorrido (A): Es el intervalo definido por el menor y mayor de los datos.
2. Rango (R): Viene a ser la diferencia entre los extremos del alcance.
3. Intervalos de Clase (Ii): Son grupos que resultan de particionar el alcance o recorrido; el número de grupos (K) se determina por
la regla de STURGES.
K = 1 + 3,33.log (n) ; donde n = Número total de datos
también: K = n (Regla de Joule)

El valor de “K” se redondea al entero superior o inferior según convenga.
4. Ancho de clase (ω): Viene a ser la diferencia que existe entre los extremos de cada intervalo.
L = Límite inferior
Sea el intervalo : Li - Ls   i
Ls= Límite superior
R
entonces: ω = Ls - Li o también: ω=
K
5. Marca de clase (Xi): Son los puntos medios de los intervalos de clase.
L = Límite inferior
Sea el intervalo : Li - Ls   i
Ls= Límite superior
Li + Ls
entonces: Xi =
2
6. Frecuencia Absoluta (fi): Es el número de datos que cae dentro de cada intervalo.
0  fi  n
7. Frecuencia relativa (hi): Es el cociente entre la frecuencia absoluta y el número total de datos.
f
hi = i
n
0  hi  1 , donde n = Número total de datos
8. Frecuencia absoluta Acumulada (Fi): Es aquella que resulta de sumar sucesivamente las frecuencias absolutas.
i=1
Fi =  fj
j=1
9. Frecuencia Relativa Acumulada (Hi): Es aquella que resulta de sumar sucesivamente las frecuencias relativas.
12
14 de agosto del
i
Hi =  h j
j=1
PROBLEMA APLICATIVO
Se tiene los siguientes puntajes obtenidos por 50 alumnos en un cierto test mental, calcule fi, Fi, hi, Hi, la frecuencia porcentual, la
frecuencia porcentual acumulada.
67 61 82 70 67
73 77 85 68 57
66 72 67 70 76
54 93 88 67 77
84 63 46 63 70
73 47 80 60 67
67 70 58 57 59
69 58 86 69 52
76 79 56 77 94
73 64 74 72 68
Si se tienen las siguientes tablas, calcule fi, Fi, hi, Hi, la frecuencia porcentual, la frecuencia porcentual
acumulada.
ESTATURA Xi fi PESO Xi fi LÍMITES Xi fi
[150 - 155 ) 5 [35 - 41 ) 14 [165 - 170 ) 15
[155 - 160 ) 6 [41 - 47 ) 6 [170 - 175 ) 16
[160 - 165 ) 7 [47 - 53 ) 7 [175 - 180 ) 7
[165 - 170 ) 10 [53 - 59 ) 11 [180 - 185 ) 10
[170 - 175 ) 8 [59 - 65 ) 8 [185 - 190 ) 18
[175 - 180 ) 9 [65 - 71 ) 10 [190 - 195 ) 9
[180 - 185 ) 5 [71 - 77 ) 15 [195 - 200 ) 7
[185 - 190 ) 2 [77 - 83 ) 5 [200 - 205 ) 9
LÍMITES Xi fi LÍMITES Xi fi LÍMITES Xi fi

[200 - 208 ) 4 [315 - 325 ) 1 [305 - 312 ) 15
[208 - 216 ) 5 [325 - 335 ) 0 [312 - 319 ) 6
[216 - 224 ) 4 [335 - 345 ) 4 [319 - 326 ) 17
[224 - 230 ) 10 [345 - 355 ) 3 [326 - 333 ) 10
[230 - 238 ) 8 [355 - 365 ) 7 [333 - 340 ) 18
[238 - 246 ) 15 [365 - 375 ) 2 [340 - 347 ) 9
[246 - 254 ) 5 [375 - 385 ) 1 [347 - 354 ) 6
[254 - 262 ) 4 [385 - 395 ) 2 [354 - 361 ) 5
LÍMITES Xi fi LÍMITES Xi fi LÍMITES Xi fi

[204 - 212) 15 [310 - 315 ) 18 [209 - 218 ) 25
[212 - 220) 16 [315 - 320 ) 6 [218 - 227 ) 22
[220 - 228) 7 [320 - 325 ) 17 [227 - 236 ) 20
[228 - 236) 10 [325 - 330 ) 10 [236 - 245 ) 16
[236 - 244) 9 [330 - 335 ) 9 [245 - 254 ) 12
[244 - 252) 7 [335 - 340 ) 9 [254 - 263 ) 8
[252 - 260) 8 [340 - 345 ) 8 [263 - 272 ) 5
[260 - 268) 2 [345 - 350 ) 6 [272 - 281 ) 3
13

370 Restrepo

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

370 Restrepo

Cargado por

Copyright:

Formatos disponibles

14 de agosto del

2017 ESTADÍSTICA Y PROBABILIDADES ESTADÍSTICA DESCRIPTIVA-DEFINICIONES - UASF

Empleo de la estadística en las Antiguas Civilizaciones

Regresión lineal – Gráficos de dispersión en estadística

Técnicas de análisis estadístico

 Minería de datos (aplica estadística y reconocimiento de patrones para el conocimiento de datos)

Enseñanza de la estadística en las Ciencias Sociales

POBLACIÓN: Es un conjunto de datos referentes a determinadas características de un grupo de individuos o elementos.

Otras definiciones relacionadas

Parámetro o Estadístico muestral

Ventajas de la elección de una muestra

Descripción matemática de una muestra aleatoria

también: K = n (Regla de Joule)

LÍMITES Xi fi LÍMITES Xi fi LÍMITES Xi fi

LÍMITES Xi fi LÍMITES Xi fi LÍMITES Xi fi

También podría gustarte