Что такое описательная статистика
Описательная статистика
Цель описательной (дескриптивной) статистики — обработка эмпирических данных, их систематизация, наглядное представление в форме графиков и таблиц, а также их количественное описание посредством основных статистических показателей.
В отличие от индуктивной статистики дескриптивная статистика не делает выводов о генеральной совокупности на основании результатов исследования частных случаев. Индуктивная же статистика напротив предполагает, что свойства и закономерности, выявленные при исследовании объектов выборки, также присущи генеральной совокупности.
Содержание
Методы агрегирования данных
Описательная статистика использует три основных метода агрегирования данных:
Табличное представление
Статистическая таблица — система строк и столбцов, в которой в определенной последовательности излагается статистическая информация о социально-экономических явлениях.
Основные статистические показатели
Основные статистические показатели можно разделить на две группы: меры среднего уровня и меры рассеяния.
Меры среднего уровня
Меры среднего уровня дают усредненную характеристику совокупности объектов по определенному признаку.
Меры рассеяния
Меры рассеяния показывают, насколько хорошо данные значения представляют данную совокупность.
Литература
Ссылки
Полезное
Смотреть что такое «Описательная статистика» в других словарях:
ОПИСАТЕЛЬНАЯ СТАТИСТИКА — ОПИСАТЕЛЬНАЯ СТАТИСТИКА, см. Государствоведение … Демографический энциклопедический словарь
описательная статистика — — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN descriptive statistics … Справочник технического переводчика
Описательная статистика — * апісальная статыстыка * descriptive statistics параметры выборки (см.), описывающие набор данных, напр., среднее, медиана, среднеквадратическое отклонение (см.) … Генетика. Энциклопедический словарь
ОПИСАТЕЛЬНАЯ СТАТИСТИКА — См. статистика, описательная … Толковый словарь по психологии
ОПИСАТЕЛЬНАЯ СТАТИСТИКА — (description statistics) см. Статистика и статистический анализ … Большой толковый социологический словарь
Статистика описательная — Описательная статистика комплекс базовых приемов анализа данных вариационного ряда, дающий наиболее общее представление о распределении той или иной характеристики в изучаемой совокупности. Источник: Приказ Роспотребнадзора от 20.09.2010 N 341… … Официальная терминология
Статистика — (Statistics) Статистика это общетеоретическая наука, изучающая количественные изменения в явлениях и процессах. Государственная статистика, службы статистики, Росстат (Госкомстат), статистические данные, статистика запросов, статистика продаж,… … Энциклопедия инвестора
Статистика — Гистограмма (метод графических изображений) У этого термина существуют и другие значения, с … Википедия
Статистика в психологии (statistics in psychology) — Первое применение С. в психологии часто связывают с именем сэра Фрэнсиса Гальтона. В психологии под «статистикой» понимается применение количественных мер и методов для описания и анализа результатов психол. исслед. Психологии как науке С.… … Психологическая энциклопедия
СТАТИСТИКА, ОПИСАТЕЛЬНАЯ — Общее обозначение использования статистических процедур для описания, организации и обобщения выборочных данных в основном, описательная статистика – это число, которое представляет некоторые аспекты выборочных данных. Наиболее распространенными… … Толковый словарь по психологии
Описательные статистики
Упорядочим эти величины по возрастанию, иными словами, построим вариационный ряд:
Х(1) x более важны, чем другие. Мы присоединяем вес wi к каждому из значений xi в нашей выборке для того, чтобы учесть эту важность.
Например, предположим, что мы заинтересованы в определении средней продолжительности госпитализации в каком-либо районе и знаем средний реабилитационный период больных в каждой больнице. Учитываем количество информации, в первом приближении принимая за вес каждого наблюдения число больных в больнице.
Взвешенное среднее и среднее арифметическое идентичны, если каждый вес равен единице.
Размах (интервал изменения)
Размах — это разность между максимальным и минимальным значениями переменной в наборе данных; этими двумя величинами обозначают их разность. Обратите внимание, что размах вводит в заблуждение, если одно из значений есть выброс (см. раздел 3).
Размах, полученный из процентилей
Что такое процентили
Предположим, что мы расположим наши данные упорядоченно от самой маленькой величины переменной X и до самой большой величины. Величина X, до которой расположен 1% наблюдений (и выше которой расположены 99% наблюдений), называется первым процентилем.
Величина X, до которой находится 2% наблюдений, называется 2-м процентилем, и т. д.
Применение процентилей
Мы можем добиться такой формы описания рассеяния, на которую не повлияет выброс (аномальное значение), исключая экстремальные величины и определяя размах остающихся наблюдений.
Межквартильный размах — это разница между 1-м и 3-м квартилями, т.е. между 25-м и 75-м процентилями. В него входят центральные 50% наблюдений в упорядоченном наборе, где 25% наблюдений находятся ниже центральной точки и 25% — выше.
Интердецильный размах содержит в себе центральные 80% наблюдений, т. е. те наблюдения, которые располагаются между 10-м и 90-м процентилями.
Мы часто используем размах, который содержит 95% наблюдений, т.е. он исключает 2,5% наблюдений снизу и 2,5% сверху. Указание такого интервала актуально, например, для осуществления диагностики болезни. Такой интервал называется референтный интервал, референтный размах или нормальный размах.
Дисперсия
Один из способов измерения рассеяния данных заключается в том, чтобы определить степень отклонения каждого наблюдения от средней арифметической. Очевидно, что чем больше отклонение, тем больше изменчивость, вариабельность наблюдений.
Однако мы не можем использовать среднее этих отклонений как меру рассеяния, потому что положительные отклонения компенсируют отрицательные отклонения (их сумма равна нулю). Чтобы решить эту проблему, мы возводим в квадрат каждое отклонение и находим среднее возведенных в квадрат отклонений; эта величина называется вариацией, или дисперсией.
В случае, если мы имеем дело не с генеральной совокупностью, а с выборкой, то вычисляется выборочная дисперсия:
Теоретически можно показать, что получится более точная дисперсия по выборке, если разделить не на n, а на (n-1).
Единицы измерения (размерность) вариации — это квадрат единиц измерения первоначальных наблюдений.
Например, если измерения производятся в килограммах, то единица измерения вариации будет килограмм в квадрате.
Среднеквадратическое отклонение, стандартное отклонение выборки
Среднеквадратическое отклонение — это положительный квадратный корень из дисперсии.
Мы можем представить себе стандартное отклонение как своего рода среднее отклонение наблюдений от среднего. Оно вычисляется в тех же единицах (размерностях), что и исходные данные.
Если разделить стандартное отклонение на среднее арифметическое и выразить результат в процентах, получится коэффициент вариации.
Он является мерой рассеяния, не зависит от единиц измерения (безразмерный), но имеет некоторые теоретические неудобства и поэтому не очень одобряется статистиками.
Вариация в пределах субъектов и между субъектами
Если провести повторные измерения непрерывной переменной у исследуемого объекта, то можно увидеть ее изменения (внутрисубъектные изменения). Это можно объяснить тем, что объект не всегда может дать точные и те же самые ответы, и/или ошибкой, погрешностью измерения. Однако при измерениях у одного объекта вариация обычно меньше, чем вариация единичного измерения в группе (межсубъектные изменения).
Например, вместимость легкого 17-летнего мальчика составляет от 3,60 до 3,87 л, когда измерения повторяются не менее 10 раз; если провести однократное измерение у 10 мальчиков того же возраста, то объем будет между 2,98 и 4,33 л. Эти концепции важны в плане исследования.
Методы описательной статистики
Практически каждый исследователь сталкивается рано или поздно в своей работе с необходимостью обработки и дальнейшего предоставления статистических данных. Причем это касается самых разных отраслей науки – от технических и медицинских до социологических и культурологических.
Обусловлена такая распространенность тем, что статистические методы помогают получить и обосновать определенные суждения об объектах, субъектах, группах людей и прочем, что обладает определенной внутренней неоднородностью.
Вы можете заказать услугу срочной публикации научных статей в научных журналах. Специалисты издательства СибАК знают, как выполнить работу в сжатые сроки.
Что такое описательная статистика
Те, кто впервые в своей работе сталкивается с обработкой и описанием данных, не всегда четко представляют, в какой форме их корректно отображать и обрабатывать для того, чтобы в дальнейшем подвергнуть статистическому выводу.
Поэтому нужно четко представлять, что такое описательная статистика. Она еще носит название дескриптивной и занимается анализом и обработкой эмпирических данных с проведением необходимой систематизации. Описательная статистика – это сжатая и концентрированная характеристика изучаемого явления, представленная в виде графиков, таблиц, схем и числовых выражений.
Вот что входит в описательную статистику в качестве основных показателей:
Помимо этого, для осуществления методов описательной статистики используют еще такие показатели, как квартили, асимметрию, статистические моменты, эксцессы, гипотезы, значимости. Каждый из них играет существенную роль для корректного отображения получаемых данных.
Совокупность выше представленных показателей помогает при визуальном представлении данных осуществить:
Как сделать описательную статистику
При выполнении определенного вида работ и решении задач придерживаются следующего порядка.
Обработку статистических параметров методом описательной статистики необходимо проводить на высшем уровне. В противном случае могут пострадать итоговые выводы и результаты научной работы.
Важность корректного представления данных
Статистическое отображение данных важно в любой научной работе. А для публикаций в журналах, индексируемых наукометрическими базами Web of Science и Scopus, нужно особо тщательно относиться к качеству подаваемого материала.
Можно самому разбираться во всех тонкостях и сложных формулах, которые нужно применять. Но, чтобы облегчить и ускорить процесс статистической обработки в исследовании, лучше обратиться к специалистам, которые доступно объяснят даже самые сложные моменты.
Основы анализа данных
Существует большое разнообразие прикладных пакетов, реализующих широкий спектр статистических методов, их также называют универсальными пакетами или инструментальными наборами. О таких наборах мы подробно поговорим в последнем разделе курса. В Microsoft Excel также реализован широкий арсенал методов математической статистики, реализация примеров данной лекции продемонстрирована именно на этом программном обеспечении.
Анализ данных в Microsoft Excel
Описательная статистика
Пусть дан набор данных А, представленный в таблице 8.1.
x | y |
---|---|
3 | 9 |
2 | 7 |
4 | 12 |
5 | 15 |
6 | 17 |
7 | 19 |
8 | 21 |
9 | 23,4 |
10 | 25,6 |
11 | 27,8 |
Выбрав в меню Сервис «Пакет анализа» и выбрав инструмент анализа «Описательная статистика», получаем одномерный статистический отчет, содержащий информацию о центральной тенденции и изменчивости или вариации входных данных.
В состав описательной статистики входят такие характеристики: среднее ; стандартная ошибка ; медиана ; мода; стандартное отклонение ; дисперсия выборки; эксцесс ; асимметричность; интервал ; минимум ; максимум ; сумма; счет.
Отчет » Описательная статистика » для двух переменных их набора данных А приведен в таблице 8.2.
x | y | |
---|---|---|
Среднее | 6,5 | 17,68 |
Стандартная ошибка | 0,957427108 | 2,210922382 |
Медиана | 6,5 | 18 |
Стандартное отклонение | 3,027650354 | 6,991550456 |
Дисперсия выборки | 9,166666667 | 48,88177778 |
Эксцесс | -1,2 | -1,106006058 |
Асимметричность | 0 | -0,128299221 |
Интервал | 9 | 20,8 |
Минимум | 2 | 7 |
Максимум | 11 | 27,8 |
Сумма | 65 | 176,8 |
Счет | 10 | 10 |
Наибольший (1) | 11 | 27,8 |
Наименьший (1) | 2 | 7 |
Уровень надежности (95,0%) | 2,16585224 | 5,001457714 |
Понимание описательной статистики
Дата публикации Jun 5, 2018
Первоначально, когда мы получаем данные, вместо того чтобы применять причудливые алгоритмы и делать некоторые прогнозы, мы сначала пытаемся читать и понимать данные, применяя статистические методы. Делая это, мы можем понять, какой тип данных распределения имеет.
Этот блог призван ответить на следующие вопросы:
1. Что такое описательная статистика?
2. Типы описательной статистики?
3. Измерение центральной тенденции (среднее значение, медиана, мода)
4. Мера распространения / дисперсии (стандартное отклонение, среднее отклонение, дисперсия, процентиль, квартили, межквартильный диапазон)
5. Что такое асимметрия?
6. Что такое куртоз?
7. Что такое корреляция?
Сегодня давайте разберемся с описательной статистикой раз и навсегда. Давайте начнем,
Что такое Описательный Statistics?
Описательная статистика включает в себя обобщение и организацию данных, чтобы их можно было легко понять. Описательная статистика, в отличие от логической логики, стремится описать данные, но не пытается делать выводы из выборки для всей совокупности. Здесь мы обычно описываем данные в выборке. Как правило, это означает, что описательная статистика, в отличие от логической логики, не разрабатывается на основе теории вероятностей.
Типы описательной статистики?
Описательные статистические данные разбиты на две категории. Меры центральной тенденции и меры изменчивости (распространения).
Мера центральной тенденции
Центральная тенденция относится к идее, что есть одно число, которое лучше всего суммирует весь набор измерений, число, которое в некотором роде является «центральным» для набора.
Среднее / Среднее
Среднее или среднее значение является центральной тенденцией данных, то есть числа, вокруг которого разбросаны целые данные. В некотором смысле, это одно число, которое может оценить значение всего набора данных.
Давайте вычислим среднее значение набора данных, имеющего 8 целых чисел.
медиана
Заметка: Если вы сортируете данные в порядке убывания, это не повлияет на медиану, но IQR будет отрицательным. Мы поговорим об IQR позже в этом блоге.
Медиана будет средним термином, если число терминов нечетное
Медиана будет средним из средних 2 слагаемых, если число слагаемых четное.
Заметка:Когда значения находятся в арифметической прогрессии (разница между последовательными членами постоянна. Здесь она равна 2.),Медиана всегда равна значению,
Среднее из этих 5 чисел равно 6, а значит, медиана.
Режим
В этом наборе данных режим равен 67, потому что он имеет больше, чем остальные значения, то есть в два раза.
Но может быть набор данных, в котором нет режима вообще, поскольку все значения появляются одинаковое количество раз. Если два значения появились одновременно и больше, чем остальные значения, то набор данныхбимодальный, Если три значения появились одновременно и больше, чем остальные значения, тогда набор данныхтримодальныйи для n режимов этот набор данныхмультимодальные,
Мера распространения / дисперсии
Мера распространения относится к идее изменчивости в ваших данных.
Стандартное отклонение
Существуют ситуации, когда нам приходится выбирать между стандартным отклонением выборки или совокупности.
Когда нас просят найти SD некоторой части населения, часть населения; тогда мы используем образец стандартного отклонения.
где х̅ означает среднее значение образца.
Но когда нам приходится иметь дело с целым населением, тогда мы используем стандартное отклонение населения.
где µ означает среднее значение популяции.
Хотя выборка является частью совокупности, их формулы SD должны быть одинаковыми, но это не так. Чтобы узнать больше об этом, обратитесь к этомуссылка
Как вы знаете, в описательной статистике мы обычно имеем дело с данными, доступными в выборке, а не в популяции. Так что, если мы используем предыдущий набор данных и подставим значения в формулу образца,
Среднее отклонение / среднее абсолютное отклонение
Это среднее абсолютных разностей между каждым значением в наборе значений и среднее значение всех значений этого набора.
Поэтому, если мы используем предыдущий набор данных и подставляем значения,
отклонение
Диапазон
Диапазон является одним из самых простых методов описательной статистики. Это разница между самым низким и самым высоким значением.
Диапазон составляет 99–12 = 87
процентиль
Квартили
Так вот, по аналогии,
Q2 = 67: составляет 50 процентилей от всех данных и является медианой.
Q1 = 41: 25 процентиль данных.
Q3 = 85: это 75 процентиль даты.
перекос
В идеальном нормальном распределении хвосты с обеих сторон кривой являются точными зеркальными отражениями друг друга.
Когда распределение перекошено влево, хвост на левой стороне кривой длиннее, чем хвост на правой стороне, а среднее значение меньше моды. Эта ситуация также называется отрицательной асимметрией.
Когда распределение перекошено вправо, хвост с правой стороны кривой длиннее, чем хвост с левой стороны, а среднее значение больше моды. Эта ситуация также называется положительной асимметрии.
Как с коэффициентом асимметрии?
Для расчета коэффициента асимметрии выборки существует два метода:
1] Первый коэффициент Пирсона асимметрии (режим асимметрии)
2] Второй коэффициент асимметрии Пирсона (средняя асимметрия)
Типовая проблема: Используйте Коэффициент Пирсона № 1 и № 2, чтобы найти асимметрию для данных со следующими характеристиками:
Заметка: Первый коэффициент асимметрии Пирсона использует режим. Следовательно, если частота значений очень мала, это не даст стабильной меры центральной тенденции. Например, режим в обоих этих наборах данных равен 9:
1, 2, 3, 4, 4, 5, 6, 7, 8, 9.
В первом наборе данных режим отображается только дважды. Так что не стоит использовать первый коэффициент асимметрии Пирсона. Но во втором сете,
1, 2, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 6, 7, 8, 9, 10, 12, 12, 13.
режим 4 появляется 8 раз. Поэтому второй коэффициент асимметрии Пирсона, скорее всего, даст вам разумный результат.
эксцесс
Есть три типа куртоза
Mesokurtic
Leptokurtic
Platykurtic
Главныйразница между асимметричностьюа такжеэксцессявляется то, что асимметрия относится к степени симметрии, в то время как эксцесс относится к степени присутствия выбросоввраспределение.
корреляция
Если r близко к 0, это означает, что между переменными нет никакой связи. Если r положительно, это означает, что когда одна переменная становится больше, другая становится больше. Если r отрицательно, это означает, что когда один становится больше, другой становится меньше (часто это называется «обратной» корреляцией).
Надеюсь, я дал вам некоторое представление о том, что именно представляет собой описательная статистика. Это был базовый набор некоторых базовых статистических методов, которые могут помочь вам в долгосрочной перспективе понять науку о данных.
Если вам понравился этот пост, вам будет полезна дополнительная мотивация, если вы дадите ему несколько хлопков 👏. Я всегда открыт для ваших вопросов и предложений. Вы можете поделиться этим на Facebook, Twitter, Linkedin, так что кто-то может нуждаться в этом.