Задание функции потерь - Метод взвешенных наименьших квадратов

Опубликовал: pvi777 в категорию Материалы по Dell StatSoft Statistica - 14.11.2014, 22:13


Большинство регрессионных моделей может быть оценено с использованием метода наименьших квадратов, т.е. с использованием в процедуре оценивания функции потерь, равной сумме квадратов отклонений наблюдаемых значений от предсказываемых. Однако, как говорилось в разделе Вводный обзор, имеются случаи, когда вполне приемлемо использование метода взвешенных наименьших квадратов. Например, вычисление весов стандартных ошибок в линейной регрессионной модели основывается на предположении, что остатки одинаково распределены на всей области значений независимых переменных. Если же это предположение нарушается, нам следует рассматривать метод взвешенных наименьших квадратов. Например, предположим, что конструкторская фирма заинтересована в оценке взаимосвязи между предлагаемым размером сделки и размером издержек при ее оформлении и заключении. Интуитивно понятно, что чем больше проект, тем больше изменчивость остатков вокруг оцениваемой линии регрессии.

Нелинейное оценивание - Кусочно-линейная регрессия

Опубликовал: pvi777 в категорию Материалы по Dell StatSoft Statistica - 14.11.2014, 22:06


Показанные логические операторы также могут использоваться для определения регрессионных моделей, различных на разных областях изменения независимых переменных(ой), т.е. для оценивания кусочно-линейной регрессионной модели (см. Вводный обзор). Этот пример тоже основан на данных, взятых из книги Neter, Wasserman, and Kutner (1985, стр. 348). А именно, набор данных соответствует производственному процессу, в котором себестоимость зависит от размера произведенной партии. Ниже показан файл данных Lotsize.sta. Открыть это файл можно с помощью меню Файл, выбрав команду Открыть; наиболее вероятно, что это файл находится в директории /Examples/Datasets.

Иерархический кластерный анализ

Опубликовал: pvi777 в категорию Материалы по Dell StatSoft Statistica - 14.11.2014, 22:00


Исследование территориальной дифференциации структуры добавленной стоимости субъектов РФ методами кластерного анализа

Имеются следующие статистические данные о структуре добавленной стоимости в субъектах Российской Федерации по состоянию на 2005 год:

· доля добавленной стоимости, приходящаяся на сельскохозяйственную продукцию;

· доля добавленной стоимости, приходящаяся на добычу полезных ископаемых;

· доля добавленной стоимости, приходящаяся на обрабатывающие производства;

· доля добавленной стоимости, приходящаяся на оптовую и розничную торговлю;

· доля добавленной стоимости, приходящаяся на операции с недвижимостью.

Всего объектов в выборке 78 (ряд АО не выделялся отдельно). Естественно задаться вопросом – не существует ли в пределах Российской Федерации некоторых групп регионов, сходных по структуре добавленной стоимости? Если да, то сколько существует таких групп, или, как говорят, кластеров? Что именно будет отличать объекты одного класса от объектов других кластеров?

STATISTICA Text Miner. Анализ и классификация текста

Опубликовал: pvi777 в категорию Материалы по Dell StatSoft Statistica - 14.11.2014, 21:41


Этот пример основан на "стандартном" наборе документов Reuters. Из базы данных Reuters-21578 было выбрано 5,000 документов. Отметим, что эта база данных была создана на основе газетных статей за 1987 год. Документы были собраны и проиндексированы сотрудниками компании Reuters в 1987. Отметим, что право собственности на эти статьи принадлежит компаниям Reuters Ltd. и Carnegie Group, Inc., а использованные файлы доступны только для исследований. Вы также можете прочитать Главу 16 в Manning and Schütze (2002), чтобы получить дополнительную информацию об этих документах и специальных видах анализа. Текст этих сообщения был сохранен в файлах XML (Extensible Markup Language). Ниже показан пример такого файла.

Text mining. Классификация текста

Опубликовал: pvi777 в категорию Материалы по Dell StatSoft Statistica - 14.11.2014, 21:31


Этот пример основан на "стандартном" наборе новостных документов, публикуемых интернет-сайтом lenta.ru. С данного сайта было взято 60 статей, посвященных таким сферам жизни как политике, спорту и экономике - по 20 штук на каждую тему. Все статьи являют собой некоторую сводку новостей за начало октября 2006 года. Текст этих сообщения был сохранен в файлах с расширением TXT (обычный текстовый документ). Ниже показан пример такого файла.

Факторный дисперсионный анализ с повторяющимися измерениями

Опубликовал: pvi777 в категорию Материалы по Dell StatSoft Statistica - 14.11.2014, 21:04


Вызов модуля Дисперсионный анализ. Для запуска дисперсионного анализа, выберите Дисперсионный анализ в меню Анализ. Перед вами появится стартовая панель Общий Дисперсионный анализ. Данный диалог предназначен как для вызова простых и часто используемых анализов (например, Однофакторный Дисперсионный анализ - планы с одним межгрупповым фактором), так и для более сложных видов анализа (например, Повторные измерения ДА - планы с межгрупповыми и внутригрупповыми факторами).

Одномерная АРПСС (ARIMA)

Опубликовал: pvi777 в категорию Материалы по Dell StatSoft Statistica - 14.11.2014, 09:41


Следующий пример основан на главе 9 классической книги Бокса и Дженкинса (1976). Данные представляют собой международные месячные авиаперевозки (в тысячах) за 12 последовательных лет с 1949 по 1960 г. (см. Бокс и Дженкинс, 1976, стр. 531, "Ряд G"). Данные содержатся в файле Series_g.sta (переменная SERIES_G).

Дискриминантный анализ в STATISTICA

Опубликовал: pvi777 в категорию Материалы по Dell StatSoft Statistica - 14.11.2014, 09:12


Следующий пример основан на классическом множестве данных, сообщенном Фишером (Fisher, 1936). В нем содержатся данные о длине и ширине чашелистиков и лепестков трех типов ирисов (Ириса щетинистого - Setosa, Ириса разноцветного - Versicol и Ириса вирджиника - Virginic). Целью анализа является изучение дискриминации между тремя типами цветов, основываясь на четырех измерениях: ширины и длины чашелистиков и лепестков. В принципе, все задачи дискриминантного анализа ставят подобный вопрос. Если вы являетесь исследователем в области образования, вы можете подставить вместо "типа цветка" "тип исключения", и вместо переменных "измерения длины и ширины чашелистиков и лепестков" переменные "успехи в четырех ключевых курсах". Если вы занимаетесь социальными науками, то вы можете изучать переменные, по которым можно предсказать выбор карьеры. При изучении отбора персонала вас могут интересовать переменные, по которым можно отличить работников уровня выше среднего от работников, которые не соответствуют выполняемой работе, и сотрудников, которые не пригодны к работе. Поэтому, хотя настоящий пример взят из биологии, общие процедуры, рассматриваемые здесь применимы более широко. Множество данных для этого анализа содержится в файле Irisdat.sta. Часть этого файла приведена ниже. Открыть этот файл можно с помощью опции Файл - Открыть; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets.

Анализ главных компонент и классификация в STATISTICA

Опубликовал: pvi777 в категорию Материалы по Dell StatSoft Statistica - 14.11.2014, 08:29


Данный пример иллюстрирует применение модуля Анализ главных компонент и классификация. Для набора переменных создается факторное пространство, затем направляющие полученного пространства интерпретируются. Затем, на карте этого пространства анализируются дополнительные наблюдения и переменные. В примере используется файл данных из работы Jambu (1991), которые представляются собой различные характеристики образа жизни для 28 (групп) людей.

Многомерное шкалирование в STATISTICA

Опубликовал: pvi777 в категорию Материалы по Dell StatSoft Statistica - 14.11.2014, 08:20


Описываемый пример основан на файле Nations.sta. Эти данные обсуждались в работе Краскала и Виша (Kruskal and Wish (1978, стр. 30)). Открыть этот файл можно с помощью меню Файл, выбрав команду Открыть; файл находится в директории /Examples/Datasets. Файл данных включает средние рейтинги сходств 18 студентов из 12 стран. Сравнивались студенты из Бразилии, Конго, Кубы, Египта, Франции, Индии, Израиля, Японии, Китая, России, США, и Югославии. Фрагмент полученной матрицы сходств приводится на рисунке ниже.

1 2 3 »

Последнее на форуме

Последние коментарии

Ваше мнение

Курсы по каким программным продуктам для Вас наиболее интересны и предпочтительны?


Всего ответов: 19

Ключевые слова

курс «Data Mining with STATISTICA» Eviews программы обработки статистической статистический анализ временные ряды анализ Фурье спектральный анализ факторный анализ иерархическая классификация кластерный анализ классификация методом К средних метод К средних анализ временных рядов преобразования переменных анализ распределённых лагов распределённые лаги регрессионный анализ множественная нелинейная регрессия нелинейная регрессия подгонка распределений распределения регрессия пошаговая регрессия Data Mining многомерное шкалирование шкалирование Data Mining with STATISTICA классификация анализ главных компонент главные компоненты дискриминантный анализ АРПСС (ARIMA) одномерная АРПСС (ARIMA) анализ с повторяющимися изменениями дисперсионный анализ факторный дисперсионный анализ классификация текста Text mining Text Miner анализ и классификация текста анализ текста иерархический кластерный анализ кусочно-линейная регрессия нелинейное оценивание StatSoft Statistica метод взвешенных наименьших квадрат функция потерь визуализация данных поиск зависимостей прогнозирование скоринг нейросетевые вычисления анализ и обработка данных добыча данных (Data Mining) добыча текстов (Text Mining) задачи анализа данных автоматизация контроля качества банковское дело Бизнес маркетинг геологоразведка интернет анализ данных медицина промышленность страхование телекоммуникации Фармакология финансы социология статистика экономика официальные издания Росстата отраслевые решения энергетика материалы Росстата материалы по пакету Scilab пакет Scilab Scilab среда Scilab язык программирования Scilab статистические сборники

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты