Кабаков Р.И. R в действии. Анализ и визуализация данных в программе R

Опубликовал: pvi777 в категорию Материалы по R - Дата добавления: 17.02.2019, 00:44


R – это мощный язык для статистических вычислений и графики, который может справиться поистине с любой задачей в области обработки данных. Он работает во всех важных операционных системах и поддерживает тысячи специализированных модулей и утилит. Все это делает R замечательным средством для извлечения полезной информации из гор сырых данных. «R в действии» – это руководство по обучению этому языку с особым вниманием к практическим задачам. В данной книге представлены полезные примеры статистической обработки данных и описаны изящные методы работы с запутанными и неполными данными, а также с данными, распределение которых отлично от нормального и с которыми трудно справиться обычными методами. Статистический анализ – это только одна сторона дела. Вы также овладеете обширными графическими возможностями для визуального исследования и представления данных.

ОГЛАВЛЕНИЕ

От переводчика
Предисловие
Благодарности
Об этой книге
Об иллюстрации на обложке

ЧАСТЬ I. Начало работы

Глава 1. Знакомство с R
1.1. Зачем использовать R?
1.2. Получение и установка R
1.3. Работа в R
1.3.1. Начало работы
1.3.2. Как получить помощь
1.3.3. Рабочее пространство
1.3.4. Ввод и вывод
1.4. Пакеты
1.4.1. Что такое пакеты?
1.4.2. Установка пакета
1.4.3. Загрузка пакета
1.4.4. Получение информации о пакете
1.5. Пакетная обработка
1.6. Использование вывода в качестве ввода – повторное использование результатов
1.7. Работа с большими массивами данных
1.8. Учимся на примере
1.9. Резюме

Глава 2. Создание набора данных
2.1. Что такое набор данных?
2.2. Структуры данных
2.2.1. Векторы
2.2.2. Матрицы
2.2.3. Массивы данных
2.2.4. Таблицы данных
2.2.5. Факторы
2.2.6. Списки
2.3. Ввод данных
2.3.1. Ввод данных с клавиатуры
2.3.2. Импорт данных из текстового файла с разделителями
2.3.3. Импорт данных из Excel
2.3.4. Импорт данных из XML-файлов
2.3.5. Извлечение данных из веб-страниц
2.3.6. Импорт данных из SPSS
2.3.7. Импорт данных из SAS
2.3.8. Импорт данных из Stata
2.3.9. Импорт данных из netCDF
2.3.10. Импорт данных из HDF5
2.3.11. Импорт данных из систем управления базами данных
2.3.12. Импорт данных при помощи Stat/Transfer
2.4. Аннотирование наборов данных
2.4.1. Подписи для переменных
2.4.2. Пояснение значений переменных
2.5. Полезные функции для работы с объектами
2.6. Резюме

Глава 3. Начало работы с диаграммами
3.1. Работа с диаграммами
3.2. Простой пример
3.3. Графические параметры
3.3.1. Символы и линии
3.3.2. Цвета
3.3.3. Характеристики текста
3.3.4. Размеры диаграммы и полей
3.4. Добавление текста, настройка параметров осей и условных обозначений
3.4.1. Заголовки
3.4.2. Оси
3.4.3. Опорные линии
3.4.4. Легенда
3.4.5. Аннотации
3.5. Объединение диаграмм
3.5.1. Полный контроль над расположением диаграмм
3.9. Резюме

Глава 4. Основы управления данными
4.1. Рабочий пример
4.2. Создание новых переменных
4.3. Перекодировка переменных
4.4. Переименование переменных
4.5. Пропущенные значения
4.5.1. Перекодировка значений в отсутствующие
4.5.2. Исключение пропущенных значений из анализа
4.6. Календарные даты как данные
4.6.1. Преобразование дат в текстовые переменные
4.6.2. Получение дальнейшей информации
4.7. Преобразования данных из одного типа в другой
4.8. Сортировка данных
4.9. Объединение наборов данных
4.9.1. Добавление столбцов
4.9.2. Добавление строк
4.10. Разделение наборов данных на составляющие
4.10.1. Выбор переменных
4.10.2. Исключение переменных
4.10.3. Выбор наблюдений
4.10.4. Функция subset()
4.10.5. Случайные выборки
4.11. Использование команд SQL для преобразования таблиц данных
4.12. Резюме

Глава 5. Более сложные способы управления данными
5.1. Задача по управлению данными, которую нужно решить
5.2. Числовые и текстовые функции
5.2.1. Математические функции
5.2.2. Статистические функции
5.2.3. Функции распределения
5.2.4. Текстовые функции
5.2.5. Другие полезные функции
5.2.6. Применение функций к матрицам и таблицам данных
5.3. Решение нашей задачи по управлению данными
5.4. Управление выполнением команд
5.4.1. Повторение и циклы
5.4.2. Выполнение при условии
5.5. Функции, написанные пользователем
5.6. Агрегирование и изменение структуры данных
5.6.1. Транспонирование
5.6.2. Агрегирование данных
5.6.3. Пакет reshape
5.7. Резюме

ЧАСТЬ II. Базовые методы

Глава 6. Базовые диаграммы
6.1. Столбчатые диаграммы
6.1.1. Простые столбчатые диаграммы
6.1.2. Столбчатые диаграммы: составные и с группировкой
6.1.3. Столбчатые диаграммы для средних значений
6.1.4. Оптимизация столбчатых диаграмм
6.1.5. Спинограммы
6.2. Круговые диаграммы
6.3. Гистограммы
6.4. Диаграммы ядерной оценки функции плотности
6.5. Диаграммы размахов
6.5.1. Использование диаграмм размахов для сравнения групп между собой
6.5.2. Скрипичные диаграммы
6.6. Точечные диаграммы
6.7. Резюме

Глава 7. Основные методы статистической обработки данных
7.1. Описательные статистики
7.1.1. Калейдоскоп методов
7.1.2. Вычисление описательных статистик для групп данных
7.1.3. Визуализация результатов
7.2. Таблицы частот и таблицы сопряженности
7.2.1. Создание таблиц частот
7.2.2. Тесты на независимость
7.2.3. Показатели взаимосвязи
7.2.4. Визуализация результатов
7.2.5. Преобразование таблиц в неструктурированные файлы
7.3. Корреляции
7.3.1. Типы корреляций
7.3.2. Проверка статистической значимости корреляций
7.3.3. Визуализация корреляций
7.4. Тесты Стьюдента
7.4.1. Тест Стьюдента для независимых выборок
7.4.2. Тест Стьюдента для зависимых выборок
7.4.3. Когда имеется больше двух групп
7.5. Непараметрические тесты межгрупповых различий
7.5.1. Сравнение двух групп
7.5.2. Сравнение более двух групп
7.6. Визуализация групповых различий
7.7. Резюме

ЧАСТЬ III. Методы обработки данных средней сложности

Глава 8. Регрессия
8.1. Многоликая регрессия
8.1.1. Ситуации, в которых используется МНК-регрессия
8.1.2. Что вам нужно знать
8.2. МНК-регрессия
8.2.1. Подгонка регрессионных моделей при помощи команды lm()
8.2.2. Простая линейная регрессия
8.2.3. Полиномиальная регрессия
8.2.4. Множественная линейная регрессия
8.2.5. Множественная линейная регрессия со взаимодействиями
8.3. Диагностика регрессионных моделей
8.3.1. Стандартный подход
8.3.2. Усовершенствованный подход
8.3.3. Общая проверка выполнения требований, предъявляемых к линейным моделям
8.3.4. Мультиколлинеарность
8.4. Необычные наблюдения
8.4.1. Выбросы
8.4.2. Точки высокой напряженности
8.4.3. Влиятельные наблюдения
8.5. Способы корректировки
8.5.1. Удаление наблюдений
8.5.2. Преобразование переменных
8.5.3. Добавление или удаление переменных
8.5.4. Попытка применить другой подход
8.6. Выбор «лучшей» регрессионной модели
8.6.1. Сравнение моделей
8.6.2. Выбор переменных
8.7. Продолжение анализа
8.7.1. Кросс-валидация
8.7.2. Относительная важность
8.8. Резюме

Глава 9. Дисперсионный анализ
9.1. Ускоренный курс терминологии
9.2. Подгонка ANOVA-моделей
9.2.1. Функция aov()
9.2.2. Порядок членов в формуле
9.3. Однофакторный дисперсионный анализ
9.3.1. Множественные сравнения
9.3.2. Проверка справедливости допущений, лежащих в основе теста
9.4. Однофакторный ковариационный анализ
9.4.1. Проверка допущений, лежащих в основе теста
9.4.2. Визуализация результатов
9.5. Двухфакторный дисперсионный анализ
9.6. Дисперсионный анализ для повторных измерений
9.7. Многомерный дисперсионный анализ
9.7.1. Проверка предположений, лежащих в основе теста
9.7.2. Устойчивый многомерный дисперсионный анализ
9.8. Дисперсионный анализ как регрессия
9.9. Резюме

Глава 10. Анализ мощности
10.1. Краткий обзор процедуры проверки гипотез
10.2. Проведение анализа мощности при помощи пакета pwr
10.2.1. Тесты Стьюдента
10.2.2. Дисперсионный анализ
10.2.3. Корреляции
10.2.4. Линейные модели
10.2.5. Сравнение пропорций
10.2.6. Тесты хи-квадрат
10.2.7. Выбор подходящего размера эффекта в незнакомых ситуациях
10.3. Графический анализ мощности
10.4. Другие пакеты
10.5. Резюме

Глава 11. Диаграммы средней сложности
11.1. Диаграммы рассеяния
11.1.1. Матрицы диаграмм рассеяния
11.1.2. Диаграммы рассеяния высокой плотности
11.1.3. Трехмерные диаграммы рассеяния
11.1.4. Пузырьковые диаграммы
11.2. Линейные графики
11.3. Кореллограммы
11.4. Мозаичные диаграммы
11.5. Резюме

Глава 12. Статистика повторных выборок и бутстреп-анализ
12.1. Перестановочные тесты
12.2. Перестановочные тесты в пакете coin
12.2.1. Тесты на независимость для двух и k выборок
12.2.2. Независимость в таблицах сопряженности
12.2.3. Независимость между числовыми переменными
12.2.4. Тесты для двух и k зависимых выборок
12.2.5. Дополнительная информация
12.3. Перестановочные тесты, реализованные в пакете lmPerm
12.3.1. Простая и полиномиальная регрессия
12.3.2. Множественная регрессия
12.3.3. Однофакторные дисперсионный и ковариационный анализы
12.3.4. Двухфакторный дисперсионный анализ
12.4. Дополнительные замечания о перестановочных тестах
12.5. Бутстреп-анализ
12.6. Бутстреп-анализ при помощи пакета boot
12.6.1. Бутстреп-анализ для одной статистики
12.6.2. Бутстреп-анализ для нескольких статистик
12.7. Резюме

ЧАСТЬ IV. Продвинутые методы

Глава 13. Обобщенные линейные модели
13.1. Обобщенные линейные модели и функция glm()
13.1.1. Функция glm()
13.1.2. Вспомогательные функции
13.1.3. Соответствие модели данным и регрессионная диагностика
13.2. Логистическая регрессия
13.2.1. Интерпретация параметров модели
13.2.2. Оценка влияния независимых переменных на вероятность исхода
13.2.3. Избыточная дисперсия
13.2.4. Дополнительные методы
13.3. Пуассоновская регрессия
13.3.1. Интерпретация параметров модели
13.3.2. Избыточная дисперсия
13.3.3. Дополнительные методы
13.4. Резюме

Глава 14. Главные компоненты и факторный анализ
14.1. Выполнение анализа главных компонент и факторного анализа в R
14.2. Главные компоненты
14.2.1. Выбор необходимого числа компонент
14.2.2. Выделение главных компонент
14.2.3. Вращение главных компонент
14.2.4. Вычисление значений главных компонент
14.3. Разведочный факторный анализ
14.3.1. Определение числа извлекаемых факторов
14.3.2. Выделение общих факторов
14.3.3. Вращение факторов
14.3.4. Значения факторов
14.3.5. Другие пакеты для проведения факторного анализа
14.4. Другие модели для латентных переменных
14.5. Резюме

Глава 15. Продвинутые методы работы с пропущенными данными
15.1. Этапы работы с пропущенными данными
15.2. Обнаружение пропущенных значений
15.3. Исследование структуры пропущенных данных
15.3.1. Представление пропущенных значений в виде таблицы
15.3.2. Визуальное исследование структуры пропущенных данных
15.3.3. Использование корреляции для исследования пропущенных значений
15.4. Выявление источников пропущенных данных и эффекта от них
15.5. Рациональный подход
15.6. Анализ полных строк (построчное удаление)
15.7. Метод множественного восстановления пропущенных данных
15.8. Другие подходы к пропущенным данным
15.8.1. Попарное удаление
15.8.2. Простое (нестохастическое) восстановление данных
15.9. Резюме

Глава 16. Продвинутые графические методы
16.1. Четыре графические системы R
16.2. Пакет lattice
16.2.1. Условные переменные
16.2.2. Функции для изменения формата ячеек
16.2.3. Группировка переменных
16.2.4. Графические параметры
16.2.5. Расположение диаграмм на странице
16.3. Пакет ggplot2
16.4. Интерактивная графика
16.4.1. Взаимодействие с диаграммами: идентификация точек
16.4.2. Пакет playwith
16.4.3. Пакет latticist
16.4.4. Создание интерактивной графики при помощи пакета iplots
16.4.5. Пакет rggobi
16.5. Резюме

Послесловие: В погоне за кроликом

Приложение A. Графические пользовательские интерфейсы

Приложение B. Настройка начальной конфигурации программы

Приложение C. Экспорт данных из R
C.1. Текстовый файл с разделителями
C.2. Таблица Excel
C.3. Другие статистические программы

Приложение D. Сохранение результатов в пригодном для публикации качестве
D.1. Подготовка отчета типографского качества при помощи пакета Sweave (R + LaTeX)
D.2. Объединение сил с OpenOffice при помощи пакета odfWeave
D.3. Комментарии

Приложение E. Матричная алгебра в R

Приложение F. Пакеты, упомянутые в этой книге

Приложение G. Работа с большими наборами данных
G.1. Эффективное программирование
G.2. Хранение данных вне оперативной памяти
G.3. Аналитические пакеты для больших объемов данных

Приложение H. Обновление версии R

Список литературы
Указатель пакетов и функций


Скачать:


  • Теги:

Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты