Зарядов И.С. Введение в статистический пакет R: типы переменных, структуры данных, чтение и запись информации, графика

Опубликовал: pvi777 в категорию Материалы по R - Дата добавления: 17.02.2019, 00:43


Данное пособие предназначено для студентов 3–4 курсов специальности «Прикладная математика и информатика», изучающих курс «Практикум по статистике», а также для всех желающих разобраться в прикладных аспектах математической статистики на примере работы в пакете R.

R - это одновременно и свободно распространяемая программная среда с открытым кодом, развиваемая в рамках проекта GNU, и язык программирования для статистической обработки данных и работы с графикой.

R можно применять везде, где нужна работа с данными. Это и сама математическая статистика во всех её приложениях, и первичный анализ данных, и математическое моделирование. Основная мощь R лучше всего проявляется именно при статистическом анализе данных: от вычисления средних величин до серьёзных операций с временными рядами. С помощью R можно подготовить данные для исследования, которое может быть осуществлено с помощью реализованных в различных функциях статистических методов, а затем вывести полученные результаты для дальнейшего анализа.

Сейчас практически во всех западноевропейских и американских университетах изучают и используют R, ежегодно издаются многостраничные учебники и монографии относительно как работы с самим пакетом R, так и его применения при исследовании и обработке данных в статистике, медицине, экологии, финансовом анализе, актуарной математике и пр. Многие компании также применяют R, например, Boeing.

R возник как свободный аналог среды S-PLUS, которая в свою очередь является коммерческой реализацией языка расчётов S.

Язык S был разработан в 1976 году в компании AT&T Labs. Первая реализация S была написана на FORTRAN и работала под управлением операционной системы GCOS. В 1980 году реализация была переписана под UNIX. Именно тогда в научной среде и стал распространяться S. В 1988 году вышла третья версия, коммерческая реализация которой стала называться S-PLUS. Довольно высокая стоимость предлагаемого коммерческого статистического пакета и привела к возникновению R.

В августе 1993 двое новозеландских учёных (Robert Gentleman и Ross Ihaka, Statistics Department, Auckland University) анонсировали свою разработку под названием R. Это была новая реализация языка S, отличающаяся от S-PLUS рядом деталей, например, работой с памятью, обращением с глобальными и локальными переменными.

Поначалу проект развивался довольно медленно, но с появлением возможности довольно лёгкого написания дополнений (пакетов) всё большее количество людей стало переходить с S-PLUS на R. После устранения проблем, связанных с памятью, среди пользователей R стали появляться и «поклонники» других пакетов (SAS, Stata, SYSTAT, SPSS). Количество книг по R за последние годы значительно выросло, а число дополнительных к базовой версии пакетов стало больше двух тысяч (на начало января 2010 года число пакетов составило 2142).

Дополнительную популярность R принесло создание центральной системы хранения и распространения пакетов - CRAN (Comprehensive R Archive Network - http://cran.r-project.org).

Перечислим достоинства и недостатки пакета R.

Достоинства пакета:

– R является свободно распространяемым программным обеспечением (ПО), каждый может его бесплатно скачать с сайта http://www.r- project.org;

– достаточно просто устанавливается под Windows, MacOS X, Linux;

– базовая комплектация R занимает немного места на жёстком диске и включает в себя все функции, необходимые для статистического анализа;

– для более серьёзной работы всегда можно дополнительно установить вспомогательные пакеты с необходимыми функциями;

– на данный момент разработаны пакеты, применимые практически во в всех областях знания, где используется статистика;

– можно работать с большими массивами данных (несколько сотен тысяч наблюдений);

– встроенная система помощи и подсказок;

– хорошие графические возможности представления результатов исследований;

– возможность самостоятельного написания необходимых функций;

– много свободной литературы по R.

Недостатки пакета:

– в отличие от большинства коммерческих программ R имеет не графический интерфейс, а интерфейс командной строки, таким образом, нужно знать необходимые для работы функции и синтаксис языка программирования;

– нет коммерческой поддержки (но есть международная система рассылки сообщений об обновлениях);

– довольно мало литературы по R на русском языке (в основном литература на английском), но при желании можно найти в Интернете.


Скачать:


  • Теги:

Комментарии:


Оставить комментарий

Вход на сайт

Информация о проекте

Настоящий сайт представляет собой информационный портал, содержащий материалы по проблеме бизнес-аналитики, раскрывающие особенности использования современных подходов и методов анализа и обработки данных, что в условиях современной информатизации общества представляется весьма актуальным при исследовании различных проблем социально-экономического характера.
Настоящий портал содержит материалы познавательного, учебно-методического и научно-исследовательского характера, демонстрирующие современное состояние развития проблемы бизнес-аналитики, проблемы анализа и обработки данных. Особое внимание на страницах сайта уделено методическому и аналитическому инструментарию рассматриваемых проблем. Наряду с теоретическими и аналитическими материалами сайт содержит пакеты программных продуктов, представляющих собой прикладной инструментарий, способный автоматизировать научно-практические исследования в области бизнес-аналитики и бизнес-статистики.

Контакты