Пакеты функции r язык программирования. Язык R в помощь хабра-статисту. Основные функции пакета rym

Любое решение R, работающий в Службы R Services (в базе данных) необходимо использовать пакеты, установленные в библиотеке R по умолчанию. Как правило R решения будет ссылаться на библиотеки пользователя, указав путь к файлу в код R, но это не рекомендуется для рабочей среды.

Таким образом, это задача, администратор базы данных или другого администратора на сервере, чтобы убедиться, что установлены все необходимые пакеты на SQL Server экземпляра. Если у вас права администратора на компьютере, на котором размещена SQL Server экземпляр, можно предоставлять данные администратора о том, как устанавливать пакеты R и предоставления доступа к безопасной пакета репозитория, где можно получить пакеты, необходимые пользователям. В этом разделе обеспечивает такую информацию.

При установке Службы R Services (в базе данных), по умолчанию R базового устанавливаются пакеты, такие как stats и utils , вместе с RevoScaleR пакет, который поддерживает подключения к SQL Server.

Если требуется дополнительный пакет из CRAN или другой репозиторий, необходимо загрузить пакет и установить его на рабочей станции.

Если необходимо запустить новый пакет в контексте сервера, администратор должен установить его на сервере.

Существует несколько источников R-пакетов, самые известные - CRAN и Bioconductor. Официальный сайт языка R (https://www.r-project.org/) перечислены многие из этих ресурсов. Кроме того, многие пакеты публикуются на портале GitHub, где можно получить исходный код. Однако вам также могут предоставить R-пакеты, разработанные в вашей организации.

Независимо от источника пакеты для установки должны быть предоставлены в виде ZIP-архива. Кроме того чтобы использовать пакет с Службы R Services (в базе данных), не забудьте получить ZIP-файл в двоичном формате Windows. (Некоторые пакеты могут не поддерживать этот формат). Дополнительные сведения о содержимом файловый формат zip, и как создать пакет R, мы рекомендуем этого учебника, который можно загрузить в формате PDF из узла проекта R: Freidrich Leisch: создание пакетов R .

Как правило пакеты R можно установить легко из командной строки без загрузки их заранее, если компьютер имеет доступ к Интернету. Обычно это не так с серверами, использующими SQL Server . Таким образом Чтобы установить пакет R на компьютер, выполняющий не имеют доступ к Интернету, необходимо загрузить пакет в правильном формате ZIP-заранее и скопируйте ZIP-файлы в папку, доступную на компьютере.

В следующих разделах описываются два способа установки пакетов в автономном режиме:

    Описывает, как использовать пакет R miniCRAN для создания автономного хранилища. Это, вероятно, наиболее эффективный метод, если требуется установить пакеты на несколько серверов и управление хранилище из одного места.

    Приводятся инструкции по установке пакетов в автономном режиме путем ручного копирования ZIP-файлов.

Чтобы установить новый R-пакет на компьютере, на котором выполняется SQL Server 2016, необходимо иметь права администратора на этом компьютере.

Если у вас нет этих прав, обратитесь к администратору и предоставьте ему сведения о нужном пакете.

Если вы устанавливаете новый пакет R на компьютере, который используется R рабочей станции и выполняется не в экземпляре SQL Server установлен, по-прежнему требуется права администратора на компьютере для установки пакета. После установки пакета его можно выполнять локально.

Место расположения библиотеки по умолчанию R для служб R

Если вы установили Службы R Services (в базе данных) экземпляра по умолчанию, библиотеки пакет R, используемые экземпляром находится в SQL Server папку экземпляра. Например:

  • Экземпляр по умолчанию MSSQLSERVER C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES\library
  • Именованный экземпляр Мойименованныйэкземпляр C:\Program Files\Microsoft SQL Server\MSSQL13.MyNamedInstance\R_SERVICES\library

Можно выполнить следующую инструкцию, чтобы проверить библиотеки по умолчанию для текущего экземпляра R.

EXECUTE sp_execute_external_script @language = N "R" , @script = N "OutputDataSet <- data.frame(.libPaths());" WITH RESULT SETS (( VARCHAR (MAX ) NOT NULL )); GO

Дополнительные сведения см. в разделе .

SQL Server vNext предоставляет новые возможности для установки и управления пакетами R, которые предоставляют администратору базы данных и большую свободу по обработке и анализу данных и контролировать использование пакета и программы установки. Дополнительные сведения см. в разделе .

При использовании служб SQL Server 2106 R новые возможности пакета управления доступны не в данный момент. В то же время, что у вас есть эти параметры для определения, какие пакеты установлены на SQL Server компьютере, используйте один из следующих вариантов:

  • Просмотр библиотеки по умолчанию, при наличии разрешений на папку.
  • Выполнение команды из команды R для перечисления пакетов в расположение библиотеки R_SERVICES
  • На экземпляре, используйте хранимую процедуру как показано ниже:

    EXECUTE sp_execute_external_script @language =N "R" ,@script = N "str(OutputDataSet); packagematrix <- installed.packages(); NameOnly <- packagematrix[,1]; OutputDataSet <- as.data.frame(NameOnly);" ,@input_data_1 = N "SELECT 1 as col" WITH RESULT SETS ((PackageName nvarchar (250 )))

Набирать это нужно в терминале.

Прелесть R заключается в следующем:

  1. Эта программа бесплатна (распространяется под лицензией GPL),
  2. Под эту программу написано много пакетов для решения большого спектра задач. Все они так же бесплатны.
  3. Программа очень гибкая: размеры любых векторов и матриц могут изменяться по желанию пользователя, данные не имеют жёсткую структуру. Это свойство оказывается крайне полезным в случае с прогнозированием, когда исследователю нужно дать прогноз на произвольный срок.

Последнее свойство особенно актуально, так как другие статистические пакеты (такие как SPSS, Eviews, Stata) предполагают, что нас может интересовать только анализ данных, которые имеют фиксированную структуру (например, все данные в рабочем файле должны быть одинаковой периодичности с одинаковыми датами начала и конца).

Впрочем, R - это не самая дружелюбная программа. На время работы с ней забудьте про мышку - практически все самые важные действия в ней выполняются с использованием командной строки. Однако для того чтобы сделать жизнь чуть легче, а саму программу чуть более приветливой, есть программа-frontend (внешний интерфейс) под названием RStudio. Скачать её можно отсюда . Устанавливается она после того, как уже установлен сам R. В RStudio много удобных инструментов и приятный интерфейс, тем не менее анализ и прогнозирование в нём всё так же осуществляются с использованием командной строки.

Давайте попробуем взглянуть на эту замечательную программу.

Знакомство с RStudio

Интерфейс RStudio выглядит следующим образом:

В правом верхнем углу в RStudio указано имя проекта (которое пока что у нас «None» — то есть отсутствует). Если нажать на эту надпись и выбрать «New Project» (новый проект), то нам предложат создать проект. Для базовых целей прогнозирования достаточно выбрать «New Directory» (новая папка для проекта), «Empty Project» (пустой проект), а затем - ввести название проекта и выбрать директорию, в которой его сохранить. Включите воображение и попробуйте придумать название сами:).

Работая с одним проектом, вы всегда сможете обратиться к сохранённым в нём данным, командам и скриптам.

В левой части окна RStudio располагается консоль. Именно в неё мы и будем вписывать различные команды. Например, напишем следующую:

x < - rnorm (100 , 0 , 1 )

Эта команда сгенерирует 100 случайных величин из нормального распределения с нулевым математическим ожиданием и единичной дисперсией, после чего создаст вектор под названием «x» и запишет полученные 100 величин в него. Символ «<-» эквивалентен символу «=» и показывает какое значение присвоить нашей переменной, стоящей слева. Иногда вместо него удобней использовать символ «->», правда наша переменная в таком случае должна стоять справа. Например, следующий код создаст объект «y» абсолютно идентичный объекту «x»:

x -> y

Эти векторы теперь появились в правой верхней части экрана, под закладкой, которая у меня озаглавлена «Environment»:

Изменения в закладке «Environment»

В этой части экрана будут отображаться все объекты, которые мы сохраняем во время сессии. Например, если мы создадим такую вот матрицу:

\(A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} \)

такой вот командой:

A < - matrix (c (1 , 0 , 1 , 1 ) , 2 , 2 )

то она появится в закладке «Environment»:

Любая функция, которую мы используем, требует, чтобы мы задали некоторые значения определённым параметрам. В функции matrix () есть следующие параметры:

  • data – вектор с данными, который должен быть записан в матрицу,
  • nrow – число строк в матрице,
  • ncol – число столбцов в матрице,
  • byrow - логический параметр. Если «TRUE» (истина), то наполнение матрицы будет осуществляться по строкам (слева направо, строка за строкой). По умолчанию этот параметр имеет значение «FALSE» (ложь),
  • dimnames - лист с именами строк и столбцов.

Некоторые из этих параметров имеют значения по умолчанию (например, byrow = FALSE ), в то время как другие могут быть опущены (например, dimnames ).

Одна из фишек «R» заключается в том, что к любой функции (например, к нашей matrix () ) можно обратиться, задавая значения на прямую:

Другой вариант - это нажать на имя объекта в закладке «Environment».

Matrix

где matrix - это название интересующей нас функции. RStudio специально для вас в таком случае откроет панель «Help» с описанием:

Найти помощь по функции можно так же, набрав название функции в окне «поиск» (иконка с линзой) в закладке «Help».

В случае, если вы не помните точно, как пишется название функции или какие в ней используются параметры, достаточно начать писать её название в консоли и нажать кнопку «Tab»:

Помимо всего этого в RStudio можно писать скрипты. Они могут понадобиться вам в том случае, если вам нужно написать программу либо вызвать последовательность функций. Создаются скрипты используя кнопку с плюсиком в верхнем левом углу (в выпадающем меню нужно выбрать «R Script»). В открывшемся после этого окне вы сможете писать любые функции и комментарии. Например, если мы хотим построить линейный график по ряду x, это можно сделать следующим образом:

plot (x )

lines (x )

Первая функция строит простейший точечный график, а вторая функция добавляет поверх точек линии, соединяющие точки последовательно. Если выделить эти две команды и нажать «Ctrl+Enter», то они будут выполнены, в результате чего RStudio откроет закладку «Plot» в правом нижнем углу и отобразит в ней построенный график.

Если все набранные команды нам ещё понадобятся в будущем, то этот скрипт можно сохранить (дискетка в левом верхнем углу).

В случае, если вам нужно обратиться к команде, которую вы уже набирали когда-то в прошлом, в правой верхней части экрана есть закладка «History». В ней можно найти и выбрать любую интересующую вас команду и двойным нажатием вставить её в консоль. В самой консоли можно обращаться к предыдущим командам, используя кнопки «Up» (вверх) и «Down» (вниз) на клавиатуре. Сочетание клавиш «Ctrl+Up» позволяет в консоли показать список всех последних команд.

Вообще в RStudio много всяких полезных сочетаний клавиш, которые значительно облегчают работу с программой. Подробней о них можно почитать .

Как я уже упомянул ранее для R существует множество пакетов. Все они расположены на сервере CRAN и для установки любого из них нужно знать его название. Установка и обновление пакетов осуществляется с помощью закладки «Packages». Перейдя на неё и нажав на кнопку «Install», мы увидим примерно следующее меню:

Наберём в открывшемся окне: forecast — это пакет, написанный Робом Хайндманом (Rob J. Hyndman), содержащий кучу полезных для нас функций. Нажмём кнопку «Install» (установить), после чего пакет «forecast» будет установлен.

Как вариант мы можем установить любой пакет, зная его название, с помощью команды в консоли:

install . packages ("smooth" )

при условии, что он, конечно же, есть в репозитории CRAN. smooth — это пакет , функции в котором разрабатываю и поддерживаю я.

Некоторые пакеты доступны только в исходных кодах на сайтах типа github.com и требуют, чтобы их перед этим собрали. Для сборки пакетов под Windows может понадобиться программа Rtools .

Чтобы использовать какой-либо из установленных пакетов, его нужно подключить. Для этого его надо найти в списке и отметить галочкой либо использовать команду в консоли:

library (forecast )

В Windows может проявиться одна неприятная проблема: некоторые пакет легко скачиваются и собираются, но ни в какую не устанавливаются. R в этом случае пишет что-то типа: «Warning: unable to move temporary installation…». Всё, что нужно сделать в этом случае — добавить папку с R в исключения в антивирусе (либо выключить его на время установки пакетов).

После загрузки пакета, нам будут доступны все входящие в него функции. Например, функция tsdisplay () , использовать которую можно так:

tsdisplay (x )

Она построит нам три графика, которые мы обсудим в главе «Инструментарий прогнозиста ».

Помимо пакета forecast я достаточно часто для различных примеров использую пакет Mcomp . Он содержит ряды данных из базы «M-Competition». Поэтому рекомендую вам его тоже установить.

Очень часто нам будут нужны не просто наборы данных, а данные класса «ts» (временной ряд). Для того, чтобы из любой переменной сделать временной ряд, нужно выполнить следующую команду:

x < - ts (x , start = c (1984 , 1 ) , frequency = 12 )

Здесь параметр start позволяет указать дату, с которого начинается наш временной ряд, а frequency задать частоту данных. Число 12 в нашем примере указывает на то, что мы имеем дело с месячными данными. В результате выполнения этой команды мы трансформируем наш вектор «x» во временной ряд месячных данных, начинающийся с января 1984-го года.

Programming on R. Level 1. Basics

Язык R – самый популярный в мире инструмент статистического анализа данных. Он содержит широчайший спектр возможностей для анализа данных, их визуализации, а также создания документов и веб-приложений. Хотите освоить этот мощный язык под руководством опытного наставника? Приглашаем вас на курс «Программирование на языке R. Уровень 1. Базовые знания» .

Этот курс предназначен для широкого круга специалистов, которым необходимо искать закономерности в большом количестве данных, визуализировать их и строить статистически корректные выводы: социологов, менеджеров клинических испытаний/фармакологов, исследователей (астрономия, физика, биология, генетика, медицина и т.д.), IT-аналитиков, бизнес-аналитиков, финансовых аналитиков, маркетологов. Курс также понравится специалистам, которым не подходит функционал (или платность) / .

На занятиях вы получите основные навыки анализа и визуализации данных в среде R . Большая часть времени отводится практическим заданиям и работе с реальными наборами данных. Вы изучите все новые инструменты работы с данными и научитесь их применять в своей работе.

После курса выдается удостоверение о повышении квалификации центра.

Давайте немного поговорим о языке программирования под названием R. В последнее время вы могли у нас в блогах прочитать статьи о и , тех сферах, где просто необходимо под рукой иметь мощный язык для работы со статистикой и графиками. И R как раз из таких. Новичку в мире программирования буде достаточно непросто в это поверить, но сегодня R уже популярнее SQL, он активно используется в коммерческих организациях, исследовательских и университетах.

Не вникая в правила, синтаксис и конкретные области применения, просто давайте рассмотрим основные книги и ресурсы, которые помогут вам с нуля изучить R.

Что такое язык R, зачем он вам нужен и как его можно использовать с умом, можно узнать из прекрасного Руслана Купцова, который он провёл чуть меньше года назад в рамках GeekWeek-2015.

Книги

Теперь, когда в голове есть определённый порядок, можно приступать к чтению литературы, благо её более чем достаточно. Начнём с отечественных авторов:


Интернет-ресурсы

Любой человек, желающий изучить какой-либо язык программирования обязательно должен посетить в поисках знаний два ресурса: официальный сайт его разработчиков и самое крупное онлайн сообщество. Что ж. не будем делать исключение и для R:

Но опять проникшись заботой к тем, кто английский язык выучить ещё не успел, а вот изучить R ну очень хочет, упомянем несколько российских ресурсов:

А пока довершим картину небольшим списком англоязычных, но от этого не менее познавательных сайтов:

CRAN - собственно, место где можно загрузить к себе на компьютер среду разработки R. Кроме того мануалы, примеры и прочее полезное чтиво;

Quick-R - коротко и понятно про статистику, методы её обработки и язык R;

Burns-Stat - про R и про предшественника его S с огромным количеством примеров;

R for Data Science - ещё одна книга от Гаррета Гроулмунда (Garrett Grolemund), переведённая в формат онлайн учебника;

Awesome R - подборка лучшего кода с официального сайта, размещённая на нашем любимом GitHub;

Mran - язык R от Microsoft;

Tutorial R - ещё один ресурс с упорядоченной информацией с официального сайта.

В августе 1993 г. двое молодых новозеландских ученых из университета Окленда анонсировали свою новую разработку, которую они назвали R. По замыслу создателей, Роберта Джентльмена (Robert Gentleman) и Росса Ихака (Ross Ihaka), она должна была стать новой реализацией языка S, отличающейся от S-PLUS некоторыми деталями, например, обращением с глобальными и локальными переменными, а также работой с памятью. Фактически, они создали не полный аналог S-PLUS, а новую «ветку» на «дереве S». Многие вещи, которые отличают R от S-PLUS, связаны с влиянием языка Scheme (функциональный язык программирования, один из наиболее популярных диалектов языка Lisp).

На середину 2016 года R догнал SAS и SPSS (которые являются платными) и вошел в тройку самых распространенных систем для обработки статистической информации. Также следует отметить, что R входит в 10 языков программирования общего назначения.

Возможности

В среде R реализованы многие статистические методы: линейные и нелинейным модели , проверка статистических гипотез , анализ временных рядов , классификация , кластеризация , графическая визуализация . Язык R позволяет определять собственные функции. Многие функции R написаны на самом R. Для вычислительно сложных задач имеется возможность реализации функций на C, C++ и Fortran. Продвинутые пользователи могут непосредственно обращаться с объектами R из кода на языке C. R является более строгим объектно-ориентированным языком, чем большинство языков, предназначенных для статистических вычислений. Графические функции позволяют создавать графики хорошего полиграфического качества, с возможностью включения математических символов. Имеется собственный LaTeX -подобный формат документации.

Хотя R чаще всего применяется для статистических вычислений, он также может использоваться в качестве средства матричных вычислений. Как и MATLAB , R трактует результат любой операции с числами как вектор единичной длины. Скаляров в R, вообще говоря, нет.

Скрипты

Просто открыть сессию R и вводить в окно программы команды, одну за другой - это лишь один из возможных способов работы. Гораздо более продуктивный метод, который является заодно и серьёзнейшим преимуществом R - это создание скриптов (программ), которые потом загружаются в R и интерпретируются им. С самого начала работы следует создавать скрипты, даже для таких задач, которые кажутся пустяковыми - в будущем это значительно сэкономит время. Создание скриптов по любому поводу и даже без особого повода - одна из основ культуры работы в R.

Пакеты

Ещё одно важное преимущество R - наличие для него многочисленных расширений или пакетов. Несколько базовых пакетов присутствуют сразу после установки R на компьютер, без них система просто не работает (скажем, пакет, который так и называется base, или пакет grDevices, который управляет выводом графиков), а также «рекомендованные» пакеты (пакет для специализированного кластерного анализа cluster, пакет для анализа нелинейных моделей nlme и другие). Кроме того, можно поставить любой из почти восьми тысяч (на середину 2016 года) доступных на CRAN пакетов. При наличии доступа в Интернет это можно сделать прямо из R командой install.packages()

Ссылки

  • CRAN (Comprehensive R Archive Network) - центральная система хранения и распространения R и его пакетов.


Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: