Языков программирования очень много. В данной статье будет рассмотрен R. Этот язык используется для статистической обработки данных и работы с графикой.
Определение
В Google полно информации о самых разных programming languages. С помощью полученных данных новичком может быть создан его первый проект. The R не является исключением. С его помощью тоже можно сформировать программный код.
R – язык программирования, предназначенный для статистической обработки информации, а также использования графики. Он обладает открытым исходным кодом (the open source project). Применяется при анализе и обработке материалов в электронном виде.
The R имеет не только язык с нестандартным для разработчика синтаксисом. Google указывает на то, что в нем есть дополнительный software:
- среда разработки R;
- фреймворк;
- разнообразные встроенные возможности.
The code, написанный на этом ЯП, будет работать на любой операционной системе. При помощи него можно визуализировать the information, а также организовать ее более глубокий и качественный анализ.
Google говорит о том, что данный ЯП появился в 1990-х годах. Его придумали Росс Айхэка, а также Роберт Джентлмен. Он стал свободной реализацией языка S.
Особенности использования
The R применяется не для широкой разработки. Это узкоспециализированный ЯП, который используется преимущественно в научной деятельности. Пример – в the BigData, а также искусственном интеллекте.
Google предписывает использование The R в ситуациях, когда требуется выделенная вычислительная мощность или отдельные серверы. Он идеален для всевозможных исследовательских работ.
Для того, чтобы начать работу с The R lang, нужно установить IDE Studio. Далее – разобраться с синтаксисом (в этом неплохо поможет Google и различные видео-уроки). Рекомендуется обратить внимание на следующие пакеты:
- zoo – применяется in programs с регулярными, а также иррегулярными временными последовательностями;
- caret – при помощи этого инструмента может быть создана программа машинного обучения;
- stringr – дает возможность работать со строками;
- ggvis, ggplot2, lattice – используется для непосредственной виртуализации информации.
Google также указывает на то, что для упрощения операций с пакетами, встроенными в R language, необходимо хорошенько разобраться с data.table, plyr и dplyr.
Преимущества и недостатки
Перед тем как учить этот lang и создавать свои первые projects, нужно выяснить, какие преимущества и недостатки есть у соответствующего ЯП. Он не входит в ТОП самых используемых языков, но в научной сфере деятельности пользуется неплохим спросом. В Google полно информации о том, какие сильные и слабые стороны есть у R.
Плюсы
The R – это узкоспециализированный язык программирования. Он обладает следующими преимуществами:
- Написанные codes могут быть запущены без компиляции. Связано это с интерпретатором, который в режиме реального времени демонстрирует, как работает программа. Об ошибках он оповестит, но уже после активации приложения.
- В процессе используется векторный подход к разработке. Это приводит к повышению производительности.
- Создание специально для статистической обработки данных.
- Наличие огромного количества пакетов и инструментов, а также встроенного software в виде IDE Studio.
- Отличная визуализация. «Картинка», полученная при помощи The R, согласно Google, обычно оказывается максимально информативной.
- Собственная экосистема и дружелюбное сообщество. Данный момент особо полезен новичкам. Они смогут попросить помощи у более опытных коллег, получив ответы на интересующие вопросы в кратчайшие сроки.
Google ссылается также на то, что посмотреть некоторые пакеты R можно в репозиториях GitHub, а также BioConductor и CRAN. Весь их перечень расположен в RDocumentation.
The R не требует от разработчика ни существенных знаний в области разработки, ни предварительного изучения других programming language. Даже в базовые знания в области информатики не пригодятся. Это идеальное решение для статистов, аналитиков и иных ученых.
Минусы
Недостатков у R не слишком много. В основном они заключаются в том, что codes, написанные на нем, не слишком быстрые. The R является достаточно медленным ЯП, который изначально был создан для облегчения работы статистов, а не компьютера. Для повышения производительности рекомендуется использовать:
- pqR;
- FastR;
- renjin.
Грамотно написанный code будет работать достаточно быстро. Со своими ключевыми задачами ЯП справляется прекрасно.
Google указывает еще и на то, что R достаточно сложен в изучении. Особенно это касается ситуаций, при которых разработчик опирается не на «голую» статистику, а на ее графическую составляющую. Иногда новичкам приходится потратить массу времени на поиск необходимых для дальнейшей работы пакетов.
Еще один небольшой недостаток для программистов – это узкая сфера применения. Этот language ориентирован на анализ информации. Его среда и возможности не заточены под написание бизнес-приложений и игр, но Google говорит о том, что за пределами науки R применяют все чаще.
Как работает программирование в R
R является интерпретируемым языком. Google говорит о том, что пользователи смогут получить к нему доступ при помощи интерпретатора командной строки. Если человек введет там «2+2» (без кавычек), программа считает информацию и выведет на экран результат в виде результата сложение – 4.
R поддерживает:
- Процедурное программирование с функциями.
- Объектно-ориентированное программирование. У него более мощные средства для этого, чем у S.
- Лексические правила области видимости, полученные из Scheme. Этот ЯП применяет S-выражения для представления не только данных, но и самого кода.
- Объекты. К ним относят пространственные координаты, регрессионные модели и временные ряды.
- Множественную диспетчеризацию. Функциями здесь можно управлять точно так же, как и объектами информации. Данный момент способствует облегчению метапрограммирования.
Опытные разработчики, создавая project r, могут использовать коды на C, а также Python, Java, .NET и C++ для управления объектами рассматриваемого ЯП. У него высокая расширяемость за счет пакетов, используемых для определенных функций и приложений.
Об обработке данных
Google говорит о том, что структуры данных R предусматривают:
- фреймы;
- списки;
- векторы;
- массивы.
Векторы здесь – это упорядоченные наборы значений, которые могут сопоставляться с массивами в порядке столбцов. Имея упорядоченный набор измерений, сначала будут выполнены значения по первому измерению. После этого произойдет заполнение одномерных массивов по второму и так далее.
The R поддерживает арифметику массивов. В данном смысле он напоминает MATLAB, а также APL. Частный случай массивов здесь называется матрицей.
Списками называются коллекции объектов, которые могут иметь совершенно разные типы данных. Фреймы включают в себя списки вектором одной и той же длины, а также уникальные наборы строковых имен. В The R отсутствует скалярный тип информации.
В Google указано, что библиотеки рассматриваемого языка отвечают за реализацию статистических методов, включая моделирование:
- линейное;
- нелинейное;
- обобщенное линейное.
Поддерживается анализ пространственных и временных рядов, классификация, кластеризация, а также всевозможные классические статистические тесты. Графики здесь является одной из наиболее сильных сторон. Они поддерживают математические символы.
Реализации
Перед созданием project r, нужно изучить его реализации. Основная реализация языка, согласно Google, написана на R, C и Fortran. Есть несколько иных реализаций, направленных на повышение производительности и расширяемости.
Наиболее быстрый вариант – это pqR от Рэдфорда Нила. Он обладает улучшенным управлением памятью, а также поддержкой автоматической многопоточностью. Также существуют Rejin и FastR – Java-реализации, которые предназначены для использования в виртуальной среде (машине) Java.
В C++ рассматриваемый ЯП представлен:
- CXXR;
- Rispose;
- rho.
Компанией Microsoft представлен полностью совместимый с R дистрибутив. Он называется Microsoft R Open (MRO). В ней полно модификаций для многопоточных вычислений. В конце июня 2021 года Microsoft начали переходить к дистрибутиву CRAN.
Создание проекта
После изучения R при помощи Google или иных источников данных, может быть создана первая программа. Далее будут приведены наглядные примеры, code в которых написан полностью на изучаемом ЯП. Они помогут быстрее его освоить.
В предварительную подготовку входит инициализация:
- RStudio – это IDE для работы с языком;
- интерпретатора ЯП.
После запуска среды разработки, нужно в разделе Packages увидеть установленные пакеты. Для успешного создания project r, нужно дополнительно инициализировать:
- Rcurl – предназначается для непосредственной работы с сетью;
- XML – пакет, предназначенный для работы с DOM деревом XML-документов.
После выбора желаемых пакетов требуется кликнуть по Install Packages. Их необходимо отметить галочкой, чтобы загрузить в текущее окружение.
Получение информации
Для того, чтобы написать program, связанную с получением данных (DOM-объект документа из интернета), потребуется выполнить такие строки:
Стоит обратить внимание на передаваемые cookie. Если необходимо повторить эксперимент, потребуется подставить собственные «куки». Те, что после авторизации на веб-сервисе будет получать интернет-обозреватель. Далее предстоит получить такие сведения:
- количество просмотров;
- добавление в избранные;
- когда запись была опубликована;
- сколько нажатий было +1, -1 и +1 вместе с -1;
- нынешний рейтинг;
- комментарии.
Сделать это поможет код:
Здесь:
- Поиск атрибутов и элементов проведен через xpath.
- Требуется сформировать из полученных сведений data.frame – аналог таблиц БД: .
- Необходимо преобразовать строки в числа и получить реальную дату в привычном формате: .
- Добавляются дополнительные поля. Они вычисляются из уже полученных:.
На данном этапе code поможет получить и преобразовать информацию для анализа. Предложенный пример актуален всего для одной страницы. Для функции используется функция:
.
Данный код поможет получить статистические сведения, а также сохранять их локально.
Анализ
Полный анализ информации, полученной при помощи r code, должен проводиться каждым аналитиком. Рассмотрим несколько ключевых моментов.
Полученный график показывает, что пользователи сайта охотнее «плюсуют» записи, чем «минусуют». Облако минусов более равномерное и широкое, чем «плюсовой» разброс. Корреляция «+» от количества просмотров оказывается значительно шире, чем «-».
А на диаграмме выше R Studio указывает на то, что посты на веб-сервисе действительно делятся на несколько классов. Чтобы определить это, необходимо рассчитать среднюю долю плюсов к общему количеству действий. Аналогичные операции требуется провести для минусов, а затем разделить полученный результат на первый. При наличии однородности на гистограмме отсутствовали бы обилие локальный пиков.
Здесь находится исходник рассматриваемой R-программы.
Также, возможно, вам будут интересны следующие курсы: