Информационный анализ и работа с «большими данными» – процессы, требующие применения определенных технологий. Без специального программного обеспечения обработать огромные объемы информации не представляется возможным. Сегодня существуют различные программы, инструменты и приложения, помогающие добиваться желаемого результата. Популярным вариантом выступает Jupyter.
Этот инструмент будет рассмотрен далее более подробно. Предстоит разобраться с его особенностями, сферой применения, а также установкой и запуском. Также внимание будет заострено на проекте the Jupyter Notebook. Предложенная информация пригодится преимущественно тем, кто занят в сфере IT или работает в Data Science.
Jupyter Lab – определение
The Jupyter Lab – это многофункциональная среда разработки. Она используется для получения удобного и быстрого доступа к разнообразным интерактивным вычислительным функциям и возможностям.
Данное программное обеспечение представляет собой интерфейс, с помощью которого удастся написать и выполнить код сразу на нескольких языках программирования, а также визуализировать информацию и поделиться своими исследованиями с другими пользователями. Это – модульная структура. Она позволяет открывать в одной вкладке браузера сразу несколько элементов под названием the JupyterNotebook. Соответствующий инструмент простыми словами – это IDE.
Ключевые возможности
The Jupyter Lab поддерживает следующие возможности и функции:
- Создание и открытие документов. Здесь поддерживаются форматы «ноутбука» (.ipynb), скрипты Питон (.py), текстовые файлы (.txt) и другие.
- Возможность редактирования программного кода. С его помощью получится не только создавать приложения, но и тестировать их на языке Питон. Некоторые другие языки разработки тоже поддерживаются рассматриваемым инструментом.
- Поддержка интерактивных виджетов: кнопок, ползунков, текстовых полей и других компонентов. Они делают работу с информацией максимально комфортной.
- Визуализация данных. У JupyterLab имеется множество инструментов, а также библиотек, позволяющих визуализировать информацию. За счет этого получается рисовать графики, диаграммы, а также иные визуальные представления, используемые для анализа и визуализации.
- Отладка и выполнение программного кода. Написанный код может выполняться по ячейкам. Здесь предусматривается пошаговое отслеживание процесса выполнения приложения. Отладчик поможет исправить ошибки и проверить правильность написанного проекта.
- Коллаборация. Работать в the Jupyter Lab можно не только одному, но и целой группой. Допускается пересылка «ноутбуков», взаимодействие с коллегами при помощи комментариев, а также одновременная работа над одним «ноутбуком».
Все это делает the Jupyter Lab удобным и функциональным программным обеспечением для выполнения задач, связанных с анализом данных, машинным обучением и научными исследованиями.
JupyterNotebook – это…
The JupyterNotebook (ноутбук, the notebook) – программное обеспечение, которое используется в Data Science. Приложение, которое представляет собой среду разработки. Через нее предлагается сразу видеть результат выполнения имеющегося программного кода или его отдельного фрагмента.
Это веб-программа для создания вычислительных блокнотов. У него поддерживаются быстрые интерактивные способы создания прототипов, а также объяснений кодов, исследований и визуализации информации. The notebook – интерактивная вычислительная среда. Чаще всего она взаимодействует с языком Python.
Ноутбук – набор блоков кода, взаимодействующих друг с другом. Чаще всего соответствующее программное обеспечение используется в браузерах для анализа информации. Один the notebook – это одна браузерная вкладка.
Jupyter Notebook предусматривает две ключевые составляющие (части):
- веб-приложение;
- «ноутбуки» – файлы, в которых предстоит работать с исходным кодом приложения, запускают его, а затем выводят в разнообразных форматах.
Рассматриваемое приложение позволяет написать функцию и проверить ее работу, не запуская всю программу целиком. Оно дает возможность поменять порядок реализации исходного кода. Допустимо отдельно загрузить файл в память, отдельно проверить его содержимое и отдельно обработать полученные цифровые материалы.
Еще одна особенность the Jupyter Notebook – возможность вывода результата непосредственно после обработки части кода. Пример – разработчик может увидеть прямо в середине написанного приложения построенный системой график, получить предварительные расчеты (цифры) или любую иную виртуализацию.
Поддержка языков
The Jupyter Notebook часто ассоциируется с Python. На самом деле рассматриваемое приложение может работать с самыми разными языками программирования. К ним относят:
- Python;
- bash-скрипты;
- R;
- Perl.
Для этого необходимо пользоваться «магическими» командами. Они так и называются – magic-команды. С их помощью получится запустить код на других языках, а также значительно расширить возможности «классического» Python.
Notebook и облако
Notebook может запускаться несколькими способами – в облаке или непосредственно на компьютере. Проще всего пользоваться первой технологией. Пример подходящего облака – Google Colab.
Работа с Юпитер Ноутбук соответствующим методом позволяет всего лишь запустить браузер и открыть необходимую страницу. Облачная система самостоятельно выделит необходимые разработчику ресурсы и даст возможность запуска любого программного кода.
У этого подхода есть преимущество. Оно заключается в том, что на компьютер ничего не придется устанавливать. Облачный сервис справится с подготовкой изучаемой технологии самостоятельно. Все, что останется сделать программисту – это написать и запустить исходный код.
Недостаток у the Jupyter Notebook тоже есть. Он заключается в скорости работы. При запуске программного обеспечения через облачный сервис обработка информации будет не такой быстрой, как при активации технологии на локальной машине. Также стоит учитывать, что в облаке не всегда есть «экзотические» (нестандартные) библиотеки для работы.
Notebook на локальном устройстве
Если хочется полностью самостоятельно контролировать в приложении «Юпитер Ноутбук» все, что происходит с кодом и активированной средой разработки, программа должна быть установлена на локальный компьютер. Сделать это можно при помощи pip:
pip3 install jupyter
Данная команда применяется в терминале Python. Сразу после установки приложение готово к запуску. Достаточно напечатать ее название в качестве команды, чтобы начать эксплуатацию программного обеспечения.
Соответствующая команда запустит браузер, а также локальный сервер, необходимый для функционирования the notebook. Она продемонстрирует готовую среду программирования.
Через Anaconda
Anaconda – это дистрибутив Питона, а также пакетный репозиторий, в котором можно обнаружить библиотеки и пакеты, предназначенные для машинного обучения и анализа данных. С помощью этого программного обеспечения тоже можно запустить the python-jupyter-notebook.
После установки Anaconda технология Юпитер будет доступна для использования. В нем также можно обнаружить Jupyter Lab, а не только the notebook. Дополнительно поддерживается RStudio для тех, кто планирует писать код на языке R.
Установка Anaconda подойдет опытным разработчикам. Она осуществляется так:
- Скачать дистрибутив Anaconda с официального сайта.
- Запустить «Мастер Установки» на компьютере.
- Изучить информацию и нажать «Далее». На одном из этапов инициализации будет предложено поставить две галочки – «Добавить Anaconda в переменную path» и «Сделать дистрибутив версией по умолчанию». Ни один из этих пунктов отмечать не нужно.
- Дождаться завершения установки программы.
Обычно процесс занимает несколько минут. Сразу после завершения инициализации рекомендуется перезагрузить компьютер. Теперь пользователь сможет использовать the Jupyter Notebook и другие инструменты для работы с большими данными и их дальнейшего анализа.
Запуск Notebook и Lab
The notebook можно запустить разными способами. Все зависит от того, как это программное обеспечение было инициализировано. В случае с браузерами и облачным сервисом все понятно – необходимые процессы осуществляются автоматически после открытия пользователем интернет-обозревателя и желаемой страницы с «облаком».
Если была обычная установка (через Питон pip), активировать the notebook поможет команда jupyter notebook, записанная в терминале. Но есть и еще один вариант – запуск через Anaconda. Он является более сложным, поэтому такой вариант установки ПО рекомендован опытным специалистам.
Чтобы запустить the Jupyter-Python через Anaconda потребуется:
- Зайти в Anaconda Navigator. Это можно сделать при помощи меню «Пуск» в Windows или при помощи Anaconda Prompt. Во втором случае после выбора соответствующей службы нужно набрать команду anaconda-navigator и подтвердить обработку.
- В открывшемся окне найти the Jupyter Notebook.
- Кликнуть в соответствующем информационном блоке по кнопке «Launch». На компьютере запустится локальный сервер, а в браузере откроется перечень папок устройства.
- Выбрать папку и создать the notebook. Для этого требуется кликнуть по желаемой папке и в правом верхнем углу кликнуть по New – Python 3.
- Сохранить файл при помощи File – Save and Checkpoint с именем mynotebook.
Принцип работы в рассматриваемом приложении будет точно таким же, как и в Google Colab. Когда программирование и анализ подойдут к концу, останется закрыть браузерную вкладку.
Особенности работы в JupyterNotebook
Некоторые возможности Юпитер Ноутбук далее будут рассмотрены более подробно. Эта информация поможет быстрее освоить инструмент и использовать его для собственных проектов.
Вкладка Cell
Вкладка, которая используется для манипулирования запуском или исполнением ячеек. Здесь можно пользоваться такими командами как:
- запуск ячейки, оставаясь в ней – Run Cells;
- исполнение всех ячеек в ноутбуке – Run All;
- реализация всех ячеек, расположенных выше – Run All Above;
- исполнение ячеек, расположенных ниже текущей – Run All Below;
- очищение вывода – All Output – Clear.
Это только начало. Еще одна вкладка в приложении, на которую необходимо обратить внимание в первую очередь – это Kernel.
Раздел Kernel
В the Jupyter Notebook за счет вкладки Kernel получится управлять ядром или вычислительным движком ноутбука. Здесь рекомендуется обратить внимание на следующие операции:
- Прерывание исполнения ячейки при помощи Interrupt. Команда полезна, когда реализация кода отнимает очень много времени или в нем имеется ошибка, которая не позволит написанной программе самостоятельно завершиться.
- Перезапуск ядра – Restart.
- Очистка вывода. За эту операцию отвечает команда Restart & Clear Output.
- Повторный запуск всех ячеек – Restart and Run All.
Теперь понятно, что собой представляет the Jupyter Notebook и Jupyter Lab. С некоторыми особенностями этого программного обеспечения тоже удалось познакомиться. Чтобы лучше понимать работу с большими данными и их анализ рекомендуется пройти специализированные дистанционные компьютерные курсы.
Хотите освоить современную IT-специальность? Огромный выбор курсов по востребованным IT-направлениям есть в Otus!