Классификация аудиофайлов с библиотекой Librosa
В этой статье поработаем с аудиофайлами, используя библиотеку librosa и алгоритмы Machine learning.
Для начала — что представляет собой аудиосигнал? Это сложный сигнал, состоящий из нескольких одночастотных звуковых волн, которые распространяются вместе как изменение давления в среде. Каждый аудиосигнал имеет свои определенные характеристики: частота, амплитуда, ширина полосы, децибел и т.д. Число волн, производимых сигналом за одну секунду, называется частотой. Амплитуда показывает интенсивность звука, то есть является высотой волны. Продолжение
Swin Transformer V1 и V2 — лучшие модели компьютерного зрения не на основе CNN
В этой статье пойдет речь о революционных сетях компьютерного зрения, которые НЕ основаны на CNN. V2 еще больше улучшила V1 и превзошла сети SOTA по точности и скорости. Полное объяснение.
Обнаружение границ с использованием градиентов
Поговорим про обнаружение границ с использованием градиентов. Мы рассмотрим, как найти границы между двумя объектами или двумя частями объекта на изображении с помощью OpenCV. Очень важно найти очертания фигур, чтобы в конечном итоге создать сложную программу, например программу для распознавания лиц. Рассмотрим градиентные фильтры Собеля и Лапласа. В конечном итоге разберем обнаружение границ Кэнни, которое использует градиент для получения изображения, состоящего исключительно из границ. Читать далее
Преобразование Хафа
В этой статье рассмотрим преобразование Хафа — популярный метод обнаружения фигур среди граней и границ. Также поговорим про использование преобразования Хафа для обнаружения линий и кругов (хотя в целом, его можно расширить до любой формы). Статья будет интересна прежде всего начинающим специалистам по компьютерному зрению. Перейти к статье
Марковские цепи в обработке естественного языка и моделировании текстовых данных
В последние десятилетия марковские цепи стали широко используемым инструментом в обработке естественного языка и моделировании текстовых данных. Они представляют собой вероятностную модель, которая основывается на предположении о марковских свойствах последовательности событий.
В данной статье мы рассмотрим основные принципы и подходы к использованию марковских цепей в обработке естественного языка и моделировании текстовых данных. Изучим, как применять марковские цепи для предсказания следующего слова в тексте, генерации новых текстовых данных, анализа структуры и семантики текста, а также решения других задач текстовой обработки. Продолжение
Reinforcment Learning: Google Recsim
Google RecSim — это библиотека для разработки и экспериментов с рекомендательными системами с использованием обучения с подкреплением. Она предназначена для исследования и разработки рекомендательных систем, которые могут предоставлять рекомендации пользователям, учитывая их предпочтения и интересы, и максимизировать какие-либо ключевые метрики эффективности, такие как клики, конверсии или удовлетворенность пользователями. Читать полностью
Чем мы можем заменить тест Тьюринга
На самой заре появления и стремительного распространения социальных сетей возник такой простой лайфхак. Если вы хотите убедиться в том, что собеседник присылает вам свои фотографии, а не чужие, попросите его прислать фотографию, на которой будет видно четыре пальца. Появились большие языковые модели и все как‑то сразу решили, что тест Тьюринга пройден. А это означает, что теперь отличить живого собеседника от виртуального не так‑то просто. Есть ли какой‑то относительно простой способ сделать это? Об этом и о тесте Тьюринга поговорим в статье.
Создаем конвейер машинного обучения с помощью DBT
Создание хорошего конвейера данных, который способен на конструирование признаков (feature engineering), обучение и формирование прогнозов на основе ваших данных, может оказаться довольно сложной задачей. Может, но это совсем не обязательно. В этой статье проведу вас по этому процессу шаг за шагом.
Для обучения и прогнозирования непосредственно в нашей базе данных, будем использовать BigQuery ML. Затем рассмотрим, как использовать инструмент DBT для создания конвейера данных, который конструирует признаки, обучает модель, делает прогнозы, и все это без необходимости извлечения данных из базы данных. Перейти к статье
Классификация грибов методами ML
Хочу поделиться с вами своим опытом анализа данных и машинного обучения на примере интересной и полезной задачи — классификации грибов на съедобные и ядовитые. А именно, в этой статье я расскажу о том, как обучал различные модели машинного обучения отличать съедобные грибы от несъедобных, с какими сложностями столкнулся в процессе и какие интересные наблюдения про грибы и ML открыл по пути.
Итак, пройдемся по шагам от подготовки данных к машинному обучению до оценки разных моделей градиентного бустинга. Продолжение