Нейросеть в лесу - Лог №0 Первые шаги, первые проблемы

Ну что ж, комплектующие еще в пути, но процесс уже начался. Пишу сразу сюда, чтобы по свежим следам ничего не забыть, что успел сделать.

Краткое содержание

Самый первый вопрос ожидаемо в данных: где достать датасет с пением птиц из Московского региона?

Гугл выдал следующие ресурсы: Xeno-Canto (https://xeno-canto.org/), Macaulay Library (https://www.macaulaylibrary.org/), BirdCLEF. Всё круто, записей гигабайты, но почти сразу понятно: большая часть датасетов не подходит. Либо записи из Латинской Америки, либо тропические виды, либо качество такое, что TinyML потом скажет "чё это было?". А мне-то нужно, чтобы модель узнавала наших, родных ;)

📌 Первая проблема.

Нет нормального локального датасета. Идея обучить модель на условной амазонской певчей птице, а потом ждать, что она распознает зяблика в Подмосковье, такое себе.

Начал гуглить по ключевым словам: "birdsong dataset Moscow", "голоса птиц РФ" и даже "mp3 птицы Московская область скачать" и тоже не помогло.

Попадались либо любительские подборки на YouTube, либо коммерческие диски 90-х годов 🙃

💡 Решение оказалось неочевидным.

Я пошел на Xeno-Canto, поставил фильтр по региону (Moscow), и вручную прошелся по десяткам записей. Отобрал всё, что звучало хоть как-то приемлемо.

📉 Вторая проблема: ШУУУУУМ.

Почти все записи с фоном: машины, ветер, разговоры. TinyML вряд ли справится с таким. Начал чистить: обрезать, нормализовать, иногда просто выкидывать. Уже думаю, что стоит отдельно собирать собственные сэмплы, но об этом позже.

🛠 В итоге у меня сейчас есть:

  • ~70 более-менее чистых фрагментов (синицы, дрозды, зяблики, пеночки)
  • скрипт, который переводит mp3 в wav и потом в спектрограммы
  • первые эксперименты с нейронкой и аудио-автоэнкодером

Да, это пока не модель и не прототип, но это уже начало проекта.
В общем наслушался я записей птиц, как будто в лесу их у меня мало))

Но очень интересно, что из этого выйдет.

Может есть желающие побывать юными натуралистами и помочь собрать больше записей наших пернатых? )

AI на дровах 🪵
Привет! Меня зовут Семён, я работаю в сфере ML и аналитики данных и пишу в блог nerdit.ru статьи о своем опыте и том, что может пригодиться начинающим в начале их пути изучения больших данных.

Подписаться на новости Nerd IT

Не пропустите последние выпуски. Зарегистрируйтесь сейчас, чтобы получить полный доступ к статьям.
jamie@example.com
Подписаться