Нейросеть в лесу - Лог №0 Первые шаги, первые проблемы
Ну что ж, комплектующие еще в пути, но процесс уже начался. Пишу сразу сюда, чтобы по свежим следам ничего не забыть, что успел сделать.
Самый первый вопрос ожидаемо в данных: где достать датасет с пением птиц из Московского региона?

Гугл выдал следующие ресурсы: Xeno-Canto (https://xeno-canto.org/), Macaulay Library (https://www.macaulaylibrary.org/), BirdCLEF. Всё круто, записей гигабайты, но почти сразу понятно: большая часть датасетов не подходит. Либо записи из Латинской Америки, либо тропические виды, либо качество такое, что TinyML потом скажет "чё это было?". А мне-то нужно, чтобы модель узнавала наших, родных ;)
📌 Первая проблема.
Нет нормального локального датасета. Идея обучить модель на условной амазонской певчей птице, а потом ждать, что она распознает зяблика в Подмосковье, такое себе.
Начал гуглить по ключевым словам: "birdsong dataset Moscow", "голоса птиц РФ" и даже "mp3 птицы Московская область скачать" и тоже не помогло.
Попадались либо любительские подборки на YouTube, либо коммерческие диски 90-х годов 🙃
💡 Решение оказалось неочевидным.
Я пошел на Xeno-Canto, поставил фильтр по региону (Moscow), и вручную прошелся по десяткам записей. Отобрал всё, что звучало хоть как-то приемлемо.
📉 Вторая проблема: ШУУУУУМ.
Почти все записи с фоном: машины, ветер, разговоры. TinyML вряд ли справится с таким. Начал чистить: обрезать, нормализовать, иногда просто выкидывать. Уже думаю, что стоит отдельно собирать собственные сэмплы, но об этом позже.
🛠 В итоге у меня сейчас есть:
- ~70 более-менее чистых фрагментов (синицы, дрозды, зяблики, пеночки)
- скрипт, который переводит mp3 в wav и потом в спектрограммы
- первые эксперименты с нейронкой и аудио-автоэнкодером
Да, это пока не модель и не прототип, но это уже начало проекта.
В общем наслушался я записей птиц, как будто в лесу их у меня мало))
Но очень интересно, что из этого выйдет.
Может есть желающие побывать юными натуралистами и помочь собрать больше записей наших пернатых? )
