vitkvv2017 (vitkvv2017) wrote,
vitkvv2017
vitkvv2017

Нейросеть научилась «слышать» изображения

Оригинал взят у alev_biz в Нейросеть научилась «слышать» изображения

Сейчас нейросети умеют неплохо распознавать изображения и понимать речь. Но вот определять естественные звуки – например, шум волн или пение птиц — пока не научились. Но это только пока! Программисты Массачусетсткого технологического института решили исправить это недоразумение и научили нейросеть распознавать такие звуки опосредованно – через картинки и видео. Подробнее о проекте можно почитать в препринте статьи и описании на сайте MIT.

нейросеть научилась «слышать» изображения

Не так просто обучить нейросеть распознавать образы и звуки — нужно сперва обработать данные вручную. Поэтому сначала готовую нейросеть учили распознавать изображения с помощью двух аннотированных баз данных. А уже потом загрузили в нее 26 терабайт видео из Flickr. Это около двух миллионов роликов! Если бы вы захотели их пересмотреть, понадобилось бы около двух лет.

Учёные использовали и вторую нейросеть – в нее они загрузили аудиодорожки из тех же видео. Ей нужно было правильно определить наименования сцен и объектов, полученных от первой сети. Вот так и получилась нейросеть, которая может распознать звук – например, определить, что пение птиц ассоциируется со сценами леса, картинками деревьев и птичьих домиков.

Так нейросеть овладела языком изображений. Теперь осталось перевести его на язык понятных наименований звуков. Программисты научили систему сопоставлять материал с набором стандартных звуковых наименований. Они использовали базу аннотированных аудио, которая состояла из 2000 звуков, разделенных на 50 категорий. С ними система ассоциировала свои данные.

нейросеть научилась «слышать» изображения

Систему протестировали на двух стандартных базах звукозаписей. Если в базе было 10 категорий звуков, нейросеть распознавала их с точностью 92%, а если 50 категорий – с 74%. Для сравнения: если с теми же данными работают люди, точность составляет 96 и 81% соответственно.

Программисты MIT надеются, что система сможет улучшить контекстную чувствительность мобильных устройств. Например, можно соединить ее с GPS. И когда вы будете смотреть фильм в кинотеатре, например, ваш умный телефон сможет автоматически перенаправлять вызовы на автоответчик.

Текст: Любовь Пушкарская

Ссылка на источник

Tags: технологии
Subscribe
promo vitkvv2017 september 4, 2017 09:35 2
Buy for 10 tokens
Борис Островский Дэвид Мей и Джозеф Монаган (университет Монах, Австралия) высказали предположение, что «пузыри метана, поднимающиеся с морского дна, могут топить корабли. Именно этим природным явлением и могут объясняться загадочные пропажи некоторых кораблей». Касательно…
  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 0 comments