
Конволюционните невронни мрежи (CNN), вдъхновени от биологичните процеси в човешкия визуален кортекс, са подходящи за задачи като разпознаване на обекти и лица, но подобряването на тяхната точност изисква досадно и фино регулиране. Ето защо учените от изследователския отдел на Google AI проучват нови модели, които „мащабират” CNN по „по-структуриран” начин.
Резултатите от работата им бяха публикувани в статията „EfficientNet: преосмисляне на мащаба на моделите за конволюционални невронни мрежи” на портала Arxiv.org. Съавторите твърдят, че семейството на системите за изкуствен интелект, наречено EfficientNets, надвишава точността на стандартния CNN и увеличава ефективността на невронната мрежа до 10 пъти.
[related-posts]
За разлика от стандартните подходи за CNN мащабиране, екипът на Google AI предлага метод за равномерно мащабиране на всички параметри на невронната мрежа.
„Обичайната практика при моделите за мащабиране е да се увеличи произволно дълбочината или ширината на CNN, както и да се използва по-висока резолюция на входното изображение за обучение и оценка”, отбелязват инж. Минсинг Тан и водещият учен в Google AI Куок Лий. „За разлика от традиционните подходи, които произволно скалират мрежовите параметри, като например ширина, дълбочина и входна резолюция, нашият метод равномерно мащабира всяко измерение с фиксиран набор от коефициенти за мащабиране”.
За по-нататъшно увеличаване на производителността, изследователите предлагат използване на нова базова мрежа – мобилна инвертирана конволюция на тесните места (MBConv), която служи като основа за семейството модели EfficientNets.
При тестовете EfficientNets демонстрира както по-голяма точност, така и по-висока ефективност в сравнение със съществуващите CNN и намаление в порядък на размера на параметрите и изчислителните ресурси. Един от моделите, EfficientNet-B7, демонстрира 8,4 пъти по-малък размер и 6,1 пъти по-висока производителност от добре познатата CNN Gpipe, като достигна точност от 84,4% и 97,1% (Топ-1 и Топ 5 резултат) при тестване на набора ImageNet.
В сравнение с популярния CNN ResNet-50, друг модел на EfficientNet – EfficientNet-B4, използващ подобни ресурси, демонстрира точност от 82,6% спрямо 76,3% за ResNet-50. Моделите EfficientNets се представят добре и с други масиви от данни, достигайки висока точност в пет от осемте теста, включително CIFAR-100 (точност 91,7%) и Flowers (98,8%).
„Като предоставяме значителни подобрения в ефективността на невронните модели, очакваме EfficientNet потенциално да послужи като нова основа за бъдещи задачи в областта на компютърното зрение”, пишат Танг и Лий. Изходният код и скриптовете за обучение на облачни тензорни процесори (TPU) на Google са свободно достъпни в Github.
