Конволюционните невронни мрежи (CNN), вдъхновени от биологичните процеси в човешкия визуален кортекс, са подходящи за задачи като разпознаване на обекти и лица, но подобряването на тяхната точност изисква досадно и фино регулиране. Ето защо учените от изследователския отдел на Google AI проучват нови модели, които „мащабират” CNN по „по-структуриран” начин.
Резултатите от работата им бяха публикувани в статията „EfficientNet: преосмисляне на мащаба на моделите за конволюционални невронни мрежи” на портала Arxiv.org. Съавторите твърдят, че семейството на системите за изкуствен интелект, наречено EfficientNets, надвишава точността на стандартния CNN и увеличава ефективността на невронната мрежа до 10 пъти.
За разлика от стандартните подходи за CNN мащабиране, екипът на Google AI предлага метод за равномерно мащабиране на всички параметри на невронната мрежа.
„Обичайната практика при моделите за мащабиране е да се увеличи произволно дълбочината или ширината на CNN, както и да се използва по-висока резолюция на входното изображение за обучение и оценка”, отбелязват инж. Минсинг Тан и водещият учен в Google AI Куок Лий. „За разлика от традиционните подходи, които произволно скалират мрежовите параметри, като например ширина, дълбочина и входна резолюция, нашият метод равномерно мащабира всяко измерение с фиксиран набор от коефициенти за мащабиране”.
За по-нататъшно увеличаване на производителността, изследователите предлагат използване на нова базова мрежа – мобилна инвертирана конволюция на тесните места (MBConv), която служи като основа за семейството модели EfficientNets.
При тестовете EfficientNets демонстрира както по-голяма точност, така и по-висока ефективност в сравнение със съществуващите CNN и намаление в порядък на размера на параметрите и изчислителните ресурси. Един от моделите, EfficientNet-B7, демонстрира 8,4 пъти по-малък размер и 6,1 пъти по-висока производителност от добре познатата CNN Gpipe, като достигна точност от 84,4% и 97,1% (Топ-1 и Топ 5 резултат) при тестване на набора ImageNet.
В сравнение с популярния CNN ResNet-50, друг модел на EfficientNet – EfficientNet-B4, използващ подобни ресурси, демонстрира точност от 82,6% спрямо 76,3% за ResNet-50. Моделите EfficientNets се представят добре и с други масиви от данни, достигайки висока точност в пет от осемте теста, включително CIFAR-100 (точност 91,7%) и Flowers (98,8%).
„Като предоставяме значителни подобрения в ефективността на невронните модели, очакваме EfficientNet потенциално да послужи като нова основа за бъдещи задачи в областта на компютърното зрение”, пишат Танг и Лий. Изходният код и скриптовете за обучение на облачни тензорни процесори (TPU) на Google са свободно достъпни в Github.