Нейросеть для мерчандайзинга

Аудит в местах продаж

Аудит в местах продаж — это, прежде всего, фотографии. Десятки и сотни тысяч снимков, бесконечные полки, коробки, банки, упаковки. И это full man of process — абсолютно все действия и операции выполняются вручную. А люди, как мы знаем, склонны ошибаться.

Цель проекта SmartMerch, всего нашего бизнеса — повышение качества аудита. В идеале — полностью объективный контроль полки, не зависящий от внимательности, настроения и прочих спутников человеческого фактора. Мы не придумали ничего кардинально нового: системы для оценки выкладки по фото уже есть. Еще в 2012 году несколько международных компаний пришли на наш рынок с цифровым мерчандайзингом — решениями для автоматизации аудита. Технология пережила бум, но быстро пошла на спад. Выяснилось, что на определенном этапе все равно нужен человек: верифицировать результаты и «дораспознать» то, с чем программа не справилась.

А как бы обойтись без этого? Мы опытным путем пришли к тому, что цифровой мерчандайзинг можно и нужно делать на нейронных сетях.

Аналогия с мозгом

Ученые моделировали процессы головного мозга в коде — и получилось. Так в 40-х годах прошлого века появились нейронные сети. Описывать принцип их работы проще всего на примере человеческого восприятия. Слово в тексте мы воспринимаем целиком, не думая о том, что оно состоит из букв. Для нейросети «буква» — это совокупность пикселей. Повышая ширину оцениваемого элемента, она распознает изображение.

К 2010 году вычислительных мощностей стало хватать использования технологии в коммерческих целях Нейронные сети «научились» анализировать и изображения, и тексты, и звуки. И уже сейчас они помогают оценивать работу коллцентров, фиксировать нарушения ПДД, обучать беспилотные автомобили Google и — проводить аудит торговой точки.

Формулы против нейронов

Почему провалилась первая волна цифрового мерчандайзинга? Это связано с тем, что задача по распознаванию изображений не решается с помощью алгоритмов. Ты не можешь предугадать, какие именно товары и как стоят на полке, да и в принципе — стоят ли они там. И ты не можешь описать в коде бесконечное число вариантов и комбинаций вариантов. Там, где есть вопрос в точности и вариативности данных, нужен человек: его глаза, его мозг. Или нейронная сеть.При оценке образов нейросети дают более точный результат, чем люди. Для нас яблоко на маленькой упаковке детского сока — всего лишь желтенькое пятно. Для нейросети — совокупность, например, 50 пикселей, 50 уникальных значений. Поэтому сеть способна распознавать изображение более детально.

Нейронная сеть может распознать любое изображение или образ

Формулы и уравнения бессильны при анализе фотографий, сделанных под произвольным углом или в произвольном масштабе. Товары на таких снимках выглядят искаженно: прямоугольники превращаются в параллелограммы, круги — в овалы, в зависимости от освещения меняются оттенки.

Сеть знает, что коробка хлопьев — это прямоугольник, на котором нарисована тарелка каши. Встретив параллелограмм с такой же тарелкой каши, сеть на основе своего опыта скажет: скорее всего, это хлопья, потому что картинка совпадает, а параллелограмм похож на прямоугольник. И может угадать при этом. Но для 100% результата нужно снимать товары фронтально, в оптимальном масштабе. Наш модуль фотографирования помогает сделать «правильные» снимки: в нем есть гироскоп, функция для создания панорамного снимка длинной полки, и так далее.

Нейронная сеть способна полностью решить задачу по распознаванию фото при аудите. Если ее обучить на соответствующих примерах.

Обучение

Секрет разносторонней применимости сетей и в то же время колоссальная сложность — в обучении. Можно построить бесконечно мощную архитектуру, предугадать все ситуации, все возможные варианты развития событий. Но при этом, если ты некачественно обучишь сеть, результат будет никакой.

Под каждую конкретную задачу не просто алгоритм, а и метод обучения сети разный. Даже при обработке изображений существуют десятки тысяч способов обучить сеть. От чего это зависит? От цели, от навыков обучающего и от необходимой точности.

Плюс ко всему у сети есть две очень ярких особенности. Когда мы говорим про работу с математической моделью, если у нас данных меньше, то это плохо, если больше — это хорошо. С НС все сложнее. Для сетей переизбыток данных, равно как и недостаток, несет негативные последствия.

От А до Я

Нейросеть распознает только те изображения, которые входили в обучающую выборку. Представьте, что вы учите с ребенком фигуры: показываете ему круги и квадраты — зеленые, красные, маленькие, большие — называете их. И вдруг достаете из кармана треугольник. Что произойдет? Ребенок не сможет сказать, что это за фигура, то есть, результат будет некорректным. В случае с нейронной сетью это явление называется недообученность сети.

Если включить в обучающую выборку 200 треугольников, 300 кругов и 2 тысячи квадратов, то сеть будет максимально тянуться к самому распространенному по ее ощущениям значению. Это — переобученность сети.

Лучше, когда все элементы в обучающей выборке равноправны. Но если в природе какой-то элемент объективно встречается чаще, сети придется чаще с ним работать. Это не значит, что добавление большего количества этих элементов в обучающую выборку приведет к худшим результатам. В этом и есть тонкость настройки в самых общих чертах.

Сеть можно дообучить распознавать новые элементы (в цифровом мерчандайзинге — товары). Есть два варианта:

сингл-дообучение — добавляем один элемент обучающей выборки. Например, когда мы хотим добавить красный квадрат к синему, дообучаем сеть определять такой квадрат;
переобучение — добавляем в обучающую выборку дополнительные элементы, обучаем сеть заново. Например, сеть знает только квадраты и круги, а нам нужно, чтобы она умела распознавать треугольники. Тогда нужно дообучить сеть на все три фигуры.

Когда сеть сможет обучаться самостоятельно, без участия программиста, тогда и появится тот самый искусственный интеллект. Сеть подключится к интернету и сможет решать любые задачи, в том числе творческие. Как вылечить рак? Переберет возможные комбинации и найдет ответ.

Что дает система цифрового мерчандайзинга:

Объективный контроль полки. При ручном аудите торговых точек появляются ошибки из-за невнимательности, нехватки времени, некомпетентности и плохого настроения исполнителя.
Сокращение времени аудита: в гипермаркете с 50 до 20 минут, в традиционной рознице с 5 до 2,5 минут (чем меньше магазин, тем меньше разница). Скорость аудита зависит только от скорости фотографирования. Для примера: чтобы оценить один стеллаж, достаточно 30 секунд: 21 секунда на фотографирование и 9 — на передачу снимков в «облако». Показатель постоянно улучшается за счет повышения удобства и скорости фотографирования.
Объективные данные не только по SKU, но и по доле полки. При этом товары других категорий не влияют на результат, даже если стоят рядом. Сравним с тем, как считается доля полки сейчас: примерное количество «своих» SKU делится на примерное количество всех SKU в категории.

Как разворачивается проект

Любой проект с использованием нейронных сетей начинается с преданализа данных. Когда речь идет о распознавании определенной категории товара, специалисты снимают тестовые фотографии в торговых точках для базового обучения. На этом этапе важно понять, будет ли сеть работать с этой категорией в принципе. Например, она может определить, что помидор — это помидор, но не сумеет распознать сорт.

На обучение сети любой категории нужно два месяца и не менее 500 снимков. Мы ходим в магазины, фотографируем, обучаем, опять фотографируем, обучаем — до тех пор, пока не добьемся оптимального результата.

Причем, использовать сеть универсально в аналогичных проектах нельзя, так как невозможно предсказать, какими будут результаты. Например, мы обучили сеть распознавать категорию кофе для одного производителя. Когда к нам приходит другой производитель кофе, мы обучаем систему заново — на другие товары, магазины и устройства.

Максим Архипенков показывает, как работает цифромерч на конференции SFA-2016

Но обучение заключается не только в подготовке снимков и загрузке их в сеть, этот процесс куда более глубокий. Мы научились применять дополнительные способы обучения, но эти методы я не могу раскрывать, потому что это наше уникальное преимущество.

Аудит обучения, роллаут. Полевые сотрудники клиента присылают нам снимки из магазинов, сеть их распознает, отправляет результат. На этом этапе мы смотрим на качество распознавания и при необходимости дообучаем сеть. Например, появились новые позиции на полке или какие-то товары плохо распознаются. Такое возможно, если на какую-то редкую позицию у нас была недостаточная выборка фотографий для обучения.

Теоретически можно обучить сеть на разные категории. Распознавать и пиво, и шоколад, и бакалею, и так далее. И если на полке с пивом, например, будет лежать шоколадка, сеть сможет ее определить. Но эта информация будет лишней. Поэтому для каждой категории сеть переобучается отдельно. Для пользователя добавляется опция выбора категории, с которой он сейчас работает. И это упрощает и контур сети, и обучение.

Варианты применимости системы:

Самоконтроль персонала, отвечающего за мерчандайзинг. Полевой сотрудник фотографирует результат своей работы, а система оценивает, как выставлен товар, качество выполнения планограммы и присутствие на полке всех необходимых товаров. Если какие-то позиции отсутствуют, значит, в магазине аутофсток.
Оценка работы сетевого магазина или внутренних служб организации. Аудитор фотографирует полку как есть. Если на полке бардак, делаем вывод, что за ней не смотрят.
Аудит сторонних организаций, например, мерчандайзинговых агентств. Аудитор посещает точку вслед за мерчом, фотографирует и видит, кто работает хорошо, а кто халтурщик.
Оценка наличия промо. Сотрудник фотографирует стойку, и система на выходе подтверждает ее присутствие в точке. Место, дату и время мы знаем из GPS-отчета.
Оценка срока годности. Для этого нужно крупно сфотографировать товар, чтобы в кадр попала надпись со сроком годности. Нейронные сети очень хорошо распознают текст, для обученной системы не проблема считать и проанализировать по нужным параметрам информацию о сроке годности.

Требования к устройствам

Базовое требование к устройствам — камера от 5 Мп. Работать с любым товаром с хорошей точностью можно с камерой от 8 Мп. Чем больше разрешение снимка, тем больше деталей, тем лучше. Вспышку и автофокус мы регулируем с помощью настроек в приложении.

До чего дойдет прогресс

Мы совершенствуем технологию. Уже сейчас для распознавания товаров нейросети не нужна идеальная картинка высокого качества. И мы продолжаем снижать требования к получаемым снимкам, чтобы повысить скорость фотографирования.

В связи с развитием стриминговых платформ думаем о добавлении функционала видеораспознавания. Раньше потоковое видео было невозможно. Нужно было снять файл, сохранить его в памяти устройства и только потом отправить. Сейчас видео передается в облако в режиме реального времени, с задержкой в 10 секунд. То есть картинка транслируется в режиме реального времени. А так как снимать видео быстрее, чем фотографировать, процесс аудита значительно ускорится.

И следующий этап — это использование дополненной реальности. Пользователь наведет камеру на полку и сразу увидит качество выкладки: куда какой товар нужно поставить, что отсутствует.

Как дополнительная ветка развития — это использование либо стационарных камер, либо квадрокоптеров или рельсовых роботов, которые ездят или летают по магазину и снимают полку. Такая технология позволит полностью исключить участие человека из процесса аудита.

SmartMerch — это не коробочный продукт, когда вы покупаете и получаете на выходе отчеты и знаете долю полки. Это глубокий сервис для адекватной оценки того, что происходит на полке в магазине с вашими товарами. Именно так мы позиционируемся, именно это помогает нам возвращать доверие индустрии к системам цифрового мерчандайзинга.

Также в этом номере журнала «Мобильная Торговля» №64, 11/2016:

Вам также могут быть интересны статьи: