Компьютерное зрение для бизнеса

Обновлено: 10.10.2024
Компьютерное зрение используется в бизнесе для:
- анализа видео и снимков камер наблюдения (например, для распознавания клиентов, фиксации краж в магазине)
- классификации отсканированных документов и извлечения данных из них
- мониторинга социальных сетей (анализа эффективности маркетинговых акций, анализа конкурентов)
- распознавания одежды и аксессуаров на фотках (для электронной коммерции)
- автоматического контроля сотрудников по скриншотам экрана компьютера

Примеры использования компьютерного зрения для бизнеса приведены ниже.

2024. Сеть дискаунтеров Netto открыла ИИ-супермаркет без кассиров в Германии



Компания Trigo, ведущий поставщик технологий компьютерного зрения на базе искусственного интеллекта, и немецкая сеть дискаунтеров Netto запустили первый в мире комплексный полноразмерный продуктовый супермаркет без кассиров, работающий на базе компьютерного зрения AI. Супермаркет оснащен новейшим расширением существующей системы EasyOut компании Trigo, которая позволяет покупателям выбирать желаемые товары и просто выходить из него. Новая станция EasyOut Station, основанная на технологии искусственного интеллекта Trigo, генерирует чеки покупателей в режиме реального времени. Оплата за покупки производится через системы Apple Pay, Google Pay или приложением Netto при выходе через специальный терминал. Приложение Netto также позволяет покупателям автоматически выкупать купоны и архивировать безбумажные квитанции внутри приложения. В отличие от традиционных касс самообслуживания, технология EasyOut автоматически формирует корзины покупателей без необходимости сканирования.


2023. Kornia - open-source библиотека компьютерного зрения



Kornia это open source библиотека для решения задач компьютерного зрения. Она использует PyTorch в качестве основного бэкенда и состоит из набора дифференцируемых процедур и модулей. Создатели библиотеки вдохновлялись OpenCV, и поэтому Kornia является его аналогом, но при этом в некоторых моментах превосходит. Основным преимуществом Kornia по сравнению с тем же OpenCV, scikit-image или с Albumentations является возможность обрабатывать изображения батчами, а не по одному изображению и возможность обрабатывать данные на GPU. На сайте Cornia есть таблица сравнения с конкурирующими библиотеками компьютерного зрения: OpenCV, Scikit-Image, Torchvision, Tensorflow.image, Albumentations. Как видим, по всем заявленным в таблице пунктам с Kornia может сравниться только Tensorflow.image.


2023. ChatGPT научился понимать изображения и длинные тексты


Компания OpenAI выпустила новую версию своей нейросети GPT-4. Это большое обновление после GPT-3.5, которая изначально служила движком для популярного чат-бота ChatGPT. Теперь ChatGPT сможет работать не только с языком, но и с изображениями. Например, вы можете попросить его описать то, что изображено на картинке или найти картинку по описанию. Кроме того, в GPT-4 увеличен объем оперативной памяти для хранения текстовой информации (примерно до 50 страниц текста), а значит ChatGPT сможет помнить весь контекст разговора, чтобы давать ответы на его основании. Также, появилась возможность попросить бота имитировать различные личности. Теперь разработчики смогут закладывать точку зрения, стиль общения, тон или метод взаимодействия с самого начала. Кроме того, GPT-4 стал более многоязычен. Он умеет отвечать на тысячи вопросов с множественным выбором с высокой точностью на 26 языках, от итальянского до украинского и корейского.


2022. Google запустил ИИ сервис для визуального контроля качества продукции


На облачной платформе Google Cloud Platform появился сервис Visual Inspection AI, который может помочь производителям автоматизировать контроль качества продукции (в процессе или уже после производства). Сервис использует компьютерное зрение для визуального анализа продукции. Разумеется сначала его нужно обучить, но по заявлению разработчиков, учится он быстро, и сотруднику достаточно разметить всего несколько образцов дефектов. Сервис будет конкурировать с Amazon Lookout for Vision, запущенным в прошлом году.


2022. AWS Panorama - сервис для контроля сотрудников на производствах



Amazon представила сервис Panorama, который использует компьютерное зрение для мониторинга оборудования и контроля работы сотрудников на производствах. Сервис анализирует видеозаписи, собранных с камер наблюдения на объектах, чтобы автоматически выявлять проблемы с безопасностью: например, сотрудников без индивидуальных средств защиты или машины, которые двигаются в запрещённых зонах. Также, компания создала «двухдюймовый недорогой датчик Monitron», который можно прикрепить на оборудование и собирать данные, чтобы спрогнозировать будущие неисправности.


2020. Microsoft купила разработчика технологий компьютерного зрения



Microsoft купила Orions Systems - разработчика технологий искусственного интеллекта для видеосистем. Компания развивает инструменты для создания и обучения ИИ-алгоритмов для работы с видеоконтентом, а также систему, которая может анализировать, защищать и контролировать передачу видео и изображений - Системы видеоаналитики. Благодаря этой сделке, стоимость которой её участники раскрывать не стали, Microsoft сможет улучшить систему Dynamics 365 Connected Store, помогающую магазинам и другим компаниям лучше понимать поведение клиентов. Dynamics 365 Connected Store обрабатывает данные, получаемые при помощи компьютерного зрения и IoT-датчиков. Эффективное получение таких данных может быть сложным процессом, требующим немалых настроек.


2017. Нейронная сеть позволяет сделать атомные реакторы безопаснее


Регулярные проверки компонентов атомных электростанций крайне важны для обеспечения их безопасной эксплуатации. Однако нынешние методы, как правило, очень времязатратны, очень утомительны и часто сталкиваются с субъективной оценкой, так как в основном анализ видеоматериалов на наличие трещин в реакторах проводится техниками-людьми. Нейросеть, разработанная специалистами Пердью, обучена на 300 тысяч изображений различных трещин. Эффективность проверки реакторных систем остается на высоком уровне даже в том случае, когда нуждающийся в инспекции элемент реактора находится под водой, что, как правило, и происходит, так как вода в реакторах используется для охлаждения. Благодаря данной системе снижаются риски для человеческого здоровья. Нейронная сеть анализирует каждый сантиметр каждого кадра в поисках трещин, а затем следит за каждой трещиной от одного кадра к другому с помощью алгоритма слияния данных.


2017. Google представил API для поиска объектов в видео



Google запустил Cloud Video Intelligence API для поиска объектов по видео на базе технологии глубокого машинного обучения. С его помощью разработчики смогут находить объекты по заданным критериям внутри видеоконтента с точностью их появления до секунд. Инструмент предназначен для крупных технологических и медиакомпаний, а также, по видимому, будет использоваться на Youtube. Поиск осуществляется по ключевым словам. Можно задавать как имя существительные, так и глаголы: например собака, цветок, бежит, плывет, летит. Например, поиск по слову тигр найдет все кадры, на которых появляется тигр.


2016. Зачем Intel скупает разработчиков компьютерного зрения


В этом году компания Intel купила уже два стартапа, разрабатывающих технологии компьютерного зрения: Itseez (который разработал автомобильную систему распознавания знаков) и американский Movidius (тот самый, который создал микропроцессор для компьютерного зрения). Зачем это производителю компьютерных платформ? Дело в том, что основную прибыль Intel приносят персональные компьютеры и ноутбуки, и компания придумала кое-какую новую фичу, способную поднять их продажи. Это - Intel RealSense - камера (а точнее 3 камеры), распознающая движения пользователя (что-то вроде Microsoft Kinect). Эта штука позволит взаимодействовать с компьютером на новом уровне. Это вам не клавиатура с мышкой, и даже не тачскин.


2016. Intel купила разработчика библиотеки компьютерного зрения OpenCV



Open-source библиотека алгоритмов компьютерного зрения OpenCV известна, пожалуй, всем кто интересуется технологиями машинного обучения. Однако, далеко не все знают, что большинство ведущих разработчиков OpenCV живут и трудятся в Нижнем Новгороде, и являются сотрудниками компании Itseez. С 2000 по 2008 год OpenCV разрабатывалась и поддерживалась в основном Intel. Однако, затем Intel практически прекратила поддержку проекта, и он выживал благодаря спонсорству компаний Willow Garage и NVidia. Теперь же в Intel опять сильно заинтересовались машинным обучением и компьютерным зрением и решили выкупить старый знакомый стартап.


2015. Нейросеть Microsoft победила Google и Intel в конкурсе на распознавание изображений



Программа, разработанная командой Microsoft Research под руководством Цзянь Сана (на фото) показала лучший результат на шестом конкурсе по распознаванию изображений ImageNet. Ей удалось превзойти конкурентные системы от Google, Intel, Qualcomm и Tencent, а также ряда стартапов. Система компьютерного зрения Microsoft представляет собой очень глубокую нейросеть из 150 слоев, которую обучали с применением фреймворка глубокого остаточного обучения. Microsoft уже использует компьютерное зрение в своих продуктах: игровом сенсоре Kinect и системе распознавания лиц Windows Hello.


2015. Искусственный интеллект Baidu побил рекорд Google в распознавании изображений



Китайскаий интернет-гигант Baidu создал суперкомпьютер Minwa, который (по словам разработчиков) сумел превзойти рекорд компании Google по качеству распознавания изображений. Суперкомпьютер показал точность 95,42%, по сравнению с результатом 95,2%, показанным искусственным интеллектом Гугла. Minwa имеет 72 мощных центральных процессоров и 144 графических процессоров. В компьютере запрограммирована нейронная сеть, способная не только выполнить распознавание объектов на изображениях с высокой разрешающей способностью, но и самообучаться, что позволяет системе выявлять характерные особенности каждого из отдельных объектов. Таким образом, система может распознать изображение, представленное в любой форме, даже когда оно повернуто на некоторый угол и сфотографировано снова.


2015. Microsoft предлагает использовать ППВМ вместо GPU для компьютерного зрения



Традиционно системы компьютерного зрения строят на графических процессорах (GPU). Они лучше подходят для этой задачи, чем центральные процессоры, потому что позволяют параллельно выполнять много потоков обработки информации. Но в Microsoft говорят, что GPU потребляют слишком много энергии. Поэтому, они предлагают использовать ППВМ-чипы (Программируемые пользователем вентильные матрицы). ППВМ программируются путём изменения логики работы принципиальной схемы, например с помощью исходного кода на языке проектирования. ППВМ потребляют в 10 раз меньше энергии. Например, один ППВМ процессор потребляет 25 Вт, а GPU - 235 Вт. При этом, ППВМ за 1 секунду может распознавать 233 изображения против 500 у GPU.


2014. Компьютерная нейронная сеть распознает изображения быстрее мозга



Группа исследователей из Массачусетского технологического института доказала, что по крайней мере в одном аспекте нейросети для компьютерного зрения уже могут победить биологический мозг - в скорости. Они провели эксперимент с обезьянами. Показывали им быстро сменяющиеся картинки, снимая при этом карту активности их мозга. Оказалось что если картинка показывается всего 100 милисекунд, обезьяна успевает ее увидеть, но не успевает осознать (распознать изображенные объекты). А вот нейросеть, созданная этими же ребятами - отлично справлялась с этой задачей за указанное время. Правда, на выходе нейросети были не образы, а всего лишь последовательности чисел (каждое число соответствует определенному распознанному объекту, наприме дерево=4).


2013. Стартап Vicarious победил каптчу при помощи компьютерного зрения



Американский стартап Vicarious объявил, что его система компьютерного зрения может с 90% точностью определять надписи на любых каптчах (в т.ч. на Google reCAPTCHA), которые используются для защиты от спама в интернете. Причем, по словам разработчиков, в отличии от обычных систем компьютерного зрения, которые используют брутфорс (большие компьютерные мощности, обученные на большом объеме данных), их система гораздо ближе по энергоэффективности к человеческому мозгу. Вообще Vicarious считается одним из передовых ИИ стартапов в США. Он уже получил десятки млн долларов инвестиций от таких ребят, как Марк Цукерберг, Элон Макс, Джефф Безос, Марк Беньофф и т.д.