Как научить ии распознавать изображения

Что такое распознавание изображений и как ИИ помогает в их распознании?

Распознавание изображений (часть искусственного интеллекта (ИИ)) является еще одной популярной тенденцией, набирающей обороты в настоящее время – к 2021 году ожидается, что ее рынок достигнет почти 39 миллиарда долларов. Теперь пришло время присоединиться к тренду и узнать, что такое распознавание изображений и как оно работает.

Что такое распознавание изображений?

Как всегда, давайте начнем с основ. Прежде всего, вы должны помнить, что распознавание и обработка изображений не являются синонимами. Обработка изображения означает преобразование изображения в цифровую форму и выполнение определенных операций с ним. В результате можно извлечь некоторую информацию из такого изображения.

Этапы обработки изображений:

Теперь вы видите, что распознавание изображений является одним из этапов обработки изображений. Те специфические особенности, которые были упомянуты, включают людей, места, здания, действия, логотипы и другие возможные переменные на изображениях. Следовательно, распознавание изображений – это процесс идентификации и обнаружения объекта в цифровом изображении и одно из применений компьютерного зрения. Иногда это также называют классификацией изображений, и это применяется в большом количестве отраслей.

Как работает распознавание изображений?

Теперь несколько слов о том, как работает распознавание изображений. Первым шагом здесь является сбор и организация данных. В отличие от людей, компьютеры воспринимают изображение как векторное или растровое изображение.

Поэтому после создания конструкций, изображающих объекты и особенности изображения, компьютер анализирует их. Затем данные упорядочиваются – важная информация извлекается, а ненужная исключается. Вторым этапом процесса распознавания изображений является построение прогнозирующей модели. Алгоритм классификации должен быть тщательно обучен, иначе он не сможет выполнять свои функции. Когда все сделано и протестировано, вы можете пользоваться функцией распознавания изображений.

Как ИИ помогает распознавать изображения?

Искусственный интеллект делает возможными все функции распознавания изображений. Чтобы дать вам лучшее понимание, вот некоторые из них:

1. Распознавание лиц.

С помощью ИИ система распознавания лиц сопоставляет черты лица с изображения, а затем сравнивает эту информацию с базой данных, чтобы найти совпадение. Распознавание лиц используется производителями мобильных телефонов (как способ разблокировки смартфона), социальными сетями (распознавание людей на изображении, которое вы загружаете, и их пометка), и т.д. Тем не менее, такие системы вызывают много проблем конфиденциальности, так как иногда данные могут быть собраны без разрешения пользователя. Кроме того, даже самые передовые системы не могут гарантировать 100% точность. Что если система распознавания лиц смешивает случайного пользователя с преступником? Это не то, чего кто-то хочет, но это все еще возможно. Однако технологии постоянно развиваются поэтому однажды эта проблема может исчезнуть.

2. Распознавание объектов.

Системы распознавания объектов выбирают и идентифицируют объекты из загруженных изображений (или видео). Визуальный поиск, вероятно, является наиболее популярным приложением этой технологии.

3. Распознавание образов.

4. Анализ изображения.

Вам нужно краткое изложение конкретного изображения? Используйте ИИ для анализа изображений. В результате все объекты изображения (формы, цвета и т. д.) будут проанализированы, и вы получите полезную информацию об изображении.

Источник

ИИ как главный помощник человека: от распознавания объектов до компьютерных игр

На современном рынке онлайн-сервисов все чаще звучат слова о высоких технологиях. Они предугадывают желания пользователя и делают всё, чтобы максимально упростить его жизнь. Сегодня ИИ проник уже во все сервисы — от почты до распознавания объектов на изображении, став одной из главных технологий, автоматизирующих рутинные действия, помогающих человеку в бытовой жизни и работе. Ведущий программист-исследователь Mail.ru Group Андрей Бояров объясняет, какие именно технологии сегодня используют ИТ-компании, при чем здесь машинное обучение и чего нам ждать от искусственного интеллекта через пять лет.

Читайте «Хайтек» в

В большинстве случаев искусственный интеллект воспринимается как некий сверхразум, который в ближайшее время будет встроен в роботов, заменит человеческий труд, а то и вовсе поработит мир. Обычных людей путают маркетологи, авторы фантастики и режиссеры фильмов, хотя на самом деле у ИИ совсем другое определение.

В наши дни искусственным интеллектом считают скорее философское понятие, уходящее корнями в 40–50-е годы XX века. Непосредственно в индустрии сейчас занимаются машинным обучением. В него входит ряд классических прикладных дисциплин — статистика, теория оптимизации, теория игр и прочие. Когда есть задача, которую нельзя решить алгоритмом «если происходит A, следует сделать B», на помощь приходит машинное обучение.

ИИ принято разделять на два направления: слабый и сильный. Слабый ИИ выполняет любую конкретную задачу, которую ему поставит человек — определить, что изображено на фотографии, перевести слово с одного языка на другой или сообщить о преграде во время поездки на автопилоте. Основные разработки ведутся именно в этом направлении, и, надо добавить, не без впечатляющих результатов. Сильный ИИ — интеллект, превышающий человеческий на большом спектре когнитивных (мыслительных) задач. Чаще всего его показывают в кино — это тот самый «Скайнет» из «Терминатора», HAL 9000 из «Космической Одиссеи», сверхразум, который способен самостоятельно анализировать знания и опыт и принимать решения в незнакомых и непредсказуемых ситуациях без помощи человека.

Разработки и использование технологий машинного обучения ведутся с конца 80-х — начала 90-х годов XX века. Но семь лет назад случился настоящий бум в использовании нейронных сете й. В 2012 году группа ученых из Университета Торонто под руководством Джеффри Хинтона обучила глубокую нейронную сеть на большом объеме данных. Новый подход стал прорывом в индустрии — deep learning (или глубокое обучение) позволило обучать нейронные сети на прежде невозможных массивах информации и получать отличные результаты.

Как распознаются объекты на снимках. Опыт Облака Mail.ru

В Облаке Mail.ru доступны такие функции, как распознавание лиц, объектов, сцен и достопримечательностей на изображениях. За распознавание отвечают глубокие сверточные нейронные сети — сети, особенно качественно анализирующие изображение. Прежде, чем запускать в работу, сеть необходимо обучить. Она состоит из миллионов параметров, с помощью которых совершается множество преобразований со входным изображением. Во время обучения эти параметры автоматически настраиваются. За сам процесс отвечают люди. Специалисты готовят базу данных с тысячами фотографий, размечают их, а затем начинают обучать сеть. Так называемое обучение с учителем — на данный момент главный качественно работающий метод обучения нейронной сети к выполнению задачи распознавания. В Mail.ru Group над машинным обучением работают сразу несколько команд — почты, поиска и машинного зрения.

Если смотреть глубже, процесс распознавания объектов выглядит так. Пользователь делает снимок и загружает его в облако. Попадая в сервис, картинка сжимается до специальных входных размеров — стандартных 256х256. Сеть может работать с любым размером изображений, но сжатые до таких параметров снимки позволяют экономить время на обработку и более эффективно использовать данные. Кроме того, такого размера хватает для распознавания почти любого объекта. Итак, картинка сжалась, прошла первичную техническую обработку и начала проходить через уже обученную нейронную сеть. После анализа изображения сеть дает процент совпадения предполагаемого объекта на фото с классами, на которых она обучалась. Где вероятность самая высокая, тот объект и выбирается, а изображение добавляется в соответствующий альбом на устройстве пользователя.

Похожие алгоритмы лежат в основе определения лиц, объектов, сцен, однако у достопримечательностей есть некоторое отличие. Обучение нейронной сети происходит на размеченных изображениях разнообразных известных и не очень мест в мире. Сложность возникает в ракурсах съемки, когда один и тот же памятник или собор может быть снят с разных точек. В этом случае используется результат работы нейронной сети — числовой вектор. Он обладает свойством, «описывающим» входное изображение — чем лучше была обучена сеть, тем лучше это описание. В него могут входить ключевые характеристики зданий, ландшафта, окружающих объектов и прочее. Для каждой достопримечательности из базы обучения посчитаны такие векторы (иногда даже несколько на достопримечательность), которые сравниваются в рамках оценки входного изображения. Векторы можно сравнить и получить ответ, ближе ли то, что изображено на входном изображении, к Эйфелевой башне или фонтану Треви.

Как ИИ работает со звуком

Обработка звуков — еще одно возможное применение искусственного интеллекта. Например, в работе голосовых ассистентов — Siri, Google Assistant, Alexa и прочих. Ведущие технологические компании ведут разработки в этой области. Исключением не стала и Mail.ru Group. В июне 2019 года корпорация представила «Марусю».

Все умения цифровых помощников можно условно разделить на три группы. Каждая из групп подключается по мере развития диалога с пользователем и отвечает за определенный набор скиллов: первый блок обрабатывает запрос, второй отвечает за поиск решения, а третий демонстрирует результат.

На старте живого общения с пользователем для голосового помощника самая сложная и важная задача — правильно интерпретировать запрос. Человеческая речь состоит из миллионов сочетаний звуков, нельзя забывать и про индивидуальные особенности произношения и интонации. В связи с этим помощники должны учиться, бесконечно анализируя человеческую речь. Например, для «Маруси» обучение с учителем состоит из непрерывного общения с пользователями и редакторами, прослушивания голосовых и музыкальных записей. Чем больше разных звуковых данных она обрабатывает, тем проще с ней общаться, в том числе и маленьким детям, которые плохо выговаривают часть звуков. Согласно общепринятой системе оценки распознавания речи Word Error Rate, у «Маруси» процент удачного распознавания приближается к человеческому, хотя для ИИ это не предел.

Получив звуковой запрос, голосовой ассистент переводит его в текст и начинает готовить ответ. На этом этапе подключаются диалоговые системы, которые помогают поддерживать иллюзию разговора с живым человеком. Вопросы к ассистенту отличаются от запросов в браузере — люди привыкли задавать их как человеку, на естественном языке. Помогает в этом как раз машинное обучение с учителем.

После того, как диалоговая система классифицирует запрос, подключаются поисковые механизмы. Чаще всего, когда помощники не понимают, что от них хотят, они просто перекидывают пользователя в браузер. «Маруся» поступает иначе, она показывает первые результаты выдачи поисковика в своем интерфейсе, чтобы не прерывать беседу.

Финальная часть работы голосового ассистента — синтез, то есть вывод и озвучивание результата. Это не менее сложный, математически выверенный процесс, чем распознавание речи. Говорить по-человечески, с интонациями, близкими к естественным, «Марусе» помогают машинное обучение и нейронные сети.

Как ИИ работает в почтовых сервисах

В сервисах, которые давно знакомы пользователям, тоже есть искусственный интеллект — например, в почте. Привычный аккаунт, куда приходят квитанции ЖКХ, чеки за онлайн-покупки, документы, письма от коллег и друзей, весь пронизан технологиями машинного обучения. Современные сервисы используют для упрощения жизни пользователя и повышения безопасности его данных.

В Почте Mail.ru реализовано несколько таких решений. Одна из них — умная группировка писем. Благодаря машинному обучению сервис понимает смысл сообщения и отправляет его в нужную папку — «Социальные сети» и «Другие рассылки» (магазины, ЖКХ). Владельцу аккаунта не надо тратить время и скроллить ленту входящих, чтобы найти необходимое письмо.

Экономить время пользователя помогает и другой инструмент — технология быстрых ответов Smart Reply. Машина анализирует смысл сообщения и предлагает на выбор несколько вариантов ответа, подходящих под содержание конкретного письма. Кроме того, в почте реализованы возможности компьютерного зрения. Специальные алгоритмы самостоятельно распознают документы по соответствующим признакам: цветовое исполнение, знаки, узоры или линии, наличие лица, номера. При поиске система покажет необходимый файл, даже если в его названии или в связанном сообщении отсутствуют слова-маркеры.

Особое место в работе сервиса занимает безопасность данных пользователей. Весь процессинг почты непрерывно мониторят несколько мощных систем. Они работают на основе машинного обучения и моментально реагируют на любую попытку взлома. К примеру, нейронная сеть Marshal запоминает характерное поведение владельца почты на основе 100 параметров — когда он открывает аккаунт, откуда заходит. Если злоумышленник получит доступ к почтовому ящику, система определит, что пользователь действует не по своему привычному алгоритму, и ящик тут же заблокируется. Кроме того, у злоумышленников не получится подделать письмо якобы от имени известной компании — сервис выучил, как выглядят логотипы популярных магазинов, банков, так что преступники не узнают ни данные банковской карты, ни пароль от почты.

Где еще применяется искусственный интеллект

Сейчас активно применяется подход обучения ИИ с учителем. Однако цель многих компаний сегодня — научить машину наблюдать, делать выводы и развивать свои навыки без прямого сигнала от человека. Частично это уже реализовано. Так называемое обучение с подкреплением — например, нейронная сеть проходит уровни в компьютерной игре, совершает ошибки, получает какой-либо ответ от среды, а затем снова и снова пытается дойти до конца, и так миллионы раз. Недавний пример — разработка команды DeepMind: одно из подразделений Google представило миру искусственный интеллект AlphaStar (наследницу AlphaGo), способный играть в StarCraft II на уровне лучших мировых игроков. Некоторые специалисты уверены, что такие успехи в работе с ИИ в будущем помогут обучать роботов и управлять ими — например, Boston Dynamics, Amazon, китайская Meituan строят прототипы дронов для доставки товаров в труднодоступные места.

Еще одно важнейшее направление применения ИИ, которое, скорее всего, в ближайшее время появится в нашей жизни, — биометрия по лицу. Сейчас большое количество компаний по всему миру, включая Россию, активно работает над подобными технологиями. В скором времени они могут найти свое применение в аэропортах, банковских приложениях или на проходных бизнес-центров.

Несмотря на такие довольно очевидные предположения, важно отметить, что направление ИИ очень быстро развивается, так что прогноз по его развитию постоянно корректируется. Впрочем, одно сказать можно точно: пока такие технологии, в том числе компьютерное зрение, будут использоваться в дополнение к полезным сервисам: умные колонки, доставка с помощью дронов, магазины без касс, восстановление архивных снимков, автопилоты и биометрические приложения.

Источник

Нейросети для обработки изображений. Рассказывает Александр Савсуненко из Skylum Software

Александр Савсуненко шесть лет занимается созданием интеллектуальных систем, два из которых — в качестве старшего научного сотрудника Университета штата Нью-Йорк в Стоуни-Брук. Он разрабатывал интеллектуальные системы для анализа ДНК, работы с изображениями, маркетинга.

Сейчас Александр руководит AI Lab в Skylum Software, где занимается графическими редакторами на базе нейросетей. Мы спросили, какими из созданных сервисов он особенно гордится и зачем использовать нейросети в A/B-тестировании.

Как научить ии распознавать изображения. Смотреть фото Как научить ии распознавать изображения. Смотреть картинку Как научить ии распознавать изображения. Картинка про Как научить ии распознавать изображения. Фото Как научить ии распознавать изображения

Александр, расскажите о своей научной работе в Университете штата Нью-Йорк в Стоуни-Брук. Какие проекты вы там вели и были ли они связаны с искусственным интеллектом или Machine Learning?

Нет, они не были непосредственно связаны с ИИ и машинным обучением. Я занимался исследованием новых материалов на основе графена. Мы разрабатывали новый материал для 3D-печати, который бы проводил электричество. Тогда с помощью принтера с двумя соплами можно было бы печатать и корпус, и электронную разводку платы за один раз. Материал мы в итоге создали, и сейчас он продается.

После у вас был интересный проект в области машинного обучения — Let’s Enhance, сервис по улучшению качества фото. Расскажите, как удалось научить машину восстанавливать сжатые изображения?

Мы взяли изображения в хорошем качестве, получили из них сжатые и шумные и затем тренировали нейросеть, чтобы она научилась восстанавливать картинку в хорошем качестве. После обучения на таких парах нейросеть смогла самостоятельно повышать качество изображений: убирать пикселизацию, артефакты сжатия и другие дефекты.

Как научить ии распознавать изображения. Смотреть фото Как научить ии распознавать изображения. Смотреть картинку Как научить ии распознавать изображения. Картинка про Как научить ии распознавать изображения. Фото Как научить ии распознавать изображения
Источник фото

Что в этом проекте было самым сложным?

Думаю, поддерживать эту систему в produсtion. Когда вышли статьи в TechCrunch, Mashable о нашем сервисе, к нам полилось очень много трафика, и за сутки мы обработали около 200 тысяч изображений. Пришлось поработать над тем, чтобы наши серверы все это выдержали.

В прошлом году вышла версия Let’s Enhance 2.0. Что нового было в ней реализовано?

Мы изменили методику тренировки, loss-функцию, архитектуру сети. Если вы стремитесь повысить качество продукта, эти аспекты можно менять бесконечно.

Какова сегодня аудитория сервиса? Удалось ли его монетизировать?

Я ушел из Let’s Enhance.io почти год назад. Уже после этого, в июле 2018 года, стартап прошел в программу Techstars London и получил инвестиции от акселератора. Проект монетизировался практически сразу и вышел в прибыль.

В каких ИИ-разработках вы принимали участие? Какими из них особенно гордитесь?

У меня с коллегами был проект Titanovo по нутригенетике, который анализировал ДНК. Мы с помощью машинного обучения учились предсказывать физиологические маркеры и предрасположенности на основе полногеномного анализа и чипового генотипирования. Собирали данные из научных статей, статистику, формировали датасеты, учили модели, на их основе формулировали рекомендации для людей и предсказания об их здоровье в будущем — все это было построено на нечеткой логике, разных классификаторах. Сейчас появилось много проектов с использованием ИИ и ML по нутригенетике, по спортгенетике. Но мы были в числе первых. Материалы по этим разработкам можно найти в моем блоге на Medium.

Я экспериментировал с динамическими оптимизациями лендинг-страниц для маркетинговых команд, переложив теорию многоруких бандитов на нейросети. Делал скрипты с машинным обучением для оптимизации закупок трафика. И работа с изображениями, которую я веду сейчас, также связана с искусственным интеллектом. И я тоже ею горжусь.

Сейчас вы работаете над сервисами редактирования изображений. Каковы здесь функции нейросети?

В первую очередь распознавание образов. Самую большую роль ИИ играет в программе Photolemur от Skylum Software: благодаря машинному зрению эта программа может улучшать фотографии в один клик.

Как это происходит?

Загружаем фотографию, и сервис автоматически ее улучшает — нужно только сохранить. Никаких всплывающих окон, ползунков и режимов.

Для этого в первую очередь программе надо распознать тип изображения: портрет, ландшафт, городской пейзаж. А еще людей на снимке, здания и другие объекты, время суток, время года (если фото сделано на улице). Потом нужно произвести сегментацию изображения, выделить соответствующие зоны. В портрете, например, выделяются отдельные части лица: глаза, уши, ноздри и другие.

Потом все это нужно улучшить, и здесь искусственный интеллект уже не применяется. Снимок улучшается по зашитым алгоритмам, следуя тому, как обрабатывают такие снимки фотографы. Например, кожу сгладить, для неба увеличить контраст, белки глаз сделать светлее. Но это все вторично. А в первую очередь нужно сегментировать изображение.

Какие базы данных и алгоритмы использовались для обучения системы?

Говоря о фреймворке для разработки нейросетей, я предпочитаю MXNet — достаточно экзотический выбор на сегодня, но постепенно набирающий популярность. Главное преимущество — скорость вычислений и гибридный режим переключения между императивным и символьным режимами программирования нейросетей, это удобно. А вот названия датасетов и алгоритмов я не могу вам сказать, это коммерческая тайна проекта.

С какими трудностями вы столкнулись при создании интеллектуального графического редактора?

Технология еще не доросла, нейросети часто допускают ошибки: в распознавании образов и особенно в сегментации, когда речь идет о сложном изображении. Поэтому приходилось анализировать результаты и править с помощью традиционных методов и стандартных алгоритмов. Пока невозможно построить систему, которая бы от начала до конца делала все исключительно с помощью нейросети. Ну и, конечно, при работе на конечном устройстве пользователя нужно учитывать сложность сети — вычисления на CPU достаточно медленные, CUDA-enabled GPU есть не у всех, а OpenCL недостаточно хорошо поддерживается.

Какое изображение берется за идеальный вариант?

Над этим работает наша команда Quality Assurance, которая уделяет особое внимание финальному качеству изображений. Поскольку и наши фоторедакторы, и камеры постоянно меняются, то невозможно зафиксировать некий идеальный вариант, ведь он постоянно меняется.

Какова аудитория этих продуктов? Удается ли «переманивать» пользователей Adobe?

Наш флагманский продукт Luminar — это новая альтернатива Adobe Lightroom. За счет маленькой и сплоченной команды удается внедрять новые технологии в продукт значительно быстрее и постоянно привлекать новых пользователей. Luminar отлично подходит как начинающим, так и профессиональным фотографам, поскольку совмещает в себе инструменты для редактирования в один клик и полный набор функций для более детальной работы с фото.

Как научить ии распознавать изображения. Смотреть фото Как научить ии распознавать изображения. Смотреть картинку Как научить ии распознавать изображения. Картинка про Как научить ии распознавать изображения. Фото Как научить ии распознавать изображения
Интерфейс Luminar. В статье идет сравнение работы в Luminar и Photoshop

А вот Photolemur — уникальный и достаточно молодой продукт, ему чуть больше года. Его целевая аудитория — люди, которые не хотят разбираться во всех слайдерах и кнопках Photoshop, а просто хотят, чтобы их фотографии из отпуска быстро стали красивыми. Нам удалось найти свою аудиторию: продажи идут и продуктом активно пользуются.

Вы также занимаетесь проектами, которые развивают нейронные сети для оптимизации целевых страниц. Расскажите подробнее об этой работе.

Это классическая задача, когда нужно провести A/B-тестирование лендинг-страницы. Если генерировать отдельные страницы для всех возможных элементарных вариантов, их может получиться миллионы версий. И чтобы получить статистически значимый результат при классическом подходе, нужно провести попарное A/B-тестирование всех этих вариантов. Для этого требуется невероятное количество трафика. Такое масштабное тестирование могут себе позволить компании только с очень крупными ресурсами, Amazon, например.

А если небольшая компания хочет проверить много вариантов, то можно делать A/B-тестирование с помощью нейросетей, работающих на обучении с подкреплением. Тогда, по сути, заполнение страницы элементами отдают в руки нейросети и назначают ей в качестве задачи повышение конверсии страницы. В таком варианте работы нейросеть крутится на сервере и обучается параллельно с тем, как идет трафик. И в итоге гораздо быстрее находит оптимальный вариант лендинга.

Если еще немного усложнить, то ИИ научится показывать версии лендинг-страниц, которые персонализированы для конкретного пользователя. Потому что мы сообщаем еще и дополнительную информацию: браузер, время суток, операционная система. Соответственно, пользователь видит страницу, которую ему демонстрирует нейросеть, и трафика при таком методе нужно привлекать значительно меньше. Конечно, идеальное попадание не гарантировано, зато страница гораздо быстрее даст хорошие показатели.

Об использовании нейросетей для визуального контента и оптимизации лендингов Александр расскажет 14 ноября на AI Conference Kyiv. Список остальных спикеров и программу мероприятия смотрите на официальном сайте.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *