какой контент при модерации будет определен как

Роскомназдор. Или как работает модерация контента в рунете

какой контент при модерации будет определен как. Смотреть фото какой контент при модерации будет определен как. Смотреть картинку какой контент при модерации будет определен как. Картинка про какой контент при модерации будет определен как. Фото какой контент при модерации будет определен как

какой контент при модерации будет определен как. Смотреть фото какой контент при модерации будет определен как. Смотреть картинку какой контент при модерации будет определен как. Картинка про какой контент при модерации будет определен как. Фото какой контент при модерации будет определен как

уупс. Я так предполагаю что как раз это окно доп информации даже не смотрел никто. Мне дали ответ, да отьебитесь, у нас важнее дела есть, типа телегу блокать и азино777. Мне стало очень обидно за мою работу. Да и то что я им направил блокировать надо срочно. Поэтому была направлена жалоба:

23.07.2018 мною через форму http://eais.rkn.gov.ru/feedback/ было отправлено 6 запросов на блокировку групп в соц.сети ВК. Групп было очень много, поэтому как основной блокируемый сайт я указал https://vk.com а сами группы были указаны в комментариях. Это группы суицидального, сатанинского, экстремистского содержания, которые подлежат немедленной блокировке. Однако вчера пришла отписка, что на сайте https://vk.com не найдено материалов для блокировки. Подозреваю, что содержание коментариев просто никто не читал. Этих групп в списке очень много, и чтобы скинуть их на блокировку по отджельности уйдет целый день. Прошу подойти к этому вопросу не с точки зрения бюрократии, а все же передать в работу специалистам все группы, указанные в комментариях к запросам.

Как говорится будем подождать и будем посмотреть. Ну и в окончанни поста собственно ссылки на группу, которые я послал на блокировку. Сразу предупреждаю, особо не увлекайтесь, контент очень депрессивный, на мозги давит. И это все в свободном доступе.

Источник

Краткий справочник по модерации интернет-контента

какой контент при модерации будет определен как. Смотреть фото какой контент при модерации будет определен как. Смотреть картинку какой контент при модерации будет определен как. Картинка про какой контент при модерации будет определен как. Фото какой контент при модерации будет определен как

Редактор направления Истории

Как наши любимые сервисы решают, какие публикации имеют право на существование, а какие нужно удалять? Партнер фонда Homebrew и бывший сотрудник YouTube Хантер Уок (Hunter Walk) поделился своим опытом и знаниями о модерации пользовательского контента.

Поскольку Facebook, Twitter и YouTube недавно объявили о наборе кадров в команды по модерации контента (пусть и в разном объеме), я решил немного рассказать о том, как устроена работа таких систем. Большая часть этой статьи основана на моем личном опыте в YouTube, однако подход других компаний к этим вопросам идентичен. Я буду говорить в первую очередь о пользовательском, а не рекламном контенте. Логично, что к рекламе должны применяться немного другие стандарты. То, что я расскажу, применимо к текстам, изображениям и видео/аудио, которые может создать и опубликовать обычный пользователь.

Что нужно понимать под модерацией контента

Модерация, или проверка, контента – это термин, который применяется к контенту (тексту, изображениям, аудио, видео), который загружают, публикуют и распространяют пользователи социальных платформ. Его нужно отличать от рекламных или редакционных материалов (то есть контент, который помогает продвигать товары или сообщать новую информацию, если такая функция существует на платформе), которыми обычно занимаются отдельные команды с собственными стандартами проверки.

Задача большинства платформ модерации контента – претворение в жизнь Стандартов сообщества или Пользовательского соглашения, в которых оговорено, что можно и что нельзя публиковать на платформе. Как легко догадаться, в этой области множество белых, черных и серых областей, поэтому специалисты проходят специальную подготовку, учатся принципам и правилам принятия решений.

На каком этапе в процессе участвуют люди

Было бы очень странно (и неправильно), если бы люди 1) проверяли весь контент, опубликованный на сайте, и 2) проверяли контент до публикации – то есть «одобряли» контент, прежде чем пользователь сможет его опубликовать.

Вместо этого компании широко используют специальные алгоритмы проверки контента, которые берут на себя большую часть тяжелой работы. Алгоритмы пробуют «распознать» контент. На этапе создания можно выделить определенные сигналы – кто загружает контент (история аккаунта или ее отсутствие), геолокация, сам контент и другие метаданные. После публикации контента происходит сбор новых данных – кто его просматривает, жалуются ли на него другие пользователи, делятся ли им и другие параметры.

Эти более информативные сигналы также поступают на вход алгоритма, который уточняет свое решение о том, подходит ли контент сайту. Большинство таких систем позволяют другим пользователям отмечать данные специальными метками, что сильно влияет на решение алгоритма.

В общем случае можно считать, что каждое сообщение в определенный момент времени принимает зеленый, желтый или красный цвет. Зеленый цвет означает, что такое может существовать на сайте. Желтый цвет означает, что алгоритм пока не определился. А красный означает, что этим материалам не место на сайте. Каждая из этих меток непостоянна и неидеальна. Ложные срабатывания и пропуски случаются постоянно.

Недостаточно определять эффективность политики по оценке контента только качеством используемых технологий. На самом деле решения принимаются людьми, но при поддержке программного кода. Менеджмент должен задавать границы между зеленым, желтым и красным цветом. Нужно определить, будут ли новые пользователи по умолчанию считаться доверенными. Нужно задать очередность, с которой объекты из разных категорий будут проходить ручную проверку. И здесь в дело вступают люди…

Что такое очередь на проверку?

Люди помогают создавать обучающие наборы для алгоритмов, однако их главная задача – постоянно заполнять очередь проверки записями, которые выдал алгоритм. Очередь обычно разбивается на несколько потоков в зависимости от приоритетности проверки (например, «срочное», «для проверки в реальном времени» и т.д.) и характеристик проверяющих – люди могут быть обучены проверке разных типов контента, говорить на разных языках и т.д. Это сложная система со встроенной логикой, которая устроена как фабрика.

Объем контента, поступающего в очередь на проверку, определяется общим объемом контента, публикуемого на платформе, и порогами, после которых требуется вмешательство человека. На скорость проверки влияет количество проверяющих, их способности/обучение и эффективность используемых ими инструментов.

Таким образом, если вы слышите, что «объявлен набор десяти тысяч новых модераторов», на это могут быть две причины. Во-первых, может вырасти количество записей на проверку (то есть порог снижается, и вручную будут проверять больше записей). Во-вторых, контент в очереди будет проверяться быстрее (объем контента не изменится, но специалистов станет больше).

Для компаний это вообще важно?

Да, но обработка контента – это скорее источник затрат, а не прибыли, поэтому часто расходы таких отделов жестко оптимизируют и ограничивают в ресурсах.

Да, но обработка контента часто воспринимается как стартовая работа для будущих менеджеров по продукту, дизайнеров и инженеров, так что эти отделы часто состоят в основном из молодежи и не имеют серьезного влияния на общий ход работы, а каждые один-два года кадровый состав полностью обновляется.

Да, но нехватка разнообразия точек зрения и рассогласование интересов среди старшего руководства часто приводит к тому, что истинный ущерб (для бренда, для пользовательского опыта) в случае появления на платформе «злокачественного» контента часто недооценивается.

Источник

Модерация

Модерация — что это такое? В мире маркетинга модерирование служит жизненно важной частью повышения репутации бренда, безопасности и лояльности клиентов, взаимодействия с ними. Определение слова «модерация» включает в себя мониторинг и управление контентом, создаваемого другими пользователями, посредством реализации набора заранее подготовленных правил и рекомендаций.

Что такое процесс модерации

Владельцы бизнеса, которые плохо знакомы с миром модерации пользовательского контента, часто ищут значение терминов «модерация сайта» или «кто такой модератор», чтобы получить информацию об областях, которые охватывают эти понятия.

Когда дело доходит до модерирования контента, контроль и возможности управления действиями аудитории примерно одинаковы для всех типов социальных платформ и цифровых сообществ. Это означает, что их основная цель — одна и та же.

От текстового контента, рекламы, изображений, профилей и видео до форумов, онлайн-сообществ, страниц в социальных сетях и сайтов, цель всех типов модерации контента — поддерживать доверие к бренду и обеспечивать безопасность для всех обитателей интернет-пространства.

Масштабируемый процесс управления различными онлайн-сообществами очень важен. Особенно это полезно для брендов, которые проводят большое количество рекламных кампаний и стремятся расширить свою онлайн-аудиторию фолловеров и приверженцев. Репутацию компании легко подорвать серией ложных отзывов и заявлений. Кто-то может даже сказать, что хорош любой PR, кроме некролога, но все же лучше предотвратить любые возможные убытки, чем сдерживать скандалы, вызванные одним постом в Фейсбуке или гневным обзором, например, в Яндекс.Маркете.

Клиенты обладают гораздо большей властью и влиянием, чем многие привыкли считать. Это объясняет, почему социальные платформы, сайты тематических обзоров и рекомендаций, которые базируются на сообщениях конечных пользователей, считаются надежными и заслуживающими доверия источниками, когда кто-то хочет узнать больше о конкретной компании или услуге.

Как работает модерация контента

Любой процесс модерации контента может быть выполнен либо путем найма людей для проверки сообщений пользователей вручную, либо с помощью искусственного интеллекта. Это зависит от следующих факторов:

Для любого типа модерации должно быть руководство, в котором перечисляются объем и ограничения на регулирование контента, предоставляемого пользователями. Например, бренд или клиент прямо запрещают использование слов или терминов, связанных с терроризмом, наряду с фразами, подразумевающими сексуальную активность. Тот, кто отвечает за отслеживание сообщений подписчиков и участников онлайн-сообщества — moderator, будет использовать это руководство как основу для определения применимых методов модерации.

Если дать краткое определение понятия, что делает модератор, то это выглядит так — каждое сообщение тщательно проверяется, затем решается, какой контент разрешить, какой должен быть заблокирован или требует дальнейшего изучения. Пользовательский контент, который является откровенно оскорбительным и нарушает принципы сообщества, удаляется модератором.

Помимо модерации, осуществляемой человеком, искусственный интеллект или ИИ также можно использовать для управления и регулирования контента на онлайн-платформах и бизнес-сайтах. С момента своего появления ИИ произвел настоящую революцию в модерации контента для сообществ, которые работают с большими объемами пользовательского контента.

Модерация на основе искусственного интеллекта использует машинное обучение для точной проверки текстов. Машинное обучение для модерации контента управляет процессами назначения и ввода групп информации — таких, как ключевые слова, фразы, образцы изображений или видео, а также правила публикации. Набор информации и ссылок для модерации также называется базовой моделью.

Модерация на основе искусственного интеллекта требует обширных базовых моделей. Потому что, в отличие от модераторов-людей, машинный разум имеет ограниченные возможности с точки зрения оценки и определения намерений пользователя. Он будет работать только в условиях, которые изначально запрограммированы человеком для мониторинга и оценки, и не способен принимать самостоятельных решений.

Типы модерации контента

Различные бизнес-требования, отраслевые стандарты и пожелания клиентов влекут за собой разные формы модерирования контента. Выбор методов модерации контента также может зависеть от онлайн-сообщества, которому требуется, например, модератор группы. Следует провести тщательную проверку, чтобы убедиться — тот ли тип модерации, что соответствует требованиям бизнеса, выбран, и тот ли вид присутствия в Интернете определен и поддерживается на данный момент.

Премодерация

Премодерация — это сокращенное слово от фразы «предварительная модерация». Означает оно предварительную работу модератора для проверки контента, отправленного пользователем, прежде чем это сообщение станет общедоступным. От комментариев и обзоров продуктов или услуг до мультимедийного контента — все это проверяется, чтобы обеспечить надежную защиту онлайн-сообщества от любых потенциальных проблем, которые могут поставить под угрозу клиентов и бизнес. Каждый текст, поступивший от пользователя, получает статус «ожидает модерации» или «на модерации», и виден только модератору для проверки.

Премодерация идеально подходит для компаний, которые хотят сохранить свою репутацию и продвигать бренд в Интернете. Есть и минусы — при премодерации невозможны беседы и обсуждения в реальном времени. Поскольку утверждение сообщений, созданных пользователями, исключает возможность немедленной их публикации.

Постмодерация

Что означает слово «постмодерация»? В буквальной трактовке это — отложенное модерирование. В отличие от премодерации, постмодерация способствует текущим обсуждениям от членов онлайн-сообщества. Поскольку контент проверяется позже, он предварительно не модерируется и публикуется сразу. Такой вариант модерирования лучше всего подходит для сайтов, где есть каналы в социальных сетях, форумы и другие формы активных онлайн-сообществ.

Как правило, модераторы используют специальный инструмент — панель управления, которая позволяет дублировать каждое сообщение и более внимательно изучать его содержание. После проверки можно быстро решить, сохранить или удалить сообщение. Здесь важно соблюдать баланс — если сообщество быстро увеличится, например, вдвое, объем проверяемого контента может легко превысить возможности модератора. Поэтому для растущих онлайн-групп лучше заранее планировать постмодерацию силами нескольких человек или же пользоваться услугами искусственного интеллекта.

Распределенная модерация

При распределенной модерации используется система рейтинга, которая позволяет членам сообщества отдавать свои голоса за определенные материалы. На основе оценок всех участников и среднего балла в процессе голосования определяется, соответствует ли контент, представленный другими пользователями, правилам сообщества или нет. Обычно голосование проходит под контролем модераторов сайта.

Большие компании редко доверяют модерацию контента своим пользователям из-за рисков, которые это несет с юридической точки зрения. Распределенная модерация способствует более активному участию и вовлеченности, но не гарантирует полной безопасности или более быстрой публикации в режиме реального времени. Поэтому такой тип больше подходит для малых предприятий. Использование распределенной модерации, обеспечиваемой участниками онлайн-сообщества, эффективно увеличивает уже существующие ресурсы за счет снижения трудозатрат и дополнительных издержек.

Эмоциональная модерация

Этот тип модерации также зависит от мнения конечных пользователей, но функционирует не на основе голосования. Эмоциональная модерация предполагает, что пользователи активно удаляют и отмечают только «неправильные» сообщения — все формы неприемлемого контента, размещенного на сайте. Бренду требуется лояльная и целеустремленная аудитория, чтобы использовать все преимущества эмоциональной модерации. С помощью преданной аудитории можно эффективно избавляться от сообщений, которые наносят ущерб другим пользователям или бизнесу в целом. Пример тому — часть системы модерации в Фейсбуке, где каждый пользователь может пожаловаться на неприемлемый контент.

Автоматическая модерация

Автоматическая модерация работает с использованием специальных приложений для модерации контента. Они применяются для фильтрации определенных оскорбительных слов, спама или мультимедийного контента. Так обнаружение неприемлемых сообщений становится более простым. С помощью автоматической модерации можно также блокировать IP-адреса пользователей, которые размещают неподобающий контент.

Но отсутствие человеческого суждения и опыта часто ограничивает цифровые сервисы, модерирующие пользовательский контент. Например, полностью исключаются рассуждения и более глубокий уровень интерпретации сообщений. Если пользователь рассуждает о недопустимости мата и использует какое-то «стоп-слово», его сообщение будет автоматически забанено, хотя само по себе оно не несет оскорбительного подтекста. Также пользователи могут пользоваться выражениями, которые не попадают в фильтр ненормативной лексики, но по сути таковыми являются — и такие сообщения приложения пропускают как приемлемые и безопасные. Поэтому рекомендуется все-таки включать дополнительную ручную модерацию в дополнение к автоматической. Так вы сможете быть полностью уверены в качестве контента.

Кто такой модератор и что он должен уметь

Это человек, который отвечает за все процессы тщательной проверки и модерирует все виды пользовательских сообщений, цифровые платформы и сайты для безопасности всего онлайн-сообщества. Задача — сложная и деликатная. Поэтому следует поручать её опытным и знающим специалистам.

Модерация — это не всегда только контент. Это также люди, которые отвечают за качество аудитории в Интернете. Модераторы придерживаются принципов и целей, определенных конкретной компанией или брендом. Они несут ответственность за обеспечение полной защиты бизнеса и конечных пользователей от вредоносных, оскорбительных сообщений или мошеннических предложений. Иными словами, это сотрудники, стоящие за процессами по проверке контента, созданного пользователями. Они дают зеленый или красный свет сообщениям других людей, а также имеют право удалять или блокировать участников, которые нарушают внутренние правила или угрожают другим пользователям.

Хороший модератор контента должен обладать аналитическими навыками и внушительным опытом участия в онлайн-сообществах. Будь то страницы в социальных сетях, группы в Facebook, блоги или форумы — понимание того, как люди ведут себя, устанавливают связи и обмениваются информацией в Интернете, позволяет принимать более правильные решения.

В дополнение к этому, важны и адекватные знания особенностей работы с теми платформами, которые используются в компании, грамотный русский язык и широкий словарный запас. Благодаря этому эффективные модераторы не только проверяют сообщения участников, но и могут способствовать полноценному и значимому взаимодействию между конечными пользователями.

Источник

Модерация текста: уроки этикета от Data Scientist’a

С этой статьи мы начинаем публикацию серии статей про Data Science задачи, которые мы решаем в Центре Развития Финансовых Технологий Россельхозбанка.

В прошлом году Россельхозбанк объявил о создании и развитии экосистемы для предприятий агропромышленного комплекса. Для одной из базовых площадок экосистемы — Своё Фермерство мы решили сделать пару полезных задач, о которых расскажем ниже.

какой контент при модерации будет определен как. Смотреть фото какой контент при модерации будет определен как. Смотреть картинку какой контент при модерации будет определен как. Картинка про какой контент при модерации будет определен как. Фото какой контент при модерации будет определен как

Площадка Своё Фермерство является маркетплейсом товаров для сельхозпроизводителей от крупнейших поставщиков со всей России. Площадка включает в себя товары самых приоритетных для фермеров категорий: средства защиты растений, удобрения, семена, сельхозтехника и т.д. Тысячи поставщиков загружают информацию о своих товарах с целью продажи. И, конечно же, необходимо реализовать процесс проверки качества загружаемого контента. В связи с этим мы решили создать свой инструмент премодерации текстовой и графической информации.

Что делали?

В этой статье мы расскажем о том, как в рамках сотрудничества с Лабораторией МФТИ, специально созданной под задачи Банка, разработали инструмент, позволяющий с высокой точностью премодерировать текстовый контент.

Наша цель звучала довольно просто — созданный нами инструмент должен автоматически относить текст к приемлемому для размещения на площадке (класс 0) или неприемлемому (класс 1). В случае если алгоритм не может четко понять к какому классу относится текст, то его (текст) отправляем на ручную модерацию.

Имеем задачу обработки текста: хотим фильтровать “токсичные” во всех смыслах тексты, а именно: ругательства, оскорбления, различный контент, запрещенный законодательством, да и просто текст, неприемлемый к размещению на площадке.

Мы ожидаем, что разработанный нами алгоритм будет принимать на вход набор текстов и выдавать число от 0 до 1 — степень или вероятность “токсичности” текста. Чем ближе это число к единице, тем токсичнее комментарий.

Надо отметить, что задача детектирования токсичных текстов совершенно не новая и является довольно популярной в англоязычном сегменте. Несколько лет назад похожая задача решалась в рамках соревнования Toxic Comment Classification Challenge на Kaggle. Для русского языка решение должно получаться аналогичным образом, но качество модели может оказаться ниже из-за того, что русский язык структурно сложнее английского.

В открытом доступе есть всего один размеченный русскоязычный датасет для поиска токсичности в тексте. Также нам удалось найти датасет для поиска оскорблений (частный случай токсичности). Плюс ко всему, мы собрали примеры объявлений с сельскохозяйственных порталов и разметили их как приемлемые (класс — 0).

Поставленная нами задача оказалась довольно уникальной в плане заданной сельскохозяйственной тематики. Её специфика заключается в том, что фразы, которые в обычной жизни являются оскорблениями не всегда являются таковыми, когда речь идет о сельском хозяйстве. Из банальных примеров можно привести следующие: “Не суй свое рыло” – текст явно неприемлемый, в то время как текст со “свиным рылом” вполне себе можно разместить на площадке (хоть и зависит от контекста). Тоже самое относится к определённым подвидам сельскохозяйственных животных и растений.

Если говорить о решении подобных задач классификации текста, то, на самом деле, даже самые простые модели (линейные) уже дают хороший результат. Но, как и всегда, для достижения более высокого качества, мы будем использовать нейронные сети. Самой популярной архитектурой (на момент написания этой статьи) для решения подобных задач является BERT. На момент соревнования на Kaggle, упомянутого выше, этой архитектуры не существовало, поэтому использовались другие. Однако, позднее эта задача была успешно решена с помощью BERT’a.

Как делали?

Перейдём к самой интересной части — решению задачи. Немного поразмыслив над “архитектурой” инструмента, мы решили использовать три модели: поиск по словарю (как фильтр обсценной лексики), логистическую регрессию (в качестве базового решения) и BERT (в качестве более продвинутого).

Общая схема

какой контент при модерации будет определен как. Смотреть фото какой контент при модерации будет определен как. Смотреть картинку какой контент при модерации будет определен как. Картинка про какой контент при модерации будет определен как. Фото какой контент при модерации будет определен как

Общая схема решения выглядит примерно следующим образом: внутри “чёрного ящика” текст сначала попадает в наивный классификатор, в основе работы которого лежит словарь обсценных слов (бранных выражений), здесь сразу отсекаются тексты, содержащие “плохие” слова (их токсичность всегда равна одному (1). Тексты, прошедшие первый этап, попадают в более сложную нейросетевую модель, которая и выдаёт степень их токсичности. В случае сбоя нейросетевой модели, ее заменяет более простая — логистическая регрессия. То есть какой-нибудь не наивный результат мы получим в любом случае.

Теперь давайте рассмотрим каждую компоненту подробнее.

Наивный классификатор

Здесь все совсем просто: по словарю обсценной лексики довольно легко понять, содержится ли в тексте то или иное “плохое” слово или нет.

То есть на данном этапе можно даже обойтись без ML-модели как таковой и сразу отсеять тексты, в которых есть “плохие” слова. Но что, если в тексте таких словарных слов не используют, но текст, тем не менее, является неприемлемым для размещения на портале? Попробуем решить эту задачу с помощью логистической регрессии и BERT’a.

Логистическая регрессия

Простейшая модель позволяет предсказывать значение, на основе имеющихся данных. Вектора текстов для данной модели получаются при помощи TF-IDF и TweetTokenizer’а из nltk. Такая модель, как известно, позволяет оценить вероятность токсичности текста с помощью логистической функции. В нашей архитектуре логистическая регрессия “страхует” нейросеть.

Великий и ужасный BERT

Мы использовали предобученную модель RuBert от DeepPavlov, которую дообучили на размеченных текстах. Процесс предсказания, не вдаваясь в детали, выглядит следующим образом:
какой контент при модерации будет определен как. Смотреть фото какой контент при модерации будет определен как. Смотреть картинку какой контент при модерации будет определен как. Картинка про какой контент при модерации будет определен как. Фото какой контент при модерации будет определен как

Мы строили-строили и наконец построили!

Качество мы оценивали излюбленными метриками Accuracy, ROC-AUC и F1-мера. Итоговые метрики качества на отложенной выборке получились следующими:

Алгоритм / МетрикаNaiveBERTLR Naive → BERTNaive → LR
Accuracy0.8540.9010.8650.9090.879
ROC-AUC0.7820.9600.921 0.9630.939
F1-мера0.7220.8400.800 0.8550.824

2800 текстов в минуту на GPU (GeForce 1080Ti) в случае отработки BERT’а, как самого медленного алгоритма из представленных.

Как и ожидалось, c BERTом метрики получились чуть лучше, хоть и не сильно.

Какие мы сделали выводы

В заключении, хотелось бы отметить несколько важных аспектов, без которых, по нашему мнению, нельзя запускать подобные решения в промышленном режиме.

В следующей статье мы поделимся своим опытом при премодерации изображений всё на той же площадке нашей экосистемы — Своё Фермерство.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *