• РЕГИСТРАЦИЯ

Центр прикладного ИИ Сколтеха фильтрует сетевой контент, надежно определяя создан текст машиной или человеком

4 209

Наши люди живут с надежной проверенной опытом установкой, - подобное исправляется подобным. Метод придуман ещё древними латынянами и кочует от народа к народу в известной поговорке «Similia similibus curantur» («подобное излечивается подобным»). Наш российский народ в этом методе ни разу не разочарован: болит голова после пьянки, - надо пьяным вином/пивом опохмелится. Можно конечно по медицинским показаниям разбавить кровь гемодезом или ещё каким заменителем, но оно все равно на то и выходит, - жидкость жидкостью вытесняют. И что интересно, этот метод у нас и в технической сфере применим, вот и в Сколтехе рассудили здраво ИИ-модели машинного обучения надо ИИ-фильтром сортировать, отделяя текстовые симулякры от авторских письмен.

Проблема то ведь далеко непраздная. Из-за быстрого развития больших языковых моделей, которых уже пруд пруди и от больших ИТ-компаний, и частных вариаций ИИ-джипити_чатов. Поэтому "люди все чаще сталкиваются с текстами, часть которых написана человеком, а часть сгенерирована машиной. Между тем есть ситуации, когда, например, необходима атрибуция авторства и важно четко определить семантическую границу между текстом созданным человеческим трудом и созданным машинным ИИ".

Вот этим и озадачился исследовательский коллектив Центра прикладного ИИ Сколтеха, установив различие и сходство работы ИИ моделей семейства BERT (ALBERT, RoBERTa и DistilBERT). Это самые популярные на сегодняшний день трансформеры основанные на принципе энкодер-декодера (обучение/воспроизводство), простая двунаправленость моделирования языка по маске и для предсказания следующего предложения в так называемых контекстуальных представлениях слов.

Сколтеховцы взяли за основу своего подхода известную меру в теории информации, именуемую перплексией и показывающую, насколько хорошо распределение вероятностей предсказывает выборку. Создали свой алгоритм исследования предсказуемости текста и отлично получилось выявлять разницу между между машинными текстами и человеческим творчеством. Там где высокая перплексия — это текст с сюрпризом на каждом шагу, что обычно свойственно человеческому письму. Низкая перплексия означает более предсказуемую структуру, что часто встречается в машинном тексте.

Добившись успеха у себя в Сколтехе представили доклад посвященный результатам исследования, на конференции по языковому моделированию, организованной Университетом Пенсильвании в Филадельфии, США. Выступление было встречено овацией, а статья получила Outstanding Paper Award — награду за лучшую статью "AI-generated text boundary detection with RoFT". Ещё один хороший пример того, что нельзя изолировать Россию на научном поприще. наша наука была и остается востребованной у научной общественности во всём мире.

Облачный серфер Интернета. Библиотаф, жаден до книг. Дискурсмонгер ИИ.

    Кого успели купить в Госдуме? Агенты вражеской разведки названы по именам

    Кого успели купить в Госдуме? Агенты вражеской разведки названы по именамКого успели купить в Госдуме? Агенты вражеской разведки названы по именам. Журналист Владимир Хомяков в своей ст...

    О приёме Украины в НАТО

    Сейчас много говорят о возможном (или невозможном) приёме Украины в НАТО. Зеленский утверждает, что только приём Украины в НАТО может стать достойной гарантией безопасности, компенсирую...

    Академические итоги войны России с НАТО

    Вряд ли надо кому-то доказывать, что так называемая СВО на Украине, задумывавшаяся как ограниченная по масштабу и срокам операция, по факту вылилась в войну России с НАТО на украинской ...

    Ваш комментарий сохранен и будет опубликован сразу после вашей авторизации.

    0 новых комментариев

      sapere_auditor 21 февраля 19:10

      Новация щита и меча сетевой российской информационной безопасности

      Такое сложное понятие как информационная безопасность (ИБ) в первом приближении оказывается легко представимым, что это просто средства защиты от угроз и системы нападения на источники угроз. На самом деле все гораздо сложнее, нет даже какой-то единой классификации, точнее их предложено много, есть даже некие ведомственные стандарты уровней информационной безопасности...
      125
      sapere_auditor 20 февраля 15:20

      Как всегда, мы долго запрягаем в информационную безопасность тоже, - зато потом всех найдем, поймаем и как им всем покажем кузькину мать

      Власти подготовили поправки против телефонных и интернет-мошенников. Эксперты называют документ самым объемным за последние годы, но предупреждают: злоумышленники постоянно адаптируются и находят новые способы обхода закона. А почему так отстаем от не самой передовой технической мысли, как мы дошли до такой дезадаптации подготовки к противодействию мошенникам?? Не гот...
      125
      sapere_auditor 14 февраля 14:40

      Гранды ИИ-индустрии выдумывают новые поводы привлечения инвесторов потому что прежние подходы себя уже скомпроментировали

      Сэм Альтман возглавляющий OpenAI заявил, что объединение LLM и LRM может принести новые научные знания. Обучение все более крупных языковых моделей (LLM) с использованием все большего количества данных заходит в тупик. По словам генерального директора OpenAI Сэма Альтмана, объединение «гораздо больших» предварительно обученных моделей с возможностями рассуждения (LRM)...
      306
      sapere_auditor 1 февраля 23:40

      Киберпреступники начали продавать электротехнику на маркетплейсах... с программными закладками

      Все прекрасно помним, как Израиль заминировал пейджеры «Хезболлы» и затем коварно воспользовался этим тайным преимуществом, взрывным методом дезорганизовав силы и структуры этой организации. Как говорится, дурной пример - заразителен, и всегда найдутся подражатели, что и незамедлило случиться. Киберпреступники в разных странах мира уже могут продавать заражённую вирус...
      1234
      sapere_auditor 24 января 14:27

      Мнения экспертов: Россия и искусственный интеллект

      К настоящему времени 54% российских компаний, входящих в топ-300 внедрили хотя бы по одному ИИ-решению в бизнес-процессы. ChatGPT при этом начал сдавать, поскольку организации предпочитают наработки родного финтеха. Особенно эффективны модели, основанные на ведущих открытых LLM и дообученные на русском языке. Они лучше всего подходят для решения задач бизнеса. По мнен...
      218
      sapere_auditor 21 января 13:36

      Apple вернулся к идее выпуска собственных телевизоров

      Идея состоит в том, чтобы создать плацдарм в доме с помощью устройства, которое станет базой экосистемы Apple HomeKit и будет работать под управлением новой операционки homeOS.Зачем, спросите вы? Развернутый ответ дает Bloomberg.Apple до сих пор очень сильно зависит от Китая в плане производства, что может стать довольно болезненной точкой, на которую сможет давить Тр...
      160
      sapere_auditor 17 января 16:13

      Крах олигарха Гусинского

      Начавшееся в 2000 году правление В. В. Путина ознаменовалось упразднением Семибанкирщины - российского олигархического объединения. Эта группа крупнейших представителей российского финансового бизнеса (т. н. олигархов), играла значительную политическую и экономическую роль. Объединяла владельцев СМИ, банковских активов и неформально объединившихся, несмотря на внутрен...
      390
      sapere_auditor 14 января 14:35

      США вознамерились душить поставки ИИ-процессоров в Россию и Китай и совсем запретить продажу закрытых ИИ-моделей

      Что-то похожее уже было, только с автомобилями, получилось что США прострелили себе ноги/колеса, а Китай нарастил производство и много где вытеснил штатовскую технику с рынка, в том числе и в РФ. Тем не менее США уже представили новые правила экспортного контроля, которые регулируют передачу и продажу в другие страны процессоров для обучения искусственного интеллекта....
      207
      sapere_auditor 2 января 19:15

      Предновогодняя история в лаборатории подотчетности искусственного интеллекта

      Совсем некрасивая история была затеяна хакером со товарищи чтобы получить престижную премию в области искусственного интеллекта. Чувак подался в стажеры холдинговой компании ByteDance (тех самых китайцев что владеют TikTok, платформой Xigua, новостными агрегаторами Toutiao и BaBe, социальной сетью Helo) вместо того чтобы следовать корпоративным правилам, целенапр...
      200
      sapere_auditor 30 декабря 2024 г. 14:20

      Технологические прорывы 2024 и участие в них РФ

      7 главных технологических прорывов 2024 года: выбор CNews Любая инновация сначала переживает период «хайпа», а затем неизбежно проваливается в «яму разочарований». Если бы существовал отдельный аналитический отчет о тех разработках, что так и остались на дне ямы, он, пожалуй, стал бы самым мрачным артефактом в мире ИТ. Лишь немногим удается оттолкнуться от дна и выйти...
      264
      sapere_auditor 19 декабря 2024 г. 16:04

      Китайская «игра в прятки с ИИ–чипами» бьёт экспортный контроль США

      Исследование Университета Беркли спускает в унитаз стратегию США по сдерживанию Китая в области ИИ.В этом исследовании в деталях и на конкретных примерах показывается, что Китай разработал сверхэффективную систему на стыке разведки, технологий, логистики и межотраслевой координации. И эта система обесценивает любые ужесточения экспортного контроля высокопроизводительн...
      225
      sapere_auditor 6 декабря 2024 г. 15:04

      ИИ-робота на базе LLM так же легко взломать, как чат-бота

      Нашумевшая новость недели, жители московского района Печатники увидели на улицах механического пса, с нанесенной на корпус рекламой даркнет - платформы. При этом робот соблюдал правила пешеходного движения пересекал пешеходные переходы подчиняясь сигналам светофоров. Тем не менее люди проявили ответственность и сообщили в полицию о необычном "пешеходе". Полиция остано...
      274
      sapere_auditor 2 декабря 2024 г. 11:21

      Канадские СМИ подали в суд на OpenAI за ... воровство контента

      Пять канадских медиакомпаний,среди которых Globe and Mail, Toronto Star и Канадская телерадиовещательная корпорация (CBC), подали иск против OpenAI, утверждая нарушение авторских прав и условий использования для обучения ChatGPT.  Канадцы усвоили пример владельцев контента из США редакции газеты New York Times (NYT), кстати подавшей иск ещё в 2023 году, но сразу про...
      292
      sapere_auditor 25 ноября 2024 г. 11:26

      Падение OpenAI, Google и Anthropic с Эвереста данных

      Синдром Эвереста — это понятие введенное в 1994 году Маддуксом. Понятие основано на примере непреодолимого желания Джорджа Мэллори, олимпийского чемпиона по альпинизму, погибшего в 20-х годах прошлого века при попытке покорить Эверест, оно описывает тенденцию, согласно которой учителя и преподаватели будут использовать новую технологию, особенно, связанную с Интернето...
      244
      sapere_auditor 17 ноября 2024 г. 10:00

      Фетва надёжнее файервола

      По мнению совета по исламской идеологии Пакистана, использование VPN для доступа к заблокированным сайтам и незаконному контенту противоречит шариату. Председатель Совета по исламской идеологии (CII) доктор Рагиб Хуссейн Наеми объявил использование виртуальных частных сетей (VPN) неисламским, заявив, что правительство имеет религиозное право принимать меры по блокиров...
      168
      sapere_auditor 12 ноября 2024 г. 20:49

      В розыске 72 тысячи нелегальных мигрантов из Кыргызстана, блукающих по просторам России

      Россия и Кыргызстан совместными усилиями пытаются снизить напряженность в отношении мигрантской темы. Как оказалось прежних усилий властей Кыргызстана (об этом статья на cont.ws от 3 сентября 2024) по противодействию нелегальной миграции собственных граждан в Россию попросту недостаточно, немалая часть мигрантов демонстративно игнорирует требования российского законод...
      247
      sapere_auditor 8 ноября 2024 г. 12:04

      Применение ИИ в рекламе на службе саморекламы самих рекламщиков

      Комиссия экспертов Ассоциации Коммуникационных Агентств России подвела итоги развития российского рекламного рынка за первое полугодие 2024 года. Эксперты отметили продолжающееся динамичное развитие рынка – его суммарный объем превысил уровень в 400 млрд руб., сохранив крайне высокую динамику в +28%. Российский рекламный рынок второй год подряд демонстрирует стабильно...
      240
      sapere_auditor 30 октября 2024 г. 19:02

      Наш асимметричный ИИ ответ на вашингтонский ИИ-меморандум

      Из предыдущей статьи про «Меморандум о продвижении лидерства США в области искусственного интеллекта" ясно Вашингтон делает ставку на поддержание своего лидерства и кибер-сдерживание России, Китая и всех других стран, одни из них записывает в свои вассалы, а других во враги. Гегемон мыслит как и должно кибер-рептилоиду, - хищнечески. Не все решаются дать отвод этому ...
      270
      sapere_auditor 25 октября 2024 г. 19:16

      Вашингтонский меморандум о продвижении лидерства США в области ИИ

      Вашингтон опубликовал документ с названием «Меморандум о продвижении лидерства США в области искусственного интеллекта; Использование искусственного интеллекта для достижения целей национальной безопасности; и повышение безопасности, защищенности и надежности искусственного интеллекта».По большей части он сводится к планам по подготовке аналитических записок и дорожны...
      217
      sapere_auditor 11 октября 2024 г. 13:10

      Илон Маск с очередной Tesla новацией - роботакси Cybercab, равносильное запуску iPhone для Apple

      Совсем скоро Tesla проведёт мероприятие на территории Warner Bros. Studios в Калифорнии, чтобы рассказать о своих очередных планах по созданию беспилотных «роботакси». Роботакси Tesla обеспечит поездки пассажиров без водителя в автомобиле. Беспилотные автомобили составят конкуренцию сервисам по организации поездок, таким как Uber и Lyft, и Tesla также протестирует про...
      246
      Служба поддержи

      Яндекс.Метрика