Центр прикладного ИИ Сколтеха фильтрует сетевой контент, надежно определяя создан текст машиной или человеком - sapere_auditor

Наши люди живут с надежной проверенной опытом установкой, - подобное исправляется подобным. Метод придуман ещё древними латынянами и кочует от народа к народу в известной поговорке «Similia similibus curantur» («подобное излечивается подобным»). Наш российский народ в этом методе ни разу не разочарован: болит голова после пьянки, - надо пьяным вином/пивом опохмелится. Можно конечно по медицинским показаниям разбавить кровь гемодезом или ещё каким заменителем, но оно все равно на то и выходит, - жидкость жидкостью вытесняют. И что интересно, этот метод у нас и в технической сфере применим, вот и в Сколтехе рассудили здраво ИИ-модели машинного обучения надо ИИ-фильтром сортировать, отделяя текстовые симулякры от авторских письмен.

Проблема то ведь далеко непраздная. Из-за быстрого развития больших языковых моделей, которых уже пруд пруди и от больших ИТ-компаний, и частных вариаций ИИ-джипити_чатов. Поэтому "люди все чаще сталкиваются с текстами, часть которых написана человеком, а часть сгенерирована машиной. Между тем есть ситуации, когда, например, необходима атрибуция авторства и важно четко определить семантическую границу между текстом созданным человеческим трудом и созданным машинным ИИ".

Вот этим и озадачился исследовательский коллектив Центра прикладного ИИ Сколтеха, установив различие и сходство работы ИИ моделей семейства BERT (ALBERT, RoBERTa и DistilBERT). Это самые популярные на сегодняшний день трансформеры основанные на принципе энкодер-декодера (обучение/воспроизводство), простая двунаправленость моделирования языка по маске и для предсказания следующего предложения в так называемых контекстуальных представлениях слов.

Сколтеховцы взяли за основу своего подхода известную меру в теории информации, именуемую перплексией и показывающую, насколько хорошо распределение вероятностей предсказывает выборку. Создали свой алгоритм исследования предсказуемости текста и отлично получилось выявлять разницу между между машинными текстами и человеческим творчеством. Там где высокая перплексия — это текст с сюрпризом на каждом шагу, что обычно свойственно человеческому письму. Низкая перплексия означает более предсказуемую структуру, что часто встречается в машинном тексте.

Добившись успеха у себя в Сколтехе представили доклад посвященный результатам исследования, на конференции по языковому моделированию, организованной Университетом Пенсильвании в Филадельфии, США. Выступление было встречено овацией, а статья получила Outstanding Paper Award — награду за лучшую статью "AI-generated text boundary detection with RoFT". Ещё один хороший пример того, что нельзя изолировать Россию на научном поприще. наша наука была и остается востребованной у научной общественности во всём мире.

Обсудить

- Гарри Химик
- 30 ноября 2024 г. 11:29
От "селекции" текстов ИИ, недолго и до "селекции" людей в социальном концлагере... Китайский опыт "социального рейтинга" - всего лишь первый шаг к социальному концлагерю, с ИИ-капо! Китайский опыт селекции граждан по социальному рейтингу заключается в создании и использовании баз данных, которые с помощью искусственного интеллекта отслеживают и оценивают надёжность людей, компаний и государственных учреждений. На основе этих данных присваивают определённый социальный рейтинг, без которого не пустят в приличное место, не примут на хорошую работу, не дадут возможности использования своих же заработанных средств и благ...

ТОП ЗА 3 ДНЯ