Наши люди живут с надежной проверенной опытом установкой, - подобное исправляется подобным. Метод придуман ещё древними латынянами и кочует от народа к народу в известной поговорке «Similia similibus curantur» («подобное излечивается подобным»). Наш российский народ в этом методе ни разу не разочарован: болит голова после пьянки, - надо пьяным вином/пивом опохмелится. Можно конечно по медицинским показаниям разбавить кровь гемодезом или ещё каким заменителем, но оно все равно на то и выходит, - жидкость жидкостью вытесняют. И что интересно, этот метод у нас и в технической сфере применим, вот и в Сколтехе рассудили здраво ИИ-модели машинного обучения надо ИИ-фильтром сортировать, отделяя текстовые симулякры от авторских письмен.
Проблема то ведь далеко непраздная. Из-за быстрого развития больших языковых моделей, которых уже пруд пруди и от больших ИТ-компаний, и частных вариаций ИИ-джипити_чатов. Поэтому "люди все чаще сталкиваются с текстами, часть которых написана человеком, а часть сгенерирована машиной. Между тем есть ситуации, когда, например, необходима атрибуция авторства и важно четко определить семантическую границу между текстом созданным человеческим трудом и созданным машинным ИИ".
Вот этим и озадачился исследовательский коллектив Центра прикладного ИИ Сколтеха, установив различие и сходство работы ИИ моделей семейства BERT (ALBERT, RoBERTa и DistilBERT). Это самые популярные на сегодняшний день трансформеры основанные на принципе энкодер-декодера (обучение/воспроизводство), простая двунаправленость моделирования языка по маске и для предсказания следующего предложения в так называемых контекстуальных представлениях слов.
Сколтеховцы взяли за основу своего подхода известную меру в теории информации, именуемую перплексией и показывающую, насколько хорошо распределение вероятностей предсказывает выборку. Создали свой алгоритм исследования предсказуемости текста и отлично получилось выявлять разницу между между машинными текстами и человеческим творчеством. Там где высокая перплексия — это текст с сюрпризом на каждом шагу, что обычно свойственно человеческому письму. Низкая перплексия означает более предсказуемую структуру, что часто встречается в машинном тексте.
Добившись успеха у себя в Сколтехе представили доклад посвященный результатам исследования, на конференции по языковому моделированию, организованной Университетом Пенсильвании в Филадельфии, США. Выступление было встречено овацией, а статья получила Outstanding Paper Award — награду за лучшую статью "AI-generated text boundary detection with RoFT". Ещё один хороший пример того, что нельзя изолировать Россию на научном поприще. наша наука была и остается востребованной у научной общественности во всём мире.
Оценили 9 человек
23 кармы