Новостной портал ЦТЭП ИДУ
Центр технологий электронного правительства Института дизайна и урбанистики
Национальный исследовательский Университет ИТМО

Разработан алгоритм для выявления деструктивной информации

Об этом сообщил профессор, заведующий кафедрой математического моделирования механико-математического факультета Новосибирского государственного университета (НГУ) Владимир Барахнин. "Мы предложили анализ слов казахского языка на основе особенностей его морфологии. Благодаря его действию можно анализировать слова казахского языка. Алгоритм позволяет понять по слову, либо какова его начальная форма, либо наоборот по начальной форме сгенерировать другие формы слова. Это важно для смыслового анализа больших массивов текста, для интернет-поиска. Нами проведен анализ новостей в казахстанском сегменте интернета как на казахстанском, так и на русском языках, собран большой дата-сет с новостями. В частности, проводились исследования на предмет деструктивной информации. По некоторым признакам мы научились ее определять", - сказал он.

Как пояснил ученый, один из признаков такой информации был призыв к действиям. Деструктивная информация выявлялась также исходя из ее достоверности данных и тех выводов, которые на ее основе делали авторы публикаций. Для исследования был создан корпус казахстанских СМИ, содержащий более 4 млн публикаций из 36 первоисточников, каждый из которых имеет не менее 500 публикаций.

"Корпус также включает в себя более 2 млн текстов российских СМИ для сравнительного анализа публикационной активности стран. Деструктивная информация выявлялась методами машинного обучения и искусственного интеллекта на основании следующих критериев: отсутствие проверяемых фактов, политизация, призыв к действию, негативная тональность, манипулятивность", - отметил ученый в беседе с ТАСС.

Ученый пояснил, что в основе алгоритма лежит морфологический анализ текстов с учетом казахских языковых особенностей. "Для английского языка анализ слов достаточно прост, потому что в нем нет изменений по падежам, а в русском языке алгоритм анализа языка достаточно сложный, потому что у нас есть шесть падежей, единственное и множественное число. Казахский язык в этом смысле ближе к русскому, поскольку в нем также есть изменяющиеся окончания, категории падежа, числа и так далее, но в отличие от русского там за каждую грамматическую категорию отвечает отдельное окончание", - объяснил исследователь.

Сейчас ученые НГУ вместе с сотрудниками Казахского национального технического университета имени К. И. Сатпаева разрабатывают онтологию области обработки естественного языка на трех языках. Разработку планируется использовать для обучения больших языковых моделей. Это позволит ей обучаться сразу на трех языках, не теряя в качестве усваиваемой информации. "Разрабатываемые алгоритмы позволят переносить знания, полученные из английских источников в модели на русском или на казахском или наоборот", - дополнил Барахнин.


Источник: https://www.comnews.ru/content/236574/2024-11-28/2024-w48/1009/razrabotan-algoritm-dlya-vyyavleniya-destruktivnoy-informacii
Дата: 28.11.2024

Последние новости:

23.12.2024

Правительство ликвидировало разработчика портала Большой российской энциклопедии

Распоряжением правительства ликвидирована АНО «Национальный научно-образовательный центр «Большая российская энциклопедия» (АНО «БРЭ»). ...

20.12.2024

В "Яндекс Картах" теперь можно строить маршруты внутри зданий во всех городах-миллионниках

Строить маршруты внутри зданий в "Яндекс Картах" теперь можно во всех городах-миллионниках России. Такие маршруты доступны в популярных торговых центрах, аэропо ...