Новостной портал ЦТЭП ИДУ
Центр технологий электронного правительства Института дизайна и урбанистики
Национальный исследовательский Университет ИТМО

X-news paresr

Цель: по имеющемуся набору новостей разных тематик, собранных из различных источников (журнал, информационный портал, социальная сеть и т.д.), автоматически (без ручной разметки, с помощью методов машинного обучения) определить, к какой тематике (политика, финансы, юриспруденция, ИТ, банкинг и др.) относится новость в виде текста, а также определить, какой тон (позитивный или отрицательный) имеет каждая новость.

Для достижения данной цели были поставлены следующие задачи:

  1. Автоматизированный сбор новостей по ключевым словам.
  2. Для автоматического определения тематики текста необходимо разработать алгоритм решения задачи кластеризации текста, т. е. разбиения текстового массива на произвольное количество групп (кластеров) для дальнейшего экспертного анализа по определению приблизительной тематики определенной группы новостей.
  3. Для автоматического определения тональности новости (позитивный или негативный оттенок) необходимо выбрать готовый и публичный русскоязычный массив текста с заданной разметкой на положительные и отрицательные группы, и на основе данного массива подготовить модель по автоматическому определению тональности текста новостей.

Технические характеристики приложения

Реализация алгоритмов проведена на языке программирования Python 3.6 в интеграционной среде разработки PyCharm 2018.3.

Для работы используются следующие сторонние библиотеки:

  • pandas (для загрузки/выгрузки данных);
  • sklearn (готовые статистические методы и методы машинного обучения);
  •  matplotlib, pylab (визуализация данных);
  • pymorphy2 (приведение слов к нормальному виду);
  • numpy (работа с большими числовыми данными);
  • gensim (алгоритм Word2Vec);
  • keras (готовые методы машинного обучения, в частности нейронные сети);
  • pickle (сериализация данных в файл);
  • re (регулярные выражения).