РУС ENG

ОЦЕНКА СЕМАНТИЧЕСКОЙ СХОЖЕСТИ ПРЕДЛОЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ВЕРОЯТНОСТНЫХ МЕР ЭМБЕДДИНГОВ

О журнале

Новости
Цели и сфера
Основатель и издатель
Редакционная коллегия
Условия лицензирования
Конфиденциальность
Отношение к плагиату
Публикационная этика
Политика архивирования
Подписка


Для авторов

Инструкции для авторов
Процесс рецензирования
Авторские права
Договор о передаче прав
Редакционные сборы


Архив

Все выпуски
Поиск


Контакты

Контакты


Филипишин Дмитрий Александрович
ассистент кафедры программной инженерии им. Л.П. Фельдмана ФГБОУ ВО «Донецкий национальный технический университет»
научный сотрудник молодежной научной лаборатории «Искусственный интеллект».
Область научных интересов: онтологии, системы искусственного интеллекта

Зори Сергей Анатольевич
доктор технических наук, доцент,
заведующий кафедрой программной инженерии им. Л.П. Фельдмана ФГБОУ ВО «Донецкий национальный технический университет».
Область научных интересов: системы искусственного интеллекта; системный анализ

УДК 004.8+004.912
DOI 10.24412/2413-7383-2025-4-39-229-240
Язык: Русский
Аннотация: В статье рассматривается задача оценки семантической схожести предложений с использованием вероятностных мер эмбеддингов слов. Предложен метод, основанный на сопоставлении вероятностей независимых и зависимых событий, соответствующих словам в предложении. Проведен анализ методов построения матрицы внимания и оцифровки слов, обоснован выбор вероятностных эмбеддингов как основы для количественного описания смысловых зависимостей. Предложена процедура сопоставления вероятностей, вычисленных на основе эмбеддингов и весов внимания, что позволяет формализовать смысловые связи между словами и предложениями.
Ключевые слова: семантическая схожесть, вероятностная модель, матрица внимания, эмбеддинг, вероятностный анализ текста.

Список литературы:
1. Minaee S., Kalchbrenner N., Cambria E., Nikzad N.,Chenaghlu M., Gao J. Deep Learning-Based Text Classification: A comprehensive review // ACM Computing Surveys. no 54(3), 2021: 1–40.
2. Аверин Г.В. О вероятностной природе смыслов в дискретных языковых единицах // Системный анализ и информационные технологии в науках о природе и обществе. №1(12)–2(13), 2017. С. 11–18.
3. Андриевская Н.К. Гибридная интеллектуальная мера оценки семантической близости // Проблемы искусственного интеллекта. №1(20), 2021. С. 4–17.
4. Меры семантической близости в онтологии / К.В. Крюкова, Л.А. Панкова, В.А. Пронина, В.С. Суховеров, Л.Б. Шипилина // Проблемы управления. Вып. 5, 2010. С. 2–14.
5. Erk K. The probabilistic turn in semantic and pragmatics // Annu. Rev. Linguist. 2022. 8:101–21.
6. Zheng Z., Wang Y., Huang Y., Song S., Yang M., Tang B., Xiong F., Li Z., Attention Heads of Large Language Models: A Survey // arXiv – 2024 – arXiv:2409.03752.
7. Собчишен А.С., Звягинцева А.В. Вероятностно-смысловые модели оцифрованных текстовых данных // Материалы конференции «Математическое и компьютерное моделирование в экономике, страховании и управлении рисками». №9, 2024. – С. 55–59.
8. Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks // arXiv 2019 arXiv:1908.10084.
9. Gao T., Yao X., Chen D. SimCSE: Simple Constrastive Learning of Sentence Embeddings // arXiv – 2021 arXiv:2104.08821.
10. Shen L., Jiang H., Liu L., Shi S. Sen2Pro: A Probabilistic Perspective to Sentence Embedding from Pretrained Language Models // arXiv – 2023 – arXiv:2306.02247.
11. Vaswani A., Shazeer N. Parmar N., Uszkoreit J., Jones L., Gomez A., Kaiser L., Polosukhin I. Attention is all you need // arXiv – 2017 – arXiv:1706.03762.
12. Yoda S., Tsukagoshi H., Sasano R., Takeda K. Sentence Representations via Gaussian Embedding // arXiv – 2023 – arXiv:2305.12990v2.
13.Сайт проекта «Открытый корпус» (OpenCorpora) русского языка. – Электр. рес. – URL: https://opencorpora.org/ (01.11.2025).
14.Chun S., Joon S., Sampaio R., Kalantidis Y., Larlus D. Probabilistic Embeddings for Cross-Modal Retrieval // arXiv – 2021 – arXiv:2101.05068.
15. Abdelwahab A., Landwehr N. Deep distributional sequence embeddings based on a Wasserstein loss // arXiv – 2019 – arXiv:1912.01933.
16.Botha J. Probabilistic modeling of morphologically rich languages // arXiv – 2015 – arXiv:1508.04271.
17. Бондаренко В.И., Елисеев В.О., Ермоленко Т.В. Анализ эффективности глубоких языковых моделей для задачи определения тональности русскоязычных текстов // Проблемы искусственного интеллекта. №1(32), 2024. – С. 51–62.
18. Никитенко К.А, Звягинцева А.В. Интерпретируемость нейросемантических моделей при их применении в прикладных областях // Проблемы искусственного интеллекта. №2(37), 2025. С. 79–90.

Выпуск: 4(39)'2025
Раздел: Системный анализ, управление и обработка информации, статистика
Как цитировать: