Филипишин Дмитрий Александрович ассистент кафедры программной инженерии им. Л.П. Фельдмана ФГБОУ ВО «Донецкий национальный технический университет»
научный сотрудник молодежной научной лаборатории «Искусственный интеллект».
Область научных интересов: онтологии, системы искусственного интеллекта
Зори Сергей Анатольевич доктор технических наук, доцент,
заведующий кафедрой программной инженерии им. Л.П. Фельдмана ФГБОУ ВО «Донецкий национальный технический университет».
Область научных интересов: системы искусственного интеллекта; системный анализ
УДК 004.8+004.912 DOI 10.24412/2413-7383-2025-4-39-229-240 Язык: Русский Аннотация: В статье рассматривается задача оценки семантической схожести предложений с использованием вероятностных мер эмбеддингов слов. Предложен метод, основанный на сопоставлении
вероятностей независимых и зависимых событий, соответствующих словам в предложении.
Проведен анализ методов построения матрицы внимания и оцифровки слов, обоснован выбор
вероятностных эмбеддингов как основы для количественного описания смысловых зависимостей.
Предложена процедура сопоставления вероятностей, вычисленных на основе эмбеддингов и
весов внимания, что позволяет формализовать смысловые связи между словами и предложениями.
Ключевые слова:
семантическая схожесть, вероятностная модель,
матрица внимания, эмбеддинг, вероятностный анализ текста.
Список литературы: 1. Minaee S., Kalchbrenner N., Cambria E., Nikzad N.,Chenaghlu M., Gao J. Deep Learning-Based Text Classification: A comprehensive review // ACM Computing Surveys. no 54(3), 2021: 1–40.
2. Аверин Г.В. О вероятностной природе смыслов в дискретных языковых единицах // Системный анализ и информационные технологии в науках о природе и обществе. №1(12)–2(13), 2017. С. 11–18.
3. Андриевская Н.К. Гибридная интеллектуальная мера оценки семантической близости // Проблемы искусственного интеллекта. №1(20), 2021. С. 4–17.
4. Меры семантической близости в онтологии / К.В. Крюкова, Л.А. Панкова, В.А. Пронина, В.С. Суховеров, Л.Б. Шипилина // Проблемы управления. Вып. 5, 2010. С. 2–14.
5. Erk K. The probabilistic turn in semantic and pragmatics // Annu. Rev. Linguist. 2022. 8:101–21.
6. Zheng Z., Wang Y., Huang Y., Song S., Yang M., Tang B., Xiong F., Li Z., Attention Heads of Large Language Models: A Survey // arXiv – 2024 – arXiv:2409.03752.
7. Собчишен А.С., Звягинцева А.В. Вероятностно-смысловые модели оцифрованных текстовых данных // Материалы конференции «Математическое и компьютерное моделирование в экономике, страховании и управлении рисками». №9, 2024. – С. 55–59.
8. Reimers N., Gurevych I. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks // arXiv 2019 arXiv:1908.10084.
9. Gao T., Yao X., Chen D. SimCSE: Simple Constrastive Learning of Sentence Embeddings // arXiv – 2021 arXiv:2104.08821.
10. Shen L., Jiang H., Liu L., Shi S. Sen2Pro: A Probabilistic Perspective to Sentence Embedding from Pretrained Language Models // arXiv – 2023 – arXiv:2306.02247.
11. Vaswani A., Shazeer N. Parmar N., Uszkoreit J., Jones L., Gomez A., Kaiser L., Polosukhin I. Attention is all you need // arXiv – 2017 – arXiv:1706.03762.
12. Yoda S., Tsukagoshi H., Sasano R., Takeda K. Sentence Representations via Gaussian Embedding // arXiv – 2023 – arXiv:2305.12990v2.
13.Сайт проекта «Открытый корпус» (OpenCorpora) русского языка. – Электр. рес. – URL: https://opencorpora.org/ (01.11.2025).
14.Chun S., Joon S., Sampaio R., Kalantidis Y., Larlus D. Probabilistic Embeddings for Cross-Modal Retrieval // arXiv – 2021 – arXiv:2101.05068.
15. Abdelwahab A., Landwehr N. Deep distributional sequence embeddings based on a Wasserstein loss // arXiv – 2019 – arXiv:1912.01933.
16.Botha J. Probabilistic modeling of morphologically rich languages // arXiv – 2015 – arXiv:1508.04271.
17. Бондаренко В.И., Елисеев В.О., Ермоленко Т.В. Анализ эффективности глубоких языковых моделей для задачи определения тональности русскоязычных текстов // Проблемы искусственного интеллекта. №1(32), 2024. – С. 51–62.
18. Никитенко К.А, Звягинцева А.В. Интерпретируемость нейросемантических моделей при их применении в прикладных областях // Проблемы искусственного интеллекта. №2(37), 2025. С. 79–90.
Выпуск: 4(39)'2025
Раздел: Системный анализ, управление и обработка информации, статистика
Как цитировать: