Хао Х Аспирант, Самарский национальный исследовательский университет.
Области исследований: машинное обучение, металлические материалы, металлургическая инженерия.
УДК 519.4 DOI Язык: Английский Аннотация: В ответ на быстрый рост объема литературы в области тугоплавких высокоэнтропийных
сплавов (RHEAs) и низкую эффективность извлечения ключевой информации в данной статье
предлагается полуавтоматический рабочий процесс извлечения информации. Метод использует
большую языковую модель для первоначальной разметки в сочетании с ручной проверкой для
построения высококачественного корпуса. На этой основе обучена модель распознавания
именованных сущностей BERT-BiLSTM-CRF для автоматического распознавания и извлече
ния информации о материалах, процессах, структуре и свойствах. Окончательные результаты
показывают, что модель NER достигла оценки F1 в 77% на тестовом наборе, что значительно
снизило затраты на ручную обработку и обеспечило поддержку для построения базы знаний
о материалах и исследований новых материалов на основе данных.
Ключевые слова:
тугоплавкие высокоэнтропийные сплавы, распознавание
именованных сущностей, большая языковая модель, BERT-BiLSTM-CRF.
Список литературы: 1. Miracle, D. B., Senkov, O. N. A critical review of high entropy alloys and related concepts. Acta Materialia.
2017, 122: 448–511.
2. Hearst, M. A. Automatic acquisition of hyponyms from large text corpora. Proceedings of the 14th
Conference on Computational Linguistics (COLING). 1992: 539–545.
3. Lafferty, J., McCallum, A., Pereira, F. Conditional random fields: Probabilistic models for segmenting and
labeling sequence data. Proceedings of the 18th International Conference on Machine Learning (ICML).
2001: 282–289.
4. Huang, Z., Xu, W., Yu, K. Bidirectional LSTM-CRF models for sequence tagging. arXiv preprint.
arXiv:1508.01991, 2015.
5. Devlin, J., Chang, M. W., Lee, K., Toutanova, K. BERT: Pre-training of deep bidirectional transformers
for language understanding. Proceedings of NAACL-HLT. 2019: 4171–4186.
6. Kim, E., Huang, K., Jegelka, S., Olivetti, E. Virtual screening of inorganic materials synthesis parameters
with deep learning. npj Computational Materials. 2017, 3: 53.
7. Trewartha, A., Dagdelen, J., Huo, H., Cruse, K., Riebesell, J., Jain, A., Ceder, G., Persson, K. A.
Quantifying the advantage of domain-specific pre-training on named entity recognition tasks in materials
science. Patterns. 2022, 3(4): 100488.
8. Gupta, T., Trewartha, A., Cruse, K., Dagdelen, J., Huo, H., Ceder, G., Jain, A., Persson, K. A.
MatSciBERT: A materials domain language model for text mining and information extraction. npj
Computational Materials. 2022, 8: 102.
9. Brown, T. B., Mann, B., Ryder, N., et al. Language models are few-shot learners. Advances in Neural
Information Processing Systems (NeurIPS). 2020, 33: 1877–1901.
Выпуск: 3(38)'2025
Раздел: ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ
Как цитировать: