Популярні вбудовування базуються на вихідних даних прихованого шару моделей трансформаторів, таких як BERT. Альтернативним напрямком є об'єднання вбудованих слів, наприклад, тих, які повертаються Word2vec, у вбудовані речення. Найпрямолінійніший підхід — просто обчислити середнє значення векторів слів, відомих як безперервний пакет слів (CBOW). Однак також були запропоновані більш складні рішення, засновані на векторному квантуванні слів. Одним із таких підходів є вектор локально агрегованих вбудованих слів (VLAWE),[8] який продемонстрував покращення продуктивності в завданнях класифікації подальшого тексту.
Оцінка
Для тестування кодувань речень застосувують їх до корпусу речень, що містять композиційні знання (SICK)[9] як для втягування (SICK-E), так і для пов'язаності (SICK-R).
↑Sanjeev Arora, Yingyu Liang, and Tengyu Ma. «A simple but tough-to-beat baseline for sentence embeddings.», 2016; openreview: SyK00v5xx.
↑Trifan, Mircea; Ionescu, Bogdan; Gadea, Cristian; Ionescu, Dan (2015). A graph digital signal processing method for semantic analysis. 2015 IEEE 10th Jubilee International Symposium on Applied Computational Intelligence and Informatics. с. 187—192. doi:10.1109/SACI.2015.7208196. ISBN978-1-4799-9911-8.
↑Basile, Pierpaolo; Caputo, Annalina; Semeraro, Giovanni (2012). A Study on Compositional Semantics of Words in Distributional Spaces. 2012 IEEE Sixth International Conference on Semantic Computing. с. 154—161. doi:10.1109/ICSC.2012.55. ISBN978-1-4673-4433-3.
↑Marco Marelli, Stefano Menini, Marco Baroni, Luisa Bentivogli, Raffaella Bernardi, and Roberto Zamparelli. «A SICK cure for the evaluation of compositional distributional semantic models.» In LREC, pp. 216—223. 2014 .
↑Subramanian, Sandeep; Trischler, Adam; Bengio, Yoshua (2018). Learning General Purpose Distributed Sentence Representations via Large Scale Multi-task Learning. arXiv:1804.00079 [cs.CL].