
В 14 раз быстрее: как мы ускорили генерацию эмбеддингов в Manticore через ONNX
Автоэмбеддинги Manticore теперь в среднем примерно в 14 раз быстрее прежней реализации SentenceTransformers/Candle на том же оборудовании, с той же моделью и теми же весами — и преимущество сохраняется как при 1 клиентском потоке, так и при 32. Рассказываем, как мы перестроили бэкенд ONNX Runtime, почему отказались от внутренней батч-обработки и как подавать ...









