Моя задача на сегодняшний момент, т.к. я разбираю все что связано с телефонией в лице связки Ubuntu 24.04 LTS + Asterisk 22, сейчас у меня задумка, а именно посмотреть, как можно приобщить инструмент Whisper к этому делу. На сколько я понял, Whisper — это нейросеть для автоматического распознавания речи что мне больше всего нравится, что она с открытым исходным кодом. Бесплатна. И ее можно локально развернуть тем самым не зависеть от доступа в интернет. Существуют под нее множество языковых моделей, чем больше модель, тем точнее и быстрее происходит обработка аудиофайла. В работе можно использовать, как производительность Вашего CPU, так и GPU.

Полный доступ к статье только по подписке