
В этом гайде я покажу, как развернуть и запустить модель распознавания речи Qwen3‑ASR через пакет mlx-qwen3-asr на macOS с M-чипом. Решение позволяет транскрибировать аудио из видеофайлов с поддержкой русского языка и сохранять результат в разных форматах: SRT, VTT, TXT, JSON.
Что такое mlx-qwen3-asr? Link to heading
mlx-qwen3-asr - это Python‑пакет, предоставляющий удобный интерфейс к модели Qwen3‑ASR‑1.7B от Alibaba Cloud, оптимизированной для работы на чипах Apple Silicon через фреймворк MLX. Модель поддерживает несколько языков, включая наш родной русский, и позволяет получать транскрипцию с тайм‑кодами.
Требования Link to heading
- macOS
- Установленный Python 3.11
- Руки
- Свободное место на диске (модель ~3 ГБ)
Установка и настройка Link to heading
Подготовка директории проекта Link to heading
Создайте отдельную папку для проекта и перейдите в неё, у меня будет так:
mkdir -p ~/Documents/ai/asr
cd ~/Documents/ai/asr
Создание виртуального окружения Link to heading
python3.11 -m venv venv
Активация окружения Link to heading
Активируйте виртуальное окружение:
source venv/bin/activate
Обновление pip и установка пакета Link to heading
Обновите менеджер пакетов и установите mlx-qwen3-asr:
pip install --upgrade pip
pip install mlx-qwen3-asr
Установка может занять несколько минут — загружаются зависимости и модель.
Создание скрипта автоматизации Link to heading
Чтобы не вводить команды вручную каждый раз, создадим shell‑скрипт с небольшим интерактивным интерфейсом.
Создайте файл скрипта Link to heading
- Создадим скрипт в любимом текстовом редакторе:
vim asr_process.sh
Вставьте этот код
Укажите настройку
VENV_BIN=, где будет путь к созданной вами папке.Сохраняем файл
Делаем скрипт исполняемым
chmod +x asr_process.sh
Отправляем файл на распознавание Link to heading
- Запускаем скрипт
./asr_process.sh
откроет диалоговое окно для выбора файла
потом скрипт предложит выбрать формат вывода
позволит указать папку для сохранения
запустится распознавание и покажет прогресс (при первом запуске модель скачается)