Розпізнавання мови (Speech recognition)
Розпізнавання мови - перетворення аудіоданих у текст. Використовується для голосового керування, голосового вводу даних, як інтерфейс спілкування з ботами. У статті розглядаються декілька готових інструментів для розробників на Python.
Існують декілька підходів Розпізнавання мови. Можна використовувати сторонні сервіси, або застосувати ресурси власно комп'ютера на якому потрібно виконати аналіз аудіо даних.
Використання сторонніх сервісів для розпізнавання мови
Використовуючи сторонні сервіси, Ви маєте розуміти, що ви будите передавати дані через Інтернет. Якщо витік чутливих даних може негативно вплинути на питання безпеки - цього робити не слід.
У цьому прикладі я використовую бібліотеку SpeechRecognition. За допомогою неї будемо використовувати Google Cloud Speech API.
Встановлюємо SpeechRecognition:
pip install SpeechRecognition
Приклад:
import sys
import signal
import time
import speech_recognition as sr
def signal_handler(sig, frame):
print('You pressed Ctrl+C! Wait please...')
stop_listining()
sys.exit(0)
# initialize the recognizer
r = sr.Recognizer()
r.pause_threshold = 0.1
r.non_speaking_duration = 0.2
def callback(recognizer, audio):
try:
text = recognizer.recognize_google(audio, language='uk-in')
print(text)
except:
print("")
mic = sr.Microphone()
print("Silence please...")
with mic as source:
r.adjust_for_ambient_noise(source, duration=0.5)
stop_listining = r.listen_in_background(mic, callback, phrase_time_limit=10)
signal.signal(signal.SIGINT, signal_handler)
print("Listening...")
while True:
time.sleep(1.0)
Коли скрипт стартує, у мікрофоні має бути тиша. Це потрібно щоб нормально відпрацювала команда adjust_for_ambient_noise.
Детальніше по SpeechRecognition: SpeechRecognition
Розпізнавання мови на локальному комп'ютері
Розпізнавання мови виконується нейронними мережами. Якщо не використовувати сторонні сервіси, доведеться використовувати ресурси локального комп'ютера. Дивно, але не завжди це буде швидше.
Vosk
Встановлюємо необхідні бібліотеки до Python:
pip install pyaudio
pip install vosk
Завантажуємо натреновану модель для потрібної мови: https://alphacephei.com/vosk/models і розпаковуємо її у теку зі скриптом.
Я використовую модель vosk-model-small-uk-v3-small. вона ж вказана у скрипті.
import sys
import signal
import json
import pyaudio
from vosk import Model, KaldiRecognizer
def signal_handler(sig, frame):
print('You pressed Ctrl+C! Wait please...')
sys.exit(0)
model = Model('vosk-model-small-uk-v3-small')
rec = KaldiRecognizer(model, 16000)
p = pyaudio.PyAudio()
stream = p.open(format=pyaudio.paInt16, channels=1, rate=16000, input=True, frames_per_buffer=8000)
stream.start_stream()
def listen():
while True:
data = stream.read(4000, exception_on_overflow=False)
if (rec.AcceptWaveform(data)) and (len(data) > 0):
answer = json.loads(rec.Result())
if answer['text']:
yield answer['text']
signal.signal(signal.SIGINT, signal_handler)
print("Listening...")
for text in listen():
print(text)
Torch
Цей приклад використовує Torch і розпізнає мову з wav-файлу:
import torch
#import zipfile
#import torchaudio
from glob import glob
device = torch.device('cpu') # gpu also works, but our models are fast enough for CPU
model, decoder, utils = torch.hub.load(repo_or_dir='snakers4/silero-models',
model='silero_stt',
language='en', # also available 'de', 'es'
device=device)
(read_batch, split_into_batches,
read_audio, prepare_model_input) = utils # see function signature for details
# download a single file in any format compatible with TorchAudio
torch.hub.download_url_to_file('https://opus-codec.org/static/examples/samples/speech_orig.wav',
dst ='speech_orig.wav', progress=True)
test_files = glob('speech_orig.wav')
batches = split_into_batches(test_files, batch_size=10)
input = prepare_model_input(read_batch(batches[0]),
device=device)
output = model(input)
for example in output:
print(decoder(example.cpu()))
Розпізнавання мови у браузері
Деякі сучасні браузери можуть розпізнавати мову з мікрофона. Детальніше про це можна почитати тут: https://developer.mozilla.org/en-US/docs/Web/API/SpeechRecognition
Звісно, вони попросять дозвіл для доступу до мікрофона, та що їм заважає це зробити без дозволу 😀
Приклад як це працює: https://mdn.github.io/dom-examples/web-speech-api/speech-color-changer/
Завантажити приклад: https://github.com/mdn/dom-examples/tree/main/web-speech-api/speech-color-changer
Недавні записи
Tags
barometer flash exti esp8266 bmp280 uart meteo bluetooth motor programmator remap examples sms i2c 3d-printer avr lcd piezo pwm nvic rs-232 mpu-9250 encoder mongodb timer mpu-6050 watchdog usart max1674 brushless python solar ethernet eb-500 mpx4115a atmega sensors git dht11 rfid displays css flask eeprom raspberry-pi wifi rtc books led ssd1306 options capture soldering bldc html websocket nodemcu tim docker bkp dma web java-script smd hih-4000 adc gpio ssd1331 bme280 st-link ngnix foc battery pmsm usb servo dc-dc stm32 gps
Архіви