# Speech Recognition

Esta guía te guiará a través de la configuración del reconocimiento de voz para transcribir tu voz en texto dentro de SillyTavern.

# Requisitos previos

Antes de comenzar, asegúrate de haber cumplido con los siguientes requisitos previos:

Asegúrate de estar en la última versión de SillyTavern.
Instala la extensión "Speech Recognition" desde el menú "Download Extensions & Assets" en el panel de Extensiones (icono de bloques apilados).
Ten instalado el binario ffmpeg. Consulta RVC setup para más detalles.

Configurar SillyTavern:
- Inicia SillyTavern y ve a Extensiones > Speech Recognition.
- Selecciona "Browser" de las opciones desplegables.
- Si tu navegador no admite reconocimiento de voz, aparecerá una ventana emergente de error.
Seleccionar modo de mensaje:
- Elige el "Modo de mensaje" que deseas:
  - Append: Tu mensaje se añadirá al área de texto del mensaje de usuario actual.
  - Replace: Tu mensaje reemplazará el mensaje de usuario actual en el área de texto.
  - Auto send: Tu mensaje se enviará automáticamente una vez se detecte el final del habla.
Habilitar mapeo de mensajes (Opcional):
- Configura el mapeo de frases para atajos de voz.
- Por ejemplo, al agregar "command delete = /del2", el comando "/del2" reemplazará tu mensaje de voz cuando se detecte "command delete".
- Útil cuando se combina con el modo de envío automático para control de voz completo. Habilita esto marcando "Enable messages mapping".
Seleccionar idioma:
- Elige el idioma en el que deseas hablar (Nota: no todos los navegadores admiten todos los idiomas).
Grabación:
- Para comenzar a grabar, haz clic en el botón de micrófono a la derecha del área de mensaje junto al botón de envío. Haz clic de nuevo para dejar de grabar. La grabación puede detenerse automáticamente si no se detecta voz.

Habilitar proveedor:
- Habilita el proveedor de reconocimiento de voz deseado en el servidor extras usando el siguiente comando:
```
python server.py --enable-modules=whisper-stt
```
  o
```
python server.py --enable-modules=vosk-stt
```
- También puedes usar un modelo personalizado agregando la opción --stt-vosk-model-path o --stt-whisper-model-path con la ruta al modelo.
Configurar SillyTavern:
- Inicia SillyTavern y ve a Extensiones > Speech Recognition.
- Selecciona "Vosk" o "Whisper" de las opciones desplegables (whisper es más preciso).
- La configuración es similar a la configuración del proveedor "Browser" (excepto por el idioma) ver arriba.

Habilitar proveedor:
- Habilita el módulo de reconocimiento de voz por streaming en Sillytavern-extras con el siguiente comando:
```
python server.py --enable-modules=streaming-stt
```
Configurar SillyTavern:
- (Opcional) Especifica un modelo Whisper personalizado como en la configuración de Whisper anterior.
- (Opcional pero recomendado) Configura palabras de activación en SillyTavern. Solo los mensajes que comienzan con estas palabras de activación se enviarán a SillyTavern como mensajes reales. Esto evita que el habla aleatoria o el ruido se transcriban. Habilita esto con la casilla de verificación. Las palabras de activación se pueden incluir/excluir del mensaje real usando una casilla de verificación.
- Otros ajustes son similares a otros proveedores.

Ya estás listo para transcribir tu voz en texto usando reconocimiento de voz en SillyTavern.