#
Conexiones API
SillyTavern puede conectarse a una amplia gama de APIs de LLM. A continuación se describe sus respectivas fortalezas, debilidades y casos de uso.
#
ELI5: Chat Completions vs Text Completions
Cuando navegas por primera vez a la página "API Connections" en ST, notarás una opción desplegable para seleccionar entre opciones usando nomenclatura como "Chat Completion" y "Text Completion". Es útil entender qué significa esto.
Lo que no es: Es fácil pensar en "Text Completion" como modelos locales y "Chat Completion" como LLMs basados en la nube, pero ese no es el caso. Tampoco es, por ejemplo, "Novel AI" u "Kobold" realmente un tipo de modelo separado en absoluto, aunque sean opciones separadas en el menú desplegable de API en ST. Puedes forzar modelos en diferentes estructuras de API con el backend apropiado, pero ese no es el propósito de esta sección.
Cuando envías un mensaje usando ST, tu chat, descripción de personaje y otros avisos como libros de lore o notas del autor se construyen en una única "solicitud" para enviar al modelo. El "tipo" de API del modelo que estés usando decide exactamente cómo se construirá este aviso (algo de lo que ST se encarga automáticamente en segundo plano - puedes abrir tu terminal de ST y ver exactamente cómo se ve el aviso que se envía a la IA).
#
Chat Completions
Un modelo Chat Completion, como su nombre sugiere, estructurará tu aviso en una serie de mensajes entre el Usuario (tú) y el Asistente (la IA) o Sistema (neutral). Los modelos entrenados para Chat Completion ayudan a crear la sensación de un "Chat", con la IA "respondiendo" al último mensaje. Cuando usas el sitio web de ChatGPT, estás tratando con una API Chat Completions en segundo plano.
#
Text Completions (a.k.a solo "Completions")
Un Text Completion por otro lado, y nuevamente como su nombre sugiere, convertirá tu aviso en una cadena larga, y el modelo simplemente intentará continuar esto (como, literalmente imagina todo tu texto, tus cientos de mensajes, todo tu formato, saltos de línea, etc. comprimido en una oración muy larga).
Si tus mensajes en ST resultan estar formateados como una serie de mensajes entre YourPersona: y Character:, el modelo Text Completion intentará continuar este patrón y ST lo renderizará como un nuevo mensaje de chat para ti, pero realmente el modelo solo está intentando continuar el texto. Si proporcionaste una entrada de "The Sun rises in the", es probable que un modelo de completitud de texto termine ese mensaje con "East".
La mayoría de los modelos Text Completion tienen una "Instruct Template" recomendada (generalmente mencionada en la documentación o página de descarga del modelo) que los ayuda a "responder" a mensajes e instrucciones, como un modelo Chat Completion. ST generalmente tiene la mayoría (si no todos) de los Instruct Templates disponibles para que elijas en la página "Formato Avanzado".
#
APIs Locales
- Estas APIs de LLM se pueden ejecutar en tu PC.
- Son gratuitas de usar y no tienen filtro de contenido.
- El proceso de instalación puede ser complejo (El equipo de desarrollo de SillyTavern no proporciona soporte para esto).
- Requiere descarga separada de modelos LLM desde HuggingFace que pueden tener entre 5-50GB cada uno.
- La mayoría de los modelos no son tan poderosos como las APIs LLM en la nube.
#
KoboldCpp
- API fácil de usar con descarga de CPU (útil para usuarios con VRAM bajo) y streaming
- Se ejecuta desde un único archivo binario en Windows, Mac y Linux
- Compatible con modelos GGUF
- Más lento que cargadores solo GPU como AutoGPTQ y Exllama/v2
- GitHub, Setup Instructions
#
llama.cpp
- La fuente original de la que se bifurcaron KoboldCpp y Ollama
- Proporciona binarios precompilados y una opción para compilar desde la fuente
- Compatible con modelos GGUF
- Interfaz CLI ligera para llama-server
- GitHub
#
Ollama
- La más fácil de configurar y usar de todas las APIs basadas en llama.cpp
- Un útil catálogo de modelos disponibles para descargar con un clic
- Compatible con modelos GGUF envueltos en su propio formato
- GitHub, Website
#
Oobabooga TextGeneration WebUI
- UI Gradio todo en uno con streaming
- Soporte más amplio para modelos cuantificados (AWQ, Exl2, GGML, GGUF, GPTQ) y FP16
- Los instaladores de un clic están disponibles
- Actualizaciones regulares, que a veces pueden romper la compatibilidad con SillyTavern
- GitHub
Manera correcta de conectar SillyTavern a la nueva API OpenAI de Ooba:
- Asegúrate de estar en la última actualización de Oobabooga's TextGen (a partir del 14 de noviembre de 2023).
- Edita el archivo CMD_FLAGS.txt e incluye la bandera
--api. Luego reinicia el servidor de Ooba. - Conecta ST a
http://localhost:5000/(por defecto) sin marcar la casilla de 'Legacy API'. Puedes eliminar el sufijo/v1de la URL que proporciona la consola de Ooba.
Puedes cambiar el puerto de alojamiento de API con la bandera --api-port 5001, donde 5001 es tu puerto personalizado.
#
TabbyAPI
- API liviana basada en Exllamav2 con streaming
- Compatible con modelos Exl2, GPTQ y FP16
- La extensión oficial permite cargar/descargar modelos directamente desde SillyTavern
- No se recomienda para usuarios con VRAM bajo (sin descarga de CPU)
- GitHub, Setup Instructions
#
KoboldAI Classic (deprecated, abandoned)
- Se ejecuta en tu PC, 100% privado, amplia gama de modelos disponibles
- Da el control más directo de la configuración de generación de la IA
- Requiere grandes cantidades de VRAM en tu GPU (6-24GB, dependiendo del modelo LLM)
- Modelos limitados a contexto de 2k
- Sin streaming
- Versiones populares de KoboldAI:
#
APIs LLM en la Nube
- Estas APIs de LLM se ejecutan como servicios en la nube y no requieren recursos en tu PC
- Son más fuertes/inteligentes que la mayoría de los LLMs locales
- Sin embargo, todos tienen filtrado de contenido de diversos grados, y la mayoría requieren pago
#
AI Horde
- SillyTavern puede acceder a esta API sin configuración adicional
- Utiliza la GPU de voluntarios individuales (Horde Workers) para procesar respuestas para tus entradas de chat
- A merced del Worker en términos de tiempos de espera de generación, configuración de IA y modelos disponibles
- Website, Setup Instructions
#
OpenAI (ChatGPT)
- Fácil de configurar y adquirir una clave API
- Requiere prepago de créditos y cobra por solicitud
- Muy lógico. El estilo creativo puede ser repetitivo y predecible
- La mayoría de los modelos más nuevos (gpt-4-turbo, gpt-4o) admiten multimodalidad
- Website, Setup Instructions
#
Claude (by Anthropic)
- Recomendado para usuarios que desean que sus chats de IA tengan un estilo de escritura creativo y único
- Requiere prepago de créditos y cobra por solicitud
- Los modelos más nuevos (Claude 3) admiten multimodalidad
- Requiere un estilo de solicitud específico y utilización de prefills para dirección de respuesta
- Website, Setup Instructions
#
Google AI Studio and Vertex AI
- Tiene un nivel gratuito con límites de velocidad (Gemini Flash), puede requerir información de facturación
- AI Studio generalmente tiene los últimos modelos y características
- Vertex AI es más difícil de configurar, pero más estable
- Setup Instructions
#
Mistral (by Mistral AI)
- Modelos eficientes de varios tamaños y casos de uso. Puedes crear una cuenta y clave API en su plataforma.
- De 32k a 128k tamaños de contexto para uso general, y 32k a 256k tamaños de contexto para codificación.
- Nivel gratuito con límites de velocidad.
- Moderación razonable, siendo los principios principales de Mistral ser neutral y empoderar a los usuarios, más información aquí.
- Website, Setup Instructions
#
OpenRouter
- Proporciona una API unificada para acceder a todos los LLMs principales del mercado
- Sistema de crédito de pago por token, así como modelos gratuitos con solicitudes diarias limitadas
- Sin moderación impuesta, a menos que sea requerida por el proveedor de LLM
- Website, Setup Instructions
#
DeepSeek
- Proporciona acceso a las últimas versiones de modelos muy populares DeepSeek V3 (
deepseek-chat) y DeepSeek R1 (deepseek-reasoner) - Requiere pago de créditos ($2 mínimo), pero los modelos son bastante baratos por su calidad
- Sin moderación en la API, pero los modelos pueden rechazar ciertos avisos
- Website, Setup Instructions
#
AI21
- Proporciona acceso a modelos abiertos de Jamba Family
- Tiene una prueba gratuita ($10 por tres meses), luego requiere pagar mensualmente por token
- Website, Setup Instructions
#
Cohere
- Proporciona acceso a los últimos modelos de Cohere (command-r, command-a, c4ai-aya, etc.)
- Tiene un nivel gratuito (Trial Keys) con suficientes límites de velocidad para uso casual
- Website, Setup Instructions
#
Perplexity
- Proporciona acceso a modelos Perplexity Sonar únicos habilitados en línea a través de su API
- Requiere tener facturación configurada y créditos comprados
- Website, Setup Instructions
#
Mancer AI
- Servicio que aloja modelos sin restricciones de varias familias
- Utiliza 'créditos' para pagar por tokens en varios modelos
- No registra solicitudes por defecto, pero puedes habilitarlo para obtener descuentos de crédito en tokens.
- Utiliza una API similar a
Oobabooga TextGeneration WebUI, consulta Mancer docs para obtener detalles. - Website, Setup Instructions
#
DreamGen
- Modelos sin censura ajustados para escritura creativa controlable
- Créditos mensuales gratuitos, así como una suscripción de pago
- Modelos que van desde 7B a 70B
- Setup Instructions
#
Pollinations
- No requiere configuración, se puede usar directamente
- Proporciona acceso a una amplia gama de modelos de forma gratuita
- Los resultados pueden ocasionalmente incluir anuncios con enlaces a servicios de terceros
#
NovelAI
- Sin filtro de contenido, el último modelo se basa en Llama 3
- Se requiere suscripción de pago, el nivel determina la longitud máxima del contexto
- Website, Setup Instructions
#
Electron Hub
- Una clave API desbloquea modelos de múltiples proveedores (OpenAI, Anthropic, DeepSeek, etc.) para generación de texto e imágenes
- $0.25 de créditos gratuitos cada día, planes pagos disponibles
- Website, Setup Instructions
#
AI/ML API
- API unificada para 300+ modelos incluyendo Claude, GPT-4o, Gemini, LLaMA 3, Mistral y otros
- Tiene un nivel gratuito con límites de velocidad, planes de suscripción y opciones de pago por uso
- Website, Docs, Models