Entendendo a Cobrança por Tokens em Serviços de IA da AWS

Publicado em: 02/08/2024

184 views

No mundo dos serviços de IA e processamento de linguagem natural, como o AWS Titan, entender a estrutura de cobrança é crucial para gerenciar custos e otimizar o uso. Uma das métricas mais comuns para cobrança é o uso de “tokens”. Mas o que são tokens e como eles influenciam os custos? Neste artigo vamos dar uma pincelada no assunto.

Exemplo de Precificação

O Que São Tokens?

Tokens são as unidades mínimas de texto que os modelos de linguagem processam. Dependendo da complexidade da linguagem e do modelo específico, um token pode ser uma palavra inteira, partes de palavras, ou até mesmo caracteres únicos.

Exemplos de Tokenização

Palavra inteira como token:
- “Hello, world!” pode ser tokenizado como [“Hello”, “,”, “world”, “!”].
- Neste caso, temos 4 tokens.
Divisão em sub-palavras:
- “unbelievable” pode ser tokenizado como [“un”, “believ”, “able”].
- Neste caso, temos 3 tokens.

Cálculo dos Custos com Tokens

Digamos que a AWS cobra $0.0008 por token de entrada (input) e $0.0016 por token de saída (output) para cada 1.000 tokens processados. Vamos entender como isso se aplica na prática.

Estrutura de Custos

Input: Você paga $0.0008 para processar 1.000 tokens de entrada.
Output: Você paga $0.0016 para cada 1.000 tokens de saída gerados pelo modelo.

Exemplo Prático

Vamos supor que você processe um texto com 10.000 tokens de entrada e o modelo gere 20.000 tokens de saída. O custo seria calculado da seguinte forma:

Custo de Input:

10.000 tokens × ($0.0008 / 1.000 tokens) = 10.000 × $0.0008 = $8.00

Custo de Output:

20.000 tokens × ($0.0016 / 1.000 tokens) = 20.000 × $0.0016 = $32.00

Custo Total:

$8.00 (input) + $32.00 (output) = $40.00

Resumo

Tokens são as unidades mínimas de texto processadas pelos modelos de linguagem, e a AWS cobra com base na quantidade de tokens processados, tanto na entrada quanto na saída. Compreender como os textos são tokenizados é essencial para estimar corretamente os custos de processamento e otimizar o uso dos serviços de IA.

O que você achou disso?