Aparência
Cada modelo de IA tem um “limite de atenção”, ou seja, um número máximo de tokens que ele consegue processar de uma vez só. Quando esse limite é ultrapassado… bom, digamos que ele começa a esquecer o que você falou no começo da conversa. Tipo aquele amigo que diz “tô ouvindo” mas não consegue repetir uma palavra do que você falou. A IA não vê palavras do jeito que você vê. Ela transforma tudo em tokens — as menores unidades com significado útil para o modelo.
Mas afinal, o que é um token mesmo?
Pense em tokens como as sílabas para IA. Às vezes uma palavra inteira é um token, outras vezes uma palavra é quebrada em vários tokens como se fosse um adolescente tentando explicar por que chegou tarde em casa.
Em português, palavras comuns como "casa", "bola" ou "dado" geralmente são um único token. Já palavras mais rebuscadas como "inconstitucionalissimamente" viram uma festa de tokens — porque aparentemente até a IA fica sem fôlego com palavras grandes.
Os tokens também incluem pontuação, espaços e caracteres especiais. Sim, até aquela vírgula que você usa incorretamente merece seu próprio token! E não, a IA não julga sua gramática... pelo menos não abertamente.
Por que isso importa?
Porque tudo na vida tem limites, inclusive a paciência dos modelos de IA com seus textos gigantes. Cada modelo tem uma "janela de contexto" — o número máximo de tokens que consegue processar de uma vez.
É como a capacidade do seu cérebro de lembrar o que comeu no café da manhã de três semanas atrás: tem limite, e quando passa desse limite, coisas começam a ser esquecidas (geralmente as importantes).
A Competição de "Quem tem a Janela Maior"
OpenAI - Onde tudo começou (e continua indo)
| Modelo | Tokens Máximos | Aproximadamente em Caracteres | Aproximadamente em Páginas de Livro |
|---|---|---|---|
| GPT-3.5 Turbo | 16.385 | ~65.000 caracteres | ~25 páginas |
| GPT-4 | 32.768 | ~131.000 caracteres | ~50 páginas |
| GPT-4 Turbo | 128.000 | ~512.000 caracteres | ~200 páginas |
O GPT-4 Turbo com seus 128.000 tokens é como aquela pessoa que consegue se lembrar do que todo mundo vestiu em cada episódio de todas as temporadas de Friends. Impressionante, mas você realmente precisa disso?
Anthropic - A Competição Amigável
| Modelo | Tokens Máximos | Aproximadamente em Caracteres | Aproximadamente em Páginas de Livro |
|---|---|---|---|
| Claude 3 Haiku | 200.000 | ~800.000 caracteres | ~320 páginas |
| Claude 3 Sonnet | 200.000 | ~800.000 caracteres | ~320 páginas |
| Claude 3 Opus | 200.000 | ~800.000 caracteres | ~320 páginas |
A Anthropic decidiu que todos os seus modelos Claude 3 teriam a mesma janela de contexto — uma abordagem igualitária. É como se todos os filhos recebessem a mesma mesada, independentemente de quem limpa mais o quarto.
DeepSeek - O Novo Jogador
| Modelo | Tokens Máximos | Aproximadamente em Caracteres | Aproximadamente em Páginas de Livro |
|---|---|---|---|
| DeepSeek-7B | 4.096 | ~16.000 caracteres | ~6 páginas |
| DeepSeek-67B | 8.192 | ~32.000 caracteres | ~12 páginas |
| DeepSeek Coder | 32.768 | ~131.000 caracteres | ~50 páginas |
DeepSeek é como aquele colega novo no trabalho que ainda está tentando provar seu valor — capacidades decentes, mas não está tentando quebrar recordes ainda.
Meta (LLaMA) - O Gigante Social entra na Festa
| Modelo | Tokens Máximos | Aproximadamente em Caracteres | Aproximadamente em Páginas de Livro |
|---|---|---|---|
| Llama 2 7B | 4.096 | ~16.000 caracteres | ~6 páginas |
| Llama 2 70B | 4.096 | ~16.000 caracteres | ~6 páginas |
| Llama 3 | 8.192 | ~32.000 caracteres | ~12 páginas |
A Meta/LLaMA parece ter uma filosofia de "tamanho não é documento" — seus modelos têm janelas menores, mas compensam com outras qualidades. Ou pelo menos é o que eles dizem quando o assunto é tamanho de janela. Mas recentemente eles lançaram modelos mais robustos, mas ainda não vi o tamanho da dessa janela.
Traduzindo para a vida real
O que esses números significam na prática? Vamos colocar em perspectiva:
- GPT-3.5 Turbo (16.385 tokens): Aproximadamente um artigo acadêmico de 20 páginas
- Claude 3 (200.000 tokens): Um romance de tamanho médio como "O Pequeno Príncipe" inteiro, mais algumas dissertações de mestrado para acompanhar
- Llama 2 (4.096 tokens): Mais ou menos este capítulo que você está lendo, se ele não tivesse sido escrito por alguém tão prolixo quanto eu
A Matemática Mágica
Uma regra geral: 1 token ≈ 4 caracteres em inglês, mas em português pode variar bastante devido à nossa tendência de inventar palavras gigantescas como "otorrinolaringologista" (que provavelmente vira uns 5 tokens, só porque pode). Pense na relação token-caractere como a relação entre o que você acha que comeu no rodízio e o que realmente comeu: é uma aproximação otimista, na melhor das hipóteses.
A janela de contexto é importante, mas não é tudo. Um modelo com janela enorme que dá respostas ruins é como um restaurante com porções gigantes de comida ruim — impressiona na quantidade, decepciona no resultado. No final, o melhor modelo é aquele que atende suas necessidades específicas. Se você precisa processar livros inteiros, talvez o Claude 3 seja seu companheiro ideal. Se está apenas conversando sobre o tempo, até o bom e velho GPT-3.5 Turbo dá conta do recado.
E lembre-se: não é o tamanho da janela que importa, mas sim o que você faz com os tokens dentro dela!