Skip to content

Cada modelo de IA tem um “limite de atenção”, ou seja, um número máximo de tokens que ele consegue processar de uma vez só. Quando esse limite é ultrapassado… bom, digamos que ele começa a esquecer o que você falou no começo da conversa. Tipo aquele amigo que diz “tô ouvindo” mas não consegue repetir uma palavra do que você falou. A IA não vê palavras do jeito que você vê. Ela transforma tudo em tokens — as menores unidades com significado útil para o modelo.

Mas afinal, o que é um token mesmo?

Pense em tokens como as sílabas para IA. Às vezes uma palavra inteira é um token, outras vezes uma palavra é quebrada em vários tokens como se fosse um adolescente tentando explicar por que chegou tarde em casa.

Em português, palavras comuns como "casa", "bola" ou "dado" geralmente são um único token. Já palavras mais rebuscadas como "inconstitucionalissimamente" viram uma festa de tokens — porque aparentemente até a IA fica sem fôlego com palavras grandes.

Os tokens também incluem pontuação, espaços e caracteres especiais. Sim, até aquela vírgula que você usa incorretamente merece seu próprio token! E não, a IA não julga sua gramática... pelo menos não abertamente.

Por que isso importa?

Porque tudo na vida tem limites, inclusive a paciência dos modelos de IA com seus textos gigantes. Cada modelo tem uma "janela de contexto" — o número máximo de tokens que consegue processar de uma vez.

É como a capacidade do seu cérebro de lembrar o que comeu no café da manhã de três semanas atrás: tem limite, e quando passa desse limite, coisas começam a ser esquecidas (geralmente as importantes).

A Competição de "Quem tem a Janela Maior"

OpenAI - Onde tudo começou (e continua indo)

ModeloTokens MáximosAproximadamente em CaracteresAproximadamente em Páginas de Livro
GPT-3.5 Turbo16.385~65.000 caracteres~25 páginas
GPT-432.768~131.000 caracteres~50 páginas
GPT-4 Turbo128.000~512.000 caracteres~200 páginas

O GPT-4 Turbo com seus 128.000 tokens é como aquela pessoa que consegue se lembrar do que todo mundo vestiu em cada episódio de todas as temporadas de Friends. Impressionante, mas você realmente precisa disso?

Anthropic - A Competição Amigável

ModeloTokens MáximosAproximadamente em CaracteresAproximadamente em Páginas de Livro
Claude 3 Haiku200.000~800.000 caracteres~320 páginas
Claude 3 Sonnet200.000~800.000 caracteres~320 páginas
Claude 3 Opus200.000~800.000 caracteres~320 páginas

A Anthropic decidiu que todos os seus modelos Claude 3 teriam a mesma janela de contexto — uma abordagem igualitária. É como se todos os filhos recebessem a mesma mesada, independentemente de quem limpa mais o quarto.

DeepSeek - O Novo Jogador

ModeloTokens MáximosAproximadamente em CaracteresAproximadamente em Páginas de Livro
DeepSeek-7B4.096~16.000 caracteres~6 páginas
DeepSeek-67B8.192~32.000 caracteres~12 páginas
DeepSeek Coder32.768~131.000 caracteres~50 páginas

DeepSeek é como aquele colega novo no trabalho que ainda está tentando provar seu valor — capacidades decentes, mas não está tentando quebrar recordes ainda.

Meta (LLaMA) - O Gigante Social entra na Festa

ModeloTokens MáximosAproximadamente em CaracteresAproximadamente em Páginas de Livro
Llama 2 7B4.096~16.000 caracteres~6 páginas
Llama 2 70B4.096~16.000 caracteres~6 páginas
Llama 38.192~32.000 caracteres~12 páginas

A Meta/LLaMA parece ter uma filosofia de "tamanho não é documento" — seus modelos têm janelas menores, mas compensam com outras qualidades. Ou pelo menos é o que eles dizem quando o assunto é tamanho de janela. Mas recentemente eles lançaram modelos mais robustos, mas ainda não vi o tamanho da dessa janela.

Traduzindo para a vida real

O que esses números significam na prática? Vamos colocar em perspectiva:

  • GPT-3.5 Turbo (16.385 tokens): Aproximadamente um artigo acadêmico de 20 páginas
  • Claude 3 (200.000 tokens): Um romance de tamanho médio como "O Pequeno Príncipe" inteiro, mais algumas dissertações de mestrado para acompanhar
  • Llama 2 (4.096 tokens): Mais ou menos este capítulo que você está lendo, se ele não tivesse sido escrito por alguém tão prolixo quanto eu

A Matemática Mágica

Uma regra geral: 1 token ≈ 4 caracteres em inglês, mas em português pode variar bastante devido à nossa tendência de inventar palavras gigantescas como "otorrinolaringologista" (que provavelmente vira uns 5 tokens, só porque pode). Pense na relação token-caractere como a relação entre o que você acha que comeu no rodízio e o que realmente comeu: é uma aproximação otimista, na melhor das hipóteses.

A janela de contexto é importante, mas não é tudo. Um modelo com janela enorme que dá respostas ruins é como um restaurante com porções gigantes de comida ruim — impressiona na quantidade, decepciona no resultado. No final, o melhor modelo é aquele que atende suas necessidades específicas. Se você precisa processar livros inteiros, talvez o Claude 3 seja seu companheiro ideal. Se está apenas conversando sobre o tempo, até o bom e velho GPT-3.5 Turbo dá conta do recado.

E lembre-se: não é o tamanho da janela que importa, mas sim o que você faz com os tokens dentro dela!