Minus

Cada modelo de IA tem um “limite de atenção”, ou seja, um número máximo de tokens que ele consegue processar de uma vez só. Quando esse limite é ultrapassado… bom, digamos que ele começa a esquecer o que você falou no começo da conversa. Tipo aquele amigo que diz “tô ouvindo” mas não consegue repetir uma palavra do que você falou. A IA não vê palavras do jeito que você vê. Ela transforma tudo em tokens — as menores unidades com significado útil para o modelo.

Mas afinal, o que é um token mesmo?

Pense em tokens como as sílabas para IA. Às vezes uma palavra inteira é um token, outras vezes uma palavra é quebrada em vários tokens como se fosse um adolescente tentando explicar por que chegou tarde em casa.

Em português, palavras comuns como "casa", "bola" ou "dado" geralmente são um único token. Já palavras mais rebuscadas como "inconstitucionalissimamente" viram uma festa de tokens — porque aparentemente até a IA fica sem fôlego com palavras grandes.

Os tokens também incluem pontuação, espaços e caracteres especiais. Sim, até aquela vírgula que você usa incorretamente merece seu próprio token! E não, a IA não julga sua gramática... pelo menos não abertamente.

Por que isso importa?

Porque tudo na vida tem limites, inclusive a paciência dos modelos de IA com seus textos gigantes. Cada modelo tem uma "janela de contexto" — o número máximo de tokens que consegue processar de uma vez.

É como a capacidade do seu cérebro de lembrar o que comeu no café da manhã de três semanas atrás: tem limite, e quando passa desse limite, coisas começam a ser esquecidas (geralmente as importantes).

A Competição de "Quem tem a Janela Maior"

OpenAI - Onde tudo começou (e continua indo)

Modelo	Tokens Máximos	Aproximadamente em Caracteres	Aproximadamente em Páginas de Livro
GPT-3.5 Turbo	16.385	~65.000 caracteres	~25 páginas
GPT-4	32.768	~131.000 caracteres	~50 páginas
GPT-4 Turbo	128.000	~512.000 caracteres	~200 páginas

O GPT-4 Turbo com seus 128.000 tokens é como aquela pessoa que consegue se lembrar do que todo mundo vestiu em cada episódio de todas as temporadas de Friends. Impressionante, mas você realmente precisa disso?

Anthropic - A Competição Amigável

Modelo	Tokens Máximos	Aproximadamente em Caracteres	Aproximadamente em Páginas de Livro
Claude 3 Haiku	200.000	~800.000 caracteres	~320 páginas
Claude 3 Sonnet	200.000	~800.000 caracteres	~320 páginas
Claude 3 Opus	200.000	~800.000 caracteres	~320 páginas

A Anthropic decidiu que todos os seus modelos Claude 3 teriam a mesma janela de contexto — uma abordagem igualitária. É como se todos os filhos recebessem a mesma mesada, independentemente de quem limpa mais o quarto.

DeepSeek - O Novo Jogador

Modelo	Tokens Máximos	Aproximadamente em Caracteres	Aproximadamente em Páginas de Livro
DeepSeek-7B	4.096	~16.000 caracteres	~6 páginas
DeepSeek-67B	8.192	~32.000 caracteres	~12 páginas
DeepSeek Coder	32.768	~131.000 caracteres	~50 páginas

DeepSeek é como aquele colega novo no trabalho que ainda está tentando provar seu valor — capacidades decentes, mas não está tentando quebrar recordes ainda.

Modelo	Tokens Máximos	Aproximadamente em Caracteres	Aproximadamente em Páginas de Livro
Llama 2 7B	4.096	~16.000 caracteres	~6 páginas
Llama 2 70B	4.096	~16.000 caracteres	~6 páginas
Llama 3	8.192	~32.000 caracteres	~12 páginas

A Meta/LLaMA parece ter uma filosofia de "tamanho não é documento" — seus modelos têm janelas menores, mas compensam com outras qualidades. Ou pelo menos é o que eles dizem quando o assunto é tamanho de janela. Mas recentemente eles lançaram modelos mais robustos, mas ainda não vi o tamanho da dessa janela.

Traduzindo para a vida real

O que esses números significam na prática? Vamos colocar em perspectiva:

GPT-3.5 Turbo (16.385 tokens): Aproximadamente um artigo acadêmico de 20 páginas
Claude 3 (200.000 tokens): Um romance de tamanho médio como "O Pequeno Príncipe" inteiro, mais algumas dissertações de mestrado para acompanhar
Llama 2 (4.096 tokens): Mais ou menos este capítulo que você está lendo, se ele não tivesse sido escrito por alguém tão prolixo quanto eu

A Matemática Mágica

Uma regra geral: 1 token ≈ 4 caracteres em inglês, mas em português pode variar bastante devido à nossa tendência de inventar palavras gigantescas como "otorrinolaringologista" (que provavelmente vira uns 5 tokens, só porque pode). Pense na relação token-caractere como a relação entre o que você acha que comeu no rodízio e o que realmente comeu: é uma aproximação otimista, na melhor das hipóteses.

A janela de contexto é importante, mas não é tudo. Um modelo com janela enorme que dá respostas ruins é como um restaurante com porções gigantes de comida ruim — impressiona na quantidade, decepciona no resultado. No final, o melhor modelo é aquele que atende suas necessidades específicas. Se você precisa processar livros inteiros, talvez o Claude 3 seja seu companheiro ideal. Se está apenas conversando sobre o tempo, até o bom e velho GPT-3.5 Turbo dá conta do recado.

E lembre-se: não é o tamanho da janela que importa, mas sim o que você faz com os tokens dentro dela!

Mas afinal, o que é um token mesmo? ​

Por que isso importa? ​

A Competição de "Quem tem a Janela Maior" ​

OpenAI - Onde tudo começou (e continua indo) ​

Anthropic - A Competição Amigável ​

DeepSeek - O Novo Jogador ​

Meta (LLaMA) - O Gigante Social entra na Festa ​

Traduzindo para a vida real ​

A Matemática Mágica ​