Rodando IA Localmente: O Guia Definitivo para Começar com Ollama

O Ollama é uma ferramenta que permite executar e gerenciar modelos de LLM localmente de forma simples. Diferente do Hugging Face, onde é necessário instalar dependências como Python, TensorFlow ou Torch para realizar a inferência de modelos pré-treinados, o Ollama adota uma abordagem mais direta: você simplesmente baixa e executa os modelos via linha de comando.

O que é um modelo de LLM

Um modelo de LLM, no contexto do Ollama, consiste em um grande arquivo binário que contém os pesos — parâmetros de treinamento da rede neural — e os dados necessários para que o modelo funcione. Além disso, inclui metadados sobre o próprio modelo, como nome, arquitetura, tamanho do contexto, licença etc.

Componentes do Ollama

Ao instalar o Ollama na sua máquina local, você obtém:

  • Uma interface de linha de comando intuitiva muito parecida com o Docker CLI, para gerenciar e executar os modelos.
  • Todas as dependências necessárias para executar os modelos com CPU (para otimizações de GPU/NPU, pode ser necessário instalar dependências adicionais).
  • Um repositório onde os usuários podem baixar modelos ou enviar seus próprios modelos customizados.
  • Uma API Web que permite integrar aplicações via chamadas REST.
  • Funcionalidade de personalização simples através de Modelfile.

Instalando o Ollama

O Ollama está disponível para Windows, Linux e macOS. Basta acessar o link “Download Ollama“, escolher a versão para o seu sistema operacional e instalar.

Página de download do Ollama
Página de download do Ollama

Ollama Library

O Ollama Library é o repositório de modelos do Ollama. Ele funciona como um ponto central onde são listados todos os modelos disponíveis, que podem ser baixados e executados.

Você pode interagir com o Ollama Library através no endereço: https://ollama.com/search ou https://ollama.com/library.

Biblioteca de modelos do Ollama
Repositório de modelos do Ollama

Cada modelo tem um nome, uma descrição e um conjunto de tags que ajudam a organizar e identificar as versões. No exemplo da imagem, temos o deepseek-r1 com 1.5b, 7b, 8b, etc. A letra “b” indica bilhões de parâmetros.

Em tese, quanto mais parâmetros, mais refinadas e precisas são as respostas desses modelos, além de ajudar a manter a consistência durante interações mais longas. No entanto, quanto maior o número de parâmetros, maior será o tempo de inferência e o consumo de recursos.

Na documentação do Ollama, a estimativa é de que você deve ter ao menos 8 GB de RAM disponível para executar modelos de 7B, 16 GB para executar modelos de 13B e 32 GB para rodar modelos de 33B.

Inferência é quando o modelo executa sua tarefa final, como gerar texto, por exemplo. A inferência se distingue da etapa de treinamento, que é quando os parâmetros são ajustados com base nos dados de treinamento.

Escolhendo um modelo de LLM

Para os exemplos deste tutorial, eu escolhi o Llama 3.2. O Llama é um modelo desenvolvido pela Meta com foco em tarefas de processamento de linguagem natural, como geração de texto e perguntas e respostas. Ele foi projetado para ser eficiente e funcionar bem em vários idiomas. Eu escolhi a opção com 1 bilhão de parâmetros.

Llama 3.2
Llama 3.2

Executando o modelo

  1. Com o Ollama devidamente instalado no seu sistema, abra o terminal de sua preferência.
  2. Copie o comando ollama run llama3.2:1b e cole no terminal.
  3. Execute e aguarde o download.
Executando o Llama 3.2
Executando o Llama 3.2

O Ollama tenta obter o modelo llama3.1:1b localmente. Se não encontrar, ele tenta baixar o modelo do repositório. Se encontrar um modelo com esse nome, faz o download e, em seguida, inicia o prompt para interação.

Llama 3.2 falando algumas línguas
Llama 3.2 falando algumas línguas

Não confunda o Ollama com o Llama. O Ollama é a ferramenta que estamos usando para facilitar o gerenciamento e a execução de modelos de LLM localmente. Llama é um modelo de LLM open-source desenvolvido pela Meta.

Interagindo com o modelo

O símbolo >>> indica que o modelo está esperando uma entrada do usuário. Você pode enviar uma mensagem, fazer alguma pergunta ou observação. O modelo irá avaliar o prompt e entregar uma resposta.

Comando de barra

Existe um conjunto de mensagens especiais que você pode enviar usando a barra /. Essas mensagens não são avaliadas pelo modelo, mas são interceptadas pelo Ollama para realizar alguma ação.

A seguir uma lista com alguns desses comandos:

  • Digite /? para exibir a ajuda.
  • Digite /bye para sair da sessão atual e voltar ao terminal.
  • Digite /clear para limpar o contexto da sessão.

Existem outros comandos de barra mais avançados que falaremos mais adiante. Por ora, digite o comando /bye para sair da sessão atual e voltar para o terminal.

Ollama CLI

O coração do Ollama está na sua interface de linha de comando (CLI). Ela permite gerenciar modelos de LLM de forma extremamente simples. Aprendendo quatro ou cinco comandos, você domina praticamente todo o uso básico da ferramenta.

Listando os modelos no Ollama

Você pode listar os modelos já baixados com o comando ollama list ou listar apenas os modelos em execução com o comando ollama ps.

Lista de modelos baixados
Lista de modelos baixados

Baixando modelos com o Ollama

Existem duas formas de baixar modelos com o Ollama. Você pode usar o comando ollama pull <nome modelo> para baixar um modelo sem executá-lo. Ou pode usar o comando ollama run <nome modelo>; nesse caso, ele vai baixar o modelo e iniciar o prompt para interação.

Exemplo de uso do comando ollama pull
Exemplo de uso do comando ollama pull

A lista de modelos disponíveis pode ser encontrada no Ollama Library.

Executando um modelo

Para executar um modelo, você pode usar o comando ollama run <nome modelo>. No exemplo a seguir, estou executando o modelo llama3.2:1b.

Exemplo de uso do comando ollama run
Exemplo de uso do comando ollama run

Uma coisa a ter em mente é que, sempre que você executa um modelo através do comando run, como ollama run llama3.2:1b, é criado um novo contexto de sessão e as interações anteriores são perdidas.

O comando /save

Se você quiser manter o contexto da sessão atual, basta salvar esse contexto com o comando /save. Esse comando deve ser executado dentro do contexto do modelo em execução, seguido do nome que você deseja usar como identificador. O contexto será salvo como um novo modelo.

No exemplo a seguir, estou salvando o contexto de uma conversa com o Llama e o chamei de “snake-game”.

Comando /save
Comando /save

Se você executar o comando ollama list, verá um modelo chamado “snake-game” e, ao executá-lo, terá todo o contexto da conversa.

Encerrar um modelo

Para desligar o modelo, você usa o comando ollama stop <nome modelo>. O comando ollama stop encerra o modelo e libera os recursos, como a memória usada para mantê-lo em execução.

No exemplo a seguir, estou encerrando o modelo “snake-game” com o comando ollama stop snake-game.

Encerrando a execução de um modelo
Encerrando a execução de um modelo

Excluindo um modelo

Se você quiser excluir o modelo completamente e liberar o espaço em disco, use o comando ollama rm <nome do modelo>. No exemplo a seguir, eu estou removendo o modelo “snake-game”. *A exclusão do modelo é permanente, se precisar executar o modelo novamente será necessário baixá-lo.

Removendo um modelo
Removendo um modelo

Esses são os comandos básicos para usar o Ollama. Em breve, publicarei novos artigos demonstrando como usar a interface gráfica, customizar modelos com o Modelfile e como utilizar a API Web do Ollama.

Ollama Cheat Sheet

  • ollama pull <nome modelo>: Baixa o modelo especificado.
  • ollama run <nome modelo>: Executa modelos já baixados ou busca esse modelos no Ollama Library.
  • llama list: Lista os modelos disponíveis localmente.
  • ollama ps: Lista os modelos em execução
  • ollama stop <nome modelo>: Encerra o modelo e libera memória.
  • ollama rm <nome modelo>: Exclui o modelo e limpa espaço em disco.
  • /bye: Sai da sessão atual de conversa com o modelo.
  • /save <nome>: Salvar o contexto da sessão atual como um modelo.

Comments (1)